CN111522815A - 一种企业基本信息入库的方法 - Google Patents
一种企业基本信息入库的方法 Download PDFInfo
- Publication number
- CN111522815A CN111522815A CN202010293343.7A CN202010293343A CN111522815A CN 111522815 A CN111522815 A CN 111522815A CN 202010293343 A CN202010293343 A CN 202010293343A CN 111522815 A CN111522815 A CN 111522815A
- Authority
- CN
- China
- Prior art keywords
- file
- csv
- excel
- files
- folder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据分析处理技术、企业数据领域,具体提供了一种企业基本信息入库的方法。与现有技术相比,本发明的一种企业基本信息入库的方法,包括如下步骤,a、找到所有需要转移至ORACLE数据库的EXCEL文件;b、将所有EXCEL文件转换为CSV文件;c、合并CSV文件;d、检查并修改CSV文件编码;e、使用KETTLE的转换转移入库。本发明能够有效的提高数据转移的效率,并且有效避免由于编码问题造成的转移质量问题的发生,具有良好的推广价值。
Description
技术领域
本发明涉及大数据分析处理技术、企业数据应用领域,具体提供。
背景技术
数据处理是对数据的采集、存储、传输,加工、检索和变换,是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节,贯穿于社会生产和社会生活的各个领域。
数据处理首先要保证数据的正常传输。近年来由于政府的支持,以及天眼查、企查查、启信宝等前沿企业大数据公司的推动,企业大数据行业得到蓬勃发展。对企业大数据的处理过程中,经常会遇到大批量数据转移的情况,比如:将分省分行业存储在EXCEL的全国所有企业的基本信息转移至ORACLE数据库。这类企业信息的处理是所有企业数据产品制作,企业数据分析的前提。
直接利用PLSQL、KETTLE等软件导入EXCEL数据比较容易,而全国的企业基本信息数据量太大,直接用软件导入对网络的要求高,除了要耗费大量的时间整理。导入之外,还需要注意字符编码的问题,往往很难高效完成大批量EXCEL数据表的导入。目前我们尚未看到比较完善的EXCEL数据表转移至ORACLE数据库的技术。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的企业基本信息入库的方法。
本发明解决其技术问题所采用的技术方案是:
一种企业基本信息入库的方法,包括如下步骤,
a、找到所有需要转移至ORACLE数据库的EXCEL文件;
b、将所有EXCEL文件转换为CSV文件;
c、合并CSV文件;
d、检查并修改CSV文件编码;
e、使用KETTLE的转换转移入库。
进一步的,在步骤b中,直接使用python编程,将所有的EXCEL文件转化为CSV文件。
进一步的,导入python处理包,编写脚本的基础准备工作,更改python使用的字符集,找到某一文件夹下的所有文件,并将文件名称返回;
读取指定excel文件的第1个sheet页,并将字段经营范围中包含的英文逗号全部替换为中文句号,将指定文件转换为csv的形式,并将输出格式设置为utf-8,将文件夹的地址保存在变量path中,对path使用之前定义的函数next_page,定义一个空的列表,循环调用指定文件夹里的excel文件,在第10列之前插入一列,在插入的列中填入行业信息,循环完成提醒。
进一步的,在步骤c中,直接使用cmd命令完成合并CSV文件。
进一步的,使用cmd命令时,首先找到对应的文件夹地址,然后,指定具体代码,copy*.csv as new.csv,其中,‘new’是新的csv文件的文件名。
作为优选,使用cmd命令时,具体的操作过程为,将文件夹的地址保存在变量path中,对path使用之前定义的函数next_page,循环调用指定文件夹的excel文件,记录指定excel文件的地址信息,修改地址信息后缀名,创建导出excel的地址信息,执行命令将excel转换为csv,输出转换不成功的文件,循环完成后提醒。
进一步的,在步骤d中,下载一个UE编辑器,使用UE编辑器打开文件之后,首先检验数据字段的对应问题和文件数据量是否准确的问题,若有问题,则需重新制造csv文件;若没有问题,则统一修改文件的存储编码为ANSI/ASCII。
进一步的,在步骤e中,首先,需要在ORACLE数据库中建好对应的表格,用于转移后的数据库存储;然后,建立kettle的转化,此转换主要分为两步,CSV文件输入和表输出;
CSV文件输入只需要找到对应CSV文件的位置,导入文件然后预览字段效果;表输出需要连接对应的ORACLE数据库,并且将CSV文件的字段与数据库表字段逐一对应;最后,执行kettle进行数据转移即可。
本发明的企业基本信息入库的方法和现有技术相比,具有以下突出的有益效果:
本发明提供的一种企业基本信息入库的方法,对于需要转移大批量EXCEL数据表格至ORACLE数据库的任务,可以使用本系统进行数据转移,能够有效的提高数据转移的效率,并且有效避免由于编码问题造成的转移质量问题的发生,具有良好的推广价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种企业基本信息入库的方法的流程图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的企业基本信息入库的方法,以注册日期截止至2019年3月的全国企业基本信息为例,粗略估计,截止2019年3月,全国共有6千万家在营企业单位。将这些企业按照31个省级区划,(不含港澳台),20个国民经济行业门类,分别存至EXCEL表中,且每个EXCEL表至多保存5000条数据,大约得到10000个EXCEL表。
如果将excel文件直接导入或者使用软件逐一导入解决十分费时,并且还会经常遇到字符编码报错的问题。原因是有些ORACLE数据库的数据编码并非是UTF-8,而是各类GBK编码,这就会导致,有些字符GBK编码本身就无法识别,录入中断。并且,由于处理的数据量过于大,有些无法识别的字符不能够逐一找出或忽略。这类问题在EXCEL数据转移的过程中比较常见,使用python编程将EXCEL文件转换为CSV文件能够有效避免这些问题。
转化10000个EXCEL文件之后,就会得到相应数量的10000个CSV文件,并且这些CSV文件应该是按照分省份分行业归集好在同一个文件夹中的。这样10000个CSV文件如果逐一解决编码问题,然后再导入倒数据库也是十分繁琐的。因此,需要按照特定的条件,将所有行业的CSV文件合并为一个文件。这种合并直接使用cmd命令完成CSV文件合并,首先需要找到对应的文件夹地址,然后指定具体代码:copy*.csv as new.csv,其中‘new’是新的csv文件的文件名。
具体的操作过程为:导入python处理包,编写脚本的基础准备工作,更改python使用的字符集,找到某一文件夹下的所有文件,并将文件名称返回。
读取指定excel文件的第1个sheet页,并将字段经营范围中包含的英文逗号全部替换为中文句号,将指定文件转换为csv的形式,并将输出格式设置为utf-8,将文件夹的地址保存在变量path中,对path使用之前定义的函数next_page,定义一个空的列表,循环调用指定文件夹里的excel文件,在第10列之前插入一列,在插入的列中填入行业信息,循环完成提醒。
将文件夹的地址保存在变量path中,对path使用之前定义的函数next_page,循环调用指定文件夹的excel文件,记录指定excel文件的地址信息,修改地址信息后缀名,创建导出excel的地址信息,执行命令将excel转换为csv,输出转换不成功的文件,循环完成后提醒。
每个省会合并而成的CSV文件可能会是一个很大的文件,这样大的CSV文件一般的编辑器无法打开,也无法转换修改编码,这就会为修改字符编码制造了难度。这时就需要下载一个UE编辑器,使用UE编辑器打开文件之后,首先检验数据字段的对应问题和文件数据量是否准确的问题,若有问题,则需重新制造csv文件;若没有问题,则统一修改文件的存储编码为ANSI/ASCII,完成检查并修改CSV文件编码。
执行kettle进行数据转移时,首先,需要在ORACLE数据库中建好对应的表格,用于转移后的数据库存储;然后,建立kettle的转化,此转换主要分为两步,CSV文件输入和表输出。
CSV文件输入只需要找到对应CSV文件的位置,导入文件然后预览字段效果;表输出需要连接对应的ORACLE数据库,并且将CSV文件的字段与数据库表字段逐一对应。
将所有EXCEL文件转换为CSV文件,然后合并CSV文件时,具体的操作代码为:
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的企业基本信息入库的方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种企业基本信息入库的方法,其特征在于,包括如下步骤,
a、找到所有需要转移至ORACLE数据库的EXCEL文件;
b、将所有EXCEL文件转换为CSV文件;
c、合并CSV文件;
d、检查并修改CSV文件编码;
e、使用KETTLE的转换转移入库。
2.根据权利要求1所述的一种企业基本信息入库方法,其特征在于,在步骤b中,直接使用python编程,将所有的EXCEL文件转化为CSV文件。
3.根据权利要求2所述的一种企业基本信息入库方法,其特征在于,导入python处理包,编写脚本的基础准备工作,更改python使用的字符集,找到某一文件夹下的所有文件,并将文件名称返回;
读取指定excel文件的第1个sheet页,并将字段经营范围中包含的英文逗号全部替换为中文句号,将指定文件转换为csv的形式,并将输出格式设置为utf-8,将文件夹的地址保存在变量path中,对path使用之前定义的函数next_page,定义一个空的列表,循环调用指定文件夹里的excel文件,在第10列之前插入一列,在插入的列中填入行业信息,循环完成提醒。
4.根据权利要求1所述的一种企业基本信息入库方法,其特征在于,在步骤c中,直接使用cmd命令完成合并CSV文件。
5.根据权利要求4所述的一种企业基本信息入库方法,其特征在于,使用cmd命令时,首先找到对应的文件夹地址,然后,指定具体代码,copy*.csv as new.csv,其中,‘new’是新的csv文件的文件名。
6.根据权利要求5所述的一种企业基本信息入库方法,其特征在于,使用cmd命令时,具体的操作过程为,将文件夹的地址保存在变量path中,对path使用之前定义的函数next_page,循环调用指定文件夹的excel文件,记录指定excel文件的地址信息,修改地址信息后缀名,创建导出excel的地址信息,执行命令将excel转换为csv,输出转换不成功的文件,循环完成后提醒。
7.根据权利要求1所述的一种企业基本信息入库方法,其特征在于,在步骤d中,下载一个UE编辑器,使用UE编辑器打开文件之后,首先检验数据字段的对应问题和文件数据量是否准确的问题,若有问题,则需重新制造csv文件;若没有问题,则统一修改文件的存储编码为ANSI/ASCII。
8.根据权利要求1所述的一种企业基本信息入库方法,其特征在于,在步骤e中,首先,需要在ORACLE数据库中建好对应的表格,用于转移后的数据库存储;然后,建立kettle的转化,此转换主要分为两步,CSV文件输入和表输出;
CSV文件输入只需要找到对应CSV文件的位置,导入文件然后预览字段效果;表输出需要连接对应的ORACLE数据库,并且将CSV文件的字段与数据库表字段逐一对应;最后,执行kettle进行数据转移即可。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293343.7A CN111522815A (zh) | 2020-04-15 | 2020-04-15 | 一种企业基本信息入库的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293343.7A CN111522815A (zh) | 2020-04-15 | 2020-04-15 | 一种企业基本信息入库的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111522815A true CN111522815A (zh) | 2020-08-11 |
Family
ID=71902598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010293343.7A Pending CN111522815A (zh) | 2020-04-15 | 2020-04-15 | 一种企业基本信息入库的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111522815A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632123A (zh) * | 2020-12-18 | 2021-04-09 | 甘肃恒石公路检测科技有限公司 | 一种基于nifi技术实现公路技术状况评定系统数据智能化入库的方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719126A (zh) * | 2009-12-07 | 2010-06-02 | 中国科学院新疆生态与地理研究所 | 地质矿产空间数据的快速转换技术方法 |
US20120089562A1 (en) * | 2010-10-04 | 2012-04-12 | Sempras Software, Inc. | Methods and Apparatus for Integrated Management of Structured Data From Various Sources and Having Various Formats |
CN108182963A (zh) * | 2017-12-14 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种医疗数据处理方法及装置 |
CN108829376A (zh) * | 2018-04-11 | 2018-11-16 | 国家电网公司 | 一种基于综合诊断平台的调度主站系统的运行监测系统 |
US20190163684A1 (en) * | 2017-11-30 | 2019-05-30 | Craig Hurlbut | Method and system for converting data into a software application compatible format |
CN110377651A (zh) * | 2019-06-20 | 2019-10-25 | 平安科技(深圳)有限公司 | 批量数据的处理方法、装置、设备及存储介质 |
CN110442651A (zh) * | 2019-08-13 | 2019-11-12 | 焦点科技股份有限公司 | 一种基于kettle实现excel数据自动上传并触发调度的方法 |
CN110704325A (zh) * | 2019-10-09 | 2020-01-17 | 京东数字科技控股有限公司 | 数据处理方法及装置、计算机存储介质及电子设备 |
CN110941593A (zh) * | 2019-12-03 | 2020-03-31 | 浪潮卓数大数据产业发展有限公司 | 一种文件入库系统及方法 |
-
2020
- 2020-04-15 CN CN202010293343.7A patent/CN111522815A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101719126A (zh) * | 2009-12-07 | 2010-06-02 | 中国科学院新疆生态与地理研究所 | 地质矿产空间数据的快速转换技术方法 |
US20120089562A1 (en) * | 2010-10-04 | 2012-04-12 | Sempras Software, Inc. | Methods and Apparatus for Integrated Management of Structured Data From Various Sources and Having Various Formats |
US20190163684A1 (en) * | 2017-11-30 | 2019-05-30 | Craig Hurlbut | Method and system for converting data into a software application compatible format |
CN108182963A (zh) * | 2017-12-14 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种医疗数据处理方法及装置 |
CN108829376A (zh) * | 2018-04-11 | 2018-11-16 | 国家电网公司 | 一种基于综合诊断平台的调度主站系统的运行监测系统 |
CN110377651A (zh) * | 2019-06-20 | 2019-10-25 | 平安科技(深圳)有限公司 | 批量数据的处理方法、装置、设备及存储介质 |
CN110442651A (zh) * | 2019-08-13 | 2019-11-12 | 焦点科技股份有限公司 | 一种基于kettle实现excel数据自动上传并触发调度的方法 |
CN110704325A (zh) * | 2019-10-09 | 2020-01-17 | 京东数字科技控股有限公司 | 数据处理方法及装置、计算机存储介质及电子设备 |
CN110941593A (zh) * | 2019-12-03 | 2020-03-31 | 浪潮卓数大数据产业发展有限公司 | 一种文件入库系统及方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632123A (zh) * | 2020-12-18 | 2021-04-09 | 甘肃恒石公路检测科技有限公司 | 一种基于nifi技术实现公路技术状况评定系统数据智能化入库的方法 |
CN112632123B (zh) * | 2020-12-18 | 2021-08-17 | 甘肃恒石公路检测科技有限公司 | 一种基于nifi技术实现公路技术状况评定系统数据智能化入库的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5710917A (en) | Method for deriving data mappings and data aliases | |
US20050234843A1 (en) | Computer program for storing electronic files and associated attachments in a single searchable database | |
CN106844307B (zh) | 一种基于标记实现Excel转Word的系统及方法 | |
CN102110123B (zh) | 倒排索引建立方法 | |
CN105975446A (zh) | 手机端分模块显示word文档内容的方法及系统 | |
WO2006136055A1 (fr) | Procédé d'exploration de données texte | |
CN112667563A (zh) | 一种文档管理及操作方法和系统 | |
CN115221143A (zh) | 一种跨类型迁移的算子化多源大数据处理方法 | |
CN111522815A (zh) | 一种企业基本信息入库的方法 | |
CN111898351B (zh) | 基于Aviator的Excel数据自动导入方法、装置、终端设备及存储介质 | |
CN104679736A (zh) | 一种能够统计低错的翻译系统 | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
CN112214494B (zh) | 检索方法及装置 | |
CN115294586A (zh) | 一种识别发票的方法、装置、存储介质及电子设备 | |
CN114138735A (zh) | 一种Janusgraph数据快速批量装载的方法 | |
CN113988003A (zh) | Excel文件多个sheet内容按照指定配置自定义定向解析的方法 | |
CN113157642A (zh) | 一种实现电子材料数字化流程自动化的方法 | |
CN114118026A (zh) | 文档自动化生成方法、装置及计算机存储介质、电子设备 | |
CN111143450A (zh) | 导入数据的方法和装置 | |
KR100447247B1 (ko) | 워드프로세서를 이용한 문서작성 및 보존 방법 | |
Li et al. | Study on efficiency of full-text retrieval based on lucene | |
CN114490672B (zh) | 一种表格数据输入处理方法、装置及存储介质 | |
CN110968634B (zh) | 大数据场景下基于xml描述实现利用可编程函数式进行etl转换处理的方法 | |
CN117971819B (zh) | 自动汇集流水数据的管理方法与系统 | |
CN116976302A (zh) | 一种办理政务服务业务时智能生成文书的方法及插件 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |