CN111522815A

CN111522815A - 一种企业基本信息入库的方法

Info

Publication number: CN111522815A
Application number: CN202010293343.7A
Authority: CN
Inventors: 李欣阳
Original assignee: Shandong ICity Information Technology Co., Ltd.
Current assignee: Shandong ICity Information Technology Co., Ltd.
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-11

Abstract

本发明涉及大数据分析处理技术、企业数据领域，具体提供了一种企业基本信息入库的方法。与现有技术相比，本发明的一种企业基本信息入库的方法，包括如下步骤,a、找到所有需要转移至ORACLE数据库的EXCEL文件；b、将所有EXCEL文件转换为CSV文件；c、合并CSV文件；d、检查并修改CSV文件编码；e、使用KETTLE的转换转移入库。本发明能够有效的提高数据转移的效率，并且有效避免由于编码问题造成的转移质量问题的发生，具有良好的推广价值。

Description

一种企业基本信息入库的方法

技术领域

本发明涉及大数据分析处理技术、企业数据应用领域，具体提供。

背景技术

数据处理是对数据的采集、存储、传输，加工、检索和变换，是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是系统工程和自动控制的基本环节，贯穿于社会生产和社会生活的各个领域。

数据处理首先要保证数据的正常传输。近年来由于政府的支持，以及天眼查、企查查、启信宝等前沿企业大数据公司的推动，企业大数据行业得到蓬勃发展。对企业大数据的处理过程中，经常会遇到大批量数据转移的情况，比如：将分省分行业存储在EXCEL的全国所有企业的基本信息转移至ORACLE数据库。这类企业信息的处理是所有企业数据产品制作，企业数据分析的前提。

直接利用PLSQL、KETTLE等软件导入EXCEL数据比较容易，而全国的企业基本信息数据量太大，直接用软件导入对网络的要求高，除了要耗费大量的时间整理。导入之外，还需要注意字符编码的问题，往往很难高效完成大批量EXCEL数据表的导入。目前我们尚未看到比较完善的EXCEL数据表转移至ORACLE数据库的技术。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的企业基本信息入库的方法。

本发明解决其技术问题所采用的技术方案是：

一种企业基本信息入库的方法，包括如下步骤,

a、找到所有需要转移至ORACLE数据库的EXCEL文件；

b、将所有EXCEL文件转换为CSV文件；

c、合并CSV文件；

d、检查并修改CSV文件编码；

e、使用KETTLE的转换转移入库。

进一步的，在步骤b中，直接使用python编程，将所有的EXCEL文件转化为CSV文件。

进一步的，导入python处理包，编写脚本的基础准备工作，更改python使用的字符集，找到某一文件夹下的所有文件，并将文件名称返回；

读取指定excel文件的第1个sheet页，并将字段经营范围中包含的英文逗号全部替换为中文句号，将指定文件转换为csv的形式，并将输出格式设置为utf-8，将文件夹的地址保存在变量path中，对path使用之前定义的函数next_page，定义一个空的列表，循环调用指定文件夹里的excel文件，在第10列之前插入一列，在插入的列中填入行业信息，循环完成提醒。

进一步的，在步骤c中，直接使用cmd命令完成合并CSV文件。

进一步的，使用cmd命令时，首先找到对应的文件夹地址，然后，指定具体代码，copy*.csv as new.csv，其中，‘new’是新的csv文件的文件名。

作为优选，使用cmd命令时，具体的操作过程为，将文件夹的地址保存在变量path中，对path使用之前定义的函数next_page，循环调用指定文件夹的excel文件，记录指定excel文件的地址信息，修改地址信息后缀名，创建导出excel的地址信息，执行命令将excel转换为csv，输出转换不成功的文件，循环完成后提醒。

进一步的，在步骤d中，下载一个UE编辑器，使用UE编辑器打开文件之后，首先检验数据字段的对应问题和文件数据量是否准确的问题，若有问题，则需重新制造csv文件；若没有问题，则统一修改文件的存储编码为ANSI/ASCII。

进一步的，在步骤e中，首先，需要在ORACLE数据库中建好对应的表格，用于转移后的数据库存储；然后，建立kettle的转化，此转换主要分为两步，CSV文件输入和表输出；

CSV文件输入只需要找到对应CSV文件的位置，导入文件然后预览字段效果；表输出需要连接对应的ORACLE数据库，并且将CSV文件的字段与数据库表字段逐一对应；最后，执行kettle进行数据转移即可。

本发明的企业基本信息入库的方法和现有技术相比，具有以下突出的有益效果：

本发明提供的一种企业基本信息入库的方法，对于需要转移大批量EXCEL数据表格至ORACLE数据库的任务，可以使用本系统进行数据转移，能够有效的提高数据转移的效率，并且有效避免由于编码问题造成的转移质量问题的发生，具有良好的推广价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种企业基本信息入库的方法的流程图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1所示，本实施例中的企业基本信息入库的方法，以注册日期截止至2019年3月的全国企业基本信息为例，粗略估计，截止2019年3月，全国共有6千万家在营企业单位。将这些企业按照31个省级区划，(不含港澳台)，20个国民经济行业门类，分别存至EXCEL表中，且每个EXCEL表至多保存5000条数据，大约得到10000个EXCEL表。

如果将excel文件直接导入或者使用软件逐一导入解决十分费时,并且还会经常遇到字符编码报错的问题。原因是有些ORACLE数据库的数据编码并非是UTF-8，而是各类GBK编码，这就会导致，有些字符GBK编码本身就无法识别，录入中断。并且，由于处理的数据量过于大，有些无法识别的字符不能够逐一找出或忽略。这类问题在EXCEL数据转移的过程中比较常见，使用python编程将EXCEL文件转换为CSV文件能够有效避免这些问题。

转化10000个EXCEL文件之后，就会得到相应数量的10000个CSV文件，并且这些CSV文件应该是按照分省份分行业归集好在同一个文件夹中的。这样10000个CSV文件如果逐一解决编码问题，然后再导入倒数据库也是十分繁琐的。因此，需要按照特定的条件，将所有行业的CSV文件合并为一个文件。这种合并直接使用cmd命令完成CSV文件合并，首先需要找到对应的文件夹地址，然后指定具体代码：copy*.csv as new.csv，其中‘new’是新的csv文件的文件名。

具体的操作过程为：导入python处理包，编写脚本的基础准备工作，更改python使用的字符集，找到某一文件夹下的所有文件，并将文件名称返回。

将文件夹的地址保存在变量path中，对path使用之前定义的函数next_page，循环调用指定文件夹的excel文件，记录指定excel文件的地址信息，修改地址信息后缀名，创建导出excel的地址信息，执行命令将excel转换为csv，输出转换不成功的文件，循环完成后提醒。

每个省会合并而成的CSV文件可能会是一个很大的文件，这样大的CSV文件一般的编辑器无法打开，也无法转换修改编码，这就会为修改字符编码制造了难度。这时就需要下载一个UE编辑器，使用UE编辑器打开文件之后，首先检验数据字段的对应问题和文件数据量是否准确的问题，若有问题，则需重新制造csv文件；若没有问题，则统一修改文件的存储编码为ANSI/ASCII，完成检查并修改CSV文件编码。

执行kettle进行数据转移时，首先，需要在ORACLE数据库中建好对应的表格，用于转移后的数据库存储；然后，建立kettle的转化，此转换主要分为两步，CSV文件输入和表输出。

CSV文件输入只需要找到对应CSV文件的位置，导入文件然后预览字段效果；表输出需要连接对应的ORACLE数据库，并且将CSV文件的字段与数据库表字段逐一对应。

将所有EXCEL文件转换为CSV文件，然后合并CSV文件时，具体的操作代码为：

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的企业基本信息入库的方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种企业基本信息入库的方法，其特征在于，包括如下步骤,

a、找到所有需要转移至ORACLE数据库的EXCEL文件；

b、将所有EXCEL文件转换为CSV文件；

c、合并CSV文件；

d、检查并修改CSV文件编码；

e、使用KETTLE的转换转移入库。

2.根据权利要求1所述的一种企业基本信息入库方法，其特征在于，在步骤b中，直接使用python编程，将所有的EXCEL文件转化为CSV文件。

3.根据权利要求2所述的一种企业基本信息入库方法，其特征在于，导入python处理包，编写脚本的基础准备工作，更改python使用的字符集，找到某一文件夹下的所有文件，并将文件名称返回；

4.根据权利要求1所述的一种企业基本信息入库方法，其特征在于，在步骤c中，直接使用cmd命令完成合并CSV文件。

5.根据权利要求4所述的一种企业基本信息入库方法，其特征在于，使用cmd命令时，首先找到对应的文件夹地址，然后，指定具体代码，copy*.csv as new.csv，其中，‘new’是新的csv文件的文件名。

6.根据权利要求5所述的一种企业基本信息入库方法，其特征在于，使用cmd命令时，具体的操作过程为，将文件夹的地址保存在变量path中，对path使用之前定义的函数next_page，循环调用指定文件夹的excel文件，记录指定excel文件的地址信息，修改地址信息后缀名，创建导出excel的地址信息，执行命令将excel转换为csv，输出转换不成功的文件，循环完成后提醒。

7.根据权利要求1所述的一种企业基本信息入库方法，其特征在于，在步骤d中，下载一个UE编辑器，使用UE编辑器打开文件之后，首先检验数据字段的对应问题和文件数据量是否准确的问题，若有问题，则需重新制造csv文件；若没有问题，则统一修改文件的存储编码为ANSI/ASCII。

8.根据权利要求1所述的一种企业基本信息入库方法，其特征在于，在步骤e中，首先，需要在ORACLE数据库中建好对应的表格，用于转移后的数据库存储；然后，建立kettle的转化，此转换主要分为两步，CSV文件输入和表输出；