CN104123376A - 一种基于列模板的智能文本数据采集方法和系统 - Google Patents

一种基于列模板的智能文本数据采集方法和系统 Download PDF

Info

Publication number
CN104123376A
CN104123376A CN201410366176.9A CN201410366176A CN104123376A CN 104123376 A CN104123376 A CN 104123376A CN 201410366176 A CN201410366176 A CN 201410366176A CN 104123376 A CN104123376 A CN 104123376A
Authority
CN
China
Prior art keywords
data
row
conversion
importing
intelligent text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410366176.9A
Other languages
English (en)
Other versions
CN104123376B (zh
Inventor
余敬龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGDONG NENGLONG EDUCATION Co Ltd
Original Assignee
GUANGDONG NENGLONG EDUCATION Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGDONG NENGLONG EDUCATION Co Ltd filed Critical GUANGDONG NENGLONG EDUCATION Co Ltd
Priority to CN201410366176.9A priority Critical patent/CN104123376B/zh
Publication of CN104123376A publication Critical patent/CN104123376A/zh
Application granted granted Critical
Publication of CN104123376B publication Critical patent/CN104123376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于列模板的智能文本数据采集方法和系统,包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库;通过列模板方式的细化控制粒度,增强数据导入程序的灵活性和通用性。

Description

一种基于列模板的智能文本数据采集方法和系统
技术领域
本发明属于数据库技术领域,具体涉及一种将数据文件导入数据库的方法和系统,尤其适合将各种不同格式数据导入到数据库中。
背景技术
现有技术中,将数据文件导入数据库的方法为:首先提取数据文件中的一条数据,然后进行分析,根据分析结果,建立相应数据表以及数据表和该数据文件数据行的对应关系,然后编写程序将文件导入数据库。这种方法导入数据,必须针对不同的数据文件编写不同的导入程序,其缺点主要表现如下:
(1)必须针对每个数据文件编写不同的导入程序,开发工作量大。而且一旦数据文件格式变化,必须修改相应的导入程序,维护工作量大。
(2)对于文件格式预先不知道的情况,无法胜任。只适合预定义特定格式文件导入情况。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于列模板的智能文本数据采集方法和系统。
本发明采用的技术方案是:
一种基于列模板的智能文本数据采集方法,包括以下步骤:
A、分析数据文件,确定数据文件包含数据项信息;
B、根据数据文件数据项信息制定列模板;
C、    转换数据,根据列模板将原始数据转换目标数据;
D、   导入数据,将转换后的数据导入数据库。
其中,所述列模板包括对应数据库列名、数据类型、转换规则。
进一步的,所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
所述直接导入直接转换为数据不做转换;所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换。
所述关联导入转换通过预先定义的SQL语句完成。
本发明还包括基于上述方法的技术方案,一种基于列模板的智能文本数据采集系统,其特征在于:包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库。
所述列模版包括对应数据库列名、数据类型、转换规则。
所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换。
所述关联导入转换通过预先定义的SQL语句完成。
本发明的有益效果:
本发明智能文本数据采集方法和系统通过列模板方式的细化控制粒度,将数据文件每一个数据项和数据库的一列建立对应关系和转换规则,转换程序也是基于列的,数据导入程序动态组合不同的列导入不同的数据行;这样,只要写一次导入程序就可以导入不同格式的数据问题,从而实现一个导入程序采集各种不同数据文件的数据。
附图说明
下面结合附图对本发明的具体实施方式做进一步的说明。
图1是本发明的系统架构图;
图2是本发明的数据采集流程图;
图3是本发明具体实施例的列模板示意图。
具体实施方式
如图1所示,为本发明的一种基于列模板的智能文本数据采集系统,包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库。
其中列模板和列模板分析引擎是整个系统的核心。
所述列模版包括对应数据库列名、数据类型、转换规则。所述转换规则包括直接导入转换、字典导入转换、关联导入转换。具体的,所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换,该关联导入转换通过预先定义的SQL语句完成。
本发明的系统通过列模板方式的细化控制粒度,增强数据导入程序的灵活性和通用性,而无需传统数据表导入时必须针对不同的数据文件编写不同的导入程序。
本发明还包括基于上述系统同一个发明构思的技术方案,一种基于列模板的智能文本数据采集方法,包括以下步骤:(见图2)
A、分析数据文件,确定数据文件包含数据项信息;
B、根据数据文件数据项信息制定列模板;
E、 转换数据,根据列模板将原始数据转换目标数据;
F、 导入数据,将转换后的数据导入数据库。
本技术方案的具体实施例如图3所示,以用户资料导入为例,用户资料主要包括用户名称,性别,年龄,身份证号,地址等五项数据。假设其中一条数据为:张三,男,24,423322198805103266,广东省中山市中山四路88号。本例中数据项之间采用逗号分隔,也可以采用其他符号风格,比如空格和分号等。
相应的,如图所示,所述列模板包括对应数据库列名、数据类型、转换规则。进一步的,所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
具体的,所述直接导入直接转换为数据不做转换;
所述字典导入转换:主要按字典对应关系转换。比如:性别导入 提供的数据是 男,女,未知 而数据库存储的值是 0 --男,1 --女 ,2 --未知。这样数据导入之前需要做一层转换,转换的依据就是字典(0:男,1:女 ,2:未知);
 所述关联导入转换以现有数据做一次转换,(比如:导入一个物品的类别,需要先到类别数据表找到对应类别的ID,然后将ID导入数据库),所述关联导入转换通过预先定义的SQL语句完成。
本发明智能文本数据采集方法和系统分析数据分析文件是基于列粒度的,将数据文件每一个数据项和数据库的一列建立对应关系和转换规则,转换程序也是基于列的,数据导入程序动态组合不同的列导入不同的数据行;这样,只要写一次导入程序就可以导入不同格式的数据问题,从而实现一个导入程序采集各种不同数据文件的数据。
以上所述仅为本发明的优先实施方式,本发明并不限定于上述实施方式,只要以基本相同手段实现本发明目的的技术方案都属于本发明的保护范围之内。

Claims (10)

1.一种基于列模板的智能文本数据采集方法,其特征在于包括以下步骤:
A、分析数据文件,确定数据文件包含数据项信息;
B、根据数据文件数据项信息制定列模板;
C、转换数据,根据列模板将原始数据转换目标数据;
D、导入数据,将转换后的数据导入数据库。
2.根据权利要求1所述的一种基于列模板的智能文本数据采集方法,其特征在于:所述列模板包括对应数据库列名、数据类型、转换规则。
3.根据权利要求2所述的一种基于列模板的智能文本数据采集方法,其特征在于:所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
4.根据权利要求3所述的一种基于列模板的智能文本数据采集方法,其特征在于:所述直接导入直接转换为数据不做转换;所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换。
5.根据权利要求4所述的一种基于列模板的智能文本数据采集方法,其特征在于:所述关联导入转换通过预先定义的SQL语句完成。
6.一种基于列模板的智能文本数据采集系统,其特征在于:包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库。
7.根据权利要求6所述的一种基于列模板的智能文本数据采集系统,其特征在于: 所述列模版包括对应数据库列名、数据类型、转换规则。
8.根据权利要求7所述的一种基于列模板的智能文本数据采集系统,其特征在于: 所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
9.根据权利要求8所述的一种基于列模板的智能文本数据采集系统,其特征在于: 所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换。
10.根据权利要求9所述的一种基于列模板的智能文本数据采集系统,其特征在于:所述关联导入转换通过预先定义的SQL语句完成。
CN201410366176.9A 2014-07-29 2014-07-29 一种基于列模板的智能文本数据采集方法和系统 Active CN104123376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410366176.9A CN104123376B (zh) 2014-07-29 2014-07-29 一种基于列模板的智能文本数据采集方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410366176.9A CN104123376B (zh) 2014-07-29 2014-07-29 一种基于列模板的智能文本数据采集方法和系统

Publications (2)

Publication Number Publication Date
CN104123376A true CN104123376A (zh) 2014-10-29
CN104123376B CN104123376B (zh) 2018-05-01

Family

ID=51768787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410366176.9A Active CN104123376B (zh) 2014-07-29 2014-07-29 一种基于列模板的智能文本数据采集方法和系统

Country Status (1)

Country Link
CN (1) CN104123376B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536998A (zh) * 2014-12-15 2015-04-22 浪潮通用软件有限公司 一种数据导入方法及装置
CN105389295A (zh) * 2015-09-30 2016-03-09 金邦达有限公司 一种卡片个人化的数据处理方法及系统
CN105760977A (zh) * 2014-12-18 2016-07-13 航天信息股份有限公司 一种制证方法和系统
CN105912735A (zh) * 2016-06-28 2016-08-31 浪潮软件股份有限公司 一种文本文件的并行解析过滤方法
CN107436917A (zh) * 2017-06-16 2017-12-05 浙江百世技术有限公司 一种导入模板配置方法、数据批量导入方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005081130A1 (en) * 2004-02-19 2005-09-01 Qualcomm Cambridge Limited Device and method of operation
CN101000615A (zh) * 2006-12-31 2007-07-18 华为技术有限公司 一种基于数据库的业务处理方法及装置
CN101957865A (zh) * 2010-10-27 2011-01-26 杭州新中大软件股份有限公司 一种异构系统间数据交换与共享技术
CN103744982A (zh) * 2014-01-15 2014-04-23 北京神州普惠科技股份有限公司 一种将Excel数据导入数据库的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005081130A1 (en) * 2004-02-19 2005-09-01 Qualcomm Cambridge Limited Device and method of operation
CN101000615A (zh) * 2006-12-31 2007-07-18 华为技术有限公司 一种基于数据库的业务处理方法及装置
CN101957865A (zh) * 2010-10-27 2011-01-26 杭州新中大软件股份有限公司 一种异构系统间数据交换与共享技术
CN103744982A (zh) * 2014-01-15 2014-04-23 北京神州普惠科技股份有限公司 一种将Excel数据导入数据库的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536998A (zh) * 2014-12-15 2015-04-22 浪潮通用软件有限公司 一种数据导入方法及装置
CN105760977A (zh) * 2014-12-18 2016-07-13 航天信息股份有限公司 一种制证方法和系统
CN105389295A (zh) * 2015-09-30 2016-03-09 金邦达有限公司 一种卡片个人化的数据处理方法及系统
CN105912735A (zh) * 2016-06-28 2016-08-31 浪潮软件股份有限公司 一种文本文件的并行解析过滤方法
CN107436917A (zh) * 2017-06-16 2017-12-05 浙江百世技术有限公司 一种导入模板配置方法、数据批量导入方法及系统

Also Published As

Publication number Publication date
CN104123376B (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN104123376A (zh) 一种基于列模板的智能文本数据采集方法和系统
CN103530378B (zh) 数据分页查询与数据库的构建的方法与装置
CN101430714B (zh) 一种基于样式的内容结构化加工方法及系统
CN104624509A (zh) 一种快递自动分拣系统及自动分拣方法
CN104636428A (zh) 一种商标推荐方法及装置
CN103345484A (zh) 基于动态域的报表处理系统及方法
CN106126522A (zh) 一种会计报表的处理系统
CN102279846A (zh) 文章辅助写作系统及其方法
CN104699785A (zh) 一种论文相似度检测方法
CN102722537A (zh) 一种数据库测试数据的生成方法及系统
CN104216987A (zh) 一种基于时间戳且支持删除操作的增量数据捕获方法
CN104317899A (zh) 一种大数据分析与处理系统及访问方法
CN103778259A (zh) 基于Sqlite3实现智能手机数据恢复的方法
CN105912723A (zh) 一种自定义字段的存储方法
CN108932434A (zh) 一种基于机器学习技术的数据加密方法及装置
CN105551069A (zh) 一种索引图像的实时快速生成方法及系统
CN103995602A (zh) 证件多语种信息录入和纠错系统
CN106802911A (zh) 一种周期性自动全量提取数据库数据的方法
CN105045845A (zh) 一种文档分类管理方法及装置
CN103136500A (zh) 分类方法
CN103077284A (zh) 利用通用文本模板自动生成辅助代码文件的方法及系统
CN203397399U (zh) 一种指纹考勤仪
CN103729464A (zh) 一种报告文档的汇总方法
CN103488715A (zh) 一种基于全局设置的预解析管理方法及系统
CN203950317U (zh) 带指甲钳的读卡器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Intelligent text data collection method and system based on column template

Effective date of registration: 20200708

Granted publication date: 20180501

Pledgee: China Everbright Bank Zhongshan branch

Pledgor: GUANGDONG NENGLONG EDUCATION Co.,Ltd.

Registration number: Y2020980003904

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210817

Granted publication date: 20180501

Pledgee: China Everbright Bank Zhongshan branch

Pledgor: GUANGDONG NENGLONG EDUCATION Co.,Ltd.

Registration number: Y2020980003904