CN104123376B - 一种基于列模板的智能文本数据采集方法和系统 - Google Patents

一种基于列模板的智能文本数据采集方法和系统 Download PDF

Info

Publication number
CN104123376B
CN104123376B CN201410366176.9A CN201410366176A CN104123376B CN 104123376 B CN104123376 B CN 104123376B CN 201410366176 A CN201410366176 A CN 201410366176A CN 104123376 B CN104123376 B CN 104123376B
Authority
CN
China
Prior art keywords
data
row
masterplate
database
imported
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410366176.9A
Other languages
English (en)
Other versions
CN104123376A (zh
Inventor
余敬龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGDONG NENGLONG EDUCATION Co Ltd
Original Assignee
GUANGDONG NENGLONG EDUCATION Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGDONG NENGLONG EDUCATION Co Ltd filed Critical GUANGDONG NENGLONG EDUCATION Co Ltd
Priority to CN201410366176.9A priority Critical patent/CN104123376B/zh
Publication of CN104123376A publication Critical patent/CN104123376A/zh
Application granted granted Critical
Publication of CN104123376B publication Critical patent/CN104123376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于列模板的智能文本数据采集方法和系统,包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库;通过列模板方式的细化控制粒度,增强数据导入程序的灵活性和通用性。

Description

一种基于列模板的智能文本数据采集方法和系统
技术领域
本发明属于数据库技术领域,具体涉及一种将数据文件导入数据库的方法和系统,尤其适合将各种不同格式数据导入到数据库中。
背景技术
现有技术中,将数据文件导入数据库的方法为:首先提取数据文件中的一条数据,然后进行分析,根据分析结果,建立相应数据表以及数据表和该数据文件数据行的对应关系,然后编写程序将文件导入数据库。这种方法导入数据,必须针对不同的数据文件编写不同的导入程序,其缺点主要表现如下:
(1)必须针对每个数据文件编写不同的导入程序,开发工作量大。而且一旦数据文件格式变化,必须修改相应的导入程序,维护工作量大。
(2)对于文件格式预先不知道的情况,无法胜任。只适合预定义特定格式文件导入情况。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于列模板的智能文本数据采集方法和系统。
本发明采用的技术方案是:
一种基于列模板的智能文本数据采集方法,包括以下步骤:
A、分析数据文件,确定数据文件包含数据项信息;
B、根据数据文件数据项信息制定列模板;
C、转换数据,根据列模板将原始数据转换目标数据;
D、导入数据,将转换后的数据导入数据库。
其中,所述列模板包括对应数据库列名、数据类型、转换规则。
进一步的,所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
所述直接导入直接转换为数据不做转换;所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换。
所述关联导入转换通过预先定义的SQL语句完成。
本发明还包括基于上述方法的技术方案,一种基于列模板的智能文本数据采集系统,其特征在于:包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库。
所述列模版包括对应数据库列名、数据类型、转换规则。
所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
所述字典导入转换为按字典对应关系转换; 所述关联导入转换以现有数据做一次转换。
所述关联导入转换通过预先定义的SQL语句完成。
本发明的有益效果:
本发明智能文本数据采集方法和系统通过列模板方式的细化控制粒度,将数据文件每一个数据项和数据库的一列建立对应关系和转换规则,转换程序也是基于列的,数据导入程序动态组合不同的列导入不同的数据行;这样,只要写一次导入程序就可以导入不同格式的数据问题,从而实现一个导入程序采集各种不同数据文件的数据。
附图说明
下面结合附图对本发明的具体实施方式做进一步的说明。
图1是本发明的系统架构图;
图2是本发明的数据采集流程图;
图3是本发明具体实施例的列模板示意图。
具体实施方式
如图1所示,为本发明的一种基于列模板的智能文本数据采集系统,包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库。
其中列模板和列模板分析引擎是整个系统的核心。
所述列模版包括对应数据库列名、数据类型、转换规则。所述转换规则包括直接导入转换、字典导入转换、关联导入转换。具体的,所述字典导入转换为按字典对应关系转换;所述关联导入转换以现有数据做一次转换,该关联导入转换通过预先定义的SQL语句完成。
本发明的系统通过列模板方式的细化控制粒度,增强数据导入程序的灵活性和通用性,而无需传统数据表导入时必须针对不同的数据文件编写不同的导入程序。
本发明还包括基于上述系统同一个发明构思的技术方案,一种基于列模板的智能文本数据采集方法,包括以下步骤:(见图2)
A、分析数据文件,确定数据文件包含数据项信息;
B、根据数据文件数据项信息制定列模板;
E、 转换数据,根据列模板将原始数据转换目标数据;
F、 导入数据,将转换后的数据导入数据库。
本技术方案的具体实施例如图3所示,以用户资料导入为例,用户资料主要包括用户名称,性别,年龄,身份证号,地址等五项数据。假设其中一条数据为:张三,男,24,423322198805103266,广东省中山市中山四路88号。本例中数据项之间采用逗号分隔,也可以采用其他符号风格,比如空格和分号等。
相应的,如图所示,所述列模板包括对应数据库列名、数据类型、转换规则。进一步的,所述转换规则包括直接导入转换、字典导入转换、关联导入转换。
具体的,所述直接导入直接转换为数据不做转换;
所述字典导入转换:主要按字典对应关系转换。比如:性别导入 提供的数据是男,女,未知 而数据库存储的值是 0 --男,1 --女 ,2 --未知。这样数据导入之前需要做一层转换,转换的依据就是字典(0:男,1:女 ,2:未知);
所述关联导入转换以现有数据做一次转换,(比如:导入一个物品的类别,需要先到类别数据表找到对应类别的ID,然后将ID导入数据库),所述关联导入转换通过预先定义的SQL语句完成。
本发明智能文本数据采集方法和系统分析数据分析文件是基于列粒度的,将数据文件每一个数据项和数据库的一列建立对应关系和转换规则,转换程序也是基于列的,数据导入程序动态组合不同的列导入不同的数据行;这样,只要写一次导入程序就可以导入不同格式的数据问题,从而实现一个导入程序采集各种不同数据文件的数据。
以上所述仅为本发明的优先实施方式,本发明并不限定于上述实施方式,只要以基本相同手段实现本发明目的的技术方案都属于本发明的保护范围之内。

Claims (6)

1.一种基于列模板的智能文本数据采集方法,其特征在于包括以下步骤:
A、分析数据文件,确定数据文件包含数据项信息;
B、根据数据文件数据项信息制定列模板;
C、转换数据,根据列模板将原始数据转换目标数据;
D、导入数据,将转换后的数据导入数据库;
所述列模板包括对应数据库列名、数据类型和转换规则;
所述转换规则包括直接导入转换、字典导入转换和关联导入转换。
2.根据权利要求1所述的一种基于列模板的智能文本数据采集方法,其特征在于:所述直接导入直接转换为数据不做转换;
所述字典导入转换为按字典对应关系转换;所述关联导入转换以现有数据做一次转换。
3.根据权利要求2所述的一种基于列模板的智能文本数据采集方法,其特征在于:所述关联导入转换通过预先定义的SQL语句完成。
4.一种基于列模板的智能文本数据采集系统,其特征在于:包括数据文件、列模版、列模版分析引擎、数据写入模块和数据库;该列模版用于建立数据文件与数据库的列对应关系,该列模版分析引擎用于按列模版将原始数据转换为目标数据以完成列的组合,该数据写入模块将转换后的列数据导入数据库;
所述列模版包括对应数据库列名、数据类型和转换规则;
所述转换规则包括直接导入转换、字典导入转换和关联导入转换。
5.根据权利要求4所述的一种基于列模板的智能文本数据采集系统,其特征在于:所述字典导入转换为按字典对应关系转换;所述关联导入转换以现有数据做一次转换。
6.根据权利要求5所述的一种基于列模板的智能文本数据采集系统,其特征在于:所述关联导入转换通过预先定义的SQL语句完成。
CN201410366176.9A 2014-07-29 2014-07-29 一种基于列模板的智能文本数据采集方法和系统 Active CN104123376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410366176.9A CN104123376B (zh) 2014-07-29 2014-07-29 一种基于列模板的智能文本数据采集方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410366176.9A CN104123376B (zh) 2014-07-29 2014-07-29 一种基于列模板的智能文本数据采集方法和系统

Publications (2)

Publication Number Publication Date
CN104123376A CN104123376A (zh) 2014-10-29
CN104123376B true CN104123376B (zh) 2018-05-01

Family

ID=51768787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410366176.9A Active CN104123376B (zh) 2014-07-29 2014-07-29 一种基于列模板的智能文本数据采集方法和系统

Country Status (1)

Country Link
CN (1) CN104123376B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104536998A (zh) * 2014-12-15 2015-04-22 浪潮通用软件有限公司 一种数据导入方法及装置
CN105760977A (zh) * 2014-12-18 2016-07-13 航天信息股份有限公司 一种制证方法和系统
CN105389295A (zh) * 2015-09-30 2016-03-09 金邦达有限公司 一种卡片个人化的数据处理方法及系统
CN105912735A (zh) * 2016-06-28 2016-08-31 浪潮软件股份有限公司 一种文本文件的并行解析过滤方法
CN107436917A (zh) * 2017-06-16 2017-12-05 浙江百世技术有限公司 一种导入模板配置方法、数据批量导入方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000615A (zh) * 2006-12-31 2007-07-18 华为技术有限公司 一种基于数据库的业务处理方法及装置
CN101957865A (zh) * 2010-10-27 2011-01-26 杭州新中大软件股份有限公司 一种异构系统间数据交换与共享技术
CN103744982A (zh) * 2014-01-15 2014-04-23 北京神州普惠科技股份有限公司 一种将Excel数据导入数据库的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2411331A (en) * 2004-02-19 2005-08-24 Trigenix Ltd Rendering user interface using actor attributes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101000615A (zh) * 2006-12-31 2007-07-18 华为技术有限公司 一种基于数据库的业务处理方法及装置
CN101957865A (zh) * 2010-10-27 2011-01-26 杭州新中大软件股份有限公司 一种异构系统间数据交换与共享技术
CN103744982A (zh) * 2014-01-15 2014-04-23 北京神州普惠科技股份有限公司 一种将Excel数据导入数据库的方法

Also Published As

Publication number Publication date
CN104123376A (zh) 2014-10-29

Similar Documents

Publication Publication Date Title
CN104123376B (zh) 一种基于列模板的智能文本数据采集方法和系统
CN104915450A (zh) 一种基于HBase的大数据存储与检索方法及系统
CN103345484A (zh) 基于动态域的报表处理系统及方法
CN106126522A (zh) 一种会计报表的处理系统
CN101430714A (zh) 一种基于样式的内容结构化加工方法及系统
CN102521551B (zh) 一种实现ic卡个人化发行装置及方法
CN103178962B (zh) 通用指纹认证方法和装置
CN101751400A (zh) 技术数据分析的系统与方法以及专利分析的系统
CN106919697A (zh) 一种将数据同时导入多个Hadoop组件的方法
CN103440197B (zh) 一种基于对比测试自动生成差异测试报告的方法
CN106547765A (zh) 基于sql的数据库管理方法及装置
CN104346378B (zh) 一种实现复杂数据处理的方法、装置及系统
CN101393526A (zh) 一种可实现可编程的数据转换和文件转换功能的数据同步方法
CN105912723A (zh) 一种自定义字段的存储方法
CN107038224A (zh) 数据处理方法及数据处理装置
CN104731946A (zh) 一种互联网信息数据挖掘方法
CN110489247A (zh) 一种数据实时集成方法及装置
CN110287185A (zh) 面向文档键值数据库的一对多关系查询的存储结构及方法
CN102609664B (zh) 基于可执行体的进程指纹智能识别与模糊采集系统及其方法
CN105551069A (zh) 一种索引图像的实时快速生成方法及系统
CN104573101A (zh) 一种基于规则路由的数据流实时分类方法及系统
CN103440550A (zh) 一种pdm系统中二维图纸基线管理的方法
CN103744899A (zh) 一种基于分布式环境的海量数据快速分类方法
CN105045845A (zh) 一种文档分类管理方法及装置
CN107943988B (zh) 一种数据拼接方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Intelligent text data collection method and system based on column template

Effective date of registration: 20200708

Granted publication date: 20180501

Pledgee: China Everbright Bank Zhongshan branch

Pledgor: GUANGDONG NENGLONG EDUCATION Co.,Ltd.

Registration number: Y2020980003904

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210817

Granted publication date: 20180501

Pledgee: China Everbright Bank Zhongshan branch

Pledgor: GUANGDONG NENGLONG EDUCATION Co.,Ltd.

Registration number: Y2020980003904

PC01 Cancellation of the registration of the contract for pledge of patent right