CN106547915B - 基于模型库的智能数据提取方法 - Google Patents
基于模型库的智能数据提取方法 Download PDFInfo
- Publication number
- CN106547915B CN106547915B CN201611069274.1A CN201611069274A CN106547915B CN 106547915 B CN106547915 B CN 106547915B CN 201611069274 A CN201611069274 A CN 201611069274A CN 106547915 B CN106547915 B CN 106547915B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- feature
- field
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Abstract
本发明公开了一种基于模型库的智能数据提取方法,包括如下步骤:a)预先定义多个数据模型,并为每个模型的每个字段设置特征,形成模型库的字段特征;b)对待提取数据源的样本数据进行数据特征提取并过滤掉特征相同的数据;c)将提取到的数据源的特征样本与模型库的字段特征进行特征匹配,选取特征匹配度最高的模型作为该数据源的特征模型;d)根据选定的数据模型对数据源进行格式化提取。本发明提供的基于模型库的智能数据提取方法,通过特征抽取和特征匹配评分完成数据提取,提高识别格式化的效率,无需对数据进行建模,并可以根据分析需求方便地进行模型更新。
Description
技术领域
本发明涉及一种数据提取方法,尤其涉及一种基于模型库的智能数据提取方法。
背景技术
现有的数据提取方法主要有如下两种:
1、根据数据的格式按照固定的字符进行分割,并根据分割的数据结果进行建模,数据统一按照这种模型进行格式化,将所有的输入数据先按照固定的分割符进行切分,并根据切分的下标进行相对应的字段赋值,最终达到按照该模型输出对应的数据,针对的不同的数据格式定义不同的数据模型。
2、根据数据的格式,灵活的采用正则表达式进行模型字段定义,对于输入的数据按照模型的字段进行正则表达的方式进行匹配,满足该正则表达式的数据则赋值给该字段。正则表达式具备高度的灵活性可以满足不同格式的数据匹配。不需要对所有的数据格式都进行建模操作
现有技术主要存在如下缺点:
1、按照固定分割的方式进行数据分割,需要对所有的数据格式都进行建模,在目前信息化高速发展的情况下大量分散的形式及不同格式的数据越来越多,针对每一种数据格式进行建模一种相当大的工作量。
2、正则表达改善了按照固定分割符进行数据格式化提取需要建立非常多个模型的问题,但同样的带来的一些问题,在数据格式化提取时需要编写好正则表达式,并将该表达式应用于不同的数据源,需要人员对所有的数据都进行人工分析,并按照所有的数据格式编写满足所有条件的正则表达式,这会造成数据的提取的错误率提高,不能真正完全的提取需要的数据,往往会参插错误的数据,造成分析工作的难度及准确性。
3、在数据分析过程中,分析人员对于数据的分析需求往往都集中在几个固定的字段上,不需要对所有的数据都进行提取分析,而现有的技术需要对数据进行分析后才进行建模,时间上需要一定的时间,无法满足快速的数据接入后即可分析的需求。
发明内容
本发明所要解决的技术问题是提供一种基于模型库的智能数据提取方法,能够提高识别格式化的效率,无需对数据进行建模,并可以根据分析需求方便地进行模型更新。
本发明为解决上述技术问题而采用的技术方案是提供一种基于模型库的智能数据提取方法,包括如下步骤:a)预先定义多个数据模型,并为每个模型的每个字段设置特征,形成模型库的字段特征;b)对待提取数据源的样本数据进行数据特征提取并过滤掉特征相同的数据;c)将提取到的数据源的特征样本与模型库的字段特征进行特征匹配,选取特征匹配度最高的模型作为该数据源的特征模型;d)根据选定的数据模型对数据源进行格式化提取。
上述的基于模型库的智能数据提取方法,其中,所述步骤b)包括如下过程:将输入的数据源的样本数据按照行的方式进行数据读取,将每行数据中连续的英文字母或数字,当为一个字符处理,并将字母全部采用s字母代替,数字则采用d替代,输出每行数据的特征格式,并缓存在内存中;循环遍历所有的样本数据,当某一行的样本数据的特征格式已经存在于缓存中时,则过滤掉该行的样本数据。
上述的基于模型库的智能数据提取方法,其中,所述步骤c)通过字符查找算法,将模型库的所有字段都与特征样本进行匹配,匹配过程如下:当一条特征样本满足某一模型的所有字段时,则对于该模型在这个特征样本的评分为100分;当部分匹配时,将匹配的字段数除以该模型的总字段数再乘以100,则为该模型在这个特征样本的评分;将所有特征样本的评分累加除以特征样本的总数,得出该模型的评分,最终将评分最高的模型定义为该数据源的数据模型。
上述的基于模型库的智能数据提取方法,其中,所述步骤d)循环读取输入的数据源,按照选定模型的字段特征与数据源进行匹配,满足该特征的值则将数据赋值为该字段的值,不满足则将该字段赋值为空,遍历完模型的所有字段后将模型数据输出,完成数据提取。
本发明对比现有技术有如下的有益效果:本发明提供的基于模型库的智能数据提取方法,通过特征抽取和特征匹配评分完成数据提取,提高识别格式化的效率,无需对数据进行建模,并可以根据分析需求方便地进行模型更新。
附图说明
图1为本发明基于模型库的智能数据提取流程图;
图2为本发明的特征匹配流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明基于模型库的智能数据提取流程图。
请参见图1,本发明提供的基于模型库的智能数据提取方法,包括如下步骤:
步骤S1:预先定义多个数据模型,并为每个模型的每个字段设置特征,形成模型库的字段特征;模型的建立是基于目前市场上比较常用的分析模型进行建立的。并且根据不同的行业可以对模型进行调整,满足不同行业的数据提取需求;
步骤S2:对待提取数据源的样本数据进行数据特征提取并过滤掉特征相同的数据;通过对相同的特征值数据进行过滤,减少特征值得样本数据,提高识别格式化的效率;
步骤S3:将提取到的数据源的特征样本与模型库的字段特征进行特征匹配,选取特征匹配度最高的模型作为该数据源的特征模型;模型字段特征与数据特征的匹配度可以按照规则进行评分,然后根据评分结果选择最满足该数据的模型;
步骤S4:根据选定的数据模型对数据源进行格式化提取。
本发明基于现有的模型库进行特征匹配并进行数据提取,对输入的数据源进行全面的遍历扫描,输出所有的数据的特征值,对于相同的特征值则进行过滤,减少特征样本,以提高特征匹配的效率。循环遍历特征值样本,将样本与模型库中的模型进行特征匹配,按照匹配度进行评分,最终所有的经过特征样本评分后,选择评分最高的模型,作为该数据源的数据模型。
确定数据模型后,后续该数据源的数据都按照这个数据模型进行数据提取,数据的每一行数据都会与模型字段进行特征匹配。字段特征与数据特征可以匹配的则将该字段进行赋值,不匹配的字段则输出为空,最终将所有的数据都按照该模型进行提取。
下面对本发明的三个主要步骤:特征抽取、特征匹配评分和数据提取做进一步的解释说明。
1、特征抽取
将输入的数据源按照行的方式进行数据读取,将每行数据中连续的英文字母或数字,当为一个字符处理,并将字母全部采用s字母代替,数字则采用d替代,输出每行数据的特征格式,并缓存在内存中,循环遍历所有的数据源,当数据源的特征格式已经在缓存中可以匹配到时,则将该条特征数据过滤掉。保障特征样本的唯一性。
例如输入的数据源为:10.202.0.11--[22/Jun/2016:10:55:06+0800]"POST/mvq/json/getCdrData.action HTTP/1.1"200 1702时,其输出特征值为:d.d.d.d--[d/s/d:d:d:d+d]"s/s/s/s.s s/d.d"d d。
2、特征匹配评分
请参见图2,将数据源的特征样本和模型库中的模型字段进行特征匹配,模型字段定义时会设置该字段的特征值,通过字符查找算法,将模型的所有字段都与特征样本进行匹配,评分方式为:当该模型定义为8个字段时,第一条特征样本满足该模型的所有字段时,则对于该模型在这个特征样本的评分为100分,当部分匹配时,则将匹配中的字段数除以模型的总字段数在乘以100,则为该模型在这个特征样本的评分。最终将所有的分数累加除以特征样本的总数,得出该模型的评分。并最终将评分最高的模型定义为该数据源的数据模型。
3、数据提取
循环读取输入的数据源,将已经匹配到的模型,按照模型的字段里面的特征规则与数据源进行匹配,满足该特征的值则将数据赋值为该字段的值,不满足则将该字段赋值为空,遍历完模型的所有字段,后将模型数据输出,即可以将所需的数据提取出来。
综上所述,本发明提供的基于模型库的智能数据提取方法,通过特征抽取和特征匹配评分完成数据提取,提高识别格式化的效率,具体优点如下:1)按照已有的模型进行数据提取,达到无需对数据进行建模。2)自动智能提取数据的格式,并匹配最适合该数据的模型。3)只抽取模型定义的字段用于分析,减少数据的存储空间。4)可以根据分析需求进行模型更新,通过业务驱动数据的提取。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
Claims (3)
1.一种基于模型库的智能数据提取方法,其特征在于,包括如下步骤:
a) 预先定义多个数据模型,并为每个模型的每个字段设置特征,形成模型库的字段特征;
b)对待提取数据源的样本数据进行数据特征提取并过滤掉特征相同的数据;
c)将提取到的数据源的特征样本与模型库的字段特征进行特征匹配,选取特征匹配度最高的模型作为该数据源的特征模型;
d)根据选定的数据模型对数据源进行格式化提取;
所述步骤b)包括如下过程:
将输入的数据源的样本数据按照行的方式进行数据读取,将每行数据中连续的英文字母或数字,当为一个字符处理,并将字母全部采用s字母代替,数字则采用d替代,输出每行数据的特征格式,并缓存在内存中;循环遍历所有的样本数据,当某一行的样本数据的特征格式已经存在于缓存中时,则过滤掉该行的样本数据。
2.如权利要求1所述的基于模型库的智能数据提取方法,其特征在于,所述步骤c)通过字符查找算法,将模型库的所有字段都与特征样本进行匹配,匹配过程如下:当一条特征样本满足某一模型的所有字段时,则对于该模型在这个特征样本的评分为100分;当部分匹配时,将匹配的字段数除以该模型的总字段数再乘以100,则为该模型在这个特征样本的评分;将所有特征样本的评分累加除以特征样本的总数,得出该模型的评分,最终将评分最高的模型定义为该数据源的数据模型。
3.如权利要求1所述的基于模型库的智能数据提取方法,其特征在于,所述步骤d)循环读取输入的数据源,按照选定模型的字段特征与数据源进行匹配,满足该特征的值则将数据赋值为该字段的值,不满足则将该字段赋值为空,遍历完模型的所有字段后将模型数据输出,完成数据提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611069274.1A CN106547915B (zh) | 2016-11-29 | 2016-11-29 | 基于模型库的智能数据提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611069274.1A CN106547915B (zh) | 2016-11-29 | 2016-11-29 | 基于模型库的智能数据提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106547915A CN106547915A (zh) | 2017-03-29 |
CN106547915B true CN106547915B (zh) | 2019-10-29 |
Family
ID=58395888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611069274.1A Active CN106547915B (zh) | 2016-11-29 | 2016-11-29 | 基于模型库的智能数据提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106547915B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833637B (zh) * | 2017-06-19 | 2020-12-04 | 平安医疗健康管理股份有限公司 | 药品规则记录更新方法、装置、计算机设备及介质 |
CN108197152A (zh) * | 2017-12-07 | 2018-06-22 | 深圳市华力特电气有限公司 | 一种基于领域模型的数据解析系统和方法 |
CN108763289B (zh) * | 2018-04-13 | 2021-11-23 | 西安电子科技大学 | 一种海量异构传感器格式数据的解析方法 |
CN109462864B (zh) * | 2018-12-03 | 2021-12-24 | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) | 一种5g通信典型场景信道模型自适应匹配方法 |
CN109710653A (zh) * | 2018-12-29 | 2019-05-03 | 北京航天数据股份有限公司 | 一种测试数据源配置方法及装置 |
CN110458383B (zh) * | 2019-06-24 | 2020-08-18 | 平安国际智慧城市科技股份有限公司 | 需求处理服务化的实现方法、装置及计算机设备、存储介质 |
CN110674184B (zh) * | 2019-09-06 | 2023-10-17 | 创新先进技术有限公司 | 一种构造异动检测模型库的方法、系统及设备 |
CN110633318A (zh) * | 2019-09-23 | 2019-12-31 | 北京锐安科技有限公司 | 一种数据提取的处理方法、装置、设备和存储介质 |
CN111400282B (zh) * | 2020-03-17 | 2023-06-09 | 北京锐安科技有限公司 | 数据处理策略调整方法、装置、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1067769A2 (en) * | 1999-06-14 | 2001-01-10 | Mitsubishi Denki Kabushiki Kaisha | Method and apparatus for filtering data streams |
CN101035111A (zh) * | 2007-04-13 | 2007-09-12 | 北京启明星辰信息技术有限公司 | 一种智能协议解析方法及装置 |
CA2687473A1 (en) * | 2007-05-17 | 2008-11-27 | Research In Motion Limited | System and method for content navigation |
US7617531B1 (en) * | 2004-02-18 | 2009-11-10 | Citrix Systems, Inc. | Inferencing data types of message components |
CN102799627A (zh) * | 2012-06-26 | 2012-11-28 | 哈尔滨工程大学 | 一种基于一阶逻辑和神经网络的数据对应方法 |
CN104102652A (zh) * | 2013-04-08 | 2014-10-15 | 国家电网公司 | 一种非结构化数据存储系统及方法 |
CN104468252A (zh) * | 2013-09-23 | 2015-03-25 | 重庆康拜因科技有限公司 | 一种基于正迁移学习的智能网络业务识别方法 |
CN104766107A (zh) * | 2015-03-06 | 2015-07-08 | 中国十七冶集团有限公司 | 一种bim模型中采用rfid电子标签采集数据的系统 |
CN105302885A (zh) * | 2015-10-15 | 2016-02-03 | 北京锐安科技有限公司 | 一种全文数据的提取方法和装置 |
CN105354239A (zh) * | 2015-10-10 | 2016-02-24 | 中国科学院计算机网络信息中心 | 一种基于配置数据加工模型的加工中心数据流式处理方法 |
CN105488223A (zh) * | 2015-12-28 | 2016-04-13 | 中国民航信息网络股份有限公司 | 业务数据事件的分析订阅方法及系统 |
CN105550378A (zh) * | 2016-02-04 | 2016-05-04 | 贵州电网有限责任公司信息中心 | 一种复杂网络体系下异构安全日志信息的提取与分析方法 |
-
2016
- 2016-11-29 CN CN201611069274.1A patent/CN106547915B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1067769A2 (en) * | 1999-06-14 | 2001-01-10 | Mitsubishi Denki Kabushiki Kaisha | Method and apparatus for filtering data streams |
US7617531B1 (en) * | 2004-02-18 | 2009-11-10 | Citrix Systems, Inc. | Inferencing data types of message components |
CN101035111A (zh) * | 2007-04-13 | 2007-09-12 | 北京启明星辰信息技术有限公司 | 一种智能协议解析方法及装置 |
CA2687473A1 (en) * | 2007-05-17 | 2008-11-27 | Research In Motion Limited | System and method for content navigation |
CN102799627A (zh) * | 2012-06-26 | 2012-11-28 | 哈尔滨工程大学 | 一种基于一阶逻辑和神经网络的数据对应方法 |
CN104102652A (zh) * | 2013-04-08 | 2014-10-15 | 国家电网公司 | 一种非结构化数据存储系统及方法 |
CN104468252A (zh) * | 2013-09-23 | 2015-03-25 | 重庆康拜因科技有限公司 | 一种基于正迁移学习的智能网络业务识别方法 |
CN104766107A (zh) * | 2015-03-06 | 2015-07-08 | 中国十七冶集团有限公司 | 一种bim模型中采用rfid电子标签采集数据的系统 |
CN105354239A (zh) * | 2015-10-10 | 2016-02-24 | 中国科学院计算机网络信息中心 | 一种基于配置数据加工模型的加工中心数据流式处理方法 |
CN105302885A (zh) * | 2015-10-15 | 2016-02-03 | 北京锐安科技有限公司 | 一种全文数据的提取方法和装置 |
CN105488223A (zh) * | 2015-12-28 | 2016-04-13 | 中国民航信息网络股份有限公司 | 业务数据事件的分析订阅方法及系统 |
CN105550378A (zh) * | 2016-02-04 | 2016-05-04 | 贵州电网有限责任公司信息中心 | 一种复杂网络体系下异构安全日志信息的提取与分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106547915A (zh) | 2017-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106547915B (zh) | 基于模型库的智能数据提取方法 | |
CN110175158B (zh) | 一种基于向量化的日志模板提取方法和系统 | |
CN109697233A (zh) | 一种知识图谱体系搭建方法 | |
CN110704880B (zh) | 一种工程图纸的关联方法 | |
CN107704539A (zh) | 大规模文本信息批量结构化的方法及装置 | |
CN103324929B (zh) | 基于子结构学习的手写中文识别方法 | |
CN108304382A (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
CN106528527A (zh) | 未登录词的识别方法及识别系统 | |
CN111931269A (zh) | Bim与图纸中重要构件信息一致性的自动审核方法和系统 | |
CN110377659A (zh) | 一种智能图表推荐系统及方法 | |
CN105095436A (zh) | 数据源数据自动建模方法 | |
CN113609118A (zh) | 应用于大数据的数据优化方法及大数据服务器 | |
WO2020071558A1 (ja) | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 | |
CN114154484B (zh) | 基于混合深度语义挖掘的施工专业术语库智能构建方法 | |
CN112416732B (zh) | 一种基于隐马尔可夫模型的数据采集运行异常检测方法 | |
CN104731908A (zh) | 一种基于etl的数据清洗方法 | |
CN112861530A (zh) | 一种基于文本挖掘的课程设置分析方法 | |
CN108197295B (zh) | 基于多粒度属性树的属性约简在文本分类中的应用方法 | |
CN110688445B (zh) | 一种数字化档案建设方法 | |
CN116089142A (zh) | 一种新型的服务故障根因分析方法 | |
RU2679383C1 (ru) | Самокорректирующиеся способ и устройство распознавания для устройства распознавания ценных документов | |
CN115579069A (zh) | scRNA-Seq细胞类型注释数据库的构建方法、装置及电子设备 | |
CN112541505B (zh) | 文本识别方法、装置以及计算机可读存储介质 | |
CN115098657A (zh) | 自然语言转换数据库查询语句的方法、设备及介质 | |
CN108197271A (zh) | 一种基于大数据的影视作品市场分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |