CN106547915B

CN106547915B - 基于模型库的智能数据提取方法

Info

Publication number: CN106547915B
Application number: CN201611069274.1A
Authority: CN
Inventors: 程永新; 谢涛; 吴泽锋
Original assignee: Shanghai Qingwei Software Co Ltd
Current assignee: Shanghai Qingwei Software Co Ltd
Priority date: 2016-11-29
Filing date: 2016-11-29
Publication date: 2019-10-29
Anticipated expiration: 2036-11-29
Also published as: CN106547915A

Abstract

本发明公开了一种基于模型库的智能数据提取方法，包括如下步骤：a)预先定义多个数据模型，并为每个模型的每个字段设置特征，形成模型库的字段特征；b)对待提取数据源的样本数据进行数据特征提取并过滤掉特征相同的数据；c)将提取到的数据源的特征样本与模型库的字段特征进行特征匹配，选取特征匹配度最高的模型作为该数据源的特征模型；d)根据选定的数据模型对数据源进行格式化提取。本发明提供的基于模型库的智能数据提取方法，通过特征抽取和特征匹配评分完成数据提取，提高识别格式化的效率，无需对数据进行建模，并可以根据分析需求方便地进行模型更新。

Description

基于模型库的智能数据提取方法

技术领域

本发明涉及一种数据提取方法，尤其涉及一种基于模型库的智能数据提取方法。

背景技术

现有的数据提取方法主要有如下两种：

1、根据数据的格式按照固定的字符进行分割，并根据分割的数据结果进行建模，数据统一按照这种模型进行格式化，将所有的输入数据先按照固定的分割符进行切分，并根据切分的下标进行相对应的字段赋值，最终达到按照该模型输出对应的数据，针对的不同的数据格式定义不同的数据模型。

2、根据数据的格式，灵活的采用正则表达式进行模型字段定义，对于输入的数据按照模型的字段进行正则表达的方式进行匹配，满足该正则表达式的数据则赋值给该字段。正则表达式具备高度的灵活性可以满足不同格式的数据匹配。不需要对所有的数据格式都进行建模操作

现有技术主要存在如下缺点：

1、按照固定分割的方式进行数据分割，需要对所有的数据格式都进行建模，在目前信息化高速发展的情况下大量分散的形式及不同格式的数据越来越多，针对每一种数据格式进行建模一种相当大的工作量。

2、正则表达改善了按照固定分割符进行数据格式化提取需要建立非常多个模型的问题，但同样的带来的一些问题，在数据格式化提取时需要编写好正则表达式，并将该表达式应用于不同的数据源，需要人员对所有的数据都进行人工分析，并按照所有的数据格式编写满足所有条件的正则表达式，这会造成数据的提取的错误率提高，不能真正完全的提取需要的数据，往往会参插错误的数据，造成分析工作的难度及准确性。

3、在数据分析过程中，分析人员对于数据的分析需求往往都集中在几个固定的字段上，不需要对所有的数据都进行提取分析，而现有的技术需要对数据进行分析后才进行建模，时间上需要一定的时间，无法满足快速的数据接入后即可分析的需求。

发明内容

本发明所要解决的技术问题是提供一种基于模型库的智能数据提取方法，能够提高识别格式化的效率，无需对数据进行建模，并可以根据分析需求方便地进行模型更新。

本发明为解决上述技术问题而采用的技术方案是提供一种基于模型库的智能数据提取方法，包括如下步骤：a)预先定义多个数据模型，并为每个模型的每个字段设置特征，形成模型库的字段特征；b)对待提取数据源的样本数据进行数据特征提取并过滤掉特征相同的数据；c)将提取到的数据源的特征样本与模型库的字段特征进行特征匹配，选取特征匹配度最高的模型作为该数据源的特征模型；d)根据选定的数据模型对数据源进行格式化提取。

上述的基于模型库的智能数据提取方法，其中，所述步骤b)包括如下过程：将输入的数据源的样本数据按照行的方式进行数据读取，将每行数据中连续的英文字母或数字，当为一个字符处理，并将字母全部采用s字母代替，数字则采用d替代，输出每行数据的特征格式，并缓存在内存中；循环遍历所有的样本数据，当某一行的样本数据的特征格式已经存在于缓存中时，则过滤掉该行的样本数据。

上述的基于模型库的智能数据提取方法，其中，所述步骤c)通过字符查找算法，将模型库的所有字段都与特征样本进行匹配，匹配过程如下：当一条特征样本满足某一模型的所有字段时，则对于该模型在这个特征样本的评分为100分；当部分匹配时，将匹配的字段数除以该模型的总字段数再乘以100，则为该模型在这个特征样本的评分；将所有特征样本的评分累加除以特征样本的总数，得出该模型的评分，最终将评分最高的模型定义为该数据源的数据模型。

上述的基于模型库的智能数据提取方法，其中，所述步骤d)循环读取输入的数据源，按照选定模型的字段特征与数据源进行匹配，满足该特征的值则将数据赋值为该字段的值，不满足则将该字段赋值为空，遍历完模型的所有字段后将模型数据输出，完成数据提取。

本发明对比现有技术有如下的有益效果：本发明提供的基于模型库的智能数据提取方法，通过特征抽取和特征匹配评分完成数据提取，提高识别格式化的效率，无需对数据进行建模，并可以根据分析需求方便地进行模型更新。

附图说明

图1为本发明基于模型库的智能数据提取流程图；

图2为本发明的特征匹配流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的描述。

图1为本发明基于模型库的智能数据提取流程图。

请参见图1，本发明提供的基于模型库的智能数据提取方法，包括如下步骤：

步骤S1：预先定义多个数据模型，并为每个模型的每个字段设置特征，形成模型库的字段特征；模型的建立是基于目前市场上比较常用的分析模型进行建立的。并且根据不同的行业可以对模型进行调整，满足不同行业的数据提取需求；

步骤S2：对待提取数据源的样本数据进行数据特征提取并过滤掉特征相同的数据；通过对相同的特征值数据进行过滤，减少特征值得样本数据，提高识别格式化的效率；

步骤S3：将提取到的数据源的特征样本与模型库的字段特征进行特征匹配，选取特征匹配度最高的模型作为该数据源的特征模型；模型字段特征与数据特征的匹配度可以按照规则进行评分，然后根据评分结果选择最满足该数据的模型；

步骤S4：根据选定的数据模型对数据源进行格式化提取。

本发明基于现有的模型库进行特征匹配并进行数据提取，对输入的数据源进行全面的遍历扫描，输出所有的数据的特征值，对于相同的特征值则进行过滤，减少特征样本，以提高特征匹配的效率。循环遍历特征值样本，将样本与模型库中的模型进行特征匹配，按照匹配度进行评分，最终所有的经过特征样本评分后，选择评分最高的模型，作为该数据源的数据模型。

确定数据模型后，后续该数据源的数据都按照这个数据模型进行数据提取，数据的每一行数据都会与模型字段进行特征匹配。字段特征与数据特征可以匹配的则将该字段进行赋值，不匹配的字段则输出为空，最终将所有的数据都按照该模型进行提取。

下面对本发明的三个主要步骤：特征抽取、特征匹配评分和数据提取做进一步的解释说明。

1、特征抽取

将输入的数据源按照行的方式进行数据读取，将每行数据中连续的英文字母或数字，当为一个字符处理，并将字母全部采用s字母代替，数字则采用d替代，输出每行数据的特征格式，并缓存在内存中，循环遍历所有的数据源，当数据源的特征格式已经在缓存中可以匹配到时，则将该条特征数据过滤掉。保障特征样本的唯一性。

例如输入的数据源为：10.202.0.11--[22/Jun/2016:10:55:06+0800]"POST/mvq/json/getCdrData.action HTTP/1.1"200 1702时，其输出特征值为：d.d.d.d--[d/s/d:d:d:d+d]"s/s/s/s.s s/d.d"d d。

2、特征匹配评分

请参见图2，将数据源的特征样本和模型库中的模型字段进行特征匹配，模型字段定义时会设置该字段的特征值，通过字符查找算法，将模型的所有字段都与特征样本进行匹配，评分方式为：当该模型定义为8个字段时，第一条特征样本满足该模型的所有字段时，则对于该模型在这个特征样本的评分为100分，当部分匹配时，则将匹配中的字段数除以模型的总字段数在乘以100，则为该模型在这个特征样本的评分。最终将所有的分数累加除以特征样本的总数，得出该模型的评分。并最终将评分最高的模型定义为该数据源的数据模型。

3、数据提取

循环读取输入的数据源，将已经匹配到的模型，按照模型的字段里面的特征规则与数据源进行匹配，满足该特征的值则将数据赋值为该字段的值，不满足则将该字段赋值为空，遍历完模型的所有字段，后将模型数据输出，即可以将所需的数据提取出来。

综上所述，本发明提供的基于模型库的智能数据提取方法，通过特征抽取和特征匹配评分完成数据提取，提高识别格式化的效率，具体优点如下：1)按照已有的模型进行数据提取，达到无需对数据进行建模。2)自动智能提取数据的格式，并匹配最适合该数据的模型。3)只抽取模型定义的字段用于分析，减少数据的存储空间。4)可以根据分析需求进行模型更新，通过业务驱动数据的提取。

虽然本发明已以较佳实施例揭示如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的修改和完善，因此本发明的保护范围当以权利要求书所界定的为准。

Claims

1.一种基于模型库的智能数据提取方法，其特征在于，包括如下步骤：

a) 预先定义多个数据模型，并为每个模型的每个字段设置特征，形成模型库的字段特征；

b)对待提取数据源的样本数据进行数据特征提取并过滤掉特征相同的数据；

c)将提取到的数据源的特征样本与模型库的字段特征进行特征匹配，选取特征匹配度最高的模型作为该数据源的特征模型；

d)根据选定的数据模型对数据源进行格式化提取；

所述步骤b)包括如下过程：

将输入的数据源的样本数据按照行的方式进行数据读取，将每行数据中连续的英文字母或数字，当为一个字符处理，并将字母全部采用s字母代替，数字则采用d替代，输出每行数据的特征格式，并缓存在内存中；循环遍历所有的样本数据，当某一行的样本数据的特征格式已经存在于缓存中时，则过滤掉该行的样本数据。

2.如权利要求1所述的基于模型库的智能数据提取方法，其特征在于，所述步骤c)通过字符查找算法，将模型库的所有字段都与特征样本进行匹配，匹配过程如下：当一条特征样本满足某一模型的所有字段时，则对于该模型在这个特征样本的评分为100分；当部分匹配时，将匹配的字段数除以该模型的总字段数再乘以100，则为该模型在这个特征样本的评分；将所有特征样本的评分累加除以特征样本的总数，得出该模型的评分，最终将评分最高的模型定义为该数据源的数据模型。

3.如权利要求1所述的基于模型库的智能数据提取方法，其特征在于，所述步骤d)循环读取输入的数据源，按照选定模型的字段特征与数据源进行匹配，满足该特征的值则将数据赋值为该字段的值，不满足则将该字段赋值为空，遍历完模型的所有字段后将模型数据输出，完成数据提取。