CN110851675B

CN110851675B - 一种数据提取方法、装置及介质

Info

Publication number: CN110851675B
Application number: CN201910960391.4A
Authority: CN
Inventors: 王海滨; 王存远; 周成祖; 林文楷; 鄢小征; 朱海勇
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2022-05-17
Anticipated expiration: 2039-10-10
Also published as: CN110851675A

Abstract

本发明提供了一种数据提取方法、装置及存储介质，基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取，该方法首先从多个数据源中获取海量的数据后进行聚类，并为聚类后的每一类别数据设置唯一的数据标签；然后根据所述数据标签判断该类别数据是否为已知类型的数据，如果是，则使用复杂特征自适应匹配方法对该类别数据进行特征提取，如果否，则使用可变滑动窗口方法该类别数据进行特征提取，并将结果保存在数据库中。本发明通过复杂特征自适应匹配算法精准快速地提取已知类型数据中的有价值信息，通过可变滑动窗口算法，对未知类型原始数据进行特征循环比对，减少了有价值数据的漏提比例，提升大数据分析和核心线索快速定位的能力。

Description

一种数据提取方法、装置及介质

技术领域

本发明涉及计算机数据处理技术领域，特别是一种数据提取方法、装置及存储介质。

背景技术

随着移动终端的快速发展，社会进入大数据时代，海量数据以几何层增长，每条数据中都可能包含大量有价值的信息，如虚拟身份账号、身份证号、手机号、银行卡号等关键信息，如何在海量数据入库时快速且全面地提取有价值的信息，成为提高大数据利用价值的核心点。

由于原始数据的数据量大、结构复杂等特点，目前市场上现有的数据提取方法，主要通过模板或正则表达式进行有价值数据的提取工作，这些技术存在以下不足：

数据匹配的方式，只能通过单一的模板或正则表达式进行匹配，无法全面提升复杂特征场景下的有价值数据。

数据匹配的范围，只能针对每行或指定范围读取的原始数据进行匹配，无法有效地提取分布在不同范围原始数据中的有价值数据。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种数据提取方法，该方法基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取，该方法包括：

聚类步骤，从多个数据源中获取海量的数据后进行聚类，并为聚类后的每一类别数据设置唯一的数据标签；

提取步骤，根据所述数据标签判断该类别数据是否为已知类型的数据，如果是，则使用复杂特征自适应匹配方法对该类别数据进行特征提取，得到提取结果，如果否，则使用可变滑动窗口方法该类别数据进行特征提取，得到提取结果；

保存步骤，将得到的所述提取结果保存在数据库中。

更进一步地，所述已知类型数据的类型包括视频、音频、图像和文本至少之一。

更进一步地，所述使用复杂特征自适应匹配方法对该类别数据进行特征提取的操作为：

根据数据聚类后数据类别的数据标签确定数据的类型，结合数据类型和该数据类型对应的特征规则库，调用对应的特征处理引擎Cn，并返回所述特征处理引擎Cn所提取的结果数据；

判断特征规则库中特征处理引擎Cn是否有关联比例超过设置的阀值25％的关联特征，如果有，则调取该关联特征对应的特征处理引擎Cm进行数据提取得到特征处理引擎Cm所提取的结果数据，对与特征处理引擎Cn无关联的新特征引擎或关联比例在5％-25％之间的特征引擎，进行特征比对，得到比对结果数据集，对与特征处理引擎Cn关联比例为0％-5％的特征引擎不执行比对；

将所述特征处理引擎Cn所提取的结果数据、特征处理引擎Cm所提取的结果数据及比对结果数据集进行合并得到提取结果；

根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库。

更进一步地，则使用可变滑动窗口方法该类别数据进行特征提取的操作为：

当根据所述数据标签判断该类别数据为未知类型的数据时，截取数据流的前1K和最后1K内容，并结合数据流的长度，计算该类别数据的MD5值，作为该数据流的唯一标识ID，再将该数据流划分为n个子集合组成数据集合S＝{S1，S2，…，Sn}，将标识ID和顺序号存储在数据块表里，其中n为对应子集合的顺序号，为正整数；

循环遍历数据集合S，利用特征引擎比对每个数据子集合Si的特征要素，计算Si的特征要素与特征规则库的匹配度initSinilarity，当initSinilarity达到设置阀值时，将启动滑动窗口继续进行特征比对；

根据数据流标识ID和顺序号，将特征命中的数据子集合Si与上一个数据子集合Si-1及下一个数据子集合Si+1进行合并，形成新的数据集合Mn，再利用特征引擎，比对Mn的特征要素，计算Mn的特征要素与特征规则库的匹配度upSinilarity，当upSinilarity为1或upSinilarity＝initSinilarity时,则利用特征提取引擎提取Mn的有价值信息，当upSinilarity小于1且upSinilarity>initSinilarity,则Mn继续合并数据子集合Si-2及Si+2，循环执行直至循环至第一个数据子集或最后一个数据子集，其中i≤n。

更进一步地，所述特征规则库包括以下属性字段：TZId为特征ID，tzms为特征描述，xshz为相似阀值，gltz为关联特征，通过该字段获得关联特征对应的关联特征处理引擎，glbl为关联比例，zt为状态，Ywzd为业务代码，dataSource为数据来源，dataType为数据标签，表示该类别数据的类型，clyc为特征处理引擎，Bz为备注；

其中，zt＝0表示不可用，zt＝1表示可用。

本发明还提出了一种数据提取装置，该装置基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取，该装置包括：

聚类单元，从多个数据源中获取海量的数据后进行聚类，并为聚类后的每一类别数据设置唯一的数据标签；

提取单元，根据所述数据标签判断该类别数据是否为已知类型的数据，如果是，则使用复杂特征自适应匹配方法对该类别数据进行特征提取，得到提取结果，如果否，则使用可变滑动窗口方法该类别数据进行特征提取，得到提取结果；

保存单元，将得到的所述提取结果保存在数据库中。

根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库。

其中，zt＝0表示不可用，zt＝1表示可用。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的数据提取方法，基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取，该方法首先从多个数据源中获取海量的数据后进行聚类，并为聚类后的每一类别数据设置唯一的数据标签；然后根据所述数据标签判断该类别数据是否为已知类型的数据，如果是，则使用复杂特征自适应匹配方法对该类别数据进行特征提取，得到提取结果，如果否，则使用可变滑动窗口方法该类别数据进行特征提取，得到提取结果并保存在数据库中。本发明通过复杂特征自适应匹配算法精准快速地提取已知类型数据中的有价值信息，通过可变滑动窗口算法，对未知类型原始数据进行特征循环比对，直至命中，减少有价值数据的漏提比例，提升大数据分析和核心线索快速定位的能力，并提出了针对具体的应用场景的复杂特征自适应匹配方法和可变滑动窗口方法。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种数据提取方法的流程图。

图2是根据本发明的实施例的一种数据提取装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种数据提取方法，该方法基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取，该方法包括：

聚类步骤S101，从多个数据源中获取海量的数据后进行聚类，并为聚类后的每一类别数据设置唯一的数据标签；数据源可以用户的上网记录、搜索记录、网上支付记录、社交记录等等，本发明的聚类采用成熟的聚类算法，数据标签可以反应数据的类型，如聚类后的数据标签为图片、文本、音频、视频等等，无法确定数据类型的数据聚为一类，称为数据流。

提取步骤S102，根据所述数据标签判断该类别数据是否为已知类型的数据，如果是，则使用复杂特征自适应匹配方法对该类别数据进行特征提取，得到提取结果，如果否，则使用可变滑动窗口方法该类别数据进行特征提取，得到提取结果；其通过复杂特征自适应匹配算法精准快速地提取已知类型数据中的有价值信息，通过可变滑动窗口算法，对未知类型原始数据进行特征循环比对，直至命中，减少有价值数据的漏提比例，提升大数据分析和核心线索快速定位的能力，这是本发明的重要发明点之一。

保存步骤S103，将得到的所述提取结果保存在数据库中，以方便后续的使用。

在一个具体的实施例中，由于原始数据往往格式复杂，具有二个或二个以上的复杂特征，如一个文件可能同时包含视频、音频、图像和文本四种类型的特征，采用单一的特征匹配方式，会存在执行效率低下，有效数据提取不全等问题，提出了复杂特征自适应匹配方法，其采用概率分布算法，计算不同特征在不同业务场景下同时出现的概率，再自动匹配处理引擎，提高复杂特征数据的有价值数据的提取效率，这是本发明的另一个重要发明点，具体的使用复杂特征自适应匹配方法对该类别数据进行特征提取的操作如下：

根据数据聚类后数据类别的数据标签确定数据的类型，结合数据类型和该数据类型对应的特征规则库，调用对应的特征处理引擎Cn，并返回所述特征处理引擎Cn所提取的结果数据；如通过数据标签确定数据类型为图片，则Cn为图片识别引擎。

判断特征规则库中特征处理引擎Cn是否有关联比例超过设置的阀值25％的关联特征，即该阈值为25％，比如与图片关联的文本特征超过了阈值25％(通过下表1获得)，如果有，则调取该关联特征对应的特征处理引擎Cm(即文本处理引擎)进行数据提取得到特征处理引擎Cm所提取的结果数据，对与特征处理引擎Cn无关联的新特征引擎或关联比例在5％-25％之间的特征引擎，进行特征比对，得到比对结果数据集，即对这些关联度不高的特征，使用对应的特征引擎进行完全比对，而不是通过计算特征之间的匹配度进行特征提取，以提高提取特征的准确性，对与特征处理引擎Cn关联比例为0％-5％的特征引擎不执行比对，即这部分特征关联度太低，容易引入噪声，导致提取的数据不准确。

将所述特征处理引擎Cn所提取的结果数据、特征处理引擎Cm所提取的结果数据及比对结果数据集进行合并得到提取结果。

根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库，以循环提高复杂特征自适应匹配的能力。

定义的特征规则库如表1所示。

属性名称	属性描述	备注
			TZId	特征ID
tzms	特征描述
			xshz	相似阀值	默认为50％
gltz	关联特征	关联特征对应的id
			glbl	关联比例
zt	状态	0-不可用,1-可用
			Ywzd	业务代码
dataSource	数据来源
			dataType	类型标签
clyc	处理引擎
			Bz	备注

表1中各字段的含义为：TZId为特征ID，tzms为特征描述，xshz为相似阀值，gltz为关联特征，通过该字段获得关联特征对应的关联特征处理引擎，glbl为关联比例，zt为状态，Ywzd为业务代码，dataSource为数据来源，dataType为数据标签，表示该类别数据的类型，clyc为特征处理引擎，Bz为备注；其中，zt＝0表示不可用，zt＝1表示可用。

对于从未知类型的数据中提出有价值数据，本方法通过数据块标识、特征模糊匹配、可变滑动窗口等方法，将有关联的数据块进行合并提取，提高有价值数据的提取效率和准确性，具体使用可变滑动窗口方法该类别数据进行特征提取的操作如下：

当根据所述数据标签判断该类别数据为未知类型的数据时，截取数据流的前1K和最后1K内容，并结合数据流的长度，计算该类别数据的MD5值，作为该数据流的唯一标识ID，再将该数据流划分为n个子集合组成数据集合S＝{S1，S2，…，Sn}，将标识ID和顺序号存储在数据块表里，其中n为对应子集合的顺序号，为正整数，数据流划分为数据子集时可根据数据量的大小确定合适的划分比例，比如将10000行数据划分为一个数据子集。

循环遍历数据集合S，利用特征引擎比对每个数据子集合Si的特征要素，计算Si的特征要素与特征规则库的匹配度initSinilarity，当initSinilarity达到设置阀值时，将启动滑动窗口继续进行特征比对。

其解决了现有技术中将数据流按一定比例拆成几块，再逐一进行特征匹配，有命中再进行数据提取，这会导致由于特征要素分布在不同数据块内，而无法有效命中特征的技术问题，是本发明的另一个重要发明点。

图2示出了本发明的一种数据提取装置，该装置基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取，该装置包括：

聚类单元201，从多个数据源中获取海量的数据后进行聚类，并为聚类后的每一类别数据设置唯一的数据标签；数据源可以用户的上网记录、搜索记录、网上支付记录、社交记录等等，本发明的聚类采用成熟的聚类算法，数据标签可以反应数据的类型，如聚类后的数据标签为图片、文本、音频、视频等等，无法确定数据类型的数据聚为一类，称为数据流。

提取单元202，根据所述数据标签判断该类别数据是否为已知类型的数据，如果是，则使用复杂特征自适应匹配方法对该类别数据进行特征提取，得到提取结果，如果否，则使用可变滑动窗口方法该类别数据进行特征提取，得到提取结果；其通过复杂特征自适应匹配算法精准快速地提取已知类型数据中的有价值信息，通过可变滑动窗口算法，对未知类型原始数据进行特征循环比对，直至命中，减少有价值数据的漏提比例，提升大数据分析和核心线索快速定位的能力，这是本发明的重要发明点之一。

保存单元203，将得到的所述提取结果保存在数据库中，以方便后续的使用。

定义的特征规则库如表1所示。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种数据提取方法，该方法基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取，其特征在于，该方法包括：

提取步骤，根据所述数据标签判断该类别数据是否为已知类型的数据，如果是，则使用复杂特征自适应匹配方法对该类别数据进行特征提取，得到提取结果，如果否，则使用可变滑动窗口方法对该类别数据进行特征提取，得到提取结果；

保存步骤，将得到的所述提取结果保存在数据库中；

其中，所述使用复杂特征自适应匹配方法对该类别数据进行特征提取的操作为：

判断特征规则库中特征处理引擎Cn是否有关联比例超过设置的阈值25%的关联特征，如果有，则调取该关联特征对应的特征处理引擎Cm进行数据提取得到特征处理引擎Cm所提取的结果数据，对与特征处理引擎Cn无关联的新特征处理引擎或关联比例在5%-25%之间的特征处理引擎，进行特征比对，得到比对结果数据集，对与特征处理引擎Cn关联比例为0%-5%的特征处理引擎不执行比对；

根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库；

使用可变滑动窗口方法对该类别数据进行特征提取的操作为：

当根据所述数据标签判断该类别数据为未知类型的数据时，截取数据流的前1K和最后1K内容，并结合数据流的长度，计算该类别数据的MD5值，作为该数据流的唯一标识ID，再将该数据流划分为n个子集合组成数据集合S={S 1 ， S 2 ，…， Sn} ，将标识ID和顺序号存储在数据块表里，其中n为对应子集合的顺序号，为正整数；

循环遍历数据集合S，利用特征处理引擎比对每个数据子集合Si的特征要素，计算Si的特征要素与特征规则库的匹配度initSinilarity，当initSinilarity达到设置阈值时，将启动滑动窗口继续进行特征比对；

根据数据流标识ID和顺序号，将特征命中的数据子集合Si与上一个数据子集合Si-1及下一个数据子集合Si+1进行合并，形成新的数据集合Mn，再利用特征处理引擎，比对Mn的特征要素，计算Mn的特征要素与特征规则库的匹配度upSinilarity，当upSinilarity为1或upSinilarity＝initSinilarity时,则利用特征提取引擎提取Mn的有价值信息，当upSinilarity小于1且upSinilarity>initSinilarity,则Mn继续合并数据子集合Si-2及Si+2，循环执行直至循环至第一个数据子集或最后一个数据子集，其中i≤n。

2.根据权利要求1所述的方法，其特征在于，所述已知类型的数据的类型包括视频、音频、图像和文本至少之一。

3.根据权利要求1所述的方法，其特征在于，所述特征规则库包括以下属性字段：TZId为特征ID，tzms为特征描述，xshz为相似阈值，gltz为关联特征，通过该字段获得关联特征对应的关联特征处理引擎，glbl为关联比例，zt为状态，Ywzd 为业务代码，dataSource为数据来源，dataType为数据标签，表示该类别数据的类型，clyc为特征处理引擎，Bz为备注；

其中，zt=0表示不可用，zt=1表示可用。

4.一种数据提取装置，该装置基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取，其特征在于，该装置包括：

提取单元，根据所述数据标签判断该类别数据是否为已知类型的数据，如果是，则使用复杂特征自适应匹配方法对该类别数据进行特征提取，得到提取结果，如果否，则使用可变滑动窗口方法对该类别数据进行特征提取，得到提取结果；

保存单元，将得到的所述提取结果保存在数据库中；

根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库；

5.根据权利要求4所述的装置，其特征在于，所述已知类型数据的类型包括视频、音频、图像和文本至少之一。

6.根据权利要求4所述的装置，其特征在于，所述特征规则库包括以下属性字段：TZId为特征ID，tzms为特征描述，xshz为相似阈值，gltz为关联特征，通过该字段获得关联特征对应的关联特征处理引擎，glbl为关联比例，zt为状态，Ywzd 为业务代码，dataSource为数据来源，dataType为数据标签，表示该类别数据的类型，clyc为特征处理引擎，Bz为备注；

其中，zt=0表示不可用，zt=1表示可用。

7.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行权利要求1-3之任一的方法。