CN110851675B - 一种数据提取方法、装置及介质 - Google Patents

一种数据提取方法、装置及介质 Download PDF

Info

Publication number
CN110851675B
CN110851675B CN201910960391.4A CN201910960391A CN110851675B CN 110851675 B CN110851675 B CN 110851675B CN 201910960391 A CN201910960391 A CN 201910960391A CN 110851675 B CN110851675 B CN 110851675B
Authority
CN
China
Prior art keywords
data
feature
characteristic
processing engine
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910960391.4A
Other languages
English (en)
Other versions
CN110851675A (zh
Inventor
王海滨
王存远
周成祖
林文楷
鄢小征
朱海勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201910960391.4A priority Critical patent/CN110851675B/zh
Publication of CN110851675A publication Critical patent/CN110851675A/zh
Application granted granted Critical
Publication of CN110851675B publication Critical patent/CN110851675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据提取方法、装置及存储介质,基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取,该方法首先从多个数据源中获取海量的数据后进行聚类,并为聚类后的每一类别数据设置唯一的数据标签;然后根据所述数据标签判断该类别数据是否为已知类型的数据,如果是,则使用复杂特征自适应匹配方法对该类别数据进行特征提取,如果否,则使用可变滑动窗口方法该类别数据进行特征提取,并将结果保存在数据库中。本发明通过复杂特征自适应匹配算法精准快速地提取已知类型数据中的有价值信息,通过可变滑动窗口算法,对未知类型原始数据进行特征循环比对,减少了有价值数据的漏提比例,提升大数据分析和核心线索快速定位的能力。

Description

一种数据提取方法、装置及介质
技术领域
本发明涉及计算机数据处理技术领域,特别是一种数据提取方法、装置及存储介质。
背景技术
随着移动终端的快速发展,社会进入大数据时代,海量数据以几何层增长,每条数据中都可能包含大量有价值的信息,如虚拟身份账号、身份证号、手机号、银行卡号等关键信息,如何在海量数据入库时快速且全面地提取有价值的信息,成为提高大数据利用价值的核心点。
由于原始数据的数据量大、结构复杂等特点,目前市场上现有的数据提取方法,主要通过模板或正则表达式进行有价值数据的提取工作,这些技术存在以下不足:
数据匹配的方式,只能通过单一的模板或正则表达式进行匹配,无法全面提升复杂特征场景下的有价值数据。
数据匹配的范围,只能针对每行或指定范围读取的原始数据进行匹配,无法有效地提取分布在不同范围原始数据中的有价值数据。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种数据提取方法,该方法基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取,该方法包括:
聚类步骤,从多个数据源中获取海量的数据后进行聚类,并为聚类后的每一类别数据设置唯一的数据标签;
提取步骤,根据所述数据标签判断该类别数据是否为已知类型的数据,如果是,则使用复杂特征自适应匹配方法对该类别数据进行特征提取,得到提取结果,如果否,则使用可变滑动窗口方法该类别数据进行特征提取,得到提取结果;
保存步骤,将得到的所述提取结果保存在数据库中。
更进一步地,所述已知类型数据的类型包括视频、音频、图像和文本至少之一。
更进一步地,所述使用复杂特征自适应匹配方法对该类别数据进行特征提取的操作为:
根据数据聚类后数据类别的数据标签确定数据的类型,结合数据类型和该数据类型对应的特征规则库,调用对应的特征处理引擎Cn,并返回所述特征处理引擎Cn所提取的结果数据;
判断特征规则库中特征处理引擎Cn是否有关联比例超过设置的阀值25%的关联特征,如果有,则调取该关联特征对应的特征处理引擎Cm进行数据提取得到特征处理引擎Cm所提取的结果数据,对与特征处理引擎Cn无关联的新特征引擎或关联比例在5%-25%之间的特征引擎,进行特征比对,得到比对结果数据集,对与特征处理引擎Cn关联比例为0%-5%的特征引擎不执行比对;
将所述特征处理引擎Cn所提取的结果数据、特征处理引擎Cm所提取的结果数据及比对结果数据集进行合并得到提取结果;
根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库。
更进一步地,则使用可变滑动窗口方法该类别数据进行特征提取的操作为:
当根据所述数据标签判断该类别数据为未知类型的数据时,截取数据流的前1K和最后1K内容,并结合数据流的长度,计算该类别数据的MD5值,作为该数据流的唯一标识ID,再将该数据流划分为n个子集合组成数据集合S={S1,S2,…,Sn},将标识ID和顺序号存储在数据块表里,其中n为对应子集合的顺序号,为正整数;
循环遍历数据集合S,利用特征引擎比对每个数据子集合Si的特征要素,计算Si的特征要素与特征规则库的匹配度initSinilarity,当initSinilarity达到设置阀值时,将启动滑动窗口继续进行特征比对;
根据数据流标识ID和顺序号,将特征命中的数据子集合Si与上一个数据子集合Si-1及下一个数据子集合Si+1进行合并,形成新的数据集合Mn,再利用特征引擎,比对Mn的特征要素,计算Mn的特征要素与特征规则库的匹配度upSinilarity,当upSinilarity为1或upSinilarity=initSinilarity时,则利用特征提取引擎提取Mn的有价值信息,当upSinilarity小于1且upSinilarity>initSinilarity,则Mn继续合并数据子集合Si-2及Si+2,循环执行直至循环至第一个数据子集或最后一个数据子集,其中i≤n。
更进一步地,所述特征规则库包括以下属性字段:TZId为特征ID,tzms为特征描述,xshz为相似阀值,gltz为关联特征,通过该字段获得关联特征对应的关联特征处理引擎,glbl为关联比例,zt为状态,Ywzd为业务代码,dataSource为数据来源,dataType为数据标签,表示该类别数据的类型,clyc为特征处理引擎,Bz为备注;
其中,zt=0表示不可用,zt=1表示可用。
本发明还提出了一种数据提取装置,该装置基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取,该装置包括:
聚类单元,从多个数据源中获取海量的数据后进行聚类,并为聚类后的每一类别数据设置唯一的数据标签;
提取单元,根据所述数据标签判断该类别数据是否为已知类型的数据,如果是,则使用复杂特征自适应匹配方法对该类别数据进行特征提取,得到提取结果,如果否,则使用可变滑动窗口方法该类别数据进行特征提取,得到提取结果;
保存单元,将得到的所述提取结果保存在数据库中。
更进一步地,所述已知类型数据的类型包括视频、音频、图像和文本至少之一。
更进一步地,所述使用复杂特征自适应匹配方法对该类别数据进行特征提取的操作为:
根据数据聚类后数据类别的数据标签确定数据的类型,结合数据类型和该数据类型对应的特征规则库,调用对应的特征处理引擎Cn,并返回所述特征处理引擎Cn所提取的结果数据;
判断特征规则库中特征处理引擎Cn是否有关联比例超过设置的阀值25%的关联特征,如果有,则调取该关联特征对应的特征处理引擎Cm进行数据提取得到特征处理引擎Cm所提取的结果数据,对与特征处理引擎Cn无关联的新特征引擎或关联比例在5%-25%之间的特征引擎,进行特征比对,得到比对结果数据集,对与特征处理引擎Cn关联比例为0%-5%的特征引擎不执行比对;
将所述特征处理引擎Cn所提取的结果数据、特征处理引擎Cm所提取的结果数据及比对结果数据集进行合并得到提取结果;
根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库。
更进一步地,则使用可变滑动窗口方法该类别数据进行特征提取的操作为:
当根据所述数据标签判断该类别数据为未知类型的数据时,截取数据流的前1K和最后1K内容,并结合数据流的长度,计算该类别数据的MD5值,作为该数据流的唯一标识ID,再将该数据流划分为n个子集合组成数据集合S={S1,S2,…,Sn},将标识ID和顺序号存储在数据块表里,其中n为对应子集合的顺序号,为正整数;
循环遍历数据集合S,利用特征引擎比对每个数据子集合Si的特征要素,计算Si的特征要素与特征规则库的匹配度initSinilarity,当initSinilarity达到设置阀值时,将启动滑动窗口继续进行特征比对;
根据数据流标识ID和顺序号,将特征命中的数据子集合Si与上一个数据子集合Si-1及下一个数据子集合Si+1进行合并,形成新的数据集合Mn,再利用特征引擎,比对Mn的特征要素,计算Mn的特征要素与特征规则库的匹配度upSinilarity,当upSinilarity为1或upSinilarity=initSinilarity时,则利用特征提取引擎提取Mn的有价值信息,当upSinilarity小于1且upSinilarity>initSinilarity,则Mn继续合并数据子集合Si-2及Si+2,循环执行直至循环至第一个数据子集或最后一个数据子集,其中i≤n。
更进一步地,所述特征规则库包括以下属性字段:TZId为特征ID,tzms为特征描述,xshz为相似阀值,gltz为关联特征,通过该字段获得关联特征对应的关联特征处理引擎,glbl为关联比例,zt为状态,Ywzd为业务代码,dataSource为数据来源,dataType为数据标签,表示该类别数据的类型,clyc为特征处理引擎,Bz为备注;
其中,zt=0表示不可用,zt=1表示可用。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的数据提取方法,基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取,该方法首先从多个数据源中获取海量的数据后进行聚类,并为聚类后的每一类别数据设置唯一的数据标签;然后根据所述数据标签判断该类别数据是否为已知类型的数据,如果是,则使用复杂特征自适应匹配方法对该类别数据进行特征提取,得到提取结果,如果否,则使用可变滑动窗口方法该类别数据进行特征提取,得到提取结果并保存在数据库中。本发明通过复杂特征自适应匹配算法精准快速地提取已知类型数据中的有价值信息,通过可变滑动窗口算法,对未知类型原始数据进行特征循环比对,直至命中,减少有价值数据的漏提比例,提升大数据分析和核心线索快速定位的能力,并提出了针对具体的应用场景的复杂特征自适应匹配方法和可变滑动窗口方法。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种数据提取方法的流程图。
图2是根据本发明的实施例的一种数据提取装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种数据提取方法,该方法基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取,该方法包括:
聚类步骤S101,从多个数据源中获取海量的数据后进行聚类,并为聚类后的每一类别数据设置唯一的数据标签;数据源可以用户的上网记录、搜索记录、网上支付记录、社交记录等等,本发明的聚类采用成熟的聚类算法,数据标签可以反应数据的类型,如聚类后的数据标签为图片、文本、音频、视频等等,无法确定数据类型的数据聚为一类,称为数据流。
提取步骤S102,根据所述数据标签判断该类别数据是否为已知类型的数据,如果是,则使用复杂特征自适应匹配方法对该类别数据进行特征提取,得到提取结果,如果否,则使用可变滑动窗口方法该类别数据进行特征提取,得到提取结果;其通过复杂特征自适应匹配算法精准快速地提取已知类型数据中的有价值信息,通过可变滑动窗口算法,对未知类型原始数据进行特征循环比对,直至命中,减少有价值数据的漏提比例,提升大数据分析和核心线索快速定位的能力,这是本发明的重要发明点之一。
保存步骤S103,将得到的所述提取结果保存在数据库中,以方便后续的使用。
在一个具体的实施例中,由于原始数据往往格式复杂,具有二个或二个以上的复杂特征,如一个文件可能同时包含视频、音频、图像和文本四种类型的特征,采用单一的特征匹配方式,会存在执行效率低下,有效数据提取不全等问题,提出了复杂特征自适应匹配方法,其采用概率分布算法,计算不同特征在不同业务场景下同时出现的概率,再自动匹配处理引擎,提高复杂特征数据的有价值数据的提取效率,这是本发明的另一个重要发明点,具体的使用复杂特征自适应匹配方法对该类别数据进行特征提取的操作如下:
根据数据聚类后数据类别的数据标签确定数据的类型,结合数据类型和该数据类型对应的特征规则库,调用对应的特征处理引擎Cn,并返回所述特征处理引擎Cn所提取的结果数据;如通过数据标签确定数据类型为图片,则Cn为图片识别引擎。
判断特征规则库中特征处理引擎Cn是否有关联比例超过设置的阀值25%的关联特征,即该阈值为25%,比如与图片关联的文本特征超过了阈值25%(通过下表1获得),如果有,则调取该关联特征对应的特征处理引擎Cm(即文本处理引擎)进行数据提取得到特征处理引擎Cm所提取的结果数据,对与特征处理引擎Cn无关联的新特征引擎或关联比例在5%-25%之间的特征引擎,进行特征比对,得到比对结果数据集,即对这些关联度不高的特征,使用对应的特征引擎进行完全比对,而不是通过计算特征之间的匹配度进行特征提取,以提高提取特征的准确性,对与特征处理引擎Cn关联比例为0%-5%的特征引擎不执行比对,即这部分特征关联度太低,容易引入噪声,导致提取的数据不准确。
将所述特征处理引擎Cn所提取的结果数据、特征处理引擎Cm所提取的结果数据及比对结果数据集进行合并得到提取结果。
根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库,以循环提高复杂特征自适应匹配的能力。
定义的特征规则库如表1所示。
属性名称 属性描述 备注
TZId 特征ID
tzms 特征描述
xshz 相似阀值 默认为50%
gltz 关联特征 关联特征对应的id
glbl 关联比例
zt 状态 0-不可用,1-可用
Ywzd 业务代码
dataSource 数据来源
dataType 类型标签
clyc 处理引擎
Bz 备注
表1中各字段的含义为:TZId为特征ID,tzms为特征描述,xshz为相似阀值,gltz为关联特征,通过该字段获得关联特征对应的关联特征处理引擎,glbl为关联比例,zt为状态,Ywzd为业务代码,dataSource为数据来源,dataType为数据标签,表示该类别数据的类型,clyc为特征处理引擎,Bz为备注;其中,zt=0表示不可用,zt=1表示可用。
对于从未知类型的数据中提出有价值数据,本方法通过数据块标识、特征模糊匹配、可变滑动窗口等方法,将有关联的数据块进行合并提取,提高有价值数据的提取效率和准确性,具体使用可变滑动窗口方法该类别数据进行特征提取的操作如下:
当根据所述数据标签判断该类别数据为未知类型的数据时,截取数据流的前1K和最后1K内容,并结合数据流的长度,计算该类别数据的MD5值,作为该数据流的唯一标识ID,再将该数据流划分为n个子集合组成数据集合S={S1,S2,…,Sn},将标识ID和顺序号存储在数据块表里,其中n为对应子集合的顺序号,为正整数,数据流划分为数据子集时可根据数据量的大小确定合适的划分比例,比如将10000行数据划分为一个数据子集。
循环遍历数据集合S,利用特征引擎比对每个数据子集合Si的特征要素,计算Si的特征要素与特征规则库的匹配度initSinilarity,当initSinilarity达到设置阀值时,将启动滑动窗口继续进行特征比对。
根据数据流标识ID和顺序号,将特征命中的数据子集合Si与上一个数据子集合Si-1及下一个数据子集合Si+1进行合并,形成新的数据集合Mn,再利用特征引擎,比对Mn的特征要素,计算Mn的特征要素与特征规则库的匹配度upSinilarity,当upSinilarity为1或upSinilarity=initSinilarity时,则利用特征提取引擎提取Mn的有价值信息,当upSinilarity小于1且upSinilarity>initSinilarity,则Mn继续合并数据子集合Si-2及Si+2,循环执行直至循环至第一个数据子集或最后一个数据子集,其中i≤n。
其解决了现有技术中将数据流按一定比例拆成几块,再逐一进行特征匹配,有命中再进行数据提取,这会导致由于特征要素分布在不同数据块内,而无法有效命中特征的技术问题,是本发明的另一个重要发明点。
图2示出了本发明的一种数据提取装置,该装置基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取,该装置包括:
聚类单元201,从多个数据源中获取海量的数据后进行聚类,并为聚类后的每一类别数据设置唯一的数据标签;数据源可以用户的上网记录、搜索记录、网上支付记录、社交记录等等,本发明的聚类采用成熟的聚类算法,数据标签可以反应数据的类型,如聚类后的数据标签为图片、文本、音频、视频等等,无法确定数据类型的数据聚为一类,称为数据流。
提取单元202,根据所述数据标签判断该类别数据是否为已知类型的数据,如果是,则使用复杂特征自适应匹配方法对该类别数据进行特征提取,得到提取结果,如果否,则使用可变滑动窗口方法该类别数据进行特征提取,得到提取结果;其通过复杂特征自适应匹配算法精准快速地提取已知类型数据中的有价值信息,通过可变滑动窗口算法,对未知类型原始数据进行特征循环比对,直至命中,减少有价值数据的漏提比例,提升大数据分析和核心线索快速定位的能力,这是本发明的重要发明点之一。
保存单元203,将得到的所述提取结果保存在数据库中,以方便后续的使用。
在一个具体的实施例中,由于原始数据往往格式复杂,具有二个或二个以上的复杂特征,如一个文件可能同时包含视频、音频、图像和文本四种类型的特征,采用单一的特征匹配方式,会存在执行效率低下,有效数据提取不全等问题,提出了复杂特征自适应匹配方法,其采用概率分布算法,计算不同特征在不同业务场景下同时出现的概率,再自动匹配处理引擎,提高复杂特征数据的有价值数据的提取效率,这是本发明的另一个重要发明点,具体的使用复杂特征自适应匹配方法对该类别数据进行特征提取的操作如下:
根据数据聚类后数据类别的数据标签确定数据的类型,结合数据类型和该数据类型对应的特征规则库,调用对应的特征处理引擎Cn,并返回所述特征处理引擎Cn所提取的结果数据;如通过数据标签确定数据类型为图片,则Cn为图片识别引擎。
判断特征规则库中特征处理引擎Cn是否有关联比例超过设置的阀值25%的关联特征,即该阈值为25%,比如与图片关联的文本特征超过了阈值25%(通过下表1获得),如果有,则调取该关联特征对应的特征处理引擎Cm(即文本处理引擎)进行数据提取得到特征处理引擎Cm所提取的结果数据,对与特征处理引擎Cn无关联的新特征引擎或关联比例在5%-25%之间的特征引擎,进行特征比对,得到比对结果数据集,即对这些关联度不高的特征,使用对应的特征引擎进行完全比对,而不是通过计算特征之间的匹配度进行特征提取,以提高提取特征的准确性,对与特征处理引擎Cn关联比例为0%-5%的特征引擎不执行比对,即这部分特征关联度太低,容易引入噪声,导致提取的数据不准确。
将所述特征处理引擎Cn所提取的结果数据、特征处理引擎Cm所提取的结果数据及比对结果数据集进行合并得到提取结果。
根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库,以循环提高复杂特征自适应匹配的能力。
定义的特征规则库如表1所示。
属性名称 属性描述 备注
TZId 特征ID
tzms 特征描述
xshz 相似阀值 默认为50%
gltz 关联特征 关联特征对应的id
glbl 关联比例
zt 状态 0-不可用,1-可用
Ywzd 业务代码
dataSource 数据来源
dataType 类型标签
clyc 处理引擎
Bz 备注
表1中各字段的含义为:TZId为特征ID,tzms为特征描述,xshz为相似阀值,gltz为关联特征,通过该字段获得关联特征对应的关联特征处理引擎,glbl为关联比例,zt为状态,Ywzd为业务代码,dataSource为数据来源,dataType为数据标签,表示该类别数据的类型,clyc为特征处理引擎,Bz为备注;其中,zt=0表示不可用,zt=1表示可用。
对于从未知类型的数据中提出有价值数据,本方法通过数据块标识、特征模糊匹配、可变滑动窗口等方法,将有关联的数据块进行合并提取,提高有价值数据的提取效率和准确性,具体使用可变滑动窗口方法该类别数据进行特征提取的操作如下:
当根据所述数据标签判断该类别数据为未知类型的数据时,截取数据流的前1K和最后1K内容,并结合数据流的长度,计算该类别数据的MD5值,作为该数据流的唯一标识ID,再将该数据流划分为n个子集合组成数据集合S={S1,S2,…,Sn},将标识ID和顺序号存储在数据块表里,其中n为对应子集合的顺序号,为正整数,数据流划分为数据子集时可根据数据量的大小确定合适的划分比例,比如将10000行数据划分为一个数据子集。
循环遍历数据集合S,利用特征引擎比对每个数据子集合Si的特征要素,计算Si的特征要素与特征规则库的匹配度initSinilarity,当initSinilarity达到设置阀值时,将启动滑动窗口继续进行特征比对。
根据数据流标识ID和顺序号,将特征命中的数据子集合Si与上一个数据子集合Si-1及下一个数据子集合Si+1进行合并,形成新的数据集合Mn,再利用特征引擎,比对Mn的特征要素,计算Mn的特征要素与特征规则库的匹配度upSinilarity,当upSinilarity为1或upSinilarity=initSinilarity时,则利用特征提取引擎提取Mn的有价值信息,当upSinilarity小于1且upSinilarity>initSinilarity,则Mn继续合并数据子集合Si-2及Si+2,循环执行直至循环至第一个数据子集或最后一个数据子集,其中i≤n。
其解决了现有技术中将数据流按一定比例拆成几块,再逐一进行特征匹配,有命中再进行数据提取,这会导致由于特征要素分布在不同数据块内,而无法有效命中特征的技术问题,是本发明的另一个重要发明点。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种数据提取方法,该方法基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取,其特征在于,该方法包括:
聚类步骤,从多个数据源中获取海量的数据后进行聚类,并为聚类后的每一类别数据设置唯一的数据标签;
提取步骤,根据所述数据标签判断该类别数据是否为已知类型的数据,如果是,则使用复杂特征自适应匹配方法对该类别数据进行特征提取,得到提取结果,如果否,则使用可变滑动窗口方法对该类别数据进行特征提取,得到提取结果;
保存步骤,将得到的所述提取结果保存在数据库中;
其中,所述使用复杂特征自适应匹配方法对该类别数据进行特征提取的操作为:
根据数据聚类后数据类别的数据标签确定数据的类型,结合数据类型和该数据类型对应的特征规则库,调用对应的特征处理引擎Cn,并返回所述特征处理引擎Cn所提取的结果数据;
判断特征规则库中特征处理引擎Cn是否有关联比例超过设置的阈值25%的关联特征,如果有,则调取该关联特征对应的特征处理引擎Cm进行数据提取得到特征处理引擎Cm所提取的结果数据,对与特征处理引擎Cn无关联的新特征处理引擎或关联比例在5%-25%之间的特征处理引擎,进行特征比对,得到比对结果数据集,对与特征处理引擎Cn关联比例为0%-5%的特征处理引擎不执行比对;
将所述特征处理引擎Cn所提取的结果数据、特征处理引擎Cm所提取的结果数据及比对结果数据集进行合并得到提取结果;
根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库;
使用可变滑动窗口方法对该类别数据进行特征提取的操作为:
当根据所述数据标签判断该类别数据为未知类型的数据时,截取数据流的前1K和最后1K内容,并结合数据流的长度,计算该类别数据的MD5值,作为该数据流的唯一标识ID,再将该数据流划分为n个子集合组成数据集合S={S 1 , S 2 ,…, Sn} ,将标识ID和顺序号存储在数据块表里,其中n为对应子集合的顺序号,为正整数;
循环遍历数据集合S,利用特征处理引擎比对每个数据子集合Si的特征要素,计算Si的特征要素与特征规则库的匹配度initSinilarity,当initSinilarity达到设置阈值时,将启动滑动窗口继续进行特征比对;
根据数据流标识ID和顺序号,将特征命中的数据子集合Si与上一个数据子集合Si-1及下一个数据子集合Si+1进行合并,形成新的数据集合Mn,再利用特征处理引擎,比对Mn的特征要素,计算Mn的特征要素与特征规则库的匹配度upSinilarity,当upSinilarity为1或upSinilarity=initSinilarity时,则利用特征提取引擎提取Mn的有价值信息,当upSinilarity小于1且upSinilarity>initSinilarity,则Mn继续合并数据子集合Si-2及Si+2,循环执行直至循环至第一个数据子集或最后一个数据子集,其中i≤n。
2.根据权利要求1所述的方法,其特征在于,所述已知类型的数据的类型包括视频、音频、图像和文本至少之一。
3.根据权利要求1所述的方法,其特征在于,所述特征规则库包括以下属性字段:TZId为特征ID,tzms为特征描述,xshz为相似阈值,gltz为关联特征,通过该字段获得关联特征对应的关联特征处理引擎,glbl为关联比例,zt为状态,Ywzd 为业务代码,dataSource为数据来源,dataType为数据标签,表示该类别数据的类型,clyc为特征处理引擎,Bz为备注;
其中,zt=0表示不可用,zt=1表示可用。
4.一种数据提取装置,该装置基于复杂特征自适应匹配方法和可变滑动窗口方法进行数据的提取,其特征在于,该装置包括:
聚类单元,从多个数据源中获取海量的数据后进行聚类,并为聚类后的每一类别数据设置唯一的数据标签;
提取单元,根据所述数据标签判断该类别数据是否为已知类型的数据,如果是,则使用复杂特征自适应匹配方法对该类别数据进行特征提取,得到提取结果,如果否,则使用可变滑动窗口方法对该类别数据进行特征提取,得到提取结果;
保存单元,将得到的所述提取结果保存在数据库中;
其中,所述使用复杂特征自适应匹配方法对该类别数据进行特征提取的操作为:
根据数据聚类后数据类别的数据标签确定数据的类型,结合数据类型和该数据类型对应的特征规则库,调用对应的特征处理引擎Cn,并返回所述特征处理引擎Cn所提取的结果数据;
判断特征规则库中特征处理引擎Cn是否有关联比例超过设置的阈值25%的关联特征,如果有,则调取该关联特征对应的特征处理引擎Cm进行数据提取得到特征处理引擎Cm所提取的结果数据,对与特征处理引擎Cn无关联的新特征处理引擎或关联比例在5%-25%之间的特征处理引擎,进行特征比对,得到比对结果数据集,对与特征处理引擎Cn关联比例为0%-5%的特征处理引擎不执行比对;
将所述特征处理引擎Cn所提取的结果数据、特征处理引擎Cm所提取的结果数据及比对结果数据集进行合并得到提取结果;
根据特征处理引擎Cn、Cm返回的结果数据更新特征规则库;
使用可变滑动窗口方法对该类别数据进行特征提取的操作为:
当根据所述数据标签判断该类别数据为未知类型的数据时,截取数据流的前1K和最后1K内容,并结合数据流的长度,计算该类别数据的MD5值,作为该数据流的唯一标识ID,再将该数据流划分为n个子集合组成数据集合S={S 1 , S 2 ,…, Sn} ,将标识ID和顺序号存储在数据块表里,其中n为对应子集合的顺序号,为正整数;
循环遍历数据集合S,利用特征处理引擎比对每个数据子集合Si的特征要素,计算Si的特征要素与特征规则库的匹配度initSinilarity,当initSinilarity达到设置阈值时,将启动滑动窗口继续进行特征比对;
根据数据流标识ID和顺序号,将特征命中的数据子集合Si与上一个数据子集合Si-1及下一个数据子集合Si+1进行合并,形成新的数据集合Mn,再利用特征处理引擎,比对Mn的特征要素,计算Mn的特征要素与特征规则库的匹配度upSinilarity,当upSinilarity为1或upSinilarity=initSinilarity时,则利用特征提取引擎提取Mn的有价值信息,当upSinilarity小于1且upSinilarity>initSinilarity,则Mn继续合并数据子集合Si-2及Si+2,循环执行直至循环至第一个数据子集或最后一个数据子集,其中i≤n。
5.根据权利要求4所述的装置,其特征在于,所述已知类型数据的类型包括视频、音频、图像和文本至少之一。
6.根据权利要求4所述的装置,其特征在于,所述特征规则库包括以下属性字段:TZId为特征ID,tzms为特征描述,xshz为相似阈值,gltz为关联特征,通过该字段获得关联特征对应的关联特征处理引擎,glbl为关联比例,zt为状态,Ywzd 为业务代码,dataSource为数据来源,dataType为数据标签,表示该类别数据的类型,clyc为特征处理引擎,Bz为备注;
其中,zt=0表示不可用,zt=1表示可用。
7.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-3之任一的方法。
CN201910960391.4A 2019-10-10 2019-10-10 一种数据提取方法、装置及介质 Active CN110851675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910960391.4A CN110851675B (zh) 2019-10-10 2019-10-10 一种数据提取方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910960391.4A CN110851675B (zh) 2019-10-10 2019-10-10 一种数据提取方法、装置及介质

Publications (2)

Publication Number Publication Date
CN110851675A CN110851675A (zh) 2020-02-28
CN110851675B true CN110851675B (zh) 2022-05-17

Family

ID=69597823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910960391.4A Active CN110851675B (zh) 2019-10-10 2019-10-10 一种数据提取方法、装置及介质

Country Status (1)

Country Link
CN (1) CN110851675B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813964B (zh) * 2020-09-14 2020-12-11 平安国际智慧城市科技股份有限公司 基于生态环境的数据处理方法及相关设备
CN113077292A (zh) * 2021-04-20 2021-07-06 北京沃东天骏信息技术有限公司 一种用户分类方法、装置、存储介质及电子设备
CN113505857B (zh) * 2021-08-06 2023-06-27 红云红河烟草(集团)有限责任公司 用于卷烟实时数采的数据异常检测方法
CN113703870A (zh) * 2021-08-31 2021-11-26 平安普惠企业管理有限公司 配置文件的检查方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542038A (zh) * 2011-12-27 2012-07-04 浪潮通信信息系统有限公司 一种通用可配置的标准局数据入库方法
CN103353883A (zh) * 2013-06-19 2013-10-16 华南师范大学 一种按需聚类的大数据流式聚类处理系统及方法
CN104700120A (zh) * 2015-03-23 2015-06-10 南京工业大学 一种基于自适应熵投影聚类算法的fMRI特征提取及分类方法
CN108897747A (zh) * 2018-04-03 2018-11-27 南昌奇眸科技有限公司 一种商标图形相似度比对方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110255788A1 (en) * 2010-01-15 2011-10-20 Copanion, Inc. Systems and methods for automatically extracting data from electronic documents using external data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542038A (zh) * 2011-12-27 2012-07-04 浪潮通信信息系统有限公司 一种通用可配置的标准局数据入库方法
CN103353883A (zh) * 2013-06-19 2013-10-16 华南师范大学 一种按需聚类的大数据流式聚类处理系统及方法
CN104700120A (zh) * 2015-03-23 2015-06-10 南京工业大学 一种基于自适应熵投影聚类算法的fMRI特征提取及分类方法
CN108897747A (zh) * 2018-04-03 2018-11-27 南昌奇眸科技有限公司 一种商标图形相似度比对方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
八、数据提取的概念和数据的分类(数据的提取方法);bug_fu;《https://blog.csdn.net/weixin_42633359/article/details/84928192》;20181209;全文 *

Also Published As

Publication number Publication date
CN110851675A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN110851675B (zh) 一种数据提取方法、装置及介质
US10650274B2 (en) Image clustering method, image clustering system, and image clustering server
CN110149529B (zh) 媒体信息的处理方法、服务器及存储介质
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN110781336A (zh) 基于全局建档的人像数据与手机特征数据融合方法及系统
CN109271545A (zh) 一种特征检索方法及装置、存储介质和计算机设备
CN106844381B (zh) 图像处理装置及方法
CN111259245B (zh) 作品推送方法、装置及存储介质
CN112861963A (zh) 训练实体特征提取模型的方法、装置和存储介质
CN112052251B (zh) 目标数据更新方法和相关装置、设备及存储介质
CN111741331A (zh) 一种视频片段处理方法、装置、存储介质及设备
CN110569447A (zh) 一种网络资源的推荐方法、装置及存储介质
CN116186119A (zh) 用户行为分析方法、装置、设备及存储介质
US11537658B2 (en) Methods, systems, and media for determining and presenting information related to embedded sound recordings
CN110825717B (zh) 一种身份识别的数据归一方法、装置及介质
CN114840762A (zh) 推荐内容确定方法、装置和电子设备
CN111797765A (zh) 图像处理方法、装置、服务器及存储介质
CN114048344A (zh) 一种相似人脸搜索方法、装置、设备和可读存储介质
CN109474703B (zh) 个性化产品组合推送方法、装置及系统
CN111291224A (zh) 视频流数据处理方法、装置、服务器及存储介质
CN113343069A (zh) 用户信息的处理方法、装置、介质及电子设备
CN113221786A (zh) 数据分类方法及装置、电子设备和存储介质
CN112836087A (zh) 一种视频属性信息采集方法及装置
CN111382343A (zh) 一种标签体系生成方法及装置
CN110442656B (zh) 一种确定共同关联对象的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200228

Assignee: CHINA ELECTRONICS ENGINEERING DESIGN INSTITUTE Co.,Ltd.

Assignor: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Contract record no.: X2023350000321

Denomination of invention: A data extraction method, device, and medium

Granted publication date: 20220517

License type: Common license,Cross license

Record date: 20230809

EE01 Entry into force of recordation of patent licensing contract