CN109359176A - 数据提取方法、装置、计算机设备和存储介质 - Google Patents

数据提取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109359176A
CN109359176A CN201811052467.5A CN201811052467A CN109359176A CN 109359176 A CN109359176 A CN 109359176A CN 201811052467 A CN201811052467 A CN 201811052467A CN 109359176 A CN109359176 A CN 109359176A
Authority
CN
China
Prior art keywords
data
frequent
evidence
evidence item
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811052467.5A
Other languages
English (en)
Inventor
叶素兰
窦文伟
胡义品
于修铭
汪伟
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811052467.5A priority Critical patent/CN109359176A/zh
Publication of CN109359176A publication Critical patent/CN109359176A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于数据资源的数据提取方法、装置、计算机设备和存储介质。所述方法包括:获取待提取数据,并获取待提取数据中的证据项,根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对,当证据项数据包括预设规则所对应的数据时,提取证据项中的文本,对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列,获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列,利用可用频繁序列从文本中提取与用户需求对应的数据。采用本方法能够避免人工进行数据审查以及人工泛化正则表达式的过程,减少人工操作,节约资源。

Description

数据提取方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据提取方法、装置、计算机设备和存储介质。
背景技术
随着数据处理技术的发展,人们在工作或生活中可接触到的各类信息数据等日益增多,而当需要从大量数据中获取到自身所需的数据时,需要对大量数据进行筛选和提取操作,因此出现了利用规则模型从文本中提取数据的方法。
传统上通过构建正则表达式的规则模型,并利用正则表达式从文本中提取相应数据,但构建正则表达式过程中需要人工审查大量的样本数据,并从样本数据中提取符合正则表达式的多种规则,从而实现正则表达式的泛化,由于传统方法是通过人工泛化正则表达式,成本大且周期长,因此会浪费大量人力资源。
发明内容
基于此,有必要针对上述技术问题,提供一种能够节省人力成本的数据提取方法、装置、计算机设备和存储介质。
一种数据提取方法,所述方法包括:
获取待提取数据,并获取所述待提取数据中的证据项;
根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;
当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;
对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;
获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;
利用所述可用频繁序列从文本中提取与用户需求对应的数据。
在其中一个实施例中,在所述获取待提取数据,并获取所述待提取数据中的证据项之前,还包括:
从数据库中获取多个样本数据,并获取所述样本数据中的待提取数据;
获取所述待提取数据中的样本证据项,利用所述样本证据项生成训练文本数据;
利用所述训练文本数据生成多个待提取数据。
在其中一个实施例中,所述当根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对,包括:
获取预设规则,并利用所述预设规则对所述证据项数据进行初始校验;
当通过所述初始校验时,利用所述预设规则对所述证据项数据进行完整性校验;
当通过所述完整性校验时,将所述证据项数据和所述预设规则对应的数据进行比对。
在其中一个实施例中,所述对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列,包括:
对所述文本进行预处理,获得预处理后的文本;
对所述预处理后的文本进行分词处理,获得分词序列;
基于频繁模式增长算法,根据所述分词序列生成频繁序列。
在其中一个实施例中,所述基于频繁模式增长算法,根据所述分词序列生成频繁序列包括:
获取多个所述分词序列包括的多个证据项,并计算所述证据项在多个所述分词序列中的出现频次;
按照所述出现频次将多个所述证据项按照所述出现频次的降序排序,获得所述证据项的排列顺序;
新建根节点为空的树,并将多个所述证据项按照所述排列顺序插入所述树中,生成频繁模式增长树;
从所述频繁模式树中获取条件模式基,所述条件模式基为以查找证据项为结尾的路径集合;
利用所述条件模式基以及所述分词序列中的多个证据项构建条件频繁模式树;
重复执行获取所述条件模式基以及构建条件频繁模式树;
当所述频繁模式树仅包括同一个证据项时,获取多个条件模式基,并根据多个所述条件模式基生成多个频繁证据项;
根据多个所述频繁证据项生成频繁序列。
在其中一个实施例中,所述获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列,包括:
获取预先设置的所述样本数据和所述频繁序列之间的支持度和置信度;
提取所述频繁序列中与样本数据之间的支持度符合预先设置的所述支持度的基础频繁序列;
提取所述基础频繁序列中与样本数据之间置信度符合预先设置的所述置信度的可用频繁序列。
一种数据提取装置,所述装置包括:
证据项提取模块,用于获取待提取数据,并获取所述待提取数据中的证据项;
比对模块,用于根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;
文本生成模块,用于当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;
数据处理模块,用于对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;
可用频繁序列生成模块,用于获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;
数据提取模块,用于利用所述可用频繁序列从文本中提取与用户需求对应的数据。
在其中一个实施例中,所述装置还包括待提取数据生成模块,用于从数据库中获取读个样本数据,并获取所述样本数据中的待提取数据;获取所述待提取数据中的样本证据项,利用所述样本证据项生成训练文本数据;利用所述训练文本数据生成多个待提取数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待提取数据,并获取所述待提取数据中的证据项;
根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;
当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;
对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;
获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;
利用所述可用频繁序列从文本中提取与用户需求对应的数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待提取数据,并获取所述待提取数据中的证据项;
根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;
当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;
对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;
获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;
利用所述可用频繁序列从文本中提取与用户需求对应的数据。
上述数据提取方法、装置、计算机设备和存储介质,通过获取待提取数据,并获取待提取数据中的证据项,根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对,当证据项数据包括预设规则所对应的数据时,提取证据项中的文本,对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列,获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列,利用可用频繁序列从文本中提取与用户需求对应的数据。避免人工进行数据审查以及人工泛化正则表达式的过程,减少人工操作,节约资源。
附图说明
图1为一个实施例中数据提取方法的应用场景图;
图2为一个实施例中数据提取方法的流程示意图;
图3为一个实施例中基于频繁模式增长算法,根据所述分词序列生成频繁序列的流程示意图;
图4为一个实施例中数据提取装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据提取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104从终端102获取待提取数据,并获取待提取数据中的证据项,根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对,当证据项数据包括预设规则所对应的数据时,提取证据项中的文本,对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列,获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列,利用可用频繁序列从文本中提取与终端102对应的用户所需求的数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据提取方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,服务器获取待提取数据,并获取待提取数据中的证据项。
其中,数据库中存储多个业务数据,服务器从数据库中获取业务数据,即待提取数据,包括与业务相关的多个数据,可通过对证据项进行预处理操作,获得对应证据项的完整性和有效性,进一步体现对应的业务数据的完整性和有效性。
具体地,服务器从数据库中获取待提取数据,并从待提取数据中获取对应的数据项,比如在保险业务中,证据项包括参保人信息、保险单以及理赔信息等,可通过获取多个证据项以及各证据项包括的内容,判断该业务数据是否完整,以及数据包括的内容或取值是否符合预设的要求。
S204,服务器根据所证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对。
具体地,预设规则即为与业务数据相关的预设要求,可通过获取多个证据项以及各证据项包括的内容,与业务数据进行比对,判断该业务数据是否完整,以及数据包括的内容或取值是否符合预设的要求。
S206,当证据项数据包括预设规则所对应的数据时,服务器提取证据项中的文本。
具体地,通过将证据项数据和预设规则对应的数据进行比对,即获取多个证据项以及证据项包括的内容,得到对应的证据项数据,预设规则为预先设置的与业务数据相关的预设要求,在保险业务中,预设要求包括参保人信息包括参保人的个人信息以及参保人的参保信息,包括性别、年龄以及是否有疾病治疗历史等,理赔信息包括参保人就医时间、费用以及药物等。服务器在判断证据项数据包括预设规则对应的数据后,从证据项中提取对应的多个文本。
S208,服务器对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列。
具体地,服务器对文本进行的数据处理包括去停用词处理、去标点符号处理以及分词处理,将所获得的文本经过数据处理后,得到分词序列,证据项为待提取数据的关键项,用于体现待提取数据的多个关键特征,包括待提取数据的数据来源和对应的业务数据等,其中,待提取数据的数据来源包括数据来源于本地数据库或第三方平台数据库。频繁序列为基于频繁模式增长算法,根据分词序列而生成。
其中,可通过结合基于字符匹配的算法实现分词操作,获得标记序列。按照一定的策略将待分析的汉字串与机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,即识别出一个词。
进一步地,基于频繁模式增长算法,根据分词序列生成频繁序列包括:获取多个分词序列包括的多个证据项,并计算证据项在多个分词序列中的出现频次;按照出现频次将多个证据项按照出现频次的降序排序,获得证据项的排列顺序;新建根节点为空的树,并将多个证据项按照排列顺序插入树中,生成频繁模式增长树;从频繁模式树中获取条件模式基,条件模式基为以查找证据项为结尾的路径集合;利用条件模式基以及分词序列中的多个证据项构建条件频繁模式树;重复执行获取条件模式基以及构建条件频繁模式树;当频繁模式树仅包括同一个证据项时,获取多个条件模式基,并根据多个条件模式基生成多个频繁证据项;根据多个频繁证据项生成频繁序列。
S210,服务器获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列。
其中,关联指标包括支持度和置信度,其中,支持度(Support)的计算公式为:Support(A->B)=P(A U B),揭示了A与B同时出现的概率,如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。
置信度(Confidence)的计算公式为:Confidence(A->B)=P(A|B),揭示了A出现时,B是否也会出现或有多大概率出现,如果置信度度为100%,则A和B是相关的,如果置信度太低,则说明A的出现与B是否出现关系不大。
具体地,服务器获取预先设置的样本数据和频繁序列之间的支持度和置信度,提取频繁序列中与样本数据之间的支持度符合预先设置的支持度的基础频繁序列;提取基础频繁序列中与样本数据之间置信度符合预先设置的置信度的可用频繁序列。可通过预设的支持度筛选出基础频繁序列,满足预设的支持度,再利用预设的置信度,从基础频繁序列中获取符合预设的置信度的可用频繁序列。
S212,服务器利用可用频繁序列从文本中提取与终端用户需求对应的数据。
具体地,服务器获得的可用频繁序列符合预设的支持度和置信度,利用得到的可用频繁序列可从文本中获取与终端用户需求对应的数据,并将所获得的数据发送至对应的终端。
上述数据提取方法中,服务器通过获取待提取数据,并获取待提取数据中的证据项,根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对,当证据项数据包括预设规则所对应的数据时,提取证据项中的文本,对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列,获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列,利用可用频繁序列从文本中提取与用户需求对应的数据。可避免人工进行数据审查以及人工泛化正则表达式的过程,减少人工操作,节约资源。
在一个实施例中,如图3所示,提供了基于频繁模式增长算法,根据分词序列生成频繁序列步骤,包括:
S302,服务器获取多个分词序列包括的多个证据项,并计算证据项在多个分词序列中的出现频次。
具体地,不同分词序列包括多个证据项,服务器预先建立不同分词序列与不同证据项间的对应关系,通过对应关系分别获取不同分词序列包括的证据项,并统计不同分词序列中多个证据项的出现频次,将计算得到的出现频次存储至数据库中。
S304,服务器按照出现频次将多个证据项按照出现频次的降序排序,获得证据项的排列顺序。
具体地,服务器从数据库中获取所存储的不同证据项的出现频次,并根据出现频次的大小对多个证据项进行排序,进一步地,根据出现频次的大小的降序对多个证据项进行排序,获得多个证据项的排列顺序。
S306,服务器新建根节点为空的树,并将多个证据项按照排列顺序插入树中,生成频繁模式增长树。
S308,服务器从频繁模式树中获取条件模式基,条件模式基为以查找证据项为结尾的路径集合。
具体地,服务器新建一颗根节点为空的树,并将多个证据项按照对应的排列顺序,将多个证据项插入树中,从而生成频繁模式增长树。条件模式基包括所查找的证据项和到根节点这一路径上的所有证据项,服务器可根据所需要查找的证据项和频繁模式数,生成条件模式基。
S310,服务器利用条件模式基以及分词序列中的多个证据项构建条件频繁模式树。
具体地,服务器利用所获取的条件模式基,即所查找的证据项和到根节点这一路径上的所有证据项,根据分词序列中包括的多个证据项,构建条件频繁模式树。
S312,服务器重复执行获取条件模式基以及构建条件频繁模式树。
S314,当频繁模式树仅包括同一个证据项时,服务器获取多个条件模式基,并根据多个条件模式基生成多个频繁证据项。
具体地,服务器执行获取条件模式基和构建条件频繁模式树的迭代操作,执行该迭代操作,直至频繁模式树仅包括同一个证据项时,服务器获取多个条件模式基,并根据多个条件模式基生成多个频繁证据项。
S316,服务器根据多个频繁证据项生成频繁序列。
上述步骤中,服务器通过将多个证据项按照排列顺序插入新建的树中,生成频繁模式增长树,从频繁模式树中获取条件模式基,利用条件模式基以及分词序列中的多个证据项构建条件频繁模式树,重复执行获取条件模式基以及构建条件频繁模式树,当频繁模式树仅包括同一个证据项时,获取多个条件模式基,并根据多个条件模式基生成多个频繁证据项,根据多个频繁证据项生成频繁序列。可利用频繁模式增长树获得多个频繁证据项,并根据频繁证据项生成频繁序列,提高频繁序列的生成效率。
在一个实施例中,提供了一种数据提取方法,在获取待提取数据,并获取待提取数据中的证据项之前,该方法还包括:
从数据库中获取多个样本数据,并获取样本数据中的待提取数据;获取待提取数据中的样本证据项,利用样本证据项生成训练文本数据;利用训练文本数据生成多个待提取数据。
具体地,数据库中存储多个业务数据,样本数据需要从业务数据中获取,服务器从业务数据中获取样本数据,并获取样本数据中的待提取数据,从待提取数据中获取与样本数据对应的样本证据项,利用样本证据项生成训练文本数据,其中,训练文本数据用于训练数据库中的多个样本数据,并生成对应的待提取数据。
上述方法,通过从数据库中提取多个样本数据,并利用样本数据对数据库中的多个业务数据进行训练,可得到待提取数据,可为数据提取操作提供相应的待提取数据,提高工作效率。
在一个实施例中,提供了当根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对的步骤,包括:
获取预设规则,并利用预设规则对证据项数据进行初始校验;当通过初始校验时,利用预设规则对证据项数据进行完整性校验;当通过完整性校验时,将证据项数据和预设规则对应的数据进行比对。
具体地,预设规则即为与业务数据相关的预设要求,可通过获取多个证据项以及各证据项包括的内容,与业务数据进行比对,判断该业务数据是否完整,以及数据包括的内容或取值是否符合预设的要求。初始校验为判断证据项数据是否具有预设规则对应的数据,完整性校验为通过判断证据项数据是否包括预设规则对应的所有数据。
进一步地,通过将证据项数据和预设规则对应的数据进行比对,即获取多个证据项以及证据项包括的内容,得到对应的证据项数据,预设规则为预先设置的与业务数据相关的预设要求,在保险业务中,预设要求包括参保人信息包括参保人的个人信息以及参保人的参保信息,包括性别、年龄以及是否有疾病治疗历史等,理赔信息包括参保人就医时间、费用以及药物等。服务器在判断证据项数据包括预设规则对应的数据后,从证据项中提取对应的多个文本。
上述步骤,通过对证据项数据进行初始性校验和完整性校验后,再将证据项数据和预设规则对应的数据进行比对,可将不符合上述两层校验的数据排除或进行补充,提高比对效率和比对结果的正确性。
在一个实施例中,提供了对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列的步骤,包括:
对文本进行预处理,获得预处理后的文本;对预处理后的文本进行分词处理,获得分词序列;基于频繁模式增长算法,根据分词序列生成频繁序列。
具体地,服务器对文本进行的数据处理包括去停用词处理、去标点符号处理以及分词处理,将所获得的文本经过数据处理后,得到分词序列,证据项为待提取数据的关键项,用于体现待提取数据的多个关键特征,包括待提取数据的数据来源和对应的业务数据等,其中,待提取数据的数据来源包括数据来源于本地数据库或第三方平台数据库。频繁序列为基于频繁模式增长算法,根据分词序列而生成。
进一步地,基于频繁模式增长算法,根据分词序列生成频繁序列包括:获取多个分词序列包括的多个证据项,并计算证据项在多个分词序列中的出现频次;按照出现频次将多个证据项按照出现频次的降序排序,获得证据项的排列顺序;新建根节点为空的树,并将多个证据项按照排列顺序插入树中,生成频繁模式增长树;从频繁模式树中获取条件模式基,条件模式基为以查找证据项为结尾的路径集合;利用条件模式基以及分词序列中的多个证据项构建条件频繁模式树;重复执行获取条件模式基以及构建条件频繁模式树;当频繁模式树仅包括同一个证据项时,获取多个条件模式基,并根据多个条件模式基生成多个频繁证据项;根据多个频繁证据项生成频繁序列。
上述步骤,可利用频繁模式增长树获得多个频繁证据项,并根据频繁证据项生成频繁序列,提高频繁序列的生成效率。
在一个实施例中,提供了获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列的步骤包括:
获取预先设置的样本数据和频繁序列之间的支持度和置信度;提取频繁序列中与样本数据之间的支持度符合预先设置的支持度的基础频繁序列;提取基础频繁序列中与样本数据之间置信度符合预先设置的置信度的可用频繁序列。
具体地,服务器获取预先设置的样本数据和频繁序列之间的支持度和置信度,提取频繁序列中与样本数据之间的支持度符合预先设置的支持度的基础频繁序列;提取基础频繁序列中与样本数据之间置信度符合预先设置的置信度的可用频繁序列。可通过预设的支持度筛选出基础频繁序列,满足预设的支持度,再利用预设的置信度,从基础频繁序列中获取符合预设的置信度的可用频繁序列。
上述步骤,通过利用支持度和置信度两个关联指标,获得与文本关联性高的频繁序列,包括分词序列中的多个证据项,可提高证据项查找效率。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种数据提取装置,包括:证据项提取模块402,比对模块404,文本生成模块406,数据处理模块408,可用频繁序列生成模块410以及数据提取模块412,其中:
证据项提取模块402,用于获取待提取数据,并获取待提取数据中的证据项。
比对模块404,用于根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对。
文本生成模块406,用于当证据项数据包括预设规则所对应的数据时,提取证据项中的文本。
数据处理模块408,用于对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列。
可用频繁序列生成模块410,用于获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列。
数据提取模块412,用于利用可用频繁序列从文本中提取与用户需求对应的数据。
上述数据提取装置,通过获取待提取数据,并获取待提取数据中的证据项,根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对,当证据项数据包括预设规则所对应的数据时,提取证据项中的文本,对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列,获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列,利用可用频繁序列从文本中提取与用户需求对应的数据。避免人工进行数据审查以及人工泛化正则表达式的过程,减少人工操作,节约资源。
在一个实施例中,提供了一种数据提取装置,该装置还包括待提取数据生成模块,用于从数据库中获取读个样本数据,并获取样本数据中的待提取数据;获取待提取数据中的样本证据项,利用样本证据项生成训练文本数据;利用训练文本数据生成多个待提取数据。
上述装置,通过从数据库中提取多个样本数据,并利用样本数据对数据库中的多个业务数据进行训练,可得到待提取数据,可为数据提取操作提供相应的待提取数据,提高工作效率。
在一个实施例中,提供了一种比对模块,还用于:获取预设规则,并利用预设规则对证据项数据进行初始校验;当通过初始校验时,利用预设规则对证据项数据进行完整性校验;当通过完整性校验时,将证据项数据和预设规则对应的数据进行比对。
上述比对模块,通过对证据项数据进行初始性校验和完整性校验后,再将证据项数据和预设规则对应的数据进行比对,可将不符合上述两层校验的数据排除或进行补充,提高比对效率和比对结果的正确性。
在一个实施例中,提供了一种数据处理模块,还用于:对文本进行预处理,获得预处理后的文本;对预处理后的文本进行分词处理,获得分词序列;基于频繁模式增长算法,根据分词序列生成频繁序列。
上述数据处理模块,可利用频繁模式增长树获得多个频繁证据项,并根据频繁证据项生成频繁序列,提高频繁序列的生成效率。
在一个实施例中,提供了一种数据处理模块,还用于:
获取多个分词序列包括的多个证据项,并计算证据项在多个分词序列中的出现频次;按照出现频次将多个证据项按照出现频次的降序排序,获得证据项的排列顺序;新建根节点为空的树,并将多个证据项按照排列顺序插入树中,生成频繁模式增长树;从频繁模式树中获取条件模式基,条件模式基为以查找证据项为结尾的路径集合;利用条件模式基以及分词序列中的多个证据项构建条件频繁模式树;重复执行获取条件模式基以及构建条件频繁模式树;当频繁模式树仅包括同一个证据项时,获取多个条件模式基,并根据多个条件模式基生成多个频繁证据项;根据多个频繁证据项生成频繁序列。
上述数据处理模块,服务器通过将多个证据项按照排列顺序插入新建的树中,生成频繁模式增长树,从频繁模式树中获取条件模式基,利用条件模式基以及分词序列中的多个证据项构建条件频繁模式树,重复执行获取条件模式基以及构建条件频繁模式树,当频繁模式树仅包括同一个证据项时,获取多个条件模式基,并根据多个条件模式基生成多个频繁证据项,根据多个频繁证据项生成频繁序列。可利用频繁模式增长树获得多个频繁证据项,并根据频繁证据项生成频繁序列,提高频繁序列的生成效率。
在一个实施例中,提供了一种可用频繁序列生成模块,还用于:
获取预先设置的样本数据和频繁序列之间的支持度和置信度;提取频繁序列中与样本数据之间的支持度符合预先设置的支持度的基础频繁序列;提取基础频繁序列中与样本数据之间置信度符合预先设置的置信度的可用频繁序列。
上述可用频繁序列生成模块,通过利用支持度和置信度两个关联指标,获得与文本关联性高的频繁序列,包括分词序列中的多个证据项,可提高证据项查找效率。
关于数据提取装置的具体限定可以参见上文中对于数据提取方法的限定,在此不再赘述。上述数据提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待提取数据,并获取待提取数据中的证据项;
根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对;
当证据项数据包括预设规则所对应的数据时,提取证据项中的文本;
对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列;
获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列;
利用可用频繁序列从文本中提取与用户需求对应的数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待提取数据,并获取待提取数据中的证据项;
根据证据项获取对应的证据项数据,并将证据项数据和预设规则进行比对;
当证据项数据包括预设规则所对应的数据时,提取证据项中的文本;
对文本进行数据处理,获得分词序列,并根据分词序列生成频繁序列;
获取预先设置的样本数据和频繁序列之间的关联指标,并根据关联指标对频繁序列进行筛选,获取符合关联指标的可用频繁序列;
利用可用频繁序列从文本中提取与用户需求对应的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据提取方法,所述方法包括:
获取待提取数据,并获取所述待提取数据中的证据项;
根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;
当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;
对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;
获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;
利用所述可用频繁序列从文本中提取与用户需求对应的数据。
2.根据权利要求1所述的方法,其特征在于,在所述获取待提取数据,并获取所述待提取数据中的证据项之前,还包括:
从数据库中获取多个样本数据,并获取所述样本数据中的待提取数据;
获取所述待提取数据中的样本证据项,利用所述样本证据项生成训练文本数据;
利用所述训练文本数据生成多个待提取数据。
3.根据权利要求1所述的方法,其特征在于,所述当根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对,包括:
获取预设规则,并利用所述预设规则对所述证据项数据进行初始校验;
当通过所述初始校验时,利用所述预设规则对所述证据项数据进行完整性校验;
当通过所述完整性校验时,将所述证据项数据和所述预设规则对应的数据进行比对。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列,包括:
对所述文本进行预处理,获得预处理后的文本;
对所述预处理后的文本进行分词处理,获得分词序列;
基于频繁模式增长算法,根据所述分词序列生成频繁序列。
5.根据权利要4所述的方法,其特征在于,所述基于频繁模式增长算法,根据所述分词序列生成频繁序列包括:
获取多个所述分词序列包括的多个证据项,并计算所述证据项在多个所述分词序列中的出现频次;
按照所述出现频次将多个所述证据项按照所述出现频次的降序排序,获得所述证据项的排列顺序;
新建根节点为空的树,并将多个所述证据项按照所述排列顺序插入所述树中,生成频繁模式增长树;
从所述频繁模式树中获取条件模式基,所述条件模式基为以查找证据项为结尾的路径集合;
利用所述条件模式基以及所述分词序列中的多个证据项构建条件频繁模式树;
重复执行获取所述条件模式基以及构建条件频繁模式树;
当所述频繁模式树仅包括同一个证据项时,获取多个条件模式基,并根据多个所述条件模式基生成多个频繁证据项;
根据多个所述频繁证据项生成频繁序列。
6.根据权利要求1至3任意一项所述的方法,其特征在于,所述获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列,包括:
获取预先设置的所述样本数据和所述频繁序列之间的支持度和置信度;
提取所述频繁序列中与样本数据之间的支持度符合预先设置的所述支持度的基础频繁序列;
提取所述基础频繁序列中与样本数据之间置信度符合预先设置的所述置信度的可用频繁序列。
7.一种数据提取装置,其特征在于,所述装置包括:
证据项提取模块,用于获取待提取数据,并获取所述待提取数据中的证据项;
比对模块,用于根据所述证据项获取对应的证据项数据,并将所述证据项数据和预设规则进行比对;
文本生成模块,用于当所述证据项数据包括所述预设规则所对应的数据时,提取所述证据项中的文本;
数据处理模块,用于对所述文本进行数据处理,获得分词序列,并根据所述分词序列生成频繁序列;
可用频繁序列生成模块,用于获取预先设置的样本数据和所述频繁序列之间的关联指标,并根据所述关联指标对所述频繁序列进行筛选,获取符合所述关联指标的可用频繁序列;
数据提取模块,用于利用所述可用频繁序列从文本中提取与用户需求对应的数据。
8.根据权利要求7所述的数据提取装置,其特征在于,所述装置还包括待提取数据生成模块,用于从数据库中获取读个样本数据,并获取所述样本数据中的待提取数据;获取所述待提取数据中的样本证据项,利用所述样本证据项生成训练文本数据;利用所述训练文本数据生成多个待提取数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201811052467.5A 2018-09-10 2018-09-10 数据提取方法、装置、计算机设备和存储介质 Pending CN109359176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811052467.5A CN109359176A (zh) 2018-09-10 2018-09-10 数据提取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811052467.5A CN109359176A (zh) 2018-09-10 2018-09-10 数据提取方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN109359176A true CN109359176A (zh) 2019-02-19

Family

ID=65350751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811052467.5A Pending CN109359176A (zh) 2018-09-10 2018-09-10 数据提取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109359176A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858040A (zh) * 2019-03-05 2019-06-07 腾讯科技(深圳)有限公司 命名实体识别方法、装置和计算机设备
CN110413658A (zh) * 2019-07-23 2019-11-05 中经柏诚科技(北京)有限责任公司 一种基于关联规则的事实证据链构建方法
CN111625582A (zh) * 2020-05-18 2020-09-04 海南电网有限责任公司 数据仓储系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589900A (zh) * 2014-11-21 2016-05-18 中国银联股份有限公司 基于多维分析的数据挖掘方法
CN106650225A (zh) * 2016-10-25 2017-05-10 康美药业股份有限公司 基于fp增长算法模型的中药配方数据挖掘方法及系统
CN107885724A (zh) * 2017-11-06 2018-04-06 北京锐安科技有限公司 文本特征提取方法、装置、服务器和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589900A (zh) * 2014-11-21 2016-05-18 中国银联股份有限公司 基于多维分析的数据挖掘方法
CN106650225A (zh) * 2016-10-25 2017-05-10 康美药业股份有限公司 基于fp增长算法模型的中药配方数据挖掘方法及系统
CN107885724A (zh) * 2017-11-06 2018-04-06 北京锐安科技有限公司 文本特征提取方法、装置、服务器和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858040A (zh) * 2019-03-05 2019-06-07 腾讯科技(深圳)有限公司 命名实体识别方法、装置和计算机设备
CN109858040B (zh) * 2019-03-05 2021-05-07 腾讯科技(深圳)有限公司 命名实体识别方法、装置和计算机设备
CN110413658A (zh) * 2019-07-23 2019-11-05 中经柏诚科技(北京)有限责任公司 一种基于关联规则的事实证据链构建方法
CN111625582A (zh) * 2020-05-18 2020-09-04 海南电网有限责任公司 数据仓储系统
CN111625582B (zh) * 2020-05-18 2023-11-10 海南电网有限责任公司 数据仓储系统

Similar Documents

Publication Publication Date Title
CN108304378B (zh) 文本相似度计算方法、装置、计算机设备和存储介质
CN110457302B (zh) 一种结构化数据智能清洗方法
CN109522393A (zh) 智能问答方法、装置、计算机设备和存储介质
CN109766438A (zh) 简历信息提取方法、装置、计算机设备和存储介质
CN109815471A (zh) 合同文本生成方法、装置、计算机设备和存储介质
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
CN109815333A (zh) 信息获取方法、装置、计算机设备和存储介质
CN111176996A (zh) 测试用例生成方法、装置、计算机设备及存储介质
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN107169021A (zh) 用于预测应用功能标签的方法和设备
CN109766430A (zh) 合同审核方法、装置、计算机设备和存储介质
CN109165266A (zh) 表单生成方法、装置、计算机设备和存储介质
CN109359176A (zh) 数据提取方法、装置、计算机设备和存储介质
CN111324716A (zh) 指标数据获取方法、装置、计算机设备和存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN109800346A (zh) 文本匹配方法、装置、计算机设备和存储介质
CN110471838A (zh) 测试用例的校验方法、装置、计算机设备和存储介质
CN110955608A (zh) 测试数据处理方法、装置、计算机设备和存储介质
CN109460541A (zh) 词汇关系标注方法、装置、计算机设备和存储介质
CN106649210A (zh) 一种数据转换方法及装置
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
CN103324679B (zh) 一种缓存服务器中数据更新的控制方法和设备
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
CN110795617A (zh) 一种搜索词的纠错方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination