CN110807096A - 一种小样本集上的信息对匹配方法及系统 - Google Patents
一种小样本集上的信息对匹配方法及系统 Download PDFInfo
- Publication number
- CN110807096A CN110807096A CN201810872940.8A CN201810872940A CN110807096A CN 110807096 A CN110807096 A CN 110807096A CN 201810872940 A CN201810872940 A CN 201810872940A CN 110807096 A CN110807096 A CN 110807096A
- Authority
- CN
- China
- Prior art keywords
- constructing
- attribute
- attributes
- syntactic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种小样本集上的信息对匹配方法及系统,实现过程为:录入文本,识别文本中属性和属性对应值;两两构建语句中出现的属性和属性对应值的特征;构建训练样本;基于训练样本训练模型,构建信息对匹配模型。本发明在小样本的标注集上,基于句法路径进行特征构建,利用机器学习方法进行数据匹配,可高效获得高匹配准确性的模型,实现文档中结构信息的获取。
Description
技术领域
本发明属于数据匹配技术领域,涉及信息对匹配方法及系统,特别涉及一种小样本集上的信息对匹配方法及系统。
背景技术
各个行业中存在大量非结构化数据。对于海量的数据,阅读量巨大,需要根据文档内容进行理解、判断、获得有用数据。由于文档中大量都是非结构化的数据,且写文档的人水平思路又不尽相同,造成人在获取信息过程中所有内容都需要进行理解查看,而实际需要重点关注的内容其实并不多,时间成本和人力成本浪费严重,且效率低下。因而,有必要从非结构化数据中抽取结构化数据,形成信息对,然后使得数据可以被更好的利用,特别地,在关注指标和指标对应数值的领域,提取结构化信息显得更为重要。如在财务报告中,存在着大量的非结构化信息,经常需要抽取各个指标与对应数值。
传统的信息对获取方法是以人为主的方法,随着信息技术近年以来的大力发展,利用机器算法获得信息对的方法逐渐产生。现有技术中的方法主要有:1)基于模版的抽取;2)利用信息对各相对位置关系,构建特殊词词典等判断是否有匹配;3)将问题抽象成分类模型,基于距离,词向量等特征,训练机器学习模型;4)利用DNN方法构建分类模型。
然而,上述方法均存在有一定问题。1)基于模版进行抽取:由于语言表达的多样性,很难用较少的模版来很好的覆盖所有情况,扩展性较差;2)利用信息对各相对位置关系,构建特殊词词典等判断是否有匹配:同样由于语言的表达的多样性,准确率和召回率很难同时达到较好的状况;3)将问题抽象成分类模型,基于距离,词向量等特征,训练机器学习模型:通常情况下基于句法路径的特征token(在词法分析中是标记的意思)较稀疏,使得模型在做特征选择时,存在大量无效特征样本;或者对数据量要求达到一定数量级后才能有明显的改善;同样由于语言语序问题,该方法的泛化能力也是有限的;4)利用DNN方法构建分类模型:得益于神经网络的参数多,表达能力强的特点,使得神经网络在大量样本集上会表现较好,但是在样本量较少的情况下很难保证其泛化能力。
基于上述问题,亟需研发一种信息对的匹配方法或系统,尤其是适用于小样本标注集(即小样本集)的信息对匹配方法或系统,准确获取文档中的信息对,以便提供简要、准确、重要结构化数据。
发明内容
为了克服上述问题,本发明人进行了锐意研究,提供了一种小样本集上的信息对匹配方法及系统,通过基于句法路径进行特征构建,训练模型,利用机器学习方法进行数据匹配。特别是在小样本标注集上,充分利用句法依存信息可以构建更加有效特征,进而获得高匹配准确性的模型,实现文档中结构信息的获取,从而完成本发明。
本发明的目的在于提供以下技术方案:
(1)一种小样本集上的信息对匹配方法,所述方法包括以下步骤:
步骤100,录入文本,识别文本中属性和属性对应值;
步骤200,两两构建语句中出现的属性和属性对应值的特征;
步骤300,构建训练样本;
步骤400,基于训练样本训练模型,构建信息对匹配模型。
(2)一种用于实现上述(1)所述方法的系统,所述系统包括:
信息识别模块:用于文本中属性和属性对应值;
特征构建模块:用于两两构建语句中出现的属性和属性对应值的特征;
训练样本构建模块,用于基于属性和属性对应值两两匹配的特征及标注样本集,构建训练样本;
匹配模型构建模块,用于基于训练样本训练模型,构建信息对匹配模型。
根据本发明提供的一种小样本集上的信息对匹配方法及系统,具有以下有益效果:
(1)本发明方法和系统,针对小样本标注集,充分利用句法依存信息可以构建更加有效的特征,进而获得高匹配准确性的模型,利于实现文档中结构信息的获取;
(2)本发明中,两两构建语句中出现的属性和数值的特征,该特征包括句法结构个数、词性个数、物理距离、特殊词、词向量等多个方面的特征,且该特征基于句法路径构建或基于输入语句中词的客观存在顺序构建,在小样本标注集下,也能够极大增强构建的模型的泛化能力、匹配准确性;
(3)本发明优选采用随机森林+逻辑回归的方式训练模型,结合随机森林作为Bagging的特点及逻辑回归的概率输出的优势,将随机森林的中每棵树看成一个特征映射方法,随机森林将原始样本映射成一簇特征,该特征作为逻辑回归的输入,得到概率化的输出,使得模型更稳定且结果具有更强的可比性;
(4)本发明中匹配结果互斥化的输出,提高匹配准确性,且利于工作人员后续操作。
附图说明
图1示出根据本发明一种优选实施方式的信息对匹配方法流程图。
具体实施方式
下面通过附图和实施例对本发明示例性详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
根据本发明提供的一种小样本集上的信息对匹配方法,该方法用于对工作中文档进行信息对如属性和数值组成的信息对的提取。工作中文档一般为非结构化文本,即不便于用数据库的二维逻辑表(结构化)来表现的数据文本,通过本发明中方法,可准确地匹配非结构化文本中信息对,进而可以将信息对以结构化数据形式提取出来,清楚、准确的展现给工作人员,便于工作人员快速掌握,提高工作效率。
目前,有通过机器学习匹配信息对如属性和数值组成的信息对的方法。然而,在标注样本量较少的情况下很难保证机器模型的泛化能力,因而,要获得准确的匹配结果,往往需要大量的标注样本训练机器模型,人工操作增加,模型训练时间长;即使花费大量时间和劳动成本,机器模型对复杂语句(如该语句中的某属性由多个词组成,或者该语句包括多个属性等情况)中信息对的匹配无法获得,或匹配错误率较高。为此,训练基于小样本标注集(以下称小样本集),并能够获得高匹配准确性的机器模型是具有重要意义的。
如图1所示,本发明的目的在于,提供一种小样本集上的信息对匹配方法。特别地,该方法基于句法路径构建特征,训练机器模型,利用机器学习方法进行数据匹配;具体地,该方法包括以下步骤:
步骤100,录入文本,识别文本中属性和属性对应值;
步骤200,两两构建语句中出现的属性和属性对应值的特征;
步骤300,构建训练样本;
步骤400,基于训练样本训练模型,构建信息对匹配模型。
步骤100,录入文本,识别文本中属性和属性对应值。
本发明中,所述属性是指实体的某些特征,如上市公司年报的“指标”、贷款审计中与贷款相关的“指标”、或者员工绩效报告中的“关键绩效指标(KPI)”。属性对应值与属性能够形成完整信息,两者构成信息对。
录入的文本一般为多个句子组成的段落,或者多个段落组成的篇章,或者多个篇章组成的文档。然而,在句法正确的前提下,属性和该属性对应值存在于同一个句子中,因而,需要对录入文本进行分句处理,即识别并划分文本(文档、篇章或段落)中的句子,优选对每个句子添加标签以标示各句子在文本中的位置,这样可以区分各句子,从而以句子为单位进行文本中属性和属性对应值的识别。本发明中,以“句号”作为一个完整句子结束的标志,通过识别“句号”进行分句处理。
例如:“A公司预计2017年1-12月归属于上市公司股东的净利润盈利6,996.48万元-7,596.48万元,同比上年增长11%-21%。B公司预计2017年1-12月归属于上市公司股东的净利润盈利3,000万元–3,500万元,同比上年增长171.77%-217.07%”,属性“净利润盈利”与属性对应值“6,996.48万元-7,596.48万元”位于同一个句子;属性“净利润盈利”与属性对应值“3,000万元–3,500万元”位于另一个句子,将两个句子分开处理,符合人类语言表达,且简化信息对的匹配处理,提高匹配准确性。
在本发明的一种优选的实施方式中,通过构建指标库的方式识别属性。指标库是指与设定领域密切相关的关键词(属性)的集合,如针对“上市公司年报”或者“贷款审计”领域中的属性“营业收入”、“归属于母公司的净利润”、“营业总额”、“员工人数”等的集合。构建指标库的方式适用于设定领域中属性便于穷举时使用。
在识别属性时,对输入的语句中的词语与指标库中的属性进行匹配,即可获得输入语句中存在的属性。
优选地,指标库中的属性词语构成字典,字典中属性词语在设定规律下(如字母表的顺序a-z)以列表形式排列;或者属性词语形成字典树结构,该字典树结构以根节点作为起始,通过子节点进行延伸;根节点不包含字符,除根节点外每一个节点都只包含一个字符;从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串;每个节点的所有子节点包含的字符都不相同。在此,对英文来说,一个字母为一个字符;对中文来说,一个汉字为一个字符;一个数字或一个标点符号均对应一个字符。
在本发明的一种优选的实施方式中,以命名实体识别方式识别属性,此时属性即相当于命名实体。
命名实体识别过程可以通过条件随机场模型、隐马尔可夫模型或LSTM模型实现。其中,隐马尔可夫模型(HMM)是关于时序的概率模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态生成观测随机序列的过程;其特点在于:马尔可夫链在任意时刻t的状态只依赖于前一时刻的状态,与其他时刻的状态及观测无关。条件随机场模型(CRF)为给定一组输入随机变量条件下与另一组输出随机变量的条件概率分布模型,其相对隐马尔可夫模型,使用全局输入代替马尔可夫假设,使得学到的信息更加充分。LSTM模型具有深度神经网络的自动特征提取功能,另外在处理时序问题上有相对大的优势。优选地,命名实体识别过程(即属性识别过程)通过LSTM+CRF模型或者LSTM+HMM模型实现,以充分利用各个模型的特点。
在本发明一种优选的实施方式中,当属性对应值为非数值形式时,可以通过与属性识别相同方法如构建指标库或者命名实体识别的方式获得。
当属性对应值为数值形式时,由于数值的模式相对固定,优选通过配置模版方式识别属性对应值,即可达到比较好的效果。具体地,通过将数值形式的属性对应值以正则表达式表示形成模版,通过确定句子中是否存在复合正则表达式的字符串,识别数值形式的属性对应值。例如,20万元/吨的正则表达式为:“[\d]+万元/吨”。
步骤200,两两构建语句中出现的属性和属性对应值的特征。
本发明是基于小样本标注集进行机器模型构建的,为提高匹配准确性,创造性的基于句法路径进行属性和属性对应值的特征构建。
在本发明中,构建特征首先需要构建属性和属性对应值之间的句法路径。句法路径是指在句法树上链接任意两个节点之间的句法结构。
具体地,将给定语句进行分词、词性标注、句法分析,将句法分析结果看成是带权无向图,语句中的词即相当于图上的点。为了方便寻找图的最小路径,将图上不连通点(词)之间的权值设置成无穷大,任意连通的两个点(词)之间的句法路径则定义为图的最小路径,句法相关的两个词之间必有最小路径;属性和属性对应值之间句法相关,因而属性和属性对应值之间必有最小路径。例如,语句“2017年,实现营业收入为474.56亿元”,属性“营业收入”与属性对应值“474.56亿元”存在最小路径为“营业收入—>为—>474.56亿元”。
在一种实施方式中,由于一个属性或一个属性对应值都有可能是由多个词组成,则属性和属性对应值之间有多组最小路径,取最短的最小路径和最长的最小路径作为属性和属性对应值之间的句法路径,称为最短句法路径和最长句法路径。例如,语句“2017年钢铁产量和煤炭产量分别为50吨、70吨”,其属性“钢铁产量”由多个词“钢铁”和“产量”组成,属性对应值为“50吨”,其属性和对应值之间最短的最小路径(最短句法路径)为“产量->为->吨”,其最长的最小路径(最长句法路径)为“钢铁->产量->为->吨->50”。
在本发明的一种优选的实施方式中,构建特征包括基于句法路径构建句法结构特征。词与词组合成句法结构,词想要组成句子就需要靠句法结构,也就是说句法结构就是词语组成句子的必须结构。句法结构有主谓结构(结构内部两个成分之间有陈述和被陈述关系)、动宾结构(结构内部两个成分之间有支配与被支配关系)、定中结构(结构内部两个成分之间有修饰和被修饰的关系)、补充结构(结构内部两个成分之间有补充和被补充的关系)、联合结构(结构内部有两个或两个以上的成分,它们之间有并列或选择关系)等。
例如,输入语句“该项目预计总投资为33.5亿元”,包括以下句法结构:
表1句法结构示例
编号 | 句法结构 |
1 | 主谓:“项目”相对“预计” |
2 | 动宾:“预计”相对“总投资” |
3 | 动宾:“总投资”相对“为” |
4 | 定中:“该”相对“项目” |
5 | 补充:“为”相对“33.5亿元” |
具体地,分别统计最长句法路径和最短句法路径上句法关系类型对应的个数,并将句法结构个数作为句法结构特征。
在本发明的一种优选的实施方式中,构建特征还包括基于句法路径构建词性特征。具体地,分别统计最长句法路径和最短句法路径上词的词性个数,并将词性个数作为词性特征。词性通常有名词,形容词,副词,数词等。
我们发现,句法路径上各词的词性的个数与信息对的匹配相关,且增加该特征利于匹配准确性的提高,所以将词性个数统计作为一项特征。
词性个数的统计通过对输入语句进行分词、词性标注和词性统计实现。分词可以通过开源的分词工具如jieba分词、盘古分词等实现,也可以通过正向最大匹配法、逆向最匹配法、隐马尔可夫模型或者条件随机场模型进行分词。词性标注可以通过构建的隐马尔可夫模型或者条件随机场模型等方式实施。
在本发明的一种优选的实施方式中,构建特征还包括基于句法路径构建特殊词特征。所述特殊词为强烈影响属性和属性对应值之间匹配结果的词。
特别地,在样本量较小的情况下,尤其需要构建属性和属性对应值之间是否有强烈影响匹配结果的词,以提高构建的模型的泛化能力。例如,输入语句“钢铁产量减少了5吨”,匹配“钢铁产量”和“5吨”时,根据业务需要可能只需要精确数值,可以将是否有特殊词“减少”作为一维特征。
当应用于设定领域时,统计该领域可能涉及的特殊词,通过词典进行特殊词管理;特殊词的构建,使得人的先验知识更好的添加到特征中,使得特征有更强的表达能力。
在本发明的一种优选的实施方式中,构建特征还包括基于句法路径上的词构建词向量。具体地,基于最长句法路径和/或最短句法路径上属性和属性对应值及其之间的词构建词向量,优选地,基于最短句法路径上属性和属性对应值之间的词构建词向量。
词向量的构建可以使用one-hot encoder或者word2vec的方法,优选为word2vec的方法。word2vec可以总结训练语料,为每个词可以构建一组向量,使得具有同位信息或相近使用场合的词的向量比较相似。另外词向量的训练是无监督的,容易收集大量的语料,所以比较容易通过构建词向量的方式增强模型泛化能力。
对于使用词向量的方式时,特征长度对齐的问题,可以通过将词向量按向量不同维度求和、取均值的方法获得相同长度的特征。由于输入的语句具有多样性,因而句法路径通常是不同的,句法路径上词的个数通常不同,因而,参与构建词向量的词也不一样多,导致构建的词向量的维度不同,即特征长度不同。
然而,由于训练模型时采用的模型为非序列模型,非序列模型要求输入的特征长度是定长,所以将特征映射成定长的是有必要的。采用的将词向量按向量不同维度求和、取均值的方法具体的实施方式举例如下:以“钢铁产量和煤炭产量分别为35吨和45吨。”为例,“钢铁”到“35吨”经过5个词,每个词的词向量维度为200维,共同形成的词向量维度为1000维;“钢铁”到“45吨”经过7个词,词向量维度为1400维;将经过的每个词的词向量按向量相应维度求和、除以经过词的个数,最终词向量特征长度和句法路径长度无关,得到固定为度维度的词向量特征。
本发明的进一步优选的实施方式中,基于句法路径,使用的词向量经特征长度对齐处理,形成最终的向量特征。
举例如下,语句“钢铁产量和煤炭产量分别为35吨和45吨。”。先对其进行分词处理“钢铁/产量/和/煤炭/产量/分别/为35/吨/和/45/吨”对于属性“钢铁产量”和数值“35吨”其中一个句法路径为“产量—>为—>吨”,将该路径上的词向量进行平均,形成最终的向量特征。
在本发明的一种优选的实施方式中,构建特征还包括基于输入语句中属性和属性对应值的物理距离构建特征,物理距离包括距离长度和距离方向,距离长度与原始文本中属性和属性对应值之间词的实际个数相关,与语法路径中经过的词的个数无关。
通常语言表达有一定的固定模式,从语法特征考虑,属性在属性对应值的左边还是右边、以及距离是多少,对是否是匹配的有很强参考意义,因而有必要构建距离特征。
所述距离长度通过输入语句中属性到属性对应值所需要经过的词的个数确定,即距离长度=所需要经过的词的个数+1。举例如下,语句“钢铁产量和煤炭产量分别为35吨和45吨。”。先对其进行分词处理“钢铁/产量/和/煤炭/产量/分别/为35/吨/和/45/吨”对于属性“钢铁产量”和数值“45吨”。钢铁产量和45吨经过了“和/煤炭/产量/分别/为35/吨/和”7个词,其对应的特征即为8。
所述距离方向通过预设属性和属性对应值的相对位置确定,若设定属性在属性对应值的左边为正方向(+),则另一边即属性在属性对应值的右边为负方向(-)。结合距离长度和距离方向,语句“该/项目/预计/总投资/为/33.5亿元”中,当设定属性在属性对应值的左边为正方向时,属性“总投资”到属性对应值“33.5亿元”的物理距离为+2。
步骤300,构建训练样本。
基于属性和属性对应值两两匹配的特征以及样本集,构建训练样本。
由步骤200中可知,基于句法路径构建的特征极多(可达到上百个),但并不是所有的特征均与属性和属性对应值的匹配密切相关,因而,可对抽取的特征进行相关性排序,选用相关性高的特征用于模型训练。
在一种优选的实施方式中,特征抽取完成后通过特征选择方法(卡方分布、相关系数等)进行特征选择,筛选相关性高的特征。其中,卡方分布用于特征选择的原理:是一种假设性检验的方法,它能够检验两个分类变量之间是否是独立无关的。它通过观察实际值和理论值的偏差来确定原假设是否成立;相关系数用于特征选择的原理:相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度。
步骤400,基于训练样本训练模型,构建信息对匹配模型。
本发明中,利用支持向量机(SVM)、随机森林、逻辑回归、或随机森林与逻辑回归结合的方式进行模型训练。
其中,选用支持向量机的原因在于:在数据样本有限的情况下,使用支持向量机模型具有较高的鲁棒性。
选用随机森林的原因在于:人工构建特征结合人工打标签,使用决策树的方式可以很好的拟合人工决策方式;为了降低拟合方差,可以使用多棵树共同决策,即随机森林。
选用逻辑回归的原因在于:多个属性和多个属性对应值之间的匹配问题可以通过概率化的匹配结果,然后对比概率大小,选择最佳匹配,即满足逻辑回归原理。
在一种优选的实施方式中,利用随机森林与逻辑回归结合的方式进行模型训练。结合随机森林作为Bagging的特点及逻辑回归的概率输出的优势,组合二者,将随机森林中的每棵树看成一个特征映射方法,随机森林将原始样本映射成一簇特征,该特征作为逻辑回归的输入,得到概率化的输出,使得模型更稳定且结果具有更强的可比性。
在一种优选的实施方式中,对构建得到的模型进行预测,数据预测得分和匹配结果互斥化的输出。在模型实际使用中,数据得分和匹配结果互斥化的输出。
由于一个属性对应值通常只属于一个属性,所以需要根据数据预测得分将数据预测得分和匹配结果互斥化的输出,即同一个句子中,两两属性和属性对应值的匹配得分由高到低排序,匹配得分高的属性和属性对应值匹配结果先输出,后续输出的属性和属性对应值匹配结果中不包括前面输出的属性或者属性对应值,即已经匹配过的属性和属性对应值不能在后面输出中出现。基于同样的原因,在模型实际使用中,数据得分和匹配结果是互斥化的输出的。
举例如下,对测试样本“2017年,实现营业收入及归属于母公司净利润分别为474.56亿元和178.02亿元”中属性和数值两两构建并人工标注,输入构建后的模型中,属性和数值匹配得分为:“营业收入”与“474.56亿元”匹配得分为0.92,“营业收入”与“178.02亿元”匹配得分为0.91,“归属于母公司净利润”与“178.02亿元”匹配得分为0.90,“归属于母公司净利润”与“474.56亿元”匹配得分为0.80。首先输出匹配得分最高的结果即“营业收入”与“474.56亿元”信息对;由于属性“营业收入”已输出,所以匹配得分0.91的“营业收入”与“178.02亿元”信息对不能输出,舍弃;再输出匹配得分0.90的“归属于母公司净利润”与“178.02亿元”信息对;基于同样的原因,“归属于母公司净利润”与“474.56亿元”信息对舍弃不输出。
本发明的另一目的在于,提供一种用于实施上述方法的系统,具体的,该系统包括:
信息识别模块:用于文本中属性和属性对应值;
特征构建模块:用于两两构建语句中出现的属性和属性对应值的特征;
训练样本构建模块,用于基于属性和属性对应值两两匹配的特征及标注样本集,构建训练样本;
匹配模型构建模块,用于基于训练样本训练模型,构建信息对匹配模型。
实施例
实施例1
以输入的文本“2017年钢铁产量和煤炭产量分别为50吨、70吨。”为样本,说明匹配模型的构建过程。
步骤100,录入文本,识别文本中属性和属性对应值。
步骤110,以“句号”作为一个完整句子结束的标志,通过识别“句号”进行分句处理。第一句为“2017年钢铁产量和煤炭产量分别为50吨、70吨”。
步骤120,通过构建指标库的方式识别属性,因而,对输入的语句中的词语与指标库中的属性进行匹配,即可获得输入语句中存在的属性“钢铁产量”和“煤炭产量”
步骤130,由于属性对应值为数值形式,确定句子中是否存在复合正则表达式的字符串,识别数值形式的属性对应值“50吨”和“70吨”
步骤200,两两构建语句中出现的属性和属性对应值的特征(以下以属性“钢铁产量”,值“50吨”为例):
步骤210,将语句进行分词、词性标注、句法分析,分词处理“钢铁/产量/和/煤炭/产量/分别/为50/吨/、/70/吨,确定第一句话的最短句法路径为“产量—>为—>吨”,最长句法路径为“钢铁—>产量—>为—>吨—>50”。在此,取最短的最小路径和最长的最小路径作为属性和属性对应值之间的句法路径,称为最短句法路径和最长句法路径。
步骤220,基于句法路径构建句法结构特征:最短句法路径中句法结构个数为2个,最长句法路径中句法结构个数为3个;形成的特征为如下表2;
表2
对于本句中其他未出现的句法结构(如状中结构、附加关系等)处的特征记做0。
步骤230,基于句法路径构建词性特征:最短句法路径中经过词的词性个数为3个,最长的句法路径中经过词的词性个数为4个;形成的特征为如下表3:(以下为最长的句法路为例)
表3
特征(词性) | 名词 | 动词 | 数词 | 量词 |
特征对应的值 | 2 | 1 | 1 | 1 |
步骤240,基于最短句法路径上属性和属性对应值之间的词,使用word2vec的方法构建词向量,形成的特征为-0.266,0.3716,-0.85;
步骤250,基于物理距离构建特征:属性和属性对应值之间的物理距离为5,则该维度对应的特征为5。
步骤300,人工打标该数据,基于属性和数值两两匹配的特征,构建得到训练样本。
步骤400,重复步骤100~300的过程,构建训练样本,采用随机森林+逻辑回归的方式训练得到信息对匹配模型。
测试结果如下表4所示:
表4
模型 | 正例准确率 | 正例召回率 | F值 | AUC(Area Under Curve) |
信息匹配模型 | 0.981 | 0.975 | 0.978 | 0.997 |
其中,AUC(Area Under Curve)中curve是指ROC曲线。
由表4可知本发明提出的信息对匹配模型效果达到了较好的效果。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
Claims (10)
1.一种小样本集上的信息对匹配方法,其特征在于,该方法包括以下步骤:
步骤100,录入文本,识别文本中属性和属性对应值;
步骤200,两两构建语句中出现的属性和属性对应值的特征;
步骤300,构建训练样本;
步骤400,基于训练样本训练模型,构建信息对匹配模型。
2.根据权利要求1所述的方法,其特征在于,在步骤100中包括以下操作,对录入文本进行分句处理,即识别并划分文本中的句子,优选对每个句子添加标签以标示各句子在文本中的位置;
以句子为单位进行文本中属性和属性对应值的识别。
3.根据权利要求1所述的方法,其特征在于,在步骤100中,通过构建指标库的方式识别属性,或者将属性识别看成是命名实体识别任务,通过条件随机场模型、隐马尔可夫模型或、LSTM模型或其组合进行属性识别;
属性对应值为非数值形式时,通过与属性识别相同的方式获得;
属性对应值为数值形式时,通过配置模版方式识别属性对应值,即通过将数值形式的属性对应值以正则表达式表示形成模版,通过确定句子中是否存在符合正则表达式的字符串,识别数值形式的属性对应值。
4.根据权利要求1所述的方法,其特征在于,在步骤200中,包括构建句法路径;
将给定语句进行分词、词性标注、句法分析,取属性和属性对应值之间最短的最小路径和最长的最小路径作为属性和属性对应值之间的句法路径;
属性和属性对应值之间最短的最小路径和最长的最小路径称为最短句法路径和最长句法路径。
5.根据权利要求1所述的方法,其特征在于,在步骤200中,构建特征包括基于句法路径构建句法结构特征,即分别统计最长句法路径和最短句法路径上句法结构个数,将句法结构个数作为句法结构特征;
构建特征还包括基于句法路径构建词性特征,即分别统计最长句法路径和最短句法路径上词的词性个数,将词性个数作为词性特征;
构建特征还包括基于句法路径构建特殊词特征,所述特殊词为强烈影响属性和属性对应值之间匹配结果的词。
6.根据权利要求1所述的方法,其特征在于,在步骤200中,构建特征还包括基于句法路径上的词构建词向量;
使用one-hot encoder或者word2vec的方法构建词向量,优选使用word2vec的方法构建词向量。
7.根据权利要求1所述的方法,其特征在于,在步骤200中,构建特征还包括基于输入语句中属性和属性对应值的物理距离构建特征,物理距离包含距离长度和距离方向;
其中,所述距离长度通过输入语句中属性到属性对应值所需要经过的词的个数确定;所述距离方向通过预设属性和属性对应值的相对位置确定。
8.根据权利要求1所述的方法,其特征在于,在步骤300中,包括对抽取的特征进行相关性排序,选用相关性高的特征用于模型训练;
在步骤400中,利用支持向量机、随机森林、逻辑回归、或随机森林与逻辑回归结合的方式进行模型训练,优选采用随机森林与逻辑回归结合的方式进行模型训练。
9.根据权利要求1所述的方法,其特征在于,在步骤400中,还包括对构建得到的模型进行预测,数据预测得分和匹配结果互斥化的输出;
在模型实际使用中,数据得分和匹配结果互斥化的输出。
10.一种用于实施上述权利要求1至9之一所述方法的系统,该系统包括:
信息识别模块:用于文本中属性和属性对应值;
特征构建模块:用于两两构建语句中出现的属性和属性对应值的特征;
训练样本构建模块,用于基于属性和属性对应值两两匹配的特征及标注样本集,构建训练样本;
匹配模型构建模块,用于基于训练样本训练模型,构建信息对匹配模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810872940.8A CN110807096A (zh) | 2018-08-02 | 2018-08-02 | 一种小样本集上的信息对匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810872940.8A CN110807096A (zh) | 2018-08-02 | 2018-08-02 | 一种小样本集上的信息对匹配方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110807096A true CN110807096A (zh) | 2020-02-18 |
Family
ID=69486773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810872940.8A Pending CN110807096A (zh) | 2018-08-02 | 2018-08-02 | 一种小样本集上的信息对匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807096A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368527A (zh) * | 2020-02-28 | 2020-07-03 | 上海汇航捷讯网络科技有限公司 | 一种键值匹配方法 |
CN111859857A (zh) * | 2020-06-30 | 2020-10-30 | 上海森亿医疗科技有限公司 | 基于标注文本的训练数据集生成方法、系统、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5146406A (en) * | 1989-08-16 | 1992-09-08 | International Business Machines Corporation | Computer method for identifying predicate-argument structures in natural language text |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
US20170270484A1 (en) * | 2016-03-16 | 2017-09-21 | Oracle International Corporation | Resume extraction based on a resume type |
CN108280064A (zh) * | 2018-02-28 | 2018-07-13 | 北京理工大学 | 分词、词性标注、实体识别及句法分析的联合处理方法 |
-
2018
- 2018-08-02 CN CN201810872940.8A patent/CN110807096A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5146406A (en) * | 1989-08-16 | 1992-09-08 | International Business Machines Corporation | Computer method for identifying predicate-argument structures in natural language text |
US20170270484A1 (en) * | 2016-03-16 | 2017-09-21 | Oracle International Corporation | Resume extraction based on a resume type |
CN106777275A (zh) * | 2016-12-29 | 2017-05-31 | 北京理工大学 | 基于多粒度语义块的实体属性和属性值提取方法 |
CN108280064A (zh) * | 2018-02-28 | 2018-07-13 | 北京理工大学 | 分词、词性标注、实体识别及句法分析的联合处理方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368527A (zh) * | 2020-02-28 | 2020-07-03 | 上海汇航捷讯网络科技有限公司 | 一种键值匹配方法 |
CN111368527B (zh) * | 2020-02-28 | 2023-06-20 | 上海汇航捷讯网络科技有限公司 | 一种键值匹配方法 |
CN111859857A (zh) * | 2020-06-30 | 2020-10-30 | 上海森亿医疗科技有限公司 | 基于标注文本的训练数据集生成方法、系统、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968699B (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
US11475209B2 (en) | Device, system, and method for extracting named entities from sectioned documents | |
Jung | Semantic vector learning for natural language understanding | |
CN114610515B (zh) | 基于日志全语义的多特征日志异常检测方法及系统 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
US20210319180A1 (en) | Systems and methods for deviation detection, information extraction and obligation deviation detection | |
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN103885938B (zh) | 基于用户反馈的行业拼写错误检查方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN112487206B (zh) | 一种自动构建数据集的实体关系抽取方法 | |
CN106407113B (zh) | 一种基于Stack Overflow和commit库的bug定位方法 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN109934251B (zh) | 一种用于小语种文本识别的方法、识别系统及存储介质 | |
Abid et al. | Semi-automatic classification and duplicate detection from human loss news corpus | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN110807096A (zh) | 一种小样本集上的信息对匹配方法及系统 | |
Kungurtsev et al. | Development ofinformation technology of term extraction from documents in natural language | |
CN117648984A (zh) | 一种基于领域知识图谱的智能问答方法及系统 | |
D’Souza et al. | Sieve-based spatial relation extraction with expanding parse trees | |
CN113312903B (zh) | 一种5g移动业务产品词库的构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20221230 |
|
AD01 | Patent right deemed abandoned |