CN110889275A - 一种基于深度语义理解的信息抽取方法 - Google Patents

一种基于深度语义理解的信息抽取方法 Download PDF

Info

Publication number
CN110889275A
CN110889275A CN201811045718.7A CN201811045718A CN110889275A CN 110889275 A CN110889275 A CN 110889275A CN 201811045718 A CN201811045718 A CN 201811045718A CN 110889275 A CN110889275 A CN 110889275A
Authority
CN
China
Prior art keywords
sentence
template
sentences
extraction method
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811045718.7A
Other languages
English (en)
Inventor
徐祯琦
李超
吴雪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Data Technology Beijing Co ltd
Original Assignee
Dingfu Data Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Data Technology Beijing Co ltd filed Critical Dingfu Data Technology Beijing Co ltd
Priority to CN201811045718.7A priority Critical patent/CN110889275A/zh
Publication of CN110889275A publication Critical patent/CN110889275A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于深度语义理解的信息抽取方法,包括:构建该领域的本体和基本关系,并对部分语料进行人工标注;对人工标注的语料进行处理,识别出特定关系所对应的实体类型,同时挖掘领域中的新词与同义词;合并句子中识别出的同义词,对原始句子进行抽象,进行句法分析;将抽象后的句子聚类为句子模板,进行模版学习;进行句子模版评估;利用句子模板对人工未标注的语料进行新关系抽取,并对新关系进行评估过滤。本发明提供的方法能够更好的利用句法分析结果,使得自动挖掘出的模板具有更高层次的抽象和泛化能力。

Description

一种基于深度语义理解的信息抽取方法
技术领域
本发明涉及一种信息抽取方法,特别涉及一种基于深度语义理解的信息抽取方法。
背景技术
随着数字化技术以及互联网技术的普及,文本信息得到了爆炸性的增长。如何对文本信息进行合理的组织,能够快捷便利地找到重要信息便成为一个急需解决的问题。
文本信息常见的组织方式之一便是结构化图表,而信息抽取则是将结构化、半结构化以及非结构化数据进行结构化的一种常见方法。
现有的信息抽取方法中,在结构化和半结构化数据上进行的尝试很多,并且能够达到较好的效果。但对于非结构化数据,目前的抽取方法存在以下问题:
1、基于监督的方法需要大量的人工标注数据,同时基于某一领域生成的模型往往不能直接用于其他领域,仍旧需要大量的标注工作,通用性不强;
2、基于半监督方法得到的结果召回率过低,通常还需要大量的样本数据进行模型优化;
3、基于远程监督的方法不仅存在同半监督方法一样的缺点,还需要对关注的领域事前准备好已有的结构化信息,再进行模型优化。
可见,目前以句法分析为主的信息抽取方法针对长句的提取效果准确率过低,无法直接应用于其他任务。
针对上述问题,在现有技术的基础上,本发明人对现有技术进行改进,研究出一种基于深度语义理解的信息抽取方法。
发明内容
为了解决上述问题,本发明人进行了锐意研究,结果发现:通过语义抽象,将原始长句变为短句,能够更好的利用句法分析结果,使得自动挖掘出的模板具有更高层次的抽象和泛化能力,从而完成了本发明。
本发明的目的在于提供一种基于深度语义理解的信息抽取方法,该方法包括:
步骤1:根据收集的语料库信息,构建设定领域的本体和基本关系,并对部分语料进行人工标注;
步骤2:对人工标注的语料进行处理,识别出特定关系所对应的实体类型,同时挖掘领域中的新词与同义词;
步骤3:合并句子中识别出的同义词,对原始句子进行抽象,并进行句法分析;
步骤4:将抽象后的句子聚类为句子模板,进行模版学习;
步骤5:进行句子模版评估;
步骤6:利用句子模板对人工未标注的语料进行新关系抽取,并对新关系进行评估过滤。
在步骤2中,挖掘领域新词时主要依赖于包括点间互信息及左右信息熵的score值来衡量一个词是否为新词,所述score值按照以下公式进行计算:
score(w)=PMI(w1,w2)+min(H(wl),H(wr))
w为一个新词组,w1、w2为自然语言处理中现有的分词结果,且w=w1+w2;wl、wr为w的上下文。min(H(wl),H(wr))表示取H(wl)和H(wr)中最小的值。
在步骤3中,将句子中识别出的命名实体、同位语、并列结构使用递归的方法进行合并,并对原始句子进行抽象,缩短长度。
在步骤4中,利用步骤3中的方法对人工标注的语料中的句子进行抽象,并将具有相同句法结构、相似表述的句子进行自动聚类,筛选出包含句子数量最多的M个类别的句子模板。
在步骤5中,根据抽取出的结果进行准确率和召回率的计算,确定句子模版的置信度;
模版i的置信度conf(i)如下:
Figure BDA0001793244620000031
n为人工标注的句子数量。
在步骤6中,抽取置信度高的关系值;关系k在句子j中的置信度为:
Figure BDA0001793244620000032
其中,m为能够抽取出关系k的句子模版数量,conf(pi)为句子模版pi的置信度。
根据本发明提供的一种基于深度语义理解的信息抽取方法具有以下有益效果:
(1)与已有的半监督方法相比,本方法通过语义抽象,将原始长句变为短句,能够更好的利用句法分析结果,使得自动挖掘出的模板具有更高层次的抽象和泛化能力;
(2)采用前端开发框架(bootstrap)的方式,利用少量的标注数据,能够自动抽取出大量的实体关系对,能够方便的迁移到新的领域;
(3)根据本发明提供的方法,在每个领域仅人工标注200 篇语料的情况下,该方法平均能够自动召回该领域约40%~ 60%的未标注语料,降低了人工标注的工作量;同时,抽象得到的相关合并模版可以直接使用到该领域的不同类别中,进一步促进了未标注语料的召回率和准确性。
附图说明
图1示出本发明的一种基于深度语义理解的信息抽取方法 的流程图。
具体实施方式
下面通过对本发明进行详细说明,本发明的特点和优点将随着这些说明而变得更为清楚、明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
以下详述本发明。
本发明提供了一种基于深度语义理解的信息抽取方法,所述方法包括以下步骤:
步骤1:根据收集的语料库信息,构建设定领域的本体和基本关系,并对部分语料进行人工标注;
所述语料库是以电子计算机为载体承载语言知识的基础资源,其中存放的是在语言的实际使用中真实出现过的语言材料。语料库的收集方法并不做限定,利用现有技术中任一种能够收集语料的方法都可以。在一种可以实现的方法中,可以使用人工进行收集;当然,在更为便利和快捷的方法中,可以使用机器对设定领域的语料进行自动收集。
收集语料时,可以从公开数据源中抓取相应的数据文件,也可根据收集的数据自行建立数据文件。收集到的数据文件很多时候都是不同的文件类型,例如为pdf、word、Excel等,很不利于后续处理中对语料库中语句的抽象处理,造成语义理解错误等问题。优选将这些不同类型的数据文件全部转换为没有修饰的文本形式。
对收集的领域信息进行分类,构建本体;所述本体是领域的事件分类体系,一般根据实际需求设定。例如,在金融领域,根据需求可以进行高管辞职、企业、经营内容等事件进行分类。
相应地在本体中还包括有基本关系,所述基本关系是本体中具体事件的具体要素,基本关系可以为一个或多个,一般而言,基本关系为多个;其所应对的值为关系值。所述基本关系根据实际需求设定。
本体和基本关系确定后,对部分语料进行标注,优选使用标注工具对相应的事件进行标注。所述标注工具可以使用现有技术中任一种可以实现标注的工具。
在步骤1的标注处理中,优选人工进行标注处理,以提高后续生成模版的准确性。在标注时,进一步地,需要记录标注内容及其在文本中的具体位置,方便后续的句子模版的生成。
步骤2:对人工标注的语料进行处理,识别出特定关系所对应的实体类型,同时挖掘各类事件中的新词与同义词。
对人工标注的语料进行包括分词和标注的自然语言处理,在设定的领域中,可以使用设定的关键词进行匹配分词;优选还使用设定的要素或值对分词后的词组进行标注。
自然语言处理的文本为特定文本,其可以为人工标注的语料,也可以为未标注的文本。经自然语言处理后的词组所表示的要素为特定关系,其为特定事件中的具体要素。
依据分词结果和标注的关系,可以获知语料中不同的命名实体。所述命名实体为以包括人名、机构名、地名、数字、日期、货币、地址、职位等名称为标识的实体。
步骤21:识别特定关系所对应的实体类型;
在本发明提供的方法中,不同的基本关系对应于不同类型的命名实体。其中,实体类型是指实体的类别,一般根据领域信息和实际需求进行归类。确定特定关系所对应的实体类型有助于提高基本关系提取的准确率。
语料经过分词和标注处理后,可以获知每个词组及其识别的对应的命名实体。在该人工标注过的语料中,通过统计人工标注的基本关系的关系值与对应的命名实体识别的结果的数量排序,可以确定关系值与对应的命名实体,从而确定特定关系所对应的命名实体类型。
步骤22:针对语料库中的设定领域,挖掘领域新词;
分词是自然语言处理最基本的任务,针对语料库中的各类事件,挖掘设定领域中自然语言处理模型中未出现过的词组(新词)可以提高分词的准确率。
新词的挖掘主要依赖于两个指标,点间互信息(PMI)及左右信息熵。
其中,点间互信息的定义如下:
Figure BDA0001793244620000061
其中,x、y代表两个相邻的分词结果,p(x)表示x在整个语料中出现的概率,即x出现的次数/语料中所有词出现的总次数。 p(y)表示y在整个语料中出现的概率,即y出现的次数/语料中所有词出现的总次数。p(x,y)表示xy在整个语料中出现的概率,即 xy出现的次数/语料中所有词出现的总次数。
点间互信息可以衡量两个词x、y之间的凝聚程度,PMI值越大,说明x、y越可能成词。
其中,信息熵的定义如下:
Figure BDA0001793244620000062
对于一个词w的左信息熵,X表示w左边出现的所有词的集合,p(x)表示集合X中一个具体的词x在语料中出现的概率。
对于一个词w的右信息熵,X表示w右边出现的所有词的集合,p(x)表示集合X中一个具体的词x在语料中出现的概率。
左右信息熵则表示了词w在上下文的丰富程度,左右信息熵越大,说明w与上下文成词的可能性越低。
特别地,在本发明通过score值来衡量一个词是否为新词,所述一个词w的score值按照以下公式进行判断:
score(w)=PMI(w1,w2)+min(H(wl),H(wr))
其中,w为一个新词组,w1、w2为自然语言处理中现有的分词结果,且w=w1+w2;wl、wr为w的上下文。min(H(wl),H(wr)) 表示取H(wl)和H(wr)中最小的值。
当w1=x,w2=y时,score(w)的值越大,该词越可能是一个新词。
将在特定事件中挖掘出的候选新词的score值排序,取排名靠前的词组,加入词表中。
优选地,取排名前N的词组,经人工筛选后将真正成词的候选词组加入到词表中。所述N的值根据需要任意设定。
步骤23:挖掘同义词
为了后续更好地进行语义抽象,还需要在特定事件中挖掘同义词,优选利用人工标注的语料进行自动挖掘。
所述同义词挖掘的方法可以选用现有技术中的任一种,优选选用规则提取、语料对齐和上下文相关性挖掘中的任意一种。
在一种优选的实施方式中,使用上下文相关性的方法进行同义词的挖掘。
所述上下文相关性的实现方式并不限于本发明提供的以下一种,还可以选用现有技术中的任一种可以实现的方式,同义词筛选的具体方式并不做进一步限定。
在一种最优选的实施方式中,可以通过如下方式实现:
步骤231:利用分词后的结果,计算所有词组的词向量;
步骤232:通过分析人工标注句子,筛选出候选的词组;
步骤233:在所有词向量中,得到与候选的词组相似度最高的词组;
步骤234:人工筛选词组,得到最终的同义词。
挖掘到的同义词中可能还包含有意思表示相同的命名实体、同位语和并列结构,进行后续的处理。
步骤3:合并句子中识别出的同义词,对原始句子进行抽象,并进行句法分析。
依赖于步骤2中的分词处理,在对语料进行处理时,可能识别出多个相同的命名实体、同位语或并列结构。将句子中识别出的命名实体、同位语、并列结构合并,对原始句子进行抽象,缩短长度,并进行句法分析。
所述同位语是指对另一个名词或代词进行解释或补充说明的名词,二者实质上表示为同一事物或人。
另外,如果两句话所传递的信息在重要性上差不多是相等的,就可以把它们一前一后地排列起来,或者用并列连词把它们连接起来,称为并列结构。并列结构可以是词的并列,可以是词组的并列,也可以是分句的并列。并列结构既可以是双项并列,也可以是多项并列。
识别出的多个相同的命名实体、同位语或并列结构会使句子中出现多个相同意思表示的词组或分句,不利于缩短句子长度和语义抽象,很容易在进行句法分析时出现语义理解错误的问题。因而很有必要将相同意思表示的词组或分句合并,以缩减语义抽象后句子的长度,并提高语义抽象后句子的准确率。
所述语义抽象是指将语料中自然语言的过程和结果简要地描述出来。
将语料中相同意思表示的同位语和并列结构合并时可以使用人工设定的模板将句子中的成分进行抽象,所述模板是根据需要设定的一种标准化的结构形式。
根据标注后的分词,归纳相同的成分进行模板抽象。
使用模板进行抽象的方法可以选用现有技术中的任一种,在一种优选的实施方式中,在使用模版进行抽象的时候选用递归的方法进行合并。
任选地,利用开源的句法分析工具分析经过抽象后的句子,可以得到句法分析结果。
步骤4:将抽象后的句子自动聚类并进行模版学习;
利用步骤3中的方法,对人工标注的语料中的句子进行抽象,并将具有相同句法结构、相似表述的句子进行自动聚类。
所述自动聚类是指根据句子中文本内容的相似度,将内容聚合成不同的类别。通过自动聚类进行模板抽象或模板学习。
通过自动聚类可以聚合得到多个不同的类别,然而,并不是所有的类别都具有模板抽象的意义。一般而言,选用句子数量最多的类别可以使用最少的模板表达最多的句子,大大简化模板的数量,显著降低后期模板评估的工作量。
优选地,筛选出包含句子数量最多的M个类别,所述M为大于0的整数,其值根据实际需求任意设定。
根据各个类别中句子的相同成分对对各个类别进行模版抽象或模板学习。所述模板抽象的方法选自包括K-means算法(硬聚类算法)、基于密度的聚类算法和基于高斯混合模型的EM聚类算法中的任意或组合,优选为K-means算法。
通过模板学习,可以获得句子模板。
步骤5:进行句子模版评估;
针对步骤4中挖掘出的句子模板,利用人工已经标注好的语料信息对句子模板进行评估,滤除置信度低的句子模板。
在对句子模板进行评估时,在一种优选的实施方式中,使用人工标注好的句子进行模板评估,可以准确地判断模板的优劣。
在对句子模板进行评估时,需要将步骤3中合并的句子拆分,进行具体关系值的抽取。关系值是指某种具体关系的具体取值。例如,对于高管辞职领域中辞职原因这个具体的关系,它的关系值可能是“工作原因”。
优选利用步骤4中得到的句子模版对人工标注好的句子进行自动抽取,并根据抽取出的结果进行准确率和召回率的计算,确定句子模版的置信度。
其中,模版i在句子j下的准确率p(i,j)的计算公式如下:
p(i,j)=positive(i,j)/pattern(i,j)
模版i在句子j下的召回率r(i,j)的计算公式如下:
r(i,j)=positive(i,j)/manual(j)
其中,positive(i,j)为模版i在句子j下抽取准确的关系数量; pattern(i,j)为模版i在句子j下抽取出的关系数量;manual(j)为人工标注的关系数量。若pattern(i,j)为0,则p(i,j)为0。
以f值作为句子模版的置信度,模版i在句子j下的f值的计算公式如下:
f(i,j)=2×p(i,j)×r(i,j)/(p(i,j)+r(i,j))
模版i的置信度conf(i)的计算公式如下:
Figure BDA0001793244620000101
其中,n为人工标注的句子数量。
当置信度越高时,模板的准确率和召回率越高,该模板就的可靠性就越好。根据多个模板的置信度,滤除置信度低的模板。所述置信度根据需要任意设定,优选置信度为60%-90%,例如70%。
根据需要,可以选择置信度在设定区间的句子模板。
步骤6:利用句子模板对人工未标注的语料进行新关系抽取,并对新关系进行评估过滤
利用步骤5中得到的置信度高的句子模版,对语料库中人工未标注的句子进行新的实体关系的抽取,并计算抽取出的关系值的置信度。
较好地,对所有单个句子中抽取出的关系值进行置信度的计算。其中,关系值的置信度按照以下方法进行计算:
单个尚未进行人工标注的句子j,k为句子j中存在的某个关系值,则关系k的置信度如下:
Figure BDA0001793244620000111
其中,m为能够抽取出关系k的句子模版数量,conf(pi)为句子模版pi的置信度,conf(k)为关系k的置信度。
由公式可知,对于关系k,越多置信度高的模版能够抽取出该关系,则关系k的置信度越高。
而单个句子j的置信度为该句子中包含的全部关系值的置信度之和。
优选关系k的置信度大于步骤5中模板的置信度,可以进一步提高抽取的关系值以及循环后生成的模板的准确率和召回率。
将置信度高的关系值与句子作为新的标注好的语料添加到人工标注语料中,可以得到更多地用于抽取模版的句式。循环运行步骤3、4和5的处理,直至没有新的句子模版或者没有新的关系值抽取出为止。
与已有的半监督方法相比,本方法主要通过步骤2和3对具有相同语义的表述进行抽象,将原始长句变为短句,能够更好的利用句法分析结果,使得自动挖掘出的模板具有更高层次的抽象和泛化能力。
本发明提供的方法还可以选择性地适用于其他领域,在每个领域仅人工标注200篇语料的情况下,该方法平均能够自动召回该领域约40%~60%的未标注语料,显著降低了人工标注的工作量。同时,通过步骤3抽象得到的相关合并模版可以直接使用到该领域的不同类别中,进一步促进了未标注语料的召回率和准确性。
实施例
实施例1
步骤1:将搜集的领域信息转化为文本格式,存储与语料库中;并利用领域信息构建本体和基本关系。
当本体为高管辞职时,构建的基本关系为:姓名、性别、辞职时间、辞职原因、辞职岗位。
使用标注工具人工标注部分语料,记录标注内容及其在文本中的具体位置。人工标注的语料如下(下划线部分表示标注内容):
近日,深圳市***信息技术股份有限公司(以下简称“本公司”)董事会于2008年9月25日收到董事崔**先生、董事何**先生的书面辞职报告。由于年龄原因崔**先生何**先 分别申请辞去公司副总裁职务和总经理职务。
在计算机系统中存储方式如下:
关系名称 关系值 段落偏移量 文本偏移量
辞职原因 年龄原因 5 55
姓名 崔**、何** 5 60
性别 先生 5 63
辞职岗位 副总裁、总经理 5 71
步骤2:对人工标注的语料进行自然语言处理,识别语料中特定关系所对应的实体类型;同时挖掘各类事件中的新词与同义词。
A)步骤1标注的语料中,关系所对应的命名实体类型如下:
关系名称 姓名 性别 辞职时间 辞职原因 辞职岗位
实体类型 人名 时间 职位
B)利用点间互信息和左右信息熵,挖掘语料库中的新词。挖掘出的新词中score值排名前10的词为:个人原因、身体原因、工作变动、工作调整、工作原因、董事会秘书、职工代表监事、职工代表、专门委员会、考核委员会。
人工筛选出“个人原因、身体原因、工作变动、工作调整、工作原因、董事会秘书、职工代表监事、考核委员会”加入到词表中。
C)挖掘同义词
使用上下文相关性的方法挖掘同义词,获取到的同义词如下:辞职、辞呈、辞去、离任;
收到、接到、通过、同意、达成。
步骤3:合并识别出的句子中的命名实体、同位语和并列结构,对句子进行抽象和句法分析。
对于标注的句子“深圳市***信息技术股份有限公司(以下简称“本公司”)董事会于2008年9月25日收到董事崔**先生、董事何**先生的书面辞职报告。”进行分词、命名实体识别,结果如下(/表示分词时词语分组):
深圳市***信息技术股份有限公司/(/以下简称/“/本公司/”/)/董事会/于/2008年9月25日/收到/董事/崔**/先生/、/董事/何 **/先生/的/书面/辞职/报告/
其中,“深圳市***信息技术股份有限公司”为组织机构名称 (ORG),“2008年9月25日”为日期(DATE),“董事”为职位 (JOB),“崔**”、“何**”为人名(PERSON),“先生”为性别(GENDER)。
获取到分词与命名实体识别结果后,按照以下模版进行同位语、并列结构的合并,将句子中的成分依照递归的方法进行抽象。
Figure BDA0001793244620000141
其中,“董事/崔立文/先生”可以经过JOB+PERSON模版合并成“董事崔立文”+“先生”,再通过PERSON+GENDER模板合并成“董事崔立文先生”这一个单独的PERSON实体。
经过上述的步骤,原句子可以抽象如下:
ORG/董事会/于/DATE/收到/PRESON/的/书面/辞职/报告
其中,ORG=深圳市***信息技术股份有限公司(以下简称“本公司”),DATE=2008年9月25日,PERSON=董事崔**先生、董事何**先生。
利用开源工具对抽象后的句子进行句法分析。
步骤4:将具有相同句法结构、相似表述的句子自动聚类,并对各个类别进行句子模版抽象。
利用步骤3中的方法对语料库中人工标注的句子进行抽象,并将抽象后的句子进行自动聚类,筛选出包含句子数量最多的5 个类别。在高管辞职这个本体下筛选出的句子模版为:
ORG/*/于/*/DATE/收到/PRESON/的/辞职/*
ORG/收到/PRESON/辞职/*
PERSON/向/ORG/提交/辞职/*
PERSON/因/*/原因/*/辞去/JOB
PERSON/于/DATE/向/ORG/递交/*/辞去/*/JOB/辞职报告
步骤5:利用人工经标注好的语料对挖掘出的句子模板进行评估,计算出每个模版的置信度。
其中,模版i在句子j下的准确率为:
p(i,j)=positive(i,j)/pattern(i,j)
模版i在句子j下的召回率为:
r(i,j)=positive(i,j)/manual(j)
其中,positive(i,j)为模版i在句子j下抽取准确的关系数量, pattern(i,j)为模版i在句子j下抽取出的关系数量,manual(j)为人工标注的关系数量,若pattern(i,j)为0,则p(i,j)为0。
模版i在句子j下的f值为:
f(i,j)=2*p(i,j)*r(i,j)/(p(i,j)+r(i,j))
模版i的置信度为:
Figure BDA0001793244620000151
其中,n为人工标注的句子数量。
设定置信度为70%,筛选出的模板为:
ORG/*/于/*/DATE/收到/PRESON/的/辞职/*
ORG/收到/PRESON/辞职/*
PERSON/向/ORG/提交/辞职/*
PERSON/因/*/原因/*/辞去/JOB
步骤6:利用步骤5中筛选出的句子模板,对人工未标注的句子进行关系值抽取,并对抽取出的关系值计算置信度。句子置信度计算的具体步骤如下:
k为句子j中存在的某个关系值,则关系k的置信度如下:
Figure BDA0001793244620000161
其中,m为能够抽取出关系k的模版数量,conf(pi)为模版 pi的置信度,conf(k)为关系k的置信度。
单个句子j的置信度为该句子包含的关系值的置信度之和。
将置信度高为78%以上的关系值与句子作为新的标注好的语料添加到人工标注语料中,循环进行步骤3、4、5,直至没有新的模版或者没有新的关系值抽取出为止。
结束。
以上结合具体实施方式和范例性实例对本发明进行了详细说明,不过这些说明并不能理解为对本发明的限制。本领域技术人员理解,在不偏离本发明精神和范围的情况下,可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。

Claims (10)

1.一种基于深度语义理解的信息抽取方法,其特征在于,该方法包括:
步骤1:根据收集的语料库信息,构建设定领域的本体和基本关系,并对部分语料进行人工标注;
步骤2:对人工标注的语料进行处理,识别出特定关系所对应的实体类型,同时挖掘领域中的新词与同义词;
步骤3:合并句子中识别出的同义词,对原始句子进行抽象,并进行句法分析;
步骤4:将抽象后的句子聚类为句子模板,进行模版学习;
步骤5:进行句子模版评估;
步骤6:利用句子模板对人工未标注的语料进行新关系抽取,并对新关系进行评估过滤。
2.根据权利要求1所述的信息抽取方法,其特征在于,在步骤2中,挖掘领域新词时依赖于左右信息熵的score值来衡量一个词是否为新词,所述score值按照以下公式进行计算:
score(w)=PMI(w1,w2)+min(H(wl),H(wr));
w为一个新词组,w1、w2为自然语言处理中现有的分词结果,且w=w1+w2;wl、wr为w的上下文;min(H(wl),H(wr))表示取H(wl)和H(wr)中最小的值。
3.根据权利要求2所述的信息抽取方法,其特征在于,在步骤2中,挖掘领域新词时还依赖于点间互信息,为:
Figure FDA0001793244610000011
x、y代表两个相邻的词组;p(x)表示x在整个语料中出现的概率;p(y)表示y在整个语料中出现的概率;p(x,y)表示xy在整个语料中出现的概率。
4.根据权利要求2所述的信息抽取方法,其特征在于,在步骤2中,信息熵为:
Figure FDA0001793244610000021
X表示w左边或右边出现的所有词的集合,p(x)表示集合X中一个具体的词x在语料中出现的概率。
5.根据权利要求1所述的信息抽取方法,其特征在于,在步骤3中,将句子中识别出的命名实体、同位语、并列结构使用递归的方法进行合并,并对原始句子进行抽象,缩短长度。
6.根据权利要求1所述的信息抽取方法,其特征在于,在步骤4中,利用步骤3中的方法对人工标注的语料中的句子进行抽象,并将具有相同句法结构、相似表述的句子进行自动聚类,筛选出包含句子数量最多的M个类别的句子模板。
7.根据权利要求1所述的信息抽取方法,其特征在于,在步骤5中,抽取人工已经标注好的语料信息,利用抽取结果对步骤4中得到的句子模板进行评估,滤除置信度低的句子模板。
8.根据权利要求1所述的信息抽取方法,其特征在于,在步骤5中,根据抽取出的结果进行准确率和召回率的计算,确定句子模版的置信度;
模版i的置信度conf(i)如下:
Figure FDA0001793244610000022
n为人工标注的句子数量。
9.根据权利要求8所述的信息抽取方法,其特征在于,在步骤5中,模版i在句子j下的f值为:
f(i,j)=2×p(i,j)×r(i,j)/(p(i,j)+r(i,j));
模版i在句子j下的准确率p(i,j)的计算公式如下:
p(i,j)=positive(i,j)/pattern(i,j);
模版i在句子j下的召回率r(i,j)的计算公式如下:
r(i,j)=positive(i,j)/manual(j);
其中,positive(i,j)为模版i在句子j下抽取准确的关系数量;pattern(i,j)为模版i在句子j下抽取出的关系数量;manual(j)为人工标注的关系数量。
10.根据权利要求1所述的信息抽取方法,其特征在于,在步骤6中,抽取置信度高的关系值;
关系k在句子j中的置信度为:
Figure FDA0001793244610000031
其中,m为能够抽取出关系k的句子模版数量,conf(pi)为句子模版pi的置信度。
CN201811045718.7A 2018-09-07 2018-09-07 一种基于深度语义理解的信息抽取方法 Pending CN110889275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811045718.7A CN110889275A (zh) 2018-09-07 2018-09-07 一种基于深度语义理解的信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811045718.7A CN110889275A (zh) 2018-09-07 2018-09-07 一种基于深度语义理解的信息抽取方法

Publications (1)

Publication Number Publication Date
CN110889275A true CN110889275A (zh) 2020-03-17

Family

ID=69744767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811045718.7A Pending CN110889275A (zh) 2018-09-07 2018-09-07 一种基于深度语义理解的信息抽取方法

Country Status (1)

Country Link
CN (1) CN110889275A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069780A (zh) * 2019-04-19 2019-07-30 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法和系统
CN111488468A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN111581950A (zh) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 同义名称词的确定方法和同义名称词的知识库的建立方法
CN113408271A (zh) * 2021-06-16 2021-09-17 北京来也网络科技有限公司 基于rpa及ai的信息抽取方法、装置、设备及介质
CN113779961A (zh) * 2020-06-09 2021-12-10 国家计算机网络与信息安全管理中心 一种自然语言文本的惯用句式提取方法及电子装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069780A (zh) * 2019-04-19 2019-07-30 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法和系统
CN110069780B (zh) * 2019-04-19 2021-11-19 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法
CN111488468A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN111581950A (zh) * 2020-04-30 2020-08-25 支付宝(杭州)信息技术有限公司 同义名称词的确定方法和同义名称词的知识库的建立方法
CN111581950B (zh) * 2020-04-30 2024-01-02 支付宝(杭州)信息技术有限公司 同义名称词的确定方法和同义名称词的知识库的建立方法
CN113779961A (zh) * 2020-06-09 2021-12-10 国家计算机网络与信息安全管理中心 一种自然语言文本的惯用句式提取方法及电子装置
CN113408271A (zh) * 2021-06-16 2021-09-17 北京来也网络科技有限公司 基于rpa及ai的信息抽取方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN112001177B (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
US10102254B2 (en) Confidence ranking of answers based on temporal semantics
Bucur Using opinion mining techniques in tourism
CN110889275A (zh) 一种基于深度语义理解的信息抽取方法
Zhou et al. Improving software bug-specific named entity recognition with deep neural network
US20120303661A1 (en) Systems and methods for information extraction using contextual pattern discovery
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
Zhou et al. Recognizing software bug-specific named entity in software bug repository
CN112000802A (zh) 基于相似度集成的软件缺陷定位方法
Li et al. A method for resume information extraction using bert-bilstm-crf
Wu et al. Extracting summary knowledge graphs from long documents
Dobrovolskyi et al. Collecting the Seminal Scientific Abstracts with Topic Modelling, Snowball Sampling and Citation Analysis.
Chou et al. Boosted web named entity recognition via tri-training
AlMahmoud et al. The effect of clustering algorithms on question answering
Yusuf et al. A technical review of the state-of-the-art methods in aspect-based sentiment analysis
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN115934936A (zh) 一种基于自然语言处理的智能交通文本分析方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
Gayen et al. Automatic identification of Bengali noun-noun compounds using random forest
Sweidan et al. Autoregressive Feature Extraction with Topic Modeling for Aspect-based Sentiment Analysis of Arabic as a Low-resource Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200317

RJ01 Rejection of invention patent application after publication