CN110119510A - 一种基于传递依存关系和结构助词的关系抽取方法及装置 - Google Patents

一种基于传递依存关系和结构助词的关系抽取方法及装置 Download PDF

Info

Publication number
CN110119510A
CN110119510A CN201910412966.9A CN201910412966A CN110119510A CN 110119510 A CN110119510 A CN 110119510A CN 201910412966 A CN201910412966 A CN 201910412966A CN 110119510 A CN110119510 A CN 110119510A
Authority
CN
China
Prior art keywords
entity
dependence
stand
sentence
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910412966.9A
Other languages
English (en)
Other versions
CN110119510B (zh
Inventor
王功明
谢超
郭运艳
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201910412966.9A priority Critical patent/CN110119510B/zh
Publication of CN110119510A publication Critical patent/CN110119510A/zh
Application granted granted Critical
Publication of CN110119510B publication Critical patent/CN110119510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于传递依存关系和结构助词的关系抽取方法及装置,属于关系抽取领域,本发明要解决的技术问题为如何处理当前关系抽取中存在的抽取模板和规则依赖树库的依存关系定义和符号存在差异且通用性差、机器学习特征选择困难、人工标注训练语料成本高、自动化标注训练语料准确性低的缺点,从而提高关系抽取的效果,采用的技术方案为:该方法包括如下步骤:S1、获取命名实体和依存关系:使用自然语言处理软件处理句子,获取命名实体和不同成分间的依存关系;S2、抽取原始句子中的关系;S3、简化原始句子并抽取关系。该装置包括命名实体和依存关系获取单元、原始句子关系三元组抽取单元和原始句子简化和关系三元组抽取单元。

Description

一种基于传递依存关系和结构助词的关系抽取方法及装置
技术领域
本发明涉及命名实体识别、依存句法分析、文本复述及关系抽取领域,具体地说是一种基于传递依存关系和结构助词的关系抽取方法及装置。
背景技术
关系是描述实体对之间语义联系的三元组,其形式是(A,ɑ,B),其中A、 B是实体,ɑ是实体间的语义联系。关系大量存在于自然文本中,例如:句子“A 城市是M国的首都”中包含关系(A城市,首都,M国),句子“X国总统B来到M国”中包含关系(X国,总统,B)和(B,来到,M国)。关系抽取是信息抽取领域的重要研究内容,可以建立不同实体间的依赖类型,将非结构化文本转化为结构化或半结构化知识,形成由知识构成的关系网络,用于智能问答、语义搜索、社团发现等智能型服务。
目前,随着“大数据”和“互联网+”的高速发展,不同领域的信息数据呈井喷式增长,关系抽取可以永不停息地理解和筛选信息,源源不断地生成并完善适用的领域知识,突破传统人工阅读、理解、整理等信息加工方式的时空局限性,构建远超人类自身极限的智能设备、工具和体系,引领人工智能发展的前沿,是未来智慧生活的技术保障。
目前,常用的关系抽取方法包括下述三种:
(1)、规则模板法:通过分析句式特点,设计若干模板(正则表达式),使用模板在文本中匹配出关系三元组。这种方法需要构建庞大的模板库,早期由专家手工写出模板,人力耗费极大;近年来开始采用自动化方式生成模板,最常用的是Bootstrapping算法,根据最初几个实例从文本中提取种子模板,然后将进一步应用于文本,获得新的实例,重复上述过程,获得更多的模板。 Bootstrapping算法的基础是多次重复抽样,如果初始实例质量不佳,提取出的种子模板适用面窄,在后继迭代(重复抽样)中容易陷入局部收敛,缺乏扩展性和普适性;此外,在模板扩增的过程中,会产生适用面窄、不正确或彼此冲突(对于同一句话的相同实体,得到彼此矛盾的关系)的新模板,影响关系抽取的准确性。
(2)、依存分析法:对文本进行句法或语法分析,根据关系三元组各个元素在句中的依存关系(如主谓、动宾、动补、定中、介宾等),确定对应的抽取规范。该方法与规则模板法类似,但处理对象是文本的句法或语法分析结果,要综合多条规则进行抽取,而不是使用模板直接匹配。本方法在句法或语法层进行处理,抽取结果能够更准确揭示实体间的语义联系。但是,依存关系种类有限,导致可用的抽取规则数量不多;此外,不同树库(或相同树库的不同版本) 的依存关系定义和符号均有差异,更换树库类型或版本后,原有的关系抽取规则会失去效果;上述问题,影响本方法的普适性。
(3)、机器学习法:该方法把关系抽取任务当作分类训练问题。首先,对句子进行词法和句法分析,得到每个实体的平面特征和句法特征;然后,综合平面特征和句法特征,以及语义角色标注特征,生成完整的关系特征;最后,根据关系特征和已标注的特征标签,采用合适的方法(LR、SVM、CRF等)进行训练,从而得到不同关系的生成模型。按照语料标注的方式,本方法分为有监督学习方法、半监督学习方法、远程监督学习方法。其中,有监督学习方法需要人工标注大量训练语料,非常耗时耗力,而且适用面窄;半监督学习方法根据少量人工标注语料,为其它无标注样本打标签,标注准确性不易保证;远程监督学习方法将知识库中的实体关系映射到未标注文本中,自动构建大量训练数据,但关系存在多义性,实体在知识库和未标注文本中的关系未必相同,容易引入噪声数据。由此可知,使用本方法进行关系抽取,在特征选择、语料标注、样本训练等方面都存在技术挑战。
综上所述,如何处理当前关系抽取中存在的抽取模板和规则依赖树库的依存关系定义和符号存在差异且通用性差、机器学习特征选择困难、人工标注训练语料成本高、自动化标注训练语料准确性低的缺点,从而提高关系抽取的效果是目前现有技术中急需解决的技术问题。
专利号为CN109241538A的专利文献公开了一种基于关键词和动词依存的中文实体关系抽取方法,以大规模非结构化自由文本为目标文本,首先对文本进行分词、抽取关键词,形成文本关键词词库;然后对文本进行分句、分词、词性标注、命名实体识别、依存句法分析处理,结合命名实体词库和关键词词库构建实体语料库;根据中文句子构成特点、句法结构以及词语间的依存关系从动词出发构建实体关系句法规则,再对文本中每个句子进行关系句法规则的匹配;最后输出关系三元组,得到文本关系三元组集合。但是该技术方案不能克服当前关系抽取中存在的抽取模板和规则依赖树库的依存关系定义和符号存在差异且通用性差、人工标注训练语料成本高、自动化标注训练语料准确性低的缺点。
专利号为CN107291687A专利文献公开了一种基于依存语义的中文无监督开放式实体关系抽取方法,该方法包括以下步骤:预处理输入文本:对输入文本进行中文分词、词性标注和依存句法分析;对输入文本进行命名实体识别;从识别出的实体中任意选出两个实体构成候选实体对;寻找候选实体对中的两个实体之间的依存路径;分析依存路径所映射的句法结构是否与依存语义范式集的范式匹配,若是,则根据被匹配的范式从输入文本的剩余部分中抽取出词或短语作为关系词,抽取的关系词与候选实体对构成关系三元组,若否则进行下一组候选实体对的范式匹配;输出关系三元组。但是该技术方案不能克服当前关系抽取中存在的抽取模板和规则依赖树库的依存关系定义和符号存在差异且通用性差、人工标注训练语料成本高、自动化标注训练语料准确性低的缺点。
发明内容
本发明的技术任务是提供一种基于传递依存关系和结构助词的关系抽取方法及装置,来解决如何处理当前关系抽取中存在的抽取模板和规则依赖树库的依存关系定义和符号存在差异且通用性差、机器学习特征选择困难、人工标注训练语料成本高、自动化标注训练语料准确性低的缺点,从而提高关系抽取的效果的问题。
本发明的技术任务是按以下方式实现的,基于传递依存关系和结构助词的关系抽取方法,包括如下步骤:
S1、获取命名实体和依存关系:使用自然语言处理软件处理句子,获取命名实体和不同成分间的依存关系;
S2、抽取原始句子中的关系:根据实体之间的传递依存关系抽取关系三元组;若实体Ai以及实体Aj均和词汇ɑ存在依存关系,则实体Ai和实体Aj存在传递依存关系,便可抽取出关系三元组(Ai,ɑ,Aj);
S3、简化原始句子并抽取关系:根据步骤S2中已经生成的关系三元组(Ai,ɑ,Aj)调整并简化原始句子,并借助结构助词来抽取除关系三元组(Ai,ɑ,Aj) 以外的关系三元组。
作为优选,所述步骤S1中获取命名实体和依存关系的具体步骤如下:
S101、读取待处理句子;
S102、对待处理句子进行分词;
S103、标注分词词汇的词性;
S104、识别出命名实体A1、A2、…、An
S105、对句子进行依存句法分析;
S106、返回命名实体和依存关系。
作为优选,所述步骤S2中抽取原始句子中的关系的具体步骤如下:
S201、初始化i=1,j=2;
S202、读取实体Ai和实体Aj
S203、判断实体Ai及实体Aj是否均和词汇ɑ存在依存关系:
①、若是,则下一步执行步骤S204;
②、若否,则跳转至步骤S205;
S204、抽取关系三元组(Ai,ɑ,Aj);
S205、j=j+1;
S206、判断j是否大于n:
①、若j>n,则跳转至步骤S208;
②、若j≤n,则下一步执行步骤S207;
S207、读取实体Aj,下一步跳转至步骤S203;
S208、i=i+1,j=i+1;
S209、判断i是否大于等于n:
①、若i≥n,则下一步执行步骤S210;
②、若i<n,则跳转至步骤S202;
S210、返回所抽取的关系三元组。
作为优选,所述步骤S3中简化原始句子并抽取关系的具体步骤如下:
S301、读取原始句子到Sent;
S302、判断所有实体是否均已经和除自身以外的其他实体建立关系:
①、若是,则跳转至步骤S312;
②、若否,则下一步执行步骤S303;
S303、将句子Sent简化为SimpleSent;
S304、初始化简化后抽取的关系个数SimpleCount=0;
S305、获取SimpleSent中的命名实体和依存关系;
S306、根据传递依存关系获取SimpleSent中的新关系;
S307、判断所有实体是否均已经和除自身以外的其他实体建立关系:
①、若是,则跳转至步骤S312;
②、若否,则下一步执行步骤S308;
S308、通过添加结构助词获取SimpleSent中的新关系;
S309、判断所有实体是否均已经和除自身以外的其他实体建立关系:
①、若是,则跳转至步骤S312;
②、若否,则下一步执行步骤S310;
S310、判断SimpleCount是否为0:
①、若SimpleCount=0,则跳转至步骤S312;
②、若SimpleCount≠0,则下一步执行步骤S311;
S311、设置Sent=SimpleSent;
S312、返回抽取的所有关系三元组。
更优地,所述步骤S303中将句子Sent简化为SimpleSent的具体步骤如下:
S30301、初始化SimpleSent=Sent;
S30302、读取第一个关系三元组(Ai,ɑ,Aj);
S30303、构造简化子句SimpleSubSent=Ai+ɑ+Aj;其中,+表示字符串连接操作;
S30304、将SimpleSent中包含Ai、ɑ和Aj的最小子句,替换为SimpleSubSent;
S30305、判断关系三元组是否读取完毕:
①、若是,则跳转至步骤S30307;
②、若否,则下一步执行步骤S30306;
S30306、读取下一个关系三元组(Ai,ɑ,Aj),下一步跳转至步骤S30303;
S30307、返回SimpleSent;
所述步骤S306中根据传递依存关系获取SimpleSent中的新关系的具体步骤如下:
S30601:读取第一个孤立实体A;
S30602:判断是否存在和词汇ɑ均具有依存关系的实体B和孤立实体A:
①、若存在,则下一步执行步骤S30603;
②、若不存在,则跳转至步骤S30604;
S30603、抽取关系三元组(A,ɑ,B);
S30604、判断孤立实体是否读取完毕:
①、若是,则跳转至步骤S30606;
②、若否,则下一步执行步骤S30605;
S30605、读取下一个孤立实体A,则跳转至步骤S30602;
S30606、返回所抽取的关系三元组。
更优地,所述步骤S308中通过添加结构助词获取SimpleSent中的新关系的具体步骤如下:
S30801、读取第一个孤立实体A;其中,孤立实体是指没有和其它任何实体建立关系的实体;
S30802、在孤立实体A的前面寻找关系三元组,具体步骤如下:
S3080201、在SimpleSent中,找到孤立实体A前面的第一个实体Apre;
S3080202、在实体Apre和孤立实体A之间词汇的空隙,添加结构助词,得到句子PreAuxSimpleSent;
S3080203、对PreAuxSimpleSent进行依存句法分析;
S3080204、判断实体Apre和孤立实体A是否均与词汇β产生依存关系:
①、若是,则下一步执行步骤S3080205;
②、若否,则跳转至步骤S3080207;
S3080205、抽取关系三元组(Apre,β,A);
S3080206、SimpleCount=SimpleCount+1;
S3080207、返回SimpleCount;
S30803、在孤立实体A的后面寻找关系三元组,具体步骤如下:
S3080301、在SimpleSent中,找到孤立实体A后面的第一个实体Aaft;
S3080302、在孤立实体A和实体Aaft之间词汇的空隙,添加结构助词,得到句子AftAuxSimpleSent;
S3080303、对AftAuxSimpleSent进行依存句法分析;
S3080304、判断孤立实体A和实体Aaft是否均与词汇β产生依存关系:
①、若是,则下一步执行步骤S3080305;
②、若否,则跳转至步骤S3080307;
S3080305、抽取关系三元组(A,β,Aaft);
S3080306、SimpleCount=SimpleCount+1;
S3080307、返回SimpleCount;
S30804、判断孤立实体是否读取完毕:
①、若是,则跳转至步骤S30806;
②、若否,则下一步执行步骤S30805;
S30805、读取下一个孤立实体A,下一步跳转至步骤S30802;
S30806、返回SimpleCount。
一种基于传递依存关系和结构助词的关系抽取装置,该装置包括,
命名实体和依存关系获取单元,用于获取句子中的命名实体和依存关系;
原始句子关系三元组抽取单元,用于直接获取原始句子中存在的语义三元组;
原始句子简化和关系三元组抽取单元,用于根据已生成的关系三元组调整并简化原始句子,并结合结构助词抽取除已生成关系三元组以外的关系三元组。
作为优选,所述命名实体和依存关系获取单元包括,
句子读取子单元,用于读取待处理句子;
分词子单元,用于将待处理句子分隔为若干词汇;
词性标注子单元,用于标注待处理句子中各个词汇的词性;
命名实体识别子单元,用于获取待处理句子中的命名实体;
依存句法分析子单元,用于获取待处理句子中词汇间的语义关系。
作为优选,所述原始句子关系三元组抽取单元包括,
实体对读取子单元,用于读取原始句子中的任意两个实体;
传递依存关系检测子单元,用于检测是否存在和两个实体具有依存关系的词汇;
关系三元组构建子单元,用于根据两个实体以及与两个实体存在依存关系的词汇构建出关系三元组。
作为优选,所述原始句子简化和关系三元组抽取单元包括,
孤立实体检测子单元,用于检测是否存在尚未和除自身以外的实体建立关系的实体;
句子简化子单元,用于根据关系三元组简化句子;句子简化子单元包括,
关系三元组读取模块,用于读取关系三元组;
简化子句构造模块,用于根据关系三元组生成简化后长度最短的子句;
最小子句替换模块,用于使用简化子句替换原句中包含关系三元组的最小子句;
命名实体识别子单元,用于获取待处理句子中的命名实体;
依存句法分析子单元,用于获取待处理句子中词汇间的语义关系;
孤立实体关系直接匹配子单元,用于根据传递依存关系,在简化后的句子中直接获取孤立实体和除自身以外的实体的关系;孤立实体关系直接匹配子单元包括,
直接孤立实体读取模块,用于读取孤立实体;
孤立实体传递依存关系检测模块,用于检测是否存在和孤立实体具有传递依存关系的其它实体;
孤立实体关系三元组构建模块,用于根据孤立实体和其它实体间的传递依存关系构建出关系三元组;
孤立实体关系间接匹配子单元,用于在简化后的句子中添加结构助词,并根据传递依存关系获取孤立实体和除自身以外的实体的关系;孤立实体关系间接匹配子单元包括,
间接孤立实体读取模块,用于读取孤立实体;
孤立实体前向匹配模块,用于在孤立实体的前面添加结构助词,并根据传递依存关系获取孤立实体和除自身以外的实体的关系;
孤立实体后向匹配模块,用于在孤立实体的后面添加结构助词,并根据传递依存关系获取孤立实体和除自身以外的实体的关系。
本发明的基于传递依存关系和结构助词的关系抽取方法及装置具有以下优点:
(一)、本发明解决当前关系抽取中存在的抽取模板和规则依赖树库的依存关系定义和符号存在差异且通用性差、机器学习特征选择困难、人工标注训练语料成本高、自动化标注训练语料准确性低等问题,从而提高关系抽取的效果;
(二)、本发明的理论基础是实体之间存在传递依存关系,因此可以得到描述两个实体之间语义关系的三元组,操作简单且速度很快,所得关系具有较高的语义正确性;
(三)、本发明抽取关系三元组时不需要借助模板和规则,解决了由于树库依存关系定义和符号差异所带来的应用受限问题;如果实体间的传递依存关系隐藏未现,通过借助已生成关系三元组简化句子以及在实体间添加结构助词,可以挖掘出隐藏的传递依存关系,从而解决实体无法关联的问题。
附图说明
下面结合附图对本发明进一步说明。
附图1为本发明的基于传递依存关系和结构助词的关系抽取方法的流程框图;
附图2为步骤S1获取命名实体和依存关系的流程框图;
附图3为示例句子在LTP平台上的处理结果的示意图;
附图4为步骤S2抽取原始句子中的关系的流程框图;
附图5为步骤S3简化原始句子并抽取关系的流程框图;
附图6为步骤S303将句子Sent简化为SimpleSent的流程框图;
附图7为简化后句子在LTP平台上的处理结果的示意图;
附图8为步骤S306根据传递依存关系获取SimpleSent中的新关系的流程框图;
附图9为步骤S308通过添加结构助词获取SimpleSent中的新关系的流程框图;
附图10为步骤S30802在孤立实体A的前面寻找关系三元组的流程框图;
附图11为步骤S30803在孤立实体A的后面寻找关系三元组的流程框图;
附图12为添加结构助词句子在LTP平台上的处理结果的示意图;
附图13为本发明的基于传递依存关系和结构助词的关系抽取装置的结构框图;
附图14为命名实体和依存关系获取单元M1的结构框图;
附图15为原始句子关系三元组抽取单元M2的结构框图;
附图16为原始句子简化和关系三元组抽取单元M3的结构框图;
附图17为句子简化子单元M302的结构框图;
附图18为孤立实体关系直接匹配子单元M305的结构框图;
附图19为孤立实体关系间接匹配子单元M306的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的基于传递依存关系和结构助词的关系抽取方法及装置作以下详细地说明。
实施例1:
如附图1所示,本发明的基于传递依存关系和结构助词的关系抽取方法,包括如下步骤:
S1、获取命名实体和依存关系:使用自然语言处理软件处理句子,获取命名实体和不同成分间的依存关系;如附图2所示,具体步骤如下:
S101、读取待处理句子;
S102、对待处理句子进行分词;
S103、标注分词词汇的词性;
S104、识别出命名实体A1、A2、…、An
S105、对句子进行依存句法分析;
S106、返回命名实体和依存关系。
举例:以句子“X国第一任H人种总统B来到历史悠久的G国,和G国现任C总理讨论某某问题。”为例,上述流程的执行情况如下:
C101:读取句子;
C102:得到分词词汇,分别是:X国第一任H人种总统B来到历史悠久的G国,和G国现任C总理讨论某某问题。;
C103:得到每个分词词汇的词性,分别是:ns、m、q、n、n、nh、v、n、a、 u、ns、wp、p、ns、b、nh、n、v、v、n、wp;
C104:获取命名实体,分别是:X国、B、G国、G国、C;
C105:获取依存关系,分别是:ATT(X国 总统)ATT(第一 任)ATT (任 总统)ATT(H人种 总统)ATT(总统 B)SBV(B 来到)HED(来到 Root)SBV(历史 悠久)ATT(悠久 G国)RAD(的 悠久)VOB(G 国 来到)WP(, 来到)ADV(和 讨论)ATT(G国 C)ATT(现任 C) ATT(C 总理)POB(总理 和)COO(讨论 来到)ATT(某某 问题)VOB (问题 讨论)WP(。 来到),在每个关系对R(A B)中,R是关系名称, B、A分别是关系弧的起点和终点;
C106:结束并返回命名实体和依存关系。
在哈工大的自然语言处理平台LTP中进行处理,得到如附图3所示的结果。不同分词词汇采用空格隔开;在分词词汇的下方标记词性,并采用不同颜色的矩形框标记命名实体类型(如果存在的话);在分词词汇的上方采用有向弧标记依存关系,并在有向弧上标记出依存关系的名称。
S2、抽取原始句子中的关系:根据实体之间的传递依存关系抽取关系三元组;若实体Ai以及实体Aj均和词汇ɑ存在依存关系,则实体Ai和实体Aj存在传递依存关系,便可抽取出关系三元组(Ai,ɑ,Aj);如附图4所示,具体步骤如下:
S201、初始化i=1,j=2;
S202、读取实体Ai和实体Aj
S203、判断实体Ai及实体Aj是否均和词汇ɑ存在依存关系:
①、若是,则下一步执行步骤S204;
②、若否,则跳转至步骤S205;
S204、抽取关系三元组(Ai,ɑ,Aj);
S205、j=j+1;
S206、判断j是否大于n:
①、若j>n,则跳转至步骤S208;
②、若j≤n,则下一步执行步骤S207;
S207、读取实体Aj,下一步跳转至步骤S203;
S208、i=i+1,j=i+1;
S209、判断i是否大于等于n:
①、若i≥n,则下一步执行步骤S210;
②、若i<n,则跳转至步骤S202;
S210、返回所抽取的关系三元组。
举例:按照上述方法处理附图3所示依存关系,结果如下:
C201:根据ATT(X国 总统)和ATT(总统 B),得到关系三元组(X国,总统,B);
C202:根据SBV(B 来到)和VOB(G国 来到),得到关系三元组(B,来到,G国)。
S3、简化原始句子并抽取关系:根据步骤S2中已经生成的关系三元组(Ai,ɑ,Aj)调整并简化原始句子,并借助结构助词来抽取除关系三元组(Ai,ɑ,Aj) 以外的关系三元组;如附图5所示,具体步骤如下:
S301、读取原始句子到Sent;
S302、判断所有实体是否均已经和除自身以外的其他实体建立关系:
①、若是,则跳转至步骤S312;
②、若否,则下一步执行步骤S303;
S303、将句子Sent简化为SimpleSent,如附图6所示,具体步骤如下:
S30301、初始化SimpleSent=Sent;
S30302、读取第一个关系三元组(Ai,ɑ,Aj);
S30303、构造简化子句SimpleSubSent=Ai+ɑ+Aj;其中,+表示字符串连接操作;
S30304、将SimpleSent中包含Ai、ɑ和Aj的最小子句,替换为SimpleSubSent;
S30305、判断关系三元组是否读取完毕:
①、若是,则跳转至步骤S30307;
②、若否,则下一步执行步骤S30306;
S30306、读取下一个关系三元组(Ai,ɑ,Aj),下一步跳转至步骤S30303;
S30307、返回SimpleSent;
举例:按照上述方法处理句子“X国第一任H人种总统B来到历史悠久的G 国,和G国现任C总理讨论某某问题。”,结果如下:
C30301:关系(X国,总统,B)构成的简化子句是“X国总统B”,它所在的子句是“X国第一任H人种总统B”,使用简化子句替换该子句;
C30302:关系(B,来到,G国)构成的简化子句是“B来到G国”,它所在的子句是“B来到历史悠久的G国”,使用简化子句替换该子句。
经过上述处理后,原始句子被转换为“X国总统B来到G国,和G国现任C 总理讨论某某问题。”
S304、初始化简化后抽取的关系个数SimpleCount=0;
S305、获取SimpleSent中的命名实体和依存关系;
举例:按照步骤S304、S305处理简化后句子“X国总统B来到G国,和G 国现任C总理讨论某某问题。”,结果如附图7所示。
S306、根据传递依存关系获取SimpleSent中的新关系,通过实验发现,对句子进行简化后,再进行依存句法分析,可能会使某些孤立实体(没有和其它任何实体建立关系的实体)和其它实体产生传递依存关系,从而建立关联。如附图8所示,具体步骤如下:
S30601:读取第一个孤立实体A;
S30602:判断是否存在和词汇ɑ均具有依存关系的实体B和孤立实体A:
①、若存在,则下一步执行步骤S30603;
②、若不存在,则跳转至步骤S30604;
S30603、抽取关系三元组(A,ɑ,B);
S30604、判断孤立实体是否读取完毕:
①、若是,则跳转至步骤S30606;
②、若否,则下一步执行步骤S30605;
S30605、读取下一个孤立实体A,则跳转至步骤S30602;
S30606、返回所抽取的关系三元组。
举例:以附图7为例,孤立实体是“G国”和“C”,不存在和它们及其它实体均有依存关系的词汇,因此执行步骤S30601到S30606后,无法生成新的关系。
S307、判断所有实体是否均已经和除自身以外的其他实体建立关系:
①、若是,则跳转至步骤S312;
②、若否,则下一步执行步骤S308;
S308、通过添加结构助词获取SimpleSent中的新关系,通过实验发现,在孤立实体附近添加结构助词(如“的”)后,进行依存句法分析,可能会使某些孤立实体和其它实体产生传递依存关系,从而建立关联。如附图9所示,具体步骤如下:
S30801、读取第一个孤立实体A;
S30802、在孤立实体A的前面寻找关系三元组,如附图10所示,具体步骤如下:
S3080201、在SimpleSent中,找到孤立实体A前面的第一个实体Apre;
S3080202、在实体Apre和孤立实体A之间词汇的空隙,添加结构助词,得到句子PreAuxSimpleSent;
S3080203、对PreAuxSimpleSent进行依存句法分析;
S3080204、判断实体Apre和孤立实体A是否均与词汇β产生依存关系:
①、若是,则下一步执行步骤S3080205;
②、若否,则跳转至步骤S3080207;
S3080205、抽取关系三元组(Apre,β,A);
S3080206、SimpleCount=SimpleCount+1;
S3080207、返回SimpleCount;
S30803、在孤立实体A的后面寻找关系三元组,如附图11所示,具体步骤如下:
S3080301、在SimpleSent中,找到孤立实体A后面的第一个实体Aaft;
S3080302、在孤立实体A和实体Aaft之间词汇的空隙,添加结构助词,得到句子AftAuxSimpleSent;
S3080303、对AftAuxSimpleSent进行依存句法分析;
S3080304、判断孤立实体A和实体Aaft是否均与词汇β产生依存关系:
①、若是,则下一步执行步骤S3080305;
②、若否,则跳转至步骤S3080307;
S3080305、抽取关系三元组(A,β,Aaft);
S3080306、SimpleCount=SimpleCount+1;
S3080307、返回SimpleCount;
举例:对附图7中的句子来说,第1个孤立实体是“G国”,在其后面添加结构助词“的”,然后进行处理,结果如附图12所示;可以看出,实体“G国”和“C”均与词汇“总理”存在依存关系,根据依存关系传递性,可以抽取出关系三元组(G国,总理,C);而且,由于添加结构助词并不会影响句子的实际含义,所以原先得到的关系三元组(X国,总统,B)、(B,来到,G国)在处理结果中依然存在,即添加结构助词不会影响原有的关系三元组。
S30804、判断孤立实体是否读取完毕:
①、若是,则跳转至步骤S30806;
②、若否,则下一步执行步骤S30805;
S30805、读取下一个孤立实体A,下一步跳转至步骤S30802;
S30806、返回SimpleCount。
S309、判断所有实体是否均已经和除自身以外的其他实体建立关系:
①、若是,则跳转至步骤S312;
②、若否,则下一步执行步骤S310;
S310、判断SimpleCount是否为0:
①、若SimpleCount=0,则跳转至步骤S312;
②、若SimpleCount≠0,则下一步执行步骤S311;
S311、设置Sent=SimpleSent;
S312、返回抽取的所有关系三元组。
实施例2:
如附图13所示,本发明的基于传递依存关系和结构助词的关系抽取装置,该装置包括,
命名实体和依存关系获取单元M1,用于获取句子中的命名实体和依存关系;如附图14所示,命名实体和依存关系获取单元M1包括,
句子读取子单元M101,用于读取待处理句子;
分词子单元M102,用于将待处理句子分隔为若干词汇;
词性标注子单元M103,用于标注待处理句子中各个词汇的词性;
命名实体识别子单元M104,用于获取待处理句子中的命名实体;
依存句法分析子单元M105,用于获取待处理句子中词汇间的语义关系。
原始句子关系三元组抽取单元M2,用于直接获取原始句子中存在的语义三元组;如附图15所示,原始句子关系三元组抽取单元M2包括,
实体对读取子单元M201,用于读取原始句子中的任意两个实体;
传递依存关系检测子单元M202,用于检测是否存在和两个实体具有依存关系的词汇;
关系三元组构建子单元M203,用于根据两个实体以及与两个实体存在依存关系的词汇构建出关系三元组。
原始句子简化和关系三元组抽取单元M3,用于根据已生成的关系三元组调整并简化原始句子,并结合结构助词抽取除已生成关系三元组以外的关系三元组。如附图16所示,原始句子简化和关系三元组抽取单元M3包括,
孤立实体检测子单元M301,用于检测是否存在尚未和除自身以外的实体建立关系的实体;
句子简化子单元M302,用于根据关系三元组简化句子;如附图17所示,句子简化子单元M302包括,
关系三元组读取模块M30201,用于读取关系三元组;
简化子句构造模块M30202,用于根据关系三元组生成简化后长度最短的子句;
最小子句替换模块M30203,用于使用简化子句替换原句中包含关系三元组的最小子句;
命名实体识别子单元M303,用于获取待处理句子中的命名实体;
依存句法分析子单元M304,用于获取待处理句子中词汇间的语义关系;
孤立实体关系直接匹配子单元M305,用于根据传递依存关系,在简化后的句子中直接获取孤立实体和除自身以外的实体的关系;如附图18所示,孤立实体关系直接匹配子单元M305包括,
直接孤立实体读取模块M30501,用于读取孤立实体;
孤立实体传递依存关系检测模块M30502,用于检测是否存在和孤立实体具有传递依存关系的其它实体;
孤立实体关系三元组构建模块M30503,用于根据孤立实体和其它实体间的传递依存关系构建出关系三元组;
孤立实体关系间接匹配子单元M306,用于在简化后的句子中添加结构助词,并根据传递依存关系获取孤立实体和除自身以外的实体的关系;如附图19所示,孤立实体关系间接匹配子单元M306包括,
间接孤立实体读取模块M30601,用于读取孤立实体;
孤立实体前向匹配模块M30602,用于在孤立实体的前面添加结构助词,并根据传递依存关系获取孤立实体和除自身以外的实体的关系;
孤立实体后向匹配模块M30603,用于在孤立实体的后面添加结构助词,并根据传递依存关系获取孤立实体和除自身以外的实体的关系。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.基于传递依存关系和结构助词的关系抽取方法,其特征在于,包括如下步骤:
S1、获取命名实体和依存关系:使用自然语言处理软件处理句子,获取命名实体和不同成分间的依存关系;
S2、抽取原始句子中的关系:根据实体之间的传递依存关系抽取关系三元组;若实体Ai以及实体Aj均和词汇ɑ存在依存关系,则实体Ai和实体Aj存在传递依存关系,便可抽取出关系三元组(Ai,ɑ,Aj);
S3、简化原始句子并抽取关系:根据步骤S2中已经生成的关系三元组(Ai,ɑ,Aj)调整并简化原始句子,并借助结构助词来抽取除关系三元组(Ai,ɑ,Aj)以外的关系三元组。
2.根据权利要求1所述的基于传递依存关系和结构助词的关系抽取方法,其特征在于,所述步骤S1中获取命名实体和依存关系的具体步骤如下:
S101、读取待处理句子;
S102、对待处理句子进行分词;
S103、标注分词词汇的词性;
S104、识别出命名实体A1、A2、…、An
S105、对句子进行依存句法分析;
S106、返回命名实体和依存关系。
3.根据权利要求1所述的基于传递依存关系和结构助词的关系抽取方法,其特征在于,所述步骤S2中抽取原始句子中的关系的具体步骤如下:
S201、初始化i=1,j=2;
S202、读取实体Ai和实体Aj
S203、判断实体Ai及实体Aj是否均和词汇ɑ存在依存关系:
①、若是,则下一步执行步骤S204;
②、若否,则跳转至步骤S205;
S204、抽取关系三元组(Ai,ɑ,Aj);
S205、j=j+1;
S206、判断j是否大于n:
①、若j>n,则跳转至步骤S208;
②、若j≤n,则下一步执行步骤S207;
S207、读取实体Aj,下一步跳转至步骤S203;
S208、i=i+1,j=i+1;
S209、判断i是否大于等于n:
①、若i≥n,则下一步执行步骤S210;
②、若i<n,则跳转至步骤S202;
S210、返回所抽取的关系三元组。
4.根据权利要求1所述的基于传递依存关系和结构助词的关系抽取方法,其特征在于,所述步骤S3中简化原始句子并抽取关系的具体步骤如下:
S301、读取原始句子到Sent;
S302、判断所有实体是否均已经和除自身以外的其他实体建立关系:
①、若是,则跳转至步骤S312;
②、若否,则下一步执行步骤S303;
S303、将句子Sent简化为SimpleSent;
S304、初始化简化后抽取的关系个数SimpleCount=0;
S305、获取SimpleSent中的命名实体和依存关系;
S306、根据传递依存关系获取SimpleSent中的新关系;
S307、判断所有实体是否均已经和除自身以外的其他实体建立关系:
①、若是,则跳转至步骤S312;
②、若否,则下一步执行步骤S308;
S308、通过添加结构助词获取SimpleSent中的新关系;
S309、判断所有实体是否均已经和除自身以外的其他实体建立关系:
①、若是,则跳转至步骤S312;
②、若否,则下一步执行步骤S310;
S310、判断SimpleCount是否为0:
①、若SimpleCount=0,则跳转至步骤S312;
②、若SimpleCount≠0,则下一步执行步骤S311;
S311、设置Sent=SimpleSent;
S312、返回抽取的所有关系三元组。
5.根据权利要求4所述的基于传递依存关系和结构助词的关系抽取方法,其特征在于,所述步骤S303中将句子Sent简化为SimpleSent的具体步骤如下:
S30301、初始化SimpleSent=Sent;
S30302、读取第一个关系三元组(Ai,ɑ,Aj);
S30303、构造简化子句SimpleSubSent=Ai+ɑ+Aj;其中,+表示字符串连接操作;
S30304、将SimpleSent中包含Ai、ɑ和Aj的最小子句,替换为SimpleSubSent;
S30305、判断关系三元组是否读取完毕:
①、若是,则跳转至步骤S30307;
②、若否,则下一步执行步骤S30306;
S30306、读取下一个关系三元组(Ai,ɑ,Aj),下一步跳转至步骤S30303;
S30307、返回SimpleSent;
所述步骤S306中根据传递依存关系获取SimpleSent中的新关系的具体步骤如下:
S30601:读取第一个孤立实体A;
S30602:判断是否存在和词汇ɑ均具有依存关系的实体B和孤立实体A:
①、若存在,则下一步执行步骤S30603;
②、若不存在,则跳转至步骤S30604;
S30603、抽取关系三元组(A,ɑ,B);
S30604、判断孤立实体是否读取完毕:
①、若是,则跳转至步骤S30606;
②、若否,则下一步执行步骤S30605;
S30605、读取下一个孤立实体A,则跳转至步骤S30602;
S30606、返回所抽取的关系三元组。
6.根据权利要求4所述的基于传递依存关系和结构助词的关系抽取方法,其特征在于,所述步骤S308中通过添加结构助词获取SimpleSent中的新关系的具体步骤如下:
S30801、读取第一个孤立实体A;
S30802、在孤立实体A的前面寻找关系三元组,具体步骤如下:
S3080201、在SimpleSent中,找到孤立实体A前面的第一个实体Apre;
S3080202、在实体Apre和孤立实体A之间词汇的空隙,添加结构助词,得到句子PreAuxSimpleSent;
S3080203、对PreAuxSimpleSent进行依存句法分析;
S3080204、判断实体Apre和孤立实体A是否均与词汇β产生依存关系:
①、若是,则下一步执行步骤S3080205;
②、若否,则跳转至步骤S3080207;
S3080205、抽取关系三元组(Apre,β,A);
S3080206、SimpleCount=SimpleCount+1;
S3080207、返回SimpleCount;
S30803、在孤立实体A的后面寻找关系三元组,具体步骤如下:
S3080301、在SimpleSent中,找到孤立实体A后面的第一个实体Aaft;
S3080302、在孤立实体A和实体Aaft之间词汇的空隙,添加结构助词,得到句子AftAuxSimpleSent;
S3080303、对AftAuxSimpleSent进行依存句法分析;
S3080304、判断孤立实体A和实体Aaft是否均与词汇β产生依存关系:
①、若是,则下一步执行步骤S3080305;
②、若否,则跳转至步骤S3080307;
S3080305、抽取关系三元组(A,β,Aaft);
S3080306、SimpleCount=SimpleCount+1;
S3080307、返回SimpleCount;
S30804、判断孤立实体是否读取完毕:
①、若是,则跳转至步骤S30806;
②、若否,则下一步执行步骤S30805;
S30805、读取下一个孤立实体A,下一步跳转至步骤S30802;
S30806、返回SimpleCount。
7.一种基于传递依存关系和结构助词的关系抽取装置,其特征在于,该装置包括,
命名实体和依存关系获取单元,用于获取句子中的命名实体和依存关系;
原始句子关系三元组抽取单元,用于直接获取原始句子中存在的语义三元组;
原始句子简化和关系三元组抽取单元,用于根据已生成的关系三元组调整并简化原始句子,并结合结构助词抽取除已生成关系三元组以外的关系三元组。
8.根据权利要求7所述的基于传递依存关系和结构助词的关系抽取装置,其特征在于,所述命名实体和依存关系获取单元包括,
句子读取子单元,用于读取待处理句子;
分词子单元,用于将待处理句子分隔为若干词汇;
词性标注子单元,用于标注待处理句子中各个词汇的词性;
命名实体识别子单元,用于获取待处理句子中的命名实体;
依存句法分析子单元,用于获取待处理句子中词汇间的语义关系。
9.根据权利要求7所述的基于传递依存关系和结构助词的关系抽取装置,其特征在于,所述原始句子关系三元组抽取单元包括,
实体对读取子单元,用于读取原始句子中的任意两个实体;
传递依存关系检测子单元,用于检测是否存在和两个实体具有依存关系的词汇;
关系三元组构建子单元,用于根据两个实体以及与两个实体存在依存关系的词汇构建出关系三元组。
10.根据权利要求7所述的基于传递依存关系和结构助词的关系抽取装置,其特征在于,所述原始句子简化和关系三元组抽取单元包括,
孤立实体检测子单元,用于检测是否存在尚未和除自身以外的实体建立关系的实体;
句子简化子单元,用于根据关系三元组简化句子;句子简化子单元包括,
关系三元组读取模块,用于读取关系三元组;
简化子句构造模块,用于根据关系三元组生成简化后长度最短的子句;
最小子句替换模块,用于使用简化子句替换原句中包含关系三元组的最小子句;
命名实体识别子单元,用于获取待处理句子中的命名实体;
依存句法分析子单元,用于获取待处理句子中词汇间的语义关系;
孤立实体关系直接匹配子单元,用于根据传递依存关系,在简化后的句子中直接获取孤立实体和除自身以外的实体的关系;孤立实体关系直接匹配子单元包括,
直接孤立实体读取模块,用于读取孤立实体;
孤立实体传递依存关系检测模块,用于检测是否存在和孤立实体具有传递依存关系的其它实体;
孤立实体关系三元组构建模块,用于根据孤立实体和其它实体间的传递依存关系构建出关系三元组;
孤立实体关系间接匹配子单元,用于在简化后的句子中添加结构助词,并根据传递依存关系获取孤立实体和除自身以外的实体的关系;孤立实体关系间接匹配子单元包括,
间接孤立实体读取模块,用于读取孤立实体;
孤立实体前向匹配模块,用于在孤立实体的前面添加结构助词,并根据传递依存关系获取孤立实体和除自身以外的实体的关系;
孤立实体后向匹配模块,用于在孤立实体的后面添加结构助词,并根据传递依存关系获取孤立实体和除自身以外的实体的关系。
CN201910412966.9A 2019-05-17 2019-05-17 一种基于传递依存关系和结构助词的关系抽取方法及装置 Active CN110119510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910412966.9A CN110119510B (zh) 2019-05-17 2019-05-17 一种基于传递依存关系和结构助词的关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910412966.9A CN110119510B (zh) 2019-05-17 2019-05-17 一种基于传递依存关系和结构助词的关系抽取方法及装置

Publications (2)

Publication Number Publication Date
CN110119510A true CN110119510A (zh) 2019-08-13
CN110119510B CN110119510B (zh) 2023-02-14

Family

ID=67522726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910412966.9A Active CN110119510B (zh) 2019-05-17 2019-05-17 一种基于传递依存关系和结构助词的关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110119510B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177401A (zh) * 2019-12-12 2020-05-19 西安交通大学 一种电网自由文本知识抽取方法
CN111597794A (zh) * 2020-05-11 2020-08-28 浪潮软件集团有限公司 一种基于依存关系的“是”字句关系抽取方法和装置
CN111651528A (zh) * 2020-05-11 2020-09-11 北京理工大学 基于生成式对抗网络的开放式实体关系抽取方法
CN112052340A (zh) * 2020-08-10 2020-12-08 深圳数联天下智能科技有限公司 一种数据模型构建方法、装置以及电子设备
CN113378513A (zh) * 2021-06-11 2021-09-10 电子科技大学 一种面向领域关系抽取的标注语料生成方法
CN113420562A (zh) * 2021-05-10 2021-09-21 河南大学 医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156264A1 (en) * 2012-11-19 2014-06-05 University of Washington through it Center for Commercialization Open language learning for information extraction
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156264A1 (en) * 2012-11-19 2014-06-05 University of Washington through it Center for Commercialization Open language learning for information extraction
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN109241538A (zh) * 2018-09-26 2019-01-18 上海德拓信息技术股份有限公司 基于关键词和动词依存的中文实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王红斌等: "基于最大熵的泰语句子级实体从属关系抽取", 《南京大学学报(自然科学)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177401A (zh) * 2019-12-12 2020-05-19 西安交通大学 一种电网自由文本知识抽取方法
CN111597794A (zh) * 2020-05-11 2020-08-28 浪潮软件集团有限公司 一种基于依存关系的“是”字句关系抽取方法和装置
CN111651528A (zh) * 2020-05-11 2020-09-11 北京理工大学 基于生成式对抗网络的开放式实体关系抽取方法
CN111597794B (zh) * 2020-05-11 2023-06-06 浪潮软件集团有限公司 一种基于依存关系的“是”字句关系抽取方法和装置
CN112052340A (zh) * 2020-08-10 2020-12-08 深圳数联天下智能科技有限公司 一种数据模型构建方法、装置以及电子设备
CN113420562A (zh) * 2021-05-10 2021-09-21 河南大学 医疗文本中抽取疾病及其对应的化验指标实体词的方法及系统及装置
CN113378513A (zh) * 2021-06-11 2021-09-10 电子科技大学 一种面向领域关系抽取的标注语料生成方法

Also Published As

Publication number Publication date
CN110119510B (zh) 2023-02-14

Similar Documents

Publication Publication Date Title
CN111444721B (zh) 一种基于预训练语言模型的中文文本关键信息抽取方法
CN110119510A (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
CN103678684B (zh) 一种基于导航信息检索的中文分词方法
CN105718586B (zh) 分词的方法及装置
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CN100511215C (zh) 多语种翻译存储器和翻译方法
CN103810998B (zh) 基于移动终端设备的离线语音识别方法以及实现方法
CN105138507A (zh) 一种基于模式自学习的中文开放式关系抽取方法
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110609983B (zh) 一种政策文件结构化分解方法
CN100552673C (zh) 开放式文档同构引擎系统
CN103077164A (zh) 文本分析方法及文本分析器
CN104485107B (zh) 名称的语音识别方法、语音识别系统和语音识别设备
CN111061882A (zh) 一种知识图谱构建方法
WO2016138773A1 (zh) 基于图的地址知识处理方法及装置
CN107301163A (zh) 包含公式的文本语义解析方法及装置
CN107992476B (zh) 面向句子级生物关系网络抽取的语料库生成方法及系统
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN109408628B (zh) 一种解析句子语义结构的方法及相关设备
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN112445894A (zh) 基于人工智能的商务智能系统及其分析方法
CN105389303B (zh) 一种异源语料自动融合方法
CN114860942B (zh) 文本意图分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant