CN112417891B - 一种基于开放式信息抽取的文本关系自动标注方法 - Google Patents

一种基于开放式信息抽取的文本关系自动标注方法 Download PDF

Info

Publication number
CN112417891B
CN112417891B CN202011366103.1A CN202011366103A CN112417891B CN 112417891 B CN112417891 B CN 112417891B CN 202011366103 A CN202011366103 A CN 202011366103A CN 112417891 B CN112417891 B CN 112417891B
Authority
CN
China
Prior art keywords
entity
relation
matching
relationship
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011366103.1A
Other languages
English (en)
Other versions
CN112417891A (zh
Inventor
闵飞
胡岩峰
沈红
乔雪
彭晨
刘午凌
罗晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Original Assignee
Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences filed Critical Suzhou Research Institute Institute Of Electronics Chinese Academy Of Sciences
Priority to CN202011366103.1A priority Critical patent/CN112417891B/zh
Publication of CN112417891A publication Critical patent/CN112417891A/zh
Application granted granted Critical
Publication of CN112417891B publication Critical patent/CN112417891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于开放式信息抽取的文本关系自动标注方法,获取结构化知识数据库,根据数据库确定目标实体并进行对应的非结构化文本信息的获取与预处理;基于开放式信息抽取工具完成句子的实体关系三元组提取;将三元组对齐到数据库中进行初步的关系标签匹配;对关系标签和关系短语进行语义相似度的计算,并筛选出相似度最高的关系标签;判断选取的关系标签的相似度大小是否达到设定的阈值,达到阈值则作为标注结果,完成自动标注。本发明减少了关系抽取工作中人工标注数据耗费的时间和提高了自动标注的数据质量,为不同领域的关系抽取模型构建所需的数据集提供了新的方向。

Description

一种基于开放式信息抽取的文本关系自动标注方法
技术领域
本发明属于计算机自然语言处理领域,具体涉及一种基于开放式信息抽取的文本关系自动标注方法。
背景技术
随着知识图谱的不断发展,其在各行各业的应用也越来越广泛。知识图谱可以以更直观的方式帮助用户更快、更有效地获取关键信息。而在知识图谱的构建过程中,关系抽取是其中非常重要的一环
关系抽取作为文本信息抽取的主要任务之一,其目的在于根据上下文语义判断文本语句中两个实体的潜在关系。目前,关系抽取最常用的方法是基于有监督的模型以及深度学习模型,然而两者均需要依赖于大量的人工标注语料来帮助模型学习实体关系特征,这在实际应用中往往很难获取。因此,基于远程监督的数据自动标注方法应运而生,其原理是将文本中出现的实体对对齐到已有知识库中,利用知识库中的信息给实体对打标签。该方法虽然简单可行,但经常由于知识库所给标签与实际文本语义不符,导致标注结果中含有大量的错误标签,而利用这样的标注数据将会严重降低关系抽取模型的性能。
目前减少远程监督错误标注数据影响的方法有如下几种:薛露,宋威提出了一种作用于分层注意力机制关系抽取模型的动态标签方法(薛露,宋威.基于动态标签的关系抽取方法[J].计算机应用,2020,40(06):1601-1606.),利用动态标签方法的评分函数来评价远程监督标签是否为噪声;孙新,申长红提出了一种结合实体描述信息的跨句包关系抽取方法(孙新,申长虹,姜景虎,崔家铭.结合实体描述信息的跨句包关系抽取方法[J/OL].计算机工程:1-11[2020-09-18].1000-3428.0058189),通过设计跨关系、跨句包注意力机制获取关系特征来鉴别有效实例。上述方法虽然可以一定程度上可以减少远程监督错误标注数据的影响,但没有从根本上去解决远程监督产生错误标注的问题。以上方法所构建的关系抽取模型的p值、r值、f值都在45%左右,无法满足实际应用需求。因此从根本上解决远程监督产生错误标注的问题才是提高关系抽取模型性能最行之有效的方法。
发明内容
本发明的目的在于提出一种基于开放式信息抽取的文本关系自动标注方法,解决关系自动标注方法中产生大量错误标签的问题。
实现本发明目的的技术解决方案为:一种基于开放式信息抽取的文本关系自动标注方法,包括如下步骤:
步骤1:建立大型的结构化知识数据库,根据数据库确定目标实体并进行对应的非结构化文本信息的获取与预处理。
步骤2:基于开放式信息抽取工具完成句子的实体关系三元组提取。
步骤3:将三元组对齐到数据库中进行初步的关系标签匹配。
步骤4:对关系标签和关系短语进行语义相似度的计算,并筛选出相似度最高的关系标签。
步骤5:判断选取的关系标签的相似度大小是否达到设定的阈值,达到阈值则作为标注结果,完成自动标注。
本发明与现有技术相比,其显著优点为:采用自动标注的形式,并且利用开放式信息抽取的关系短语,极大地减少了关系抽取工作中人工标注数据耗费的时间和提高了自动标注的数据质量,为不同领域的关系抽取模型构建所需的数据集提供了新的方向。
附图说明
图1是基于开放式信息抽取的文本关系自动标注方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
第一部分
下面详细说明本发明的技术方案以及所依据的科学原理。
(1)开放式信息抽取简介:
开放式信息抽取指的是从纯文本中提取关系元组,其关系元组结构形式一般为(实体1,关系短语,实体2),这里提取的是二元的实体关系,不涉及多元关系抽取(即多个实体的关系同时抽取)。传统的关系信息抽取需要先确定好关系种类,而预先定义完整的关系种类是比较困难的。而与传统的关系信息抽取相比,开放式信息抽取模型不需要事先规定好关系类型,它使用实体上下文中的一些词语来描述实体之间的语义关系,从而避免了定义关系种类。
(2)模糊匹配中利用的算法--Levenshtein Distance算法简介:
Levenshtein Distance是一个度量两个字符序列之间差异的字符串度量标准,两个单词之间的Levenshtein Distance是将一个单词转换为另一个单词所需的单字符编辑(插入、删除或替换)的最小数量。
算法的简要原理如下:
对于两个字符串a,b,长度为|a|,|b|,它们的Levenshtein Distance
其中当ai=bj时,l(ai≠bj)为0,否则为1。leva,b(i,j)就是a的前i个字符与b的前j个字符的编辑距离。
a,b的匹配度s为:1-(leva,b(|a|,|b|)/max(|a|,|b|))
(2)语义相似度计算中利用的算法:
对于两个短语a、b,每个短语有m,n个单词,利用Google的词向量模型对a中的每个单词与b中的所有单词分别做余弦相似度计算,保存最大值不为0的结果ai,共有k个(k<=m)
则a,b的语义相似度
第二部分
下面结合附图对本发明作进一步说明。
如图1所示,一种基于开放式信息抽取的文本关系自动标注方法,包括:
步骤1:建立大型的结构化知识数据库,根据数据库确定目标实体并进行对应的非结构化文本信息的获取与预处理。
从互联网等途径下载大型的结构化数据库,然后根据自身需求,通过对实体是否存在某种属性或者某个属性值具体是多少等提取规则,对存在于数据库中的实体名称进行提取。根据获取的实体名称从网络上采集文本信息,并进行筛选以及指代消解等处理,将文本中的代词转化为实体名称。
步骤2:基于开放式信息抽取工具完成句子的实体关系三元组提取。
首先将处理后的文本以标点符号为界限进行句子分割。然后利用开放式信息抽取工具,以句子为单位,提取句子中的实体对和描述关系的关系短语,最后以三元组形式完成构建。
步骤3:将三元组对齐到数据库中进行初步的关系标签匹配。
将三元组(实体1,关系短语,实体2)按以下规则对齐到知识库进行匹配。首先,若实体1不是对应实体名称或者其简写则直接忽略该三元组。接着若实体1满足条件,则判断实体2是否存在于实体1的知识库中,若是实体2是实体1某一标签的具体值,则表示匹配成功。如果某个三元组的实体2没有在知识库中匹配到,则尝试先使用包含匹配进行匹配,再利用模糊匹配进行匹配,若都没有匹配成功,则舍弃该条数据。包含匹配是判断实体2是否包含某一具体标签值,若包含,则匹配成功,此外若最后的标注标签为包含匹配所得到的,则将实体2改为该标签对应的值。模糊匹配则是计算实体2与标签值的字面近似程度,近似程度达到设定的阈值则认为匹配成功,这里阈值设定为0.8。
步骤4:对关系标签和关系短语进行语义相似度的计算,并筛选出相似度最高的关系标签。
将步骤3中匹配到的标签分别与三元组的关系短语进行语义相似度计算,选取相似度最高的标签。
步骤5:判断选取的关系标签的相似度大小是否达到设定的阈值,达到阈值则作为标注结果,完成自动标注。
步骤4中选取的关系标签的相似度大小必须达到设定的阈值,阈值是根据标注结果进行动态调整。若没达到阈值,则忽略该条数据,若达到阈值,该标签即为对应关系,完成该条数据的自动标注。
第三部分
为了验证本发明方案的有效性,进行如下仿真实验,介绍关于科学领域人物的自动标注数据集建立的过程:
第一步,首先从网络上下载wikidata的大型结构化数据库。根据科学人物的职业为科学家等规则从中数据库提取人物名字,然后利用人物名称从网上获取文本,并对文本进行清洗以及指代消解处理。
第二步,对处理后的文本进行句子分割,利用开放式信息抽取工具将句子抽取出实体关系三元组(实体1,关系短语,实体2)。
例,这是描述实体Albert Einstein的一个句子:Albert Einstein received the1921Nobel Prize in Physics"for his services to theoretical physics,andespecially for his discovery of the law of the photo electric effect",apivotal step in the development of quantum theory.
抽取出的三元组为(Albert Einstein,received,the 1921Nobel Prize inPhysics)
第三步,首先判断三元组的实体1‘Albert Einstein’是否为实体名称,结果满足条件。接着在数据库中查询‘Albert Einstein’实体的知识是否有标签值等于‘NobelPrize’,结果为没有查询到对应信息。接下来则进行包含匹配,发现‘award received’、‘nominated for’标签的其中一个值均为‘Nobel Prize in Physics’,实体2包含该值,因此结果为匹配成功。最终匹配到‘award received’,‘nominated for’两个标签。
第四步,利用余弦相似度将关系短语‘received’分别与标签‘award received’和‘nominated for’进行语义相似度计算,计算结果分别为0.606、0.231,因此‘awardreceived’即为相似度最大的标签。
第五步,该标签的相似度值达到设定的阈值0.5,故完成自动标注。由于‘awardreceived’是由包含匹配得到的,因此实体2改为‘Nobel Prize in Physics’,最终标注结果为(Albert Einstein,award received,Nobel Prize in Physics)。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于开放式信息抽取的文本关系自动标注方法,其特征在于,包括如下步骤:
步骤1:获取结构化知识数据库,根据数据库确定目标实体并进行对应的非结构化文本信息的获取与预处理;
步骤2:基于开放式信息抽取工具完成句子的实体关系三元组提取;
步骤3:将三元组对齐到数据库中进行初步的关系标签匹配;
步骤4:对关系标签和关系短语进行语义相似度的计算,并筛选出相似度最高的关系标签;
步骤5:判断选取的关系标签的相似度大小是否达到设定的阈值,达到阈值则作为标注结果,完成自动标注;
步骤3中,将三元组对齐到数据库中进行初步的关系标签匹配,具体方法为:首先,若实体1不是对应实体名称或者其简写则直接忽略该三元组;否则,判断实体2是否存在于实体1的知识库中,若是实体2是实体1某一标签的具体值,则表示匹配成功,否则先使用包含匹配进行匹配,再利用模糊匹配进行匹配,若都没有匹配成功,则舍弃该条数据,其中:
所述包含匹配是判断实体2是否包含某一具体标签值,若包含,则匹配成功,此外若最后的标注标签为包含匹配所得到的,则将实体2改为该标签对应的值;
所述模糊匹配则是计算实体2与标签值的字面近似程度,近似程度达到设定的阈值则认为匹配成功;
其中,模糊匹配利用Levenshtein Distance算法实现,具体如下:
对于两个字符串a、b,长度为|a|、|b|,它们的Levenshtein Distance为:
当ai=bj时,为0,否则为1,leva,b(i,j)就是a的前i个字符与b的前j个字符的编辑距离;
a,b的匹配度s为:1-(leva,b(|a|,|b|)/max(|a|,|b|))。
2.根据权利要求1所述的基于开放式信息抽取的文本关系自动标注方法,其特征在于,步骤1中,获取大型的结构化知识数据库,根据数据库确定目标实体并进行对应的非结构化文本信息的获取与预处理,具体方法为:从互联网下载或者构建结构化知识数据库,根据自身需求从数据库中提取实体名称,根据获取的实体名称从网络上采集文本信息,进行筛选和指代消解处理,将文本中的代词转化为实体名称。
3.根据权利要求1所述的基于开放式信息抽取的文本关系自动标注方法,其特征在于,步骤2中,基于开放式信息抽取工具完成句子的实体关系三元组提取,具体方法为:首先将处理后的文本以标点符号为界限进行句子分割,然后利用开放式信息抽取工具,以句子为单位,提取句子中的实体对和描述关系的关系短语,最后以三元组(实体1,关系短语,实体2)形式完成构建。
4.根据权利要求1所述的基于开放式信息抽取的文本关系自动标注方法,其特征在于,步骤4中,对关系标签和关系短语进行语义相似度的计算,并筛选出相似度最高的关系标签,具体方法为:
对于两个短语a、b,每个短语有m、n个单词,利用Google的词向量模型对a中的每个单词与b中的所有单词分别做余弦相似度计算,保存最大值不为0的结果ai,共有k个,其中k<=m,则a、b的语义相似度Sim为:
5.一种基于开放式信息抽取的文本关系自动标注系统,其特征在于,基于权利要求1-4任一项所述的方法进行文本关系自动标注。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-4任一项所述的方法进行文本关系自动标注。
7.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法进行文本关系自动标注。
CN202011366103.1A 2020-11-29 2020-11-29 一种基于开放式信息抽取的文本关系自动标注方法 Active CN112417891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011366103.1A CN112417891B (zh) 2020-11-29 2020-11-29 一种基于开放式信息抽取的文本关系自动标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011366103.1A CN112417891B (zh) 2020-11-29 2020-11-29 一种基于开放式信息抽取的文本关系自动标注方法

Publications (2)

Publication Number Publication Date
CN112417891A CN112417891A (zh) 2021-02-26
CN112417891B true CN112417891B (zh) 2023-08-22

Family

ID=74843448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011366103.1A Active CN112417891B (zh) 2020-11-29 2020-11-29 一种基于开放式信息抽取的文本关系自动标注方法

Country Status (1)

Country Link
CN (1) CN112417891B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609312A (zh) * 2021-06-08 2021-11-05 电子科技大学 一种基于特征评估和关键词相似度的地理文本语料标注方法
CN113486189B (zh) * 2021-06-08 2024-10-18 广州数说故事信息科技有限公司 一种开放性知识图谱挖掘方法及系统
CN114676840B (zh) * 2022-01-27 2024-09-13 广州数说故事信息科技有限公司 一种基于海量数据的因果事理组提取方法、系统及计算机可读存储介质
CN116341531B (zh) * 2023-02-28 2023-10-10 人民网股份有限公司 基于知识驱动的人物信息抽取和检查方法及装置
CN117235234B (zh) * 2023-11-08 2024-03-01 深圳市腾讯计算机系统有限公司 对象信息获取方法、装置、计算机设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
CN111027324A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于句法模式和机器学习的开放式关系的抽取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6868411B2 (en) * 2001-08-13 2005-03-15 Xerox Corporation Fuzzy text categorizer
US10169454B2 (en) * 2016-05-17 2019-01-01 Xerox Corporation Unsupervised ontology-based graph extraction from texts

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
CN111027324A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于句法模式和机器学习的开放式关系的抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王丽客 ; 孙媛 ; 夏天赐 ; .基于远程监督的藏文实体关系抽取.中文信息学报.2020,(第03期),76-83. *

Also Published As

Publication number Publication date
CN112417891A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112417891B (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN108287911B (zh) 一种基于约束化远程监督的关系抽取方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN111475608B (zh) 一种基于功能语义关联计算的Mashup服务特征表示方法
CN111639183A (zh) 一种基于深度学习算法的金融同业舆情分析方法及系统
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115618883A (zh) 一种业务语义识别方法及装置
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN115017335A (zh) 知识图谱构建方法和系统
WO2021217974A1 (zh) 一种口语语义匹配的方法及装置
CN110309258B (zh) 一种输入检查方法、服务器和计算机可读存储介质
CN114169325B (zh) 基于词向量表征的网页新词发现和解析方法
CN114490937A (zh) 基于语义感知的评论分析方法及装置
CN112926318A (zh) 一种基于句法分析的网购评论新情感词提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant