CN111814476B - 一种实体关系的抽取方法和装置 - Google Patents

一种实体关系的抽取方法和装置 Download PDF

Info

Publication number
CN111814476B
CN111814476B CN202010519899.3A CN202010519899A CN111814476B CN 111814476 B CN111814476 B CN 111814476B CN 202010519899 A CN202010519899 A CN 202010519899A CN 111814476 B CN111814476 B CN 111814476B
Authority
CN
China
Prior art keywords
entity
text
relation
target
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010519899.3A
Other languages
English (en)
Other versions
CN111814476A (zh
Inventor
胡洪兵
李健
武卫不
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202010519899.3A priority Critical patent/CN111814476B/zh
Publication of CN111814476A publication Critical patent/CN111814476A/zh
Application granted granted Critical
Publication of CN111814476B publication Critical patent/CN111814476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种实体关系的抽取方法和装置,涉及数据处理和数据挖掘技术领域。本发明提供的实体关系的抽取方法和装置,在从包含第一实体的目标语料中抽取与第一实体之间具有预设逻辑关联的第二实体和实体关系文本时,首先预先训练得到实体关系抽取模型,再将第一实体和目标语料输入到实体关系抽取模型中,实体关系抽取模型就可以输出第二实体和实体关系文本,从而得到包含第一实体、实体关系文本和第二实体的实体关系三元组,操作简单,耗时少,同时,由于实体关系抽取模型可以根据大量的开放领域的样本语料进行预先训练,使得可以在开放领域中抽取实体关系三元组,而不受应用领域的限制,进一步的,也提高了抽取实体关系三元组过程的准确度。

Description

一种实体关系的抽取方法和装置
技术领域
本发明涉及数据处理和数据挖掘技术领域,特别是涉及一种实体关系的抽取方法和装置。
背景技术
信息抽取是从非结构化的纯文本中挖掘出实体对,以及实体对之间关系,得到实体-关系-实体类型的结构化数据,广泛的应用于构建知识图谱和大数据分析等下游任务。
目前,从纯文本中提取实体-关系-实体结构的实体关系三元组信息的过程,主要为对纯文本中包含的语句进行分词,将分词得到的词语进行词性分析和标注,进一步基于词性分析再对语句进行语法和句法分析,完成对该语句的语义分析,确定该语句中各个分词之间的关系,并结合该纯文本所属领域的经验规律,确定从纯文本语句中提取实体关系三元组信息的规则,进而从该语句中提取出包括主实体和副实体的实体对,以及主实体和副实体之间的实体关系。
但是,在目前的方案中,由于确定提取实体关系三元组规则的过程中需要对待分析的纯文本语句进行分词、词性分析、语法和句法分析,并依据相关的经验规律,导致确定纯文本中实体关系三元组的过程复杂,错误率较高,从而降低了提取过程的准确度。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种实体关系的抽取方法和装置。
依据本发明的第一方面,提供了一种实体关系的抽取方法,该方法包括:
获取第一实体和目标文本,所述第一实体为客观物体的抽象名称;
根据所述第一实体,从所述目标文本中确定目标语料,所述目标语料为包括所述第一实体的语句;
将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本,所述第二实体与所述第一实体之间具有预设逻辑关联,所述实体关系文本为所述目标语料中与所述预设逻辑关联对应的词句;
生成包含所述第一实体、所述实体关系文本和所述第二实体的实体关系三元组。
可选的,所述得到从所述目标语料中抽取出的与所述第一实体对应的实体关系文本的步骤,包括:
在所述目标语料中,将与所述第一实体之间的文本距离小于或等于第一预设距离的词句,确定为所述实体关系文本。
可选的,所述得到从所述目标语料中抽取出的与所述第一实体对应的第二实体的步骤,包括:
从所述目标语料中,将与所述实体关系文本之间的文本距离小于或等于第二预设距离的词句,确定为所述第二实体。
可选的,所述将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本的步骤,包括:
将所述第一实体和所述目标语料输入所述实体关系抽取模型中,通过所述实体关系抽取模型,从所述目标语料中抽取与所述第一实体对应的至少一个第二实体和实体关系文本;
从所述至少一个第二实体和实体关系文本中,根据所述第二实体与所述第一实体之间的文本距离,将具有最小文本距离的第二实体确定为所述第二实体,将与所述具有最小文本距离的第二实体对应的实体关系文本确定为所述实体关系文本。
可选的,所述根据所述第一实体,从所述目标文本中确定目标语料的步骤,包括:
在所述目标文本中,利用所述第一实体进行匹配操作;
根据所述匹配操作的结果,将所述目标文本中包含所述第一实体的语句确定为所述目标语料,所述包含所述第一实体的语句为所述目标文本中两个相邻句末点号之间的文本。
可选的,所述预设逻辑关联包括预设的所述第一实体与所述第二实体之间的对应关系。
可选的,获取所述实体关系抽取模型的步骤,包括:
获取样本语料,以及所述样本语料中包含的样本实体关系三元组,所述样本实体关系三元组包括第一样本实体、第二样本实体和样本实体关系文本;
根据所述样本实体关系三元组,对所述样本语料进行标注,得到标注样本;
根据所述标注样本对神经网络模型进行训练,得到所述实体关系抽取模型。
依据本发明的第二方面,提供了一种实体关系的抽取装置,该装置包括:
第一获取模块,用于获取第一实体和目标文本,所述第一实体为客观物体的抽象名称;
确定模块,用于根据所述第一实体,从所述目标文本中确定目标语料,所述目标语料为包括所述第一实体的语句;
抽取模块,用于将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本,所述第二实体与所述第一实体之间具有预设逻辑关联,所述实体关系文本为所述目标语料中与所述预设逻辑关联对应的词句;
生成模块,用于生成包含所述第一实体、所述实体关系文本和所述第二实体的实体关系三元组。
可选的,所述抽取模块,包括:
第一确定子模块,用于在所述目标语料中,将与所述第一实体之间的文本距离小于或等于第一预设距离的词句,确定为所述实体关系文本。
可选的,所述抽取模块,包括:
第二确定子模块,用于从所述目标语料中,将与所述实体关系文本之间的文本距离小于或等于第二预设距离的词句,确定为所述第二实体。
可选的,所述抽取模块,包括:
抽取子模块,用于将所述第一实体和所述目标语料输入所述实体关系抽取模型中,通过所述实体关系抽取模型,从所述目标语料中抽取与所述第一实体对应的至少一个第二实体和实体关系文本;
第三确定子模块,用于从所述至少一个第二实体和实体关系文本中,根据所述实体关系文本与所述第一实体之间的文本距离,将具有最小文本距离的实体关系文本确定为所述实体关系文本,将与所述具有最小文本距离的实体关系文本对应的第二实体确定为所述第二实体。
可选的,所述确定模块,包括:
匹配子模块,用于在所述目标文本中,利用所述第一实体进行匹配操作;
第四确定子模块,用于根据所述匹配操作的结果,将所述目标文本中包含所述第一实体的语句确定为所述目标语料,所述包含所述第一实体的语句为所述目标文本中两个相邻句末点号之间的文本。
可选的,所述预设逻辑关联包括预设的所述第一实体与所述第二实体之间的对应关系。
可选的,所述装置还包括:
第二获取模块,用于获取样本语料,以及所述样本语料中包含的样本实体关系三元组,所述样本实体关系三元组包括第一样本实体、第二样本实体和样本实体关系文本;
标注模块,用于根据所述样本实体关系三元组,对所述样本语料进行标注,得到标注样本;
训练模块,用于根据所述标注样本对神经网络模型进行训练,得到所述实体关系抽取模型。
本发明实施例提供的一种实体关系的抽取方法和装置,在从包含第一实体的目标语料中抽取与第一实体之间具有预设逻辑关联的第二实体和实体关系文本时,首先预先训练得到实体关系抽取模型,再将第一实体和目标语料输入到实体关系抽取模型中,实体关系抽取模型就可以输出第二实体和实体关系文本,从而得到包含第一实体、实体关系文本和第二实体的实体关系三元组,操作简单,耗时少,同时,由于实体关系抽取模型可以根据大量的开放领域的样本语料进行预先训练,使得可以在开放领域中抽取实体关系三元组,而不受应用领域的限制,进一步的,也提高了抽取实体关系三元组过程的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种实体关系的抽取方法的步骤流程图;
图2是本发明实施例提供的另一种实体关系的抽取方法的步骤流程图;
图3是本发明实施例提供的一种实体关系的抽取方法装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种实体关系的抽取方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、获取第一实体和目标文本,所述第一实体为客观物体的抽象名称。
在该步骤中,首先可以获取第一实体,以及需要进行实体关系抽取操作的目标文本。
具体的,所述第一实体为客观物体的抽象名称,可以为人名、地点名称、物体的名称等,例如:“张三”、“泸沽湖”、“维生素”、“癌症”等。
所述目标文本可以为需要进行实体关系抽取操作的目标文本,在对某一特定领域进行实体关系抽取时,可以将该特定领域相关的非结构化的出文本作为目标文本,例如,对于生物医学领域而言,可以将生物医学领域相关的海量学术论文和报道作为目标文本,从中抽取与第一实体“癌症”相关的实体关系三元组,从而可以创建关于癌症的知识图谱,或者对癌症进行大数据分析。
此外,所述目标文本也可以是开放领域中相关的文本,即可以将多个不限于生物医学领域的文本也作为抽取与第一实体“癌症”相关的实体关系三元组的目标文本,例如,除了将生物医学领域相关的海量学术论文和报道作为目标文本之外,还可以将其他领域的学术论文和报道作为目标文本,以及将开放领域的报纸内容、论坛信息等也作为目标文本,从而从不限于生物医学领域的海量文本中抽取与第一实体“癌症”相关的实体关系三元组,最终可以创建关于癌症的知识图谱,或者对癌症进行大数据分析,也可以从目标文本中抽取开放领域的第一实体,比如“维生素”、“张三”或“泸沽湖”等其他第一实体对应的实体关系三元组。
步骤102、根据所述第一实体,从所述目标文本中确定目标语料,所述目标语料为包括所述第一实体的语句。
在该步骤中,可以根据所述第一实体,从海量的目标文本中确定目标语料,其中,所述目标语料为包括所述第一实体的语句。
在本发明实施例中,在获取到海量的目标文本之后,可以根据最终需要建立的实体关系三元组中包含的第一实体,从海量的目标文本中,确定与第一实体相关的语句,即将包含所述第一实体的语句确定为目标语料,在后续抽取实体关系三元组时,仅针对目标语料进行相关的操作。
步骤103、将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本。
在该步骤中,可以将获取的第一实体,以及上述步骤中确定的目标语料输入预先训练得到的实体关系抽取模型中,以供实体关系抽取模型根据第一实体,从目标语料中抽取出与所述第一实体对应的第二实体和实体关系文本。
具体的,所述第二实体与所述第一实体之间具有预设逻辑关联,所述实体关系文本为所述目标语料中与所述预设逻辑关联对应的词句。
在本发明实施例中,实体关系抽取模型在接收到输入的第一实体和目标语料之后,可以通过分析目标语料中的内容,结合第一实体,找出与第一实体具有预设逻辑关联的词句,将该词句确定为第二实体,以及将与所述预设逻辑关联对应的词句,确定为实体关系文本。
例如,若所述目标语料为:“被摩梭人称为“母亲湖”的泸沽湖,海拨2690米”,输入实体关系抽取模型的第一实体为“泸沽湖”,则通过分析该目标语料,可以确定目标语料中“海拔”是与第一实体“泸沽湖”相关的预设逻辑关联,表征泸沽湖的海拔属性,因此,可以将“海拔”确定为与第一实体对应的实体关系文本;进一步的,可以确定目标语料中“2690米”是与第一实体“泸沽湖”具有上述预设逻辑关联的词语,因此,可以将“2690米”确定为第二实体。
其中,所述实体关系抽取模型是预先通过大量的样本语料训练神经网络模型后得到的模型,所述神经网络模型可以为长短期记忆网络模型(Long Short-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)、循环神经网络(Recurrent neuralNetwork,RNN)和神经网络图灵机(Neural Turing Machines,NTM)等常用的神经网络模型。
步骤104、生成包含所述第一实体、所述实体关系文本和所述第二实体的实体关系三元组。
在该步骤中,可以根据第一实体以及上述步骤中得到的实体关系文本和第二实体,生成结构化的实体关系三元组。
从而从非结构化的纯文本中挖掘出结构化的实体关系三元组,由于实体关系三元组中包含的第一实体和第二实体之间存在预设逻辑关联,例如第二实体为第一实体的属性值,使得利用结构化的实体关系三元组构建的知识图谱中,可以描述物理世界中的实体概念及其相互关系,并构成网状的知识结构。
综上所述,本发明实施例提供的实体关系的抽取方法,包括:获取第一实体和目标文本;根据第一实体,从目标文本中确定目标语料,目标语料为包括第一实体的语句;将第一实体和目标语料输入预先训练得到的实体关系抽取模型中,得到从目标语料中抽取出的与第一实体对应的第二实体和实体关系文本,第二实体与第一实体之间具有预设逻辑关联,实体关系文本为目标语料中与预设逻辑关联对应的词句;生成包含第一实体、实体关系文本和第二实体的实体关系三元组,在本发明中,在从包含第一实体的目标语料中抽取与第一实体之间具有预设逻辑关联的第二实体和实体关系文本时,首先预先训练得到实体关系抽取模型,再将第一实体和目标语料输入到实体关系抽取模型中,实体关系抽取模型就可以输出第二实体和实体关系文本,从而得到包含第一实体、实体关系文本和第二实体的实体关系三元组,操作简单,耗时少,同时,由于实体关系抽取模型可以根据大量的开放领域的样本语料进行预先训练,使得可以在开放领域中抽取实体关系三元组,而不受应用领域的限制,进一步的,也提高了抽取实体关系三元组过程的准确度。
图2是本发明实施例提供的另一种实体关系的抽取方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、获取所述实体关系抽取模型。
在该步骤中,可以在进行实体关系三元组抽取之前,先获取实体关系抽取模型。
可选的,获取所述实体关系抽取模型的步骤,具体可以包括:
子步骤2011、获取样本语料,以及所述样本语料中包含的样本实体关系三元组,所述样本实体关系三元组包括第一样本实体、第二样本实体和样本实体关系文本。
在该步骤中,首先获取样本语料,并获取所述样本语料中包含的样本实体关系三元组,所述样本实体关系三元组包括第一样本实体、第二样本实体和样本实体关系文本,所述样本实体关系文本为表征所述第一样本实体和第二样本实体之间的逻辑关联的文本。
具体的,可以通过爬虫工具爬取预设语料库中的文本,将其作为样本语料,然后人工标注每一个样本语料中包含的样本实体关系三元组,其中,所述预设语料库中的文本可以为网络上的用户评论或留言等文本,也可以是学术论文数据库中的文本,或者专利数据库中的文本等。
所述爬虫工具可以是一种自动获取文本的程序,也可以是搜索引擎的重要组成部分,搜索引擎使用爬虫工具寻找文本,网络上的超文本标记语言(Hyper Text Mark-upLanguage,HTML)文档使用超链接连接了起来,就像织成了一张网,爬虫工具顺着这张网爬行,每到一个网页就将这个网页抓下来,再将该网页中的将文本抽取出来,同时抽取超链接,作为进一步爬行的线索,该爬虫工具可以为开源的爬虫工具、非开源的爬虫工具、单独开发或基于开源或非开源的爬虫工具进行二次开发后得到的爬虫工具。
子步骤2012、根据所述样本实体关系三元组,对所述样本语料进行标注,得到标注样本。
在该步骤中,在获取的样本语料,以及样本语料中包含的样本实体关系三元组之后,可以利用所述样本实体关系三元组,对所述样本语料进行标注,得到标注样本。
例如,若获取到的样本语料为:“2015年癌症发病人数为392万人”,人工阅读该该样本语料之后,确定该样本语料中存在癌症-发病人数-392万人这一样本实体关系三元组,进一步对样本语料进行标注,得到的标注样本为:“o/o/o/o/o/b-F/e-F/b-R/m-R/m-R/e-R/b-S/m-S/m-S/m-S/e-S/”其中,非样本实体关系三元组的字符标记为o,第一样本实体标记为F,b-F表示第一样本实体的第一个字,e-F表示第一样本实体的最后一个字;样本实体关系文本标记为R,b-R表示样本实体关系文本的第一个字,m-R表示样本实体关系文本的中间部分字符,e-R表示样本实体关系文本的最后一个字;第二样本实体标记为S,b-S表示第二样本实体的第一个字,m-R表示第二样本实体的中间部分字符,e-R表示第二样本实体的最后一个字。
子步骤2013、根据所述标注样本对神经网络模型进行训练,得到所述实体关系抽取模型。
在该步骤中,利用上述步骤中获得的标注样本,对神经网络模型进行训练,得到所述实体关系抽取模型。
在本发明实施例中,可以以句为单位,将标注样本输入神经网络模型,获取神经网络模型输出的样本实体关系三元组,从而对神经网络模型进行训练,通过大量的标注样本对神经网络模型进行训练,可以获得准确度较高的实体关系抽取模型。
步骤202、获取第一实体和目标文本,所述第一实体为客观物体的抽象名称。
本步骤的实现方式与上述步骤101的实现过程类似,本申请实施例在此不再详述。
步骤203、在所述目标文本中,利用所述第一实体进行匹配操作。
在该步骤中,可以在所述目标文本中,利用所述第一实体进行匹配操作。
在本发明实施例中,获取到的目标文本可以是开放领域中海量的纯文本,由于通过神经网络模型训练得到的实体关系抽取模型是以句为输入单位,同时,可以从海量的纯文本中筛选出包含第一实体的句子,再将该句子输入实体关系抽取模型中,使得实体关系抽取模型只对包含第一实体的句子进行处理,从而忽略目标文本中不包含第一实体的句子,从而减少实体关系抽取模型的数据处理量,提高效率。
具体的,可以在获取第一实体和目标文本之后,可以先通过字符串匹配算法,从目标文本中确定第一实体所在的位置,再将所述第一实体所处的句子,作为目标语料。
步骤204、根据所述匹配操作的结果,将所述目标文本中包含所述第一实体的语句确定为所述目标语料,所述包含所述第一实体的语句为所述目标文本中两个相邻句末点号之间的文本。
在该步骤中,可以根据利用第一实体对目标文本进行匹配操作的匹配结果,将目标文本中包含所述第一实体的语句确定为所述目标语料,其中,所述包含所述第一实体的语句为所述目标文本中两个相邻句末点号之间的文本。
具体的,在通过字符串匹配算法,从目标文本中确定第一实体所在的位置之后,根据所述位置,在目标文本中确定第一实体所处的句子,例如,可以在目标文本中定位第一实体之前的字符串中,与所述第一实体最接近的一个句末点号,以及在目标文本中定位第一实体之后的字符串中,与所述第一实体最接近的一个句末点号,并将这两个句末点号之间的文本确定为所述目标语料。
其中,所述句末点号表示一句话说完之后一个较大的停顿,例如句号、问号和叹号等。
步骤205、将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,在所述目标语料中,将与所述第一实体之间的文本距离小于或等于第一预设距离的词句,确定为所述实体关系文本。
在该步骤中,可以将第一实体和目标语料输入预先训练得到的实体关系抽取模型中,从而利用实体关系抽取模型,在所述目标语料中,将与所述第一实体之间的文本距离小于或等于第一预设距离的词句,确定为所述实体关系文本。
具体的,所述第二实体与所述第一实体之间具有预设逻辑关联,所述实体关系文本即为所述目标语料中与所述预设逻辑关联对应的词句。
在一般情况下,一段文本中两个词句之间的文本距离越小,则这两个词句之间存在逻辑关联的可能越大,因此,还可以结合目标语料中的词句与第一实体之间的文本距离,确定实体关系文本。
例如,若第一实体为“泸沽湖”,目标语料为“被摩梭人称为“母亲湖”的泸沽湖,海拨2690米,水域面积达58平方公里,平均水深45米。”
首先根据第一实体,判断目标语料中存在的与第一实体相关的预设逻辑关联对应的词句,具体的,可以预先设置第一实体可能相关的逻辑关联表,将与第一实体相关的逻辑关联存储在该逻辑关联表中,从而在从目标语料中判断与第一实体相关的预设逻辑关联时,可以直接通过查询第一实体的逻辑关联表,判断目标语料中是否有词句包含在所述逻辑关联表中,若是,则将该词句确定为第一实体对应的预设逻辑关联词句。
进一步的,在从上述目标语料中确定了第一实体对应的预设逻辑关联词句之后,可以确定该预设逻辑关联词句与第一实体之间的文本距离,若该文本距离小于或等于第一预设距离,则说明该预设逻辑关联词句与第一实体之间存在对应关系的可能性较大,从而最终将该预设逻辑关联词句确定为第一实体对应的实体关系文本。
例如,第一实体“泸沽湖”的逻辑关联表可以为:
在获得第一实体“泸沽湖”和上述目标语料之后,根据逻辑关联表,确定在目标语料中,与第一实体“泸沽湖”对应的预设逻辑关联词句为“海拨”、“面积”、“平均水深”,这三个预设逻辑关联词句与第一实体“泸沽湖”之间的文本距离分别为:6个字符、16个字符和26个字符,若设置所述第一预设距离为20个字符,预设逻辑关联词句“平均水深”与第一实体“泸沽湖”之间的文本距离超过了第一预设距离,其与第一实体之间存在对应关系的可能性较小,因此,不将“平均水深”作为与第一实体对应的实体关系文本,最终,将“海拨”和“面积”作为与第一实体对应的实体关系文本。
在本发明实施例中,若从目标语料中抽取出多个实体关系文本,则步骤205具体可以包括:
子步骤2051、将所述第一实体和所述目标语料输入所述实体关系抽取模型中,通过所述实体关系抽取模型,从所述目标语料中抽取与所述第一实体对应的至少一个实体关系文本。
在该步骤中,将所述第一实体和所述目标语料输入所述实体关系抽取模型中,可以通过所述实体关系抽取模型,从所述目标语料中抽取与所述第一实体对应的至少一个实体关系文本。
例如,若第一实体为“泸沽湖”,目标语料为“被摩梭人称为“母亲湖”的泸沽湖,海拨2690米,水域面积达58平方公里,平均水深45米。”从目标语料中抽取出了两个实体关系文本:“海拨”和“面积”。
子步骤2052、从所述至少一个实体关系文本中,将与所述具有最小文本距离的第二实体对应的实体关系文本确定为所述实体关系文本。
在该步骤中,可以在所述至少一个实体关系文本中,将与所述具有最小文本距离的第二实体对应的实体关系文本确定为所述实体关系文本。
例如,实体关系文本“海拨”和“面积”与第一实体“泸沽湖”之间的文本距离分别为:6个字符和16个字符,则实体关系文本“海拨”与第一实体“泸沽湖”之间的文本距离,小于“面积”与第一实体“泸沽湖”之间的文本距离,因此,最终将“海拨”确定为与第一实体“泸沽湖”对应的实体关系文本。
步骤206、从所述目标语料中,将与所述实体关系文本之间的文本距离小于或等于第二预设距离的词句,确定为所述第二实体。
在该步骤中,可以在从目标语料中确定与第一实体对应的体关系文本之后,再从所述目标语料中,将与所述实体关系文本之间的文本距离小于或等于第二预设距离的词句,确定为所述第二实体。
具体的,由于所述第二实体与所述第一实体之间具有预设逻辑关联,所述实体关系文本为所述目标语料中与所述预设逻辑关联对应的词句,因此,可以根据第一实体和实体关系文本,从目标语料中,确定第二实体关系。
例如,在目标语料“被摩梭人称为“母亲湖”的泸沽湖,海拨2690米,水域面积达58平方公里,平均水深45米。”中,若确定第一实体为“泸沽湖”,实体关系文本为“海拨”,则可以确定第二实体为表征泸沽湖的海拔属性的词句,因此,在检测到目标语料中实体关系文本“海拨”后面的词句“2690米”为可以表征泸沽湖的海拔属性的数词和量词的情况下,可以将“2690米”确定为与第一实体“泸沽湖”对应的第二实体。
在本发明实施例中,若从目标语料中抽取出多个第二实体,则步骤206具体可以包括:
子步骤2061、将所述第一实体和所述目标语料输入所述实体关系抽取模型中,通过所述实体关系抽取模型,从所述目标语料中抽取与所述第一实体对应的至少一个第二实体。
在该步骤中,将所述第一实体和所述目标语料输入所述实体关系抽取模型中,可以通过所述实体关系抽取模型,从所述目标语料中抽取与所述第一实体对应的至少一个第二实体。
例如,若第一实体为“泸沽湖”,目标语料为“被摩梭人称为“母亲湖”的泸沽湖,海拨2690米,水域面积达58平方公里,平均水深45米。”从目标语料中抽取出了实体关系文本为“海拨”,以及与实体关系文本对应的两个第二实体:“2690米”和“45米”。
子步骤2062、从所述至少一个第二实体中,根据所述第二实体与所述实体关系文本之间的文本距离,将具有最小文本距离的第二实体确定为所述第二实体。
在该步骤中,可以在至少一个第二实体中,根据所述第二实体与所述实体关系文本之间的文本距离,将具有最小文本距离的第二实体确定为所述第二实体。
例如,第二实体:“2690米”和“45米”与实体关系文本“海拨”之间的文本距离分别为:0个字符和22个字符,则“2690米”与实体关系文本“海拨”之间的文本距离,小于“45米”与实体关系文本“海拨”之间的文本距离,因此,最终将“2690米”确定为与第一实体“泸沽湖”和实体关系文本“海拨”对应的第二实体。
步骤207、生成包含所述第一实体、所述实体关系文本和所述第二实体的实体关系三元组。
本步骤的实现方式与上述步骤104的实现过程类似,本申请实施例在此不再详述。
综上所述,本发明实施例提供的实体关系的抽取方法,获取第一实体和目标文本;根据第一实体,从目标文本中确定目标语料,目标语料为包括第一实体的语句;将第一实体和目标语料输入预先训练得到的实体关系抽取模型中,得到从目标语料中抽取出的与第一实体对应的第二实体和实体关系文本,第二实体与第一实体之间具有预设逻辑关联,实体关系文本为目标语料中与预设逻辑关联对应的词句;生成包含第一实体、实体关系文本和第二实体的实体关系三元组,在本发明中,在从包含第一实体的目标语料中抽取与第一实体之间具有预设逻辑关联的第二实体和实体关系文本时,首先预先训练得到实体关系抽取模型,再将第一实体和目标语料输入到实体关系抽取模型中,实体关系抽取模型就可以输出第二实体和实体关系文本,从而得到包含第一实体、实体关系文本和第二实体的实体关系三元组,操作简单,耗时少,同时,由于实体关系抽取模型可以根据大量的开放领域的样本语料进行预先训练,使得可以在开放领域中抽取实体关系三元组,而不受应用领域的限制,进一步的,也提高了抽取实体关系三元组过程的准确度。
此外,在从目标语料中根据第一实体确定与第一实体对应的实体关系文本和第二实体时,若确定了至少一个实体关系文本和第二实体,则根据就近原则,利用与第一实体的文本距离最小的实体关系文本,以及对应的第二实体,生成实体关系三元组,从而进一步提高了抽取实体关系三元组过程的准确度。
图3是本发明实施例提供的一种实体关系的抽取装置的框图,如图3所示,该装置30可以包括:
第一获取模块301,用于获取第一实体和目标文本,所述第一实体为客观物体的抽象名称;
确定模块302,用于根据所述第一实体,从所述目标文本中确定目标语料,所述目标语料为包括所述第一实体的语句;
抽取模块303,用于将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本,所述第二实体与所述第一实体之间具有预设逻辑关联,所述实体关系文本为所述目标语料中与所述预设逻辑关联对应的词句;
生成模块304,用于生成包含所述第一实体、所述实体关系文本和所述第二实体的实体关系三元组。
可选的,所述抽取模块303,包括:
第一确定子模块,用于在所述目标语料中,将与所述第一实体之间的文本距离小于或等于第一预设距离的词句,确定为所述实体关系文本。
可选的,所述抽取模块303,包括:
第二确定子模块,用于从所述目标语料中,将与所述实体关系文本之间的文本距离小于或等于第二预设距离的词句,确定为所述第二实体。
可选的,所述抽取模块303,包括:
抽取子模块,用于将所述第一实体和所述目标语料输入所述实体关系抽取模型中,通过所述实体关系抽取模型,从所述目标语料中抽取与所述第一实体对应的至少一个第二实体和实体关系文本;
第三确定子模块,用于从所述至少一个第二实体和实体关系文本中,根据所述实体关系文本与所述第一实体之间的文本距离,将具有最小文本距离的实体关系文本确定为所述实体关系文本,将与所述具有最小文本距离的实体关系文本对应的第二实体确定为所述第二实体。
可选的,所述确定模块302,包括:
匹配子模块,用于在所述目标文本中,利用所述第一实体进行匹配操作;
第四确定子模块,用于根据所述匹配操作的结果,将所述目标文本中包含所述第一实体的语句确定为所述目标语料,所述包含所述第一实体的语句为所述目标文本中两个相邻句末点号之间的文本。
可选的,所述预设逻辑关联包括预设的所述第一实体与所述第二实体之间的对应关系。
可选的,所述装置还包括:
第二获取模块,用于获取样本语料,以及所述样本语料中包含的样本实体关系三元组,所述样本实体关系三元组包括第一样本实体、第二样本实体和样本实体关系文本;
标注模块,用于根据所述样本实体关系三元组,对所述样本语料进行标注,得到标注样本;
训练模块,用于根据所述标注样本对神经网络模型进行训练,得到所述实体关系抽取模型。
综上所述,本发明实施例提供的实体关系的抽取装置,在从包含第一实体的目标语料中抽取与第一实体之间具有预设逻辑关联的第二实体和实体关系文本时,首先预先训练得到实体关系抽取模型,再将第一实体和目标语料输入到实体关系抽取模型中,实体关系抽取模型就可以输出第二实体和实体关系文本,从而得到包含第一实体、实体关系文本和第二实体的实体关系三元组,操作简单,耗时少,同时,由于实体关系抽取模型可以根据大量的开放领域的样本语料进行预先训练,使得可以在开放领域中抽取实体关系三元组,而不受应用领域的限制,进一步的,也提高了抽取实体关系三元组过程的准确度。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (6)

1.一种实体关系的抽取方法,其特征在于,所述方法包括:
获取第一实体和目标文本,所述第一实体为客观物体的抽象名称;
根据所述第一实体,从所述目标文本中确定目标语料,所述目标语料为包括所述第一实体的语句;
将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本,所述第二实体与所述第一实体之间具有预设逻辑关联且所述第二实体为所述目标语料中与所述实体关系文本之间的文本距离小于或等于第二预设距离的词句,所述实体关系文本为所述目标语料中与所述预设逻辑关联对应的词句且所述实体关系文本为所述目标语料中与所述第一实体之间的文本距离小于或等于第一预设距离的词句,其中,所述实体关系抽取模型通过标注样本对神经网络模型训练得到,所述标注样本通过样本语料中包含的样本实体关系三元组对所述样本语料标注得到;
生成包含所述第一实体、所述实体关系文本和所述第二实体的实体关系三元组。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本的步骤,包括:
将所述第一实体和所述目标语料输入所述实体关系抽取模型中,通过所述实体关系抽取模型,从所述目标语料中抽取与所述第一实体对应的至少一个第二实体和实体关系文本;
从所述至少一个第二实体和实体关系文本中,根据所述实体关系文本与所述第一实体之间的文本距离,将具有最小文本距离的实体关系文本确定为所述实体关系文本,将与所述具有最小文本距离的实体关系文本对应的第二实体确定为所述第二实体。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一实体,从所述目标文本中确定目标语料的步骤,包括:
在所述目标文本中,利用所述第一实体进行匹配操作;
根据所述匹配操作的结果,将所述目标文本中包含所述第一实体的语句确定为所述目标语料,所述包含所述第一实体的语句为所述目标文本中两个相邻句末点号之间的文本。
4.根据权利要求1所述的方法,其特征在于,所述预设逻辑关联包括预设的所述第一实体与所述第二实体之间的对应关系。
5.根据权利要求1所述的方法,其特征在于,获取所述实体关系抽取模型的步骤,包括:
获取所述样本语料,以及所述样本语料中包含的样本实体关系三元组,所述样本实体关系三元组包括第一样本实体、第二样本实体和样本实体关系文本;
根据所述样本实体关系三元组,对所述样本语料进行标注,得到标注样本;
根据所述标注样本对神经网络模型进行训练,得到所述实体关系抽取模型。
6.一种实体关系的抽取装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一实体和目标文本,所述第一实体为客观物体的抽象名称;
确定模块,用于根据所述第一实体,从所述目标文本中确定目标语料,所述目标语料为包括所述第一实体的语句;
抽取模块,用于将所述第一实体和所述目标语料输入预先训练得到的实体关系抽取模型中,得到从所述目标语料中抽取出的与所述第一实体对应的第二实体和实体关系文本,所述第二实体与所述第一实体之间具有预设逻辑关联且所述第二实体为所述目标语料中与所述实体关系文本之间的文本距离小于或等于第二预设距离的词句,所述实体关系文本为所述目标语料中与所述预设逻辑关联对应的词句且所述实体关系文本为所述目标语料中与所述第一实体之间的文本距离小于或等于第一预设距离的词句,其中,所述实体关系抽取模型通过标注样本对神经网络模型训练得到,所述标注样本通过样本语料中包含的样本实体关系三元组对所述样本语料标注得到;
生成模块,用于生成包含所述第一实体、所述实体关系文本和所述第二实体的实体关系三元组。
CN202010519899.3A 2020-06-09 2020-06-09 一种实体关系的抽取方法和装置 Active CN111814476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010519899.3A CN111814476B (zh) 2020-06-09 2020-06-09 一种实体关系的抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010519899.3A CN111814476B (zh) 2020-06-09 2020-06-09 一种实体关系的抽取方法和装置

Publications (2)

Publication Number Publication Date
CN111814476A CN111814476A (zh) 2020-10-23
CN111814476B true CN111814476B (zh) 2024-04-16

Family

ID=72846511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010519899.3A Active CN111814476B (zh) 2020-06-09 2020-06-09 一种实体关系的抽取方法和装置

Country Status (1)

Country Link
CN (1) CN111814476B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633000A (zh) * 2020-12-25 2021-04-09 北京明略软件系统有限公司 一种文本中实体的关联方法、装置、电子设备及存储介质
CN112765330A (zh) * 2020-12-31 2021-05-07 科沃斯商用机器人有限公司 文本数据处理方法、装置、电子设备和存储介质
CN113935486B (zh) * 2021-12-16 2022-03-04 中科雨辰科技有限公司 一种知识图谱的建立方法、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263019A (zh) * 2019-06-18 2019-09-20 中南民族大学 实体关系抽取模型的构建方法、装置和存储介质
CN110413999A (zh) * 2019-07-17 2019-11-05 新华三大数据技术有限公司 实体关系抽取方法、模型训练方法及相关装置
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110598001A (zh) * 2019-08-05 2019-12-20 平安科技(深圳)有限公司 联合实体关系抽取方法、装置及存储介质
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN111160035A (zh) * 2019-12-31 2020-05-15 北京明朝万达科技股份有限公司 文本语料的处理方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines
CN107798136B (zh) * 2017-11-23 2020-12-01 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001373A1 (zh) * 2018-06-26 2020-01-02 杭州海康威视数字技术股份有限公司 一种本体构建方法及装置
CN110263019A (zh) * 2019-06-18 2019-09-20 中南民族大学 实体关系抽取模型的构建方法、装置和存储介质
CN110413999A (zh) * 2019-07-17 2019-11-05 新华三大数据技术有限公司 实体关系抽取方法、模型训练方法及相关装置
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110598001A (zh) * 2019-08-05 2019-12-20 平安科技(深圳)有限公司 联合实体关系抽取方法、装置及存储介质
CN110619053A (zh) * 2019-09-18 2019-12-27 北京百度网讯科技有限公司 实体关系抽取模型的训练方法和抽取实体关系的方法
CN111160035A (zh) * 2019-12-31 2020-05-15 北京明朝万达科技股份有限公司 文本语料的处理方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
中文开放式多元实体关系抽取;李颖;郝晓燕;王勇;;计算机科学(第S1期);全文 *
基于最大熵的泰语句子级实体从属关系抽取;王红斌;李金绘;沈强;线岩团;毛存礼;;南京大学学报(自然科学)(第04期);全文 *
特定领域概念属性关系抽取方法研究;王旭阳;姜喜秋;;吉林大学学报(信息科学版)(第04期);全文 *
融合对抗训练的端到端知识三元组联合抽取;黄培馨;赵翔;方阳;朱慧明;肖卫东;;计算机研究与发展(第12期);全文 *

Also Published As

Publication number Publication date
CN111814476A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111814476B (zh) 一种实体关系的抽取方法和装置
US9779085B2 (en) Multilingual embeddings for natural language processing
CN107943911A (zh) 数据抽取方法、装置、计算机设备及可读存储介质
CN107590219A (zh) 网页人物主题相关信息提取方法
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
Piperski et al. Big and diverse is beautiful: A large corpus of Russian to study linguistic variation
Salama et al. Morphological word embedding for arabic
CN115048944B (zh) 一种基于主题增强的开放域对话回复方法及系统
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
Huber et al. Predicting discourse structure using distant supervision from sentiment
Abdurakhmonova et al. Linguistic functionality of Uzbek Electron Corpus: uzbekcorpus. uz
Alsallal et al. Intrinsic plagiarism detection using latent semantic indexing and stylometry
CN113196277A (zh) 用于检索自然语言文档的系统
Hussein A plagiarism detection system for arabic documents
Tran et al. ur-iw-hnt at CheckThat!-2022: Cross-lingual Text Summarization for Fake News Detection.
Singh et al. Writing Style Change Detection on Multi-Author Documents.
Jian et al. An end-to-end algorithm for solving circuit problems
CN112711666B (zh) 期货标签抽取方法及装置
Hindocha et al. Short-text Semantic Similarity using GloVe word embedding
Nogueira dos Santos et al. Portuguese part-of-speech tagging using entropy guided transformation learning
Zotova et al. Vicomtech at ALexS 2020: Unsupervised Complex Word Identification Based on Domain Frequency.
Kannan et al. Hatespeech and Offensive Content Detection in Hindi Language using C-BiGRU.
CN114969324A (zh) 基于主题词特征扩展的中文新闻标题分类方法
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
Eliassi-Rad et al. A theory-refinement approach to information extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Hu Hongbing

Inventor after: Li Jian

Inventor after: Wu Weidong

Inventor before: Hu Hongbing

Inventor before: Li Jian

Inventor before: Wu Weibu