CN111476035A - 中文开放关系预测方法、装置、计算机设备和存储介质 - Google Patents

中文开放关系预测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111476035A
CN111476035A CN202010373305.2A CN202010373305A CN111476035A CN 111476035 A CN111476035 A CN 111476035A CN 202010373305 A CN202010373305 A CN 202010373305A CN 111476035 A CN111476035 A CN 111476035A
Authority
CN
China
Prior art keywords
entity
predicted
sentence
type
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010373305.2A
Other languages
English (en)
Other versions
CN111476035B (zh
Inventor
谭真
张翀
何春辉
葛斌
封孝生
肖卫东
陈洪辉
易侃
黄四牛
王菁
黄莉华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010373305.2A priority Critical patent/CN111476035B/zh
Publication of CN111476035A publication Critical patent/CN111476035A/zh
Application granted granted Critical
Publication of CN111476035B publication Critical patent/CN111476035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种中文开放关系预测方法、装置、计算机设备和存储介质。所述方法包括:获取待预测句子中的命名实体,根据命名实体和待预测句子内容,构建实体对,实体对包括:头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容,当头实体类型和尾实体类型与预设的类型模式匹配,则将实体对中头实体、尾实体以及待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。采用本方法能够提高开放关系预测的准确性。

Description

中文开放关系预测方法、装置、计算机设备和存储介质
技术领域
本申请涉及语义分析技术领域,特别是涉及一种中文开放关系预测方法、装置、计算机设备和存储介质。
背景技术
为了及时地扩展新知识,从海量非结构化数据中获取新的结构化知识已成为一个热点研究问题。以实体关系抽取为代表的知识抽取技术已经取得了一些成果,特别是近年来监督学习模型极大地推动了特定关系抽取的发展。但是,与实际场景的开放关系抽取的复杂挑战需求相比,现有技术仍有一些局限性。我们亟需从实际需求出发,解决开放关系建模问题,提出有效的开放关系抽取方法。
传统的关系抽取工作一般有预先定义好的特定关系集合,再将任务转换为关系分类问题已取得了较好的效果。然而,在开放的关系抽取场景中,文本中包含大量开放的实体关系,且种类繁多,远超过预先定义的关系种类数量。在这种情况下,传统关系分类模型无法直接有效获取文本中蕴含的实体间新型关系。如何利用模型自动发现实体间的新型关系,实现开放关系抽取,属于当前阶段的一个难点问题。
为了实现开放关系的抽取,有学者提出了开放关系抽取(ORE)任务,致力于从非结构化文本中抽取实体间的关系事实。最近,Ruidong Wu提出了一种有监督的开放关系抽取框架,可以通过Relation Siamese Network(RSN)实现有监督和弱监督模式的自由切换,从而能够同时利用预定义关系的有监督数据和非结构化文本中新关系的无监督数据,来共同学习不同关系事实的语义相似度。具体来说,RSN采用孪生网络结构,从预定义关系的标注数据中学习关系样本的深度语义特征和相互间的语义相似度,可用于计算包含开放关系文本的语义相似度。然而,Tianyu Gao提出对于开放的新型关系,只需要提供少量精确的实例作为种子,就可以利用预训练的关系孪生网络方法训练出适用于新型关系的抽取模型。但是目前的关系预测需要对模型进行针对性的训练,对于开放关系预测的结果精确度不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决开放关系预测不准确问题的中文开放关系预测方法、装置、计算机设备和存储介质。
一种中文开放关系预测方法,所述方法包括:
获取待预测句子中的命名实体,根据命名实体和所述待预测句子内容,构建实体对;所述实体对包括:头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容;
当所述头实体类型和所述尾实体类型与预设的类型模式匹配,则将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。
在其中一个实施例中,还包括:将待预测句子输入五级BIOSE标记系统,得到待预测句子的标记结果序列;根据所述标记结果序列,确定待预测句子中的命名实体。
在其中一个实施例中,还包括:根据所述标记结果序列,确定所述标记结果序列中排序靠前的命名实体为头实体,排序靠后的命名实体为尾实体;根据所述头实体的头实体类型和所述尾实体的尾实体类型,确定所述头实体和所述尾实体是否关联;若是,则保存为实体对,若否,则从预先设置的实体对列表中删除。
在其中一个实施例中,所述关系预测模型为基于BERT的Att-Bi-GRU模型。
在其中一个实施例中,还包括:将所述头实体、所述尾实体以及所述待预测句子内容输入所述Att-Bi-GRU模型,对所述头实体、所述尾实体以及所述待预测句子内容进行分词处理;将分词处理得到的单词进行BERT嵌入,得到每个单词对应的词向量;将所述词向量分别输入对应的Att-Bi-GRU网络,得到每个词向量的隐层状态;对所述隐层状态进行组合,并通过输出层输出所述实体对对应的关系类型。
在其中一个实施例中,还包括:确定单词t的特征向量为:
Figure BDA0002479161660000031
其中,hT表示特征向量,hi表示单词i对应的隐层状态,k表示总单词数;
αi=Awi+B
Figure BDA0002479161660000032
其中,set[head entity,tail entity]指的是位于头实体和位置之间的单词集合,A,B是网络的参数;根据所述特征向量,确定单词t的权重。
在其中一个实施例中,还包括:若所述关系预测模型无法预测所述实体对的关系类型,或者所述关系类型的概率对应的置信度小于预设值,则对待预测句子进行句子语义依存分析,得到实体对的关系类型。
一种中文开放关系预测装置,所述装置包括:
实体提取模块,用于获取待预测句子中的命名实体,根据命名实体和所述待预测句子内容,构建实体对;所述实体对包括:头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容;
关系预测模块,用于当所述头实体类型和所述尾实体类型与预设的类型模式匹配,则将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待预测句子中的命名实体,根据命名实体和所述待预测句子内容,构建实体对;所述实体对包括:头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容;
当所述头实体类型和所述尾实体类型与预设的类型模式匹配,则将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待预测句子中的命名实体,根据命名实体和所述待预测句子内容,构建实体对;所述实体对包括:头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容;
当所述头实体类型和所述尾实体类型与预设的类型模式匹配,则将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。
上述中文开放关系预测方法、装置、计算机设备和存储介质,通过提取待预测句子中的命名实体,然后构建实体对,实体对中包含了头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容,因此在进行关系预测时,可以针对特定的类型模式进行匹配,提高预测的准确性,针对特定类型模式,将实体对中头实体、尾实体以及待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。
附图说明
图1为一个实施例中中文开放关系预测方法的流程示意图;
图2为一个实施例中命名实体提取步骤的流程示意图;
图3为一个实施例中关系类型预测步骤的流程示意图;
图4为一个实施例中句子语义依存分析的示意图;
图5为一个实施例中中文开放关系预测装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种中文开放关系预测方法,包括以下步骤:
步骤102,获取待预测句子中的命名实体,根据命名实体和待预测句子内容,构建实体对。
实体对包括:头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容。
具体的,可以采用实体识别模型确定待预测句子中包含的命名实体,例如CRF,支持向量机等方式。
在进行命名实体识别时,还可以确定命名实体类型的确定,根据头实体类型和尾实体类型,可以确定是否与预设的类型模式匹配。
步骤104,当头实体类型和尾实体类型与预设的类型模式匹配,则将实体对中头实体、尾实体以及待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。
类型模式指的是预先设置头实体类型和尾实体类型,然后在实体对中进行匹配,匹配得到合适的实体对进行关系类型预测。
上述中文开放关系预测方法中,通过提取待预测句子中的命名实体,然后构建实体对,实体对中包含了头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容,因此在进行关系预测时,可以针对特定的类型模式进行匹配,提高预测的准确性,针对特定类型模式,将实体对中头实体、尾实体以及待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。
对于步骤102,在其中一个实施例中,将待预测句子输入五级BIOSE标记系统,得到待预测句子的标记结果序列,根据标记结果序列,确定待预测句子中的命名实体。
具体的,如图2所示,可以基于BERT的Bi-LSTM-CRF模型来识别命名实体,在此模型中,采用五级BIOSE标记系统来完成所有语料库的标记任务,该模型的嵌入层通过Chinese-BERT-Base实现字符向量的转换。然后是Bi-LSTM网络层,隐藏层和CRF层。最后,输出标记结果序列。根据实体列表的结果,可以快速获取所有实体对。首先,根据这些命名实体在原始句子中首次出现的位置对其进行排序。然后,从头到尾将它们组合起来以一对一地建立实体对。出现在前面的实体被确定为头实体,后面出现的为尾实体。例如,我们输入原始句子“奥巴马毕业于哈佛大学”。命名实体识别模型将输出的实体列表为[Obama-PER,哈佛大学-ORG],我们可以将实体对建立为(Obama,PER,哈佛大学,ORG,奥巴马毕业于哈佛大学)。
在另一个实施例中,根据标记结果序列,确定标记结果序列中排序靠前的命名实体为头实体,排序靠后的命名实体为尾实体;根据头实体的头实体类型和尾实体的尾实体类型,确定头实体和尾实体是否关联;若是,则保存为实体对,若否,则从预先设置的实体对列表中删除。
具体的,根据实体对类型的过滤规则选择所有合理的实体对。例如,如果头实体和尾实体的类型为DATE-to-DATE,则两个实体之间可能不存在有意义的关系,因此应将其从实体对列表中删除。但是,如果实体对的类型是PER-to-ORG,它将被保留。以此类推,我们可以获得所有潜在的实体对。
在其中一个实施例中,关系预测模型为基于BERT的Att-Bi-GRU模型,BERT是2018年google提出来的预训练的语言模型,它打破很多NLP领域的任务记录,其提出在nlp的领域具有重要意义。Att-Bi-GRU模型指的是其中包含Bi-GRU网络以及引入Attention机制。具体的,Att-Bi-GRU模型包含8层结构,分别为:输入层、分词层、BERT嵌入层、Bi-GRU层、Attention层、Concat层归一化层以及输出层。
在另一个实施例中,将头实体、尾实体以及待预测句子内容输入Att-Bi-GRU模型,对头实体、尾实体以及待预测句子内容进行分词处理;将分词处理得到的单词进行BERT嵌入,得到每个单词对应的词向量;将词向量分别输入对应的Att-Bi-GRU网络,得到每个词向量的隐层状态;对隐层状态进行组合,并通过输出层输出实体对对应的关系类型。
具体的,如图3所示,可以采用标注语料库来完成Att-Bi-GRU模型的训练,输入样本包括头实体,尾实体,原始句子和关系,对于分词层,我们使用pyhanlp模块来执行它,需要注意的是,为了提高分词的准确性,在分割阶段将命名实体识别结果中的所有实体添加到用户自定义的词典中。基于预训练的中文-BERT-wwm-ext词向量嵌入模型的BERT嵌入层来获得所有词的向量变换结果[x1,x2,…,xk],其余层使用Tensorflow提供的功能实现。Bi-GRU层和注意力层的计算公式如下。对于每个单词t,GRU神经单元使用输入xt和先前状态ht-1计算ht,公式如下所示:
rt=σ(Wrxt+Urht-1)
ut=σ(Wuxt+Uuht-1)
Figure BDA0002479161660000071
Figure BDA0002479161660000072
其中,ht是隐藏状态,rt是复位门,而ut是更新门。Wr、Wu、Wc和Ur、Uu、U是GRU的参数。σ是sigmoid函数。对于单词t,我们使用隐藏状态
Figure BDA0002479161660000073
表示前向GRU和后向GRU的编码结果。然后,我们将拼接结果
Figure BDA0002479161660000074
作为单词t的Bi-GRU层的输出。其中,箭头方向指的是计算的方向。
在其中一个实施例中,还包括:确定单词t的特征向量为:
Figure BDA0002479161660000075
其中,hT表示特征向量,hi表示单词i对应的隐层状态,k表示总单词数;
αi=Awi+B
Figure BDA0002479161660000076
其中,set[head entity,tail entity]指的是位于头实体和位置之间的单词集合,A,B是网络的参数;根据所述特征向量,确定单词t的权重。本实施例中,可以发现头实体和尾实体之间的隐藏特征,因此得到上述的位置检测注意力机制。
在另一个实施例中,若所述关系预测模型无法预测所述实体对的关系类型,或者所述关系类型的概率对应的置信度小于预设值,则对待预测句子进行句子语义依存分析,得到实体对的关系类型。
具体的,句子语义依存分析主要用于在非特定类型模式下的匹配工作,为了提高句法依存分析的准确性,我们还在分词阶段将命名实体识别结果中的所有实体动态的添加到了用户自定义的词典中。图4显示了上述案例句子依存分析的结果。从图4可以很容易地发现,实体对(奥巴马,哈佛大学)的关系是(毕业于)。因为(毕业于)的句法依存分析结果是Root->(HED+CMP)。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种中文开放关系预测装置,包括:实体提取模块502和关系预测模块504,其中:
实体提取模块502,用于获取待预测句子中的命名实体,根据命名实体和所述待预测句子内容,构建实体对;所述实体对包括:头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容;
关系预测模块504,用于当所述头实体类型和所述尾实体类型与预设的类型模式匹配,则将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。
在其中一个实施例中,实体提取模块502还用于将待预测句子输入五级BIOSE标记系统,得到待预测句子的标记结果序列;根据所述标记结果序列,确定待预测句子中的命名实体。
在其中一个实施例中,实体提取模块502还用于根据所述标记结果序列,确定所述标记结果序列中排序靠前的命名实体为头实体,排序靠后的命名实体为尾实体;根据所述头实体的头实体类型和所述尾实体的尾实体类型,确定所述头实体和所述尾实体是否关联;若是,则保存为实体对,若否,则从预先设置的实体对列表中删除。
在其中一个实施例中,所述关系预测模型为基于BERT的Att-Bi-GRU模型。
在其中一个实施例中,关系预测模块504还用于将所述头实体、所述尾实体以及所述待预测句子内容输入所述Att-Bi-GRU模型,对所述头实体、所述尾实体以及所述待预测句子内容进行分词处理;将分词处理得到的单词进行BERT嵌入,得到每个单词对应的词向量;将所述词向量分别输入对应的Att-Bi-GRU网络,得到每个词向量的隐层状态;对所述隐层状态进行组合,并通过输出层输出所述实体对对应的关系类型。
在其中一个实施例中,关系预测模块504还用于确定单词t的特征向量为:
Figure BDA0002479161660000091
其中,hT表示特征向量,hi表示单词i对应的隐层状态,k表示总单词数;
αi=Awi+B
Figure BDA0002479161660000092
其中,set[head entity,tail entity]指的是位于头实体和位置之间的单词集合,A,B是网络的参数;根据所述特征向量,确定单词t的权重。
在其中一个实施例中,还包括:开放关系预测模块,用于若所述关系预测模型无法预测所述实体对的关系类型,或者所述关系类型的概率对应的置信度小于预设值,则对待预测句子进行句子语义依存分析,得到实体对的关系类型。
关于中文开放关系预测装置的具体限定可以参见上文中对于中文开放关系预测方法的限定,在此不再赘述。上述中文开放关系预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种中文开放关系预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种中文开放关系预测方法,所述方法包括:
获取待预测句子中的命名实体,根据命名实体和所述待预测句子内容,构建实体对;所述实体对包括:头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容;
当所述头实体类型和所述尾实体类型与预设的类型模式匹配,则将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。
2.根据权利要求1所述的方法,其特征在于,所述获取待预测句子中的命名实体,包括:
将待预测句子输入五级BIOSE标记系统,得到待预测句子的标记结果序列;
根据所述标记结果序列,确定待预测句子中的命名实体。
3.根据权利要求2所述的方法,其特征在于,根据命名实体和所述待预测句子内容,构建实体对,包括:
根据所述标记结果序列,确定所述标记结果序列中排序靠前的命名实体为头实体,排序靠后的命名实体为尾实体;
根据所述头实体的头实体类型和所述尾实体的尾实体类型,确定所述头实体和所述尾实体是否关联;
若是,则保存为实体对,若否,则从预先设置的实体对列表中删除。
4.根据权利要求1所述的方法,其特征在于,所述关系预测模型为基于BERT的Att-Bi-GRU模型。
5.根据权利要求4所述的方法,其特征在于,所述将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型,包括:
将所述头实体、所述尾实体以及所述待预测句子内容输入所述Att-Bi-GRU模型,对所述头实体、所述尾实体以及所述待预测句子内容进行分词处理;
将分词处理得到的单词进行BERT嵌入,得到每个单词对应的词向量;
将所述词向量分别输入对应的Att-Bi-GRU网络,得到每个词向量的隐层状态;
对所述隐层状态进行组合,并通过输出层输出所述实体对对应的关系类型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
确定单词t的特征向量为:
Figure FDA0002479161650000021
其中,hT表示特征向量,hi表示单词i对应的隐层状态,k表示总单词数;
αi=Awi+B
Figure FDA0002479161650000022
其中,set[head entity,tail entity]指的是位于头实体和位置之间的单词集合,A,B是网络的参数;
根据所述特征向量,确定单词t的权重。
7.根据权利要求1至6任一项所述的方法,其特征在于,在将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型之后,所述方法还包括:
若所述关系预测模型无法预测所述实体对的关系类型,或者所述关系类型的概率对应的置信度小于预设值,则对待预测句子进行句子语义依存分析,得到实体对的关系类型。
8.一种中文开放关系预测装置,其特征在于,所述装置包括:
实体提取模块,用于获取待预测句子中的命名实体,根据命名实体和所述待预测句子内容,构建实体对;所述实体对包括:头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容;
关系预测模块,用于当所述头实体类型和所述尾实体类型与预设的类型模式匹配,则将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型,得到待预测句子中头实体与尾实体的关系类型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010373305.2A 2020-05-06 2020-05-06 中文开放关系预测方法、装置、计算机设备和存储介质 Active CN111476035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010373305.2A CN111476035B (zh) 2020-05-06 2020-05-06 中文开放关系预测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010373305.2A CN111476035B (zh) 2020-05-06 2020-05-06 中文开放关系预测方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111476035A true CN111476035A (zh) 2020-07-31
CN111476035B CN111476035B (zh) 2023-09-05

Family

ID=71757420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010373305.2A Active CN111476035B (zh) 2020-05-06 2020-05-06 中文开放关系预测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111476035B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597299A (zh) * 2020-12-07 2021-04-02 深圳价值在线信息科技股份有限公司 文本的实体分类方法、装置、终端设备和存储介质
CN114510948A (zh) * 2021-11-22 2022-05-17 北京中科凡语科技有限公司 机器翻译译文检测方法、装置、电子设备及可读存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108228877A (zh) * 2018-01-22 2018-06-29 北京师范大学 基于学习排序算法的知识库补全方法及装置
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
US20190155898A1 (en) * 2017-11-23 2019-05-23 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and device for extracting entity relation based on deep learning, and server
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
US20190311038A1 (en) * 2017-02-22 2019-10-10 Huawei Technologies Co., Ltd. Translation method and apparatus
CN110377753A (zh) * 2019-07-01 2019-10-25 吉林大学 基于关系触发词与gru模型的关系抽取方法及装置
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
CN110633467A (zh) * 2019-08-29 2019-12-31 中国人民解放军国防科技大学 一种基于改进特征融合的语义关系抽取方法
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110852066A (zh) * 2018-07-25 2020-02-28 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN110991165A (zh) * 2019-12-12 2020-04-10 智器云南京信息科技有限公司 文本中人物关系提取方法及装置、计算机设备和存储介质
CN111026881A (zh) * 2019-12-11 2020-04-17 中国人民解放军国防科技大学 知识图谱中多跳实体关系预测方法和装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311038A1 (en) * 2017-02-22 2019-10-10 Huawei Technologies Co., Ltd. Translation method and apparatus
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
US20190155898A1 (en) * 2017-11-23 2019-05-23 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and device for extracting entity relation based on deep learning, and server
CN108228877A (zh) * 2018-01-22 2018-06-29 北京师范大学 基于学习排序算法的知识库补全方法及装置
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置
WO2019174422A1 (zh) * 2018-03-16 2019-09-19 北京国双科技有限公司 实体关联关系的分析方法及相关装置
CN110852066A (zh) * 2018-07-25 2020-02-28 清华大学 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
US20200073933A1 (en) * 2018-08-29 2020-03-05 National University Of Defense Technology Multi-triplet extraction method based on entity-relation joint extraction model
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN110377753A (zh) * 2019-07-01 2019-10-25 吉林大学 基于关系触发词与gru模型的关系抽取方法及装置
CN110597998A (zh) * 2019-07-19 2019-12-20 中国人民解放军国防科技大学 一种结合句法分析的军事想定实体关系抽取方法及装置
CN110427623A (zh) * 2019-07-24 2019-11-08 深圳追一科技有限公司 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN110633467A (zh) * 2019-08-29 2019-12-31 中国人民解放军国防科技大学 一种基于改进特征融合的语义关系抽取方法
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN111026881A (zh) * 2019-12-11 2020-04-17 中国人民解放军国防科技大学 知识图谱中多跳实体关系预测方法和装置
CN110991165A (zh) * 2019-12-12 2020-04-10 智器云南京信息科技有限公司 文本中人物关系提取方法及装置、计算机设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘显伟,陈洪辉,郭得科: "扩展信念网络模型的军事情报检索系统设计", 火力与指挥控制, vol. 36, no. 10 *
许晶航;左万利;梁世宁;王英;: "基于图注意力网络的因果关系抽取", 计算机研究与发展, no. 01 *
马语丹;赵义;金婧;万怀宇;: "结合实体共现信息与句子语义特征的关系抽取方法" *
马语丹;赵义;金婧;万怀宇;: "结合实体共现信息与句子语义特征的关系抽取方法", 中国科学:信息科学, no. 11, pages 71 - 83 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597299A (zh) * 2020-12-07 2021-04-02 深圳价值在线信息科技股份有限公司 文本的实体分类方法、装置、终端设备和存储介质
CN114510948A (zh) * 2021-11-22 2022-05-17 北京中科凡语科技有限公司 机器翻译译文检测方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111476035B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
Chang et al. Chinese named entity recognition method based on BERT
CN111506714B (zh) 基于知识图嵌入的问题回答
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
WO2021179570A1 (zh) 序列标注方法、装置、计算机设备和存储介质
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN112836051B (zh) 一种在线自学习的法院电子卷宗文本分类方法
Zhang et al. Deep autoencoding topic model with scalable hybrid Bayesian inference
CN113688631B (zh) 一种嵌套命名实体识别方法、系统、计算机和存储介质
CN110866107A (zh) 素材语料的生成方法、装置、计算机设备和存储介质
CN113139134B (zh) 一种社交网络中用户生成内容的流行度预测方法、装置
CN111782797A (zh) 一种科技项目评审专家自动匹配方法及存储介质
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN114330343B (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN112507124A (zh) 一种基于图模型的篇章级别事件因果关系抽取方法
CN111476035A (zh) 中文开放关系预测方法、装置、计算机设备和存储介质
CN118277573B (zh) 基于ChatGLM模型的院前急救文本分类标注方法、电子设备、存储介质及计算机程序产品
CN112287656A (zh) 文本比对方法、装置、设备和存储介质
CN113011461A (zh) 通过知识学习增强基于分类的软件需求跟踪链接恢复方法及电子装置
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
CN117251650B (zh) 地理热点中心识别方法、装置、计算机设备和存储介质
CN110867225A (zh) 字符级临床概念提取命名实体识别方法及系统
Yan et al. A deep active learning-based and crowdsourcing-assisted solution for named entity recognition in Chinese historical corpora

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant