CN111859858B

CN111859858B - 从文本中提取关系的方法及装置

Info

Publication number: CN111859858B
Application number: CN202010708770.7A
Authority: CN
Inventors: 熊杰; 刘奕志; 李飞阳; 王政英; 胡鸣鹤
Original assignee: Zhizhe Sihai Beijing Technology Co ltd
Current assignee: Zhizhe Sihai Beijing Technology Co ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2024-03-01
Anticipated expiration: 2040-07-22
Also published as: CN111859858A

Abstract

本公开提供了一种从文本中提取关系的方法，包括：使用文本标注模型产生所述文本的序列标注，所述序列标注包括针对所述文本中的字的标注，所述标注包括该字的实体标注和该字的关系角色，所述关系角色包括主语、谓语和宾语之一；根据所述序列标注，产生所述文本的实体关系序列；以及根据实体关系序列，提取所述文本的关系结果集。本公开提供的从文本中提取关系的方法及装置，能够有效解决现有技术中的关系提取方法存在的准确率低、通用性差且提取效率低的问题。

Description

从文本中提取关系的方法及装置

技术领域

本公开涉及计算机互联网技术领域，具体涉及一种从文本中提取关系的方法、装置、电子设备及计算机可读介质。

背景技术

目前从文本中提取关系的方法主要包括两类，一类是采用依存句法分析和模板匹配的方法，通过分析中文表达的范式来构造关系模板，然后对语句进行句法分析以发现匹配的模板，从而抽取出三元组；一类是采用无监督的方法，将关系抽取和外部知识图谱结合起来，从待抽取语料中抽取外部知识图谱中已存在的三元组。但是，依存句法分析和模板匹配的方法在处理长句时准确率低、且由于模板不容易扩展导致通用性较差；而基于无监督融合外部知识图谱的方法，需要进行较多的数据清洗和处理，抽取效率较低。因此，需要提供一种准确率高、通用性强且提取效率高的从文本中提取关系的方法。

发明内容

有鉴于此，本公开提供了一种从文本中提取关系的方法及装置，能够有效解决现有技术中的关系提取方法存在的准确率低、通用性差且提取效率低的问题。

下文中将给出关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。应当理解，此概述并不是关于本公开的穷举性概述。它并不是意图确定本公开的关键或重要部分，也不是意图限定本公开的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本公开的第一方面，提供了一种从文本中提取关系的方法，包括：

使用文本标注模型产生所述文本的序列标注，所述序列标注包括针对所述文本中的字的标注，所述标注包括该字的实体标注和该字的关系角色，所述关系角色包括主语、谓语和宾语之一；

根据所述序列标注，产生所述文本的实体关系序列；以及

根据实体关系序列，提取所述文本的关系结果集。

在一些实施例中，所述实体标注用于指示该字在所属实体中的位置，所述关系角色用于指示该字所属实体在所述文本中的关系角色。

在一些实施例中，根据所述序列标注，产生所述文本的实体关系序列，具体包括：将序列标注中相邻的属于同种关系角色的字根据实体标注组合为实体。

在一些实施例中，在所述实体关系序列中，至少两个实体具有相同的关系角色。

在一些实施例中，所述提取所述文本的关系结果集，具体包括：

按照所述实体关系序列中谓语从后向前的顺序，提取所述谓语对应的主语和/或宾语；以及将所提取的主语和/或宾语与所述谓语组合，得到所述文本的关系结果集。

进一步的，所述提取所述谓语对应的主语和/或宾语，具体包括：

初始化宾语集合为空；

从所述谓语向后遍历，若遇到非宾语则结束遍历，若遇到宾语且所述宾语未被使用过，则将所述宾语加入宾语集合，同时标注所述宾语被使用；

若宾语集合仍为空，则从所述谓语向前遍历，若遇到非宾语，则结束遍历，若遇到宾语且所述宾语未被使用过，则将所述宾语加入宾语集合，同时标注所述宾语被使用；

若宾语集合仍为空，则从所述谓语先向后再向前遍历，将遇到的第一个宾语加入宾语集合，同时标注所述宾语被使用并结束遍历；

初始化主语集合为空；

从所述谓语向后遍历，若遇到主语且所述主语未被使用过，则将所述主语加入主语集合，同时标注所述主语被使用；

若主语集合仍为空，则从所述谓语向前遍历，如果遇到主语，则将所述主语加入主语集合，同时标注所述主语被使用，当主语集合不为空且遇到非主语时，结束遍历。

在一些实施例中，所述文本标注模型包括：

文本字向量提取层，用于采用BERT模型提取文本的字向量；

词性向量提取层，用于将文本的词性标识转化为词性向量；

拼接层，用于将文本字向量与词性向量拼接，生成文本的表示向量；

双向LSTM编码层，用于对文本的表示向量进行处理，并输出至CRF层；

CRF层，用于处理双向LSTM编码层的输出结果，产生所述文本的序列标注。

根据本公开的第二方面，提供了一种从文本中提取关系的装置，包括：

序列标注生成单元，用于使用文本标注模型产生所述文本的序列标注，所述序列标注包括针对所述文本中的字的标注，所述标注包括该字的实体标注和该字的关系角色，所述关系角色包括主语、谓语和宾语之一；

实体关系序列生成单元，用于根据所述序列标注，产生所述文本的实体关系序列；以及

关系结果集抽取单元，用于根据实体关系序列，提取所述文本的关系结果集。

根据本公开的第三方面，提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如本公开第一方面提供的方法。

根据本公开的第四方面，提供了一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如本公开第一方面提供的方法。

本公开将文本关系提取转换为序列标注问题，有效解决了现有关系提取存在的准确率低、通用性差且提取效率低的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1是根据本公开实施例提供的一种文本标注模型的示意图。

图2是根据本公开实施例提供的一种从文本中提取关系的方法的流程图。

图3是根据本公开实施例提供的一种从文本中提取关系的装置的示意图。

图4是根据本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

下文中将结合附图对本公开的示例性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施例的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施例的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的装置结构，而省略了与本公开关系不大的其他细节。

应理解的是，本公开并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中，在可行的情况下，实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。

关系抽取任务是从无结构化或者半结构化的文本中抽取程序或机器能够理解的结构化知识，例如包括主语、谓语及宾语的三元组，其中谓语刻画了主语和宾语之间存在的关系。比如，“《战狼》的导演和主演都是吴某”，从中可以提取出的三元组包括：(战狼，导演，吴某)或者(战狼，主演，吴某)。关系抽取技术广泛应用在知识图谱构建，智能问答等领域。

目前，关系抽取任务主要可以分为两种，一种是固定关系抽取，一种是开放关系抽取。固定关系抽取是指关系类别的个数是确定的，关系模式是提前预定义好的，甚至每种关系类别对应的主语和宾语的类型也是确定的，例如关系类别“出生时间”，其主语类别为人物，宾语类别为日期时间；关系类别“导演”，其主语类别为影视作品，宾语类别为人物。开放关系抽取是指关系类别的个数是非确定的，关系模式是非预定义的。

目前，关系抽取主要集中在固定关系抽取上，通过预定的关系类别和关系模式，抽取三元组。固定关系抽取的技术路线分为两种，一种是流水线的方式，先使用一个模型识别主语和宾语，然后关系抽取模型根据句子语义判断给定的主语和宾语所属的关系类别；另一种是主语和宾语的识别以及关系类别的判断统一由一个关系抽取模型负责。但是，采用流水线的方式进行关系抽取时，将一个任务分成了多个步骤，后续步骤依赖于前一个步骤的结果，每个步骤都存在信息损失，从而导致最终效果较差；此外，预定义关系抽取模型很难完全考虑到未来的变更，添加新的关系类别需要重新构造数据，重训模型，关系扩展成本较大。

开放关系抽取的技术路线可以分为两类。一种采用依存句法分析和模板匹配的方法，该方法通过分析中文表达的范式，构造出一些关系模板，然后对语句进行句法分析以发现适配的模板，从而抽取出三元组关系。另外一种是采用无监督或者远程监督的方法，将关系抽取和外部知识图谱结合起来，从待抽取语料中抽取图谱中已存在的三元组或其他关系。但是，依存句法分析和模板匹配的方法在处理长句时准确率低、且由于模板不容易扩展导致通用性较差；而基于无监督融合外部知识图谱的方法，需要进行较多的数据清洗和处理，抽取效率较低。

为了解决上述问题，本公开将关系抽取转变为序列标注问题，可以在不限定关系类别的情况下，从非结构化的文本中抽取结构化的知识。

首先，本公开实施例提供了一种能够将文本转换为序列标注的文本标注模型，下面对本公开实施例提供的一种文本标注模型进行具体介绍。

图1示出了根据本公开实施例提供的一种文本标注模型100的示意图，包括文本字向量提取层101、词性向量提取层102、拼接层103、双向LSTM(Long Short-Term Memory,长短期记忆网络)编码层104以及CRF(Conditional Random Field，条件随机场)层105。

本公开实施例中，可以将某一预处理文本输入文本字向量提取层101，文本字向量提取层101中包括BERT模型，采用BERT模型提取出文本的字向量。

本公开实施例中，文本字向量提取层101中可以预存有与每个字一一对应的字符ID。文本字向量提取层101采用BERT模型提取出预处理文本的字向量，可以是首先将预处理文本中的字转化为字符ID，BERT模型对字符ID进行向量化。本公开实施例中，例如，将“徐某导演泰囧”这一文本输入文本字向量提取层101，文本字向量提取层101可以先将“徐某导演泰囧”这一预处理文本中的每个汉字转化为对应的字符ID，例如，将“徐某导演泰囧”中的六个汉字分别对应到字符ID“1”、“2”、“3”、“4”、“5”、“6”，然后BERT模型对字符ID“1”、“2”、“3”、“4”、“5”、“6”进行向量化，得到与预处理文本“徐某导演泰囧”中每个汉字对应的m₁维度的向量E_徐、E_某、E_导、E_演、E_泰、E_囧。本公开实施例中，所述维度m₁的数值可以是768。

词性向量提取层102用于将前述预处理文本的词性标识转化为词性向量。本公开实施例中，可以将文本中的每个字对应的BIOES标签(替代的，BIO标签)与词性标签的组合对应于词性标识。其中BIOES标签用于表示当前的字是实体的开始(Begin)、结束(End)、中间(In)、外部(Outside)或者单字成词(Single)。词性标签可以是能够代表当前字的词性的标签，常见的词性标签包括n、u或者v等，其中n代表名词、u代表助词、v代表动词，更进一步的，名词词性标签还可以包括nr、ns、nt、nw、nz等，其中nr代表人名、ns代表地名、nt代表组织机构名、nw代表作品、nz代表其他专有名词。需要注意的是，本公开实施例中所述词性并不局限于上述几类。

本公开实施例中，可以是事先将预处理文本输入词性标识识别模型，通过词性标识识别模型的处理获取到与预处理文本对应的词性标识后，将词性标识输入本公开实施例提供的文本标注模型100的词性向量提取层102。例如，将“徐某导演泰囧”这一预处理文本输入词性标识识别模型，则得到“徐某导演泰囧”中的六个字分别对应的词性标识B-nr、E-nr、B-v、E-v、B-nz、B-nz，然后将词性标识B-nr、E-nr、B-v、E-v、B-nz、B-nz输入文本标注模型100的词性向量提取层102。

本公开实施例中，也可以在文本标注模型100的词性向量提取层102内设置词性标识识别单元，此时，不需要在文本标注模型100外对待处理文本进行提前处理，即可直接将待处理文本输入词性向量提取层102。通过词性向量提取层102内的词性标识识别单元获取到与预处理文本对应的词性标识后，再进行下一步处理。

本公开实施例中，词性向量提取层102中可以预存有与每个字的词性标识一一对应的词性ID，以及与每一词性ID一一映射的词性向量，其中，与每一词性ID一一映射的词性向量，可以是在输入语料对文本标注模型100进行训练的过程中通过学习得到。

进一步的，本公开实施例中，词性向量提取层102可以在获取到预处理文本的词性标识后，将预处理文本中每个字的词性标识转化为对应的词性ID，之后提取与每一词性ID对应的词性向量。例如，将“徐某导演泰囧”中的六个字对应的词性标识B-nr、E-nr、B-v、E-v、B-nz、B-nz分别转化为对应的词性ID“1”、“2”、“3”、“4”、“5”、“6”，然后词性向量提取层102提取出与每一词性ID“1”、“2”、“3”、“4”、“5”、“6”分别对应的词性向量E_B-nr、E_E-nr、E_B-v、E_E-v、E_B-nz、E_B-nz。

拼接层103将所述预处理文本的文本字向量和词性向量拼接起来，得到所述预处理文本的表示向量。具体的，可以将所述预处理文本中每个字对应的向量与词性向量进行拼接。例如，在预处理文本为“徐某导演泰囧”时，将该预处理文本中每个字对应的向量E_徐、E_某、E_导、E_演、E_泰、E_囧与词性向量E_B-nr、E_E-nr、E_B-v、E_E-v、E_B-nz、E_B-nz进行一一拼接，可以得到预处理文本中每个字的表示向量。具体的，若预处理文本中“徐”字对应的向量E_徐为(a,b,c)，对应的词性向量E_B-nr为(d,e)，则将向量E_徐与词性向量E_B-nr拼接后得到“徐”字的表示向量为(a,b,c,d,e)，类似的，可以采用同样的拼接方法得到待处理文本中其他字的表示向量。

本公开实施例中，由于需要充分考虑整句对字的关系角色的影响，因此可以在拼接层103后接一个双向LSTM单元104，双向LSTM单元104可以充分考虑整句的内容，从而提高文本标注的准确率。

本公开实施例中，可以在双向LSTM单元104之后接一个CRF层105，CRF层105可以充分考虑当前字所在位置附近的字的关系角色信息，从而修补部分字的关系角色判断不一致的情况。

本公开实施例中，将预处理文本的表示向量依次通过双向LSTM单元104及CRF层105进行处理后，输出预处理文本的序列标注。例如，当预处理文本为“徐某导演泰囧”时，输出的序列标注为(B-SUBJECT、E-SUBJECT、B-PREDICATE、E-PREDICATE、B-OBJECT、E-OBJECT)。

本公开实施例提供的文本标注模型100可以将待处理文本转化为序列标注，实际使用中，在应用文本标注模型100之前需要通过训练语料对该模型进行训练，从而使其产生将输入的待处理文本转化为序列标注的能力。

本公开实施例可以通过采用远程监督的方法构建训练语料。具体的，可以取知识库中关系类别为“描述”的三元组的宾语作为待标注文本，从知识库中剩下的三元组中过滤掉部分三元组后，再取知识库中剩下的三元组作为外部知识，将外部知识与待标注文本对齐，生成待标注文本的标注序列，将待标注文本的标注序列作为训练语料，输入文本标注模型100对其进行训练。

本公开实施例中，所述知识库可以是思知知识图谱或其他通用领域知识图谱，本公开对此不作限定。

本公开实施例中，所述从知识库中剩下的三元组中过滤掉部分三元组，可以包括，过滤掉知识库中一些不适合作为外部知识的三元组，例如关系类别为“标签”、“歧义关系”、“歧义权重”等的三元组，以及主语和宾语相同的三元组。

本公开实施例中，所述将外部知识与待标注文本对齐，具体是指待标注文本需要包括外部知识三元组中的主语、谓语、宾语，从而实现待标注文本与外部知识中的三元组的匹配。然后结合BIOES标签，生成待标注文本的标注序列。

本公开实施例中，例如，知识库中的原始三元组数据可以包括：(《打勾勾》,描述,《打勾勾》是范某演唱的歌曲，现已发行)；(《打勾勾》,中文名,《打勾勾》)；(《打勾勾》,演唱,范某)；(《打勾勾》,音乐公司,福茂唱片)；(《打勾勾》,地区,中国)；(《打勾勾》,语言,中文)；(《打勾勾》,所属专辑,《我们的纪念日》)；(《打勾勾》,标签,音乐作品)；(《打勾勾》,标签,单曲)；(《打勾勾》,标签,专辑)；(《打勾勾》,音乐风格,情歌)；(打勾勾,歧义关系,打勾勾[范某演唱歌曲])；(打勾勾[范某演唱歌曲],歧义权重,4692)；(打勾勾,歧义关系,打勾勾[陈某演唱歌曲])；(打勾勾[陈某演唱歌曲],歧义权重,2721)；(打勾勾,歧义关系,打勾勾[陈某某演唱歌曲])；(打勾勾[陈某某演唱歌曲],歧义权重,2957)；(打勾勾,歧义关系,打勾勾[田某歌曲])；(打勾勾[田某歌曲],歧义权重,1023)；(打勾勾,歧义关系,打勾勾[李某某演唱歌曲])；(打勾勾[李某某演唱歌曲],歧义权重,113)；(与你打勾勾,歧义关系,与你打勾勾)；(与你打勾勾,歧义权重,60)。

此处可以取三元组(《打勾勾》,描述,《打勾勾》是范某演唱的歌曲，现已发行)中的宾语“《打勾勾》是范某演唱的歌曲，现已发行”作为待标注文本。过滤掉关系类别为“标签”、“歧义关系”、“歧义权重”的三元组后，取剩下的三元组作为外部知识与待标注文本“《打勾勾》是范某演唱的歌曲，现已发行”对齐，具体可以是寻找外部知识中能够与待标注文本“《打勾勾》是范某演唱的歌曲，现已发行”进行匹配的三元组。本公开实施例中，三元组(《打勾勾》,演唱,范某)能够与待标注文本进行匹配，因此，将待标注文本“《打勾勾》是范某演唱的歌曲，现已发行”中的“《打勾勾》”标注为主语，“范某”标注为宾语，“演唱”标注为谓语，并结合BIOES标签，得到待标注文本“《打勾勾》是范某演唱的歌曲，现已发行”的标注序列为("O","B-SUBJECT","I-SUBJECT","E-SUBJECT","O","O","B-OBJECT","I-OBJECT","E-OBJECT","B-PREDICATE","E-PREDICATE","O","O","O","O","O","O","O","O")，并进一步将该待标注文本及其对应的标注序列作为训练语料输入文本标注模型100进行训练。

由于在生成待标注文本的标注序列的过程中会产生较大的噪音，因此本公开还提供了如下降噪的方法：

本公开实施例中，在将外部知识与待标注文本对齐，生成待标注文本的标注序列之后，还可以包括：统计与任一三元组对齐的待标注文本的数量，若与某一三元组对齐的待标注文本的数量超过一预设值，则过滤掉与所述三元组对齐的待标注文本的标注序列。例如，思知知识图谱中与(耳机，佩戴方式，头戴式)这一三元组对应的待标注文本可以包括“天龙ah-d340，是一款动圈耳机，佩戴方式为头戴式”、“天脉wh300无线时尚耳机，佩戴方式为头戴式”、“索尼mdr-ds7500，是一款耳机，佩戴方式为头戴式”等多个。本公开实施例中，当与某一三元组对齐的待标注文本的数量超过一个预设值，例如20，则过滤掉与所述三元组对齐的待标注文本的标注序列。需要注意的是，本公开实施例不对该预设值进行具体限定，本领域技术人员可以根据实际需要，选择合适的预设值。本公开实施例通过该方法，可以过滤掉泛化性太强的三元组对应的待标注序列，从而降低出现错误标注的概率。

本公开实施例中，在将外部知识与待标注文本对齐，生成待标注文本的标注序列之后，还可以包括：筛查对齐的三元组与待标注文本，若某一三元组存在一个语义角色的开始位置为英文或数字，且所述语义角色在待标注文本中的前一位置也为英文或数字，或，若某一三元组存在一个语义角色的结束位置为英文或数字，且所述语义角色在待标注文本中的后一位置也为英文或数字，则过滤掉与该三元组对应的所述待标注文本的标注序列。例如，待标注文本为“华为Mate30的上市时间是2018年”，(华为Mate，上市时间，2018年)是能够与该待标注文本匹配的一个三元组，该三元组中主语“华为Mate”的结束位置为英文，且“华为Mate”在待标注文本“华为Mate30的上市时间是2018年”中的后一位置字符为“30”，即该主语在待标注文本中的后一位置也为数字，则可以过滤掉与三元组(华为Mate，上市时间，2018年)对应的待标注文本的标注序列。通过该方法，可以避免采用错误的三元组与待标注文本进行匹配，从而避免对待标注文本进行错误标注，达到降噪的目的。

在应用前述训练语料对文本标注模型进行训练的基础上，得到能够对待标注文本直接进行序列标注的文本标注模型100。基于所述文本标注模型100，本公开实施例还提供了一种从文本中提取关系的方法。

下面对本公开实施例提供的一种从文本中提取关系的方法进行说明。图2示出了根据本公开实施例提供的一种从文本中提取关系的方法的流程图。该方法具体包括：

步骤210：使用文本标注模型产生所述文本的序列标注，所述序列标注包括针对所述文本中的字的标注，所述标注包括该字的实体标注和该字的关系角色，所述关系角色包括主语、谓语和宾语之一。

此处，所述实体标注用于指示该字在所述实体中的位置，本公开实施例中，所述实体标注，例如，可以是BIOES标签(替代的，BIO标签)，BIOES标签用于表示当前的字是实体的开始(Begin)、结束(End)、中间(In)、外部(Outside)或者单字成词(Single)。所述关系角色包括主语(Subject)、谓语(Predicate)和宾语(Object)之一。

本公开实施例中，例如，当输入文本标注模型的文本为“徐某导演泰囧”时，输出的序列标注为(B-SUBJECT、E-SUBJECT、B-PREDICATE、E-PREDICATE、B-OBJECT、E-OBJECT)，其中“徐”字的标注为“B-SUBJECT”，B为该字的实体标注，指代“徐”字是“徐某”这一实体的开始，SUBJECT为该字的关系角色，指代“徐”字在该文本中的关系角色为主语。

步骤220：根据所述序列标注，产生所述文本的实体关系序列。

本公开实施例中，根据所述序列标注，产生所述文本的实体关系序列，具体可以是，将序列标注中相邻的属于同种关系角色的字根据实体标注组合为实体。例如，文本“徐某导演泰囧”的序列标注为(B-SUBJECT、E-SUBJECT、B-PREDICATE、E-PREDICATE、B-OBJECT、E-OBJECT)，其中“徐”字和“某”字的关系角色均为主语，且“徐”字的实体标注为B，指代其是实体的开始，“某”字的实体标注为E，指代其是实体的结束，因此将“徐”和“某”两个字组合为“徐某”这一实体，且该实体在文本中的关系角色为主语。类似的，可以将“导”和“演”两个字组合为“导演”这一实体，且该实体在文本中的关系角色为谓语；可以将“泰”和“囧”两个字组合为“泰囧”这一实体，且该实体在文本中的关系角色为宾语。从而，由文本“徐某导演泰囧”的序列标注(B-SUBJECT、E-SUBJECT、B-PREDICATE、E-PREDICATE、B-OBJECT、E-OBJECT)，得到该文本的实体关系序列(S:徐某，P：导演，O：泰囧)。

本公开实施例提供的以上示例得到的实体关系序列，每一实体的关系角色均不相同，即每一关系角色仅对应有一个实体。

本公开实施例，对其他待处理文本进行关系提取，还可以得到至少两个实体具有相同的关系角色的实体关系序列。例如，当文本为“《英雄》是由张某导演，李某，梁某主演的电影”时，得到的实体关系序列为(S:《英雄》，O₁:张某，P₁:导演，O₂：李某，O₃：梁某，P₂：主演)，其中“导演”和“主演”两个实体的关系角色均为谓语，“张某”、“李某”、“梁某”三个实体的关系角色均为宾语；当文本为“《战狼1》和《战狼2》的主演都是吴某”时，得到的实体关系序列为(S₁:《战狼1》，S₂:《战狼2》，P:主演，O：吴某)，其中“《战狼1》”和“《战狼2》”两个实体的关系角色均为主语。

步骤230：根据实体关系序列，提取所述文本的关系结果集。

本公开实施例中，根据实体关系序列，提取所述文本的关系结果集，具体可以是，按照所述实体关系序列中谓语从后向前的顺序，提取所述谓语对应的主语和/或宾语；以及将所提取的主语和/或宾语与所述谓语组合，得到所述文本的关系结果集。本公开实施例中，所述关系结果集可以是三元组集。

本公开实施例中，提取所述谓语对应的主语和/或宾语，具体可以是：

初始化宾语集合为空，开始找宾语；

若在进行上一步后，宾语集合仍为空，则从所述谓语向前遍历，若遇到非宾语，则结束遍历，若遇到宾语且所述宾语未被使用过，则将所述宾语加入宾语集合，同时标注所述宾语被使用；

若在进行上一步后，宾语集合仍为空，则从所述谓语先向后再向前遍历，将遇到的第一个宾语加入宾语集合，同时标注所述宾语被使用并结束遍历；

初始化主语集合为空，开始找主语；

本公开实施例中，例如，在实体关系序列为(S:徐某，P：导演，O：泰囧)时，由于该实体关系序列中，主语、谓语、宾语仅有一个，因此提取出与该谓语“导演”对应的主语“徐某”和宾语“泰囧”，然后将主语“徐某”与谓语“导演”及宾语“泰囧”组合，得到与文本“徐某导演泰囧”对应的三元组(徐某，导演，泰囧)，该三元组即为从文本“徐某导演泰囧”中提取出的关系结果。

本公开实施例中，例如，在实体关系序列为(S:《英雄》，O₁:张某，P₁:导演，O₂：李某，O₃：梁某，P₂：主演)时，由于谓语有“导演”和“主演”两个，按照谓语从后向前的顺序，先提取谓语“主演”对应的主语和宾语，得到谓语“主演”对应的主语集合(“《英雄》”)及宾语集合(“李某”，“梁某”)，将该谓语“主演”与对应的主语集合及宾语集合中的主语和宾语进行组合，可以得到三元组集((《英雄》，主演，李某)，(《英雄》，主演，梁某))；之后，提取谓语“导演”对应的主语和宾语，得到谓语“导演”对应的主语集合(“《英雄》”)及宾语集合(“张某”)，将该谓语“导演”与对应的主语集合及宾语集合中的主语和宾语进行组合，可以得到三元组集((《英雄》，导演，张某))，则从所述文本“《英雄》是由张某导演，李某，梁某主演的电影”中提取出的关系结果集为((《英雄》，主演，李某)，(《英雄》，主演，梁某)，(《英雄》，导演，张某))。

基于以上从文本中提取关系的方法，本公开实施例还提供了一种从文本中提取关系的装置。

下面对本公开实施例提供的一种从文本中提取关系的装置进行说明。图3示出了根据本公开实施例提供的一种从文本中提取关系的装置300的示意图。该装置具体包括：

序列标注生成单元301，用于使用文本标注模型产生所述文本的序列标注，所述序列标注包括针对所述文本中的字的标注，所述标注包括该字的实体标注和该字的关系角色，所述关系角色包括主语、谓语和宾语之一；

实体关系序列生成单元302，用于根据所述序列标注，产生所述文本的实体关系序列；以及

关系结果集抽取单元303，用于根据实体关系序列，提取所述文本的关系结果集。

本公开实施例提供的从文本中提取关系的方法及装置，不需要使用预定义语言模板来识别待处理文本，对长句、结构复杂的语句仍有较好的关系提取能力；其次，本公开实施例使用远程监督的方法生成训练语料，并采用降噪后的训练语料对序列标注模型进行训练，相比无监督的关系提取方法具有更高的准确率。

本公开实施例提供的从文本中提取关系的方法及装置，主要面向开放关系提取，需要注意的是，本公开实施例提供的从文本中提取关系的方法及装置，同样也可以适用于固定关系提取。

图4示出了根据本公开实施例提供的电子设备400的结构示意图。如图4所示，电子设备400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有电子设备操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，包括承载指令的在计算机可读介质，在这样的实施例中，该指令可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该指令被中央处理单元(CPU)401执行时，执行本发明中描述的各个方法步骤。

以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并非局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围内。

Claims

1.一种从文本中提取关系的方法，包括：

根据所述序列标注，产生所述文本的实体关系序列；以及

根据实体关系序列，按照所述实体关系序列中谓语从后向前的顺序，提取所述谓语对应的主语和/或宾语，包括：

初始化宾语集合为空；

初始化主语集合为空；

若主语集合仍为空，则从所述谓语向前遍历，如果遇到主语，则将所述主语加入主语集合，同时标注所述主语被使用，当主语集合不为空且遇到非主语时，结束遍历；以及

将所提取的主语和/或宾语与所述谓语组合，得到所述文本的关系结果集。

2.如权利要求1所述的方法，其中，

所述实体标注用于指示该字在所属实体中的位置，所述关系角色用于指示该字所属实体在所述文本中的关系角色。

3.如权利要求1所述的方法，其中，根据所述序列标注，产生所述文本的实体关系序列，具体包括：

将序列标注中相邻的属于同种关系角色的字根据实体标注组合为实体。

4.如权利要求1所述的方法，其中，在所述实体关系序列中，至少两个实体具有相同的关系角色。

5.如权利要求1所述的方法，其中，所述文本标注模型包括：

文本字向量提取层，用于采用BERT模型提取文本的字向量；

词性向量提取层，用于将文本的词性标识转化为词性向量；

6.一种从文本中提取关系的装置，包括：

关系结果集抽取单元，用于根据实体关系序列，按照所述实体关系序列中谓语从后向前的顺序，提取所述谓语对应的主语和/或宾语，包括：

初始化宾语集合为空；

初始化主语集合为空；

7.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至5中任一项所述的方法。

8.一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如权利要求1至5中任一项所述的方法。