CN110059320A

CN110059320A - 实体关系抽取方法、装置、计算机设备和存储介质

Info

Publication number: CN110059320A
Application number: CN201910330470.7A
Authority: CN
Inventors: 王安然; 郑孙聪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-07-26
Anticipated expiration: 2039-04-23
Also published as: CN110059320B

Abstract

本申请涉及一种实体关系抽取方法、装置、计算机设备和存储介质。所述方法包括：获取文本，识别所述文本中的实体；所述实体包括第一实体和第二实体；在所述文本中对所述实体进行标记；利用预训练语言模型对标记后的文本进行编码，得到第一实体编码向量以及第二实体编码向量；利用所述第一实体编码向量以及所述第二实体编码向量生成实体对标记向量；对所述实体对标记向量进行分类，得到所述第一实体与第二实体之间的关系类别。采用本方法能够直接利用预训练语言模型进行有效的实体关系抽取。

Description

实体关系抽取方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种实体关系抽取方法、装置、计算机设备和存储介质。

背景技术

在无结构的自然语言文本中，存在一些非结构化的关系信息。在文本中抽取实体之间的关系信息，有助于实体之间的关系分析。在抽取关系信息时，需要对文本中的实体对构造特征。在传统的方式中，大多是采用预训练语言模型获取实体的特征表达再进行分类。预训练语言模型虽然在句子分类和序列标注任务上都取得了不错的效果，但是关系抽取不同于句子分类以及序列标注任务。关系抽取需要在给到给定文本的情况下，对文本的实体进行分类。单纯的句子分类方法无法实现对一个句子中出现的多个实体关系的抽取，序列标注方法也无法表达两个实体的类别关系。因此，目前并没有一种合适的方法通过预训练语言模型直接实现关系抽取。

发明内容

基于此，有必要针对上述技术问题，提供一种能够直接利用预训练语言模型进行有效关系抽取的实体关系抽取方法、装置、计算机设备和存储介质。

一种实体关系抽取方法，所述方法包括：

获取文本，识别所述文本中的实体；所述实体包括第一实体和第二实体；

在所述文本中对所述实体进行标记；

利用预训练语言模型对标记后的文本进行编码，得到第一实体编码向量以及第二实体编码向量；

利用所述第一实体编码向量以及所述第二实体编码向量生成实体对标记向量；

对所述实体对标记向量进行分类，得到所述第一实体与第二实体之间的关系类别。

一种实体关系抽取装置，其特征在于，所述装置包括：

获取模块，用于获取文本，识别所述文本中的实体；所述实体包括第一实体和第二实体；

标记模块，用于在所述文本中对所述实体进行标记；

编码模块，用于利用预训练语言模型对标记后的文本进行编码，得到第一实体编码向量以及第二实体编码向量；利用所述第一实体编码向量以及所述第二实体编码向量生成实体对标记向量；

分类模块，用于对所述实体对标记向量进行分类，得到所述第一实体与第二实体之间的关系类别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

在所述文本中对所述实体进行标记；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

在所述文本中对所述实体进行标记；

上述实体关系抽取方法、装置、计算机设备和存储介质，在识别文本中的实体后，将其中的第一实体与第二实体组成实体对。在文本中对第一实体、第二实体分别进行标记，通过预训练语言模型对标记后的文本进行编码，可以得到第一实体编码向量以及第二实体编码向量，由此能够利用第一实体编码向量与第二实体编码向量生成相应的实体对标记向量。由于实体对标记向量中包含了第一实体、第二实体的表征信息，由此在对实体对标记向量进行分类后，能够得到第一实体与第二实体之间的关系类别。由此实现了直接利用预训练语言模型对文本中的实体进行关系抽取。

附图说明

图1为一个实施例中实体关系抽取方法的应用场景图；

图2为一个实施例中实体关系抽取方法的流程示意图；

图3为一个实施例中在文本中对实体进行标记步骤的流程示意图；

图4为一个实施例中利用第一实体编码向量以及第二实体编码向量生成实体对标记向量步骤的流程示意图；

图5为一个实施例中基于预训练语言模型的关系抽取模型图；

图6为一个实施例中实体关系抽取装置的结构框图；

图7为一个实施例中计算机设备的内部结构图；

图8为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的实体关系抽取方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种实体关系抽取方法，该方法应用于图1中的终端，也可以应用于服务器，以该方法应用于服务器为例进行说明，包括以下步骤：

步骤202，获取文本，识别文本中的实体；实体包括第一实体和第二实体。

终端可以向服务器上传实体关系抽取请求，服务器根据实体关系抽取请求生成对应的关系抽取任务。服务器也可以根据预先配置的信息，生成关系抽取任务。关系抽取任务中包括第一实体以及对应的文本属性信息。文本属性信息中可以包括文本名称、文本路径或者文本链接等。服务器可以根据文本标识可以在数据库中获取相应的文本。服务器也可以根据文本链接在网络中爬取相应的文本内容。

文本可以包括一个，也可以包括多个。多个是指两个或两个以上。服务器在文本中识别实体，识别到的实体中包括第一实体以及其他实体，其他实体可以笼统的称为第二实体。其中，第二实体可以是一个，也可以是两个或两个以上。

以新闻分析为例，关系抽取任务中携带的第一实体可以是人物名称(简称人名)。文本中包括除了第一实体之外的其他实体(即其他人名)。其他实体可以笼统的称为第二实体。服务器可以将抽取到其他实体分别与第一实体两两组对，形成实体对，服务器根据实体对在文本中抽取第一实体与第二实体之间的关系。

步骤204，在文本中对实体进行标记。

服务器可以利用标记符对文本中的第一实体与第二实体分别进行标记。为了有效区分实体，不同实体可以采用不同的标记符。其中，第一实体对应的标记符可以称为第一标记符，第二实体对应的标记符可以称为第二标记符。服务器可以识别实体在文本中的位置，即实体位置，根据实体位置插入与实体对应的标记符进行标记。

具体的，服务器可以识别第一实体在文本中的位置，该位置可以称为第一实体位置。服务器识别第二实体在文本中的位置，该位置称为第二实体位置。第一实体可以在文本中对应一个或多个第一实体位置。第二实体也可以在文本中对应一个或多个第二实体位置。服务器将第一标记符插入文本中的第一实体位置，将第二标记符插入文本中的第二实体位置，以此对文本中的第一实体和第二实体分别进行表征。

步骤206，利用预训练语言模型对标记后的文本进行编码，得到第一实体编码向量以及第二实体编码向量。

预训练语言模型可以是使用自然语言文本作为训练语料，通过对神经网络语言模型进行预训练后所得到的神经网络语言模型。本实施例中，预训练语言模型可以采用BERT(Bidirectional Encoder Representation from Transformers)模型。BERT模型是由12层双向的Transformer(一种编码器)构造的一个编码器，通过大量的语料预训练所构造的语言模型。

在传统的关系抽取方式中，是利用预训练语言模型获取的词向量作为文本中单词的特征表达，但是词向量仅仅利用了预训练语言模型的一层神经网络的模型参数，并没有有效利用完整的预训练语言模型。

本实施例中，服务器利用预训练语言模型利用所有的神经网络层对标记后的文本的每个字符进行编码，生成字符编码向量。其中，字符编码向量中包含了上下文的信息。具体的，预训练语言模型采用BERT模型。服务器利用BERT模型的第一层Transformer对标记后的文本的每个字符进行编码，将第一层的字符编码向量传输至第二层Transformer，由第二层Transformer继续进行编码，直至最后一层Transformer完成编码，得到字符的最终编码向量，也称为字符编码向量。在编码过程中，BERT模型可以利用每一层Transformer的模型参数对字符进行编码，充分利用了BERT模型的每一层Transformer的模型参数，能够有效提高关系抽取的性能。

步骤208，利用第一实体编码向量以及第二实体编码向量生成实体对标记向量。

在传统方式中对句子进行分类时，只是对句子进行标记，BERT模型是对整个句子进行编码，得到的是整个句子的编码向量，但是无法识别句子中所包含的实体编码向量。由此使得BERT模型不能直接用于实体关系抽取。

本实施例中，第一实体与第二实体可以组成实体对。通过对文本中的实体进行标记，服务器能够根据第一标记符可以在多个字符编码向量中提取第一实体编码向量，以及根据第二标记符在多个字符编码向量中提取第二实体编码向量。服务器根据第一实体编码向量与第二实体编码向量进行拼接，得到拼接后的实体编码向量。服务器获取预训练语言模型的模型参数，通过拼接后的实体编码向量与模型参数确定与第一实体和第二实体对应得实体对标记向量，以此得到关系抽取所需的实体对标记向量。

步骤210，对实体对标记向量进行分类，得到第一实体与第二实体之间的关系类别。

服务器上预先存储了用于识别关系类别的关系文件，关系文件中记录了多种关系类别。以实体为人物名称为例，关系类别可以包括父母、子女、夫妻、兄弟、同学等。服务器将实体对标记向量作为分类器的输入，通过分类器对实体对标记向量进行运算，得到相应的关系向量。服务器将关系向量映射至关系文件中，可以得到第一实体与第二实体之间的关系类别。

例如，关系文件中记录了13种关系类别，则关系向量可以是13维，即关系向量的维度与关系类别的数量相同。关系向量可以采用1、0来表示，其中，1表示属于与其维度对应的关系类别，0表示不属于与其维度对应的关系类别。如果关系向量中所有的数字均为0，则表示第一实体与第二实体之间没有关系。如果关系向量中存在1，则根据其维度可以确定第一实体与第二实体之间的关系类别。

可以理解，如果文本中包括多个与第一实体不同的其他实体，服务器可以采用上述方式将第一实体与其他实体组成实体对，生成相应的实体对标记向量。将实体对标记向量作为分类器的输入，通过分类器对实体对进行分类，以此识别第一实体与其他实体之间的关系类别。

本实施例中，在识别文本中的实体后，将其中的第一实体与第二实体组成实体对。在文本中对第一实体、第二实体分别进行标记，通过预训练语言模型对标记后的文本进行编码，可以得到第一实体编码向量以及第二实体编码向量，由此能够利用第一实体编码向量与第二实体编码向量生成相应的实体对标记向量。由于实体对标记向量中包含了第一实体、第二实体的表征信息，由此在对实体对标记向量进行分类后，能够得到第一实体与第二实体之间的关系类别。由此实现了直接利用预训练语言模型对文本中的实体进行关系抽取。

在一个实施例中，如图3所示，在文本中对实体进行标记的步骤包括：

步骤302，识别实体在文本中的实体位置，实体位置包括起始位置和结束位置。

步骤304，在起始位置插入起始标记符，以及在结束位置插入结束标记符。

步骤306，利用起始标记符与结束标记符在文本中标记实体。

本实施例中，服务器可以利用NER((Named Entity Recognition,简称NER，命名实体识别)在文本中识别相应的实体以及实体位置。实体包括至少一个字符，大多数实体具有两个以及两个以上的字符。为了准确区分实体，服务器可以将实体前面一个字符位置作为实体的起始位置，将实体后面一个字符位置作为实体的结束位置。起始位置和结束位置可以统称为实体位置。第一实体位置的起始位置可以称为第一起始位置，第一实体位置的结束位置可以称为第一结束位置。同一个实体可以出现在文本中不同的位置，同一实体可以具有多个实体位置。对于第一实体而言，其实体位置都可以统称为第一实体位置，对第二实体而言，其实体位置都可以统称为第二实体位置。

为了准确标记一个实体，服务器可以采用不同的标记符在文本中标记实体。其中，服务器在起始位置插入起始标记符，在结束位置插入结束标记符，即在实体的前后分别插入起始标记符和结束标记符，由此利用起始标记符与结束标记符识别一个实体。

对于不同的实体，服务器可以采用不同的标记符。服务器可以在第一起始位置插入与第一实体对应的第一起始标记符，以及在第一结束位置插入与第一结束标记符。服务器可以在第二起始位置插入与第二实体对应的第二起始标记符，以及在第二结束位置插入与第二结束标记符。由此可以通过第一起始标记符、第一结束标记符对第一实体进行准备标记，通过第二起始标记符、第二结束标记符对第二实体进行准确标记。

在一个实施例中，利用预训练语言模型对标记后的文本进行编码包括：利用预训练语言模型对起始标记符进行编码，得到起始符编码向量；利用预训练语言模型对结束符进行编码，得到结束符编码向量；根据实体对应的起始标记符与结束标识符，利用相应的起始符编码向量与结束符编码向量表征实体编码向量。

预训练语言模型对标记后的文件进行编码时，对标记后的文本中所有的字符进行编码，其中包括对插入文本中的标记符进行编码。由于在实体前后分别插入了起始标记符和结束标记符，在经过预训练语言模型编码后，可以得到起始符编码向量以及结束符编码向量。由于第一起始标记符与第一结束标记符可以表征第一实体，第二起始标记符与第二结束标记符可以表征第二实体，由此利用第一起始标记符编码向量、第一结束标记符编码向量的组合可以有效表征第一实体编码向量，第二起始标记符编码向量、第二结束标记符编码向量的组合可以有效表征第二实体编码向量。

通过在文本中插入与实体相对应的标记符，由此可以通过标记符对文本中的实体进行表征。在通过预训练语言模型对文本进行编码时，可以直接对实体的标记符进行编码，得到标记符编码向量。由于每个实体都具有相应的起始标记符和结束标记符，由此能够在经过预训练语言模型编码之后，能够准确表达第一实体编码向量与第二实体编码向量。进而可以利用第一实体编码向量与第二实体编码向量组成实体对标记向量，方便直接利用实体对标记向量识别第一实体与第二实体之间的关系类别。

在一个实施例中，如图4所示，利用第一实体编码向量以及第二实体编码向量生成实体对标记向量的步骤包括：

步骤402，对第一实体编码向量与第二实体编码向量进行拼接。

步骤404，通过对拼接后的实体编码向量进行非线性转换，确定与第一实体以及第二实体对应的实体对标记向量。

在抽取第一实体与第二实体的关系类别时，服务器可以利用第一实体与第二实体这一实体对的编码向量进行分类，以此快速识别两者之间的关系类别。具体的，在经过预训练语言模型的编码之后，服务器可以获取第一实体编码向量以及第二实体编码向量，将第一实体编码向量与第二实体编码向量进行拼接。由于第一实体编码向量与第二实体编码向量分别包含了相应的上下文信息，由此使得拼接后的实体编码向量中携带了较多的文本信息。

服务器对拼接后的实体编码向量进行非线性转换，其中，可以通过激活函数对拼接后的实体编码向量进行非线性转换。激活函数中可以包括相应的线性参数，也可以不包括线性参数。

通过将一实体编码向量与第二实体编码向量进行拼接，能够将不同维度的参数信息进行组合，使得拼接后的实体编码向量中能够包含更多的文本信息，将拼接后的实体编码向量进行非线性转换，有助于得到最优解，进而有利于提高关系抽取的准确性。

在一个实施例中，对第一实体编码向量与第二实体编码向量进行拼接包括：对第一起始标记符编码向量、第一结束标记符编码向量进行平均处理，得到平均后的第一实体编码向量；对第二起始标记符编码向量、第二结束标记符编码向量进行平均处理，得到平均后的第二实体编码向量；将平均后的第一实体编码向量与平均后的第二实体编码向量进行拼接。

在预训练语言模型对文本中的每个字符进行编码之后，可以得到多个字符编码向量。在进行编码之前，事先在文本中对第一实体与第二实体进行了标记。如上述实施例中所提及的，在编码之后，可以得到标记符对应得编码向量，包括起始标记符对应得编码向量与结束标记符对应得编码向量。不同的实体采用了不同的标记符，由此可以得到第一实体对应的第一起始标记符编码向量、第一结束标记符编码向量，以及第二实体对应的第二起始标记符编码向量、第二结束标记符编码向量。利用第一起始标记符编码向量、第一结束标记符编码向量的组合可以有效表征第一实体编码向量，第二起始标记符编码向量、第二结束标记符编码向量的组合可以有效表征第二实体编码向量。

为了得到更加准确的第一实体编码向量以及第二实体编码向量，可以进行相应的平均处理。在其中一个实施例中，对第一实体编码向量进行平均处理包括：将第一起始标记符编码向量、第一结束标记符编码向量相加，得到相加结果；将相加结果进行平均处理，得到平均后的第一实体编码向量。

可以理解，服务器也可以参照上述方式对第二实体对应的第二起始标记符编码向量与第二结束标记符编码向量，将两者进行相加，然后对相加结果进行均值处理，得到平均后的第二实体编码向量。服务器将平均后的第一实体编码向量与平均后的第二实体编码向量进行拼接。通过平均处理，有助于得到最优解，从而有利于提高实体对标记向量分类的准确性。

在一个实施例中，通过对拼接后的实体编码向量进行非线性转换，确定与第一实体以及第二实体对应的实体对标记向量包括：获取预设的线性参数，将线性参数与拼接后的实体向量进行组合，得到组合向量；通过预训练语言模型中的激活函数对组合向量进行计算，得到与第一实体以及第二实体对应的实体对标记向量。

服务器可以参照上述实施例中提及的方式对第一实体编码向量与第二实体编码向量进行拼接。其中，在拼接后的实体向量与预设参数进行组合，再利用激活函数对组合向量进行计算。例如，计算公式可以公式(1)所示。

E_pair＝tanh([(T_b1+T_l1)/2,(T_b2+T_l2)/2]·w_e+b_e) (1)

其中，E_pair表示实体对标记向量，T_b1表示第一起始标记符编码向量，T_l1表示第一结束标记符编码向量，T_b2表示第二起始标记符编码向量，T_l2表示第二结束标记符编码向量，w_e表示激活函数的线性参数，b_e表示表示激活函数的线性参数。其中，w_e用于在非线性转换时放大倍数，b_e用于在非线性转换时进行位置变换。

通过对拼接后的实体编码向量进行非线性转换，由此能够将第一实体以及第二实体对应的实体对标记向量转换为可以直接输入分类器的向量，有利于抽取第一实体与第二实体的关系类别。

对于上述实施例中提及的实体关系抽取方法，用下面具体的例子进行说明。例如，文本中的描述为“李四的儿子是李小四”。第一实体为李四，第二实体为李小四。服务器可以采用不同的标记符在文本中标记实体。例如起始标记符采用b，结束标记符采用l，其中，第一实体李四的标记符可以是b₁、l₁，第二实体李小四的标记符可以是b₂、l₂。标记后的文本可以是“b₁李四l₁的儿子是b₂李小四l₂”

对于一般的句子分类，BERT模型采用CLS标记符对句子进行标记，利用BERT模型对标记后的句子进行编码之后，将相应的编码向量作为分类器的输入进行分类。在这种方式中，由于只是对整个句子进行标记，并不能识别句子中的实体，因此无法利用这种方式对句子中的向量进行关系分类。在本实施例中，基于预训练语言模型的关系抽取模型图，可以如图5所示。标记后的文本为“[CLS]b₁李四l₁的儿子是b₂李小四l₂”。本实施例中可以对句子中的实体分别进行标记，为了简化运算，可以保留CLS作为句子的标记，无需对BERT模型的参数进行修改。在预训练语言模型进行编码时，将每个字符分别进行编码，其中，b₁对应的编码向量为T_b1,l₁对应的编码向量为T_l1,b₂对应的编码向量为T_b2,l₂对应的编码向量为T_l2.通过对T_b1T_l1进行平均处理得到李四对应得第一实体编码向量，通过对T_b2T_l2进行平均处理得到李小四对应得第二实体的编码向量，将一实体编码向量与第二实体编码向量进行拼接后，生成李四、李小四对应的实体对标记向量，将实体对标记向量输入至softmax，从而得到李四与李小四的关系类别为父子。

目前存在多种关系抽取方法，包括Att-CNN、Bert_base、Bert_replace、Bert_ele2、Bert_insert、Bert_insert-ele2、Bert_insert-pair。通过实验，得到这几种方法的Macro-F1数据(一种分类评估指标)比较如下表所示，

Att-CNN是目前公开的关系抽取性能最优的方法。Bertbase是采用BERT模型的句子分类方法来进行关系抽取。Bert_replace是采用替换的实体标记符的方式进行实体表示，即将实体替换成特殊符号。例如：“李四的儿子是李小四”，可以表示成“<e1>的儿子是<e2>”这种形式。Bert_insert是采用插入实体标记符方式进行实体表示，但是Bert_replace和Bert_insert的输出端依然沿用句子分类的方式，并没有采用实体对向量进行分类。Bert_ele2是没有对实体进行标记，只采用上述实施例中利用实体对向量进行分类的实验结果。Bert_insert-ele2是对实体进行了标记，未使用实体对向量进行分类计算的结果。Bert_insert-pair是本申请提出的方法。根据上表中的数据可以看出，本申请提出的方法优于当前最优的Att-CNN方法。同时，通过与Bert_base的对比发现，不管是在预训练语言模型的输入(Bert_insert和Bert_replace)还是输出(Bert_ele2)上突出实体信息，均可以提高关系抽取的性能。对比Bert_insert和Bert_replace可以发现，在实体周围插入标记符的方式要优于将实体替换成标记符的方式。综合来看，同时在预训练语言模型的输入和输出端强调实体信息，使用标记符来表示实体对向量可以取得最优效果。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种实体关系抽取装置，包括：获取模块602、标记模块604、编码模块606和分类模块608，其中：

获取模块602，用于获取文本，识别文本中的实体；实体包括第一实体和第二实体。

标记模块604，用于在文本中对实体进行标记。

编码模块606，用于利用预训练语言模型对标记后的文本进行编码，得到第一实体编码向量以及第二实体编码向量；利用第一实体编码向量以及第二实体编码向量生成实体对标记向量。

分类模块608，用于对实体对标记向量进行分类，得到第一实体与第二实体之间的关系类别。

在识别文本中的实体后，将其中的第一实体与第二实体组成实体对。在文本中对第一实体、第二实体分别进行标记，通过预训练语言模型对标记后的文本进行编码，可以得到第一实体编码向量以及第二实体编码向量，由此能够利用第一实体编码向量与第二实体编码向量生成相应的实体对标记向量。由于实体对标记向量中包含了第一实体、第二实体的表征信息，由此在对实体对标记向量进行分类后，能够得到第一实体与第二实体之间的关系类别。由此实现了直接利用预训练语言模型对文本中的实体进行关系抽取。

在一个实施例中，标记模块还用于识别实体在文本中的实体位置，实体位置包括起始位置和结束位置；在起始位置插入起始标记符，以及在结束位置插入结束标记符；利用起始标记符与结束标记符在文本中标记实体。

在一个实施例中，编码模块还用于利用预训练语言模型对起始标记符进行编码，得到起始符编码向量；利用预训练语言模型对结束符进行编码，得到结束符编码向量；根据实体对应的起始标记符与结束标识符，利用相应的起始符编码向量与结束符编码向量表征实体编码向量。

在一个实施例中，编码模块还用于对第一实体编码向量与第二实体编码向量进行拼接；通过对拼接后的实体编码向量进行非线性转换，确定与第一实体以及第二实体对应的实体对标记向量。

在一个实施例中，第一实体编码向量包括第一起始标记符编码向量、第一结束标记符编码向量，第二实体编码向量包括第二起始标记符编码向量、第二结束标记符编码向量；编码模块还用于对第一起始标记符编码向量、第一结束标记符编码向量进行平均处理，得到平均后的第一实体编码向量；对第二起始标记符编码向量、第二结束标记符编码向量进行平均处理，得到平均后的第二实体编码向量；将平均后的第一实体编码向量与平均后的第二实体编码向量进行拼接。

在一个实施例中，编码模块还用于获取预设参数，将预设参数与拼接后的实体向量进行组合，得到组合向量；通过预训练语言模型中的激活函数对组合向量进行计算，得到与第一实体以及第二实体对应的实体对标记向量。

关于实体关系抽取装置的具体限定可以参见上文中对于实体关系抽取方法的限定，在此不再赘述。上述实体关系抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备具体可以是图1中终端102，也可以是图1中的服务器104。当计算机设备为图1中的终端102时，其内部结构图可以如图7所示。该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现实体关系抽取方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行实体关系抽取方法。计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

当计算机设备为图1中的服务器104时，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体关系抽取方法。

本领域技术人员可以理解，图7、图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种实体关系抽取方法，所述方法包括：

在所述文本中对所述实体进行标记；

2.根据权利要求1所述的方法，其特征在于，所述在所述文本中对所述实体进行标记包括：

识别所述实体在所述文本中的实体位置，所述实体位置包括起始位置和结束位置；

在所述起始位置插入起始标记符，以及在所述结束位置插入结束标记符；

利用所述起始标记符与所述结束标记符在文本中标记所述实体。

3.根据权利要求2所述的方法，其特征在于，所述利用预训练语言模型对标记后的文本进行编码包括：

利用所述预训练语言模型对所述起始标记符进行编码，得到起始符编码向量；

利用所述预训练语言模型对所述结束符进行编码，得到结束符编码向量；

根据所述实体对应的起始标记符与结束标识符，利用相应的起始符编码向量与结束符编码向量表征实体编码向量。

4.根据权利要求1所述的方法，其特征在于，所述利用所述第一实体编码向量以及所述第二实体编码向量生成实体对标记向量包括：

对所述第一实体编码向量与所述第二实体编码向量进行拼接；

通过对拼接后的实体编码向量进行非线性转换，确定与所述第一实体以及第二实体对应的实体对标记向量。

5.根据权利要求4所述的方法，其特征在于，所述第一实体编码向量包括第一起始标记符编码向量、第一结束标记符编码向量，第二实体编码向量包括第二起始标记符编码向量、第二结束标记符编码向量；所述对所述第一实体编码向量与所述第二实体编码向量进行拼接包括：

对所述第一起始标记符编码向量、第一结束标记符编码向量进行平均处理，得到平均后的第一实体编码向量；

对所述第二起始标记符编码向量、第二结束标记符编码向量进行平均处理，得到平均后的第二实体编码向量；

将所述平均后的第一实体编码向量与所述平均后的第二实体编码向量进行拼接。

6.根据权利要求4所述的方法，其特征在于，所述通过对拼接后的实体编码向量进行非线性转换，确定与所述第一实体以及第二实体对应的实体对标记向量包括：

获取预设参数，将所述预设参数与拼接后的实体向量进行组合，得到组合向量；

通过所述预训练语言模型中的激活函数对所述组合向量进行计算，得到与第一实体以及第二实体对应的实体对标记向量。

7.一种实体关系抽取装置，其特征在于，所述装置包括：

标记模块，用于在所述文本中对所述实体进行标记；

8.根据权利要求7所述的装置，其特征在于，所述标记模块还用于识别所述实体在所述文本中的实体位置，所述实体位置包括起始位置和结束位置；在所述起始位置插入起始标记符，以及在所述结束位置插入结束标记符；利用所述起始标记符与所述结束标记符在文本中标记所述实体。

9.根据权利要求8所述的装置，其特征在于，所述编码模块还用于利用所述预训练语言模型对所述起始标记符进行编码，得到起始符编码向量；利用所述预训练语言模型对所述结束符进行编码，得到结束符编码向量；根据所述实体对应的起始标记符与结束标识符，利用相应的起始符编码向量与结束符编码向量表征实体编码向量。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。