CN113722496B

CN113722496B - 一种三元组抽取方法、装置、可读存储介质及电子设备

Info

Publication number: CN113722496B
Application number: CN202111286201.9A
Authority: CN
Inventors: 丁林林; 刘勇; 陈晓倩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-03-08
Anticipated expiration: 2041-11-02
Also published as: CN113722496A

Abstract

本公开提供了一种三元组抽取方法、装置、可读存储介质及计算设备，该方法能够提高三元组抽取的效率和准确性，方法包括：获取文本数据；确定所述文本数据包含的实体的属性；根据所述文本数据和所述属性，确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息；根据所述属性、所述属性的属性值和所述属性值的分类信息，生成三元组。

Description

一种三元组抽取方法、装置、可读存储介质及电子设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种三元组抽取方法、装置、可读存储介质及电子设备。

背景技术

从文本中抽取三元组有广泛的应用需求。以实体、属性以及观点三元组为例，在舆情系统构建中，企业和商家需要挖掘用户的评论的信息，根据用户评论改善产品；除此之外，对于一段文本来说，一般的情感分类只能得知该文本的情感极性，并不能确定文本该情感倾向是针对哪个实体；另外，企业和商家一般需要通过用户评论是针对商品的哪方面的评价进而针对性的改善商品的质量。因此，从评论文本抽取实体、属性以及观点是十分必要的。传统的方法主要是利用管道的方式先通过命名实体识别识别出实体，然后利用规则抽取观点信息，再通过实体与观点匹配的方式得到实体、属性与观点的信息。

发明内容

根据本公开的一方面，提供了一种三元组抽取方法，包括：

获取文本数据；

确定所述文本数据包含的实体的属性；

根据所述文本数据和所述属性，确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息；

根据所述属性、所述属性的属性值和属性值的分类信息，生成三元组。

根据本公开的另一方面，提供了一种三元组抽取装置，包括：

数据获取单元，用于获取文本数据；

数据处理单元，用于确定所述文本数据包含的实体的属性；根据所述文本数据和所述属性，确定所述文本数据包含的所述属性的属性值和所述属性值的分类信息；根据所述属性、所述属性的属性值和属性值的分类信息，生成三元组。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述的三元组抽取方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的三元组抽取方法。

根据本公开的另一方面，提供了一种计算机程序产品，所述计算机程序在被处理器执行上述的三元组抽取方法。

本申请实施例中提供的一个或多个技术方案，实现了（属性、属性值、属性值的分类信息）的三元组自动抽取，并且，将三元组抽取分成两个阶段，第一个阶段抽取属性，第二个阶段同步抽取属性的属性值和属性值的分类信息，能够提高三元组的抽取的准确性和效率。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了根据本公开示例性实施例的三元组抽取方法的流程图；

图2示出了根据本公开示例性实施例的基于第一网络模型的三元组抽取方法的流程图；

图3示出了根据本公开示例性实施例的第一网络模型训练流程图；

图4示出了根据本公开示例性实施例的第二网络模型训练流程图；

图5示出了根据本公开示例性实施例的第三网络模型训练流程图；

图6示出了根据本公开具体实施例的三元组抽取方法的流程图；

图7示出了根据本公开具体实施例的二元组抽取原理示意图；

图8示出了根据本公开具体实施例的训练数据标注示意图；

图9示出了根据本公开具体实施例的又一训练数据标注示意图；

图10示出了根据本公开具体实施例的网络模型训练示意图；

图11示出了根据本公开示例性实施例的三元组抽取装置的示意性框图；

图12示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

以下参照附图描述本公开的方案。

参见图1，本公开提供的一种三元组抽取方法包括：

步骤S110、获取文本数据。

文本数据的获取来源可以是各类网站、APP、书籍等等。例如，可以从某个问答类APP中获取问答信息，或者，从某个社交网站中获取舆情信息。

获取的原始文本数据包含大量的文本内容，其中既包括需要抽取的关键信息，也包括一些与抽取目标无关的信息。例如，某一条原始文本数据的内容是：今天在XX地点试驾了某型号汽车，性能很好；如果要了解某型号汽车的评价情况，“性能”“很好”是需要抽取的关键信息。从文本数据中抽取的关键信息通过结构化数据存储，通常表现为三元组的形式。

三元组由“实体”、“属性”、“关系”、“类型”、“值”等字段组成；其中，实体是对客观个体的抽象,一个人、一部电影、一句话都可以看作是一个实体，实体具有不同的属性；类、型是对具有相同特点或属性的实体集合的抽象，关系是实体与实体之间关系的抽象，值则是对于实体、属性等字段的具体描述。三元组具有多种类型，常见的三元组包含（实体、关系、实体）三元组，（实体、属性、属性值）三元组，（属性、属性值、属性值分类）三元组等等。例如，（实体、关系、实体）三元组的示例可以是（小明、同事、小强）；（实体、属性、属性值）三元组的示例可以是（某某汽车、性能、很好）；（属性、属性值、属性值分类）三元组的示例可以是（性能、很好、正向），其中，“正向”是对“很好”的分类结果。

本公开提供的三元组抽取方法主要应用于三元组为（属性、属性值、属性值分类）的场景，因此，本步骤所获取的文本数据中，应当包含属性、属性值和属性值分类的信息。

随后，在步骤S120中，确定文本数据包含的实体的属性。

在获取到文本数据后，可以采用多种方式抽取实体的属性。具体地，可以采用训练好的神经网络模型抽取属性，先将文本数据输入神经网络模型后，由神经网络模型输出实体的属性；又或者，根据高频名词、名词短语设置属性库，根据属性库从文本数据中匹配属性并按照一定规则输出目标实体的属性。例如，原始文本数据的内容是“某某汽车性能很好”，那么，本步骤输出的属性应当为“性能”。

随后，在步骤S130中，根据文本数据和属性，确定文本数据包含的属性的属性值和属性值的分类信息。

在获取到实体的属性之后，可以采用多种方式获取属性的属性值和属性值的分类信息。具体地，采用基于规则和匹配的方式提取属性值、属性值的分类信息；又或者，采用训练好的神经网络模型抽取属性的属性值和属性值的分类信息，先将文本数据和属性输入神经网络模型后，由神经网络模型同时输出属性的属性值和属性值的分类信息。例如，原始文本数据的内容是“某某汽车性能很好”，那么，本步骤输出的属性值应为“很好”，属性值的分类信息与预设的分类策略相关，常见的属性值分类为情感极性，“很好”的情感极性为“正向”。

在舆情系统中，（属性、属性值、属性值分类）三元组具体地实现为（属性、观点、情感极性）三元组，其中，属性值被具体表达为观点，属性值分类被具体表达为情感极性，情感极性实质为观点的一种分类方式。例如，文本数据为“XX汽车性价比很高”，则该段文本数据对应的（属性、观点、情感极性）三元组为（性价比，很好，正向），其中，“很好”为实体“XX汽车”的属性“性价比”的属性值，“正向”为“很好”的情感极性即“正向”情感；在某些情况下，属性值也可以分类为“负向”情感或者“中性”情感。

在本公开的实施例中，除了可以将属性值分类为不同的情感极性以外，也可以按照其它任意需要的规则对属性值进行分类，例如，可以分类为“新观点”、“旧观点”；又例如，采用比“正向”、“负向”、“中性”更复杂的情感分类，包括“沮丧”、“高兴”、“失望”、“痛苦”、“平静”……随着情感分类的增加，计算的复杂度也会增加，相应地，可以得到更细粒度的分析结果。

随后，在步骤S140中，根据属性、属性值和属性值的分类信息，生成三元组。

具体地，在舆情系统中，根据步骤S120提取的属性，步骤S130提取的观点、情感极性，生成（属性、观点、情感极性）三元组。

可选地，步骤S120中，确定文本数据包含的实体的属性，包括：确定文本数据包含的一个或多个属性；步骤S130中，根据文本数据和属性，确定文本数据包含的属性的属性值和属性值的分类信息，包括：当确定文本数据包含一个属性时，根据文本数据和该一个属性，分别确定文本数据包含的至少一组与该一个属性对应的属性值和属性值的分类信息；当确定文本数据包含多个属性时，根据文本数据和多个属性中的一个属性，分别确定文本数据包含的至少一组与多个属性中的一个属性对应的属性值和属性值的分类信息。

在三元组抽取过程中，一条文本数据可能同时包括一个以上的属性，或者同时包括一个以上的属性值，或者同时包括一个以上的属性和属性值。例如，获取的一条文本数据为“XX型号汽车的内饰和性能很好”，其中包含两个属性“内饰”“性能”和一个属性值“很好”。当属性或属性值的数目为一个以上时，需要解决属性与属性值之间的对应关系的问题。在本公开实施例中，通过逐个地选取属性，分别地根据属性确定该属性对应的一组属性值和属性值的分类信息，从而解决了属性与属性值的对应问题。

在本公开的一个具体实施方式中，构建了网络模型用于三元组抽取；具体地，构建了第一网络模型用于属性的属性值和属性值的分类信息的获取，如图2所示，基于第一网络模型的属性的属性值和属性值的分类信息的获取方法包括：

步骤S210、获取文本数据的编码特征。

本步骤中，文本数据的编码特征为第四网络模型对文本数据作处理后的编码特征，第四网络模型为用于提取文本特征的预训练模型，典型的预训练模型为BERT模型。

随后，在步骤S220中，获取文本数据包含的属性的编码特征。

由于在步骤S210中已经获取到文本数据的编码特征，在预先确定文本数据包含的属性的情况下，可根据文本数据的编码特征确定属性的编码特征。

随后，在步骤S230中，将文本数据的编码特征和属性的编码特征输入预先训练的第一网络模型，获取第一网络模型输出的属性的属性值和属性值的分类信息。

在本公开的一个具体实施方式中，如图3所示，训练第一网络模型，包括：

步骤S310、获取训练文本；

步骤S320、确定训练文本中包含的实体的至少一个属性，以及，与每一属性对应的至少一组属性值和属性值的分类信息；

步骤S330、根据训练文本包含的至少一组属性值和属性值的分类信息对训练文本进行至少一轮标注；

步骤S340、依次根据每一轮标注后的训练文本，以及与标注后的训练文本对应的一个属性对第一网络模型作监督训练。

训练文本的标注方式有很多种，常见的标注方式不能够同时标注属性的属性值和属性值的分类信息，并且，句子中可能存在属性和属性的属性值之间的一对多或者多对一问题。在本公开的一个具体实施方式中，根据所述训练文本包含的一组属性值和属性值的分类信息对所述训练文本进行一轮标注，包括：根据训练文本包含的属性值的起始位置和属性值的分类信息对训练文本进行标注，其中，训练文本中的属性值的起始位置以外的全部位置被标注第一预设值，训练文本中的属性值的起始位置被标注第二预设值；根据训练文本包含的属性值的结束位置和属性值的分类信息对训练文本进行标注，其中，训练文本中的属性值的结束位置以外的全部位置被标注第一预设值，训练文本中的属性值的结束位置被标注第二预设值；其中，第二预设值用于指示属性值的分类信息，且第二预设值的取值范围不包含第一预设值。

例如，三元组的属性值的分类信息包括三个类别时，第二预设值可以是三个常量，分别对应到三个类别。以（属性、观点、情感极性）三元组的抽取为例，属性值的分类信息代表情感极性，三个常量可以设定为分别对应“正向”、“中性”、“负向”的情感。

本公开提供的训练文本的标注方式中，单次训练只能对一个属性的属性值进行标注，这样，训练过程能够避免多个属性值之间相互的干扰，解决了属性和属性的属性值之间的一对多和多对一的问题。

由于BiLSTM在情感分类上有突出的效果，优选地，在处理（属性、观点、情感极性）三元组时，将第一网络模型实现为BiLSTM模型。基于本公开提供的训练文本的标注方式训练的BiLSTM模型，能够同步输出文本数据的属性的属性值和属性值的分类信息。具体地，BiLSTM模型包括两个分类器，分别用于预测属性值的起始位置、属性值的分类信息，以及预测属性值的结束位置、属性值的分类信息。

在本公开的一个具体实施方式中，构建了第二网络模型用于属性的抽取，基于第二网络模型的属性的抽取方法包括：获取文本数据的编码特征；将文本数据的编码特征输入预先训练的第二网络模型，获取第二网络模型输出的文本数据包含的属性。其中，文本数据的编码特征为第四网络模型对文本数据作处理后的编码特征，第四网络模型为用于提取文本特征的预训练模型，典型的预训练模型为BERT模型。

在本公开的一个具体实施方式中，如图4所示，训练第二网络模型，包括：

步骤S410、获取训练文本；

步骤S420、确定训练文本中包含的实体的至少一个属性；

步骤S430、根据训练文本包含的至少一个属性对训练文本进行至少一轮标注；

步骤S440、依次根据每一轮标注后的训练文本，对第二网络模型作监督训练。

训练文本的标注方式有很多种，常见的标注方式不能够区分各个属性，这样，当一个句子中存在多个属性时，存在属性和属性的属性值之间的一对多或者多对一问题。在本公开的一个具体实施方式中，根据训练文本包含的一个属性对所述训练文本进行一轮标注，包括：

根据训练文本包含的属性的起始位置对训练文本进行标注，其中，训练文本中的属性的起始位置以外的全部位置被标注第一预设值，训练文本中的属性的起始位置被标注第三预设值；根据训练文本包含的属性的结束位置对训练文本进行标注，其中，训练文本中的属性的结束位置以外的全部位置被标注第一预设值，训练文本中的属性的结束位置被标注第三预设值。

具体地，第二网络模型可以实现为至少包括两个分类器，分别用于预测属性的起始位置和结束位置。

在本公开的一个具体实施方式中，构建端到端的第三网络模型用于三元组的抽取，第三网络模型由第一网络模型和第二网络模型联合组成，如图5所示，训练第三网络模型，包括：

步骤S510、获取训练文本；

步骤S520、确定训练文本包含的至少一组属性、属性值和属性值的分类信息；

步骤S530、根据训练文本包含的至少一组属性、属性值和属性值的分类信息对训练文本进行至少一轮标注；

步骤S540、依次根据每一轮标注后的训练文本，对第三网络模型进行监督训练。

通过对联合第一网络模型和第二网络模型的第三网络模型进行训练，并使用第三网络模型抽取三元组，能够同时从文本数据中抽取属性、属性的属性值和属性值的分类信息；联合训练可以优化模型训练结果，消除分别抽取各个三元组要素带来的误差累积。

相应地，第三网络模型至少包括四个分类器，分别用于输出属性值的起始位置、属性值的分类信息，属性值的结束位置、属性值的分类信息，属性的起始位置和属性的结束位置。

优选地，根据所述训练文本包含的一组属性、属性值和属性值的分类信息，对训练文本进行一轮标注，包括：根据训练文本包含的属性值的起始位置和属性值的分类信息对所述训练文本进行标注，其中，训练文本中的属性值的起始位置以外的全部位置被标注第一预设值，训练文本中的属性值的起始位置被标注第二预设值；根据训练文本包含的属性值的结束位置和属性值的分类信息对训练文本进行标注，其中，训练文本中的属性值的结束位置以外的全部位置被标注第一预设值，训练文本中的属性值的结束位置被标注第二预设值；第二预设值用于指示属性值的分类信息，且第二预设值的取值范围不包含第一预设值；根据训练文本包含的属性的起始位置对训练文本进行标注，其中，训练文本中的属性的起始位置以外的全部位置被标注第一预设值，训练文本中的属性的起始位置被标注第三预设值；根据训练文本包含的属性的结束位置对训练文本进行标注，其中，训练文本中的属性的结束位置以外的全部位置被标注第一预设值，训练文本中的属性的结束位置被标注第三预设值。

本公开提供的训练文本的标注方式，单次训练只能对一组属性、属性值、属性值的分类信息进行标注，这样就解决了属性和属性的属性值之间的一对多和多对一的干扰问题。

本公开实施例提供的基于神经网络模型的三元组抽取过程实际是求P(a，p，o)的概率，a、p、o分别表示属性、属性的属性值和属性值的分类信息，根据概率公式P(a，p，o) =P(p，o|a) * P(a)，先抽取文本数据包含的属性，再根据属性同时获取属性的属性值和属性值的分类信息，将（属性、属性值、属性值分类）的三元组获取分为了两个阶段，能够提高三元组抽取的准确性和效率。

在本公开的一个具体实施方式中，构建了第四网络模型用于处理文本数据的编码特征，获取文本数据的编码特征包括：将文本数据输入第四网络模型，获取第四网络模型输出的文本数据的编码特征；编码特征包括：词向量表示和位置embedding。优选地，第四网络模型为BERT模型。

在本公开的一个具体实施方式中，提供了一种自动从训练文本中抽取属性和属性的属性值的方法，用以生成用于训练第一网络模型、第二网络模型或第三网络模型的训练数据，方法包括：根据训练文本的词汇的依存关系和词性，获取训练文本中的属性和属性的属性值。依存关系包括定中关系、壮中结构、主谓关系等内容，词性包括名词、形容词、动词等，通过使用句法分析工具，能够解析出句子的依存关系和词性，然后基于解析出的句子的依存关系和词性，按照预设的规则，从句子中自动获取属性和属性的属性值。

进一步地，基于依存关系和词性抽取的属性和属性的属性值会引入一定的噪声，因此，还需要设定过滤规则，滤除不符合要求的属性和属性的属性值。例如，滤除包含了实体词汇的属性。

下面结合具体实施例，对本公开提供的方法进行详细的说明。

现有的抽取（属性、观点、情感极性）三元组的抽取方案中，基于句法分析的方法准确度不高，且需要人为定义抽取规则；基于的深度学习的方法如果没有实现定义好实体词语会费事费力；基于词典的方法扩展性差。另外，一个句子可能存在多个属性对应一个观点和一个属性对应多个观点问题，例如“某型号汽车性能和性价比都可以”这个句子中存在两个观点二元组（“性能”，“可以”）和（“性价比”，“可以”），“某型号汽车性能流畅、完美”中存在两个观点二元组（“性能”，“流畅”）和（“性能”，“完美”）。而传统的方法不能够同时抽取这两个二元组。因此，设计出一种可以缓解人工标注操作的误差，并能够解决多个属性对应一个观点和一个属性对应多个观点的问题的三元组抽取方法是十分有必要的。

本公开的具体实施例的整体流程如图6所示，包括：

步骤S610、基于依存关系抽取（属性、观点）二元组；

步骤S620、排除不符合标准的二元组；

步骤S630、自动标注二元组；

步骤S640、模型训练。

本公开的具体实施例包括两个部分，第一部分主要涉及无监督过程，目的是从无标注的数据里面抽取观点和属性二元组，随后进行人工筛选排除不符合标准的二元组，然后再对数据进行自动标注，第二部分包括模型的构建和训练。

第一部分：

在进行三元组预测之前，由于这个预测过程是有监督的训练过程，需要大量的标注数据用于训练。本公开具体实施例中，通过设定规则的方法和人工筛选来确定要标注的关键词。首先，通过规则来识别出属性和观点词，随后，由于此过程生成的属性和观点词可能不准确，需要进行进一步筛选。

步骤1.1，基于依存分析的方法生成属性词和观点二元组：在此过程中，需要对于句子中属性和观点进行抽取，本发明采用句法分析的方法来识别潜在的属性和观点二元组，具体地，通过词性标注工具得到句子的词性和词之间的依存关系的有向图，然后定义依存关系，即需要以何种词与词之间的关系进行抽取。具体地，本公开具体实施例采用观点词和属性词之间的直接依赖关系（即两个词之间的依存关系不存在第三个词）进行处理，如图7所示。

使用句法分析工具解析出句子的依存关系以及词性，根据依存关系与词性抽取（属性，观点）二元组，在图7中，“性能”和“好”是主谓关系，“性能”是名词，“好”是形容词，因此，按照名词-主谓关系-形容词的依存规则即可抽取到观点二元组。以上依存关系抽取出来的结果是（“性能”，“好”），在句子中“很”修饰“好”也可以添加到抽取出来的句子中作为补充，“很”与“好”是状中结构关系，所以在抽取完（“性能”，“好”），按照状中结构的关系可以进一步抽取“很”，最后得到的结果是（“性能”，“很好”）。

步骤1.2，进一步筛选：在前一步中，得到三元组是比较粗糙的，获取的二元组里面的信息可能包含实体等其他信息，因此需要人工进行进一步筛选。具体地，剔除掉那些实体名词和不可能出现的属性词。例如，如果在第一阶段抽取到了（“厂商名”，“很好”）这样的二元组，但是“厂商名”属于实体，因此需要进行剔除。

第二部分：

三元组抽取：在得到了属性和观点二元组之后，接下来需要训练模型抽取三元组，首先要做的是标注，标注完成之后需要使用标注的数据对模型进行训练。

步骤2.1，数据标注：数据标注的过程中，由于一条数据可能存在多个的（属性，观点）二元组。标注的对象有两种，一种是属性的标注，属性标注时构造两个span向量，分别用来标记属性词的起始位置和末尾位置，其中，属性词的起始和末尾位置都是用1标注，其他情况都标注为0。标注方式如图8所示，这样就很好解决了一对多和多对一的问题。

进一步地，由于情感极性一般会有三类，即中性，正性和负性，因此在抽取观点的同时还需要情感极性分类，因此在对观点进行标注的时候在属性标注的基础之上把1更换成对应的情感类别，“正性”为3，“负面”为2，“中性”为1。标注方法如图9所示。

步骤2.2，模型训练：根据已经标注好的数据对模型进行训练，具体地，假设a,p,o分别代表三元组（属性，观点，极性）属性，观点和极性。抽取三元组过程实际是求P(a, p,o)的概率，而根据概率公式P(a,p,o) = P(p,o|a) * P(a)，该公式表示，三元组抽取实际上可以分为两个阶段，第一阶段先抽取属性a，第二阶段通过抽取到的属性a来进一步抽取(p,o)二元组。有这个关系，设计的模型架构如图10所示。

第一阶段预测属性时采用BERT编码，然后构造两个分类器分别预测属性的起始位置和末尾位置，由于一个句子里面可能存在多个属性，在这里采用的抽样的方法，每次输出一个属性信息，其将与BERT编码之后的词向量表示以及位置embedding做一个相加拼接的操作作为第二部分的输入，其中，属性信息包括属性对应的词向量表示和位置embedding。

第二阶段则将拼接好的向量经过BiLSTM训练预测观点和情感极性。

本公开的具体实施例，针对现有技术中的问题：（1）需要大量人工标注；（2）存在误差累积；（3）扩展性差；（4）无法解决一个属性对应多个观点和多个观点对应一个属性问题，设计了一种融合句法分析和端到端抽取方法，减少人工干预和误差和提升扩展性的三元组抽取方案。具体而言，本公开的具体实施例先通过句法分析来定义抽取规则，然后利用定义好的抽取规则来抽取对应的观点和属性，再通过人工筛选出这些观点和属性词进行标注，而现有的方法中没有提到具体是怎么得到这些标注数据的。除此之外，在抽取属性，观点，情感极性三元组的过程中，本公开的具体实施例提出了一种端到端的方法来减少误差积累，而现有的技术中使用的是先识别出观点词和属性词，然后进行极性分类的管道方式。除此之外，现有技术中基于情感词典的方式需要维护一个特定的情感词典，而本发明的泛化性能比较强，对于句子中没有出现在情感词典的里面的词的极性可以很好的识别。另外，针对上文中提到的一个属性对应多个观点和多个属性对应一个观点的问题，本发明采用的span向量标注的方法可以大大减少标注的成本和时间。在三元组抽取阶段，不同于现有的技术，本发明将属性、观点和极性进行一同抽取，消除了误差累积问题，同时解决现有的多个属性对应一个观点和一个属性对应多个观点的问题。

参见图11，本公开提供了一种三元组抽取装置，包括：

数据获取单元1110，用于获取文本数据；

数据处理单元1120，用于确定文本数据包含的实体的属性；根据文本数据和文本数据包含的属性，确定文本数据包含的属性的属性值和属性值的分类信息；根据属性、属性值和属性值的分类信息，生成三元组。

可选地，数据处理单元1120用于确定所述文本数据包含的实体的属性时，具体用于：确定文本数据包含的一个或多个属性；根据文本数据和所述属性，确定文本数据包含的属性的属性值和属性值的分类信息，包括：当确定文本数据包含一个属性时，根据文本数据和该一个属性，分别确定文本数据包含的至少一组与该一个属性对应的属性值和属性值的分类信息；当确定文本数据包含多个属性时，根据文本数据和多个属性中的一个属性，分别确定文本数据包含的至少一组与该一个属性对应的属性值和属性值的分类信息。

可选地，数据处理单元1120用于根据文本数据和文本数据包含的属性，确定文本数据包含的属性的属性值和属性值的分类信息时，具体用于：

获取文本数据的编码特征；

获取文本数据包含的属性的编码特征；

将文本数据的编码特征和文本数据包含的属性的编码特征输入预先训练的第一网络模型，获取第一网络模型输出的文本数据包含的属性的属性值和属性值的分类信息。

可选地，数据处理单元1120用于训练第一网络模型时，具体用于：

获取训练文本；

确定训练文本中包含的实体的至少一个属性，以及，与每一属性对应的至少一组属性值和属性值的分类信息；

根据训练文本包含的至少一组属性值和属性值的分类信息对训练文本进行至少一轮标注；

依次根据每一轮标注后的训练文本，以及与标注后的训练文本对应的一个属性对第一网络模型作监督训练。

可选地，数据处理单元1120用于根据训练文本包含的一组属性值和属性值的分类信息对训练文本进行一轮标注时，具体用于：

根据训练文本包含的属性值的起始位置和属性值的分类信息对训练文本进行标注，其中，训练文本中的属性值的起始位置以外的全部位置被标注第一预设值，训练文本中的属性值的起始位置被标注第二预设值；

根据训练文本包含的属性值的结束位置和属性值的分类信息对训练文本进行标注，其中，训练文本中的属性值的结束位置以外的全部位置被标注第一预设值，训练文本中的属性值的结束位置被标注第二预设值；

其中，第二预设值用于指示属性值的分类信息，且第二预设值的取值范围不包含第一预设值。

可选地，数据处理单元1120用于确定文本数据包含的实体的属性时，具体用于：

获取文本数据的编码特征；

将文本数据的编码特征输入预先训练的第二网络模型，获取第二网络模型输出的文本数据包含的实体的属性。

可选地，数据处理单元1120用于训练第二网络模型时，具体用于：

获取训练文本；

确定训练文本中包含的实体的至少一个属性；

根据训练文本包含的至少一个属性对训练文本进行至少一轮标注；

依次根据每一轮标注后的训练文本，对第二网络模型作监督训练。

可选地，数据处理单元1120用于根据所述训练文本包含的一个属性对所述训练文本进行一轮标注时，具体用于：

根据训练文本包含的属性的起始位置对训练文本进行标注，其中，训练文本中的属性的起始位置以外的全部位置被标注第一预设值，训练文本中的属性的起始位置被标注第三预设值；

根据训练文本包含的属性的结束位置对训练文本进行标注，其中，训练文本中的属性的结束位置以外的全部位置被标注第一预设值，训练文本中的属性的结束位置被标注第三预设值。

可选地，第一网络模型和第二网络模型联合组成端到端的第三网络模型。

可选地，数据处理单元1120用于训练第三网络模型时，具体用于：

获取训练文本；

确定训练文本包含的至少一组属性、属性值和属性值的分类信息；

根据训练文本包含的至少一组属性、属性值和属性值的分类信息对训练文本进行至少一轮标注；

依次根据每一轮标注后的训练文本，对第三网络模型进行监督训练。

可选地，数据处理单元1120用于根据训练文本包含的一组属性、属性值和属性值的分类信息，对训练文本进行一轮标注时，具体用于：

根据训练文本包含的属性值的结束位置和属性值的分类信息对训练文本进行标注，其中，训练文本中的属性值的结束位置以外的全部位置被标注第一预设值，训练文本中的属性值的结束位置被标注第二预设值；第二预设值用于指示属性值的分类信息，且第二预设值的取值范围不包含第一预设值；

可选地，数据处理单元1120用于获取文本数据的编码特征时，具体用于：

将文本数据输入第四网络模型，获取第四网络模型输出的文本数据的编码特征；

编码特征包括：词向量表示和位置embedding。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图12，现将描述可以作为本公开的服务器或客户端的电子设备1200的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，电子设备1200包括计算单元1201，其可以根据存储在只读存储器（ROM）1202中的计算机程序或者从存储单元1208加载到随机访问存储器（RAM）1203中的计算机程序，来执行各种适当的动作和处理。在RAM1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM1202以及RAM1203通过总线1204彼此相连。输入/输出（I/O）接口1205也连接至总线1204。

电子设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206、输出单元1207、存储单元1208以及通信单元1209。输入单元1206可以是能向电子设备1200输入信息的任何类型的设备，输入单元1206可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1207可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1204可以包括但不限于磁盘、光盘。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理。例如，在一些实施例中，三元组抽取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM1202和/或通信单元1209而被载入和/或安装到电子设备1200上。在一些实施例中，计算单元1201可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行三元组抽取方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种三元组抽取方法，其特征在于，包括：

获取文本数据；

确定所述文本数据包含的实体的属性；

将所述文本数据的编码特征和所述属性的编码特征输入预先训练的第一网络模型，获取所述第一网络模型同时输出的所述属性的属性值和所述属性值的分类信息；其中，用于训练的训练文本的标注过程包括：根据所述训练文本包含的属性值的起始位置和属性值的分类信息对所述训练文本进行标注，所述训练文本中的属性值的起始位置被标注第二预设值，根据所述训练文本包含的属性值的结束位置和属性值的分类信息对所述训练文本进行标注，所述训练文本中的属性值的结束位置被标注第二预设值，所述第二预设值用于指示所述属性值的分类信息；

2.如权利要求1所述的方法，其特征在于，

确定所述文本数据包含的实体的属性，包括：

确定所述文本数据包含的一个或多个属性；

根据所述文本数据和所述属性，确定所述文本数据包含的所述属性的属性值和属性值的分类信息，包括：

当确定所述文本数据包含一个属性时，根据所述文本数据和所述一个属性，分别确定所述文本数据包含的至少一组与所述一个属性对应的属性值和属性值的分类信息；

当确定所述文本数据包含多个属性时，根据所述文本数据和所述多个属性中的一个属性，分别确定所述文本数据包含的至少一组与所述多个属性中的一个属性对应的属性值和属性值的分类信息。

3.如权利要求1所述的方法，其特征在于，训练所述第一网络模型，包括：

获取训练文本；

确定所述训练文本中包含的实体的至少一个属性，以及，与每一属性对应的至少一组属性值和属性值的分类信息；

根据所述训练文本包含的至少一组属性值和属性值的分类信息对所述训练文本进行至少一轮标注；

依次根据每一轮标注后的训练文本，以及与标注后的训练文本对应的一个属性对所述第一网络模型作监督训练。

4.如权利要求3所述的方法，其特征在于，根据所述训练文本包含的一组属性值和属性值的分类信息对所述训练文本进行一轮标注，包括：

根据所述训练文本包含的属性值的起始位置和属性值的分类信息对所述训练文本进行标注，其中，所述训练文本中的属性值的起始位置以外的全部位置被标注第一预设值，所述训练文本中的属性值的起始位置被标注第二预设值；

根据所述训练文本包含的属性值的结束位置和属性值的分类信息对所述训练文本进行标注，其中，所述训练文本中的属性值的结束位置以外的全部位置被标注第一预设值，所述训练文本中的属性值的结束位置被标注第二预设值；

其中，所述第二预设值用于指示所述属性值的分类信息，且所述第二预设值的取值范围不包含所述第一预设值。

5.如权利要求1所述的方法，其特征在于，所述第一网络模型包括BiLSTM模型，所述BiLSTM模型包括两个分类器，分别用于输出属性值的起始位置、属性值的分类信息，以及输出属性值的结束位置、属性值的分类信息。

6.如权利要求1所述的方法，其特征在于，确定所述文本数据包含的实体的属性，包括：

获取所述文本数据的编码特征；

将所述文本数据的编码特征输入预先训练的第二网络模型，获取所述第二网络模型输出的所述文本数据包含的实体的属性。

7.如权利要求6所述的方法，其特征在于，训练所述第二网络模型，包括：

获取训练文本；

确定所述训练文本中包含的实体的至少一个属性；

根据所述训练文本包含的至少一个属性对所述训练文本进行至少一轮标注；

依次根据每一轮标注后的训练文本，对所述第二网络模型作监督训练。

8.如权利要求7所述的方法，其特征在于，根据所述训练文本包含的一个属性对所述训练文本进行一轮标注，包括：

根据所述训练文本包含的属性的起始位置对所述训练文本进行标注，其中，所述训练文本中的属性的起始位置以外的全部位置被标注第一预设值，所述训练文本中的属性的起始位置被标注第三预设值；

根据所述训练文本包含的属性的结束位置对所述训练文本进行标注，其中，所述训练文本中的属性的结束位置以外的全部位置被标注第一预设值，所述训练文本中的属性的结束位置被标注第三预设值。

9.如权利要求6所述的方法，其特征在于，所述第二网络模型至少包括两个分类器，分别用于输出属性的起始位置和结束位置。

10.如权利要求6所述的方法，其特征在于，所述第一网络模型和所述第二网络模型联合组成端到端的第三网络模型。

11.如权利要求10所述的方法，其特征在于，训练所述第三网络模型，包括：

获取训练文本；

确定所述训练文本包含的至少一组属性、属性值和属性值的分类信息；

根据所述训练文本包含的至少一组属性、属性值和属性值的分类信息对所述训练文本进行至少一轮标注；

依次根据每一轮标注后的训练文本，对所述第三网络模型进行监督训练。

12.如权利要求11所述的方法，其特征在于，根据所述训练文本包含的一组属性、属性值和属性值的分类信息，对所述训练文本进行一轮标注，包括：

根据所述训练文本包含的属性值的结束位置和属性值的分类信息对所述训练文本进行标注，其中，所述训练文本中的属性值的结束位置以外的全部位置被标注第一预设值，所述训练文本中的属性值的结束位置被标注第二预设值；所述第二预设值用于指示所述属性值的分类信息，且所述第二预设值的取值范围不包含所述第一预设值；

13.如权利要求11所述的方法，其特征在于，所述第三网络模型至少包括四个分类器，分别用于输出属性值的起始位置、属性值的分类信息，属性值的结束位置、属性值的分类信息，属性的起始位置和属性的结束位置。

14.如权利要求11所述的方法，其特征在于，获取所述文本数据的编码特征，包括：

将所述文本数据输入第四网络模型，获取所述第四网络模型输出的所述文本数据的编码特征；

所述编码特征包括：词向量表示和位置embedding。

15.一种三元组抽取装置，其特征在于，包括：

数据获取单元，用于获取文本数据；

数据处理单元，用于确定所述文本数据包含的实体的属性；将所述文本数据的编码特征和所述属性的编码特征输入预先训练的第一网络模型，获取所述第一网络模型输出的所述属性的属性值和所述属性值的分类信息；根据所述属性、所述属性的属性值和属性值的分类信息，生成三元组；其中，用于训练的训练文本的标注过程包括：根据所述训练文本包含的属性值的起始位置和属性值的分类信息对所述训练文本进行标注，所述训练文本中的属性值的起始位置被标注第二预设值，根据所述训练文本包含的属性值的结束位置和属性值的分类信息对所述训练文本进行标注，所述训练文本中的属性值的结束位置被标注第二预设值，所述第二预设值用于指示所述属性值的分类信息。

16.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-14中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。