CN112580358A

CN112580358A - 文本信息提取方法、装置、存储介质及设备

Info

Publication number: CN112580358A
Application number: CN201910943335.XA
Authority: CN
Inventors: 戴泽辉
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-03-30
Also published as: WO2021063060A1

Abstract

本公开涉及一种文本信息提取方法、装置、存储介质及设备。所述方法包括：确定待处理文本对应的目标文本矩阵；将目标文本矩阵输入至文本信息提取模型，以获得文本信息提取模型输出的信息提取结果，信息提取结果包括待处理文本中各分词的标签信息，标签信息用于指示分词类型，若分词的分词类型为属性类，该分词的标签信息还用于指示该分词的情感类型；根据待处理文本中的第一分词及第一分词的情感类型，确定待处理文本中的属性词以及各属性词的情感类型。这样，通过训练所得模型，能够同时得到待处理文本中属于属性类的分词以及这些分词的情感类型，从而得到待处理文本中的属性词及各属性词的情感类型，效率高且能保证准确率。

Description

文本信息提取方法、装置、存储介质及设备

技术领域

本公开涉及计算机技术领域，具体地，涉及一种文本信息提取方法、装置、存储介质及设备。

背景技术

在一段文本(例如，用户评论)中，除主语之外，还存在属于属性类的词汇(或词组)和属于情感类的词汇(或词组)，属于情感类的词汇(或词组)能够对属于属性类的词汇(或词组)进行情感描述，其中，属于属性类的词汇(或词组)用于描述主语的功能或者性能，属于情感类的词汇的情感类型一般包括正面、中性、负面三种。例如，若文本为“A汽车的外观难看”，可知该段文本中主语为“A汽车”，属于属性类的词汇为“外观”，属于情感类的词汇为“难看”。对于这样的文本，可以从中获得属性情感，也就是根据文本内容，提取出特定的属性及其情感类型。

目前，属性情感一般通过两步法、采用pipeline结构获得，即首先通过序列标注(例如，LSTM-CRF、BERT-CRF等)的方法抽取文本中属于属性类的词汇(或词组)，之后，再针对每个属性类词汇(或词组)，以该属性类词汇(或词组)及其所在句子为模型训练数据，利用深度学习(例如，LSTM-attention、BERT-CLS、ATAE、Recurrent Attention、Transformation Network等)的方法进行训练，得到用于预测单个属性类词汇的模型。但是，这样两步训练的方式会造成信息损失以及误差叠加，导致属性情感存在偏差，表现为准确率损失。

发明内容

本公开的目的是提供一种文本信息提取方法、装置、存储介质及设备，能够更加快速且准确地实现文本信息提取，快速获得属性词及其情感。

为了实现上述目的，根据本公开的第一方面，提供一种文本信息提取方法，所述方法包括：

确定待处理文本对应的目标文本矩阵，其中，文本对应的文本矩阵包括该文本中各个分词对应的向量化表示；

将所述目标文本矩阵输入至文本信息提取模型，以获得所述文本信息提取模型输出的信息提取结果，所述信息提取结果包括所述待处理文本中各分词的标签信息，所述标签信息用于指示分词类型，所述分词类型包括属性类，以及，若分词的分词类型为所述属性类，该分词的标签信息还用于指示该分词的情感类型；

根据所述待处理文本中分词类型为所述属性类的第一分词及所述第一分词的情感类型，确定所述待处理文本中的属性词以及各个所述属性词的情感类型，其中，每个所述属性词由至少一个所述第一分词构成。

可选地，所述分词类型还包括情感类；

所述方法还包括：

根据所述待处理文本中分词类型为所述情感类的第二分词，确定所述待处理文本中的情感词，其中，每个所述情感词由至少一个所述第二分词构成；

分别将每个属性词与每个情感词组合，获得属性情感词对，每个所述属性情感词对中包含一个所述属性词和一个所述情感词；

将所述属性情感词对和所述属性情感词对的位置信息输入至关联模型，获得所述关联模型输出的关联结果，所述关联结果用于指示各个所述属性情感词对中的属性词和情感词是否相关，以及，所述属性情感词对的位置信息用于指示所述属性情感词对中的属性词和情感词在所述待处理文本中的位置关系；

根据所述关联结果，确定属性词和情感词相关的目标属性情感词对。

可选地，所述关联模型通过如下方式获得：

将第一历史文本对应的历史属性情感词对和所述历史属性情感词对的位置信息作为输入数据、并将所述第一历史文本中各历史属性情感词对的历史关联结果作为输出数据，对深度神经网络模型进行训练，以获得所述关联模型。

可选地，所述确定待处理文本对应的目标文本矩阵，包括：

对所述待处理文本进行分词处理，并确定所述待处理文本中各个分词对应的词向量和词性向量；

对各个所述分词的词向量和词性向量进行拼接，得到每个所述分词对应的向量化表示；

根据各个所述分词对应的所述向量化表示，确定所述目标文本矩阵，其中，所述待处理文本中每个所述分词的向量化表示对应所述目标文本矩阵中的一行。

可选地，所述文本信息提取模型通过如下方式获得：

将第二历史文本对应的历史文本矩阵作为输入数据、并将所述第二历史文本中各分词对应的历史标签信息作为输出数据，对深度神经网络模型进行训练，以获得所述文本信息提取模型。

可选地，若分词的分词类型为所述属性类，该分词的标签信息还用于指示该分词在预设词中是否处于首位；

所述确定所述待处理文本中的属性词，包括：

根据各个所述第一分词的所述标签信息及其在所述待处理文本中的位置，确定所述待处理文本中的所述属性词，其中，在预设词中处于首位的所述第一分词在其所在的属性词中处于首位。

可选地，所述确定属性词的情感类型，包括：

将构成所述属性词的首个所述第一分词对应的情感类型确定为该属性词对应的情感类型。

根据本公开的第二方面，提供一种文本信息提取装置，所述装置包括：

第一确定模块，用于确定待处理文本对应的目标文本矩阵，其中，文本对应的文本矩阵包括该文本中各个分词对应的向量化表示；

第一处理模块，用于将所述目标文本矩阵输入至文本信息提取模型，以获得所述文本信息提取模型输出的信息提取结果，所述信息提取结果包括所述待处理文本中各分词的标签信息，所述标签信息用于指示分词类型，所述分词类型包括属性类，以及，若分词的分词类型为所述属性类，该分词的标签信息还用于指示该分词的情感类型；

第二确定模块，用于根据所述待处理文本中分词类型为所述属性类的第一分词及所述第一分词的情感类型，确定所述待处理文本中的属性词以及各个所述属性词的情感类型，其中，每个所述属性词由至少一个所述第一分词构成。

可选地，所述分词类型还包括情感类；

所述装置还包括：

第三确定模块，用于根据所述待处理文本中分词类型为所述情感类的第二分词，确定所述待处理文本中的情感词，其中，每个所述情感词由至少一个所述第二分词构成；

第四确定模块，用于分别将每个属性词与每个情感词组合，获得属性情感词对，每个所述属性情感词对中包含一个所述属性词和一个所述情感词；

第二处理模块，用于将所述属性情感词对和所述属性情感词对的位置信息输入至关联模型，获得所述关联模型输出的关联结果，所述关联结果用于指示各个所述属性情感词对中的属性词和情感词是否相关，以及，所述属性情感词对的位置信息用于指示所述属性情感词对中的属性词和情感词在所述待处理文本中的位置关系；

第五确定模块，用于根据所述关联结果，确定属性词和情感词相关的目标属性情感词对。

可选地，所述关联模型通过如下方式获得：

可选地，所述第一确定模块包括：

第一确定子模块，用于对所述待处理文本进行分词处理，并确定所述待处理文本中各个分词对应的词向量和词性向量；

处理子模块，用于对各个所述分词的词向量和词性向量进行拼接，得到每个所述分词对应的向量化表示；

第二确定子模块，用于根据各个所述分词对应的所述向量化表示，确定所述目标文本矩阵，其中，所述待处理文本中每个所述分词的向量化表示对应所述目标文本矩阵中的一行。

可选地，所述文本信息提取模型通过如下方式获得：

所述第二确定模块包括：

属性词确定子模块，用于根据各个所述第一分词的所述标签信息及其在所述待处理文本中的位置，确定所述待处理文本中的所述属性词，其中，在预设词中处于首位的所述第一分词在其所在的属性词中处于首位。

可选地，所述第二确定模块包括：

情感类型确定子模块，用于将构成所述属性词的首个所述第一分词对应的情感类型确定为该属性词对应的情感类型。

根据本公开的第三方面，提供一种存储介质，其上存储有程序，该程序被处理器执行时实现本公开第一方面所述方法的步骤。

根据本公开的第四方面，提供一种设备，所述设备包括：

至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；

其中，所述处理器、所述存储器通过所述总线完成相互间的通信；

所述处理器用于调用所述存储器中的程序指令，以执行权利要求1-7中任一项所述方法的步骤。

通过上述技术方案，确定待处理文本对应的目标文本矩阵，并将目标文本矩阵输入至文本信息提取模型，以获得文本信息提取模型输出的信息提取结果，该信息提取结果包括待处理文本中各分词的标签信息。之后，根据待处理文本中分词类型为属性类的第一分词及第一分词的情感类型，确定待处理文本中的属性词以及各个属性词的情感类型。这样，根据文本信息提取模型的信息提取结果，能够同时得到待处理文本中属于属性类的分词以及这些分词的情感类型，从而得到待处理文本中的属性词及各属性词的情感类型，效率高且能保证准确率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开的一种实施方式提供的文本信息提取方法的流程图；

图2A和图2B是根据本公开提供的文本信息提取方法中，标签信息的示例性示意图。

图3是根据本公开的另一种实施方式提供的文本信息提取方法的流程图；

图4是根据本公开的一种实施方式提供的文本信息提取装置的框图；

图5是根据本公开的一种实施方式提供的设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图1是根据本公开的一种实施方式提供的文本信息提取方法的流程图。如图1所示，该方法可以包括以下步骤。

在步骤11中，确定待处理文本对应的目标文本矩阵。

文本对应的文本矩阵包括该文本中各个分词对应的向量化表示。对于一段文本，首先对该文本进行分词处理，进而得到该文本各个分词对应的向量化表示，其中，分词对应的向量化表示可以反映该分词本身特征及该分词的词性特征。相应地，待处理文本对应的目标文本矩阵包括待处理文本中各个分词对应的向量化表示。

在一种可能的实施方式中，步骤11可以包括以下步骤：

对待处理文本进行分词处理，并确定待处理文本中各个分词对应的词向量和词性向量；

对各个分词的词向量和词性向量进行拼接，得到每个分词对应的向量化表示；

根据各个分词对应的向量化表示，确定目标文本矩阵。

其中，词向量是将词汇映射到向量空间中，并且，词向量之间的相似关系能够反映词汇之间的相似关系。词性向量能够反映词汇的词性特征，即通过词性向量能够确定词汇的词性，词性向量可以采用一定维度的随机向量进行表示，例如，若共有30种词性A1～A30，可以依次用向量a1～a30表示，a1～a30的维度为指定的固定值(例如，20)，其中每个维度都可以为一个随机生成的接近于0的小数。

在本方法中，预先针对相关语料库(例如，待处理文本相关领域的语料库)中的文本进行切词，并使用词向量模型(例如，Word2vec、Glove、ELMo等)进行词向量训练，得到各词汇对应的词向量。示例地，可以将词汇映射到100维向量空间中，即词汇对应的词向量为100维向量。

在对待处理文本进行处理时，首先对待处理文本进行分词处理，得到分词结果。之后，根据分词结果，以及预先训练所得的各词汇对应的词向量，确定待处理文本中各个分词对应的词向量，并且，根据分词结果确定词性向量。在得到待处理文本中各个分词对应的词向量和词性向量之后，针对每个分词，将其词向量和词性向量进行拼接，得到每个分词对应的向量化表示。示例地，若一个分词的词向量为100维向量[B1，B2，B3，…，B100]，词性向量为20维向量[C1，C2，C3，…，C20]，则该分词对应的向量化表示可以为120维向量[B1，B2，B3，…，B100，C1，C2，C3，…，C20]。

根据待处理文本中各个分词对应的向量化表示，确定目标文本矩阵，其中，待处理文本中每个分词的向量化表示对应目标文本矩阵中的一行。另外，分词的向量化表示在目标文本矩阵中出现的顺序与其在待处理文本中出现的顺序一致。示例地，若待处理文本中分词出现的顺序为分词1、分词2、分词3，则在目标文本矩阵中，分词1、分词2、分词3依次对应目标文本矩阵中的第k行、第k+1行、第k+2行，k为正整数，例如1。

在一种可能的实施例中，目标文本矩阵可以由待处理文本中各分词对应的向量化表示直接组合而形成。示例地，若待处理文本共有200个分词，且每个分词对应的向量化表示为120维向量，则目标文本矩阵为200*120的矩阵。

在另一种可能的实施例中，将待处理文本中各分词对应的向量化表示进行组合得到矩阵后，还可以在所得矩阵的基础上进行适当扩充(例如，横向扩充，和/或，纵向扩充)，以形成目标文本矩阵，其中，扩充部分可以进行补零处理。示例地，若待处理文本共有200个分词，且每个分词对应的向量化表示为120维向量，组合后得到200*120的矩阵，并将其扩充为200*200的文本矩阵，作为目标文本矩阵。这样，即便文本长度不同，得到的目标文本矩阵的格式也是相同的，能够保证目标文本矩阵的形式一致，便于后续的数据处理。

采用上述方式，对待处理文本分词后，抽取该分词特征以及该分词的词性特征，得到各分词的向量化表达，并形成矩阵，能够为后续的数据处理提供有效的数据支持。

在步骤12中，将目标文本矩阵输入至文本信息提取模型，以获得文本信息提取模型输出的信息提取结果。

其中，信息提取结果包括待处理文本中各分词的标签信息。标签信息可以用于指示分词类型，分词类型可以包括属性类、情感类、以及除属性类和情感类的其他类，如前文所述，属于属性类的分词用于描述功能或性能，属于情感类的分词用于对属于属性类的分词进行情感描述。

可选地，若分词的分词类型为属性类，该分词的标签信息还可以指示该分词的情感类型。也就是说，对于属性类的分词，其标签信息在能够反映其分词类型的基础上，还能同时反映该分词的情感类型。其中，分词类型和情感类型可以通过如关键字等标识信息加以区分。示例地，情感类型可以分为正面、中性、负面三种。

可选地，若分词的分词类型为属性类或情感类，该分词的标签信息还可以用于指示该分词在预设词中是否处于首位。其中，预设词为属于属性类或情感类的词或词组。示例地，若预设词为属性类的“发动机动力”，则其中“发动机”的标签信息指示其在该预设词中处于首位，“动力”的标签信息则指示其未在该预设词中处于首位。再例如，若预设词为情感类的“很难看”，则其中“很”的标签信息指示其在该预设词中处于首位，“难看”的标签信息指示其在该预设词中未处于首位。

示例地，图2A为文本中各个分词的标签信息示例，其中，属性类对应于Attr，情感类对应于Opin，其他类对应于O，在预设词中处于首位对应于B，未在预设词中处于首位对应于I，正面情感对应于Pos，中性情感对应于Neu，负面情感对应于Neg。如图2A所示，分词“发动机”的标签信息为B_Attr_Pos，“发动机”属于属性类、在预设词中处于首位、且情感类型为正面。再例如，文本中各个分词的标签信息还可以如图2B所示，其中，对应于各词的标签信息与图2A中所表征的意义相同，仅在标签信息的形式上存在区别。需要说明的是，图2A和图2B中的标签信息仅作为示例，本方法中的标签信息并不限于上述形式，能够实现区分即可，对于其他可能的示例，此处不再赘述。

通过分词的标签信息可以确定该分词是什么样的分词，例如，属于属性类或情感类或其他类，若属于属性类它的情感类型是什么。

在一种可能的实施方式中，文本信息提取模型可以通过如下方式获得：

将第二历史文本对应的历史文本矩阵作为输入数据、并将第二历史文本中各分词对应的历史标签信息作为输出数据，对深度神经网络模型进行训练，以获得文本信息提取模型。

第二历史文本可以取自待处理文本相关的语料库。第二历史文本对应的历史文本矩阵的获得方式与目标文本矩阵的获得方式原理相同，在前文中已有描述，此处不赘述。第二历史文本中各分词对应的历史标签信息可以人工进行标注，标签信息在前文也给出了相关描述，此处不再重复叙述。

由此，将第二历史文本对应的历史文本矩阵作为输入数据、将第二历史文本中各分词对应的历史标签信息作为输出数据，对深度神经网络模型进行训练，以获得文本信息提取模型。示例地，在模型训练时，基于tensorflow、mxnet、pytorch等学习框架对深度神经网络模型进行训练，采用一种或多种编码器(例如，LSTM、Transformer、BERT)进行编码，并通过解码器(例如，CRF)在每个分词的位置进行解码，以提取各分词位置对应的标签信息。需要说明的是，对深度神经网络模型进行训练的方式属于现有技术，为本领域技术人员公知，此处不赘述。

采用上述方式，基于已有数据进行模型训练以得到文本信息提取模型，在实际应用时，直接将相应数据输入文本信息提取模型，可得到文本信息提取模型输出的信息提取结果，应用简单且方便。

在步骤13中，根据待处理文本中分词类型为属性类的第一分词及其情感类型，确定待处理文本中的属性词以及各个属性词的情感类型。

其中，每个属性词由至少一个第一分词构成。属性词若由一个第一分词构成，属性词就是该第一分词。属性词若由一个以上第一分词构成，则属性词为这些第一分词所构成的合成词，并且，当属性词由一个以上第一分词构成时，构成属性词的这些第一分词在待处理文本中位置连续。

在一种可能的实施方式中，步骤13中的确定待处理文本中的属性词，可以包括以下步骤：

根据各个第一分词的标签信息及其在待处理文本中的位置，确定待处理文本中的属性词。

其中，在预设词中处于首位的第一分词在其所在的属性词中依然处于首位。

若第一分词的标签信息指示该第一分词在预设词中处于首位，则可以以该第一分词(后简称“开始词”)为属性词中的首个分词，并继续确定该属性词的剩余部分；

在一种情况中，若待处理文本中该开始词右侧的分词不属于属性类，则将该开始词确定为属性词。示例地，若一段文本{e1，e2，e3}对应的标签信息依次为{O，Begin1，O}，其中，O表示分词类型为其他类，Begin1表示分词类型为属性类且在预设词中处于首位，可知其中开始词为e2，并且，开始词e2右侧的分词e3不属于属性类，可直接确定分词e2为属性词。

在另一种情况中，若待处理文本中该开始词右侧的分词(后简称“右邻词”)属于属性类，且该右邻词的标签信息指示该分词在预设词中不处于首位，则以该右邻词为起点寻找属于属性类、且在预设词中不处于首位的连续的分词，并将寻找结果作为属性词的剩余部分。示例地，若一段文本{e4，e5，e6，e7，e8}对应的标签信息依次为{O，Begin1，Inside1，Inside1，O}，其中，O表示分词类型为其他类，Begin1表示分词类型为属性类且在预设词中处于首位，Inside1表示分词类型为属性类且在预设词中未处于首位，可知其中开始词为e5，并且，开始词e5的右邻词e6属于属性类且在预设词中不处于首位，从而可以以e6为起点寻找属于属性类、且在预设词中不处于首位的连续的分词，寻找结果为e6e7，可确定属性词的剩余部分为e6e7，最终确定的属性词为e5e6e7。

参照上述方法，即可确定出待处理文本中的所有属性词。

采用上述方式，利用第一分词的标签信息以及第一分词在待处理文本中的位置，可以迅速确定待处理文本中的各个属性词，效率高。

在一种可能的实施方式中，步骤13中的确定属性词的情感类型，可以包括以下步骤：

将构成属性词的首个第一分词对应的情感类型确定为属性词对应的情感类型。

一般来说，构成一个属性词的所有第一分词对应的情感类型是相同的，因此，可以直接将其中的一个第一分词对应的情感类型确定为该属性词的情感类型，例如，首个第一分词。若出现不同的情况，也可以采用上述方式，直接将其中首个第一分词对应的情感类型确定为属性词对应的情感类型。

通过上述方案，确定待处理文本对应的目标文本矩阵，并将目标文本矩阵输入至文本信息提取模型，以获得文本信息提取模型输出的信息提取结果，该信息提取结果包括待处理文本中各分词的标签信息。之后，根据待处理文本中分词类型为属性类的第一分词及其情感类型，确定待处理文本中的属性词以及各个属性词的情感类型。这样，根据文本信息提取模型的信息提取结果，能够同时得到待处理文本中属于属性类的分词以及这些分词的情感类型，从而得到待处理文本中的属性词及各属性词的情感类型，效率高且能保证准确率。

图3是根据本公开的另一种实施方式提供的文本信息提取方法的流程图。如图3所示，在图1所示步骤的基础上，本公开提供的方法还可以包括以下步骤。

在步骤31中，根据待处理文本中分词类型为情感类的第二分词，确定待处理文本中的情感词。

其中，每个情感词由至少一个第二分词构成。情感词若由一个第二分词构成，情感词就是该第二分词。情感词若由一个以上第二分词构成，则情感词为这些第二分词所构成的合成词，并且，当情感词由一个以上第二分词构成时，构成情感词的这些第二分词在待处理文本中位置连续。

在一种可能的实施方式中，根据各个第二分词的标签信息及其在待处理文本中的位置，确定待处理文本中的情感词。其中，确定情感词的方式与确定属性词的原理相同，在上文中已有描述，此处不再赘述。

在步骤32中，分别将每个属性词与每个情感词组合，获得属性情感词对。

每个属性情感词对中包含一个属性词和一个情感词。

示例地，若待处理文本中有属性词{m1，m2，m3，m4}且有情感词{n1，n2}，则组合后可得到8个属性情感词对，分别为：m1-n1，m1-n2，m2-n1，m2-n2，m3-n1，m3-n2，m4-n1，m4-n2。

在步骤33中，将属性情感词对和属性情感词对的位置信息输入至关联模型，以获得关联模型输出的关联结果。

其中，属性情感词对的位置信息用于指示属性情感词对中的属性词和情感词在待处理文本中的位置关系。例如，属性词和情感词各自在待处理文本中的位置、属性词和情感词在待处理文本中的距离、属性词和情感词是否处于同一个句子等。

关联结果用于指示各个属性情感词对中的属性词和情感词是否相关。属性词和情感词相关是指该情感词所描述的对象是该属性词。属性词和情感词是否相关可以通过位置反映，例如，相关的属性词和情感词一般位于同一句子、或者位置相近等。

在一种可能的实施方式中，关联模型可以通过如下方式获得：

将第一历史文本对应的历史属性情感词对和历史属性情感词对的位置信息作为输入数据、并将第一历史文本中各历史属性情感词对的历史关联结果作为输出数据，对深度神经网络模型进行训练，以获得关联模型。

第一历史文本可以取自待处理文本相关的语料库。第一历史文本和前文中的第二历史文本可以相同。第一历史文本对应的历史属性情感词对的获得方式与步骤32中获得属性情感词对的方式(以及，如何获得属性词、情感词等相关步骤)原理相同，在前文中已有描述，此处不赘述。第一历史文本中各历史属性情感词对的历史关联结果可以人工进行标注，也就是标注各历史属性情感词对是否相关。示例地，若第一历史文本为“A汽车的发动机动力强，但是外观很难看”，其中属性词为“发动机动力”和“外观”，情感词为“强”和“很难看”，其中，共有4个历史属性情感词对，分别为{发动机动力-强，发动机动力-很难看，外观-强，外观-很难看}，在人工标注时，将“发动机动力-强”和“外观-很难看”标注为相关，将“发动机动力-很难看”和“外观-强”标注为不相关。

由此，将第一历史文本对应的历史属性情感词对和历史属性情感词对的位置信息作为输入数据、并将第一历史文本中各历史属性情感词对的历史关联结果作为输出数据，对深度神经网络模型进行训练，以获得关联模型。示例地，在模型训练时，基于RandomForest、LSTM-attention、Recurrent Attention等学习方法对深度神经网络模型进行训练。

采用上述方式，基于已有数据进行模型训练以得到关联模型，在实际应用时，直接将相应数据输入该关联模型，就可以得到关联模型输出的关联结果，应用简单且方便。

在步骤34中，根据关联结果，确定目标属性情感词对。

目标属性情感词对就是指待处理文本中其属性词和情感词相关的属性情感词对。

在得到关联结果后，就可以从中挑选出其属性词和情感词相关的目标情感词对，供用户查看或使用。

采用上述方式，在确定待处理文本中的属性词及其情感类型后，还能够从待处理文本中关联提取出与各属性词相关的情感词，信息提取功能更加完善，方便用户对数据的查看及使用。

图4是根据本公开的一种实施方式提供的文本信息提取装置的框图。如图4所示，该装置40包括：

第一确定模块41，用于确定待处理文本对应的目标文本矩阵，其中，文本对应的文本矩阵包括该文本中各个分词对应的向量化表示；

第一处理模块42，用于将所述目标文本矩阵输入至文本信息提取模型，以获得所述文本信息提取模型输出的信息提取结果，所述信息提取结果包括所述待处理文本中各分词的标签信息，所述标签信息用于指示分词类型，所述分词类型包括属性类，以及，若分词的分词类型为所述属性类，该分词的标签信息还用于指示该分词的情感类型；

第二确定模块43，用于根据所述待处理文本中分词类型为所述属性类的第一分词及所述第一分词的情感类型，确定所述待处理文本中的属性词以及各个所述属性词的情感类型，其中，每个所述属性词由至少一个所述第一分词构成。

可选地，所述分词类型还包括情感类；

所述装置40还包括：

可选地，所述关联模型通过如下方式获得：

可选地，所述第一确定模块41包括：

可选地，所述文本信息提取模型通过如下方式获得：

所述第二确定模块43包括：

可选地，所述第二确定模块43包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

所述文本信息提取装置包括处理器和存储器，上述第一确定模块、第一处理模块、第二确定模块、第三确定模块、第四确定模块、第二处理模块、第五确定模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来更加快速且准确地实现文本信息提取，快速获得属性词及其情感。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述文本信息提取方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述文本信息提取方法。

本发明实施例提供了一种设备，如图5所示，设备70包括至少一个处理器701、以及与处理器701连接的至少一个存储器702、总线703；其中，处理器701、存储器702通过总线703完成相互间的通信；处理器701用于调用存储器702中的程序指令，以执行上述的文本信息提取方法。本文中的设备可以是服务器、PC等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

根据所述待处理文本中分词类型为所述属性类的第一分词及其情感类型，确定所述待处理文本中的属性词以及各个所述属性词的情感类型，其中，每个所述属性词由至少一个所述第一分词构成。

可选地，所述分词类型还包括情感类；

所述方法还包括：

将所述属性情感词对和所述属性情感词对的位置信息输入至关联模型，以获得所述关联模型输出的关联结果，所述关联结果用于指示各个所述属性情感词对中的属性词和情感词是否相关，以及，所述属性情感词对的位置信息用于指示所述属性情感词对中的属性词和情感词在所述待处理文本中的位置关系；

可选地，所述关联模型通过如下方式获得：

可选地，所述确定待处理文本对应的目标文本矩阵，包括：

可选地，所述文本信息提取模型通过如下方式获得：

所述确定所述待处理文本中的属性词，包括：

可选地，所述确定属性词的情感类型，包括：

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本信息提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述分词类型还包括情感类；

所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述关联模型通过如下方式获得：

4.根据权利要求1所述的方法，其特征在于，所述确定待处理文本对应的目标文本矩阵，包括：

5.根据权利要求1所述的方法，其特征在于，所述文本信息提取模型通过如下方式获得：

6.根据权利要求1所述的方法，其特征在于，若分词的分词类型为所述属性类，该分词的标签信息还用于指示该分词在预设词中是否处于首位；

所述确定所述待处理文本中的属性词，包括：

7.根据权利要求1所述的方法，其特征在于，所述确定属性词的情感类型，包括：

8.一种文本信息提取装置，其特征在于，所述装置包括：

9.一种存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种设备，其特征在于，所述设备包括：