CN109299457B

CN109299457B - 一种观点挖掘方法、装置及设备

Info

Publication number: CN109299457B
Application number: CN201811038933.4A
Authority: CN
Inventors: 谢忠玉
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2023-04-28
Anticipated expiration: 2038-09-06
Also published as: CN109299457A

Abstract

本发明实施例提供了一种观点挖掘方法、装置及设备，其中，该方法包括：获取待分析文本；基于预先训练的结合结构模型，确定待分析文本中的观点实体；其中，观点实体包括评价对象和评价词，结合结构模型是根据多个带有观点实体标记的第一训练样本训练得到的，且结合结构模型是长短期记忆网络LSTM和条件随机域CRF结合的模型；基于预先训练的实体关联模型，建立评价对象与评价词之间的关联，以确定待分析文本对应的观点；其中，实体关联模型是根据多个带有关系类别标记的第二训练样本训练得到的。通过本发明实施例提供的观点挖掘方法、装置及设备，能够降低观点挖掘过程的计算复杂度。

Description

一种观点挖掘方法、装置及设备

技术领域

本发明涉及互联网技术领域，特别是涉及一种观点挖掘方法、装置及设备。

背景技术

随着社交网络、移动互联网的不断普及，发布信息的成本越来越低，越来越多的用户乐于在互联网上分享自己的观点以及对于人物、事件、产品等的评论。而互联网公司等为了了解用户针对产品的反馈等，希望能够获取或挖掘用户所发布信息中包含的用户观点。

现有技术中对用户观点的挖掘，首先建立词语依存关系库，然后依据该词语依存关系库进行观点挖掘。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

现有技术在建立词语依存关系库的过程中，需要对文本进行分词，获取文本中的词语以及词语对应的词性，并对文本进行分句，对每个分句进行语法解析，分析语法结构；然后确定候选评价词语、候选评价对象，以及词语依存关系路径，进而建立词语依存关系库。可以看出，现有技术中词语依存关系库的建立过程比较复杂，进而使得观点挖掘过程比较复杂。

发明内容

本发明实施例的目的在于提供一种观点挖掘方法、装置及设备，以降低观点挖掘过程的计算复杂度。具体技术方案如下：

第一方面，本发明实施例提供了一种观点挖掘方法，包括：

获取待分析文本；

基于预先训练的结合结构模型，确定所述待分析文本中的观点实体；其中，所述观点实体包括评价对象和评价词，所述结合结构模型是根据多个带有观点实体标记的第一训练样本训练得到的，且所述结合结构模型是长短期记忆网络LSTM和条件随机域CRF结合的模型；

基于预先训练的实体关联模型，建立所述评价对象与所述评价词之间的关联，以确定所述待分析文本对应的观点；其中，所述实体关联模型是根据多个带有关系类别标记的第二训练样本训练得到的。

可选的，预先训练所述结合结构模型的步骤，包括：

获取多个第一训练样本；

针对每个第一训练样本，将该第一训练样本输入至预设结合结构模型，对所述预设结合结构模型进行训练，得到所述结合结构模型，其中，该第一训练样本中词语带有观点实体标记，所述预设结合结构模型是LSTM和CRF结合的模型。

可选的，预先训练所述实体关联模型的步骤，包括：

获取多个第二训练样本；

针对每个第二训练样本，将该第二训练样本输入至预设实体关联模型，对所述预设实体关联模型进行训练，得到所述实体关联模型，其中，该第二训练样本带有关系类别标记，所述关系类别标记用于标识评价对象与评价词之间是否有修饰关系。

可选的，在所述基于预先训练的结合结构模型，确定所述待分析文本中的观点实体之后，所述方法还包括：

将所述评价词与情感极性词典中包括的多个预设评价词进行匹配，其中，所述情感极性词典中包括多个预设评价词与情感极性的对应关系；

确定多个预设评价词中与所述评价词匹配的评价词为目标评价词；

从所述情感极性词典中查找所述目标评价词对应的情感极性，并确定该情感极性为所述评价词的情感极性。

可选的，在所述基于预先训练的实体关联模型，建立所述评价对象与所述评价词之间的关联，以确定所述待分析文本对应的观点之后，所述方法还包括：

基于预先训练的卷积神经网络CNN模型，确定所述观点对应的观点类别；其中，所述CNN模型是根据带有观点类别标记的多个第三训练样本训练得到的。

可选的，预先训练所述CNN模型的步骤，包括：

获取多个第三训练样本；

针对每个第三训练样本，将该第三训练样本输入至预设CNN模型，对所述预设CNN模型进行训练，得到所述CNN模型，其中，该第三训练样本带有观点类别标记。

基于第一相似词典，确定多个评价对象中的相似评价对象，并将所述相似评价对象对应的所述观点进行合并，其中，所述第一相似词典中包括相似评价对象类，所述相似评价对象类中包括预设相似评价对象；

基于第二相似词典，确定多个评价词中的相似评价词，并将所述相似评价词对应的所述观点进行合并，其中，所述第二相似词典中包括相似评价词类，所述相似评价词类中包括预设相似评价词。

可选的，所述观点实体标记包括通过序列标注方式进行标注的标记。

可选的，在所述获取待分析文本之后，所述方法还包括：

过滤所述待分析文本中的观点无关内容，得到过滤后待分析文本；

所述基于预先训练的结合结构模型，确定所述待分析文本中的观点实体，包括：

基于所述结合结构模型，确定所述过滤后待分析文本中的观点实体。

第二方面，本发明实施例提供了一种观点挖掘装置，包括：

第一获取模块，用于获取待分析文本；

第一确定模块，用于基于预先训练的结合结构模型，确定所述待分析文本中的观点实体；其中，所述观点实体包括评价对象和评价词，所述结合结构模型是根据多个带有观点实体标记的第一训练样本训练得到的，且所述结合结构模型是长短期记忆网络LSTM和条件随机域CRF结合的模型；

建立模块，用于基于预先训练的实体关联模型，建立所述评价对象与所述评价词之间的关联，以确定所述待分析文本对应的观点；其中，所述实体关联模型是根据多个带有关系类别标记的第二训练样本训练得到的。

可选的，所述装置还包括：

第二获取模块，用于获取多个第一训练样本；

第一训练模块，用于针对每个第一训练样本，将该第一训练样本输入至预设结合结构模型，对所述预设结合结构模型进行训练，得到所述结合结构模型，其中，该第一训练样本中词语带有观点实体标记，所述预设结合结构模型是LSTM和CRF结合的模型。

可选的，所述装置还包括：

第三获取模块，用于获取多个第二训练样本；

第二训练模块，用于针对每个第二训练样本，将该第二训练样本输入至预设实体关联模型，对所述预设实体关联模型进行训练，得到所述实体关联模型，其中，该第二训练样本带有关系类别标记，所述关系类别标记用于标识评价对象与评价词之间是否有修饰关系。

可选的，所述装置还包括：

匹配模块，用于将所述评价词与情感极性词典中包括的多个预设评价词进行匹配，其中，所述情感极性词典中包括多个预设评价词与情感极性的对应关系；

第二确定模块，用于确定多个预设评价词中与所述评价词匹配的评价词为目标评价词；

查找模块，用于从所述情感极性词典中查找所述目标评价词对应的情感极性，并确定该情感极性为所述评价词的情感极性。

可选的，所述装置还包括：

第三确定模块，用于基于预先训练的卷积神经网络CNN模型，确定所述观点对应的观点类别；其中，所述CNN模型是根据带有观点类别标记的多个第三训练样本训练得到的。

可选的，所述装置还包括：

第四获取模块，用于获取多个第三训练样本；

第三训练模块，用于针对每个第三训练样本，将该第三训练样本输入至预设CNN模型，对所述预设CNN模型进行训练，得到所述CNN模型，其中，该第三训练样本带有观点类别标记。

可选的，所述装置还包括：

第四确定模块，用于基于第一相似词典，确定多个评价对象中的相似评价对象；

第一合并模块，用于将所述相似评价对象对应的所述观点进行合并，其中，所述第一相似词典中包括相似评价对象类，所述相似评价对象类中包括预设相似评价对象；

第五确定模块，用于基于第二相似词典，确定多个评价词中的相似评价词；

第二合并模块，用于将所述相似评价词对应的所述观点进行合并，其中，所述第二相似词典中包括相似评价词类，所述相似评价词类中包括预设相似评价词。

可选的，所述装置还包括：

过滤模块，用于过滤所述待分析文本中的观点无关内容，得到过滤后待分析文本；

所述第一确定模块，具体用于基于所述结合结构模型，确定所述过滤后待分析文本中的观点实体。

第三方面，本发明实施例提供了一种观点挖掘设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述第一方面所述的方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法步骤。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法步骤。

本发明实施例提供的观点挖掘方法、装置及设备中，通过预先训练的结合结构模型，确定待分析文本中的观点实体，进而通过预先训练的实体关联模型，建立评价对象与评价词之间的关联，以确定待分析文本对应的观点。如此使得，在观点挖掘过程中无需为了建立词语依存关系库，而针对文本中的句子进行语法解析，分析语法结构等过程，能够降低观点挖掘过程的计算复杂度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的观点挖掘方法的一种流程图；

图2为本发明实施例中训练结合结构模型的流程图；

图3为本发明实施例中训练得到的结合结构模型的网络结构示意图；

图4为本发明实施例中训练实体关联模型的流程图；

图5为本发明实施例中确定观点情感的流程图；

图6为本发明实施例中训练用于确定观点类别的卷积神经网络的流程图；

图7为本发明实施例中确定观点类别的示意图；

图8为本发明实施例中相似观点合并的流程图；

图9为本发明实施例提供的观点挖掘方法的另一种流程图；

图10为本发明实施例提供的观点挖掘装置的结构示意图；

图11本发明实施例提供的观点挖掘设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

对于视频内容等，内容制作团队和运营团队等想要知道观众的反馈如何，观众的关注点在哪里，观众对于整个作品的各个方面进行了哪些点评等，可以通过对用户原创内容(User Generated Content，简称UGC)评论文本进行观点挖掘，从而有力地支持内容制作团队和运营团队等的工作。

在海量用户产生的评论信息中，挖掘用户的观点。目前挖掘观点信息的方式主要分为两大类：文档倾向性分类和信息抽取。文档倾向性分类主要侧重对文本进行情感分类研究，如褒义、贬义或中性，而信息抽取则关注于挖掘用户观点的各组成部分，如意见持有者、评价对象、评价词等。目前，比较常见的观点挖掘方式主要是信息抽取方式。

现有的一种方式中，首先建立词语依存关系库，然后依据该词语依存关系库进行观点挖掘。这种方式在建立词语依存关系库的过程中，需要对文本进行分词，获取文本中的词语以及词语对应的词性，并对文本进行分句，对每个分句进行语法解析，分析语法结构；然后确定候选评价词语、候选评价对象，以及词语依存关系路径，进而建立词语依存关系库。如此使得词语依存关系库的建立过程比较复杂，进而会造成观点挖掘过程比较复杂。

本发明实施例提供的观点挖掘方法中，通过预先训练的结合结构模型，确定待分析文本中的观点实体，进而通过预先训练的实体关联模型，建立评价对象与评价词之间的关联，以确定待分析文本对应的观点。如此，无需依赖词语依存关系库，进而也就无需针对文本中的句子进行语法解析，进行分析语法结构等过程而建立词语依存关系库。如此，通过本发明实施例提供的观点挖掘方法，能够降低观点挖掘过程的计算复杂度。且本发明实施例中无需前置依赖，如无需依赖于评价对象种子集合或者语法依存树等。

另外，本发明实施例中还提供了观点情感极性的判断过程、观点类别的确定过程以及相似观点合并等过程。如此，提出了一套比较完整的观点抽取与处理框架，能够更加丰富地挖掘待分析文本中的观点信息。

本发明实施例提供的观点挖掘方法可以应用于电子设备。具体地，该电子设备可以包括台式计算机、便携式计算机、智能移动终端等。如可以应用于下文所说的观点挖掘设备。为了能够更加清楚地理解本发明实施例的方案，下面对本发明实施例提供的观点挖掘方法进行详细说明。

本发明实施例提供了一种观点挖掘方法，如图1所示，包括：

S101，获取待分析文本。

待分析文本可以是多种形式的文本。例如，word格式、或TXT格式的文本等；或者可以是微博文本、或者视频客户端中用户针对视频的评论信息等等。

观点挖掘一般是针对用户对事件、产品等的评论信息，简单理解，也可以将待分析文本称为评论语料。

具体地，电子设备可以从微博评论区收集用户的评论信息；或者也可以从视频客户端的评论区中收集用户的评论信息；或者微博、视频客户端等在产生评论信息时，将评论信息保存在预设的文本中，当需要对评论信息进行分析时，电子设备直接从该预设的文本中获取待分析文本。本发明实施例中不对其作限制。

S102，基于预先训练的结合结构模型，确定待分析文本中的观点实体。

其中，观点实体包括评价对象和评价词。

结合结构模型是根据多个带有观点实体标记的第一训练样本训练得到的，且结合结构模型是长短期记忆网络((Long Short-Term Memory，简称LSTM)和条件随机域(Conditional Random Field，简称CRF)结合的模型。

观点实体标记可以包括多种形式的标记。如可以是仅标注有各个词语是评价对象或者评价词的标记；或者观点实体标记可以包括通过序列标注方式进行标注的标记，等等。

预先训练用于抽取观点实体的结合结构模型。如此针对待分析文本，可以基于预先训练的该结合结构模型，确定待分析文本中的观点实体。具体地，可以将待分析文本输入该结合结构模型，通过该结合结构模型得到待分析文本中的观点实体。

观点实体可以包括评价对象和评价词。评价对象即用户观点所作用的对象，评价词即观点中具体的评价。

一种可实现方式中，观点实体还可以包括评价主体，即作出评价的用户等。当需要抽取的观点实体中包括评价主体时，则在训练抽取观点实体的结合结构模型过程中，可以标注训练样本的评价主体，进而通过训练得到的结合结构模型，确定的观点实体中包括评价主体。

S103，基于预先训练的实体关联模型，建立评价对象与评价词之间的关联，以确定待分析文本对应的观点。

在抽取待分析文本中的观点实体后，进行关联操作，以确定待分析文本对应的观点。

具体地关联操作可以包括：建立评价对象与评价词之间的关联，即确定待分析文本中哪一个评价词修饰哪一个评价对象。简单理解，即建立评价词与评价对象之间的修饰关系。

其中，实体关联模型是根据多个带有关系类别标记的第二训练样本训练得到的。

根据多个带有关系类别标记的第二训练样本，预先训练用于建立评价对象与评价词之间关联的实体关联模型。如此针对确定的观点实体，如评价对象和评价词，通过预先训练的该实体关联模型，建立评价对象与评价词之间的关联，完成关联操作，如此可以确定待分析文本对应的观点。具体地，可以将确定的观点实体输入该实体关联模型，通过该实体关联模型建立评价对象与评价词之间的关联，确定待分析文本对应的观点。

实体关联模型可以是基于不同网络结构的预设模型训练得到的对应网络结构的模型。如可以是门控循环单元(Gated Recurrent Unit，简称GRU)神经网络结构模型，可以是注意力模型(Attention Model)，或者也可以是GRU与Attention结构结合的模型，等等。

本发明实施例中，通过预先训练的结合结构模型，确定待分析文本中的观点实体，进而通过预先训练的实体关联模型，建立评价对象与评价词之间的关联，以确定待分析文本对应的观点。如此使得，在观点挖掘过程中无需为了建立词语依存关系库，而针对文本中的句子进行语法解析，分析语法结构等过程，能够降低观点挖掘过程的计算复杂度。

在上述实施例的基础上，本发明还可以包括预先训练结合结构模型的过程，具体地，如图2所示，可以包括：

S201，获取多个第一训练样本。

类似于待分析文本，第一训练样本可以是多种形式的文本。例如，word格式、或TXT格式的文本等；或者可以包括微博文本、或者视频客户端中用户针对视频的评论信息等等。

为了提高训练的准确性，电子设备获取多个第一训练样本，如500个、1000个、2000等等。

S202，针对每个第一训练样本，将该第一训练样本输入至预设结合结构模型，对预设结合结构模型进行训练，得到结合结构模型。

其中，该第一训练样本中词语带有观点实体标记，预设结合结构模型是LSTM和CRF结合的模型。

获取第一训练样本后，可以对第一训练样本进行标记。一种可实现方式中，可以通过人工标记的方式进行标记。

具体地，可以针对第一训练样本中的词语，对属于评价对象或评价词的词语进行标记，该标记即为观点实体标记。本发明一种可选的实施例中，可以通过序列标注方式进行标记，如可以通过BIO(begin inside others)标注体系进行标记。具体如下：

B_T：begin of the target，表示属于评价对象target，在第一训练文本开始；

I_T：inside the target，表示属于target，在第一训练文本中间；

B_O：begin of the opinion，表示属于评价词opinion，在第一训练文本开始；

I_O：inside the opinion，表示属于opinion，在第一训练文本中间；

O：others，表示不属于target也不属于opinion。

且为了能够对训练得到的结果进行验证，保证训练得到的结合结构模型的准确性，本发明实施例中可以将第一训练样本分为训练集和测试集。训练集中第一训练样本用于训练过程，测试集中的第一训练样本用于验证训练结果。

因为LSTM和CRF结合的结合结构模型在序列标注任务中有着较好的表现，本发明实施例中，通过将带有标注的第一训练样本输入至预设结合结构模型，对预设结合结构模型进行训练，得到结合结构模型。

具体地，预设结合结构模型可以包括待测参数，将第一训练样本输入预设结合结构模型，调整待测参数，以使预设结合结构模型的输出无限逼近于预先标注的观点实体标记，如预设结合结构模型的输出与观点实体标记之间的代价函数收敛时，确定待测参数，得到的包括确定的待测参数的预设结合结构模型即为训练得到的结合结构模型。其中，待测参数可以包括：隐藏层层数，隐藏层神经元的数量，批尺寸，学习速率，和/或迭代次数，等等。

本发明实施例中预设结合结构模型是LSTM和CRF结合的网络模型，且在训练的过程中对第一训练样本是通过BIO标注体系进行标记的。因此，本发明实施例中训练得到的用于抽取观点实体的结合结构模型可以为Bi-LSTM+CRF模型。

另外，为了避免第一训练样本中的噪声信息，如表情符，或微博文本中的“@......”内容等对训练结果的影响，一种可实现方式中，在对第一训练样本进行标注前，先对第一训练样本进行预处理，具体地，可以过滤第一训练样本中的噪声信息。

具体地，训练得到的Bi-LSTM+CRF的网络结构如图3所示。训练得到该Bi-LSTM+CRF模型后，将待分析文本输入该Bi-LSTM+CRF模型，即可抽取出待分析文本中的观点实体，如评价对象和评价词。如，待分析文本包括：“我爱中国”；经过Bi-LSTM+CRF模型中Bi-LSTM隐藏层encoder，具体地，encoder包括后向隐藏层，前向隐藏层，和分类层；其中，后向隐藏层包括多个后向隐层单元，后向隐层单元包括参数L₁；前向隐藏层包括多个前向隐层单元，前向隐层单元包括参数R₁；分类层包括多个分类单元，分类单元包括参数c₁、c₂、c₃、和c₄；最终以BIO标注形式在CRF层输出该待分析文本中的评价对象和评价词，如“我”对应O，“爱”对应B-O，“中”对应B-T，“国”对应I-T。

本发明实施例中预先训练用于抽取观点实体的结合结构模型，然后基于该结合结构模型确定待分析文本中的观点实体，结合LSTM和CRF的特点，能够快速地确定待分析文本中的观点实体，且能够提高观点实体确定的准确度。且基于信息的挖掘，抽取评价对象，可以准确的定位用户的观点作用对象，评价词的抽取则可以更具体、更具有针对性确定观点。

在上述实施例的基础上，本发明还可以包括预先训练实体关联模型的过程，具体地，如图4所示，可以包括：

S401，获取多个第二训练样本。

第二训练样本可以包括多个评价对象与评价词之间两两组合得到的文本等。

为了提高训练的准确性，电子设备获取多个第二训练样本，如500个、1000个、2000等等。

S402，针对每个第二训练样本，将该第二训练样本输入至预设实体关联模型，对预设实体关联模型进行训练，得到实体关联模型。

其中，该第二训练样本带有关系类别标记，关系类别标记用于标识评价对象与评价词之间是否有修饰关系。

获取第二训练样本后，可以对第二训练样本进行标记，具体地，标记该第二训练样本中评价对象与评价词存在修饰关系或者不存在修饰关系，也可以理解为非修饰关系。一种可实现方式中，可以通过人工标记的方式进行标记。

分析第三训练样本得到对应的<评价对象target，评价词opinion，关系类别标记sentence>三元组，并将该三元组作为训练时预设实体关联模型的输入，输出为关系类别；预设实体关联模型包括待测参数，调整待测参数，直至预设实体关联模型输出的关系类别与输入中的关系类别标记匹配，此时，包括确定待测参数的预设实体关联模型即为训练得到的实体关联模型。

本发明一种可实现方式中，预设实体关联模型可以是GRU与Attention结构结合的模型。使用双向GRU、字与句子的双重Attention模型，以天然适配中文特性的字向量(character embedding)作为输入；另一种可实现方式中，句子级别的Attention模型中多个样本句子作为输入，如此可以更好的应对句子中错误标注所带来的噪声。

本发明实施例中通过预先训练的实体关联模型，完成观点实体之间的关联操作，并引入关系抽取过程，且将观点实体之间关系的抽取转换为判断观点实体中评价对象与评价词是否是修饰关系的分类问题，以实现启发式关联。如此，能够快速地实现对观点实体之间的关联，以抽取待分析文本中的观点。同时，能够提高挖掘过程中的准确率和召回率。

在上述实施例的基础上，本发明还可以包括观点情感判断的过程，且本发明一种可选的实现方式中，电子设备可以通过观点情感判断模块实现该观点情感判断的过程。

具体地，在步骤S102：基于预先训练的结合结构模型，确定待分析文本中的观点实体之后，如图5所示，还可以包括：

S501，将评价词与情感极性词典中包括的多个预设评价词进行匹配。

其中，情感极性词典中包括多个预设评价词与情感极性的对应关系。

评价词一般情况下集中在高频出现的形容词或者动词中，一种可实现方式中，可以预先分析有可能是观点中评价词的词语的情感极性，也即预设评价词的情感极性，并将其保存在情感极性词典中，以便于在确定待分析文本的评价词后，通过将评价词与情感极性词典中包括的多个预设评价词进行匹配，而确定评价词的情感极性。

将评价词依次与情感极性词典中包括的多个预设评价词进行匹配。具体地，可以比较该评价词是否与情感极性词典中包括的预设评价词相同、或者意思相同、相近等。

S502，确定多个预设评价词中与评价词匹配的评价词为目标评价词。

具体地，当情感极性词典中包括的预设评价词与该评价词相同、或者意思相同、相近时，确定该预设评价词为目标评价词。

S503，从情感极性词典中查找目标评价词对应的情感极性，并确定该情感极性为评价词的情感极性。

因为情感极性词典中包括多个预设评价词与情感极性的对应关系，当确定出目标评价词后，从该情感极性词典中即可查找到该目标评价词对应的情感极性。且目标评价词与待分析文中抽取的评价词匹配，则可确定目标评价词对应的情感极性即为评价词的情感极性。

其中，情感极性可以包括褒义、贬义或者中性等。

确定观点的情感极性后即可得到三元组<target，opinion，sentiment>，其中，target表示评价对象，opinion表示评价词，sentiment表示情感极性。

本发明实施例中，在抽取待分析文本中的观点实体后，还可以对评价词的情感极性进行判断，如此能够更加全面地挖掘待分析文本中观点的信息。且能够进一步丰富观点处理框架。

在上述实施例的基础上，本发明还可以包括确定观点类别的过程。具体地，在步骤S103：基于预先训练的实体关联模型，建立评价对象与评价词之间的关联，以确定待分析文本对应的观点之后，还可以包括：

基于预先训练的卷积神经网络(Convolutional Neural Networks，简称CNN)模型，确定观点对应的观点类别。

其中，CNN模型是根据带有观点类别标记的多个第三训练样本训练得到的。

具体地，预先训练CNN模型的步骤，如图6所示，包括：

S601，获取多个第三训练样本。

类似于待分析文本，第三训练样本可以是多种形式的文本。例如，word格式、或TXT格式的文本等；或者可以包括微博文本、或者视频客户端中用户针对视频的评论信息等等。

或者，第三训练样本可以包括通过上述实施例确定的评价对象与评价词组成的文本等。

为了提高训练的准确性，电子设备获取多个第三训练样本，如500个、1000个、2000等等。

S602，针对每个第三训练样本，将该第三训练样本输入至预设CNN模型，对预设CNN模型进行训练，得到CNN模型。

其中，该第三训练样本带有观点类别标记。

观点类别标记用于标识观点所属的类别。具体地，观点类别标记可以包括用于标识褒义评价的标记、用于标识贬义评价的标记、或者用于标识中性评价的标记等等。或者，在视频内容评价领域，观点类别标记可以包括用于标识属于对演员的评价的标记，用于标识属于对剧情的评价的标记，等等。本发明实施例不对其作限制。

获取第三训练样本后，可以对第三训练样本进行标记。一种可实现方式中，可以通过人工标记的方式进行标记。

具体地，预设CNN模型可以包括待测参数，将第三训练样本输入预设CNN模型，调整待测参数，以使预设CNN模型的输出无限逼近于预先标注的观点类别标记，如预设CNN模型的输出与观点类别标记之间的代价函数收敛时，确定待测参数，得到的包括确定的待测参数的预设CNN模型即为训练得到的CNN模型。其中，待测参数可以包括：隐藏层层数，隐藏层神经元的数量，批尺寸，学习速率，和/或迭代次数，等等。

训练得到CNN模型后，基于该CNN模型确定待分析文本对应的观点类别，也可以理解为将该待分析文本对应的观点分类至观点类别中。如此，在上述实施例确定观点情感极性的基础上，可以得到四元组<target，opinion，sentiment，class_label>，其中，target表示评价对象，opinion表示评价词，sentiment表示情感极性，class_label表示观点类别。

基于CNN模型可以实现观点的分类，进一步可以实现相同类别观点的聚类等。如此能够更加全面地挖掘待分析文本中观点的信息。且能够进一步丰富观点处理框架。

一种可实现方式中，如图7所示，通过预先训练的CNN模型，确定观点类别。

如输入文本：评价对象：“A的长相”，其中，A指代演员名，和评价词：“自带喜剧效果”组成的文本；经过卷积层、池化层以及全连接层，其中，卷积层包括文本映射和词性映射，最终输出输入文本中观点对应的观点类别，例如，属于对演员的评价等等。

在上述实施例的基础上，本发明还可以包括相似观点合并的过程。具体地，在步骤103：基于预先训练的实体关联模型，建立评价对象与评价词之间的关联，以确定待分析文本对应的观点之后，如图8所示，还可以包括：

S801，基于第一相似词典，确定多个评价对象中的相似评价对象，并将相似评价对象对应的观点进行合并。

其中，第一相似词典中包括相似评价对象类，相似评价对象类中包括预设相似评价对象。

具体地，可以针对近义词，和/或别名进行合并，即多个相似评价对象中属于近义词或别名描述的即为相似评价对象。如完整剧名与剧名简称：速度与激情7与速7；如演员名与其昵称：B与小哇，黄老邪与黄药师等等。

具体地，第一相似词典可以包括别名字典，和/或近义词字典，通过判断别名字典，和/或近义词字典中是否存在相关别名或者近义词记录，如果存在，则认为是近义词描述，或者别名描述，则对属于近义词描述，或者别名描述的相似评价对象对应的观点进行合并。

S802，基于第二相似词典，确定多个评价词中的相似评价词，并将相似评价词对应的观点进行合并。

其中，第二相似词典中包括相似评价词类，相似评价词类中包括预设相似评价词。

具体地，可以针对近义词，和/或别名进行合并，即多个相似评价词中属于近义词描述或者别名描述的即为相似评价词。主要是一些形容词之间近义词的合并，例如，精彩绝伦与精彩。

具体地，第二相似词典可以包括别名字典，和/或近义词字典，通过判断别名字典，和/或近义词字典中是否存在相关别名或者近义词记录，如果存在，则认为是近义词描述，或者别名描述，则对属于近义词描述，或者别名描述的相似评价词对应的观点进行合并。

需要说明的是，本发明实施例中步骤S801以及步骤S802的执行没有先后顺序的要求，可以先执行步骤S801，再执行步骤S802；或者也可以先执行步骤S802，再执行步骤S801；或者可以同时执行步骤S801和步骤S802。本发明实施例不对其作限制。

本发明实施例中，通过对相似评价对象以及相似评价词对应的观点进行合并，方便对相同意思的表达进行统计和展示，从而更准确的展示用户的关注点及其热度。如此能够更加全面地挖掘待分析文本中观点的信息。且能够进一步丰富观点处理框架。

本发明实施例一种可选的实施例中，如图9所示，在步骤101：获取待分析文本之后，还可以包括：

S104，过滤待分析文本中的观点无关内容，得到过滤后待分析文本。

也可以理解为对待分析文本进行预处理。

其中，观点无关内容可以理解为不影响观点表达的内容，具体地可以包括不影响观点抽取的内容。如可以包括表情符、统一资源定位符(Uniform Resource Locator，简称URL)链接、和/或特殊字符等。例如，针对微博文本，过滤掉类似“@***”这种艾特某个用户的文本，因为这种类型的文本对于观点抽取会产生干扰。

步骤102：基于预先训练的结合结构模型，确定待分析文本中的观点实体，可以包括：

S1020，基于结合结构模型，确定过滤后待分析文本中的观点实体。

步骤103：基于预先训练的实体关联模型，建立评价对象与评价词之间的关联，以确定待分析文本对应的观点，可以包括：

S1030，基于实体关联模型，建立评价对象与评价词之间的关联，以确定过滤后待分析文本对应的观点。

具体地，步骤S1020与上述实施例中步骤S102类似，S1030与上述实施例中步骤S103类似，这里就不再赘述。

本发明实施例中，在进行观点抽取之前，先过滤掉对观点抽取没有作用的噪音信息，如观点无关内容，能够提高观点抽取的精度。

本发明实施例还提供了一种观点挖掘装置，如图10，包括：

第一获取模块1001，用于获取待分析文本；

第一确定模块1002，用于基于预先训练的结合结构模型，确定待分析文本中的观点实体；其中，观点实体包括评价对象和评价词，结合结构模型是根据多个带有观点实体标记的第一训练样本训练得到的，且结合结构模型是长短期记忆网络LSTM和条件随机域CRF结合的模型；

建立模块1003，用于基于预先训练的实体关联模型，建立评价对象与评价词之间的关联，以确定待分析文本对应的观点；其中，实体关联模型是根据多个带有关系类别标记的第二训练样本训练得到的。

可选的，该装置还包括：

第二获取模块，用于获取多个第一训练样本；

第一训练模块，用于针对每个第一训练样本，将该第一训练样本输入至预设结合结构模型，对预设结合结构模型进行训练，得到结合结构模型，其中，该第一训练样本中词语带有观点实体标记，预设结合结构模型是LSTM和CRF结合的模型。

可选的，该装置还包括：

第三获取模块，用于获取多个第二训练样本；

第二训练模块，用于针对每个第二训练样本，将该第二训练样本输入至预设实体关联模型，对预设实体关联模型进行训练，得到实体关联模型，其中，该第二训练样本带有关系类别标记，关系类别标记用于标识评价对象与评价词之间是否有修饰关系。

可选的，该装置还包括：

匹配模块，用于将评价词与情感极性词典中包括的多个预设评价词进行匹配，其中，情感极性词典中包括多个预设评价词与情感极性的对应关系；

第二确定模块，用于确定多个预设评价词中与评价词匹配的评价词为目标评价词；

查找模块，用于从情感极性词典中查找目标评价词对应的情感极性，并确定该情感极性为评价词的情感极性。

可选的，该装置还包括：

第三确定模块，用于基于预先训练的卷积神经网络CNN模型，确定观点对应的观点类别；其中，CNN模型是根据带有观点类别标记的多个第三训练样本训练得到的。

可选的，该装置还包括：

第四获取模块，用于获取多个第三训练样本；

第三训练模块，用于针对每个第三训练样本，将该第三训练样本输入至预设CNN模型，对预设CNN模型进行训练，得到CNN模型，其中，该第三训练样本带有观点类别标记。

可选的，该装置还包括：

第一合并模块，用于将相似评价对象对应的观点进行合并，其中，第一相似词典中包括相似评价对象类，相似评价对象类中包括预设相似评价对象；

第二合并模块，用于将相似评价词对应的观点进行合并，其中，第二相似词典中包括相似评价词类，相似评价词类中包括预设相似评价词。

可选的，观点实体标记包括通过序列标注方式进行标注的标记。

可选的，该装置还包括：

过滤模块，用于过滤待分析文本中的观点无关内容，得到过滤后待分析文本；

第一确定模块1002，具体用于基于结合结构模型，确定过滤后待分析文本中的观点实体。

需要说明的是，本发明实施例提供的观点挖掘装置是应用上述观点挖掘方法的装置，则上述观点挖掘方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

本发明实施例还提供了一种观点挖掘设备，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101，通信接口1102，存储器1103通过通信总线1104完成相互间的通信。

存储器1103，用于存放计算机程序；

处理器1101，用于执行存储器1103上所存放的程序时，实现上述观点挖掘方法的方法步骤。

上述观点挖掘设备提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述观点挖掘设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述观点挖掘方法的方法步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述观点挖掘方法的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种观点挖掘方法，其特征在于，包括：

获取待分析文本；

基于预先训练的实体关联模型，建立所述评价对象与所述评价词之间的关联，以确定所述待分析文本对应的观点；其中，所述实体关联模型是根据多个带有关系类别标记的第二训练样本训练得到的；

在所述基于预先训练的实体关联模型，建立所述评价对象与所述评价词之间的关联，以确定所述待分析文本对应的观点之后，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，预先训练所述结合结构模型的步骤，包括：

获取多个第一训练样本；

3.根据权利要求1所述的方法，其特征在于，预先训练所述实体关联模型的步骤，包括：

获取多个第二训练样本；

4.根据权利要求1所述的方法，其特征在于，在所述基于预先训练的结合结构模型，确定所述待分析文本中的观点实体之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，在所述基于预先训练的实体关联模型，建立所述评价对象与所述评价词之间的关联，以确定所述待分析文本对应的观点之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，预先训练所述CNN模型的步骤，包括：

获取多个第三训练样本；

7.根据权利要求1至6任一项所述的方法，其特征在于，所述观点实体标记包括通过序列标注方式进行标注的标记。

8.根据权利要求1至6任一项所述的方法，其特征在于，在所述获取待分析文本之后，所述方法还包括：

9.一种观点挖掘装置，其特征在于，包括：

第一获取模块，用于获取待分析文本；

建立模块，用于基于预先训练的实体关联模型，建立所述评价对象与所述评价词之间的关联，以确定所述待分析文本对应的观点；其中，所述实体关联模型是根据多个带有关系类别标记的第二训练样本训练得到的；

所述装置还包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第二获取模块，用于获取多个第一训练样本；

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第三获取模块，用于获取多个第二训练样本；

12.根据权利要求9所述的装置，其特征在于，所述装置还包括：

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

第四获取模块，用于获取多个第三训练样本；

15.根据权利要求9至14任一项所述的装置，其特征在于，所述观点实体标记包括通过序列标注方式进行标注的标记。

16.根据权利要求9至14任一项所述的装置，其特征在于，所述装置还包括：

17.一种观点挖掘设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。