CN111914536B

CN111914536B - 观点分析方法、装置、设备及存储介质

Info

Publication number: CN111914536B
Application number: CN202010785575.4A
Authority: CN
Inventors: 孙铭阳
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2021-12-17
Anticipated expiration: 2040-08-06
Also published as: CN111914536A

Abstract

本公开的实施例提供一种观点分析方法、装置、设备及存储介质。该方法包括：获取针对目标对象的多个评论文本；对多个评论文本进行第一聚类；根据第一聚类得到的多个簇，在多个评论文本中获得多个评论观点句；对多个评论观点句进行第二聚类；根据第二聚类得到的多个簇，在多个评论观点句中获得针对目标对象的评论观点。本公开的实施例的方法，提高了观点分析的准确度。

Description

观点分析方法、装置、设备及存储介质

技术领域

本公开的实施例涉及计算机领域中的自然语言领域、大数据领域，尤其涉及一种观点分析方法、装置、设备及存储介质。

背景技术

在互联网时代，网络为人们提供了发表个人观点的开放平台。

针对一个公司或者产品，网络上每天可能产生数以万计的评论数据，人工一条条阅读这些评论数据来得知人们观点的方式，时间和经济成本太高。为提高观点分析效率，通常采用神经网络模型进行观点分析。

神经网络模型的性能表现依赖于大量的先验知识或者训练数据，在有限的自然语言文本分类任务上表现较好。然而，观点分析任务是挖掘海量的自然语言文本中的未知观点，且观点具有时效性，因此，神经网络模型在观点分析任务上的观点分析准确度不高。

发明内容

本公开的实施例提供一种观点分析方法、装置、设备及存储介质，用以解决观点分析准确度不高的问题。

第一方面，本公开的实施例提供一种观点分析方法，包括：

获取针对目标对象的多个评论文本；

对所述多个评论文本进行第一聚类；

根据所述第一聚类得到的多个簇，在所述多个评论文本中获得多个评论观点句；

对所述多个评论观点句进行第二聚类；

根据所述第二聚类得到的多个簇，在所述多个评论观点句中获得针对所述目标对象的评论观点。

第二方面，本公开的实施例提供一种观点分析装置，包括：

获取模块，用于获取针对目标对象的多个评论文本；

第一聚类模块，用于对所述多个评论文本进行第一聚类，根据所述第一聚类得到的多个簇，在所述多个评论文本中获得多个评论观点句；

第二聚类模块，用于对所述多个评论观点句进行第二聚类，根据所述第二聚类得到的多个簇，在所述多个评论观点句中获得针对所述目标对象的评论观点。

第三方面，本公开的实施例提供了一种电子设备，包括：

存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用所述存储器中的程序指令执行如上述第一方面所述的方法。

第四方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时，实现如上述第一方面所述的方法。

第五方面，本公开的实施例提供了一种包含指令的程序产品，所述程序产品包括计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法。

本公开的实施例提供的观点分析方法、装置、设备及存储介质，对针对目标对象的多个评论文本进行第一聚类，得到多个评论观点句，再对多个评论观点句进行第二聚类，得到针对目标对象的评论观点。因此，通过对评论文本进行聚类的方式，在不依赖于先验知识或者训练数据的前提下，对海量的评论文本进行无监督的观点聚类，聚类得到的评论观点能够体现评论文本的时效性。此外，还通过包括第一聚类和第二聚类的两级聚类，有效地提高观点聚类效果。因此，本公开的实施例有效地提高了观点分析的准确度。

本公开的各种可行实施例及其技术优势将在下文详述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本公开的实施例适用的网络架构示意图；

图2为本公开的一实施例提供的观点分析方法的流程示意图；

图3为本公开的另一实施例提供的观点分析方法的流程示意图；

图4为本公开的另一实施例提供的观点分析方法的流程示意图；

图5为本公开的一实施例提供的观点分析装置的结构示意图；

图6为本公开的一实施例提供的一种电子设备的结构示意图；

图7为本公开的一实施例提供的观点分析装置的框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

互联网时代也是信息爆炸时代，针对目标对象(例如歌手的作品、公司的产品)，互联网上每天可能产生数以万计的评论数据，这些评论数据可以反映人们针对目标对象的看法或者观点，这些观点有利于目标对象的改进。

在信息爆炸时代，仅靠人工阅读用户评论并从中抽取重要观点，显得不太现实。为了提高观点分析效率，通常采用神经网络模型进行观点分析。例如，先获取评论文本，通过神经网络模型生成评论文本的句向量，再基于句向量进行观点分析。神经网络模型在自然语言处理中的性能表现依赖于大量的先验知识或训练数据，因此，神经网络模型在有限的自然语言文本分类任务上表现较好。观点分析任务是挖掘海量的自然语言文本中的未知观点，且观点具有时效性，经过大量的先验知识训练得到的神经网络模型在观点分析任务上的观点分析准确度不高。此外，还可通过在评论文本中提取目标对象和针对目标对象的描述，将针对目标对象的描述作为该评论文本中的评论观点，但该方式依赖于文本分词和词性标准的准确性，在中文观点分析中该方式的观点分析准确度不高。

本公开的实施例提供的观点分析方法，通过对针对目标对象的多个评论文本进行第一聚类，得到多个评论观点句，通过对多个观点句进行第二聚类，得到针对目标对象的评论观点，实现在不依赖于先验知识或者训练数据的前提下，对海量的评论文本进行无监督的观点聚类，聚类得到的评论观点能够体现评论文本的时效性，并且通过包括第一聚类和第二聚类的两级聚类，有效地提高观点聚类效果，从而有效地提高了观点分析的准确度。

本公开的实施例提供的观点评论方法，可以适用于图1所示的网络架构示意图。如图2所示，该网络架构包括：终端设备101和服务器102，终端设备101与服务器102之间建立网络通信。可预先从网络上采集针对目标对象的大量的评论文本，将这些评论文本存储在服务器102上，在进行观点分析时，终端设备101可从服务器102中获取这些评论文本、并对这些评论文本进行观点分析，也可直接在服务器102中对这些评论文本进行观点分析，得到针对目标对象的评论观点。

其中，终端设备可为具有数据处理功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer，简称PC))、可穿戴设备(例如智能手表、智能手环)等。服务器可以为集中式服务器，也可以为分布式服务器，还可以为云端服务器。

下面以具体地实施例对本公开的实施例的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例的实施例进行描述。

图2为本公开的一实施例提供的观点分析方法的流程示意图。如图2所示，该方法包括：

S201、获取针对目标对象的多个评论文本。

其中，目标对象可以为作品、产品、公司、个人等，评论文本为预先从一个或多个网络平台上采集得到，例如，在目标对象为产品时，可以在该产品的购买页面上，采集到针对该产品的评论文本，也可以在社交平台上，以该产品的名称作为关键词，采集得到针对该产品的评论文本。可将采集得到的评论文本进行本地存储、也可以进行远程或者云端存储。一个评论文本可为一个句子，也可包括多个句子。

具体的，获取预先采集的针对目标对象的多个评论文本。

S202、对多个评论文本进行第一聚类。

具体的，在获得针对目标对象的多个评论文本后，可采用自然语言处理(NaturalLanguage Processing，简称NLP)方式，提取各个评论文本的文本特征，对多个评论文本的文本特征进行聚类，以将相似的文本特征聚类至同一簇中。为了便于区分，将对多个评论文本的聚类称为第一聚类，将后续对多个评论观点句的聚类称为第二聚类。因此，通过第一聚类，将属于同一观点的评论文本对应的文本特征聚类至同一个簇中，得到多个簇。

S203、根据第一聚类得到的多个簇，在多个评论文本中获得多个评论观点句。

具体的，可从第一聚类得到的每个簇中，分别选取一个评论文本的文本特征，将从每个簇中选取的文本特征所对应的评论文本，确定为每个簇的评论观点句，得到多个评论观点句。在从每个簇中分别选取一个评论文本的文本特征时，可在各个簇中，根据当前簇中多个评论文本的文本特征的分布，选取距离当前簇的中心最近的文本特征。

S204、对多个评论观点句进行第二聚类。

具体的，由于评论文本存在词句表述通常偏口语化、噪声较多等缺点，对评论文本进行第一聚类得到的多个簇可能出现表述观点相同的现象，导致获取的多个评论观点句之间存在观点冗余。为降低观点冗余，提高观点分析的准确度，可对多个评论观点句进行第二聚类。

具体的，在对多个评论观点句进行第二聚类的过程中，可采用自然语言处理方式，提取各个评论观点句的文本特征，对多个评论观点句的文本特征进行第二聚类，以在多个评论观点句的文本特征中将相似的文本特征聚类至同一簇中。因此，通过第二聚类，将属于同一观点的评论观点句对应的文本特征聚类至同一个簇中，得到多个簇。

S205、根据第二聚类得到的多个簇，在多个评论观点句中获得针对目标对象的评论观点。

具体的，可从第二聚类得到的每个簇中，分别选取一个评论观点句的文本特征，将从每个簇中选取的文本特征所对应的评论观点句，确定为每个簇对应的评论观点，得到针对目标对象的多个评论观点。

具体的，在从第二聚类得到的每个簇中分别选取一个评论观点的文本特征的过程中，可在第二聚类得到的各个簇中，根据当前簇中多个评论观点句的文本特征的分布，选取距离当前簇的中心最近的文本特征。

本公开实施例中，对多个评论文本进行第一聚类，得到多个评论观点句，对多个评论观点句进行第二聚类，得到针对目标对象的评论观点。因此，通过聚类方式，在不依赖于先验知识的前提下，对海量的评论文本进行无监督的观点聚类，在评论文本随着时间发生更新后，能够及时分析得到紧跟时间变化的评论观点，而且通过包括第一聚类和第二聚类的两级聚类，提高了聚类效果，进而提高了观点分析的准确度。

图3为本公开的另一实施例提供的观点分析方法的流程示意图。如图3所示，该方法包括：

S301、获取针对目标对象的多个评论文本。

具体的，步骤S301可参照步骤S201的描述，不再赘述。

S302、在词级别上，将多个评论文本转换为对应的第一文本向量。

其中，为了便于区分，将多个评论文本对应的文本向量称为第一文本向量，将后续得到的多个评论观点句对应的文本向量称为第二文本向量。多个评论文本对应的第一文本向量为多个评论文本对应的句向量，多个评论观点句对应的第二文本向量为多个评论观点句对应的句向量。

具体的，在获得针对目标对象的多个评论文本后，可对多个评论文本进行分词处理，即将各个评论文本划分为多个词语，再依据各个评论文本中划分得到的词语，将各个评论文本转换为相应的句向量，即得到各个评论文本对应的第二文本向量。

在一个可行的实施方式中，在对多个评论文本进行分词处理之前，可对多个评论文本进行预处理，去除多个评论文本中的预设的特殊符号和预设的敏感词，以降低评论文本的数据冗余和噪声数据，提高观点分析的准确度。例如，去除多个评论文本中的标点符号(句号、逗号、冒号、问号等)，又如，去除多个评论文本中的英文和数字；又如，去除评论文本中的公司名称。

S303、对第一文本向量进行聚类。

具体的，可预设的聚类算法和预设的聚类阈值，对多个评论文本对应的第一文本向量进行聚类，以将同一观点的第一文本向量聚类至同一簇中，得到对第一文本向量进行聚类后的多个簇。

在一个可行的实施方式中，聚类算法可采用具有噪声的基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise，简称DBSCAN密度聚类算法)，其中，聚类阈值为DBSCAN密度聚类算法中的距离阈值，从而将第一文本向量进行密度聚类，通过DBSCAN密度聚类算法提高了多个第一文本向量的聚类效果。

在一个可行的实施方式中，可对多个第一文本向量进行多轮聚类，以提高多个第一文本向量的聚类效果，进而提高观点分析的准确度。

在一个可行的实施方式中，在对多个第一文本向量进行多轮聚类的过程中，根据预设的聚类阈值，对多个第一文本向量进行第N轮聚类，在第N轮聚类后确定聚类阈值是否小于或者等于预设的容忍值，若是，则更新聚类阈值，根据更新后的聚类阈值，对第N轮聚类后未成功聚类的第一文本向量(即未被聚类至任何一个簇中)进行第N+1轮聚类，否则得到对第一文本向量多轮聚类后的多个簇，从而通过对第一文本向量进行多轮聚类，并在每轮聚类过程中对聚类阈值进行更新，提高第一文本向量的聚类效果，避免聚类阈值设置的较为严格导致一轮聚类后剩余较多未成功聚类的第一文本向量。其中，N大于等于1，在第一轮聚类时，可以预先设置较为严格的聚类阈值(即值较小的聚类阈值)，在下一轮聚类时，可通过放宽聚类阈值(即增大聚类阈值)来提高聚类效果。

S304、根据对第一文本向量进行聚类得到的多个簇，在多个评论文本中获得多个评论观点句。

具体的，可从对第一文本向量进行聚类得到的每个簇中，分别选取一个评论文本的第一文本向量，将从每个簇中选取的第一文本向量所对应的评论文本，确定为每个簇的评论观点句，得到多个评论观点句。在从每个簇中分别选取一个评论文本的第一文本向量的过程中，可在各个簇中，根据当前簇中多个评论文本的第一文本向量的分布，选取距离当前簇的中心最近的第一文本向量。

在一个可行的实施方式中，针对第一文本向量聚类得到的各个簇，可计算当前簇中各第一文本向量与剩余的各第一文本向量之间的距离，将各第一文本向量的该距离进行加和求平均，得到当前簇中各第一文本向量与剩余的各第一文本向量之间的距离均值，从各第一文本向量中选取该距离均值最小的第一文本向量，将该选取的第一文本向量所对应的评论文本作为当前簇的评论观点句，从而得到对第一文本向量聚类得到的各个簇的评论观点句，有效地提高了评论观点句的准确度。

在一个可行的实施方式中，不同的第一文本向量之间的距离可为不同的第一文本向量之间的余弦距离，可通过计算不同的第一文本向量之间的余弦距离矩阵得到，从而提高第一文本向量之间距离的准确度。

进一步的，在将多个评论文本转换为对应的第一文本向量后，可在多个评论文本和多个评论文本对应的第一文本向量之间建立索引关系，其中，针对各评论文本，该评论文本对应的索引值与该评论文本对应的第一文本向量所对应的索引值相同。因此，在从对第一文本向量进行聚类得到的每个簇中分别选取得到距离均值最小的第一文本向量后，可根据距离均值最小的第一文本向量对应的索引值，得到与该距离均值最小的第一文本向量对应的评论文本，再将该评论文本确定为评论观点句，提高了评论观点句的获取效率。

其中，可通过建立第一向量字典，建立第一文本向量与索引值的对应关系，其中，第一向量字典中包括第一文本向量与索引值的对应关系，第一文本向量的索引值又对应着与该第一文本向量对应的评论文本。

S305、在字级别上，将多个评论观点句转换为对应的第二文本向量。

具体的，在获得多个评论观点句之后，可将单个字符视为独立单元，对多个评论观点句进行划分，即将多个评论观点句分别划分为多个字符，得到多个评论观点句中的各字符。根据多个评论观点句中的字符，将各个评论观点句转化内相应的句向量，即得到各个评论观点句对应的第二文本向量。其中，单个字符可指单个字。

在一个可行的实施方式中，在以单个字符视为独立单元，对多个评论观点句进行划分之前，可对多个评论观点句进行预处理，去除多个评论观点句中的预设的特殊符号和预设的敏感词，以降低评论观点句的数据冗余和噪声数据，提高观点分析的准确度。例如，去除多个评论观点句中的标点符号(句号、逗号、冒号、问号等)，又如，去除多个评论观点句中的英文和数字；又如，去除评论观点句中的公司名称。

S306、对第二文本向量进行聚类。

具体的，由于评论文本存在词句表述通常偏口语化、噪声较多等缺点，对第一文本向量进行聚类得到的多个簇可能出现表述观点相同的现象，导致获取的多个评论观点句之间存在观点冗余。为降低观点冗余，提高观点分析的准确度，可对多个评论观点句对应的第二文本向量进行聚类。

具体的，可预设的聚类算法和预设的聚类阈值，对多个评论观点句对应的第二文本向量进行聚类，以将同一观点的第二文本向量聚类至同一簇中，得到对第二文本向量进行聚类后的多个簇。

在一个可行的实施方式中，聚类算法可采用DBSCAN密度聚类算法，从而将第二文本向量进行密度聚类，通过DBSCAN密度聚类算法提高了多个第二文本向量的聚类效果。

S307、根据对第二文本向量进行聚类得到的多个簇，在多个评论观点句中获得针对目标对象的评论观点。

具体的，可从对第二文本向量进行聚类得到的每个簇中，分别选取一个评论观点句的第二文本向量，将从每个簇中选取的第二文本向量所对应的评论观点句，确定为每个簇的评论观点，得到针对目标对象的多个评论观点。在从每个簇中分别选取一个评论观点句的第二文本向量的过程中，可在各个簇中，根据当前簇中多个评论观点句的第二文本向量的分布，选取距离当前簇的中心最近的第二文本向量。

在一个可行的实施方式中，针对第二文本向量聚类得到的各个簇，可计算当前簇中各第二文本向量与剩余的各第二文本向量之间的距离，将各第二文本向量的该距离进行加和求平均，得到当前簇中各第二文本向量与剩余的各第二文本向量之间的距离均值，从各第二文本向量中选取该距离均值最小的第二文本向量，将该选取的第二文本向量所对应的评论观点句作为当前簇的评论观点，从而得到对第二文本向量聚类得到的各个簇的评论观点，有效地提高了评论观点的准确度。

在一个可行的实施方式中，不同的第二文本向量之间的距离可为不同的第二文本向量之间的余弦距离，可通过计算不同的第二文本向量之间的余弦距离矩阵得到，从而提高第二文本向量之间距离的准确度。

进一步的，在将多个评论观点句转换为对应的第二文本向量后，可在多个评论观点句和多个评论观点句对应的第二文本向量之间建立索引关系，其中，针对各评论观点句，该评论观点句对应的索引值与该评论观点句对应的第二文本向量所对应的索引值相同。因此，在从对第二文本向量进行聚类得到的每个簇中分别选取得到距离均值最小的第二文本向量后，可根据距离均值最小的第二文本向量对应的索引值，得到与该距离均值最小的第二文本向量对应的评论观点句，再将该评论观点句确定为针对目标对象的评论观点，提高了评论观点的获取效率。

其中，可通过建立第二向量字典，建立第二文本向量与索引值的对应关系，其中，第二向量字典中包括第二文本向量与索引值的对应关系，第二文本向量的索引值又对应着与该第二文本向量对应的评论文本。

本公开实施例中，获得针对目标对象的多个评论文本，在词级别上将多个评论文本转换为第一文本向量，通过对第一文本向量进行聚类实现对多个评论文本的第一聚类，根据第一文本向量聚类得到的多个簇，在多个评论文本中选取多个评论观点句，在字级别上将多个评论观点句转换为第二文本向量，通过对第二文本向量进行聚类实现对多个评论观点句的第二聚类，根据第二文本向量聚类得到的多个簇，在多个评论观点句中选取针对目标对象的评论观点。因此，不仅通过聚类方式，实现在不依赖于先验知识的前提下对海量的评论文本的观点聚类，在评论文本随着时间发生更新后，能够及时分析得到紧跟时间变化的评论观点，而且通过对词级别上得到的第一文本向量的聚类和对字级别上得到的第二文本向量的聚类，有效提高了聚类效果，避免分析得到的评论观点存在冗余，进而提高了观点分析的准确度。

图4为本公开的另一实施例提供的观点分析方法的流程示意图。如图4所示，该方法包括：

S401、获取针对目标对象的多个评论文本。

具体的，步骤S401可参照步骤S201的描述，不再赘述。

S402、对多个评论文本进行分词处理，得到多个评论文本中的词语，计算多个评论文本中词语的TF-IDF值，根据多个评论文本中词语的TF-IDF值，确定多个评论文本对应的第一文本向量，多个评论文本对应的第一文本向量为多个评论文本对应的TF-IDF向量。

其中，TF-IDF为词频-逆文档频率(term frequency–inverse documentfrequency，简称TF-IDF)的简称，TF表示词频(Term Frequency)，IFD表示逆文本频率指数(Inverse Document Frequency)。

具体的，在获得针对目标对象的多个评论文本后，可将词语作为独立单元，对多个评论文本进行划分，得到多个评论文本中的词语，计算多个评论文本中各词语的TF-IDF值。其中，多个评论文本中各词语的TF-IDF值包括多个评论文本中各词语的TF值和IDF值，可通过计算词语在所有评论文本划分得到的所有词语构成的词表中出现的频率，得到该词语的TF值，可通过计算词语在所有评论文本中出现的频率，得到该词语的IDF值，具体计算过程在此不做描述。

具体的，由评论文本中各个词语的TF-IDF值，可得到该评论文本对应的TF-IDF向量，也即该评论文本的第一文本向量，从而得到各个评论文本的第一文本向量。因此，通过计算各个评论文本的TF-IDF向量，得到各个评论文本的第一文本向量，使得第一文本向量能够有效体现各个评论文本的文本特征，进而提高观点分析的准确度。

在一个可行的实施方式中，可预先构建词典，词典包括多个预设词语与词性的对应关系，例如，词典中包括词语“电脑”以及与“电脑”对应的词性为名词，电脑与名词的对应关系在词典中可表示为<电脑：名词>。还可预先设置不同的词性对应的权重，以通过权重来体现不同词性的词语在句子中的重要性。在将多个评论文本划分为词语、并确定多个评论文本中各词语的TF-IDF值后，可依据预先构建的词典，确定多个评论文本中各词语的词性，根据多个评论文本中各词语的词性所对应的权重，对多个评论文本中各词语的TF-IDF值进行加权运算，得到多个评论文本中各词语的加权后的TF-IDF值。由各评论文本中各词语的加权后的TF-IDF值，得到各评论文本的TF-IDF向量，也即各评论文本的第一文本向量。因此，使得第一文本向量有效体现各个评论文本的文本特征，进而提高观点分析的准确度。

其中，在设置不同词性对应的权重时，可为名词、动名词、形容词等更能体现出观点的词性设置较大的权重，为助词、代词、连词等几乎不体现观点的词性设置较小的权重。

S403、对第一文本向量进行聚类。

具体的，步骤S403可参照步骤S303以及步骤S303中各可行的实施方式的详细描述，在此不再赘述。

S404、根据对第一文本向量进行聚类得到的多个簇，在多个评论文本中获得多个评论观点句。

具体的，步骤S404可参照步骤S304以及步骤S304中各可行的实施方式的详细描述，在此不再赘述。

S405、对多个评论观点句进行分字处理，得到多个评论观点句中的字符，计算多个评论观点句中字符的TF-IDF值，根据字符的TF-IDF值，确定多个评论观点句对应的第二文本向量，多个评论观点句对应的第二文本向量为多个评论观点句对应的TF-IDF向量。

具体的，在获得多个评论观点句后，可将字符作为独立单元，对多个评论观点句进行划分，得到多个评论观点句的字符，计算多个评论文本中各字符的TF-IDF值。其中，多个评论观点句中各字符的TF-IDF值包括多个评论文本中各字符的TF值和IDF值，可通过计算字符在所有评论观点句划分得到的所有字符构成的字表中出现的频率，得到该字符的TF值，可通过计算字符在所有评论观点句中出现的频率，得到该字符的IDF值，具体计算过程在此不做描述。

具体的，由评论观点句中各个字符的TF-IDF值，可得到该评论观点句对应的TF-IDF向量，也即该评论观点句的第二文本向量，从而得到各个评论观点句的第二文本向量。因此，通过计算各个评论观点句的TF-IDF向量，得到各个评论观点句的第二文本向量，使得第二文本向量能够有效体现各个评论观点句的文本特征，进而提高观点分析的准确度。

S406、对第二文本向量进行聚类。

具体的，步骤S406可参照步骤S306以及步骤S306中各可行的实施方式的详细描述，在此不再赘述。

S407、根据对第二文本向量进行聚类得到的多个簇，在多个评论观点句中获得针对目标对象的评论观点。

具体的，步骤S407可参照步骤S307以及步骤S307中各可行的实施方式的详细描述，在此不再赘述。

本公开实施例中，不仅通过聚类方式和TF-IDF向量，实现在不依赖于先验知识的前提下对海量的评论文本的观点聚类，在评论文本随着时间发生更新后，能够及时分析得到紧跟时间变化的评论观点，而且通过对词级别上得到的第一文本向量的聚类和对字级别上得到的第二文本向量的聚类，有效提高了聚类效果，避免分析得到的评论观点存在冗余，进而提高了观点分析的准确度。

图5为本公开的一实施例提供的观点分析装置的结构示意图。如图5所示，该方法包括：

获取模块501，用于获取针对目标对象的多个评论文本；

第一聚类模块502，用于对多个评论文本进行第一聚类，根据第一聚类得到的多个簇，在多个评论文本中获得多个评论观点句；

第二聚类模块503，用于对多个评论观点句进行第二聚类，根据第二聚类得到的多个簇，在多个评论观点句中获得针对目标对象的多个评论观点。

在一个可行的实施方式中，第一聚类模块502，具体用于：

在预设的词级别上，将多个评论文本转换为对应的第一文本向量；对第一文本向量进行聚类。

在一个可行的实施方式中，多个评论文本对应的第一文本向量为多个评论文本对应的TF-IDF向量；第一聚类模块502，具体用于：

对多个评论文本进行分词处理，得到多个评论文本中的词语；计算多个评论文本中词语的TF-IDF值；根据多个评论文本中词语的TF-IDF值，确定多个评论文本对应的TF-IDF向量。

在一个可行的实施方式中，第一聚类模块502，具体用于：

根据预先构建的词典，确定多个评论文本中词语的词性，词典包括多个词语与词性的对应关系；根据不同词性对应的预设权重和多个评论文本中词语的TF-IDF值，确定多个评论文本对应的TF-IDF向量。

在一个可行的实施方式中，第一聚类模块502，具体用于：

对第一文本向量进行多轮聚类。

在一个可行的实施方式中，第一聚类模块502，具体用于：

根据预设的聚类阈值，对第一文本向量进行第N轮聚类；确定聚类阈值是否小于或者等于预设的容忍值；如果聚类阈值小于或者等于容忍值，则更新聚类阈值，并根据更新后的聚类阈值，对第N轮聚类后未成功聚类的第一文本向量进行第N+1轮聚类，否则得到第一文本向量多轮聚类后的多个簇。

在一个可行的实施方式中，第一聚类模块502，具体用于：

计算第一聚类得到的各个簇中各第一文本向量与剩余的第一文本向量之间的距离均值；将第一聚类得到的各个簇中距离均值最小的第一文本向量对应的评论文本，确定为第一聚类得到的各个簇的评论观点句。

在一个可行的实施方式中，第一聚类模块502，还用于：

在多个评论文本和多个评论文本对应的第一文本向量之间建立索引关系，多个评论文本对应的索引值与多个评论文本对应的第一文本向量所对应的索引值相同；

第一聚类502模块，具体用于：

在第一聚类得到的各个簇中，获取距离均值最小的第一文本向量，并根据距离均值最小的第一文本向量对应的索引值，得到距离均值最小的第一文本向量对应的评论文本；将距离均值最小的第一文本向量对应的评论文本确定为第一聚类得到的各个簇的评论观点句。

在一个可行的实施方式中，第二聚类模块503，具体用于：

在预设的字级别上，将多个评论观点句转换为对应的第二文本向量；对第二文本向量进行聚类。

在一个可行的实施方式中，多个评论观点句对应的第二文本向量为多个评论观点句对应的TF-IDF向量；第二聚类模块503，具体用于：

对多个评论观点句进行分字处理，得到多个评论观点句中的字符；计算多个评论观点句中字符的TF-IDF值；根据字符的TF-IDF值，确定多个评论观点句对应的TF-IDF向量。

在一个可行的实施方式中，第二聚类模块503，具体用于：

计算第二聚类得到的各个簇中各第二文本向量与剩余的第二文本向量之间的距离均值；将第二聚类得到的各个簇中距离均值最小的第二文本向量对应的评论观点句，确定针对目标对象的评论观点。

在一个可行的实施方式中，第二聚类模块503，还用于：

在多个评论观点句和多个评论观点句对应的第二文本向量之间建立索引关系，多个评论观点句对应的索引值与多个评论观点句对应的第二文本向量所对应的索引值相同；

第二聚类模块503，具体用于：

在第二聚类得到的各个簇中，获取距离均值最小的第二文本向量，并根据距离均值最小的第二文本向量对应的索引值，得到距离均值最小的第二文本向量对应的评论观点句；将距离均值最小的第二文本向量对应的评论观点句确定为针对目标对象的评论观点。

图5提供的观点分析装置，可以执行上述相应方法实施例，其实现原理和技术效果类似，在此不再赘述。

图6为本公开的一实施例提供的一种电子设备的结构示意图。如图6所示，该电子设备可以包括：处理器601和存储器602。存储器602用于存储计算机执行指令，处理器601执行计算机程序时实现如上述任一实施例的方法。

上述的处理器601可以是通用处理器，包括中央处理器CPU、网络处理器(networkprocessor，NP)等。上述存储器602可能包含随机存取存储器(random access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

本公开的一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上述任一实施例的方法。

本公开的一实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在存储介质中，至少一个处理器可以从所述存储介质中读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述任一实施例的方法。

图7为本公开的一实施例提供的观点分析装置700的框图。例如，装置700可以被提供为一服务器或者一计算机。参照图7，装置700包括处理组件701，其进一步包括一个或多个处理器，以及由存储器702所代表的存储器资源，用于存储可由处理组件701的执行的指令，例如应用程序。存储器702中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件701被配置为执行指令，以执行上述任一实施例的方法。

装置700还可以包括一个电源组件703被配置为执行装置700的电源管理，一个有线或无线网络接口704被配置为将装置700连接到网络，和一个输入输出(I/O)接口705。装置700可以操作基于存储在存储器702的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在本公开实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中，A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中，a，b，c可以是单个，也可以是多个。

可以理解的是，在本公开实施例中涉及的“第一”、“第二”仅为描述方便进行的区分，并不用来限制本公开实施例的范围。

可以理解的是，在本公开实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本公开实施例的范围。

可以理解的是，在本公开的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开的实施例旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种观点分析方法，其特征在于，所述方法包括：

获取针对目标对象的多个评论文本；

对所述多个评论文本进行第一聚类；

对所述多个评论观点句进行第二聚类；

根据所述第二聚类得到的多个簇，在所述多个评论观点句中获得针对所述目标对象的评论观点；

所述根据所述第一聚类得到的多个簇，在所述多个评论文本中获得多个评论观点句，包括：

从所述第一聚类得到的每个簇中，分别选取一个评论文本的文本特征，将选取的文本特征所对应的评论文本，确定为每个簇的评论观点句，得到多个评论观点句；

所述对所述多个评论观点句进行第二聚类，包括：

提取所述多个评论观点句的文本特征，对所述多个评论观点句的文本特征进行第二聚类，以在所述多个评论观点句的文本特征中将相似的文本特征聚类至同一簇中。

2.根据权利要求1所述的方法，其特征在于，所述对所述多个评论文本进行第一聚类，包括：

在预设的词级别上，将所述多个评论文本转换为对应的第一文本向量；

对所述第一文本向量进行聚类。

3.根据权利要求2所述的方法，其特征在于，所述多个评论文本对应的第一文本向量为所述多个评论文本对应的TF-IDF向量；所述在预设的词级别上，将所述多个评论文本转换为对应的第一文本向量，包括：

对所述多个评论文本进行分词处理，得到所述多个评论文本中的词语；

计算所述多个评论文本中词语的TF-IDF值；

根据所述多个评论文本中词语的TF-IDF值，确定所述多个评论文本对应的TF-IDF向量。

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个评论文本中词语的TF-IDF值，确定所述多个评论文本对应的TF-IDF向量，包括：

根据预先构建的词典，确定所述多个评论文本中词语的词性，所述词典包括多个词语与词性的对应关系；

根据不同词性对应的预设权重和所述多个评论文本中词语的TF-IDF值，确定所述多个评论文本对应的TF-IDF向量。

5.根据权利要求2所述的方法，其特征在于，所述对所述第一文本向量进行聚类，包括：

对所述第一文本向量进行多轮聚类。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一文本向量进行多轮聚类，包括：

根据预设的聚类阈值，对所述第一文本向量进行第N轮聚类；

确定所述聚类阈值是否小于或者等于预设的容忍值；

如果所述聚类阈值小于或者等于所述容忍值，则更新所述聚类阈值，并根据更新后的所述聚类阈值，对所述第N轮聚类后未成功聚类的所述第一文本向量进行第N+1轮聚类，否则得到所述第一文本向量多轮聚类后的多个簇。

7.根据权利要求2-6任一项所述的方法，其特征在于，所述根据所述第一聚类得到的多个簇，在所述多个评论文本中获得多个评论观点句，包括：

计算所述第一聚类得到的各个簇中各所述第一文本向量与剩余的所述第一文本向量之间的距离均值；

将所述第一聚类得到的各个簇中所述距离均值最小的第一文本向量对应的评论文本，确定为所述第一聚类得到的各个簇的评论观点句。

8.根据权利要求7所述的方法，其特征在于，所述在预设的词级别上，将所述多个评论文本转换为对应的第一文本向量之后，所述方法还包括：

在所述多个评论文本和所述多个评论文本对应的第一文本向量之间建立索引关系，所述多个评论文本对应的索引值与所述多个评论文本对应的第一文本向量所对应的索引值相同；

所述将所述第一聚类得到的各个簇中所述距离均值最小的第一文本向量对应的评论文本，确定为所述第一聚类得到的各个簇的评论观点句，包括：

在所述第一聚类得到的各个簇中，获取所述距离均值最小的第一文本向量，并根据所述距离均值最小的第一文本向量对应的索引值，得到所述距离均值最小的第一文本向量对应的评论文本；

将所述距离均值最小的第一文本向量对应的评论文本确定为所述第一聚类得到的各个簇的评论观点句。

9.根据权利要求1-6任一项所述的方法，其特征在于，所述对所述多个评论观点句进行第二聚类，包括：

在预设的字级别上，将所述多个评论观点句转换为对应的第二文本向量；

对所述第二文本向量进行聚类。

10.根据权利要求9所述的方法，其特征在于，所述多个评论观点句对应的第二文本向量为所述多个评论观点句对应的TF-IDF向量；所述在预设的字级别上，将所述多个评论观点句转换为对应的第二文本向量，包括：

对所述多个评论观点句进行分字处理，得到所述多个评论观点句中的字符；

计算所述多个评论观点句中字符的TF-IDF值；

根据所述字符的TF-IDF值，确定所述多个评论观点句对应的TF-IDF向量。

11.根据权利要求9所述的方法，其特征在于，所述根据所述第二聚类得到的多个簇，在所述多个评论观点句中获得针对所述目标对象的评论观点，包括：

计算所述第二聚类得到的各个簇中各所述第二文本向量与剩余的所述第二文本向量之间的距离均值；

将所述第二聚类得到的各个簇中所述距离均值最小的第二文本向量对应的评论观点句，确定针对所述目标对象的评论观点。

12.根据权利要求11所述的方法，其特征在于，所述在预设的字级别上，将所述多个评论观点句转换为对应的第二文本向量之后，所述方法还包括：

在所述多个评论观点句和所述多个评论观点句对应的第二文本向量之间建立索引关系，所述多个评论观点句对应的索引值与所述多个评论观点句对应的第二文本向量所对应的索引值相同；

所述将所述第二聚类得到的各个簇中所述距离均值最小的第二文本向量对应的评论观点句，确定针对所述目标对象的评论观点，包括：

在所述第二聚类得到的各个簇中，获取所述距离均值最小的第二文本向量，并根据所述距离均值最小的第二文本向量对应的索引值，得到所述距离均值最小的第二文本向量对应的评论观点句；

将所述距离均值最小的第二文本向量对应的评论观点句确定为针对所述目标对象的评论观点。

13.一种观点分析装置，其特征在于，所述装置包括：

获取模块，用于获取针对目标对象的多个评论文本；

第二聚类模块，用于对所述多个评论观点句进行第二聚类，根据所述第二聚类得到的多个簇，在所述多个评论观点句中获得针对所述目标对象的多个评论观点；

所述第一聚类模块，具体用于：从所述第一聚类得到的每个簇中，分别选取一个评论文本的文本特征，将选取的文本特征所对应的评论文本，确定为每个簇的评论观点句，得到多个评论观点句；

所述第二聚类模块，具体用于：提取所述多个评论观点句的文本特征，对所述多个评论观点句的文本特征进行第二聚类，以在所述多个评论观点句的文本特征中将相似的文本特征聚类至同一簇中。

14.一种电子设备，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用所述存储器中的程序指令执行如权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序；所述计算机程序被执行时，实现如权利要求1-12任一项所述的方法。