CN110472043B

CN110472043B - 一种针对评论文本的聚类方法及装置

Info

Publication number: CN110472043B
Application number: CN201910596882.5A
Authority: CN
Inventors: 曹绍升; 陈小宾; 周俊
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2023-05-23
Anticipated expiration: 2039-07-03
Also published as: CN110472043A

Abstract

本说明书公开了一种针对评论文本的聚类方法及装置，该方法包括：从评论文本中采集评论样本；对所述评论样本进行分词，获得短文本词语样本；将所述短文本词语样本加入用于分词的基础词典，获得分词词典；根据所述分词词典对所述评论文本进行分词，获得目标短文本词语；调用预设词向量生成模型处理所述目标短文本词语，生成目标词向量；调用预设聚类模型对所述目标词向量进行聚类，获得所述目标短文本词语的聚类结果。

Description

一种针对评论文本的聚类方法及装置

技术领域

本申请涉及互联网技术领域，尤其涉及一种针对评论文本的聚类方法及装置。

背景技术

由于互联网技术的不断发展，在网络上发表评论成为主流趋势。例如，在网络上观看视频时，用户可以针对视频在线评论，用户的评论性字幕会以“弹幕”的形式显示在视频屏幕中。再例如，对网络上的文章进行留言评论。

通常来说，用户发的评论都是用户主观情感的表现，对这些评论进行分析非常必要。但是这些评论存在语言口语化、不规范、多样性高的特点，故而其分析较为困难，分析的准确度不高。

发明内容

为解决上述技术问题，本说明书提供了一种针对评论文本的聚类方法，所述方法包括：

一种针对评论文本的聚类方法，所述方法包括：

从评论文本中采集评论样本；

对所述评论样本进行分词，获得短文本词语样本；

将所述短文本词语样本加入用于分词的基础词典，获得分词词典；

根据所述分词词典对所述评论文本进行分词，获得目标短文本词语；

调用预设词向量生成模型处理所述目标短文本词语，生成目标词向量；

调用预设聚类模型对所述目标词向量进行聚类，获得所述目标短文本词语的聚类结果。

本说明书提供了一种针对评论文本的聚类装置，所述装置包括：

采集模块，用于从评论文本中采集评论样本；

第一分词模块，用于对所述评论样本进行分词，获得短文本词语样本；

合并模块，用于用于将所述短文本词语样本加入用于分词的基础词典，获得分词词典；

第二分词模块，用于根据所述分词词典对所述评论文本进行分词，获得目标短文本词语；

词向量模块，用于调用预设词向量生成模型处理所述目标短文本词语，生成目标词向量；

聚类模块，用于调用预设聚类模型对所述目标词向量进行聚类，获得所述目标短文本词语的聚类结果。

本说明书公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本说明书公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

通过本说明书的一个或者多个技术方案，本说明书具有以下有益效果或者优点：

本说明书实施例中的方案，首先从评论文本中采集评论样本；然后对所述评论样本进行分词，获得短文本词语样本。由于短文本词语样本是从评论样本中分词得到，故而将短文本词语样本加入基础词典得到分词词典，再利用分词词典对评论文本进行分词，能够更加准确的对评论文本进行分词，得到的目标短文本词语的语义也更为精准。因此，在分词后调用预设词向量生成模型处理所述目标短文本词语，生成目标词向量；再调用预设聚类模型对所述目标词向量进行聚类，就能够得到目标短文本词语的聚类结果。由此可见，本方案在对评论文本进行准确分词的基础上，能够将具有相同或相似语义的目标短文本词语进行聚类，能够使评论文本的分析更加准确，提高了评论文本分析的准确度。

上述说明仅是本说明书技术方案的概述，为了能够更清楚了解本说明书的技术手段，而可依照说明书的内容予以实施，并且为了让本说明书的上述和其它目的、特征和优点能够更明显易懂，以下特举本说明书的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本说明书的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本说明书一个实施例的一种针对评论文本的聚类方法的过程示意图；

图2示出了根据本说明书一个实施例的确定短文本词语样本的实施过程图；

图3示出了根据本说明书一个实施例的一种针对评论文本的聚类装置的示意图；

图4示出了根据本说明书一个实施例的计算机设备的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本说明书的一个或者多个实施例提供了一种针对评论文本的聚类方法，该方法应用在各类应用平台中，用于对各类应用平台中产生的评论文本进行聚类。例如该方法应用在视频类播放平台，对视频类评论文本进行聚类。再例如，或者该方法应用在音乐类播放平台中，对音乐类播放平台中针对歌曲的评论文本进行聚类等等。

而本实施例的评论文本，指的是对网络上发布的图像、音视频、文章、新闻、个人心情等等进行评论的文本。例如，针对视频类网站上播放的视频进行评论的视频类评论文本；针对期刊杂志等网站上发表的文章的评论文本；针对音乐平台上播放的歌曲进行评论的评论文本。

下面参看图1，是本说明书的一个或者多个实施例提供的一种针对评论文本的聚类方法的实施过程，包括如下步骤：

步骤11，从评论文本中采集评论样本。

具体来说，本实施例的评论文本包括中文文字、数字、字母、符号等一种或者多种组合形式。

例如，针对动作片A中的某打斗场面刷的一波评论：“这波操作666”、“这个演员好gaoxiao”、“23333”。其中，“这波操作666”是中文文字和数字组合的评论文本；“这个演员好gaoxiao”、是中文文字和字母组合的评论文本；“23333”是纯数字的评论文本。

评论样本从评论文本中抽取获得，抽取数量不做限制。评论样本是评论文本中的一部分或者全部。例如，评论文本有100条，评论样本是从中抽取的50条评论文本，或者100条评论文本都作为评论样本。

进一步的，抽取的方式为：随机从评论文本中抽取评论样本，或者按照预设规则从评论文本中抽取评论样本。预设规则可以是任意规则，例如按照“字数”抽取评论样本，或者按照“中文+数字”组合形式抽取评论样本等等。预设规则可由系统或者用户设置，并可根据实际情况进行调整。

步骤12，对所述评论样本进行分词，获得短文本词语样本。

短文本，指的是词语长度小于预设字符的一种文本形式，例如小于160个字符的文本形式。短文本是业界常用的叫法，通常指的是长度比较短的文本。短文本是由一个或多个词语构成的短语。

具体来说，本实施例对评论样本的分词方式有很多种。请参看图2，下面的实施例介绍了对评论样本进行分词的一种实施方式，当然，其他适用本实施例的分词方式也应当包含在本实施例的保护范围之内。

具体请参看下面的步骤：

步骤121，采用M个预设词长度对所述评论样本进行切词，获得所述评论样本在每个预设词长度中的词组。

其中，M≥1且为正整数。

预设词长度的具体长度L按照字数划分，L为变量，L≥1且为正整数。若L＝2，表示预设词长度为2。若L＝3，表示预设词长度为3。

具体来说，M个预设词长度的具体长度各有不同。例如，M＝2，表示有2个预设词长度。再例如，这2个预设词长度中，其中一个预设词长度的具体长度为2，另一个预设词长度的具体长度为3。

在采用M个预设词长度对评论样本进行切词的过程中，利用每个预设词长度分别对同一个评论样本进行切词，得到该评论样本在每个预设词长度中的词组。

假设有2个预设词长度，其中一个预设词长度的具体长度为2，另一个预设词长度的具体长度为3。在切词过程中，利用具体长度为2的预设词长度对评论样本进行切词，得到对应的二元词组。再利用具体长度为3的预设词长度对同一个评论样本进行切词，得到对应的三元词组。进而，得到该评论样本在每个预设词长度中的词组。

由此可见，针对同一个评论样本，会利用每个预设词长度对其进行切词，故而同一个评论样本在每个预设词长度中都具有词组，此种方式能够多方位对同一个评论样本进行全方位分词，为后续的操作打好基础。

而在利用每个预设词长度对评论样本切词的过程中，首先确定评论样本的词语总数，再按照每个预设词长度，逐词对评论样本的词语进行组合，得到对应长度的词组。

举例来说，某评论样本是“这波操作666”，一共有4个词语。如果利用具体长度为2的预设词长度对其进行切词，会按照具体长度为2的预设词长度，逐词对上述四个词语进行组合，得到二元词组“这波”，“波操作”，“操作666”词组。如果利用具体长度为3的预设词长度对其进行切词，则得到三元词组“这波操作”，“波操作666”。如果利用具体长度为4的预设词长度对其进行切词，则得到四元词组“这波操作666”。如果利用具体长度为5的预设词长度对其进行切词，则结果为空。

值得注意的是，在进行词语切词时，数字、字符、符号等由于是特殊文字，故而会分别将其做为一个词语进行切词，例如“23333”做为一个词语，“^_^”是作为一个词语。

步骤122，根据所述评论样本在每个预设词长度中的词组，获得所述评论样本在所有预设词长度中的词组。

承接上述举例，将评论样本对应的二元词组、三元词组、四元词组集合在一起，即可获得评论样本在所有预设长度中的词组。

步骤123，计算所述评论样本在所有预设词语长度中的词组的重要度。

具体来说，词组的重要度可根据划分词的TF-IDF(term frequency-inversedocument frequency，词频-逆文本频率指数)值确定。

TF-IDF值用以评估词组对于评论语料库中的其中一条评论文本的重要程度。词组的重要性随着它在评论文本中出现的次数成正比增加，但同时会随着它在评论语料库中出现的频率成反比下降。

可选的，计算出评论样本在所有预设词语长度中的词组的TF-IDF值，即可获得重要度。TF-IDF值用于表征词组的重要程度。

可选的，确定评论样本在所有预设词语长度中的词组的TF-IDF值之后，由于TF-IDF值和重要度具有映射关系，可根据该映射关系确定出词组的重要度。值得注意的是，词组的TF-IDF值越大，词组的重要度越大。

作为一种可选的实施例，词组的重要度是衡量词组能否作为分词词典的重要参考因素。故而在计算评论样本在所有预设词长度中的词组的重要度之后，会进行下面的步骤：

将评论样本在所有预设词长度中的词组的重要度分别和预设程度阈值进行比较；若有预设个词组的重要度高于所述预设程度阈值，将所述预设个词组确定为所述短文本词语样本。例如，若在所有预设词长度中的词组，有300个词组的重要度高于所述预设程度阈值，则将这300个词组确定为短文本词语样本。

当然本说明书实施例确定短文本词语样本的方式不仅仅局限于上述方式，下面罗列出本说明书实施例的另一种方式，具体参看下面的步骤。

步骤124，按照重要度高低对所述评论样本在所有预设词长度中的词组进行排序。

具体来说，重要度高的词组排序在前，重要度低的词组排序在后。

步骤125，将排序靠前的N个词组确定为所述短文本词语样本。

其中，N≥1且为正整数。例如，将排序中的前300个词组确定为短文本词语样本。

通过上述方式能够对评论样本进行分词，得到对应的短文本词语样本。当然，对评论样本进行分词的方式有多种，例如先将语句较多的评论样本人工划分为若干句子，在利用上述方式对句子分词。

上述一个或者多个实施例详细的介绍了对评论样本的分词过程。应当注意的是，任何确定短文本词语样本的方式都应当包含在本说明书的保护范围之内。

通过上述一种或者多种分词方式，能够准确对评论样本进行分词，确定出短文本词语样本。而在获得短文本词语样本之后，会将短文本词语样本作为分词依据，再对评论文本进行分词，具体请看下面的实施过程。

步骤13，将所述短文本词语样本加入用于分词的基础词典，获得分词词典。

具体来说，基础词典是现有技术中常见的用于分词的词典，基础词典中仅包含常规的中文分词词语，而本实施例的评论文本包括中文文字、数字、字母、符号等一种或者多种组合形式，并不是常规的文字内容。如果单利用基础词典对评论文本进行分词，会有分词不准确的风险。

本实施例将短文本词语样本加入基础词典中，目的是为了将其和基础词典一并作为对评论文本的分词依据，再次对评论文本进行分词。由于短文本词语样本本就是针对评论样本分词得到的，其和基础词典一并作为分词依据能够更为精准的对评论文本进行分词。

作为一种可选的实施例，对所述短文本词语样本进行筛选，获得筛选出的所述短文本词语样本；将所述筛选出的所述短文本词语样本加入所述基础词典，获得所述分词词典。

筛选时，可以按照预设规则对其进行筛选，例如预设规则为“去除虚词和/或语气词”等等。当然也还有其他的预设规则。

筛选的作用是将短文本词语样本中的语气词组、不具备实际意义(或不重要的)的虚词短语删除。例如“是啊”、“好的啊”这类短文本词语样本。这类短文本词语样本的实际意义不大，所以在筛选的过程中需要将其去除掉。

作为一种可选的实施例，获得分词词典之后，对分词词典进行去重处理以去除短文本分词样本和基础词典中的相同词语，相同词语仅保留一个即可。

步骤14，根据所述分词词典对所述评论文本进行分词，获得目标短文本词语。

具体来说，如果评论样本是抽取部分评论文本得到的，那么需要分词的评论文本包括两部分：评论样本和剩余评论文本。故而，在对剩余评论文本进行分词的基础上，还会重新对评论样本进行分词。

当然，如果评论文本全部作为评论样本，则此处分词是针对评论样本重新分词。

在分词过程中，通过所述分词词典和分词器对所述评论文本进行分词，获得所述目标短文本词语。进一步的，是分词词典和分词器中的分词模型相结合，一并对评论文本进行分词。由于分词词典由短文本词语样本和基础词典结合得到，而短文本词语样本是由评论样本分词得到，故而利用分词词典结合分词器分词能够提高评论文本分词的准确性，并且提高评论文本分词后得到的目标短文本词语的语义精准度。

在本说明书的一个或者多个实施例中，通过所述分词词典和分词器对所述评论文本进行分词有多种实施方式，具体参看下面的描述。

作为一种可选的分词方式，所述分词器中包括第一分词模型。第一分词模型包括：N元文法模型(N-gram)，隐马尔可夫模型(Hidden Markov Model，HMM)，最大熵模型(ME)，条件随机场模型(Conditional Random Fields，CRF)等等。

分词方式包括：通过所述分词词典对所述评论文本进行分词，获得第一分词词语和待处理词语序列。其中，所述待处理词语序列是属于所述评论文本并且没有在所述分词词典中出现的词语序列。再通过所述第一分词模型对所述待处理词语序列进行分词处理，获得第二分词词语。再根据所述第一分词词语和所述第二分词词语获得所述目标短文本词语。

举例来说，评论文本为：“成都美容美发学校衷君意是你值得信赖的选择”。先使用分词词典对其进行切割，而“衷君意是你”这五个字中不是词典中的词，所以会被分词成单字，即切割为：成都/美容美发/学校/衷/君/意/是/你/值得/信赖/的/选择/。此时，“衷/君/意/是/你/”是分词词典中没有的新词，那么则会利用HMM模型再次对“衷君意是你”进行分词，具体来说，将这五个单字都打上B(词首)，M(词中)，E(词尾)和S(单独成词)四种标签，然后计算出各自组合的概率，将概率最大的词组从HMM模型输出，作为目标短文本词语。例如，HMM模型最终输出的目标短文本词语是：“衷君”、“意是”、“你”。

由于此种分词方式，是优先利用分词词典进行分词，没有在分词词典中出现的词语序列，再利用第一分词模型进行分词，能够全面且准确的对评论文本进行分词。

作为一种可选的分词方式，分词器中包括第二分词模型。第二分词模型包括：N元文法模型(N-gram)，隐马尔可夫模型(Hidden Markov Model，HMM)，最大熵模型(ME)，条件随机场模型(Conditional Random Fields，CRF)等等。

分词方式具体包括：

利用所述分词词典对所述评论文本进行分词，获得第三分词词语及其分词分数。其中，第三分词词语包含两类词语，一类是直接用分词词典成功分词后得到的词语序列，一类是不在分词词典中被切割为单词序列。在获得第三分词词语之后，会对第三分词词语配置分数，再利用预设权重对第三分词词语的配置分数进行处理(例如预设权重和配置分数相乘)，得到第三分词词语的分词分数。具体来说，词语序列的配置分数比单词序列的配置分数高，并且词语序列的预设权重比单词序列的预设权重高。因此，在处理后，词语序列的分词分数比单词序列的分词分数高。

利用所述第二分词模型对所述评论文本进行分词，获得第四分词词语及其分词分数。其中，在获得第四分词词语之后，会对第四分词词语配置分数，再利用预设权重对第四分词词语的配置分数进行处理(例如预设权重和配置分数相乘)，得到第四分词词语的分词分数。

根据所述第三分词词语及其分词分数，以及所述第四分词词语及其分词分数，确定所述目标短文本词语。具体来说，从所述第三分词词语中确定出第一待处理词语，并从第三分词词语的分词分数中确定出第一待处理词语的分词分数。从所述第四分词词语中确定出和所述第一代处理词语相同的第二待处理词语，并从第四分词词语的分词分数中确定出第二待处理词语的分词分数。此处的相同，指的是字、字数、语义等方面相同。再将所述第一待处理词语的分词分数和所述第二待处理词语的分词分数进行对比，将分数高的待处理词语确定为所述目标短文本词语。若分数相等，则从分数相同的待处理词语中随机确定出目标短文本词语。

举例来说，若评论文本为：“成都美容美发学校衷君意是你值得信赖的选择”。

使用分词词典对其进行分词，得到第三分词词语。而“中君意是你”这四个字中不是分词词典中的词，所以会被分词成单词(单字)，即切割为：成都/美容美发/学校/衷/君/意/是/你/值得/信赖/的/选择/。

切割完毕，对第三分词分词进行分数配置。分词词典分出的词语序列配置10分(10分为满分)，未出现的单词配置1分。配置分数后得到：成都_9分/美容美发_9分/学校_9分/衷_1分/君_1分/意_1分/是_1分/你_1分/值得_9分/信赖_9分/的_9分/选择_9分/。

对第三分词词语赋予权重(出现在词典中的词赋予权重0.9，没有出现在词典的词赋予权重0.1)，得到第三分词词语的分词分数：成都_9分/美容美发_9分/学校_9分/衷_0.1分/君_0.1分/意_0.1分/是_0.1分/你_0.1分/值得_9分/信赖_9分/的_9分/选择_9分/。

以上是利用分词词典进行分词的过程。下面举例介绍利用第二分词模型进行分词的过程。

利用分词模型对其进行分词并配置分数，得到第四分词词语及其配置分数：成都_10分/美容_10分/美发_10分/学校_10分/衷君_5分/意是_5分/你_5分/值得_10分/信赖_10分/的_10分/选择_10分/。

在分词模型中，对词语赋予权重(以分词词典为参考，出现在词典中的词赋予权重0.9，没有出现在词典的词赋予权重0.1)，得到第四分词词语的分词分数：成都_9分/美容_1分/美发_1分/学校_9分/衷君_0.5分/意是_0.5分/你_0.5分/值得_9分/信赖_9分/的_9分/选择_9分/。

在进行对比时，将每个第一待处理词语及其分数，以及和第一待处理词语相同的第二待处理词语及其分数进行对比。将分数高的待处理词语确定成最终的目标分词词语(若相等，取其一)。

比如，第一待处理词语“成都_9分”＝第二待处理词语“成都_9分”，取其一确定为目标分词词语。

第一待处理词语“美容美发_9分”＞第二待处理词语(“美容_1分”+“美发_1分”)，将“美容美发”确定为目标分词词语。

第一待处理词语(“衷_0.1分”+“君_0.1分”)＜第二待处理词语“衷君_0.5分”，将“衷君”确定为目标分词词语。

作为一种可选的实施例，在确定所述目标短文本词语的实施过程中，根据所述第三分词词语及其分词分数，确定所述第三分词词语的总分数。根据所述第四分词词语及其分词分数，确定所述第四分词词语的总分数。将所述第三分词词语的总分数和所述第四分词词语的总分数进行对比，将总分数高的分词词语作为所述目标短文本词语。

承接上述举例，将第三分词词语的分词分数相加，得到第三分词词语的总分数63.5。将第四分词词语的分词分数相加，得到第四分词词语的总分数57.5。然后对比两个分数的大小：63.5＞57.5，比较后，将分词词典分词得到的第三分词词语确定为目标分词词语。

当然，以上实施例仅是为了说明分词方式，除上述实施方式之外，实际应用中的其他分词方式也应当包含在本说明书的保护范围之内。

上述一种或者多种分词方式，都是结合了分词词典和分词器对评论文本进行分词。由于分词词典是根据短文本词语样本得到的，因此利用其结合分词器能够精确地对对评论文本进行分词，提高分词准确率。

在本说明书的一个或者多个实施例中，分词词典原本已存储大量词语，将针对评论样本的短文本词语样本加入分词词典，使得分词词典的词量更加丰富，并且由于短文本词语样本原本就是从评论文本中抽取的评论样本中分词且利用重要度筛选后得到，故而利用短文本词语样本加入分词词典作为分词依据重新对评论文本进行分词，更具有针对性，能够显著提高对评论文本的分词准确率。

步骤15，调用预设词向量生成模型处理所述目标短文本词语，生成目标词向量。

具体来说，本实施例的目标短文本词语包含有数字、字符、符号等特殊文字，故而获得目标短文本词语之后，所述方法还包括：检测所述目标短文本词语是否为非中文词语；若是，将所述非中文词语翻译成中文词语。由于网络流行语的诞生，数字、字符、符号等都具有特定的中文含义，故而可以根据数字、字符、符号等和中文含义的对应关系，将其转换为含义相同或相近的中文词语。例如“23333”做为一个非中文词语，将其转换为对应的中文词语“啊哈哈”。“666”转换为中文词语“牛牛牛”，“^_^”转换为中文词语“嘻嘻”。

在得到目标短文本词语之后，调用预设词向量生成模型处理所述目标短文本词语，生成目标词向量。

本说明书实施例中，可以通过以下步骤来生成目标词向量：将所述目标短文本词语进行笔画拆分，获得笔画拆分结果；根据预设的笔画与编码之间的对应关系，确定与所述笔画拆分结果对应的编码序列；根据所述编码序列，构建所述目标短文本词语的笔画元素集合，其中，所述笔画元素集合中的每个笔画元素由所述编码序列中的多个编码元素组成；调用所述预设词向量生成模型，对所述笔画元素集合中的每个笔画元素的初始笔画向量以及所述目标短文本词语的初始词向量进行处理，获得所述目标词向量。

在具体实施过程中，对于每一个目标短文本词语来说，将其按照笔画进行拆分。以“大人”为例，“大”可以按照笔画拆分为“横”、“撇”、“捺”，人可以拆分为“撇”、“捺”，那么“大人”的笔画拆分结果由五个笔画构成，即“横”、“撇”、“捺”、“撇”、“捺”。进一步的，将每个笔画映射到数字编码，在一个实施例中，笔画与编码的对应关系可以是预先设置好的，例如，笔画与编码的对应关系可以为：笔画“横”“提”对应编码1，笔画“竖”、“竖钩”对应编码2，笔画“撇”对应编码3，笔画“捺”、“点”对应编码4，笔画“横折钩”、“竖弯钩”对应编码5。那么，上面的“大人”的笔画拆分结果可以转化为编码序列：13434。当然，笔画与编码的对应关系可以根据实际需要进行设置，这里不做限定。

进一步的，在获得了编码之后，构建该目标短文本词语的笔画元素集合。应说明的是，笔画元素集合中包含的每个笔画元素由编码序列中的多个编码元素组成。例如，每个笔画元素包含有n个编码元素，n的取值可以是动态可调的，根据实际需要来进行选择。笔画元素集合可以通过n-gram来进行构建，在一个实施例中，n设置为3-5之间的正整数。仍沿用上面“大人”的编码序列13434来进行说明，当n为3时，3-gram对应的笔画元素为：134、343、434，当n为4时，4-gram对应的笔画元素为1343、3434，当n为5时，5-gram对应的笔画元素为13434，那么对于词语“大人”来说，笔画元素集合就包括有134、343、434、1343、3434、13434这6个元素。应理解的是，对于每个目标短文本词语，都进行笔画拆分，则每个目标短文本词语都对应有一个笔画元素集合。

本说明书实施例中，为了生成词向量和笔画向量，针对每个目标短文本词语，以及每个目标短文本词语的笔画元素集合中的每个笔画元素，都进行向量初始化。仍以词语“大人”为例，会设置一个与“大人”对应的初始词向量，同时，对于“大人”对应的笔画元素集合来说，对于每个笔画元素，均设置一个初始笔画向量，那么“大人”对应的初始笔画向量总共有6个。词向量以及笔画向量的初始化可以采用随机初始化，也可以采用其他的初始化，在一个实施例中，各个初始笔画向量以及初始词向量的维度均相同。

接下来，通过预设词向量生成模型来生成目标词向量以及笔画向量。预设词向量生成模型可以根据实际需要进行选择，例如Skip-Gram模型，CBOW(continuous bag ofword)模型等。下面，为了便于说明，以Skip-Gram模型为例来对目标词向量以及笔画向量的生成过程来进行描述。

需要说明的是，Skip-Gram模型是用中心词语来预测上下文词语，在向量生成的过程中，通过梯度下降的方法来不断的调整中心词语的笔画向量，以及上下文词语的词向量。在所有的目标词语遍历完毕之后，得到所有目标词语的最终笔画向量以及最终的词向量。

以评论文本“试着忍住眼泪”为例，经过分词处理，得到目标短文本词语“试着”、“忍住”、“眼泪”。本说明书实施例中，将中心词语的笔画向量作为预设的词向量生成模型的输入，将上下文词语的词向量作为模型的输出。以“忍住”为中心词语为例，上下文词语为“试着”和“眼泪”，则将“忍住”对应的初始笔画向量作为输入，并根据上下文词语的初始词向量以及损失函数，计算每个笔画向量和上下文词语的相似度，进而根据损失函数计算梯度，并对上下文词语的初始词向量以及中心词语的初始笔画向量进行迭代更新。当迭代次数满足预设的迭代次数，或者模型输出的准确率满足预设条件时则完成。

应理解的是，在生成目标词向量的过程中，会将每个目标短文本词语依次作为中心词语，来预测该词语的上下文词语，通过这种方式，能够遍历所有目标短文本词语，得到最终确定的各个目标短文本词语的笔画向量以及词向量。通过上述过程，能够使得中心词语与上下文词语的关联度较高，而且词义相同或相近的词语对应的上下文词语往往也是相同或相近的，而中心词语与非上下文词语的关联度较低。本说明书实施例中，目标短文本词语的目标词向量既可以用上述得到的笔画向量来表示，也可以用上述得到的词向量来表示，这里不做限定。

步骤16，调用预设聚类模型对所述目标词向量进行聚类，获得所述目标短文本词语的聚类结果。

在聚类过程中，执行下述操作：根据所述目标词向量确定出所述目标短文本词语对应的相似度集；调用所述预设聚类模型对所述目标短文本词语对应的相似度集进行处理，获得所述目标短文本词语的聚类结果。

目标词向量和目标短文本词语具有对应关系，根据生成的目标词向量，可以计算任意两个目标短文本词语的相似度，进而获得所有目标短文本词语对应的相似度集合。

而针对单个目标短文本词语来说，会进行下述操作：利用单个目标短文本词语的目标词向量和其他任意目标短文本词语的目标词向量，计算出单个目标短文本词语和其他任意目标短文本词语的相似度，计算方式包括夹角余弦、欧式距离等等。对所有目标短文本词语进行上述操作，就能够获得任意两个目标短文本词语的相似度。

进一步的，将所述相似度集合输入所述预设聚类模型即可进行聚类，获得对应的聚类结果。预设聚类模型包括但不限于是K-means模型、DBSCAN模型等等。若以DBSCAN模型为例进行聚类，则基于相似度将目标短文本词语进行排布，各目标短文本词语间的距离表征各目标短文本词语的相似度。所有目标短文本词语排布成一个不定形状的区域，并具有密度。基于密度的DBSCAN算法通过寻找被低密度区域分离的高密度区域，并将高密度区域定义为一个聚类“簇”，簇表示有密度可达关系导出的最大的密度连接目标短文本词语的集合。一个簇中都是语义相同或者相近的目标短文本词语。通过上述操作即可发现语义相近的目标短文本词语，比如“操作666”和“操作很skr”等语义相近的词语属于同一个簇。

通过上述方案，能够将语义上相同(或很相近)的目标短文本词语利用聚类方法找出来，提供给工作人员，能够减少用户的工作量，便于用户对评论文本的分析。

本说明书的一个或者多个实施例中的方案，首先从评论文本中采集评论样本；然后对所述评论样本进行分词，获得短文本词语样本。由于短文本词语样本是从评论样本中分词得到，故而将短文本词语样本加入基础词典得到分词词典，再利用分词词典对评论文本进行分词，能够更加准确的对评论文本进行分词，得到的目标短文本词语的语义也更为精准。因此，在分词后调用预设词向量生成模型处理所述目标短文本词语，生成目标词向量；再调用预设聚类模型对所述目标词向量进行聚类，就能够得到目标短文本词语的聚类结果。由此可见，本方案在对评论文本进行准确分词的基础上，能够将具有相同或相似语义的目标短文本词语进行聚类，能够使评论文本的分析更加准确，提高了评论文本分析的准确度。

进一步地，在评论文本分析更准确的情况下，能够得到相同或相似语义的评论文本进行后续分析。而在评论文本分析更准确的基础上，在分析的过程中，分析错误的评论文本需要重新挑选出来再次进行分析的数量更少，能够更节省计算机资源，缩短后续进行评论文本分析的时间，提高后续进行评论文本分析的效率。

基于相同的发明构思，本说明书的一个或者多个实施例公开了一种针对评论文本的聚类装置。

参看图3，本说明书的一个或者多个实施例中的装置包括：

采集模块31，用于从评论文本中采集评论样本；

第一分词模块32，用于对所述评论样本进行分词，获得短文本词语样本；

合并模块33，用于用于将所述短文本词语样本加入用于分词的基础词典，获得分词词典；

第二分词模块34，用于根据所述分词词典对所述评论文本进行分词，获得目标短文本词语；

词向量模块35，用于调用预设词向量生成模型处理所述目标短文本词语，生成目标词向量；

聚类模块36，用于调用预设聚类模型对所述目标词向量进行聚类，获得所述目标短文本词语的聚类结果。

在一种可选实现方式中，所述第一分词模块32，包括：

词语划分模块，用于采用M个预设词长度对所述评论样本进行切词，获得所述评论样本在每个预设词长度中的词组，M≥1且为正整数；

获得模块，用于根据所述评论样本在每个预设词长度中的词组，获得所述评论样本在所有预设词长度中的词组；

计算模块，用于计算所述评论样本在所有预设词语长度中的词组的重要度；

排序模块，用于按照重要度高低对所述评论样本在所有预设词长度中的词组进行排序；

第一确定模块，用于将排序靠前的N个词组确定为所述短文本词语样本，N≥1且为正整数。

在一种可选实现方式中，所述合并模块33，具体用于对所述短文本词语样本按照预设规则进行筛选，获得筛选出的所述短文本词语样本；将所述筛选出的所述短文本词语样本加入所述基础词典，获得所述分词词典。

在一种可选实现方式中，所述第二分词模块34，具体用于通过所述分词词典和分词器对所述评论文本进行分词，获得所述目标短文本词语。

在一种可选实现方式中，所述装置还包括：

检测模块，用于检测所述目标短文本词语是否为非中文词语；

翻译模块，用于若是，将所述非中文词语翻译成中文词语。

在一种可选实现方式中，所述词向量模块35，包括：

笔画拆分模块，用于将所述目标短文本词语进行笔画拆分，获得笔画拆分结果；

第二确定模块，用于根据预设的笔画与编码之间的对应关系，确定与所述笔画拆分结果对应的编码序列；

构建模块，用于根据所述编码序列，构建所述目标短文本词语的笔画元素集合，其中，所述笔画元素集合中的每个笔画元素由所述编码序列中的多个编码元素组成；

处理模块，用于调用所述预设词向量生成模型，对所述笔画元素集合中的每个笔画元素的初始笔画向量以及所述目标短文本词语的初始词向量进行处理，获得所述目标词向量。

在一种可选实现方式中，所述聚类模块36，包括：

第三确定模块，用于根据所述目标词向量确定出所述目标短文本词语对应的相似度集；

调用模块，用于调用所述预设聚类模型对所述目标短文本词语对应的相似度集进行处理，获得所述目标短文本词语的聚类结果。

关于上述装置，其中各个模块的具体功能已经在本说明书的多个实施例提供的方法实施过程中进行了详细描述，此处将不做详细阐述说明。

基于与前述实施例中同样的发明构思，本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文任一所述方法的步骤。

基于与前述实施例中同样的发明构思，本说明书的实施例还提供一种计算机设备，如图4所示，包括存储器404、处理器402及存储在存储器404上并可在处理器402上运行的计算机程序，所述处理器402执行所述程序时实现前文任一所述方法的步骤。

其中，在图4中，总线架构(用总线400来代表)，总线400可以包括任意数量的互联的总线和桥，总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口405在总线400和接收器401和发送器404之间提供接口。接收器401和发送器404可以是同一个元件，即收发机，提供用于在传输介质上与各种其他终端设备通信的单元。处理器402负责管理总线400和通常的处理，而存储器404可以被用于存储处理器402在执行操作时所使用的数据。

通过本说明书的一个或者多个实施例，本说明书具有以下有益效果或者优点：

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本说明书也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本说明书的内容，并且上面对特定语言所做的描述是为了披露本说明书的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本说明书的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本说明书的示例性实施例的描述中，本说明书的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本说明书要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本说明书的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本说明书的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本说明书的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本说明书实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本说明书还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本说明书的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本说明书进行说明而不是对本说明书进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本说明书可以借助于包括有不同元件的硬件以及借助于适当编程的计算机来实现。在列举了装置的单元权利要求中，这些装置中的个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种针对评论文本的聚类方法，所述方法包括：

从评论文本中采集评论样本；

对所述评论样本进行分词，获得短文本词语样本；

调用预设词向量生成模型处理所述目标短文本词语，生成目标词向量，包括：将所述目标短文本词语进行笔画拆分，获得笔画拆分结果；根据预设的笔画与编码之间的对应关系，确定与所述笔画拆分结果对应的编码序列；根据所述编码序列，构建所述目标短文本词语的笔画元素集合，其中，所述笔画元素集合中的每个笔画元素由所述编码序列中的多个编码元素组成；调用所述预设词向量生成模型，对所述笔画元素集合中的每个笔画元素的初始笔画向量以及所述目标短文本词语的初始词向量进行处理，获得所述目标词向量；

2.如权利要求1所述的方法，所述对所述评论样本进行分词，获得短文本词语样本，包括：

采用M个预设词长度对所述评论样本进行切词，获得所述评论样本在每个预设词长度中的词组，M≥1且为正整数；

根据所述评论样本在每个预设词长度中的词组，获得所述评论样本在所有预设词长度中的词组；

计算所述评论样本在所有预设词语长度中的词组的重要度；

按照重要度高低对所述评论样本在所有预设词长度中的词组进行排序；

将排序靠前的N个词组确定为所述短文本词语样本，N≥1且为正整数。

3.如权利要求1所述的方法，所述将所述短文本词语样本加入用于分词的基础词典，获得分词词典，具体包括：

对所述短文本词语样本按照预设规则进行筛选，获得筛选出的所述短文本词语样本；

将所述筛选出的所述短文本词语样本加入所述基础词典，获得所述分词词典。

4.如权利要求1所述的方法，所述根据所述分词词典对所述评论文本进行分词，获得目标短文本词语，包括：

通过所述分词词典和分词器对所述评论文本进行分词，获得所述目标短文本词语。

5.如权利要求1所述的方法，所述通过所述分词词典对所述评论文本进行分词，获得目标短文本词语之后，所述方法还包括：

检测所述目标短文本词语是否为非中文词语；

若是，将所述非中文词语翻译成中文词语。

6.如权利要求1所述的方法，所述调用预设聚类模型对所述目标词向量进行聚类，获得所述目标短文本词语的聚类结果，包括：

根据所述目标词向量确定出所述目标短文本词语对应的相似度集；

调用所述预设聚类模型对所述目标短文本词语对应的相似度集进行处理，获得所述目标短文本词语的聚类结果。

7.一种针对评论文本的聚类装置，所述装置包括：

采集模块，用于从评论文本中采集评论样本；

合并模块，用于将所述短文本词语样本加入用于分词的基础词典，获得分词词典；

词向量模块，用于调用预设词向量生成模型处理所述目标短文本词语，生成目标词向量；其中，所述词向量模块，包括：笔画拆分模块，用于将所述目标短文本词语进行笔画拆分，获得笔画拆分结果；第二确定模块，用于根据预设的笔画与编码之间的对应关系，确定与所述笔画拆分结果对应的编码序列；构建模块，用于根据所述编码序列，构建所述目标短文本词语的笔画元素集合，其中，所述笔画元素集合中的每个笔画元素由所述编码序列中的多个编码元素组成；处理模块，用于调用所述预设词向量生成模型，对所述笔画元素集合中的每个笔画元素的初始笔画向量以及所述目标短文本词语的初始词向量进行处理，获得所述目标词向量；

8.如权利要求7所述的装置，所述第一分词模块，包括：

9.如权利要求7所述的装置，所述合并模块，具体用于对所述短文本词语样本按照预设规则进行筛选，获得筛选出的所述短文本词语样本；将所述筛选出的所述短文本词语样本加入所述基础词典，获得所述分词词典。

10.如权利要求7所述的装置，所述第二分词模块，具体用于通过所述分词词典和分词器对所述评论文本进行分词，获得所述目标短文本词语。

11.如权利要求7所述的装置，所述装置还包括：

翻译模块，用于若是，将所述非中文词语翻译成中文词语。

12.如权利要求7所述的装置，所述聚类模块，包括：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。

14.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-6任一项所述方法的步骤。