CN108470065A

CN108470065A - 一种异常评论文本的确定方法及装置

Info

Publication number: CN108470065A
Application number: CN201810255066.3A
Authority: CN
Inventors: 徐振中; 肖依永; 苑星龙
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-08-31
Anticipated expiration: 2038-03-22
Also published as: CN108470065B

Abstract

本申请实施例提供了一种异常评论文本的确定方法及装置，其中，该方法包括：获取待异常评论的多条评论文本；计算所述多条评论文本之间的相似度；基于所述相似度，对所述多条评论文本进行分类，得到分类评论文本集；对于任一分类评论文本集，将该任一分类评论文本集对应的评论文本输入预先训练的情感模型，得到该任一分类评论文本集对应的情感分数集；对各所述分类评论文本集对应的情感分数集进行验证，获取异常分类评论文本集，确定所述异常分类评论文本集中的所有评论文本为所述异常评论文本。本申请实施例提高了异常评论的检测效率。

Description

一种异常评论文本的确定方法及装置

技术领域

本申请涉及文本检测技术领域，具体而言，涉及一种异常评论文本的确定方法及装置。

背景技术

商品评论网站中存在大量的异常评论。异常评论会对顾客的行为产生影响，造成商家之间的恶意竞争，形成不好的商业氛围。异常评论主要包括虚假评论和极端评论。虚假评论是指用户对商家产品进行恶意鼓吹或者是诽谤。极端评论是指用户因个人情绪对商品做出不符合事实的评价。这两种评论都会影响商家的信用评价。

现有的检测异常评论和极端评论的手段主要是通过人工识别，但是人工识别的难度较大，准确率较低，而且效率也很低。

发明内容

有鉴于此，本申请的目的在于提供了一种异常评论文本的确定方法及装置，以提高异常评论的检测效率。

第一方面，本申请实施例提供了一种异常评论文本的确定方法，包括：

获取待异常评论的多条评论文本；

计算所述多条评论文本中任意两条评论文本之间的相似度；

基于所述相似度，对所述多条评论文本进行分类，得到分类评论文本集；

对于任一分类评论文本集，将该任一分类评论文本集对应的评论文本输入预先训练的情感模型，得到该任一分类评论文本集对应的情感分数集；

对各所述分类评论文本集对应的情感分数集进行验证，获取异常分类评论文本集，确定所述异常分类评论文本集中的所有评论文本为所述异常评论文本。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，所述计算所述多条评论文本中任意两条评论文本之间的相似度，包括：

基于预设的相似度衡量模型，对任意一条评论文本进行向量转换，得到该任意一条评论文本的评论向量；

计算任意两个评论向量之间的相似度。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，所述基于所述相似度，对所述多条评论文本进行分类，得到分类评论文本集，包括：

依据任意两个评论向量之间的相似度，确定该任意两个评论向量之间的向量距离；

按照所述向量距离对所述多条评论文本进行分类，得到分类评论文本集。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，所述基于预设的相似度衡量模型，对任意一条评论文本进行向量转换之前，所述方法还包括：

对所述任意一条评论文本进行分词处理；

过滤掉进行分词处理后的所述任意一条评论文本中的停用词，得到关键词。

结合第一方面的第三种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，所述基于预设的相似度衡量模型，对任意一条评论文本进行向量转换，得到该任意一条评论文本的评论向量，包括：

对于任意一条评论文本，依次将该任意一条评论文本中的各关键词转换为对应的数字信息；

基于依次转换得到的所述数字信息，生成该任意一条评论文本对应的评论向量。

结合第一方面的第二种可能的实施方式，本申请实施例提供了第一方面的第五种可能的实施方式，所述依据任意两个评论向量之间的相似度，确定该任意两个评论向量之间的向量距离，包括：

计算所述任意两个评论向量的余弦相似度；

取所述余弦相似度的倒数，记为所述任意两个评论向量之间的所述向量距离。

结合第一方面，本申请实施例提供了第一方面的第六种可能的实施方式，所述对各所述分类评论文本集对应的情感分数集进行验证，获取异常分类评论文本集，包括：

对各个所述分类评论文本集对应的情感分数集分别进行正态分布验证，获取不符合所述正态分布验证结果的异常分类评论文本集。

第二方面，本申请实施例提供了一种异常评论文本的确定装置，包括：

文本获取模块，用于获取待异常评论的多条评论文本；

文本处理模块，用于计算所述多条评论文本中任意两条评论文本之间的相似度；以及，用于基于所述相似度，对所述多条评论文本进行分类，得到分类评论文本集；

文本执行模块，用于对于任一分类评论文本集，将该任一分类评论文本集对应的评论文本输入预先训练的情感模型，得到该任一分类评论文本集对应的情感分数集；

文本确认模块，用于对各所述分类评论文本集对应的情感分数集进行验证，获取异常分类评论文本集，确定所述异常分类评论文本集中的所有评论文本为所述异常评论文本。

结合第二方面，本申请实施例提供了第二方面的第一种可能的实施方式，所述文本处理模块包括：

向量转换模块，用于基于预设的相似度衡量模型，对任意一条评论文本进行向量转换，得到该任意一条评论文本的评论向量；

向量计算模块，用于计算任意两个评论向量之间的相似度。

结合第二方面的第一种可能的实施方式，本申请实施例提供了第二方面的第二种可能的实施方式，所述文本处理模块还包括：

距离确定模块，用于依据任意两个评论向量之间的相似度，确定该任意两个评论向量之间的向量距离；

文本分类模块，用于按照所述向量距离对所述多条评论文本进行分类，得到分类评论文本集。

与现有技术中相比，本申请实施例提供了一种异常评论文本的确定方法，包括：获取待异常评论的多条评论文本；计算所述多条评论文本中任意两条评论文本之间的相似度；基于所述相似度，对所述多条评论文本进行分类，得到分类评论文本集；对于任一分类评论文本集，将该任一分类评论文本集对应的评论文本输入预先训练的情感模型，得到该任一分类评论文本集对应的情感分数集；对各所述分类评论文本集对应的情感分数集进行验证，获取异常分类评论文本集，确定所述异常分类评论文本集中的所有评论文本为所述异常评论文本。

可见，本申请实施例提供的异常评论文本的确定方法，是基于获取到的多条评论文本中的任意两条评论文本之间的相似度，然后根据该相似度对获取的到这些评论文本进行分类，然后将每一类型的评论文本代入到预先训练好的情感模型中，获取每一类评论文本对应的情感分数，然后对每一类评论文本对应的情感分数进行验证检测，将不符合要求的一类评论文本确定为异常评论文本，该过程不需要人工对评论文本进行一一的检测，极大的提高了异常文本的检测效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种异常评论文本的确定方法流程示意图；

图2示出了本申请实施例所提供的计算任意两条评论文本之间的相似度的方法流程图；

图3示出了本申请实施例所提供的对多条评论文本进行分类的方法流程示意图；

图4示出了本申请实施例所提供的聚类中心结果示意图；

图5a示出了本申请实施例所提供的第一类情感分数集的分布图；

图5b示出了本申请实施例所提供的第二类情感分数集的分布图；

图6示出了本申请实施例所提供的第一种异常评论文本的确定装置结果示意图；

图7示出了本申请实施例所提供的第二种异常评论文本的确定装置结果示意图；

图8示出了本申请实施例所提供的第三种异常评论文本的确定装置结果示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1

如图1所示，本申请实施例提供了一种异常评论文本的确定方法，具体步骤如下S100～S140：

S100，获取待异常评论的多条评论文本。

这里的评论文本包括商品评论网站中用户填写的各种评论，在具体实施中，可以获取某一商品评论网站中的一定数量的评论文本。

S110，计算多条评论文本中任意两条评论文本之间的相似度。

其中，步骤S110中计算多条评论文本中任意两条评论文本之间的相似度，包括如图2所示的方法，具体步骤如下S200～S220：

S200，基于预设的相似度衡量模型，对任意一条评论文本进行向量转换，得到该任意一条评论文本的评论向量。

一种较佳地实施方式，在本申请实施例1提出的技术方案中，步骤S200中的基于预设的相似度衡量模型，对任意一条评论文本进行向量转换之前，本申请实施例提出的方法还包括以下步骤：

(1)对所述任意一条评论文本进行分词处理。

对于西方语言来说，词和词之间具有明确的分界符，进行统计或者在此基础上使用语言模型都比较直接，但是对于中文评论来说，词语与词语之间并没有明确的分界符，因此必须对评论文本进行分词，这样才可以做进一步的文本处理。

(2)过滤掉进行分词处理后的所述任意一条评论文本中的停用词，得到关键词。

对评论文本进行分词后，往往存在一些区分度并不高的词，例如介词、连词和标点符号，为了更好的衡量评论文本的相似度，需要在分词的基础上进行去除停用词，得到关键词，比如，一条评论文本为“这件红色的衣服真是太漂亮了，我太喜欢啦。”，在进行分词处理后就变为“这件红色的衣服真是太漂亮了，我太喜欢啦。”，在去除停用词后就变为了“红色的衣服漂亮我喜欢”。

针对步骤S200中的基于预设的相似度衡量模型，对任意一条评论文本进行向量转换，得到该任意一条评论文本的评论向量，包括以下步骤：

(1)对于任意一条评论文本，依次将该任意一条评论文本中的各关键词转换为对应的数字信息。

(2)基于依次转换得到的所述数字信息，生成该任意一条评论文本对应的评论向量。

比如，可以按照预设的向量转换模型，将评论文本转换为评论向量，在上述评论文本“红色的衣服漂亮我喜欢”中，可以将“红色的”变为对应的数字2，将“衣服”变为对应的数字1，将“漂亮”变为对应的数字3，将“我”变为对应的数字4，将“喜欢”变为对应的数字5，从而将“红色的衣服漂亮我喜欢”变为评论向量“(2,1,3,4,5)”。

S210，计算任意两个评论向量之间的相似度。

S120，基于相似度，对多条评论文本进行分类，得到分类评论文本集。

具体地，步骤S120中的基于相似度，对多条评论文本进行分类，得到分类评论文本集，如图3所示，具体包括如下步骤S300～S310：

S300，依据任意两个评论向量之间的相似度，确定该任意两个评论向量之间的向量距离。

具体地，步骤S300中的依据任意两个评论向量之间的相似度，确定该任意两个评论向量之间的向量距离，具体包括以下步骤：

(1)计算任意两个评论向量的余弦相似度。

比如，两个评论向量分别为A和B，且A和B均为n维向量，则这两个评论向量的余弦相似度可以通过以下公式1进行计算：

其中，Similarity是指评论向量A和评论向量B之间的余弦相似度，表示评论向量A和评论向量B之间的余弦值cos(θ)，n为评论向量A和评论向量B的维度，i为评论向量A和评论向量B之间的各个分量的序号。

(2)取余弦相似度的倒数，记为任意两个评论向量之间的向量距离。

余弦值在-1到1之间，因为接下来是基于向量距离对多条评论文本进行分类，比如采用聚类算法对评论向量进行分类时，就是余弦相似度越大时，两个向量评论之间越相似，对应的向量距离越小。余弦值越接近0说明两个向量评论越不相似，也就是向量距离会最大，当希望余弦相似度与向量距离正相关时，这里需要对预先相似度取倒数。

S310，按照向量距离对多条评论文本进行分类，得到分类评论文本集。

在本申请实施例中，具体通过聚类算法确定所有评论向量的各个聚类中心，从而将与评论向量对应的评论文本划分为不同的分类评论文本集，每个分类评论文本集中均包括多个评论文本。

具体地，通过聚类算法确定所有评论向量的各个聚类中心，是通过计算任意一个评论向量周围有几个其它的评论向量与该任意一个评论向量之间的向量距离小于设定阈值，将与该任意一个评论向量的向量距离小于设定阈值的所有其它评论向量的个数，称为该任意一个评论向量的密度；然后按照这种确定方法，依次计算所有的评论向量的密度后，确定当任意一个评论向量作为中心时，计算与该任意一个评论向量距离最远的评论向量，并将与该任意一个评论向量距离最远的评论向量与该任意一个评论向量的向量距离作为该任意一个评论向量的距离；最后，以密度和距离的乘积的归一化值进行绘图，确定聚类中心。

下面以一个具体实施例进行详细说明，确定每个评论向量的密度以及距离的乘积后，进行绘图，绘图结果如图4所示，其中，图4中涉及到的公式如下公式2，对应的文字说明如下表1所示：

γ＝ρ·δ (2)

其中，ρ表示每个点的周围点的数量(密度)；δ表示点和点之间的距离，γ表示每个点周围的密度与距离的乘积的归一化值；n无实际意义，仅仅表示γ的序号。

表1

CLUSTER	center	ELEMENTS
			1	573	200
2	663	165
			3	681	19
4	1129	1387
			5	1526	517

如图4可以看到，有五个离散的点即五个聚类中心，则这一批评论文本对应的评论向量总共分为五类分类评论文本集，由表1可以看到，这五个离散的点对应的是评论向量序号依次为第573个的评论向量、第663个的评论向量、第681个评论向量、第1129个评论向量以及第1526个评论向量，且它们周围的密度分别为200、165、19、1387和517。

在图4中，连续的线是由这些聚类中心周围的评论向量组成的，这样就将这些评论文本分为五类，下面依次来验证这五类评论文本集对应的情感分数集。

S130，对于任一分类评论文本集，将该任一分类评论文本集对应的评论文本输入预先训练的情感模型，得到该任一分类评论文本集对应的情感分数集。

其中，预先训练的情感模型的输入端为评论文本，输出端为该评论文本对应的分数，将上面实施例即图4中确定的五类评论向量集对应的五类评论文本集分别代入到预先训练的情感模型中，得到如图5a和图5b所示的五类评论文本集对应的情感分数集，其中图5a对应的是上述表1中，序号分别为第1、第3、第4和第5类对应的情感分数集的分布图，图5b对应的是上述表1中的序号为第2类对应的情感分数集的分布图。

S140，对各分类评论文本集对应的情感分数集进行验证，获取异常分类评论文本集，确定异常分类评论文本集中的所有评论文本为异常评论文本。

具体地，步骤S140中对各分类评论文本集对应的情感分数集进行验证，获取异常分类评论文本集，包括：

对各个分类评论文本集对应的情感分数集分别进行正态分布验证，获取不符合所述正态分布验证结果的异常分类评论文本集。

本申请实施例中是将上述五类情感分数集分别代入正态分布验证公式中进行验证，验证结果如下表2：

表2

序号	JBSTAT	CV
			573	1.2968	5.6783
663	6.0586	5.7241
			681	0.4164	5.8341
1129	2.3325	5.8341
			1526	5.5141	5.8542

其中，表2中的JBSTAT表示统计检验值，CV表示标准值，当JBSTAT<CV时，则符合正态分布，则对应的评论文本集中均为正常评论文本，若JBSTAT>CV时，则不符合整体分布，则对应的评论文本集均为异常评论文本，从笔2中可以看到，以第663个的评论向量为聚类中心的评论向量集的统计检验值大于标准值，则以第663个的评论向量为聚类中心的评论向量对应的评论文本为异常评论文本。

实施例2

本申请实施例提供了一种异常评论文本的确定装置，如图6所示，包括：

文本获取模块601，用于获取待异常评论的多条评论文本。

文本处理模块602，用于计算多条评论文本中任意两条评论文本之间的相似度；以及，用于基于所述相似度，对多条评论文本进行分类，得到分类评论文本集。

文本执行模块603，用于对于任一分类评论文本集，将该任一分类评论文本集对应的评论文本输入预先训练的情感模型，得到该任一分类评论文本集对应的情感分数集。

文本确认模块604，用于对各分类评论文本集对应的情感分数集进行验证，获取异常分类评论文本集，确定异常分类评论文本集中的所有评论文本为异常评论文本。

可选地，如图7所示，文本处理模块602包括：

向量转换模块6021，用于基于预设的相似度衡量模型，对任意一条评论文本进行向量转换，得到该任意一条评论文本的评论向量。

向量计算模块6022，用于计算任意两个评论向量之间的相似度。

可选地，如图8所示，文本处理模块602还包括：

距离确定模块6023，用于依据任意两个评论向量之间的相似度，确定该任意两个评论向量之间的向量距离；

文本分类模块6024，用于按照所述向量距离对多条评论文本进行分类，得到分类评论文本集。

可选地，向量转换模块6021在基于预设的相似度衡量模型，对任意一条评论文本进行向量转换之前，还用于：

对任意一条评论文本进行分词处理。

过滤掉进行分词处理后的任意一条评论文本中的停用词，得到关键词。

可选地，向量转换模块6021，具体用于：

对于任意一条评论文本，依次将该任意一条评论文本中的各关键词转换为对应的数字信息。

可选地，向量计算模块6022，具体用于计算所述任意两个评论向量的余弦相似度。

距离确定模块6023，具体用于取余弦相似度的倒数，记为任意两个评论向量之间的向量距离。

可选地，文本确认模块，具体用于：

对各个分类评论文本集对应的情感分数集分别进行正态分布验证，获取不符合正态分布验证结果的异常分类评论文本集。

本申请实施例提供的异常评论文本的确定方法，是基于获取到的多条评论文本中的任意两条评论文本之间的相似度，然后根据该相似度对获取的到这些评论文本进行分类，然后将每一类型的评论文本代入到预先训练好的情感模型中，获取每一类评论文本对应的情感分数，然后对每一类评论文本对应的情感分数进行验证检测，将不符合要求的一类评论文本确定为异常评论文本，该过程不需要人工对评论文本进行一一的检测，极大的提高了异常文本的检测效率。

本申请实施例所提供的进行异常评论文本的确定方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

本申请实施例所提供的异常评论文本的确定装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种异常评论文本的确定方法，其特征在于，包括：

获取待异常评论的多条评论文本；

计算所述多条评论文本中任意两条评论文本之间的相似度；

2.根据权利要求1所述的方法，其特征在于，所述计算所述多条评论文本中任意两条评论文本之间的相似度，包括：

计算任意两个评论向量之间的相似度。

3.根据权利要求2所述的方法，其特征在于，所述基于所述相似度，对所述多条评论文本进行分类，得到分类评论文本集，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于预设的相似度衡量模型，对任意一条评论文本进行向量转换之前，所述方法还包括：

对所述任意一条评论文本进行分词处理；

5.根据权利要求4所述的方法，其特征在于，所述基于预设的相似度衡量模型，对任意一条评论文本进行向量转换，得到该任意一条评论文本的评论向量，包括：

6.根据权利要求3所述的方法，其特征在于，所述依据任意两个评论向量之间的相似度，确定该任意两个评论向量之间的向量距离，包括：

计算所述任意两个评论向量的余弦相似度；

7.根据权利要求1所述的方法，其特征在于，所述对各所述分类评论文本集对应的情感分数集进行验证，获取异常分类评论文本集，包括：

8.一种异常评论文本的确定装置，其特征在于，包括：

文本获取模块，用于获取待异常评论的多条评论文本；

9.根据权利要求8所述的装置，其特征在于，所述文本处理模块包括：

向量计算模块，用于计算任意两个评论向量之间的相似度。

10.根据权利要求9所述的装置，其特征在于，所述文本处理模块还包括：