CN104881795A

CN104881795A - 一种电商虚假评价的判断识别方法

Info

Publication number: CN104881795A
Application number: CN201510249537.6A
Authority: CN
Inventors: 吴雨浓; 何宏靖; 刘世林
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2015-05-16
Filing date: 2015-05-16
Publication date: 2015-09-02

Abstract

本发明涉及互联网领域，特别涉及一种电商虚假评价的判断识别方法。通过客户机爬取目标商品网页数据中的评价内容和评价ID；并通过服务器统计相同评价内容，并用文本比较算法计算出其他评价内容的相似概率；将该概率值与通过机器学习方法所得出的内容相似阈值进行比较，判定出相似的评价内容；通过对评价ID进行分析，统计出相同ID的数量，并判断其他ID的相似概率，将相似概率与评价ID相似阈值进行比较，判定出相似的评价ID。本发明对电商中不法卖家的虚假评价进行判别和标记，并给出相应的虚假评价率；相比于现有的方法，判定结果更加准确。用户通过虚假评价率和标出的虚假评价进行综合考虑来规避因为卖家评价作弊而带来的交易风险。

Description

一种电商虚假评价的判断识别方法

技术领域

本发明涉及互联网领域，特别涉及一种电商虚假评价的判断识别方法。

背景技术

在当代，随着互联网的普及，电子商务已经成为一种被广泛利用的商业贸易方式。买卖双方主要是通过电商的网页或者是软件进行交易活动。由于电子商务没有传统的实体店面，对销售人员的数量要求也不高，所以相比传统交易模式更能够控制运营成本，因而有着更大的价格优势。但是，有很多不法商家为了提高自己的销量从而雇佣专业刷评价团队制造大量的虚假评价来对自己的商品进行虚假的宣传，从而欺骗消费者来提高自己的真实销量。

为了判别现在商家伪造的虚假评价，现有技术的主要的方法包括：1.统计评价相同内容的数量，如果同一评价出现的次数过多，即可判别为虚假评价；2.统计相同的ID，如果相同的ID在一段时间内发出很大数量的评价，即可判读为虚假评价。

现有的虚假评价判别方法主要是通过相同评价的内容和相同的评价人(ID)来进行判别。但是这两种判别方法都存在很大的问题。由于仅从相同的评价内容去判别，就会漏判很多的虚假评价，因为有些评价仅仅是有少数几个字不同，却不能被判别出是虚假评价，例如评价1：这些商品不错；评价2：这些东西不错。同样第二种判别方法也存在很大的技术缺陷，因为只认为相同ID发出的评价才是虚假评价，或者是相同ID发出一定数量的评价就是虚假评价；这样的判别方法是不完善，不准确的。因为现在的职业评价师会人工或者利用自动注册机来注册很多小号(所谓的小号是指，同一个人注册和使用的不同的ID号)然后用不同的小号对商品进行虚假购买最后进行虚假评价；在现有识别技术中因为虚假者所使用的ID号不相同，而不能将这些虚假评价识别出来。

发明内容

本发明的目的在于克服现有方法中仅仅通过统计相同评价内容和相同ID来判别虚假评价的不足，提供一种电商虚假评价的判断识别方法。除了统计商品的相同评价内容和相同评价ID，还采用机器学习的方法来判别相似的评价内容和相似的评价ID。通过客户机访问目标商品的网页，在访问的时候监测和自动分析目标页面并爬取该网页的关于用户评价内容数据和评价ID；再通过服务器对爬取到的评价内容数据进行判断：分析评价内容数据的相同数量和相似文本的概率，并统计结果；通过对评价ID进行分析，判断相同ID出现的次数和相似ID的概率并统计结果，通过将统计结果和预先设置的阈值进行比较，如统计结果高于设置的阈值即判断为虚假评价。

为了实现上述发明目的，本发明提供了以下技术方案：

一种电商虚假评价的判断识别方法；本发明提出的虚假评价的判别识别系统包括，客户机和服务器：通过客户机爬取网页数据并用服务器对客户机爬取的数据进行判别，具体技术方案包括以下步骤：

步骤(1)：通过客户机访问目标商品的网址；分析目标商品的网页信息，并获取该网页的关于用户评价内容数据和评价ID。目前通过爬虫技术可以很方便的自动获取到目标网页中的相关信息，提取的速度快，可分析数据的总量巨大，所提取数据的分析方法成熟，成本低廉；通过客户机对目标商品的分析和数据取。

步骤(2)：将客户机所获取到的相关数据输入到服务器中，对相关评价数据进行评价内容文本的相似度分析和ID相似度的分析；目前职业评价师所注册和使用的小号的ID具有一定规律性；一般情况下，职业评价师所注册的一系列ID号是根据系统推荐手动注册或者按照一定规律自动生成的，这样的方式所产生的ID号会具有较大的关联性和相似性，比如说ABC1、ABC2、ABC3、ABC4、ABC5.....ABCn。

具体的包括，步骤(2-1)：在服务器端对接收到的评价内容进行统计分析，分别统计相同评价出现的数量；并通过文本相似性计算出其他的评价之间的相似概率值，如果该概率值高于预设的文本相似阈值(阈值的获得通过机器学习的方法自动获得)，则将这些评价判定为由同一个人做出的相似评价；统计出相似评价的数量。

作为一种优选，所述步骤(2-1)中的文本相似性采用文本余弦相似性算法。

步骤(2-2)：在服务器端对接收到的用户ID进行统计分析，分别统计相同ID出现的数量，并计算出其他不同的ID之间的相似概率值，如果该概率值高于预设的ID相似阈值(ID相似阈值也通过机器学习的方法自动获取)，则将这些ID判定为是同一个人注册生成的ID；统计相似ID的数量。

步骤(2-3)：在服务器端对用户ID发出评价的时间和频率进行判别，并计算出一个作弊因子。

步骤(3)：在服务器上利用虚假评价判别系统，结合相似评价、相似ID和作弊因子来综合判别目标商品的评价中是否存在虚假评价，并计算虚假评价率(所述虚假评价率＝虚假评价数量/总的评价数量)。

步骤(4)：将虚假评价判别系统的判别结果返回给客户机，通过客户机对虚假评价给出识别标签。本发明对目标商品的评价的真实性进行更加科学和准确的分析，并通过对虚假评价的标记，直观的将电商的评价作弊的不诚信行为展示到商品买家和电商管理者面前；有利于电子商务环境的净化，维护了商品购买者和诚信卖家的合理利益，提高商家信誉的可信度；有助于电商行业的健康发展。

进一步的，设计信用等级标准，通过对目标商品所判定出的虚假评价率，对相应商家的信用级别进行标记，以便商品的购买者可以根据商家的虚假评价率和信用级别来做出相应的商品交易决定，降低购买者因为卖家的评价作弊而做出的交易风险。

进一步的，所述步骤(2-1)和步骤(2-2)可以同时进行，也可以依次进行；依次进行时，所述步骤(2-1)和步骤(2-2)的进行顺序可以调换；本发明中相同或者相似文字识别和相同或者相似ID识别过程可以分别独立进行，也可以同依次进行(即可以对识别出的相同或者相似评价文字的相应ID进行相似度判断；另外也可以对相似ID的评价内容进行文字相似判断，这样的统计结果的准确性更高)。

作为一种优选，当按所述步骤(2-2)和步骤(2-1)的顺序依次进行时，所述步骤(2-3)可以和所述步骤(2-1)并列进行，即在相同和相似ID判断结果的基础上，可以通过对步骤(2-1)的过程来判断相同或者相似ID所发表的评价内容是否相同或者相似，如果内容相同或者相似，则可以判断这些评价内容为虚假评价；此外在相同和相似ID判断结果的基础上，也可以通过步骤(2-3)来判断这些相同和相似ID的作弊可能性(即作弊因子)；如果发出评价的频率明显高于正常的频率，则判定这些ID为虚假评价ID。

作为一种优选，当按所述步骤(2-1)和步骤(2-2)的顺序依次进行时，所述步骤(2-2)可以和所述步骤(2-3)依次进行；即所述步骤(2)中的判断顺序为：在相同和相似评价内容的基础上，判断出这些评价内容ID是否相同或者相似；在此基础上对判断出这些ID的作弊可能性(作弊因子)；如果发出评价的频率明显高于正常的频率，则判定这些ID为虚假评价ID；本优选方案相对于其他判定方式，其虚假判定的过程更加严格，判断出的虚假评价的结果更加准确。

与现有技术相比，本发明的有益效果：本发明提供一种电商虚假评价的判断识别方法。通过客户机访问目标商品的网址，爬取目标商品网页的评价数据；并通过服务器对爬取到的评价数据进行判断，分析评价数据中评价内容，统计相同评价内容的出现数量，并通过文本相似性算法来计算其他评价内容的相似概率；将该相似概率与通过机器学习方法所得出的评价内容相似阈值进行比较，判定出相似的评价内容，并统计结果；通过对评价ID进行分析，统计出相同ID的数量，并判断其他ID的相似概率，将相似概率与机器学习得出的评价ID相似阈值，判定出相似的评价ID，并统计相似ID的判断结果。相比于现有技术只是针对相同的评价内容或相同的评价人(ID)的识别方法，本发明的虚假评价判断识别方法能够能加准确和全面的分析出目标商品的虚假评价，对职业评价师注册的小号进行了针对性的相似ID识别，对目标商品聘请职业评价师这样严重的评价作弊行为的辨识能力显著提高，有助于提高电商环境的可信度，有利于正常管控秩序的形成。此外本发明还对识别出来的虚假评价进行相应的标记，且对目标商品给出相应的虚假评价率。用户可以通过虚假评价率和标示出来的虚假评价进行综合考虑，来规避因为卖家评价作弊而带来的交易风险。目前电子商务的发展迅猛，体量巨大，电商环境中的卖家数量众多，用户在进行购买决定时难以判断商品描述的真实性，对商品评价的依赖度很高，由于卖家评价作弊而造成的商品的性能好评度虚高的情况引起的买家利益损失的情况严重，本发明商品虚假评价的辨识度高，在互联网和电子商务管理系统领域具有重要的意义和广阔的应用前景。

附图说明：

图1为本发明电商虚假评价的判断识别的系统连接关系图。

图2为电商虚假评价的判断识别方法的实现步骤示意图。

图3为虚假评价识别方法的具体实现步骤。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提供一种电商虚假评价的判断识别方法。除了统计商品的相同评价内容和相同评价ID，还采用机器学习的方法来判别相似的评价内容和相似的评价ID。通过客户机访问目标商品的网页，在访问的时候监测和自动发分析目标页面并爬取该网页的关于用户评价内容数据和评价ID；再通过服务器对爬取到的评价内容数据进行判断：分析评价内容数据的相同和相似文本的出现概率，并统计结果；通过对评价ID进行分析，判断相同和相似ID的出现次数和概率并统计结果，通过将统计结果和预先设置的阈值进行比较，如统计结果高于设置的阈值即判断为虚假评价。

为了实现上述发明目的，本发明提供了以下技术方案：

一种电商虚假评价的判断识别方法；本发明提出的虚假评价的判别识别系统如图1所示包括，客户机和服务器：通过客户机爬取网页数据并用服务器对客户机爬取的数据进行判别，具体技术方案包括如图2所示的以下步骤：

步骤(1)：通过客户机访问目标商品的网址；分析目标商品的网页信息，并获取该网页的关于用户评价内容数据和评价ID。目前通过爬虫技术可以很方便的获取到目标网页中的相关信息，提取的速度快，可分析数据的总量巨大，所提取数据的分析方法成熟，成本低廉；通过客户机对目标商品的分析和数据取。

步骤(2)：将客户机所获取到的相关数据输入到服务器中，对相关评价数据进行评价内容文本的相似度分析和ID相似度的分析。

具体的如图3所示，包括，步骤(2-1)：在服务器端对接收到的评价内容进行统计分析，分别统计相同评价出现的数量；并通过文本余弦相似性计算出其他的评价之间的相似概率值，如果该概率值高于预设的文本相似阈值(阈值的获得通过机器学习的方法自动获得)，则将这些评价判定为由同一个人做出的相似评价；统计出相似评价的数量。

具体的算法如下：为了实现所有评价的余弦相似性计算，可以提前对某电商网站的总评价数据进行了爬取，并根据词频，我们删除了一些虚词(例如标点)和一些低频词之后，建立了一个有效的实词词表如表1所示。

表1

在某一条特定评价中，计算所有的实词的TF-IDF值(TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，计算方法可以参考维基百科http：//zh.wikipedia.org/wiki/TF-IDF，此处不再赘述)，按照它们在词表中的位置排列得出一个向量，对于没有出现的词，它对应的值为零，如表2所示。

表2

用计算得到的n个数组成一个n维的向量，并用这个向量来代表这个评价。

要计算评价A和评价B的余弦相似性，需要分别求出这两条评价对应的向量如下：

a₁，a₂，…，a_n和b₁，b₂，…，b_n

利用余弦公式得出两条评价的相似概率P为

p = \cos θ = \frac{a_{1} b_{1} + a_{2} b_{2} + . . . + a_{n} b_{n}}{\sqrt{a_{1}^{2} + a_{2}^{2} + . . . + a_{n}^{2}} \cdot \sqrt{b_{1}^{2} + b_{2}^{2} + . . . + b_{n}^{2}}}

其中θ表示两矢量之间的夹角，概率越大，表示两条评论的相似性越大，反之表示两条评论的相似性越小。将计算出的相似概率与阈值进行比较，如果大于阈值，则判定为相似评论；阈值的选取过程为：在范围(0.000～0.999)选取一个浮点数作为阈值，将人工提取了一个已经确定相似的数据集，计算数据集中两两评价的相似值，当选取某阈值时能够获得最高的相似判断的准确率，我们就认为该阈值是最好的阈值。

步骤(2-2)：在服务器端对接收到的用户ID进行统计分析，分别统计相同ID出现的数量，并计算出其他不同的ID之间的相似概率值；目前职业评价师所注册和使用的小号的ID具有一定规律性；一般情况下职业评价师所注册的一系列ID号也是根据系统推荐手动注册或者根据一定的规律自动生成的，这样的方式所产生的ID号会具有较大的关联性和相似性，比如说ABC1、ABC2、ABC3、ABC4、ABC5.....ABCn，如果该概率值高于预设的ID相似阈值(ID相似阈值也通过机器学习的方法自动获取)具体的计算过程与评价内容相似性的判断方式类似，在此不再赘述，则将这些ID判定为是同一个人注册生成的ID；统计相似ID的数量。

步骤(2-3)：在服务器端对用户ID发出评价的时间和频率进行判别，并计算出一个作弊因子。关于作弊因子，做出如下的定义，作弊因子是[0～∞]之间的一个值，值越大，表示作弊的可能性越高，反之越低。详细的计算方法如下：计算第i个ID的平均评价时间间隔，计算公式如下：

\overset{&OverBar;}{t_{i}} = \frac{t_{n} - t_{1}}{n - 1}

其中t_n是第n次发评价的时间点，t₁是第1次发评价的时间点；计算该商品所有的ID的总平均评价间隔，计算公式如下：

\overset{&OverBar;}{t} = \frac{Σ_{i = 1}^{N} \overset{&OverBar;}{t_{i}}}{N} = \frac{Σ_{i = 1}^{N} \frac{t_{ni} - t_{1}}{n_{i} - 1}}{N}

计算作弊因子，计算公式如下：

η = \frac{\overset{&OverBar;}{t}}{\overset{&OverBar;}{t_{i}}}

其中η为作弊因子；作弊ID的判定关系为：(即η≥2时)，(虚假ID的评价时间频率为目标商品所有评价的评价频率的2倍，其中2倍的因子经实验验证，为一个较优选择；即当该ID发评论的间隔小于平均间隔时，即认为该ID为给出虚假评价的ID)。

步骤(3)：在服务器上利用虚假评价判别系统，结合相似评价、相似ID和或作弊因子来综合判别目标商品的评价中是否存在虚假评价。并计算虚假评价率，具体计算方法如下：

虚假评价率＝虚假评价数量/总的评价数量。

所述虚假评价判别系统是本发明中服务器对虚假评价进行判别过程所形成的系统，包括，评价内容、评价ID的相同和相似判定，以及作弊因子计算过程所组成的系统。

步骤(4)：将虚假评价判别系统的判别结果返回给客户机，通过客户机对虚假评价给出识别标签。本发明对目标商品的评价的真实性进行更加科学和准确的分析，并通过对虚假评价的标记，直观的将电商的评价作弊的不诚信行为展示到商品买家和电商管理者面前；有利于电子商务环境的净化，维护了商品购买者和诚信卖家的合理利益，提高商家信誉的可信度；有助于电商行业的健康发展。进一步的，设计信用等级标准，通过对目标商品所判定出的虚假评价率，对相应商家的信用级别进行标记，以便商品的购买者可以根据商家的虚假评价率和信用级别来做出相应的商品交易决定，降低购买者因为卖家的评价作弊而做出的交易风险。

作为一种优选，当按所述步骤(2-2)和步骤(2-1)的顺序依次进行时，所述步骤(2-3)可以和所述步骤(2-1)并列进行，即在相同和相似ID判断结果的基础上，可以通过对步骤(2-1)的过程来判断相同或者相似ID所发表的评价内容是否相同或者相似，如果内容相同或者相似，则可以判断这些评价内容为虚假评价；此外在相同和相似ID判断结果的基础上，也可以通过步骤(2-3)来判断这些相同和相似ID的作弊可能性(即作弊因子)；如果发出评价的时间和频率明显高于正常的频率，则判定这些ID为虚假评价ID。做为一种优选，当按所述步骤(2-1)和步骤(2-2)的顺序依次进行时，所述步骤(2-2)可以和所述步骤(2-3)依次进行；即所述步骤(2)中的判断顺序为：在相同和相似评价内容的基础上，判断出这些评价内容ID是否相同或者相似；在此基础上对判断出这些ID的作弊可能性(作弊因子)；如果发出评价的时间和频率明显高于正常的频率，则判定这些ID为虚假评价ID；本优选方案相对于其他判定方式，其虚假判定的过程更加严格，判断出的虚假评价的结果更加准确。

Claims

1.一种电商虚假评价的判断识别方法，其特征在于，包括以下实现步骤：

(1)通过客户机访问目标商品的网址；爬取该网页关于用户评价的内容数据和评价ID；

(2)将客户机所获取到的相关数据输入到服务器中，对相关评价数据进行内容文本的相似度分析和评价ID的相似度分析；

(3)在服务器中，根据步骤(2)的分析结果，判别目标商品的商品评价是否存在虚假评价，并计算虚假评价率；

(4)将所述判别结果返回给客户机，通过客户机对虚假评价给出识别标签。

2.如权利要求1所述的电商虚假评价的判断识别方法，其特征在于，所述步骤(2)包括以下步骤：

(2-1)对接收到的评价内容统计出相同评价出现的数量；并通过文本相似性计算方法，来计算其他的评价之间的相似性概率值，如果该概率值高于预设的文本相似度阈值，则将这些评价判定为由同一个人给出的相似评价；

(2-2)对接收到的用户评价ID分别统计出相同ID出现的数量，并计算出不同ID之间的相似概率值，如果该概率值高于预设的ID相似度阈值，则判定这些ID是同一个人注册生成。

3.如权利要求1所述的电商虚假评价的判断识别方法，其特征在于，所述步骤(2)包括以下步骤：(2-3)对用户ID发出评价的时间和发出评价的频率进行判别，并计算出作弊因子。

4.如权利要求3所述的电商虚假评价的判断识别方法，其特征在于，所述文本相似判断采用文本余弦相似算法来计算。

5.如权利要求2所述的电商虚假评价的判断识别方法，其特征在于，所述步骤(2-1)中统计相似评价内容的数量，将相同和相似文本的数量统计结果输入到虚假评价判别系统中。

6.如权利要求2所述的电商虚假评价的判断识别方法，其特征在于，所述步骤(2-2)中统计相似评价ID的数量，将相同和相似ID的数量统计结果输入到虚假判别系统中。

7.如权利要求5或者6所述的电商虚假评价的判断识别方法，其特征在于，所述步骤(3)中的虚假评价判断参数包括，相同评价、相似评价、相同ID、相似ID和、或作弊因子。

8.如权利要求2所述的电商虚假评价的判断识别方法，其特征在于，所述步骤(2-1)和所述步骤(2-2)为并列进行或者依次进行。

9.如权利要求8所述的电商虚假评价的判断识别方法，其特征在于，所述步骤(2-1)和所述步骤(2-2)依次进行时，所述步骤(2-1)和所述步骤(2-2)的顺序可以调换。

10.如权利要求9所述的电商虚假评价的判断识别方法，其特征在于，所述步骤(2-2)和步骤(2-1)依次进行时，所述步骤(2-1)与所述步骤(2-3)并列进行或者依次进行。