CN110175851A

CN110175851A - 一种作弊行为检测方法及装置

Info

Publication number: CN110175851A
Application number: CN201910152711.3A
Authority: CN
Inventors: 温蕊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-08-27
Anticipated expiration: 2039-02-28
Also published as: CN110175851B

Abstract

本发明涉及互联网技术领域，尤其涉及一种作弊行为检测方法及装置，获取待检测的评论信息；基于所述评论信息，分别获取用户行为特征和设备行为特征，并根据预设的黑词库和白语料库，获得所述评论信息的评论内容特征；基于预先训练的作弊检测模型，根据所述用户行为特征、设备行为特征和评论内容特征，对所述评论信息进行作弊检测，获得所述评论信息的作弊检测结果，这样，从用户行为特征、设备行为特征和评论内容特征三个方面，对评论信息进行多维度建模分析，进行作弊行为检测，提高作弊行为检测的准确性。

Description

一种作弊行为检测方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种作弊行为检测方法及装置。

背景技术

实际中，一些商品或软件等经常出现刷评论的作弊评论，这不仅影响用户的判断，也对产品竞争造成不良影响。

现有技术中，检测作弊评论，主要是从评论内容中提取出某些对检测作弊评论有效的特征，然后人工搜索并标注训练数据集，根据已标注的训练数据集，训练机器学习模型，基于获得的模型，进行作弊评论检测。

但是，现有技术中的这种方法，所提取的特征基本都是一些句子的表面特征，并没有深入到语义层面，并且衡量标准单一，导致作弊评论检测准确性和召回率较低。

发明内容

本发明实施例提供一种作弊行为检测方法及装置，以解决现有技术中作弊评论检测准确性和召回率较低的问题。

本发明实施例提供的具体技术方案如下：

本发明一个实施例提供了一种作弊行为检测方法，包括：

获取待检测的评论信息；

基于所述评论信息，分别获取用户行为特征和设备行为特征，并根据预设的黑词库和白语料库，获得所述评论信息的评论内容特征；

基于预先训练的作弊检测模型，根据所述用户行为特征、设备行为特征和评论内容特征，对所述评论信息进行作弊检测，获得所述评论信息的作弊检测结果。

本发明另一个实施例提供了一种作弊行为检测装置，包括：

获取模块，用于获取待检测的评论信息；

提取模块，用于基于所述评论信息，分别获取用户行为特征和设备行为特征，并根据预设的黑词库和白语料库，获得所述评论信息的评论内容特征；

检测模块，用于基于预先训练的作弊检测模型，根据所述用户行为特征、设备行为特征和评论内容特征，对所述评论信息进行作弊检测，获得所述评论信息的作弊检测结果。

本发明另一个实施例提供了一种电子设备，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述任一种作弊行为检测方法。

本发明另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种作弊行为检测方法的步骤。

本发明实施例中，获取待检测的评论信息；基于所述评论信息，分别获取用户行为特征和设备行为特征，并根据预设的黑词库和白语料库，获得所述评论信息的评论内容特征；基于预先训练的作弊检测模型，根据所述用户行为特征、设备行为特征和评论内容特征，对所述评论信息进行作弊检测，获得所述评论信息的作弊检测结果，这样，提取用户行为特征、设备行为特征和评论内容特征，融合多源异构特征，实现了对评论信息的多维度建模分析，从而基于这三方面特征进行作弊检测，提高作弊检测模型的召回率和准确率，进而提高作弊评论检测的准确性和性能。

附图说明

图1为本发明实施例中作弊行为检测方法的应用架构示意图；

图2为本发明实施例中作弊行为检测方法流程图；

图3为本发明实施例中黑词库更新方法原理图；

图4为本发明实施例中计算评论内容的哈希值的原理示意图；

图5为本发明实施例中作弊行为检测原理示意图；

图6为本发明实施例中作弊检测模型的训练方法流程图；

图7为本发明实施例中评论内容特征提取流程图；

图8为本发明实施例中作弊行为检测装置结构示意图；

图9为本发明实施例中电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面先对几个概念进行简单介绍：

Word2Vec模型：为一种词向量模型，输入为各词语，通过无监督的方式学习训练，可以输出各词向量。

随机森林模型：为利用多棵树对样本进行训练并预测的一种分类器，本发明实施例中可以基于随机森林模型，训练获得作弊检测模型，当然，本发明实施例中作弊检测模型并不仅限于随机森林模型，还可以使用其它机器学习模型，例如逻辑回归模型、极端梯度增强(eXtreme Gradient Boosting，XGBoost)模型等。

黑词库：本发明实施例中表示作弊词语的数据库。

白语料库：本发明实施例中表示非作弊词语的数据库，主要目的是为了防止误判，可以与本发明实施例中发表评论数量相辅，例如，某个词语的使用频率非常高，容易被检测为作弊词语，但可能其并不是作弊词语，例如常见的词语“好”等，因此通过白语料库，即使出现频率非常高，也不会被误判为作弊词语。

海明距离：两个合法代码对应位上编码不同的位数称为码距，又称海明距离。

simhash算法：为一种哈希(hash)算法，计算速度较快。

通常，用户在了解或使用商品或软件等前，有查看评论以确定其是否可靠的需求，但是，实际中会出现一些刷评论的作弊评论，影响用户的判断，也对产品竞争造成不良的影响，例如软件的广告营销，可能会出现针对某软件的刷好评操作，以提高其在排行榜中的排名。

现有技术中，主要是基于从评论内容中提取的特征，训练模型并进行作弊检测，这种方式，所提取的特征基本都是一些句子的表面特征，并没有深入到语义层面，并且仅从评论内容的角度判断是否为作弊评论，衡量标准太过单一，训练的模型召回率和准确率较低，降低了作弊检测的准确性，并且现有技术中训练模型时，通常是人工标注训练数据集，而人工标注成本高并效率低，需要花费较高的人力成本和费用支出，并且通常黑产的作弊形式多样，一旦作弊方式发生变化，例如评论内容方面的作弊词语发生变更，由于人工发现此类行为需要一定的时间，因此在发现前的一段时间内，很难检测到此类作弊行为，导致作弊评论难以控制。

针对上述问题，本发明实施例中，提供了一种作弊行为检测方法，根据待检测的评论信息，获取用户行为特征、设备行为特征和评论内容特征，并基于预先训练的作弊检测模型，根据用户行为特征、设备行为特征和评论内容特征，对评论信息进行作弊检测，获得评论信息是否为作弊评论的检测结果，这样，综合考虑评论信息对应的用户行为、设备行为和评论内容三方面特征，对评论信息进行特征提取并进行作弊检测，实现了对评论信息的多维度建模分析，并且评论内容特征挖掘了评论信息在语义层面的深度隐含特征，从而有效地提高了作弊评论检测的召回率和准确率。

并且，可以通过用户行为、设备行为和文本内容，以及设置的作弊条件，实现对评论信息的自动标注，不需要人工标注，提高了效率，降低了成本。

参阅图1所示，为本发明实施例中作弊行为检测方法的应用场景架构图，至少包括终端、服务器。

终端可以是智能手机、平板电脑、便携式个人计算机、智能电视等任何智能设备。终端上可以安装有各种应用程序(Application，APP)软件，用户可以通过终端输入评论信息，例如，用户在终端上针对某软件，输入对该软件使用情况的评论信息，并进行提交。

终端与服务器之间通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

服务器为终端提供各种网络服务，对于不同的终端或终端上的应用程序，服务器可以认为是提供相应网络服务的后台服务器，并且服务器还可以具有计算功能等，例如，本发明实施例中，服务器可以接收用户在终端输入并提交的评论信息。

其中，服务器可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

需要说明的是，本发明实施例中作弊行为检测方法主要由服务器执行，并且作弊检测模型的训练过程也由服务器执行，服务器获取到终端发送的评论信息，进行特征提取，提取用户行为特征、设备行为特征和评论内容特征，训练获得作弊检测模型，进而可以基于训练完成的作弊检测模型，对待检测的评论信息进行作弊检测，判断是否为作弊评论，服务器还可以将评论信息的作弊检测结果发送给终端。

并且，本发明实施例中作弊行为检测方法，也可以集成在某产品中，为该产品提供作弊行为检测的服务，例如，本发明实施例中的作弊行为检测方法，可以集成于腾讯灯塔的内容防刷模块，在实际使用该作弊检测服务时，使用该服务的产品，可以选择接入腾讯灯塔软件开发工具包(Software Development Kit，SDK)，也可以直接给腾讯灯塔提供包含必要字段的评论日志，从而腾讯灯塔可以根据输入的评论日志返回相应的作弊检测结果，此时执行作弊行为检测方法的服务器可以认为是腾讯灯塔的后台服务器。

值得说明的是，本发明实施例中的应用架构图是为了更加清楚地说明本发明实施例中的技术方案，并不构成对本发明实施例提供的技术方案的限制，对于其它的应用架构和业务应用，本发明实施例提供的技术方案对于类似的问题，同样适用，例如，本发明实施例中作弊评论检测方法，可以应用于对APP软件的评论信息的检测，还可以应用于其它大规模业务场景，可以实现半监督的自动化作弊评论检测。

本发明各个实施例中，以作弊行为检测方法用于图1所示的应用架构图为例进行示意性说明。

参阅图2所示，为本发明实施例中作弊行为检测方法的流程图，该方法包括：

步骤200：获取待检测的评论信息。

例如，若需要对某软件的评论信息进行检测，判断该软件是否存在作弊刷评行为，则可以获取该软件的评论信息或评论日志，作为待检测的评论信息。

其中，评论信息的评论内容例如为“非常好”、“666”、“好用”等，并且，评论信息中还包括对应的用户标识、设备标识等，即可以确定某个评论信息是哪个用户发表的，还可以确定用户是通过什么设备发表的。

步骤210：基于评论信息，分别获取用户行为特征和设备行为特征，并根据预设的黑词库和白语料库，获得评论信息的评论内容特征。

执行步骤210时，具体可以包括以下几个方面：

第一方面：获取用户行为特征。

基于评论信息，获取用户行为特征，具体包括：根据评论信息对应的用户标识，确定用户标识对应的用户在预设时间段内的第一历史发表记录。

其中，第一历史发表记录至少包括以下一种或组合：发表评论数量、登录的设备数量等，本发明实施例中并不进行限制，可以根据实际情况和评论日志字段的扩充而变化。

其中，预设时间段可以为进行作弊行为检测的时间之前的某时间段，例如为当天、最近7天、最近30天等，本发明实施例中并不进行限制。

例如，确定评论信息对应的用户标识后，可以根据该用户标识，计算该用户在当天所发表的评论数量、在最近7天发表的评论数量和最近30天发表的评论数量。并且，还可以根据该用户标识，并结合评论信息对应的设备标识，计算该用户在当天所登录的设备数量。

本发明实施例中，用户行为特征可以表征用户的操作行为，例如，针对软件评论作弊检测场景，即可以表示用户在应用商店里的操作行为。

第二方面：获取设备行为特征。

基于评论信息，获取设备行为特征，具体包括：根据评论信息对应的设备标识，确定设备标识对应的设备在预设时间段内的第二历史发表记录。

其中，第二历史发表记录至少包括以下一种或组合：发表评论数量、登录的用户数量等，本发明实施例中也不进行限制，可以根据实际情况和评论日志字段的扩充而变化。

例如，确定评论信息对应的设备标识后，可以根据该设备标识，计算该设备在当天所发表的评论数量、在最近7天发表的评论数量和最近30天发表的评论数量。并且，还可以根据该设备标识，并结合评论信息对应的用户标识，计算该设备在当天登录的用户数量。

同样地，本发明实施例中设备行为特征表征设备的操作行为，例如，设备在应用商店里的操作行为。

第三方面：获取评论内容特征。

本发明实施例中评论内容特征表征评论内容的文本特征，例如，应用商店里某软件的评论内容的文本特征。

具体地，根据预设的黑词库和白语料库，获得评论信息的评论内容特征，包括：

1)确定评论信息的评论内容中预设特殊符号的占比。

其中，预设特殊符号，例如为除中英文之外的特殊符号，例如通常称之的火星文，由符号、繁体字、日文、韩文、冷僻字或汉字拆分后的部分等非正规化文字符号组合而成。

2)获得评论信息的评论内容的分词结果。

进一步地，还可以对评论内容进行数据清洗、去停用词等操作，以进一步提高评论内容特征提取的准确性。

具体地，例如可以利用HanLP Python工具包，对评论信息的评论内容进行数据清洗、分词、去停用词等操作。

其中，停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词，通常可以分为两类，一类是人类语言中包含的功能词，这些功能词极其普遍，与其他词相比，功能词没有什么实际含义，另一类包括词汇词，这些词应用十分广泛，但是，通常这些词对于搜索或特征提取的作用不大，还会降低效率，因此，本发明实施例中获得分词结果后，进行去停用词操作，可以将这些词从评论内容的分词结果中去除，提高效率和性能。

3)检测分词结果中是否存在有白语料库中的词语，进行标记，获得评论信息的第一标记结果。

其中，白语料库为非作弊词语并通常为应用次数较高的词语的数据库，可以预先进行设置，并且还可以不断更新白语料库。

本发明实施例中，根据评论信息的评论内容的分词结果，判断评论信息的评论内容中是否存在白语料库中的词语，若存在，则可以标记为1，若不存在，则可以标记为0，具体标记方式并不进行限制。

进一步地，若评论信息的评论内容的分词结果中有多个词语均存在于白语料库中，则可以分别针对分词结果中每个分词进行标记，分别判断是否为属于白语料库中的词语，最后可以确定分词结果中属于白语料库中词语的数量。

4)检测分词结果中是否存在有黑词库中的词语，进行标记，获得评论信息的第二标记结果。

具体地，可以将评论信息的评论内容的分词结果中每个词语，与黑词库中词语进行聚类，若分词结果中词语与黑词库中词语属于同一类别，则确定评论信息的评论内容的分词结果中存在有黑词库中的词语，可以标记为1，若不存在，则可以标记为0，具体标记方式并不进行限制。

进一步地，若评论信息的评论内容的分词结果中有多个词语均存在于黑词库，则可以分别针对分词结果中每个分词进行标记，分别判断是否为属于黑词库中的词语，最后可以确定分词结果中属于黑词库中词语的数量。

其中，黑词库为作弊词语的数据库，可以预先进行设置，并不断进行更新，例如，针对软件评论作弊检测，由于软件作弊评论的主要目的是为了推广目标软件，因此，例如可以利用Python的beautifulsoup包爬取应用商城网站中的软件名称，并且可以人工搜集吐槽谩骂、色情词会等敏感违规词语，从而可以将这些软件名称和敏感违规词语作为初始化的黑词库，后续可以不断更新和扩充黑词库，以提高评论内容的黑词库命中标识的准确性。

具体地本发明实施例中还提供了一种黑词库更新的实施方式，参阅图3所示，为本发明实施例中黑词库更新方法原理图，具体包括：

S1、基于预设的词向量模型，获得评论信息的评论内容的分词结果中各词语的词向量和黑词库中词语的词向量。

其中，预设的词向量模型，例如为Word2Vec模型，当然也可以基于其它词向量模型，本发明实施例中并不进行限制。

具体地，将各评论信息的评论内容进行分词、去停用词等操作后，获得各评论内容的分词结果，基于Word2Vec模型和所有分词结果，训练Word2Vec模型，计算各词语的指定长度的词向量，并且可以基于Word2Vec模型获得黑词库中词语的词向量。

S2、根据黑词库中词语的词向量，以及评论内容的分词结果中各词语的词向量，进行聚类，确定评论内容的分词结果中与黑词库中词语属于同一类别的词语。

具体地，可以根据预设的聚类算法，以黑词库中词语的词向量为基准，对所有词语的词向量进行聚类，通过计算词向量之间的余弦距离，进行聚类，即可以聚类出与黑词库中词语语义相似的词语。

S3、根据确定的与黑词库中词语属于同一类别的词语，更新黑词库。

进一步地，得到与黑词库中词语属于同一类别的词语后，还可以经过人工筛选，再更新到黑词库中，可以提高准确性和可靠性。

这样，本发明实施例中，结合Word2Vec模型，可以挖掘评论内容在语义层面的深度隐含特征，而不仅是句子的表面特征，提高评论内容特征的准确性，并且基于通过聚类算法，可以根据聚类结果，将与黑词库中词语相似的词语经过人工筛选后，添加到黑词库中，从而完成黑词库的自动更新。

5)计算评论信息的评论内容的哈希值，根据评论内容的哈希值，确定与评论信息的评论内容相似度大于预设相似度阈值的评论信息的数量。

本发明实施例中，确定相似评论信息数量时，可以基于simhash算法，为各评论信息的评论内容生成对应的simhash值，并确定当日所有评论信息中，与待检测的评论信息的评论内容的simhash值的海明距离相近的评论信息的数量，具体包括以下操作：

S1、计算评论信息的评论内容的哈希值。

例如，参阅图4所示，为本发明实施例中计算评论内容的哈希值的原理示意图。具体包括：

S1.1、计算评论内容的分词结果中各分词的哈希值，并分别将各哈希值映射成一定长度位(bits)的二进制串。

例如，如图4所示，评论内容的分词结果中包括词语(word)1、word2、word3等，分别映射得到各分词的哈希值的二进制串为100000、100001、100101等。

S1.2、根据各分词的权重，对二进制串进行加权计算，分别得到与其对应的序列串。

例如，如图4所示，对word1、word2、word3的二进制串100000、100001、100101，进行加权计算后，得到对应的序列串分别为1 -1 -1 -1 -1 -1、1 -1 -1 -1 -1 1、1 -1 -1 1 -1 1。

S1.3、对各序列串按位进行累加，将多个序列串合并成一个长度为bits的序列串。

例如，如图4所示，按位累加后，得到合并后的序列串为：3 -3 -3 -1 -3 1。

S1.4、对合并后的序列串进行二进制化，得到一个长度为bits的二进制串，该二进制串即为该评论内容的哈希值。

例如，如图4所示，得到该评论内容的哈希值为100001。

S2、根据评论内容的哈希值，确定与评论信息的评论内容相似度大于预设相似度阈值的评论信息的数量。

其中，确定与评论信息的评论内容相似度较近的评论信息时，可以在设置的一定时间段内获得的各评论信息中进行比对，例如，进行作弊评论检测的时间的当天，本发明实施例中并不进行限制。

并且，预设相似度阈值，本发明实施例中并不进行限制，可以根据实际情况进行设置。

这样，通过计算评论信息的哈希值，来确定相似评论信息的数量，可以有效地降低了文本相似性计算的复杂度。

需要说明的是，本发明实施例中评论内容特征也并不仅限于上述白语料库命中标识、黑词库命中标识、特殊符号占比、相似评论信息数量等，可以根据实际情况和评论日志字段的扩充而变化。

这样，本发明实施例中，可以基于评论信息，提取对应的用户行为特征、设备行为特征和评论内容特征，将提取的特征输入到作弊检测模型，可以获得评论信息的作弊检测结果。

步骤220：基于预先训练的作弊检测模型，根据用户行为特征、设备行为特征和评论内容特征，对评论信息进行作弊检测，获得评论信息的作弊检测结果。

本发明实施例中，可以预先基于各评论信息的用户行为特征、设备行为特征和评论内容特征，训练作弊检测模型，进而可以基于训练完成的作弊检测模型，对待检测的评论信息进行作弊检测，判断其是否为作弊评论。

这样，本发明实施例中，针对待检测的评论信息，分别获取用户行为特征、设备行为特征和评论内容特征，并基于预先训练的作弊检测模型，根据用户行为特征、设备行为特征和评论内容特征，对评论信息进行作弊检测，获得评论信息的作弊检测结果，这样，从用户行为特征、设备行为特征和评论内容特征三个方面，融合多源异构特征，对评论信息进行多维建模分析，可以提高作弊检测模型的召回率和准确率，从而提高作弊行为检测的准确性和性能，并且还可以通过聚类算法，不断自动更新黑词库，可以进一步提高作弊行为检测的准确性。

基于实施例，下面采用具体应用场景对本发明实施例中作弊行为检测方法进行简单说明，参阅图5所示，为本发明实施例中作弊行为检测原理示意图。

如图5所示，可以从评论信息中获取用户行为特征、设备行为特征和评论内容特征，例如，用户行为特征包括发表评论数量、登录的设备数量等，设备行为特征包括发表评论数量、登录的用户数量等，评论内容特征包括相似评论信息的数量、黑词库命中标识、白语料库命中标识等。

其中，黑词库命中标识即表示与黑词库匹配标记获得的第二标记结果，白语料库命中标识即表示与白语料库匹配标记获得的第一标记结果。

进而可以将获取的所有用户行为特征、设备行为特征和评论内容特征，输入到作弊检测模型中，基于作弊检测模型进行作弊检测，获得评论信息的作弊检测结果。

本发明实施例中，主要是从用户行为特征、设备行为特征和评论内容特征三方面综合考虑，训练并检测作弊评论，多维度分析，从而提高作弊评论检测的召回率和准确率。

基于上述实施例，下面对本发明实施例中作弊检测模型的训练过程进行说明。参阅图6所示，为本发明实施例中作弊检测模型的训练方法流程图，包括：

步骤600：获取各评论信息。

例如，可以从相应数据库中获取针对某软件或商品等的各评论信息。

步骤601：基于各评论信息，分别获取各评论信息对应的用户行为特征和设备行为特征，并根据预设的黑词库和白语料库，分别获得各评论信息的评论内容特征。

具体地包括：1)获取用户行为特征：分别根据各评论信息对应的用户标识，确定各用户标识对应的用户在预设时间段内的第一历史发表记录。

2)获取设备行为特征：分别根据各评论信息对应的设备标识，确定设备标识对应的设备在预设时间段内的第二历史发表记录。

3)获取评论内容特征。参阅图7所示，为本发明实施例中评论内容特征提取流程图，包括：

步骤700：提取评论内容特征开始。

即分别对各评论信息进行评论内容特征提取。

步骤701：获取评论信息的评论内容。

步骤702：确定特殊符号占比。

步骤703：数据清洗。

步骤704：进行分词，获得分词结果。

步骤705：去停用词。进而可以基于去停用词后的分词结果，分别执行步骤706、步骤709、步骤711和步骤715。

步骤706：判断是否存在于白语料库，若是，则执行步骤707，否则，则执行步骤708。

步骤707：白语料库命中标记1。

步骤708：白语料库未命中标记0。

步骤709：计算评论内容的哈希值。

步骤710：确定相似评论信息的数量。

步骤711：训练Word2Vec模型。

步骤712：生成词向量。

即分别为各分词结果中词语生成相应的词向量，去停用词后，可以基于分词结果中去停用词之后的词语，训练词向量模型，并为去停用词后的词语生成词向量即可。

步骤713：根据黑词库进行聚类。

步骤714：更新黑词库。

具体地：通过聚类，确定评论内容的分词结果中与黑词库中词语属于同一类别的词语，将确定的与黑词库中词语属于同一类别的词语，更新黑词库。

即可以将评论内容的分词结果中各词语，先与黑词库中词语进行聚类，确定分词结果中词语是否属于黑词库中词语，若属于，则添加到黑词库，之后就可以直接基于更新后的黑词库，判断评论内容的分词结果是否存在于黑词库中的词语。

步骤715：判断是否存在于黑词库，若是，则执行步骤716，否则，则执行步骤717。

步骤716：黑词库命中标记1。

步骤717：黑词库未命中标记0。

步骤718：提取评论内容特征结束。

本发明实施例中，可以分别针对各评论信息，分别提取其相应的用户行为特征、设备行为特征和评论内容特征，用于作弊检测。

步骤602：分别根据各评论信息对应的用户行为特征、设备行为特征和评论内容特征，以及设置的作弊条件，分别对各评论信息进行作弊检测，获得各评论信息的作弊检测结果。

执行步骤602时，具体包括：

1)分别判断各评论信息对应的用户行为特征、设备行为特征和评论内容特征是否超过对应的阈值。

本发明实施例中，可以分别设置每个特征对应的阈值，例如，可以分别设置用户行为特征中发表评论数量的阈值、登录的设备数量的阈值，设备行为特征中发表评论数量的阈值、登录的用户数量的阈值，评论内容特征中预设特殊符号的占比的阈值、相似评论信息数量的阈值等，从而可以提取到各评论信息的用户行为特征、设备行为特征和评论内容特征后，分别判断各评论信息的各个特征是否超过对应设置的阈值。

2)针对任意一个评论信息，若确定超过对应阈值的特征符合预设判断条件，则确定该任意一个评论信息为作弊评论，否则，确定该任意一个评论信息不是作弊评论。

其中，预设判断条件可以为确定超过对应的阈值的特征数量不小于预设值，也可以根据各特征对作弊检测的影响程度，分别为各特征设置权重，根据对应的权重和是否超过对应的阈值的判断结果，确定评论信息是否为作弊评论。

本发明实施例中预设判断条件，可以根据实际需求和情况进行设置，并不进行限制。

需要说明的是，本发明实施例中，预设作弊条件包括各特征对应设置的阈值和预设判断条件，并且可以通过不断训练的作弊检测模型的检测结果，调整对应设置的阈值和判断条件，并再次对各评论信息进行作弊检测，重新标记是否为作弊评论，这样，可以基于重新标记的是否为作弊评论的各评论信息，不断训练作弊检测模型，从而提高作弊检测模型的准确性。

其中，步骤602中设置的作弊条件，在最初训练作弊检测模型时，可以根据实际经验预先进行设置，之后可以基于作弊检测模型的检测结果，进行调整，这里的目的是为了对各评论信息进行是否为作弊评论的标记，获得标记的训练集，从而实现了不需要人工进行标记，可以自动进行标记，提高了效率，降低了成本。

步骤603：根据各评论信息的作弊检测结果，获得各评论信息是否为作弊评论的标记。

例如，若确定评论信息为作弊评论，则可以将该评论信息标记为1，若确定不是作弊评论，则可以将该评论信息标记为0。

步骤604：根据各评论信息，以及对应的是否为作弊评论的标记，训练作弊检测模型，调整作弊条件，直到确定作弊检测模型的检测误差最小化。

具体包括：S1、将各评论信息对应的用户行为特征、设备行为特征和评论内容特征，以及对应的是否为作弊评论的标记，输入到作弊检测模型中进行训练。

其中，作弊检测模型，例如为随机森林模型等，本发明实施例中并不进行限制，并且可以基于不同的算法平台，来训练作弊检测模型，例如维纳斯算法平台。

S2、训练完成后，使用测试集数据检测训练后的作弊检测模型的检测误差，以进一步调整和提高作弊检测模型的召回率和准确率。具体地：

S2.1、基于训练后的作弊检测模型，使用测试集进行预测，记录测试集中各评论信息的预测结果。

S2.2、筛选出实际标记为0但预测结果为1的评论信息，经过验证后，若确定该评论信息不是作弊评论，则添加到白语料库。

实际标记为0但预测结果为1，说明该评论信息实际不是作弊评论，但作弊检测模型检测为作弊评论，可以通过人工验证其评论内容是否可疑，若确定不可疑，即可以确定的确不是作弊评论，则将该不是作弊评论的评论信息的评论内容添加的白语料库，可以实现对白语料库的更新，不断更新白语料库，可以防止误判，提高准确性。

S2.3、筛选出实际标记为1但预测结果为0的评论信息，调整相应阈值。

实际标记为1但预测结果为0，说明该评论信息实际是作弊评论，但作弊检测模型检测为不是作弊评论，可以通过人工分析作弊检测模型检测错误的原因，从而相应调整各特征对应的阈值。

这样，通过测试集的预测，可以更新白语料库并调整各特征相应的阈值，从而再次重新训练作弊检测模型，以减少其检测误差，提高召回率和准确率。

S3、基于更新后的白语料库，重新确定各评论信息的评论内容的白语料命中标记。

S4、根据更新后的评论内容特征、用户行为特征和设备行为特征，以及调整后的各特征相应的阈值，重新对各评论信息进行作弊检测，重新获得各评论信息是否为作弊评论的标记，并再次对作弊检测模型进行训练。

即可以通过调整各特征对应的阈值，以及评论信息提取的特征，不断调整对各评论信息是否为作弊评论的标记，以提高标记的训练集的准确性，从而可以提高基于标记的训练集训练的作弊检测模型的准确率和召回率。

S5、训练后可以再次使用测试集进行测试，从而不断训练作弊检测模型，直到确定作弊检测模型的检测误差最小化，获得最终训练完成的作弊检测模型。

这样，基于评论信息的用户行为特征、设备行为特征和评论内容特征，以及调整的作弊条件，不仅实现对评论信息的自动标记，还可以提高了标记的准确性，从而不断训练作弊检测模型，提高了作弊检测模型的召回率和准确率，进一步地，还可以根据测试集，计算作弊检测模型的召回率和准确率。

基于上述实施例，参阅图8所示，本发明实施例中，作弊行为检测装置具体包括：

获取模块80，用于获取待检测的评论信息；

提取模块81，用于基于所述评论信息，分别获取用户行为特征和设备行为特征，并根据预设的黑词库和白语料库，获得所述评论信息的评论内容特征；

检测模块82，用于基于预先训练的作弊检测模型，根据所述用户行为特征、设备行为特征和评论内容特征，对所述评论信息进行作弊检测，获得所述评论信息的作弊检测结果。

可选的，基于所述评论信息，分别获取用户行为特征和设备行为特征时，提取模块81具体用于：

根据所述评论信息对应的用户标识，确定所述用户标识对应的用户在预设时间段内的第一历史发表记录；

根据所述评论信息对应的设备标识，确定所述设备标识对应的设备在预设时间段内的第二历史发表记录。

可选的，所述第一历史发表记录至少包括以下一种或组合：发表评论数量、登录的设备数量；所述第二历史发表记录至少包括以下一种或组合：发表评论数量、登录的用户数量。

可选的，根据预设的黑词库和白语料库，获得所述评论信息的评论内容特征时，提取模块81具体用于：

确定所述评论信息的评论内容中预设特殊符号的占比；

获得所述评论信息的评论内容的分词结果；

检测所述分词结果中是否存在有白语料库中的词语，进行标记，获得所述评论信息的第一标记结果；

检测所述分词结果中是否存在有黑词库中的词语，进行标记，获得所述评论信息的第二标记结果；

计算所述评论信息的评论内容的哈希值，根据所述评论内容的哈希值，确定与所述评论信息的评论内容相似度大于预设相似度阈值的评论信息的数量。

可选的，进一步包括，更新模块83，用于：

基于预设的词向量模型，获得评论信息的评论内容的分词结果中各词语的词向量和黑词库中词语的词向量；

根据黑词库中词语的词向量，以及所述评论内容分词结果中各词语的词向量，进行聚类，确定评论内容的分词结果中与黑词库中词语属于同一类别的词语；

根据确定的与黑词库中词语属于同一类别的词语，更新黑词库。

可选的，针对所述作弊检测模型的训练方式，还包括：训练模块84，用于：

获取各评论信息；

基于各评论信息，分别获取各评论信息对应的用户行为特征和设备行为特征，并根据预设的黑词库和白语料库，分别获得各评论信息的评论内容特征；

分别根据各评论信息对应的用户行为特征、设备行为特征和评论内容特征，以及设置的作弊条件，分别对各评论信息进行作弊检测，获得各评论信息的作弊检测结果；

根据各评论信息的作弊检测结果，获得各评论信息是否为作弊评论的标记；

根据各评论信息，以及对应的是否为作弊评论的标记，训练所述作弊检测模型，调整作弊条件，直到确定所述作弊检测模型的检测误差最小化。

可选的，分别根据各评论信息对应的用户行为特征、设备行为特征和评论内容特征，以及设置的作弊条件，分别对各评论信息进行作弊检测，获得各评论信息的作弊检测结果时，训练模块84具体用于：

分别判断各评论信息对应的用户行为特征、设备行为特征和评论内容特征是否超过对应的阈值；

针对任意一个评论信息，若确定超过对应阈值的特征符合预设判断条件，则确定该任意一个评论信息为作弊评论，否则，确定该任意一个评论信息不是作弊评论。

基于上述实施例，参阅图9所示，本发明实施例中，一种电子设备的结构示意图。

本发明实施例提供了一种电子设备，该电子设备可以包括处理器910(CenterProcessing Unit，CPU)、存储器920、输入设备930和输出设备940等，输入设备930可以包括键盘、鼠标、触摸屏等，输出设备940可以包括显示设备，如液晶显示器(Liquid CrystalDisplay，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器920可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器910提供存储器920中存储的程序指令和数据。在本发明实施例中，存储器920可以用于存储本发明实施例中作弊行为检测方法的程序。

处理器910通过调用存储器920存储的程序指令，处理器910用于按照获得的程序指令执行：

获取待检测的评论信息；

可选的，基于所述评论信息，分别获取用户行为特征和设备行为特征时，处理器910具体用于：

可选的，根据预设的黑词库和白语料库，获得所述评论信息的评论内容特征时，处理器910具体用于：

确定所述评论信息的评论内容中预设特殊符号的占比；

获得所述评论信息的评论内容的分词结果；

可选的，处理器910进一步用于：

可选的，所述作弊检测模型的训练方式，处理器910进一步用于：

获取各评论信息；

可选的，分别根据各评论信息对应的用户行为特征、设备行为特征和评论内容特征，以及设置的作弊条件，分别对各评论信息进行作弊检测，获得各评论信息的作弊检测结果时，处理器910具体用于：

基于上述实施例，本发明实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的作弊行为检测方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种作弊行为检测方法，其特征在于，包括：

获取待检测的评论信息；

2.如权利要求1所述的方法，其特征在于，基于所述评论信息，分别获取用户行为特征和设备行为特征，具体包括：

3.如权利要求2所述的方法，其特征在于，所述第一历史发表记录至少包括以下一种或组合：发表评论数量、登录的设备数量；

所述第二历史发表记录至少包括以下一种或组合：发表评论数量、登录的用户数量。

4.如权利要求1所述的方法，其特征在于，根据预设的黑词库和白语料库，获得所述评论信息的评论内容特征，具体包括：

确定所述评论信息的评论内容中预设特殊符号的占比；

获得所述评论信息的评论内容的分词结果；

5.如权利要求4所述的方法，其特征在于，进一步包括：

6.如权利要求1所述的方法，其特征在于，所述作弊检测模型的训练方式为：

获取各评论信息；

7.如权利要求6所述的方法，其特征在于，分别根据各评论信息对应的用户行为特征、设备行为特征和评论内容特征，以及设置的作弊条件，分别对各评论信息进行作弊检测，获得各评论信息的作弊检测结果，具体包括：

8.一种作弊行为检测装置，其特征在于，包括：

获取模块，用于获取待检测的评论信息；

9.一种电子设备，其特征在于，包括：

至少一个存储器，用于存储程序指令；

至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述方法的步骤。