CN110009430A

CN110009430A - 作弊用户检测方法、电子设备及计算机可读存储介质

Info

Publication number: CN110009430A
Application number: CN201910290109.6A
Authority: CN
Inventors: 温蕊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-07-12
Anticipated expiration: 2039-04-11
Also published as: CN110009430B

Abstract

本申请实施例提供了一种作弊用户检测方法、电子设备及计算机可读存储介质，涉及机器学习领域。该方法包括：获取预设时间内的评论日志，然后基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息，然后基于各个用户分别对应的用户特征信息，构建图结构文件，然后基于图结构文件并通过图卷积网络模型，识别作弊用户。本申请实施例可以检测作弊用户，并可以降低检测作弊用户的复杂度，提升检测作弊用户的精确度。

Description

作弊用户检测方法、电子设备及计算机可读存储介质

技术领域

本申请涉及机器学习技术领域，具体而言，本申请涉及一种作弊用户检测方法、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展，众包平台也随之发展，众包作弊评论用户也随之产生，其中，众包作弊评论用户为在众包平台上自愿接受发表作弊评论任务的人。众包作弊评论用户在众包平台上发表对产品或者服务不符合实际的鼓吹评论或者诽谤评论等，严重影响正常用户的观点或者正常用户的消费行为，因此检测作弊用户成为一个关键问题。

发明人在实际研究过程中发现：在当前的某些场景中，大部分的众包平台发布的作弊任务大都集中在刷评论、刷点赞数以及刷下载量等方面，以提高刷量商品或者刷量服务在排行榜上的排名或者提高搜索热度，以使得更多的用户看到这类商品或者服务，但是由于这些作弊用户在平时为行为正常的普通用户，从而导致检测作弊用户的复杂度较高。

发明内容

本申请提供了一种作弊用户检测方法、电子设备及计算机可读存储介质，用于解决如何检测作弊用户以及作弊用户检测的复杂度较高的技术问题。技术方案如下：

第一方面，提供了一种作弊用户检测方法，该方法包括：

获取预设时间内的评论日志；

基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息；

基于各个用户分别对应的用户特征信息，构建图结构文件；

基于图结构文件并通过图卷积网络模型，识别作弊用户。

在一种可能的实现方式中，基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息，之前还包括：

基于获取的预设时间内的评论日志，对评论日志中的内容执行预设操作；

预设操作包括以下至少一项：数据清洗操作、分词操作、去停用词操作以及提取关键词操作；

基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息，包括：

基于预设操作处理后的评论日志，确定各个用户分别对应的用户特征信息。

在一种可能的实现方式中，用户特征信息包括以下至少一项：

用户行为特征信息；用户文本内容特征信息；

其中，基于评论日志，确定各个用户分别对应的用户文本内容特征信息，包括：

从评论日志中提取各个用户分别对应的用户文本内容；

基于各个用户分别对应的用户文本内容训练Doc2Vec模型，并输出各个用户分别对应的用户文本内容特征信息。

在一种可能的实现方式中，基于各个用户分别对应的用户特征信息，构建图结构文件，包括：

将各个用户分别对应的唯一标识信息确定为图结构的节点；

基于各个用户分别对应的用户特征信息，并通过预设条件确定图结构的边关系；

基于图结构的节点以及图结构的边关系，构建图结构文件；

各个用户分别对应的用户特征信息作为各个节点分别对应的属性信息。

在一种可能的实现方式中，基于图结构文件并通过图卷积网络模型，识别作弊用户，之前还包括：

获取第一训练样本，第一训练样本包括正例样本以及负例样本；

基于第一训练样本训练图卷积网络模型，得到训练后的模型。

在一种可能的实现方式中，基于第一训练样本训练图卷积网络模型，得到训练后的模型，之后还包括：

将负例样本通过训练后的模型，确定预测结果；

基于预测结果以及第一预设规则，确定新的负例样本；

将新的负例样本以及正例样本作为第二训练样本，训练训练后的模型。

在一种可能的实现方式中，获取第一训练样本，包括：

获取图结构文件样本；

基于图结构文件样本中各个用户分别对应的用户特征信息，并通过第二预设规则，对图结构文件样本中的各个节点进行标注；

将标注后的图结构文件样本确定为第一训练样本。

第二方面，提供了一种作弊用户检测装置，该装置包括：

第一获取模块，用于获取预设时间内的评论日志；

第一确定模块，用于基于第一获取模块获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息；

构建模块，用于基于第一确定模块确定的各个用户分别对应的用户特征信息，构建图结构文件；

识别模块，用于基于构建模块构建的图结构文件并通过图卷积网络模型，识别作弊用户。

在一种可能的实现方式中，该装置还包括：操作模块，其中，

操作模块，用于基于获取的预设时间内的评论日志，对评论日志中的内容执行预设操作；

第一确定模块，具体用于基于操作模块预设操作处理后的评论日志，确定各个用户分别对应的用户特征信息。

用户行为特征信息；用户文本内容特征信息；

第一确定模块在基于评论日志，确定各个用户分别对应的用户文本内容特征信息时，具体用于从评论日志中提取各个用户分别对应的用户文本内容；基于各个用户分别对应的用户文本内容训练Doc2Vec模型，并输出各个用户分别对应的用户文本内容特征信息。

在一种可能的实现方式中，构建模块包括：第一确定单元、第二确定单元以及构建单元，其中，

第一确定单元，用于将各个用户分别对应的唯一标识信息确定为图结构的节点；

第二确定单元，用于基于各个用户分别对应的用户特征信息，并通过预设条件确定图结构的边关系；

构建单元，用于基于第一确定单元确定的图结构的节点以及第二确定单元确定的图结构的边关系，构建图结构文件；

在一种可能的实现方式中，该装置还包括：第二获取模块以及第一训练模块，其中，

第二获取模块，用于获取第一训练样本，第一训练样本包括正例样本以及负例样本；

第一训练模块，用于基于第二获取模块获取的第一训练样本训练图卷积网络模型，得到训练后的模型。

在一种可能的实现方式中，该装置还包括：第二确定模块、第三确定模块以及第二训练模块，其中，

第二确定模块，用于将负例样本通过训练后的模型，确定预测结果；

第三确定模块，用于基于预测结果以及第一预设规则，确定新的负例样本；

第二训练模块，用于将新的负例样本以及正例样本作为第二训练样本，训练训练后的模型。

在一种可能的实现方式中，第二获取模块包括：获取单元、标注单元以及第三确定单元，其中，

获取单元，用于获取图结构文件样本；

标注单元，用于基于图结构文件样本中各个用户分别对应的用户特征信息，并通过第二预设规则，对图结构文件样本中的各个节点进行标注；

第三确定单元，用于将标注后的图结构文件样本确定为第一训练样本。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面或者第一方面的任一可能的实现方式所示的作弊用户检测方法对应的操作。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面或者第一方面的任一可能的实现方式所示的作弊用户检测方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种作弊用户检测方法、电子设备及计算机可读存储介质，与现有技术相比，本申请中获取预设时间内的评论日志，然后基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息，然后基于各个用户分别对应的用户特征信息，构建图结构文件，然后基于图结构文件并通过图卷积网络模型，识别作弊用户。由于作弊用户一般具备相似的用户特征，因此本申请在识别作弊用户时，是基于由各个用户分别对应的用户特征信息构建的图结构文件以及图卷积网络模型进行识别的，从而可以识别出用户与用户之间的关系，进而识别出作弊用户，降低检测作弊用户的复杂度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种作弊用户检测方法的流程示意图；

图2为本申请实施例提供的一种作弊用户检测装置的结构示意图；

图3为本申请实施例提供的一种作弊用户检测的电子设备的结构示意图；

图4为图结构的示例图；

图5为本申请实施例中文本内容嵌入的示意图；

图6为本申请实施例中GCN模型网络结构的示意图；

图7为本申请实施例中基于图结构的作弊用户检测思想的示意图；

图8为本申请实施例中针对图卷积网络进行训练的示例图；

图9为本申请实施例提供的另一种作弊用户检测方法的流程示意图；

图10为本申请实施例提供的又一种作弊用户检测方法的流程示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

作弊评论用户是指：那些为了影响正常用户观点或消费行为，而发表对产品或服务不符合实际的鼓吹或诽谤等评论的人。

众包作弊评论用户是指：在众包平台上自愿接受发表作弊评论任务的人。

图(Graph)是由顶点和连接顶点的边构成的离散结构，图的结构很简单，就是由顶点VV集和边EE集构成，因此图可以表示成G＝(V，E)，例如，如图4所示结构即为图结构。

目前作弊用户检测方法主要分为基于用户的检测研究和基于评论文本与用户相结合的检测研究。其中，基于用户的检测研究通过挖掘用户特征，分析用户的反常行为，从而实现对作弊用户的检测。现有方法是通过马尔可夫随机场模型对作弊用户进行检测；基于评论文本与用户相结合的检测则是通过构建用户、评论文本和评论对象之间的关系网络，通过基于图的方法对作弊评论进行检测。

但是上述方法在作弊用户检测方面，尤其是针对众包用户检测方面难以取得满意的效果，发明人在实际研究过程中认为可能包含以下原因：

一方面，众包模式的检测存在较大的难度。

例如，当前，在应用商店场景里，相关的众包平台所发布的作弊任务大都集中在刷评论、刷点赞数和刷下载量方面，以此来提高刷量商品在排行榜的排名或提高搜索热度，使更多的正常用户能够看到这类商品。接受这类作弊任务的用户只要按时完成，即可得到相应的报酬。可以看出这种众包作弊的行为严重地影响了浏览这些评论的用户。但是，由于接受众包作弊任务的用户普遍为平时行为正常的普通用户，因此，单纯从行为特征的角度很难判断该用户是否为作弊用户。

另一方面，人工标注训练数据集的规模有限。现有的检测算法需要大量人工标注的数据。尤其是在一段时间过后，作弊行为可能发生变化，从而会导致原先训练好的模型失效，因此需要不断地进行数据标注。而当前作弊评论数量级巨大，整个标注过程会消耗大量的人力和财力。同时人工标注包含了标注者的主观成分，因而可能存在一定的误判，因此标注的结果也并非完全合理。

本申请提供的作弊用户检测方法、电子设备和计算机可读存储介质，可以应用于灯塔稽核的内容防刷模块，使用该服务的产品可以选择接入灯塔软件开发工具包(Software Development Kit，SDK)或者提供包含必要字段的评论日志，灯塔稽核防刷模块会根据输入的评论日志，构建相应的图结构，训练图卷积网络(Graph ConvolutionalNetwork，GCN)，并通过训练后的模型得到作弊用户的检测结果，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种作弊用户检测方法，如图1所示，该方法包括：

步骤S101、获取预设时间内的评论日志。

例如，获取第T天的评论日志。

步骤S102、基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息。

对于本申请实施例，从获取的预设时间内的评论日志中分别提取各个用户分别对应的用户特征信息。

例如，使用Hive SQL语句分别提取各个用户分别对应的用户特征信息。

步骤S103、基于各个用户分别对应的用户特征信息，构建图结构文件。

对于本申请实施例，图结构文件其实包含两个文件，包括由图结构的节点组成的文件，以及图结构的边组成的文件。

步骤S104、基于图结构文件并通过图卷积网络模型，识别作弊用户。

本申请实施例提供了一种作弊用户检测方法，与现有技术相比，本申请实施例中获取预设时间内的评论日志，然后基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息，然后基于各个用户分别对应的用户特征信息，构建图结构文件，然后基于图结构文件并通过图卷积网络模型，识别作弊用户。由于作弊用户一般具备相似的用户特征，因此本申请实施例在识别作弊用户时，是基于由各个用户分别对应的用户特征信息构建的图结构文件以及图卷积网络模型进行识别的，从而可以识别出用户与用户之间的关系，进而识别出作弊用户，降低检测作弊用户的复杂度。

本申请实施例的另一种可能的实现方式，步骤S102之前还可以包括：基于获取的预设时间内的评论日志，对评论日志中的内容执行预设操作。

其中，预设操作包括以下至少一项：数据清洗操作、分词操作、去停用词操作以及提取关键词操作。

对于本申请实施例，利用HanLP Python工具包对所有的评论日志中的评论内容依次进行数据清洗操作、分词操作、去停用词操作以及提取关键词操作。

对于本申请实施例，数据清洗操作是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等操作；

所谓分词，就是将句子切分成一个一个单独的词，并将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例，分词技术的目标就是将一句话切分为一个一个单独的中文词语。

去停用词操作即为在分词之后，若分词结果中包含停用词，则进行删除，针对不同的应用场景所对应的停用词并不相同，例如，针对电商的应用场景所对应的停用词即为“此用户没有发表评论”。

提取关键词操作是从文本内容中提取关键词的操作，其中关键词能够对文本主题信息的精炼，高度概括了文本的主要内容。

本申请实施例的另一种可能的实现方式，步骤S102具体可以包括：基于预设操作处理后的评论日志，确定各个用户分别对应的用户特征信息。

本申请实施例的另一种可能的实现方式，用户特征信息包括以下至少一项：用户行为特征信息；用户文本内容特征信息。

对于本申请实施例，从评论日志中所提取的用户行为特征信息以及用户文本内容特征信息可以随评论日志字段的扩充而变化。

例如，在APP应用商店的场景中，用户行为特征信息表征用户在APP应用商店里的操作行为；用户文本内容特征信息表征用户在应用商店里的文本内容特征。

例如，从评论日志中所提取的用户行为特征信息可以包括：(1)第T天的24小时内，用户在各个小时所发表的评论数量分布；(2)第T天内，用户在各个分数区间的APP评分分布。

例如，从评论日志中所提取的用户文本内容特征信息可以包括：(1)第T天中用户所发表的评论内容的关键词信息；(2)第T天内用户所评论过的APP名称信息。

本申请实施例的另一种可能的实现方式，基于评论日志，确定各个用户分别对应的用户文本内容特征信息，包括：从评论日志中提取各个用户分别对应的用户文本内容；基于各个用户分别对应的用户文本内容训练Doc2Vec模型，并输出各个用户分别对应的用户文本内容特征信息。

对于本申请实施例，将任一用户分别对应的用户文本内容通过的Doc2Vec模型，可以输出固定长度的向量，该固定长度的向量作为该用户对应的用户文本内容特征信息，用于表示该任一用户对应的用户文本内容。

例如，在应用商店的场景中，用户文本内容可以包括：用户所发表的评论内容的关键词以及所评论过的APP名称信息。

例如，将第T天内用户所发表的评论内容的关键词以及第T天内用户所评论过的APP名称信息作为输入信息，输入至Doc2Vec模型进行训练，输出固定长度的向量作为用户文本内容特征信息。

对于本申请实施例，在训练Doc2Vec模型可以通过以下步骤，具体如下所示：

步骤一、将各个用户分别对应的评论文本内容统一整理为一行数据，这些评论文本内容是由关键词以及所评论的应用程序名称所组成的词语集合，然后将这些评论文本内容作为输入，训练Doc2Vec模型；

步骤二、在迭代指定次数后，模型为各个词语生成了指定长度的向量；

步骤三，将各个词语分别对应的指定长度的向量进行叠加后取平均值，即得到用户文本内容特征信息。

例如，如图5所示，将任一用户预设时间内对应的评论日志中提取关键词以及所评论的应用程序信息，将这些信息整理为文本内容(该文本内容可以包括词语1、词语2以及词语3)，并将这些文本内容作为输入，训练Doc2Vec模型；在迭代指定次数后，Doc2Vec为每个词语生成了指定长度的向量，然后在将这些指定长度的向量叠加后取平均值，即可以得到对应文本内容的向量，即为用户文本内容特征信息。

本申请实施例的另一种可能的实现方式，步骤S103具体可以包括：步骤S1031、步骤S1032以及步骤S1033，如图9所示，其中，图9仅是展示了一种可能的执行顺序，但是并不限于图9所示的顺序，具体如下所示：

步骤S1031、将各个用户分别对应的唯一标识信息确定为图结构的节点。

步骤S1032、基于各个用户分别对应的用户特征信息，并通过预设条件确定图结构的边关系。

其中，各个用户分别对应的用户特征信息作为各个节点分别对应的属性信息。

步骤S1033、基于图结构的节点以及图结构的边关系，构建图结构文件。

对于本申请实施例，在构建图结构时，将各个用户分别对应的唯一标识信息作为图结构的节点，将各个用户分别对应的用户行为特征信息以及用户文本内容特征信息作为对应节点的属性信息，并基于预设条件创建边关系。在本申请实施例中，预设条件可以为特定的行为属性或者某些特定的特征。

例如，预设条件可以为用户评论过相同的APP，即若任两个用户评论过相同的APP，则在对应的节点之间建立边关系。

对于本申请实施例，通过构建图结构来进行众包作弊用户的检测的方式如图7所示，具体如下所示：首先通过用户的行为特征来定位高可疑用户，其次通过高可疑用户的评论行为来查找高可疑用户共同评论的内容，例如APP，然后在通过定位以定位到可疑的APP，进而扩散地查找到其它可疑用户。

对于本申请实施例，由于接受众包作弊任务的用户(即众包作弊用户)，存在较为相似的行为特征或者较为相似的用户文本内容，由于图结构在网络关系方面表现出天然的优越性，所以将用户当作图的节点，将存在相似行为或者相似文本内容的用户之间建立边关系，从而所构建的图结构可以很好地表达用户之间的关系，挖掘用户之间潜在的相似性，进而可以降低作弊用户检测的复杂度，提升检测作弊用户的精确度。

本申请实施例的另一种可能的实现方式，步骤S104之前还可以包括：步骤Sa(图中未示出)以及步骤Sb(图中未示出)，具体如图10所示，其中图10仅是展示了一种可能的执行顺序，但是并不限于图10所示的顺序，具体如下所示：

步骤Sa、获取第一训练样本。

其中，第一训练样本包括正例样本以及负例样本。

本申请实施例的另一种可能的实现方式，步骤Sa具体可以包括：获取图结构文件样本；基于图结构文件样本中各个用户分别对应的用户特征信息，并通过第二预设规则，对图结构文件样本中的各个节点进行标注；将标注后的图结构文件样本确定为第一训练样本。

对于本申请实施例，根据用户的行为特征信息以及用户的文本内容特征信息并通过强规则来筛选高可疑用户，并对高可疑用户进行标记，对除高可疑用户之外的其它用户进行标记。在本申请实施例中，将对高可疑用户进行标记后的图结构文件确定为正例样本集，将对其它用户进行标记的图结构文件确定为负例样本集。

例如，若用户在前一个月发表了超过100条评论，并连续10天或以上发表了评论，则确定该用户为高可疑用户，并将高可疑用户标记为1，其它用户标记为0。

步骤Sb、基于第一训练样本训练图卷积网络模型，得到训练后的模型。

对于本申请实施例，图卷积网络模型可以通过以下至少一个模型来替换：

GCN、DeepWalk模型、大规模信息网络嵌入(Large-scale Information NetworkEmbedding，Line)模型、node2vec网络、GraRep模型、文本关联深度游走(text-associatedDeep Walk，TADW)模型、浩斯菲尔德网络(HOPE)模型、GF模型、深层网络结构嵌入(Structural Deep Network Embedding，SDNE)模型、LE模型以及基于GCN模型的改进模型。

其中关于GCN模型的改进模型可以包括：图神经网络(Graph Neural Network，GNN)、图自动编码器(GAE)模型。

对于本申请实施例，GCN模型是卷积神经网络在图结构方面的推广，能够对图结构中的节点特征信息和结构信息进行端到端的学习，因此为目前对图数据学习任务的较好选择。

对于本申请实施例，GCN模型的网络如图6所示，该模型的输入为图结构，经过一层一层的计算而发生变化，最后输出一个图结构，该图结构是一个节点级别的特征参数矩阵。

图卷积网络具有卷积网络的两个性质：(1)局部参数共享，即算子适用于每个节点(图中的圆圈)，处处共享；(2)感受域正比于层数，最开始的时候，每个节点包含了直接邻居的信息，计算第二层时，即可把邻居的邻居的信息包含进来，这样参与运算的信息就更加充分。层数越多，感受域就更广，参与运算的信息就更多。这种扩散式的计算模式，非常适用于图7所示的扩散检测思路。

对于本申请实施例，基于正例样本集以及负例样本集训练图卷积网络模型，得到训练后的模型。

本申请实施例的另一种可能的实现方式，步骤Sb之后还可以包括：将负例样本通过训练后的模型，确定预测结果；基于预测结果以及第一预设规则，确定新的负例样本；将新的负例样本以及正例样本作为第二训练样本，训练训练后的模型。

对于本申请实施例，以正例样本集中用户标记为1，负例样本集中用户标记为0为例来说明：将上述第一训练样本中负例样本作为预测集，输入至通过步骤Sb训练后的模型中，得到预测结果，基于预测结果中为0的用户对图结构进行标记，得到新的负例样本，并将新的负例样本以及正例样本作为第二训练样本再次训练图卷积网络模型。

对于本申请实施例，通过第一训练样本训练图卷积网络模型，然后通过第二训练样本再次训练图卷积网络模型，得到图卷积网络模型，从而可以提高图卷积网络模型在识别作弊用户尤其是众包作弊用户的准确度。

对于本申请实施例，获取第一训练样本并通过第一训练样本训练图卷积网络模型，以及获取第二训练样本并通过第二训练样本再次训练图卷积网络模型，是基于PU学习的思想策略，即通过少量有标注的正例样本以及大量未标注的负例样本来训练GCN模型。

对于本申请实施例，现有的检测算法需要大量人工标注的数据。尤其是在一段时间过后，作弊行为可能发生变化，会导致原先训练好的模型失效，因此需要不断地进行数据标注。而现实世界中的作弊评论数量级巨大，整个标注过程会消耗大量的人力和财力。同时人工标注包含了标注者的主观成分，因而可能存在一定的误判，因此标注的结果也并非完全合理。PU学习是一种半监督的二元分类模型，它通过少量有标注的正样本和大量未标注的样本来训练一个二元分类器，因此只需要标注少量高可疑用户，即可完成模型的训练，非常适用于当前的应用场景，从而可以降低标注过程所带来的人力和财力消耗。

下述以一个实例来介绍对GCN模型进行训练，已得到图卷积网络模型的方式，具体如下所示：

获取预设时间内的评论日志，其中预设时间内的评论日志属于日志粒度，然后基于预设时间内的评论日志得到用户行为特征信息以及用户文本内容特征信息，基于用户行为特征信息以及用户文本内容特征信息得到用户粒度的信息，然后基于用户粒度的信息构建图结构，然后在图结构中标注高可疑用户，然后通过标注后的信息训练GCN模型，具体如图8所示。

上述从方法流程的角度介绍了作弊用户检测方法，在上述实施例的基础上，从虚拟模块和/或虚拟单元的角度介绍了作弊用户检测装置，具体如下所示：

本申请实施例提供了一种作弊用户检测装置，如图2所示，该作弊用户检测装置20可以包括：第一获取模块21、第一确定模块22、构建模块23以及识别模块24，其中，

第一获取模块21，用于获取预设时间内的评论日志。

第一确定模块22，用于基于第一获取模块21获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息。

构建模块23，用于基于第一确定模块22确定的各个用户分别对应的用户特征信息，构建图结构文件。

识别模块24，用于基于构建模块23构建的图结构文件并通过图卷积网络模型，识别作弊用户。

本申请实施例的另一种可能的实现方式，装置还包括：操作模块，其中，

操作模块，用于基于获取的预设时间内的评论日志，对评论日志中的内容执行预设操作。

第一确定模块22，具体用于基于操作模块预设操作处理后的评论日志，确定各个用户分别对应的用户特征信息。

本申请实施例的另一种可能的实现方式，用户特征信息包括以下至少一项：

用户行为特征信息；用户文本内容特征信息；

第一确定模块22在基于评论日志，确定各个用户分别对应的用户文本内容特征信息时，具体用于从评论日志中提取各个用户分别对应的用户文本内容；基于各个用户分别对应的用户文本内容训练Doc2Vec模型，并输出各个用户分别对应的用户文本内容特征信息。

本申请实施例的另一种可能的实现方式，构建模块23包括：第一确定单元、第二确定单元以及构建单元，其中，

第一确定单元，用于将各个用户分别对应的唯一标识信息确定为图结构的节点。

第二确定单元，用于基于各个用户分别对应的用户特征信息，并通过预设条件确定图结构的边关系。

对于本申请实施例，第一确定单元以及第二确定单元可以为相同的确定单元，也可以为不同的确定单元。在本申请实施例中不做限定。

构建单元，用于基于第一确定单元确定的图结构的节点以及第二确定单元确定的图结构的边关系，构建图结构文件。

本申请实施例的另一种可能的实现方式，该装置20还包括：第二获取模块以及第一训练模块，其中，

第二获取模块，用于获取第一训练样本，第一训练样本包括正例样本以及负例样本。

对于本申请实施例，第一获取模块21与第二获取模块可以为相同的获取模块，也可以为不同的获取模块。在本申请实施例中不做限定。

本申请实施例的另一种可能的实现方式，该装置20还包括：第二确定模块、第三确定模块以及第二训练模块，其中，

第二确定模块，用于将负例样本通过训练后的模型，确定预测结果。

第三确定模块，用于基于预测结果以及第一预设规则，确定新的负例样本。

对于本申请实施例，第一确定模块22、第二确定模块以及第三确定模块可以均为相同的确定模块，也可以均为不同的确定模块，还可以任意两个为相同的确定模块。在本申请实施例中不做限定。

对于本申请实施例，第一训练模块与第二训练模块可以为相同的训练模块，也可以为不同的训练模块。在本申请实施例中不做限定。

本申请实施例的另一种可能的实现方式，第二获取模块包括：获取单元、标注单元以及第三确定单元，其中，

获取单元，用于获取图结构文件样本。

标注单元，用于基于图结构文件样本中各个用户分别对应的用户特征信息，并通过第二预设规则，对图结构文件样本中的各个节点进行标注。

本申请实施例提供了一种作弊用户检测装置，与现有技术相比，本申请实施例中获取预设时间内的评论日志，然后基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息，然后基于各个用户分别对应的用户特征信息，构建图结构文件，然后基于图结构文件并通过图卷积网络模型，识别作弊用户。由于作弊用户一般具备相似的用户特征，因此本申请实施例在识别作弊用户时，是基于由各个用户分别对应的用户特征信息构建的图结构文件以及图卷积网络模型进行识别的，从而可以识别出用户与用户之间的关系，进而识别出作弊用户，降低检测作弊用户的复杂度。

本实施例的作弊用户检测装置可执行本申请上述任一实施例所示的作弊用户检测方法，其实现原理相类似，此处不再赘述。

上述实施例从虚拟模块的角度介绍了作弊用户检测装置，下述从实体装置的角度介绍了一种电子设备，该电子设备可以用于执行上述作弊用户检测方法，具体如下所示：

本申请实施例提供了一种电子设备，如图3所示，图3所示的电子设备3000包括：处理器3001和存储器3003。其中，处理器3001和存储器3003相连，如通过总线3002相连。可选地，电子设备3000还可以包括收发器3004。需要说明的是，实际应用中收发器3004不限于一个，该电子设备3000的结构并不构成对本申请实施例的限定。

处理器3001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器3001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线3002可包括一通路，在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器3003用于存储执行本申请方案的应用程序代码，并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，本申请实施例中的电子设备包括：存储器和处理器；至少一个程序，存储于所述存储器中，用于被所述处理器执行时，与现有技术相比可实现：本申请实施例中获取预设时间内的评论日志，然后基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息，然后基于各个用户分别对应的用户特征信息，构建图结构文件，然后基于图结构文件并通过图卷积网络模型，识别作弊用户。由于作弊用户一般具备相似的用户特征，因此本申请实施例在识别作弊用户时，是基于由各个用户分别对应的用户特征信息构建的图结构文件以及图卷积网络模型进行识别的，从而可以识别出用户与用户之间的关系，进而识别出作弊用户，降低检测作弊用户的复杂度。

本申请实施例提供的电子设备适用于上述实施例，在此不再赘述。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请实施例中获取预设时间内的评论日志，然后基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息，然后基于各个用户分别对应的用户特征信息，构建图结构文件，然后基于图结构文件并通过图卷积网络模型，识别作弊用户。由于作弊用户一般具备相似的用户特征，因此本申请实施例在识别作弊用户时，是基于由各个用户分别对应的用户特征信息构建的图结构文件以及图卷积网络模型进行识别的，从而可以识别出用户与用户之间的关系，进而识别出作弊用户，降低检测作弊用户的复杂度。

本申请实施例提供的计算机可读存储介质适用于上述实施例，在此不再赘述。

基于上述作弊用户检测方法、装置、电子设备及计算机可读存储介质应用于实际的应用商店的评论场景中，对应的应用效果如下所示：

将基于图卷积网络的作弊用户检测方法应用于实际的应用商店评论场景，利用第T天的评论日志进行特征提取和GCN模型训练，使用第T+1天的评论日志进行预测。通过一个时间段的观察，发现该方法的时效和检测准确度均有较好的表现。例如，当某一天评论日志量为94378时，所构建图模型的节点数量(即用户数量)为30869，边关系的数量为5271612；设置Doc2Vec模型输出的向量长度为200，提取的用户行为特征和文本内容特征的总数量为224；设置训练比例为90％，迭代100次；最终GCN模型的训练耗时仅为231s，准确度达到97.38％。所以，将图卷积网络应用于应用商店的评论场景，不仅时效方面可以满足业务的需求，其检测结果也有保持着较高的准确率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种作弊用户识别方法，其特征在于，包括：

获取预设时间内的评论日志；

基于所述各个用户分别对应的用户特征信息，构建图结构文件；

基于所述图结构文件并通过图卷积网络模型，识别作弊用户。

2.根据权利要求1所述的方法，其特征在于，基于获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息，之前还包括：

所述预设操作包括以下至少一项：数据清洗操作、分词操作、去停用词操作以及提取关键词操作；

3.根据权利要求1或2所述的方法，其特征在于，所述用户特征信息包括以下至少一项：

用户行为特征信息；用户文本内容特征信息；

从所述评论日志中提取各个用户分别对应的用户文本内容；

4.根据权利要求1所述的方法，其特征在于，基于所述各个用户分别对应的用户特征信息，构建图结构文件，包括：

将各个用户分别对应的唯一标识信息确定为图结构的节点；

基于所述各个用户分别对应的用户特征信息，并通过预设条件确定图结构的边关系；

基于所述图结构的节点以及所述图结构的边关系，构建所述图结构文件；

所述各个用户分别对应的用户特征信息作为各个节点分别对应的属性信息。

5.根据权利要求1所述的方法，其特征在于，基于所述图结构文件并通过图卷积网络模型，识别作弊用户，之前还包括：

获取第一训练样本，所述第一训练样本包括正例样本以及负例样本；

基于所述第一训练样本训练所述图卷积网络模型，得到训练后的模型。

6.根据权利要求5所述的方法，其特征在于，基于所述第一训练样本训练所述图卷积网络模型，得到训练后的模型，之后还包括：

将所述负例样本通过所述训练后的模型，确定预测结果；

基于预测结果以及第一预设规则，确定新的负例样本；

将所述新的负例样本以及所述正例样本作为第二训练样本，训练所述训练后的模型。

7.根据权利要求5所述的方法，其特征在于，所述获取第一训练样本，包括：

获取图结构文件样本；

将标注后的图结构文件样本确定为所述第一训练样本。

8.一种作弊用户识别装置，其特征在于，包括：

第一获取模块，用于获取预设时间内的评论日志；

第一确定模块，用于基于所述第一获取模块获取的预设时间内的评论日志，确定各个用户分别对应的用户特征信息；

构建模块，用于基于所述第一确定模块确定的各个用户分别对应的用户特征信息，构建图结构文件；

识别模块，用于基于所述构建模块构建的图结构文件并通过图卷积网络模型，识别作弊用户。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：操作模块，其中，

所述操作模块，用于基于获取的预设时间内的评论日志，对评论日志中的内容执行预设操作；

所述第一确定模块，具体用于基于所述操作模块预设操作处理后的评论日志，确定各个用户分别对应的用户特征信息。

10.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～7任一项所述的作弊用户检测方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1～7任一所述的作弊用户检测方法。