CN110688540A

CN110688540A - 一种作弊账户筛选方法、装置、设备及介质

Info

Publication number: CN110688540A
Application number: CN201910950791.7A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-01-14
Anticipated expiration: 2039-10-08
Also published as: CN110688540B

Abstract

本申请提供的作弊账户筛选方法，通过人工智能领域的自然语言处理技术来实现网络平台中作弊账号的筛选，包括：获取服务器中所有账户之间的相似度网络，相似度网络记录了服务器中任意两个账户之间所包含的相同字符串的比重；根据所包含字符串的相似程度对相似度网络中的账户进行聚类，输出社区网络，其中，社区网络包含多个社区，每个社区中的账户之间包含有相似度大于阈值的字符串；获取社区网络中作弊账户数量高于阈值的目标社区中的账户为作弊账户，其中，作弊账户为包含了其他正常账户的账户标识ID以引流用户进行访问的非法账户。本申请实施例还提供一种装置、设备及介质，能够快速准确且全面地对作弊账户进行自动筛选。

Description

一种作弊账户筛选方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，更具体地说，涉及一种作弊账户筛选方法、装置、设备及介质。

背景技术

随着社交网络的发展，一些社交平台为用户提供了创建公众号的功能，使得用户能够通过公众号发布文章，公众号平台作为目前基于订阅的个人自媒体平台具有广泛的影响力，其中，大部分用户是通过直接查找公众号的账户识别码(Identity document ID)(即类似一组英文字母+数字的串)来寻找相应的公众号账户，由于此入口有大量的用户流量，则驱动不少潜在的作弊账户用户，通过批量运营某些低俗，非法引流型公众号，经常发表一些低质量公众号文章并在其中加入一些形似公众号ID的无效字符串，借此当用户搜索某些正常账户的公众号ID时，可能由于命中此类无效字符串，进而点击这些作弊账户的文章，这一方面伤害了用户的搜索体验，另一方面用户被引导阅读这些文章后可能还存在进一步被引流至其他黄赌毒或者低俗付费广告等潜在侵犯用户权益的行为。

对于上述形似作弊公众号ID，属于一种自然语言，即英文、数字等人们日常使用的语言，对于自然语言的处理，包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术，是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。然而，现有技术中，对于形似作弊公众号ID进行作弊的行为，往往采取基于统计一批常见的形似作弊公众号ID词典，如果发现某个公众号发布的文章中命中该ID或重复堆砌数大于某个阈值，则认定为作弊账户。

现有技术中的方案中，作弊词典主要依赖于人工收集，规模较小，更新较慢的问题。这样就会导致很多未直接使用该词典公众号ID，但在文章中使用了其他疑似作弊数字串ID的公众号不能被及时发现。

因此，现有技术中的上述问题还有待于改进。

发明内容

有鉴于此，为解决上述问题，本发明提供的技术方案如下：

一种作弊账户筛选方法，包括：

获取服务器中所有账户之间的相似度网络，所述相似度网络记录了所述服务器中任意两个账户之间所包含的相同字符串的比重；

根据所包含字符串的相似程度对所述相似度网络中的账户进行聚类，输出社区网络，其中，所述社区网络包含多个社区，每个社区中的账户之间包含有相似度大于阈值的字符串；

获取所述社区网络中作弊账户数量高于阈值的目标社区；

判定所述目标社区中的所有账户均为作弊账户，其中，所述作弊账户为包含了其他正常账户的账户标识ID以引流用户进行访问的非法账户。

一种作弊账户筛选装置，包括：

第一获取单元，所述第一获取单元用于获取服务器中所有账户之间的相似度网络，所述相似度网络记录了所述服务器中任意两个账户之间所包含的相同字符串的比重；

聚类单元，所述聚类单元用于根据所包含字符串的相似程度对所述第一获取单元获取的所述相似度网络中的账户进行聚类，输出社区网络，其中，所述社区网络包含多个社区，每个社区中的账户之间包含有相似度大于阈值的字符串；

第二获取单元，所述第二获取单元用于获取所述聚类单元得到的所述社区网络中作弊账户数量高于阈值的目标社区；

判断单元，所述判断单元用于判定所述第二获取单元获取的所述目标社区中的所有账户均为作弊账户，其中，所述作弊账户为包含了其他正常账户的账户标识ID以引流用户进行访问的非法账户。

可选地，所述第一获取单元，还用于：

获取所述服务器中所有账户的文章集合；

对所述文章集合中的文章进行切词，得到单词集合；

去除所述单词集合中有意义的单词和/或数字组合，得到字符串集合，所述字符串集合中包含至少一个无效字符串；

获取第一账户和第二账户之间相同的无效字符串占所述第一账户和所述第二账户中所有字符串的第一比重，作为所述第一账户和所述第二账户的第一网络连线，其中，所述第一账户和所述第二账户为所述服务器中的任意两个账户，所述第一网络连线为所述相似度网络中的一个连线，所述相似度网络由至少一个所述连线构成。

可选地，所述聚类单元，还用于：

当所述第一比重大于预设值时，将所述第一账户与所述第二账户融合，得到第一社区，所述第一社区构成第一社区网络中的一个社区。

可选地，所述聚类单元，还用于：

获取所述第一社区网络的第一模块度，所述第一模块度用于描述所述第一社区网络中包含的社区之间，以及社区内部账户之间所包含字符串的相似程度；

在所述第一社区网络中，将所述第一社区与相邻的第二社区进行社区融合，得到第二社区网络，其中，所述第一社区中包含的第一字符串与所述第二社区中所包含的第二字符串的相似度大于预设值；

获取所述第二社区网络的第二模块度；

若所述第二模块度减去所述第一模块度的差值为正数，则接受所述第二社区网络为迭代后的社区网络。

可选地，所述聚类单元，还用于：

当社区融合前后社区网络的模块度不再增大时，输出当前社区网络。

可选地，所述社区融合通过机器学习人群扩散LPA算法或社团划分算法fastunfolding实现。

可选地，所述第二获取单元，还用于：

获取作弊账户列表，所述作弊账户列表中包括至少一个已经判定的作弊账户；

将所述社区网络中各个社区所包含的账户与所述作弊账户列表进行逐一比对；

获取所述社区网络的各个社区中，与所述作弊账户列表匹配的账户占所有账户的比重作为第二比重；

获取第二比重大于阈值的社区作为所述目标社区。

一种计算机存储介质，包括指令，当该指令在计算机设备上运行时，使得该计算机设备执行上述任意一项所述的方法。

一种计算机可读存储介质，包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行上述任意一项所述的方法。

本申请提供的作弊账户筛选方法，可用于社交平台中公账号作弊账户的检测，包括：获取服务器中所有账户之间的相似度网络，相似度网络记录了服务器中任意两个账户之间所包含的相同字符串的比重；根据所包含字符串的相似程度对相似度网络中的账户进行聚类，输出社区网络，其中，社区网络包含多个社区，每个社区中的账户之间包含有相似度大于阈值的字符串；获取社区网络中作弊账户数量高于阈值的目标社区；判定目标社区中的所有账户均为作弊账户，其中，作弊账户为包含了其他正常账户的账户标识ID以引流用户进行访问的非法账户。本申请实施例还提供一种装置、设备及介质，能够快速准确且全面地对作弊账户进行自动筛选。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所述的作弊账户在发布的文章中生成形似公众号ID的无效字符串的示意图；

图2A为本申请实施例所提供的作弊账户筛选方法的一个实施例的流程图；

图2B为本申请实施例所提供的作弊账户筛选方法中相似度网络的示意图；

图2C为本申请实施例所提供的作弊账户筛选方法的另一个实施例的流程图；

图2D为本申请实施例所提供的作弊账户筛选方法中社区网络的示意图；

图2E为本申请实施例所提供的作弊账户筛选方法的另一个实施例的流程图；

图2F为本申请实施例所提供的作弊账户筛选方法的另一个实施例的示意图；

图2G为本申请实施例所提供的作弊账户筛选方法的另一个实施例的流程图；

图3为本申请实施例所提供的作弊账户筛选方法中的社区网络的示意图；

图4为本申请实施例所提供的计算机设备的示意图；

图5为本申请实施例所提供的作弊账户筛选装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中所涉及的(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中，本申请实施例中所提供的作弊账户筛选方法主要涉及人工智能领域中的自然语言处理。

随着社交网络的发展，一些社交平台为用户提供了创建公众号的功能，使得用户能够通过公众号发布文章，公众号平台作为目前基于订阅的个人自媒体平台具有广泛的影响力，其中，大部分用户是通过直接查找公众号的账户识别码(Identity document ID)(即类似一组英文字母+数字的串)来寻找相应的公众号账户，由于此入口有大量的用户流量，则驱动不少潜在的作弊账户用户，通过批量运营某些低俗，非法引流型公众号，经常发表一些低质量公众号文章并在其中加入一些形似公众号ID的无效字符串，借此当用户搜索某些正常账户的公众号ID时，可能由于命中此类无效字符串，进而点击这些作弊账户的文章。

例如，如图1所示，用户原本想要搜索ID为“hs4384”的正常账户的公众号，然而作弊账户通过创建标题101为“hs4384”的文章，使得该篇文章出现在用户的搜索结果中，同时文章中有大量用于仿冒正常账户ID的无效字符串102，用于引流用户。这一方面伤害了用户的搜索体验，另一方面用户被引导阅读这些文章后可能还存在进一步被引流至其他黄赌毒或者低俗付费广告等潜在侵犯用户权益的行为。

当前，对此类在公众号文章中加入形似公众号ID进行作弊的行为，往往采取基于统计一批常见的形似作弊公众号ID词典，如果发现某个公众号发布的文章中命中该ID或重复堆砌数大于某个阈值，则认定为作弊账户。

然而，上述方法中，作弊词典主要依赖于人工收集，规模较小，更新较慢的问题。这样就会导致很多未直接使用该词典公众号ID，但间接在文章中使用了其他疑似作弊数字串ID的公众号不能被及时发现。

因此，针对上述问题，本申请实施例提供了一种作弊账户筛选方法，可以应用于公众号中的作弊账户筛选，通过自然语言处理(Nature Language processing,NLP)来实现作弊账户的筛选，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

需要说明的是，本申请实施例所提供的作弊账户筛选方法对于所应用的社交平台并不进行限制，可以是各类通过字符串ID注册的社交平台。为便于理解，以下对本申请实施例所提供的方法进行详细说明。

请参阅图2A，如图2A所示，本申请实施例所提供的作弊账户筛选方法包括以下步骤。

201、获取服务器中所有账户之间的相似度网络。

本实施例中，相似度网络记录了服务器中任意两个账户之间所包含的相同字符串的比重，相似度网络的具体实现方式请参阅图2B，如图2B所示，ID1至ID7为相似度网络中的7个账户，该7个账户构成七个节点，七个节点间根据共同包含的相同字符串而连接在一起，其中，两个节点的连接线上标注有相同的无效字符串以及相同无效字符串占所有字符串的比重，以ID1和ID3为例，ID1和ID3两个账户所发表的文章中都包括无效字符串：hdme45，其中，该无效字符串hdme45占D1和ID3两个账户所发表的文章中所有无效字符串的50％。

具体地，请参阅图2C，如图2C所示，相似度网络的生成过程可以包括以下步骤。

2011、获取服务器中所有账户的文章集合。

本实施例中，社交平台的服务器中包括多个账户，每个账户可以是一个公众号，每个公众号中都发布有至少一篇的文章，获取这些文章，从而得到一个文章集合。

2012、对文章集合中的文章进行切词，得到单词集合。

本实施例中，通过切词将组成文章集合的词汇提取出来，从而得空了组成文章集合的所有单词，作为单词集合。

2013、去除单词集合中有意义的单词和/或数字组合，得到字符串集合。

本实施例中，作弊账户的特点为在发布的文章中插入形似公众号ID的无效字符串，从而在用户搜索正常公众号的过程中进行引流；若一个账户发布的文章中包含有意义的单词或数字组合，那么这些有意义的词汇属于一个文章的正常内容，不可能构成形似公众号ID的无效字符串，因此需要对有意义的单词和/或数字组合进行过滤，得到的字符串集合中包括至少一个无效字符串。

2014、获取第一账户和第二账户之间相同的无效字符串占第一账户和第二账户中所有字符串的第一比重，作为第一账户和第二账户的第一网络连线。

本实施例中，第一账户和第二账户为服务器中的任意两个账户，第一网络连线为相似度网络中的一个连线，相似度网络由至少一个连线构成，即，相似度网络中，每一条连线记录了该条连线两端所连接账户之间相同字符串的比重。

需要说明的是，经过上述步骤2011至2014，得到了如图2B所示的相似度网络，基于该相似度网络，还需要进一步进行聚类，具体执行过程如下述步骤202。

202、根据所包含字符串的相似程度对相似度网络中的账户进行聚类，输出社区网络。

本实施例中，聚类的实现方式可以为：将相似度网络中的每个账户看做一个节点，两个节点之间相同字符串所占的比重越大，相似度越大，两个节点之间的距离越近，根据距离优先的原则将相邻的节点融合，从而实现聚类，聚类后得到的网络为社区网络，其中，社区网络包含多个社区，每个社区中的账户(即节点)之间包含有相似度大于阈值的字符串，即，在社区网络中，社区内部的节点之间有着较为紧密的连接，社区与社区之间的连接较为稀疏，前述的紧密是指节点之间所包含的字符串的相似度较大，稀疏时指节点之间所包含的字符串相似度较小，从而形成一种社团结构。例如，社区网络的结构可参阅图2D，如图2D所示，用空心标注的节点构成第一社区2021D，用实心标注的节点构成第二社区2022D，其中，第一社区2021D和第二社区2022D各自内部的节点之间较为紧密，第一社区2021D和第二社区2022D之间较为稀疏。

需要说明的是，可选地，如图2E所示，上述步骤202中所述的聚类方法可以通过以下步骤来实现。

2021、当第一比重大于预设值时，将第一账户与第二账户融合，得到第一社区，第一社区构成第一社区网络中的一个社区。

本实施例中，第一账户和第二账户为相似度网络中的两个节点，第一比重为上述步骤2014中获取到的第一账户和第二账户之间相同的无效字符串占第一账户和第二账户中所有字符串的比重，例如预设值为0.6，当第一比重大于0.6时，对第一账户和第二账户进行融合，从而第一账户和第二账户成为第一社区内部的节点。

需要说明的是，基于上述步骤2021所得的社区网络，需要进一步评判其社区划分效果的好坏，即每个社区内部的节点之间距离是否足够紧密，这决定了社区网络的分类是否准确，影响着后续工作的准确性，为此，可以通过模块度的概念来对社区网络进行评价。社区划分的目标是使得划分后的社区内部的连接较为紧密，而在社区之间的连接较为稀疏，通过模块度的可以刻画这样的划分的优劣，模块度越大，则社区划分的效果越好，模块度的公式如下公式1所示。

在上述公式1中，Q用于表示社区网络的模块度，i和j分别用于表示社区网络中任意一个社区内的任意两个节点，其中，

表示的是社区网络中的所有相同字符串的比重，A_i,j表示节点i和节点j之间包含相同字符串的比重，k_i＝∑_jA_i,j表示的是与节点i连接的连线所表示的比重，c_i表示的是顶点被分配到的社区，δ(c_i,c_j)用于判断节点i与节点j是否被划分在同一个社区中，若是，则返回1，否则，返回0。从而通过该公式，可以计算出当前社区网络的模块度Q。

进一步地，上述公式1所记载的模块度计算公式还可以简化为下述公式2。

在公式2中，∑_in表示的是社区c内部的权重，∑_tot表示的是与社区c内部的点连接的边的权重，包括社区内部的边以及社区外部的边。

从而通过上述公式1或公式2中的任意一种方式，可以计算出当前社区网络的模块度Q。

基于上述步骤2021所得到的第一社区网络，需要进一步地进行迭代，并通过上述模块度的变化来判断迭代是否成功，具体过程如下。

2022、获取第一社区网络的第一模块度。

本实施例中，第一模块度用于描述第一社区网络中包含的社区之间，以及社区内部账户之间所包含字符串的相似程度。第一模块度Q1的具体计算方式如上述公式1或公式2所示，此处不再赘述。

2023、在第一社区网络中，将第一社区与相邻的第二社区进行社区融合，得到第二社区网络。

本实施例中，第一社区中包含的第一字符串与第二社区中所包含的第二字符串的相似度大于预设值，即在在第一社区网络中，第一社区与第二社区之间的距离小于预设值，从而对第一社区和第二社区进行融合，在第一社区网络的其他社区之间执行相同操作，从而得到第一次迭代后的第二社区网络。

2024、获取第二社区网络的第二模块度。

本实施例中，对于迭代后得到的第二社区网络，同样通过上述公式1或公式2所记载的公式计算第二社区网络的模块度Q2。

2025、若第二模块度减去第一模块度的差值为正数，则接受第二社区网络为迭代后的社区网络。

本实施例中，在迭代之后，计算社区网络模块度的变化值，具体计算方式为：ΔQ＝Q2-Q1，若ΔQ＝为正值，说明在本次迭代的过程中，迭代后所得到的社区网络中社区划分效果好于迭代前，则接受本次迭代，并将迭代后所得到的第二社区网络作为当前使用的社区网络。

需要说明的是，上述步骤2022至2025所述的迭代过程可以迭代多次，在上述迭代过程中，社区网络的具体变化过程可参阅图2F，如图2F所示，迭代过程具体可以分为两个阶段。

第一阶段：称为模块化优化(modularity optimization)，主要是将每个节点划分到与其邻接的节点所在的社区中，以使得模块度的值不断变大，如图2F所示，将第一社区网络2021F经过第一阶段的迭代得到第二社区网络2022F。

第二阶段：称为社区聚集(community aggregation)，主要是将第一步划分出来的第二社区网络2022F中社区聚合成为一个点，即根据上一步生成的社区结构重新构造网络。重复以上的过程，直到网络中的结构不再改变为止，例如图2F所示的，将第二社区网络2022F进一步迭代得到第三社区网络2023F，之后再迭代得到第四社区网络2024F，从而使得社区网络中社区内部的结构越来越紧密。

需要说明的是，需要由具体的方法，来判断社区网络的结构不再变化，从而终止迭代过程，可选地，具体判定过程可以如下所述。

2026、当社区融合前后社区网络的模块度不再增大时，输出当前社区网络。

本实施例中，社区融合即是一次迭代的具体实施过程，社区融合前后模块度变化的计算公式为：ΔQ＝Q2’-Q1’，其中Q2’为迭代后的社区网络的模块度，Q1’为迭代前的社区网络的模块度。具体工作过程中，一次迭代后ΔQ的值不为正值，说明本次迭代失败，可以再尝试进行几次迭代，若超过预定次数的迭代后ΔQ仍然没有变化，则说明当前社区网络的结构不会再变化，当前的社区网络即为最终的社区网络，从而可以输出当前社区网络，以执行后续操作。

可选地，上述迭代过程中的社区融合方法，可以通过社团划分算法fastunfolding实现，也可以通过机器学习人群扩散LPA算法来实现。

基于上述步骤201至202，得到了记录有账户之间字符串相似度的社区网络，基于该社区网络进行筛选，从而可以实现对作弊账户的筛选，具体包括以下步骤。

203、获取社区网络中作弊账户数量高于阈值的目标社区。

本实施例中，目标社区内包括多个账户，其中，一些账户是已知为作弊账户的，由于社区是根据相似度来划分的，因此，当目标账户中已知作弊账户的数量高于阈值时，即可判定，该目标社区内的所有账户均为作弊账户，从而能够更快速全面的筛选出作弊账户，相比人工筛选的方式更加快速全面。可选地，请参阅图2G，如图2G所示，本步骤203的实现方式具体可以包括以下步骤。

2031、获取作弊账户列表。

本实施例中，作弊账户列表中包括至少一个已经判定的作弊账户，可选地，该作弊账户列表可以是通过人工的方式筛选得到的，由于该列表仅用于筛选比对，所以样本量不需要太大，不会产生额外的工作量，进一步地，该作弊列表还可以根据社交平台使用过程中，用户投诉情况和监管情况都实现更新。

2032、将社区网络中各个社区所包含的账户与作弊账户列表进行逐一比对。

本实施例中，将社区网络中各个社区所包含的账户与作弊账户列表进行比对，从而判断各个社区中是否存在作弊账户列表中所记录的作弊账户。

2033、获取社区网络的各个社区中，与作弊账户列表匹配的账户占所有账户的比重作为第二比重。

本实施例中，例如，目标社区中的账户数量为6个，其中，有三个账户同时出现在作弊账户列表中，则此时，第二比重为3/6＝0.5。

2034、获取第二比重大于阈值的社区作为目标社区。

本实施例中，该阈值可以根据工作需要而设定，例如，预设值为0.5，则可以判定，上述步骤2033中的目标社区为社区网络中作弊账户数量高于阈值的目标社区。

通过上述步骤2031至2034，在获取到作弊账户数量高于阈值的目标社区时，即可进行后续步骤，完成对作弊账户的筛选。

204、判定目标社区中的所有账户均为作弊账户。

本实施例中，由于目标社区的划分经过了社区网络的迭代和模块度的检测，因此可以确定，被划分在同一社区的账户具有相同的性质，因此，当目标社区中作弊账户的比重大于阈值时，即可判定，目标社区中的所有账户均为作弊账户。如图3所示，上述步骤201至203，将图2B中所示的相似度网络转化为图3所示的社区网络，图3所示的社区网络中包括第一社区301和第二社区302两个社区，若第二社区302中，ID2、ID3、ID5三个账户为已知的作弊公众号，占第二社区302账户总数的3/5＝0.6，阈值为0.5，此时可以判定，即使第二社区302中的ID4和ID6中的文章中虽然没有出现已知的作弊公众号id型字符串，但仍然会被识别为作弊公众号。即此社区被识别为公众号id型作弊社区。

相比于传统单纯依赖手动筛选的方法，手动筛选容易遗漏，对于一些无意义的字符串，也可能产生误判，不清楚该字符串是否为作弊账户用的形似公众号ID的无效字符串，而通过上述步骤201至204所提供的方法，能够快速准确且全面地对作弊账户进行筛选。

上述对本申请实施例提供的方案进行了介绍。可以理解的是，计算机设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

从硬件结构上来描述，上述方法可以由一个实体设备实现，也可以由多个实体设备共同实现，还可以是一个实体设备内的一个逻辑功能模块，本申请实施例对此不作具体限定。

例如，上述方法均可以通过图4中的计算机设备来实现。图4为本申请实施例提供的计算机设备的硬件结构示意图。该计算机设备包括至少一个处理器401，通信线路402，存储器403以及至少一个通信接口404。

处理器401可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路402可包括一通路，在上述组件之间传送信息。

通信接口404，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器403可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyer服务器able programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路402与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器403用于存储执行本申请方案的计算机执行指令，并由处理器401来控制执行。处理器401用于执行存储器403中存储的计算机执行指令，从而实现本申请上述实施例提供的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器401可以包括一个或多个CPU，例如图4中的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，例如图4中的处理器401和处理器407。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还可以包括输出设备405和输入设备406。输出设备405和处理器401通信，可以以多种方式来显示信息。例如，输出设备405可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备406和处理器401通信，可以以多种方式接收用户的输入。例如，输入设备406可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备可以是一个通用设备或者是一个专用设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digitalassistant，PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或有图4中类似结构的设备。本申请实施例不限定计算机设备的类型。

本申请实施例可以根据上述方法示例对存储设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

比如，以采用集成的方式划分各个功能单元的情况下，图5示出了一种作弊账户筛选装置的示意图。

如图5所示，本申请实施例提供的作弊账户筛选装置，包括：

第一获取单元501，所述第一获取单元501用于获取服务器中所有账户之间的相似度网络，所述相似度网络记录了所述服务器中任意两个账户之间所包含的相同字符串的比重；

聚类单元502，所述聚类单元502用于根据所包含字符串的相似程度对所述第一获取单元501获取的所述相似度网络中的账户进行聚类，输出社区网络，其中，所述社区网络包含多个社区，每个社区中的账户之间包含有相似度大于阈值的字符串；

第二获取单元503，所述第二获取单元503用于获取所述聚类单元502得到的所述社区网络中作弊账户数量高于阈值的目标社区；

判断单元504，所述判断单元504用于判定所述第二获取单元503获取的所述目标社区中的所有账户均为作弊账户，其中，所述作弊账户为包含了其他正常账户的账户标识ID以引流用户进行访问的非法账户。

可选地，所述第一获取单元501，还用于：

获取所述服务器中所有账户的文章集合；

对所述文章集合中的文章进行切词，得到单词集合；

可选地，所述聚类单元502，还用于：

获取所述第二社区网络的第二模块度；

可选地，所述聚类单元502，还用于：

可选地，所述第二获取单元503，还用于：

获取第二比重大于阈值的社区作为所述目标社区。

进一步的，本发明实施例还提供一种计算机存储介质，包括指令，当该指令在计算机设备上运行时，使得该计算机设备执行上述方法。

有关本申请实施例提供的计算机存储介质中存储的程序的详细描述可参照上述实施例，在此不做赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种作弊账户筛选方法，其特征在于，包括：

获取所述社区网络中作弊账户数量高于阈值的目标社区；

2.根据权利要求1所述的方法，其特征在于，所述获取服务器中所有账户之间的相似度网络，包括：

获取所述服务器中所有账户的文章集合；

对所述文章集合中的文章进行切词，得到单词集合；

3.根据权利要求2所述的方法，其特征在于，所述根据所包含字符串的相似程度对所述相似度网络中的账户进行聚类，输出社区网络，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所包含字符串的相似程度对所述相似度网络中的账户进行聚类，输出社区网络，还包括：

获取所述第二社区网络的第二模块度；

5.根据权利要求4所述的方法，其特征在于，所述根据所包含字符串的相似程度对所述相似度网络中的账户进行聚类，输出社区网络，还包括：

6.根据权利要求1至5任一所述的方法，其特征在于，所述社区融合通过机器学习人群扩散LPA算法或社团划分算法fast unfolding实现。

7.根据权利要求1至5任一所述的方法，其特征在于，所述获取所述社区网络中作弊账户数量高于阈值的目标社区，包括：

获取第二比重大于阈值的社区作为所述目标社区。

8.一种作弊账户筛选装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括：交互装置、输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

所述交互装置用于获取用户输入的操作指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1-7中任意一项所述的方法。

10.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1-7中任意一项所述的方法。