CN111740977A

CN111740977A - 投票检测方法及装置、电子设备、计算机可读存储介质

Info

Publication number: CN111740977A
Application number: CN202010550243.8A
Authority: CN
Inventors: 周开波
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-10-02
Anticipated expiration: 2040-06-16
Also published as: CN111740977B

Abstract

本发明实施例提供了一种投票检测方法及装置、电子设备、计算机可读存储介质，涉及网络投票技术领域。所述投票检测方法包括：获取投票用户的投票信息；根据获取的所述投票信息以及预设关联关系，建立图网络；利用所述图网络中的第一异常节点，对预设投票检测模型进行训练；通过训练后的所述预设投票检测模型，确定所述图网络中的第二异常节点，并将所述第二异常节点对应的投票确定为异常投票。本发明实施例提供的技术方案，能够在一定程度上解决现有技术中的防止刷票行为的方法，对于刷票行为的识别，存在准确率低的问题。

Description

投票检测方法及装置、电子设备、计算机可读存储介质

技术领域

本发明涉及网络投票技术领域，尤其涉及一种投票检测方法及装置、电子设备、计算机可读存储介质。

背景技术

网络投票就是在网上进行的投票活动。目前，很多综艺节目、评选活动等均已采用网络投票方式，选出获胜者。但网络投票容易通过刷票行为进行投票造假，影响投票结果的公正性。

为了减少网络投票中的刷票行为，现有技术中防止刷票行为的方法主要有如下几种：

1、代码规则控制：如投票频率限制、互联网协议地址(即IP地址)限制、硬件设备限制等。

2、人机识别：投票过程中，需要用户进行图灵测试，如验证码、活体验证等，防止机器自动化刷票。

3、本人识别：投票过程中，需要用户验证是本人行为，如短信验证、实名制等，防止代投。

4、降低刷票速率：采用不公平加解密算法，降低机器刷票速度。

对于上述方法，无论哪一种均是如何抑制、防御刷票行为，随着黑产技术(即刷票技术)的发展，越来越容易绕过上述防御行为，由此可见，现有技术中的防止刷票行为的方法，对刷票行为的识别效果较差，准确率较低。

发明内容

本发明提供一种投票检测方法及装置、电子设备、计算机可读存储介质，以便在一定程度上解决现有技术中的防止刷票行为的方法，对于刷票行为的识别，存在准确率低的问题。

在本发明实施的第一方面，提供了一种投票检测方法，应用于服务器，所述投票检测方法包括：

获取投票用户的投票信息；其中，所述投票信息包括：用户身份信息、互联网协议地址、用户代理、投票时间以及投票选项；

根据获取的所述投票信息以及预设关联关系，建立图网络；其中，所述预设关联关系包括：不同投票用户的投票信息之间的关联关系，以及同一投票用户的投票信息之间的关联关系；所述图网络包括：至少两个节点和至少一条连接于两个节点之间的边；每一所述节点表示一种投票信息；每一所述边对应一权重值，所述权重值表示所述边连接的两个节点之间的关联关系的强弱程度；

利用所述图网络中的第一异常节点，对预设投票检测模型进行训练；其中，所述第一异常节点为：所述图网络中属于刷票行为产生的投票信息对应的节点；

通过训练后的所述预设投票检测模型，确定所述图网络中的第二异常节点，并将所述第二异常节点对应的投票确定为异常投票。

可选地，所述图网络为异构图网络或同构图网络；

在所述图网络为异构图网络的情况下，所述图网络中的节点的类型包括：用户身份信息、网络互连协议地址、用户代理、投票时间、投票选项中的至少两种；

在所述图网络为同构图网络的情况下，所述图网络中的节点的类型为用户身份信息。

可选地，所述利用所述图网络中的第一异常节点，对预设投票检测模型进行训练，包括：

将所述图网络中的所述第一异常节点标注为样本节点；

将所述图网络作为输入数据输入至所述预设投票检测模型中，并以最小化预测概率值与实际标注值之间的交叉熵损失为训练目标或以达到预设迭代次数为训练目标，对所述预设投票检测模型进行训练；

其中，所述预测概率值为所述预设投票检测模型预测出的所述样本节点为异常节点的概率值；所述实际标注值为预先标注地、所述样本节点为异常节点的概率值。

可选地，所述预设投票检测模型为图卷积神经网络模型。

可选地，在所述利用所述图网络中的第一异常节点，对预设投票检测模型进行训练之前，所述投票检测方法还包括：

根据至少一种预设社区检测算法，确定所述图网络的第一异常节点。

可选地，所述至少一种预设社区检测算法包括：鲁汶社区检测算法、高密子图挖掘算法以及标签传播算法中至少一种。

在本发明实施的第二方面，提供了一种投票检测装置，应用于服务器，所述投票检测装置包括：

获取模块，用于获取投票用户的投票信息；其中，所述投票信息包括：用户身份信息、互联网协议地址、用户代理、投票时间以及投票选项；

建立模块，用于根据所述获取模块获取的所述投票信息以及预设关联关系，建立图网络；其中，所述预设关联关系包括：不同投票用户的投票信息之间的关联关系，以及同一投票用户的投票信息之间的关联关系；所述图网络包括：至少两个节点和至少一条连接于两个节点之间的边；每一所述节点表示一种投票信息；每一所述边对应一权重值，所述权重值表示所述边连接的两个节点之间的关联关系的强弱程度；

训练模块，用于利用所述图网络中的第一异常节点，对预设投票检测模型进行训练；其中，所述第一异常节点为：所述图网络中属于刷票行为产生的投票信息对应的节点；

检测模块，用于通过所述训练模块训练后的所述预设投票检测模型，确定所述图网络中的第二异常节点，并将所述第二异常节点对应的投票确定为异常投票。

可选地，所述图网络为异构图网络或同构图网络；

可选地，所述训练模块包括：

样本标注单元，用于将所述图网络中的所述第一异常节点标注为样本节点；

训练单元，用于将所述图网络作为输入数据输入至所述预设投票检测模型中，并以最小化预测概率值与实际标注值之间的交叉熵损失为训练目标或以达到预设迭代次数为训练目标，对所述预设投票检测模型进行训练；

可选地，所述预设投票检测模型为图卷积神经网络模型。

可选地，所述投票检测装置还包括：

确定模块，用于根据至少一种预设社区检测算法，确定所述图网络的第一异常节点。

在本发明实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如上所述的投票检测方法中的步骤。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的投票检测方法。

在本发明实施例的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上所述的投票检测方法。

针对在先技术，本发明具备如下优点：

本发明实施例中，先根据获取的投票信息之间的关联建立图网络，然后再利用图网络中的异常节点，对预设投票检测模型进行训练，最后通过训练后的模型识别图网络中的异常节点。由于训练后的模型识别异常节点的准确度更高，因此能够识别出更多的异常节点，进而检测出更多的异常投票，这样在提高召回率的同时，也能够更好地降低刷票行为对投票结果的影响，提升投票的公正性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种投票检测方法的流程示意图；

图2为本发明实施例提供的另一种投票检测方法的流程示意图；

图3为本发明实施例提供的鲁汶社区检测算法的示意图；

图4为本发明实施例提供的高密子图挖掘算法的示例图；

图5为本发明实施例提供的图卷积神经网络模型的示意图；

图6为本发明实施例提供的系统示意框图；

图7为本发明实施例提供的一种投票检测装置的框图；

图8为本发明实施例提供的另一种投票检测装置的框图；

图9为本发明实施例提供的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解的是，还可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种投票检测方法的流程示意图，该投票检测方法应用于服务器。

如图1所示，该投票检测方法可以包括：

步骤101：获取投票用户的投票信息。

对于一次网络投票活动，可以获取本次网络投票活动中所有投票用户的投票信息，以用于对投票进行检测，识别出异常投票，即：通过刷票行为产生的投票。

其中，投票信息可以包括：用户身份信息、IP地址、用户代理(User Agent，简称UA)、投票时间以及投票选项等。

这里所述的用户身份信息是指投票时表明投票用户身份的信息，可以包括但不限于：用户账号、用户手机号码、用户身份证号码等。

这里所述的用户代理用于指示投票用户是通过哪一客户端(如浏览器客户端或视频播放器客户端等)进行投票的。

这里所述的投票时间是指每一投票事件的发生时间。

这里所述的投票选项是指每一投票事件对应的投票对象。

步骤102：根据获取的投票信息以及预设关联关系，建立图网络。

通过构建图网络，可以将看似独立的每一次投票行为关联起来，进而根据投票行为之间的关联关系，确定异常投票。

这里所述的预设关联关系可以包括：不同投票用户的投票信息之间的关联关系，以及同一投票用户的投票信息之间的关联关系。

其中，不同投票用户的投票信息之间的关联关系可以包括：不同投票用户的用户身份信息之间的关联关系、IP地址之间的关联关系、用户代理之间的关联关系、投票时间之间的关联关系以及投票选项之间的关联关系中的至少一种。针对不同投票用户的投票信息之间的关联关系，可以设置不同程度等级，例如，可以设置：IP地址完全相同时为极强关联关系、IP地址前三段相同时为较强的关联、IP地址完全不相同时为极弱关联关系等；再例如，可以设置投票时间之差处于预设时长内时为强关联关系，处于预设时长外时为弱关联关系。

其中，同一投票用户的投票信息之间的关联关系可以包括：同一投票用户对应的用户身份信息、IP地址、用户代理、投票时间以及投票选项中任意两种信息之间的关联关系。例如，投票用户A以身份信息ID₁通过IP₁地址进行投票，则身份信息ID₁与IP₁之间有关联关系。

在构建图网络时，以投票用户的投票信息作为图网络中的节点，然后根据不同投票用户的投票信息之间的关联关系，以及同一投票用户的投票信息之间的关联关系，在节点之间建立连线，形成节点之间的边，并标记每条边对应的权重值，从而实现图网络的构建。

这里所述的图网络可以包括：至少两个节点和至少一条连接于两个节点之间的边。其中，每一节点表示一种投票信息，例如，图网络中有节点a，该节点a表示用户身份信息，该图网络中还有节点b，该节点b表示投票选项。其中，每一条边对应一权重值，该权重值表示对应的边连接的两个节点之间的关联关系的强弱程度，权重值越大表示关联关系越强，反之，权重值越小表示关联关系越弱。其中，可以预先设置不同程度的关联关系对应不同的权重值。

步骤103：利用图网络中的第一异常节点，对预设投票检测模型进行训练。

这里所述的第一异常节点为：图网络中属于刷票行为产生的投票信息对应的节点。

这里所述的预设投票检测模型用于检测图网络中的异常节点(即属于刷票行为产生的投票信息对应的节点)。

本发明实施例中，为了提高该模型识别异常节点的准确率，将图网络中预先获得的第一异常节点作为样本节点，使该模型再次进行学习和训练，以调整模型参数，提高模型的检测精度，从而使该模型可以识别出更多的异常节点，进而检测出更多的异常投票，提升召回率。

其中，这里所述的召回率是指：检测出的异常投票的数量与实际异常投票的总数量之比。虽然实际异常投票的总数量未知，但针对一次投票活动而言，异常投票的总数量一定，因此检测出的异常投票的数量越多，召回率越大。

步骤104：通过训练后的预设投票检测模型，确定图网络中的第二异常节点，并将该第二异常节点对应的投票确定为异常投票。

这里所述的预设投票检测模型，其输入数据为图网络，输出数据为对异常节点进行标记的图网络。

在将第一异常节点作为样本节点对该预设投票检测模型进行学习和训练后，利用训练后的预设投票检测模型，识别图网络中属于刷票行为产生的投票信息对应的节点，并将识别出的节点(即第二异常节点)对应的投票确定为异常投票，即刷票行为产生的投票。对于识别出的异常投票，可以视其为无效投票，从而降低刷票行为对投票结果公正性影响。

综上所述，本发明实施例中，先根据获取的投票信息之间的关联建立图网络，然后再利用通过社区检测算法在图网络中识别出的异常节点，对预设投票检测模型进行训练，最后通过训练后的模型识别图网络中的异常节点。由于训练后的模型识别异常节点的准确度更高，因此能够识别出更多的异常节点，进而检测出更多的异常投票，这样在提高刷票检测能力的同时，也能够更好地降低刷票行为对投票结果的影响，提升投票的公正性。

图2是本发明实施例提供的一种投票检测方法的流程示意图。该投票检测方法应用于服务器。

如图2所示，该投票检测方法可以包括：

步骤201：获取投票用户的投票信息。

关于该步骤的解释说明，可参考前文对步骤101的具体描述，为了避免重复，这里便不再赘述。

步骤202：根据获取的投票信息以及预设关联关系，建立图网络。

关于该步骤的解释说明，可参考前文对步骤102的具体描述，为了避免重复，这里便不再赘述。

步骤203：根据至少一种预设社区检测算法，确定图网络中的第一异常节点。

这里所述的第一异常节点为属于刷票行为产生的投票信息对应的节点，该第一异常节点包括：通过每种预设社区检测算法检测出的、属于刷票行为产生的投票信息对应的节点。

步骤204：利用图网络中的第一异常节点，对预设投票检测模型进行训练。

由于第一异常节点是通过社区检测算法得到的，而社区检测算法一般采用的是无监督方法，无需先验知识或刷票样本，因此利用社区检测算法识别得到的第一异常节点作为样本节点，可以减少人工标注成本以及对专业经验的依赖。

关于该步骤的其他解释说明，可参考前文对步骤103的具体描述，为了避免重复，这里便不再赘述。

步骤205：通过训练后的预设投票检测模型，确定图网络中的第二异常节点，并将该第二异常节点对应的投票确定为异常投票。

关于该步骤的解释说明，可参考前文对步骤104的具体描述，为了避免重复，这里便不再赘述。

本发明实施例中，在异常投票未知的情况下，先根据投票信息之间的关联建立图网络，然后由至少一种社区检测算法在图网络中识别一定数量的异常节点，再然后以这些异常节点作为样本节点，对预设投票检测模型进行训练，最后通过训练后的模型识别图网络中的异常节点。由于训练后的模型识别异常节点的准确度更高，因此能够识别出更多的异常节点，进而检测出更多的异常投票，这样在提高召回率的同时，也能够更好地降低刷票行为对投票结果的影响，提升投票的公正性。此外，本发明实施例提供的投票检测方法还可以减少人工标注成本以及对专业经验的依赖。

可选地，本发明实施例中所述的图网络，可以是异构图或同构图，具体类型可根据预设投票检测模型能够识别的图网络类型进行确定。例如，在采用异构图对预设投票检测模型进行训练时，由于该预设投票检测模块可以对异构图进行异常节点识别，则本发明实施例中所述的图网络为异构图；同理，在采用同构图对预设投票检测模型进行训练时，由于该预设投票检测模块可以对同构图进行异常节点识别，则本发明实施例中所述的图网络为同构图。

所谓异构图为至少包括两种类型的节点的图网络。对于本发明实施例而言，在图网络为异构图时，图网络中的节点均表示不同类型的投票信息，在构建图网络时，是根据不同投票用户的投票信息之间的关联关系，以及同一投票用户的投票信息之间的关联关系进行构建的。其中，图网络中的节点的类型具体可以包括：用户身份信息、IP地址、用户代理、投票时间、投票选项中的至少两种，具体包括的节点类型可根据实际需求选择。

所谓同构图为仅包括一种类型的节点的图网络。对于本发明实施例而言，在图网络为同构图时，图网络中的节点均表示同一种类型的投票信息，如可以是投票信息中的用户身份信息。在构建图网络时，是根据不同投票用户的投票信息之间的关联关系进行构建的。

可选地，对于图网络，一般使用数据库进行存储，数据库的具体类型包括：基于结构化查询语言(Structured Query Language，简称SQL)进行查询的MySQL数据库，基于分布式文件存储的MongoDB数据库，海杜普分布式文件系统(Hadoop Distributed FileSystem，简称HDFS)、蜂巢(即hive)等大数据存储方案以及Neo4j、OrientDB等图数据库。

可选地，本发明实施例中所述的至少一种预设社区检测算法可以包括：鲁汶(即Louvain)社区检测算法、高密子图挖掘(即Dense Subgraph Mining)算法以及标签传播(即Label Propagation)算法中的至少一种。

下面针对Louvain算法、高密子图挖掘算法以及标签传播算法这三种社区检测算法，分别解释说明每种社区检测算法是如何进行异常节点识别的。

(1)Louvain社区检测算法

Louvain社区检测算法是一种基于模块度(即Modularity)的社区检测算法，其优化目标是最大化社区的模块度。模块度也称模块化度量值，其可以用来衡量一个网络社区的紧密程度，模块度的数值越大，社区紧密程度越高，反之，模块度的数值越小，社区紧密程度越低。紧密程度高的社区一般预示着一种同步的、大量的关联行为模式，与刷票行为的特点比较契合，因此，对于本发明实施例而言，社区紧密程度越高，说明该社区内的节点之间的关联关系越紧密，这些节点对应的投票越具有明显的刷票现象，因此，当某一社区的模块度值大于或等于某一数值时，可以认为该社区为异常社区，社区内的节点对应的投票信息为刷票行为产生的。其中，Louvian社区检测算法可以适用于异构图网络以及同构图网络。

在预设社区检测算法为Louvian社区检测算法的情况下，步骤203：根据至少一种预设社区检测算法，确定图网络的第一异常节点，可以包括：

步骤一：将图网络中的每一节点划分为一个社区。

在进行Louvian社区检测算法时，可以先将图网络中的每个节点看作为一个独立的社区，此时社区的数量与节点的个数相同。

步骤二：根据将每一节点归属于相邻节点所属社区时，相邻节点所属社区的模块度的变化值，重新进行社区划分，直至图网络中的每个社区的模块度值不再变化为止。

针对步骤一和步骤二，下面以图3为例，进行一步地解释说明。

1)将图网络中的每个节点看成一个独立的社区，如图3中的(a)图所示。

2)对图网络中的每个节点i(节点i表示图网络中的任意一个节点)，依次将节点i分配到节点i的每个邻居节点(即相邻节点)所属的社区，并计算分配前与分配后这个邻居节点所属的社区的模块度的变化值ΔQ。然后确定最大ΔQ对应的社区。如果最大ΔQ>0，则将节点i归属于该最大ΔQ对应的社区，否则节点i所属社区保持不变。

例如，在将节点i分别分配到3个邻居节点所属的社区A、社区B以及社区C中时，使得这三个社区的模块度的变化值ΔQ分别为：-1、1、2，由于ΔQ最大为2，因此将节点i划分至社区C中。

3)重复2)，直到所有节点的所属社区不再变化。

如图3中的(b)图所示，图网络最后被划分为四个社区。其中，具有相同填充图案的节点属于同一社区。

4)对图网络进行压缩，将所有在同一社区的节点压缩成一个新节点。

如图3中的(c)图所示，分别对划分得到的四个社区中的节点进行压缩，得到四个新节点。

5)对于压缩后的图网络，重复1)、2)、3)、4)，直到整个图网络的模块度值不再发生变化。

步骤三：将模块度值大于或等于第一预设数值的社区中的节点，确定为第一异常节点。

在完成社区划分后，将模块度值大于或等于第一预设数值的社区识别为异常社区，该异常社区中的节点确定为第一异常节点。这里所述的第一预设数值可以根据实际需求设置，本发明实施例对此不进行限定。

(2)高密子图挖掘算法

高密子图挖掘算法是一种聚类算法，通过高密子图挖掘算法可以找到图网络中节点密度高的社区，而节点密度高的社区一般预示着一种同步的、大量的关联行为，与刷票行文的特点比较契合，因此，将该算法应用到投票场景中，可以更好地检测出黑产通过多种物料组合进行的刷票行为。其中，多种物料组合是指黑产使用大量代理IP、大量伪造UA、大量黑产受控的用户ID等进行随机组合。

其中，高密子图挖掘算法是基于多个维度的信息确定节点密度高的社区，因此高密子图挖掘算法适用于异构图。

如图4所示，是识别对餐厅恶意评价的高密子图挖掘算法示例。图中，无填充图案的多个小方块表示正常评价，有填充图案的多个小方块表示恶意评价。图4中的左图仅有“用户账号”一个维度的信息，无法区分正常评价和恶意评价。但在右图中，除了用户账号信息，还加入了时间维度信息(即评价时间)，从而可以发现有填充图案的多个小方块在时间维度上密集聚集，而无填充图案的多个小方块在时间维度上则是稀疏分布，由此可以看出恶意评价与正常评价之间的区别，进而可以识别出恶意评价。

对于本发明实施例而言，在预设社区检测算法为高密子图挖掘算法的情况下，步骤203：根据至少一种预设社区检测算法，确定图网络的第一异常节点，可以包括：在预设维度空间内，将通过高密子图挖掘算法确定的、节点分布密度大于预设密度值的社区内的节点，确定为第一异常节点。这里所述的预设维度空间的维度数量与图网络中节点的类型的数量相同，且每一维度与节点的一种类型对应。

(3)标签传播算法

标签传播算法是基于图网络的半监督学习算法，适用于同构图以及异构图。标签传播算法是每一节点根据其相邻节点所属社区的社区标签改变自身的社区标签，具体解释说明如下所述：

在预设社区检测算法为标签传播算法的情况下，步骤203：根据至少一种预设社区检测算法，确定图网络的第一异常节点，可以包括：

步骤一：为图网络中每一节点分配唯一社区标签。

该社区标签可以理解为节点的初始身份信息，即初始ID，因此，每一节点的社区标签均是唯一的。

步骤二：对于每一节点，确定其相邻节点连接的边的权重值之和，将连接的边的权重值之和最大的相邻节点的社区标签，设置为该节点自身的社区标签，如此依次迭代，直至图网络中的节点的社区标签不再变化为止或是达到预设迭代次数为止。

例如，节点1的相邻节点分别为节点2、节点4以及节点6。节点2连接的边的权重值之和为3，节点4连接的边的权重值之和为5，节点6连接的边的权重值之和为7，由于节点6连接的边的权重值之和最大，因此，将节点1的社区标签重置为节点6的社区标签。在完成一轮标签重置后，参照前述方法继续进行迭代，直至图网络中的节点的社区标签不再变化为止或是达到预设迭代次数为止。

步骤三：将社区标签相同的节点划分至同一社区中。

步骤四：将节点数大于或等于第二预设数值的社区中的节点，确定为第一异常节点中。

在完成社区划分后，将节点数大于或等于第二预设数值的社区识别为异常社区，该异常社区中的节点确定为第一异常节点。这里所述的第二预设数值可以根据实际需求设置，本发明实施例对此不进行限定。

可选地，在使用预设社区检测算法时，一般使用Spark GraphX或蟒蛇(即python)计算机程序语言中的networkx等图计算引擎实现。

可选地，本发明实施例中，该预设投票检测模型可以预测图网络中的每一节点为正常节点的概率或为异常节点的概率。可以理解的是，具体是哪一种节点的概率，可根据实际需求进行预设设置。这里所述的正常节点是正常投票行为产生的投票信息对应的节点。这里所述的异常节点为刷票行为产生的投票信息对应的节点。

在预设投票检测模型的输出结果为图网络中的每一节点为正常节点的概率时，概率值越大说明该节点为正常节点的可能性越大，反之，概率值越小说明该节点为异常节点的可能性越大，因此，可以设置一概率阈值(以下称为第一预设概率值)，将概率值小于或等于该第一预设概率值的节点，确定为图网络中的第二异常节点。

在预设投票检测模型的输出结果为图网络中的每一节点为异常节点的概率时，概率值越大说明该节点为异常节点的可能性越大，反之，概率值越小说明该节点为正常节点的可能性越大，因此，可以设置一概率阈值(以下称为第二预设概率值)，将概率值大于或等于该第二预设概率值的节点，确定为图网络中的第二异常节点。

可选地，步骤204：利用图网络中的第一异常节点，对预设投票检测模型进行训练，可以包括：

将图网络中的第一异常节点标注为样本节点；将图网络作为输入数据输入至预设投票检测模型中，并以最小化预测概率值与实际标注值之间的交叉熵损失为训练目标或以达到预设迭代次数为训练目标，对预设投票检测模型进行训练。

其中，预测概率值为预设投票检测模型预测出的样本节点为异常节点的概率值。实际标注值为预先标注地、样本节点为异常节点的概率值。对于实际标注值，在预设投票检测模型的输出结果为图网络中的每一节点为正常节点的概率的情况下，第一异常节点的实际标注值可以是0；在预设投票检测模型的输出结果为图网络中的每一节点为异常节点的概率的情况下，第一异常节点的实际标注值可以是1。

可选地，本发明实施例中所述的预设投票检测模型可以是图卷积神经网络(GraphConvolutional Neural Network，简称GCN)模型。

如图5所示，GCN模型的输入数据是整个图网络，在第一卷积层里，对每个节点(如图5中的黑色节点所示)的邻居节点均进行一次卷积操作，并将卷积结果赋值给该节点，之后经过一激活函数(如，线性整流函数(Rectified Linear Unit，简称ReLU))。此后，再经过一层卷积层(如第二卷积层)与一激活函数，如此反复进行前述过程，直至卷积层数达到预期深度为止，输出结果。对于本发明实施例而言，GCN模型的输出结果为每个节点为正常节点的概率或为异常节点的概率，具体情况可根据实际需求设置。

GCN模型训练是一种半监督学习过程，对于图网络中的节点分为有标注样本(例如图网络中的第一异常节点)和无标注样本(例如图网络中除第一异常节点之外的节点)。GCN模型的训练目标是最小化有标注样本的预测结果与实际标注值之间的交叉熵损失或达到预设迭代次数为训练目标。其中，交叉熵用于度量两个概率分布间的差异性。

GCN模型训练过程中，可以通过梯度下降的方法，更新GCN模型的权重矩阵(即模型参数)，以使预测结果更接近于实际值。训练完成之后，则可根据训练后的模型，预测每个节点为正常节点的概率或为异常节点的概率。

在本发明实施例中，优选有标注样本为图网络中的第一异常节点，即通过GCN模型预测图网络中每个节点为异常节点的概率。

综上，如图6所示，本发明实施例在进行投票检测时，先采集数据，获取投票信息；然后根据投票信息之间的关联关系构建图网络；再然后由至少一种社区检测算法(如Louvain社区检测算法、高密子图挖掘算法、标签传播算法等)在图网络中识别一定数量的异常节点，之后再以这些异常节点作为样本节点，对预设投票检测模型进行训练，最后，通过训练后的模型识别图网络中的异常节点。由于训练后的模型识别异常节点的准确度更高，因此能够识别出更多的异常节点，进而检测出更多的异常投票，这样在提高召回率的同时，也能够更好地降低刷票行为对投票结果的影响，提升投票的公正性。此外，由于第一异常节点是通过社区检测算法得到的，而社区检测算法一般采用的是无监督方法，无需先验知识或刷票样本，因此利用社区检测算法识别得到的第一异常节点作为样本节点，可以减少人工标注成本以及对专业经验的依赖。

图7是本发明实施例提供的一种投票检测装置的示意框图。该投票检测装置应用于服务器。

如图7所示，所述投票检测装置700包括：

获取模块701，用于获取投票用户的投票信息。

其中，所述投票信息包括：用户身份信息、互联网协议地址、用户代理、投票时间以及投票选项。

建立模块702，用于根据所述获取模块获取的所述投票信息以及预设关联关系，建立图网络。

其中，所述预设关联关系包括：不同投票用户的投票信息之间的关联关系，以及同一投票用户的投票信息之间的关联关系。所述图网络包括：至少两个节点和至少一条连接于两个节点之间的边；每一所述节点表示一种投票信息；每一所述边对应一权重值，所述权重值表示所述边连接的两个节点之间的关联关系的强弱程度。

训练模块703，用于利用所述图网络中的第一异常节点，对预设投票检测模型进行训练。

其中，所述第一异常节点为：所述图网络中属于刷票行为产生的投票信息对应的节点。

检测模块704，用于通过所述训练模块训练后的所述预设投票检测模型，确定所述图网络中的第二异常节点，并将所述第二异常节点对应的投票确定为异常投票。

可选地，所述图网络为异构图网络或同构图网络。

在所述图网络为异构图网络的情况下，所述图网络中的节点的类型包括：用户身份信息、网络互连协议地址、用户代理、投票时间、投票选项中的至少两种。

可选地，如图8所示，所述训练模块703包括：

样本标注单元7031，用于将所述图网络中的所述第一异常节点标注为样本节点。

训练单元7032，用于将所述图网络作为输入数据输入至所述预设投票检测模型中，并以最小化预测概率值与实际标注值之间的交叉熵损失为训练目标或以达到预设迭代次数为训练目标，对所述预设投票检测模型进行训练。

可选地，所述预设投票检测模型为图卷积神经网络模型。

可选地，如图8所示，所述投票检测装置700还包括：

确定模块705，用于根据至少一种预设社区检测算法，确定所述图网络的第一异常节点。

本发明实施例中，先根据获取的投票信息之间的关联建立图网络，然后再利用通过社区检测算法在图网络中识别出的异常节点，对预设投票检测模型进行训练，最后通过训练后的模型识别图网络中的异常节点。由于训练后的模型识别异常节点的准确度更高，因此能够识别出更多的异常节点，进而检测出更多的异常投票，这样在提高召回率的同时，也能够更好地降低刷票行为对投票结果的影响，提升投票的公正性。

对于上述装置实施例而言，由于其与方法实施例基本相似，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，该电子设备可以是服务器。如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信。

存储器903，用于存放计算机程序。

在电子设备为终端设备时，处理器901用于执行存储器903上所存放的程序时，实现如下步骤：

获取投票用户的投票信息；

根据获取的所述投票信息以及预设关联关系，建立图网络；

利用所述图网络中的第一异常节点，对预设投票检测模型进行训练；其中，所述第一异常节点为：

其中，所述预设关联关系包括：不同投票用户的投票信息之间的关联关系，以及同一投票用户的投票信息之间的关联关系；所述图网络包括：至少两个节点和至少一条连接于两个节点之间的边；每一所述节点表示一种投票信息；每一所述边对应一权重值，所述权重值表示所述边连接的两个节点之间的关联关系的强弱程度。

其中，所述图网络中属于刷票行为产生的投票信息对应的节点；

将所述图网络中的所述第一异常节点标注为样本节点；

可选地，在所述利用所述图网络中的第一异常节点，对预设投票检测模型进行训练之前，所处理器601执行存储器603上所存放的程序时，还实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中所述的投票检测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的投票检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，包含在本发明的保护范围内。

Claims

1.一种投票检测方法，应用于服务器，其特征在于，所述投票检测方法包括：

2.根据权利要求1所述的投票检测方法，其特征在于，所述图网络为异构图网络或同构图网络；

3.根据权利要求1所述的投票检测方法，其特征在于，所述利用所述图网络中的第一异常节点，对预设投票检测模型进行训练，包括：

将所述图网络中的所述第一异常节点标注为样本节点；

4.根据权利要求1或3所述的投票检测方法，其特征在于，所述预设投票检测模型为图卷积神经网络模型。

5.根据权利要求1所述的投票检测方法，其特征在于，在所述利用所述图网络中的第一异常节点，对预设投票检测模型进行训练之前，所述投票检测方法还包括：

6.根据权利要求5所述的投票检测方法，其特征在于，所述至少一种预设社区检测算法包括：鲁汶社区检测算法、高密子图挖掘算法以及标签传播算法中至少一种。

7.一种投票检测装置，应用于服务器，其特征在于，所述投票检测装置包括：

8.根据权利要求7所述的投票检测装置，其特征在于，所述训练模块包括：

9.根据权利要求7或8所述的投票检测装置，其特征在于，所述预设投票检测模型为图卷积神经网络模型。

10.根据权利要求7所述的投票检测装置，其特征在于，所述投票检测装置还包括：

11.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线；其中，处理器、通信接口以及存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求1至6任一项所述的投票检测方法中的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6任一项所述的投票检测方法。