CN111708823B

CN111708823B - 异常社交账号识别方法、装置、计算机设备和存储介质

Info

Publication number: CN111708823B
Application number: CN202010828851.0A
Authority: CN
Inventors: 王韵陶; 陈炳文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2021-05-18
Anticipated expiration: 2040-08-18
Also published as: CN111708823A

Abstract

本申请实施例公开了一种异常社交账号识别方法、装置、计算机设备和存储介质，其中，本申请实施例可以基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络；调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息；调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息；将所述行为特征信息与所述图像特征信息融合，得到所述社交账号的账号特征信息；调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型。本申请的技术方案通过融合社交账号的行为特征信息与图像特征信息，从而可以自动、高效、准确地识别出异常社交帐号。

Description

异常社交账号识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种异常社交账号识别方法、装置、计算机设备和存储介质。

背景技术

近年来，在社交网络中，存在大量传播不良信息的异常社交帐号，这些社交账号大多以团伙的形式存在。现有的异常社交帐号识别方法大量依赖人工判别，而较为智能的异常社交帐号识别算法通常是将整个社交网络的拓扑进行计算，形成多个聚类簇，这在计算大规模社交网络时往往会耗费大量的计算成本，且不容易验证其结果。现有的异常社交账号识别方法，不能在大规模社交网络中自动、高效、准确地识别出异常社交帐号。

发明内容

有鉴于此，本申请实施例提供了一种异常社交账号识别方法、装置、计算机设备和存储介质，可以自动、高效、准确地识别出异常社交帐号。

第一方面，本申请实施例提供了一种异常社交账号识别方法，包括：

根据用户针对社交账号集合的操作信息，获取所述社交账号的行为特征信息；

调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息；

将所述行为特征信息与所述图像特征信息融合，得到所述社交账号的账号特征信息；

调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型。

在一实施例中，所述调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型，包括：

采用多个训练后的分类模型，分别对所述账号特征信息进行全连接计算，得到所述社交账号的多个候选类型；

根据所述多个候选类型确定所述社交账号的类型。

在一实施例中，所述根据所述多个候选类型确定所述社交账号的类型，包括：

从所述多个候选类型中确定重复最多的候选类型，作为所述社交账号的类型。

在一实施例中，在所述调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型之前，包括：

采集多个标注有真实账号类型的账号特征信息样本；

通过预设分类模型预测所述账号特征信息样本的预测账号类型；

获取所述预测账号类型对应的预测值；

基于所述预测账号类型的预测值、所述真实账号类型和权重参数构建损失函数；

采用所述损失函数对所述分类模型进行收敛，得到训练后的分类模型。

在一实施例中，所述采用所述损失函数对所述分类模型进行收敛，得到训练后的分类模型，包括：

根据所述预测账号类型的预测值与所述损失函数获取当前损失；

根据所述当前损失，对所述分类模型中的参数进行更新；

根据所述预测账号类型和所述真实账号类型，确定当前分类模型为训练后的分类模型。

在一实施例中，所述根据用户针对社交账号集合的操作信息，获取所述社交账号的行为特征信息，包括：

基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络；

调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息。

在一实施例中，所述基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络，包括：

根据用户针对社交账号集合的操作信息，获取基于各社交账号的账号行为序列；

根据所述账号行为序列生成所述社交账号之间的社交关系网络。

在一实施例中，所述调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息，包括：

采用所述预设关系挖掘模型中的序列提取子模型，确定各账号标识的相邻账号标识，并根据所述各账号标识的相邻账号标识生成账号标识序列；

根据所述账号标识序列训练所述关系挖掘模型中初始映射子模型中的隐层权重信息，得到所述预设关系挖掘模型中的映射子模型；

根据所述映射子模型中的隐层权重信息，将所述账号标识序列映射为所述社交账号的行为特征信息。

在一实施例中，所述调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息，包括：

基于所述训练后的图像分类模型中的至少一个卷积层，对所述图像标识进行特征提取，得到初始图像特征；

基于所述训练后的图像分类模型中的第一全连接层，对所述初始图像特征信息进行全连接运算，得到所述图像标识的图像特征信息。

在一实施例中，在所述调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息，之前包括：

采集多个标注有真实图像类型的图像标识样本；

通过预设图像分类模型预测所述图像标识样本的预测图像类型；

获取所述预测图像类型对应的预测值；

基于所述预测图像类型的预测值、所述真实图像类型和权重参数构建损失函数；

采用所述损失函数对所述预设图像分类模型进行收敛，得到训练后的图像分类模型。

在一实施例中，所述采用所述损失函数对所述预设图像分类模型进行收敛，得到训练后的图像分类模型，包括：

根据所述预测图像类型的预测值与所述损失函数获取交叉熵损失；

根据所述交叉熵损失，对所述图像分类模型中的参数进行更新；

根据所述预测图像类型和所述真实图像类型，确定当前图像分类模型为训练后的图像分类模型。

在一实施例中，所述通过预设图像分类模型预测所述图像标识样本的预测图像类型，包括：

基于所述图像分类模型中的至少一个卷积层，对所述图像标识样本进行特征提取，得到所述图像标识样本的初始图像特征；

基于所述图像分类模型中的第一全连接层，对所述初始图像特征信息进行全连接运算，得到所述图像标识样本的图像特征信息；

基于所述图像分类模型中的其余全连接层，对所述图像特征信息进行全连接运算，确定所述图像标识样本的预测图像类型。

第二方面，本申请的实施例提供了一种异常社交账号识别装置，包括：

行为特征提取单元，用于根据用户针对社交账号集合的操作信息，获取所述社交账号的行为特征信息；

图像特征提取单元，用于调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息；

融合单元，用于将所述行为特征信息与所述图像特征信息融合，得到所述社交账号的账号特征信息；

分类单元，用于调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型。

在一实施例中，所述行为特征提取单元，包括：

生成子单元，用于基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络；

行为特征提取子单元，用于调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息。

第三方面，本申请实施例提供一种计算机设备，包括：处理器和存储器；所述存储器存储有多条指令，所述处理器加载所述存储器存储的指令以执行上述异常社交账号识别方法中的步骤。

第四方面，本申请的实施例提供的存储介质，其上存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如本申请任一实施例提供的异常社交账号识别方法。

本申请实施例可以基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络；调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息；调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息；将所述行为特征信息与所述图像特征信息融合，得到所述社交账号的账号特征信息；调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型。本申请的技术方案通过融合社交账号的行为特征信息与图像特征信息，从而可以自动、高效、准确地识别出异常社交帐号。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的异常社交账号识别方法的场景示意图；

图2a是本发明实施例提供的异常社交账号识别方法的一种流程示意图；

图2b是本发明实施例提供的异常社交账号识别方法的一种流程示意图；

图3a是本发明实施例提供的异常社交账号识别装置的一种结构示意图；

图3b是本发明实施例提供的异常社交账号识别装置的另一种结构示意图；

图4是本发明实施例提供的计算机设备的结构示意图；

图5a是本发明实施例提供的模型应用流程示意图；

图5b是本发明实施例提供的社交关系网络示意图；

图5c是本发明实施例提供的skip-gram模型示意图；

图5d是本发明实施例提供的图像分类模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种异常社交账号识别方法、装置、计算机设备和存储介质。

本发明实施例中的异常社交账号识别方法涉及到人工智能技术，其中，人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。本发明实施例提供的方案涉及人工智能的机计算机视觉技术(Computer Vision, CV)和机器学习(MachineLearning, ML)等技术，具体将通过下面的实施例进行说明。

本发明中的异常社交账号识别装置具体可以集成在计算机设备，比如终端或服务器等设备中，该终端可以包括：手机、平板电脑、笔记本电脑或个人计算机（PC，PersonalComputer）等，其中，服务器可以包括单一服务器或者多个服务器组成的服务器集群。

例如，参考图1，本发明的异常社交账号识别装置继承在服务器中，本申请实施例可以基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络；调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息；调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息；将所述行为特征信息与所述图像特征信息融合，得到所述社交账号的账号特征信息；调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型。本申请的技术方案通过融合社交账号的行为特征信息与图像特征信息，从而可以自动、高效、准确地识别出异常社交帐号。

以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。

实施例一

在本实施例中，将从异常社交账号识别装置的角度进行描述，该异常社交账号识别装置具体可以集成在计算机设备，比如终端或服务器等设备中。在以下实施例中，将以异常社交账号识别装置集成在服务器中，进行详细描述。

如图2a和图5a所示，该异常社交账号识别方法的具体流程可以如下：

101、根据用户针对社交账号集合的操作信息，获取所述社交账号的行为特征信息。

在一实施例中，所述根据用户针对社交账号集合的操作信息，获取所述社交账号的行为特征信息，具体可以包括如下步骤：

其中，社交关系网络是用于表示社交账号关联关系的网状图，该网状图由节点和连接两个节点的边构成，节点代表社交账号的账号标识，当两个节点通过边相连时，代表其对应的两个社交账号相关联，连接两个节点的边代表两个社交账号之间的关联程度。其中，账号标识是一种用来区分不同社交账号的身份信息，通常可以表现为一组数字与字母的组合。

在一实施例中，如果两个社交账号存在好友关系或者消息往来，则两个节点可以通过边相连。

其中，社交账号之间的消息往来包括：浏览、点赞、转发、评论、分享、删除、收藏等。

在一实施例中，步骤“基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络”具体可以包括：根据用户针对社交账号集合的操作信息，获取基于各社交账号的账号行为序列；根据所述账号行为序列生成所述社交账号之间的社交关系网络。具体地，参考图5b，同一社交账号的账号行为序列中，该社交账号与相邻社交账号相关联，即社交关系网络中的相邻节点通过边相连，还可以根据账号行为序列中消息往来的先后顺序，确定边的方向，进而生成社交关系网络。

优选地，还可以根据社交账号之间的关联程度，来计算边权重。其中，边权重是用于衡量关联程度的大小的参数，在社交关系网络中，可以用边的粗细和长短来表示边权重。

其中，预设关系挖掘模型用于提取社交关系网络中的关联关系，并根据社交账号与其他社交账号之间的关联关系，将图数据（通常为高维稠密的矩阵）映射为低维稠密的行为特征信息的算法模型。

其中，行为特征信息是用于表示社交账号特征的数据含义上低维稠密的信息，包含社交账号与其他社交账号之间的局部关联特征，以及社交账号自身的特征。可以表现为特征向量或者特征矩阵等形式。

调用预设关系挖掘模型来对社交关系网络进行特征提取涉及到到人工智能技术中的计算机视觉技术，计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。本发明中对社交关系网络的处理涉及到计算机视觉技术中的图像处理、图像识别、图像语义理解等技术。

在本实施例中，预设关系挖掘模型可以包括序列提取子模型和映射子模型，步骤“所述调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息”具体可以包括：

其中，上述根据预先训练过的预设关系挖掘模型得到社交账号的行为特征信息的过程，实际上借鉴了词嵌入（词向量）的思想。词嵌入的基本处理元素是单词，而本实施例的基本处理元素是社交关系网络中的节点（即社交账号的账号标识）；词嵌入是对构成一个句子的单词序列进行分析，而本实施例中，映射子模型是对账号标识序列进行分析。其中，账号标识序列是构成社交关系网络中一条路径的账号标识组成的序列，包括多个按照路径中相邻关系排列的账号标识。

其中，在本实施例中采用序列提取子模型来获取账号标识序列，序列提取子模型可以通过游走算法生成账号标识序列，游走算法可以从社交关系网络中某个特定的目标节点开始，确定与目标节点相连的所有边，从与目标节点沿着相连的边移动到下一个顶点，不断重复这个过程，直至找到目标节点的所有相邻节点，然后确定与相邻节点相连的所有边，不过重复这个过程，直至找到所有相邻节点的相邻边，不断重复这个过程，最终形成多条贯穿社交关系网络的路径。每条路径经过的所有节点按照经过顺序组成账号标识序列。从目标节点开始，访问目标节点的相邻节点，再由该相邻节点访问该相邻节点的相邻节点，直至该相邻节点没有相邻节点，根据访问顺序，生成所述账号标识序列。

其中，游走算法包括多种，比如，以该游走算法为随机游走算法为例，定义所有参与构图的社交账号组成集合A，定义一个空集合B，第一步从A中随机选择一个点v，将该点从集合A中删除；第二步设step = 0, while step < N随机选择点v的出算法结束后，得到多个账号标识序列。

在一实施例中，参考图5c，映射子模型可以表现为skip-gram模型，其中，skip-gram模型是一群用来产生账号标识特征向量的相关模型。这些模型为浅而双层的神经网络，经过训练之后可以根据映射子模型中的隐层权重信息，将所述账号标识映射为社交账号的行为特征信息，其中所述映射子模型是基于神经网络的模型。

102、调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息。

在一实施例中，步骤“调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息”具体可以包括：

在一实施例中，可以利用卷积神经网络进行图像特征的提取。参考图5d，图像分类模型为具有5个卷积层的网络结构，最后连接3层全连接神经网络。在本实施例中，对一幅新的图像进行特征提取，提取第一个全连阶层的输出向量，本方法的向量维度为512维。

卷积层：主要用于对输入的图像（比如训练样本或需要识别的图像）进行特征提取，其中，卷积核大小可以根据实际应用而定，可选的，为了降低计算的复杂度，提高计算效率，这五层卷积层的卷积核大小也可以都设置为(3，3)；可选的，为了提高模型的表达能力，还可以通过加入激活函数来加入非线性因素，在本发明实施例中，该激活函数均为“relu（线性整流函数，Rectified Linear Unit）”，而填充（padding，指属性定义元素边框与元素内容之间的空间）方式均为“same”，“same”填充方式可以简单理解为以0填充边缘，左边（上边）补0的个数和右边（下边）补0的个数一样或少一个；可选的，为了进一步减少计算量，还可以在第、一至第五层卷积层中的所有层或任意1~2层进行下采样（pooling）操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值（maxpooling）或平均值（average pooling）等，为了描述方便，在本发明实施例中，将均以在第二层卷积层和第三层卷积层中进行下采样操作，且该下采样操作具体为取对应位置的最大值（max pooling）为例进行说明。

需说明的是，为了描述方便，在本发明实施例中，将激活函数所在层和下采样层（也称为池化层）均归入卷积层中，应当理解的是，也可以认为该结构包括卷积层、激活函数所在层、下采样层（即池化层）和全连接层，当然，还可以包括用于输入数据的输入层和用于输出数据的输出层，在此不作赘述。

全连接层：可以将学到的特征映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层（如卷积层中的下采样层）输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定。可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid（S型函数）。

其中，在第二和第三个全连接层中一般还包括softmax函数，softmax函数用于将全连接层计算得到的类别预测分数，映射为一个数值在（0，1）之间的概率。

在一实施例中，经过第一个全连接层之后，输出512维的图像特征向量，作为所述图像标识的图像特征信息。

在一实施例中，在步骤“调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息”之前还需要利用样本来训练预设图像分类模型，具体步骤可以包括：

采集多个标注有真实图像类型的图像标识样本；

获取所述预测图像类型对应的预测值；

在一实施例中，训练样本事先经过人工标注，分为含有不良信息的异常图像和正常图像两种真实图像类型，损失函数为交叉熵，公式如下：

其中，N为样本数量，

为样本

的期望输出，

为样本

的预测输出。训练的目标是最小化损失函数。

103、将所述行为特征信息与所述图像特征信息融合，得到所述社交账号的账号特征信息。

其中，特征融合包括多种方式，比如，可以将行为特征信息与图像特征信息拼接，得到账号特征信息。

采用融合后的特征来判别异常社交账号，可以高效、准确地实现对社交网络中异常社交账号的判别。

104、调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型。

在一实施例中，所述调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型，具体可以包括如下步骤：

根据所述多个候选类型确定所述社交账号的类型。

在一实施例中，可以利用标注后的账号特征信息分别训练SVM、XGBoost和Logistic Regression三种分类模型。再根据三种分类模型的分类结果（即候选类型）进行投票，被判为最多的类型作为当前社交账号的账号类型。

在一实施例中，训练分类器具体可以包括如下步骤：

采集多个标注有真实账号类型的账号特征信息样本；

获取所述预测账号类型对应的预测值；

其中，收敛指的是一种训练结果，当训练次数趋近无穷的时候，账号类型真实值和账号类型预测值之间的误差趋近小，这种情形下我们认为分类模型收敛。本实施例中采用的是通过预设的损失函数来计算所述账号类型真实值和所述账号类型预测值之间的误差。若模型不能收敛，则模型训练失败。

以下分别介绍不同分类模型所采用的损失函数与收敛原则：

（1）SVM分类模型

它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划（convex quadraticprogramming）的问题，也等价于正则化的合页损失函数的最小化问题。其数学模型如下：

求解参数w和b，即可得到分类模型。

同时，SVM可以引入核函数，将数据从原本的线性空间升到更高为的空间，将线性不可分问题变为线性可分问题。

（2）XGBoost分类模型

XGBoost算法如下：

a、XGBoost在目标函数中显示的加上了正则化项，基学习为CART时，正则化项与树的叶子节点的数量T和叶子节点的值有关。

其中，

为期望输出和预测输出间的损失函数。

b、XGBoost不仅使用到了一阶导数，还使用二阶导数计算损失。第t次的损失为：

对上式做二阶泰勒展开：g为一阶导数，h为2阶导数，得到：

c、CART回归树中寻找最佳分割点的衡量标准是最小化均方差，XGBoost寻找分割点的标准是最大化，

，

与正则化项相关。

XGBoost算法的步骤和梯度提升树（GBDT）基本相同，都是首先初始化为一个常数，GBDT是根据一阶导数，XGBoost是根据一阶导数和二阶导数，迭代生成基学习器，相加更新学习器。

由上可知，本发明实施例可以基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络；调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息；调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息；将所述行为特征信息与所述图像特征信息融合，得到所述社交账号的账号特征信息；调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型。本申请的技术方案通过融合社交账号的行为特征信息与图像特征信息，从而可以自动、高效、准确地识别出异常社交帐号。

实施例二

在本实施例中，将以异常社交账号识别装置集成在计算机设备，比如服务器中，进行详细描述。如图2b所示，该异常社交账号识别方法的具体流程可以如下：

201、服务器基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络。

在一实施例中，可以以账号ID作为图的顶点，以ID间的是否存在关联关系作为顶点之间的边，构建大规模的社交关系网络。构建好的社交关系网络如图5b所示。参考图5b，顶点表示不同的社交账号，如果两个社交账号之间存在好友关系或者消息往来，则存在一条边。

202、服务器调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息。

在本实施例中采用序列提取子模型来获取账号标识序列，序列提取子模型可以通过游走算法生成账号标识序列，游走算法可以从社交关系网络中某个特定的目标节点开始，确定与目标节点相连的所有边，从与目标节点沿着相连的边移动到下一个顶点，不断重复这个过程，直至找到目标节点的所有相邻节点，然后确定与相邻节点相连的所有边，不过重复这个过程，直至找到所有相邻节点的相邻边，不断重复这个过程，最终形成多条贯穿社交关系网络的路径。每条路径经过的所有节点按照经过顺序组成账号标识序列。从目标节点开始，访问目标节点的相邻节点，再由该相邻节点访问该相邻节点的相邻节点，直至该相邻节点没有相邻节点，根据访问顺序，生成所述账号标识序列。

在本实施例中，可以采用skip-gram模型将所述账号标识序列映射为所述社交账号的行为特征信息。skip-gram模型包输入层、隐层和输出层，在输入之前，可以对账号标识序列中的账号标识进行one-hot编码，假设共有n个账号标识，则每一个账号标识可以用一个n维的向量来表示，这个n维向量只有一个位置是1，其余位置都是0，在账号标识序列中，账号标识的one-hot编码之间添加有分隔符，skip-gram模型可以根据相邻账号标识的one-hot编码进行训练，提取账号标识序列中账号标识之间的局部关联关系，并根据局部关联关系更新隐藏层中的权重信息，隐层包括多个神经元，神经元的数量与账号标识的数量，以及生成的账号标识特征向量的元素一致，假设有n个账号标识，则生成的账号标识特征向量为n维向量。

203、服务器调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息。

在本实施例中，可以利用卷积神经网络进行图像特征的提取。参考图5d，图像分类模型为具有5个卷积层的网络结构，最后连接3层全连接神经网络。在本实施例中，对一幅新的图像进行特征提取，提取第一个全连阶层的输出向量，本方法的向量维度为512维。

204、服务器将所述行为特征信息与所述图像特征信息融合，得到所述社交账号的账号特征信息。

在本实施例中，可以将行为特征信息与图像特征信息拼接，得到账号特征信息。

205、服务器调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型。

在本实施例中，可以利用标注后的账号特征信息分别训练SVM、XGBoost和Logistic Regression三种分类模型。再根据三种分类模型的分类结果（即候选类型）进行投票，被判为最多的类型作为当前社交账号的账号类型。

实施例三

为了更好地实施以上方法，本发明实施例还提供一种异常社交账号识别装置，该异常社交账号识别装置具体可以集成在计算机设备，比如终端或服务器等设备中。

例如，如图3a所示，该异常社交账号识别装置，包括行为特征提取单元301、图像特征提取单元302、融合单元303和分类单元304，如下：

（1）行为特征提取单元301，用于根据用户针对社交账号集合的操作信息，获取所述社交账号的行为特征信息。

在一实施例中，如图3b所示，所述行为特征提取单元301具体可以包括生成子单元3011和行为特征提取子单元3012，如下：

A、生成子单元3011，用于基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络。

B、行为特征提取子单元3012，用于调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息。

在一实施例中，所述生成子单元3011具体可以用于：

在一实施例中，行为特征提取子单元3012具体可以用于：

（2）图像特征提取单元302，用于调用训练后的图像分类模型，提取所述社交账号的图像标识的图像特征信息。

在一实施例中，图像特征提取单元302具体可以用于：

在一实施例中，在图像特征提取单元302之前，还包括图像训练单元，用于：

采集多个标注有真实图像类型的图像标识样本；

获取所述预测图像类型对应的预测值；

（3）融合单元303，用于将所述行为特征信息与所述图像特征信息融合，得到所述社交账号的账号特征信息。

（4）分类单元304，用于调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型。

在一实施例中，分类单元304还可以用于：

根据所述多个候选类型确定所述社交账号的类型。

在一实施例中，分类单元304之前，还包括分类训练单元，用于：

采集多个标注有真实账号类型的账号特征信息样本；

获取所述预测账号类型对应的预测值；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

实施例四

本发明实施例还提供一种计算机设备，该计算机设备可以为服务器或终端等设备，其集成了本发明实施例所提供的任一种异常社交账号识别装置。如图4所示，其示出了本发明实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

实施例五

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种异常社交账号识别方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种异常社交账号识别方法中的步骤，因此，可以实现本发明实施例所提供的任一种异常社交账号识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种异常社交账号识别方法、装置、计算机设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种异常社交账号识别方法，其特征在于，包括：

基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络，调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息；所述行为特征信息是用于表示社交账号特征的数据含义上低维稠密的信息，包含社交账号与其他社交账号之间的局部关联特征，以及社交账号自身的特征，所述行为特征信息包括用户行为特征和团伙行为特征，所述预设关系挖掘模型包括用于获取账号标识序列的序列提取子模型和用于基于隐层权重信息提取所述社交账号的行为特征信息的映射子模型；所述序列提取子模型通过随机游走算法生成所述账号标识序列，所述账号标识序列是构成社交关系网络中一条路径的账号标识组成的序列，包括多个按照路径中相邻关系排列的账号标识；所述映射子模型包括skip-gram模型，所述skip-gram模型是一群用来产生账号标识特征向量的相关模型，所述相关模型为浅而双层的神经网络的模型，所述映射子模型用于对所述账号标识序列进行分析；

采集多个标注有真实图像类型的图像标识样本；

获取所述预测图像类型对应的预测值；

根据所述预测图像类型和所述真实图像类型，确定当前图像分类模型为训练后的图像分类模型；

基于所述训练后的图像分类模型中的至少一个卷积层，对所述图像标识进行特征提取，得到初始图像特征，基于所述训练后的图像分类模型中的第一全连接层，对所述初始图像特征信息进行全连接运算，得到所述图像标识的图像特征信息；图像分类模型包括5个卷积层的网络结构以及连接3层全连接神经网络，所述图像标识的图像特征信息为所述社交账号的头像图像的特征信息，所述训练后的图像分类模型为通过多个标注有真实图像类型的图像标识样本进行训练得到；

调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型，所述训练后的分类模型为通过多个标注有真实账号类型的账号特征信息样本进行训练得到，所述训练后的分类模型包括SVM、XGBoost和Logistic Regression三种分类模型，以根据所述三种分类模型的分类结果进行投票，被判为最多的类型作为所述社交账号的账号类型。

2.如权利要求1所述的异常社交账号识别方法，其特征在于，所述调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型，包括：

根据所述多个候选类型确定所述社交账号的类型。

3.如权利要求2所述的异常社交账号识别方法，其特征在于，所述根据所述多个候选类型确定所述社交账号的类型，包括：

4.如权利要求2所述的异常社交账号识别方法，其特征在于，在所述调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型之前，包括：

采集多个标注有真实账号类型的账号特征信息样本；

获取所述预测账号类型对应的预测值；

5.如权利要求4所述的异常社交账号识别方法，其特征在于，所述采用所述损失函数对所述分类模型进行收敛，得到训练后的分类模型，包括：

根据所述当前损失，对所述分类模型中的参数进行更新；

6.如权利要求1所述的异常社交账号识别方法，其特征在于，所述基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络，包括：

7.如权利要求1所述的异常社交账号识别方法，其特征在于，所述调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息，包括：

8.如权利要求1所述的异常社交账号识别方法，其特征在于，所述通过预设图像分类模型预测所述图像标识样本的预测图像类型，包括：

9.一种异常社交账号识别装置，其特征在于，包括：

行为特征提取单元，用于基于社交账号集合的账号标识之间的关联关系，生成所述社交账号集合之间的社交关系网络，调用预设关系挖掘模型，提取所述社交关系网络中社交账号的行为特征信息；所述行为特征信息是用于表示社交账号特征的数据含义上低维稠密的信息，包含社交账号与其他社交账号之间的局部关联特征，以及社交账号自身的特征，所述行为特征信息包括用户行为特征和团伙行为特征，所述预设关系挖掘模型包括用于获取账号标识序列的序列提取子模型和用于基于隐层权重信息提取所述社交账号的行为特征信息的映射子模型；所述序列提取子模型通过随机游走算法生成所述账号标识序列，所述账号标识序列是构成社交关系网络中一条路径的账号标识组成的序列，包括多个按照路径中相邻关系排列的账号标识；所述映射子模型包括skip-gram模型，所述skip-gram模型是一群用来产生账号标识特征向量的相关模型，所述相关模型为浅而双层的神经网络的模型，所述映射子模型用于对所述账号标识序列进行分析；

图像训练单元，用于采集多个标注有真实图像类型的图像标识样本；通过预设图像分类模型预测所述图像标识样本的预测图像类型；获取所述预测图像类型对应的预测值；基于所述预测图像类型的预测值、所述真实图像类型和权重参数构建损失函数；根据所述预测图像类型的预测值与所述损失函数获取交叉熵损失；根据所述交叉熵损失，对所述图像分类模型中的参数进行更新；根据所述预测图像类型和所述真实图像类型，确定当前图像分类模型为训练后的图像分类模型；

图像特征提取单元，用于基于所述训练后的图像分类模型中的至少一个卷积层，对所述图像标识进行特征提取，得到初始图像特征，基于所述训练后的图像分类模型中的第一全连接层，对所述初始图像特征信息进行全连接运算，得到所述图像标识的图像特征信息；图像分类模型包括5个卷积层的网络结构以及连接3层全连接神经网络，所述图像标识的图像特征信息为所述社交账号的头像图像的特征信息，所述训练后的图像分类模型为通过多个标注有真实图像类型的图像标识样本进行训练得到；

分类单元，用于调用训练后的分类模型，对所述账号特征信息进行分类计算，确定所述社交账号的类型，所述训练后的分类模型为通过多个标注有真实账号类型的账号特征信息样本进行训练得到，所述训练后的分类模型包括SVM、XGBoost和Logistic Regression三种分类模型，以根据所述三种分类模型的分类结果进行投票，被判为最多的类型作为所述社交账号的账号类型。

10.一种计算机设备，其特征在于，包括：处理器和存储器；所述存储器存储有多条指令，所述处理器加载所述存储器存储的指令以执行权利要求1-8任一项所述的异常社交账号识别方法中的步骤。

11.一种存储介质，其上存储有计算机程序，其特征在于，当计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至8中任一项所述的异常社交账号识别方法。