CN117252204A

CN117252204A - 一种联邦对比对抗知识蒸馏的机器账号检测方法及装置

Info

Publication number: CN117252204A
Application number: CN202310754214.7A
Authority: CN
Inventors: 郭庆浪; 刘跃; 廖勇; 梁生霖; 林晖; 杨丽洁; 彭浩; 温雅琳; 王婷婷; 马丽红
Original assignee: Electronic Science Research Institute Of China Electronics Technology Group Co ltd
Current assignee: Electronic Science Research Institute Of China Electronics Technology Group Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-12-19

Abstract

本发明提出了一种联邦对比对抗知识蒸馏的机器账号检测方法及装置，方法包括：构建用户特征向量；基于预先配置的对抗网络，确定所述元数据特征对应的用户表示向量；基于知识蒸馏算法训练以得到分类器以及局部生成器特征工程模型；基于联邦学习算法，更新参数以得到全局判别器；对新输入的用户表示向量，检测该用户表示向量对应的用户账号是否为机器人账号。本发明使用对抗学习和对比学习，通过多语言对比，获得较好的判别器；利用知识蒸馏，将知识分布迁移给每个局部客户端，使得各个客户端能学习到一致的特征空间，并进一步通过联邦跨语言机器识别框架，抽取各个参与方的知识并融合，形成一个高性能的全局模型，用于社交网络的机器人账号检测。

Description

一种联邦对比对抗知识蒸馏的机器账号检测方法及装置

技术领域

本发明涉及社交机器人检测技术领域，尤其涉及一种联邦对比对抗知识蒸馏的机器账号检测方法及装置。

背景技术

社交机器人被定义在推特，脸书和ins等社交网络上模仿人类行为的一些账号。它们一般被程序和API控制，并且会对选举进行干扰，传播错误信息，以及攻击个人隐私，对网络社会的安全造成了一定的威胁。所以对社交机器人进行检测是很有必要的。而目前有两类社交机器人检测技术：

1)基于从元数据从提取的用户属性特征和从文本数据中提取的特征。使用递归神经网络，词嵌入的双向LSTM技术分析用户有关的文本数据，来对用户进行表征，从而作为分类器的输入来判别是否为社交机器账号。

2)基于图的技术来搜索相邻的信息。利用现实世界Twittersphere的拓扑结构，并再次基础上建立关系和影响的渗透性异质模型。并且提出关系图Transformer，用注意力机制建立影响强度模型，并学习节点表征。最后，我们采用语义注意力网络来聚合用户和关系中的信息，并进行机器人检测。

然而，虽然上述方法可以一定程度上完成社交机器人检测的任务，但是对于跨平台，跨语言的社交机器账号检测任务，仍然存在不足，例如：

第一，跨平台导致数据存在孤岛性。一方面，数据分布在不同的平台上，另一方面，平台的数据具有一定的隐私性。所以，需要一种无需披露本地私有数据的写作训练范式，即联邦学习来帮助完成该跨平台社交机器人检测任务。

第二，不同平台的数据分布并不是独立同分布的，并且单个平台具有数据稀缺的问题。不同分布的数据导致各个平台所学习到的特征空间，决策边界都不一致，导致全局模型和局部模型之间存在漂移问题，最终减低模型质量。

第三，没有解决跨语言任务的困难。过去对于跨语言任务，要么需要劳动密集型特征工程，要么需要大幅提高计算成本。没有能够针对特定任务的，实现提取跨语言不变特征的有效率的算法。

发明内容

本发明要解决的技术问题是，如何针对并解决背景技术中存在的上述问题；有鉴于此，本发明提供一种联邦对比对抗知识蒸馏的机器账号检测方法及装置。

本发明采用的技术方案是，一种联邦对比对抗知识蒸馏的机器账号检测方法，包括：

步骤S1，提取一用户账号的元数据特征，以构建用户特征向量，所述元数据特征包括：该用户发布的推文以及使用的不同种语言；

步骤S2，基于预先配置的对抗网络，确定所述元数据特征对应的用户表示向量，所述用户表示向量用于表征一用户的数据特征；

步骤S3，基于知识蒸馏算法训练以得到分类器以及局部生成器、利用所述用户表示向量训练以得到特征工程模型；

步骤S4，对于不同客户端，基于联邦学习算法，对不同客户端的全局服务器中的全局分类器、全局特征工程模型以及全局生成器进行更新，以得到全局判别器；

步骤S5，响应于新输入的用户表示向量，所述全局判别器用于检测该用户表示向量对应的用户账号是否为机器人账号。

在一个实施方式中，所述步骤S2包括：

利用经由对抗网络配置的编码器以及映射矩阵，将所述用户特征向量转换到统一的上下文空间；

基于序列处理神经网络，提取当前用户特征向量的隐含表征；

对所有推文进行加权聚合，以得到所述用户表示向量。

在一个实施方式中，利用对抗网络配置编码器以及映射矩阵，包括：

获取至少两种语言的对应文本，其中，两种语言的词汇处于同一内容空间；

利用编码器对两种语言的对应文本进行编码；

基于配置的映射矩阵对编码后的文本进行特征空间转换；

利用对抗式网络，以优化所述编码器以及所述映射矩阵，用于提升特征空间转换后的的映射特征空间与原始特征空间的相似度。

在一个实施方式中，所述步骤S4包括：

获取不同客户端的参数更新，基于联邦学习算法，下发更新的所述全局分类器、所述全局特征工程模型以及所述全局生成器，以使得所有客户端之间的总体预测误差最小化；

利用所述全局判别器和所述全局生成器进行全局知识抽取，以完成对所述全局全局判别器的配置。

本发明的另一方面还提供了一种联邦对比对抗知识蒸馏的机器账号检测装置，包括：

特征提取单元，被配置为提取一用户账号的元数据特征，以构建用户特征向量，所述元数据特征包括：该用户发布的推文以及使用的不同种语言；

对抗网络单元，被配置为基于预先配置的对抗网络，确定所述元数据特征对应的用户表示向量，所述用户表示向量用于表征一用户的数据特征；

知识蒸馏单元，被配置为基于知识蒸馏算法训练以得到分类器以及局部生成器、利用所述用户表示向量训练以得到特征工程模型；

全局更新单元，被配置为对于不同客户端，基于联邦学习算法，对不同客户端的全局服务器中的全局分类器、全局特征工程模型以及全局生成器进行更新，以得到全局判别器；

账号检测单元，响应于新输入的用户表示向量，所述全局判别器用于检测该用户表示向量对应的用户账号是否为机器人账号。

在一个实施方式中，所述对抗网络单元被进一步配置为：

对所有推文进行加权聚合，以得到所述用户表示向量。

利用编码器对两种语言的对应文本进行编码；

基于配置的映射矩阵对编码后的文本进行特征空间转换；

在一个实施方式中，所述全局更新单元被进一步配置为：

本发明的另一方面还提供了一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上任一项所述的联邦对比对抗知识蒸馏的机器账号检测方法的步骤。

本发明的另一方面还提供了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的联邦对比对抗知识蒸馏的机器账号检测方法的步骤。

采用上述技术方案，本发明至少具备以下技术效果：

1)本发明利用Transformer技术和生成对抗网络技术，在数据较少的情况下，将多种语言映射到统一语义空间，特征提取为每个用户提取其用于判别的特征向量。

2)本发明使用对抗学习和对比学习，在小样本的条件下，通过多语言对比，获得较好的判别器。同时利用知识蒸馏，将知识分布迁移给每个局部客户端，使得各个客户端在数据分布不一致的情况下也能学习到一致的特征空间，同时解决单个客户端数据稀缺的问题。

3)联邦跨语言机器识别框架：利用联邦学习，解决单个平台的数据孤岛问题，使得在保护各个平台数据隐私的情况下，抽取各个参与方的知识并融合，形成一个高性能的全局模型，用于社交网络的机器人账号检测。

附图说明

图1为根据本发明实施例的联邦对比对抗知识蒸馏的机器账号检测方法流程示意图；

图2为根据本发明实施例的跨语言的词表示映射及特征抽取步骤流程示意图；

图3为根据本发明实施例的基于对抗的跨语言的词映射网络示意图；

图4为根据本发明实施例的简体中文、繁体中文、英文向量空间在对抗优化迭代中的对齐过程示意图；

图5为根据本发明实施例的基于知识蒸馏方法的社交网络机器账号自动识别技术整体架构示意图；

图6为根据本发明实施例的多社交平台的账号检测联邦学习架构示意图；

图7为根据本发明实施例的联邦对比对抗知识蒸馏的机器账号检测装置组成结构图；

图8为根据本发明实施例的电子设备结构示意图。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

在附图中，为了便于说明，已稍微夸大了物体的厚度、尺寸和形状。附图仅为示例而并非严格按比例绘制。

还应理解的是，用语“包括”、“包括有”、“具有”、“包含”和/或“包含有”，当在本说明书中使用时表示存在所陈述的特征、整体、步骤、操作、元件和/或部件，但不排除存在或附加有一个或多个其它特征、整体、步骤、操作、元件、部件和/或它们的组合。此外，当诸如“...中的至少一个”的表述出现在所列特征的列表之后时，修饰整个所列特征，而不是修饰列表中的单独元件。此外，当描述本申请的实施方式时，使用“可以”表示“本申请的一个或多个实施方式”。并且，用语“示例性的”旨在指代示例或举例说明。

如在本文中使用的，用语“基本上”、“大约”以及类似的用语用作表近似的用语，而不用作表程度的用语，并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。

除非另外限定，否则本文中使用的所有用语(包括技术用语和科学用语)均具有与本申请所属领域普通技术人员的通常理解相同的含义。还应理解的是，用语(例如在常用词典中定义的用语)应被解释为具有与它们在相关技术的上下文中的含义一致的含义，并且将不被以理想化或过度正式意义解释，除非本文中明确如此限定。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明第一实施例，一种联邦对比对抗知识蒸馏的机器账号检测方法，如图1所示，包括以下步骤：

可参考图1，下面将分步对本发明所提供的方法进行详细说明。

步骤S1，提取一用户账号的元数据特征，以构建用户特征向量，所述元数据特征包括：该用户发布的推文以及使用的不同种语言。

本实施例中，所使用的特征抽取模型的主要任务是从用户级特征中抽取出元数据的特征，如：用户属性、推文内容。抽取出元数据特征后，先将它们拼接成用户特征向量u_p，对于一个发布了M条推特的用户，令其用户特征向量为：

其中，表示第i个单词出现在第j篇推特中，Q₁～Q_M可以是用不同语言发表的推特。

步骤S2，基于预先配置的对抗网络，确定所述元数据特征对应的用户表示向量，所述用户表示向量用于表征一用户的数据特征

本实施例中，是利用经过对抗优化训练得到的跨语言编码器和映射矩阵Mapper将用户特征向量u_p转换到统一的上下文空间得到/>

具体地，对跨语言编码器和映射矩阵Mapper的对抗优化训练过程可例如包括：

参考图2，对于两种不同的语言X和语言Y，给出他们的对应文本X＝{x₁,x₂,…,x_m}和Y＝{y₁,y₂,…,y_n}，首先采用编码器分别对这两种语言编码，获得这两种语言的特征空间：

然后设计一个映射矩阵Mapper来实现两种语言特征空间的转换：

z'_x＝Mapper(y)

z'_y＝Mapper(x)

获得了语言的原始特征空间和映射特征空间后，我们引入对抗式生成网络的方法，学习源语言空间到目标语言空间的线性映射Mapper。

针对线性映射Mapper的学习具体分为两步：

首先使用生成网络生成源语言嵌入到目标语言嵌入的映射，生成网络的输入为来自源语言的词向量与随机噪音；

再使用辨别网络区分经过映射后的向量，判别网络的输入为由生成网络产生的向量与来自目标语言的向量。模型架构如下图3。

其中，编解码器与判别网络两者进行对抗式训练，使Mapper生成的映射特征空间与原始特征空间有足够的相似度。具体而言，将编码器和映射矩阵Mapper作为生成器，其优化目标在于使判别器无法区分原始特征空间和映射特征空间，生成器损失如下：

判别器的损失如下：

其中和/>分别为包含上下文信息的文本表示嵌入，计算方法为对文本所有词嵌入求平均值。

本实施例也可应用于从双语言扩展到多语言，使用互联网收集的和公开无标记的简体中文，繁体中文和英文语料库，在具体训练过程中，我们将简体中文空间作为目标空间进行两两对齐，构建繁体中文和英文到简体中文的映射。在每轮迭代中，语义空间的对齐与词向量微调可参考示意图4。

进一步地，通过通用的序列处理神经网络提取用户特征向量u_p的隐含表征，如TextCNN一维卷积模块或基于LSTM的循环神经网络：

为了量化每条推文对用户整体特征的影响，通过注意力模块对所有推文进行加权聚合计算，得到用户级最终的表示向量：

本实施例的优势在于一方面使用无监督的对抗训练方法将不同语言编码空间进行对齐，从而推理出多语言对照词典，更适合变化较快的互联网社交环境，并使用该词典对多语言语料进行初始化；另一方面我们使用了基于Transformer的编码器模型，能有效捕获词级别特征和文本级别特征，并最大程度减少抽取特征中的噪音。同时有效利用下游监督，更好为后续社交网络用户账号的建模提供有效文本语义信息。

步骤S3，基于知识蒸馏算法训练以得到分类器以及局部生成器、利用所述用户表示向量训练以得到特征工程模型。

具体地，小样本问题广泛存在于异常检测领域。在社交机器人账户检测中，机器人账户数据量远远小于正常账户数据，且不同社交平台的语言数据分布不均，也存在语言的小样本问题。面对这个问题，我们在跨语言映射的基础上，提出基于对比对抗学习的知识蒸馏。

在跨平台的训练场景下，我们采用多客户端端的训练方式。为了有效地将数据分布知识传递给每个客户机，客户机必须学习一致的特征空间和决策边界，以便不同客户机的模型将样本准确地分类到同一类中。本质上，我们为知识蒸馏和提取设计了一种基于生成对抗算法的反馈机制，特别是将每个客户端的本地训练视为多阶段学习过程。在多客户端训练完成后，我们将使用联邦学习方法进行模型聚合。

需要说明的是，知识蒸馏(KD)是一种在繁琐的模型中提炼知识并将其压缩为单个模型的方法，以便可以将其部署到实际应用中。知识蒸馏是指将复杂笨拙的模型(teacher)的学习行为转移到简单较小的模型(student)，其中，教师产生的输出被用作训练学生的“软目标”。一般来说，teacher具有强大的能力和表现，而student则更为紧凑。通过知识蒸馏，希望student能尽可能的逼近亦或是超过teacher，从而用更少的复杂度来获得类似的预测效果。

参考图5，本实施例中，客户端k包含用于知识蒸馏的全局生成器G、用于对抗性学习的两个判别器D₁和D₂以及用于数据增强的局部生成器G_k。D₁在所有客户端之间共享，具有相同架构和初始参数，但基于本地数据进行训练。D₂专门为每个客户端指定，以满足其个别需求。每个客户端使用5.1节中的特征工程模型抽取本地局部用户的表示向量

S301：训练判别器D₁、D₂作为分类器

对于每个样本全局生成器G使用标准高斯噪声z～N(0，1)和标记/>以生成伪数据/> 被馈送到判别器D₁中以获得概率分布/>通过让判别器D₁拟合真实数据/>的概率分布p更加靠近伪数据/>的概率分布/>来完成知识蒸馏，具体操作为最小化以下目标函数：

其中，σ是softmax函数，D_KL是KL散度。判别器D₂采用同样的方式训练。然后引入对抗性损失来衡量判别器D₁和D₂概率分布之间的差异：

通过最小化上式来使判别器D₁和D₂产生相同的决策边界，最大化对齐二者的重叠决策空间，这意味着相同的数据点可以落入两个判别器的判决边界的同一侧。特征提取器的特征空间被压缩以生成更精确的特征。同理，用同样的过程训练全局生成器G产生的伪数据使得判别器D₁和D₂能够有能力区分不平衡的、稀疏的噪音数据。

S302：训练特征工程模型

本阶段利用对比学习来指导特征工程模型的优化方向。优化的期望在于使新一轮迭代得到的客户端K的特征工程模型产生的用户表示向量能够尽可能地接近全局特征工程模型提取的用户表示向量/>同时，希望新的/>能远离上一轮迭代产生的/>因此设计了如下的目标函数：

其中，sim是相似性度量函数，τ表示温度参数。该目标函数不仅可以减少本地模型的漂移，还可以作为对抗性学习的桥梁，使不同客户的模型具有一致的特征空间。

S303：训练局部生成器G_k

与训练判别器D₁和D₂时最小化不同，在训练局部生成器G_k时，需要最大化/>以确保G_k可以生成接近判别器D₁和D₂的判决边界的伪数据。这使得两个判别器的判决边界更靠近重合区域，从而进一步压缩特征工程模型的特征空间。为了提高生成数据的多样性，并防止由于G_k生成相同数据而导致模型崩溃，需要添加了多样性损失：

其中，同理。

步骤S4，对于不同客户端，基于联邦学习算法，对不同客户端的全局服务器中的全局分类器、全局特征工程模型以及全局生成器进行更新，以得到全局判别器。

本实施例中，是通过获取不同客户端的参数更新，基于联邦学习算法，下发更新的所述全局分类器、所述全局特征工程模型以及所述全局生成器，以使得所有客户端之间的总体预测误差最小化；再利用所述全局判别器和所述全局生成器进行全局知识抽取，以完成对所述全局全局判别器的配置。

具体地，面对当前复杂多变的社交网络机器人用户，以单一平台提供的数据训练检测模型是不够的，需要联合以多种语言用户为主体的多个互联网社交平台，包括Twitter、Facebook、微博等，使数据样本更加广泛，数据分析更加全面，提高异常用户识别准确率。而多方参与的模型训练往往会面临用户数据隐私保护的问题，且不同数据来源提供的用户文本数据所使用的语言分布也不同。

针对上述问题，我们采用分布式联邦学习的策略。联邦学习这一新兴概念自被谷歌提出以来就一直受到专家学者的广泛关注，它的本质是多个数据持有者协同训练机器学习模型，而无需共享其隐私敏感数据，从而满足“模型找数据”的数据安全的本质要求，因具有保护隐私数据的潜力被广泛应用于多个领域。

参考图6，本平台的联邦学习框架如下：

假设K个社交网络平台参与到每一轮的联邦学习中，第k个参与者计算出了t轮模型的本地平均梯度

g_k＝ΔF_k(w_t)

其中w_t是第t轮从服务端的下载的全局参数，每个客户端k更新本地的参数为：

之后每个学习参与者将模型权重更新等信息发送给中央服务器，最后，中央服务端口在不了解参与方原始数据的情况下对更新梯度进行聚合，其中n_k是第k个参与者的数据大小：

具体到联邦的对比对抗知识蒸馏框架中，全局的优化目标是使所有客户端之间的总体预测误差最小化。在每一轮通信中，一旦本地客户端k完成局部训练，客户端k将的本地参数上传到服务器，然后等待服务器更新的全局生成器G、判别器D和ε，再开始新一轮本地训练，其中ε为特征工程模型的参数。

一旦服务器接收到参与客户端的最新参数，它将通过加权执行模型聚合平均并获得更新的全局特征工程模型ε和判别器D：

其中M是参与客户端的数量。

由于多客户端训练数据的局部分布之间漂移较大，为了确保全局数据分布更好的适应局部分布，我们利用全局判别器D和全局生成器G进行全局知识抽取。为此，其中G的损失定义如下，其中是由G通过标签y和正态噪音z生成的经验样本，/>是每个客户端的判别器，/>是客户端k中存储有标签y的样本与D中相同标签样本的比率：

也就是说，在全局判别器D完成训练后，输入用户表示向量即可通过判别器D的输出确定社交账号是否为机器账号。

相较于现有技术，本实施例至少具备以下优点：

1)跨语言的词表示映射及特征抽取：本发明利用Transformer技术和生成对抗网络技术，在数据较少的情况下，将多种语言映射到统一语义空间。特征提取为每个用户提取其用于判别的特征向量，使用到了跨语言词表示映射技术。

2)多语言小样本对比对抗学习与知识蒸馏：使用对抗学习和对比学习，在小样本的条件下，通过多语言对比，获得较好的判别器。同时利用知识蒸馏，将知识分布迁移给每个局部客户端，使得各个客户端在数据分布不一致的情况下也能学习到一致的特征空间，同时解决单个客户端数据稀缺的问题。

本发明第二实施例与第一实施例对应，参考图7，本实施例介绍一种联邦对比对抗知识蒸馏的机器账号检测装置，包括以下组成部分：

本实施例中，对抗网络单元被进一步配置为：

对所有推文进行加权聚合，以得到所述用户表示向量。

本实施例中，利用对抗网络配置编码器以及映射矩阵，包括：

利用编码器对两种语言的对应文本进行编码；

基于配置的映射矩阵对编码后的文本进行特征空间转换；

本实施例中，全局更新单元被进一步配置为：

本发明第三实施例，一种电子设备，如图8所示，可以作为实体装置来理解，包括处理器以及存储有处理器可执行指令的存储器，当指令被处理器执行时，执行如下操作：

本发明第四实施例，本实施例提供的联邦对比对抗知识蒸馏的机器账号检测方法的流程与第一、二或三实施例相同，区别在于，在工程实现上，本实施例可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的方法可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台设备执行本发明实施例的方法。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种联邦对比对抗知识蒸馏的机器账号检测方法，其特征在于，包括：

2.根据权利要求1所述的联邦对比对抗知识蒸馏的机器账号检测方法，其特征在于，所述步骤S2包括：

对所有推文进行加权聚合，以得到所述用户表示向量。

3.根据权利要求2所述的联邦对比对抗知识蒸馏的机器账号检测方法，其特征在于，利用对抗网络配置编码器以及映射矩阵，包括：

利用编码器对两种语言的对应文本进行编码；

基于配置的映射矩阵对编码后的文本进行特征空间转换；

4.根据权利要求3所述的联邦对比对抗知识蒸馏的机器账号检测方法，其特征在于，所述步骤S4包括：

5.一种联邦对比对抗知识蒸馏的机器账号检测装置，其特征在于，包括：

6.根据权利要求5所述的联邦对比对抗知识蒸馏的机器账号检测装置，其特征在于，所述对抗网络单元被进一步配置为：

对所有推文进行加权聚合，以得到所述用户表示向量。

7.根据权利要求6所述的联邦对比对抗知识蒸馏的机器账号检测装置，其特征在于，利用对抗网络配置编码器以及映射矩阵，包括：

利用编码器对两种语言的对应文本进行编码；

基于配置的映射矩阵对编码后的文本进行特征空间转换；

8.根据权利要求7所述的联邦对比对抗知识蒸馏的机器账号检测装置，其特征在于，所述全局更新单元被进一步配置为：

9.一种电子设备，其特征在于，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的联邦对比对抗知识蒸馏的机器账号检测方法的步骤。

10.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的联邦对比对抗知识蒸馏的机器账号检测方法的步骤。