CN113256438B

CN113256438B - 网络用户的角色识别方法及系统

Info

Publication number: CN113256438B
Application number: CN202110583491.7A
Authority: CN
Inventors: 罗雪姣; 韩晓晖; 刘广起; 王英龙; 杨美红; 徐正源; 王志文
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-12-23
Anticipated expiration: 2041-05-27
Also published as: CN113256438A

Abstract

本发明属于智能识别领域，提供了一种网络用户的角色识别方法及系统。其中，该方法包括获取用户行为数据，构建当前用户所属的用户关系图；从用户行为数据中提取当前用户的行为特征；将当前用户的行为特征进行向量表示，得到当前用户行为特征向量表示；基于用户关系图和用户行为特征向量表示，构建当前用户的特征向量表示；将当前用户的特征向量表示输入分类器中，得到当前用户在每个类别上的概率分布，预测出当前用户的角色类别。其以端到端的方式进行，无需人工设计特征，因而具有更好的建模效率和更广的适用性。

Description

网络用户的角色识别方法及系统

技术领域

本发明属于智能识别领域，尤其涉及一种网络用户的角色识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

角色识别技术对于分析和理解复杂、多样化网络生态环境中的用户来说具有重要意义，可广泛应用于诸多场景，例如：在社交网络生态中，角色分析技术可用来发现社群中的专家、意见领袖等角色，有助于用户获得最权威信息及有关部门把握舆情导向；在企业内部网络生态中，角色分析技术可用于辨别正常用户和恶意攻击者，有助于企业安全管理人员及时发现内部威胁。

目前，已有的角色分析技术主要有以下四类：一类是基于内容的技术，根据用户产生的文本、图像等形式的内容语义通过机器学习技术实现对用户角色的预测；另一类是基于网络结构的技术，通过分析用户与同一网络生态环境中其他用户的关系结构来对用户角色的预测；第三类技术融合上述两类来实现对网络用户角色的预测；第四类技术通过数学或统计的方法来分析用户的行为规律来识别用户角色。

发明人发现，上述技术存在的局限性在于：(1)多以静态视角来识别用户角色，未考虑用户特性的动态变化对其角色的影响；(2)在角色判别时仅分析目标用户自身的特性，忽略了网络生态环境中其他用户的特性对目标用户角色的影响；(3)角色判别模型多依赖于人工设计的特征，适应性较弱。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种网络用户的角色识别方法及系统，其构建了目标用户的表示向量，该向量融合了目标用户的动态行为特性和关系结构特征，并聚合了目标用户的关系网络中高阶邻居用户的信息，在此基础上构建角色分类模型，整个角色识别过程以端到端的方式进行，无需人工设计特征。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种网络用户的角色识别方法。

一种网络用户的角色识别方法，其包括：

获取用户行为数据，构建当前用户所属的用户关系图；

从用户行为数据中提取当前用户的行为特征；

将当前用户的行为特征进行向量表示，得到当前用户行为特征向量表示；

基于用户关系图和用户行为特征向量表示，构建当前用户的特征向量表示；

将当前用户的特征向量表示输入分类器中，得到当前用户在每个类别上的概率分布，预测出当前用户的角色类别。

本发明的第二个方面提供一种网络用户的角色识别系统。

一种网络用户的角色识别系统，其包括：

用户关系图构建模块，其用于获取用户行为数据，构建当前用户所属的用户关系图；

行为特征提取模块，其用于从用户行为数据中提取当前用户的行为特征；

行为特征向量表示模块，其用于将当前用户的行为特征进行向量表示，得到当前用户行为特征向量表示；

特征向量表示模块，其用于基于用户关系图和用户行为特征向量表示，构建当前用户的特征向量表示；

用户角色预测模块，其用于将当前用户的特征向量表示输入分类器中，得到当前用户在每个类别上的概率分布，预测出当前用户的角色类别。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的网络用户的角色识别方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的网络用户的角色识别方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明捕捉了目标用户行为的动态变化对其角色的影响，融合了目标用户的动态行为特性、关系结构特征，并聚合了目标用户的关系网络中高阶邻居用户的信息构建了目标用户的向量表示，相较于已有技术对目标用户的表示更为合理；

本发明提供的网络用户角色识别方法以端到端的方式进行，无需人工设计特征，因而具有更好的建模效率和更广的适用性，提高了网络用户角色识别的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的网络用户的角色识别方法流程示意图；

图2是本发明实施例的用户行为特征表示流程示意图；

图3是本发明实施例的获取用户特征向量表示流程示意图；

图4是本发明实施例的用户角色预测流程示意图；

图5是本发明实施例的网络用户的角色识别系统结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明中的用户行为数据是通过合法途径获取的，而且是经过用户同意使用的。

实施例一

如图1所示，本实施例提供了一种网络用户的角色识别方法，其具体包括如下步骤：

步骤S101：获取用户行为数据，构建当前用户所属的用户关系图。

在具体实施中，用户关系图G＝(V，E)，其中V＝{v₁，v₂，...，v_N}表示点集，每一个节点表示一个用户；E表示用户之间的边集，若用户之间存在某种关系，则用一条边连接，如：在线社交网络中，可根据用户之间是否存在关注与被关注关系或根据两个用户是否出现在同一位置等行为共现关系建立一条边；再如信息网络中，用户u₁经常以同一IP在比较集中的时间段内登录不同账号或访问某一服务器，若用户u₂也有类似行为，则用户u₁与用户u₂之间可建立一条边。

需要说明的是，用户关系图G为已知的，其由数据集D构建，D中每一个样本u_i＝[b_i，r_i，y_i]表示一个用户。其中，b_i表示u_i的行为信息；r_i表示u_i与其他用户之间的关系信息；y_i为u_i角色的真值标记。

步骤S102：从用户行为数据中提取当前用户的行为特征。

在本实施例中，利用卷积神经网络(Convolutional Neural Network，CNN)从用户行为数据中提取当前用户的行为特征。

具体地，使用卷积神经网络(Convolutional Neural Network，CNN)提取每个时间窗口内融合用户u_i的k种行为(如在线社交网络中，u_i在某一时间段内发起话题、转发博文、评论等行为)信息的表示向量，T个时间窗口的用户行为可表示为T个向量构成的序列，再使用长短期记忆网络(Long Short-Term Memory Network，LSTM)将T个向量序列作为输入最终用户u_i的行为向量表示a_i。

如图2所示，利用卷积神经网络(Convolutional Neural Network，CNN)从用户行为数据中提取当前用户的行为特征的过程为：

步骤S1021：将数据集D中每个用户的k种行为按照顺序表示成序列；

步骤S1022：以t为粒度将时间序列分割为时间片，并统计用户ui每个时间片内各种行为的频数，构建用户u_i的“行为-时间”矩阵A_i：，其中

k为行为种类的数量，n为时间片的个数。

步骤S1023：使用大小为k*m、步长为s的时间窗口沿A_i的时间维度滑动，得到T个时间窗口；即一个时间窗口覆盖的时间片为m个，并每次滑动s个时间片，最终得到

个时间窗口，其中p为补全运算。

步骤S1024：使用卷积神经网络以每个时间窗口内截取的用户u_i“时间-行为”矩阵

作为输入进行卷积操作，得到该时间窗口内的向量表示b_i；，具体的：假设卷积神经网络的输入为

卷积核为

则有卷积操作

可简化为b_i＝w*A′，则最终输出的k维向量表示为b_i＝{b₁，b₂，...，bk}。其中O代表卷积核的宽度，P代表卷积核的高度，d、f代表在矩阵长d、宽f处的窗口。

步骤S1025：对于T个时间窗口卷积得到的T个向量序列，并作为当前用户的行为特征。

步骤S103：将当前用户的行为特征进行向量表示，得到当前用户行为特征向量表示。

具体地，将当前用户的行为特征输入至长短期记忆网络(Long Short-TermMemory Network，LSTM)，得到当前用户行为特征向量表示。

例如：使用长短期记忆网络将T个向量序列作为输入最终获得用户u_i的行为特征向量表示a_i。

需要说明的是，此处所用的LSTM模型可用其他循环神经网络替代，如门控循环单元网络(Gated Recurrent Unit，GRU)、双向循环神经网络(Bidirectional RecurrentNeural Network，Bi-RNN)等。

步骤S104：基于用户关系图和用户行为特征向量表示，构建当前用户的特征向量表示。

具体地，基于用户关系图和用户行为特征向量表示，使用图神经网络(GraphNeural Network，GNN)来构建当前用户的特征向量表示。

需要说明的是，所述使用图神经网络构建每个用户的特征向量表示，此处所用的图神经网络框架GraphSAGE可用其他具有相似功能的图神经网络所替代，如图卷积神经网络(Graph Convolutional Neural Network，GCN)、图注意力网络(Graph AttentionNetwork，GAT)、自适应图卷积神经网络(Adaptive graph convolutional neuralnetworks，AGCN)等。

如图3所示，基于用户关系图G和用户行为特征向量表示使用图神经网络构建用户u_i的特征向量表示h_i。具体步骤如下：

步骤S1041：基于用户u_i的行为特征向量表示a_i，初始化用户u_i的嵌入向量e_i。

步骤S1042：基于图G对目标节点u_i的邻居节点采样，得到采样点的采样数组和节点数目数组。

具体地，令K表示深度，即最大访问到的目标节点邻居的跳数；令S表示需要采样的邻居个数。具体的：假设K＝2，首先采用负采样的方法采样当前节点第一跳的邻居节点，直到采样的节点数目等于S为止，然后以相同方法在第一跳邻居基础上再遍历第二跳节点，每一层采样的节点组成一个列表，各层采样节点组成的列表进行拼接。最终返回采样点的采样数组以及节点数目数组。

步骤S1043：使用最大池化聚合函数H聚合邻居以及目标节点自身信息，得到用户u_i的特征向量h_i。

假设K＝2，使用最大池化聚合函数

对第二层的邻居节点进行聚合，得到这些节点的聚合输出。其中

表示第K层节点q的向量表示；N(i)表示节点i邻居的随机采样函数；σ表示非线性激活函数。然后将这些聚合的邻居特征与第一层邻居节点及目标节点特征进行拼接后，输入单层的多层感知机(MultilayerPerceptron，MLP)中得到新的特征向量，最后对新的特征向量归一化得到目标节点特征向量h_i。

步骤S105：将当前用户的特征向量表示输入分类器中，得到当前用户在每个类别上的概率分布，预测出当前用户的角色类别。

在本实施例中，将每个用户的特征向量表示输入全连接层和softmax，全连接层和softmax的作用是基于使用图神经网络得到的用户特征高阶表示对用户角色进一步分类。

将每个用户的特征向量表示输入全连接层和softmax，从而得到每个用户在每个类别上的概率分布，该概率分布的每一个值介于0和1之间，并且所有元素之和为1，即计算

其中z为全连接层的输出向量。模型预测的每个节点的概率与真实类别的one hot编码输入交叉熵损失函数进行计算，损失函数的形式为：

其中，C表示类别数量；y_ic表示真实标签变量，若该类别与目标用户的类别相同则y_ic＝1，否则为0；p_ic表示目标用户i属于类别c的预测概率。训练过程使用梯度下降法最小化该损失函数对整个模型的参数进行优化，记训练好的用户角色预测模型为M。

需要说明的是，在其他实施例中，分类器也可采用其他分类器替代，如支持向量机(Support Vector Machine，SVM)等。

如图4所示，在实际应用中，对于未知角色的用户u_t，获取u_t的用户关系图G’并提取其行为特征向量a_t，按照图3所示的方法得到u_t的嵌入向量表示c_t；

对于用户u_t的嵌入向量表示c_t，使用图3所示的方法得到u_t的特征表示h_t，并使用训练好的用户角色预测模型M对用户u_t的类别进行预测，M的输出为用户u_t的角色。

实施例二

如图5所示，本实施例提供了一种网络用户的角色识别系统，其具体包括如下模块：

用户关系图构建模块21，其用于获取用户行为数据，构建当前用户所属的用户关系图；

行为特征提取模块22，其用于从用户行为数据中提取当前用户的行为特征；

行为特征向量表示模块23，其用于将当前用户的行为特征进行向量表示，得到当前用户行为特征向量表示；

特征向量表示模块24，其用于基于用户关系图和用户行为特征向量表示，构建当前用户的特征向量表示；

用户角色预测模块25，其用于将当前用户的特征向量表示输入分类器中，得到当前用户在每个类别上的概率分布，预测出当前用户的角色类别。

此处需要说明的是，本实施例中的各个模块，与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的网络用户的角色识别方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的网络用户的角色识别方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络用户的角色识别方法，其特征在于，包括：

获取用户行为数据，构建当前用户所属的用户关系图；

从用户行为数据中提取当前用户的行为特征；

将当前用户的特征向量表示输入分类器中，得到当前用户在每个类别上的概率分布，预测出当前用户的角色类别；

使用卷积神经网络和循环神经网络提取设定大小的时间窗口内融合当前用户的行为信息的表示向量的过程为：

以设定时间为粒度将时间序列分割为时间片，统计当前用户的每个时间片内各种行为的频数，构建当前用户的行为-时间矩阵；

使用设定长度、宽度及步长的时间窗口沿行为-时间矩阵的时间维度滑动，得到若干个时间窗口；

对每个时间窗口截取得到设定长度及宽度的矩阵，再使用循环神经网络进行卷积，得到该时间窗口内的向量表示；

使用图神经网络来构建当前用户的特征向量表示，其过程为：

基于当前用户的行为特征向量表示，初始化当前用户的嵌入向量；

基于当前用户所属的用户关系图对目标节点的邻居节点采样，得到采样点的采样数组和节点数目数组；

聚合邻居以及目标节点自身信息，得到用当前用户的特征向量；

捕捉目标用户行为的动态变化对其角色的影响，融合目标用户的动态行为特性、关系结构特征，并聚合目标用户的关系网络中高阶邻居用户的信息构建目标用户的向量表示。

2.如权利要求1所述的网络用户的角色识别方法，其特征在于，利用卷积神经网络从用户关系图中提取当前用户的行为特征，其过程为：使用卷积神经网络提取设定大小的时间窗口内融合当前用户的行为信息的表示向量；

将预划分的所有时间窗口内的向量表示卷积得到对应数量的向量序列，并作为当前用户的行为特征。

3.如权利要求1所述的网络用户的角色识别方法，其特征在于，使用最大池化聚合函数聚合邻居以及目标节点自身信息。

4.如权利要求1所述的网络用户的角色识别方法，其特征在于，将当前用户的行为特征进行向量表示，得到当前用户行为特征向量表示。

5.如权利要求1所述的网络用户的角色识别方法，其特征在于，在分类器的训练过程中，损失函数为分类器预测的每个节点的概率与真实类别的one hot编码输入交叉熵损失函数。

6.一种网络用户的角色识别系统，其特征在于，包括：

用户角色预测模块，其用于将当前用户的特征向量表示输入分类器中，得到当前用户在每个类别上的概率分布，预测出当前用户的角色类别；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的网络用户的角色识别方法中的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的网络用户的角色识别方法中的步骤。