CN115759110A

CN115759110A - 基于多特征融合的恶意信息检测方法、装置及系统

Info

Publication number: CN115759110A
Application number: CN202211359512.8A
Authority: CN
Inventors: 李暾; 牛瑞草; 帅垚; 陈莉; 李茜; 庞育才; 肖云鹏; 王国胤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-03-07

Abstract

本发明属于网络信息处理领域，具体涉及一种基于多特征融合的恶意信息检测方法、装置及系统；所述方法包括获取社交网络平台的传播信息，得到源文本、评论文本的句子级语义向量和源文本的字符级语义向量；分别得到源文本特征和评论文本特征；进行处理后得到源文本特征检测结果和评论文本特征检测结果；根据用户关系属性，构建出用户节点与其邻居节点之间的信息传播树，按照信息传播树构建出传播子图，对传播子图向量化，得到传播特征；进行处理后得到传播特征检测结果；采用基于时变函数的融合方法对源文本特征检测结果、评论文本特征检测结果与传播特征检测结果进行融合，检测出恶意信息。本发明能够更精确的尽早完成恶意信息的检测。

Description

基于多特征融合的恶意信息检测方法、装置及系统

技术领域

本发明属于网络信息处理领域，涉及到网络信息的传播特征和文本特征，用于社交网络中关于恶意信息的检测分析，具体涉及一种基于多特征融合的恶意信息检测方法、装置及系统。

背景技术

恶意信息是指违背事实且具有一定破坏性的信息。该类信息会对大众造成误导，影响大众的正常行为。随着互联网的发展，人人都可以成为信息的发布者和扩散者，因此，网络信息变的良莠不齐。同时，恶意信息的快速传播很容易引起大众的恐慌情绪。为实现对恶意信息的检测，传统的解决方法大多要通过群众举报，官方核实等程序，耗时较长且不利于及时制止其传播。由此可见，如何尽早对恶意信息进行识别并阻断其传播成为了现代化工业信息时代不可忽视的难题。

近年来，国内外学者对恶意信息的多个角度进行了深入的研究，极大的丰富了恶意信息的检测理论。研究主要从恶意信息的检测数据和检测方法两个方面进行展开。从恶意信息的检测数据角度，多数研究者通过恶意信息的相关文本特征进行检测,而部分研究者尝试分析恶意信息扩散的拓扑结构来获得更好的检测结果。从恶意信息的检测方法角度，起初，研究者们对社交网络中的数据进行特征构建、特征提取和特征选择，基于机器学习来进行恶意信息检测。之后，为了克服手动提取特征的局限性，研究者基于深度学习来获得恶意信息文本内在特征和恶意信息的扩散规律。

现有的检测方法在文本分析阶段缺乏对输入文本的高效清洗，可能造成训练数据量大但数据质量低的问题，而在检测时又忽视了词语在不同的语境下有不同含义的情况。在传播过程的分析中，现有方法侧重于传播树本身显示结构的特征，而节点的隐式特征(例如节点的影响力)可以更有效的提高检测的准确性。最后，对于单一特征检测结果的融合，现有的融合技术忽视了信息的特征受到时间因素的影响，单一的融合方式不能根据信息的传播周期灵活的对特征权重进行调整。因此，虽然国内外学者对恶意信息的检测进行了大量的研究并取得了可观的成果，但仍然存在一些挑战：

1、恶意信息文本中词语的多义性。恶意信息文本中的词语在不同的语境下含义不同，在考虑语义的前提下，如何对文本数据进行过滤，提取文本之间的关系特征成为一大挑战。

2、恶意信息传播的周期性。恶意信息的传播具有滋生期、蔓延期和消弭期。因此如何确定检测文本所处的传播时段，提取不同时段的内在特征和过度特征成为了恶意信息传播过程分析的难点。

3、恶意信息检测的及时性和准确性。恶意信息的检测依赖信息的文本和传播特征，但随着恶意信息的扩散，不同特征的检测可信度受时间的影响。如何分析不同特征在不同阶段检测结果的可信度成为特征融合的一大挑战。

发明内容

针对以上挑战，考虑到恶意信息的文本特征可以满足检测的及时性要求，传播过程又可以进一步提高检测的准确性，因此结合信息的文本特征和传播特征对恶意信息进行检测具有极佳的表现。在本方法中，不仅对信息的文本和传播结构进行综合分析，同时又考虑到时间因素对特征的影响，本发明提出了一种基于多特征融合的恶意信息检测方法、装置及系统。提高信息检测的准确度。本发明对恶意信息的文本内容进行了语义化表示，在考虑语义的情况下，对信息中无效评论文本进行过滤，使所训练的文本具有高可用性。针对信息的传播周期，本发明通过文本间的评论关系确定信息的传播阶段，实现对信息不同扩散阶段的特征提取。对所提取信息的文本特征和传播特征进行分析，实现信息的初步检测，最后结合特征检测结果的可信度确定信息的检测结果。本发明可以更精确的尽早完成恶意信息的检测。包括获取数据，提取信息的文本特征和传播特征进行初步检测，最后对信息不同特征检测结果的可信度进行量化分析。

在本发明的第一方面，本发明提供了一种基于多特征融合的恶意信息检测方法，所述方法包括：

获取社交网络平台的传播信息，所述传播信息包括信息文本和用户关系属性；

对信息文本进行语义化编码，得到源文本和评论文本的句子级语义向量，以及源文本的字符级语义向量；

根据源文本的字符级语义向量得到源文本特征；根据源文本和评论文本的句子级语义向量得到语义相关度，得到评论文本特征；

将源文本特征和评论文本特征进行处理，得到源文本特征检测结果和评论文本特征检测结果；

根据用户关系属性，构建出用户节点与其邻居节点之间的信息传播树，按照信息传播树构建出传播子图，对传播子图向量化，得到传播特征；

将传播特征进行处理，得到传播特征检测结果；

采用基于时变函数的融合方法将源文本特征检测结果、评论文本特征检测结果与传播特征检测结果进行融合，检测出恶意信息。

在本发明的第二方面，本发明还提供了一种基于多特征融合的恶意信息检测装置，所述检测装置包括：

数据采集模块，用于获取社交网络平台的传播信息，所述传播信息包括信息文本和用户关系属性；

文本分析模块，用于对信息文本进行语义化编码，得到源文本和评论文本的句子级语义向量，以及源文本的字符级语义向量；根据源文本的字符级语义向量得到源文本特征；根据源文本和评论文本的句子级语义向量得到语义相关度，得到评论文本特征；

文本检测模块，用于将源文本特征和评论文本特征进行处理，得到源文本特征检测结果和评论文本特征检测结果；

传播分析模块，用于将源文本特征和评论文本特征进行处理，得到源文本特征检测结果和评论文本特征检测结果；根据用户关系属性，构建出用户节点与其邻居节点之间的信息传播树，按照信息传播树构建出传播子图，对传播子图向量化，得到传播特征；

传播检测模块，用于将传播特征进行处理，得到传播特征检测结果；

时变融合模块，用于采用基于时变函数的融合方法将源文本特征检测结果、评论文本特征检测结果与传播特征检测结果进行融合，检测出恶意信息。

在本发明的第三方面，本发明还提供了一种基于多特征融合的恶意信息检测系统，包括一个或者多个如本发明第二方面所述的恶意信息检测装置。

本发明的有益效果：本发明整体上从信息的文本特征和传播特征进行综合分析，更好的满足了信息检测的及时性和准确性的要求。文本分析阶段，通过BERT模型对文本进行了语义化编码，提高了文本表示的准确性，在语义化的基础上利用sim函数对无效评论的文本信息进行过滤，提高了检测文本的可靠性，使所训练的文本具有高可用性。针对信息的传播周期，本发明通过文本间的评论关系确定信息的传播阶段，实现对信息不同扩散阶段的特征提取。在传播子图的构建过程中，传统的均值池化和最大值池化无法体现节点的影响力不同，本方法利用节点的影响力采用自适应池化得到子图的向量化表示，使池化结果更具代表性。最后，根据时变函数对特征检测结果进行融合，得到特征在不同时段融合时的不同权重，在保证信息检测准确性的同时，提高了信息检测的灵活性。本发明可以更精确的尽早完成恶意信息的检测。

附图说明

图1是本发明实施例中一种基于多特征融合的恶意信息检测方法流程图；

图2是本发明实施例中文本特征分析图；

图3是本发明实施例中传播特征的分析图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明整体框架图，表明本发明的输入是信息的文本和用户之间的评论转发关系，经过检测模型后输出信息是否属于恶意信息。

在本发明实施例中，一种基于多特征融合的恶意信息检测方法，如图1所示，所述方法包括：

将传播特征进行处理，得到传播特征检测结果；

在本发明另外的实施例中，本发明可以包括如下三个步骤:

S1:在线获取数据。可以是从公开的数据网站获取数据，也可以利用成熟的社交网络公共API进行获取。这里需要获取的是信息在其生命周期内的所有参与者对该信息转发与评论情况。信息参与记录需要得到的是信息被转发和评论的时间、参与用户的基本信息和参与用户的好友关系信息。

S2:获得信息相关属性特征。根据获取到的信息标记信息的源文本和评论文本，提取参与用户的基本信息和关注列表，同时根据用户之间的转发与评论构建信息的传播树结构。

S3:建立模型。首先，将标记的信息文本使用BERT模型进行语义化，设计sim算法来过滤无效数据，使用两个TextCNN来得到信息的文本特征与评论特征。然后，使用GCN获取信息传播子图的图向量来表示信息的传播阶段，基于RNN来获取各个传播阶段的过渡特征。最后考虑时间因素对单一特征检测的影响对结果进行融合。

上述步骤S1获取数据源。主要分以下2个步骤。

S11：获取原始数据。通过社交网络公共API或直接下载现有数据源都可以得到原始数据。

S12:简单的数据清洗。通常获取的原始数据都是非结构化的，不能直接用于数据分析。通过简单的数据清洗可以使大部分非结构化数据结构化。例如，删除重复数据、清理无效信息等。

上述步骤S2获取相关属性。主要分以下2个步骤。

对信息的恶意性进行检测，实质上是从信息的文本与传播两个层面提取相关特征并对这些特征进行建模分析。本文针对信息的源文本、用户对源文本的评论以及用户对信息的转发结构，挖掘恶意信息的重要特征，具体如下:

S21:对于信息文本中的每个字符，使用Google提供的语料库进行表示。在信息文本中每个句子的开头添加[CLS]标志，该标志表示一个句子开始，添加[SEP]标志表示一个句子的结束。

S22：信息的传播结构可看成有一个根节点的有向图。本方法以用户为节点，用户间的转发和评论为边构建传播图，并使用传播图的层次结构来表示信息的传播阶段。传播图的构建过程为：用唯一Id表示一条信息，Sid表示所评论和转发信息的Id。如果一个信息的Sid为空，则表示其为源文本。根据信息Id和Sid所组成的拓扑结构为传播图。为了使传播图融合更多的信息，本方法除了使用用户的文本信息，还增加了粉丝数，关注数等属性。由于信息互动者的数量过多，导致传播树结构过于庞大，因此本方法根据用户的评论文本，根据下文所述的sim算法，实现对低相关评论用户的过滤，实现传播树的剪枝。

上述步骤S3建立模型。主要分以下3个步骤。

该模型主要分三个阶段:文本特征分析、传播特征分析，单一特征检测结果融合。第一阶段，使用BERT模型对文本信息进行语义化编码，设计Sim算法来基于语义对无效文本进行过滤，得到有效数据后，使用两个TextCNN获取信息的文本特征和与评论文本之间的关系特征来进行文本检测。第二阶段，利用传播图的各层子图G’来表示信息的传播阶段，并使用GCN来得到子图的表示向量G_m’。具体过程为：首先将用户的各个特征融合为一个长向量，作为节点的初始化向量。然后将节点向量与图的邻接矩阵作为GCN的输入，更新节点的向量表示。最后，利用池化操作来提取图的表示向量。第三阶段，将文本特征和传播特征的检测结果作为输入，基于时变函数来实现对单一检测结果的融合。

S31：文本特征的提取与检测。

S311:文本的语义化表示

BERT是一种使用MLM(mask language model)和NSP(Next Sentence Prediction)进行预训练的语言表示模型，该模型具有很强的泛化能力，并实现了将迁移学习应用自然语言处理领域。将上阶段得到的文本表示，经过3个嵌入层进行处理得到输入向量x。x的计算方式如下：

x＝x_segment+x_position+x_token

即该词的输入向量x由信息的词向量x_segment，文本向量x_position和位置向量x_token通过元素相加求和得到。

BERT的多层Transformer使得模型可以考虑上下文的语境对词进行编码。每层的Transformer由多头自注意力机制，残差连接层和正则化层组成。多头注意力机制实现对信息中所有字符的加权融合，得到字符的增强语义向量。残差连接层将模块的输入和输出直接相加，以此减少网络的训练时间。BERT只需要关注Transformer的Encoding部分。

通过BERT模型可得到字符级和句子级两种向量。在本文模型中，除需要将信息句子级的语义向量输入到TextCNN来获得源文本特征外，还需要使用字符级向量来计算评论文本与源文本的语义相关度，其执行流程为：首先根据信息和评论的字符增强向量构建句子向量矩阵，然后使用sim算法函数来计算信息和评论的字符向量之间的相似度。

S312：基于文本语义设计sim算法过滤无效文本

通过BERT模型得到文本的语义化表示后，本文使用sim来计算源文本与评论文本之间的相关性。sim(St,Ct)的值越大表明两文本的相关性越强，计算公式如下:

根据源文本St和评论文本Ct的词向量集构建相关矩阵K。考虑到文本中词语的重要程度是不同的，本方法引用注意力机制得到文本中字符的重要性评分w_i。k_i表示词语间的相关度，相关度通过字符向量之间的点积计算得到，例如短文本A＝(a₁,a₂,a₃,a₄)和B＝(b₁,b₂,b₃,b₄)，通过计算a_i与B中词语向量的点积可得到与a_i最相似的词汇b_j，该值与w_i的乘积构成K中元素k_ij。之后，依次选取K中最大的元素k⁽ⁱ⁾ _nm,直至遍历完源文本的所有词汇，使用k⁽ⁱ⁾ _nm的平均数来表示两文本相关度。对相关度进行排序后，取前70％作为下游任务的输入。该方法在考虑词语多义性的基础上引入注意力机制，可以充分结合文本的结构特征提高相似度计算的准确性，以此提高训练文本的高效性。

S313：基于TextCNN进行特征提取和检测。

TextCNN是一种基于CNN的卷积神经网络模型，可以更加高效的提取输入矩阵的局部特征。TextCNN模型由输入层、卷积层、池化层和输出层组成，为简化模型结构，需要在输出层中进行特征的初次分类。

该模块TextCNN₁的输入为由源文本和评论文本的句级别向量所组成的矩阵M₁，TextCNN₂的输入为源文本字符级向量所组成的矩阵M₂。M₁中行表示包括源文本评论文本的[CLS]增强向量，列表示[CLS]的句级别增强向量的维度；M₂中行表示源文本中的字符个数，列表示字符级增强向量的维度。卷积层通过使用3个卷积核来实现特征的提取，卷积计算如下：

a_i＝f(W*M_i:i+h-1+b)

式中a_i表示卷积核所提取的第i个特征，W表示网络中的参数大小，b为偏置项，M_i:i+h-1表示不同维度向量的值，本方法Relu函数作为激活函数f。通过卷积操作获得特征向量A＝[a₁,a₂,...,a_n-h+1]。采用最大池化来提取区域的泛化特征，即选取最大的特征值来代替区域向量，然后由这些最大值构成新的特征向量。文本信息经过多层池化操作得到特征向量后，使用Sigmoid函数来得到信息为恶意信息的概率，函数表达式如下所示：

最后，采用梯度下降算法作为损失函数来更新模型参数。至此，该模块的输出可得到信息的源文本和融合评论后的特征检测结果。

S32：传播特征的提取和检测。

S321：获取传播图各阶子图的表示向量G_m’

本方法中GCN使用3层卷积层获取每个节点与其邻居的联系。单层GCN公式如下：

式中，H^k表示第K层的输入，n代表图节点数，D表示n*n的对角矩阵，A为图的邻接矩阵，σ表示激活函数，θ表示可学习参数。通过该卷积操作，更新节点的向量表示。最后，为得到传播子图G_m’的表示向量,需要将图中的节点向量聚合成一个向量。本发明采用自适应加权池化，自适应过程如下：

首先，根据节点个数初始化参数k_i来表示传播过程中节点的重要性程度。然后，根据节点的影响力属性进行排序，在信息传播的各个阶段，对还未参与的节点k_i赋0，将参与节点的重要性参数k_i做归一化处理得到节点的权重参数w_i，最后，权重参数w_i与对应的节点相乘累加后求平均得到池化结果，表示如下：

y为输出的子图的向量表示，n为节点的个数，w为节点的影响力权重，I为节点特征向量。初始化的权重参数会随着下游的分类结果通过梯度下降不断地迭代优化，直至收敛。

S322：信息传播特征的分析

GCN在一些特定情况下会将不同拓扑结构的图嵌入到相同的表示向量，因此本发明使用RNN来对G_m`表示向量进行时序增强。RNN模型会将上层的网络状态传递给当前输入，将当前的网络状态再作为下一个状态的输入。因此，本方法得到的阶段时序增强向量充分考虑了之前的传播结构特征。

将上节所得到的各阶子图的表示向量G_m’作为RNN的输入向量，从各个传播阶段提取的信息以状态向量S为载体通过转移函数T向前反馈。向量y为各传播阶段的时序增强向量。单层RNN具体的工作过程为：在每个时步t上，RNN会产生一个新的状态向量S_t：

h_t＝τ(x_t,h_t-1)

然后再利用s_t计算输出y_t:

y_t＝f(x_t,s_t)

式中，τ为RNN的状态转移函数，f为RNN的输出函数。为了增强模型的表示能力，本文的RNN在空间上采用了3层结构。我们将输出y所组成的矩阵称之为全局传播特征矩阵GPM。最后将GPM矩阵作为分类器的输入得到信息检测的分类结果。

S33：单一特征检测结果的融合：

本发明考虑到不同特征的检测准确度会受到时间因素的影响，即信息的传播结构随着时间不断完善，该特征检测的准确度也在提高，而信息源文本的特征值不会随着时间变化，因此在检测的特征融合过程中，信息传播结构的检测权重相较于文本的检测权重应该随之提高。所以本文提出了一种基于时变函数的融合方法。

S331：特征融合设计思路：

该方法的主要设计思路是：根据信息传播的拓扑结构可以确定当前信息所处的传播阶段，由上文可知，我们使用信息的传播阶段来代表时间t。在s1部分和s2部分可以得到信息的文本检测结果f1,文本评论检测结果f2,传播结构检测结果f3。则检测公式为：

L＝F(R(f₁,f₂,f₃,t))

F＝Re Lu(x)

式中，L为信息的标签属性。A，B，C是特征的检测权重，为待训练参数，由公式可知，权重A，B，C的时间变化因子分别为(z-t)，

考虑到信息传播与评论的产生在时间上具有一致性，为了减少训练复杂度，赋相同的时间因子

随着t的增大，权重A相较于B,C不断减小，以此来保证源文本的权重随时间减小，传播特征权重随时间增大的要求。同时，该方法引入参数z来调整权重A受时间影响的程度。最后该方法使用ReLU函数作为激活函数。

S332：方法的输入和输出：

由上述公式可知：该部分的输入为信息的传播阶段t，信息的文本检测特征和信息的传播特征值，输出为信息的标签属性L∈(0,1)。信息的标签为0则信息为良性信息，信息标签为1则为恶意信息。

S34：模型预测结果

通过本发明中基于多特征检测结果融合的输出，系统能够对当前信息的恶意性进行检测。舆情部门可以通过对每个时刻信息的传播态势和传播文本对信息进行恶意性检测，并根据检测结果进行相应的辟谣信息发布，从而达到使用最低的成本最快速的进行恶意信息的抑制。

本发明实施例中，还提供了一种基于多特征融合的恶意信息检测装置，所述检测装置包括：

文本分析模块，用于对信息文本进行语义化编码，获取源文本和评论文本的句子级语义向量，以及源文本的字符级语义向量；根据源文本的字符级语义向量得到源文本特征；根据源文本和评论文本的句子级语义向量得到语义相关度，得到评论文本特征；

本发明实施例中，还提供了一种基于多特征融合的恶意信息检测系统，包括一个或者多个上述实施例所述的恶意信息检测装置。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多特征融合的恶意信息检测方法，其特征在于，所述方法包括：

将传播特征进行处理，得到传播特征检测结果；

2.根据权利要求1所述的一种基于多特征融合的恶意信息检测方法，其特征在于，所述根据用户关系属性，构建出用户节点与其邻居节点之间的信息传播树，按照信息传播树构建出传播子图，对传播子图向量化，得到传播特征包括以社交网络平台的用户为节点，以用户影响力属性作为边权重，用户间的转发和评论为边构建出传播子图。

3.根据权利要求1所述的一种基于多特征融合的恶意信息检测方法，其特征在于，所述根据源文本和评论文本的句子级语义向量得到语义相关度，得到评论文本特征包括基于信息的源文本和评论文本的语义向量生成相关矩阵，依据相似度函数计算源文本和评论文本语义的相关性，将低相关度的评论文本过滤。

4.根据权利要求3所述的一种基于多特征融合的恶意信息检测方法，其特征在于，所述依据相似度函数计算源文本和评论文本语义的相关性包括通过注意力机制计算得到源文本中各个字符的重要性评分，利用各源文本和评论文本的字符级语义向量之间的点积计算得到相关度，根据源文本和评论文本的字符级语义向量的重要性评分和相关度建立出相关矩阵；依次选择相关矩阵中每个评论文本对应的最大元素，去除该最大元素对应的源文本字符，直至遍历完所有源文本字符，使用所有评论文本对应的最大元素的平均数来表示源文本与评论文本之间的相关性。

5.根据权利要求1所述的一种基于多特征融合的恶意信息检测方法，其特征在于，所述将传播特征进行处理，得到传播特征检测结果包括使用自适应加权池化方法，根据用户节点的用户影响力对用户节点进行排序，为用户节点赋予不同的池化权重参数，按照相应的池化权重参数将各个传播子图中的用户节点向量聚合成一个向量。

6.根据权利要求1所述的一种基于多特征融合的恶意信息检测方法，其特征在于，所述采用基于时变函数的融合方法将文本特征检测结果与传播特征检测结果进行融合包括根据信息传播树的拓扑结构确定出当前信息文本所处的传播阶段，按照当前信息文本所处的传播阶段对各文本特征检测结果和传播特征检测结果以自适应权重进行融合。

7.根据权利要求6所述的一种基于多特征融合的恶意信息检测方法，其特征在于，融合公式表示为：

其中，R(f₁,f₂,f₃,t)表示基于时变函数的融合函数，t表示当前信息文本所处的传播阶段，f₁表示源文本特征检测结果，f₂表示评论文本特征检测结果，f₃表示传播特征检测结果；z表示特征受时间影响程度，A是源文本特征的检测权重，B表示评论文本特征的检测权重，C表示传播特征的检测权重，均为待训练参数。

8.一种基于多特征融合的恶意信息检测装置，其特征在于，所述检测装置包括：

9.一种基于多特征融合的恶意信息检测系统，其特征在于，包括一个或者多个如权利要求8所述的恶意信息检测装置。