CN116340477A - 一种网络欺凌会话预测方法、系统及存储介质 - Google Patents

一种网络欺凌会话预测方法、系统及存储介质 Download PDF

Info

Publication number
CN116340477A
CN116340477A CN202310110049.1A CN202310110049A CN116340477A CN 116340477 A CN116340477 A CN 116340477A CN 202310110049 A CN202310110049 A CN 202310110049A CN 116340477 A CN116340477 A CN 116340477A
Authority
CN
China
Prior art keywords
session
comment
representing
network
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310110049.1A
Other languages
English (en)
Inventor
郭三川
张春云
张熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202310110049.1A priority Critical patent/CN116340477A/zh
Publication of CN116340477A publication Critical patent/CN116340477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种网络欺凌会话预测方法、系统及存储介质,包括:获取待预测的会话数据的多个评论,将多个评论输入至评论级别编码模块得到各评论的评论级特征向量;将各评论级特征向量输入至会话级别编码模块得到评论的会话级特征向量;基于各评论级特征向量构建社交网络图,社交网络图的节点表示评论,社交网络图的边表示相邻两个评论的相似度或提及关系,基于图注意网络获取社交网络图对应的社交特征向量;将各社交特征向量进行全局平均池化,得到第一特征向量,将会话级特征向量输入至第一注意力层得到第二特征向量,将第一特征向量和第二特征向量输入至第一多层感知器MLP层中,得到网络欺凌会话预测结果。该方法提高了网络欺凌会话预测的准确度。

Description

一种网络欺凌会话预测方法、系统及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种网络欺凌会话预测方法、系统及存储介质。
背景技术
网络欺凌被认为是一种通过社交平台进行的欺凌或骚扰,其特点是在社交媒体上发布贬损、侮辱、谣言、威胁、攻击性评论、照片或视频。随着社交媒体的普及,网络欺凌出现在各种社交平台上,并在短时间内蔓延到受害者身上,成为严重的社会问题。为了应对网络欺凌案件的快速增长,许多努力致力于网络欺凌的检测和干预;然而,由于各个社交平台数据量很大,不可能对所有内容进行及时的人工管理,还需要一些工具主动过滤这些网络欺凌内容,因此,目前许多在线平台都投入了大量资源用于网络欺凌内容的检测和分类。随着问题的范围和规模的增长,对网络欺凌自动检测和分类的工具的需求也在增长,目前这些工具根据是否引入外部评论级类别信息大致分为两类:一类是没有使用评论级类别信息,另一类是严重依赖人工注释的评论级标签信息。
而对于上述的方法,先前工作仅是将网络欺凌的检测问题表述为单个会话级分类任务,并且主要依靠深度神经网络,例如递归神经网络和图神经网络来获得会话级表示;其通常需要采用文本特征和基于网络的特征。最近,现有技术中提出了一种基于评论标签信息的情绪分类任务辅助网络欺凌检测的多任务学习模型;在该模型中,为了实现多任务框架的监督训练,创建了一个人工注释的印地语-英语代码混合语料库。然而对于该模型,人工标注数据是耗时耗力的,此外,该模型忽略了攻击性语言检测任务和欺凌检测任务之间的密切相关性。
目前,常用TGBully模型进行网络欺凌的检测,TGBully由三个模块组成,即语义上下文建模模块、时态图交互学习模块和会话分类模块。在语义上下文建模模块中,首先对一组网络欺凌评论进行分层建模获得文本特征表示,每个评论序列都包含一个单词序列;为了结合发表这些评论的用户的特征,该模块进一步提取用户的历史评论,从中推断出用户的语言行为。时间图交互学习模块通过在图关注网络(GAT)中对用户评论的主题连贯性和时间动态进行编码来隐式地构建用户-用户交互图;该模块同时考虑了内容相似性和评论之间的时间间隔,用户交互是通过不断更新GAT中的边缘权重来学习的;基于此,TGBully通过在构建的时间图中传播交互信号来建模用户交互。会话分类模块聚合从用户交互中学习的信息表示,并执行最终会话级别分类,即确定会话是否为欺凌内容。虽然TGBully模型可实现欺凌内容的预测,但是该模型将欺凌检测建模为单一任务,忽略了细粒度的评论级别标签信息在网络欺凌检测任务中所起的作用以及攻击性语言检测任务和欺凌检测任务之间的密切关系,并且该TGBully模型存在着预测结果不够准确的缺点。因此,如何提高网络欺凌预测结果的准确性是亟待解决的技术问题。
发明内容
有鉴于此,本发明提供了一种网络欺凌会话预测方法、系统及存储介质,以解决现有技术中存在的一个或多个问题。
根据本发明的一个方面,本发明公开了一种网络欺凌会话预测方法,所述方法包括:
获取待预测的会话数据的多个评论,将所述多个评论输入至评论级别编码模块得到各所述评论的评论级特征向量;
将各所述评论级特征向量输入至会话级别编码模块得到所述评论的会话级特征向量;
基于各所述评论级特征向量构建社交网络图,所述社交网络图的节点表示各所述评论,所述社交网络图的边表示相邻两个所述评论的相似度或提及关系,基于图注意网络获取所述社交网络图对应的社交特征向量;
将各所述社交特征向量进行全局平均池化,得到第一特征向量,将所述会话级特征向量输入至第一注意力层得到第二特征向量,将所述第一特征向量和所述第二特征向量输入至第一多层感知器MLP层中,得到网络欺凌预测结果。
在本发明的一些实施例中,将所述多个评论输入至评论级别编码模块得到各所述评论的评论级特征向量,包括:
将所述多个评论输入至词嵌入模型得到各所述评论的词嵌入向量;
将各所述词嵌入向量输入至编码层,得到具有上下文关系的隐藏层表示;
将所述隐藏层表示输入至第二注意力层,得到所述评论级特征向量。
在本发明的一些实施例中,将各所述评论级特征向量输入至会话级别编码模块得到所述评论的会话级特征向量,包括:
将各所述评论级特征向量输入至BiGRU编码器,得到所述评论的会话级特征向量;和/或
基于各所述评论级特征向量构建社交网络图,包括:
基于各评论之间的提及关系确定社交网络图的初始边;
基于各评论之间的相似度对所述初始边进行扩充,得到扩充边;
基于各评论对应的评论级特征向量和所述扩充边构建社交网络图。
在本发明的一些实施例中,所述方法还包括:
基于攻击性语言预测模型对所述社交特征向量和所述会话级特征向量进行攻击性语言预测,得到攻击性语言预测结果;
基于所述网络欺凌预测结果确定网络欺凌预测模型损失,基于所述攻击性语言预测结果确定攻击性语言预测模型损失,基于所述网络欺凌预测模型损失和所述攻击性语言预测模型损失计算总损失,基于所述总损失更新各模型参数。
在本发明的一些实施例中,基于攻击性语言预测模型对所述社交特征向量和所述会话级特征向量进行攻击性语言预测,得到攻击性语言预测结果,包括:
将所述社交特征向量和所述会话级特征向量输入至第二多层感知器MLP层中,得到中间输出结果;
将所述中间输出结果输入至攻击性语言预测层,得到攻击性语言预测结果。
在本发明的一些实施例中,
所述网络欺凌预测模型损失的计算方式为:
Figure SMS_1
其中,LC代表网络欺凌预测模型损失,
Figure SMS_5
代表社交网络编码通道对应的网络欺凌预测模型损失,/>
Figure SMS_11
代表文本编码通道对应的网络欺凌预测模型损失,i代表数据集中第i个会话组,/>
Figure SMS_13
代表第i个会话组的真实标签,/>
Figure SMS_3
代表社交网络编码通道的第i个会话组的预测概率,/>
Figure SMS_7
代表文本编码通道的第i个会话组的预测概率,/>
Figure SMS_9
Figure SMS_12
代表社交网络编码通道对应的网络欺凌预测的线性层权值矩阵,/>
Figure SMS_2
代表社交特征向量,/>
Figure SMS_6
代表社交网络编码通道对应的网络欺凌预测的线性层偏置,/>
Figure SMS_8
代表文本编码通道对应的网络欺凌预测的线性层权值矩阵,/>
Figure SMS_10
代表会话级特征向量,/>
Figure SMS_4
代表文本编码通道对应的网络欺凌预测的线性层偏置;
所述攻击性语言预测模型损失的计算方式为:
Figure SMS_14
Figure SMS_15
其中,L0代表攻击性语言预测模型损失,
Figure SMS_19
代表社交网络编码通道对应的攻击性语言预测模型损失,/>
Figure SMS_24
代表文本编码通道对应的攻击性语言预测模型损失,i代表数据集中第i个会话组,j代表第i个会话组中第j个评论,/>
Figure SMS_25
代表第i个会话组中第j个评论的真实标签,/>
Figure SMS_18
代表第i个会话组中第j个评论在社交网络编码通道的标签预测概率,/>
Figure SMS_23
代表第i个会话组中第j个评论在文本编码通道的标签预测概率,/>
Figure SMS_26
Figure SMS_27
代表社交网络编码通道对应的攻击性语言预测的线性层权值矩阵,/>
Figure SMS_16
代表社交特征向量,/>
Figure SMS_20
代表社交网络编码通道对应的攻击性语言预测的线性层偏置,/>
Figure SMS_21
代表文本编码通道对应的攻击性语言预测的线性层权值矩阵,/>
Figure SMS_22
代表会话级特征向量,/>
Figure SMS_17
代表文本编码通道对应的攻击性语言预测的线性层偏置。
在本发明的一些实施例中,所述总损失的计算公式为:
L=LC+λLO
其中,λ是权重超参数,L0代表攻击性语言预测模型损失,LC代表网络欺凌预测模型损失。
在本发明的一些实施例中,所述方法还包括:
获取第一样本数据,对各所述第一样本数据进行标注;所述第一样本数据为会话样本数据;
基于标注后的所述第一样本数据对网络模型进行预训练,得到训练好的注释模型;
基于所述注释模型对未标注的第二样本数据进行标注,基于标注后的所述第一样本数据和第二样本数据生成训练样本集。
根据本发明的另一方面,还公开了一种网络欺凌会话预测系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。
根据本发明的再一方面,还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
本发明所公开的网络欺凌会话预测方法、系统及存储介质,首先提取待预测的会话的评论级特征和会话级特征,进而基于各评论对应的评论级特征向量构建社交网络图,并提取社交网络图对应的社交特征;进而基于社交特征和会话级特征结合预测会话是否为网络欺凌会话,该方法考虑到了细粒度的评论级别标签信息在网络欺凌检测任务中所起的作用,从而提高了网络欺凌会话预测结果的准确度。
除此之外,该方法所采用的模型在预训练阶段,考虑到了攻击性语言检测任务和欺凌检测任务之间的密切关系,从而该方法在提高网络欺凌会话预测结果的准确度的同时,还具有较好的模型可解释性。另外,本发明基于半监督方法为未标注的会话中的评论分配伪标签,并且使用高置信度指标扩展辅助任务的训练集以更好地训练多任务学习框架,对欺凌检测任务效果有积极影响,解决了外部分类器引入的噪声问题。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中:
图1为本发明一实施例的网络欺凌会话预测方法的流程示意图。
图2为本发明一实施例的网络欺凌预测系统的框架示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在此,需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
现有技术的网络欺凌检测方法存在着网路欺凌预测结果不够准确的缺点,基于此,发明人提供了一种网络欺凌会话预测方法、系统及存储介质。在研究过程中,发明人发现网络欺凌会话通常包含许多攻击性评论,根据这些攻击性的话语,可以很容易地确定会话属于网络欺凌行为,因而本申请所公开的网络欺凌会话预测方法在在对网络欺凌内容进行预测时考虑到会话数据的评论级特征和会话级特征;并且在构建社交网络图时,将社交网络图建模为完全图,并考虑到评论间的相似性和提及关系,使得每个评论之间都具有连接关系;另外在对模型进行训练时,基于多任务学习引入了具有细粒度评论级别类别的评论级别攻击性语言检测任务,作为网络欺凌检测任务的辅助任务,从而提高了网络欺凌预测结果的准确度。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
图1为本发明一实施例的网络欺凌会话预测方法的流程示意图,如图1所示,该网络欺凌会话预测方法至少包括步骤S10至S40。
步骤S10:获取待预测的会话数据的多个评论,将所述多个评论输入至评论级别编码模块得到各所述评论的评论级特征向量。
在该步骤中,是将待预测的会话中的评论输入至评论级别编码模块以提取会话的评论级特征,待预测的会话可为社交媒体会话。例如,会话语料库S={S1,S2,…,SN},Si代表第i个会话组,N表示会话数量;另外各会话组由多个评论组成,即
Figure SMS_28
其中cj是会话Si中的第j个评论,ni表示会话Si中的评论数量。此时将/>
Figure SMS_29
进行嵌入表示,得到/>
Figure SMS_30
mj表示第j个评论中包含的单词数量。
图2为对应的网络欺凌会话预测系统的框架示意图,从图2中可以看出,文本编码模块具体包括评论级别编码层(或称为评论级别编码模块)和会话级别编码层(或称为会话级别编码模块),则在该步骤中是基于文本编码模块中的评论级别编码层对各评论进行特征提取以获取到评论级特征。示例性的,该评论级别编码层包括词嵌入模型、编码层和第二注意力层。
在一实施例中,将所述多个评论输入至评论级别编码模块得到各所述评论的评论级特征向量,具体可包括:将所述多个评论输入至词嵌入模型得到各所述评论的词嵌入向量;将各所述词嵌入向量输入至编码层,得到具有上下文关系的隐藏层表示;将所述隐藏层表示输入至第二注意力层,得到所述评论级特征向量。
具体的,词嵌入模型可为Glove模型,而编码层可为BiGRU编码器,此时通过预训练的Glove模型初始化评论cj中的单词,结果表示为wj;然后将单词初始化后的评论向量cj输入至BiGRU编码器,以获得具有上下文关系的隐藏层表示
Figure SMS_31
其中,j表示隐藏层维度。在BiGRU编码器之后进一步引入了第二注意力层,并通过为每个单词分配不同的注意力分数并将它们聚合成最终的评论表示以加强模型对评论中重要单词的关注度。可以理解的,词嵌入模型除了可为Glove模型之外,还可以为其他类型的词嵌入模型,而BiGRU编码器也可以通过自然语言处理中的其它编码架构进行替代,如BiLSTM和Transformer等。
进一步的,基于BiGRU编码器获得单词上下文表示和基于注意力机制的评论cj的表示Hj计算方法如下:
Figure SMS_32
Figure SMS_33
Figure SMS_34
其中,
Figure SMS_35
表示第k个GRU单元表示,/>
Figure SMS_36
表示/>
Figure SMS_37
的注意力权重系数,Hj表示评论cj对应的评论级特征向量。
步骤S20:将各所述评论级特征向量输入至会话级别编码模块得到所述评论的会话级特征向量。
在该步骤中,是基于会话级别编码模块对评论级特征向量进一步的进行特征提取,以提取具有上下文关系的评论编码表示。
示例性的,将各所述评论级特征向量输入至会话级别编码模块得到所述评论的会话级特征向量,包括:将各所述评论级特征向量输入至BiGRU编码器,得到所述评论的会话级特征向量。在该实施例中,文本编码模块的会话级别编码层进一步应用BiGRU编码器,并将评论级别编码层输出的评论级别的上下文表示(评论级特征向量)按照时间顺序排列作为会话级别编码层的模型输入,以对同一会话中评论的时间顺序进行特征提取,从而获取到具有上下文关系的评论编码表示(会话级特征向量)。类似的,此处所应用的BiGRU编码器也可以通过自然语言处理中的其它编码架构进行替代,如BiLSTM和Transformer等。
进一步的,会话级别文本编码层计算过程如下:
Figure SMS_38
Figure SMS_39
其中,Hj‘表示会话级别文本编码层获得的具有上下文关系的评论编码表示。通过上述步骤S10和S20,分别获得了不具有评论间上下文关系的评论编码表示Hj和具有上下文关系的评论编码表示H′j
步骤S30:基于各所述评论级特征向量构建社交网络图,所述社交网络图的节点表示各所述评论,所述社交网络图的边表示相邻两个所述评论的相似度或提及关系,基于图注意网络获取所述社交网络图对应的社交特征向量。
在该步骤中,根据评论间的相似度和提及关系构建社交网络图Gi={Vi,Ai,Ei},Vi代表节点,在该网络图中Vi具体的为评论对应的评论级特征向量,Ai表示邻接矩阵,而Ei表示边。
示例性的,在图2所示的社交网络模块通道中,基于评论之间的提及关系和相似度构建评论之间的交互图,并使用图注意力网络获得节点表示。在构建社交网络图过程中,除了根据用户之间的提及关系获得社交网络的初始化边之外,还根据评论间的相似度对社交网络图进行边的扩充。具体的,基于各所述评论级特征向量构建社交网络图,包括:基于各评论之间的提及关系确定社交网络图的初始边;基于各评论之间的相似度对所述初始边进行扩充,得到扩充边;基于各评论对应的评论级特征向量和所述扩充边构建社交网络图。
在上述实施例中,通过计算不同节点之间的特征余弦相似度,为具有较高相似度的评论节点添加连边,相似度计算方式如下:
Figure SMS_40
其中Hi和Hj是评论i和评论j的节点表示(评论级特征向量)。进而评论i和评论j在边集合中对应的元素为
Figure SMS_41
进一步的,基于计算得到的节点之间的相似度获得新的扩充后的边集合E′i=Ei∪eij,Ei为初始边,然后基于新的扩充后的边集合更新原始社交网络图中的信息,获得新的社交网络图表示:G′i={Vi,A′i,E′i}。
在确定了社交网络图之后,进一步的基于图注意力网络聚合邻域节点信息学习带有社交网络特征的评论节点表示,社交网络聚合过程如下所示:
Figure SMS_42
Figure SMS_43
其中,
Figure SMS_44
是节点i在l+1层通过连接每个注意力头的输出的最终表示,K表示注意力头的数量,/>
Figure SMS_45
表示从x1到xK的连接表示,xK表示第k个注意力头的表示,/>
Figure SMS_46
表示模型可学习参数矩阵,/>
Figure SMS_47
表示节点j在l层的表示,/>
Figure SMS_48
表示评论数量,j表示第j个评论,/>
Figure SMS_49
是由第k层注意层计算的归一化注意系数。
步骤S40:将各所述社交特征向量进行全局平均池化,得到第一特征向量,将所述会话级特征向量输入至第一注意力层得到第二特征向量,将所述第一特征向量和所述第二特征向量输入至第一多层感知器MLP层中,得到网络欺凌预测结果。
在该步骤中,应用全局平均池化操作聚合来自社交网络编码通道的所有评论表示
Figure SMS_50
并应用注意力机制聚合来自文本编码通道的评论表示/>
Figure SMS_51
然后,将它们输入多层感知器(MLP),从而预测出会话是否为网络欺凌会话。
在本发明一些实施例中,网络欺凌会话预测方法还包括如下步骤:基于攻击性语言预测模型对所述社交特征向量和所述会话级特征向量进行攻击性语言预测,得到攻击性语言预测结果;基于所述网络欺凌预测结果确定网络欺凌预测模型损失,基于所述攻击性语言预测结果确定攻击性语言预测模型损失,基于所述网络欺凌预测模型损失和所述攻击性语言预测模型损失计算总损失,基于所述总损失更新各模型参数。
多任务学习(MTL)可以同时学习多个相关任务,并在一个框架中共享知识,多个任务之间的相关性可以提高模型在某些任务上的性能和模型的泛化能力。由于网络欺凌检测任务在直观上与攻击性评论检测任务密切相关,因此在模型的预训练过程中,引入和欺凌检测任务密切相关的攻击性评论检测作为辅助任务,通过多任务框架内的两个任务的共享层信息的交互来提高两个任务的整体性能。
参考图2,该模型的底部共享层为攻击性语言预测和网络欺凌预测提取共享的会话特征,并且会话表示由文本编码模块和社交网络编码模块的输出组成,此时将会话Si在文本编码模块的输出表示为H′i,而将会话Si在社交网络通道的输出表示为
Figure SMS_52
则对于网络欺凌检测任务,应用全局平均池化操作聚合来自社交网络编码通道的所有评论表示
Figure SMS_53
并应用注意力机制聚合来自文本编码通道的评论表示/>
Figure SMS_54
然后,将它们输入多层感知器(MLP),并通过激活函数来计算类概率:
Figure SMS_55
Figure SMS_56
进一步基于交叉熵损失定义网络欺凌检测损失:
Figure SMS_57
Figure SMS_58
Figure SMS_59
其中,LC代表网络欺凌预测模型损失(会话级别损失),
Figure SMS_62
代表社交网络编码通道对应的网络欺凌预测模型损失,/>
Figure SMS_64
代表文本编码通道对应的网络欺凌预测模型损失,i代表数据集中第i个会话组,/>
Figure SMS_67
代表第i个会话组的真实标签,/>
Figure SMS_63
代表社交网络编码通道的第i个会话组的预测概率,/>
Figure SMS_65
代表文本编码通道的第i个会话组的预测概率,
Figure SMS_68
Figure SMS_69
代表社交网络编码通道对应的网络欺凌预测的线性层权值矩阵,/>
Figure SMS_60
代表社交特征向量,/>
Figure SMS_66
代表社交网络编码通道对应的网络欺凌预测的线性层偏置,/>
Figure SMS_70
代表文本编码通道对应的网络欺凌预测的线性层权值矩阵,/>
Figure SMS_71
代表会话级特征向量,/>
Figure SMS_61
代表文本编码通道对应的网络欺凌预测的线性层偏置。可以理解的,网络欺凌预测模型损失为基于社交特征向量得到的网络欺凌预测模型损失和文本编码通道对应的网络欺凌预测模型损失之和。
而攻击性语言检测任务属于评论级别的攻击性语言检测任务,对于该攻击性语言检测任务首先由底部共享层完成特征提取的操作,将来自社交网络编码通道的所有评论表示
Figure SMS_72
且/>
Figure SMS_73
将来自文本编码通道的评论表示/>
Figure SMS_74
且/>
Figure SMS_75
然后,将不进行聚合操作的评论表示输入多层感知器(MLP),用激活函数来计算类概率:
Figure SMS_76
Figure SMS_77
进一步的基于交叉熵损失定义评论级别的攻击性语言检测损失:
Figure SMS_78
Figure SMS_79
Figure SMS_80
其中,L0代表攻击性语言预测模型损失(评论级别损失),
Figure SMS_83
代表社交网络编码通道对应的攻击性语言预测模型损失,/>
Figure SMS_91
代表文本编码通道对应的攻击性语言预测模型损失,i代表数据集中第i个会话组,j代表第i个会话组中第j个评论,/>
Figure SMS_92
代表第i个会话组中第j个评论的真实标签,/>
Figure SMS_84
代表第i个会话组中第j个评论在社交网络编码通道的标签预测概率,/>
Figure SMS_86
代表第i个会话组中第j个评论在文本编码通道的标签预测概率,
Figure SMS_88
Figure SMS_90
代表社交网络编码通道对应的攻击性语言预测的线性层权值矩阵,/>
Figure SMS_81
代表社交特征向量,/>
Figure SMS_85
代表社交网络编码通道对应的攻击性语言预测的线性层偏置,/>
Figure SMS_87
代表文本编码通道对应的攻击性语言预测的线性层权值矩阵,/>
Figure SMS_89
代表会话级特征向量,/>
Figure SMS_82
代表文本编码通道对应的攻击性语言预测的线性层偏置。可以理解的,攻击性语言预测模型损失为基于社交特征向量得到的攻击性语言预测模型损失和文本编码通道对应的攻击性语言预测模型损失之和。
进一步的,总损失的计算公式为:L=LC+λLO;其中,λ是权重超参数,其综合了网络欺凌检测和评论级别攻击性语言检测的损失目标,由具体数据集上的实验进行获得;L0代表攻击性语言预测模型损失;LC代表网络欺凌预测模型损失。
在上述实施例中,本申请基于多任务学习引入了具有细粒度评论级别类别的评论级别攻击性语言检测任务,作为网络欺凌检测任务的辅助任务,提升网络欺凌检测任务的性能。该网络欺凌预测系统的模型框架由两个分支组成,分别用于网络欺凌检测任务和评论级攻击性语言检测任务,且两个任务共享文本编码器通道和社交网络学习通道以获得评论的特征表示;在社交网络通道中,基于评论之间的提及关系和相似度构建评论之间的交互图,并使用图注意力网络获得节点表示;最后,聚合从评论交互图和顺序文本表示通道获得的评论表示,以执行最终的会话级分类和评论级分类。
另外,为了完成对多任务学习模型的预训练,则需要进一步的标注评论的标签信息,此时存在以下问题:首先,依靠人工标注数据既费时又费力,如何自动标记评论具有挑战性;一个简单的解决方案是使用外部训练的攻击性语言检测器来标记评论,但该方法可能会引入错误分类的噪音。因此本申请为了解决缺少评论级别标签的问题,特采用一种基于半监督学习算法的自动的注释模型。
示例性的,本申请的网络欺凌会话预测方法还包括以下步骤:获取第一样本数据,对各所述第一样本数据进行标注;所述第一样本数据为会话样本数据;基于标注后的所述第一样本数据对网络模型进行预训练,得到训练好的注释模型;基于所述注释模型对未标注的第二样本数据进行标注,基于标注后的所述第一样本数据和第二样本数据生成训练样本集。在该实施例中,基于半监督算法的自动注释模型来扩充标记的评论数据集以用于辅助任务的训练。
具体的,在对评论进行自动标注之前,首先使用外部的攻击性语言检测器将相应的标签类别分配给置信度大于阈值π的评论,阈值可根据实际训练数据集实验决定;这些标记注释作为半监督算法的初始化种子。然后使用这些带标签的评论来训练多任务框架,并进一步获得初始训练后的模型参数来注释未标记过的评论;之后不断更新模型并注释评论,直到模型的更新达到最大迭代次数。该算法的基本思想是使用在上一次迭代中获得的多任务模型自动标记剩余的未标记评论,从未标记的评论中自动选择高质量的样本,即根据未标记集合在每次迭代中的置信度排名选择排名靠前的评论对其进行注释。
为了更好的体现本发明,以下通过具体示例对该网络欺凌预测模型的建模方法进行详细说明:
该建模方法具体包括四个阶段:数据集预处理和划分,模型训练,模型验证,模型测试。该实施例的应用场景主要为可以发表帖子和评论的各种社交平台,如Instagram社交平台和Vine社交平台。
在数据集预处理和划分阶段,对于Instagram中的每组会话,样本数据集提供评论文本内容、发布评论的时间以及每个评论的用户名;该样本数据集总共包含2218个媒体会话,每个会话平均有72条评论;每条评论的平均字数为12。对于Vine中的每个视频会话,样本数据集提供每个评论的文本内容、时间和关联用户id;该样本数据集总共包含970个媒体会话;平均每个会话组有81条评论,每条评论有8个单词。进一步的将样本数据集按照8:1:1的比例划分为训练集、验证集和测试集,并基于样本数据集进行具体模型训练和预测任务。由于样本数据集的每组会话中具有是否为霸凌行为的人工标签,所以该实施例采用该样本数据集进行霸凌行为的自动检测实验验证。
在模型训练阶段,用50维的GloVe模型初始化单词嵌入;将会话级别的编码模块BiGRU维度设置为128,将评论级别编码器的BiGRU维度设为64。在采用外部分类器进行评论级别的标签自动注释阶段,设置高置信度阈值为0.95,通过外部分类器选择模型分类置信度大于等于高置信度阈值的标签给予伪标签,然后进行多任务模型的初始化训练。其中,整个多任务框架可通过深度学习框架PyTorch进行实现。在构建社交网络图阶段,先根据评论间的提及关系进行初始化社交网络图构建,然后基于相似度进行边集的扩充;在进行边集扩充时,首先计算每个会话的所有评论之间的相似度,然后对相似性进行统计分析,根据统计结果进行边的阈值选择实验,选择最优阈值。
在模型验证和测试阶段,选择广泛用于网络欺凌检测的评估指标:准确性(Accuracy)和F1-macro(F1)。对于每个数据集,随机抽取80%的会话用于训练,10%用于验证,10%用于测试。将每个实验重复5次,该应用场景下的实施结果如下表所示:
Figure SMS_93
/>
Figure SMS_94
对应的,本发明还提供了一种网络欺凌会话预测系统,该系统包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。
图2为本发明一实施例的网络欺凌预测系统的框架示意图,如图2所示,整个框架包含两个通道:社交网络编码器通道和文本编码器通道;该两个编码器通道用作多任务框架的共享编码器层。然后聚合来自两个通道的评论表示,以完成会话级网络欺凌检测任务和评论级攻击性语言检测任务。框架底部是基于半监督算法的自动评论注释器,在该系统中,为了获得辅助任务的评论级别类别,首先使用外部攻击性语言分类器来标记具有高置信度的评论子集,然后基于该框架中的半监督算法的自动注释器扩充标记的评论数据集以用于辅助任务的训练。
通过上述实施例可以发现,本发明的网络欺凌会话预测方法及系统结合了会话级网络欺凌检测任务和评论级攻击性语言检测任务,能够更好地识别网络欺凌会话,另外基于半监督学习的自动评论级别注释器可以逐步产生评论级别的标签,从而解决了人为注释获取评论级攻击性标签的耗时耗力的问题,并且采用高置信度预测实例来扩展辅助任务的训练集,在多任务框架中对两个任务有互相促进的积极影响。本申请的网络欺凌会话预测方法所采用的预测模型在模型训练时通过对攻击性评论进行分类,并基于攻击性评论分类结果和网络欺凌分类结果联合更新预测模型的网络参数,使得训练后的预测模型可更准确地识别网络欺凌会话,且具有较好的模型可解释性。
在本发明中,通过引入和网络欺凌检测密切相关的评论级攻击性语言检测作为辅助任务,构建了一个多任务框架来改进网络欺凌检测任务的效果。并且基于提出的自动评论注释方法,通过半监督方法为未标记的会话组中的评论分配伪标签,并且使用高置信度指标来扩展辅助任务的训练集,以更好地训练多任务学习框架,对欺凌检测任务效果有积极影响,避免了采用外部分类器存在噪声的问题的发生。
另外,该发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一实施例所述方法的步骤。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网络欺凌会话预测方法,其特征在于,所述方法包括:
获取待预测的会话数据的多个评论,将所述多个评论输入至评论级别编码模块得到各所述评论的评论级特征向量;
将各所述评论级特征向量输入至会话级别编码模块得到所述评论的会话级特征向量;
基于各所述评论级特征向量构建社交网络图,所述社交网络图的节点表示各所述评论,所述社交网络图的边表示相邻两个所述评论的相似度或提及关系,基于图注意网络获取所述社交网络图对应的社交特征向量;
将各所述社交特征向量进行全局平均池化,得到第一特征向量,将所述会话级特征向量输入至第一注意力层得到第二特征向量,将所述第一特征向量和所述第二特征向量输入至第一多层感知器MLP层中,得到网络欺凌预测结果。
2.根据权利要求1所述的网络欺凌会话预测方法,其特征在于,将所述多个评论输入至评论级别编码模块得到各所述评论的评论级特征向量,包括:
将所述多个评论输入至词嵌入模型得到各所述评论的词嵌入向量;
将各所述词嵌入向量输入至编码层,得到具有上下文关系的隐藏层表示;
将所述隐藏层表示输入至第二注意力层,得到所述评论级特征向量。
3.根据权利要求1所述的网络欺凌会话预测方法,其特征在于,将各所述评论级特征向量输入至会话级别编码模块得到所述评论的会话级特征向量,包括:
将各所述评论级特征向量输入至BiGRU编码器,得到所述评论的会话级特征向量;和/或
基于各所述评论级特征向量构建社交网络图,包括:
基于各评论之间的提及关系确定社交网络图的初始边;
基于各评论之间的相似度对所述初始边进行扩充,得到扩充边;
基于各评论对应的评论级特征向量和所述扩充边构建社交网络图。
4.根据权利要求1所述的网络欺凌会话预测方法,其特征在于,所述方法还包括:
基于攻击性语言预测模型对所述社交特征向量和所述会话级特征向量进行攻击性语言预测,得到攻击性语言预测结果;
基于所述网络欺凌预测结果确定网络欺凌预测模型损失,基于所述攻击性语言预测结果确定攻击性语言预测模型损失,基于所述网络欺凌预测模型损失和所述攻击性语言预测模型损失计算总损失,基于所述总损失更新各模型参数。
5.根据权利要求4所述的网络欺凌会话预测方法,其特征在于,基于攻击性语言预测模型对所述社交特征向量和所述会话级特征向量进行攻击性语言预测,得到攻击性语言预测结果,包括:
将所述社交特征向量和所述会话级特征向量输入至第二多层感知器MLP层中,得到中间输出结果;
将所述中间输出结果输入至攻击性语言预测层,得到攻击性语言预测结果。
6.根据权利要求4所述的网络欺凌会话预测方法,其特征在于,
所述网络欺凌预测模型损失的计算方式为:
Figure FDA0004076496870000021
Figure FDA0004076496870000022
Figure FDA00040764968700000219
其中,LC代表网络欺凌预测模型损失,
Figure FDA0004076496870000023
代表社交网络编码通道对应的网络欺凌预测模型损失,/>
Figure FDA0004076496870000024
代表文本编码通道对应的网络欺凌预测模型损失,i代表数据集中第i个会话组,/>
Figure FDA0004076496870000025
代表第i个会话组的真实标签,/>
Figure FDA0004076496870000026
代表社交网络编码通道的第i个会话组的预测概率,/>
Figure FDA0004076496870000027
代表文本编码通道的第i个会话组的预测概率,/>
Figure FDA0004076496870000028
Figure FDA0004076496870000029
Figure FDA00040764968700000210
代表社交网络编码通道对应的网络欺凌预测的线性层权值矩阵,/>
Figure FDA00040764968700000211
代表社交特征向量,/>
Figure FDA00040764968700000212
代表社交网络编码通道对应的网络欺凌预测的线性层偏置,/>
Figure FDA00040764968700000213
代表文本编码通道对应的网络欺凌预测的线性层权值矩阵,/>
Figure FDA00040764968700000214
代表会话级特征向量,/>
Figure FDA00040764968700000215
代表文本编码通道对应的网络欺凌预测的线性层偏置;
所述攻击性语言预测模型损失的计算方式为:
Figure FDA00040764968700000216
Figure FDA00040764968700000217
Figure FDA00040764968700000218
其中,L0代表攻击性语言预测模型损失,
Figure FDA0004076496870000031
代表社交网络编码通道对应的攻击性语言预测模型损失,/>
Figure FDA0004076496870000032
代表文本编码通道对应的攻击性语言预测模型损失,i代表数据集中第i个会话组,j代表第i个会话组中第j个评论,/>
Figure FDA0004076496870000033
代表第i个会话组中第j个评论的真实标签,
Figure FDA0004076496870000034
代表第i个会话组中第j个评论在社交网络编码通道的标签预测概率,/>
Figure FDA0004076496870000035
代表第i个会话组中第j个评论在文本编码通道的标签预测概率,
Figure FDA0004076496870000036
代表社交网络编码通道对应的攻击性语言预测的线性层权值矩阵,/>
Figure FDA0004076496870000037
代表社交特征向量,/>
Figure FDA0004076496870000038
代表社交网络编码通道对应的攻击性语言预测的线性层偏置,/>
Figure FDA0004076496870000039
代表文本编码通道对应的攻击性语言预测的线性层权值矩阵,/>
Figure FDA00040764968700000310
代表会话级特征向量,/>
Figure FDA00040764968700000311
代表文本编码通道对应的攻击性语言预测的线性层偏置。
7.根据权利要求6所述的网络欺凌会话预测方法,其特征在于,所述总损失的计算公式为:
L=LC+λLO
其中,λ是权重超参数,L0代表攻击性语言预测模型损失,LC代表网络欺凌预测模型损失。
8.根据权利要求1所述的网络欺凌会话预测方法,其特征在于,所述方法还包括:
获取第一样本数据,对各所述第一样本数据进行标注;所述第一样本数据为会话样本数据;
基于标注后的所述第一样本数据对网络模型进行预训练,得到训练好的注释模型;
基于所述注释模型对未标注的第二样本数据进行标注,基于标注后的所述第一样本数据和第二样本数据生成训练样本集。
9.一种网络欺凌会话预测系统,该系统包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如权利要求1至8中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任意一项所述方法的步骤。
CN202310110049.1A 2023-02-02 2023-02-02 一种网络欺凌会话预测方法、系统及存储介质 Pending CN116340477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310110049.1A CN116340477A (zh) 2023-02-02 2023-02-02 一种网络欺凌会话预测方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310110049.1A CN116340477A (zh) 2023-02-02 2023-02-02 一种网络欺凌会话预测方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN116340477A true CN116340477A (zh) 2023-06-27

Family

ID=86893790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310110049.1A Pending CN116340477A (zh) 2023-02-02 2023-02-02 一种网络欺凌会话预测方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116340477A (zh)

Similar Documents

Publication Publication Date Title
CN109308318B (zh) 跨领域文本情感分类模型的训练方法、装置、设备及介质
Koltchinskii Rademacher complexities and bounding the excess risk in active learning
CN110598620B (zh) 基于深度神经网络模型的推荐方法和装置
CN110569359B (zh) 识别模型的训练及应用方法、装置、计算设备及存储介质
Kamada et al. An adaptive learning method of restricted Boltzmann machine by neuron generation and annihilation algorithm
CN114298851A (zh) 基于图表征学习的网络用户社交行为分析方法、装置及存储介质
CN110414005A (zh) 意图识别方法、电子设备及存储介质
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
Lee et al. Learning in the wild: When, how, and what to learn for on-device dataset adaptation
CN115238036A (zh) 一种基于图注意力网络和文本信息的认知诊断方法及装置
CN117313709B (zh) 一种基于统计信息和预训练语言模型的生成文本检测方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
US11948387B2 (en) Optimized policy-based active learning for content detection
Taymouri et al. Encoder-decoder generative adversarial nets for suffix generation and remaining time prediction of business process models
CN116824583A (zh) 弱监督视频场景图生成方法、装置及电子设备
CN117095460A (zh) 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统
Lin et al. Robust educational dialogue act classifiers with low-resource and imbalanced datasets
CN116932938A (zh) 基于拓扑结构和属性信息的链接预测方法及系统
CN114004233B (zh) 一种基于半训练和句子选择的远程监督命名实体识别方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
Chen et al. Data Augmentation for Environmental Sound Classification Using Diffusion Probabilistic Model with Top-K Selection Discriminator
CN116340477A (zh) 一种网络欺凌会话预测方法、系统及存储介质
CN114817516A (zh) 零样本条件下基于逆向匹配的画像映射方法、装置和介质
CN111062477B (zh) 一种数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination