CN114861082A

CN114861082A - 一种基于多维度语义表示的攻击性评论检测方法

Info

Publication number: CN114861082A
Application number: CN202210571526.XA
Authority: CN
Inventors: 杨鹏; 赵翰林; 冷俊成; 李文军
Original assignee: Nanjing Youhui Xin'an Technology Co ltd
Current assignee: Nanjing Youhui Xin'an Technology Co ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-08-05

Abstract

本发明公开了一种基于多维度语义表示的攻击性评论检测方法，所述方法包括以下步骤：步骤1：评论文本数据采集及预处理；步骤2：文本多维度语义向量生成；步骤3：多维度语义向量交叉编码；步骤4：层级融合分类器预测攻击性检测结果。本发明可以有效解决攻击性评论检测中存在的现有文本表示方法难以深入挖掘语义信息，信息表示维度单一且关联信息较弱等问题。

Description

一种基于多维度语义表示的攻击性评论检测方法

技术领域

本发明涉及一种基于多维度语义表示的攻击性评论检测方法，该方法可用于互联网社交平台攻击性语言检测中，属于互联网与人工智能技术领域。

背景技术

随着社交媒体平台的蓬勃发展，网络社交已为人们沟通的主流方式，便捷的交流平台能够丰富用户的思想市场，社交媒体的多样性和普及性也使得不同行业和不同知识基础的用户自由发声。但是由于社交平台的用户身份可匿名性、现实世界的情绪堵塞以及社交网络的媒介效应等诸多因素，社交网络上的语言暴力等攻击性行为屡见不鲜，严重影响网络空间的公序良俗。因此，检测社交用户发表的攻击性评论，是网络空间内容治理的一项重要工作。

对于从社交媒体采集的用户评论数据，研究者们首先对文本数据进行简单清洗；接着使用语言表征模型对预处理后的文本数据进行文本表示，即将文本数据转换为计算机可理解的形式，并在此过程中提取分类数据的特征；然后构造分类器选择最优的分类匹配，从而分类。目前社交媒体上攻击性语言检测的常用方法大多使用机器学习、深度学习和预训练模型。传统的机器学习方法处理社交媒体上复杂的攻击性语言，不仅十分消耗计算机的算力和内存，且算法准确率上升空间有限。此外，传统的机器学习方法不能对单词之间的远程依赖关系进行建模，且存在数据稀疏性问题。而基于深度学习的方法能够有效识别却很难对攻击性语言进行准确分类，并且没有从多维度分析不同的词嵌入信息对检测攻击性语言的正面影响，也未挖掘出社交用户的历史信息关联和文体特征。

本发明针对攻击性评论检测中存在的信息表示维度单一、关联信息较弱以及暗讽性评论检测效果不佳等问题，提出一种基于多维度语义表示的攻击性评论检测方法(User-Offensive Comment Detection based on Multi-dimensional SemanticRepresentation，UOCD-MSR)。首先，本发明提出文本多维度语义向量生成模块对输入评论文本从针对目标和语义内容两个维度生成字面层级的文本向量，并挖掘用户的历史关联信息实现隐喻层级的语义信息表示；接着，根据多维度语义向量交叉编码机制增强字面层级和隐喻层级语义信息之间的关联程度；最后，使用层级融合分类器充分保障编码后的目标和内容之间的潜在交互信息以及语义保留度，提高攻击性评论的检测结果。

发明内容

针对现有技术存在的问题与不足，本发明提出一种基于多维度语义表示的攻击性评论检测方法UOCD-MSR，该方法能够准确检测社交媒体中用户发表的攻击性评论文本。

为了实现上述目的，本发明的技术方案如下：一种基于多维度语义表示的攻击性评论检测方法，该方法主要包括评论文本数据采集与预处理、文本多维度语义向量生成、多维度语义向量交叉编码和层级融合分类器预测检测结果等过程，能够对文本进行多维度语义分析，准确检测出社交媒体中的攻击性评论。该方法主要包括四个步骤，具体如下：

步骤1：评论文本数据采集及预处理。首先，通过各社交媒体平台的API采集用户评论数据，积累用户评论数据集，数据集中的每个样本包含评论内容和用户ID。接着，对数据集中每一个样本进行预处理，包括分词、替换、分割和去除等操作；

步骤2：文本多维度语义向量生成。对预处理后的评论文本，从针对目标和语义内容两个维度进行全方位的深度挖掘，通过直接目标、广义目标、显式语义和隐式语义四个角度生成文本的词向量表示；并挖掘用户的历史关联信息生成用户的个性特征和文体特征实现隐喻层级的语义信息表示，以此达到暗讽性文本的高准确率检测。

步骤3：多维度语义向量交叉编码。根据步骤2生成的文本词向量，采用注意力机制交叉编码方法来实现目标维度和语义维度之间的关联性增强。

步骤4：层级融合分类器预测检测结果。根据步骤3获得的目标向量和语义向量，通过层级融合分类器将维度不一致的两种向量进行融合，并最大程度还原文本初始意义，最后送入分类器里得到预测结果。

相对于现有技术，本发明的有益效果如下：

1.该方法提出的UOCD-MSR模型能够对评论文本进行多维度语义分析，深入挖掘隐喻层级的语义信息，提高了社交媒体中攻击性评论的检测效果。

2.UOCD-MSR模型采用多维度语义向量编码机制，准确识别句子中的指向性目标并综合考虑字面层级和隐喻层级的语义信息，达到两者之间的关联性增强效果，最大化利用各个维度的文本向量所表达的语义信息。

3.该方法引入各社交媒体用户攻击性评论检测场景，能够有效提升模型的泛化能力，同时提高攻击性评论检测的评价标准值，达到较高水平。

附图说明

图1为本发明实施例的方法总体框架图。

图2为本发明实施例的方法流程图。

具体实施方式

为了加深对本发明的认识和理解，下面结合具体实施例进一步阐明本发明。实施例：本发明的整体框架和具体流程分别如图1和图2所示，具体实施步骤如下：

步骤1，评论文本数据采集及预处理。具体如下：首先，通过各社交媒体平台的API采集用户评论数据，积累用户评论数据集，数据集中的每个样本包含评论内容和用户ID。然后，针对评论数据集进行预处理，采取Python中的表情库，将每条评论中的表情转换为对应的含义文本；使用Python中的第三方库词段通过识别大写字符来分割标签；将所有@USER的字段全部替换为一个@USER令牌，以在保留必要信息的同时去除冗余词；根据社交媒体平台上经常使用的侮辱性词汇列表将大量攻击性词汇常见的拼写变体映射为规范形式；删除尾随空格和无用的标点符号。

步骤2，文本多维度语义向量生成。假设某社交平台上的用户评论数据集为D^s＝{s₁,s₂,…,s_L}，其中s_i是数据集中第i个句子，L是数据集的长度。给定一个单词序列W＝{w₁,w₂,…,w_n}表示文本句子。攻击性语言检测可以定义成为每个句子分配标签

以区分句子是否具有攻击性；再为每个攻击性句子(OFF)分配标签

指示句子是具有针对性的攻击还是非针对性的攻击。该步骤实施过程分为4个子步骤：

子步骤2-1，特定目标攻击向量表示。目标是指特定的个人或实体，使用ELMo和BiLSTM进行训练的命名实体识别方法，对文本进行特定目标攻击向量表示。对于输入的文本序列W＝{w₁,w₂,…,w_n}，首先通过BIOES方法进行标注，得到标注后的字向量序列x＝{x₁,x₂,…,x_n}。针对标注后的序列，文本多维度语义向量生成器分别使用CNN和ELMo来提取其特征。CNN主要提取字符级别的特征，ELMO则提取词语的动态特征。最后将CNN提取的基于字符的字向量和ELMo提取的动态字向量拼接到一起，形成新向量x′＝{x′₁,x′₂,…,x′_n}送入到BiLSTM中，BiLSTM通过在输出层将每个词的特征解码为每个对应标签类别的对数概率作为命名实体标签分数，并输出最优标注序列作为特定目标攻击向量表示S_T，如公式(1)所示，其中

为文本序列W中对应的第i个词的特定目标向量表示。

子步骤2-2，广义目标攻击向量表示。广义目标攻击一般针对属于一小部分类别的人，研究发现主要是性别。通过一个性别去偏置模型从给定语料库中学习性别保留去偏词嵌入作为广义目标攻击向量表示G_T，如公式(2)所示，其中

为文本序列W中对应的第i个词的广义目标向量表示。

子步骤2-3，显式语义攻击向量表示。对于显性攻击，无论目标是特定的还是广义的，显性攻击通常由侮辱性词汇中的特定关键词表示。使用dict2vec定义给定文本中单词的强对和弱对，每个单词都由一个向量表示。强配对的词比弱配对的词有更多的相似向量，弱配对的词比不相关的词有更多的相似向量。如果两个词的k近邻在某个弱对之间，那么弱对可以被提升为强对。根据与预训练的词嵌入的余弦距离选择最接近的K个词，发现使用K＝5可以很好地权衡语义和句法提取信息。在这种机制下，即可学习到一条文本的显式语义攻击向量表示即E_S，如公式(3)所示，其中

为文本序列W中对应的第i个词的显式语义向量表示。

子步骤2-4，隐式语义攻击向量表示。隐式攻击性语言并不直接表示辱骂，需要采用内容和上下文驱动的混合建模方法来检测在线社交媒体讨论中的讽刺。首先收集用户的所有注释以及历史评论数据，并通过使用特殊的分隔符附加它们来创建文档。每个用户文档及其中的所有单词首先被映射成唯一的向量，每个向量分别由矩阵

和

中的一列表示。这里，d_s表示嵌入大小，|V|表示词汇表的大小。然后采用段落向量的无监督表示学习方法进行训练，经过训练文档D学习用户的文档向量，这些文档向量代表用户的文体特征和偏好特征。接着采用预训练的CNN提取用户的个性特征，并将个性特征包含在用户嵌入中。通过提取CNN的最后一个隐藏层向量的激活，即个性特征

然后将用户对所有评论的个性特征的期望定义为总体个性特征向量

通过多视角融合器CCA将用户的文体特征和个性特征融合起来，最后得到根据本文数据集训练的内在语义讽刺向量表示I_S，如公式(4)所示，其中

为文本序列W中对应的第i个词的显式语义向量表示。

步骤3，多维度语义向量交叉编码。对于步骤2从目标维度和语义维度得到的四种文本表示{S_T,G_T,E_S,I_S}，首先使用连接函数将{S_T,G_T}拼接成目标向量表示X_T；同理，{E_S,I_S}被拼接成内容向量表示X_S。拼接完成后，X_T和X_S作为输入发送到Transformer机制。为了实现目标和语义两个维度之间的关联性增强作用，将目标和语义进行交叉计算，得到文本的编码表示Z_T和Z_S，如公式(5)和(6)所示。

其中，d_k表示注意力机制里K值的维度，V_S和V_T分别表示语义和目标维度的V值。

经过多头注意力之后，将目标维度的结果Z_T和语义内容的编码结果Z_S送到残差连接和归一化层(Add&Norm)，进行残差连接计算和层归一化处理。在多维度语义向量交叉编码机制里，目标和语义内容在Add&Norm层的具体计算如公式(7)和(8)所示：

O_T＝LayerNorm(FNN(Z_S)+Z_T) (7)

O_S＝LayerNorm(FNN(Z_T)+Z_S) (8)

最终会得到Transformer编码器的两个输出，分别为O_T和O_S，其中

这里，n表示序列的长度，T_d和S_d分别表示目标角度的词嵌入维数和语义内容角度的词嵌入维数。

步骤4，层级融合分类器预测检测结果。为最大程度地还原文本的初始意义，融合维度不一致的目标向量和语义内容向量，提出层级融合分类器算法。具体来说，首先分别将步骤3中获得的目标向量O_T和语义内容向量O_S从多维压缩成一维，如公式(9)和(10)，然后通过一个Dense层并应用Softmax函数得到对应的目标角度和内容角度的d维的概率向量，即V_T和V_S，这里d为类别数量。具体计算公式(11)和(12)如下：

其中，

接着将V_T和V_S分别喂入融合器，得到等维的目标表示

和语义内容表示

如公式(13)和(14)所示：

其中，

表示连接函数，(V_T,…,V_T)和(V_S,…,V_S)分别表示将V_T和V_S广播成N个词元，得到V′_T和V′_S。

从目标角度看，使用连接函数将V′_T和O_S拼接起来，生成增扩的语义内容状态

并再次经过Flatten层进行压缩和Dense层进行计算，最终得到目标角度的输出矩阵P_S；同理，从语义内容维度也能得到一个输出矩阵P_T，如公式(15)和(16)所示。

其中，

最后，将从目标角度和语义角度得到的两个输出矩阵P_T和P_S拼接起来得到P，并将拼接后的矩阵进行压缩，压缩后的结果送入到层级融合分类器里，得到要预测的每个类别的概率C，层级融合分类器的计算如公式(17)、(18)和公式(19)所示。

L₁＝ReLU(PW₁+b₁) (17)

L₂＝ReLU(L₁W₂+b₂) (18)

C＝Softmax(L₂W₃+b₃) (19)

基于相同的发明构思，本发明实施例公开的一种基于多维度语义表示的攻击性评论检测方法与装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述基于多维度语义表示的攻击性评论检测方法与装置。

需要说明的是，上述实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims

1.一种基于多维度语义表示的攻击性评论检测方法，其特征在于，所述方法包括以下步骤：

步骤1：评论文本数据采集及预处理；

步骤2：文本多维度语义向量生成；

步骤3：多维度语义向量交叉编码；

步骤4：层级融合分类器预测攻击性检测结果。

2.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤1：评论文本数据采集及预处理，具体如下：首先，通过各社交媒体平台的API采集用户评论数据，积累用户评论数据集，数据集中的每个样本包含评论内容和用户ID，接着，对数据集中每一个样本进行预处理，包括分词、替换、分割和去除操作。

3.根据权利要求2所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤2：文本多维度语义向量生成，对预处理后的评论文本，从针对目标和语义内容两个维度进行全方位的深度挖掘，通过直接目标、广义目标、显式语义和隐式语义四个角度生成文本的词向量表示；并挖掘用户的历史关联信息生成用户的个性特征和文体特征实现隐喻层级的语义信息表示，以此达到暗讽性文本的高准确率检测。

4.根据权利要求3所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤3：多维度语义向量交叉编码，根据步骤2生成的文本词向量，采用注意力机制交叉编码方法来实现目标维度和语义维度之间的关联性增强。

5.根据权利要求4所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤4：层级融合分类器预测检测结果，根据步骤3获得的目标向量和语义向量，通过层级融合分类器将维度不一致的两种向量进行融合，并最大程度还原文本初始意义，最后送入分类器里得到预测结果。

6.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤2，文本多维度语义向量生成，具体如下：假设某社交平台上的用户评论数据集为D^s＝{s₁,s₂,…,s_L}，其中s_i是数据集中第i个句子，L是数据集的长度，给定一个单词序列W＝{w₁,w₂,…,w_n}表示文本句子，攻击性语言检测定义成为每个句子分配标签

指示句子是具有针对性的攻击还是非针对性的攻击，该步骤实施过程分为4个子步骤：

子步骤2-1，特定目标攻击向量表示，目标是指特定的个人或实体，使用ELMo和BiLSTM进行训练的命名实体识别方法，对文本进行特定目标攻击向量表示，对于输入的文本序列W＝{w₁,w₂,…,w_n}，首先通过BIOES方法进行标注，得到标注后的字向量序列x＝{x₁,x₂,…,x_n}，针对标注后的序列，文本多维度语义向量生成器分别使用CNN和ELMo来提取其特征，CNN主要提取字符级别的特征，ELMO则提取词语的动态特征，最后将CNN提取的基于字符的字向量和ELMo提取的动态字向量拼接到一起，形成新向量x′＝{x′₁,x′₂,…,x′_n}送入到BiLSTM中，BiLSTM通过在输出层将每个词的特征解码为每个对应标签类别的对数概率作为命名实体标签分数，并输出最优标注序列作为特定目标攻击向量表示S_T，如公式(1)所示，其中

为文本序列W中对应的第i个词的特定目标向量表示：

子步骤2-2，广义目标攻击向量表示，通过一个性别去偏置模型从给定语料库中学习性别保留去偏词嵌入作为广义目标攻击向量表示G_T，如公式(2)所示，其中

为文本序列W中对应的第i个词的广义目标向量表示，

子步骤2-3，显式语义攻击向量表示，对于显性攻击，使用dict2vec定义给定文本中单词的强对和弱对，每个单词都由一个向量表示，如果两个词的k近邻在某个弱对之间，那么弱对可以被提升为强对，根据与预训练的词嵌入的余弦距离选择最接近的K个词，发现使用K＝5很好地权衡语义和句法提取信息，在这种机制下，即可学习到一条文本的显式语义攻击向量表示即E_S，如公式(3)所示，其中

为文本序列W中对应的第i个词的显式语义向量表示，

子步骤2-4，隐式语义攻击向量表示，隐式攻击性语言并不直接表示辱骂，需要采用内容和上下文驱动的混合建模方法来检测在线社交媒体讨论中的讽刺，首先收集用户的所有注释以及历史评论数据，并通过使用特殊的分隔符附加它们来创建文档，每个用户文档及其中的所有单词首先被映射成唯一的向量，每个向量分别由矩阵

和

中的一列表示，这里，d_s表示嵌入大小，|V|表示词汇表的大小，然后采用段落向量的无监督表示学习方法进行训练，经过训练文档D学习用户的文档向量，这些文档向量代表用户的文体特征和偏好特征，接着采用预训练的CNN提取用户的个性特征，并将个性特征包含在用户嵌入中，通过提取CNN的最后一个隐藏层向量的激活，即个性特征

为文本序列W中对应的第i个词的显式语义向量表示，

7.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法，其特征在于，步骤3，多维度语义向量交叉编码，对于步骤2从目标维度和语义维度得到的四种文本表示{S_T,G_T,E_S,I_S}，首先使用连接函数将{S_T,G_T}拼接成目标向量表示X_T；同理，{E_S,I_S}被拼接成内容向量表示X_S，拼接完成后，X_T和X_S作为输入发送到Transformer机制，为了实现目标和语义两个维度之间的关联性增强作用，将目标和语义进行交叉计算，得到文本的编码表示，如公式(5)和(6)所示，

其中，d_k表示注意力机制里K值的维度，V_S和V_T分别表示语义和目标维度的V值；

经过多头注意力之后，将目标维度的结果Z_T和语义内容的编码结果Z_S送到残差连接和归一化层(Add&Norm)，进行残差连接计算和层归一化处理，在多维度语义向量交叉编码机制里，目标和语义内容在Add&Norm层的具体计算如公式(7)和(8)所示：

O_T＝LayerNorm(FNN(Z_S)+Z_T) (7)

O_S＝LayerNorm(FNN(Z_T)+Z_S) (8)