CN114861082A - 一种基于多维度语义表示的攻击性评论检测方法 - Google Patents

一种基于多维度语义表示的攻击性评论检测方法 Download PDF

Info

Publication number
CN114861082A
CN114861082A CN202210571526.XA CN202210571526A CN114861082A CN 114861082 A CN114861082 A CN 114861082A CN 202210571526 A CN202210571526 A CN 202210571526A CN 114861082 A CN114861082 A CN 114861082A
Authority
CN
China
Prior art keywords
semantic
vector
text
target
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210571526.XA
Other languages
English (en)
Inventor
杨鹏
赵翰林
冷俊成
李文军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Youhui Xin'an Technology Co ltd
Original Assignee
Nanjing Youhui Xin'an Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Youhui Xin'an Technology Co ltd filed Critical Nanjing Youhui Xin'an Technology Co ltd
Priority to CN202210571526.XA priority Critical patent/CN114861082A/zh
Publication of CN114861082A publication Critical patent/CN114861082A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多维度语义表示的攻击性评论检测方法,所述方法包括以下步骤:步骤1:评论文本数据采集及预处理;步骤2:文本多维度语义向量生成;步骤3:多维度语义向量交叉编码;步骤4:层级融合分类器预测攻击性检测结果。本发明可以有效解决攻击性评论检测中存在的现有文本表示方法难以深入挖掘语义信息,信息表示维度单一且关联信息较弱等问题。

Description

一种基于多维度语义表示的攻击性评论检测方法
技术领域
本发明涉及一种基于多维度语义表示的攻击性评论检测方法,该方法可用于互联网社交平台攻击性语言检测中,属于互联网与人工智能技术领域。
背景技术
随着社交媒体平台的蓬勃发展,网络社交已为人们沟通的主流方式,便捷的交流平台能够丰富用户的思想市场,社交媒体的多样性和普及性也使得不同行业和不同知识基础的用户自由发声。但是由于社交平台的用户身份可匿名性、现实世界的情绪堵塞以及社交网络的媒介效应等诸多因素,社交网络上的语言暴力等攻击性行为屡见不鲜,严重影响网络空间的公序良俗。因此,检测社交用户发表的攻击性评论,是网络空间内容治理的一项重要工作。
对于从社交媒体采集的用户评论数据,研究者们首先对文本数据进行简单清洗;接着使用语言表征模型对预处理后的文本数据进行文本表示,即将文本数据转换为计算机可理解的形式,并在此过程中提取分类数据的特征;然后构造分类器选择最优的分类匹配,从而分类。目前社交媒体上攻击性语言检测的常用方法大多使用机器学习、深度学习和预训练模型。传统的机器学习方法处理社交媒体上复杂的攻击性语言,不仅十分消耗计算机的算力和内存,且算法准确率上升空间有限。此外,传统的机器学习方法不能对单词之间的远程依赖关系进行建模,且存在数据稀疏性问题。而基于深度学习的方法能够有效识别却很难对攻击性语言进行准确分类,并且没有从多维度分析不同的词嵌入信息对检测攻击性语言的正面影响,也未挖掘出社交用户的历史信息关联和文体特征。
本发明针对攻击性评论检测中存在的信息表示维度单一、关联信息较弱以及暗讽性评论检测效果不佳等问题,提出一种基于多维度语义表示的攻击性评论检测方法(User-Offensive Comment Detection based on Multi-dimensional SemanticRepresentation,UOCD-MSR)。首先,本发明提出文本多维度语义向量生成模块对输入评论文本从针对目标和语义内容两个维度生成字面层级的文本向量,并挖掘用户的历史关联信息实现隐喻层级的语义信息表示;接着,根据多维度语义向量交叉编码机制增强字面层级和隐喻层级语义信息之间的关联程度;最后,使用层级融合分类器充分保障编码后的目标和内容之间的潜在交互信息以及语义保留度,提高攻击性评论的检测结果。
发明内容
针对现有技术存在的问题与不足,本发明提出一种基于多维度语义表示的攻击性评论检测方法UOCD-MSR,该方法能够准确检测社交媒体中用户发表的攻击性评论文本。
为了实现上述目的,本发明的技术方案如下:一种基于多维度语义表示的攻击性评论检测方法,该方法主要包括评论文本数据采集与预处理、文本多维度语义向量生成、多维度语义向量交叉编码和层级融合分类器预测检测结果等过程,能够对文本进行多维度语义分析,准确检测出社交媒体中的攻击性评论。该方法主要包括四个步骤,具体如下:
步骤1:评论文本数据采集及预处理。首先,通过各社交媒体平台的API采集用户评论数据,积累用户评论数据集,数据集中的每个样本包含评论内容和用户ID。接着,对数据集中每一个样本进行预处理,包括分词、替换、分割和去除等操作;
步骤2:文本多维度语义向量生成。对预处理后的评论文本,从针对目标和语义内容两个维度进行全方位的深度挖掘,通过直接目标、广义目标、显式语义和隐式语义四个角度生成文本的词向量表示;并挖掘用户的历史关联信息生成用户的个性特征和文体特征实现隐喻层级的语义信息表示,以此达到暗讽性文本的高准确率检测。
步骤3:多维度语义向量交叉编码。根据步骤2生成的文本词向量,采用注意力机制交叉编码方法来实现目标维度和语义维度之间的关联性增强。
步骤4:层级融合分类器预测检测结果。根据步骤3获得的目标向量和语义向量,通过层级融合分类器将维度不一致的两种向量进行融合,并最大程度还原文本初始意义,最后送入分类器里得到预测结果。
相对于现有技术,本发明的有益效果如下:
1.该方法提出的UOCD-MSR模型能够对评论文本进行多维度语义分析,深入挖掘隐喻层级的语义信息,提高了社交媒体中攻击性评论的检测效果。
2.UOCD-MSR模型采用多维度语义向量编码机制,准确识别句子中的指向性目标并综合考虑字面层级和隐喻层级的语义信息,达到两者之间的关联性增强效果,最大化利用各个维度的文本向量所表达的语义信息。
3.该方法引入各社交媒体用户攻击性评论检测场景,能够有效提升模型的泛化能力,同时提高攻击性评论检测的评价标准值,达到较高水平。
附图说明
图1为本发明实施例的方法总体框架图。
图2为本发明实施例的方法流程图。
具体实施方式
为了加深对本发明的认识和理解,下面结合具体实施例进一步阐明本发明。实施例:本发明的整体框架和具体流程分别如图1和图2所示,具体实施步骤如下:
步骤1,评论文本数据采集及预处理。具体如下:首先,通过各社交媒体平台的API采集用户评论数据,积累用户评论数据集,数据集中的每个样本包含评论内容和用户ID。然后,针对评论数据集进行预处理,采取Python中的表情库,将每条评论中的表情转换为对应的含义文本;使用Python中的第三方库词段通过识别大写字符来分割标签;将所有@USER的字段全部替换为一个@USER令牌,以在保留必要信息的同时去除冗余词;根据社交媒体平台上经常使用的侮辱性词汇列表将大量攻击性词汇常见的拼写变体映射为规范形式;删除尾随空格和无用的标点符号。
步骤2,文本多维度语义向量生成。假设某社交平台上的用户评论数据集为Ds={s1,s2,…,sL},其中si是数据集中第i个句子,L是数据集的长度。给定一个单词序列W={w1,w2,…,wn}表示文本句子。攻击性语言检测可以定义成为每个句子分配标签
Figure BDA0003660454440000031
以区分句子是否具有攻击性;再为每个攻击性句子(OFF)分配标签
Figure BDA0003660454440000032
指示句子是具有针对性的攻击还是非针对性的攻击。该步骤实施过程分为4个子步骤:
子步骤2-1,特定目标攻击向量表示。目标是指特定的个人或实体,使用ELMo和BiLSTM进行训练的命名实体识别方法,对文本进行特定目标攻击向量表示。对于输入的文本序列W={w1,w2,…,wn},首先通过BIOES方法进行标注,得到标注后的字向量序列x={x1,x2,…,xn}。针对标注后的序列,文本多维度语义向量生成器分别使用CNN和ELMo来提取其特征。CNN主要提取字符级别的特征,ELMO则提取词语的动态特征。最后将CNN提取的基于字符的字向量和ELMo提取的动态字向量拼接到一起,形成新向量x′={x′1,x′2,…,x′n}送入到BiLSTM中,BiLSTM通过在输出层将每个词的特征解码为每个对应标签类别的对数概率作为命名实体标签分数,并输出最优标注序列作为特定目标攻击向量表示ST,如公式(1)所示,其中
Figure BDA0003660454440000041
为文本序列W中对应的第i个词的特定目标向量表示。
Figure BDA0003660454440000042
子步骤2-2,广义目标攻击向量表示。广义目标攻击一般针对属于一小部分类别的人,研究发现主要是性别。通过一个性别去偏置模型从给定语料库中学习性别保留去偏词嵌入作为广义目标攻击向量表示GT,如公式(2)所示,其中
Figure BDA0003660454440000043
为文本序列W中对应的第i个词的广义目标向量表示。
Figure BDA0003660454440000044
子步骤2-3,显式语义攻击向量表示。对于显性攻击,无论目标是特定的还是广义的,显性攻击通常由侮辱性词汇中的特定关键词表示。使用dict2vec定义给定文本中单词的强对和弱对,每个单词都由一个向量表示。强配对的词比弱配对的词有更多的相似向量,弱配对的词比不相关的词有更多的相似向量。如果两个词的k近邻在某个弱对之间,那么弱对可以被提升为强对。根据与预训练的词嵌入的余弦距离选择最接近的K个词,发现使用K=5可以很好地权衡语义和句法提取信息。在这种机制下,即可学习到一条文本的显式语义攻击向量表示即ES,如公式(3)所示,其中
Figure BDA0003660454440000045
为文本序列W中对应的第i个词的显式语义向量表示。
Figure BDA0003660454440000046
子步骤2-4,隐式语义攻击向量表示。隐式攻击性语言并不直接表示辱骂,需要采用内容和上下文驱动的混合建模方法来检测在线社交媒体讨论中的讽刺。首先收集用户的所有注释以及历史评论数据,并通过使用特殊的分隔符附加它们来创建文档。每个用户文档及其中的所有单词首先被映射成唯一的向量,每个向量分别由矩阵
Figure BDA0003660454440000047
Figure BDA0003660454440000048
中的一列表示。这里,ds表示嵌入大小,|V|表示词汇表的大小。然后采用段落向量的无监督表示学习方法进行训练,经过训练文档D学习用户的文档向量,这些文档向量代表用户的文体特征和偏好特征。接着采用预训练的CNN提取用户的个性特征,并将个性特征包含在用户嵌入中。通过提取CNN的最后一个隐藏层向量的激活,即个性特征
Figure BDA0003660454440000051
然后将用户对所有评论的个性特征的期望定义为总体个性特征向量
Figure BDA0003660454440000052
通过多视角融合器CCA将用户的文体特征和个性特征融合起来,最后得到根据本文数据集训练的内在语义讽刺向量表示IS,如公式(4)所示,其中
Figure BDA0003660454440000053
为文本序列W中对应的第i个词的显式语义向量表示。
Figure BDA0003660454440000054
步骤3,多维度语义向量交叉编码。对于步骤2从目标维度和语义维度得到的四种文本表示{ST,GT,ES,IS},首先使用连接函数将{ST,GT}拼接成目标向量表示XT;同理,{ES,IS}被拼接成内容向量表示XS。拼接完成后,XT和XS作为输入发送到Transformer机制。为了实现目标和语义两个维度之间的关联性增强作用,将目标和语义进行交叉计算,得到文本的编码表示ZT和ZS,如公式(5)和(6)所示。
Figure BDA0003660454440000055
Figure BDA0003660454440000056
其中,dk表示注意力机制里K值的维度,VS和VT分别表示语义和目标维度的V值。
经过多头注意力之后,将目标维度的结果ZT和语义内容的编码结果ZS送到残差连接和归一化层(Add&Norm),进行残差连接计算和层归一化处理。在多维度语义向量交叉编码机制里,目标和语义内容在Add&Norm层的具体计算如公式(7)和(8)所示:
OT=LayerNorm(FNN(ZS)+ZT) (7)
OS=LayerNorm(FNN(ZT)+ZS) (8)
最终会得到Transformer编码器的两个输出,分别为OT和OS,其中
Figure BDA0003660454440000057
Figure BDA0003660454440000058
这里,n表示序列的长度,Td和Sd分别表示目标角度的词嵌入维数和语义内容角度的词嵌入维数。
步骤4,层级融合分类器预测检测结果。为最大程度地还原文本的初始意义,融合维度不一致的目标向量和语义内容向量,提出层级融合分类器算法。具体来说,首先分别将步骤3中获得的目标向量OT和语义内容向量OS从多维压缩成一维,如公式(9)和(10),然后通过一个Dense层并应用Softmax函数得到对应的目标角度和内容角度的d维的概率向量,即VT和VS,这里d为类别数量。具体计算公式(11)和(12)如下:
Figure BDA0003660454440000061
Figure BDA0003660454440000062
Figure BDA0003660454440000063
Figure BDA0003660454440000064
其中,
Figure BDA0003660454440000065
Figure BDA0003660454440000066
接着将VT和VS分别喂入融合器,得到等维的目标表示
Figure BDA0003660454440000067
和语义内容表示
Figure BDA0003660454440000068
如公式(13)和(14)所示:
Figure BDA0003660454440000069
Figure BDA00036604544400000610
其中,
Figure BDA00036604544400000611
表示连接函数,(VT,…,VT)和(VS,…,VS)分别表示将VT和VS广播成N个词元,得到V′T和V′S
从目标角度看,使用连接函数将V′T和OS拼接起来,生成增扩的语义内容状态
Figure BDA00036604544400000612
并再次经过Flatten层进行压缩和Dense层进行计算,最终得到目标角度的输出矩阵PS;同理,从语义内容维度也能得到一个输出矩阵PT,如公式(15)和(16)所示。
Figure BDA00036604544400000613
Figure BDA00036604544400000614
其中,
Figure BDA00036604544400000615
最后,将从目标角度和语义角度得到的两个输出矩阵PT和PS拼接起来得到P,并将拼接后的矩阵进行压缩,压缩后的结果送入到层级融合分类器里,得到要预测的每个类别的概率C,层级融合分类器的计算如公式(17)、(18)和公式(19)所示。
L1=ReLU(PW1+b1) (17)
L2=ReLU(L1W2+b2) (18)
C=Softmax(L2W3+b3) (19)
基于相同的发明构思,本发明实施例公开的一种基于多维度语义表示的攻击性评论检测方法与装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述基于多维度语义表示的攻击性评论检测方法与装置。
需要说明的是,上述实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

Claims (7)

1.一种基于多维度语义表示的攻击性评论检测方法,其特征在于,所述方法包括以下步骤:
步骤1:评论文本数据采集及预处理;
步骤2:文本多维度语义向量生成;
步骤3:多维度语义向量交叉编码;
步骤4:层级融合分类器预测攻击性检测结果。
2.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤1:评论文本数据采集及预处理,具体如下:首先,通过各社交媒体平台的API采集用户评论数据,积累用户评论数据集,数据集中的每个样本包含评论内容和用户ID,接着,对数据集中每一个样本进行预处理,包括分词、替换、分割和去除操作。
3.根据权利要求2所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤2:文本多维度语义向量生成,对预处理后的评论文本,从针对目标和语义内容两个维度进行全方位的深度挖掘,通过直接目标、广义目标、显式语义和隐式语义四个角度生成文本的词向量表示;并挖掘用户的历史关联信息生成用户的个性特征和文体特征实现隐喻层级的语义信息表示,以此达到暗讽性文本的高准确率检测。
4.根据权利要求3所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤3:多维度语义向量交叉编码,根据步骤2生成的文本词向量,采用注意力机制交叉编码方法来实现目标维度和语义维度之间的关联性增强。
5.根据权利要求4所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤4:层级融合分类器预测检测结果,根据步骤3获得的目标向量和语义向量,通过层级融合分类器将维度不一致的两种向量进行融合,并最大程度还原文本初始意义,最后送入分类器里得到预测结果。
6.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤2,文本多维度语义向量生成,具体如下:假设某社交平台上的用户评论数据集为Ds={s1,s2,…,sL},其中si是数据集中第i个句子,L是数据集的长度,给定一个单词序列W={w1,w2,…,wn}表示文本句子,攻击性语言检测定义成为每个句子分配标签
Figure FDA0003660454430000011
以区分句子是否具有攻击性;再为每个攻击性句子(OFF)分配标签
Figure FDA0003660454430000021
指示句子是具有针对性的攻击还是非针对性的攻击,该步骤实施过程分为4个子步骤:
子步骤2-1,特定目标攻击向量表示,目标是指特定的个人或实体,使用ELMo和BiLSTM进行训练的命名实体识别方法,对文本进行特定目标攻击向量表示,对于输入的文本序列W={w1,w2,…,wn},首先通过BIOES方法进行标注,得到标注后的字向量序列x={x1,x2,…,xn},针对标注后的序列,文本多维度语义向量生成器分别使用CNN和ELMo来提取其特征,CNN主要提取字符级别的特征,ELMO则提取词语的动态特征,最后将CNN提取的基于字符的字向量和ELMo提取的动态字向量拼接到一起,形成新向量x′={x′1,x′2,…,x′n}送入到BiLSTM中,BiLSTM通过在输出层将每个词的特征解码为每个对应标签类别的对数概率作为命名实体标签分数,并输出最优标注序列作为特定目标攻击向量表示ST,如公式(1)所示,其中
Figure FDA0003660454430000022
为文本序列W中对应的第i个词的特定目标向量表示:
Figure FDA0003660454430000023
子步骤2-2,广义目标攻击向量表示,通过一个性别去偏置模型从给定语料库中学习性别保留去偏词嵌入作为广义目标攻击向量表示GT,如公式(2)所示,其中
Figure FDA0003660454430000024
为文本序列W中对应的第i个词的广义目标向量表示,
Figure FDA0003660454430000025
子步骤2-3,显式语义攻击向量表示,对于显性攻击,使用dict2vec定义给定文本中单词的强对和弱对,每个单词都由一个向量表示,如果两个词的k近邻在某个弱对之间,那么弱对可以被提升为强对,根据与预训练的词嵌入的余弦距离选择最接近的K个词,发现使用K=5很好地权衡语义和句法提取信息,在这种机制下,即可学习到一条文本的显式语义攻击向量表示即ES,如公式(3)所示,其中
Figure FDA0003660454430000026
为文本序列W中对应的第i个词的显式语义向量表示,
Figure FDA0003660454430000027
子步骤2-4,隐式语义攻击向量表示,隐式攻击性语言并不直接表示辱骂,需要采用内容和上下文驱动的混合建模方法来检测在线社交媒体讨论中的讽刺,首先收集用户的所有注释以及历史评论数据,并通过使用特殊的分隔符附加它们来创建文档,每个用户文档及其中的所有单词首先被映射成唯一的向量,每个向量分别由矩阵
Figure FDA0003660454430000028
Figure FDA0003660454430000029
中的一列表示,这里,ds表示嵌入大小,|V|表示词汇表的大小,然后采用段落向量的无监督表示学习方法进行训练,经过训练文档D学习用户的文档向量,这些文档向量代表用户的文体特征和偏好特征,接着采用预训练的CNN提取用户的个性特征,并将个性特征包含在用户嵌入中,通过提取CNN的最后一个隐藏层向量的激活,即个性特征
Figure FDA0003660454430000031
然后将用户对所有评论的个性特征的期望定义为总体个性特征向量
Figure FDA0003660454430000032
通过多视角融合器CCA将用户的文体特征和个性特征融合起来,最后得到根据本文数据集训练的内在语义讽刺向量表示IS,如公式(4)所示,其中
Figure FDA0003660454430000033
为文本序列W中对应的第i个词的显式语义向量表示,
Figure FDA0003660454430000034
7.根据权利要求1所述的基于多维度语义表示的攻击性评论检测方法,其特征在于,步骤3,多维度语义向量交叉编码,对于步骤2从目标维度和语义维度得到的四种文本表示{ST,GT,ES,IS},首先使用连接函数将{ST,GT}拼接成目标向量表示XT;同理,{ES,IS}被拼接成内容向量表示XS,拼接完成后,XT和XS作为输入发送到Transformer机制,为了实现目标和语义两个维度之间的关联性增强作用,将目标和语义进行交叉计算,得到文本的编码表示,如公式(5)和(6)所示,
Figure FDA0003660454430000035
Figure FDA0003660454430000036
其中,dk表示注意力机制里K值的维度,VS和VT分别表示语义和目标维度的V值;
经过多头注意力之后,将目标维度的结果ZT和语义内容的编码结果ZS送到残差连接和归一化层(Add&Norm),进行残差连接计算和层归一化处理,在多维度语义向量交叉编码机制里,目标和语义内容在Add&Norm层的具体计算如公式(7)和(8)所示:
OT=LayerNorm(FNN(ZS)+ZT) (7)
OS=LayerNorm(FNN(ZT)+ZS) (8)
最终会得到Transformer编码器的两个输出,分别为OT和OS,其中
Figure FDA0003660454430000041
Figure FDA0003660454430000042
这里,n表示序列的长度,Td和Sd分别表示目标角度的词嵌入维数和语义内容角度的词嵌入维数。
CN202210571526.XA 2022-05-24 2022-05-24 一种基于多维度语义表示的攻击性评论检测方法 Pending CN114861082A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210571526.XA CN114861082A (zh) 2022-05-24 2022-05-24 一种基于多维度语义表示的攻击性评论检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210571526.XA CN114861082A (zh) 2022-05-24 2022-05-24 一种基于多维度语义表示的攻击性评论检测方法

Publications (1)

Publication Number Publication Date
CN114861082A true CN114861082A (zh) 2022-08-05

Family

ID=82640011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210571526.XA Pending CN114861082A (zh) 2022-05-24 2022-05-24 一种基于多维度语义表示的攻击性评论检测方法

Country Status (1)

Country Link
CN (1) CN114861082A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115361242A (zh) * 2022-10-24 2022-11-18 长沙市智为信息技术有限公司 一种基于多维特征网络的Web攻击检测方法
CN116882414A (zh) * 2023-09-05 2023-10-13 深圳爱马奇科技有限公司 基于大规模语言模型的评语自动生成方法及相关装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115361242A (zh) * 2022-10-24 2022-11-18 长沙市智为信息技术有限公司 一种基于多维特征网络的Web攻击检测方法
CN116882414A (zh) * 2023-09-05 2023-10-13 深圳爱马奇科技有限公司 基于大规模语言模型的评语自动生成方法及相关装置
CN116882414B (zh) * 2023-09-05 2023-11-07 深圳爱马奇科技有限公司 基于大规模语言模型的评语自动生成方法及相关装置

Similar Documents

Publication Publication Date Title
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN107315737A (zh) 一种语义逻辑处理方法及系统
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN110750646A (zh) 一种旅店评论文本的属性描述提取方法
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN114912453A (zh) 基于增强序列特征的中文法律文书命名实体识别方法
Heo et al. Multimodal neural machine translation with weakly labeled images
CN111581964A (zh) 一种汉语古籍的主题分析方法
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
Parvin et al. Transformer-based local-global guidance for image captioning
Al-Tameemi et al. Interpretable multimodal sentiment classification using deep multi-view attentive network of image and text data
CN115017884A (zh) 基于图文多模态门控增强的文本平行句对抽取方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification
Vijayaraju Image retrieval using image captioning
CN116579348A (zh) 基于不确定语义融合的虚假新闻检测方法及系统
CN114861601B (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN114492425B (zh) 采用一套领域标签体系将多维度数据打通的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination