CN113051916B - 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 - Google Patents

一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 Download PDF

Info

Publication number
CN113051916B
CN113051916B CN202110443368.5A CN202110443368A CN113051916B CN 113051916 B CN113051916 B CN 113051916B CN 202110443368 A CN202110443368 A CN 202110443368A CN 113051916 B CN113051916 B CN 113051916B
Authority
CN
China
Prior art keywords
emotion
microblog
interactive
context
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110443368.5A
Other languages
English (en)
Other versions
CN113051916A (zh
Inventor
曹玖新
顾天韵
赵志翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110443368.5A priority Critical patent/CN113051916B/zh
Publication of CN113051916A publication Critical patent/CN113051916A/zh
Application granted granted Critical
Publication of CN113051916B publication Critical patent/CN113051916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其步骤为:首先基于单条微博语义及其交互历史的文本内容,对微博文本进行情感极性标注;其次采用自然语言处理领域中的预训练语言模型BERT,提取语句级的微博情感语义特征;接着利用长短期记忆网络LSTM,在交互式的社交网络语境下,提取语境级的情感语义特征;然后引入多任务学习的学习范式,建立情感偏移感知辅助任务,利用该情感偏移特征设计情感关联关系增强的Attention机制,从交互历史中提取出与当前微博相关的情感影响因素,再与情感语义特征融合并进行情感极性分类,构建微博文本情感识别模型。该方法大幅提高了交互式微博文本情感挖掘的准确率与模型的泛化能力。

Description

一种社交网络中基于情感偏移感知的交互式微博文本情感挖 掘方法
技术领域
本发明涉及到一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法。
背景技术
近年来,随着信息技术的飞速发展和互联网应用的普及,越来越多的人习惯通过网络平台发布个人观点并分享自己的生活,新浪微博作为拥有数亿网络用户的成熟社交网络平台,已成为中国网民日常生活中发表看法、参与讨论的重要途径,在我国网络舆情发展的进程中有着举足轻重的作用,具有巨大的社会价值。对微博文本的情感分析,主要是对带有感情色彩的主观性文本进行分析、处理、归纳然后进行推理的过程,由此可以获取网民对某个事件或事物的看法,从而感知整体舆情,因此,在社交网络中挖掘微博文本情感具有重要的现实意义。
当前关于微博文本情感的识别技术主要针对单条微博文本,或是忽略了社交网络中交互式语境下的情感动态变化过程。而在现实中由于受到开放自由的社交网络影响,微博用户所表达出的情感不仅仅由单条微博文本体现,更是经历了一个动态变化过程后所产生的结果,即舆论会随着网民的互动而逐步变化,因此,感知微博用户在参与讨论时自始至终的情感偏移过程,有助于提高交互式场景下微博文本情感识别的准确率。
发明内容
本发明所要解决的技术问题是:提供一种可以识别与分析微博文本情感的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法。
为解决上述技术问题,本发明采用的技术方案为:一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,利用社交网络中交互式场景下,微博用户的情感偏移特征可以为微博之间的情感影响关系提供显式且精确的线索,借此提取语境中情感影响因素,从而提升微博文本情感识别的表现,所述方法包括如下步骤:
步骤1)根据社交网络中每条微博文本以及其交互历史的上下文语义信息,标注微博文本的情感极性,并划分训练集、验证集与测试集;
步骤2)采用自然语言处理领域中的预训练语言模型BERT,提取语句级的微博情感语义特征;
步骤3)针对交互式的社交网络语境进行分析,基于长短期记忆网络LSTM,提取语境级的微博情感语义特征;
步骤4)将步骤2)、步骤3)得到的特征拼接为特征向量,以表示微博的基本情感语义特征;
步骤5)针对情感偏移进行分析,用户在时间维度上相邻文本之间所体现出的情感偏移感知方法,可抽象为句子对分类建模问题,将步骤4)所得的微博基本情感语义特征输入多层感知机,映射至情感偏移标签空间,进行参数学习,同时得到用户情感偏移特征;
步骤6)中在交互语境中进一步挖掘情感影响因素。由于步骤5)中的情感偏移特征可以看作是情感偏移感知任务结果的估计值。此时情感偏移程度可以看作一个已知量,那么在已知各语句与上句相比是否会发生情感变化的基础上再从语境中进一步提取信息,能够更有针对性地挖掘出交互式语境中相关情感影响因素。由此可将步骤5)所得的情感偏移特征与步骤4)所得的基本情感语义特征进行融合,设计情感关联关系增强的语境级Attention机制,进一步从交互历史中提取出与单条微博相关的情感影响因素;
步骤7)根据步骤6)所得的情感影响因素,再与步骤4)所得的基本情感语义特征融合,得到在交互式语境下单条微博文本的最终情感特征,并输入多层感知机,映射至微博文本情感极性标签空间,进行参数学习;
步骤8)引入多任务学习范式,步骤5)可看作用户情感偏移感知的辅助任务,步骤7)可看作微博文本情感识别的主任务,使两者共享隐层参数共同学习,从而完成微博文本情感识别模型的构建,并通过采用最大似然估计和梯度下降法训练学习得到模型参数;
步骤9)将待推断文本情感的任意样本输入步骤8)所得模型,最终输出各情感极性类别下的概率值,概率值最大的类别就是推断所得的微博文本情感。
所述步骤1)的数据集中对微博文本情感极性标注的具体方法为:综合考虑社交网络中单条微博文本以及其交互历史的上下文语义信息,人工标注每条微博的情感极性。
所述步骤2)中由于目前能够获取到的微博情感数据集的数据量有限,而自然语言处理领域流行的预训练语言模型BERT已通过海量语料训练出了提取句子通用语义表征的方式,因此利用BERT提取单条微博的通用语义表征,并且针对本情感分析任务,以Fine-tuning微调的方式使该部分在通用语义表征的基础上更加关注情感语义信息。具体而言,对于某一交互式场景下包含的第i条微博,首先按照BERT的标准预处理方法对该条微博文本进行分词并映射成Token Embeddings,输入经过预训练参数初始化的BERT模型,经过层层编码,使用最终输出的[CLS]对应位的隐含表示作为微博i的基本语义表征ti
所述步骤3)中考虑到社交网络中的单条微博文本,其历史语境是由一系列时序上连续、语义上连贯的语句所构成的语言整体,而循环神经网络作为一种建模数据之间顺序关系的标准方法被广泛用于捕捉语言序列的上下文特征,因此基于循环神经网络的某变体,长短期记忆网络LSTM,提取语境级的微博情感语义特征。
所述步骤4)中将步骤2)、步骤3)得到的特征拼接为特征向量,以表示微博的基本语义特征
Figure BDA0003035843380000031
所述步骤5)中将情感偏移感知抽象为句子对分类问题,并使用多层感知机进行建模,多层感知机由输入层、隐藏层和输出层依次组成,每层之间又由线性映射操作和非线性的激活函数连接,具体而言,将步骤4)所得的当前微博i语义特征
Figure BDA0003035843380000032
及用户在时间维度上相邻的第k条微博的语义特征
Figure BDA0003035843380000033
进行向量拼接操作,得到
Figure BDA0003035843380000034
作为多层感知机的输入层;然后通过参数矩阵
Figure BDA0003035843380000035
和偏置向量
Figure BDA0003035843380000036
将输入进行线性变换、再经过tanh函数的非线性激活后,映射至多层感知机的同一隐藏层空间
Figure BDA0003035843380000037
类似地,利用参数矩阵
Figure BDA0003035843380000038
和偏置向量
Figure BDA0003035843380000039
再次从隐藏层映射至输出层,即情感偏移标签空间
Figure BDA00030358433800000310
得到情感偏移特征mi,该特征可以代表微博i与其上条微博k之间的情感偏移程度估计值,上述计算过程形式化如下:
mi=W2tanh(W1[hk,hi]+b1)+b2#(1)
使用softmax函数对该情感偏移特征mi进行归一化可得微博i属于在不同情感偏移程度分类标签下概率的向量
Figure BDA00030358433800000311
从而完成情感偏移感知任务的建模。
Figure BDA00030358433800000312
所述步骤6)中进行语境情感影响因素提取。步骤5)中得到的情感偏移特征mi是已经映射到偏移标签空间的向量,并且其下一步骤就是通过Softmax函数归一化得到各标签下概率向量,因此特征mi可以看作是情感偏移感知任务结果的估计值。此时情感偏移程度可以看作一个已知量,那么在已知各语句与上句相比是否会发生情感变化的基础上再从语境中进一步提取信息,能够更有针对性地挖掘出交互式语境中相关情感影响因素。
具体而言,为了将步骤5)中的情感偏移特征mi,与步骤3)所得的基本情感语义特征hi进行融合,首先将两者拼接为
Figure BDA00030358433800000313
再利用参数矩阵
Figure BDA00030358433800000314
和偏置向量
Figure BDA00030358433800000315
进行线性变换,经过tanh函数的非线性激活,得到融合了情感偏移后的微博表征
Figure BDA00030358433800000316
计算过程如下:
xi=tanh(W3[mi,hi]+b3)#(3)
根据上述计算方式,为交互式场景下的所有微博逐一计算其融合表征,可将所有融合表征向量xi组合成矩阵
Figure BDA00030358433800000317
N为该场景下的微博数量,然后在此基础上设计语境级自注意力机制:对于输入矩阵X,首先使用三个不同的权重矩阵WQ、WK和WV对X做线性变换,获得三个不同含义的矩阵:查询(Query,
Figure BDA00030358433800000318
),键(Key,
Figure BDA00030358433800000319
)和值(Value,
Figure BDA00030358433800000320
),作为自注意力机制的输入,然后将Query和Key作点积计算相似度,再通过softmax函数对点积结果归一化得到注意力权值分布,最后对Value进行加权求和,得到输出结果,可以形式化表示如下:
Attention(Q,K,V)=softmax(QKT)V#(4)
由于Q、K、V均由输入X线性变换而来,因此自注意力机制的目的可以理解为对内部元素之间的关联度进行捕捉,由于此处的X表示一个交互式场景下的微博向量矩阵,那么对其进行自注意力操作的物理意义相当于计算各微博与其他所有微博之间不同程度的关联关系,根据关联度对上下文进行汇总,从而输出各微博的上下文表示,并且由于每条微博的向量表示xi又由情感偏移特征mi和语义特征hi融合而来,那么此步骤的作用即考虑情感偏移,显式地建模语境中各语句之间的情感影响关系,并将重点放在关联性更强的语句上。对于微博i而言,设在经过上述自注意力计算之后,输出为x′i
所述步骤7)中根据步骤6)所得的上下文表示x′i,再与步骤4)所得的基本语义特征hi进行拼接,得到在交互式语境下当前微博文本的最终情感特征ni,并输入多层感知机进行分类。将Wf和bf作为权值矩阵和偏置,使用Sigmoid函数将ni映射至多层感知机隐藏层,再通过WM和bM及Softmax函数进行归一化得到微博i属于在不同情感极性分类标签下概率的向量
Figure BDA0003035843380000044
Figure BDA0003035843380000043
所述步骤8)中引入多任务学习范式,其中步骤5)可看作用户情感偏移感知的辅助任务,计算交叉熵损失函数:
Figure BDA0003035843380000041
其中步骤7)可看作微博文本情感识别的主任务,计算交叉熵损失函数:
Figure BDA0003035843380000042
使两者共享隐层参数共同学习,从而完成微博文本情感识别模型的构建,总损失函数为:
L=L1+L2#(8)
最后通过采用梯度下降法训练学习得到模型参数。
所述步骤9)中将待推断文本情感的任意样本输入步骤8)所得模型,最终输出各情感极性类别下的概率值,概率值最大的类别就是推断所得的微博文本情感。
本发明的有益效果为:本发明利用社交网络中交互式语境特点,基于句子对分类建模方法对微博用户在时序上相邻的微博文本对进行情感偏移感知,有效捕捉情感动态变化过程;将情感偏移特征融入情感识别过程,基于情感关联增强的注意力机制提取关键语境影响因素,有效进行情感溯因,提高微博文本情感识别准确率;引入多任务学习的学习范式,采用隐层参数硬共享的方式在主任务和辅助任务之间达到知识共享的目的,促进彼此的学习,从而引导模型识别情感动态变化的模式,提高模型的泛化性。具体地讲,本发明具有如下优点:
1、利用社交网络中交互式语境特点,基于句子对分类建模方法对微博用户在时序上相邻的微博文本对进行情感偏移感知,有效捕捉情感动态变化过程;
2、将情感偏移特征融入情感识别过程,为模型提供显式且精确的情感影响关系线索,基于情感关联增强的Attention机制提取关键语境影响因素,有效进行情感溯因,提高微博文本情感识别准确率;
3、引入多任务学习的学习范式,采用隐层参数硬共享的方式在主任务和辅助任务之间达到知识共享的目的,促进彼此的学习,从而引导模型识别情感动态变化的模式,提高模型的泛化性。
附图说明
图1为本发明的整体系统框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等同变换均落于本申请所附权利要求所限定的范围。
实施例1:参见图1所示,本发明所述的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,包括如下步骤:
步骤1:数据集中对微博文本情感极性标注的具体方法为:综合考虑社交网络中单条微博文本以及其交互历史的上下文语义信息,人工标注每条微博的情感极性。
步骤2:由于目前能够获取到的微博情感数据集的数据量有限,而自然语言处理领域流行的预训练语言模型BERT已通过海量语料训练出了提取句子通用语义表征的方式,因此利用BERT提取单条微博的通用语义表征,并且针对本情感分析任务,以Fine-tuning微调的方式使该部分在通用语义表征的基础上更加关注情感语义信息。具体而言,对于某一交互式场景下包含的第i条微博,首先按照BERT的标准预处理方法对该条微博文本进行分词并映射成Token Embeddings,输入经过预训练参数初始化的BERT模型,经过层层编码,使用最终输出的[CLS]对应位的隐含表示作为微博i的基本语义表征ti
步骤3:考虑到社交网络中的单条微博文本,其历史语境是由一系列时序上连续、语义上连贯的语句所构成的语言整体,而循环神经网络作为一种建模数据之间顺序关系的标准方法被广泛用于捕捉语言序列的上下文特征,因此基于循环神经网络的某变体,长短期记忆网络LSTM,提取语境级的微博情感语义特征。
步骤4:将步骤2)、步骤3)得到的特征拼接为特征向量,以表示微博的基本语义特征
Figure BDA0003035843380000061
步骤5:将情感偏移感知抽象为句子对分类问题,并使用多层感知机进行建模,多层感知机由输入层、隐藏层和输出层依次组成,每层之间又由线性映射操作和非线性的激活函数连接,具体而言,将步骤4)所得的当前微博i语义特征
Figure BDA0003035843380000062
及用户在时间维度上相邻的第k条微博的语义特征
Figure BDA0003035843380000063
进行向量拼接操作,得到
Figure BDA0003035843380000064
作为多层感知机的输入层;然后通过参数矩阵
Figure BDA0003035843380000065
和偏置向量
Figure BDA0003035843380000066
将输入进行线性变换、再经过tanh函数的非线性激活后,映射至多层感知机的同一隐藏层空间
Figure BDA0003035843380000067
类似地,利用参数矩阵
Figure BDA0003035843380000068
和偏置向量
Figure BDA0003035843380000069
再次从隐藏层映射至输出层,即情感偏移标签空间
Figure BDA00030358433800000610
得到情感偏移特征mi,该特征可以代表微博i与其上条微博k之间的情感偏移程度估计值,上述计算过程形式化如下:
mi=W2tanh(W1[hk,hi]+b1)+b2#(1)
使用softmax函数对该情感偏移特征mi进行归一化可得微博i属于在不同情感偏移程度分类标签下概率的向量
Figure BDA00030358433800000611
从而完成情感偏移感知任务的建模。
Figure BDA00030358433800000612
步骤6:步骤5)中得到的情感偏移特征mi是已经映射到偏移标签空间的向量,并且其下一步骤就是通过Softmax函数归一化得到各标签下概率向量,因此特征mi可以看作是情感偏移感知任务结果的估计值。此时情感偏移程度可以看作一个已知量,那么在已知各语句与上句相比是否会发生情感变化的基础上再从语境中进一步提取信息,能够更有针对性地挖掘出交互式语境中相关情感影响因素。
具体而言,为了将情感偏移特征mi,与步骤3)所得的基本情感语义特征hi进行融合,首先将两者拼接为
Figure BDA00030358433800000613
再利用参数矩阵
Figure BDA00030358433800000614
和偏置向量
Figure BDA00030358433800000615
进行线性变换,经过tanh函数的非线性激活,得到融合了情感偏移后的微博表征
Figure BDA00030358433800000616
计算过程如下:
xi=tanh(W3[mi,hi]+b3)#(3)
根据上述计算方式,为交互式场景下的所有微博逐一计算其融合表征,可将所有融合表征向量xi组合成矩阵
Figure BDA00030358433800000617
N为该场景下的微博数量,然后在此基础上设计语境级自注意力机制:对于输入矩阵X,首先使用三个不同的权重矩阵WQ、WK和WV对X做线性变换,获得三个不同含义的矩阵:查询(Query,
Figure BDA00030358433800000618
),键(Key,
Figure BDA00030358433800000619
)和值(Value,
Figure BDA00030358433800000620
),作为自注意力机制的输入,然后将Query和Key作点积计算相似度,再通过softmax函数对点积结果归一化得到注意力权值分布,最后对Value进行加权求和,得到输出结果,可以形式化表示如下:
Attention(Q,K,V)=softmax(QKT)V#(4)
由于Q、K、V均由输入X线性变换而来,因此自注意力机制的目的可以理解为对内部元素之间的关联度进行捕捉,由于此处的X表示一个交互式场景下的微博向量矩阵,那么对其进行自注意力操作的物理意义相当于计算各微博与其他所有微博之间不同程度的关联关系,根据关联度对上下文进行汇总,从而输出各微博的上下文表示,并且由于每条微博的向量表示xi又由情感偏移特征mi和语义特征hi融合而来,那么此步骤的作用即考虑情感偏移,显式地建模语境中各语句之间的情感影响关系,并将重点放在关联性更强的语句上。对于微博i而言,设在经过上述自注意力计算之后,输出为x′i
步骤7:根据步骤6)所得的上下文表示x′i,再与步骤4)所得的基本语义特征hi进行拼接,得到在交互式语境下当前微博文本的最终情感特征ni,并输入多层感知机进行分类。将Wf和bf作为权值矩阵和偏置,使用Sigmoid函数将ni映射至多层感知机隐藏层,再通过WM和bM及Softmax函数进行归一化得到微博i属于在不同情感极性分类标签下概率的向量
Figure BDA0003035843380000071
Figure BDA0003035843380000072
步骤8:引入多任务学习范式,其中步骤5)可看作用户情感偏移感知的辅助任务,计算交叉熵损失函数:
Figure BDA0003035843380000073
其中步骤7)可看作微博文本情感识别的主任务,计算交叉熵损失函数:
Figure BDA0003035843380000074
使两者共享隐层参数共同学习,从而完成微博文本情感识别模型的构建,总损失函数为:
L=L1+L2#(8)
最后通过采用梯度下降法训练学习得到模型参数。
步骤9:将待推断文本情感的任意样本输入步骤8)所得模型,最终输出各情感极性类别下的概率值,概率值最大的类别就是推断所得的微博文本情感。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。

Claims (10)

1.一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其特征在于,所述方法包括如下步骤:
步骤1)根据社交网络中单条微博文本以及其交互历史的上下文语义信息,标注微博文本的情感极性,并划分训练集、验证集与测试集;
步骤2)采用自然语言处理领域中的预训练语言模型BERT,提取语句级的微博情感语义特征;
步骤3)针对交互式的社交网络语境进行分析,基于长短期记忆网络LSTM,提取语境级的微博情感语义特征;
步骤4)将步骤2)、步骤3)得到的特征拼接为特征向量,以表示微博的基本情感语义特征;
步骤5)针对情感偏移进行分析,要感知微博用户在时间维度上相邻文本之间所体现出的情感偏移,可抽象为句子对分类建模问题,因此将步骤4)所得的微博基本情感语义特征输入多层感知机,映射至情感偏移标签空间,进行参数学习,同时得到用户情感偏移特征;
步骤6)针对情感影响关系进行分析,由于情感偏移能够为各条微博之间的情感交互关系提供显式且精确的线索,并且步骤5)中得到的情感偏移特征可以看作是情感偏移感知任务结果的估计值,此时情感偏移程度可以看作一个已知量,那么在已知各微博与上句相比是否会发生情感变化的基础上再从语境中进一步提取信息,能够更有针对性地挖掘出交互式语境中相关情感影响因素,由此可将步骤5)所得的情感偏移特征与步骤4)所得的基本情感语义特征进行融合,设计情感关联关系增强的语境级Attention机制,进一步从交互历史中提取出与当前微博相关的情感影响因素;
步骤7)根据步骤6)所得的情感影响因素,再与步骤4)所得的基本情感语义特征融合,得到在交互式语境下当前微博文本的最终情感特征,并输入多层感知机,映射至微博情感极性标签空间,进行参数学习;
步骤8)引入多任务学习范式,步骤5)可看作用户情感偏移感知的辅助任务,步骤7)可看作微博文本情感识别的主任务,使两者共享隐层参数共同学习,从而完成微博文本情感识别模型的构建,并通过采用最大似然估计和梯度下降法训练学习得到模型参数;
步骤9)将待推断文本情感的新样本输入步骤8)所得模型,最终输出各情感极性类别下的概率值,概率值最大的类别就是推断所得的微博文本情感。
2.根据权利要求1所述的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其特征在于,所述步骤1)的数据集中对微博文本情感极性标注的具体方法为:综合考虑社交网络中单条微博文本以及其交互历史的上下文语义信息,人工标注每条微博的情感极性。
3.跟据权利要求1所述的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其特征在于,所述步骤2)中由于目前能够获取到的微博情感数据集的数据量有限,而自然语言处理领域流行的预训练语言模型BERT已通过海量语料训练出了提取句子通用语义表征的方式,利用BERT提取单条微博的通用语义表征,并且针对本情感分析任务,以Fine-tuning微调的方式使该部分在通用语义表征的基础上更加关注情感语义信息,具体而言,对于某一交互式场景下包含的第i条微博,首先按照BERT的标准预处理方法对该条微博文本进行分词并映射成Token Embeddings,输入经过预训练参数初始化的BERT模型,经过层层编码,使用最终输出的[CLS]对应位的隐含表示作为微博i的基本语义表征ti
4.跟据权利要求1所述的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其特征在于,所述步骤3)中考虑到社交网络中的单条微博文本,其历史语境是由一系列时序上连续、语义上连贯的语句所构成的语言整体,而循环神经网络作为一种建模数据之间顺序关系的标准方法被广泛用于捕捉语言序列的上下文特征,因此基于循环神经网络的某变体,长短期记忆网络LSTM,提取语境级的微博情感语义特征。
5.根据权利要求1所述的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其特征在于,所述步骤4)中将步骤2)、步骤3)得到的特征拼接为特征向量,以表示微博的基本语义特征
Figure FDA0003035843370000021
6.根据权利要求5所述的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其特征在于,所述步骤5)中将情感偏移感知抽象为句子对分类问题,并使用多层感知机进行建模,多层感知机由输入层、隐藏层和输出层依次组成,每层之间又由线性映射操作和非线性的激活函数连接,具体而言,将步骤4)所得的当前微博i语义特征
Figure FDA0003035843370000022
及用户在时间维度上相邻的第k条微博的语义特征
Figure FDA0003035843370000023
进行向量拼接操作,得到
Figure FDA0003035843370000024
作为多层感知机的输入层;然后通过参数矩阵
Figure FDA0003035843370000025
和偏置向量
Figure FDA0003035843370000026
将输入进行线性变换、再经过tanh函数的非线性激活后,映射至多层感知机的同一隐藏层空间
Figure FDA0003035843370000027
类似地,利用参数矩阵
Figure FDA0003035843370000028
和偏置向量
Figure FDA0003035843370000029
再次从隐藏层映射至输出层,即情感偏移标签空间
Figure FDA00030358433700000210
得到情感偏移特征mi,该特征可以代表微博i与其上条微博k之间的情感偏移程度估计值,上述计算过程形式化如下:
mi=W2tanh(W1[hk,hi]+b1)+b2#(1)
使用softmax函数对该情感偏移特征mi进行归一化可得微博i属于在不同情感偏移程度分类标签下概率的向量
Figure FDA0003035843370000031
从而完成情感偏移感知任务的建模;
Figure FDA0003035843370000032
7.根据权利要求1所述的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其特征在于,所述步骤6)中,由于得到的情感偏移特征mi是已经映射到偏移标签空间的向量,并且其下一步骤就是通过Softmax函数归一化得到各标签下概率向量,因此特征mi可以看作是情感偏移感知任务结果的估计值,此时情感偏移程度可以看作一个已知量,那么在已知各微博与上句相比是否会发生情感变化的基础上再从语境中进一步提取信息,能够更有针对性地挖掘出交互式语境中相关情感影响因素;
具体而言,为了将所述步骤5)所得的情感偏移特征mi,与步骤4)所得的基本语义特征hi进行融合,首先将两者拼接为
Figure FDA0003035843370000033
再利用参数矩阵
Figure FDA0003035843370000034
和偏置向量
Figure FDA0003035843370000035
进行线性变换,经过tanh函数的非线性激活,得到融合了情感偏移后的微博表征
Figure FDA0003035843370000036
计算过程如下:
xi=tanh(W3[mi,hi]+b3)#(3)
根据上述计算方式,为交互式场景下的所有微博逐一计算其融合表征,可将所有融合表征向量xi组合成矩阵
Figure FDA0003035843370000037
N为该场景下的微博数量,然后在此基础上设计语境级自注意力机制:对于输入矩阵X,首先使用三个不同的权重矩阵WQ、WK和WV对X做线性变换,获得三个不同含义的矩阵:查询(Query,
Figure FDA0003035843370000038
),键(Key,
Figure FDA0003035843370000039
)和值(Value,
Figure FDA00030358433700000310
),作为自注意力机制的输入,然后将Query和Key作点积计算相似度,再通过softmax函数对点积结果归一化得到注意力权值分布,最后对Value进行加权求和,得到输出结果,可以形式化表示如下:
Attention(Q,K,V)=softmax(QKT)V#(4)
由于Q、K、V均由输入X线性变换而来,因此自注意力机制的目的可以理解为对内部元素之间的关联度进行捕捉,由于此处的X表示一个交互式场景下的微博向量矩阵,那么对其进行自注意力操作的物理意义相当于计算各微博与其他所有微博之间不同程度的关联关系,根据关联度对上下文进行汇总,从而输出各微博的上下文表示,并且由于每条微博的向量表示xi又由情感偏移特征mi和语义特征hi融合而来,那么此步骤的作用即考虑情感偏移,显式地建模语境中各语句之间的情感影响关系,并将重点放在关联性更强的语句上,对于微博i而言,设在经过上述自注意力计算之后,输出为x′i
8.根据权利要求1所述的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其特征在于,所述步骤7)中,根据步骤6)所得的上下文表示x′i,再与步骤4)所得的基本语义特征hi进行拼接,得到在交互式语境下当前微博文本的最终情感特征ni,并输入多层感知机进行分类,将Wf和bf作为权值矩阵和偏置,使用Sigmoid函数将ni映射至多层感知机隐藏层,再通过WM和bM及Softmax函数进行归一化得到微博i属于在不同情感极性分类标签下概率的向量
Figure FDA0003035843370000041
Figure FDA0003035843370000042
9.根据权利要求1所述的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其特征在于,所述步骤8)中引入多任务学习范式,其中步骤5)可看作用户情感偏移感知的辅助任务,计算交叉熵损失函数:
Figure FDA0003035843370000043
其中步骤7)可看作微博文本情感识别的主任务,计算交叉熵损失函数:
Figure FDA0003035843370000044
使两者共享隐层参数共同学习,从而完成微博文本情感识别模型的构建,总损失函数为:
L=L1+L2#(8)
最后通过采用梯度下降法训练学习得到模型参数。
10.根据权利要求1所述的一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法,其特征在于,所述步骤9)中将待推断文本情感的任意样本输入步骤8)所得模型,最终输出各情感极性类别下的概率值,概率值最大的类别就是推断所得的微博文本情感。
CN202110443368.5A 2021-04-23 2021-04-23 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 Active CN113051916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110443368.5A CN113051916B (zh) 2021-04-23 2021-04-23 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110443368.5A CN113051916B (zh) 2021-04-23 2021-04-23 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法

Publications (2)

Publication Number Publication Date
CN113051916A CN113051916A (zh) 2021-06-29
CN113051916B true CN113051916B (zh) 2022-11-18

Family

ID=76520183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110443368.5A Active CN113051916B (zh) 2021-04-23 2021-04-23 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法

Country Status (1)

Country Link
CN (1) CN113051916B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486243B (zh) * 2021-07-13 2023-09-05 浙江大学 一种社交网络假流量黑灰产自动挖掘方法和系统
CN113535957B (zh) * 2021-07-27 2022-08-02 哈尔滨工业大学 基于双重知识交互和多任务学习的对话情绪识别网络模型系统、构建方法、设备及存储介质
CN113379167B (zh) * 2021-08-02 2022-09-23 刘德喜 一种网络论坛用户心理危机程度预测方法
CN113641819B (zh) * 2021-08-10 2023-08-22 福州大学 基于多任务稀疏共享学习的论辩挖掘系统及方法
CN113641821B (zh) * 2021-08-11 2023-08-29 北京信息科技大学 一种社交网络中意见领袖的价值取向识别方法及系统
CN113688204B (zh) * 2021-08-16 2023-04-25 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
TWI779810B (zh) * 2021-08-31 2022-10-01 中華電信股份有限公司 文本評論資料分析系統、方法及電腦可讀媒介
CN114553811B (zh) * 2022-01-07 2023-04-28 中国人民解放军战略支援部队信息工程大学 基于时间戳调制和载体选择的高容量行为隐写方法
CN116821333A (zh) * 2023-05-30 2023-09-29 重庆邮电大学 一种基于大数据的互联网视频剧本角色情感识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515855B (zh) * 2017-08-18 2021-02-12 武汉红茶数据技术有限公司 一种结合表情符的微博情感分析方法和系统
CN110188200A (zh) * 2019-05-27 2019-08-30 哈尔滨工程大学 一种使用社交上下文特征的深度微博情感分析方法
CN112560495B (zh) * 2020-12-09 2024-03-15 新疆师范大学 一种基于情感分析的微博谣言检测方法

Also Published As

Publication number Publication date
CN113051916A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN113051916B (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
Ren et al. A sentiment-aware deep learning approach for personality detection from text
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN110909529B (zh) 一种公司形象提升系统的用户情感分析和预判系统
Yang et al. Rits: Real-time interactive text steganography based on automatic dialogue model
CN111666400B (zh) 消息获取方法、装置、计算机设备及存储介质
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
Rauf et al. Using bert for checking the polarity of movie reviews
CN116910238A (zh) 一种基于孪生网络的知识感知虚假新闻检测方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN111859925B (zh) 一种基于概率情感词典的情感分析系统及方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN117033640A (zh) 一种融合全局特征和局部特征的文本分类方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN116757218A (zh) 一种基于上下句关系预测的短文本事件共指消解方法
Biswas et al. A new ontology-based multimodal classification system for social media images of personality traits
Cai et al. Deep learning approaches on multimodal sentiment analysis
Venkataraman et al. FBO‐RNN: Fuzzy butterfly optimization‐based RNN‐LSTM for extracting sentiments from Twitter Emoji database
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
Pushpakumar For movie reviews, A sentiment analysis using long short term memory networks
Pandey et al. Progress, Achievements, and Challenges in Multimodal Sentiment Analysis Using Deep Learning: A Survey
Fu et al. A study on recursive neural network based sentiment classification of Sina Weibo
CN111581379A (zh) 一种基于作文扣题度的自动作文评分计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant