CN112214661B - 一种面向视频常规评论的情感不稳定用户检测方法 - Google Patents

一种面向视频常规评论的情感不稳定用户检测方法 Download PDF

Info

Publication number
CN112214661B
CN112214661B CN202011081658.1A CN202011081658A CN112214661B CN 112214661 B CN112214661 B CN 112214661B CN 202011081658 A CN202011081658 A CN 202011081658A CN 112214661 B CN112214661 B CN 112214661B
Authority
CN
China
Prior art keywords
comment
comments
user
time
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011081658.1A
Other languages
English (en)
Other versions
CN112214661A (zh
Inventor
杜亚军
李若淼
赵飞宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xihua University
Original Assignee
Xihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xihua University filed Critical Xihua University
Priority to CN202011081658.1A priority Critical patent/CN112214661B/zh
Publication of CN112214661A publication Critical patent/CN112214661A/zh
Application granted granted Critical
Publication of CN112214661B publication Critical patent/CN112214661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种面向视频常规评论的情感不稳定用户检测方法,包括以下步骤:步骤1,从网站中收集原始数据,筛选出常规评论文本、用户信息与评论时间。步骤2,实现数据的格式化处理,组成常规评论集合。步骤3,汇总网站预置表情包并构建表情对照表,测量常规评论的情感倾向,实现常规评论的情感分析。步骤4,构建时序评论交互网络。步骤5,根据时序的用户间关系,判断用户是否符合情感不稳定用户的定义,从而检测出情感不稳定的用户。本发明的优点是:在舆情发展初期根据视频中常规评论内容,发现情感易变用户,会为舆情的控制和引导带来许多方便,从而产生良好的社会效益和经济价值。

Description

一种面向视频常规评论的情感不稳定用户检测方法
技术领域
本发明涉及评论文本分类技术领域,特别涉及一种面向视频常规评论的情感不稳定用户检测方法。
背景技术
网络视频是人们休闲娱乐方式之一,用户观看完视频后常常采用两种方式发表评论,(1)用户弹幕。(2)在网页的评论区发表常规评论。以此来描述自己的整体观影体验。若是用户在情感差异时间区域内受到相应的影响,基于认知失调理论,用户的情感变化在常规评论区内也会有所体现。用户在评论区内不仅可以阐述自己对视频内容的理解,而且可以与其他用户进行互动,形成用户间评论交互。随着时间的推移,评论互动次数逐渐增加,多次的用户评论互动使用户的情感变化逐渐显现,这是由于用户认知层次的改变导致的用户态度变化。在评论互动中,用户态度的变化可能有两个的原因:(1)不同的用户对视频内容的理解程度不一致,(2)用户早期观看视频时没有相应的知识基础,经过一定时间的基础知识积累,对视频的内容产生了新的认识。通过视频常规评论追踪用户的情感随时间发生的变化,判别评论交互过程中情感发生变化的用户,将其定义为情感不稳定用户。
情感不稳定用户在社交网络舆情传播过程中,其对邻居用户的舆情观点有较大的影响,对舆情快速扩散起着不可推波助澜的作用。特别是在视频网站里,用户大多是青少年,其对某个舆情事件的态度最容易受到领域用户的感染。分析网站用户的行为,尤其是情感不稳定用户的行为,能够有效地保证网站拥有积极的网络氛围,有利于用户间交流和网站的发展。通过挖掘引起情感不稳定的主要诱因,可以制定更有针对性的心理疏导方案,能够更好地解决青少年心理问题。根据主要诱因可以有针对性地制定官方宣传文案,消除用户自身的困惑之处,使用户产生正确的认识,保证网络舆论正向积极的发展态势。根据视频网站评论检测存在情感不稳定用户,产生更好的引导策略,目前成为急需解决的问题。
现有技术一
中国发明专利“电影评论观点情感倾向性分析方法”(专利申请号:CN201911082409.1)中提出:处理的数据对象是影评描述信息和评论信息;建立评论观点提取规则,利用提取规则从数据对象中获得观点词与情感词,然后建立评论标签词库与观点情感词库;然后采用人工打标签方法,对各个评论语句进行评论标签类别标记和情感倾向性标记;生成情感分类模型。针对目标影评,利用情感分类自动生成评论标签类别标记和情感倾向性标记。
现有技术一的缺点
句子级别的情感分析,在视频评论中,一般是短文本评论,一个完整的句子评论是比较少的,常常是一些表情符号,关键词评论短语,所以该专利处理方法未兼顾该类数据对象的处理。评论人的情感往往是随时间的变化而发生改变的,该专利未涉及情感倾向可变化的处理。
现有技术二
中国发明专利“一种基于文档向量的电影评论情感分析方法”(专利申请号:CN201911334017.X)中提出了电影的评论和评论对应的评分训练改进的文档向量模型。将电影的评论输入到该模型得到电影评论的词向量和文档向量,使用基于电影评论生成的特征向量和电影评论对应的评分训练分类模型,对电影评论进行情感分类。
现有技术二的缺点
处理数据对象必须是文档级,即评论必须是大段文本。未涉及在视频评论中,短文本评论,表情符号,关键词评论短语。也未解决评论人的情感往往是随时间的变化而发生改变的这类问题。
发明内容
本发明针对现有技术的缺陷,提供了一种面向视频常规评论的情感不稳定用户检测方法,解决了现有技术中存在的缺陷。
为了实现以上发明目的,本发明采取的技术方案如下:
一种面向视频常规评论的情感不稳定用户检测方法,包括以下步骤:
步骤1,从网站中收集常规评论数据,从原始数据中筛选出常规评论文本、用户信息与评论时间。
步骤2,实现数据的格式化处理,组成常规评论集合。常规评论集合GCs(GeneralComments),GCs={GC1,GC2,…,GCn},其中GCi表示第i条常规评论文本,共计n条常规评论文本。每一条常规评论文本都有用户信息(Userinfo)和评论信息(Commentinfo)两个属性,其中Userinfo={Ui1,Ui2,…,Uin},Commentinfo={Ci1Ci2,…,Cin},用户信息包含用户ID等内容,评论信息包含评论时间和评论交互信息等内容,等价表示为GCi(Uii,Cii),i=1,2,...,n。
步骤3,汇总网站预置表情包并构建表情对照表,使用FastText方法(Joulin A,Grave E,Bojanowski P,et al.FastText.zip:Compressing text classification models[J].arXiv:Computation and Language.2016,1612(3):651-664.)结合表情对照表的方法测量常规评论的情感倾向,实现常规评论的情感分析。
步骤4,根据评论信息中的评论交互信息,分析用户评论交互中的两级评论结构,确定用户之间的关系,对应评论交互网络的节点与节点之间的边。评论的情感倾向确定评论交互中用户之间的赞成或反对,对应评论交互网络邻接矩阵的元素,有效地表示节点间的详细关系。再根据评论信息中的评论时间,分析常规评论的生成规律,划分不同的评论时间段,构建时序评论交互网络。
步骤5,通过网络表示学习分析时序评论交互网络,得到用户与用户之间的时序关系。根据时序的用户间关系,判断用户是否符合情感不稳定用户的定义,从而检测出情感不稳定的用户。
进一步地,步骤2中数据的格式化具体如下:
统计分析常规评论数据特性,根据评论性质将常规评论分为主评论、一级评论、二级评论。
主评论对应的用户为层主节点。一级评论,是直接跟层主节点进行交互的评论。二级评论并不是直接与层主节点进行互动,且回复的评论是一级评论,
评论交互信息包含属性元组<root,parent>,该属性元组中两个字段的数值确定评论对应的级别,对应规则如公式(1)。Root(根节点)和parent(父节点)都为空值,则为层主评论;root和parent都不为空值,并且root和parent数值相等,则为一级评论;root和parent都不为空值,并且root和parent数值不相等,则为二级评论。
Figure BDA0002718822470000041
根据一级评论和二级评论定义,进行数据格式化:设定两个集合,一个是评论用户的集合Ni,另一个是用户之间连接情况的集合Ri,GCs={GC1,GC2,…,GCn}表示n条常规评论的集合。初始化Ni和Ri,即设置两个集合为空集。遍历常规评论集合中的所有评论数据,判断评论的属性元组<root,parent>的字段是否为空值,确定层主评论并将对应的用户添加到Ni,将其相关条目从评论集合中删除。再遍历评论集合剩余的评论数据,判断评论的属性元组<root,parent>的字段数值是否一致,确定一级评论和二级评论,将对应的用户添加到Ni,同时将交互的用户添加到Ri,最终得到Ni和Ri,以此确定评论交互网络中的节点和节点间的连接关系。
进一步地,步骤3中常规评论情感分析具体如下:
首先从视频网站收集网站预置的表情包,将表情包与对应的文字描述汇总,构建表情对照表,利用表情对照表将常规评论数据中的表情转换为文字。再根据表情对照表对标注的常规评论进行预处理,通过FastText训练情感倾向分类模型。最后根据表情对照表预处理待分析的常规评论,通过情感倾向分类模型预测待分析的常规评论情感倾向。
进一步地,步骤4中时序评论交互网络的构建具体如下:
需要分析常规评论分布规律,按照评论发生的顺序,划分不同的评论交互时间段,整合用户间关系和评论的情感倾向,构建时序评论交互网络。
统计常规评论的评论时间信息,确定评论交互持续的时间范围。整个评论交互周期中,公式(2)每个月内用户发表评论的天数,记为Ddpm;对应时间内用户发表的评论总数量,记为Aall。初始设定将数据按半个月时间划为一个时间段t0,计算半个月的用户评论交互数量,Acpfhm表示是上半月的评论数,Acpshm表示是下半月的评论数。
Figure BDA0002718822470000051
其中
Figure BDA0002718822470000052
是使(.)最小的情况下,Δt的取值。按照时间发展的顺序对Acpfhm和Acpshm依次排序,当Δt为正数时表示以t0基准,在时间轴上向后取值,Acpfhm与Δt时间内的评论合并得到AcΔthpm;当Δt为负数时表示以t0基准,在时间轴上向前取值,Acpshm与Δt时间内的评论合并得到AcΔthpm。t0+Δt对应时间内存在用户评论的天数,记为DΔtdphm。按月统计存在用户评论的数量为Am,其中半个月内产生用户评论的数量为Ahm。Δt以时间d为间隔更新,经过多次迭代计算出最小的时间间隔Δt。
进一步地,步骤5中情感不稳定用户的检测具体如下:
明确节点间具有“一阶相似性”和“二阶相似性”两种不同的连接关系。节点与节点之间有直接相连接的边,则具有“一阶相似性”。节点与节点之间并没有直接相连接的边,但是他们通过其他节点相连则具有“二阶相似性”。
使用轻量符号网络嵌入lSNE方法(Song W,Wang S,Yang B,et al.Learning Nodeand Edge Embeddings for Signed Networks[J].Neurocomputing,2018,319:42-54.)将映射函数指定为简单的线性函数,指定N维节点向量,Vi是源节点vi的向量化表示,Vj则对应目标节点vj的向量化表示,则连接vi和vj的边eij仅与Vi和Vj相关,因此eij的向量化表示Eij仅依赖于Vi和Vj。Eij与Vi和Vj之间的对应关系通过映射函数表示为:Eij=f(Vi,Vj)。由节点相似性的描述,即节点满足“二阶相似性”并且其符号具有相似的上下文关系,得到如公式(3)所示的目标函数,通过最小化目标函数,实现模型的训练。
Figure BDA0002718822470000061
其中Vi和Vj分别是vi和vj向量表示,α是控制两个条件作用的超参数,α∈(0,1)。|E|表示边的数量,
Figure BDA0002718822470000062
是邻接矩阵元素sij的条件概率,γ是防止过拟合的正则化参数,‖Vi,Vj2表示Vi与Vj之间的欧氏距离。PMI(vi,vj)刻画vi和vj之间的依赖关系,其计算方法如公式(4)。
Figure BDA0002718822470000071
其中
Figure BDA0002718822470000072
Figure BDA0002718822470000073
分别表示节点vi的出度和vj的入度,wij是边eij的权重。对公式(3)求偏导数得到Vi′和Vj′,根据随机梯度下降更新Vi和Vj,满足公式(5)的收敛条件得到Vi和Vj
Figure BDA0002718822470000074
其中β为随机梯度下降的更新步长。
节点的向量表示Vi和Vj根据映射关系得到边的向量表示Eij,具体如表1。
表1映射方式
Figure BDA0002718822470000075
时序评论交互网络{G1,G2,…,GT}作为输入,t时段的评论交互网络Gt通过lSNE得到网络中边的低维度向量
Figure BDA0002718822470000076
经过线性变换为一维向量
Figure BDA0002718822470000077
根据公式(6)得到邻接矩阵元素
Figure BDA0002718822470000078
从而得到网络中节点间的关系,对应得到用户的类别Rt,正向积极的用户属于Pt,反向消极的用户属于Nt,其中Rt={Pt,Nt}t∈[1,T]。
Figure BDA0002718822470000079
根据各时段的用户类别,得到时序的用户类别,根据情感不稳定用户定义可知,Rt(vi)表示vi对应的用户在t时段所属的类别,Rt+Δt(vi)表示vi对应的用户在t+Δt时段所属的类别,当Rt(vi)≠Rt+Δt(vi)时vi对应的用户为情感不稳定用户,检测出评论交互过程中情感不稳定的用户。
与现有技术相比,本发明的优点在于:
在舆情发展初期根据视频中常规评论内容,发现情感易变用户,会为舆情的控制和引导带来许多方便,从而产生良好的社会效益和经济价值。
通过挖掘引起情感不稳定的主要诱因,可以制定更有针对性的心理疏导方案,能够更好地解决青少年心理问题。根据主要诱因可以有针对性地制定官方宣传文案,消除用户自身的困惑之处,使用户产生正确的认识,保证网络舆论正向积极的发展态势。根据视频网站评论检测存在情感不稳定用户,产生更好的引导策略。
附图说明
图1是本发明实施例情感不稳定用户检测方法流程图;
图2是本发明实施例数据的格式化示意图;
图3是本发明实施例常规评论情感分析流程图;
图4是本发明实施例评论交互的时间分布曲线图;
图5是本发明实施例网络中节点相似性示意图;
图6是本发明实施例用户间关系分析示意图;
图7是本发明实施例表情对照表部分内容图;
图8是本发明实施例常规评论情感分析准确率柱形图;
图9是本发明实施例符号预测的准确率柱形图;
图10是本发明实施例情感不稳定用户部分展示图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
如图1所示,一种面向视频常规评论的情感不稳定用户检测方法,包括以下步骤:
步骤1,从网站中收集常规评论数据,由于采集的原始数据中包含许多无用的信息,需要从原始数据中筛选出常规评论文本、用户信息与评论时间。
步骤2,实现数据的格式化处理,组成常规评论集合。常规评论集合GCs(GeneralComments),GCs={GC1,GC2,…,GCn}表示含有n条常规评论文本,每一条常规评论文本都有用户信息(Userinfo)和评论信息(Commentinfo)两个属性,其中Userinfo={Ui1,Ui2,…,Uin},Commentinfo={Ci1Ci2,…,Cin},用户信息包含用户ID等内容,评论信息包含评论时间和评论交互信息等内容,等价表示为GCi(Uii,Cii),i∈[1,n]。
步骤3,用户在发表常规评论时可以使用网站预置的表情,表情是一种象形符号数据,与文字描述相结合可以丰富评论的表达。汇总网站预置表情包并构建表情对照表,使用FastText结合表情对照表的方法测量常规评论的情感倾向,实现常规评论的情感分析。
步骤4,根据评论信息中的评论交互信息,分析用户评论交互中的两级评论结构,确定用户之间的关系,对应评论交互网络的节点与节点之间的边。评论的情感倾向确定评论交互中用户之间的赞成或反对,对应评论交互网络邻接矩阵的元素,有效地表示节点间的详细关系。再根据评论信息中的评论时间,分析常规评论的生成规律,划分不同的评论时间段,构建时序评论交互网络。
步骤5,网络表示学习将网络映射到低维向量空间中,简化了网络的分析和相关计算,利用网络表示学习可以得到网络中用户与用户间关系。通过网络表示学习分析时序评论交互网络,得到用户与用户之间的时序关系。根据时序的用户间关系,判断用户是否符合情感不稳定用户的定义,从而检测出情感不稳定的用户。
步骤2中数据的格式化具体如下:
构建评论交互网络需要过滤原始数据中无用的信息,保留用户之间的评论和对应的时间等重要的信息。统计分析常规评论数据特性,根据评论性质将常规评论分为主评论、一级评论、二级评论。
如图2,标示1中的评论为层主评论(floor_comment),其对应的用户为层主节点(floor_root),该评论引发了一系列跟评,后续用户可以在其评论下互动,相当于评论交互网络的根节点(root_node)。标示3中的评论是互动评论,用户对标示1中的评论进行留言互动,标示1中的用户也可以回复标示3中的评论,这就是一级评论,是直接跟层主节点进行交互的评论。标示2中的评论虽然属于标识1评论的子评论,但是该评论文本中有明显的回复标识(replies_signal),这表明标示2中的评论是针对某一用户的评论,并不是直接与层主节点进行互动,并且回复的评论是一级评论,所以标识2中的评论为二级评论,指定回复的用户作为标示2评论的父母节点(parent_node)。
评论交互信息包含属性元组<root,parent>,该属性元组中两个字段的数值确定评论对应的级别,对应规则如公式(1)。root和parent都为空值,则为层主评论;root和parent都不为空值,并且root和parent数值相等,则为一级评论;root和parent都不为空值,并且root和parent数值不相等,则为二级评论。
Figure BDA0002718822470000101
根据一级评论和二级评论定义,数据格式化方法。设定两个集合,一个是评论用户的集合Ni,另一个是用户之间连接情况的集合Ri,GCs={GC1,GC2,…,GCn}表示n条常规评论的集合。初始化Ni和Ri,即设置两个集合为空集。遍历常规评论集合中的所有评论数据,判断评论的属性元组<root,parent>的字段是否为空值,确定层主评论并将对应的用户添加到Ni,将其相关条目从评论集合中删除。再遍历评论集合剩余的评论数据,判断评论的属性元组<root,parent>的字段数值是否一致,确定一级评论和二级评论,将对应的用户添加到Ni,同时将交互的用户添加到Ri,最终得到Ni和Ri,以此确定评论交互网络中的节点和节点间的连接关系。
数据格式化方法代码如下:
输入:常规评论集合GCs={GC1,GC2,…,GCn}
过程:
Figure BDA0002718822470000111
Figure BDA0002718822470000121
输出:Ni and Ri
步骤3中常规评论情感分析具体如下:
通过常规评论的情感分析得到评论的情感倾向,从而确定评论交互网络邻接矩阵的元素取值,具体分析方法如图3。
情感倾向的测量方法是FastText结合表情对照表。首先从bilibli视频网站收集网站预置的表情包,将表情包与对应的文字描述汇总,构建表情对照表,利用表情对照表将常规评论数据中的表情转换为文字。再根据表情对照表对标注的常规评论进行预处理,通过FastText训练情感倾向分类模型。最后根据表情对照表预处理待分析的常规评论,通过情感倾向分类模型预测待分析的常规评论情感倾向。
步骤4中时序评论交互网络的构建具体如下:
通过分析常规评论的评论时间信息,发现评论的生成和分布有一定的时间规律,通常在发布初的一段时间范围内会出现大量的视频播放和用户评论互动,随着时间的推移便逐渐减少,总体呈下降趋势但没有相对固定的下降规律。按照季度为时间间隔统计的用户评论数,如图4所示为某一视频常规评论分布情况,评论数量先减少后少量增加再减少。由于该视频是一系列作品的第一集,最初的统计时间也就是视频首次发布时,评论数量最多,后续作品相继发布,用户更倾向于观看和评论新的作品,因此该视频的评论数量开始减少。其中一些用户观看完后续视频,重温该视频并发表了新的评论,评论数量又少量增加。与视频首次发布相隔一年的时间,评论数量出现小幅度增长,这可能是官方周年纪念活动或者发布了相关的资讯,再次提高了视频的热度,重温该视频的用户与初次观看的用户导致了评论数量的少量增长。随着时间间隔逐渐增加,作品逐渐淡出用户的视线,评论数量又逐渐减少。
相似的常规评论分布规律和评论数量衰减现象普遍存在。由于用户对不同种类视频的关注程度不同和用户职业性质的限制,造成了分布不规律。然而只有当评论交互网络中用户交互程度达到一定规模时,更容易检测出情感不稳定用户。为了能够更好地刻画用户评论交互的时间变化,需要分析常规评论分布规律,按照评论发生的顺序,划分不同的评论交互时间段,整合用户间关系和评论的情感倾向,构建时序评论交互网络。
统计常规评论的评论时间信息,确定评论交互持续的时间范围。整个评论交互周期中,公式(2)每个月内用户发表评论的天数,记为Ddpm;对应时间内用户发表的评论总数量,记为Aall。初始设定将数据按半个月时间划为一个时间段t0,计算半个月的用户评论交互数量,Acpfhm表示是上半月的评论数,Acpshm表示是下半月的评论数。
Figure BDA0002718822470000131
按照时间发展的顺序对Acpfhm和Acpshm依次排序,当Δt为正数时表示以t0基准,在时间轴上向后取值,Acpfhm与Δt时间内的评论合并得到AcΔthpm;当Δt为负数时表示以t0基准,在时间轴上向前取值,Acpshm与Δt时间内的评论合并得到AcΔthpm。t0+Δt对应时间内存在用户评论的天数,记为DΔtdphm。按月统计存在用户评论的数量为Am,其中半个月内产生用户评论的数量为Ahm。Δt以时间d为间隔更新,即Δt←dΔt,经过多次迭代计算出最小的时间间隔Δt。
步骤5中情感不稳定用户的检测具体如下:
明确节点间具有“一阶相似性”和“二阶相似性”两种不同的连接关系。如图5所示,节点A与节点C之间有直接相连接的边,则节点A与节点C具有“一阶相似性”。节点A与节点B之间并没有直接相连接的边,但是节点A与节点D直接相连接,节点D与节点B直接相连接;节点B与节点E直接相连接,节点E与节点A直接相连接,则节点A与节点B具有“二阶相似性”。
使用轻量符号网络嵌入lSNE方法将映射函数指定为简单的线性函数,不仅借鉴的“一阶相似性”和“二阶相似性”,将其应用到符号网络中,而且使用更少的参数优化训练。指定N维节点向量,Vi是源节点vi的向量化表示,Vj则对应目标节点vj的向量化表示,则连接vi和vj的边eij仅与Vi和Vj相关,因此eij的向量化表示Eij仅依赖于Vi和Vj。Eij与Vi和Vj之间的对应关系通过映射函数表示为:Eij=f(Vi,Vj)。由节点相似性的描述,即节点满足“二阶相似性”并且其符号具有相似的上下文关系,得到如公式(3)所示的目标函数,通过最小化目标函数,实现模型的训练。
Figure BDA0002718822470000141
其中Vi和Vj分别是vi和vj向量表示,α是控制两个条件作用的超参数,α∈(0,1)。|E|表示边的数量,
Figure BDA0002718822470000142
是邻接矩阵元素sij的条件概率,γ是防止过拟合的正则化参数,‖Vi,Vj2表示Vi与Vj之间的欧氏距离。PMI(vi,vj)刻画vi和vj之间的依赖关系,其计算方法如公式(4)。
Figure BDA0002718822470000151
其中
Figure BDA0002718822470000152
Figure BDA0002718822470000153
分别表示节点vi的出度和vj的入度,wij是边eij的权重。对公式(3)求偏导数得到Vi′和Vj′,根据随机梯度下降更新Vi和Vj,满足公式(5)的收敛条件得到Vi和Vj
Figure BDA0002718822470000154
其中β为随机梯度下降的更新步长。
节点的向量表示Vi和Vj根据映射关系得到边的向量表示Eij,具体如表1。
表1映射方式
Figure BDA0002718822470000155
如图6是用户间关系分析模型。时序评论交互网络{G1,G2,…,GT}作为输入,t时段的评论交互网络Gt通过lSNE得到网络中边的低维度向量
Figure BDA0002718822470000156
经过线性变换为一维向量
Figure BDA0002718822470000157
根据公式(6)得到邻接矩阵元素
Figure BDA0002718822470000158
从而得到网络中节点间的关系,对应得到用户的类别Rt,正向积极的用户属于Pt,反向消极的用户属于Nt,其中Rt={Pt,Nt}t∈[1,T]。
Figure BDA0002718822470000159
根据各时段的用户类别,得到时序的用户类别,根据情感不稳定用户定义可知,Rt(vi)表示vi对应的用户在t时段所属的类别,Rt+Δt(vi)表示vi对应的用户在t+Δt时段所属的类别,当Rt(vi)≠Rt+Δt(vi)时vi对应的用户为情感不稳定用户,检测出评论交互过程中情感不稳定的用户。
实施例
(1)数据采集。采用网络爬虫获取bilibili网站时间同步评论的349612条常规评论,评论数据集的数据来自某一系列作品的13个章节的视频,按照视频发布顺序从EP1-EP13存储,视频更新发布的间隔为7天,评论数据持续存在天数总计为545。由于目前暂无公开可靠的bilibili网站的时间同步评论和常规评论情感分类数据集,为了训练并验证情感分析方法,随机爬取了9000条常规评论作为情感分类数据集并标记。
(2)用户发表常规评论时可以使用网站预置的表情包,将表情加入到评论文本中形成更丰富的表达方式。收集整理网站的表情包,构建相应的表情与文本对照表,提高对常规评论情感分析的准确度。如图7所示,原始文本数据中的表情包通过一组括号与用户写的评论文本分隔开,根据这种固定的表达方式对应生成转换后的文本内容,替代原始文本中的表情包。
(3)常规评论情感倾向分析。使用FastText结合预置表情的方式,并与LSTM(长短期记忆人工神经网络)、FastText结合预置表情三种分类模型进行对比。FastText的N-grams设置为2,学习率为0.1,训练迭代为25,HashBucket为2000000,LSTM的学习率为0.01,防止过拟合Dropout设置为0.25并使用L2正则化。图8所示为4种分类方法的准确率,准确率为分类正确的常规评论数/测试用常规评论总数,FastText结合预置表情的分类准确率略高于另外三种方法,训练速度也优于其他三种分类模型,说明本文提出的常规评论情感倾向分析方法有效且可靠。
(4)网络表示学习将网络转化为低维度向量便于计算,利用网络表示学习分析时序评论交互网络,得到各时段用户的类别,从而检测出情感不稳定用户。表2介绍了5种常用的网络嵌入方法特点。
表2网络嵌入方法比较
Figure BDA0002718822470000171
根据网络表示学习方法优缺点,选择其中模型可靠度高和训练效率高的SC和lSNE进行情感倾向分析。SC的向量维数设为100,lSNE的向量维数为30,其中lSNE设置超参数为0.005、正则化参数为1e-6,通过Dropout设置为0.3和50次迭代作为收敛条件防止训练过拟合。节点间向量到边向量的映射方式,采用节点向量拼接、节点向量算术平均和Hadamard三种方式。实验数据使用公开数据集wiki_editor,以此来验证lSNE能够有效可靠得预测网络中边的符号。wiki_editor中用户节点间有正向负向两种连接关系,每个节点表示一位词条编辑人员,正向的边表示两个用户共同编辑的词条具有相同的类别,反向的边表示两个用户共同编辑的词条属于不同的类别,用户与用户之间构成无向图。wiki_editor中用户与用户之间关系结构与本文提出的评论交互网络相类似,通过wiki_editor的符号预测的结果可以推测lSNE对时序评论交互网络符号预测的准确性。
图9中展示了两种方法对符号预测的结果。结果表明在本文提出的检测方法中,使用lSNE分析时序评论交互网络得到的结果有效且可靠。因此本文提出的情感不稳定用户检测方法能够有效地检测出情感不稳定用户。如图10所示为部分情感不稳定用户,内容由用户和常规评论两部分组成,常规评论按照时间发展的顺序进行排列。从评论内容可得,经过时间的推移,用户表现出情感不稳定。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (5)

1.一种面向视频常规评论的情感不稳定用户检测方法,其特征在于,包括以下步骤:
步骤1,从网站中收集常规评论数据,从原始数据中筛选出常规评论文本、用户信息与评论时间;
步骤2,实现数据的格式化处理,组成常规评论集合;常规评论集合GCs(GeneralComments),GCs={GC1,GC2,…,GCn},其中GCi表示第i条常规评论文本,共计n条常规评论文本;每一条常规评论文本都有用户信息Userinfo和评论信息Commentinfo两个属性,其中Userinfo={Ui1,Ui2,…,Uin},Commentinfo={Ci1Ci2,…,Cin},用户信息包含用户ID内容,评论信息包含评论时间和评论交互信息内容,等价表示为GCi(Uii,Cii),i=1,2,...,n;
步骤3,汇总网站预置表情包并构建表情对照表,使用FastText方法结合表情对照表的方法测量常规评论的情感倾向,实现常规评论的情感分析;
步骤4,根据评论信息中的评论交互信息,分析用户评论交互中的两级评论结构,确定用户之间的关系,对应评论交互网络的节点与节点之间的边;评论的情感倾向确定评论交互中用户之间的赞成或反对,对应评论交互网络邻接矩阵的元素,有效地表示节点间的详细关系;再根据评论信息中的评论时间,分析常规评论的生成规律,划分不同的评论时间段,构建时序评论交互网络;
步骤5,通过网络表示学习分析时序评论交互网络,得到用户与用户之间的时序关系;根据时序的用户间关系,判断用户是否符合情感不稳定用户的定义,从而检测出情感不稳定的用户。
2.根据权利要求1所述的一种面向视频常规评论的情感不稳定用户检测方法,其特征在于:步骤2中数据的格式化具体如下:
统计分析常规评论数据特性,根据评论性质将常规评论分为主评论、一级评论、二级评论;
主评论对应的用户为层主节点;一级评论,是直接跟层主节点进行交互的评论;二级评论并不是直接与层主节点进行互动,且回复的评论是一级评论,
评论交互信息包含属性元组<root,parent>,该属性元组中两个字段的数值确定评论对应的级别,对应规则如公式(1);root(根节点)和parent(父节点)都为空值,则为层主评论;root和parent都不为空值,并且root和parent数值相等,则为一级评论;root和parent都不为空值,并且root和parent数值不相等,则为二级评论;
Figure FDA0003521138310000021
根据一级评论和二级评论定义,进行数据格式化:设定两个集合,一个是评论用户的集合Ni,另一个是用户之间连接情况的集合Ri,GCs={GC1,GC2,…,GCn}表示n条常规评论的集合;初始化Ni和Ri,即设置两个集合为空集;遍历常规评论集合中的所有评论数据,判断评论的属性元组<root,parent>的字段是否为空值,确定层主评论并将对应的用户添加到Ni,将其相关条目从评论集合中删除;再遍历评论集合剩余的评论数据,判断评论的属性元组<root,parent>的字段数值是否一致,确定一级评论和二级评论,将对应的用户添加到Ni,同时将交互的用户添加到Ri,最终得到Ni和Ri,以此确定评论交互网络中的节点和节点间的连接关系。
3.根据权利要求1所述的一种面向视频常规评论的情感不稳定用户检测方法,其特征在于:步骤3中常规评论情感分析具体如下:
首先从视频网站收集网站预置的表情包,将表情包与对应的文字描述汇总,构建表情对照表,利用表情对照表将常规评论数据中的表情转换为文字;再根据表情对照表对标注的常规评论进行预处理,通过FastText训练情感倾向分类模型;最后根据表情对照表预处理待分析的常规评论,通过情感倾向分类模型预测待分析的常规评论情感倾向。
4.根据权利要求1所述的一种面向视频常规评论的情感不稳定用户检测方法,其特征在于:步骤4中时序评论交互网络的构建具体如下:
需要分析常规评论分布规律,按照评论发生的顺序,划分不同的评论交互时间段,整合用户间关系和评论的情感倾向,构建时序评论交互网络;
统计常规评论的评论时间信息,确定评论交互持续的时间范围;整个评论交互周期中,公式(2)每个月内用户发表评论的天数,记为Ddpm;对应时间内用户发表的评论总数量,记为Aall;初始设定将数据按半个月时间划为一个时间段t0,计算半个月的用户评论交互数量,Acpfhm表示是上半月的评论数,Acpshm表示是下半月的评论数;
Figure FDA0003521138310000031
其中
Figure FDA0003521138310000032
是使(.)最小的情况下,Δt的取值;按照时间发展的顺序对Acpfhm和Acpshm依次排序,当Δt为正数时表示以t0基准,在时间轴上向后取值,Acpfhm与Δt时间内的评论合并得到AcΔthpm;当Δt为负数时表示以t0基准,在时间轴上向前取值,Acpshm与Δt时间内的评论合并得到AcΔthpm;t0+Δt对应时间内存在用户评论的天数,记为DΔtdphm;按月统计存在用户评论的数量为Am,其中半个月内产生用户评论的数量为Ahm;Δt以时间d为间隔更新,经过多次迭代计算出最小的时间间隔Δt。
5.根据权利要求1所述的一种面向视频常规评论的情感不稳定用户检测方法,其特征在于:步骤5中情感不稳定用户的检测具体如下:
明确节点间具有“一阶相似性”和“二阶相似性”两种不同的连接关系;节点与节点之间有直接相连接的边,则具有“一阶相似性”;节点与节点之间并没有直接相连接的边,但是他们通过其他节点相连则具有“二阶相似性”;
使用轻量符号网络嵌入lSNE方法将映射函数指定为简单的线性函数,指定N维节点向量,Vi是源节点vi的向量化表示,Vj则对应目标节点vj的向量化表示,则连接vi和vj的边eij仅与Vi和Vj相关,因此eij的向量化表示Eij仅依赖于Vi和Vj;Eij与Vi和Vj之间的对应关系通过映射函数表示为:Eij=f(Vi,Vj);由节点相似性的描述,即节点满足“二阶相似性”并且其符号具有相似的上下文关系,得到如公式(3)所示的目标函数,通过最小化目标函数,实现模型的训练;
Figure FDA0003521138310000041
其中Vi和Vj分别是vi和vj向量表示,α是控制两个条件作用的超参数,α∈(0,1);|E|表示边的数量,
Figure FDA0003521138310000042
是邻接矩阵元素sij的条件概率,β是防止过拟合的正则化参数,||Vi,Vj||2表示Vi与Vj之间的欧氏距离;PMI(vi,vj)刻画vi和vj之间的依赖关系,其计算方法如公式(4);
Figure FDA0003521138310000043
其中
Figure FDA0003521138310000044
Figure FDA0003521138310000045
分别表示节点vi的出度和vj的入度,wij是边eij的权重;对公式(3)求偏导数得到Vi′和Vj′,根据随机梯度下降更新Vi和Vj,满足公式(5)的收敛条件得到Vi和Vj
Figure FDA0003521138310000046
其中γ为随机梯度下降的更新步长;
节点的向量表示Vi和Vj根据映射关系得到边的向量表示Eij,具体如表1;
表1 映射方式
Figure FDA0003521138310000051
时序评论交互网络{G1,G2,…,GT}作为输入,t时段的评论交互网络Gt通过lSNE得到网络中边的低维度向量
Figure FDA0003521138310000052
经过线性变换为一维向量
Figure FDA0003521138310000053
根据公式(6)得到邻接矩阵元素
Figure FDA0003521138310000054
从而得到网络中节点间的关系,对应得到用户的类别Rt,正向积极的用户属于Pt,反向消极的用户属于Nt,其中Rt={Pt,Nt}t∈[1,T];
Figure FDA0003521138310000055
根据各时段的用户类别,得到时序的用户类别,根据情感不稳定用户定义可知,Rt(vi)表示vi对应的用户在t时段所属的类别,Rt+Δt(vi)表示vi对应的用户在t+Δt时段所属的类别,当Rt(vi)≠Rt+Δt(vi)时vi对应的用户为情感不稳定用户,检测出评论交互过程中情感不稳定的用户。
CN202011081658.1A 2020-10-12 2020-10-12 一种面向视频常规评论的情感不稳定用户检测方法 Active CN112214661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011081658.1A CN112214661B (zh) 2020-10-12 2020-10-12 一种面向视频常规评论的情感不稳定用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011081658.1A CN112214661B (zh) 2020-10-12 2020-10-12 一种面向视频常规评论的情感不稳定用户检测方法

Publications (2)

Publication Number Publication Date
CN112214661A CN112214661A (zh) 2021-01-12
CN112214661B true CN112214661B (zh) 2022-04-08

Family

ID=74053214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011081658.1A Active CN112214661B (zh) 2020-10-12 2020-10-12 一种面向视频常规评论的情感不稳定用户检测方法

Country Status (1)

Country Link
CN (1) CN112214661B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157993A (zh) * 2021-02-08 2021-07-23 电子科技大学 一种基于时序图极化分析的网络水军行为预警模型
CN113408090B (zh) * 2021-05-31 2023-10-27 上海师范大学 一种基于符号网络的节点关系获取方法及存储介质
CN113792552B (zh) * 2021-08-23 2023-05-09 中国电子科技集团公司第三十研究所 一种基于用户产生内容的观点转变指标计算方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150367A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种中文微博的情感倾向分析方法
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN104965843A (zh) * 2014-12-29 2015-10-07 腾讯科技(北京)有限公司 一种获取评论信息的方法及装置
CN107451118A (zh) * 2017-07-21 2017-12-08 西安电子科技大学 基于弱监督深度学习的句子级情感分类方法
CN108170841A (zh) * 2018-01-16 2018-06-15 深圳市中易科技有限责任公司 一种基于信息价值的手机舆情分析决策方法
CN109165692A (zh) * 2018-09-06 2019-01-08 中国矿业大学 一种基于弱监督学习的用户性格预测装置及方法
CN110020437A (zh) * 2019-04-11 2019-07-16 江南大学 一种视频和弹幕相结合的情感分析及可视化方法
CN110825876A (zh) * 2019-11-07 2020-02-21 上海德拓信息技术股份有限公司 电影评论观点情感倾向性分析方法
CN110991218A (zh) * 2019-10-10 2020-04-10 北京邮电大学 一种基于图像的网络舆情预警系统和方法
CN111061962A (zh) * 2019-11-25 2020-04-24 上海海事大学 一种基于用户评分分析的推荐方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469065B (zh) * 2015-12-07 2019-04-23 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
US10341278B2 (en) * 2016-08-08 2019-07-02 Flipboard, Inc. Adaptive presentation of comments based on sentiment
CN108108433A (zh) * 2017-12-19 2018-06-01 杭州电子科技大学 一种基于规则和数据网络融合的情感分析方法
CN108052982B (zh) * 2017-12-22 2021-09-03 深圳市云网拜特科技有限公司 一种基于贴图表情的情感检测方法以及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150367A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种中文微博的情感倾向分析方法
CN104063427A (zh) * 2014-06-06 2014-09-24 北京搜狗科技发展有限公司 一种基于语义理解的表情输入方法和装置
CN104965843A (zh) * 2014-12-29 2015-10-07 腾讯科技(北京)有限公司 一种获取评论信息的方法及装置
CN107451118A (zh) * 2017-07-21 2017-12-08 西安电子科技大学 基于弱监督深度学习的句子级情感分类方法
CN108170841A (zh) * 2018-01-16 2018-06-15 深圳市中易科技有限责任公司 一种基于信息价值的手机舆情分析决策方法
CN109165692A (zh) * 2018-09-06 2019-01-08 中国矿业大学 一种基于弱监督学习的用户性格预测装置及方法
CN110020437A (zh) * 2019-04-11 2019-07-16 江南大学 一种视频和弹幕相结合的情感分析及可视化方法
CN110991218A (zh) * 2019-10-10 2020-04-10 北京邮电大学 一种基于图像的网络舆情预警系统和方法
CN110825876A (zh) * 2019-11-07 2020-02-21 上海德拓信息技术股份有限公司 电影评论观点情感倾向性分析方法
CN111061962A (zh) * 2019-11-25 2020-04-24 上海海事大学 一种基于用户评分分析的推荐方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
《A Deep Learning Model Enhanced with Emojis for Sina-Microblog Sentiment Analysis》;Jiabo Zhang 等;《2019 IEEE International Conferences on Ubiquitous Computing & Communications (IUCC) and Data Science and Computational Intelligence and Smart Computing, Networking and Services 》;20200206;236-242 *
《Evaluation of a Communication Support Tool for Understanding Emotion in an Unstable Narrowband Network》;Kaoru Sugita 等;《2015 18th International Conference on Network-Based Information Systems》;20150930;517-520 *
《TSCSet: A crowdsourced time-sync comment dataset for exploration of user experience improvement》;Z liao 等;《the 2018 Conference》;20180331;641-652 *
《基于emoji表情分析的情感可视化研究》;张智威;《中国优秀硕士学位论文全文数据库 (哲学与人文科学辑)》;20190315(第03(2019)期);F088-98 *
《基于弹幕情感分析和聚类算法的视频用户群体分类》;洪庆 等;《计算机工程与科学》;20180615;第40卷(第06期);1125-1139 *
《基于结构平衡的社交网络舆情正向引导学习方法探讨》;杜亚军 等;《西华大学学报(自然科学版)》;20190312;第38卷(第02期);1-11 *
《用于微博情感分析的一种情感语义增强的深度学习模型》;何炎祥 等;《计算机学报》;20170430;第40卷(第04期);773-790 *

Also Published As

Publication number Publication date
CN112214661A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN107644089B (zh) 一种基于网络媒体的热门事件提取方法
Kumar et al. Sentiment analysis of multimodal twitter data
CN112214661B (zh) 一种面向视频常规评论的情感不稳定用户检测方法
CN107992531B (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN107341145B (zh) 一种基于深度学习的用户情感分析方法
US20180096219A1 (en) Neural network combined image and text evaluator and classifier
CN104915448B (zh) 一种基于层次卷积网络的实体与段落链接方法
CN110472042B (zh) 一种细粒度情感分类方法
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
CN103049435A (zh) 文本细粒度情感分析方法及装置
US20150199567A1 (en) Document classification assisting apparatus, method and program
CN110765769B (zh) 一种基于子句特征的实体属性依赖情感分析方法
CN107357793A (zh) 信息推荐方法和装置
CN111309936A (zh) 一种电影用户画像的构建方法
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
CN111400584A (zh) 联想词的推荐方法、装置、计算机设备和存储介质
CN110489553A (zh) 一种基于多源信息融合的情感分类方法
Han et al. Sentiment analysis on social media using morphological sentence pattern model
Amorim et al. Novelty detection in social media by fusing text and image into a single structure
CN110110218A (zh) 一种身份关联方法及终端
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Ruhwinaningsih et al. A sentiment knowledge discovery model in Twitter’s TV content using stochastic gradient descent algorithm
CN115269846A (zh) 文本处理方法、装置、电子设备及存储介质
Singh Twitter Sentiment Analysis Using Machine Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant