CN110569354B - 弹幕情感分析方法及装置 - Google Patents

弹幕情感分析方法及装置 Download PDF

Info

Publication number
CN110569354B
CN110569354B CN201910661588.8A CN201910661588A CN110569354B CN 110569354 B CN110569354 B CN 110569354B CN 201910661588 A CN201910661588 A CN 201910661588A CN 110569354 B CN110569354 B CN 110569354B
Authority
CN
China
Prior art keywords
emotion
text
bullet screen
barrage
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910661588.8A
Other languages
English (en)
Other versions
CN110569354A (zh
Inventor
贾璐
田冉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN201910661588.8A priority Critical patent/CN110569354B/zh
Publication of CN110569354A publication Critical patent/CN110569354A/zh
Application granted granted Critical
Publication of CN110569354B publication Critical patent/CN110569354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors

Abstract

本发明实施例提供一种弹幕情感分析方法及装置,该方法包括:获取预设时间段内的弹幕文本;将所述弹幕文本与弹幕情感词典进行匹配,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量;对所述弹幕文本中所有情感词的词向量求和,获得弹幕文本向量,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型;其中,所述预设的情感分析模型,根据带有情感类型标签的弹幕文本样本进行训练后得到。将匹配得到的情感词进行文本向量化,获得每一情感词的词向量,实现了情感词的量化,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型,从而能够快速准确获得弹幕文本的情感类型。

Description

弹幕情感分析方法及装置
技术领域
本发明涉及文本信息处理领域,尤其涉及一种弹幕情感分析方法及装置。
背景技术
目前,随着互联网行业的发展,网民数量不断增长,游戏直播火热。弹幕是一种新兴的评论方式,因为像子弹一样飞过视频而得名。弹幕被各大视频和直播平台引进,受到了广大用户的喜爱。弹幕像评论一样,是一种短文本。短文本情感分析是目前自然语言处理领域的一大热门方向。
然而,目前学界对弹幕的研究较少。用户发送弹幕表达自己的情感,其中蕴含了大量的信息。因此,对游戏直播弹幕进行研究,判断弹幕文本的情感倾向具有重要意义。例如,弹幕文本的情感分析,能够对视频高光片段提取及视频推荐等提供依据。
发明内容
为了解决上述问题,本发明实施例提供一种弹幕情感分析方法及装置。
第一方面,本发明实施例提供一种弹幕情感分析方法,包括:获取预设时间段内的弹幕文本;将所述弹幕文本与弹幕情感词典进行匹配,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量;对所述弹幕文本中所有情感词的词向量求和,获得弹幕文本向量,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型;其中,所述预设的情感分析模型,根据带有情感类型标签的弹幕文本样本进行训练后得到。
第二方面,本发明实施例提供一种弹幕情感分析装置,包括:获取模块,用于获取预设时间段内的弹幕文本;向量化模块,用于将所述弹幕文本与弹幕情感词典进行匹配,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量;处理模块,用于对所述弹幕文本中所有情感词的词向量求和,获得弹幕文本向量,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型;其中,所述情感分析模型,根据带有情感类型标签的弹幕文本样本进行训练后得到。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面弹幕情感分析方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面弹幕情感分析方法的步骤。
本发明实施例提供的弹幕情感分析方法及装置,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量,实现了情感词的量化,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型,从而能够快速准确获得弹幕文本的情感类型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的弹幕情感分析方法流程图;
图2为本发明实施例提供的文本向量化流程图;
图3为本发明实施例提供的扩充情感词典示意图;
图4为本发明实施例提供的弹幕情感分析装置结构图;
图5为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的弹幕情感分析方法流程图,如图1所示,本发明实施例提供一种弹幕情感分析方法,包括:
101,获取预设时间段内的弹幕文本。
在101中,预设时间段可根据需求设置,例如,以一分钟为一个时间段进行分析,以下以一分钟的直播间弹幕为例进行说明。首先,获取某个一分钟段的直播间全部弹幕。
102,将所述弹幕文本与弹幕情感词典进行匹配,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量。
在102中,弹幕情感词典可根据基础情感词典建立,例如,将常用的知网Hownet情感词典、清华大学中文褒贬义词典及台湾大学中文情感极性词典作为基础情感词典。文本向量化为将词语映射到实数空间,得到词语的数字向量形式,便于后续的分析。例如,可以通过Word2vec实现,Word2vec是谷歌设计的一款将文本词语转换为数字向量的工具,由于其优异的表现被学界广泛关注。作为一个浅层的神经网络,Word2vec能通过训练给定语料,结合语料的上下文语序和语法信息将词语映射到实数空间。
103,对所述弹幕文本中所有情感词的词向量求和,获得弹幕文本向量,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型。
在103中,图2为本发明实施例提供的文本向量化流程图,如图2所示,弹幕文本与弹幕情感词典匹配若获得情感词,每个情感词向量W(t)对应元素相加,得到句子向量S(t),否则句子向量为0。再以一分钟为单位对直播间全部弹幕的句子向量相加,最终得到文本向量P(t),文本向量用于弹幕文本的分类。
弹幕文本的情感类型可根据需求设置,例如类型为:正面情绪、负面情绪及中立情绪。研究直播间弹幕内容,并结合弹幕特点发现,弹幕情感不够细腻比较单一,仅有正面负面之分。本发明实施例中将弹幕文本的情感分成两类:正面情感和负面情感。
在将所述弹幕文本向量输入至预设的情感分析模型之前,还包括:根据带有情感类型标签的弹幕文本样本对构建的情感分析模型进行训练,从而得到上述预设的情感分析模型。同样的,输入情感分析模型的是弹幕文本样本的文本向量。具体实施过程中,可使用高斯核函数的SVM分类器进行分类预测。参数使用默认,通过调用sklearn包实现。对弹幕文本进行情感分析之前,采用人工方式对多个一分钟的弹幕样本的情感氛围进行标注,正面情感用“1”标注、负面情感用“0”标注。通过标注有情感类型标签的样本对情感分析模型进行训练,训练完成后,能够根据预设时间段内的弹幕文本,快速准确得到相应的情感类型。
本实施例提供的弹幕情感分析方法,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量,实现了情感词的量化,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型,从而能够快速准确获得弹幕文本的情感类型。
基于上述实施例的内容,作为一种可选实施例,将匹配得到的情感词进行文本向量化,包括:将匹配得到的情感词输入至训练后的Skip-gram模型,获得所述情感词的词向量。
Word2vec内置两种模型:Skip-gram模型和CBOW模型,由输入层、输出层和投影层组成。Skip-gram模型用于预测一个词语的上下文,CBOW模型通过输入一个词语的上下文来预测词语本身。与CBOW相比,由Skip-gram模型训练的词向量更加准确。因此,本发明实施例选择使用Skip-gram模型对弹幕文本进行分析。将匹配得到的情感词输入至训练后的Skip-gram模型,即可获得情感词的词向量。通过将匹配得到的情感词输入至训练后的Skip-gram模型,从而快速准确的获得所述情感词的词向量。
基于上述实施例的内容,作为一种可选实施例,弹幕文本中的情感词输入至训练后的Skip-gram模型之前,还包括:获取多个样本弹幕文本;将样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练,直至所述skip-gram模型训练完成。
样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练,具体实施例中,可利用python的word2vec库进行训练词向量并保存训练结果,通过调word2vec库进行训练,自动计算目标函数,无需人工计算。可只考虑在语料中出现十次以上的词语,得到弹幕词向量模型。由于Word2vec中词向量维度一般设置为50-150维,具体实施例中可分别设置维度为20、50、100、150进行文本情感分类,最终对效果进行比较。
基于上述实施例的内容,作为一种可选实施例,获取多个样本弹幕文本之后,还包括:对所述样本弹幕文本进行数据清洗;相应地,将所述样本弹幕文本,以弹幕句为单位,输入至skip-gram模型进行训练,具体为:将数据清洗后的样本弹幕文本,以弹幕句为单位,输入至skip-gram模型进行训练;其中,所述数据清洗包括:统一英文字母大小写,统一标点符号格式以及统一同义词、谐音词。
针对游戏直播弹幕语言口语化、网络用语较多等特点,对获取的弹幕进行数据清洗,包括但不限于如下方法:
(1)统一英文字母大小写,如统一为小写。游戏直播弹幕中常出现特定名词的英文缩写,为保证文本的一致性,统一为小写。
(2)统一标点符号格式。由于用户输入习惯不同,弹幕文本中标点符号格式不统一。对此,具体实施时将全部标点符号统一为英文格式。
(3)统一同义词、谐音词。例如,同义词的含义相同,单个词语和该词连用时表达的含义相同。通过对弹幕文本进行观察研究,发现弹幕用语中常有同义词连用表达情感的习惯,如“哈哈哈哈哈哈哈”与“哈哈哈”同义。弹幕用语中还常出现谐音词,如“红红火火”与“哈哈哈”同义。针对这种情况,本发明实施例对出现频率较高的同义词连用和谐音词进行总结,将同义词连用的短语和谐音词替换成同义词,如将“哈哈哈哈哈哈哈”替换为“哈哈哈”、将“红红火火”替换为“哈哈哈”等,表1为统一同义词的示例(“+”号表示重复出现),表2为统一谐音词的示例。
表1
Figure GDA0003593739450000061
表2
谐音词 替换词
红红火火 哈哈哈
恍恍惚惚 哈哈哈
本发明实施例提供的弹幕情感分析方法,对获取的弹幕进行数据清洗,能够增加获取情感词的准确性,从而提高弹幕文本情感类型的准确性。
基于上述实施例的内容,作为一种可选实施例,获取多个样本弹幕文本之后,还包括:对样本弹幕文本进行文本预处理;相应地,将所述样本弹幕文本,以弹幕句为单位,输入至skip-gram模型进行训练,具体为:将文本预处理后的样本弹幕文本,以弹幕句为单位,输入至skip-gram模型进行训练;其中,所述文本预处理包括:分词处理和去停用词处理。
通过文本预处理,去除无效弹幕。例如,使用jieba库进行文本预处理,主要包括分词和去除停用词两步。
具体实施过程中,使用jieba库cut函数的精确模式进行分词,并在jieba自带词库的基础上,结合弹幕特点,加入用户自定义词典,提高分词精确度。以弹幕应用场景为英雄联盟的斗鱼直播为例,用户自定义词典规则如下:
(1)弹幕中常出现英雄联盟游戏术语,因此,获取输入法的英雄联盟词库,进行筛选,共获得1,406个词,导入用户自定义词典。
(2)加入游戏常用英文单词,如战队名称、游戏英文术语、英文术语缩写等。共85个词。
(3)根据游戏直播,获取弹幕常用语和网络用语共60个,如“笑死”、“笑哭”和“666”等,导入用户自定义词典。
斗鱼网站为用户提供了54个表情图片,在获取的数据中表示为[emot:dyXXX]格式,XXX为表情的三位编号,同时聊天界面能显示每个表情的含义。因此,可通过构建表情词典匹配表情含义。jieba分词可将dyXXX部分分出,再将表情词典替换为该表情符号的中文含义,如表3示例。
表3
表情图片 表情编号 中文含义
表情1 dy001 666
表情2 dy002 发呆
去停用词,分词的结果中有很多无意义的词,如“的”、“了”等,会对后续步骤造成干扰,这些词称为停用词。根据游戏直播弹幕特点,改进停用词表,去除停用词。规则如下:
(1)基于哈工大停用词表,根据弹幕语言语气词多且情感丰富的特点,改进停用词表。
(2)游戏直播弹幕一般为短语或短句,常出现标点符号。其中,仅“?”和“!”、“…”可以表达疑问、感叹、无语等情感,因此,仅保留这三种标点符号,将其他标点符号加入停用词表。
(3)用户在发送弹幕时会使用火星文等特殊字符,出现次数较少,对实验结果影响不大,因此将这些特殊符号加入停用词表。
综上,经数据清洗和文本预处理后的弹幕文本举例如:
“琦琦早上好啊啊啊”,“古德猫宁琦琦”,“降温琦琦”,“降温注意保暖”,“昨天还看着太阳今天乌云密布”,“燥热偷笑偷笑”。
本发明实施例提供的弹幕情感分析方法,对获取的弹幕进行文本预处理,能够增加获取情感词的准确性,从而提高弹幕文本情感类型的准确性。
基于上述实施例的内容,作为一种可选实施例,将所述弹幕文本与弹幕情感词典进行匹配之前,还包括:根据基础情感词典,对弹幕常用情感词进行扩充,获得所述弹幕情感词典;所述弹幕常用情感词包括直播平台表情包情感词及弹幕用词频率达到预设次数的情感词。
基于情感词的情感分析方法准确性与情感词典有很大关系,能否准确全面分辨出情感词直接影响句子的情感判断。由于目前没有普遍适用的中文情感词典,且弹幕语言具有口语性强、网络用语多等特点,本文首先对基础情感词典进行扩充,得到弹幕情感词典,可采用词向量的方法实现。
具体实施过程中,可选取清华大学中文褒贬义词典、台湾大学中文情感极性词典和Hownet情感词典作为基础情感词典。同时,由于游戏弹幕文本口语化、游戏术语多等特点,还考虑弹幕常用情感词。弹幕常用情感词主要包括直播平台表情包情感词,及弹幕用词频率达到一定次数(预设次数)的情感词。以英雄联盟的斗鱼直播为例,增添了斗鱼网站表情包中文情感词共54个,结合弹幕常用语和网络用语和弹幕词频统计结果,总结弹幕常用情感词,如“666”、“秀”和“大气”等,共87个作为基础情感词,扩充情感词典后,去重最终得到情感词19,652个的英雄联盟弹幕情感词典。
本发明实施例提供的弹幕情感分析方法,根据基础情感词典以及弹幕常用情感词,扩充情感词典,获得所述弹幕情感词典,使获得的弹幕情感词典更为全面,进而提高弹幕文本情感类型的准确性。
基于上述实施例的内容,作为一种可选实施例,根据基础情感词典以及弹幕常用情感词,扩充情感词典,包括:将弹幕常用情感词中任一情感词作为种子词,获取所述种子词的相关词列表;从种子词的相关词列表中,选取相关性大于预设阈值,且相关性大小降序排列后前预设个数的情感词;对所述预设个数的情感词,按相关性大小降序,依次进行相关词列表的搜索,并从相关词列表中,选取相关性大于预设阈值,且相关性大小降序排列后前预设个数的情感词,直至获得的总情感词数量满足预设条件。
以上述Word2vec的Skip-gram模型为例,可利用上述训练完成的词向量模型实现情感词典的扩充。Word2vec中的most_similar函数可以返回给定词的相关词列表,包括相关词语和相关度。利用该函数扩充弹幕情感词典,预设阈值和预设个数根据需求设置,如预设阈值设置为0.75,预设个数设置为5个,则只考虑相关性前五且相关度大于0.75的词。由于most_similar函数不能区分反义词和近义词,两个含义相反的词可能会出现相同的相关词,因此,本实施例的情感词典没有区分词语褒贬义。
弹幕文本情感词种类多、比较分散,且基础情感词典中情感词(种子词)较为书面化,可采用BFS的方法对情感词典进行扩充。计算模型中出现的种子词的相关词列表,使用BFS搜索出20个词语,即预设条件为20个相关词,预设条件可根据需要变更。
图3为本发明实施例提供的扩充情感词典示意图,如图3所示,若A是一个种子词,先使用most_similar函数获得A的相关词列表,对于相关词列表中的相关性前五且相关度大于0.75的词加入情感词典,得到A1到A5。再对A1的相关词列表进行搜索,选择相关性前五且相关度大于0.75的词加入情感词典,直到从种子词A得到20个扩充的情感词为止。
本发明实施例提供的弹幕情感分析方法,能够获取相关性大的情感词进行扩充情感词典,从而提高弹幕文本情感类型的准确性。
作为可选实施例,情感分析模型训练完成后,可对其进行评估,如采用五折交叉验证法评估模型的分类性能。交叉验证法是将样本数据分成两部分,一部分作为训练集,另一部分作为测试集。K折交叉验证就是将数据随机分成K份,每次随机选择其中K-1份作为训练集,剩下的一份作为测试集,共进行K次,对K次的结果取平均值进行综合评价。本发明实施例选择将80%文本向量作为训练集,20%作为测试集。
为评估模型,本发明实施例选取以下指标:
(1)准确率(accuracy)。混淆矩阵常用于精度评价,行表示真实类别,列表示预测类别,如表4所示。准确率是最常用的分类评价指标,说明了分类器预测的准确程度。accuracy=(TP+TN)/(TP+FN+FP+TN),即预测正确的样本数/样本总数。
表4
预测值1 预测值0
真实值1 真正(True Positive,TP) 假正(False Positive,FP)
真实值0 真负(True Negative,TN) 假负(False Negative,FN)
(2)召回率(recall)。召回率说明了分类器能预测出多少正样本,又称真正率。recall=TP/(TP+FN),即预测正确的正样本数/正样本总数。
(3)AUC(Area Under Curve)。ROC(Receiver Operating Characteristic)曲线上各点反映了相同的感受性。AUC是ROC曲线下的面积,说明了分类器的排序能力。正负样本随机选择各一个,分类器判断正样本在负样本前的概率就是AUC。
使用20维文本向量进行情感分析,分别采用弹幕情感词典和基础情感词典,将两次实验对比,验证扩充情感词典的有效性。若采用扩充后的分类器的准确率、召回率和AUC都明显高于使用基础情感词典的分类器,则针对弹幕特点扩充情感词典是有效的。
再对使用20/50/100/150维文本向量进行情感分析进行五折交叉验证。通过比较准确率、召回率和AUC判断使用哪个向量维度效果最优。若结果相似则考虑情感词典的扩充用时和占用空间。
图4为本发明实施例提供的弹幕情感分析装置结构图,如图4所示,该弹幕情感分析装置包括:获取模块401、向量化模块402和处理模块403。其中,获取模块401用于获取预设时间段内的弹幕文本;向量化模块402用于将所述弹幕文本与弹幕情感词典进行匹配,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量;处理模块403用于对所述弹幕文本中所有情感词的词向量求和,获得弹幕文本向量,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型;其中,所述情感分析模型,根据带有情感类型标签的弹幕文本样本进行训练后得到。
预设时间段可根据需求设置,例如,以一分钟为一个时间段进行分析,以下以一分钟的直播间弹幕为例进行说明。首先,获取模块401获取某个一分钟段的直播间全部弹幕。
文本向量化为将词语映射到实数空间,得到词语的数字向量形式,便于后续的分析。例如,向量化模块402可以通过Word2vec实现。
本发明实施例中将弹幕文本的情感分成两类:正面情感和负面情感。在将所述弹幕文本向量输入至预设的情感分析模型之前,还包括:根据带有情感类型标签的弹幕文本样本对构建的情感分析模型进行训练,从而得到上述预设的情感分析模型。同样的,输入情感分析模型的是弹幕文本样本的文本向量。具体实施过程中,可使用高斯核函数的SVM分类器进行分类预测。参数使用默认,通过调用sklearn包实现。对弹幕文本进行情感分析之前,采用人工方式对多个一分钟的弹幕样本的情感氛围进行标注,正面情感用“1”标注、负面情感用“0”标注。通过标注有情感类型标签的样本对情感分析模型进行训练,训练完成后,向量化模块402向量化后的弹幕文本,输入处理模块403,能够根据预设时间段内的弹幕文本,快速准确得到相应的情感类型。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例提供的弹幕情感分析装置,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量,实现了情感词的量化,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型,从而能够快速准确获得弹幕文本的情感类型。
图5为本发明实施例提供的一种电子设备的实体结构示意图,如图5所示,该服务器可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和总线504,其中,处理器501,通信接口502,存储器503通过总线504完成相互间的通信。通信接口502可以用于电子设备的信息传输。处理器501可以调用存储器503中的逻辑指令,以执行包括如下的方法:获取预设时间段内的弹幕文本;将所述弹幕文本与弹幕情感词典进行匹配,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量;对所述弹幕文本中所有情感词的词向量求和,获得弹幕文本向量,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型;其中,所述预设的情感分析模型,根据带有情感类型标签的弹幕文本样本进行训练后得到。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取预设时间段内的弹幕文本;将所述弹幕文本与弹幕情感词典进行匹配,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量;对所述弹幕文本中所有情感词的词向量求和,获得弹幕文本向量,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型;其中,所述预设的情感分析模型,根据带有情感类型标签的弹幕文本样本进行训练后得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种弹幕情感分析方法,其特征在于,包括:
获取预设时间段内的弹幕文本;
将所述弹幕文本与弹幕情感词典进行匹配,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量;
对所述弹幕文本中所有情感词的词向量求和,获得弹幕文本向量,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型;
其中,所述预设的情感分析模型,根据带有情感类型标签的弹幕文本样本进行训练后得到;
将所述弹幕文本与弹幕情感词典进行匹配之前,还包括:
根据基础情感词典以及弹幕常用情感词,扩充情感词典,获得所述弹幕情感词典;
所述弹幕常用情感词包括直播平台表情包情感词及弹幕用词频率达到预设次数的情感词;
所述根据基础情感词典以及弹幕常用情感词,扩充情感词典,包括:
将弹幕常用情感词中任一情感词作为种子词,获取所述种子词的相关词列表;
从种子词的相关词列表中,选取相关性大于预设阈值,且相关性大小降序排列后前预设个数的情感词;
对所述预设个数的情感词,按相关性大小降序,依次进行相关词列表的搜索,并从相关词列表中,选取相关性大于预设阈值,且相关性大小降序排列后前预设个数的情感词,直至获得的总情感词数量满足预设条件。
2.根据权利要求1所述的弹幕情感分析方法,其特征在于,所述将匹配得到的情感词进行文本向量化,包括:
将匹配得到的情感词输入至训练后的Skip-gram模型,获得所述情感词的词向量。
3.根据权利要求2所述的弹幕情感分析方法,其特征在于,将匹配得到的情感词输入至训练后的Skip-gram模型之前,还包括:
获取多个样本弹幕文本;
将所述样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练,直至所述skip-gram模型训练完成。
4.根据权利要求3所述的弹幕情感分析方法,其特征在于,所述获取多个样本弹幕文本之后,还包括:
对所述样本弹幕文本进行数据清洗;
相应地,将所述样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练,具体为:
将数据清洗后的样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练;
其中,所述数据清洗包括:统一英文字母大小写,统一标点符号格式以及统一同义词、谐音词。
5.根据权利要求3所述的弹幕情感分析方法,其特征在于,所述获取多个样本弹幕文本之后,还包括:
对所述样本弹幕文本进行文本预处理;
相应地,将所述样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练,具体为:
将文本预处理后的样本弹幕文本以弹幕句为单位,输入至skip-gram模型进行训练;
其中,所述文本预处理包括:分词处理和去停用词处理。
6.一种弹幕情感分析装置,其特征在于,包括:
获取模块,用于获取预设时间段内的弹幕文本;
向量化模块,用于将所述弹幕文本与弹幕情感词典进行匹配,将匹配得到的情感词进行文本向量化,获得每一情感词的词向量;
处理模块,用于对所述弹幕文本中所有情感词的词向量求和,获得弹幕文本向量,将所述弹幕文本向量输入至预设的情感分析模型,获取所述弹幕文本的情感类型;
其中,所述情感分析模型,根据带有情感类型标签的弹幕文本样本进行训练后得到;
所述装置还用于,将所述弹幕文本与弹幕情感词典进行匹配之前:
根据基础情感词典以及弹幕常用情感词,扩充情感词典,获得所述弹幕情感词典;
所述弹幕常用情感词包括直播平台表情包情感词及弹幕用词频率达到预设次数的情感词;
所述根据基础情感词典以及弹幕常用情感词,扩充情感词典,包括:
将弹幕常用情感词中任一情感词作为种子词,获取所述种子词的相关词列表;
从种子词的相关词列表中,选取相关性大于预设阈值,且相关性大小降序排列后前预设个数的情感词;
对所述预设个数的情感词,按相关性大小降序,依次进行相关词列表的搜索,并从相关词列表中,选取相关性大于预设阈值,且相关性大小降序排列后前预设个数的情感词,直至获得的总情感词数量满足预设条件。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述弹幕情感分析方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述弹幕情感分析方法的步骤。
CN201910661588.8A 2019-07-22 2019-07-22 弹幕情感分析方法及装置 Active CN110569354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910661588.8A CN110569354B (zh) 2019-07-22 2019-07-22 弹幕情感分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910661588.8A CN110569354B (zh) 2019-07-22 2019-07-22 弹幕情感分析方法及装置

Publications (2)

Publication Number Publication Date
CN110569354A CN110569354A (zh) 2019-12-13
CN110569354B true CN110569354B (zh) 2022-08-09

Family

ID=68773266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910661588.8A Active CN110569354B (zh) 2019-07-22 2019-07-22 弹幕情感分析方法及装置

Country Status (1)

Country Link
CN (1) CN110569354B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111225227A (zh) * 2020-01-03 2020-06-02 网易(杭州)网络有限公司 弹幕的发布方法、模型生成方法及装置
CN111372141B (zh) * 2020-03-18 2024-01-05 腾讯科技(深圳)有限公司 表情图像生成方法、装置及电子设备
CN111860237B (zh) * 2020-07-07 2022-09-06 中国科学技术大学 一种视频情感片段的识别方法及装置
CN112001184B (zh) * 2020-08-14 2022-10-11 西华大学 面向视频弹幕的用户情感差异区域检测方法和系统
CN112115707A (zh) * 2020-09-08 2020-12-22 九江学院 一种用于弹幕情感分析且基于表情和语气的情感词典构建方法
CN112507115B (zh) * 2020-12-07 2023-02-03 重庆邮电大学 一种弹幕文本中情感词的分类方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291696A (zh) * 2017-06-28 2017-10-24 达而观信息科技(上海)有限公司 一种基于深度学习的评论词情感分析方法及系统
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN109376251A (zh) * 2018-09-25 2019-02-22 南京大学 一种基于词向量学习模型的微博中文情感词典构建方法
CN110020437A (zh) * 2019-04-11 2019-07-16 江南大学 一种视频和弹幕相结合的情感分析及可视化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291696A (zh) * 2017-06-28 2017-10-24 达而观信息科技(上海)有限公司 一种基于深度学习的评论词情感分析方法及系统
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN109376251A (zh) * 2018-09-25 2019-02-22 南京大学 一种基于词向量学习模型的微博中文情感词典构建方法
CN110020437A (zh) * 2019-04-11 2019-07-16 江南大学 一种视频和弹幕相结合的情感分析及可视化方法

Also Published As

Publication number Publication date
CN110569354A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110569354B (zh) 弹幕情感分析方法及装置
CN108287858B (zh) 自然语言的语义提取方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
CN110472043B (zh) 一种针对评论文本的聚类方法及装置
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN110555440B (zh) 一种事件抽取方法及装置
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN113094478B (zh) 表情回复方法、装置、设备及存储介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN111191463A (zh) 情感分析方法、装置、电子设备及存储介质
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN111914554A (zh) 领域新词识别模型的训练方法、领域新词识别方法及设备
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN112949293A (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
CN111274384B (zh) 一种文本标注方法及其设备、计算机存储介质
CN108763258B (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant