CN112507115B - 一种弹幕文本中情感词的分类方法、装置及存储介质 - Google Patents
一种弹幕文本中情感词的分类方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112507115B CN112507115B CN202011418248.1A CN202011418248A CN112507115B CN 112507115 B CN112507115 B CN 112507115B CN 202011418248 A CN202011418248 A CN 202011418248A CN 112507115 B CN112507115 B CN 112507115B
- Authority
- CN
- China
- Prior art keywords
- emotion
- bullet screen
- text
- barrage
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 307
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004364 calculation method Methods 0.000 claims abstract description 41
- 238000013145 classification model Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 230000002996 emotional effect Effects 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 19
- 230000001815 facial effect Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 206010028813 Nausea Diseases 0.000 claims description 4
- 230000008693 nausea Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 239000003086 colorant Substances 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 11
- 230000008921 facial expression Effects 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000007636 ensemble learning method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 206010063659 Aversion Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004630 mental health Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种弹幕文本中情感词的分类方法及装置,包括以下步骤:对Python爬取到的弹幕数据进行预处理,判断待分类弹幕数据中是否包含情感词,若不包含则直接利用GRU分类器进行分类得到分类结果;若包含情感词,则构造弹幕文本领域的多维弹幕情感词典,并在所述多维弹幕情感词典基础上,构造文本情感计算分类器;采用模型融合的集成学习策略构造弹幕情感分类模型;将测试集数据输入到弹幕情感分类模型中,得到弹幕的情感分类结果。本发明扩展了情感词典,利用GRU、朴素贝叶斯和七维情感计算分类方法作为基分类器,根据各个基分类器得到的结果进行投票融合输出最终情感分类结果,解决弹幕短文本情感词分类问题。
Description
技术领域
本发明属于网络舆情领域,具体涉及一种弹幕文本中情感词的分类方法、装置及存储介质。
背景技术
近些年,随着互联网的不断发展,弹幕视频网站开始流行起来。越来越多的青少年习惯于在观看该类型视频的同时发送弹幕来表达自己的观点。而在弹幕视频这种带有社交因素的环境中,一旦出现舆情或热点事件视频,将会迅速传播,造成巨大影响。弹幕发送者大多为涉世未深的青少年,很容易被其中故意引战的弹幕带偏,这些消极以及引战弹幕很容易对他们产生不利的影响,有碍于青少年身心健康的发展。因此,如果不加以管控,这种恶意的,消极的弹幕将会对青少年造成较为严重的负面影响,甚至会有一些不法分子输出恶意观点,散播恶意谣言,严重破坏了网络空间的和谐以及危害青少年的的心理健康。
弹幕这种短文本分类主要分为两种方法:基于机器学习的方法和基于情感词典的方法。基于情感词典的方法计算较为方便,无需对数据进行标注,但是该方法的问题是依赖情感词典的质量,特别是弹幕这种需要有专门的领域词典来进行适配,并且目前针对弹幕并没有一种有效的情感计算方法。而基于机器学习的方法则不需要特定领域词典,只需要进行特征提取处理,进而送入分类模型进行训练以及调优。但缺点是需要人工标注数据类别,且语义表达存在一定的局限性。
现如今网络上涌现出了大量的流行词语,随着这些词的不断出现,传统的情感词典已经不能满足这种带有这种新兴词汇的句子的后续分析,特别是弹幕这种带有专有弹幕热词的句子。常用颜表情,口语化,符号化是弹幕文本最鲜明的特点之一,且颜表情是一种较为强烈的情感体现,而传统情感词典则选择忽略掉这些符号表情,这在弹幕文本分析的过程中会造成大量的信息流失。因此,需要一种包含了网络热词和弹幕新型情感词,还包含有常用颜表情和颜符号,在词语方面和非常规词语方面进行有效的扩充。
发明内容
本发明提供了一种弹幕文本中情感词的分类方法及装置,在现有的情感词典中加入网络热词、弹幕新型情感词、常用颜表情和颜符号得到多维弹幕情感词典,利用GRU、朴素贝叶斯和七维情感计算分类方法作为基分类器对弹幕短文本进行分类,解决弹幕短文本的情感分类问题。
本发明的技术方案如下:
现有技术中,对于弹幕文本情感词的分类方法中,传统的情感词典对于新兴的流行词没有办法进行分类,因此需要结合当今网络上的网络热词和弹幕新型情感词,从不同维度对弹幕进行描述,重新构建情感词典和情感分类模型,对弹幕中的情感词进行有效的分类,本发明一种弹幕文本中情感词的分类方法,包括:
步骤S1、对Python爬取到的弹幕数据进行预处理,得到待分类弹幕数据;
步骤S2、判断待分类弹幕数据中是否包含情感词;
步骤S3、若步骤S2的判定结果为:不包含,则利用GRU分类器对待分类弹幕数据进行分类得到分类结果;
步骤S4、若步骤S2的判定结果为:包含,则利用构建的弹幕情感分类模型对待分类弹幕数据进行分类得到情感分类结果;
所述弹幕情感分类模型的构建和分类过程为:
步骤A、先构造弹幕文本领域的七维弹幕情感词典,并在所述七维弹幕情感词典基础上,构造文本情感计算分类器计算弹幕数据中的情感词的情感总值;
步骤B、采用模型融合的集成学习策略构造弹幕情感分类模型,将文本情感计算分类器、朴素贝叶斯分类器和GRU分类器作为基分类器;
步骤C、将待分类弹幕数据分为训练集、验证集和测试集数据,并用训练集数据分别对各个基分类器进行训练,得到拟合好的各基分类器;
步骤D、将所述验证集数据输入到拟合好的各基分类器中,并调整相应参数,得到验证后的各基分类器,最终构造出弹幕情感分类模型;
步骤E、将所述测试集数据输入到验证后的弹幕情感分类模型中,根据各个基分类器得到的结果进行投票融合输出最终情感分类结果。
由于GRU分类器充分考虑了词语的语义信息和词语位置的信息,并且可以处理不包含情感词的弹幕文本,因此若采集到的待分类弹幕没有含有情感词直接使用GRU分类器进行分类,将GRU分类器的分类结果作为该弹幕情感类别的最终结果。若采集到的待分类弹幕含有情感词,则基于情感词典的分类方法在含有情感词的弹幕文本中表现更为优异。因此,选择GRU、朴素贝叶斯和七维情感计算分类构造的文本情感计算分类器作为基分类器,用集成学习的方法构建弹幕情感分类模型,并通过投票原则来进行最后的结果预测。将待分类弹幕分为训练集、验证集和测试集数据,其中,训练集用于训练模型,验证集用于调模型参数,测试集为测试模型表现,这样可以得到一个鲁棒性高,泛化能力强的分类模型,从而提高待预测数据的最终分类精确度。
进一步地,弹幕数据预处理和打标具体包括:
将弹幕数据维度分为八个维度,包括弹幕距视频开始后出现时间(单位为秒)、弹幕种类(包括顶端弹幕、底端弹幕、逆向弹幕等)、弹幕字体大小、弹幕字体颜色(用十进制来表示)、弹幕发送时间戳(Unix格式)、弹幕池类型、发送者加密后id、弹幕id即弹幕在数据库中的rowID(用于查看“历史弹幕”);
利用先验知识对采集到的弹幕数据进行打标,将弹幕数据分为积极类别和消极类别,并且将数据中的异常值、空值进行删除,得到带有情感词标注的积极类别和消极类别弹幕文本数据作为待分类弹幕数据。
进一步地,所述七维弹幕情感词典的构造具体包括:
步骤A1、将大连理工大学所提出的中文情感词汇本体库作为所述七维弹幕情感词典的核心,该词典包含2.7w多个情感词,从七个情感维度来描述情感,包括乐、好、怒、哀、惧、恶和惊,乐和好属于积极类别,而其他五个则属于消极类别,每种情感的强度都分为1、3、4、7、9五档,1代表强度最小,而9代表强度最大;
步骤A2、对弹幕数据进行分析,得到弹幕流行词词典,该流行词词典包含659个词,同时,由于弹幕中含有大量的颜表情及颜文字等颜符号,这种符号所含信息较为丰富,因此,从弹幕文本以及互联网常用颜符号中收集了231个符号作为颜符号词典;
步骤A3、根据大连理工大学情感词库的等级评判标准,对流行情感词和颜符号进行权重打分,将中文情感词汇本体库、弹幕流行词词典和颜符号词典汇总到一起,得到所述七维弹幕情感词典。
进一步地,根据所述构造的文本情感计算分类器计算弹幕数据中的情感词的情感总值的过程包括:
步骤1、将弹幕数据中的情感词按照所述七维弹幕情感词典所在的对应维度进行分类,得到对应维度的弹幕文本;
步骤2、判断所述弹幕文本是否存在情感反转,计算所述弹幕文本对应维度的文本情感值;
步骤3、通过弹幕数据的其他数据维度计算弹幕文本的强度增益;
步骤4、将所述文本情感值和弹幕的强度增益进行累加得到对应维度下的弹幕文本的情感总值;
步骤5、根据步骤1-步骤4计算出弹幕文本在七维情感下每个维度的情感总值,最终按照积极类别情感总值和消极类别情感总值之间的大小关系来确定最终情感类别。
进一步地,所述得到对应维度的弹幕情感词文本的过程具体包括:分别对爬取到的每条弹幕数据进行分词处理,去除无用停用词,得到每条弹幕数据的词语集合W{w1,w2,w3,…,wn},W表示该条弹幕数据的词语集合,wi表示该条弹幕数据中第i个词语;
用所述七维弹幕情感词典对所述每条弹幕数据的词语集合进行词语匹配,得到Sc是W的子集,表示W中所属情感维度c的情感词集合,其中c∈{乐,好,怒,哀,惧,恶,惊}共七维情感,而表示所属情感维度c的第i个情感词。
进一步地,所述计算文本情感值的具体过程为:固定情感维度c,根据情感词权重、程度副词个数及其对应权重、弹幕文本是否存在情感反转计算文本情感值,具体计算公式如下:
其中,表示计算情感维度c时,弹幕文本中的词w是否存在情感反转,negw表示情感词w前面的否定词个数,μw表示该情感词本身的情感值大小,Pw表示情感词w后面紧跟的情感标点集合,αp对应着情感标点的情感值,Dw表示情感词w前面的程度副词集合,βd对应着程度副词的强度。
进一步地,对所述弹幕强度增益计算步骤包括:
固定情感维度c,若该条弹幕数据在情感维度c下的文本情感值为0,则无需计算弹幕文本的增益强度,若文本情感值大于0,则继续判断该条弹幕文本的颜色类别θd,具体表示如下:
再判断该条弹幕文本的弹幕类型ηd,具体表示如下:
利用弹幕文本的颜色类别θd和弹幕类型ηd辅助,计算该条弹幕文本的弹幕增益强度ξ(d,c),具体计算公式如下:
其中,Wc表示该条弹幕文本中属于c维度的情感词的集合,fontSized表示弹幕文本的字号。
进一步地,所述情感总值的具体计算过程为:
sentiValue(d,c)=ξ(d,c)+textValue(d,c)
其中,sentiValue(d,c)表示弹幕文本d在情感维度c下的情感总值,ξ(d,c)表示弹幕文本本身的强度增益,textValue(d,c)表示弹幕文本d在情感维度c下的文本情感值。
另外,本发明提出一种基于情感计算和集成学习的弹幕情感分类装置,所述装置支持上述的基于内容和用户标识的弹幕过滤方法,包括:
数据预处理模块:用于将python程序爬取到的弹幕数据进行文本清洗、分词、打标;
弹幕情感计算模块:通过对弹幕文本的分析提出弹幕领域情感词典,并在所述七维弹幕情感词典基础上,构造文本情感计算分类器;
情感分类模型集成模块:采用模型融合的思想作为集成学习的分类策略,构造情感分类模型;
情感判别模块:将待分类弹幕输入弹幕情感分类模型中,得到该条弹幕的情感分类结果。
本发明提供一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时实现上述对弹幕文本中情感词文本的分类方法。
本发明的优点及有益效果如下:
1、本发明一种弹幕文本中情感词的分类方法及装置,将网络热词、弹幕新型情感词、常用颜表情和颜符号加入情感词典,在词语方面和非常规词语方面进行有效的扩充。将上述扩充词典按现有词典的规则进行情感分类和权重赋值,最终得到了适用于弹幕领域的情感词典,该词典有效解决了传统情感词典覆盖面不足,不能适配含有流行词文本的问题。
2、本发明一种弹幕文本中情感词的分类方法及装置,提供了一种弹幕文本的七维情感计算方法,相较于传统文本情感计算方法只考虑了情感词的缺点,该方法不但考虑了传统文本利用情感词及其前面的程度副词和否定词来进行情感计算,还将弹幕文本本身的相关特征和标点符号进行情感量化并将其结合到一起,比如表达强烈情感的用户一般会将自己的弹幕设置为彩色,并加大字号等,可以量化情感信息,更加可信和真实的来量化弹幕情感,有效解决了传统计算方法维度单一的问题。
3、本发明一种弹幕文本中情感词的分类方法及装置,选择GRU、朴素贝叶斯和七维情感计算分类方法作为基分类器并通过投票原则来进行最后的结果预测。用集成学习的方法来进行整体的算法框架搭建,可以得到一个鲁棒性高,泛化能力强的弹幕情感分类模型,从而提高待预测数据的最终分类精确度。
附图说明
图1是本发明弹幕文本情感分类的总体流程图;
图2是本发明弹幕情感分类模型构建及分类的流程图;
图3为部分颜符号词典;
图4是本发明提供弹幕七维情感计算的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的结构、电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
在本发明的描述中,需要理解的是,术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制。
实施例1
现有技术中,对于弹幕文本情感词的分类方法中,传统的情感词典对于新兴的流行词没有办法进行分类,因此需要结合当今网络上的网络热词和弹幕新型情感词,从不同维度对弹幕进行描述,重新构建情感词典和情感分类模型,对弹幕中的情感词进行有效的分类。如图1,图2所示,一种弹幕文本中情感词的分类方法针对弹幕文本情感词分类的总体流程图。这里,作为示例,所述方法可以作为计算机程序来执行,也可作为插件在其他程序中执行,本发明一种弹幕文本中情感词的分类方法,包括以下步骤:
步骤S1、对Python爬取到的弹幕数据进行预处理,得到待分类弹幕数据;
步骤S2、判断待分类弹幕数据中是否包含情感词;
步骤S3、若步骤S2的判定结果为:不包含,则利用GRU分类器对待分类弹幕数据进行分类得到分类结果;
步骤S4、若步骤S2的判定结果为:包含,则利用构建的弹幕情感分类模型对待分类弹幕数据进行分类得到情感分类结果;
所述弹幕情感分类模型的构建和分类过程为:
步骤A、先构造弹幕文本领域的七维弹幕情感词典,并在所述七维弹幕情感词典基础上,构造文本情感计算分类器计算弹幕数据中的情感词的情感总值;
步骤B、采用模型融合的集成学习策略构造弹幕情感分类模型,将文本情感计算分类器、朴素贝叶斯分类器和GRU分类器作为基分类器;
步骤C、将待分类弹幕数据分为训练集、验证集和测试集数据,并用训练集数据分别对各个基分类器进行训练,得到拟合好的各基分类器;
步骤D、将所述验证集数据输入到拟合好的各基分类器中,并调整相应参数,得到验证后的各基分类器,最终构造出弹幕情感分类模型;
步骤E、将所述测试集数据输入到验证后的弹幕情感分类模型中,根据各个基分类器得到的结果进行投票融合输出最终情感分类结果。
实际操作时,由于GRU分类器充分考虑了词语的语义信息和词语位置的信息,并且可以处理不包含情感词的弹幕文本,因此若采集到的待分类弹幕没有含有情感词直接使用GRU分类器进行分类,将GRU分类器的分类结果作为该弹幕情感类别的最终结果。若采集到的待分类弹幕含有情感词,则基于情感词典的分类方法在含有情感词的弹幕文本中表现更为优异。因此,选择GRU、朴素贝叶斯和七维情感计算分类构造的文本情感计算分类器作为基分类器,用集成学习的方法构建弹幕情感分类模型,并通过投票原则来进行最后的结果预测。将待分类弹幕分为训练集、验证集和测试集数据,其中,训练集用于训练模型,验证集用于调模型参数,测试集为测试模型表现,这样可以得到一个鲁棒性高,泛化能力强的分类模型,从而提高待预测数据的最终分类精确度。
具体地,在本实施例中,利用开发好的弹幕爬虫程序,通过设置待爬取视频,爬取目标视频自上架后所有的弹幕数据,Python共爬取弹幕数据共10万条,弹幕数据格式为下述包含八个维度的弹幕数据,抽出其中1万条数据进行情感类别标注,其中0代表消极,共5500条;1代表积极,共4500条。则所述弹幕数据预处理核和打标具体包括:
将弹幕数据维度分为八个维度,包括弹幕距视频开始后出现时间(单位为秒)、弹幕种类(包括顶端弹幕、底端弹幕、逆向弹幕等)、弹幕字体大小、弹幕字体颜色(用十进制来表示)、弹幕发送时间戳(Unix格式)、弹幕池类型、发送者加密后id、弹幕id即弹幕在数据库中的rowID(用于查看“历史弹幕”);
利用先验知识对采集到的弹幕文本数据进行打标,将弹幕分为积极类别和消极类别,并且将数据中的异常值、空值进行删除,最终得到5000条积极类别弹幕和6000条消极类别弹幕,并且在标注的数据中约含5300条带有情感词的弹幕。
由于现如今网络上涌现出了大量的流行词语,随着这些词的不断出现,传统的情感词典已经不能满足这种带有这种新兴词汇的句子的后续分析,特别是弹幕这种带有专有弹幕热词的句子。因此,本发明收集了近几年来网络热词和弹幕新型情感词,从而在词语方面进行有效的扩充。常用颜表情、口语化、符号化是弹幕文本最鲜明的特点之一,且颜表情是一种较为强烈的情感体现,而传统情感词典则选择忽略掉这些符号表情,这在弹幕文本分析的过程中会造成大量的信息流失。因此,本发明收集了网络上常用颜表情和颜符号,从而在非常规词语方面进行有效的扩充。将上述扩充词典按现有词典的规则进行情感分类和权重赋值,最终得到了适用于弹幕领域的情感词典,该词典有效解决了传统情感词典覆盖面不足,不能适配含有流行词文本的问题。所述七维弹幕情感词典的构造具体包括:
步骤A1、将大连理工大学所提出的中文情感词汇本体库作为所述七维弹幕情感词典的核心,该词典包含2.7w多个情感词,从七个情感维度来描述情感,包括乐、好、怒、哀、惧、恶和惊,乐和好属于积极类别,而其他五个则属于消极类别,每种情感的强度都分为1、3、4、7、9五档,1代表强度最小,而9代表强度最大;
步骤A2、对弹幕数据进行分析,得到弹幕流行词词典,该流行词词典包含659个词,同时,由于弹幕中含有大量的颜表情及颜文字等颜符号,这种符号所含信息较为丰富,因此,从弹幕文本以及互联网常用颜符号中收集了231个符号作为颜符号词典;
步骤A3、根据大连理工大学情感词库的等级评判标准,对流行情感词和颜符号进行权重打分,将中文情感词汇本体库、弹幕流行词词典和颜符号词典汇总到一起,其中部分颜符号如图3所示,最终得到所述弹幕情感词典。
由于传统文本情感计算方法只考虑了情感词的缺点,本发明提供了一种弹幕文本的七维情感计算方法,不但考虑了传统文本利用情感词及其前面的程度副词和否定词来进行情感计算,还将弹幕文本本身的相关特征和标点符号进行情感量化并将其结合到一起,比如表达强烈情感的用户一般会将自己的弹幕设置为彩色,并加大字号等,这些信息都是量化情感所不能忽视的。因此,通过本发明提出的计算方法,可以更加可信和真实的来量化弹幕情感,有效解决了传统计算方法维度单一的问题。在计算文本情感时,需要找出当前情感词前的所有否定词和程度副词以及紧跟当前情感词后的所有情感标点符号来计算出当前情感词所带来的文本情感值;利用爬取的弹幕数据其他维度信息,如弹幕字体颜色,弹幕字体大小等来计算出针对当前情感下的强度增益。最终将其相加得到该情感类别下的情感总值并按此方法分别计算出其他维度情感总值。如图4所示,所述构造文本情感计算分类器计算弹幕数据中的情感词的情感总值的过程包括:
步骤1、将弹幕数据中的情感词按照所述七维弹幕情感词典所在的对应维度进行分类,得到对应维度的弹幕文本;
步骤2、判断所述弹幕文本是否存在情感反转,计算所述弹幕文本对应维度的文本情感值;
步骤3、通过弹幕数据的其他数据维度计算弹幕文本的强度增益;
步骤4、将所述文本情感值和弹幕文本的强度增益进行累加得到对应维度下的弹幕文本的情感总值;
步骤5、根据步骤1-步骤4计算出弹幕文本在七维情感下每个维度的情感总值,最终按照积极类别情感总值和消极类别情感总值之间的大小关系来确定最终情感类别。
具体地,计算文本情感总值时步骤1得到对应维度的弹幕情感词文本的过程具体包括:分别对爬取到的每条弹幕数据进行分词处理,去除无用停用词,得到每条弹幕数据的词语集合W{w1,w2,w3,…,wn},W表示该条弹幕数据的词语集合,wi表示该条弹幕数据中第i个词语;
用所述七维弹幕情感词典对所述每条弹幕数据的词语集合进行词语匹配,得到Sc是W的子集,表示W中所属情感维度c的情感词集合,其中c∈{乐,好,怒,哀,惧,恶,惊}共七维情感,而表示所属情感维度c的第i个情感词。
具体地,计算文本情感总值时步骤2所述计算文本情感值的具体过程为:固定情感维度c,根据情感词权重、程度副词个数及其对应权重、弹幕文本是否存在情感反转计算文本情感值,具体计算公式如下:
其中,表示计算情感维度c时,弹幕文本中的词w是否存在情感反转,negw表示情感词w前面的否定词个数,μw表示该情感词本身的情感值大小,Pw表示情感词w后面紧跟的情感标点集合,αp对应着情感标点的情感值,Dw表示情感词w前面的程度副词集合,βd对应着程度副词的强度。
具体地,计算文本情感总值时步骤3中对所述弹幕强度增益计算步骤包括:
固定情感维度c,若该条弹幕数据在情感维度c下的文本情感值为0,则无需计算弹幕文本的增益强度,若文本情感值大于0,则继续判断该条弹幕文本的颜色类别θd,具体表示如下:
再判断该条弹幕文本的弹幕类型ηd,具体表示如下:
利用弹幕文本的颜色类别θd和弹幕类型ηd辅助,计算该条弹幕文本的弹幕增益强度ξ(d,c),具体计算公式如下:
其中,Wc表示该条弹幕文本中属于c维度的情感词的集合,fontSized表示弹幕文本的字号。
具体地,所述情感总值的具体计算过程为:
sentiValue(d,c)=ξ(d,c)+textValue(d,c)
其中,sentiValue(d,c)表示弹幕文本d在情感维度c下的情感总值,ξ(d,c)表示弹幕文本本身的强度增益,textValue(d,c)表示弹幕文本d在情感维度c下的文本情感值。
实施例2
本发明具体实施例还提供了一种基于情感计算和集成学习的弹幕情感分类装置,包括:
数据预处理模块:用于将python程序爬取到的弹幕数据进行文本清洗、分词、打标;
弹幕情感计算模块:通过对弹幕文本的分析提出弹幕领域情感词典,并在所述七维弹幕情感词典基础上,构造弹幕文本情感计算方式;
情感分类模型集成模块:采用模型融合的思想作为集成学习的分类策略,构造情感分类模型;
情感判别模块:将待分类弹幕输入弹幕情感分类模型中,得到该条弹幕的情感类别。
本装置支持实施例1中所述的基于内容和用户标识的弹幕过滤方法,在此就不一一赘述,采用本装置,可以方便的实现对弹幕文本情感的类别判定,解决了现有技术中没有专门的准确率高的弹幕文本情感分类装置的痛点。
实施例3
本发明具体实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时实现实施例1中所述的基于内容和用户标识的弹幕过滤方法。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
可以理解的是,经过本发明提供的方法,在现有的情感词典中加入网络热词、弹幕新型情感词、常用颜表情和颜符号得到多维弹幕情感词典,提高了传统情感词的覆盖面,使用七维情感计算方法,量化情感信息,可以更加可信和真实的来量化弹幕情感,有效解决了传统计算方法维度单一的问题;利用GRU、朴素贝叶斯和文本情感计算分类器作为基分类器对弹幕短文本进行分类,最终将各个基分类器得到的结果进行投票融合输出最终分类结果。可以得到一个鲁棒性高,泛化能力强的学习模型,从而提高待预测数据的最终分类精确度,解决弹幕短文本分类问题。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种弹幕文本中情感词的分类方法,其特征在于,包括:
步骤S1、对Python爬取到的弹幕数据进行预处理,得到待分类弹幕数据;
步骤S2、判断待分类弹幕数据中是否包含情感词;
步骤S3、若步骤S2的判定结果为:不包含,则利用GRU分类器对待分类弹幕数据进行分类得到分类结果;
步骤S4、若步骤S2的判定结果为:包含,则利用构建的弹幕情感分类模型对待分类弹幕数据进行分类得到情感分类结果;
所述弹幕情感分类模型的构建和分类过程为:
步骤A、先构造弹幕文本领域的七维弹幕情感词典,并在所述七维弹幕情感词典基础上,构造文本情感计算分类器计算弹幕数据中的情感词的情感总值;
步骤B、采用模型融合的集成学习策略构造弹幕情感分类模型,将文本情感计算分类器、朴素贝叶斯分类器和GRU分类器作为基分类器;
步骤C、将待分类弹幕数据分为训练集和验证集,并用训练集分别对各个基分类器进行训练,得到拟合好的各基分类器;
步骤D、将所述验证集输入到拟合好的各基分类器中,并调整相应参数,得到验证后的各基分类器,最终构造出弹幕情感分类模型;
步骤E、将待分类弹幕数据输入到验证后的弹幕情感分类模型中,根据各个基学习器得到的结果进行投票融合输出最终情感分类结果;
步骤A中根据所述构造的文本情感计算分类器计算弹幕数据情感词的情感总值的过程包括:
步骤1、将弹幕数据中的情感词按照所述七维弹幕情感词典所在的对应维度进行分类,得到对应维度的弹幕文本;
步骤2、判断所述弹幕文本是否存在情感反转,计算所述弹幕文本对应维度的文本情感值;
步骤3、通过弹幕数据的其他数据维度计算弹幕文本的强度增益;
步骤4、将所述文本情感值和弹幕文本的强度增益进行累加得到对应维度下的弹幕文本的情感总值;
步骤5、重复步骤1-步骤4计算出弹幕文本在七维情感下每个维度的情感总值,按照积极类别情感总值和消极类别情感总值之间的大小关系确定最终情感类别。
2.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,步骤S1中所述弹幕数据预处理具体包括:
将弹幕数据维度分为八个维度,包括弹幕距视频开始后出现时间、弹幕种类、弹幕字体大小、弹幕字体颜色、弹幕发送时间戳、弹幕池类型、发送者加密后id、弹幕id;
利用先验知识对采集到的弹幕数据进行打标,将弹幕数据分为积极类别和消极类别,并且将数据中的异常值、空值进行删除,得到带有情感词标注的正向情感和负向情感弹幕文本数据作为待分类弹幕数据。
3.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,步骤A中所述七维弹幕情感词典的构造具体包括:
步骤A1、将大连理工大学所提出的中文情感词汇本体库作为所述七维弹幕情感词典的核心,从七个情感维度来描述情感,包括乐、好、怒、哀、惧、恶和惊,乐和好属于正向情感,而其他五个则属于负向情感,每种情感的强度都分为1、3、4、7、9五档,1代表强度最小,而9代表强度最大;
步骤A2、对弹幕数据进行分析,得到弹幕流行词词典,同时,从弹幕文本以及互联网常用颜符号中收集231个符号作为颜符号词典;
步骤A3、根据大连理工大学情感词库的等级评判标准,对流行情感词和颜符号进行权重打分,将中文情感词汇本体库、弹幕流行词词典和颜符号词典汇总到一起,得到所述七维弹幕情感词典。
5.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,所述计算文本情感值的具体过程为:固定情感维度c,根据情感词权重、程度副词个数及其对应权重、弹幕文本是否存在情感反转计算文本情感值,具体计算公式如下:
7.根据权利要求1所述的一种弹幕文本中情感词的分类方法,其特征在于,所述情感总值的具体计算过程为:
sentiValue(d,c)=ξ(d,c)+textValue(d,c)
其中,sentiValue(d,c)表示弹幕文本d在情感维度c下的情感总值,ξ(d,c)表示弹幕文本本身的强度增益,textValue(d,c)表示弹幕文本d在情感维度c下的文本情感值。
8.一种弹幕文本中情感词的分类装置,其特征在于,所述装置支持权利要求1-7任一所述的一种弹幕文本中情感词的分类方法,该装置包括:
数据预处理模块:用于将python程序爬取到的弹幕数据进行文本清洗、分词、打标;
弹幕情感计算模块:通过对弹幕文本的分析提出弹幕领域情感词典,并在所述七维弹幕情感词典基础上,构造文本情感计算分类器;
情感分类模型集成模块:采用模型融合的思想作为集成学习的分类策略,构造情感分类模型;
情感判别模块:将待分类弹幕输入弹幕情感分类模型中,得到该条弹幕的情感分类结果。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011418248.1A CN112507115B (zh) | 2020-12-07 | 2020-12-07 | 一种弹幕文本中情感词的分类方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011418248.1A CN112507115B (zh) | 2020-12-07 | 2020-12-07 | 一种弹幕文本中情感词的分类方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507115A CN112507115A (zh) | 2021-03-16 |
CN112507115B true CN112507115B (zh) | 2023-02-03 |
Family
ID=74970897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011418248.1A Active CN112507115B (zh) | 2020-12-07 | 2020-12-07 | 一种弹幕文本中情感词的分类方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507115B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235244B (zh) * | 2023-11-16 | 2024-02-20 | 江西师范大学 | 一种基于弹幕情感词分类的在线课程学习情感体验评测系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247703A (zh) * | 2017-06-08 | 2017-10-13 | 天津大学 | 基于卷积神经网络和集成学习的微博情感分析方法 |
CN107301171A (zh) * | 2017-08-18 | 2017-10-27 | 武汉红茶数据技术有限公司 | 一种基于情感词典学习的文本情感分析方法和系统 |
CN108376133A (zh) * | 2018-03-21 | 2018-08-07 | 北京理工大学 | 基于情感词扩充的短文本情感分类方法 |
CN108920451A (zh) * | 2018-06-08 | 2018-11-30 | 天津大学 | 基于动态阈值和多分类器的文本情感分析方法 |
CN109471942A (zh) * | 2018-11-07 | 2019-03-15 | 合肥工业大学 | 基于证据推理规则的中文评论情感分类方法及装置 |
CN109492105A (zh) * | 2018-11-10 | 2019-03-19 | 上海文军信息技术有限公司 | 一种基于多特征集成学习的文本情感分类方法 |
CN109739960A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 文本的情感分析方法、情感分析装置及终端 |
CN110020437A (zh) * | 2019-04-11 | 2019-07-16 | 江南大学 | 一种视频和弹幕相结合的情感分析及可视化方法 |
CN110347825A (zh) * | 2019-06-14 | 2019-10-18 | 北京物资学院 | 一种短英文影评分类方法及装置 |
CN110569354A (zh) * | 2019-07-22 | 2019-12-13 | 中国农业大学 | 弹幕情感分析方法及装置 |
CN110633367A (zh) * | 2019-09-12 | 2019-12-31 | 河南工业大学 | 一种基于情感词典与微博文本数据的七情感分类方法 |
CN110807320A (zh) * | 2019-11-11 | 2020-02-18 | 北京工商大学 | 基于cnn双向gru注意力机制的短文本情感分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311454B2 (en) * | 2017-06-22 | 2019-06-04 | NewVoiceMedia Ltd. | Customer interaction and experience system using emotional-semantic computing |
-
2020
- 2020-12-07 CN CN202011418248.1A patent/CN112507115B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247703A (zh) * | 2017-06-08 | 2017-10-13 | 天津大学 | 基于卷积神经网络和集成学习的微博情感分析方法 |
CN107301171A (zh) * | 2017-08-18 | 2017-10-27 | 武汉红茶数据技术有限公司 | 一种基于情感词典学习的文本情感分析方法和系统 |
CN108376133A (zh) * | 2018-03-21 | 2018-08-07 | 北京理工大学 | 基于情感词扩充的短文本情感分类方法 |
CN108920451A (zh) * | 2018-06-08 | 2018-11-30 | 天津大学 | 基于动态阈值和多分类器的文本情感分析方法 |
CN109471942A (zh) * | 2018-11-07 | 2019-03-15 | 合肥工业大学 | 基于证据推理规则的中文评论情感分类方法及装置 |
CN109492105A (zh) * | 2018-11-10 | 2019-03-19 | 上海文军信息技术有限公司 | 一种基于多特征集成学习的文本情感分类方法 |
CN109739960A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 文本的情感分析方法、情感分析装置及终端 |
CN110020437A (zh) * | 2019-04-11 | 2019-07-16 | 江南大学 | 一种视频和弹幕相结合的情感分析及可视化方法 |
CN110347825A (zh) * | 2019-06-14 | 2019-10-18 | 北京物资学院 | 一种短英文影评分类方法及装置 |
CN110569354A (zh) * | 2019-07-22 | 2019-12-13 | 中国农业大学 | 弹幕情感分析方法及装置 |
CN110633367A (zh) * | 2019-09-12 | 2019-12-31 | 河南工业大学 | 一种基于情感词典与微博文本数据的七情感分类方法 |
CN110807320A (zh) * | 2019-11-11 | 2020-02-18 | 北京工商大学 | 基于cnn双向gru注意力机制的短文本情感分析方法 |
Non-Patent Citations (4)
Title |
---|
A Novel Computer-Aided Emotion Recognition of Text Method Based on WordEmbedding and Bi-LSTM;Jia Zheng 等;《2019 International Conference on Artificial Intelligence and Advanced Manufacturing (AIAM)》;20200109;176-180 * |
Bullet Subtitle Sentiment Classification Based on Affective;Lei Yu 等;《Wireless Communications and Mobile Computing》;20210630;1-9 * |
基于情感的弹幕用户社区划分及行为分析;于磊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220315(第03期);I138-3265 * |
面向弹幕文本的情感分析研究;段炼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115(第01期);I138-2837 * |
Also Published As
Publication number | Publication date |
---|---|
CN112507115A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
US7873584B2 (en) | Method and system for classifying users of a computer network | |
CN105912576B (zh) | 情感分类方法及系统 | |
CN101520802A (zh) | 一种问答对的质量评价方法和系统 | |
Ginting et al. | Hate speech detection on twitter using multinomial logistic regression classification method | |
CN106503055A (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN113132368B (zh) | 聊天数据的审核方法、装置及计算机设备 | |
CN101782898A (zh) | 一种情感词倾向性的分析方法 | |
CN103123633A (zh) | 评价参数的生成方法以及基于评价参数的信息搜索方法 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN113032550B (zh) | 一种基于预训练语言模型的观点摘要评价系统 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN113849598A (zh) | 基于深度学习的社交媒体虚假信息检测方法及检测系统 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
Dwivedi et al. | Examining the emotional tone in politically polarized Speeches in India: An In-Depth analysis of two contrasting perspectives | |
CN112507115B (zh) | 一种弹幕文本中情感词的分类方法、装置及存储介质 | |
CN113657090A (zh) | 一种军事新闻长文本层次化事件抽取方法 | |
CN111737475B (zh) | 一种无监督的网络舆情垃圾长文本识别方法 | |
CN109543049B (zh) | 一种针对写作特点自动推送素材的方法及系统 | |
CN110750712A (zh) | 基于数据驱动的软件安全需求推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |