CN112069316B - 情绪识别方法和装置 - Google Patents
情绪识别方法和装置 Download PDFInfo
- Publication number
- CN112069316B CN112069316B CN202010913082.4A CN202010913082A CN112069316B CN 112069316 B CN112069316 B CN 112069316B CN 202010913082 A CN202010913082 A CN 202010913082A CN 112069316 B CN112069316 B CN 112069316B
- Authority
- CN
- China
- Prior art keywords
- classification
- emotion
- recognition result
- recognition
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种情绪识别方法和装置,所述方法包括以下步骤:获取多个网络舆论样本数据,并标注每个所述网络舆论样本数据的情绪类别以构成样本集,其中,所述样本集包括训练集和测试集;对所述训练集和所述测试集中的数据进行预处理;通过所述训练集训练得到多种分类模型;通过所述测试集测试每种分类模型的分类准确率;获取待识别网络舆论数据,并将所述待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果;根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果。本发明能够方便、准确地识别出网络用户的情绪。
Description
技术领域
本发明涉及机器学习技术领域,具体涉及一种情绪识别方法、一种情绪识别装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算机程序产品。
背景技术
识别网民的情绪是十分必要的。然而相关技术中对于网民情绪分析和识别的准确度还有待提高。
发明内容
本发明为解决上述技术问题,提供了一种情绪识别方法和装置,能够方便、准确地识别出网络用户的情绪。
本发明采用的技术方案如下:
一种情绪识别方法,包括以下步骤:获取多个网络舆论样本数据,并标注每个所述网络舆论样本数据的情绪类别以构成样本集,其中,所述样本集包括训练集和测试集;对所述训练集和所述测试集中的数据进行预处理;通过所述训练集训练得到多种分类模型;通过所述测试集测试每种分类模型的分类准确率;获取待识别网络舆论数据,并将所述待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果;根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果。
所述网络舆论样本数据和所述待识别网络舆论数据均为文本数据,对所述训练集和所述测试集中的数据进行预处理,具体包括:确定最大文本序列长度,并通过补齐或截断的方式使每个文本的长度均为所述最大文本序列长度;对每个文本进行切词。
其中,在特征提取阶段利用word2vector构造特征空间。
根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果,具体包括:比较所述多种分类模型得到的情绪类别识别结果是否相同;如果所述多种分类模型得到的情绪类别识别结果各不相同,则以分类准确率最高的分类模型得到的情绪类别识别结果作为所述最终的情绪类别识别结果;如果所述多种分类模型得到的情绪类别识别结果均相同,则以任一分类模型得到的情绪类别识别结果作为所述最终的情绪类别识别结果;如果所述多种分类模型得到的情绪类别识别结果部分相同、部分不同,则判断所述多种分类模型之间分类准确率的差异度;如果所述多种分类模型之间分类准确率在预设差异度之内,则以数量最多的情绪类别识别结果作为所述最终的情绪类别识别结果;如果所述多种分类模型之间分类准确率在预设差异度之外,则将得到同一种情绪类别识别结果的至少一个分类模型分为一组,并比较每组的平均分类准确率,以及以平均分类准确率最高的组中任一分类模型得到的情绪类别识别结果作为所述最终的情绪类别识别结果。
所述多种分类模型分别为BILSTM模型、TextCNN模型和ERNIE模型。
一种情绪识别装置,包括:获取模块,所述获取模块用于获取多个网络舆论样本数据,并标注每个所述网络舆论样本数据的情绪类别以构成样本集,其中,所述样本集包括训练集和测试集;预处理模块,所述预处理模块用于对所述训练集和所述测试集中的数据进行预处理;训练模块,所述训练模块用于通过所述训练集训练得到多种分类模型;测试模块,所述测试模块用于通过所述测试集测试每种分类模型的分类准确率;初始识别模块,所述初始识别模块用于获取待识别网络舆论数据,并将所述待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果;融合识别模块,所述融合识别模块用于根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述情绪识别方法。
一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述情绪识别方法。
一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行上述情绪识别方法。
本发明的有益效果:
本发明通过获取网络舆论样本数据,并对其作标注得到训练集和测试集,通过训练集训练得到多种分类模型,并通过测试集测试每种分类模型的分类准确率,以及根据每种分类模型的分类准确率和情绪类别识别结果对多种分类模型进行投票融合,以确定最终的情绪类别识别结果,由此,能够方便、准确地识别出网络用户的情绪,从而有利于在突发事件期间更全面地掌握群众思想动态,做出正确的舆论引导。
附图说明
图1为本发明实施例的情绪识别方法的流程图;
图2为本发明一个具体实施例的投票融合流程示意图;
图3为本发明实施例的情绪识别装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的情绪识别方法包括以下步骤:
S1,获取多个网络舆论样本数据,并标注每个网络舆论样本数据的情绪类别以构成样本集,其中,样本集包括训练集和测试集。
在本发明的实施例中,网络舆论样本数据可来自于社交网络的用户发文、新闻媒体的用户评论等。所采集的初始发文、评论等数据可包含文本、图片和视频等内容,本发明实施例选取文本数据作为网络舆论样本数据。
在本发明的一个实施例中,如果情绪识别的目的是了解网络用户针对某一热点问题的舆情,则可获取与该热点问题相关的发文、评论等以得到网络舆论样本数据。
举例而言,可依据主题关键词进行数据采集,利用python抓取一段时间内共计20万条微博数据,并对其中10万条数据进行人工标注,情绪类别标签可分为三类,分别为:1(积极)、0(中性)和-1(消极)。微博内容包括了文本、图片、视频等内容,本发明实施例选取文本内容。由于文本数据采用GB2312编码,因此可先将数据读出,转换为utf8编码再重新写入,方便后续pandas库的使用处理。此外,数据中还包含少量的未知标签,可将其视为异常数据剔除。
在本发明的一个实施例中,可将上述含有大量网络舆论样本数据及其标签的样本集划分为训练集和测试集,二者比例可为7:3,然后保存为后续训练和测试时可用的文本文件。
S2,对训练集和测试集中的数据进行预处理。
具体地,可确定最大文本序列长度,并通过补齐或截断的方式使每个文本的长度均为最大文本序列长度,以及对每个文本进行切词。
在本发明的一个实施例中,在将训练集中的文本数据输入训练前的模型,或将测试集中的文本数据输入训练后的模型之前,可首先对文本进行切词。
在本发明的一个实施例中,通过max_seq_len可以修改最大文本序列长度,若序列长度不足,可通过padding方式补到max_seq_len,若序列长度大于该值,则可以截断方式让序列长度为max_seq_len。本发明一个具体实施例中的最大文本序列长度可设置为128。
S3,通过训练集训练得到多种分类模型。
通过预处理后的训练集对相应的神经网络进行训练,可得到相应的分类模型,具体地,以训练集中的网络舆论样本数据作为输入,并以网络舆论样本数据对应的样本标签作为输出,训练分类网络,得到分类模型。其中,在模型训练的特征提取阶段,可利用word2vector构造特征空间。
在本发明的一个实施例中,分类模型为三种,分别为BILSTM模型、TextCNN模型和ERNIE模型。
S4,通过测试集测试每种分类模型的分类准确率。
通过将预处理后的测试集中的网络舆论样本数据输入某分类模型,并将得到的输出结果与实际的样本标签进行比较,判断该分类模型的分类结果是否准确,由此,可计算出每种分类模型的分类准确率。
S5,获取待识别网络舆论数据,并将待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果。
在本发明的一个实施例中,待识别网络舆论数据优选与上述的网络舆论样本数据来自于同一出处,同样地,如果情绪识别的目的是了解网络用户针对某一热点问题的舆情,则该待识别网络舆论数据也与该热点问题相关。
将待识别网络舆论数据输入分类模型,分类模型可输出1、0或-1,即积极、中性或消极。
S6,根据每种分类模型的分类准确率和情绪类别识别结果对多种分类模型进行投票融合,以确定最终的情绪类别识别结果。
具体地,可比较多种分类模型得到的情绪类别识别结果是否相同。如果多种分类模型得到的情绪类别识别结果各不相同,则以分类准确率最高的分类模型得到的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型得到的情绪类别识别结果均相同,则以任一分类模型得到的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型得到的情绪类别识别结果部分相同、部分不同,则判断多种分类模型之间分类准确率的差异度。如果多种分类模型之间分类准确率在预设差异度之内,则以数量最多的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型之间分类准确率在预设差异度之外,则将得到同一种情绪类别识别结果的至少一个分类模型分为一组,并比较每组的平均分类准确率,以及以平均分类准确率最高的组中任一分类模型得到的情绪类别识别结果作为最终的情绪类别识别结果。
以上述三个分类模型BILSTM模型、TextCNN模型和ERNIE模型(下称A、B和C)为例,最终的情绪类别识别结果由投票器中的投票算法确定,如图2所示,在将A、B和C的识别结果输入投票器后,可判断A、B和C的识别结果是否相同。
如果A、B和C的识别结果各不相同,则根据三种分类模型各自的分类准确率排序,输出分类准确率最高的分类模型的识别结果。
如果A、B和C的识别结果均相同,则输出任一分类模型的识别结果。
如果有两个分类模型的识别结果相同且与另一个分类模型的识别结果不同,例如B和C的识别结果相同、A的识别结果不同,假设A、B、C的分类准确率分别为P1、P2、P3,则存在以下两种情况。
(1)如果|P1-((P2+P3)/2)|<ξ,说明三个分类模型的分类准确率差异较小,故采取少数服从多数的原则,选取输出结果多的一类,即以B和C的识别结果为准,输出B或C的识别结果。
(2)如果|P1-((P2+P3)/2)|≥ξ,说明A与其他两个分类模型的分类准确率差异较大,可进一步对P1和(P2+P3)/2的大小进行讨论。若P1>(P2+P3)/2,则以A的识别结果为准,输出A的识别结果;若P1≤(P2+P3)/2,则以B和C的识别结果为准,输出B或C的识别结果。
上述的ξ为表示各模型间分类准确率的差异度的设定值,可根据对差异度大小的要求而设定。
根据本发明实施例的情绪识别方法,通过获取网络舆论样本数据,并对其作标注得到训练集和测试集,通过训练集训练得到多种分类模型,并通过测试集测试每种分类模型的分类准确率,以及根据每种分类模型的分类准确率和情绪类别识别结果对多种分类模型进行投票融合,以确定最终的情绪类别识别结果,由此,能够方便、准确地识别出网络用户的情绪,从而有利于在突发事件期间更全面地掌握群众思想动态,做出正确的舆论引导。
对应上述实施例的情绪识别方法,本发明还提出一种情绪识别装置。
如图3所示,本发明实施例的情绪识别装置包括获取模块10、预处理模块20、训练模块30、测试模块40、初始识别模块50和融合识别模块60。其中,获取模块10用于获取多个网络舆论样本数据,并标注每个网络舆论样本数据的情绪类别以构成样本集,其中,样本集包括训练集和测试集;预处理模块20用于对训练集和测试集中的数据进行预处理;训练模块30用于通过训练集训练得到多种分类模型;测试模块40用于通过测试集测试每种分类模型的分类准确率;初始识别模块50用于获取待识别网络舆论数据,并将待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果;融合识别模块60用于根据每种分类模型的分类准确率和情绪类别识别结果对多种分类模型进行投票融合,以确定最终的情绪类别识别结果。
在本发明的实施例中,网络舆论样本数据可来自于社交网络的用户发文、新闻媒体的用户评论等。获取模块10所采集的初始发文、评论等数据可包含文本、图片和视频等内容,本发明实施例选取文本数据作为网络舆论样本数据。
在本发明的一个实施例中,如果情绪识别的目的是了解网络用户针对某一热点问题的舆情,则获取模块10可获取与该热点问题相关的发文、评论等以得到网络舆论样本数据。
举例而言,可依据主题关键词进行数据采集,利用python抓取一段时间内共计20万条微博数据,并对其中10万条数据进行人工标注,情绪类别标签可分为三类,分别为:1(积极)、0(中性)和-1(消极)。微博内容包括了文本、图片、视频等内容,本发明实施例选取文本内容。由于文本数据采用GB2312编码,因此可先将数据读出,转换为utf8编码再重新写入,方便后续pandas库的使用处理。此外,数据中还包含少量的未知标签,可将其视为异常数据剔除。
在本发明的一个实施例中,获取模块10可将上述含有大量网络舆论样本数据及其标签的样本集划分为训练集和测试集,二者比例可为7:3,然后保存为后续训练和测试时可用的文本文件。
预处理模块20具体可确定最大文本序列长度,并通过补齐或截断的方式使每个文本的长度均为最大文本序列长度,以及对每个文本进行切词。
在本发明的一个实施例中,在将训练集中的文本数据输入训练前的模型,或将测试集中的文本数据输入训练后的模型之前,可首先对文本进行切词。
在本发明的一个实施例中,通过max_seq_len可以修改最大文本序列长度,若序列长度不足,可通过padding方式补到max_seq_len,若序列长度大于该值,则可以截断方式让序列长度为max_seq_len。本发明一个具体实施例中的最大文本序列长度可设置为128。
训练模块30通过预处理后的训练集对相应的神经网络进行训练,可得到相应的分类模型,具体地,以训练集中的网络舆论样本数据作为输入,并以网络舆论样本数据对应的样本标签作为输出,训练分类网络,得到分类模型。其中,在模型训练的特征提取阶段,可利用word2vector构造特征空间。
在本发明的一个实施例中,分类模型为三种,分别为BILSTM模型、TextCNN模型和ERNIE模型。
测试模块40通过将预处理后的测试集中的网络舆论样本数据输入某分类模型,并将得到的输出结果与实际的样本标签进行比较,判断该分类模型的分类结果是否准确,由此,可计算出每种分类模型的分类准确率。
在本发明的一个实施例中,待识别网络舆论数据优选与上述的网络舆论样本数据来自于同一出处,同样地,如果情绪识别的目的是了解网络用户针对某一热点问题的舆情,则该待识别网络舆论数据也与该热点问题相关。
初始识别模块50将待识别网络舆论数据输入分类模型,分类模型可输出1、0或-1,即积极、中性或消极。
融合识别模块60具体可比较多种分类模型得到的情绪类别识别结果是否相同。如果多种分类模型得到的情绪类别识别结果各不相同,则以分类准确率最高的分类模型得到的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型得到的情绪类别识别结果均相同,则以任一分类模型得到的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型得到的情绪类别识别结果部分相同、部分不同,则判断多种分类模型之间分类准确率的差异度。如果多种分类模型之间分类准确率在预设差异度之内,则以数量最多的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型之间分类准确率在预设差异度之外,则将得到同一种情绪类别识别结果的至少一个分类模型分为一组,并比较每组的平均分类准确率,以及以平均分类准确率最高的组中任一分类模型得到的情绪类别识别结果作为最终的情绪类别识别结果。
融合识别模块60对上述三个分类模型的投票融合过程参照上述情绪识别方法的实施例,在此不再赘述。
根据本发明实施例的情绪识别装置,通过获取网络舆论样本数据,并对其作标注得到训练集和测试集,通过训练集训练得到多种分类模型,并通过测试集测试每种分类模型的分类准确率,以及根据每种分类模型的分类准确率和情绪类别识别结果对多种分类模型进行投票融合,以确定最终的情绪类别识别结果,由此,能够方便、准确地识别出网络用户的情绪,从而有利于在突发事件期间更全面地掌握群众思想动态,做出正确的舆论引导。
对应上述实施例,本发明还提出一种计算机设备。
本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时,可实现根据本发明上述实施例所述的情绪识别方法。
根据本发明实施例的计算机设备,处理器执行存储在存储器上的计算机程序时,通过获取网络舆论样本数据,并对其作标注得到训练集和测试集,通过训练集训练得到多种分类模型,并通过测试集测试每种分类模型的分类准确率,以及根据每种分类模型的分类准确率和情绪类别识别结果对多种分类模型进行投票融合,以确定最终的情绪类别识别结果,由此,能够方便、准确地识别出网络用户的情绪,从而有利于在突发事件期间更全面地掌握群众思想动态,做出正确的舆论引导。
对应上述实施例,本发明还提出一种非临时性计算机可读存储介质。
本发明实施例的非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时可实现根据本发明上述实施例所述的情绪识别方法。
根据本发明实施例的非临时性计算机可读存储介质,处理器执行存储在其上的计算机程序时,通过获取网络舆论样本数据,并对其作标注得到训练集和测试集,通过训练集训练得到多种分类模型,并通过测试集测试每种分类模型的分类准确率,以及根据每种分类模型的分类准确率和情绪类别识别结果对多种分类模型进行投票融合,以确定最终的情绪类别识别结果,由此,能够方便、准确地识别出网络用户的情绪,从而有利于在突发事件期间更全面地掌握群众思想动态,做出正确的舆论引导。
对应上述实施例,本发明还提出一种计算机程序产品。
当本发明实施例的计算机程序产品中的指令由处理器执行时,可执行根据本发明上述实施例所述的情绪识别方法。
根据本发明实施例的计算机程序产品,处理器执行其中的指令时,通过获取网络舆论样本数据,并对其作标注得到训练集和测试集,通过训练集训练得到多种分类模型,并通过测试集测试每种分类模型的分类准确率,以及根据每种分类模型的分类准确率和情绪类别识别结果对多种分类模型进行投票融合,以确定最终的情绪类别识别结果,由此,能够方便、准确地识别出网络用户的情绪,从而有利于在突发事件期间更全面地掌握群众思想动态,做出正确的舆论引导。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (7)
1.一种情绪识别方法,其特征在于,包括以下步骤:
获取多个网络舆论样本数据,并标注每个所述网络舆论样本数据的情绪类别以构成样本集,其中,所述样本集包括训练集和测试集;
对所述训练集和所述测试集中的数据进行预处理;
通过所述训练集训练得到多种分类模型;
通过所述测试集测试每种分类模型的分类准确率;
获取待识别网络舆论数据,并将所述待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果;
根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果,
根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果,具体包括:比较所述多种分类模型得到的情绪类别识别结果是否相同;如果所述多种分类模型得到的情绪类别识别结果各不相同,则以分类准确率最高的分类模型得到的情绪类别识别结果作为所述最终的情绪类别识别结果;如果所述多种分类模型得到的情绪类别识别结果均相同,则以任一分类模型得到的情绪类别识别结果作为所述最终的情绪类别识别结果;如果所述多种分类模型得到的情绪类别识别结果部分相同、部分不同,则判断所述多种分类模型之间分类准确率的差异度;如果所述多种分类模型之间分类准确率在预设差异度之内,则以数量最多的情绪类别识别结果作为所述最终的情绪类别识别结果;如果所述多种分类模型之间分类准确率在预设差异度之外,则将得到同一种情绪类别识别结果的至少一个分类模型分为一组,并比较每组的平均分类准确率,以及以平均分类准确率最高的组中任一分类模型得到的情绪类别识别结果作为所述最终的情绪类别识别结果。
2.根据权利要求1所述的情绪识别方法,其特征在于,所述网络舆论样本数据和所述待识别网络舆论数据均为文本数据,对所述训练集和所述测试集中的数据进行预处理,具体包括:
确定最大文本序列长度,并通过补齐或截断的方式使每个文本的长度均为所述最大文本序列长度;
对每个文本进行切词。
3.根据权利要求2所述的情绪识别方法,其特征在于,其中,在特征提取阶段利用word2vector构造特征空间。
4.根据权利要求1-3中任一项所述的情绪识别方法,其特征在于,所述多种分类模型分别为BILSTM模型、TextCNN模型和ERNIE模型。
5.一种情绪识别装置,其特征在于,包括:
获取模块,所述获取模块用于获取多个网络舆论样本数据,并标注每个所述网络舆论样本数据的情绪类别以构成样本集,其中,所述样本集包括训练集和测试集;
预处理模块,所述预处理模块用于对所述训练集和所述测试集中的数据进行预处理;
训练模块,所述训练模块用于通过所述训练集训练得到多种分类模型;
测试模块,所述测试模块用于通过所述测试集测试每种分类模型的分类准确率;
初始识别模块,所述初始识别模块用于获取待识别网络舆论数据,并将所述待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果;
融合识别模块,所述融合识别模块用于根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果,
所述融合识别模块具体用于比较多种分类模型得到的情绪类别识别结果是否相同,如果多种分类模型得到的情绪类别识别结果各不相同,则以分类准确率最高的分类模型得到的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型得到的情绪类别识别结果均相同,则以任一分类模型得到的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型得到的情绪类别识别结果部分相同、部分不同,则判断多种分类模型之间分类准确率的差异度;如果多种分类模型之间分类准确率在预设差异度之内,则以数量最多的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型之间分类准确率在预设差异度之外,则将得到同一种情绪类别识别结果的至少一个分类模型分为一组,并比较每组的平均分类准确率,以及以平均分类准确率最高的组中任一分类模型得到的情绪类别识别结果作为最终的情绪类别识别结果。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现根据权利要求1-4中任一项所述的情绪识别方法。
7.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-4中任一项所述的情绪识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010913082.4A CN112069316B (zh) | 2020-09-03 | 2020-09-03 | 情绪识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010913082.4A CN112069316B (zh) | 2020-09-03 | 2020-09-03 | 情绪识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112069316A CN112069316A (zh) | 2020-12-11 |
CN112069316B true CN112069316B (zh) | 2021-08-24 |
Family
ID=73665837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010913082.4A Active CN112069316B (zh) | 2020-09-03 | 2020-09-03 | 情绪识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069316B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470787B (zh) * | 2021-07-09 | 2024-01-30 | 福州大学 | 基于神经网络的情绪识别与脱敏训练效果评估方法 |
CN116204851B (zh) * | 2023-03-21 | 2023-08-22 | 中关村科学城城市大脑股份有限公司 | 一种基于多模态识别技术的事件识别方法及系统 |
CN116362607B (zh) * | 2023-03-30 | 2023-11-03 | 中国人民解放军军事科学院系统工程研究院 | 一种物资储备效能评估方法及装置 |
CN117407527B (zh) * | 2023-10-19 | 2024-09-27 | 中诚力锘(北京)教育咨询集团有限公司 | 一种教育领域舆情大数据分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462487A (zh) * | 2014-12-19 | 2015-03-25 | 南开大学 | 一种融合多信息源的个性化在线新闻评论情绪预测方法 |
CN107885849A (zh) * | 2017-11-13 | 2018-04-06 | 成都蓝景信息技术有限公司 | 一种基于文本分类的情绪指数分析系统 |
CN109299267A (zh) * | 2018-10-16 | 2019-02-01 | 山西大学 | 一种文本对话的情绪识别与预测方法 |
CN111046172A (zh) * | 2019-10-30 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 一种舆情分析方法、装置、设备和存储介质 |
CN111414475A (zh) * | 2020-03-03 | 2020-07-14 | 北京明略软件系统有限公司 | 文本情感信息的识别方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11030533B2 (en) * | 2018-12-11 | 2021-06-08 | Hiwave Technologies Inc. | Method and system for generating a transitory sentiment community |
-
2020
- 2020-09-03 CN CN202010913082.4A patent/CN112069316B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462487A (zh) * | 2014-12-19 | 2015-03-25 | 南开大学 | 一种融合多信息源的个性化在线新闻评论情绪预测方法 |
CN107885849A (zh) * | 2017-11-13 | 2018-04-06 | 成都蓝景信息技术有限公司 | 一种基于文本分类的情绪指数分析系统 |
CN109299267A (zh) * | 2018-10-16 | 2019-02-01 | 山西大学 | 一种文本对话的情绪识别与预测方法 |
CN111046172A (zh) * | 2019-10-30 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 一种舆情分析方法、装置、设备和存储介质 |
CN111414475A (zh) * | 2020-03-03 | 2020-07-14 | 北京明略软件系统有限公司 | 文本情感信息的识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112069316A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112069316B (zh) | 情绪识别方法和装置 | |
CN109271401B (zh) | 一种题目搜索、批改方法、装置、电子设备和存储介质 | |
CN106951925B (zh) | 数据处理方法、装置、服务器及系统 | |
US11238749B2 (en) | Method, apparatus, and computer program for providing personalized educational content | |
CN109284355B (zh) | 一种批改试卷中口算题的方法及装置 | |
CN106815192B (zh) | 模型训练方法及装置和语句情感识别方法及装置 | |
CN108121702B (zh) | 数学主观题评阅方法及系统 | |
CN109271627B (zh) | 文本分析方法、装置、计算机设备和存储介质 | |
CN109189895B (zh) | 一种针对口算题的题目批改方法及装置 | |
CN112422351B (zh) | 一种基于深度学习的网络告警预测模型建立方法及装置 | |
CN108052504B (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN112036153B (zh) | 工单纠错方法、装置、计算机可读存储介质和计算机设备 | |
CN111666761A (zh) | 细粒度情感分析模型训练方法及装置 | |
CN110490237B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN109858626A (zh) | 一种知识库构建方法及装置 | |
CN115859128B (zh) | 一种基于档案数据交互相似度的分析方法和系统 | |
CN111444718A (zh) | 一种保险产品需求文档处理方法、装置及电子设备 | |
CN112905745A (zh) | 信息处理方法、装置、电子设备和计算机可读存储介质 | |
CN113934834A (zh) | 一种问句匹配的方法、装置、设备和存储介质 | |
US20210089886A1 (en) | Method for processing data based on neural networks trained by different methods and device applying method | |
CN111611781A (zh) | 数据标注方法、问答方法、装置及电子设备 | |
CN110032714A (zh) | 一种语料标注反馈方法及装置 | |
CN110941709B (zh) | 信息筛选方法、装置、电子设备及可读存储介质 | |
CN112800112A (zh) | 一种数据处理系统及数据挖掘方法 | |
KR102072894B1 (ko) | 인트론과 엑손 구분에 기반한 이상 서열 식별 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |