CN112069316A - 情绪识别方法和装置 - Google Patents

情绪识别方法和装置 Download PDF

Info

Publication number
CN112069316A
CN112069316A CN202010913082.4A CN202010913082A CN112069316A CN 112069316 A CN112069316 A CN 112069316A CN 202010913082 A CN202010913082 A CN 202010913082A CN 112069316 A CN112069316 A CN 112069316A
Authority
CN
China
Prior art keywords
classification
emotion
recognition
data
public opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010913082.4A
Other languages
English (en)
Other versions
CN112069316B (zh
Inventor
李泽朋
马元巍
顾徐波
宋怡然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Weiyizhi Technology Co Ltd
Original Assignee
Changzhou Weiyizhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Weiyizhi Technology Co Ltd filed Critical Changzhou Weiyizhi Technology Co Ltd
Priority to CN202010913082.4A priority Critical patent/CN112069316B/zh
Publication of CN112069316A publication Critical patent/CN112069316A/zh
Application granted granted Critical
Publication of CN112069316B publication Critical patent/CN112069316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种情绪识别方法和装置,所述方法包括以下步骤:获取多个网络舆论样本数据,并标注每个所述网络舆论样本数据的情绪类别以构成样本集,其中,所述样本集包括训练集和测试集;对所述训练集和所述测试集中的数据进行预处理;通过所述训练集训练得到多种分类模型;通过所述测试集测试每种分类模型的分类准确率;获取待识别网络舆论数据,并将所述待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果;根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果。本发明能够方便、准确地识别出网络用户的情绪。

Description

情绪识别方法和装置
技术领域
本发明涉及机器学习技术领域,具体涉及一种情绪识别方法、一种情绪 识别装置、一种计算机设备、一种非临时性计算机可读存储介质和一种计算 机程序产品。
背景技术
识别网民的情绪是十分必要的。然而相关技术中对于网民情绪分析和识 别的准确度还有待提高。
发明内容
本发明为解决上述技术问题,提供了一种情绪识别方法和装置,能够方 便、准确地识别出网络用户的情绪。
本发明采用的技术方案如下:
一种情绪识别方法,包括以下步骤:获取多个网络舆论样本数据,并标 注每个所述网络舆论样本数据的情绪类别以构成样本集,其中,所述样本集 包括训练集和测试集;对所述训练集和所述测试集中的数据进行预处理;通 过所述训练集训练得到多种分类模型;通过所述测试集测试每种分类模型的 分类准确率;获取待识别网络舆论数据,并将所述待识别网络舆论数据分别 输入每种分类模型,以得到相应的情绪类别识别结果;根据每种分类模型的 分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定 最终的情绪类别识别结果。
所述网络舆论样本数据和所述待识别网络舆论数据均为文本数据,对所 述训练集和所述测试集中的数据进行预处理,具体包括:确定最大文本序列 长度,并通过补齐或截断的方式使每个文本的长度均为所述最大文本序列长 度;对每个文本进行切词。
其中,在特征提取阶段利用word2vector构造特征空间。
根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模 型进行投票融合,以确定最终的情绪类别识别结果,具体包括:比较所述多 种分类模型得到的情绪类别识别结果是否相同;如果所述多种分类模型得到 的情绪类别识别结果各不相同,则以分类准确率最高的分类模型得到的情绪 类别识别结果作为所述最终的情绪类别识别结果;如果所述多种分类模型得 到的情绪类别识别结果均相同,则以任一分类模型得到的情绪类别识别结果 作为所述最终的情绪类别识别结果;如果所述多种分类模型得到的情绪类别 识别结果部分相同、部分不同,则判断所述多种分类模型之间分类准确率的 差异度;如果所述多种分类模型之间分类准确率在预设差异度之内,则以数 量最多的情绪类别识别结果作为所述最终的情绪类别识别结果;如果所述多 种分类模型之间分类准确率在预设差异度之外,则将得到同一种情绪类别识 别结果的至少一个分类模型分为一组,并比较每组的平均分类准确率,以及 以平均分类准确率最高的组中任一分类模型得到的情绪类别识别结果作为所 述最终的情绪类别识别结果。
所述多种分类模型分别为BILSTM模型、TextCNN模型和ERNIE模型。
一种情绪识别装置,包括:获取模块,所述获取模块用于获取多个网络 舆论样本数据,并标注每个所述网络舆论样本数据的情绪类别以构成样本集, 其中,所述样本集包括训练集和测试集;预处理模块,所述预处理模块用于 对所述训练集和所述测试集中的数据进行预处理;训练模块,所述训练模块 用于通过所述训练集训练得到多种分类模型;测试模块,所述测试模块用于 通过所述测试集测试每种分类模型的分类准确率;初始识别模块,所述初始 识别模块用于获取待识别网络舆论数据,并将所述待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果;融合识别模块,所述 融合识别模块用于根据每种分类模型的分类准确率和情绪类别识别结果对所 述多种分类模型进行投票融合,以确定最终的情绪类别识别结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器 上运行的计算机程序,所述处理器执行所述程序时,实现上述情绪识别方法。
一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机 程序被处理器执行时实现上述情绪识别方法。
一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时, 执行上述情绪识别方法。
本发明的有益效果:
本发明通过获取网络舆论样本数据,并对其作标注得到训练集和测试集, 通过训练集训练得到多种分类模型,并通过测试集测试每种分类模型的分类 准确率,以及根据每种分类模型的分类准确率和情绪类别识别结果对多种分 类模型进行投票融合,以确定最终的情绪类别识别结果,由此,能够方便、 准确地识别出网络用户的情绪,从而有利于在突发事件期间更全面地掌握群 众思想动态,做出正确的舆论引导。
附图说明
图1为本发明实施例的情绪识别方法的流程图;
图2为本发明一个具体实施例的投票融合流程示意图;
图3为本发明实施例的情绪识别装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的情绪识别方法包括以下步骤:
S1,获取多个网络舆论样本数据,并标注每个网络舆论样本数据的情绪 类别以构成样本集,其中,样本集包括训练集和测试集。
在本发明的实施例中,网络舆论样本数据可来自于社交网络的用户发文、 新闻媒体的用户评论等。所采集的初始发文、评论等数据可包含文本、图片 和视频等内容,本发明实施例选取文本数据作为网络舆论样本数据。
在本发明的一个实施例中,如果情绪识别的目的是了解网络用户针对某 一热点问题的舆情,则可获取与该热点问题相关的发文、评论等以得到网络 舆论样本数据。
举例而言,可依据与“新冠肺炎”相关的230个主题关键词进行数据采 集,利用python抓取一段时间内共计20万条微博数据,并对其中10万条数 据进行人工标注,情绪类别标签可分为三类,分别为:1(积极)、0(中性) 和-1(消极)。微博内容包括了文本、图片、视频等内容,本发明实施例选取 文本内容。由于文本数据采用GB2312编码,因此可先将数据读出,转换为 utf8编码再重新写入,方便后续pandas库的使用处理。此外,数据中还包含少量的未知标签,可将其视为异常数据剔除。
在本发明的一个实施例中,可将上述含有大量网络舆论样本数据及其标 签的样本集划分为训练集和测试集,二者比例可为7:3,然后保存为后续训练 和测试时可用的文本文件。
S2,对训练集和测试集中的数据进行预处理。
具体地,可确定最大文本序列长度,并通过补齐或截断的方式使每个文 本的长度均为最大文本序列长度,以及对每个文本进行切词。
在本发明的一个实施例中,在将训练集中的文本数据输入训练前的模型, 或将测试集中的文本数据输入训练后的模型之前,可首先对文本进行切词。
在本发明的一个实施例中,通过max_seq_len可以修改最大文本序列长度, 若序列长度不足,可通过padding方式补到max_seq_len,若序列长度大于该 值,则可以截断方式让序列长度为max_seq_len。本发明一个具体实施例中的 最大文本序列长度可设置为128。
S3,通过训练集训练得到多种分类模型。
通过预处理后的训练集对相应的神经网络进行训练,可得到相应的分类 模型,具体地,以训练集中的网络舆论样本数据作为输入,并以网络舆论样 本数据对应的样本标签作为输出,训练分类网络,得到分类模型。其中,在 模型训练的特征提取阶段,可利用word2vector构造特征空间。
在本发明的一个实施例中,分类模型为三种,分别为BILSTM模型、 TextCNN模型和ERNIE模型。
S4,通过测试集测试每种分类模型的分类准确率。
通过将预处理后的测试集中的网络舆论样本数据输入某分类模型,并将 得到的输出结果与实际的样本标签进行比较,判断该分类模型的分类结果是 否准确,由此,可计算出每种分类模型的分类准确率。
S5,获取待识别网络舆论数据,并将待识别网络舆论数据分别输入每种 分类模型,以得到相应的情绪类别识别结果。
在本发明的一个实施例中,待识别网络舆论数据优选与上述的网络舆论 样本数据来自于同一出处,同样地,如果情绪识别的目的是了解网络用户针 对某一热点问题的舆情,则该待识别网络舆论数据也与该热点问题相关。
将待识别网络舆论数据输入分类模型,分类模型可输出1、0或-1,即积 极、中性或消极。
S6,根据每种分类模型的分类准确率和情绪类别识别结果对多种分类模 型进行投票融合,以确定最终的情绪类别识别结果。
具体地,可比较多种分类模型得到的情绪类别识别结果是否相同。如果 多种分类模型得到的情绪类别识别结果各不相同,则以分类准确率最高的分 类模型得到的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分 类模型得到的情绪类别识别结果均相同,则以任一分类模型得到的情绪类别 识别结果作为最终的情绪类别识别结果;如果多种分类模型得到的情绪类别 识别结果部分相同、部分不同,则判断多种分类模型之间分类准确率的差异 度。如果多种分类模型之间分类准确率在预设差异度之内,则以数量最多的 情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型之间分 类准确率在预设差异度之外,则将得到同一种情绪类别识别结果的至少一个 分类模型分为一组,并比较每组的平均分类准确率,以及以平均分类准确率 最高的组中任一分类模型得到的情绪类别识别结果作为最终的情绪类别识别 结果。
以上述三个分类模型BILSTM模型、TextCNN模型和ERNIE模型(下称 A、B和C)为例,最终的情绪类别识别结果由投票器中的投票算法确定,如 图2所示,在将A、B和C的识别结果输入投票器后,可判断A、B和C的 识别结果是否相同。
如果A、B和C的识别结果各不相同,则根据三种分类模型各自的分类 准确率排序,输出分类准确率最高的分类模型的识别结果。
如果A、B和C的识别结果均相同,则输出任一分类模型的识别结果。
如果有两个分类模型的识别结果相同且与另一个分类模型的识别结果不 同,例如B和C的识别结果相同、A的识别结果不同,假设A、B、C的分类 准确率分别为P1、P2、P3,则存在以下两种情况。
(1)如果|P1-((P2+P3)/2)|<ξ,说明三个分类模型的分类准确率差异较小, 故采取少数服从多数的原则,选取输出结果多的一类,即以B和C的识别结 果为准,输出B或C的识别结果。
(2)如果|P1-((P2+P3)/2)|≥ξ,说明A与其他两个分类模型的分类准确 率差异较大,可进一步对P1和(P2+P3)/2的大小进行讨论。若P1>(P2+P3)/2, 则以A的识别结果为准,输出A的识别结果;若P1≤(P2+P3)/2,则以B和C 的识别结果为准,输出B或C的识别结果。
上述的ξ为表示各模型间分类准确率的差异度的设定值,可根据对差异 度大小的要求而设定。
根据本发明实施例的情绪识别方法,通过获取网络舆论样本数据,并对 其作标注得到训练集和测试集,通过训练集训练得到多种分类模型,并通过 测试集测试每种分类模型的分类准确率,以及根据每种分类模型的分类准确 率和情绪类别识别结果对多种分类模型进行投票融合,以确定最终的情绪类 别识别结果,由此,能够方便、准确地识别出网络用户的情绪,从而有利于 在突发事件期间更全面地掌握群众思想动态,做出正确的舆论引导。
对应上述实施例的情绪识别方法,本发明还提出一种情绪识别装置。
如图3所示,本发明实施例的情绪识别装置包括获取模块10、预处理模 块20、训练模块30、测试模块40、初始识别模块50和融合识别模块60。其 中,获取模块10用于获取多个网络舆论样本数据,并标注每个网络舆论样本 数据的情绪类别以构成样本集,其中,样本集包括训练集和测试集;预处理 模块20用于对训练集和测试集中的数据进行预处理;训练模块30用于通过 训练集训练得到多种分类模型;测试模块40用于通过测试集测试每种分类模 型的分类准确率;初始识别模块50用于获取待识别网络舆论数据,并将待识 别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果; 融合识别模块60用于根据每种分类模型的分类准确率和情绪类别识别结果对 多种分类模型进行投票融合,以确定最终的情绪类别识别结果。
在本发明的实施例中,网络舆论样本数据可来自于社交网络的用户发文、 新闻媒体的用户评论等。获取模块10所采集的初始发文、评论等数据可包含 文本、图片和视频等内容,本发明实施例选取文本数据作为网络舆论样本数 据。
在本发明的一个实施例中,如果情绪识别的目的是了解网络用户针对某 一热点问题的舆情,则获取模块10可获取与该热点问题相关的发文、评论等 以得到网络舆论样本数据。
举例而言,可依据与“新冠肺炎”相关的230个主题关键词进行数据采 集,利用python抓取一段时间内共计20万条微博数据,并对其中10万条数 据进行人工标注,情绪类别标签可分为三类,分别为:1(积极)、0(中性) 和-1(消极)。微博内容包括了文本、图片、视频等内容,本发明实施例选取 文本内容。由于文本数据采用GB2312编码,因此可先将数据读出,转换为 utf8编码再重新写入,方便后续pandas库的使用处理。此外,数据中还包含少量的未知标签,可将其视为异常数据剔除。
在本发明的一个实施例中,获取模块10可将上述含有大量网络舆论样本 数据及其标签的样本集划分为训练集和测试集,二者比例可为7:3,然后保存 为后续训练和测试时可用的文本文件。
预处理模块20具体可确定最大文本序列长度,并通过补齐或截断的方式 使每个文本的长度均为最大文本序列长度,以及对每个文本进行切词。
在本发明的一个实施例中,在将训练集中的文本数据输入训练前的模型, 或将测试集中的文本数据输入训练后的模型之前,可首先对文本进行切词。
在本发明的一个实施例中,通过max_seq_len可以修改最大文本序列长度, 若序列长度不足,可通过padding方式补到max_seq_len,若序列长度大于该 值,则可以截断方式让序列长度为max_seq_len。本发明一个具体实施例中的 最大文本序列长度可设置为128。
训练模块30通过预处理后的训练集对相应的神经网络进行训练,可得到 相应的分类模型,具体地,以训练集中的网络舆论样本数据作为输入,并以 网络舆论样本数据对应的样本标签作为输出,训练分类网络,得到分类模型。 其中,在模型训练的特征提取阶段,可利用word2vector构造特征空间。
在本发明的一个实施例中,分类模型为三种,分别为BILSTM模型、 TextCNN模型和ERNIE模型。
测试模块40通过将预处理后的测试集中的网络舆论样本数据输入某分类 模型,并将得到的输出结果与实际的样本标签进行比较,判断该分类模型的 分类结果是否准确,由此,可计算出每种分类模型的分类准确率。
在本发明的一个实施例中,待识别网络舆论数据优选与上述的网络舆论 样本数据来自于同一出处,同样地,如果情绪识别的目的是了解网络用户针 对某一热点问题的舆情,则该待识别网络舆论数据也与该热点问题相关。
初始识别模块50将待识别网络舆论数据输入分类模型,分类模型可输出 1、0或-1,即积极、中性或消极。
融合识别模块60具体可比较多种分类模型得到的情绪类别识别结果是否 相同。如果多种分类模型得到的情绪类别识别结果各不相同,则以分类准确 率最高的分类模型得到的情绪类别识别结果作为最终的情绪类别识别结果; 如果多种分类模型得到的情绪类别识别结果均相同,则以任一分类模型得到 的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类模型得到 的情绪类别识别结果部分相同、部分不同,则判断多种分类模型之间分类准 确率的差异度。如果多种分类模型之间分类准确率在预设差异度之内,则以 数量最多的情绪类别识别结果作为最终的情绪类别识别结果;如果多种分类 模型之间分类准确率在预设差异度之外,则将得到同一种情绪类别识别结果 的至少一个分类模型分为一组,并比较每组的平均分类准确率,以及以平均 分类准确率最高的组中任一分类模型得到的情绪类别识别结果作为最终的情 绪类别识别结果。
融合识别模块60对上述三个分类模型的投票融合过程参照上述情绪识别 方法的实施例,在此不再赘述。
根据本发明实施例的情绪识别装置,通过获取网络舆论样本数据,并对 其作标注得到训练集和测试集,通过训练集训练得到多种分类模型,并通过 测试集测试每种分类模型的分类准确率,以及根据每种分类模型的分类准确 率和情绪类别识别结果对多种分类模型进行投票融合,以确定最终的情绪类 别识别结果,由此,能够方便、准确地识别出网络用户的情绪,从而有利于 在突发事件期间更全面地掌握群众思想动态,做出正确的舆论引导。
对应上述实施例,本发明还提出一种计算机设备。
本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可 在处理器上运行的计算机程序,处理器执行该计算机程序时,可实现根据本 发明上述实施例所述的情绪识别方法。
根据本发明实施例的计算机设备,处理器执行存储在存储器上的计算机 程序时,通过获取网络舆论样本数据,并对其作标注得到训练集和测试集, 通过训练集训练得到多种分类模型,并通过测试集测试每种分类模型的分类 准确率,以及根据每种分类模型的分类准确率和情绪类别识别结果对多种分 类模型进行投票融合,以确定最终的情绪类别识别结果,由此,能够方便、 准确地识别出网络用户的情绪,从而有利于在突发事件期间更全面地掌握群 众思想动态,做出正确的舆论引导。
对应上述实施例,本发明还提出一种非临时性计算机可读存储介质。
本发明实施例的非临时性计算机可读存储介质,其上存储有计算机程序, 该计算机程序被处理器执行时可实现根据本发明上述实施例所述的情绪识别 方法。
根据本发明实施例的非临时性计算机可读存储介质,处理器执行存储在 其上的计算机程序时,通过获取网络舆论样本数据,并对其作标注得到训练 集和测试集,通过训练集训练得到多种分类模型,并通过测试集测试每种分 类模型的分类准确率,以及根据每种分类模型的分类准确率和情绪类别识别 结果对多种分类模型进行投票融合,以确定最终的情绪类别识别结果,由此, 能够方便、准确地识别出网络用户的情绪,从而有利于在突发事件期间更全 面地掌握群众思想动态,做出正确的舆论引导。
对应上述实施例,本发明还提出一种计算机程序产品。
当本发明实施例的计算机程序产品中的指令由处理器执行时,可执行根 据本发明上述实施例所述的情绪识别方法。
根据本发明实施例的计算机程序产品,处理器执行其中的指令时,通过 获取网络舆论样本数据,并对其作标注得到训练集和测试集,通过训练集训 练得到多种分类模型,并通过测试集测试每种分类模型的分类准确率,以及 根据每种分类模型的分类准确率和情绪类别识别结果对多种分类模型进行投 票融合,以确定最终的情绪类别识别结果,由此,能够方便、准确地识别出 网络用户的情绪,从而有利于在突发事件期间更全面地掌握群众思想动态, 做出正确的舆论引导。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能 理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此, 限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个 该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、 “连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以 是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接 相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元 件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理 解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上” 或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介 间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是 第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第 二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特 征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示 例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描 述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例 中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。 而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或 示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征 进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为, 表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的 代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实 现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时 的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域 的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被 认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计 算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、 包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指 令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明 书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传 输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设 备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以 下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁 装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只 读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器 (CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸 或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着 进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程 序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实 现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的 指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另 一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来 实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具 有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可 编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或 部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一 种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或 其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模 块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模 块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立 的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经 示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不 能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对 上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种情绪识别方法,其特征在于,包括以下步骤:
获取多个网络舆论样本数据,并标注每个所述网络舆论样本数据的情绪类别以构成样本集,其中,所述样本集包括训练集和测试集;
对所述训练集和所述测试集中的数据进行预处理;
通过所述训练集训练得到多种分类模型;
通过所述测试集测试每种分类模型的分类准确率;
获取待识别网络舆论数据,并将所述待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果;
根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果。
2.根据权利要求1所述的情绪识别方法,其特征在于,所述网络舆论样本数据和所述待识别网络舆论数据均为文本数据,对所述训练集和所述测试集中的数据进行预处理,具体包括:
确定最大文本序列长度,并通过补齐或截断的方式使每个文本的长度均为所述最大文本序列长度;
对每个文本进行切词。
3.根据权利要求2所述的情绪识别方法,其特征在于,其中,在特征提取阶段利用word2vector构造特征空间。
4.根据权利要求1-3中任一项所述的情绪识别方法,其特征在于,根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果,具体包括:
比较所述多种分类模型得到的情绪类别识别结果是否相同;
如果所述多种分类模型得到的情绪类别识别结果各不相同,则以分类准确率最高的分类模型得到的情绪类别识别结果作为所述最终的情绪类别识别结果;
如果所述多种分类模型得到的情绪类别识别结果均相同,则以任一分类模型得到的情绪类别识别结果作为所述最终的情绪类别识别结果;
如果所述多种分类模型得到的情绪类别识别结果部分相同、部分不同,则判断所述多种分类模型之间分类准确率的差异度;
如果所述多种分类模型之间分类准确率在预设差异度之内,则以数量最多的情绪类别识别结果作为所述最终的情绪类别识别结果;
如果所述多种分类模型之间分类准确率在预设差异度之外,则将得到同一种情绪类别识别结果的至少一个分类模型分为一组,并比较每组的平均分类准确率,以及以平均分类准确率最高的组中任一分类模型得到的情绪类别识别结果作为所述最终的情绪类别识别结果。
5.根据权利要求4所述的情绪识别方法,其特征在于,所述多种分类模型分别为BILSTM模型、TextCNN模型和ERNIE模型。
6.一种情绪识别装置,其特征在于,包括:
获取模块,所述获取模块用于获取多个网络舆论样本数据,并标注每个所述网络舆论样本数据的情绪类别以构成样本集,其中,所述样本集包括训练集和测试集;
预处理模块,所述预处理模块用于对所述训练集和所述测试集中的数据进行预处理;
训练模块,所述训练模块用于通过所述训练集训练得到多种分类模型;
测试模块,所述测试模块用于通过所述测试集测试每种分类模型的分类准确率;
初始识别模块,所述初始识别模块用于获取待识别网络舆论数据,并将所述待识别网络舆论数据分别输入每种分类模型,以得到相应的情绪类别识别结果;
融合识别模块,所述融合识别模块用于根据每种分类模型的分类准确率和情绪类别识别结果对所述多种分类模型进行投票融合,以确定最终的情绪类别识别结果。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现根据权利要求1-5中任一项所述的情绪识别方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-5中任一项所述的情绪识别方法。
9.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行根据权利要求1-5中任一项所述的情绪识别方法。
CN202010913082.4A 2020-09-03 2020-09-03 情绪识别方法和装置 Active CN112069316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010913082.4A CN112069316B (zh) 2020-09-03 2020-09-03 情绪识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010913082.4A CN112069316B (zh) 2020-09-03 2020-09-03 情绪识别方法和装置

Publications (2)

Publication Number Publication Date
CN112069316A true CN112069316A (zh) 2020-12-11
CN112069316B CN112069316B (zh) 2021-08-24

Family

ID=73665837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010913082.4A Active CN112069316B (zh) 2020-09-03 2020-09-03 情绪识别方法和装置

Country Status (1)

Country Link
CN (1) CN112069316B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470787A (zh) * 2021-07-09 2021-10-01 福州大学 基于神经网络的情绪识别与脱敏训练效果评估方法
CN116204851A (zh) * 2023-03-21 2023-06-02 中关村科学城城市大脑股份有限公司 一种基于多模态识别技术的事件识别方法及系统
CN116362607A (zh) * 2023-03-30 2023-06-30 中国人民解放军军事科学院系统工程研究院 一种物资储备效能评估方法及装置
CN117407527A (zh) * 2023-10-19 2024-01-16 重庆邮电大学 一种教育领域舆情大数据分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462487A (zh) * 2014-12-19 2015-03-25 南开大学 一种融合多信息源的个性化在线新闻评论情绪预测方法
CN107885849A (zh) * 2017-11-13 2018-04-06 成都蓝景信息技术有限公司 一种基于文本分类的情绪指数分析系统
CN109299267A (zh) * 2018-10-16 2019-02-01 山西大学 一种文本对话的情绪识别与预测方法
CN111046172A (zh) * 2019-10-30 2020-04-21 北京奇艺世纪科技有限公司 一种舆情分析方法、装置、设备和存储介质
US20200184345A1 (en) * 2018-12-11 2020-06-11 Hiwave Technologies Inc. Method and system for generating a transitory sentiment community
CN111414475A (zh) * 2020-03-03 2020-07-14 北京明略软件系统有限公司 文本情感信息的识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462487A (zh) * 2014-12-19 2015-03-25 南开大学 一种融合多信息源的个性化在线新闻评论情绪预测方法
CN107885849A (zh) * 2017-11-13 2018-04-06 成都蓝景信息技术有限公司 一种基于文本分类的情绪指数分析系统
CN109299267A (zh) * 2018-10-16 2019-02-01 山西大学 一种文本对话的情绪识别与预测方法
US20200184345A1 (en) * 2018-12-11 2020-06-11 Hiwave Technologies Inc. Method and system for generating a transitory sentiment community
CN111046172A (zh) * 2019-10-30 2020-04-21 北京奇艺世纪科技有限公司 一种舆情分析方法、装置、设备和存储介质
CN111414475A (zh) * 2020-03-03 2020-07-14 北京明略软件系统有限公司 文本情感信息的识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUHAN WU等: "Sentiment Lexicon Enhanced Neural Sentiment Classification", 《PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *
施寒潇等: "微博短文本的情绪分析方法", 《山东大学学报(理学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470787A (zh) * 2021-07-09 2021-10-01 福州大学 基于神经网络的情绪识别与脱敏训练效果评估方法
CN113470787B (zh) * 2021-07-09 2024-01-30 福州大学 基于神经网络的情绪识别与脱敏训练效果评估方法
CN116204851A (zh) * 2023-03-21 2023-06-02 中关村科学城城市大脑股份有限公司 一种基于多模态识别技术的事件识别方法及系统
CN116204851B (zh) * 2023-03-21 2023-08-22 中关村科学城城市大脑股份有限公司 一种基于多模态识别技术的事件识别方法及系统
CN116362607A (zh) * 2023-03-30 2023-06-30 中国人民解放军军事科学院系统工程研究院 一种物资储备效能评估方法及装置
CN116362607B (zh) * 2023-03-30 2023-11-03 中国人民解放军军事科学院系统工程研究院 一种物资储备效能评估方法及装置
CN117407527A (zh) * 2023-10-19 2024-01-16 重庆邮电大学 一种教育领域舆情大数据分类方法

Also Published As

Publication number Publication date
CN112069316B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN112069316B (zh) 情绪识别方法和装置
CN109284355B (zh) 一种批改试卷中口算题的方法及装置
CN108121702B (zh) 数学主观题评阅方法及系统
CN109271627B (zh) 文本分析方法、装置、计算机设备和存储介质
CN109189895B (zh) 一种针对口算题的题目批改方法及装置
CN112036153B (zh) 工单纠错方法、装置、计算机可读存储介质和计算机设备
CN111666761A (zh) 细粒度情感分析模型训练方法及装置
CN109858626A (zh) 一种知识库构建方法及装置
CN111444718A (zh) 一种保险产品需求文档处理方法、装置及电子设备
CN112308148A (zh) 缺陷类别识别、孪生神经网络训练方法、装置及存储介质
CN110796153A (zh) 一种训练样本的处理方法、装置
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN110032714B (zh) 一种语料标注反馈方法及装置
CN110826616A (zh) 信息处理方法及装置、电子设备、存储介质
CN115859128A (zh) 一种基于档案数据交互相似度的分析方法和系统
US20210089886A1 (en) Method for processing data based on neural networks trained by different methods and device applying method
CN112765238A (zh) 一种数据处理系统及数据挖掘方法
CN112507658A (zh) 一种预测模型生成、检测数据归一化的方法、装置及设备
KR102072894B1 (ko) 인트론과 엑손 구분에 기반한 이상 서열 식별 방법
CN112395855A (zh) 基于评论的评价方法及装置
CN112115229A (zh) 文本意图识别方法、装置、系统以及文本分类系统
CN116383367B (zh) 对话系统冷启动阶段的数据处理方法、装置、设备及介质
CN113778875B (zh) 一种系统测试缺陷分类方法、装置、设备及存储介质
CN111652229B (zh) 一种信息输入方法、装置、电子设备及存储介质
KR102609227B1 (ko) 전자 문서 내 인공지능 기반 안전정보 탐지 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant