CN114490925A - 公共事件下的情绪挖掘方法及设备 - Google Patents

公共事件下的情绪挖掘方法及设备 Download PDF

Info

Publication number
CN114490925A
CN114490925A CN202111580392.XA CN202111580392A CN114490925A CN 114490925 A CN114490925 A CN 114490925A CN 202111580392 A CN202111580392 A CN 202111580392A CN 114490925 A CN114490925 A CN 114490925A
Authority
CN
China
Prior art keywords
emotion
information
category
word
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111580392.XA
Other languages
English (en)
Inventor
宋慎铭
王琛
詹东远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
University College London
Original Assignee
Tsinghua University
University College London
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, University College London filed Critical Tsinghua University
Priority to CN202111580392.XA priority Critical patent/CN114490925A/zh
Publication of CN114490925A publication Critical patent/CN114490925A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种公共事件下的情绪挖掘方法及设备,其中的方法包括:获取目标公共事件对应的各发布信息和所述发布信息的各评论信息;针对每条所述发布信息,确定所述发布信息所属的内容类别;针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,确定所述内容类别在每个情绪类别的情绪强度信息。如此,增强了对情绪的可解释性,从而提高情绪挖掘的准确性。

Description

公共事件下的情绪挖掘方法及设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种公共事件下的情绪挖掘方法及设备。
背景技术
随着在线社交网络的兴起,公众更多地选择在社交媒体上获取和分享公共事件等的相关信息。基于社交媒体可以了解到公众关于公众事件的情绪,相关技术中有一些应用自然语言处理技术的研究,来挖掘公众对于公众事件的情绪,但是大多都是基于词语的人工标签且关注于识别情绪的正负极性,或者采用深度学习模型尝试解决情感二分类问题,对情绪的解释性较弱,情绪挖掘并不准确。
发明内容
本发明提供一种公共事件下的情绪挖掘方法及设备,用以解决现有技术中对情绪的解释性较弱,情绪挖掘并不准确的缺陷,实现对情绪的可解释性的增强,从而提高情绪挖掘的准确性。
本发明提供一种公共事件下的情绪挖掘方法,包括:
获取目标公共事件对应的各发布信息和所述发布信息的各评论信息;
针对每条所述发布信息,确定所述发布信息所属的内容类别;
针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,确定所述内容类别在每个情绪类别的情绪强度信息。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述公共事件下的情绪挖掘方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述公共事件下的情绪挖掘方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述公共事件下的情绪挖掘方法的步骤。
本发明提供的公共事件下的情绪挖掘方法,通过获取目标公共事件对应的各发布信息和所述发布信息的各评论信息,针对每条所述发布信息,定性地确定所述发布信息所属的内容类别的特点,针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,定量地确定所述内容类别在每个情绪类别的情绪强度信息,增强了对情绪的可解释性,从而提高了情绪挖掘的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的公共事件下的情绪挖掘方法的流程示意图之一;
图2是本发明提供的公共事件下的情绪挖掘方法的流程示意图之二;
图3是本发明提供的第一箱线图的示意图;
图4是本发明提供的第二箱线图的示意图;
图5a是本发明提供的折线图的示意图之一;
图5b是本发明提供的折线图的示意图之一;
图6a是本发明提供的无向图的示意图之一;
图6b是本发明提供的无向图的示意图之一;
图6c是本发明提供的无向图的示意图之一;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着在线社交网络的兴起,公众更多地选择在社交媒体上获取和分享公共事件等的相关信息。基于社交媒体可以了解到公众关于公众事件的情绪,相关技术中有一些应用自然语言处理技术的研究,来挖掘公众对于公众事件的情绪,但是大多都是基于词语的人工标签且关注于识别情绪的正负极性,或者采用深度学习模型尝试解决情感二分类问题,对情绪的解释性较弱,情绪挖掘并不准确。
为此,本发明实施例提供了一种公共事件下的情绪挖掘方法,可以基于公共事件下社交媒体上的发布信息和公众的评论信息,确定出发布信息的内容类别,该内容类别下的发布信息所诱发的评论信息的情绪类别以及情绪强度信息,从而提高了对情绪的解释性,情绪挖掘更准确。下面通过实施例对本发明实施例提供的方案进行详细地介绍。
图1是本发明提供的公共事件下的情绪挖掘方法的流程示意图之一。如图1所示,本实施例提供一种公共事件下的情绪挖掘方法,该方法可以由终端或者其中的软件和/或硬件的组合执行,终端可以但不限于PC、平板电脑等,也可以由服务器或者其中的软件和/或硬件的组合执行,该方法至少包括如下步骤:
步骤110,获取目标公共事件对应的各发布信息和所述发布信息的各评论信息。
目标公共事件即当前需要进行情绪挖掘的公共事件,示例性的,可以是突发公共事件,例如突发公共卫生事件、突发公共安全事件、突发自然灾害事件,等等,当然,也可以是非突发公共事件,即常发公共事件。
实际应用中,在目标公共事件发生之后,可以通过社交媒体发布各种与目标公共事件相关的信息,基于此,可以得到发布信息,公众则可以对发布信息发表评论来表达自己的想法,基于此,可以得到评论信息。这里的发布信息和评论信息可以为文本信息。实施中,可以预先收集目标公共事件发生一段时间内的各发布信息和发布信息的评论信息,用来对目标公共事件进行情绪挖掘。
步骤120,针对每条所述发布信息,确定所述发布信息所属的内容类别。
实际应用中,可以针对目标公共事件的发布信息,可以预先设置多个内容类别,以突发卫生事件为例,示例性的,可以设置发布、交通、国内、纪实、政策、国际、情感和诊疗八个内容类别。其中,发布的内容类别中可以包括新闻发布的信息,例如新闻发布会的信息。交通的内容类别中可以包括目标公共事件对应的交通公告。国内的内容类别中可以包括目标公共事件的国内进展。纪实的内容类别中可以包括目标公共事件对应的社会纪实,例如各种社会工作安排等信息。政策的内容类别中可以包括目标公共事件对应的处理政策。国际的内容类别中可以包括目标公共事件的国际进展。情感的内容类别中可以包括目标公共事件对应的情感支持的信息。诊疗的内容类别中可以包括目标公共事件对应的患者诊疗信息。针对每个发布消息,可以确定该发布信息所属的内容类别,从而可以完成对发布信息的分类。
步骤130,针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,确定所述内容类别在每个情绪类别的情绪强度信息。
实际应用中,可以预先设置多个情绪类别,示例性的,可以设置期待、快乐、信任、惧怕、惊讶、悲伤、厌恶和愤怒八个情绪类别。在一个内容类别下的各发布信息的各评论信息可以反映公众在该内容类别所诱发的情绪,进一步的,可以反映在每个情绪类别的情绪,基于此,本步骤中,可以基于所述内容类别下的各所述发布信息的各所述评论信息,确定所述内容类别在每个情绪类别的情绪强度信息,该情绪类别的情绪强度信息为内容类别在该情绪类别的情绪强度的量化信息。
本实施例中,通过获取目标公共事件对应的各发布信息和所述发布信息的各评论信息,针对每条所述发布信息,定性地确定所述发布信息所属的内容类别的特点,针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,定量地确定所述内容类别在每个情绪类别的情绪强度信息,增强了对情绪的可解释性,从而提高了情绪挖掘的准确性。
基于以上实施例,所述针对每条所述发布信息,确定所述发布信息所属的内容类别,如图2所示,其具体实现方式可以包括:
步骤210,将所有所述发布信息,输入至分词工具,得到所述分词工具输出的第一分词结果。
其中,所述分词工具的分词词库中补充有所述目标公共事件对应的专有新词和/或社交媒体中的口语化的特征词,以使所述分词工具能够输出所述专有新词和/或所述口语化的特征词。这里的专有新词可以是目标公共事件(即特定语料背景)对应的专有词,即目标公共事件中所用到的术语,例如医疗术语。其中,口语化的特征词可以为社交媒体中针对目标公共事件的口语化的常用语,例如,一路走好。通过在分词工具的分词词库中加入专有新词和口语化的特征词,丰富词库,从而能够更准确地输出目标公共事件相关的词,实现对发布信息的预处理。
实际应用中,若目标公共事件是首次进行情绪挖掘,则需要向分词工具的分词词库中补充上述专有新词和口语化的特征词,再将所有所述发布信息,输入至分词工具。若目标公共事件并非首次进行情绪挖掘,由于在首次进行情绪挖掘时,已经补充了上述专有新词和口语化的特征词,则可以直接将所有所述发布信息,输入至分词工具。
步骤220,获取对所述第一分词结果进行转换得到的词向量空间。
步骤230,获取降维后的所述词向量空间中的各词向量经软聚类后,每个词向量属于各所述内容类别的概率。
软聚类就是把数据以一定的概率分到各类中。软聚类的算法包括高斯混合模型(Gaussian Mixed Model,GMM),比如模糊C均值模型(Fuzzy c-Means),等等。
以发布、交通、国内、纪实、政策、国际、情感和诊疗八个内容类别为例,每个词向量都有属于各内容类别的概率。
步骤240,针对每条所述发布信息,从降维后的所述词向量空间中获取所述发布信息对应的各词向量,基于所述发布信息对应的各词向量属于各所述内容类别的概率,确定所述发布信息所属的所述内容类别。
本实施例中,通过将所有发布信息进行分词,并转换成词向量空间,获取降维后的所述词向量空间中的各词向量经软聚类后,每个词向量属于各内容类别的概率,基于一条发布信息对应的各词向量属于各内容类别的概率,可以准确地确定一条发布信息所属的内容类别,另外,由于所有发布信息分词后的数据量较大,转换后的词向量空间的维数也较高,处理效率较低,而词向量空间经过降维后,可以大大提高处理效率。
基于上述任一实施例,所述基于所述发布信息对应的各词向量属于各所述内容类别的概率,确定所述发布信息所属的所述内容类别,其具体实现方式有多种,以下列举其中两种方式。
方式一、针对每个所述内容类别,对所述发布信息对应的各词向量属于所述内容类别的概率求平均值;将平均值最高的所述内容类别,确定为所述发布信息所属的所述内容类别。以发布、交通、国内、纪实、政策、国际、情感和诊疗八个内容类别为例,发布信息A对应的各词向量包括词向量a、词向量b和词向量c,可以针对发布这一内容类别,对词向量a属于发布的概率、词向量b属于发布的概率和词向量c属于发布的概率求平均值,然后依次类推,可以针对其它的每个内容类别,对发布信息对应的各词向量属于该内容类别的概率求平均值,最后,将平均值最高的内容类别,确定为发布信息所属的内容类别。
本实施例的方式可以快速确定出发布信息所属的内容类别。
方式二、对所述发布信息对应的各词向量进行聚类,基于所包括的词向量数量最多的聚类类别,针对每个所述内容类别,对所述聚类类别中的各词向量属于所述内容类别的概率求平均值,将平均值最高的所述内容类别,确定为所述发布信息所属的所述内容类别。
仍以发布、交通、国内、纪实、政策、国际、情感和诊疗八个内容类别为例,发布信息A对应的各词向量包括词向量a、词向量b和词向量c,将词向量a、词向量b和词向量c进行聚类,如果词向量a和词向量b分为一类,词向量c为一类,基于词向量a和词向量b所在的聚类类别,以软聚类的结果为先验信息,可以针对交通这一内容类别,对词向量a属于交通的概率和词向量b属于交通的概率求平均值,然后依次类推,可以针对其它的每个内容类别,对词向量a和词向量b属于该内容类别的概率求平均值,最后,将平均值最高的内容类别,确定为发布信息所属的内容类别。
这里的聚类可以为硬聚类,硬聚类是把数据确切地分到某一类中,比如可以为K-Means算法。
本实施例的方式中,在软聚类之后,以软聚类的结果为先验信息,再次进行聚类,属于同一内容类别的词向量更有可能分成一类,包括的词向量的数量最多的聚类类别更能够反映发布信息的主要内容,基于此,确定发布信息所属的类别,更准确。
基于上述任一实施例,在所述获取对所述第一分词结果进行转换得到的词向量空间之前,上述方法还可以包括:获取表示学习模型所使用的超参数的不同取值;针对所述超参数的每个取值,基于所述取值对应的所述表示学习模型,分别对所述第一分词结果进行转换,得到词向量空间;基于用户的第一输入,选择满足需求的所述取值对应的所述表示学习模型得到的词向量空间。
表示学习用于将原始数据转换成为能够被机器学习来有效开发的一种形式。本实施例中,通过表示学习模型将第一分词结果转换成词向量空间并保存,以便进行后续的处理。
示例性的,表示学习模型的表示学习技术可以为布朗聚类(Brown Cluster)、潜在语义分析、Word2vec等分布式词表示方法,或者,基于上下文的词表示方法等。其中Word2vec是word to vector的简称,是一群用来产生词向量的相关模型。
这里,用户的第一输入可以是用于选择满足需求的所述取值的选择操作。
本实施例中,通过为用户提供多种超参数的结果,供用户选择出合适的超参数,如此实现了超参数的灵敏度分析。
实际应用中,如果目标公共事件是首次进行情绪挖掘,可以基于本实施例提供的方式选择满足需求的超参数的取值对应的表示学习模型得到的词向量空间。进一步的,保存所选择的满足需求的超参数的取值。若目标公共事件并非首次进行情绪挖掘,可以直接基于已保存的所选择的超参数的取值对应的表示学习模型,将第一分词结果转换成词向量空间。
需要说明的是,可以将第一分词结果中,词频低于一定阈值的词汇删除,因为在确定超参数时,需要减少生僻低频词的影响并增强语义联系。
基于上述任一实施例,在所述获取降维后的所述词向量空间中的各词向量经软聚类后,每个词向量属于各所述内容类别的概率之前,还包括:获取预设的多个聚类个数;针对每个所述聚类个数,对降维后的所述词向量空间中的各词向量按照所述聚类个数进行软聚类,得到每个词向量属于各所述内容类别的概率以及所述软聚类的结果评价指标;基于用户的第二输入,选择满足需求的聚类个数所对应的每个词向量属于各所述内容类别的概率。
其中,软聚类的结果评价指标用于评价聚类结果的好坏,例如可以包括赤池信息量准则(Akaike information criterion,AIC)、贝叶斯信息准则(Bayesian InformationCriterion,BIC)、轮廓系数等指标。
其中,用户的第二输入可以是用于选择满足需求的聚类个数的选择操作。
本实施例中,为用户提供了多个聚类个数的软聚类的结果以及结果评价指标,用户可以针对每个聚类个数,基于该聚类个数的软聚类的结果中的每个类别,命名内容类别,选择出内容类别的命名解释性较好的聚类个数,如此,通过聚类的结果评价指标和人工经验校验相结合从而得到解释性更强的内容分类结果。
实际应用中,如果目标公共事件是首次进行情绪挖掘,可以基于本实施例提供的方式选择满足需求的聚类个数所对应的每个词向量属于各内容类别的概率。进一步的,保存所选择的满足需求的聚类个数。若目标公共事件并非首次进行情绪挖掘,可以直接将降维后的所述词向量空间中的各词向量按照已保存的所选择的聚类个数进行软聚类。
基于上述任一实施例,针对每个内容类别,确定该内容类别中的发布信息所包含的词汇及对应的词频,并基于确定的词汇及对应的词频生成词云。示例性的,可以基于词频最高的设定数量的词汇,生成词云。还可以对该词云进行可视化展示。词云可以对文本中出现频率较高的关键词进行视觉上的突出。如此,方便用户直接了解一个内容类别中的主要信息。
基于上述任一实施例,在所述目标公共事件随时间演化的每个预设单位时间内,针对每个内容类别,确定该内容类别中的发布信息的条数以及该内容类别中的发布信息的条数与各内容类别中的发布信息的条数的总和的百分比。其中,预设单位时间可以为天,也可以为星期等等。还可以基于该内容类别中的发布信息的条数以及该内容类别中的发布信息的条数与各内容类别中的发布信息的条数的总和的百分比,生成可视化的图表并进行展示。本实施例中,对内容类别的发布信息的情况进行可视化展示,方便用户了解每个内容类别的信息发布的情况。
基于上述任一实施例,在所述对降维后的所述词向量空间中的各词向量按照所述聚类个数进行软聚类之前,上述方法还可以包括:基于主成分分析,对所述词向量空间中的各词向量进行主成分降维,降维后的维数是基于用户的第三输入确定的。所述主成分分析(principal component analysis,PCA)方法是一种常用的降维方式,需要预先确定降维后的维数,也即降维维数。
其中的降维维数的确定需要能够使得降维后保留的各主成分的方差值占降维前的各成分的总方差值的比例至少达到预设比例,例如该预设比例为70%。
实际应用中,可以提供默认设置的降维维数,也可以提供降维维数的输入控件,供用户输入降维维数。可以先按照默认设置的降维维数,对所述词向量空间中的各词向量进行主成分降维。用户还可以基于该降维结果,调整并更新降维维数,然后,按照调整后的降维维数,对所述词向量空间中的各词向量进行主成分降维。可以基于用户的第三输入,从默认设置的降维维数和调整后的降维维数中选择合适的降维维数。用户的第三输入为降维维数的选择操作。
本实施例中,可以根据实际需要选择合适的降维维数,从而满足用户的实际需求。
如果目标公共事件是首次进行情绪挖掘,可以从默认设置的降维维数和调整后的降维维数中选择合适的降维维数。进一步的,保存所选择的降维维数。若目标公共事件并非首次进行情绪挖掘,可以直接基于保存的所选择的降维维数,对所述词向量空间中的各词向量进行主成分降维。
基于上述任一实施例,所述针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,确定所述内容类别在每个情绪类别的情绪强度信息,其具体实现方式可以包括:
首先,将所有所述评论信息,输入分词工具,得到所述分词工具输出的第二分词结果。
然后,针对每个所述内容类别,在所述内容类别下,针对每条所述评论信息,从所述第二分词结果中获取所述评论信息包含的分词,将所述评论信息包含的分词与预先构建的情绪词典中的词进行对比,基于对比结果确定所评论信息包含的分词中存在于所述情绪词典中的分词,针对每个所述情绪类别对应的情绪判别模型,将所评论信息包含的所述存在于所述情绪词典中的分词,输入至所述情绪类别对应的情绪判别模型,得到所述情绪类别对应的情绪判别模型输出的所述评论信息在所述情绪类别的情绪强度值,基于所述内容类别下的所有所述评论信息在每个所述情绪类别的情绪强度值,确定所述内容类别在每个所述情绪类别的情绪强度信息;
其中,所述情绪判别模型是基于所述情绪词典和所述情绪词典中的每个词在所述情绪类别的情绪强度值标签训练得到的。
这里的情绪类别的情绪强度值为情绪类别的情绪强度的量化值。
实际应用中,可以针对每个情绪类别,都预先训练一个情绪判别模型。以期待、快乐、信任、惧怕、惊讶、悲伤、厌恶和愤怒这八个情绪类别为例,需要分别为八个情绪类别,均预先训练对应的情绪判别模型,得到八个情绪判别模型。
本实施例中,通过预先训练的情绪判别模型可以快速准确地得到每个评论信息在情绪类别的情绪强度值,进而基于所述内容类别下的所有所述评论信息在每个所述情绪类别的情绪强度值,快速确定所述内容类别在每个所述情绪类别的情绪强度信息。
基于上述任一实施例,针对每条发布信息,在每个情绪类别下,将该发布信息的所有评论信息在该情绪类别的情绪强度值进行聚合以得到聚合值。聚合时,可以对各评论信息在该情绪类别的情绪强度值进行求和,也可以根据评论信息的热度,对各评论信息在该情绪类别的情绪强度值加权求和。其中,评论信息的热度可以为评论信息对应的点赞和评论的总数。将各评论信息的热度进行归一化处理,即处理成0~1之间的数值,将归一化处理后的各评论信息的热度作为各评论信息的权重,从而进行加权求和。
进一步的,上述方法还可以包括:在每预设单位时间内,在每个情绪类别下,对目标公共事件的所有评论信息在该情绪类别的情绪强度值进行聚合以得到聚合值,以及确定该情绪类别下的聚合值占各情绪类别下的聚合值的总和的百分比。基于各预设单位时间内各情绪类别下的聚合值以及百分比,生成表征各情绪类别在时间序列上的聚合值的变化和百分比波动的可视化的图表,并进行展示。
其中,所述情绪词典是通过如下方式构建的:
步骤一,获取各评论信息样本,所述评论信息样本中标记有所述评论信息样本在每个所述情绪类别的情绪强度值,将所述评论信息样本在每个所述情绪类别的情绪强度值,作为所述评论信息样本中的分词在每个所述情绪类别的情绪强度值;在每个所述情绪类别下,基于各所述评论信息样本中的分词在所述情绪类别的情绪强度值,确定同一分词在所述情绪类别的情绪强度值的总和,基于所述情绪类别的情绪强度值的总和最大的预设百分比的分词,得到所述情绪类别的情绪特征词集合。
其中的各评论信息样本可以是从目标公共事件对应的所有发布信息的各评论信息中选取的一部分评论信息,也可以是通过其它方式获得的。每个评论信息样本,都标记有每个情绪类别上的情绪强度值。例如,一条评论信息样本为“相信国泰民安”,在信任这个情绪类别的情绪强度值为3,在恐惧等其它情绪类别的情绪强度值为0。相应的,“相信国泰民安”中的分词“相信”在信任这个情绪类别的情绪强度值为3,在恐惧等其它情绪类别的情绪强度值为0。然后,在信任这个情绪类别下,确定所有评论信息样本中的“相信”的情绪强度值的总和。对各分词的情绪类别的情绪强度值从高到低进行排序,选择总和最大的预设百分比的分词,得到情绪类别的情绪特征词集合。其中的预设百分比可以根据实际需求设置,示例性的,为40%-60%,例如可以为50%。
情绪类别的情绪强度值靠前的分词更具有代表性,因此,可以将这些分词作为情绪类别的情绪特征词。
步骤二,基于各所述评论信息样本的分词中,词频最高的预设数量的分词,得到高频词集合。
具体的,可以基于词频-逆频率值(term frequency–inverse documentfrequency,TF-IDF),词频最高的预设数量的分词。其中的预设数量可以根据实际需求设置,示例性的,为250-450,例如可以为300。
步骤三,基于各所述评论信息样本的分词,确定至少一个组合词,基于所述至少一个组合词,得到组合词集合,所述组合词包括基于关联分析算法得到的存在关联关系的至少两个分词。
具体的,可以基于关联分析算法,例如Apriori算法、频繁模式增长(FrequentPattern growth,FP-growth)算法,确定至少一个组合词。Apriori算法是种挖掘关联规则的频繁项集算法。其中,关联分析算法所采用的超参数可以参考相关技术确定,此处不做赘述。
其中,存在关联关系的至少两个分词可以是指通常同时出现的至少两个分词。例如,“致敬”和“白衣天使”两个分词一般同时出现,形成“致敬白衣天使”,二者关联性较强,基于关联分析算法则可以分析出二者是存在关联关系的两个分词,形成一个组合词。
步骤四,基于各所述情绪类别的情绪特征词集合、所述高频词集合和所述组合词集合,得到所述情绪词典。
其中,各情绪类别的情绪特征词集合和所述高频词集合可以形成单元组词典,单元组词典中的每个词包括一个分词。组合词集合可以形成多元组词典,多元组词典中的每个词包括至少两个分词。
如果目标公共事件是首次进行情绪挖掘,则需要构建上述情绪词典。若目标公共事件并非首次进行情绪挖掘,可以直接使用已构建的情绪词典。
上述情绪类别的情绪判别模型是通过如下方式训练得到的:
从各评论信息样本中随机选择一部分作为训练集,另一部分为测试集;基于训练集对情绪类别的初始情绪判别模型进行训练,其中,该情绪类别的初始情绪判别模型以情绪词典中的元素(即词)为自变量,情绪强度值作为因变量;基于测试集对情绪类别的情绪判别模型进行测试。
实施中,可以基于k-折交叉验证(k-fold crossValidation)的方法进行训练和测试。具体的,可以将各评论信息样本分成k份,其中的k-1份作为训练集,1份作为测试集。其中的k的取值为大于1的正整数,可以根据实际需求设置,示例性的,为5-20,例如可以为10。
情绪判别模型可以为线性回归模型、套索算法(Least Absolute Shrinkage andSelection Operator,LASSO)回归模型、弹性回归模型等。还可以结合一个或多个回归评价指标,例如均方根误差(Root Mean Squared Error,RMSE)、平均绝对误差(Mean AbsoluteError,MAE)、拟合度(R-Squared)等,选择模型的参数并验证模型的效果。
同样,如果目标公共事件是首次进行情绪挖掘,则需要构建上述情绪判别模型。若目标公共事件并非首次进行情绪挖掘,可以直接应用已构建的情绪判别模型。
基于上述任一实施例,所述内容类别在所述情绪类别的情绪强度信息包括以下至少一种信息:
第一信息,包括所述内容类别在所述情绪类别的情绪强度值,所述内容类别在所述情绪类别的情绪强度值为所述内容类别下的所有所述评论信息在所述情绪类别的情绪强度值的总和。
第二信息,包括所述内容类别在所述情绪类别的情绪强度值与所述内容类别在各所述情绪类别的情绪强度值的总和的百分比。
第三信息,包括所述内容类别的各所述发布信息在所述情绪类别的情绪强度值的平均值、中位数、上四分位数、下四分位数、最大值和最小值中的至少一种;其中,所述发布信息在所述情绪类别的情绪强度值为所述发布信息的所有所述评论信息在所述情绪类别的情绪强度值的总和。
其中,所述内容类别的各所述发布信息在所述情绪类别的情绪强度值的平均值也即该内容类别的单条发布信息的所有评论信息诱发的情绪强度值。
第四信息,包括在所述目标公共事件随时间演化的每个阶段,所述内容类别在所述阶段内的所述情绪类别的情绪强度值;其中,所述内容类别在所述阶段内的所述情绪类别的情绪强度值为所述内容类别在所述阶段内的各所述发布信息在所述情绪类别的情绪强度值的总和。
实际应用中,用户可结合事件周期理论与事件演变指标(例如突发公共卫生事件中的关键事件节点、病例确诊数、受灾损失与救灾重建投入等)自主预定义目标公共事件随时间演化的具体的阶段,例如,可以定义发作期、遏制期和恢复期三个阶段。所述内容类别在每个阶段内都有各情绪类别的情绪强度值。
第五信息,包括在所述目标公共事件随时间演化的每个阶段,所述内容类别在所述阶段内的各所述发布信息在所述情绪类别的情绪强度值的平均值、中位数、上四分位数、下四分位数、最大值和最小值中的至少一种;其中,所述阶段内的所述发布信息在所述情绪类别的情绪强度值为所述阶段内的所述发布信息的所有所述评论信息在所述情绪类别的情绪强度值的总和。
其中,所述内容类别在所述阶段内的各所述发布信息在所述情绪类别的情绪强度值的平均值即所述内容类别下所述阶段内单条发布信息诱发的情绪强度值。
第六信息,包括在所述目标公共事件随时间演化的每个阶段,所述内容类别在所述阶段内的每个预设单位时长的所述情绪类别的情绪强度值;所述内容类别在所述阶段内的预设单位时长的所述情绪类别的情绪强度值为所述内容类别在所述阶段内的预设单位时长内的各所述发布信息在所述情绪类别的情绪强度值的总和。
以发作期这一阶段为例,假设预设单位时长为天,该发作期包括20天,则每天都有对应的各情绪类别的情绪强度值。
第七信息,包括在所述目标公共事件随时间演化的每个阶段,所述内容类别在所述阶段内的各预设单位时长的所述情绪类别的情绪强度值的平均值、中位数、上四分位数、下四分位数、最大值和最小值中的至少一种。
仍以发作期这一阶段为例,假设预设单位时长为天,该发作期包括20天,情绪类别为信任,每天都有信任的情绪强度值,则有20个信任的情绪强度值,基于这20个信任的情绪强度值得到平均值、中位数、上四分位数、下四分位数、最大值和最小值中的至少一种。
第八信息,包括在所述目标公共事件随时间演化的每个阶段,所述内容类别在所述阶段内的各预设单位时长的单条所述发布信息在所述情绪类别的情绪强度值的平均值、中位数、上四分位数、下四分位数、最大值和最小值中的至少一种,所述阶段内的所述预设单位时长的单条所述发布信息在所述情绪类别的情绪强度值为所述阶段内的所述预设单位时长内的各所述发布信息在所述情绪类别的情绪强度值的平均值。
仍以发作期这一阶段为例,假设预设单位时长为天,该发作期包括20天,情绪类别为信任,每天都有单条发布信息在信任的情绪强度值,则有20个单条发布信息在信任的情绪强度值,基于这20个单条发布信息在信任的情绪强度值,得到平均值、中位数、上四分位数、下四分位数、最大值和最小值中的至少一种。
本实施例中,通过对评论信息在每个情绪类别的情绪强度值进行统计,得到内容类别在每个情绪类别的情绪强度信息中的各种信息,从而从各种角度对内容类别在每个情绪类别的情绪强度进行解释,情绪的可解释性更强。
基于上述任一实施例,上述方法还可以包括:基于所述内容类别在每个所述情绪类别的情绪强度信息,生成可视化的图表。生成的图表可以包括折线图、柱状图、箱线图或者无向图等等。实施中,可以根据情绪强度信息的特点来选择合适的图表。通过可视化的图表,可以对述内容类别在每个所述情绪类别的情绪强度信息进行可视化展示,方便用户直观了解公众的情绪强度信息。
基于上述任一实施例,所述基于所述内容类别在每个所述情绪类别的情绪强度信息,生成可视化的图表,其具体实现方式可以包括:
步骤一、若所述情绪类别的情绪强度信息中包括所述第七信息中的中位数、上四分位数、下四分位数、最大值和最小值,基于所述内容类别在各所述情绪类别的情绪强度信息所包括的所述第七信息中的中位数、上四分位数、下四分位数、最大值和最小值,生成第一箱线图。箱线图因形状如箱子而得名。其中,一种情绪类别的情绪强度信息所包括的第七信息中的一个阶段内的中位数、上四分位数、下四分位数、最大值和最小值对应第一箱线图中的一个箱子。该第一箱线图中包括各情绪类别对应的各阶段的箱子,用于表征目标公共事件随时间演化的各阶段下每预设单位时长总体情绪分布。
示例性的,目标公共事件随时间演化的各个阶段包括发作期、遏制期和恢复期,预设单位时长为天,各情绪类别包括期待、快乐、信任、惧怕、惊讶、悲伤、厌恶和愤怒八个情绪类别,如图3所示的第一箱线图,包括8组发作期、遏制期和恢复期的情绪强度分布,在图示状态下,从左到右,分别与期待、快乐、信任、惧怕、惊讶、悲伤、厌恶和愤怒八个情绪类别一一对应,体现了目标公共事件各阶段下每日总体情绪分布。
步骤二、若所述情绪类别的情绪强度信息中包括所述第八信息中的中位数、上四分位数、下四分位数、最大值和最小值,基于所述内容类别各所述情绪类别的情绪强度信息所包括的所述第八信息中的中位数、上四分位数、下四分位数、最大值和最小值,生成第二箱线图。其中,一种情绪类别的情绪强度信息所包括的第八信息中的一个阶段内的中位数、上四分位数、下四分位数、最大值和最小值对应第一箱线图中的一个箱子。该第二箱线图中包括各情绪类别对应的各阶段的箱子,用于表征目标公共事件随时间演化的各阶段下每预设单位时长单条发布信息的情绪分布。
如图4所示的第二箱线图,包括8组发作期、遏制期和恢复期的情绪强度分布,在图示状态下,从左到右,分别与期待、快乐、信任、惧怕、惊讶、悲伤、厌恶和愤怒八个情绪类别一一对应,体现了目标公共事件各阶段下每日单条发布信息情绪分布。
步骤三、若所述情绪类别的情绪强度信息中包括所述第八信息中的平均值,针对每个所述情绪类别,在每个所述内容类别下,对所述第八信息中各所述阶段内的平均值求平均以作为基线情绪,确定所述第八信息中各所述阶段内的平均值与所述基线情绪的离均差,基于各所述离均差生成折线图。
如图5a和图5b所示的八个情绪类别一一对应的折线图,在每个情绪类别对应的折线图中,以发布、交通、国内、纪实、政策、国际、情感和诊疗八个内容类别,能够体现各阶段下各内容类别每天单条发布信息诱发的情绪相对基线情绪的变化。在图中所示状态下,以所有折线在恢复期侧的端点为参考,按照从上到下的顺序,依次说明每条折线所对应的内容类别,其中,期待对应的折线图中各折线所对应的内容类别依次为国内、国际、交通、诊疗、情感、纪实、政策和发布,快乐对应的折线图中各折线所对应的内容类别依次为情感、交通、政策、国际、纪实、诊疗、发布和国内,惊讶对应的折线图中各折线所对应的内容类别依次为国际、纪实、情感、交通、政策、诊疗、国内和发布,悲伤对应的折线图中各折线所对应的内容类别依次为情感、交通、发布、国际、政策、诊疗、纪实和国内,信任对应的折线图中各折线所对应的内容类别依次为情感、交通、诊疗、发布、纪实、国际、国内和政策,惧怕对应的折线图中各折线所对应的内容类别依次为国际、交通、诊疗、国内、纪实、情感、政策和发布,厌恶对应的折线图中各折线所对应的内容类别依次为国际、纪实、交通、情感、诊疗、政策、国内和发布,愤怒对应的折线图中各折线所对应的内容类别依次为国际、纪实、交通、情感、诊疗、政策、国内和发布。
从图中可以看出,对于同一种情绪类别来说,不同的内容类别对情绪会产生不同的影响,即可以对情绪产生不同程度的调节,如此,对情绪边际产生了调节效应。
例如,情感这一内容类别在发作期提升了公众期待,但在恢复期并没有类似效果;同时,情感这一内容类别在三个阶段对增强公众信任都具有显著作用。交通这一内容类别在发作期降低了公众的期待和信任,但在恢复期反而提升了公众的期待和信任。诊疗这一内容类别在发作期对提升公众信任的作用有限,但在恢复期效果显著。国际这一内容类别既强化了公众的惧怕、厌恶和愤怒情绪,也提升了公众对国内这一内容类别的期待。
步骤四、若所述情绪类别的情绪强度信息中包括所述第七信息中的平均值,针对每个所述阶段,基于各所述情绪类别的情绪强度信息中的所述第七信息中的平均值,计算协方差矩阵,基于各所述情绪类别的情绪强度信息中的所述第七信息中的平均值以及所述协方差矩阵,根据无向图模型,生成无向图,所述无向图用于表征各所述情绪类别之间的情绪相关性。
其中的无向图模型,可以为基于近邻选择法的space方法、内点优化法等,基于图LASSO方法的聚类图LASSO、贝叶斯自适应图LASSO、联合图LASSO等)。在无向图模型中,估计各所述情绪类别之间的情绪相关性时,选择惩罚因子这一超参数时可采用基于均方误差等指标的交叉验证的方式。
图是由若干个顶点和边相互连接组成的。边由两个顶点连接,并没有方向的图则为无向图。无向图可以包括稀疏图和稠密图。稀疏图为有很少边的图。稠密图则为有很多边的图。
本实施例中的生成的无向图的边较少,因此,生成的为稀疏图。
如图6a、图6b和图6c所示,可视化展示发作期(如1月20日至2月18日)、遏制期(如2月19日至3月31日)和恢复期(如4月1日至6月10日)各阶段的情绪相关性网络图,其中,顶点表示日均情绪强度(即第七信息中的平均值),其中,N1、N2、N3和N4示意的边表示负相关,其它边表示正相关,边的粗细表示两种情绪的相关性强弱。
本实施例中,生成的箱线图、折线图和无向图可以对情绪进行更加详细地体现。
基于上述任一实施例,上述方法还可以包括:将生成的第一箱线图、第二箱线图、折线图和无向图进行融合。具体的,将第一箱线图、第二箱线图、折线图和无向图放到一张图中。如此,可以一同进行可视化展示。
基于上述任一实施例,上述方法还可以包括:
针对每个情绪类别,基于各所述内容类别在所述情绪类别的情绪强度值,确定所述情绪类别的情绪强度值最大的所述内容类别和最小的所述内容类别。如此,进一步增加了情绪的可解释性。
实际应用中,社交媒体信息传播的透明性、即时性和广泛性为基于信息更新的风险沟通提供了适时的发展机遇,逐步成为风险沟通的重要渠道。社交媒体时代的信息传播已经突破了传统时空的局限,借助社交媒体的社交环境透明化各种信息,双向化交流平台,在突发公共事件发生的第一时间了解公众想法,结合公众的行为给予快速回馈和处理,采取理性讨论交流的方式才能更好地提升风险管理者与公众间的信任,有效提升应急管理效率。由社交媒体的信息诱发的公众行为变化会显著地影响公共事件的发展,公众的健康决策也与情绪息息相关。因此,在突发公共事件背景下,特别是面向社交媒体环境时如何更深入地理解公众情绪,并根据公众反馈优化风险沟通内容,是应急管理协调工作中亟待解决的问题。
传统的情绪研究主要从心理学量表及社会学调研出发研究风险沟通的策略以及公众情绪及其对决策的影响,曾有一些建模的尝试,但是其假设依据主要来源于实证研究中的定性结论。
本发明实施例中,同时包含复杂情绪与认知情感(例如期待和信任等认知类的情绪)表达在内的多维情绪框架,基于特定语料的情绪词典,应用具有较强解释性的回归分析建模方式来理解和评估公众在突发公共事件下情绪表达的特点与强度差异,以及事件随时间演化的各阶段下各内容类别的发布信息对情绪边际的调节的影响。
具体的,本发明实施例主要涉及决策分析、自然语言处理和统计分析领域。以突发公共事件下社交媒体的发布信息和公众的评论信息等大量文本数据作为输入,通过自然语言处理、降维和聚类分析、关联分析、回归分析等机器学习和统计方法,构建平台上所发布信息的内容分类空间,定性识别公众在评论文本中所表达情绪的类别特点,定量评估公众情绪的强度差异,挖掘内容对情绪的影响效应,并使用图表实现以上内容的可视化展示。在此基础上,结合突发公共事件随时间演化的各个阶段,以各阶段内公众情绪强度的均值为情绪基线,挖掘各类内容所诱发情绪相对于情绪基线的边际调节效应,并实现内容和情绪时序演化的可视化展示。进一步地,基于无向图模型估计方法描述不同灾害阶段下情绪的时序相关性并进行可视化展示。
另外,通过自动识别社交媒体中的发布信息所诱发的公众情绪,挖掘出情绪类别、情绪强度和情绪相关关系,确认影响公众情绪的内容类别和边际调节程度,可以为风险沟通的策略设计提供帮助。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行公共事件下的情绪挖掘方法,该方法包括:获取目标公共事件对应的各发布信息和所述发布信息的各评论信息;针对每条所述发布信息,确定所述发布信息所属的内容类别;针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,确定所述内容类别在每个情绪类别的情绪强度信息。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的公共事件下的情绪挖掘方法,该方法包括:获取目标公共事件对应的各发布信息和所述发布信息的各评论信息;针对每条所述发布信息,确定所述发布信息所属的内容类别;针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,确定所述内容类别在每个情绪类别的情绪强度信息。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的公共事件下的情绪挖掘方法,该方法包括:获取目标公共事件对应的各发布信息和所述发布信息的各评论信息;针对每条所述发布信息,确定所述发布信息所属的内容类别;针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,确定所述内容类别在每个情绪类别的情绪强度信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (15)

1.一种公共事件下的情绪挖掘方法,其特征在于,包括:
获取目标公共事件对应的各发布信息和所述发布信息的各评论信息;
针对每条所述发布信息,确定所述发布信息所属的内容类别;
针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,确定所述内容类别在每个情绪类别的情绪强度信息。
2.根据权利要求1所述的公共事件下的情绪挖掘方法,其特征在于,所述针对每条所述发布信息,确定所述发布信息所属的内容类别,包括:
将所有所述发布信息,输入至分词工具,得到所述分词工具输出的第一分词结果;
获取对所述第一分词结果进行转换得到的词向量空间;
获取降维后的所述词向量空间中的各词向量经软聚类后,每个词向量属于各所述内容类别的概率;
针对每条所述发布信息,从降维后的所述词向量空间中获取所述发布信息对应的各词向量,基于所述发布信息对应的各词向量属于各所述内容类别的概率,确定所述发布信息所属的所述内容类别。
3.根据权利要求2所述的公共事件下的情绪挖掘方法,其特征在于,所述基于所述发布信息对应的各词向量属于各所述内容类别的概率,确定所述发布信息所属的所述内容类别,包括:
针对每个所述内容类别,对所述发布信息对应的各词向量属于所述内容类别的概率求平均值;将平均值最高的所述内容类别,确定为所述发布信息所属的所述内容类别;
或者,
对所述发布信息对应的各词向量进行聚类,基于所包括的词向量数量最多的聚类类别,针对每个所述内容类别,对所述聚类类别中的各词向量属于所述内容类别的概率求平均值,将平均值最高的所述内容类别,确定为所述发布信息所属的所述内容类别。
4.根据权利要求2所述的公共事件下的情绪挖掘方法,其特征在于,在所述获取对所述第一分词结果进行转换得到的词向量空间之前,还包括:
获取表示学习模型所使用的超参数的不同取值;
针对所述超参数的每个取值,基于所述取值对应的所述表示学习模型,分别对所述第一分词结果进行转换,得到词向量空间;
基于用户的第一输入,选择满足需求的所述取值对应的所述表示学习模型得到的词向量空间。
5.根据权利要求2所述的公共事件下的情绪挖掘方法,其特征在于,在所述获取降维后的所述词向量空间中的各词向量经软聚类后,每个词向量属于各所述内容类别的概率之前,还包括:
获取预设的多个聚类个数;
针对每个所述聚类个数,对降维后的所述词向量空间中的各词向量按照所述聚类个数进行软聚类,得到每个词向量属于各所述内容类别的概率以及所述软聚类的结果评价指标;
基于用户的第二输入,选择满足需求的聚类个数所对应的每个词向量属于各所述内容类别的概率。
6.根据权利要求5所述的公共事件下的情绪挖掘方法,其特征在于,在所述对降维后的所述词向量空间中的各词向量按照所述聚类个数进行软聚类之前,还包括:
基于主成分分析,对所述词向量空间中的各词向量进行主成分降维,其中,降维后的维数是基于用户的第三输入确定的。
7.根据权利要求1至6任一项所述的公共事件下的情绪挖掘方法,其特征在于,所述针对每个所述内容类别,基于所述内容类别下的各所述发布信息的各所述评论信息,确定所述内容类别在每个情绪类别的情绪强度信息,包括:
将所有所述评论信息,输入分词工具,得到所述分词工具输出的第二分词结果;
针对每个所述内容类别,在所述内容类别下,针对每条所述评论信息,从所述第二分词结果中获取所述评论信息包含的分词,将所述评论信息包含的分词与预先构建的情绪词典中的词进行对比,基于对比结果确定所评论信息包含的分词中存在于所述情绪词典中的分词,针对每个所述情绪类别对应的情绪判别模型,将所评论信息包含的所述存在于所述情绪词典中的分词,输入至所述情绪类别对应的情绪判别模型,得到所述情绪类别对应的情绪判别模型输出的所述评论信息在所述情绪类别的情绪强度值,基于所述内容类别下的所有所述评论信息在每个所述情绪类别的情绪强度值,确定所述内容类别在每个所述情绪类别的情绪强度信息;
其中,所述情绪判别模型是基于所述情绪词典和所述情绪词典中的每个词在所述情绪类别的情绪强度值标签训练得到的。
8.根据权利要求7所述的公共事件下的情绪挖掘方法,其特征在于,所述情绪词典是通过如下方式构建的:
获取各评论信息样本,所述评论信息样本中标记有所述评论信息样本在每个所述情绪类别的情绪强度值,将所述评论信息样本在每个所述情绪类别的情绪强度值,作为所述评论信息样本中的分词在每个所述情绪类别的情绪强度值;在每个所述情绪类别下,基于各所述评论信息样本中的分词在所述情绪类别的情绪强度值,确定同一分词在所述情绪类别的情绪强度值的总和,基于所述情绪类别的情绪强度值的总和最大的预设百分比的分词,得到所述情绪类别的情绪特征词集合;
基于各所述评论信息样本的分词中,词频最高的预设数量的分词,得到高频词集合;
基于各所述评论信息样本的分词,确定至少一个组合词,基于所述至少一个组合词,得到组合词集合,所述组合词包括基于关联分析算法得到的存在关联关系的至少两个分词;
基于各所述情绪类别的情绪特征词集合、所述高频词集合和所述组合词集合,得到所述情绪词典。
9.根据权利要求8所述的公共事件下的情绪挖掘方法,其特征在于,所述分词工具的分词词库中补充有所述目标公共事件对应的专有新词和/或社交媒体中的口语化的特征词,以使所述分词工具能够输出所述专有新词和/或所述口语化的特征词。
10.根据权利要求8所述的公共事件下的情绪挖掘方法,其特征在于,所述内容类别在所述情绪类别的情绪强度信息包括以下至少一种信息:
第一信息,包括所述内容类别在所述情绪类别的情绪强度值,所述内容类别在所述情绪类别的情绪强度值为所述内容类别下的所有所述评论信息在所述情绪类别的情绪强度值的总和;
第二信息,包括所述内容类别在所述情绪类别的情绪强度值与所述内容类别在各所述情绪类别的情绪强度值的总和的百分比;
第三信息,包括所述内容类别的各所述发布信息在所述情绪类别的情绪强度值的平均值、中位数、上四分位数、下四分位数、最大值和最小值中的至少一种;其中,所述发布信息在所述情绪类别的情绪强度值为所述发布信息的所有所述评论信息在所述情绪类别的情绪强度值的总和;
第四信息,包括在所述目标公共事件随时间演化的每个阶段,所述内容类别在所述阶段内的所述情绪类别的情绪强度值;其中,所述内容类别在所述阶段内的所述情绪类别的情绪强度值为所述内容类别在所述阶段内的各所述发布信息在所述情绪类别的情绪强度值的总和;
第五信息,包括在所述目标公共事件随时间演化的每个阶段,所述内容类别在所述阶段内的各所述发布信息在所述情绪类别的情绪强度值的平均值、中位数、上四分位数、下四分位数、最大值和最小值中的至少一种;
第六信息,包括在所述目标公共事件随时间演化的每个阶段,所述内容类别在所述阶段内的每个预设单位时长的所述情绪类别的情绪强度值;所述内容类别在所述阶段内的预设单位时长的所述情绪类别的情绪强度值为所述内容类别在所述阶段内的预设单位时长内的各所述发布信息在所述情绪类别的情绪强度值的总和;
第七信息,包括在所述目标公共事件随时间演化的每个阶段,所述内容类别在所述阶段内的各预设单位时长的所述情绪类别的情绪强度值的平均值、中位数、上四分位数、下四分位数、最大值和最小值中的至少一种;
第八信息,包括在所述目标公共事件随时间演化的每个阶段,所述内容类别在所述阶段内的各预设单位时长的单条所述发布信息在所述情绪类别的情绪强度值的平均值、中位数、上四分位数、下四分位数、最大值和最小值中的至少一种,所述阶段内的所述预设单位时长的单条所述发布信息在所述情绪类别的情绪强度值为所述阶段内的所述预设单位时长内的各所述发布信息在所述情绪类别的情绪强度值的平均值。
11.根据权利要求10所述的公共事件下的情绪挖掘方法,其特征在于,还包括:
基于所述内容类别在每个所述情绪类别的情绪强度信息,生成可视化的图表。
12.根据权利要求11所述的公共事件下的情绪挖掘方法,其特征在于,所述基于所述内容类别在每个所述情绪类别的情绪强度信息,生成可视化的图表,包括:
若所述情绪类别的情绪强度信息中包括所述第七信息中的中位数、上四分位数、下四分位数、最大值和最小值,基于所述内容类别在各所述情绪类别的情绪强度信息所包括的所述第七信息中的中位数、上四分位数、下四分位数、最大值和最小值,生成第一箱线图;
若所述情绪类别的情绪强度信息中包括所述第八信息中的中位数、上四分位数、下四分位数、最大值和最小值,基于所述内容类别在各所述情绪类别的情绪强度信息所包括的所述第八信息中的中位数、上四分位数、下四分位数、最大值和最小值,生成第二箱线图;
若所述情绪类别的情绪强度信息中包括所述第八信息中的平均值,针对每个所述情绪类别,在每个所述内容类别下,对所述第八信息中各所述阶段内的平均值求平均以作为基线情绪,确定所述第八信息中各所述阶段内的平均值与所述基线情绪的离均差,基于各所述离均差生成折线图;
若所述情绪类别的情绪强度信息中包括所述第七信息中的平均值,针对每个所述阶段,基于各所述情绪类别的情绪强度信息中的所述第七信息中的平均值,计算协方差矩阵,基于各所述情绪类别的情绪强度信息中的所述第七信息中的平均值以及所述协方差矩阵,根据无向图模型,生成无向图,所述无向图用于表征各所述情绪类别之间的情绪相关性。
13.根据权利要求10所述的公共事件下的情绪挖掘方法,其特征在于,还包括:
针对每个情绪类别,基于各所述内容类别在所述情绪类别的情绪强度值,确定所述情绪类别的情绪强度值最大的所述内容类别和最小的所述内容类别。
14.根据权利要求1所述的公共事件下的情绪挖掘方法,其特征在于,各所述情绪类别包括:期待、快乐、信任、惧怕、惊讶、悲伤、厌恶和愤怒。
15.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至14任一项所述公共事件下的情绪挖掘方法的步骤。
CN202111580392.XA 2021-12-22 2021-12-22 公共事件下的情绪挖掘方法及设备 Pending CN114490925A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111580392.XA CN114490925A (zh) 2021-12-22 2021-12-22 公共事件下的情绪挖掘方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111580392.XA CN114490925A (zh) 2021-12-22 2021-12-22 公共事件下的情绪挖掘方法及设备

Publications (1)

Publication Number Publication Date
CN114490925A true CN114490925A (zh) 2022-05-13

Family

ID=81494082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111580392.XA Pending CN114490925A (zh) 2021-12-22 2021-12-22 公共事件下的情绪挖掘方法及设备

Country Status (1)

Country Link
CN (1) CN114490925A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495572A (zh) * 2022-08-01 2022-12-20 广州大学 一种基于复合情绪分析的抑郁情绪辅助管理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495572A (zh) * 2022-08-01 2022-12-20 广州大学 一种基于复合情绪分析的抑郁情绪辅助管理方法
CN115495572B (zh) * 2022-08-01 2023-05-26 广州大学 一种基于复合情绪分析的抑郁情绪辅助管理方法

Similar Documents

Publication Publication Date Title
CN110993081A (zh) 一种医生在线推荐方法及系统
CN109271634B (zh) 一种基于用户情感倾向感知的微博文本情感极性分析方法
US20230027526A1 (en) Method and apparatus for classifying document based on attention mechanism and semantic analysis
Baron Influence of data discretization on efficiency of Bayesian classifier for authorship attribution
Solomon et al. Understanding the psycho-sociological facets of homophily in social network communities
Chakraborty et al. TCS-ILAB-MediaEval 2015: Affective Impact of Movies and Violent Scene Detection.
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
VVR et al. A plausible RNN-LSTM based profession recommendation system by predicting human personality types on social media forums
Mahdin et al. Sentiment analysis on covid-19 vaccine tweets using machine learning and deep learning algorithms
CN112200674B (zh) 一种证券市场情绪指数智能计算信息系统
CN114490925A (zh) 公共事件下的情绪挖掘方法及设备
CN110263344B (zh) 一种基于混合模型的文本情感分析方法、装置和设备
Kumar et al. AI-based hybrid models for predicting loan risk in the banking sector
US11620320B1 (en) Document summarization through iterative filtering of unstructured text data of documents
CN113011689A (zh) 软件开发工作量的评估方法、装置及计算设备
US11675823B2 (en) Sentiment analysis for aspect terms extracted from documents having unstructured text data
Kuang et al. Class-specific word embedding through linear compositionality
Bisikalo et al. System of computational linguistic on base of the figurative text comprehension
Thangarasu et al. Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification
Wen et al. Blockchain-based reviewer selection
Kollu et al. Social and Movie Video Data Analysis for Representing Sentiments based on ML Approaches
Cannone et al. An empirical study on interpretability indexes through multi-objective evolutionary algorithms
Hellwig et al. NLP for product safety risk assessment: Towards consistency evaluations of human expert panels
Nayak et al. Feasibility Study of Machine Learning & AI Algorithms for Classifying Software Requirements
Muyama et al. Extracting Diagnosis Pathways from Electronic Health Records Using Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination