CN105095415B - 网络情绪的确定方法和装置 - Google Patents
网络情绪的确定方法和装置 Download PDFInfo
- Publication number
- CN105095415B CN105095415B CN201510406232.1A CN201510406232A CN105095415B CN 105095415 B CN105095415 B CN 105095415B CN 201510406232 A CN201510406232 A CN 201510406232A CN 105095415 B CN105095415 B CN 105095415B
- Authority
- CN
- China
- Prior art keywords
- mood
- information
- network
- network information
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种网络情绪的确定方法和装置。其中,该方法包括:获取目标事件的关键词;获取与关键词关联的网络信息;利用预先建立的分类模型确定网络信息对应的网络情绪,其中,分类模型为根据预设的网络情绪类型训练得到的训练集,预设的网络情绪类型包括第一情绪、第二情绪、第三情绪、第四情绪和第五情绪;根据第一情绪、第二情绪、第三情绪、第四情绪和第五情绪中每一种情绪对应的网络信息的条数和网络信息所赋予的权重分别计算每一种情绪的量化值。本发明解决了由于对网络情绪的分类比较单一造成的无法准确地反映网络情绪的技术问题。
Description
技术领域
本发明涉及互联网领域,具体而言,涉及一种网络情绪的确定方法和装置。
背景技术
随着互联网的普及,互联网的使用已经深入到人们生活的每一个细节中。目前,大部分网络用户会在网络上发布一些网络消息来表达自己的情绪,例如,对某个新闻事件的情绪或者用户自己在某个时刻的情绪等。对网络用户情绪的分析可以了解网络舆论对某个事件情绪的倾向性。然而,发明人发现,现有的方案对网络情绪的分类比较单一,无法准确地反映网络情绪。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网络情绪的确定方法和装置,以至少解决由于对网络情绪的分类比较单一造成的无法准确地反映网络情绪的技术问题。
根据本发明实施例的一个方面,提供了一种网络情绪的确定方法,包括:获取目标事件的关键词;获取与所述关键词关联的网络信息;利用预先建立的分类模型确定所述网络信息对应的网络情绪,其中,所述分类模型为根据预设的网络情绪类型训练得到的训练集,所述预设的网络情绪类型包括第一情绪、第二情绪、第三情绪、第四情绪和第五情绪;根据所述第一情绪、所述第二情绪、所述第三情绪、所述第四情绪和所述第五情绪中每一种情绪对应的网络信息的条数和所述网络信息所赋予的权重分别计算每一种情绪的量化值,所述量化值用于表示与其相应的情绪表现的程度。
进一步地,在利用预先建立的分类模型确定所述网络信息对应的网络情绪之前,所述方法还包括:获取用于建立所述分类模型的网络信息;提取所述用于建立所述分类模型的网络信息中用于表达情感的关键词;按照所述预设的网络情绪类型对所述用于表达情感的关键词进行训练,得到所述分类模型。
进一步地,在获取用于建立所述分类模型的网络信息之后,以及提取所述用于建立所述分类模型的网络信息中的用于表达情感的关键词之前,所述方法还包括:判断所述网络信息是否为可识别的文本信息;如果判断出所述网络信息不是可识别的文本信息,则将所述网络信息转化为所述可识别的文本信息,对转化后的所述可识别的文本信息进行分词;如果判断出所述网络信息是可识别的文本信息,则直接对所述网络信息进行分词。
进一步地,如果判断出所述网络信息不是可识别的文本信息,则将所述网络信息转化为所述可识别的文本信息包括:如果所述网络信息为音频信息,则利用语音识别将所述音频信息转化为所述可识别的文本信息;如果所述网络信息为视频信息,则从所述视频信息中提取音频信息,利用语音识别将提取的音频信息转化为所述可识别的文本信息。
进一步地,在利用预先建立的分类模型确定所述网络信息对应的网络情绪之后,所述方法还包括:获取所述网络信息发布时的位置信息;基于所述位置信息确定所述网络信息所在的地区;根据所述网络信息对应的网络情绪确定各地区的网络情绪。
进一步地,所述第一情绪为愤怒,所述第二情绪为厌恶,所述第三情绪为高兴,所述第四情绪为悲伤,所述第五情绪为恐惧。
根据本发明实施例的另一方面,还提供了一种网络情绪的确定装置,包括:第一获取单元,用于获取目标事件的关键词;第二获取单元,用于获取与所述关键词关联的网络信息;第一确定单元,用于利用预先建立的分类模型确定所述网络信息对应的网络情绪,其中,所述分类模型为根据预设的网络情绪类型训练得到的训练集,所述预设的网络情绪类型包括第一情绪、第二情绪、第三情绪、第四情绪和第五情绪;计算单元,用于根据所述第一情绪、所述第二情绪、所述第三情绪、所述第四情绪和所述第五情绪中每一种情绪对应的网络信息的条数和所述网络信息所赋予的权重分别计算每一种情绪的量化值,所述量化值用于表示与其相应的情绪表现的程度。
进一步地,所述装置还包括:第三获取单元,用于在利用预先建立的分类模型确定所述网络信息对应的网络情绪之前,获取用于建立所述分类模型的网络信息;提取单元,用于提取所述用于建立所述分类模型的网络信息中用于表达情感的关键词;训练单元,用于按照所述预设的网络情绪类型对所述用于表达情感的关键词进行训练,得到所述分类模型。
进一步地,所述装置还包括:判断单元,用于在获取用于建立所述分类模型的网络信息之后,以及提取所述用于建立所述分类模型的网络信息中的用于表达情感的关键词之前,判断所述网络信息是否为可识别的文本信息;分词单元,用于如果判断出所述网络信息不是可识别的文本信息,则将所述网络信息转化为所述可识别的文本信息,对转化后的所述可识别的文本信息进行分词;如果判断出所述网络信息是可识别的文本信息,则直接对所述网络信息进行分词。
进一步地,所述分词单元包括:第一转化模块,用于如果所述网络信息为音频信息,则利用语音识别将所述音频信息转化为所述可识别的文本信息;第二转化模块,用于如果所述网络信息为视频信息,则从所述视频信息中提取音频信息,利用语音识别将提取的音频信息转化为所述可识别的文本信息。
进一步地,所述装置还包括:第四获取单元,用于在利用预先建立的分类模型确定所述网络信息对应的网络情绪之后,获取所述网络信息发布时的位置信息;第二确定单元,用于基于所述位置信息确定所述网络信息所在的地区;第三确定单元,用于根据所述网络信息对应的网络情绪确定各地区的网络情绪。
在本发明实施例中,通过获取目标事件的关键词,获取与该关键词关联的网络信息,利用预先建立的分类模型确定网络信息对应的网络情绪,根据第一情绪、第二情绪、第三情绪、第四情绪和第五情绪中每一种情绪对应的网络信息的条数和网络信息所赋予的权重分别计算每一种情绪的量化值,由于经过训练得到的分类模型可以识别出网络信息中所包含的网络情绪包括多种,识别出的网络情绪更加多样化,从而解决了由于对网络情绪的分类比较单一造成的无法准确地反映网络情绪的问题,从而准确地反映出用户对目标事件的网络情绪。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网络情绪的确定方法的流程图;
图2是根据本发明实施例的网络情绪的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种网络情绪的确定方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的网络情绪的确定方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标事件的关键词。
步骤S104,获取与关键词关联的网络信息。
步骤S106,利用预先建立的分类模型确定网络信息对应的网络情绪,其中,分类模型为根据预设的网络情绪类型训练得到的训练集,预设的网络情绪类型包括第一情绪、第二情绪、第三情绪、第四情绪和第五情绪。
步骤S108,根据第一情绪、第二情绪、第三情绪、第四情绪和第五情绪中每一种情绪对应的网络信息的条数和网络信息所赋予的权重分别计算每一种情绪的量化值。量化值用于表示与其相应的情绪表现的程度。
以每种情绪的网络信息的条数和网络信息所赋予的权重为基础,来计算相应的网络情绪对所有情绪的量化值。其中,量化值可以表示与其对应的网络情绪的表现的程度,该值越大,其对应的网络情绪越强烈;网络信息所赋予的权重则表示网络信息对网络情绪的量化值的影响力,如果网络信息的权重越大,该网络信息对其相应的网络情绪的影响越大。
本发明实施例中,按照预先设定的网络情绪类型(包括第一情绪、第二情绪、第三情绪、第四情绪和第五情绪)进行训练,得到训练模型,通过该训练模型可以识别用户发布的网络信息中所包含的网络情绪,也即是网络信息对应的网络情绪,从而确定用户的情绪是第一情绪,或者第二情绪,或者第三情绪,或者第四情绪,或者第五情绪。
通过获取目标事件的关键词,获取与该关键词关联的网络信息,利用预先建立的分类模型确定网络信息对应的网络情绪,根据第一情绪、第二情绪、第三情绪、第四情绪和第五情绪中每一种情绪对应的网络信息的条数和赋予的权重分别计算每一种情绪的量化值,由于经过训练得到的分类模型可以识别出网络信息中所包含的网络情绪包括多种,从而解决了由于对网络情绪的分类比较单一造成的无法准确地反映网络情绪的问题,识别出的网络情绪更加多样化,从而准确地反映出用户对目标事件的网络情绪。进一步地,对各类型的情绪的量化值进行计算,可以得到网络上对目标事件的情绪的倾向性。
优选地,上述第一情绪、第二情绪、第三情绪、第四情绪和第五情绪可以依次为愤怒、厌恶、高兴、悲伤和恐惧。
优选地,可以根据每条网络信息的来源确定其权值,再使用计算模型来计算得到每种情绪的量化值。其中,不同来源的网络信息计算时,由于其权重不同,相应的权值不同,例如,来自网络媒体的网络信息的权重会比来自个人的网络信息的权重要高,不同来源的权值可以在训练过程中确定,从而可以在计算时由训练模型来确定每一条网络信息的权值。
例如,对于指定时间段内的,目标时间相关的网络信息,先用分类模型对其做情绪分析,确定每条信息对应的网络情绪,然后按照如下公式计算得到各情绪的量化值:
Z=a0*b0+ a1*b1+ a2*b2+ a2*b2+ a3*b3……
其中,Z表示量化值,a0、a1、a2、a3等表示相应来源的网络信息条数,b0、b1、b2、b3等表示不同来源的权值。
以“愤怒”的情绪为例,可以先按信息来源进行统计。比如:官方媒体100条,微博大V 200条,普通网民300条。再从分类模型里,读出每种来源的权重数据。比如:官方媒体0.8,微博大V 0.5,普通网民0.2。然后,对于上述的信息,进行加权汇总。“愤怒”情绪的量化值为:100*0.8+200*0.5+300*0.2=240。其他的情绪可以采用上述相同的方式,计算得到量化值。最终得到的是在指定时间段内,对该时间的各种情绪量化值,比如:愤怒240,厌恶200,高兴100,悲伤50,恐惧300。
需要说明的是,本发明实施例中的情绪还可以包括第六情绪和/或第七情绪等。另外,再计算每一种情绪的量化值时,也可以认为所有网络信息的权值都为1,那么每一种情绪的量化值则可以是该情绪对应的网络信息的条数。上述示例仅仅是为了描述本发明实施例的技术原理,并不对本发明有不当限定。
优选地,本发明实施例中,还可以结合地区、性别、认证身份等指标计算得到相应的量化值,这样,可以通过这些指标来对网络情绪进行分析。
优选地,本发明实施例中的网络信息可以是用户在网络上发布的博客、微博、朋友圈消息、应用社区消息(如QQ空间)、论坛上的帖子、评论等等。网络信息可以通过网络爬虫、自动脚本、手工输入等方式获取。网络信息的具体形式可以是文本信息,也可以是音频信息,还可以是视频信息等。
本发明实施例中,用户发布的网络信息可以是针对用户当前时刻的情绪的,也可以是针对某个事件、某个事物的情绪。因此,本发明实施例的方案可以用于网络中对目标事件或者事物的网络情绪,具体可以获取与目标事件或者事物相关的网络信息,利用分类模型对获取到的网络信息进行识别,确定出该网络信息对应的网络情绪,从而可以统计出网络用户对目标事件或者事物的各种不同的情绪。
优选地,在利用预先建立的分类模型确定网络信息对应的网络情绪之前,方法还包括:获取用于建立分类模型的网络信息;提取用于建立分类模型的网络信息中用于表达情感的关键词;按照预设的网络情绪类型对用于表达情感的关键词进行训练,得到分类模型。
用于建立分类模型的网络信息可以通过网络爬虫、自动脚本、手工输入等方式获取,由于该网络信息用于建立分类模型,因此,获取的该网络信息的数据量相对较大,以便于训练出识别准确性较高的分类模型。
在获取到大量的网络信息之后,从该网络信息中提取用于表达情感的关键词,或者关键信息,例如“哈哈”,“哎”,“难过”等等,然后按照预设的网路情绪分类(包括愤怒、厌恶、高兴、悲伤和恐惧)对关键词进行训练,得到上述分类模型。在得到分类模型之后,可以利用该分类模型对新输入的网络信息进行情绪识别或者分类。
优选地,在获取用于建立分类模型的网络信息之后,以及提取用于建立分类模型的网络信息中的用于表达情感的关键词之前,方法还包括:判断网络信息是否为可识别的文本信息;如果判断出网络信息不是可识别的文本信息,则将网络信息转化为可识别的文本信息,对转化后的可识别的文本信息进行分词;如果判断出网络信息是可识别的文本信息,则直接对网络信息进行分词。
本实施例中,由于获取到的网络信息可以是多种形式的信息(包括文本信息、音频信息、视频信息),而通常关键词的提取是从可识别的文本信息中提取,因此,在获取到用于建立分类模型的网络信息之后,以及提取用于建立分类模型的网络信息中的用于表达情感的关键词之前,可以先判断获取到的网络信息是否为可识别的文本信息,如果是,则可以直接对该网络信息进行分词,以便于从中提取关键词;如果否,则将该网络信息转化为可识别的文本信息,再进行分词,以便于从转化后的文本信息中提取关键词。
需要说明的是,本发明实施例中,在得到分类模型之后,对新输入的网络信息进行分类或者识别时,也可以先判断该网络信息是否为可识别的文本信息,以便于快速确定网络信息对应的网络情绪。
进一步地,如果判断出网络信息不是可识别的文本信息,则将网络信息转化为可识别的文本信息包括:如果网络信息为音频信息,则利用语音识别将音频信息转化为可识别的文本信息;如果网络信息为视频信息,则从视频信息中提取音频信息,利用语音识别将提取的音频信息转化为可识别的文本信息。
本实施例中,对于音频信息,可以识别语音识别技术,将语音信息转化为文本信息再从文本信息中提取关键词;对于视频信息,则可以先提取出该视频信息中的音频信息,再采用针对音频信息的转化方式进行处理。
需要说明的是,本发明实施例中,各种网络信息可以是采用各种语言的信息,例如,中文、英文、日文等等,对于不同的语言,可以转化为相同的可识别的文本信息。
优选地,在利用预先建立的分类模型确定网络信息对应的网络情绪之后,方法还包括:获取网络信息发布时的位置信息;基于位置信息确定网络信息所在的地区;根据网络信息对应的网络情绪确定各地区的网络情绪。
由于用户发布的网络信息中通常都会携带有其所在的位置信息,获取该位置信息,并确定其所在的地区,该地区可以是以省、市等为单位划分的行政区域,然后根据确定出的网络信息对应的网络情绪来确定各地区的网络情绪。优选地,如果在某个地区的网络情绪包括上述网络情绪(包括愤怒、厌恶、高兴、悲伤和恐惧)中的多种,可以将所占比重最大的情绪作为该地区的网络情绪。
例如,对于某一条购房政策,全国各地区的人们会存在不同的情绪,将每个地区的主导情绪作为该地区的情绪,从而可以确定出各地区对该条政策的倾向性情绪。
本发明实施例中,对于与关键词关联的网络信息,可以利用网络信息与目标事件的关联度来确定,具体可以计算网络信息与目标事件的关键词的关联度,其关联度超过预设阈值,则确定该网络信息为与关键词关联的网络信息。
例如,“钓鱼岛事件”,以“钓鱼岛”为关键词,获取相关联的网络信息,“岛屿主权纠纷”等类似信息与其关联度较高,可以作为与该关键词关联的网络信息。
本发明实施例还提供了一种网络情绪的确定装置,该装置可以用于执行本发明实施例的网络情绪的确定方法。如图2所示,该网络情绪的确定装置包括:第一获取单元10和第一确定单元20、第一确定单元30和计算单元40。
第一获取单元10用于获取目标事件的关键词。
第二获取单元20用于获取与关键词关联的网络信息。
第一确定单元30用于利用预先建立的分类模型确定网络信息对应的网络情绪,其中,分类模型为根据预设的网络情绪类型训练得到的训练集,预设的网络情绪类型包括第一情绪、第二情绪、第三情绪、第四情绪和第五情绪。
计算单元40用于根据第一情绪、第二情绪、第三情绪、第四情绪和第五情绪中每一种情绪对应的网络信息的条数和网络信息所赋予的权重分别计算每一种情绪的量化值。量化值用于表示与其相应的情绪表现的程度。
以每种情绪的网络信息的条数和网络信息所赋予的权重为基础,来计算相应的网络情绪对所有情绪的量化值。其中,量化值可以表示与其对应的网络情绪的表现的程度,该值越大,其对应的网络情绪越强烈;网络信息所赋予的权重则表示网络信息对网络情绪的量化值的影响力,如果网络信息的权重越大,该网络信息对其相应的网络情绪的影响越大。
本发明实施例中,按照预先设定的网络情绪类型(包括第一情绪、第二情绪、第三情绪、第四情绪和第五情绪)进行训练,得到训练模型,通过该训练模型可以识别用户发布的网络信息中所包含的网络情绪,也即是网络信息对应的网络情绪,从而确定用户的情绪是第一情绪,或者第二情绪,或者第三情绪,或者第四情绪,或者第五情绪。
通过获取目标事件的关键词,获取与该关键词关联的网络信息,利用预先建立的分类模型确定网络信息对应的网络情绪,由于经过训练得到的分类模型可以识别出网络信息中所包含的网络情绪包括多种,从而解决了由于对网络情绪的分类比较单一造成的无法准确地反映网络情绪,识别出的网络情绪更加多样化,从而准确地反映出用户对目标事件的网络情绪的问题。进一步地,对各类型的情绪的量化值进行计算,可以得到网络上对目标事件的情绪的倾向性。
优选地,上述第一情绪、第二情绪、第三情绪、第四情绪和第五情绪可以依次为愤怒、厌恶、高兴、悲伤和恐惧。
优选地,可以根据每条网络信息的来源确定其权值,再使用计算模型来计算得到每种情绪的量化值。其中,不同来源的网络信息计算时,由于其权重不同,相应的权值不同,例如,来自网络媒体的网络信息的权重会比来自个人的网络信息的权重要高,不同来源的权值可以在训练过程中确定,从而可以在计算时由训练模型来确定每一条网络信息的权值。
例如,对于指定时间段内的,目标时间相关的网络信息,先用分类模型对其做情绪分析,确定每条信息对应的网络情绪,然后按照如下公式计算得到各情绪的量化值:
Z=a0*b0+ a1*b1+ a2*b2+ a2*b2+ a3*b3……
其中,Z表示量化值,a0、a1、a2、a3等表示相应来源的网络信息条数,b0、b1、b2、b3等表示不同来源的权值。
以“愤怒”的情绪为例,可以先按信息来源进行统计。比如:官方媒体100条,微博大V 200条,普通网民300条。再从分类模型里,读出每种来源的权重数据。比如:官方媒体0.8,微博大V 0.5,普通网民0.2。然后,对于上述的信息,进行加权汇总。“愤怒”情绪的量化值为:100*0.8+200*0.5+300*0.2=240。其他的情绪可以采用上述相同的方式,计算得到量化值。最终得到的是在指定时间段内,对该时间的各种情绪量化值,比如:愤怒240,厌恶200,高兴100,悲伤50,恐惧300。
需要说明的是,本发明实施例中的情绪还可以包括第六情绪和/或第七情绪等。另外,再计算每一种情绪的量化值时,也可以认为所有网络信息的权值都为1,那么每一种情绪的量化值则可以是该情绪对应的网络信息的条数。上述示例仅仅是为了描述本发明实施例的技术原理,并不对本发明有不当限定。
优选地,本发明实施例中,还可以结合地区、性别、认证身份等指标计算得到相应的量化值,这样,可以通过这些指标来对网络情绪进行分析。
优选地,本发明实施例中的网络信息可以是用户在网络上发布的博客、微博、朋友圈消息、应用社区消息(如QQ空间)、论坛上的帖子、评论等等。网络信息可以通过网络爬虫、自动脚本、手工输入等方式获取。网络信息的具体形式可以是文本信息,也可以是音频信息,还可以是视频信息等。
本发明实施例中,用户发布的网络信息可以是针对用户当前时刻的情绪的,也可以是针对某个事件、某个事物的情绪。因此,本发明实施例的方案可以用于网络中对目标事件或者事物的网络情绪,具体可以获取与目标事件或者事物相关的网络信息,利用分类模型对获取到的网络信息进行识别,确定出该网络信息对应的网络情绪,从而可以统计出网络用户对目标事件或者事物的各种不同的情绪。
优选地,装置还包括:第三获取单元,用于在利用预先建立的分类模型确定网络信息对应的网络情绪之前,获取用于建立分类模型的网络信息;提取单元,用于提取用于建立分类模型的网络信息中用于表达情感的关键词;训练单元,用于按照预设的网络情绪类型对用于表达情感的关键词进行训练,得到分类模型。
用于建立分类模型的网络信息可以通过网络爬虫、自动脚本、手工输入等方式获取,由于该网络信息用于建立分类模型,因此,获取的该网络信息的数据量相对较大,以便于训练出识别准确性较高的分类模型。
在获取到大量的网络信息之后,从该网络信息中提取用于表达情感的关键词,或者关键信息,例如“哈哈”,“哎”,“难过”等等,然后按照预设的网路情绪分类(包括愤怒、厌恶、高兴、悲伤和恐惧)对关键词进行训练,得到上述分类模型。在得到分类模型之后,可以利用该分类模型对新输入的网络信息进行情绪识别或者分类。
优选地,装置还包括:判断单元,用于在获取用于建立分类模型的网络信息之后,以及提取用于建立分类模型的网络信息中的用于表达情感的关键词之前,判断网络信息是否为可识别的文本信息;分词单元,用于如果判断出网络信息不是可识别的文本信息,则将网络信息转化为可识别的文本信息,对转化后的可识别的文本信息进行分词;如果判断出网络信息是可识别的文本信息,则直接对网络信息进行分词。
本实施例中,由于获取到的网络信息可以是多种形式的信息(包括文本信息、音频信息、视频信息),而通常关键词的提取是从可识别的文本信息中提取,因此,在获取到用于建立分类模型的网络信息之后,以及提取用于建立分类模型的网络信息中的用于表达情感的关键词之前,可以先判断获取到的网络信息是否为可识别的文本信息,如果是,则可以直接对该网络信息进行分词,以便于从中提取关键词;如果否,则将该网络信息转化为可识别的文本信息,再进行分词,以便于从转化后的文本信息中提取关键词。
需要说明的是,本发明实施例中,在得到分类模型之后,对新输入的网络信息进行分类或者识别时,也可以先判断该网络信息是否为可识别的文本信息,以便于快速确定网络信息对应的网络情绪。
优选地,分词单元包括:第一转化模块,用于如果网络信息为音频信息,则利用语音识别将音频信息转化为可识别的文本信息;第二转化模块,用于如果网络信息为视频信息,则从视频信息中提取音频信息,利用语音识别将提取的音频信息转化为可识别的文本信息。
本实施例中,对于音频信息,可以识别语音识别技术,将语音信息转化为文本信息再从文本信息中提取关键词;对于视频信息,则可以先提取出该视频信息中的音频信息,再采用针对音频信息的转化方式进行处理。
需要说明的是,本发明实施例中,各种网络信息可以是采用各种语言的信息,例如,中文、英文、日文等等,对于不同的语言,可以转化为相同的可识别的文本信息。
优选地,装置还包括:第四获取单元,用于在利用预先建立的分类模型确定网络信息对应的网络情绪之后,获取网络信息发布时的位置信息;第二确定单元,用于基于位置信息确定网络信息所在的地区;第三确定单元,用于根据网络信息对应的网络情绪确定各地区的网络情绪。
由于用户发布的网络信息中通常都会携带有其所在的位置信息,获取该位置信息,并确定其所在的地区,该地区可以是以省、市等为单位划分的行政区域,然后根据确定出的网络信息对应的网络情绪来确定各地区的网络情绪。优选地,如果在某个地区的网络情绪包括上述网络情绪(包括愤怒、厌恶、高兴、悲伤和恐惧)中的多种,可以将所占比重最大的情绪作为该地区的网络情绪。
例如,对于某一条购房政策,全国各地区的人们会存在不同的情绪,将每个地区的主导情绪作为该地区的情绪,从而可以确定出各地区对该条政策的倾向性情绪。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种网络情绪的确定方法,其特征在于,包括:
获取目标事件的关键词;
获取与所述关键词关联的网络信息;
利用预先建立的分类模型确定所述网络信息对应的网络情绪,其中,所述分类模型为根据预设的网络情绪类型训练得到的训练集,所述预设的网络情绪类型包括第一情绪、第二情绪、第三情绪、第四情绪和第五情绪;
根据所述第一情绪、所述第二情绪、所述第三情绪、所述第四情绪和所述第五情绪中每一种情绪对应的网络信息的条数和所述网络信息所赋予的权重分别计算每一种情绪的量化值,所述量化值用于表示与其相应的情绪表现的程度,其中,所述权重根据所述网络信息的来源来确定;
其中,所述方法还包括:
获取所述网络信息发布时的位置信息;
基于所述位置信息确定所述网络信息所在的地区;
根据所述网络信息对应的网络情绪确定各地区的网络情绪;
其中,获取与所述关键词关联的网络信息包括:计算网络信息与所述目标事件的关键词的关联度;当网络信息与所述目标事件的关键词的关联度超过预设阈值,则确定该网络信息为与所述关键词关联的网络信息。
2.根据权利要求1所述的方法,其特征在于,在利用预先建立的分类模型确定所述网络信息对应的网络情绪之前,所述方法还包括:
获取用于建立所述分类模型的网络信息;
提取所述用于建立所述分类模型的网络信息中用于表达情感的关键词;
按照所述预设的网络情绪类型对所述用于表达情感的关键词进行训练,得到所述分类模型。
3.根据权利要求2所述的方法,其特征在于,在获取用于建立所述分类模型的网络信息之后,以及提取所述用于建立所述分类模型的网络信息中的用于表达情感的关键词之前,所述方法还包括:
判断所述网络信息是否为可识别的文本信息;
如果判断出所述网络信息不是可识别的文本信息,则将所述网络信息转化为所述可识别的文本信息,对转化后的所述可识别的文本信息进行分词;
如果判断出所述网络信息是可识别的文本信息,则直接对所述网络信息进行分词。
4.根据权利要求3所述的方法,其特征在于,如果判断出所述网络信息不是可识别的文本信息,则将所述网络信息转化为所述可识别的文本信息包括:
如果所述网络信息为音频信息,则利用语音识别将所述音频信息转化为所述可识别的文本信息;
如果所述网络信息为视频信息,则从所述视频信息中提取音频信息,利用语音识别将提取的音频信息转化为所述可识别的文本信息。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一情绪为愤怒,所述第二情绪为厌恶,所述第三情绪为高兴,所述第四情绪为悲伤,所述第五情绪为恐惧。
6.一种网络情绪的确定装置,其特征在于,包括:
第一获取单元,用于获取目标事件的关键词;
第二获取单元,用于获取与所述关键词关联的网络信息;
第一确定单元,用于利用预先建立的分类模型确定所述网络信息对应的网络情绪,其中,所述分类模型为根据预设的网络情绪类型训练得到的训练集,所述预设的网络情绪类型包括第一情绪、第二情绪、第三情绪、第四情绪和第五情绪;
计算单元,用于根据所述第一情绪、所述第二情绪、所述第三情绪、所述第四情绪和所述第五情绪中每一种情绪对应的网络信息的条数和所述网络信息所赋予的权重分别计算每一种情绪的量化值,所述量化值用于表示与其相应的情绪表现的程度,其中,所述权重根据所述网络信息的来源确定;
其中,所述装置还包括:
第四获取单元,用于在利用预先建立的分类模型确定所述网络信息对应的网络情绪之后,获取所述网络信息发布时的位置信息;
第二确定单元,用于基于所述位置信息确定所述网络信息所在的地区;
第三确定单元,用于根据所述网络信息对应的网络情绪确定各地区的网络情绪;
其中,第二获取单元还用于:计算网络信息与目标事件的关键词的关联度;当网络信息与目标事件的关键词的关联度超过预设阈值,则确定该网络信息为与关键词关联的网络信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三获取单元,用于在利用预先建立的分类模型确定所述网络信息对应的网络情绪之前,获取用于建立所述分类模型的网络信息;
提取单元,用于提取所述用于建立所述分类模型的网络信息中用于表达情感的关键词;
训练单元,用于按照所述预设的网络情绪类型对所述用于表达情感的关键词进行训练,得到所述分类模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
判断单元,用于在获取用于建立所述分类模型的网络信息之后,以及提取所述用于建立所述分类模型的网络信息中的用于表达情感的关键词之前,判断所述网络信息是否为可识别的文本信息;
分词单元,用于如果判断出所述网络信息不是可识别的文本信息,则将所述网络信息转化为所述可识别的文本信息,对转化后的所述可识别的文本信息进行分词;如果判断出所述网络信息是可识别的文本信息,则直接对所述网络信息进行分词。
9.根据权利要求8所述的装置,其特征在于,所述分词单元包括:
第一转化模块,用于如果所述网络信息为音频信息,则利用语音识别将所述音频信息转化为所述可识别的文本信息;
第二转化模块,用于如果所述网络信息为视频信息,则从所述视频信息中提取音频信息,利用语音识别将提取的音频信息转化为所述可识别的文本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510406232.1A CN105095415B (zh) | 2015-07-10 | 2015-07-10 | 网络情绪的确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510406232.1A CN105095415B (zh) | 2015-07-10 | 2015-07-10 | 网络情绪的确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095415A CN105095415A (zh) | 2015-11-25 |
CN105095415B true CN105095415B (zh) | 2018-12-21 |
Family
ID=54575852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510406232.1A Active CN105095415B (zh) | 2015-07-10 | 2015-07-10 | 网络情绪的确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095415B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106933898B (zh) * | 2015-12-31 | 2020-08-11 | 北京国双科技有限公司 | 网页信息的处理方法和装置 |
CN106446043A (zh) * | 2016-08-31 | 2017-02-22 | 广东华邦云计算股份有限公司 | 一种获取用户心情数据的方法和装置 |
CN108090097A (zh) * | 2016-11-23 | 2018-05-29 | 北京国双科技有限公司 | 文本处理方法和装置 |
CN108228612B (zh) * | 2016-12-14 | 2022-03-18 | 北京国双科技有限公司 | 一种提取网络事件关键词以及情绪倾向的方法及装置 |
CN108154096A (zh) * | 2017-12-19 | 2018-06-12 | 科大讯飞股份有限公司 | 一种审讯资料的审查方法及装置 |
CN108920510A (zh) * | 2018-05-30 | 2018-11-30 | 出门问问信息科技有限公司 | 自动聊天方法、装置和电子设备 |
CN109003624B (zh) * | 2018-06-29 | 2022-02-15 | 北京百度网讯科技有限公司 | 情绪识别方法、装置、计算机设备及存储介质 |
KR102697345B1 (ko) * | 2018-09-28 | 2024-08-23 | 삼성전자주식회사 | 감정 정보 획득을 위한 전자 장치 및 방법 |
CN109697472B (zh) * | 2018-12-28 | 2021-05-04 | 泰州市津达电子科技有限公司 | 一种子情绪划归方法 |
CN111143529A (zh) * | 2019-12-24 | 2020-05-12 | 北京赤金智娱科技有限公司 | 一种与对话机器人进行对话的方法与设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101763401B (zh) * | 2009-12-30 | 2012-05-30 | 暨南大学 | 一种网络舆情的热点预测和分析方法 |
CN104765733B (zh) * | 2014-01-02 | 2018-06-15 | 华为技术有限公司 | 一种社交网络事件分析的方法和装置 |
CN104750674B (zh) * | 2015-02-17 | 2018-12-21 | 北京京东尚科信息技术有限公司 | 一种人机会话满意度预测方法及系统 |
-
2015
- 2015-07-10 CN CN201510406232.1A patent/CN105095415B/zh active Active
Non-Patent Citations (2)
Title |
---|
基于Web文本挖掘的企业口碑情感分类模型研究;孙莹;《中国优秀硕士学位论文全文数据库信息科技辑》;20140215(第2期);参见第4-6章 * |
突发事件网络舆情分析与威胁估计方法研究;王铁套;《中国优秀硕士学位论文全文数据库信息科技辑》;20130615(第6期);第I139-219页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105095415A (zh) | 2015-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095415B (zh) | 网络情绪的确定方法和装置 | |
CN106156365B (zh) | 一种知识图谱的生成方法及装置 | |
CN104951807B (zh) | 股市情绪的确定方法和装置 | |
CN106919661B (zh) | 一种情感类型识别方法及相关装置 | |
CN103793484B (zh) | 分类信息网站中的基于机器学习的欺诈行为识别系统 | |
CN106294774A (zh) | 基于对话服务的用户个性化数据处理方法及装置 | |
CN110598070B (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
CN109492221B (zh) | 一种基于语义分析的信息回复方法及可穿戴设备 | |
CN104951434B (zh) | 品牌情绪的确定方法和装置 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN110197389A (zh) | 一种用户识别方法及装置 | |
CN106599110A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN109299277A (zh) | 舆情分析方法、服务器及计算机可读存储介质 | |
CN106537387B (zh) | 检索/存储与事件相关联的图像 | |
CN115238688B (zh) | 电子信息数据关联关系分析方法、装置、设备和存储介质 | |
CN108614987A (zh) | 数据处理的方法、装置和机器人 | |
CN108228587A (zh) | 群体识别方法及群体识别装置 | |
CN106710588B (zh) | 语音数据句类识别方法和装置及系统 | |
CN110489628A (zh) | 数据处理方法、装置及电子设备 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN107688594B (zh) | 基于社交信息的风险事件的识别系统及方法 | |
CN113609865A (zh) | 文本情感的识别方法、装置、电子设备及可读存储介质 | |
CN104462151B (zh) | 评估网页发布时间的方法和相关装置 | |
CN112860213A (zh) | 音频的处理方法、存储介质及电子设备 | |
US9940319B2 (en) | Information analysis system, information analysis method, and information analysis program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |