CN106855852B - 语句情感的确定方法及装置 - Google Patents

语句情感的确定方法及装置 Download PDF

Info

Publication number
CN106855852B
CN106855852B CN201510906638.6A CN201510906638A CN106855852B CN 106855852 B CN106855852 B CN 106855852B CN 201510906638 A CN201510906638 A CN 201510906638A CN 106855852 B CN106855852 B CN 106855852B
Authority
CN
China
Prior art keywords
target
words
sentences
sentence
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510906638.6A
Other languages
English (en)
Other versions
CN106855852A (zh
Inventor
陈晓敏
钦滨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510906638.6A priority Critical patent/CN106855852B/zh
Publication of CN106855852A publication Critical patent/CN106855852A/zh
Application granted granted Critical
Publication of CN106855852B publication Critical patent/CN106855852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语句情感的确定方法及装置。该方法包括:获取目标语料;从目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,关键词为在目标语料包含的语句中预设位置上的词语;分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,每个关键词的置信度为每个关键词对判断每个目标语句的语句情感的置信度;以及分别根据每个关键词的置信度确定多个目标语句中每个目标语句的语句情感。通过本申请,解决了相关技术中判断语句情感的准确率较低的问题。

Description

语句情感的确定方法及装置
技术领域
本申请涉及文本处理领域,具体而言,涉及一种语句情感的确定方法及装置。
背景技术
随着互联网上的文本信息越来越丰富,对这些文本信息进行情感分析就显得尤其重要,利用情感分析这项技术,可以应用在舆情能够帮助公司或者机构根据客户的情感反馈及时调整市场方向或改进产品。文本情感判断的一个基础是基于语句的情感判断,语句级的情感判断是在介于词语级和篇章级中间的,在计算语句的情感时,一方面语句情感是建立在词语情感的基础上,一方面语句情感又是计算篇章情感的基础。因此语句处于一个承上启下的地位,对于语句的情感判断就显得十分重要。因此语句情感判断准确率的高低对于文本情感判断具有很重要的作用。
相关技术中基于支持向量机(Vector Space Model,简称VSM)的语句情感倾向判断方法,在情感判断的机器学习中,选择一些特征参数,基本是根据情感词语的情感特征以及情感词语的相邻词语的特征,进行学习,进而判断语句情感的正负。然而基于语料特征的SVM情感判断,参数选择上,基本是以情感词以及情感词左右出现的词语为特征,这些词语通常为否定词或程度词,都是从词语之间的语义关系进行情感判断。然而相关技术中忽略了汉语语句在表达情绪时的一些特征,没有考虑到句末的情感词对一句话的情感判断起着非常重要的影响。
针对相关技术中判断语句情感的准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种语句情感的确定方法及装置,以解决相关技术中判断语句情感的准确率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种语句情感的确定方法。该方法包括:获取目标语料;从目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,关键词为在目标语料包含的语句中预设位置上的词语;分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,每个关键词的置信度为每个关键词对判断每个目标语句的语句情感的置信度;以及分别根据每个关键词的置信度确定多个目标语句中每个目标语句的语句情感。
进一步地,分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度包括:按照预设方法确定每个目标语句的初始情感;分别统计每个目标语句的关键词在多个目标语句中出现的频次,得到每个关键词频次;以及根据每个关键词频次和每个目标语句的初始情感计算每个关键词的置信度。
进一步地,分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度包括:确定多个目标语句中出现的所有情感词,得到多个情感词;分别计算多个情感词中每个情感词的置信度,得到每个情感词的置信度;以及从每个情感词的置信度中提取每个关键词的置信度。
进一步地,从目标语料中筛选关键词为情感词的语句,得到多个目标语句包括:对目标语料中的语句进行词语切分处理,得到多个词语;从多个词语中筛选为情感词的词语,得到多个情感词;从多个情感词中筛选位于语句中预设位置上的情感词,得到多个关键词;以及分别确定多个关键词中每个关键词所在的语句,并将每个关键词所在的语句作为目标语句。
进一步地,预设位置包括语句末尾位置,从目标语料中筛选关键词为情感词的语句,得到多个目标语句包括:确定目标语料中语句的末尾词,得到多个末尾词;从多个末尾词中筛选为情感词的末尾词;以及提取目标语料的语句中末尾词为情感词的语句,得到多个目标语句。
为了实现上述目的,根据本申请的另一方面,提供了一种语句情感的确定装置。该装置包括:获取单元,用于获取目标语料;筛选单元,用于从目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,关键词为在目标语料包含的语句中预设位置上的词语;计算单元,用于分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,每个关键词的置信度为每个关键词对判断每个目标语句的语句情感的置信度;以及确定单元,用于分别根据每个关键词的置信度确定多个目标语句中每个目标语句的语句情感。
进一步地,计算单元包括:第一确定模块,用于按照预设方法确定每个目标语句的初始情感;统计模块,用于分别统计每个目标语句的关键词在多个目标语句中出现的频次,得到每个关键词频次;以及第一计算模块,用于根据每个关键词频次和每个目标语句的初始情感计算每个关键词的置信度。
进一步地,计算单元包括:第二确定模块,用于确定多个目标语句中出现的所有情感词,得到多个情感词;第二计算模块,用于分别计算多个情感词中每个情感词的置信度,得到每个情感词的置信度;以及第一提取模块,用于从每个情感词的置信度中提取每个关键词的置信度。
进一步地,筛选单元包括:处理模块,用于对目标语料中的语句进行词语切分处理,得到多个词语;第一筛选模块,用于从多个词语中筛选为情感词的词语,得到多个情感词;第二筛选模块,用于从多个情感词中筛选位于语句中预设位置上的情感词,得到多个关键词;以及第三确定模块,用于分别确定多个关键词中每个关键词所在的语句,并将每个关键词所在的语句作为目标语句。
进一步地,预设位置包括语句末尾位置,筛选单元包括:第四确定模块,用于确定目标语料中语句的末尾词,得到多个末尾词;第三筛选模块,用于从多个末尾词中筛选为情感词的末尾词;以及第二提取模块,用于提取目标语料的语句中末尾词为情感词的语句,得到多个目标语句。
通过本申请,采用以下步骤:获取目标语料;从目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,关键词为在目标语料包含的语句中预设位置上的词语;分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,每个关键词的置信度为每个关键词对判断每个目标语句的语句情感的置信度;以及分别根据每个关键词的置信度确定多个目标语句中每个目标语句的语句情感,解决了相关技术中判断语句情感的准确率较低的问题,进而达到了提升判断语句情感的准确率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的语句情感的确定方法的流程图;以及
图2是根据本申请实施例的语句情感的确定装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种语句情感的确定方法。
图1是根据本申请实施例的语句情感的确定方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取目标语料。
将大量需要处理的文本组成目标语料,获取目标语料。目标语料可以来自资料和文件,也可以是来自互联网中的网页中的文本。
步骤S102,从目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,关键词为在目标语料包含的语句中预设位置上的词语。
在本申请中的情感词为表达情绪的词语。例如:糟糕、开心、欢乐等等表达情绪的词语为本申请中提到的情感词。
可选地,在本申请实施例提供的语句情感的确定方法中,从目标语料中筛选关键词为情感词的语句,得到多个目标语句包括:对目标语料中的语句进行词语切分处理,得到多个词语;从多个词语中筛选为情感词的词语,得到多个情感词;从多个情感词中筛选位于语句中预设位置上的情感词,得到多个关键词;以及分别确定多个关键词中每个关键词所在的语句,并将每个关键词所在的语句作为目标语句。
上述的词语切分处理是将目标语料切分为多个词语的过程,此处的词语用于表示目标语料的某处特点。例如情感特点等,从多个词语中筛选为情感词的词语,得到多个情感词;从多个情感词中筛选位于语句中预设位置上的情感词,得到多个关键词,在本申请中的预设位置,可以为每个语句的末尾位置,也可以为每个语句后半句的位置。分别确定多个关键词中每个关键词所在的语句,并将每个关键词所在的语句作为目标语句。通过以上步骤,在目标语料的多个语句中筛选出目标语句,从而在后续的处理中是针对目标语句提升判断其情感的准确率。
可选地,在本申请实施例提供的语句情感的确定方法中,预设位置包括语句末尾位置,从目标语料中筛选关键词为情感词的语句,得到多个目标语句包括:确定目标语料中语句的末尾词,得到多个末尾词;从多个末尾词中筛选为情感词的末尾词;以及提取目标语料的语句中末尾词为情感词的语句,得到多个目标语句。
通过大量统计得知语句情感可能是由句式末尾的情感词决定。因此在确定目标语句时,通过从多个语句的末尾词中筛选为情感词的末尾词;以及提取目标语料的语句中末尾词为情感词的语句,得到多个目标语句,从而在后续的处理中是针对末尾词为情感词的目标语句提升判断其情感的准确率。
步骤S103,分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,每个关键词的置信度为每个关键词对判断每个目标语句的语句情感的置信度。
可选地,在本申请实施例提供的语句情感的确定方法中,分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度包括:按照预设方法确定每个目标语句的初始情感;分别统计每个目标语句的关键词在多个目标语句中出现的频次,得到每个关键词频次;以及根据每个关键词频次和每个目标语句的初始情感计算每个关键词的置信度。
在本申请中的预设方法可以是人工对语句情感进行标注,例如,标注的语句情感为:正面的情绪、负面的情绪、中性的情绪。也可以是系统自动根据语句中的一些特定词对语句情感进行标注,在本申请中不限定其具体方式。统计在语句中预设位置上的词语在多个目标语句中出现的次数,得到每个关键词频次,再计算出每个关键词对判断每个目标语句的语句情感的置信度。如果关键词为目标语句的末尾词,即计算出末尾词对判断其对应的目标语句的语句情感的置信度。例如,某个目标语句的末尾词为喜乐,喜乐的置信度为(正:80%;中:30%;负:20%)。
可选地,在本申请实施例提供的语句情感的确定方法中,分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度包括:确定多个目标语句中出现的所有情感词,得到多个情感词;分别计算多个情感词中每个情感词的置信度,得到每个情感词的置信度;以及从每个情感词的置信度中提取每个关键词的置信度。
通过计算出多个目标语句中所有情感词的置信度,再从中筛选关键词的置信度,获取到关键词的置信度,从而提升了获取关键词的置信度的效率。
步骤S104,分别根据每个关键词的置信度确定多个目标语句中每个目标语句的语句情感。
无论是在单句,还是递进、转折关系等复句,由于语句情感可能是由语句中的预设位置的词语的情感决定。在本申请中,通过在目标语句中的预设位置的词语的置信度来确定目标语句的情感,从而达到提升判断语句情感的准确率的效果。
例如,某个目标语句的末尾词为喜乐,喜乐的置信度为(正:80%;中:50%;负:20%),即根据喜乐的置信度确定其对应的目标语句的情感为正。
本申请实施例提供的语句情感的确定方法,通过获取目标语料;从目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,关键词为在目标语料包含的语句中预设位置上的词语;分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,每个关键词的置信度为每个关键词对判断每个目标语句的语句情感的置信度;以及分别根据每个关键词的置信度确定多个目标语句中每个目标语句的语句情感,解决了相关技术中判断语句情感的准确率较低的问题,进而达到了提升判断语句情感的准确率的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种语句情感的确定装置,需要说明的是,本申请实施例的语句情感的确定装置可以用于执行本申请实施例所提供的用于语句情感的确定方法。以下对本申请实施例提供的语句情感的确定装置进行介绍。
图2是根据本申请实施例的语句情感的确定装置的示意图。如图2所示,该装置包括:获取单元10、筛选单元20、计算单元30和确定单元40。
获取单元10,用于获取目标语料。
筛选单元20,用于从目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,关键词为在目标语料包含的语句中预设位置上的词语。
计算单元30,用于分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,每个关键词的置信度为每个关键词对判断每个目标语句的语句情感的置信度。
确定单元40,用于分别根据每个关键词的置信度确定多个目标语句中每个目标语句的语句情感。
本申请实施例提供的语句情感的确定装置,通过获取单元10获取目标语料;筛选单元20从目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,关键词为在目标语料包含的语句中预设位置上的词语;计算单元30分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,每个关键词的置信度为每个关键词对判断每个目标语句的语句情感的置信度;以及确定单元40分别根据每个关键词的置信度确定多个目标语句中每个目标语句的语句情感,解决了相关技术中判断语句情感的准确率较低的问题,进而达到了提升判断语句情感的准确率的效果。
可选地,在本申请实施例提供的语句情感的确定装置中,计算单元30包括:第一确定模块,用于按照预设方法确定每个目标语句的初始情感;统计模块,用于分别统计每个目标语句的关键词在多个目标语句中出现的频次,得到每个关键词频次;以及第一计算模块,用于根据每个关键词频次和每个目标语句的初始情感计算每个关键词的置信度。
可选地,在本申请实施例提供的语句情感的确定装置中,计算单元30包括:第二确定模块,用于确定多个目标语句中出现的所有情感词,得到多个情感词;第二计算模块,用于分别计算多个情感词中每个情感词的置信度,得到每个情感词的置信度;以及第一提取模块,用于从每个情感词的置信度中提取每个关键词的置信度。
可选地,在本申请实施例提供的语句情感的确定装置中,筛选单元20包括:处理模块,用于对目标语料中的语句进行词语切分处理,得到多个词语;第一筛选模块,用于从多个词语中筛选为情感词的词语,得到多个情感词;第二筛选模块,用于从多个情感词中筛选位于语句中预设位置上的情感词,得到多个关键词;以及第三确定模块,用于分别确定多个关键词中每个关键词所在的语句,并将每个关键词所在的语句作为目标语句。
可选地,在本申请实施例提供的语句情感的确定装置中,预设位置包括语句末尾位置,筛选单元20包括:第四确定模块,用于确定目标语料中语句的末尾词,得到多个末尾词;第三筛选模块,用于从多个末尾词中筛选为情感词的末尾词;以及第二提取模块,用于提取目标语料的语句中末尾词为情感词的语句,得到多个目标语句。
所述语句情感的确定装置包括处理器和存储器,上述获取单元、筛选单元、计算单元和确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设方法都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数确定的语句情感。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取目标语料;从目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,关键词为在目标语料包含的语句中预设位置上的词语;分别计算多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,每个关键词的置信度为每个关键词对判断每个目标语句的语句情感的置信度;以及分别根据每个关键词的置信度确定多个目标语句中每个目标语句的语句情感。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种语句情感的确定方法,其特征在于,包括:
获取目标语料;
从所述目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,所述关键词为在所述目标语料包含的语句中预设位置上的词语;
分别计算所述多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,所述每个关键词的置信度为所述每个关键词对判断所述每个目标语句的语句情感的置信度;以及
分别根据所述每个关键词的置信度确定所述多个目标语句中每个目标语句的语句情感;
其中,分别计算所述多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度包括:
按照预设方法确定所述每个目标语句的初始情感;
分别统计所述每个目标语句的关键词在所述多个目标语句中出现的频次,得到每个关键词频次;以及
根据所述每个关键词频次和所述每个目标语句的初始情感计算所述每个关键词的置信度。
2.根据权利要求1所述的方法,其特征在于,分别计算所述多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度包括:
确定所述多个目标语句中出现的所有情感词,得到多个情感词;
分别计算所述多个情感词中每个情感词的置信度,得到所述每个情感词的置信度;以及
从所述每个情感词的置信度中提取所述每个关键词的置信度。
3.根据权利要求1所述的方法,其特征在于,从所述目标语料中筛选关键词为情感词的语句,得到多个目标语句包括:
对所述目标语料中的语句进行词语切分处理,得到多个词语;
从所述多个词语中筛选为情感词的词语,得到多个情感词;
从所述多个情感词中筛选位于语句中预设位置上的情感词,得到多个关键词;以及
分别确定所述多个关键词中每个关键词所在的语句,并将所述每个关键词所在的语句作为目标语句。
4.根据权利要求1所述的方法,其特征在于,所述预设位置包括语句末尾位置,从所述目标语料中筛选关键词为情感词的语句,得到多个目标语句包括:
确定所述目标语料中语句的末尾词,得到多个末尾词;
从所述多个末尾词中筛选为情感词的末尾词;以及
提取所述目标语料的语句中末尾词为情感词的语句,得到多个目标语句。
5.一种语句情感的确定装置,其特征在于,包括:
获取单元,用于获取目标语料;
筛选单元,用于从所述目标语料中筛选关键词为情感词的语句,得到多个目标语句,其中,所述关键词为在所述目标语料包含的语句中预设位置上的词语;
计算单元,用于分别计算所述多个目标语句中每个目标语句的关键词的置信度,得到每个关键词的置信度,其中,所述每个关键词的置信度为所述每个关键词对判断所述每个目标语句的语句情感的置信度;以及
确定单元,用于分别根据所述每个关键词的置信度确定所述多个目标语句中每个目标语句的语句情感;
其中,所述计算单元包括:
第一确定模块,用于按照预设方法确定所述每个目标语句的初始情感;
统计模块,用于分别统计所述每个目标语句的关键词在所述多个目标语句中出现的频次,得到每个关键词频次;以及
第一计算模块,用于根据所述每个关键词频次和所述每个目标语句的初始情感计算所述每个关键词的置信度。
6.根据权利要求5所述的装置,其特征在于,所述计算单元包括:
第二确定模块,用于确定所述多个目标语句中出现的所有情感词,得到多个情感词;
第二计算模块,用于分别计算所述多个情感词中每个情感词的置信度,得到所述每个情感词的置信度;以及
第一提取模块,用于从所述每个情感词的置信度中提取所述每个关键词的置信度。
7.根据权利要求5所述的装置,其特征在于,所述筛选单元包括:
处理模块,用于对所述目标语料中的语句进行词语切分处理,得到多个词语;
第一筛选模块,用于从所述多个词语中筛选为情感词的词语,得到多个情感词;
第二筛选模块,用于从所述多个情感词中筛选位于语句中预设位置上的情感词,得到多个关键词;以及
第三确定模块,用于分别确定所述多个关键词中每个关键词所在的语句,并将所述每个关键词所在的语句作为目标语句。
8.根据权利要求5所述的装置,其特征在于,所述预设位置包括语句末尾位置,所述筛选单元包括:
第四确定模块,用于确定所述目标语料中语句的末尾词,得到多个末尾词;
第三筛选模块,用于从所述多个末尾词中筛选为情感词的末尾词;以及
第二提取模块,用于提取所述目标语料的语句中末尾词为情感词的语句,得到多个目标语句。
CN201510906638.6A 2015-12-09 2015-12-09 语句情感的确定方法及装置 Active CN106855852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510906638.6A CN106855852B (zh) 2015-12-09 2015-12-09 语句情感的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510906638.6A CN106855852B (zh) 2015-12-09 2015-12-09 语句情感的确定方法及装置

Publications (2)

Publication Number Publication Date
CN106855852A CN106855852A (zh) 2017-06-16
CN106855852B true CN106855852B (zh) 2020-09-15

Family

ID=59133088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510906638.6A Active CN106855852B (zh) 2015-12-09 2015-12-09 语句情感的确定方法及装置

Country Status (1)

Country Link
CN (1) CN106855852B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110033A (zh) * 2018-01-29 2019-08-09 清华大学 信息提取方法、装置、计算机设备和存储介质
CN108664469B (zh) * 2018-05-07 2021-11-19 首都师范大学 一种情感类别确定方法、装置及服务器
CN109783800B (zh) * 2018-12-13 2024-04-12 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN115828889A (zh) * 2022-11-28 2023-03-21 蚂蚁财富(上海)金融信息服务有限公司 文本分析方法、情感分类模型、装置、介质、终端及产品

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112012001794T5 (de) * 2011-04-21 2014-02-20 Sony Corporation Verfahren zum Bestimmen einer Stimmung aus einem Text
CN102929861B (zh) * 2012-10-22 2015-07-22 杭州东信北邮信息技术有限公司 一种文本情感指数计算方法和系统

Also Published As

Publication number Publication date
CN106855852A (zh) 2017-06-16

Similar Documents

Publication Publication Date Title
US20200143289A1 (en) Systems and method for performing contextual classification using supervised and unsupervised training
CN104462363B (zh) 评论点的展现方法和装置
CN104572616B (zh) 文本倾向性的确定方法和装置
CN106855852B (zh) 语句情感的确定方法及装置
CN103970864B (zh) 基于微博文本的情绪分类和情绪成分分析方法及系统
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
US10831993B2 (en) Method and apparatus for constructing binary feature dictionary
CN110852793A (zh) 文案推荐方法及装置、电子设备
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
CN106610931B (zh) 话题名称的提取方法及装置
JP2019511040A (ja) テキスト情報クラスタ化方法及びテキスト情報クラスタ化システム
CN104978354B (zh) 文本分类方法和装置
CN105095179B (zh) 对用户评价进行处理的方法及装置
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
CN110472043A (zh) 一种针对评论文本的聚类方法及装置
CN109597983A (zh) 一种拼写纠错方法及装置
CN106569996B (zh) 一种面向中文微博的情感倾向分析方法
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN105159927B (zh) 目标文本主题词的选取方法、装置及终端
KR101555039B1 (ko) 감정 사전 구축 장치 및 감정 사전 구축 방법
JP2013131075A (ja) 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法
CN104077274A (zh) 一种从文档集中抽取热词短语的方法和装置
CN104778162A (zh) 基于最大熵的主题分类器的训练方法及系统
CN107665208B (zh) 用户偏好度量方法及装置
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant