CN108121734A - 文本的情感倾向判断方法及装置 - Google Patents

文本的情感倾向判断方法及装置 Download PDF

Info

Publication number
CN108121734A
CN108121734A CN201611079387.XA CN201611079387A CN108121734A CN 108121734 A CN108121734 A CN 108121734A CN 201611079387 A CN201611079387 A CN 201611079387A CN 108121734 A CN108121734 A CN 108121734A
Authority
CN
China
Prior art keywords
text
judged
emotion
language
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611079387.XA
Other languages
English (en)
Inventor
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611079387.XA priority Critical patent/CN108121734A/zh
Publication of CN108121734A publication Critical patent/CN108121734A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Abstract

本发明公开了一种文本的情感倾向判断方法及装置,涉及分析技术领域,解决了文本的情感倾向判断结果具有一定的局限性和片面性,从而导致文本的情感倾向判断不准确的问题。本发明的主要技术方案为:获取待判断文本以及所述待判断文本对应的情感得分;确定所述待判断文本所属的语言范畴的情感分布,所述待判断文本所属的语言范畴为包含所述待判断文本的同类或有一定共性的文本的集合;根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。本发明主要用于文本的情感倾向判断。

Description

文本的情感倾向判断方法及装置
技术领域
本发明涉及分析技术领域,尤其涉及一种文本的情感倾向判断方法及装置。
背景技术
随着互联网的快速发展,越来越多的人喜欢在网上发表他们对事情的意见和评价,例如,在网络平台中存在对各种产品的评价,如“A产品较好”、“B产品一般”、“C产品较差”等等。这样的文本可以认为是包含情感倾向的文本。其中,情感倾向可以认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向。因此,在当前网络上存在大量包含情感倾向文本的情况下,判断文本中的情感倾向变得越来越重要。
在现有技术中,进行文本的情感倾向判断时,仅通过文本的情感得分判断文本的情感倾向,从而得到正面、中性或负面的判断结果。然而,影响文本的情感倾向的因素并非仅有文本的情感得分,若仅通过文本的情感得分判断文本的情感倾向,会造成文本的情感倾向判断结果具有一定的局限性和片面性,从而导致文本的情感倾向判断不准确。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种文本的情感倾向判断方法及装置。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种文本的情感倾向判断方法,该方法包括:
获取待判断文本以及所述待判断文本对应的情感得分;
确定所述待判断文本所属的语言范畴的情感分布,所述待判断文本所属的语言范畴为包含所述待判断文本的同类或具备共性的文本的集合;
根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。
另一方面,本发明实施例还提供一种文本的情感倾向判断装置,该装置包括:
获取单元,用于获取待判断文本以及所述待判断文本对应的情感得分;
确定单元,用于确定所述待判断文本所属的语言范畴的情感分布,所述待判断文本所属的语言范畴为包含所述待判断文本的同类或具备共性的文本的集合;
判断单元,用于根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。
借由上述技术方案,本发明提供的一种文本的情感倾向判断方法及装置。首先,获取待判断文本以及所述待判断文本对应的情感得分;然后,确定所述待判断文本所属的语言范畴的情感分布,所述待判断文本所属的语言范畴为包含所述待判断文本的同类或具备共性的文本的集合;最后,根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。与现有技术在进行文本的情感倾向判断时,通常仅通过文本的情感得分判断文本的情感倾向相比,本发明实施例通过根据待判断文本情感得分和待判断文本所属的语言范畴的情感分布,判断待判断文本的情感倾向,避免了文本的情感倾向判断结果的局限性和片面性,从而提高了文本的情感倾向判断的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种文本的情感倾向判断方法流程图;
图2为本发明实施例提供的另一种文本的情感倾向判断方法流程图;
图3为本发明实施例提供的一种文本的情感倾向判断装置结构示意图;
图4为本发明实施例提供的另一种文本的情感倾向判断装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供了一种文本的情感倾向判断方法,如图1所示,所述方法包括:
101、获取待判断文本以及待判断文本对应的情感得分。
在互联网中,某些类文本是包含情感倾向的文本,其中,情感倾向可以认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向。文本的情感倾向可以为正面、负面或中性等,不同文本的情感倾向可能是不同的,并且在文本内容中体现文本倾向的表述方式和修饰词语也可能是不同的。
由于文本的情感倾向表述方式和修辞词语的种类很多,因此导致文本的情感倾向的判断和分析的比较复杂,通常情况下,使用本步骤中所述的情感得分来以数字化体现方式来表征文本的情感倾向。其中,本步骤中所述的情感得分为通过使用某种计算方式,计算出的代表文本情感倾向的分数。通过所述情感得分能够比较直观、简单的体现出对应文本的情感倾向。因此,通过计算出的情感得分来表征文本的情感倾向的方式越来越普遍。
需要说明的是,由于计算文本所对应的情感得分的方法不尽相同,因此获取的情感得分也不相同。例如,最简单的情感得分的计算方法是利用词语的正负属性来判定,其中,句子中的每个单词都有一个得分,乐观的单词得分为+1,悲观的单词则为-1。然后我们对句子中所有单词得分进行加总求和得到一个最终的情感总分,即所述文本的情感得分。在此,获取的情感得分的方法和情感得分的具体形式不做具体的限定,可以根据需要自行进行选取。
102、确定待判断文本所属的语言范畴的情感分布。
其中,所述待判断文本所属的语言范畴为包含待判断文本的同类或具备共性的文本的集合。
通常情况下,由于待判断文本的不同,所述待判断文本所属的语言范畴也不尽相同。例如,如果待判断文本是某条电商网站的评论数据,那么该类目下全部的评论数据就都属于待判断文本所属的语言范畴。又例如,如果待判断文本是某个用户发出的微博数据,那么该用户发出的历史微博数据就属于待判断文本所属的语言范畴。
如上述例子可知,待判断文本所属的语言范畴可能是某类历史数据集合,也可以是在一个固定的集合中的某些数据,具体的选取方式可以根据需要自行进行选取,在这里不做具体的限定。但需要说明的是,待判断文本所属的语言范畴是由与待判断文本同类或与待判断文本有某种共性的文本集合组成。
本步骤中,所述待判断文本所属的语言范畴的情感分布由所述语言范畴中包含全部文本的情感得分组成。通常情况下,情感得分会集中在某一个范围,这通常体现了人们对某种产品或事物的相对一致的情感倾向。例如,大部分人会对某产品有一个较为一致的看法,可能大部分都认为某产品好,或者大部分人认为某产品一般等等。因为个体差异等原因,人们对事物的认知程度不尽相同,但是对于大多数人来说,对于事物最基本的认知和看法的依据基本相同,即人们对于“好”、“坏”、“优”、“劣”、“一般”等看法有一个相对较为一致的评价依据,因此,对于所述待判断文本所属的语言范畴的情感得分会相对集中在某一个范围。
103、根据待判断文本的情感得分和待判断文本所属语言范畴的情感分布,判断待判断文本的情感倾向。
其中,若待判断文本所属的语言范畴中大多数文本都为正面倾向时,正面倾向实际上已变成了一种相对中性的倾向,而通常意义下的中性倾向则变成了一种相对负面的倾向。因此,在本步骤中判断所述待判断文本的情感倾向时,需根据待判断文本的情感得分和所述情感分布进行对比后进行判断。
例如,当对于某产品的评价大部分都为好评的情况下,原本作为中性倾向的中评相比于大部分的好评,就变成了相对的差评,即文本的情感倾向不在为通常意义下的中性倾向,而是一种负面的情感倾向。又例如,当某产品的评价大部分都为差评时,若待判断文本的评价为中评,则相对于大部分都为差评的评价,原本意义上待判断文本的中评则为相对意义下的正面评价,即好评。
本发明提供的一种文本的情感倾向判断方法。首先,获取待判断文本以及所述待判断文本对应的情感得分;然后,确定所述待判断文本所属的语言范畴的情感分布;最后,根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。与现有技术在进行文本的情感倾向判断时,通常仅通过文本的情感得分判断文本的情感倾向相比,本发明实施例通过根据待判断文本情感得分和待判断文本所属的语言范畴的情感分布,判断待判断文本的情感倾向,避免了文本的情感倾向判断结果的局限性和片面性,从而提高了文本的情感倾向判断的准确性。
本发明实施例提供了另一种文本的情感倾向判断方法,如图2所示,所述方法包括:
201、获取待判断文本以及待判断文本对应的情感得分。
在互联网中,某些类文本是包含情感倾向的文本,不同文本的情感倾向可能是不同的,并且在文本内容中体现文本倾向的表述方式和修饰词语也可能是不同的。
由于文本的情感倾向表述方式和修辞词语的种类很多,因此导致文本的情感倾向的判断和分析的比较复杂。其中,本步骤中所述的情感得分为通过使用某种计算方式,计算出的代表文本情感倾向的分数。通过所述情感得分能够比较直观、简单的体现出对应文本的情感倾向。
需要说明的是,由于计算文本所对应的情感得分的方法不尽相同,因此获取的情感得分也不相同。在此,所述情感得分的方式不做具体的限定。
202、根据所述待判断文本对应的同质数据,生成所述待判断文本所属的语言范畴的语料。
对于本发明实施例,步骤202具体可以为包括:从所述同质数据抽取预定数量的文本;将所述预定数量的文本确定为所述待判断文本所属的语言范畴的语料。
在本步骤中所述从所述同质数据抽取预定数量的文本前,需先获取待判断文本的同质数据。通常情况下,同质数据是指使用同一观测手段,采用相同的观测标准,能反映某一问题的同一方面特质的数据,在本发明实施例中,所述同质数据可以理解为包含待判断文本的某类具有某一共性的文本集合。
例如,若待判断文本为网店中某产品的评价,则所述待判断文本的同质数据可以为包含此产品的全部评价;若待判断文本为某新闻的评论,则所述待判断文本的同质数据可以为对此新闻的所有评论。
在本步骤中,所述从同质数据抽取预定数量的文本中,抽取的方式可以为随机抽样,也可以为其他方式,具体的方式在此不做具体的限定,同样的,抽取的数量在此也不做限定,可以根据需要自行进行设定和选取。但是,需要说明的是,抽取方式和预定数量应具有科学性和随机性,以抽取预定数量的文本能够代表同质数据整体为依据。
通常情况下,语料是指由于在统计自然语言处理中实际上不可能观测到大规模的语言实例,人们简单地用文本作为替代并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。在本步骤中,所述待判断文本所属的语言范畴的语料为通过抽取预定数量、能够代表同质数据整体的文本集合。
203、根据所述语料中各个文本分别对应的情感得分,确定所述待判断文本所属的语言范畴的情感分布。
对于本发明实施例,步骤203具体可以为:根据所述语料中各个文本分别对应的情感得分,计算所述语料的标准差及方差;根据所述语料的标准差及方差,确定所述待判断文本所属的语言范畴的情感分布。
在所述根据所述语料中各个文本分别对应的情感得分,计算所述语料的标准差及方差之前,需要说明,本发明实施例假设总体文本的情感应服从于正态分布,即大部分文本的情感集中于中性,少部分文本属于正面、少部分属于负面。建立这一假设的原因是,通常情况下,情感得分会集中在某一个范围,这通常体现了人们对某种产品或事物的相对一致的情感倾向。
在统计学中,通常在样本数量足够多的情况下,所统计的样本结果往往都符合正态分布,譬如,学生的成绩中学习成绩为中等水平的往往处于大多数,而成绩优异和成绩较差的则较少,又譬如某国国民的身高中,中等身高的人占人口中大多数,较高身高和较矮身高则占人口中的少数。因为个体差异等原因,人们对事物的认知程度不尽相同,但是对于大多数人来说,对于事物最基本的认知和看法的依据基本相同。同样,对于某种产品或事物的看法和评价等诸如此类包含情感倾向的文本集合也符合同样的道理,即中性倾向占大多数,正面和负面倾向占少数。因此,总体文本的情感应服从于正态分布。
在本步骤中,计算所述语料的标准差及方差的具体过程为:
拟合总体文本情感分布的方式如下。假设所述语料中文本数量为n,每一条样本的情感得分为Xi,其中i属于1至n,那么,计算语料的标准差及方差的具体方式为:
其中μ为所述文本情感分布的正态分布的期望值,即平均值。所述μ可以确定为情感分布中情感倾向为中性区间的位置。
所述σ2为所述文本情感分布的正态分布的方差,σ为所述文本情感分布的正态分布的标准差。所述σ用于确定所述情感分布中情感倾向为中性区间的范围大小。
本步骤中所述根据所述语料的标准差及方差,确定所述待判断文本所属的语言范畴的情感分布,具体为:
若待判断文本的情感倾分布向由正面、负面和中性组成时,根据本步骤上文所述的平均值μ及方差σ,确定所述确定待判断文本所属的语言范畴的情感分布区间:
其中,μ-σ与μ+σ之间的区间为所述情感分布中情感倾向为中性的区间;
小于μ-σ的区间为所述情感分布中情感倾向为负面的区间;
大于μ+σ的区间为所述情感分布中情感倾向为正面的区间。
204、根据预置阈值对待判断文本所属的语言范畴的情感分布进行分割,得到不同情感分布区间。
所述根据预置阈值对待判断文本所属的语言范畴的情感分布进行分割,具体可以为将阈值设定为所述步骤203中标准差的系数,用以扩大或缩小标准差的数值大小。由于标准差影响待判断文本所属的语言范畴的情感分布区间的大小,即:所述阈值的数值越大,待判断文本所属的语言范畴的情感分布区间中情感倾向为中性的区间越大;所述阈值的数值越小,待判断文本所属的语言范畴的情感分布区间中情感倾向为中性的区间越小。
例如,预置阈值为k,所述待判断文本所属的语言范畴的情感分布区间为分为正面,中性和负面三个区间时,所述根据预置阈值对待判断文本所属的语言范畴的情感分布进行分割,具体为:小于μ-kσ的区间;μ-kσ至μ+kσ的区间;大于μ+kσ的区间。其中,小于μ-kσ的区间为所述待判断文本所属的语言范畴的情感分布区间中情感倾向为负面的区间;μ-kσ至μ+kσ的区间为所述待判断文本所属的语言范畴的情感分布区间中情感倾向为中性的区间;大于μ+kσ的区间为所述待判断文本所属的语言范畴的情感分布区间中情感倾向为正面的区间。
需要说明的是,所述阈值的设定可以根据需要自行进行设定,具体设定的大小在此不做具体的限定。
205、根据待判断文本对应的情感得分对应的情感分布区间,确定待判断文本对应的情感倾向。
例如,某产品的评价为待判断文本,其中产品的评价分为正面(好)、中性(一般)及负面(差)三个区间时,则根据本步骤的方法,若待判断待判断文本对应的情感得分处于所述情感分布区间中正面(好)的区间时,则所述待判断文本,即所述某产品的评价为正面(好);若待判断待判断文本对应的情感得分处于所述情感分布区间中中性(一般)的区间时,则所述待判断文本,即所述某产品的评价为中性(一般);若待判断待判断文本对应的情感得分处于所述情感分布区间中负面(差)的区间时,则所述待判断文本,即所述某产品的评价为负面(差)。
本发明提供的另一种文本的情感倾向判断方法。首先,获取待判断文本以及所述待判断文本对应的情感得分;然后,从同质数据抽取预定数量的文本,将预定数量的文本确定为待判断文本所属的语言范畴的语料;随后,根据待判断文本所属的语言范畴的语料中各个文本分别对应的情感得分,计算语料的标准差及方差;之后,根据待判断文本所属的语言范畴的语料的标准差及方差,确定待判断文本所属的语言范畴的情感分布;之后,根据预置阈值对待判断文本所属的语言范畴的情感分布进行分割,得到不同情感分布区间;最后,根据待判断文本对应的情感得分对应的情感分布区间,确定待判断文本对应的情感倾向。与现有技术在进行文本的情感倾向判断时,通常仅通过文本的情感得分判断文本的情感倾向相比,本发明实施例通过从同质数据抽取预定数量的文本作为待判断文本所属的语言范畴的语料,通过预置阈值对待判断文本所属的语言范畴的情感分布进行分割,并根据分割后的情感分布区间与待判断文本情感得分,判断待判断文本的情感倾向,更好的避免了文本的情感倾向判断结果的局限性和片面性,通过进一步精确情感分布区间的范围,从而进一步提高了文本的情感倾向判断的准确性。
进一步地,本发明实施例提供一种文本的情感倾向判断装置,如图3所示,所述装置包括:获取单元31,确定单元32,判断单元33。
获取单元31,可以用于获取待判断文本以及待判断文本对应的情感得分。
确定单元32,可以用于确定获取单元31获取的待判断文本所属的语言范畴的情感分布,所述待判断文本所属的语言范畴为包含所述待判断文本的同类或具备共性的文本的集合。
判断单元33,可以用于根据获取单元31获取的情感得分和确定单元32确定的情感分布,判断所述待判断文本的情感倾向。
需要说明的是,本发明实施例提供的一种文本的情感倾向判断装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供了一种文本的情感倾向判断装置,所述装置包括:获取单元,确定单元,判断单元。获取单元,用于获取待判断文本以及所述待判断文本对应的情感得分;确定单元,用于确定所述待判断文本所属的语言范畴的情感分布,所述待判断文本所属的语言范畴为包含所述待判断文本的同类或具备共性的文本的集合;判断单元,用于根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。与现有技术在进行文本的情感倾向判断时,通常仅通过文本的情感得分判断文本的情感倾向相比,本发明实施例通过根据待判断文本情感得分和待判断文本所属的语言范畴的情感分布,判断待判断文本的情感倾向,避免了文本的情感倾向判断结果的局限性和片面性,从而提高了文本的情感倾向判断的准确性。
进一步地,本发明实施例提供另一种文本的情感倾向判断装置,如图4所示,所述装置包括:获取单元41,确定单元42,判断单元43。
获取单元41,用于获取待判断文本以及所述待判断文本对应的情感得分。
确定单元42,用于确定所述待判断文本所属的语言范畴的情感分布,所述待判断文本所属的语言范畴为包含所述待判断文本的同类或具备共性的文本的集合。
判断单元43,用于根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。
进一步的,所述确定单元42包括:生成模块4201,确定模块4202。
生成模块4201,用于根据所述待判断文本对应的同质数据,生成所述待判断文本所属的语言范畴的语料。
确定模块4202,用于根据所述生成模块4201生成的语料中各个文本分别对应的情感得分,确定所述待判断文本所属的语言范畴的情感分布。
进一步的,所述生成模块4201包括:抽取子模块420101,确定子模块420102。
抽取子模块420101,用于从所述同质数据抽取预定数量的文本。
确定子模块420102,用于将所述抽取子模块420101抽取的预定数量的文本确定为所述待判断文本所属的语言范畴的语料。
进一步的,所述确定模块4202包括:计算子模块420201,确定子模块420202。
计算子模块420201,用于根据所述语料中各个文本分别对应的情感得分,计算所述语料的标准差及方差。
确定子模块420202,用于根据所述计算子模块420201计算的语料的标准差及方差,确定所述待判断文本所属的语言范畴的情感分布。
进一步的,所述判断单元43包括:分割模块4301,确定模块4302。
分割模块4301,可以用于根据预置阈值对所述情感分布进行分割,得到不同情感分布区间。
确定模块4302,可以用于根据所述分割模块4301分割的待判断文本对应的情感得分对应的情感分布区间,确定所述待判断文本对应的情感倾向。
需要说明的是,本发明实施例提供的另一种文本的情感倾向判断装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明提供的另一种文本的情感倾向判断装置。所述装置包括:获取单元,确定单元,判断单元。获取单元,用于获取待判断文本以及所述待判断文本对应的情感得分;确定单元,用于确定所述待判断文本所属的语言范畴的情感分布,所述待判断文本所属的语言范畴为包含所述待判断文本的同类或具备共性的文本的集合;判断单元,用于根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。与现有技术在进行文本的情感倾向判断时,通常仅通过文本的情感得分判断文本的情感倾向相比,本发明实施例通过从同质数据抽取预定数量的文本作为待判断文本所属的语言范畴的语料,通过预置阈值对待判断文本所属的语言范畴的情感分布进行分割,并根据分割后的情感分布区间与待判断文本情感得分,判断待判断文本的情感倾向,更好的避免了文本的情感倾向判断结果的局限性和片面性,通过进一步精确情感分布区间的范围,从而进一步提高了文本的情感倾向判断的准确性。
所述文本的情感倾向判断装置包括处理器和存储器,上述获取单元、确定单元、判断单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高文本的情感倾向判断的准确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取待判断文本以及所述待判断文本对应的情感得分;确定所述待判断文本所属的语言范畴的情感分布;根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种文本的情感倾向判断方法,其特征在于,包括:
获取待判断文本以及所述待判断文本对应的情感得分;
确定所述待判断文本所属的语言范畴的情感分布,所述待判断文本所属的语言范畴为包含所述待判断文本的同类或具备共性的文本的集合;
根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待判断文本所属的语言范畴的情感分布包括:
根据所述待判断文本对应的同质数据,生成所述待判断文本所属的语言范畴的语料;
根据所述语料中各个文本分别对应的情感得分,确定所述待判断文本所属的语言范畴的情感分布。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待判断文本对应的同质数据,生成所述待判断文本所属的语言范畴的语料包括:
从所述同质数据抽取预定数量的文本;
将所述预定数量的文本确定为所述待判断文本所属的语言范畴的语料。
4.根据权利要求2所述的方法,其特征在于,所述根据所述语料中各个文本分别对应的情感得分,确定所述待判断文本所属的语言范畴的情感分布包括:
根据所述语料中各个文本分别对应的情感得分,计算所述语料的标准差及方差;
根据所述语料的标准差及方差,确定所述待判断文本所属的语言范畴的情感分布。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据情感得分和所述情感分布,判断所述待判断文本的情感倾向包括:
根据预置阈值对所述情感分布进行分割,得到不同情感分布区间;
根据所述待判断文本对应的情感得分对应的情感分布区间,确定所述待判断文本对应的情感倾向。
6.一种文本的情感倾向判断装置,其特征在于,包括:
获取单元,用于获取待判断文本以及所述待判断文本对应的情感得分;
确定单元,用于确定所述待判断文本所属的语言范畴的情感分布,所述待判断文本所属的语言范畴为包含所述待判断文本的同类或具备共性的文本的集合;
判断单元,用于根据所述情感得分和所述情感分布,判断所述待判断文本的情感倾向。
7.根据权利要求6所述的装置,其特征在于,所述确定单元包括:
生成模块,用于根据所述待判断文本对应的同质数据,生成所述待判断文本所属的语言范畴的语料;
确定模块,用于根据所述语料中各个文本分别对应的情感得分,确定所述待判断文本所属的语言范畴的情感分布。
8.根据权利要求7所述的装置,其特征在于,所述生成模块包括:
抽取子模块,用于从所述同质数据抽取预定数量的文本;
确定子模块,用于将所述预定数量的文本确定为所述待判断文本所属的语言范畴的语料。
9.根据权利要求7所述的装置,其特征在于,所述确定模块包括:
计算子模块,用于根据所述语料中各个文本分别对应的情感得分,计算所述语料的标准差及方差;
确定子模块,用于根据所述语料的标准差及方差,确定所述待判断文本所属的语言范畴的情感分布。
10.根据权利要求6-9中任一项所述的装置,其特征在于,所述判断单元包括:
分割模块,用于根据预置阈值对所述情感分布进行分割,得到不同情感分布区间;
确定模块,用于根据所述待判断文本对应的情感得分对应的情感分布区间,确定所述待判断文本对应的情感倾向。
CN201611079387.XA 2016-11-29 2016-11-29 文本的情感倾向判断方法及装置 Pending CN108121734A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611079387.XA CN108121734A (zh) 2016-11-29 2016-11-29 文本的情感倾向判断方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611079387.XA CN108121734A (zh) 2016-11-29 2016-11-29 文本的情感倾向判断方法及装置

Publications (1)

Publication Number Publication Date
CN108121734A true CN108121734A (zh) 2018-06-05

Family

ID=62225997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611079387.XA Pending CN108121734A (zh) 2016-11-29 2016-11-29 文本的情感倾向判断方法及装置

Country Status (1)

Country Link
CN (1) CN108121734A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100306123A1 (en) * 2009-05-31 2010-12-02 International Business Machines Corporation Information retrieval method, user comment processing method, and systems thereof
CN103279460A (zh) * 2013-05-24 2013-09-04 北京尚友通达信息技术有限公司 网购评论的分析处理方法
CN103606097A (zh) * 2013-11-21 2014-02-26 复旦大学 一种基于可信度评价的产品信息推荐方法及系统
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN104866468A (zh) * 2015-04-08 2015-08-26 清华大学深圳研究生院 一种中文虚假顾客评论识别方法
CN104881402A (zh) * 2015-06-02 2015-09-02 北京京东尚科信息技术有限公司 中文网络话题评论文本语义倾向分析的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100306123A1 (en) * 2009-05-31 2010-12-02 International Business Machines Corporation Information retrieval method, user comment processing method, and systems thereof
CN103279460A (zh) * 2013-05-24 2013-09-04 北京尚友通达信息技术有限公司 网购评论的分析处理方法
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN103606097A (zh) * 2013-11-21 2014-02-26 复旦大学 一种基于可信度评价的产品信息推荐方法及系统
CN104866468A (zh) * 2015-04-08 2015-08-26 清华大学深圳研究生院 一种中文虚假顾客评论识别方法
CN104881402A (zh) * 2015-06-02 2015-09-02 北京京东尚科信息技术有限公司 中文网络话题评论文本语义倾向分析的方法及装置

Similar Documents

Publication Publication Date Title
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
CN106970912A (zh) 中文语句相似度计算方法、计算装置以及计算机存储介质
CN102929860B (zh) 一种基于上下文语境的中文分句情感极性判别方法
CN107436916B (zh) 智能提示答案的方法及装置
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN109101489A (zh) 一种文本自动摘要方法、装置及一种电子设备
CN111814476B (zh) 一种实体关系的抽取方法和装置
CN111144112A (zh) 文本相似度分析方法、装置和存储介质
Melamud et al. A two level model for context sensitive inference rules
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN106934006B (zh) 基于多叉树模型的页面推荐方法及装置
CN107368489A (zh) 一种资讯数据处理方法及装置
CN107491525A (zh) 分布式地址比对方法和装置
CN114840684A (zh) 基于医疗实体的图谱构建方法、装置、设备及存储介质
CN108108346A (zh) 文档的主题特征词抽取方法及装置
WO2023272862A1 (zh) 基于网络行为数据的风控识别方法、装置、电子设备及介质
CN106997340A (zh) 词库的生成以及利用词库的文档分类方法及装置
CN108229565A (zh) 一种基于认知的图像理解方法
US10073882B1 (en) Semantically equivalent query templates
US20230186212A1 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
CN113569018A (zh) 问答对挖掘方法及装置
CN116628162A (zh) 语义问答方法、装置、设备及存储介质
CN105786929B (zh) 一种信息监测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180605

RJ01 Rejection of invention patent application after publication