CN106598935B - 一种确定文档情感倾向性的方法及装置 - Google Patents

一种确定文档情感倾向性的方法及装置 Download PDF

Info

Publication number
CN106598935B
CN106598935B CN201510671710.1A CN201510671710A CN106598935B CN 106598935 B CN106598935 B CN 106598935B CN 201510671710 A CN201510671710 A CN 201510671710A CN 106598935 B CN106598935 B CN 106598935B
Authority
CN
China
Prior art keywords
emotion
word
dictionary
document
calibration value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510671710.1A
Other languages
English (en)
Other versions
CN106598935A (zh
Inventor
史立华
崔维福
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510671710.1A priority Critical patent/CN106598935B/zh
Publication of CN106598935A publication Critical patent/CN106598935A/zh
Application granted granted Critical
Publication of CN106598935B publication Critical patent/CN106598935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种确定文档情感倾向性的方法及装置,涉及计算机技术领域,解决了由于情感词的增加造成的情感词典增大以及文档分词复杂所共同导致的判断文档情感倾向性效率降低的问题。本发明主要的技术方案为:分别获取一个具有字典树结构的情感词典和一个具有字典树结构的修饰词典;将待测文档以字为单位分别与情感词典及修饰词典中字典树的各节点进行匹配,获取相匹配的情感词或修饰词;根据情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算待测文档的情感标定值;根据该待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定该待测文档的情感趋向。本发明主要用于判断文档的情感倾向性。

Description

一种确定文档情感倾向性的方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种确定文档情感倾向性的方法及装置。
背景技术
随着互联网各种媒介交流平台比如微博、twitter等的产生,越来越多的用户开始在网络上通过这些平台表达自己的情感。情感计算的应用越来越普及,很多大的互联网公司都已经推出了自己的舆情产品。舆情产品是一个典型网络大数据的应用,利用收集到的数据进行情感倾向性分析,统计出大家对某一个产品的正面、负面评价或者对某一事件的支持、反对程度,因而舆情产品的应用非常广泛,在一些产品的改进、服务的提升、风险的规避方面有非常重要的指导意义。
情感计算可以通过很多方法来实现,一般分为两大类型,一是基于机器学习的方法,二是纯粹基于词典的方法。机器学习的方法,一般是通过标记语料训练一个通用分类器,然后利用这个分类器来进行情感判断。基于词典的方法需要准备一个较大的情感词典,通过词典中情感词匹配的程度来进行情感判断。
机器学习的情感计算方法首先需要一批均衡的标记语料,可能来自于不同的数据来源或者各种各样的数据格式。因此,收集带标记的语料过程是比较耗费时间的,不同的数据来源具有不同的数据特点,可能需要使用不同的训练方式,工作量较大,训练时间较长。并且,不同领域的数据分布不相同,很难找到一个通用的模型适应所有的领域。而基于词典的情感计算过程需要一个情感词典,情感词内部包含一系列带有情感倾向的词汇,在实际计算过程中,利用情感词的情感程度累积来表示整个文档的情感值。一般需要先对文档进行分词。通常来说,词典要想取得好的更好的效果,只能通过不断增大情感词典,算法的复杂度将达到M*N,其中M是词典中词条的个数,N是文档中出现词语的个数。因此,在将文档进行分词后再带入情感词典进行计算会需要较长时间,影响文档的情感划分效率。
发明内容
有鉴于此,本发明提供一种确定文档情感倾向性的方法及装置,主要目的在于解决由于情感词的增加造成的情感词典增大以及文档分词复杂所共同导致的判断文档情感倾向性效率降低的问题。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供了一种确定文档情感倾向性的方法,该方法包括:
分别获取一个具有字典树结构的情感词典和一个具有字典树结构的修饰词典,其中,所述情感词典中包含带有情感标定值的情感词,所述修饰词典中包含带有修饰程度标定值的修饰词;
将待测文档以字为单位分别与所述情感词典及所述修饰词典中字典树的各节点进行匹配,获取相匹配的情感词或修饰词;
根据情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算所述待测文档的情感标定值;
根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
另一方面,本发明还提供了一种确定文档情感倾向性的装置,该装置包括:
第一获取单元,用于获取一个具有字典树结构的情感词典所述情感词典中包含带有情感标定值的情感词;
第二获取单元,用于获取一个具有字典树结构的修饰词典,所述修饰词典中包含带有修饰程度标定值的修饰词;
匹配单元,用于将待测文档以字为单位与所述第一获取单元获取的情感词典中字典树的各节点进行匹配,获取相匹配的情感词;
所述匹配单元还用于将待测文档以字为单位与所述第二获取单元获取的修饰词典中字典树的各节点进行匹配,获取相匹配的修饰词;
计算单元,用于根据所述匹配单元获取的情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算所述待测文档的情感标定值;
确定单元,用于根据所述计算单元计算的待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
依据上述本发明所提出的确定文档情感倾向性的方法及装置,是通过选取与待测试文档具有相同领域或行业的情感词典和修饰词典进行情感倾向性的判断,使得情感词以及修饰词的情感趋向更加准确。同时,在词典中引入了字典树的结构,将情感词或修饰词以更简单的词组或单个字的形式添加到字典树结构的节点中,与待测试文档的内容进行匹配测试。此外,在匹配时,待测试文档不再采用分词的方式进行拆分,而是通过单个字匹配的方式,逐字的在词典中进行匹配,以获取文档中所具有的情感词以及修饰词,并通过情感词和修饰词各自的取值计算文档的情感标定值,最终根据预设的情感值区间判断整个文档的情感趋向。与现有技术相比,本发明不仅在情感词典中使用的字典树结构可提高情感词典匹配情感词的效率,而且通过加入修饰词典的使用还能够对情感词的程度更为准确的限定,同时,对待测文档还省去了分词步骤,以字为单位逐个地进行匹配,也大幅提高了文档的处理效率。可见,本发明通过使用双词典匹配以及对测试文档处理方式的优化,从整体上提高了确定测试文档情感趋向的判断速度以及准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提出的一种确定文档情感倾向性的方法流程图;
图2示出了本发明实施例提出的另一种确定文档情感倾向性的方法流程图;
图3示出了本发明实施例中情感词典的字典树结构示意图;
图4示出了本发明实施例提出的一种确定文档情感倾向性的装置组成框图;
图5示出了本发明实施例提出的另一种确定文档情感倾向性的装置组成框图;
图6示出了本发明实施例提出的第三种确定文档情感倾向性的装置组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种确定文档情感倾向性的方法,如图1所示,该方法应用于对文档整体内容情感倾向性的定性分析,其中,文档的形式可以是短句、短文或是文章等,具体步骤包括:
101、分别获取一个具有字典树结构的情感词典和一个具有字典树结构的修饰词典。
本发明实施例是采用基于情感词典进行判断文档的情感倾向性的实现方法,而在对文档进行倾向性判断前,首先需要确定一个情感词典,该词典中包含有多个情感词,并且这些情感词都标记有与该词相对应的情感标定值。在本实施例中的情感词典相比于普通的情感词典,使用了字典树结构的组成方式,对于情感词的查询更加高效。
字典树,又称单词查找树或Trie树,是一种树形结构,还是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串,所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。在本发明实施例中,字典树的构建是将情感词典中的情感词进行拆解,得到更加简单的词,甚至是单个字,将相同的词或字做为同一个节点,与相关的其他词或字进行连接,组成树状结构的情感词典。在该情感词典中,每个节点的词或字都不相同,因此,通过对节点的查找,可以快速地定位情感词的位置,提高查找情感词典的速度。
由于构成文档的词语中,除了有表达情感的情感词外,还有许多的中性词,以及用来修饰情感词的修饰词。而情感词在经过修饰词的修饰后,其表达的情感程度可能会更加的加重,也可能会出现情感极性的转变。因此,情感词在经过修饰前后所表达出的实际情感标定值的差距会很大,甚至会影响到整篇文档的情感倾向。因此,在本实施例中,在获取一个情感词典的同时,还特别获取一个修饰词典,该修饰词典中包含有用于修饰情感词的多个修饰词,并且,根据修饰词的修饰程度标记不同的分值,使得每个修饰词都具有对应的修饰程度标定的值,同时,为了保证修饰词典的匹配查询效率,对该修饰词典中的修饰词同样建立字典树。
102、将待测文档以字为单位分别与情感词典及修饰词典中字典树的各节点进行匹配,获取相匹配的情感词或修饰词。
在选定情感词典和修饰词典后,还需要对待测试文档做进一步处理,在以往的情感计算过程中,一般是要对该文档进行分词处理,而现有的分词处理方法中并不能完全准确的将文档根据原文的意思进行分词。因此,本发明实施例不采用分词的方式,而是将文档进行更简便、更彻底、更可行的分解操作,就是将文档分成单个字,以字为单位逐个的在情感词典的字典树结构中进行查找,因为字典树中的节点内容都不相同,并且相对完整的词要简单,因此,在查找的速度以及准确度上都比现有的分词方式要高。在进行字的匹配查询时,一般是判断该字是否与情感词典中的节点内容相同,或者是与节点中内容的第一个字相同,如果相同则继续匹配该字后面的一个字是否与该节点的子节点相同,或者与该节点中内容的第二个相同,如果仍然相同,则继续匹配,直至无法再得到相同的子节点为止。如此,该字就完成了在情感字典中的匹配。提取出本次匹配成功的字,组成情感词,同时获取该情感词对应的情感标定值。通过以上的方式,可以得到文档中具有的所有情感词以及对应的情感标定值。需要说明的是本实施例对于具体情感词的匹配方式并不做限定。
在完成情感词典的匹配后,可以将没有匹配成功的字再与修饰词典中字典树的各个节点进行匹配,查看这些字中是否存在有修饰词,也可以将整个文档再次逐字的与修饰词典中的各个节点进行匹配。所匹配的方式与情感词典相同,经过匹配得出该文档中的所有修饰词并获取相对应的修饰程度标定值。
103、根据情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算所述待测文档的情感标定值。
在确定了待测文档中的情感词和修饰词后,还需要确定修饰词与情感词的修饰关系,也就是判断该修饰词是否用于修饰该情感词。一般是根据情感词和修饰词在待测文档中的位置,判断这两个词的位置是否相邻,如果相邻,就认为该修饰词用于修饰该情感词。此时,修饰词的修饰程度标定值就可以视为该情感词的情感标定值的权值,以计算该情感词的新情感标定值。
在计算待测文档的情感标定值时,是将上述计算出的新情感标定值与没有修饰词修饰的情感词的情感标定值累加得到待测文档的情感标定值。
104、根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
根据103步得到的待测文档的情感标定值并不能直接反应出该文档的情感趋向,而只是一个数值。要判断该文档的情感趋向则需要预先设置一个情感趋向的映射区间,规定不同区间中的值代表不同的情感趋向。其中,情感趋向的映射区间的分界值为一个经验值,是通过采用该情感词典对大量已知情感趋向的文档进行训练判断得到的。
一般的设置是将情感趋向设置为正面、负面和中性三种情感趋向。当然,也可以根据具体的需要将情感趋向进行更详细的划分,分出更多的区间。本实施例对情感趋向映射区间的划分不做具体限定。
只有在设定了情感趋向映射区间后,才能够判断待测文档的情感标定值是落在了哪个区间中,进而确定待测文档的情感趋向。
结合上述的实现方式可以看出,本发明实施例所采用的确定文档情感倾向性的方法,是通过选取与待测试文档具有相同领域或行业的情感词典和修饰词典进行情感倾向性的判断,使得情感词以及修饰词的情感趋向更加准确。同时,在词典中引入了字典树的结构,将情感词或修饰词以更简单的词组或单个字的形式添加到字典树结构的节点中,与待测试文档的内容进行匹配测试。此外,在匹配时,待测试文档不再采用分词的方式进行拆分,而是通过单个字匹配的方式,逐字的在词典中进行匹配,以获取文档中所具有的情感词以及修饰词,并通过情感词和修饰词各自的取值计算文档的情感标定值,最终根据预设的情感值区间判断整个文档的情感趋向。与现有技术相比,本发明不仅在情感词典中使用的字典树结构可提高情感词典匹配情感词的效率,而且通过加入修饰词典的使用还能够对情感词的程度更为准确的限定,同时,对待测文档还省去了分词步骤,以字为单位逐个地进行匹配,也大幅提高了文档的处理效率。可见,本发明通过使用双词典匹配以及对测试文档处理方式的优化,从整体上提高了确定测试文档情感趋向的判断速度以及准确性。
为了更加详细地说明本发明提出的一种确定文档情感倾向性的方法,本发明实施例以实际应用中的示例进行具体说明,如图2所示,该方法在确定文档情感倾向性时所包括步骤为:
201、创建情感词典与修饰词典。
情感词典是一个情感词的集合,因此要创建一个情感词典就需要先确定词典中的情感词。由于同一个词在不同的领域或行业中所代表的意思可能不同。因此,在创建情感词典时,要先确定一个行业或领域,这样做,对于待测试文档的判断就能够更加的准确。对于情感词典的创建方式,在现有的技术中可以是人工创建,也可以是通过语料库由机器自动筛选创建,本实施例对具体创建形式不做限定。
在情感词典中,会将情感词根据所表达的情感倾向分为正面、负面、中性三大类,并且根据每个情感词所表达的情感强度标记有不同的情感值,一般是将带有正面情感倾向的情感词标记为大于零的值,即正值;将带有负面情感倾向的情感词标记为小于零的值,即负值;将中性情感词的情感值标记为零。在本实施例中所创建的情感词典还会对情感词进行拆分,得到单个字。根据情感词中字的组成关系,在情感词典中建立字典树,例如,在情感词典中含有如下的情感词:美好、美丽、美人胚子、美人计,那么以这四个词所构建的字典树,如图3所示,每一个字都为字典树中的一个节点,其中“美”字是共有的节点,是节点“丽”,“好”,“人”的上一层节点,称为父亲节点,而这三个节点为“美”字节点的下一层节点,称为孩子节点。
此外,情感词典在需要增加情感词时,只需要确定情感词首字在字典树中节点的位置,或者是情感词中某个字的节点位置,根据节点的层级关系加入其它的字即可。
以上述同样的方式,创建具有字典树结构的修饰词典,区别在于对修饰词典中的修饰词进行修饰程度标定值的标记时,由于修饰词不存在中性词,所以对于修饰词的分类只需确定该修饰词的极性,即正面或负面,以及该修饰词的修饰程度即可。其中,在修饰词中的负面词一般是指含有否定词的修饰词。对于负面的修饰词,其修饰程度标定值的取值也为负值。
需要指出的是,本实施例中所创建的情感词典和修饰词典根据不同的领域或行业会创建多个不同的情感词典,在对待测文档进行测试时,可以根据测试文档的所述领域进行选择,进行有针对性的检测。
202、分别获取一个具有字典树结构的情感词典和一个具有字典树结构的修饰词典。
根据测试文档的领域获取在201中创建的领域相同或近似的一个情感词典和一个修饰词典,用于对测试文档进行情感倾向性的判断。
其中,选择领域相同或近似的目的是为了保证待测文档中的情感词和修饰词尽可能的包含在该情感词典与修饰词典中。
203、将待测文档以字为单位分别与情感词典及修饰词典中字典树的各节点进行匹配,获取相匹配的情感词或修饰词。
将待测试文档分解成单个字,以字为单位分别在情感字典和修饰词典中进行查找匹配。以一短句文档为例,“这个杯子颜色非常漂亮,造型也特别别致”,将这个短句分成单个字,分别在情感词典和修饰词典的字典树中依次查找“这”、“个”、“杯”、“子”…“非”、“常”、“漂”、“亮”…“别”、“致”。在情感词典中匹配,先查找“这”字,如果没有匹配的节点则查找下一个“个”字,在查找到“漂”字时,如果情感词典的字典树中存在有“漂”字的节点,情感词典会将该“漂”字节点设置为父亲节点,并将该节点的所有子节点与文档中“漂”字的后一个字进行匹配,如果存在“亮”字节点,则继续以“亮”字节点为父亲节点进行查找,直到子节点中没有与文档中相匹配的节点为止。将此次所有匹配成功的字组成情感词后,即“漂亮”,继续将文档中的其他字带入情感词典进行匹配,直到完成所有字的匹配,会在情感词典中匹配出“漂亮”、“别致”两个词。同时在情感词典中查找这两个词的情感标定值,假定两个词的情感标定值为1.5和2。
需要说明的是,当匹配完“漂”字后,由于“亮”字已经被匹配出,为了防止重复计算情感标定值,“亮”字将不再进行匹配,直接查找“亮”字后面的“造”字。虽然在该短句中不会将“亮”字匹配出其他的词,但是在一些多字的情感词中,中间字就有可能出现不同的词而被重复统计的情况,因此,在本实施例中,凡是被匹配过一次或是与前面字构成情感词被统计的字将不再进行匹配查找。
在匹配完情感词典后,再将所有字依次与修饰词典中字典树的各节点进行匹配,以相同的方式,可以匹配出“非常”、“特别”两个修饰词。同时,在修饰词典中获取这两个修饰词相应的修饰程度标定值,假定两个词的修饰程度标定值为1.3和1.4。
204、根据情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算所述待测文档的情感标定值。
在本实施例中判断情感词和修饰词之间的修饰关系就是确定情感词与修饰词在待测文档中的位置关系是否相邻。因此,本实施例中的一种可行的方式为在203步中进行分解文档为单个字时,将每个字分解出来的同时对该字标注一个位置标识,例如:在“这”字上标注1,“个”字上标注2。因为一个词中的字都是相邻的,因此该词中各个字的位置标识也是连续的。所以,要判断情感词和修饰词之间是否相邻,可以判断组成情感词和修饰词的字所带有的位置标识是否能够连续的排列。而在本实施例中,对于情感词和修饰词的前后关系并不限定,只要相邻就认为修饰词对情感词进行修饰。
针对上述的例子,确定“非常”修饰“漂亮”,“特别”修饰“别致”,在计算待测文档的情感标定值时,可以将非常”和“漂亮”组成词组,将“特别”和“别致”组成词组先计算词组的情感标定值,将修饰词的修饰程度标定值作为情感词的情感标定值的加权值,相乘得到词组的情感标定值。再累加所有的情感标定值得出待测文档的情感标定值,即1.3*1.5+1.4*2=4.75,该短句的情感标定值为4.75。而当情感词没有修饰词修饰时,例如“这个杯子颜色漂亮,造型也特别别致”,计算该短句的情感标定值为4.3,即1.5+1.4*2=4.3。
205、根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
在得到待测文档的情感标定值后,即标定值为4.75的短句,要判断该句的情感倾向,还需要设置一个情感趋向映射区间,在设置该映射区间时,还需要确定在取值范围中的两个阈值,即正面情感阈值和负面情感阈值,通过这两个阈值来确定区间的划分,将大于正面情感阈值的部分为定义为正趋向区间,当文档的情感标定值落在该区间中时,就说明该文档的内容所表达的情感是倾向于正面的;将小于负面情感阈值的部分为定义为负趋向区间,当文档的情感标定值落在该区间中时,就说明该文档的内容所表达的情感是倾向于负面的;将两个阈值中间的部分定义为中性区间,落在该区间中的文档所表达的内容是正向情感与负向情感相互抵消,可以视为不存在情感倾向的文档。在本实施例中,假设将正面情感阈值和负面情感阈值分别设置为1和-1,则{1,}为正趋向区间,{-1,1}为中性区间,{-,-1}为负趋向区间,据此,短句的情感标定值落在了正趋向区间,其内容的情感倾向性是倾向正面的。
需要说明的是,在实际应用中,可以通过增加阈值的取值个数来划分更多的情感趋向映射区间,以达到更加细致划分文档情感倾向的目的。
进一步的,作为对上述方法的实现,本发明实施例提供了一种确定文档情感倾向性的装置,如图4所示,该装置实施例与前述方法实施例相对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置包括:
第一获取单元41,用于获取一个具有字典树结构的情感词典所述情感词典中包含带有情感标定值的情感词;
第二获取单元42,用于获取一个具有字典树结构的修饰词典,所述修饰词典中包含带有修饰程度标定值的修饰词;
匹配单元43,用于将待测文档以字为单位与所述第一获取单元41获取的情感词典中字典树的各节点进行匹配,获取相匹配的情感词;
所述匹配单元43还用于将待测文档以字为单位与所述第二获取单元42获取的修饰词典中字典树的各节点进行匹配,获取相匹配的修饰词;
计算单元44,用于根据所述匹配单元43获取的情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算所述待测文档的情感标定值;
确定单元45,用于根据所述计算单元44计算的待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
进一步的,如图5所示,所述第一获取单元41包括:
创建模块411,用于根据不同的领域创建至少一个情感词典,所述情感词典中包含指定领域中的情感词;
标记模块412,用于将所述创建模块411创建的情感词典中的情感词按照正面、中性、负面三类进行划分,并根据情感词的情感程度标记情感标定值;
构建模块413,将所述创建模块411创建的情感词典中的情感词以字为单位构建字典树,得到具有字典树结构的情感词典;
获取模块414,用于在所述创建模块411创建的至少一个情感词典中获取一个所述待测试文档所属领域的情感词典。
进一步的,如图5所示,所述第二获取单元42包括:
创建模块421,用于根据不同的领域创建至少一个修饰词典,所述修饰词典中包含用于修饰指定领域中情感词的修饰词;
标记模块422,用于根据所述创建模块421创建的修饰词典中修饰词的修饰程度标记修饰程度标定值;
构建模块423,用于将所述创建模块421创建的修饰词典中的修饰词以字为单位构建字典树,得到具有字典树结构的修饰词典;
获取模块424,用于在所述创建模块421创建的至少一个情感词典中获取一个所述待测试文档所属领域的修饰词典。
进一步的,如图5所示,所述匹配单元43包括:
分解模块431,用于将所述待测文档分解为单个的字;
匹配模块432,用于根据所述分解模块431分解出的字在待测文档中的排列顺序与所述情感词典中字典树的各节点进行匹配;
所述匹配模块432还用于,根据所述字在待测文档中的排列顺序与所述修饰词典中字典树的各节点进行匹配;
所述匹配模块432还用于,当存在与所述字相匹配的节点时,在所述节点的子节点中匹配与所述字相邻的后一个字;
获取模块433,用于将所述匹配模块432匹配成功的字组成情感词,并获取所述情感词的情感标定值;
所述获取模块433还用于将所述匹配模块432匹配成功的字组成修饰词,并获取所述修饰词的修饰程度标定值。
进一步的,如图5所示,所述计算单元44包括:
判断模块441,用于根据所述情感词和所述修饰词在所述待测文档中的位置判断所述情感词与所述修饰词是否相邻;
组合模块442,用于当所述判断模块441的判断结果为相邻时,将所述情感词与所述修饰词组成情感词组,并将情感词的情感标定值与修饰词的修饰程度标定值的乘积设置为所述情感词组的情感标定值;
计算模块443,用于将所述组合模块442组成的情感词组的情感标定值与单独的情感词的情感标定值累加,计算出所述待测文档的情感标定值。
进一步的,如图6所示,所述装置还包括:
设置单元46,用于在所述确定单元确定所述待测文档的情感趋向之前,设置正面情感阈值和负面情感阈值;
划分单元47,用于将大于所述设置单元46设置的正面情感阈值的情感标定值区间划分为正趋向区间,将小于所述设置单元设置的负面情感阈值的情感标定值区间划分为负趋向区间,将所述正面情感阈值和所述负面情感阈值之间的区间范围划分为中性区间。
进一步的,所述标记模块422还用于,将正面情感词的情感值标记为大于零的值;将负面情感词的情感值标记为小于零的值;将中性情感词的情感值标记为零。
综上所述,本发明实施例所采用的确定文档情感倾向性的方法及装置,是通过选取与待测试文档具有相同领域或行业的情感词典和修饰词典进行情感倾向性的判断,使得情感词以及修饰词的情感趋向更加准确。同时,在词典中引入了字典树的结构,将情感词或修饰词以更简单的词组或单个字的形式添加到字典树结构的节点中,与待测试文档的内容进行匹配测试。此外,在匹配时,待测试文档不再采用分词的方式进行拆分,而是通过单个字匹配的方式,逐字的在词典中进行匹配,以获取文档中所具有的情感词以及修饰词,并通过情感词和修饰词各自的取值计算文档的情感标定值,最终根据预设的情感值区间判断整个文档的情感趋向。与现有技术相比,本发明不仅在情感词典中使用的字典树结构可提高情感词典匹配情感词的效率,而且通过加入修饰词典的使用还能够对情感词的程度更为准确的限定,同时,对待测文档还省去了分词步骤,以字为单位逐个地进行匹配,也大幅提高了文档的处理效率。可见,本发明通过使用双词典匹配以及对测试文档处理方式的优化,从整体上提高了确定测试文档情感趋向的判断速度以及准确性。
所述计算文本主题归属度的装置包括处理器和存储器,第一获取单元、第二获取单元、匹配单元、计算单元和确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决由于情感词的增加造成的情感词典增大以及文档分词复杂所共同导致的判断文档情感倾向性效率降低的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:分别获取一个具有字典树结构的情感词典和一个具有字典树结构的修饰词典;将待测文档以字为单位分别与情感词典及修饰词典中字典树的各节点进行匹配,获取相匹配的情感词或修饰词;根据情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算待测文档的情感标定值;根据该待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定该待测文档的情感趋向。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种确定文档情感倾向性的方法,其特征在于,所述方法包括:
分别获取一个具有字典树结构的情感词典和一个具有字典树结构的修饰词典,其中,所述情感词典中包含带有情感标定值的情感词,所述修饰词典中包含带有修饰程度标定值的修饰词;
将待测文档以字为单位分别与所述情感词典及所述修饰词典中字典树的各节点进行匹配,获取相匹配的情感词或修饰词;
根据情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算所述待测文档的情感标定值;
根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
2.根据权利要求1所述的方法,其特征在于,获取一个具有字典树结构的情感词典包括:
根据不同的领域创建至少一个情感词典,所述情感词典中包含指定领域中的情感词;
将所述情感词典中的情感词按照正面、中性、负面三类进行划分,并根据情感词的情感程度标记情感标定值;
将所述情感词以字为单位构建字典树,得到具有字典树结构的情感词典;
在所述至少一个情感词典中获取一个所述待测文档所属领域的情感词典。
3.根据权利要求1所述的方法,其特征在于,获取一个具有字典树结构的修饰词典包括:
根据不同的领域创建至少一个修饰词典,所述修饰词典中包含用于修饰指定领域中情感词的修饰词;
根据所述修饰词的修饰程度标记修饰程度标定值;
将所述修饰词以字为单位构建字典树,得到具有字典树结构的修饰词典;
在所述至少一个修饰词典中获取一个所述待测文档所属领域的修饰词典。
4.根据权利要求1所述的方法,其特征在于,所述将待测文档以字为单位分别与所述情感词典及所述修饰词典中字典树的各节点进行匹配,获取相匹配的情感词或修饰词包括:
将所述待测文档分解为单个的字;
根据所述字在待测文档中的排列顺序分别与所述情感词典以及修饰词典中字典树的各节点进行匹配;
当存在与所述字相匹配的节点时,在所述节点的子节点中匹配与所述字相邻的后一个字;
将匹配成功的字组成情感词或修饰词,并获取所述情感词的情感标定值或所述修饰词的修饰程度标定值。
5.根据权利要求1或4所述的方法,其特征在于,所述根据情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算所述待测文档的情感标定值包括:
根据所述情感词和所述修饰词在所述待测文档中的位置判断所述情感词与所述修饰词是否相邻;
若相邻,则将所述情感词与所述修饰词组成情感词组,并将情感词的情感标定值与修饰词的修饰程度标定值的乘积设置为所述情感词组的情感标定值;
将所述情感词组的情感标定值与单独的情感词的情感标定值累加,计算出所述待测文档的情感标定值。
6.根据权利要求1-4中任一项所述的方法,其特征在于,在所述根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向之前,所述方法还包括:
设置正面情感阈值和负面情感阈值;
将大于所述正面情感阈值的情感标定值区间划分为正趋向区间,将小于所述负面情感阈值的情感标定值区间划分为负趋向区间,将正面情感阈值和负面情感阈值之间的区间范围划分为中性区间。
7.根据权利要求2所述的方法,其特征在于,所述将所述情感词典中的情感词按照正面、中性、负面三类进行划分,并根据情感词的情感程度标记情感标定值,包括:
将正面情感词的情感标定值取大于零的值;
将负面情感词的情感标定值取小于零的值;
将中性情感词的情感标定值取为零。
8.一种确定文档情感倾向性的装置,其特征在于,所述装置包括:
第一获取单元,用于获取一个具有字典树结构的情感词典,所述情感词典中包含带有情感标定值的情感词;
第二获取单元,用于获取一个具有字典树结构的修饰词典,所述修饰词典中包含带有修饰程度标定值的修饰词;
匹配单元,用于将待测文档以字为单位与所述第一获取单元获取的情感词典中字典树的各节点进行匹配,获取相匹配的情感词;
所述匹配单元还用于将待测文档以字为单位与所述第二获取单元获取的修饰词典中字典树的各节点进行匹配,获取相匹配的修饰词;
计算单元,用于根据所述匹配单元获取的情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算所述待测文档的情感标定值;
确定单元,用于根据所述计算单元计算的待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
9.根据权利要求8所述的装置,其特征在于,所述匹配单元包括:
分解模块,用于将所述待测文档分解为单个的字;
匹配模块,用于根据所述分解模块分解出的字在待测文档中的排列顺序与所述情感词典中字典树的各节点进行匹配;
所述匹配模块还用于,根据所述字在待测文档中的排列顺序与所述修饰词典中字典树的各节点进行匹配;
所述匹配模块还用于,当存在与所述字相匹配的节点时,在所述节点的子节点中匹配与所述字相邻的后一个字;
获取模块,用于将所述匹配模块匹配成功的字组成情感词,并获取所述情感词的情感标定值;
所述获取模块还用于将所述匹配模块匹配成功的字组成修饰词,并获取所述修饰词的修饰程度标定值。
10.根据权利要求8或9所述的装置,其特征在于,所述计算单元包括:
判断模块,用于根据所述情感词和所述修饰词在所述待测文档中的位置判断所述情感词与所述修饰词是否相邻;
组合模块,用于当所述判断模块的判断结果为相邻时,将所述情感词与所述修饰词组成情感词组,并将情感词的情感标定值与修饰词的修饰程度标定值的乘积设置为所述情感词组的情感标定值;
计算模块,用于将所述组合模块组成的情感词组的情感标定值与单独的情感词的情感标定值累加,计算出所述待测文档的情感标定值。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求7中任意一项所述的一种确定文档情感倾向性的方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求7中任意一项所述的一种确定文档情感倾向性的方法。
CN201510671710.1A 2015-10-16 2015-10-16 一种确定文档情感倾向性的方法及装置 Active CN106598935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510671710.1A CN106598935B (zh) 2015-10-16 2015-10-16 一种确定文档情感倾向性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510671710.1A CN106598935B (zh) 2015-10-16 2015-10-16 一种确定文档情感倾向性的方法及装置

Publications (2)

Publication Number Publication Date
CN106598935A CN106598935A (zh) 2017-04-26
CN106598935B true CN106598935B (zh) 2019-04-23

Family

ID=58554594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510671710.1A Active CN106598935B (zh) 2015-10-16 2015-10-16 一种确定文档情感倾向性的方法及装置

Country Status (1)

Country Link
CN (1) CN106598935B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766331A (zh) * 2017-11-10 2018-03-06 云南大学 对单词情感值进行自动标定的方法
CN107862087B (zh) * 2017-12-01 2022-02-18 深圳爱数云科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN111767399B (zh) * 2020-06-30 2022-12-06 深圳平安智慧医健科技有限公司 一种基于不均衡文本集的情感分类器构建方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937436A (zh) * 2009-06-29 2011-01-05 华为技术有限公司 一种文本分类方法及装置
CN102411562A (zh) * 2010-09-21 2012-04-11 朱俭 一种基于语义块的情感特征生成算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8573475B2 (en) * 2011-03-22 2013-11-05 Christopher Rainer Zuleeg Zulu numbers for object identification and enhancement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937436A (zh) * 2009-06-29 2011-01-05 华为技术有限公司 一种文本分类方法及装置
CN102411562A (zh) * 2010-09-21 2012-04-11 朱俭 一种基于语义块的情感特征生成算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数字校园中文本情感倾向性计算方法研究;陈开望;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815(第8期);第I138-1535页

Also Published As

Publication number Publication date
CN106598935A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN106484664B (zh) 一种短文本间相似度计算方法
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及系统
CN108062302B (zh) 一种文本信息的识别方法及装置
CN104615589A (zh) 训练命名实体识别模型的方法、命名实体识别方法及装置
CN106202380B (zh) 一种分类语料库的构建方法、系统及具有该系统的服务器
CN105069072A (zh) 基于情感分析的混合用户评分信息推荐方法及其推荐装置
CN106649250B (zh) 一种情感新词的识别方法及装置
CN111143569A (zh) 一种数据处理方法、装置及计算机可读存储介质
CN107807910A (zh) 一种基于hmm的词性标注方法
CN111737494B (zh) 智能学习系统的知识图谱生成方法
CN112860841A (zh) 一种文本情感分析方法、装置、设备及存储介质
CN106598935B (zh) 一种确定文档情感倾向性的方法及装置
CN104699767B (zh) 一种面向中文语言的大规模本体映射方法
CN106227719B (zh) 中文分词歧义消除方法和系统
Haunert et al. An algorithm for map matching given incomplete road data
CN110427478A (zh) 一种基于知识图谱的问答搜索方法及系统
CN104391837A (zh) 一种基于格语义的智能语法分析方法
CN114841164A (zh) 一种实体链接方法、装置、设备及存储介质
CN107992550A (zh) 一种网络评论分析方法及系统
CN110851593A (zh) 一种基于位置与语义的复值词向量构建方法
CN104699844A (zh) 为广告确定视频标签的方法及装置
CN113901289A (zh) 一种基于无监督学习的推荐方法及系统
CN110688540B (zh) 一种作弊账户筛选方法、装置、设备及介质
CN112036737A (zh) 区域电量偏差的计算方法及装置
CN106126736A (zh) 面向软件安全性bug修复的软件开发者个性化推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Patentee before: Beijing Guoshuang Technology Co.,Ltd.

CP02 Change in the address of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for determining emotion tendencies of documents

Effective date of registration: 20190531

Granted publication date: 20190423

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right