CN106610990B - 情感倾向性分析的方法及装置 - Google Patents
情感倾向性分析的方法及装置 Download PDFInfo
- Publication number
- CN106610990B CN106610990B CN201510695279.4A CN201510695279A CN106610990B CN 106610990 B CN106610990 B CN 106610990B CN 201510695279 A CN201510695279 A CN 201510695279A CN 106610990 B CN106610990 B CN 106610990B
- Authority
- CN
- China
- Prior art keywords
- subjective
- words
- sentences
- sentence
- emotional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002996 emotional effect Effects 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000008451 emotion Effects 0.000 claims abstract description 149
- 238000004458 analytical method Methods 0.000 claims abstract description 113
- 230000008569 process Effects 0.000 claims abstract description 3
- 230000011218 segmentation Effects 0.000 claims description 26
- 238000010586 diagram Methods 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 239000000463 material Substances 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000003086 colorant Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种情感倾向性分析的方法及装置,涉及互联网技术领域,为解决情感倾向性分析结果不准确的问题而发明。本发明的方法包括:识别学习文本中的主观句,学习文本中的句子对应有用于记录情感倾向性的标注语料;识别主观句中的情感词;在主观句中查找对情感词做出倾向性贡献的搭配词;将情感词与搭配词的组合,结合主观句的标注语料,生成情感倾向性分析规则;通过情感倾向性分析规则对目标文本中的句子进行规则匹配,获得目标文本的情感倾向性结果。本发明主要用于对汉语文本进行情感倾向性分析的过程中。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种情感倾向性分析的方法及装置。
背景技术
所谓情感倾向性分析,就是对文本内容中的主观性信息进行分析,挖掘文本所表达的观点和态度。由于每个人的立场、出发点各有不同,因此不同网民看待同一事物的信念、意见、情绪存在很大差异。在论坛、博客等反映草根观点的网络媒体上,这种差异通常表现的尤为明显。因此,为了有效了解网民对政策、时事的观点态度,需要对网络上的文本内容(例如留言)进行情感倾向性分析,定性分析出文本内容传递的观点态度是正向情感、负向情感还是中性情感。
现有技术主要采用词语匹配的方法进行情感倾向性分析。这种方法通过分词与词性组合的方式识别短语、句子的情感倾向性,然后通过对短语、句子的情感倾向性的累加获得整个文本的总体情感倾向性。词语匹配的方法需要人工对分词与词性组合的规则进行设定。人工设定的规则数量有限,往往难以覆盖所有的语言现象,为改善这种方式的缺陷,目前还出现了一种机器学习的分析方式。该方式能够由计算机基于给定情感倾向性的文本语料自动学习训练出情感分析规则,只要文本语料的样本空间足够大,就能够训练出足够多的情感分析规则。由于规则的设定无需人工介入,因此目前主流市场上大多采用机器学习的方式进行情感倾向性分析。
在实际应用中发明人发现,现有的机器学习方式会找出整个文本中的情感词,以及对情感词的倾向方向及倾向程度分别做出贡献的否定副词(例如几乎没有、不是、绝非等)和程度副词(例如一点、非常、特别等),然后根据情感词与副词的结合生成情感分析规则,并根据该规则对目标文本进行情感倾向性分析。这种方式仅仅定性考虑了文本中是否存在情感词和副词,但是并没有考虑情感词与副词之间的关系。举例而言,对于文本“调 控房价的政策还是起作用的,没有因施政范围过小而受到影响。”现有的学习方式着眼于文本内容整体找出情感词“起作用”和否定副词“没有”,然后将两者结合获得“没有起作用”的情感分析规则,显然这与该文本实际要表达的情感方向完全相反。可以看出,现有的机器学习方式容易生成错误的情感分析规则,由此影响情感倾向性分析结果的准确性。
发明内容
本发明提供了一种情感倾向性分析的方法及装置,能够解决因情感分析规则错误导致的情感倾向性分析结果不准确的问题。
为解决上述技术问题,一方面,本发明提供了一种情感倾向性分析的方法,该方法包括:
识别学习文本中的主观句,所述学习文本中的句子对应有用于记录情感倾向性的标注语料;
识别所述主观句中的情感词;
在所述主观句中查找对所述情感词做出倾向性贡献的搭配词;
将所述情感词与所述搭配词的组合,结合所述主观句的标注语料,生成情感倾向性分析规则;
通过所述情感倾向性分析规则对目标文本中的句子进行规则匹配,获得所述目标文本的情感倾向性结果。
另一方面,本发明还提供了一种情感倾向性分析的装置,该装置包括:
识别单元,用于识别学习文本中的主观句,所述学习文本中的句子对应有用于记录情感倾向性的标注语料;
所述识别单元还用于识别所述主观句中的情感词;
查找单元,用于在所述主观句中查找对所述情感词做出倾向性贡献的搭配词;
生成单元,用于将所述情感词与所述搭配词的组合,结合所述主观句的标注语料,生成情感倾向性分析规则;
匹配单元,用于通过所述情感倾向性分析规则对目标文本中的句子进行规则匹配,获得所述目标文本的情感倾向性结果。
本发明提供的情感倾向性分析的方法及装置,能够从学习文本中识别 出表达态度、观点或立场的主观句,然后识别主观句中带有主观色彩的情感词,在主观句中查找诸如程度副词、否定副词等对情感词的情感倾向做出贡献的搭配词,并将情感词与搭配词的组合结合主观句的标注语料,生成针对语句的情感倾向性分析规则,最后通过情感倾向性分析规则对目标文本中的句子进行规则匹配,获得目标文本的情感倾向性结果。与现有技术相比,本发明能够对主观句内的情感词和搭配词进行组合,而非将整篇文本中的情感词和搭配词进行组合。由于句子内的情感词和搭配词之间的关联程度较强,或者说基于一般的语言习惯而言,一个句子中的搭配词通常用于修饰该句中的情感词,因此机器学习获得的情感倾向性分析规则更为准确,使用这种规则进行情感倾向性分析可以大大提高分析结果的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种情感倾向性分析的方法流程图;
图2示出了本发明实施例提供的另一种情感倾向性分析的方法流程图;
图3示出了本发明实施例提供的一种情感倾向性分析的装置的组成框图;
图4示出了本发明实施例提供的另一种情感倾向性分析的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更 透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决现有技术中,基于机器学习方式获得的情感倾向性分析规则不准确的问题,本发明实施例提供了一种情感倾向性分析的方法,该方法可以通过对机器学习算法的改进,获得更为准确的情感倾向性分析规则,并能够通过对该规则的使用提升情感倾向性分析结果的准确性。如图1所示,该方法包括:
101、识别学习文本中的主观句,学习文本中的句子对应有用于记录情感倾向性的标注语料。
本实施例中的学习文本为机器学习所使用的样本数据,该学习文本在使用前通过人工方式添加有标注语料,用于记录句子的情感倾向性。例如,对于某文本“这项政策制定的非常好。”,其标注语料可以为“正向情感”。
本实施例中,学习文本中的标注语料包括针对自然句记录的标注语料,例如“这项政策制定的非常好。(正向情感)”,也包括针对标点句记录的标注语料,例如“这项政策出台的本意是好的(正向情感),但是并不被社会所认可(负向情感)。”,还可以包括针对短语、词、字的标注语料。其中,所谓自然句是指以句号、感叹号、问号等符号做结尾的完整语句,所谓标点句则是指以逗号、顿号、分号等符号做结尾的非完整语句。通常情况下,自然句由标点句组成。实际应用中,标注语料一般不添加到文本内容中,而是以配置信息等其他独立于文本内容的形式与文本内容进行关联,上述示例中标注语料的添加形式仅为便于理解之用,不作为对实际标注形式的具体限定。
情感倾向性的表达通常由两个维度的指标组合而成,其一为定性性质的倾向方向指标,例如正向情感、负向情感、中性情感;其二为定量性质的倾向程度指标,例如通过连续或离散的数值区分“一般”、“还行”、“好”、“很好”、“非常好”等不同程度的情感表达。一般情况下,标注语料中至少需要包含倾向方向指标,用于对语句的情感倾向进行最基本的定性标注。为便于方案的理解,本实施例后续及后续实施例将仅以定性分析情感倾向性为例进行说明。
在对学习文本进行学习时,首先要从文本中识别提取出包含观点、立场、态度等感情色彩的主观句,而对于不包含情感色彩的客观句(例如陈述句)则无需进行提取。主观句在一般情况下是以自然句的形式体现的。从语言习惯上讲,肯定句、否定句属于典型的主观句,但这并不代表主观句仅由上述两种句式组成。
在本实施例的一种实现方式中,可以通过最大熵模型、二值分类、支持向量机(Support Vector Machine,简称SVM)、决策树等算法对学习文本中的句子进行分析,并由此识别出文本中包含的主观句。应当说明的是,上述枚举的几种算法属于能够实现识别主观句功能的算法,并不代表实际应用中仅能通过上述几种算法对主观句进行识别。
102、识别主观句中的情感词。
所谓情感词是指能够表达主观情感色彩的词语。从词性上看,情感词通常以形容词、动词居多,例如“愉快”、“甜蜜”、“喜欢”、“认同”等;从句式结构上,情感词则多以谓语形式出现,例如“我喜欢你”、“你怕他”等。知网库给出了中英文情感分析用词语集(http://www.keenage.com/html/c_bulletin_2007.htm),该词语集是示例性的,不作为对本实施例涉及的情感词范围的封闭式限定。
在识别情感词时,首先通过预设算法对主观句进行分词,将句子拆分成词语或短语,然后通过情感词典从这些词语或短语中查找情感词。实际应用中,分词使用的算法包括但不限于是条件随机场(Conditional Random Fields,简称CRF)算法、最大熵模型算法、最短路径算法。在查找情感词时,从分词后的第一个词语开始遍历,依次将每个词语与情感词典中记录的标准情感词进行比对,如果与某个标准情感词比对一致,则表示该词语属于情感词;如果情感词典中没有与该词一致的标准情感词,则表示该词语不属于情感词。
示例性的,对于语句“我挺喜欢我自己”,分词后得到“我”、“挺”、“喜欢”、“我”和“自己”共5个词语,将这5个词语分别与情感词典进行比对后获得情感词“喜欢”。
103、在主观句中查找对情感词做出倾向性贡献的搭配词。
所谓搭配词是指能够与其他词语进行组合从而实现修饰功能的词语,理论上讲,任何词性的词语均可以作为搭配词使用。本实施例中的搭配词主要是指对动词、形容词等词性的情感词进行修饰的副词,包括但不限于是:时间副词、频率副词、方式副词、程度副词、疑问副词、连接副词、关系副词、表顺序的副词、肯定副词、否定副词。这其中,以程度副词、肯定副词和否定副词的使用最为典型。例如,表程度的副词可以是“我非常喜欢你”,表肯定的副词可以是“你这样做是对的”,表否定的副词可以是“这种行为不应得到赞扬”。
104、将情感词与搭配词的组合,结合主观句的标注语料,生成情感倾向性分析规则。
在找到主观句中的情感词和搭配词之后,将两者的组合作为分析规则的比对依据,同时将主观句的标注语料作为分析规则的结论标准,生成情感倾向性分析规则。
105、通过情感倾向性分析规则对目标文本中的句子进行规则匹配,获得目标文本的情感倾向性结果。
在通过机器学习获得分析规则后,就可以执行本步骤对作为分析对象的目标文本进行情感识别了。例如对于语句“我们热烈欢迎你”,其情感词为“欢迎”,搭配词为“热烈”、标注语料为“正向情感”,那么提取出来的情感倾向性分析规则可以是“欢迎+热烈+正向情感”。在使用该规则对目标文本中的语句“您的到来一定会受到与会人员的热烈欢迎”进行情感倾向性分析时,目标文本中包含“欢迎+热烈”的搭配组合,可以确定目标文本与该规则的比对依据相匹配,由此将结论标准“正向情感”作为目标文本的情感倾向性分析结果。
通常实际文本中会包含大量语句,在进行识别时,需要将这些语句依次与分析规则中的搭配组合进行匹配,如果匹配结果一致则得到该句的情感倾向性结果,如果比对不一致则对下一语句进行匹配。在对所有语句完成规则匹配后,将各个语句的情感倾向性结果进行加总(不限于是算数求和),从而获得整个目标文本的情感倾向性分析结果。
实际应用中情感倾向性有正负之分,在对各个语句的分析结果进行加 总时,会存在不同情感倾向正负抵消的情况。由于本实施例的最终目的在于对目标文本整体进行情感倾向性分析,因此这种抵消也在客观事实上反映出了目标文本整体的情感倾向趋势,所以不会对分析结果的正确性造成影响。
需要说明的是,在进行机器学习时,学习文档的样本空间通常很大,因此获得的分析规则的数量也会较多。在与分析规则进行匹配时,一个目标语句通常与所有分析规则依次进行匹配,只要能够与某一分析规则匹配上,那么就能获得对应该分析规则的分析结果。
现有技术中,情感词和副词是以文档整体为基础进行的提取和组合,这种方式忽视了情感词和副词之间的关联关系,当情感词和副词间距较远,特别是两者位于不同的句子甚至段落中时,现有方案容易错误判断副词对情感词的修饰作用,进而获得错误的情感倾向性分析规则。例如对于下述文本:
“a、人民群众始终是革命的主体,在这个非常时期尤其如是。……n、“四人帮”是反人民、反社会的害群之马,支持“四人帮”绝对不会得到好下场。……x、坚定不移的坚持党的领导,才是顺应人民、顺应社会、顺应时代的正确选择。”
根据文本整体提取的副词为“非常”和“不”,情感词为“好”和“正确”。按照现有的规则生成方式可能获得“非常好”、“不正确”这样的组合规则。可以看出,副词“非常”位于句子a中,用于修饰名词“时期”,而非修饰句子n中的情感词“好”;副词“不”则位于句子n中,用于修饰情感词“好”,但不是用于修饰句子x中的情感词“正确”。由于现有技术知识以文本整体为范畴进行词语提取,没有考虑到情感词与副词之间的搭配关系,因此会获得诸如“非常好”、“不正确”这样与文本原意不相称,甚至意思完全相反的错误规则。
而本实施例提供的情感倾向性分析的方法,仅对主观句中的情感词和副词进行提取和组合,词语之间的组合不受其他句子中无关情感表达的词语的影响。并且本实施例的方法仅限对属于同一个句子中的情感词和副词进行组合,而不会将位于不同的主观句中的情感词及副词进行机械搭配。 由于中文的语言习惯一般是使用一个句子表达一个主题相对集中和完整的意思,因此在句子内提取并组合情感词和副词,通常是符合语句表达的原意的。在上述示例中,本实施例从句子n中提取的分析规则为“不好”、从句子x中提取的分析规则为“正确”。通过示例可以看出,相对现有技术而言,本实施例提供的方法能够提高情感倾向性分析规则准确性,并进而提高情感倾向性分析结果的准确度。
进一步的,作为对图1所示方法的细化和扩展,本发明实施例还提供了一种情感倾向性分析的方法。如图2所示,该方法包括:
201、识别学习文本中的主观句。
本步骤的实现方式与图1步骤101的实现方式相同,此处不再赘述。
202、根据标点符号将主观句拆分为主观标点句。
在本实施例中,为进一步提升训练分析规则的准确性,需要将主观句拆分为一个或多个主观标点句,并通过后续步骤分别对不同的主观标点句进行情感词、副词提取。实际应用中,拆分出的主观标点句的数量主要由主观句的具体内容决定。例如对于主观句“不管你喜不喜欢我反正我喜欢你。”,其属于不可拆分的一个主观句;而对于主观句“我喜欢你,你喜欢我吗?”,则能够拆分成“我喜欢你”和“你喜欢我吗”两个主观标点句。
在执行本步骤时,从主观句字符串的第一个字符开始遍历,当检测到一个标点句符号时(例如逗号、顿号、分号等),将该标点句符号以前的字符序列识别为一个主观标点句。然后继续进行遍历和识别,直至检测到自然句符号(例如句号、叹号、问号等),将自然句符号以前、前一标点句符号之后的字符序列识别为一个主观标点句,完成主观标点句的拆分。
203、对主观标点句进行分词处理。
情感词和搭配词本质上属于词语,而拆分获得的主观标点句则为字符串。在查找情感词及搭配词之前,首先需要对主观标点句进行分词,按照语言习惯将字符串形式的主观标点句拆分为由一个或多个词语组成的分词序列。示例性的,对于主观标点句“被告人丁建设犯抢劫罪,”,分词后可获得分词序列“被告人丁建设犯抢劫罪”。
实际应用中,考虑到分词结果的准确性,在分词方式上还可以根据实 际需要选择正向匹配算法或逆向匹配算法进行分词。正向/逆向匹配算法获得的分词结果不同,可以通过结果后验的方式判断两种匹配算法的准确性,并择优使用。
实际应用中,分词结果还可能受到一些特殊名词的影响,例如对于上述示例,获得的分词序列可能为“被告人丁建设犯抢劫罪”。一般情况下,可以通过一些修正算法对错误的分词序列进行修正,或者在多个不同的分词序列中选择正确的分词序列。当然,对分词结果的修正或选择不属于本方案的重点,本实施例对此不作过多介绍。
204、识别主观标点句中的情感词。
依次将分词序列中的词语与情感词典进行对照,判断其是否为情感词。
在完成情感词的识别之后,就可以查找搭配词了。为提高搭配词与情感词关联的准确性,本实施例进一步细化了搭配词查找范围的粒度,着眼于主观标点句进行搭配词查找。同时,考虑到主观标点句之间、主观句之间可能存在能够影响情感词的情感方向或程度的连接副词(例如表递进、转折、因果等关系的副词),为了对主观句中的情感意图进行最大程度的还原,本实施例后续还会从主观标点句之间和主观句之间两个层次,进行搭配词的查找。
首先执行步骤205,查找主观标点句内的搭配词。
205、在主观标点句中,查找对主观标点句中的情感词做出倾向性贡献的搭配词。
本步骤中的搭配词是指与情感词位于同一主观标点句内的搭配词。所谓做出倾向性贡献是指能够对情感词的情感方向或情感程度产生影响。例如,“不喜欢”中的“不”属于左右情感方向的否定副词;“非常喜欢”中的“非常”属于决定情感程度的程度副词。
在查找搭配词时,首先从主观标点句对应的分词序列中提取可能与情感词组合使用的所有词语,并将这些词语分别与情感词进行组合,获得多个词语组合。然后通过预定的算法从多个词语组合中选择出作为分析规则的情感词与搭配词的词语组合。例如,对于分词序列“我很喜欢这本书”而言,与情感词“喜欢”有关的词语组合包括“我喜欢”、“喜欢这本书”、 “很喜欢”、“我很喜欢”、“很喜欢这本书”、“我喜欢书”等。
实际应用中,可以使用bigram算法获取上述所指的词语组合。bigram算法用于识别两个相邻的词语组合,这种词语组合是由两个词语组成的,并且这两个词语在分词序列中必须相邻,且先后顺序不变。考虑到实际应用中词语组合中的词语数量可能多于两个“例如“喜欢这本书””,为避免bigram算法对词语组合数量的限制,还可以替代使用N-gram算法获取词语组合。N-gram算法不对词语组合中的词语数量进行限制,因此能够涵盖更多的词语组合情况。但是N-gram算法也存在弊端,即N-gram算法同样要求多个词语在分词序列中必须相邻,且先后顺序不变,这就导致上述示例中诸如“我喜欢书”这样的词语组合无法被获取到。为解决此问题,还可以进一步考虑采用Skip-gram算法对N-gram算法进行替代。Skip-gram算法不对词语组合中的词语数量进行限制,同时也不限定词语之间的位置关系和先后顺序,因此能够最大程度获得所有的词语组合。
在获得多个词语组合后,可以通过词熵或词语基频规则从中筛选出有用的词语组合,作为情感倾向性分析规则使用,即筛选出包含副词并且副词对情感词产生贡献的词语组合。在上述示例中,“很喜欢”、“我很喜欢”、“很喜欢这本书”等词语组合可以用作情感倾向性分析规则。
206、在主观句中,查找对主观标点句中的情感词做出倾向性贡献、并且位于相邻的主观标点句中的搭配词。
在查找到同一个主观标点句中的情感词搭配词组合之后,执行步骤206,进一步查找主观标点句之间的情感词搭配词组合,即情感词位于一个主观标点句中、而搭配词位于另一个相邻主观标点句中的情况。下面以示例的形式对执行步骤206的必要性进行简单说明。
主观句“我喜欢这本书(a),但是……(b)”是由两个主观标点句组成,其中,句(a)中包含情感词“喜欢”,句(b)中包含转折副词“但是”。如果仅着眼于句(a)判断情感倾向性,则忽视了句(b)中“但是”对“喜欢”的转折修饰作用,容易对主观句真实的情感倾向性判断错误。因此,除了对主观标点句内的搭配词外,还需要进一步查找相邻主观标点句中的搭配词。
与步骤205类似的,在查找相邻主观标点句中的搭配词时,同样先通过Skip-gram算法获得词语组合,然后基于词熵或词语基频规则筛选有用的词语组合。但是与步骤205不同的是,本步骤中生成词语组合的范围是主观句内,即考虑了相邻主观标点句的情况。在上述示例中,通过步骤206获得的词语组合为“喜欢但是”。
207、查找对主观句中的情感词做出倾向性贡献、并且位于相邻的主观句中的搭配词。
考虑到相邻主观句之间也有可能存在诸如“但是”、“因此”等副词,因此可以进一步执行步骤207,查找情感词位于一个主观句中、而搭配词位于相邻主观句中的词语组合。
步骤207的实现方式与步骤206的实现方式相同,区别在于词语组合的查找范围由相邻主观标点句之间扩大到相邻主观句之间,本实施例不再对步骤207的实现方式进行重复性说明。
需要说明的是,对步骤205至步骤207执行顺序的限定仅为便于说明,实际应用中,可以任意排列三个步骤的执行顺序,或者同时执行步骤205至步骤207。
208、将情感词与搭配词的组合,结合主观句的标注语料,生成情感倾向性分析规则。
通过步骤205至步骤207的执行,分别获得主观标点句内的词语搭配组合、相邻主观标点句之间的词语搭配组合以及相邻主观句之间的词语搭配组合。然后分别结合三者各自的对应的标注语料,获得不同类型的情感倾向性分析规则。具体的:
将主观标点句中的情感词与搭配词的组合,结合主观标点句的标注语料,生成标点句分析规则。
将主观标点句中的情感词与同一主观句中相邻主观标点句中的搭配词的组合,结合相邻的两个主观标点句的标注语料,生成主观句分析规则。该标注语料可以是相邻主观标点句中任一主观标点句对应的标注语料,也可以是两个相邻主观标点句各自对应的标准语料的结合。
将主观句中的情感词与相邻主观句中的搭配词的组合,结合相邻的两 个主观句的标注语料,生成句间分析规则。该标注语料可以是相邻主观句中任一主观句对应的标注语料,也可以是两个相邻主观句各自对应的标准语料的结合。
209、通过情感倾向性分析规则对目标文本中的句子进行规则匹配,获得目标文本的情感倾向性结果。
在进行规则匹配时,需要将目标文本拆分成标点句和自然句。以标点句对应上述标点句分析规则进行匹配,以自然句对应上述主观句分析规则或句间分析规则进行匹配,获得多个分析结果。然后将多个分析结果进行汇总,获得整个目标文本对应的情感倾向性分析结果。
进一步的,作为对图1或图2所示方法的实现,本发明实施例还提供了一种情感倾向性分析的装置。本装置实施例与前述方法实施例对应,能够实现前述方法实施例中的全部内容。为便于阅读,本装置实施例仅对前述方法实施例中的内容进行概要性描述,不对方法实施例中的细节内容进行逐一赘述。如图3所示,该装置包括:识别单元31、查找单元32、生成单元33以及匹配单元34。其中,
识别单元31,用于识别学习文本中的主观句,学习文本中的句子对应有用于记录情感倾向性的标注语料;
识别单元31还用于识别主观句中的情感词;
查找单元32,用于在主观句中查找对情感词做出倾向性贡献的搭配词;
生成单元33,用于将情感词与搭配词的组合,结合主观句的标注语料,生成情感倾向性分析规则;
匹配单元34,用于通过情感倾向性分析规则对目标文本中的句子进行规则匹配,获得目标文本的情感倾向性结果。
进一步的,如图4所示,该装置进一步包括:
拆分单元35,用于在识别主观句中的情感词之前,根据标点符号将主观句拆分为主观标点句;
识别单元31用于识别主观标点句中的情感词。
进一步的,如图4所示,查找单元32包括:
第一查找模块321,用于在主观标点句中,查找对主观标点句中的情感 词做出倾向性贡献的搭配词;
第二查找模块322,用于在主观句中,查找对主观标点句中的情感词做出倾向性贡献、并且位于相邻的主观标点句中的搭配词。
进一步的,如图4所示,查找单元32进一步包括:
第三查找模块323,用于查找对主观句中的情感词做出倾向性贡献、并且位于相邻的主观句中的搭配词。
进一步的,如图4所示,生成单元33,包括:
第一生成模块331,用于将主观标点句中的情感词与搭配词的组合,结合主观标点句的标注语料,生成标点句分析规则;
第二生成模块332,用于将主观标点句中的情感词与同一主观句中相邻主观标点句中的搭配词的组合,结合相邻的两个主观标点句的标注语料,生成主观句分析规则;
第三生成模块333,用于将主观句中的情感词与相邻主观句中的搭配词的组合,结合相邻的两个主观句的标注语料,生成句间分析规则。
本实施例提供的情感倾向性分析的装置,能够从学习文本中识别出表达态度、观点或立场的主观句,然后识别主观句中带有主观色彩的情感词,在主观句中查找诸如程度副词、否定副词等对情感词的情感倾向做出贡献的搭配词,并将情感词与搭配词的组合结合主观句的标注语料,生成针对语句的情感倾向性分析规则,最后通过情感倾向性分析规则对目标文本中的句子进行规则匹配,获得目标文本的情感倾向性结果。与现有技术相比,本实施例能够对主观句内的情感词和搭配词进行组合,而非将整篇文本中的情感词和搭配词进行组合。由于句子内的情感词和搭配词之间的关联程度较强,或者说基于一般的语言习惯而言,一个句子中的搭配词通常用于修饰该句中的情感词,因此机器学习获得的情感倾向性分析规则更为准确,使用这种规则进行情感倾向性分析可以大大提高分析结果的准确度。
本实施例中的情感倾向性分析的装置包括处理器和存储器,上述识别单元31、查找单元32、生成单元33以及匹配单元34等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高情感倾向性分析规则的准确性,并由此提高情感倾向性分析的准确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:识别学习文本中的主观句,学习文本中的句子对应有用于记录情感倾向性的标注语料;识别主观句中的情感词;在主观句中查找对情感词做出倾向性贡献的搭配词;
将情感词与搭配词的组合,结合主观句的标注语料,生成情感倾向性分析规则;通过情感倾向性分析规则对目标文本中的句子进行规则匹配,获得目标文本的情感倾向性结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存 储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种情感倾向性分析的方法,其特征在于,所述方法包括:
识别学习文本中的主观句,所述学习文本中的句子对应有用于记录情感倾向性的标注语料,所述标注语料至少为正向情感、负向情感,所述标注语料是以配置信息的独立于文本内容的形式与文本内容进行关联;
根据标点符号将所述主观句拆分为主观标点句;
识别所述主观句中的情感词,包括:识别所述主观标点句中的情感词;
在所述主观句中查找对所述情感词做出倾向性贡献的搭配词,包括:在所述主观标点句中,查找对所述主观标点句中的情感词做出倾向性贡献的搭配词,进一步具体实施过程为:在查找搭配词时,首先从主观标点句对应的分词序列中提取可能与情感词组合使用的所有词语,并将这些词语分别与情感词进行组合,获得多个词语组合,然后通过预定的算法从多个词语组合中选择出作为分析规则的情感词与搭配词的词语组合,其中预定的算法至少为:使用bigram算法,或,使用N-gram算法,或,采用Skip-gram算法;
将所述情感词与所述搭配词的组合,结合所述主观句的标注语料,生成情感倾向性分析规则;
通过所述情感倾向性分析规则对目标文本中的句子进行规则匹配,在对所有语句完成规则匹配后,将各个语句的情感倾向性结果进行加总,获得所述目标文本的情感倾向性结果。
2.根据权利要求1所述的方法,其特征在于,所述在所述主观句中查找对所述情感词做出倾向性贡献的搭配词,包括:
在所述主观句中,查找对所述主观标点句中的情感词做出倾向性贡献、并且位于相邻的主观标点句中的搭配词。
3.根据权利要求2所述的方法,其特征在于,所述方法进一步包括:
查找对所述主观句中的情感词做出倾向性贡献、并且位于相邻的主观句中的搭配词。
4.根据权利要求3所述的方法,其特征在于,所述将所述情感词与所述搭配词的组合,结合所述主观句的标注语料,生成情感倾向性分析规则,包括:
将所述主观标点句中的情感词与搭配词的组合,结合所述主观标点句的标注语料,生成标点句分析规则;
将所述主观标点句中的情感词与同一主观句中相邻主观标点句中的搭配词的组合,结合相邻的两个主观标点句的标注语料,生成主观句分析规则;
将主观句中的情感词与相邻主观句中的搭配词的组合,结合相邻的两个主观句的标注语料,生成句间分析规则。
5.一种情感倾向性分析的装置,其特征在于,所述装置包括:
识别单元,用于识别学习文本中的主观句,所述学习文本中的句子对应有用于记录情感倾向性的标注语料,所述标注语料至少为正向情感、负向情感,所述标注语料是以配置信息的独立于文本内容的形式与文本内容进行关联;
拆分单元,用于在所述识别所述主观句中的情感词之前,根据标点符号将所述主观句拆分为主观标点句;
所述识别单元还用于识别所述主观句中的情感词,包括:用于识别所述主观标点句中的情感词;
查找单元,用于在所述主观句中查找对所述情感词做出倾向性贡献的搭配词;
所述查找单元包括:
第一查找模块,用于在所述主观标点句中,查找对所述主观标点句中的情感词做出倾向性贡献的搭配词,进一步具体实施过程为:在查找搭配词时,首先从主观标点句对应的分词序列中提取可能与情感词组合使用的所有词语,并将这些词语分别与情感词进行组合,获得多个词语组合,然后通过预定的算法从多个词语组合中选择出作为分析规则的情感词与搭配词的词语组合,其中预定的算法至少为:使用bigram算法,或,使用N-gram算法,或,采用Skip-gram算法;
生成单元,用于将所述情感词与所述搭配词的组合,结合所述主观句的标注语料,生成情感倾向性分析规则;
匹配单元,用于通过所述情感倾向性分析规则对目标文本中的句子进行规则匹配,在对所有语句完成规则匹配后,将各个语句的情感倾向性结果进行加总,获得所述目标文本的情感倾向性结果。
6.根据权利要求5所述的装置,其特征在于,所述查找单元包括:
第二查找模块,用于在所述主观句中,查找对所述主观标点句中的情感词做出倾向性贡献、并且位于相邻的主观标点句中的搭配词。
7.根据权利要求6所述的装置,其特征在于,所述查找单元进一步包括:
第三查找模块,用于查找对所述主观句中的情感词做出倾向性贡献、并且位于相邻的主观句中的搭配词。
8.根据权利要求7所述的装置,其特征在于,所述生成单元,包括:
第一生成模块,用于将所述主观标点句中的情感词与搭配词的组合,结合所述主观标点句的标注语料,生成标点句分析规则;
第二生成模块,用于将所述主观标点句中的情感词与同一主观句中相邻主观标点句中的搭配词的组合,结合相邻的两个主观标点句的标注语料,生成主观句分析规则;
第三生成模块,用于将主观句中的情感词与相邻主观句中的搭配词的组合,结合相邻的两个主观句的标注语料,生成句间分析规则。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求4中任意一项所述的情感倾向性分析的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求4中任意一项所述的情感倾向性分析的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510695279.4A CN106610990B (zh) | 2015-10-22 | 2015-10-22 | 情感倾向性分析的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510695279.4A CN106610990B (zh) | 2015-10-22 | 2015-10-22 | 情感倾向性分析的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106610990A CN106610990A (zh) | 2017-05-03 |
CN106610990B true CN106610990B (zh) | 2020-12-29 |
Family
ID=58613178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510695279.4A Active CN106610990B (zh) | 2015-10-22 | 2015-10-22 | 情感倾向性分析的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106610990B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558582B (zh) * | 2017-09-27 | 2022-09-27 | 北京国双科技有限公司 | 基于视角的句子情感分析方法及装置 |
CN108363725B (zh) * | 2018-01-08 | 2020-10-30 | 浙江大学 | 一种用户评论观点提取和观点标签生成的方法 |
CN110738046B (zh) * | 2018-07-03 | 2023-06-06 | 百度在线网络技术(北京)有限公司 | 观点抽取方法及装置 |
CN109783800B (zh) * | 2018-12-13 | 2024-04-12 | 北京百度网讯科技有限公司 | 情感关键词的获取方法、装置、设备及存储介质 |
CN112711941B (zh) * | 2021-01-08 | 2022-12-27 | 浪潮云信息技术股份公司 | 一种基于情感词典实体的情感得分的分析处理方法 |
CN115659961B (zh) * | 2022-11-01 | 2023-08-04 | 美云智数科技有限公司 | 用于提取文本观点的方法、装置以及计算机存储介质 |
CN117521680B (zh) * | 2024-01-04 | 2024-06-21 | 深圳和成视讯科技有限公司 | 一种记录仪的在线翻译方法及记录仪 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014119900A1 (ko) * | 2013-01-29 | 2014-08-07 | Lee Jong Sik | 인간의 감정 또는 성향 기반으로 한 사용자 인터페이스를 구비한 스마트 기기 및 사용자 인터페이스 방법 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108568A (ja) * | 2001-09-26 | 2003-04-11 | Communication Research Laboratory | 文章分類方法及び装置 |
CN102737013B (zh) * | 2011-04-02 | 2015-11-25 | 三星电子(中国)研发中心 | 基于依存关系来识别语句情感的设备和方法 |
CN102323944A (zh) * | 2011-09-02 | 2012-01-18 | 苏州大学 | 基于极性转移规则的情感分类方法 |
CN102867028B (zh) * | 2012-08-28 | 2015-10-14 | 北京邮电大学 | 一种应用于搜索引擎的情感映射方法与情感句型分析方法 |
CN102890707A (zh) * | 2012-08-28 | 2013-01-23 | 华南理工大学 | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 |
CN103544242B (zh) * | 2013-09-29 | 2017-02-15 | 广东工业大学 | 面向微博的情感实体搜索系统 |
US20150286710A1 (en) * | 2014-04-03 | 2015-10-08 | Adobe Systems Incorporated | Contextualized sentiment text analysis vocabulary generation |
-
2015
- 2015-10-22 CN CN201510695279.4A patent/CN106610990B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014119900A1 (ko) * | 2013-01-29 | 2014-08-07 | Lee Jong Sik | 인간의 감정 또는 성향 기반으로 한 사용자 인터페이스를 구비한 스마트 기기 및 사용자 인터페이스 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN106610990A (zh) | 2017-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11816438B2 (en) | Context saliency-based deictic parser for natural language processing | |
CN106610990B (zh) | 情感倾向性分析的方法及装置 | |
US11586827B2 (en) | Generating desired discourse structure from an arbitrary text | |
Milin et al. | Discrimination in lexical decision | |
Rintyarna et al. | Enhancing the performance of sentiment analysis task on product reviews by handling both local and global context | |
US9721005B2 (en) | Answering questions via a persona-based natural language processing (NLP) system | |
Schepens et al. | Cross-language distributions of high frequency and phonetically similar cognates | |
RU2571373C2 (ru) | Метод анализа тональности текстовых данных | |
US11194964B2 (en) | Real-time assessment of text consistency | |
US20230350929A1 (en) | Method and system for generating intent responses through virtual agents | |
US20160071119A1 (en) | Sentiment feedback | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
CN112417090A (zh) | 利用未提交的用户输入数据来提高任务性能 | |
JP6729095B2 (ja) | 情報処理装置及びプログラム | |
Joshi et al. | Investigations in computational sarcasm | |
Ríos-Toledo et al. | Detection of changes in literary writing style using N-grams as style markers and supervised machine learning | |
US20190019094A1 (en) | Determining suitability for presentation as a testimonial about an entity | |
CN114896382A (zh) | 人工智能问答模型生成方法、问答方法、装置及存储介质 | |
Kondurkar et al. | Modern applications with a focus on training chatgpt and gpt models: Exploring generative ai and nlp | |
CN112883729B (zh) | 文本创作的词汇推荐方法、装置及服务器 | |
Makrynioti et al. | PaloPro: a platform for knowledge extraction from big social data and the news | |
CN113486649A (zh) | 文本评论的生成方法以及电子设备 | |
JP6425732B2 (ja) | 文章検索システム、極性判定ルール修正システム、文章検索方法及び極性判定ルール修正方法 | |
CN116226677B (zh) | 平行语料构建方法及装置、存储介质及电子设备 | |
CN118093838B (zh) | 一种大语言模型提示词生成方法、系统、终端设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |