CN102737013A

CN102737013A - 基于依存关系来识别语句情感的设备和方法

Info

Publication number: CN102737013A
Application number: CN2011100900995A
Authority: CN
Inventors: 周进华; 周志斌; 颜晓蔚; 陈汉文; 习志冁; 唐亮; 龚兴盛; 杨庆
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2011-04-02
Filing date: 2011-04-02
Publication date: 2012-10-17
Anticipated expiration: 2031-04-02
Also published as: CN102737013B

Abstract

提供一种基于依存关系来识别语句情感的设备和方法，其中，所述设备包括：存储单元，用于存储情感模型库，其中，在所述情感模型库中，从语料中预先获得的各个词语搭配条目被映射到对应的情感标签；依存关系分析单元，用于基于构成输入语句的各个词语的词性组成来分析所述输入语句中各个词语的依存关系；核心结构抽取单元，用于基于由依存关系分析单元分析出的依存关系来抽取所述输入语句的核心结构；语句情感识别模块，用于基于由核心结构抽取单元抽取出的核心结构以及由依存关系分析单元分析出的依存关系来生成所述核心结构的词语搭配条目，并从所述情感模型库中搜索与所生成的词语搭配条目对应的情感标签。

Description

基于依存关系来识别语句情感的设备和方法

技术领域

本发明涉及计算语言学中的情感识别技术，更具体地说，本发明涉及一种用于识别语句所表达的情感种类的设备和方法。

背景技术

计算语言学(Computational Linguistics)指的是这样一门学科，它通过建立形式化的训练模型，来分析、处理自然语言，并借助于计算机硬件和软件的交互作用来实现语句的转换、分析和处理，从而达到利用机器来模拟人的部分乃至全部语言能力的目的。

语言的情感在人与人的交互中起着非常重要的作用，它能够影响人的理性思维、感知、决策和学习能力。基本上，情感可以分为高兴、悲伤、生气、惊讶、仇恨和恐惧等。当今，人机接口技术遇到的最大挑战之一就是如何设计更加智能的人机接口，使得人和机器的交互能够像人和人的交互那样自然、可信。这种人机接口要求计算语言学中的机器能够识别、理解和处理人的情感，甚至表达情感。研究人员试图通过多种途径识别用户的情感，比如通过面部表情、语音、生理特征和文本等。虽然基于文本化的语句来识别用户情感不能像从表情、语音和生理特征识别情感那么直接和准确，但是文本形式(或类似文本的形式)是特别重要的一种输入和输出语句的方式，而目前绝大多数的人机交互应用都基于文本输入方式，所以基于文本的情感识别方法能够作为其它情感识别方法的有益补充，提高情感识别的准确率。

目前，与文本形式相关的情感识别方法主要包括：基于关键词的方法、词汇相关度的方法、利用大规模现实世界知识的方法。其中，基于关键词的方法是最基础、最主流的方法，它根据情感关键词等来判断语句的情感。基于词汇相关度的方法比基于关键词的方法更成熟一点，该方法给任意词分配对应特定情感的相关度，所述相关度可以是一个概率值，例如，词语“事故”有80％的概率指示负面情感，常见的有“交通事故”、“安全生产事故”等。利用大规模现实世界知识的方法采用一个非常大的常识库，如OMCS(OpenMind Commonsense，开放常识库)。该常识库中有关于现实世界各种情况、事件、人物和活动的知识，其中一部分是情感相关的知识(大约占10％)。利用大规模现实世界知识的方法就是利用情感常识进行情感计算。

例如，公开号为CN101782898的中国专利申请《一种情感词倾向性的分析方法即公开了一种情感词倾向性的分析方法，包括：抓取网络上带有星级的评论信息；抽取评论信息中的情感词；通过将利用星级数值化计算得到的情感词倾向性、利用构建的种子情感词基于PMI-IR算法获取的情感词倾向性以及基于连词性质计算的情感词倾向性加权求和，获取情感词的倾向性。上述以情感词为基础进行语句情感识别的方式存在以下缺点：

1、以关键情感词为基础的方法仅依赖于表层信息，对于不含情感词汇和表达否定意义的语句通常都无能为力。比如句子“我躲过了一场车祸”，如果仅根据关键词“车祸”，该句会被错误地识别成负面情感，但是该句中动词“躲过”改变了整句的情感倾向，实际上该句表达的是一种正面情感。

2、当语句中含有相反情感倾向的关键词时，以关键情感词为基础的方法难于做出正确的判断。比如句子“敌人残忍地杀害了热心的老村长”，该句中“残忍”是负面情感词，而“热心”是正面情感词。基于关键词的情感识别方法难于准确识别该类句子表达的情感。

3、中文多义词比较多，情感词汇中也有多义词。对于多义的情感关键词，基于关键词的方法不管是否含有情感，或含有何种情感，都只是简单地把它识别成预定的某种情感。比如“简单”，在句子“这个改进方案也太简单了”中表达一个负面的情感，但在句子“请简单地介绍一下你自己”中，它没有明显的情感倾向。但是上述两种情感在基于关键词的识别方法中将被识别为一种情感。

因此，需要一种能够改进关键词识别方式中存在的上述缺陷的技术方案。

发明内容

本发明并不受限于必然解决上述技术问题，其目的在于提供一种能够基于语句中各个词语的依存关系来抽取出语句的核心结构，从而识别语句情感的设备及其方法。

根据本发明的一方面，提供一种基于依存关系来识别语句情感的设备，所述设备可包括：存储单元，用于存储情感模型库，其中，在所述情感模型库中，从语料中预先获得的各个词语搭配条目被映射到对应的情感标签；依存关系分析单元，用于基于构成输入语句的各个词语的词性组成来分析所述输入语句中各个词语的依存关系；核心结构抽取单元，用于基于由依存关系分析单元分析出的依存关系来抽取所述输入语句的核心结构；语句情感识别模块，用于基于由核心结构抽取单元抽取出的核心结构以及由依存关系分析单元分析出的依存关系来生成所述核心结构的词语搭配条目，并从所述情感模型库中搜索与所生成的词语搭配条目对应的情感标签。

核心结构抽取单元可在基于分析出的依存关系来抽取核心结构时还依据所述输入语句的句型结构。

所述核心结构可以是动宾结构或主谓结构或被动结构。

当核心结构抽取单元抽取核心结构时，还可统计核心结构中核心词的否定词个数，当否定词个数为奇数时，对搜索的情感标签进行置反。

当核心结构抽取单元抽取核心结构时，还可统计核心结构中核心词的修饰词。

语句情感识别模块可基于知识库来扩展生成的词语搭配条目。

语句情感识别模块可按照生成的全部词语搭配条目的优先级别来搜索对应的情感标签。

根据本发明的另一方面，提供一种基于依存关系来生成语句情感模型库的方法，所述方法可包括：从语料收集语句，并手动标注每个语句的情感标签；基于构成每个语句的各个词语的词性组成来分析所述每个语句中各个词语的依存关系；基于依存关系来抽取所述每个语句的核心结构；基于核心结构以及依存关系来生成所述核心结构的词语搭配条目列表，并将所述每个语句的情感标签映射到生成的各个词语搭配条目；针对所有语句来统计每个词语搭配条目与各个情感标签映射的概率，并将概率值最大的情感标签确定为所述每个词语搭配条目对应的情感标签。

根据本发明的另一方面，提供一种基于依存关系来识别语句情感的方法，所述方法可包括：基于构成输入语句的各个词语的词性组成来分析所述输入语句中各个词语的依存关系；基于分析出的依存关系来抽取所述输入语句的核心结构；基于抽取出的核心结构以及分析出的依存关系来生成所述核心结构的词语搭配条目，并从情感模型库中搜索与所生成的词语搭配条目对应的情感标签，其中，在所述情感模型库中，从语料中预先获得的各个词语搭配条目被映射到对应的情感标签。

基于分析出的依存关系来抽取核心结构的步骤还可包括：依据所述输入语句的句型结构来抽取核心结构。

抽取核心结构的步骤还可包括：统计核心结构中核心词的否定词个数，当否定词个数为奇数时，对搜索的情感标签进行置反。

附图说明

通过下面结合附图进行的对实施例的描述，本发明的上述和/或其它目的和优点将会变得更加清楚，其中：

图1是示出根据本发明示例性实施例的语句情感识别设备的框图；

图2是示出根据本发明示例性实施例的语句情感识别方法的流程图；

图3是示出根据本发明示例性实施例的语句依存关系的示图；

图4示出根据本发明示例性实施例的核心结构抽取处理的流程图；

图5示出根据本发明示例性实施例的否定词统计处理的流程图；

图6示出根据本发明示例性实施例的动补关系处理的流程图；

图7示出根据本发明示例性实施例的把字句处理过程的流程图；

图8示出根据本发明示例性实施例的被字句处理过程的流程图；

图9示出根据本发明示例性实施例的兼语句处理过程的流程图；

图10示出根据本发明示例性实施例的复杂句处理过程的流程图；以及

图11示出根据本发明示例性实施例的产生词语搭配条目并从情感模型库搜索对应的情感标签的处理的流程图。

具体实施方式

现将详细说明本发明的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本发明。

根据本发明示例性实施例的语句情感识别设备基于语句的依存关系来抽取语句的核心结构，并基于所述核心结构和依存关系来生成相关的词语搭配条目，从而在事先训练得到的情感模型库中搜索与上述词语搭配条目对应的情感标签，作为所述语句表达的情感。

图1是示出根据本发明示例性实施例的语句情感识别设备的框图。如图1所示，根据本发明示例性实施例的语句情感识别设备包括：存储单元10，用于存储情感模型库，其中，在所述情感模型库中，从语料中预先获得的各个词语搭配条目被映射到对应的情感标签；依存关系分析单元20，用于基于构成输入语句的各个词语的词性组成来分析所述语句中各个词语的依存关系；核心结构抽取单元30，用于基于由依存关系分析单元20分析出的依存关系来抽取所述语句的核心结构；语句情感识别模块40，用于基于由核心结构抽取单元30抽取出的核心结构以及由依存关系分析单元20分析出的依存关系20来生成所述核心结构的词语搭配条目，并从所述情感模型库中搜索与所生成的词语搭配条目对应的情感标签。

作为可选部件，图1所示的语句情感识别设备还可包括：词语划分单元50，用于对输入的语句进行词语划分，并输出划分的各个词语；词性标注单元60，用于对由词语划分单元50划分的各个词语进行词性标注，以获得所述各个词语的词性组成，并将所述词性组成提供给依存关系分析单元20。

作为示例，可通过通用的处理器或专门的情感模型库生成模块来生成所述情感模型库，在所述情感模型库中，预先从语料获得的各个词语搭配条目被分别映射到统计后对应的情感标签，其中，情感标签被用于表示情感种类，例如，所述情感种类可包括：平静、喜悦、生气、愤怒、后悔、同情、悲哀、忧愁、紧张、焦急、烦闷、恐惧、惊讶、喜爱、期望、失望、委屈、内疚、厌恶、贪欲、嫉妒、傲慢、惭愧、鄙视、疑惑，中性。上述26种情感标签是在中国著名心理学家林传鼎提出的18种情感分类的基础上修改而成。应理解：上述分类仅仅是示例性的，并不构成对本发明的限制。

以下来描述上述情感模型库的一种示例性训练生成方式，然而，本发明并不受限于情感模型库的具体训练过程，任何可生成词语搭配条目与对应的情感标签的映射关系的方式均可被用于生成情感模型库。

具体说来，训练情感模型是指从已标注情感的语料库中学习情感知识，即将语言中的各个词语搭配条目映射到特定情感，产生相应的映射关系，比如映射关系“杀害姑娘||愤怒”，其中，“杀害姑娘”指示特定的词语搭配条目，而“愤怒”指示与上述词语搭配条目对应的情感标签。这种映射关系的确定需要基于大量样本的分析和统计，以下将描述针对中文语句的样本来训练生成情感模型库的示例。

1、收集语料：从中学语文课本等标准语言资料上选取中文语句，为了建立可靠的情感模型，选取的语句需达到一定的数量，例如，可选择大概200万句左右。

2、手动情感标注：对选取的各个语句进行手动情感标注，例如，可将表示上述26种情感之一的情感标签赋予选取的各个语句。

3、语句处理：

3.1、词语划分：对各个语句进行词语划分。例如，对于中文句子“敌人残忍地杀害了热心的老村长”，词语划分后的输出结果为“敌人残忍地杀害了热心的老村长”。

3.2、词性标注：对以上划分的各个词语标注词性，以上面的句子“敌人残忍地杀害了热心的老村长”为例，其词性标注后的形式为“敌人/n残忍/a地/u杀害/v了/u热心/a的/u老/a村长/n”，其中，n指示名词、a指示副词或形容词、u指示助词、v指示动词。

3.3、依存句法分析：根据依存句法来分析语句中各个词语之间的依存关系。所述依存句法是指分析语句的中心词及词语之间的依存关系来揭示其句法结构。按照依存句法，一个语句只有一个成分是独立的，语句中的其它成分直接依存于某一成分，而且任何一个成分都不能依存于两个或两个以上的成分。如果成分A直接依存于成分B，而成分C在语句中位于A和B之间，那么成分C或者依存于A，或者依存于B，或者依存于A和B之间的某一成分。依存分析中没有非终结符，词与词之间直接发生依存关系，构成一个依存对，其中一个是支配词，另一个是从属词，依存关系用弧表示，从支配词指向从属词，每个依存弧上有一个叫做关系类型的标记。例如，上述语句的依存关系分析结果可被存储为XML格式，其中，word id指示词语的索引，cont指示词语的内容，pos指示词语的词性，parent指示词语所依赖的支配词的索引，relation指示词语与其支配词的依存关系：

3.4、核心结构抽取：该操作用于抽取语句中表达主要情感的核心结构，并作为优选步骤，同时登记核心结构的修饰词或否定词等信息。由于语句的主要情感是由核心结构表达的，所以可通过识别核心结构的情感状态来识别语句的情感。例如，对中文语句来说，语句的核心结构是句子的动宾结构。如果句中没有动宾结构，则该句可能是为了描述一种状态或陈述一个事实，此时，该句的主谓结构是其核心结构。例如，对于上述例句，由于有动宾结构VOB，从而抽取动宾结构“杀害村长”作为句子的核心结构。关于核心结构的数据可被存储为以下形式：

3.5、确定映射关系：该操作用于向与抽取的核心结构相关的词语搭配条目赋予所在语句的情感标签，在统计过大量样本之后，将某一词语搭配条目对应次数最多的情感标签确定为与该词语搭配条目映射的情感标签。其中，由于单纯根据核心结构本身的词语搭配条目进行统计会出现数据稀疏的问题，作为优选方式，可利用修饰词对核心结构本身的词语搭配条目进行扩展，或者可借助于知识库中同义词，名词的类别信息等对核心结构本身的词语搭配条目进行扩展以减小数据稀疏带来的问题。例如，对于动词和形容词，可查询知识库以获取该动词、形容词的同义词列表，对于名词，可查询知识库以获取该名词的上位概念，然后将动词或形容词的同义词列表中的各词和名词上位概念列表中的各词依次搭配，并向由此得到的扩展词语搭配条目赋予原语句的情感标签。

3.5.1、词语概念扩展：该操作是借助知识库扩展各语句核心结构的词语搭配条目(或可包括修饰词)，生成扩展的词语搭配条目，并向所述扩展的词语搭配条目赋予核心结构的情感标签。

作为示例a)，对于依存关系为“VOB”的动宾结构，一般是前面的动作部分为核心词，确定相关的词语搭配条目的步骤如下：

a1、将核心结构的核心动词和宾语形成词语搭配条目，优选地，如果对于词语搭配条目存在奇数个否定词，则在词语搭配条目后加“-”以标识。

a2、通过知识库查找核心动词的同义词。

a3、如果宾语为名词，则通过知识库查找该名词的上位概念类型。

a4、如果宾语不为名词，则通过知识库查找同义词。

a5、用核心动词的同义词依次和用同义词或上位概念类型扩展的宾语构成词语搭配条目，优选地，如果对于词语搭配条目存在奇数个否定词，同样在词语搭配条目后加“-”以标识。

a6、如果核心动词有修饰词，则通过知识库查找该修饰词的同义词，依次增加修饰词及其同义词和核心词及其同义词的词语搭配条目，优选地，如果对于词语搭配条目存在奇数个否定词，同样在词语搭配条目后加“-”以标识。

a7、增加核心动词及其同义词的词语搭配条目，优选地，如果对于词语搭配条目存在奇数个否定词，同样在词语搭配条目后加“-”以标识。

作为示例b)，对于依存关系为“SBV”的主谓结构，一般是谓语词为核心词，确定相关的词语搭配条目的步骤如下：

b1、将核心结构的主语和谓语核心词形成词语搭配条目，优选地，如果对于词语搭配条目存在奇数个否定词，则在词语搭配条目后加“-”以标识。

b2、如果主语是代词，则通过知识库查找同义词。

b3、如果主语是名词，则通过知识库查找名词的上位概念。

b4、通过知识库查找谓语核心词的同义词。

b5、依次用谓语核心词及其同义词顺序地和主语词的同义词或上位概念构成词语搭配，优选地，如果对于词语搭配条目存在奇数个否定词，同样在词语搭配条目后加“-”以标识。

b6、如果谓语核心词有修饰词，则通过知识库查找修饰词的同义词，依次增加修饰词及其同义词和核心词及其同义词的词语搭配条目，优选地，如果对于词语搭配条目存在奇数个否定词，同样在词语搭配条目后加“-”以标识。

b7、增加谓语核心动词及其同义词的词语搭配条目，优选地，如果对于词语搭配条目存在奇数个否定词，同样在词语搭配条目后加“-”以标识。

以上述语句“敌人残忍地杀害了热心的老村长”为例，该句的核心结构为动宾结构，而且“杀害”是动词，通过知识库找到它的同义词；而“村长”是名词，则从知识库中找到它的上位概念。假设知识库是哈尔滨工业大学出版社出版的《同义词林》，则查询的结果如下：

杀害→{杀死，暗杀，屠杀}

村长→{领袖，领导}

针对这一查询结果，按照上述方式来扩展生成各个词语搭配条目，并向所述词语搭配条目赋予原语句的情感标签“喷怒”，从而生成并记录带有情感标签的词语搭配条目记录，如果该带有情感标签的词语搭配条目记录是首次被生成，则将其出现次数赋予1，如果该带有情感标签的词语搭配条目记录已经存在，则将其出现次数加1。优选地，应注意对应的核心结构中核心词的否定词个数，即negation的属性记录的值之和。如果否定词个数为奇数，则需在词语搭配条目后面加一个符号“-”，表示取词语搭配条目所表达情感的相反情感。所述词语搭配条目的记录如下所示：

杀害村长||愤怒1

杀害领袖||愤怒2

杀害领导||愤怒3

暗杀村长||愤怒1

暗杀领袖||愤怒5

暗杀领导||愤怒4

屠杀村长||愤怒1

屠杀领袖||愤怒1

屠杀领导||愤怒1

由于核心词“杀害”有修饰词“残忍”，因此通过知识库查找到它的同义词为{毒辣，阴险}，然后，依次增加修饰词及其同义词和核心词及其同义词的词语搭配条目。最后，添加只有核心词及其同义词映射到情感的记录。新增的记录如下：

残忍杀害||愤怒4

毒辣杀害||愤怒1

阴险杀害||愤怒2

残忍暗杀||愤怒1

毒辣暗杀||愤怒1

阴险暗杀||愤怒2

残忍屠杀||愤怒3

毒辣屠杀||愤怒1

阴险屠杀||愤怒2

杀害||愤怒7

暗杀||愤怒5

屠杀||愤怒4

3.5.2、生成情感概率文件

情感模型是指将上述词语搭配条目映射到特定情感的概率文件。设L为某种特定情感标签，W1W2为词语搭配，则词语W1W2映射到所述特定情感标签L的概率P(L|W1W2)的计算公式为：

P (L | W 1 W 2) = \frac{N (L, W 1 W 2)}{N (W 1 W 2)} = \frac{N (L, W 1 W 2)}{\underset{l}{Σ} N (l, W 1 W 2)}

其中，l表示情感标签集合中的任一情感标签，L表示特定情感标签，N(W1W2)表示词语搭配条目W1W2发生的总次数，N(K，W1W2)表示词语搭配条目W1W2映射到情感标签K的次数，N(l，W1W2)表示词语搭配条目W1W2映射到情感标签l的次数。对于单独一个核心词或核心词的同义词映射到该情感的记录，计算公式基本上一样，只是词语搭配W1W2变成了一个词W1。具体公式形式如下：

P (L | W 1) = \frac{N (L, W 1)}{N (W 1)} = \frac{N (L, W 1)}{\underset{l}{Σ} N (l, W 1)}

其中，W1为核心结构的核心词或者核心词的同义词。

通过以上计算，可得到每种词语搭配条目对应特定情感标签的概率值，例如，可得到概率形式的情感模型，摘取其部分数据例示如下：

杀害村长||愤怒0.500

杀害领袖||愤怒0.667

杀害领导||愤怒0.333

暗杀村长||愤怒0.333

暗杀领袖||愤怒0.714

暗杀领导||愤怒0.667

屠杀村长||愤怒0.5

屠杀领袖||愤怒1.0

屠杀领导||愤怒1.0

残忍杀害||愤怒0.667

毒辣杀害||愤怒1.0

阴险杀害||愤怒0.667

残忍暗杀||愤怒1.0

毒辣暗杀||愤怒1.0

阴险暗杀||愤怒0.667

残忍屠杀||愤怒0.750

毒辣屠杀||愤怒1.0

阴险屠杀||愤怒1.0

杀害||愤怒0.429

暗杀||愤怒0.625

屠杀||愤怒0.75

3.5.3、生成情感模型库：在得到上述情感概率文件之后，对于每条词语搭配条目，只选择概率最大的情感标签作为与其映射的对应情感标签，并将这一映射关系保存在情感模型库中，相应地，情感标签与词语搭配条目对应的概率并非最大值的记录被从情感概率文件中删除。上述操作可减小情感模型库的大小，并提高情感查询的速度和准确率。

上述方式仅仅为生成情感模型库的一种示例，本发明并未受限于此，例如，否定词和修饰词的统计仅仅是为了进一步提高情感查询准确率的附加步骤，而对核心结构的词语搭配条目进行扩展以及扩展的具体方式均不构成对本发明情感模型库的限制。

基于上述情感模型库，根据本发明示例性实施例的情感识别设备将用于对输入的语句进行情感识别。以下将参照图2来描述利用图1所示的情感识别设备来实现根据本发明示例性实施例的情感识别方法的示例。

图2是示出根据本发明示例性实施例的语句情感识别方法的流程图。在进行根据本发明示例性实施例的情感识别方法之前，需要在步骤S21完成语句输入，例如，可通过专门的输入装置来输入语句，并将所述语句转换为文本数据的形式或其它类似的形式。然后，在步骤S22，对输入的语句进行词语划分和词性标注，例如，可利用词语划分单元50对输入的语句进行词语划分，以输出划分的各个词语，并利用词性标注单元60对由词语划分单元50划分的各个词语进行词性标注，以获得所述各个词语的词性组成，并将所述词性组成提供给依存关系分析单元20。

然后，由图1所示的情感识别设备进行根据本发明示例性实施例的情感识别操作。首先，在步骤S23，由依存关系分析单元20基于构成输入语句的各个词语的词性组成来分析所述语句中各个词语的依存关系。依存句法是指分析语句的核心词及其它词语之间的依存关系来揭示其句法结构。按照依存句法，一个语句只有一个成分是独立的，语句中的其它成分直接依存于某一成分，而且任何一个成分都不能依存于两个或两个以上的成分。如上所述，依存关系分析单元20可利用任何方式(例如，已有的最大生成树(MaximumSpanning Tree，MST)算法)来分析出语句中各个词语之间的依存关系。作为示例，可通过计算依存关系的概率，并基于MST算法生成最大依存树，作为确定语句的句法依存分析树。由于该方法属于现有技术的惯用方式，因此，不做详细描述。应理解：任何适当的依存句法分析都可被依存关系分析单元20用来进行语句的依存关系分析，本发明并非受限于特定的依存句法。

对于例句“敌人残忍地杀害了热心的老村长”，其依存句法树的形式如图3所示。在图3示出的根据本发明示例性实施例的语句依存关系中，HED表示核心，SBV表示主谓关系，DI表示“地”字结构，ADV表示状中关系，MT表示语态结构，VOB表示动宾关系，ATT表示定中关系。

在依存关系分析单元20如上所述分析出语句中各个词语的依存关系之后，在步骤S24，由核心结构抽取单元30基于由依存关系分析单元20分析出的依存关系来抽取所述语句的核心结构。由于形容词和副词往往只是为了进行程度或性质上的补充说明，因此，优选地，核心结构通常仅指语句中的动宾结构、被动结构或主谓结构。作为示例，核心结构抽取单元30可根据语句的句型结构从分析出的依存关系中抽取核心结构。应理解：任何可提取语句中主要体现情感的核心结构的方式均被应用于本发明，本发明并非受限于特定的核心结构抽取方式。

图4示出根据本发明示例性实施例的核心结构抽取处理的流程图。如图所示，核心结构抽取可包括以下步骤：

步骤S41：复杂句处理，其中，当该语句是复杂句时，复杂句处理步骤将返回核心子句的边界和核心词，否则直接返回原语句。关于复杂句的详细处理过程将在以下参照图10来详细描述。

步骤S42：判断返回的语句中是否有动宾关系(VOB关系)。如果不存在VOB关系，则进行步骤S43，否则进行步骤S48。

步骤S43：判断语句中是否有主谓关系(SBV关系)。如果存在SBV关系，则进行步骤S44，否则在步骤S431直接返回核心词。

步骤S44：进行把字句检查和处理，并输出处理结果。关于把字句的详细处理将在以下参照图7来详细描述。

步骤S441：确定S44中的把字句处理是否返回空。如果返回空，则进行步骤S45，否则直接在步骤S442返回动宾结构。

步骤S45：进行被字句检查和处理，并输出处理结果。关于被字句的详细处理将在以下参照图8来详细描述。

步骤S451：确定S45中的被字句处理是否返回空。如果返回空，则进行步骤S46，否则直接在步骤S452返回被动结构。

步骤S46：判断是否存在多个SBV关系。如果存在多个SBV关系，则进行步骤S47，否则直接在步骤S461返回主谓结构。

步骤S47：获取最内层的SBV关系。

步骤S48：判断是否存在多个VOB关系。如果存在多个VOB关系，则在步骤S49进行兼语句处理(关于兼语句的详细处理将在以下参照图9来描述)，否则直接在步骤S442返回动宾结构。

以上关于核心结构的抽取过程仅仅是示例性的，本发明并不受限于任何具体的核心结构抽取过程。

作为优选实施方式，在抽取核心结构时，还需要考虑核心结构中各个词语的否定修饰词的个数，从而识别出由于否定词的存在而使得语句含义反转的情况。

图5示出根据本发明示例性实施例的否定词统计处理的流程图。在说明根据本发明示例性实施例的否定词统计时，为了描述方便，使用以下概念：

弧首词，指依存关系的起始位置的词语。

弧末词，指依存关系指向的词语。

引出关系，指以该词为起点，引出指向其它词的依存关系。

引出弧，与引出关系是同一个概念，指以该词为起点，引出指向其它词的弧。

此外，作为示例：

名词否定词列表可包括：{不，不是，没，没有，不像}。

动词否定词列表可包括：{没，没有，不，未，不便，不宜，不必，不要}。

参照图5，否定词统计的处理可包括以下步骤：

步骤S51：判断核心结构中的词语是否是动词。如果是动词，则在步骤S511收集其引出的所有动补关系和状中关系，否则进行步骤S55。

步骤S512：读取收集的动补关系和状中关系。

步骤S513：判断在步骤S512读取的关系是否为空。如果读取的关系为空，则直接在步骤S53返回否定词个数。否则，进行步骤S514。

步骤S514：判断读取的关系是否为动补关系(CMP)。如果是动补关系，则进行步骤S516，否则进行步骤S515。

步骤S515：判断读取的关系是否为状中关系(ADV)。如果是状中关系，则进行步骤S52，在步骤S52中，如果弧末词在动词否定词列表中，则将该词语的否定词个数加1。否则，继续在步骤S512读取收集的动补关系和状中关系。

步骤S516，检查动补关系中动词和补语之间是否有否定词，并输出检查结果。

步骤S517，判断检查结果中是否有否定词。如果有，则在步骤S518将否定词个数加1。否则，继续在步骤S512读取收集的动补关系和状中关系。

步骤S55，收集核心结构中的所述词语引出的所有状中关系，即ADV弧。

步骤S551，读取收集的状中关系。

步骤S552：判断在步骤S551读取的关系是否为空。如果读取的关系为空，则直接在步骤S53返回否定词个数。否则，进行步骤S553。

步骤S553：判断ADV弧末端词是否在名词否定词列表中。如果在名词否定词列表中，则在步骤S554将该词语的否定词个数加1。否则，继续在步骤S551读取收集的状中关系。

以上示出统计否定词个数的示例，统计的否定词个数如果为奇数，则表示核心结构所表示的情感由于否定词的修饰而被反转，可将这种情况应用于情感识别，以提高情感识别的准确性。

作为优选实施方式，在抽取核心结构时，如果处理的是中文语句，还可进一步考虑核心结构中的动补关系，通过将动补关系合并为一个词来进一步提高情感识别的准确性。具体说来，中文中有些动词会带补语，比如“饿死”中的“死”是“饿”的补语，用于说明“饿”的程度。“买到”中的“到”是“买”的补语，用于说明“买”的状态。这种动词补语通常是和动词一起表达情感，所以需要将它和前面的动词看成一个整体。该处理操作中就是合并动补关系为一个词。

图6示出根据本发明示例性实施例的动补关系处理的流程图。如图6所示，动补关系处理包括以下步骤：

步骤S61：检查核心结构中的词语是否为动词。如果是动词，则进行步骤S62，否则，直接在步骤S67返回原词语。

步骤S62：检查所述动词是否引出了动补关系，即CMP弧。

步骤S63：判断所述动词是否引出了CMP弧，如果引出了CMP弧，则进行步骤S64，否则，直接在步骤S67返回原词语。

步骤S64：检查动补关系是否最多只包含一个指向否定词的状中关系，即ADV弧。

步骤S65：判断动补关系是否最多只包含一个指向否定词的状中关系，如果最多只包含一个指向否定词的ADV弧，则在步骤S66合并动词和补语，并在步骤S68返回合并后的词。否则，直接在步骤S67返回原词语。

此外，在中文语句中，把字句是指将宾语前置，与介词“把”一起构成语句的状语。图7示出根据本发明示例性实施例的把字句处理过程的流程图。如图7所示，把字句的处理是指抽取把字句中的动词及其宾语组成的动宾结构，包括以下步骤：

步骤S71：检查将被处理的核心词W1是否为动词。如果是动词，则进行步骤S72，否则，直接在步骤S79返回空。

步骤S72：检查是否存在由该动词W1引出的ADV弧。如果有，则进行步骤S73，否则，直接在步骤S79返回空。

步骤S73：判断弧末词是否为“把”字。如果是，则进行步骤S74，否则，直接在步骤S79返回空。

步骤S74：判断是否存在由该“把”字引出的介宾关系，即POB弧。如果有，则进行步骤S75，否则，直接在步骤S79返回空。

步骤S75：设POB弧末词为W2，统计词W1，W2的否定修饰词。

步骤S76：检查并处理动词W1的动补关系。

步骤S77：返回把字句中由动词W1和宾语W2构成的动宾结构，并附带相关的词性，同时，输出否定词个数，动词W1的修饰词等信息。

步骤S79：返回空。

在中文语句中，被字句会将施动者变为动词的状语。图8示出根据本发明示例性实施例的被字句处理过程的流程图。如图8所示，被字句的处理是指返回被字句中动词与“被”字构成的被动结构，包括以下步骤：

步骤S81：检查将被处理的核心词语W1是否为动词。如果是动词，则进行步骤S82，否则，直接在步骤S89返回空。

步骤S82：判断是否存在该动词W1的动宾关系。如果有动宾关系，则直接在步骤S89返回空，否则，进行步骤S83。

步骤S83：判断词语W1是否引出了ADV弧。如果没有引出ADV弧，则直接在步骤S89返回空，否则，进行步骤S84。

步骤S84：判断弧末词是否为“被”字。如果不是，则直接在步骤S89返回空，否则，进行步骤S85。

步骤S85：统计词语W1的否定修饰词。

步骤S86：执行动补合并处理。

步骤S87：返回被动结构。

此外，在中文语句中，兼语句中谓语是动宾短语，但动宾短语的宾语是主谓短语，且动宾结构中的动词多为使令动词充当，没有多少情感。由于依存句法分析中任一个词语都只能有一个支配词，从而动宾短语的宾语要么受前一个动词支配，标注为“VOB”，要么受后一个动词支配标注为“SBV”，而这两个动词或者标注为“VOB”，后一个动词受前一个动词支配，或者标注为“VV”，表示这两个动词是连动结构。图9示出根据本发明示例性实施例的兼语句处理过程的流程图。如图9所示，兼语句的处理是指抽取兼语句中的核心动宾结构，包括以下步骤：

步骤S91：判断核心结构中的动词是否具有不含标点符号的连动关系，即VV弧。如果有，则进行步骤S92，否则，进行步骤S94。

步骤S92：设前面动词为V1，后面动词为V2，并判断末动词V2是否引出了动宾关系。如果引出了动宾关系，则进行步骤S99，否则进行步骤S93。

步骤S93：判断始动词V1是否有动宾关系。如果有，则进行步骤S99，否则进行步骤S94。

步骤S94：判断是否存在动宾关系且该动宾关系指向动词。如果存在动宾关系且该动宾关系指向动词，则进行步骤S95，否则，进行步骤S97。

步骤S95：在所述动宾关系中，设其始动词为V3，指向的动词为V4。判断动词V4是否有动宾关系。如果有，则进行步骤S99，否则进行步骤S96。

步骤S96：判断始动词V3是否有动宾关系。如果有，则进行步骤S99，否则进行步骤S97。

步骤S97：判断是否存在多个动宾关系。如果有，则在步骤S98获取最内层动宾关系，否则，进行步骤S99。

步骤S99：统计动宾结构的否定修饰词。

步骤S991：检查并处理动补关系。

步骤S992：收集动词的修饰词，并返回动宾结构、否定词个数和修饰词等信息。

此外，在中文语句中，复杂句包含转折关系、因果关系、选择关系、假设关系、条件关系、递进关系和并列关系。这些关系可以互相嵌套，从而使得复杂句难于处理，其依存关系分析的准确率比较低，所以这部分抽取的核心结构可能准确率比较低。图10示出根据本发明示例性实施例的复杂句处理过程的流程图。如图10所示，由于复杂句常通过VV依存弧、IC(独立分句)依存弧和COO(并列关系)依存弧连接各分句，并以CNJ(关联结构)弧指向关联词，所以这部分的算法就是通过VV关系、IC关系、COO关系和CNJ关系抽取复杂句的核心子句，包括以下步骤：

步骤S101：获取语句的边界和核心词。

步骤S102：判断语句的依存结构中是否含有VV、IC或COO关系。如果有，则进行步骤S103，否则进行步骤S104。

步骤S103：判断所述关系中是否包含标点符号。如果包含，则进行步骤S105，否则进行步骤S104。

步骤S104：返回语句的边界和核心词，作为核心子句。

步骤S105：设依存关系的首词为W1，尾词为W2。判断首词W1是否有关联关系，即是否引出了CNJ弧。如果有，则进行步骤S108，否则进行步骤S106。

步骤S106：判断尾词W2是否有关联关系，即是否引出了CNJ弧。如果有，则进行步骤S108，否则进行步骤S107。

步骤S107：确定该语句为顺序复句，并进行步骤S110。

步骤S108：记录弧末端的关联词，并进行步骤S109。

步骤S109：根据弧末端的关联词来判断当前复杂句的类型。

步骤S110：根据复杂句的类型来获取子句，然后返回步骤S101，以针对获取的子句再次执行上述处理。

以上示出了根据句型结构来抽取核心结构的示例，其中，作为附加处理，分别进行了否定词和修饰词的统计以及动补关系的合并处理，以便能够更加准确地用于语句情感识别。

返回图2，在步骤S25，由语句情感识别模块40基于由核心结构抽取单元30抽取出的核心结构以及由依存关系分析单元20分析出的依存关系来生成所述核心结构的词语搭配条目。然后，在步骤S26，由语句情感识别模块40从情感模型库中搜索与所生成的词语搭配条目对应的情感标签。优选地，在步骤S25中生成核心结构本身的词语搭配条目之后，可基于修饰词以及知识库的词语信息对生成的词语搭配条目进行扩展，并排列所有词语搭配条目的优先级别，然后在步骤S26按照优选级别从高到低的顺序依次从情感模型库中搜索与词语搭配条目对应的情感标签，如果搜索到与某一词语搭配条目对应的情感标签记录，则将所述情感标签确定为语句的情感。如果未搜索到与任何生成的词语搭配条目对应的情感标签记录，则返回“中性”情感。

以下参照图11来描述根据本发明示例性实施例以扩展方式产生词语搭配条目并从情感模型库搜索对应的情感标签的处理。对于输入的核心结构，根据相应词语的词性、依存关系、否定词和修饰词来产生相应的词语搭配条目集合并按照各个词语搭配条目的优先级别顺序地搜索对应的情感标签。上述方法包括以下步骤：

步骤S111：判断核心结构的依存关系是否为主谓结构。如果不是主谓结构，则进行步骤S112。否则，进行步骤S115。

步骤S112：判断核心结构的依存关系是否为动宾结构。如果不是动宾结构，则进行步骤S113。否则，进行步骤S115。

步骤S113：判断核心结构的依存关系是否为被动结构。如果不是被动结构，则进行步骤S114。否则，进行步骤S116。

步骤S114：判断核心结构的依存关系是否为独立结构。如果不是独立结构，则进行步骤S121。否则，进行步骤S116。

步骤S115：针对主谓结构或动宾结构生成扩展词语列表，其中，如果类型为SBV，即主谓结构，设核心结构本身的词语搭配形式为“W1_W2”，并且核心搭配中的核心词为W2，设核心词的修饰词列表为M_set。如果W1是名词，从知识库获取W1的上位概念列表，记为W1_set，并把W1插入W1_set的前面；如果W1不是名词，从知识库获取W1的同义词列表，同样记为W1_set，然后把W1插入W1_set的前面；如果W2是名词，从知识库获取W2的上位概念列表，记为W2_set，把W2插入W2_set的前面；如果W2不是名词，则从知识库获取W2的同义词列表，同样记为W2_set，把W2插入W2_set的前面。如果类型为VOB，即动宾结构，设核心搭配形式为“V_W”，并且核心搭配的核心词为V，其修饰词列表为M_set。从知识库获取词V的同义词列表，记为V_set，把V插入V_set的第一个词之前。如果W为名词，从知识库中获取词W的上位概念列表。如果W不是名词，则从知识库中获取词W的同义词列表。设W的上位概念列表或同义词列表为W_set，把W插入W_set第一个词语之前。

步骤S116：从知识库获取相关词语的同义词列表，并把该词语插在该同义词列表前面。

步骤S117：根据通过步骤S115或S116得到的扩展词语列表，生成相应的词语搭配条目。具体说来，针对主谓结构，根据W1_set，W2_set和M_set生成词语搭配列表，设为S，方法是先依次将W1_set的词语顺序地与W2_set中的所有词语搭配，并把它们顺序地追加到列表S的后面，然后依次将M_set中的词语顺序地与W2_set中的所有词语搭配，也把它们顺序地追加到列表S的后面；最后把W2_set中的词语顺序追加到S列表的后面。针对动宾结构，根据V_set，W_set和M_set生成词语搭配列表，设为S，方法是先依次将V_set的词语顺序地与W_set中的所有词语搭配，并把它们顺序地追加到列表S的后面，然后依次将M_set的词语顺序地与V_set中的所有词语搭配，也把它们顺序地追加到列表S的后面，最后将V_set中的词语顺序地追加到列表S的后面。针对被动结构，“被”字顺序与同义词列表中的词搭配，生成词语搭配列表S。针对独立结构，直接将同义词列表作为词语搭配列表S。作为优选方式，如果统计的核心结构的否定词个数为奇数，则在生成的词语搭配条目之后标注“-”。

步骤S118：在按照以上方式生成的词语搭配列表S中，各个词语搭配条目的生成顺序即可作为其优先顺序，按照该优先顺序搜索情感模型库中是否存在与相应词语搭配条目对应的情感标签。

步骤S119：判断是否在情感模型库中搜索到与某条词语搭配条目对应的情感标签。如果搜索到，则在步骤S120输出搜索到的情感标签，作为语句的情感。否则，如果都未搜索到与任何词语搭配条目对应的情感标签，则在步骤S121，返回“中性”情感。

以上描述了根据本发明示例性实施例进行语句情感识别的设备和方法。根据本发明，利用依存关系抽取句子的核心结构，并由核心结构形成词语搭配条目(或词语搭配条目列表)，然后根据词语搭配条目在训练生成的语句情感模型库中识别核心结构的情感，即语句的情感。该方法通过采用独特的转换、分析、统计和识别技术构成的技术方案，克服了传统基于关键词方法的弊病，产生了如下有益效果：1、该方法能够识别不含情感关键词的句子的情感，提高了语句情感识别的准确性。2、对于同时含有正面情感关键词和负面情感关键词的句子，该方法能够不受句子中正面情感词和负面情感词的干扰，直接找到句子的核心词语搭配以识别句子的情感。由于句子的情感主要由核心词语搭配表达，所以该方法对这类句子有非常好的识别效果，且能够实现快速准确的语句情感识别。3、由于句子中否定修饰能对情感起置反的作用。传统情感计算方法多通过上下文窗口确定关键词与否定词之间的修饰关系，通常不能发现长距离的否定修饰，影响情感识别的准确率。本发明通过依存关系能够准确地发现核心词的否定修饰，提高了情感识别的准确率。

本发明的以上各个实施例仅仅是示例性的，而本发明并不受限于此。本领域技术人员应该理解：本发明的语句情感识别方式并不受限于中文表述，任何能够抽取出核心结构的语言结构均可应用于本发明。在本发明的技术方案中，虽然基于一定的语法规则进行了相应的处理，但是本发明的技术方案整体所解决的是计算语言学中的语句情感识别这一技术问题，所采用的手段涉及数据的转换、抽取、分析、搜索等，并产生了相应的技术效果，因此，具体的语法规则并非限制本发明的范围。在不脱离本发明的原理和精神的情况下，可对这些实施例进行改变，其中，本发明的范围在权利要求及其等同物中限定。

Claims

1.一种基于依存关系来识别语句情感的设备，包括：

存储单元，用于存储情感模型库，其中，在所述情感模型库中，从语料中预先获得的各个词语搭配条目被映射到对应的情感标签；

依存关系分析单元，用于基于构成输入语句的各个词语的词性组成来分析所述输入语句中各个词语的依存关系；

核心结构抽取单元，用于基于由依存关系分析单元分析出的依存关系来抽取所述输入语句的核心结构；

语句情感识别模块，用于基于由核心结构抽取单元抽取出的核心结构以及由依存关系分析单元分析出的依存关系来生成所述核心结构的词语搭配条目，并从所述情感模型库中搜索与所生成的词语搭配条目对应的情感标签。

2.如权利要求1所述的设备，其中，核心结构抽取单元在基于分析出的依存关系来抽取核心结构时还依据所述输入语句的句型结构。

3.如权利要求1所述的设备，其中，所述核心结构是动宾结构或主谓结构或被动结构。

4.如权利要求1所述的设备，其中，当核心结构抽取单元抽取核心结构时，还统计核心结构中核心词的否定词个数，当否定词个数为奇数时，对搜索的情感标签进行置反。

5.如权利要求1所述的设备，其中，当核心结构抽取单元抽取核心结构时，还统计核心结构中核心词的修饰词。

6.如权利要求1或5所述的设备，其中，语句情感识别模块基于知识库来扩展生成的词语搭配条目。

7.如权利要求6所述的设备，其中，语句情感识别模块按照生成的全部词语搭配条目的优先级别来搜索对应的情感标签。

8.一种基于依存关系来生成语句情感模型库的方法，包括：

从语料收集语句，并手动标注每个语句的情感标签；

基于构成每个语句的各个词语的词性组成来分析所述每个语句中各个词语的依存关系；

基于依存关系来抽取所述每个语句的核心结构；

基于核心结构以及依存关系来生成所述核心结构的词语搭配条目列表，并将所述每个语句的情感标签映射到生成的各个词语搭配条目；

针对所有语句来统计每个词语搭配条目与各个情感标签映射的概率，并将概率值最大的情感标签确定为所述每个词语搭配条目对应的情感标签。

9.一种基于依存关系来识别语句情感的方法，包括：

基于构成输入语句的各个词语的词性组成来分析所述输入语句中各个词语的依存关系；

基于分析出的依存关系来抽取所述输入语句的核心结构；

基于抽取出的核心结构以及分析出的依存关系来生成所述核心结构的词语搭配条目，并从情感模型库中搜索与所生成的词语搭配条目对应的情感标签，

其中，在所述情感模型库中，从语料中预先获得的各个词语搭配条目被映射到对应的情感标签。

10.如权利要求9所述的方法，其中，基于分析出的依存关系来抽取核心结构的步骤还包括：依据所述输入语句的句型结构来抽取核心结构。

11.如权利要求9所述的方法，其中，抽取核心结构的步骤还包括：统计核心结构中核心词的否定词个数，当否定词个数为奇数时，对搜索的情感标签进行置反。