CN104281645A

CN104281645A - 一种基于词汇语义和句法依存的情感关键句识别方法

Info

Publication number: CN104281645A
Application number: CN201410425148.XA
Authority: CN
Inventors: 冯冲; 廖纯; 刘至润; 黄河燕
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2015-01-14
Anticipated expiration: 2034-08-27
Also published as: CN104281645B

Abstract

本发明涉及一种基于词汇语义和句法依存的情感关键句识别方法，属于自然语言处理应用技术领域，包括以下步骤：首先对语料及其分词结果进行规范化处理；然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板，并通过扩展后的情感词典和关键词词典获取候选情感关键句；最后设计一种位置打分函数，辅以情感词特征、关键词特征和依存模板特征，利用这四种特征训练SVM分类器，并以之完成情感关键句的最终识别。对比现有技术，通过采用规则与统计相结合的策略，能够有效利用不同层级词汇语义和句法依存信息进行识别，使用户能够更快速而且准确地找到语料中置信度较高的情感关键句，提高中文情感关键句的识别率。

Description

一种基于词汇语义和句法依存的情感关键句识别方法

技术领域

本发明涉及一种情感关键句识别方法，特别涉及一种基于词汇语义和句法依存的情感关键句识别方法，属于自然语言处理应用技术领域。

背景技术

随着我国互联网事业的迅速发展，网络作为一种新型媒体不但成为各种社会思潮、利益诉求和意识形态较量的场所，而且也成为民众评议时政、谈论是非、交流观点的集散地。有关网络舆情监测和分析的研究由此引起研究人员的重视。抽取出一篇文章的情感关键句，对了解社会动态和舆情状况有着重要的作用。但在如今这个大数据时代，海量信息层出不穷，同时处理这么多信息无疑是件费时费力的事情。因此，我们需要一种情感关键句抽取技术来帮助我们自动从海量信息中抽取出与主题相关的情感关键句，这是一项既有学术意义又有实用意义的研究课题。

情感关键句又叫主题情感句，情感关键句需要包含两个要素：主题关键词和情感关键词。主题关键词用来概括篇章的主题；情感关键词用来概括情感倾向。目前，关于情感关键句抽取方面的研究并不多。总的来说，情感关键句抽取的研究尚不系统和成熟，目前还处于起步阶段。而中文语言的灵活性及表达的多样性，也使情感关键句抽取的研究相对更加困难。目前情感关键句抽取的方法大多是基于规则或基于统计的，鲜有两者结合的方法。而且在抽取过程中只进行了浅层语义分析，没有挖掘句子的深层信息。

发明内容

本发明的目的是为解决以往在情感关键句识别中不能有效利用词汇语义和句法依存信息的问题，尽可能发挥不同层级的语义、句法信息特征，提出一种基于词汇语义和句法依存的情感关键句识别方法。

为实现上述目的，本发明所采用的技术方案如下：

本发明技术方案的思想是首先对语料及其分词结果进行规范化处理，然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板，并通过扩展后的情感词典和关键词词典获取候选情感关键句；最后设计一种位置打分函数，辅以情感词特征、关键词特征和依存特征，利用这四种特征构造SVM分类器，找到使性能达到最优的特征形式完成情感关键句的识别。

本发明的具体技术方案如下：

一种基于词汇语义和句法依存的中文情感关键句识别方法，该方法包括以下步骤：

步骤一、语料预处理：对语料集S的每一个句子进行分词、词性标注得到带有词性标注的语料集合T；分词以及词性标注可以手工进行，也可以使用现有的工具，本发明使用中科院的分词工具ICTCLAS对S自动分词以及词性标注；

步骤二、情感词典扩建：通过分别计算基础情感词典与候选词集合之间的点间互信息PMI，为每个基础情感词典中的词语选取至多5个PMI最高的候选词作为扩展词，加入基础情感词典，用这些词加上其在语料集合中的出现概率生成最终的领域相关的情感词典DEL；

步骤三、关键词词典构建：对于语料集S中的每一篇文章，通过LDA与textrank相结合的方法，同时采用一种全新的加权方法PCFO为该文章在各主题建立对应的图模型，最后利用textrank为图中每个节点，即词语打分，选择得分较高的词语作为本篇文章的关键词，加入关键词词典KL；

步骤四、依存知识库构建：对语料集S中的每一个句子进行依存分析，然后通过依存模板提取算法获取依存模板，加入依存知识库DB；

步骤五、候选情感关键句生成：分别将语料集T中的每一个句子与上文已经构建好的领域相关的情感词典DEL和关键词词典KL进行匹配，选择既含有情感词又含有关键词的句子作为候选情感关键句，记候选情感关键句的集合为A；

步骤六、SVM分类：将集合A置于经过训练的SVM分类器中进行分类，得到情感关键句集合Y和非情感关键句集合N，SVM分类器的训练特征为：情感词特征(emotional feature)，关键词特征(key-wordfeature)，依存模板特征(dependency feature)和位置特征(positionfeature)这四种；

步骤七、识别完成：输出识别结果Y。

有益效果

本发明对比现有技术，通过采用规则与统计相结合的策略，先通过DEL和KL筛选出候选情感关键句，然后再利用SVM分类器进行分类，这样就弥补了基于概率统计的机器学习方法导致的错判，两种方法相互补充，能够有效利用不同层级词汇语义和句法依存信息进行识别，使用户能够更快速而且准确地找到语料中置信度较高的情感关键句，提高中文情感关键句的识别率。

附图说明

图1为本发明方法的处理流程图。

具体实施方式

在介绍实施例以前，先做如下定义：

情感关键句是指一篇文章中既能表现文章主题又能表现情感倾向的句子，需要包含两个要素：主题关键词和情感关键词。主题关键词用来彰显篇章主题；情感关键词用来表明情感倾向。

下面结合实施例对本发明做进一步说明。

本实施例首先介绍情感词典的扩展方法，关键词词典的构建方法，依存知识库的形成方法以及SVM分类器的特征选择方法，最后介绍中文情感关键句的识别方法。

本实施例选取第六届中文倾向性分析评测(The Sixth ChineseOpinion Analysis Evaluation，简称COAE2014)任务一：面向新闻的情感关键句抽取与判定提供的数据集作为实验语料集，用于情感词典的扩展，关键词词典的构建，依存知识库的形成以及SVM分类器的训练。该语料集含有多篇文章，每篇文章由多个句子组成，每个句子含有类别标注(Y：表示是情感关键句/N：表示不是情感关键句)。

以下文档为语料集S中的一篇文章：

一、情感词典的扩展方法，实现步骤如下：

(1)采用知网(Hownet)提供的情感分析用词语集中的正面情感词语、负面情感词语、正面评价词语、负面评价词语加上由台湾大学整理和发布的简体中文的NTUSD构成基础情感词典(BasicEmotion Lexicon)；

(2)在预处理过的语料集合T中，按词性筛选出名词、动词和形容词作为候选词；

(3)分别计算上文构建的Basic Emotion Lexicon中每个词与这些候选词之间的点间互信息，关于两个词语w₁和w₂之间的点间互信息PMI(w₁，w₂)的计算公式如下(计算过程中过滤掉P(w₁&w₂)，P(w₁)，P(w₂)为零的情况)：

其中P(w₁&w₂)表示w₁和w₂在同一个句子中共同出现的概率，P(w₁)和P(w₂)分别表示两个词语单独出现的概率；P(w₁&w₂)、P(w₁)和P(w₂)都可以通过对语料集合T的统计得到，其计算公式如下：

P(w₁&w₂)＝num_sen(w₁&w₂)/N

P(w₁)＝num_sen(w₁)/N

P(w₂)＝num_sen(w₂)/N

其中，num_sen(w₁&w₂)表示集合中即出现w₁又出现w₂的句子数，num_sen(w₁)表示出现w₁的句子数，num_sen(w₂)表示出现w₂的句子数，N表示语料集合T的全部句子数；

(4)对于Basic Emotion Lexicon中的每个词，选取至多前5个与之点间互信息最高的候选词作为扩展词，与其在语料集合T中的出现频率一起加入Basic Emotion Lexicon，并对B asic Emotion Lexicon中的每个情感词也分别计算其在语料集合T中的出现概率，生成最终的领域相关的情感词典DEL；

因此，以以上文档为例，生成的最终领域相关的情感词及其出现频率如下表：

二、关键词词典KL的构建方法，实现步骤如下：

(1)设置语料集合T的主题个数为n，某个主题用z_t表示，其中t∈{1，2，3......，n}，通过LDA模型求出文档-主题分布P(z_t|d)(即每篇文挡属于某一主题的概率)和主题-词分布P(w|z_t)(即每个主题下出现某一个词的概率)；分别计算随机跳转概率P(z_t|w)，即每个词属于一个主题的概率，计算公式如下：

P (z_{t} | w) = \frac{P (w, z_{t})}{P (w)} = \frac{P (w | z_{t}) \times Σ_{i = 1}^{m} P (z_{t} | d_{i}) P (d_{i})}{Σ_{t = 1}^{n} P (w, z_{t})}

其中，m表示语料集合T中的文档个数，w表示一个词，d_i表示第i篇文章，i∈{1，2，3......，m}，P(d_i)表示文章d_i在语料集合T中的出现概率；t∈{1，2，3......，n}

(2)针对每一篇文章按词性选择名词和形容词作为候选关

键词，并以这些词为节点，分别在每一个主题下构建图模型：

图G＝(V，E)，节点集合V＝{v₁，v₂，v₃......v_k}，连接从节点v_i到节点v_j两节点的边(v_i，v_j)∈E，其中k表示候选关键词的个数，i，j∈{1，2，3......，k}，i≠j；

确定两个节点之间是否存在边以及边的方向的方法如下：

在原文中设置一个大小为window的滑动窗口，我们分别按照顺序从第一个词性为名词或形容词的词语指向窗口内与第一个词不同的其他词性为名词或形容词的词语，至此，我们就得到了边集E，依次遍历集合E中的每条边，按以下方法对每条边设置权重：

权重设置主要考虑四个因素：位置重要性的影响力、覆盖重要性的影响力、频度重要性的影响力和共现重要性的影响力；对于任意两个结点v_i和v_j，结点v_i对v_j的影响力通过其有向边e＝＜v_i，v_j＞传递，边的权重w_ij决定了v_j最终所获得v_i部分的分值大小，令w_ij表示结点v_i和v_j的整体影响力权重，α，β，γ，δ分别表示这四类不同的影响力所占的比重，且α+β+γ+δ＝1，则两节点之间的权值w_ij可以根据下式计算：

w_ij＝αw_pos(v_i，v_j)+βw_cov(v_i，v_j)+γw_freq(v_i，v_j)

+δw_co-occur(v_i，v_j)

a)w_pos(v_i，v_j)表示节点v_i的位置影响力传递到v_j的权重，计算公式如下：

w_{pos} (v_{i}, v_{j}) = \frac{P (v_{j})}{Σ_{v_{t} &Element; Out (v_{i})} P (v_{t})}

其中，Out(v_i)表示以v_i为起点所指向的节点的集合，P(v_j)表示节点vj的位置重要性得分，根据不同的情况可以设置不同的打分策略，考虑到标题信息对词语重要性的影响，本文设定只要是在标题中出现过的词语就给予更高的得分；具体赋值方式如下：

其中，λ是一个比1大的数字，实验中，经多次验证选择λ＝1.5；

b)w_cov(v_i，v_j)表示节点v_i的覆盖影响力传递到v_j的权重，计算公式如下：

w_{cov} (v_{i}, v_{j}) = \frac{1}{| Out (v_{i}) |}

其中，|Out(v_i)|表示节点v_i的出度，即由v_i出发所指向的节点的数目；此公式说明节点vi的覆盖影响力将被均匀的传递到相邻节点；

c)w_freq(v_i，v_j)表示节点v_i的频度影响力传递到v_j的权重，计算公式如下：

w_{freq} (v_{i}, v_{j}) = \frac{f (v_{j})}{Σ_{v_{t} &Element; Out (v_{i})} f (v_{t})}

其中，Out(v_i)表示以v_i为起点所指向的节点的集合，f(v_j)表示节点v_j所代表的词语在文章中出现的次数，以上公式体现出出现次数较高的词语将从连接节点处获得更高的影响力权重；

d)w_co-occur(v_i，v_j)表示节点v_i的共现影响力传递到v_j的权重，计算公式如下：

w_{co - occur} (v_{i}, v_{j}) = \frac{Co (v_{i}, v_{j})}{Σ_{v_{t} &Element; Out (v_{i})} Co (v_{i}, v_{t})}

其中，Co(v_i，v_j)表示节点v_i，v_j所代表的词语在一定窗口内共现的次数，以上公式则体现出共现次数较高的词语将从连接节点处获得更高的影响力权重，也即这两个词语之间联系更加紧密；

(3)图模型建立完毕之后，利用textrank的思想对各节点进行打分排序，用以下公式迭代计算每一个节点在特定主题下的得分：

R_{z_{t}} (v_{i}) = λ \underset{j : v_{j} &RightArrow; v_{i}}{Σ} \frac{w (v_{j}, v_{i})}{| Out (v_{j}) |} R_{z_{t}} (v_{j}) + (1 - λ) P (z_{t} | v_{i})

其中，w(v_j，v_i)即为上文求得的节点v_j，v_i之间的权值w_ji；

P(z_t|v_i)即为上文求得的P(z_t|w)；λ为阻尼因子，实验中，根据经验选择为0.75；j：v_j→v_i表示节点v_j在以节点v_i由为终点的节点集合内遍历；由于最终得分与初值设置无关，所以设置所有节点得分初值为1；当连续两次迭代，所有节点得分误差都在0.0001范围之内时，迭代终止，将此时的得分作为每一个节点在特定主题下的得分。

(4)求得每一个节点在特定主题下的得分之后，按照下述公式计算每一个节点在一篇文章下的最终得分：

R (v_{i}) = Σ_{t = 1}^{n} R_{z_{t}} (v_{i}) \times P (z_{t} | d)

选取排名靠前的节点，将节点所代表的候选关键词与此节点的最终得分R(v_i)一块加入关键词词典KL，依此方法生成对应于语料集合T中所有文章的最终的关键词词典KL。

同样以该文档为例，得到的对应本文章的关键词词典及其最终得分如下表：

三、依存知识库的形成方法，实现步骤如下：

(1)使用哈工大LTP的依存句法分析模块来分析语料集S中的所有句子得到依存分析结果D；例如句子“这位叙反对派领导人还宣称，叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚。”分析结果如下：

(2)对依存分析结果D进行分析，找到句子的中心词(即依存分析结果中relate值为HED对应的词)，与在DEL或hownet提供的情感分析用词语集中的主张词中出现的词一起作为中心特征词(CoreWord)，以这些词为起点，对附属或依存于该词的词汇进行关系提取，并统计它们相互之间的关系，根据统计数据提取出符合要求的依存关系模板，形成最终的依存知识库DB；具体依存模板提取算法如下：

输入：经过预处理得到的语料集合T，依存分析结果D；

输出：依存知识库DB；

处理流程：

Step 1：遍历语料集合T中每条情感关键句中的所有词语，如果该词语在上文构建的DEL或hownet提供的情感分析用词语集中的主张词中出现，或者依存分析结果中relate＝“HED”，则把它作为CoreWord；

Step 2：将与CoreWord有依存关系，parent等于CoreWord的id的词语存入依存词的集合dpWords；

Step 3：遍历dpWords中的每个词与CoreWord的关系，如果其依存关系为COO(即relate＝″COO″)，则将它作为CoreWord重复Step2；如果其依存关系为WP，则将其从dpWords中删除；

Step 4：将情感关键句中的所有包括CoreWord、dpWords以及dpWords中的每一个词与其父节点CoreWord相互之间的依存关系存入情感关键句的模板集合中，并且不改变其出现顺序，如“领导人(SBV)还(ADV)宣称(HED)受到(VOB)”。

Step 5：从Step4中得出的情感关键句的模板集合中的模板按“一个前面的词与中心词的关系+中心词+一个后面的词与中心词的关系”、“一个前面的词与中心词的关系+中心词”、“中心词+一个后面的词与中心词的关系”三种方式作为候选模板进行提取，对于同一个中心词取最长模板，即如果按以上三种方式提取出的模板中心词相同，则选择长度最长的模板，并统计其各自在情感关键句、非情感关键句中出现的概率；例如以上句子，按上述三种方式提取出模板为：“SBV+宣称+VOB”、“SBV+宣称”、“宣称+VOB”、“ADV+宣称+VOB”、“ADV+宣称”，取最长模板后得到模板“SBV+宣称+VOB”、“ADV+宣称+VOB”，在情感关键句中出现的概率分别是0.244127982245，0.197151840207；在非情感关键句中出现的概率是0.000529906603961、0.000485747720298；

Step 6：将由Step 5得到的候选模板集合中在情感关键句中出现的概率大于在非情感关键句中出现概率的模板提取出来，与它在情感关键句中的出现概率一起加入依存关系知识库DB中；对于上述例句即将SBV+宣称+VOB与0.244127982245、ADV+宣称+VOB与0.197151840207加入到依存关系知识库DB中，直至处理完语料集合T的所有语句。

同理，以以上文档为例，提取出的依存模板及其出现频率如下表：

四、SVM分类器的特征向量生成方法：

SVM的特征向量，主要包含情感词特征，关键词特征，依存模板特征和位置特征四部分；关于情感词特征、关键词特征、依存模板特征，分别由对应句子中包含领域相关情感词典DEL、关键词词典KL和依存知识库DB中词的数目与得分构成。位置特征则采用抛物线Parabola的形式为文章中的句子打分，打分函数如下：

score_sen(pos(sen))＝a×pos(sen)²+b×pos(Sen)+c

其中，n表示文章中句子的总数，a＞0，b＜0，pos(sen)表示句子在文章中的位置，sen表示句子序号。经多次试验，设b＝-1。

情感词特征的特征向量维度为9，第一维分量表示每个句子中出现在DEL中情感词的个数，后八维分量分别表示这些情感词出现的概率，如果每个句子中出现在DEL中情感词的个数不足8个，不足的部分其概率设置为0；如果每个句子中出现在DEL中情感词的个数多于8个，按概率由大到小的顺序取前8个，如对于句子：这位叙反对派领导人还宣称，叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚，我们得到情感词部分的特征向量为(20.0294117650.029411765000000)其中2表示句子中有两个词在领域相关情感词典DEL中出现；之后0.029411765、0.029411765分别表示出现在DEL中的两个情感词的相应得分，即其出现在语料集合S中的频率；剩余6维分量补0。

关键词特征的特征向量维度为9，第一维分量表示每个句子中出现在KL中关键词的个数，后八维分量分别表示这些关键词在KL中对应的得分；如果句子中出现在KL中关键词的个数不足8个，不足的部分其对应的分量概率设置为0；如果句子中出现在KL中关键词的个数多于8个，按得分由大到小的顺序取前8个；如对于句子：这位叙反对派领导人还宣称，叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚，我们得到关键词部分的特征向量为(60.100989099886599920.047429903922990540.0396889815842925360.02927543170089680.0021877676421553760.00133903097870930700)，其中第一维分量6表示句中包含的关键词个数，中间不为0的六维分量表示的是按由大到小顺序排列的六个关键词在关键词词典KL中的得分，具体如下：反对派＝0.10098909988659992叙利亚＝0.04742990392299054总统＝0.039688981584292536领导人＝0.0292754317008968巴沙尔阿萨德＝0.002187767642155376机器＝0.001339030978709307，剩余不足8维的部分补0。

依存模板特征的特征向量维度为9，第一维分量表示从每个句子中提取的依存模板出现在DB中的个数，后八维分量分别表示这些依存模板在DB中对应的出现概率；如果从每个句子中提取的依存模板出现在DB中的个数不足8个，不足的部分其对应的分量的出现概率设置为0；如果从每个句子中提取的依存模板出现在DB中的个数多于8个，按出现概率由大到小顺序取前8个；如对于句子：这位叙反对派领导人还宣称，叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚，我们得到依存模板部分的特征向量为(20.2441279822450.197151840207000000)，其中第一维分量2表示句中包含的依存模板个数，中间两维不为零的数字分别表示这两个依存模板在依存知识库DB中对应的出现概率，剩余不足8维的部分补0。

位置特征(1维)：(2.08333333333)按照抛物线Parabola的打分函数，由于本文共有11句，故n＝11，令score_sen(6)＝0，分别求出抛物线的系数b＝-1，c＝3，如对于句子：这位叙反对派领导人还宣称，叙利亚总统巴沙尔阿萨德和他的死亡机器必将受到惩罚，我们得到依存模板部分的特征向量为score_sen(11)即本句话的得分为2.08333333333。

最后，将四部分向量分别按顺序连接起来，形成一个28维的特征向量(20.0294117650.02941176500000060.100989099886599920.047429903922990540.0396889815842925360.02927543170089680.0021877676421553760.0013390309787093070020.2441279822450.1971518402070000002.08333333333)

按以上流程将语料S中所有文章的全部句子都处理成这样的28维特征向量。

五、中文情感关键句的识别方法：

分别将语料集T中的每一个句子与上文已经构建好的领域相关的情感词典DEL和关键词词典KL进行匹配，选择既含有情感词又含有关键词的句子作为候选情感关键句，记候选情感关键句的集合为A；然后将A中所有句子按上述SVM分类器的特征向量生成方法全部处理成28维的特征向量；选取一部分句子作为训练集，与类别标注(是否是情感关键句)一起加入SVM分类器进行训练；然后输入剩余句子，通过SVM分类器进行识别，输出是否是情感关键句的识别结果。

为了验证本发明实施例提供的中文情感关键句识别方法的有效性，此次在COAE2014评测数据的基础上进行试验。数据集共包含1994篇文档，经过领域相关情感词典DEL和关键词词典KL过滤之后，得到候选情感关键句共38797个，其中情感关键句5019句，非情感关键句33778句。在具体测试时，选取其中4/5的候选情感关键句作为已知数据，通过对该部分数据的学习生成SVM分类器；剩余1/5的数据作为待识别的数据，使用本文所述识别方法进行识别。同时将本文所提方法Lexicon+Syntax与COAE的最佳结果COAE、基于词典的方法Lexicon这两种识别方法所得到的结果进行比较，比较结果如下表所示：

实验结果表明，使用本文词汇语义和句法依存相结合的方法大大提升了实验效果。主要是因为使用情感词典和关键词词典进行规则过滤得到候选情感关键句的时候，相当于对语料进行了一个降噪处理，然后再用统计的方法，分析句法语义信息进行处理，以保证达到更高的准确率P、召回率R和F值，充分证明了本发明所提供方法的有效性。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都在要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于词汇语义和句法依存的中文情感关键句识别方法，其特征在于，包括以下步骤：

步骤一、语料预处理：对待识别的语料集的每一个句子进行分词、词性标注得到带有词性标注的语料集合T；

步骤二、候选情感关键句生成：分别将T中的每一个句子与领域相关的情感词典DEL和关键词词典KL进行匹配，选择既含有情感词又含有关键词的句子作为候选情感关键句，记候选情感关键句的集合为A；

步骤三、SVM分类器分类：从情感词特征、关键词特征、依存模板特征和位置特征四个方面对集合A的每个句子提取特征向量，并将特征向量置于经过训练的SVM分类器中进行分类，得到情感关键句集合Y和非情感关键句集合N；

步骤四、识别完成：输出识别结果Y。

2.根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法，其特征在于，领域相关的情感词典DEL构建方法包括以下步骤：

步骤一、采用知网(Hownet)提供的情感分析用词语集中的正面情感词语、负面情感词语、正面评价词语、负面评价词语加上由台湾大学整理和发布的简体中文的NTUSD构成基础情感词典(Basic Emotion Lexicon)；

步骤二、对语料集S中的所有句子进行分词、词性标注后得到语料集合T，按词性筛选出名词、动词和形容词作为候选词；

步骤三、分别计算上文构建的Basic Emotion Lexicon中每个词与这些候选词之间的点间互信息，关于两个词语w₁和w₂之间的点间互信息PMI(w₁，w₂)的计算公式如下(计算过程中过滤掉P(w₁&w₂)，P(w₁)，P(w₂)为零的情况)：

P(w₁&w₂)＝num_sen(w₁&w₂)/N

P(w₁)＝nurn_sen(w₁)/N

P(w₂)＝num_sen(w₂)/N

步骤四、对于Basic Emotion Lexicon中的每个词，选取至多前5个与之点间互信息最高的候选词作为扩展词，与其在语料集合T中的出现频率一起加入BasicEmotion Lexicon，并对Basic Emotion Lexicon中的每个情感词也分别计算其在语料集合T中的出现概率，生成最终的领域相关的情感词典DEL。

3.根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法，其特征在于，关键词词典的构建方法包括以下步骤：

步骤一、对语料集S中的所有句子进行分词、词性标注后得到语料集合T，设置语料集合T的主题个数为n，某个主题用Z_t表示，其中t为1到n之间的自然数，通过LDA模型求出文档-主题分布P(Z_t|d)和主题-词分布P(w|Z_t)；计算随机跳转概率P(Z_t|w)，计算公式如下：

P (z_{t} | w) = \frac{P (w, z_{t})}{P (w)} = \frac{P (w | z_{t}) \times Σ_{i = 1}^{m} P (z_{t} | d_{i}) P (d_{i})}{Σ_{t = 1}^{n} P (w, z_{t})}

其中，m表示语料集合T中的文档个数，w表示一个词，d_i表示语料集合T的第i篇文章，i∈{1，2，3......，m}，P(d_i)表示文章d_i在语料集合T中的出现概率；

步骤二、对语料集合T中的每一篇文章按词性选择名词和形容词作为候选关键词，并以这些词为节点，分别在每一个主题下构建图模型：图G＝(V，E)，节点集合V＝{v₁，v₂，v₃......v_k}，连接从节点v_i到节点v_j的边得到边集(v_i，v_i)∈E，其中k表示候选关键词的个数，i，j∈{1，2，3......，k}，i≠j；

确定两个节点之间是否存在边以及边的方向的方法如下：

在原文中设置一个大小为window的滑动窗口，分别按照顺序从第一个词性为名词或形容词的词语指向窗口内与第一个词不同的其他词性为名词或形容词的词语，由此得到边集E，依次遍历集合E中的每条边，按以下方法对每条边设置权重：

权重设置主要考虑四个因素：位置重要性的影响力、覆盖重要性的影响力、频度重要性的影响力和共现重要性的影响力；对于任意两个结点v_i和v_j，结点v_i对v_j的影响力通过其有向边e＝＜v_i，v_j＞传递，边的权重w_ij决定了v_j最终所获得v_i部分的分值大小，令w_ij表示结点v_i和v_i的整体影响力权重，α，β，γ，δ分别表示这四类不同的影响力所占的比重，且α+β+γ+δ＝1，则两节点之间的权值w_ii可以根据下式计算：

w_ij＝αw_pos(v_i，v_j)+βw_cov(v_i，v_j)+γw_freq(v_i，v_j)+δw_co-occur(v_i，v_j)

w_{pos} (v_{i}, v_{j}) = \frac{P (v_{j})}{Σ_{v_{t} &Element; Out (v_{i})} P (v_{t})}

其中，Out(v_i)表示以v_i为起点所指向的节点的集合，P(v_j)表示节点v_j的位置重要性得分，具体赋值方式如下：

其中，λ是一个比1大的数字，值为1.5；

w_{cov} (v_{i}, v_{j}) = \frac{1}{| Out (v_{i}) |}

其中，|Out(v_i)|表示节点v_i的出度；

w_{freq} (v_{i}, v_{j}) = \frac{f (v_{j})}{Σ_{v_{t} &Element; Out (v_{i})} f (v_{t})}

其中，Out(v_i)表示以v_i为起点所指向的节点的集合，f(v_j)表示节点v_j所代表的词语在文章中出现的次数；

w_{co - occur} (v_{i}, v_{j}) = \frac{Co (v_{i}, v_{j})}{Σ_{v_{t} &Element; Out (v_{i})} Co (v_{i}, v_{t})}

其中，Co(v_i，v_j)表示节点v_i，v_j所代表的词语在一定窗口内共现的次数；

步骤三、图模型建立完毕之后，利用textrank的思想对各节点进行打分排序，用以下公式迭代计算每一个节点在特定主题下的得分：

R_{z_{t}} (v_{i}) = λ \underset{j : v_{j} &RightArrow; v_{i}}{Σ} \frac{w (v_{j}, v_{i})}{| Out (v_{j}) |} R_{z_{t}} (v_{j}) + (1 - λ) P (z_{t} | v_{i})

其中，w(v_j，v_i)即为步骤二中求得的节点v_j，v_i之间的权值w_ji；P(z_t|v_i)即为步骤一中求得的P(z_t|w)；λ为阻尼因子，值为0.75；j：v_j→v_i表示节点v_j在以节点v_i为终点的节点集合内遍历；按以上公式迭代前设置所有节点得分初值为1；当连续两次迭代，所有节点得分误差都在0.0001范围之内时，迭代终止，将此时的得分作为每一个节点在特定主题下的得分。

步骤四、求得每一个节点在特定主题下的得分之后，按照下述公式计算每一个节点在一篇文章下的最终得分R(v_i)：

R (v_{i}) = Σ_{t = 1}^{n} R_{z_{t}} (v_{i}) \times P (z_{t} | d)

选取最终得分排名靠前的节点，将节点所代表的候选关键词与此节点的最终得分一块加入关键词词典KL，依此方法生成对应于语料集合T中所有文章的最终的关键词词典KL。

4.根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法，其特征在于，所述SVM分类器的训练特征包括情感词特征、关键词特征、依存模板特征和位置特征四种，所述特征向量由这四种特征构成的特征向量分量相连接得到，将特征向量与对应句子的类别置入SVM分类器完成SVM分类器的训练；情感词特征、关键词特征、依存模板特征和位置特征对应的特征向量分量的生成方法如下：

首先对训练用语料集进行分词、词性标注得到语料集合T，对T中的每一个句子按以下方法提取各特征向量的分量：

情感词特征的特征向量维度为9，第一维分量表示每个句子中出现在DEL中情感词的个数，后八维分量分别表示这些情感词在语料集合T中出现的概率；如果句子中出现在DEL中情感词的个数不足8个，不足的部分其对应的分量概率设置为0；如果句子中出现在DEL中情感词的个数多于8个，按概率由大到小的顺序取前8个；

关键词特征的特征向量维度为9，第一维分量表示每个句子中出现在KL中关键词的个数，后八维分量分别表示这些关键词在KL中对应的得分；如果句子中出现在KL中关键词的个数不足8个，不足的部分其对应的分量概率设置为0；如果句子中出现在KL中关键词的个数多于8个，按得分由大到小的顺序取前8个；

依存模板特征的特征向量维度为9，第一维分量表示从每个句子中提取的依存模板出现在DB中的个数，后八维分量分别表示这些依存模板在DB中对应的出现概率；如果从每个句子中提取的依存模板出现在DB中的个数不足8个，不足的部分其对应的分量的出现概率设置为0；如果从每个句子中提取的依存模板出现在DB中的个数多于8个，按出现概率由大到小顺序取前8个；

位置特征的特征向量维度为1，其值按下式计算：

score_sen(pos(sen))＝a×pos(sen)²+b×pos(sen)+c

其中，n表示句子所在文章中的句子总数，a＞0，b＜0，pos(sen)表示句子在文章中的位置，sen表示句子序号。

5.根据权利要求4所述的一种基于词汇语义和句法依存的中文情感关键

句识别方法，其特征在于，b＝-1。

6.根据权利要求1所述的一种基于词汇语义和句法依存的中文情感关键句识别方法，其特征在于，依存知识库的构建方法包括以下步骤：

步骤一、使用哈工大LTP的依存句法分析模块分析语料集S中的所有句子得到依存分析结果D；

步骤二、对依存分析结果D进行分析，找到句子的中心词，将之与在DEL或hownet提供的情感分析用词语集中的主张词中出现的词一起作为中心特征词(CoreWord)，以这些词为起点，对附属或依存于该词的词汇进行关系提取，并统计它们相互之间的关系，根据统计数据提取出符合要求的依存关系模板，形成最终的依存知识库DB；具体的依存关系模板提取算法如下：

输入：语料集S经过分词及词性分析得到的语料集合T，依存分析结果D；

输出：依存知识库DB；

处理流程：

Step 3：遍历dpWords中的每个词与CoreWord的关系，如果其依存关系为COO，则将它作为CoreWord重复Step2；如果其依存关系为WP，则将其从dpWords中删除；

Step 4：将情感关键句中的所有包括CoreWord、dpWords以及dpWords中的每一个词与其父节点CoreWord相互之间的依存关系存入情感关键句的模板集合中，并且不改变其出现顺序；

Step 5：从Step4中得出的模板集合中的模板按“一个前面的词与中心词的关系+中心词+一个后面的词与中心词的关系”、“一个前面的词与中心词的关系+中心词”、“中心词+一个后面的词与中心词的关系”三种方式作为候选模板进行提取，对于同一个中心词取最长模板，并统计其在情感关键句、非情感关键句中出现的概率；

Step 6：将由Step 5得到的候选模板集合中在情感关键句中出现的概率大于在非情感关键句中出现概率的模板提取出来，与它在情感关键句中的出现概率一起加入依存关系知识库DB中，直至处理完语料集合T的所有语句。