CN103530283A

CN103530283A - 情绪触发事件的抽取方法

Info

Publication number: CN103530283A
Application number: CN201310513634.2A
Authority: CN
Inventors: 李寿山; 高伟; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2013-10-25
Filing date: 2013-10-25
Publication date: 2014-01-22

Abstract

本发明公开了一种情绪触发事件的抽取方法，包括以下步骤，语料处理过程：将每个篇章按标点符号分成若干子句；根据每个子句与情绪触发事件的关系，对每个子句进行标注；特征提取及训练过程：提取训练语料中的子句的特征；针对训练语料中的所有子句训练出分类器；情绪触发事件抽取过程：将待抽取的篇章按标点符号分成若干子句；抽取每个子句的特征；用训练出的分类器对每个子句进行分类，判断其是否为情绪触发事件，并将情绪触发事件的子句输出。本发明情绪触发事件的抽取方法有助于帮助自动处理和分析同情绪相关的事件，进而应用于突发事件监测、情感摘要等其他任务中，具有强大的实用价值。

Description

情绪触发事件的抽取方法

技术领域

本发明涉及自然语言处理及模式识别技术领域，特别是涉及一种情绪触发事件的抽取方法。

背景技术

文本情绪分析是自然语言处理（NLP）研究中的一个重要研究方向。该方向旨在研究如何自动分析文本所表达的情绪及与情绪相关的信息。目前，主流的情感分析研究主要集中在情绪分类上面，该任务旨在对文本表达的情绪（例如：高兴、伤心、惊讶等）进行自动分类。然而，该任务所关注的情绪信息仅仅是情绪的类别，还是处在比较浅层的情绪信息。为了更好的理解文本表达的情绪信息，迫切需要对文本表达的关于情绪的更深层次的信息，例如，情绪的体验者、情绪的原因、情绪的结果等，进行进一步的探讨和研究。

在语言学研究方面，大多数关于情绪语言学的模型都将情绪的触发触发事件作为一个重要的组成部分。因此，研究情绪触发的触发事件可以帮助理解情绪的发展及作用的语言学机制。此外，情绪触发事件识别的研究有助于帮助自动处理和分析同情绪相关的事件，进而应用于突发事件监测、情感摘要等其他任务中。

虽然情绪分析研究已经开展多年，但是大部分的研究主要集中在情绪识别和分类方面，对于情绪触发事件分析的研究还未开展。

发明内容

有鉴于此，本发明的目的在于提供一种情绪触发事件的抽取方法，在给出一些训练样本的情况下，提取基本特征、上下文特征和语言学特征，利用最大熵分类工具训练出分类器，实现对文本的情绪触发事件抽取。

本发明的基本思想是：

首先，对已有的训练语料进行处理，将训练语料中的每个篇章按照标点符号（‘，’、‘。’、‘？’、‘！’）分成多个子句，并根据其是否与情绪触发事件重合或是其中的一个片段，给出其相应标签。然后，抽取每个子句的特征，包括基本特征，上下文特征和语言学特征，利用最大熵分类工具训练分类器。最后，将需要进行情绪触发事件抽取的篇章按标签符号（‘，’、‘。’、‘？’、‘！’）分成多个子句，用训练出的分类器对每个子句进行分类，判断其是否为情绪触发事件，将分类结果为1的子句作为情绪触发事件输出。

为了实现上述目的，本发明实施例提供的技术方案如下：

一种情绪触发事件的抽取方法，所述方法包括以下步骤，

S1、语料处理过程：

S11、将每个篇章按标点符号分成若干子句；

S12、根据每个子句与情绪触发事件的关系，对每个子句进行标注；

S2、特征提取及训练过程：

S21、提取训练语料中的子句的特征；

S22、针对训练语料中的所有子句训练出分类器；

S3、情绪触发事件抽取过程：

S31、将待抽取的篇章按标点符号分成若干子句；

S32、抽取每个子句的特征；

S33、用训练出的分类器对每个子句进行分类，判断其是否为情绪触发事件，并将情绪触发事件的子句输出。

作为本发明的进一步改进，所述步骤S11和S31中的标点符号包括‘，’、‘。’、‘？’、‘！’。

作为本发明的进一步改进，所述步骤S21和S32中子句的特征包括：基本特征，上下文特征和语言学特征。

作为本发明的进一步改进，所述基本特征包括：名词、动词、名词个数、动词个数。

作为本发明的进一步改进，所述上下文特征包括前一个子句和后一个子句的基本特征。

作为本发明的进一步改进，所述语言学特征为语言学规则产生的特征，所述语言学规则包括：

规则1：情绪词后面出现‘而’、‘因此’、‘于是’、‘就’、‘所以’、‘便’、‘使’、‘将’这样的触发词，将触发词后面的子句识别成情绪触发事件；

规则2：情绪词后面紧跟着“的”、“地”、“得”，而且后面是动词，则该动词为情绪触发事件。

作为本发明的进一步改进，所述步骤S12具体为：

若子句与情绪触发事件重合或是情绪触发事件中的一个片段，则该子句标注为1，否则标注为0。

作为本发明的进一步改进，所述步骤S33具体为：

用训练出的分类器对每个子句按标注1和0进行分类，标注为1的为情绪触发事件，将分类结果为1的子句作为情绪触发事件输出。

作为本发明的进一步改进，所述步骤S22中分类器的训练采用最大熵分类工具。

本发明具有以下有益效果：

本发明情绪触发事件的抽取方法有助于帮助自动处理和分析同情绪相关的事件，进而应用于突发事件监测、情感摘要等其他任务中，具有强大的实用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明情绪触发事件的抽取方法的流程示意图；

图2为本发明一具体实施方式中在不同规模的标注数据下的实验结果。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明主要实现对文本进行情绪触发事件提取的任务，为该任务建立分类模型，将之转化为子句的分类问题。目前尚未有情绪触发事件提取的研究，该项任务有助于帮助自动处理和分析同情绪相关的事件，进而应用于突发事件监测、情感摘要等其他任务中，具有强大的实用价值。

为了便于叙述，先将本发明涉及的常用的术语与标记介绍如下：

定义1：篇章（section）：用来训练或判断的文本，文本长度不限，常由多个子句组成。

定义2：子句（clause）：用标点符号（‘，’、‘。’、‘？’、‘！’）分割篇章得到，作为本发明中分类的基本单位。

定义3：情绪触发事件（emotional triggers）：由于某种情绪而产生的事件，情绪和事件之间具有因果联系。

定义4：情绪触发事件抽取（emotional triggers extraction）：输入是一个文本，输出是该文本中的情绪触发事件。

本发明的核心思想就是为该任务建立分类模型，将篇章按照标点符号（‘，’、‘。’、‘？’、‘！’）分成多个子句，对每个子句建立新的标签，若其与情感触发事件重合或是其中一部分，则标注为1，否则为0。对篇章情绪触发事件的抽取转化为对其子句的分类问题，将分类结果为1的子句输出作为篇章的情绪触发事件。

本发明情绪触发事件的抽取方法具体步骤如下：

S1、语料处理过程：

S11、将每个篇章按标点符号（‘，’、‘。’、‘？’、‘！’）分成若干子句；

S12、根据每个子句与情绪触发事件的关系，对每个子句进行标注。若子句与情绪触发事件重合或是情绪触发事件中的一个片段，则该子句标注为1，否则标注为0；

S2、特征提取及训练过程：

S21、提取训练语料中的子句的特征，包括基本特征，上下文特征和语言学特征；

S22、针对训练语料中的所有子句采用最大熵分类工具训练出分类器；

S3、情绪触发事件抽取过程：

S31、将待抽取的篇章按标点符号（‘，’、‘。’、‘？’、‘！’）分成若干子句；

S32、抽取每个子句的特征，包括基本特征，上下文特征和语言学特征；

S33、用训练出的分类器对每个子句进行分类，判断其是否为情绪触发事件，并将情绪触发事件的子句输出。具体为：用训练出的分类器对每个子句按标注1和0进行分类，标注为1的为情绪触发事件，将分类结果为1的子句作为情绪触发事件输出。

结合图1所示，本发明一具体实施方式中，情绪触发事件的抽取方法主要由语料处理过程，特征提取及训练过程，触发事件抽取过程组成。

语料处理过程，对原始语料进行处理，原始语料由篇章组成，具有篇章的情绪与其对应的情绪触发事件的标注。语料处理过程将原始语料中的篇章按照标点符号（‘，’、‘。’、‘？’、‘！’）分成多个子句，根据原始语料对情绪触发事件的标注进行判断，从而对每个子句进行新的标注，若当前子句与情绪触发事件重合或是其中的一个片段，则标注其为1，否则标注为0。

特征提取及训练过程，对训练语料中的子句进行特征提取，特征主要包括基本特征，上下文特征和语言学特征，基本特征主要是词特征，本发明中选取子句的名词，动词，名词个数，动词个数作为基本特征。上下文特征主要是前一个子句和后一个子句的基本特征。语言学特征主要是相应语言学规则产生的特征。训练过程利用最大熵分类工具训练出分类器。

触发事件抽取过程，将需要进行情绪触发事件抽取的篇章按照标点符号（‘，’、‘。’、‘？’、‘！’）分成多个子句，用训练好的分类器对子句进行分类，将分类结果为1的子句作为情绪触发事件输出。

下面详细说明本发明方法所涉及的各个细节问题。

1.基本特征

基本特征主要是词特征，本发明中的基本特征主要选取名词，动词，名词个数，动词个数这四种特征，具体解释见表1：

表1:基本特征

特征	描述
		名词	当前clause中的名词，若没有名词，特征值为“NULL”
动词	当前clause中的动词，若没有动词，特征值为“NULL”
		名词个数	当前clause中名词的个数
动词个数	当前clause中动词的个数

2.上下文特征

上下文特征主要是由前后子句的基本特征组成，具体解释见表2：

表2:上下文特征

特征	描述
		前面子句的名词	前一个clause中的名词，若没有名词，特征值为“NULL”
前面子句的动词	前一个clause中的动词，若没有动词，特征值为“NULL”
		前面子句的名词个数	前一个clause中名词的个数
前面子句的动词个数	前一个clause中动词的个数
		后面子句的名词	后一个clause中的名词，若没有名词，特征值为“NULL”
后面子句的动词	后一个clause中的动词，若没有动词，特征值为“NULL”
		后面子句的名词个数	后一个clause中名词的个数
后面子句的动词个数	后一个clause中动词的个数

3.语言学特征

语言学特征主要是通过定义相应的语言学规则获取子句的相应特征，本发明中定义的语言学规则有：

根据以上两条语言学规则，由规则1判断出是情绪触发事件的子句添加特征‘rule1=1’，其余子句添加特征‘rule1=0’,由规则2判断出是情绪触发事件的子句添加特征‘rule2=1’，其余子句添加特征‘rule2=0’。

4、最大熵分类方法

最大熵模型是最大熵分类器的理论基础，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是要找到一个概率分布，不仅满足所有已知的事实，而且不会受任何未知因素的影响。

假设x是特征向量，y是样本类别的输出值。p(y|x)是样本被预测为某一类别的概率。最大熵模型要求p(y|x)在满足一定约束的条件下,必须使下面定义的熵取得最大值，即在约束集下输出最均匀分布的模型：

H (p) = - \underset{x, y}{Σ} \tilde{p} (x) p (y | x) \log p (y | x)

这里用H(p)代替H(Y|X)，条件熵H(Y|X)是条件概率p(y|x)均匀性的一种数学度量方法，强调对概率分布p的依赖。对于任意给定的约束集C，需要求得满足C的所有模型中H(p)取最大值的p^*：

p^*=argmaxH(p)

其中p为满足约束集C条件下的统计模型。

特征f_i的权重用相应的参数λ_i来表示，则最大熵的最终概率输出为：

p_{λ} (y | x) = \frac{1}{Z_{λ} (x)} \exp (\underset{i}{Σ} λ_{i} f_{i} (x, y))

其中：

Z_{λ} (x) = \underset{y}{Σ} \exp (Σ λ_{i} f_{i} (x, y))

称为归一化因子。

为了证明本发明的方法的有效性，本发明一具体实施方式中在9927篇已标注的语料上进行了情绪触发事件抽取实验。

该语料包含9927篇文本，每个文本都有其情绪标注和相对应的情绪触发事件标注。具体实验中，我们选择7941篇文本作为标注样本，另外的1986篇文本作为测试样本。实验中使用准确率（Precision），召回率（Recall）和F值(F-score)作为评价指标。

表3：两类问题的混淆矩阵

	预测类别为1	预测类别为0
			类别为1	分对的1类样本(T1)	分错的1类样本(F0)
类别为0	分错的0类样本(F1)	分对的0类样本(T0)

表3中，T1和T0代表了被正确分类的1类样本和0类样本，F1和F0代表了被错误分类的1类样本和0类样本。准确率、召回率、F值的计算方法为：

{Precision}_{1} = \frac{T 1}{T 1 + F 1}, {Precision}_{0} = \frac{T 0}{T 0 + F 0}

{Recall}_{1} = \frac{T 1}{T 1 + F 0}, {Recall}_{0} = \frac{T 0}{T 0 + F 1}

F - {score}_{1} = \frac{2 \cdot Precision 1 \cdot Recall 1}{Precision 1 + Recall 1}

F - {score}_{0} = \frac{2 \cdot Precision 0 \cdot Recall 0}{Precision 0 + Recall 0}

根据抽取特征的不同建立不同的分类器，实验结果参表4。

表4：不同分类器在9927篇语料上的实验结果

	Precision₀	Recall₀	F-score₀	Precision₁	Recall₁	F-score₁
							Baseline	0.963	0.793	0.870	0.088	0.4	0.144
基本特征	0.957	0.950	0.953	0.135	0.155	0.145
							基本特征+上下文特征	0.966	0.851	0.905	0.121	0.409	0.187
基本特征+上下文特征+语言学特征	0.969	0.847	0.904	0.134	0.473	0.209

其中：

“Baseline”代表：分类器直接选择情绪词后面的子句作为情绪触发事件；

“基本特征”代表：抽取每个clause的基本特征作为分类特征，训练分类器，对测试文本进行情绪触发事件识别；

“基本特征+上下文特征”代表：抽取每个clause的基本特征和上下文特征作为分类特征，训练分类器，对测试文本进行情绪触发事件识别；

“基本特征+上下文特征+语言学特征”代表：抽取每个clause的基本特征，上下文特征和语言学特征作为分类特征，训练分类器，对测试文本进行情绪触发事件识别。

从表4的对比数据可以看出，随着各类特征的增加，分类性能也逐步增加。

图2是测试不同规模的训练数据的实验性能，分别列出了训练数据为全部数据的10%，20%，40%，60%，80%时，进行情绪触发事件抽取的结果。从图中可以看出10%的训练数据进行情绪触发事件抽取的效果就已经远远超过了Baseline，随着训练样本数的增加，情绪触发事件抽取的效果也逐步增加。这说明了本发明的有效性。

综合几组实验来看，为一种情绪触发事件的抽取任务建立分类模型，并选取基本特征，上下文特征和语言学特征作为训练的特征，对文本进行情绪触发识别，可以获得比较好的效果，也证明了这个任务的可行性。

由以上技术方案可以看出，本发明情绪触发事件的抽取方法有助于帮助自动处理和分析同情绪相关的事件，进而应用于突发事件监测、情感摘要等其他任务中，具有强大的实用价值。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种情绪触发事件的抽取方法，其特征在于，所述方法包括以下步骤，

S1、语料处理过程：

S11、将每个篇章按标点符号分成若干子句；

S2、特征提取及训练过程：

S21、提取训练语料中的子句的特征；

S22、针对训练语料中的所有子句训练出分类器；

S3、情绪触发事件抽取过程：

S31、将待抽取的篇章按标点符号分成若干子句；

S32、抽取每个子句的特征；

2.根据权利要求1所述的方法，其特征在于，所述步骤S11和S31中的标点符号包括‘，’、‘。’、‘？’、‘！’。

3.根据权利要求1所述的方法，其特征在于，所述步骤S21和S32中子句的特征包括：基本特征，上下文特征和语言学特征。

4.根据权利要求3所述的方法，其特征在于，所述基本特征包括：名词、动词、名词个数、动词个数。

5.根据权利要求4所述的方法，其特征在于，所述上下文特征包括前一个子句和后一个子句的基本特征。

6.根据权利要求3所述的方法，其特征在于，所述语言学特征为语言学规则产生的特征，所述语言学规则包括：

7.根据权利要求1所述的方法，其特征在于，所述步骤S12具体为：

8.根据权利要求7所述的方法，其特征在于，所述步骤S33具体为：

9.根据权利要求1所述的方法，其特征在于，所述步骤S22中分类器的训练采用最大熵分类工具。