CN105183807A

CN105183807A - 一种基于结构句法的情绪原因事件识别方法及系统

Info

Publication number: CN105183807A
Application number: CN201510530866.8A
Authority: CN
Inventors: 李寿山; 徐健; 周国栋
Original assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Current assignee: Zhangjiagang Institute of Industrial Technologies Soochow University
Priority date: 2015-08-26
Filing date: 2015-08-26
Publication date: 2015-12-23

Abstract

本发明公开了一种基于结构句法的情绪原因事件识别方法及系统，包括：获取预设量的训练文本，所述训练文本为已提供其情绪原因事件的文本；将所述训练文本进行分词处理，得到分别与每个所述训练文本对应的训练词组；确定所述训练词组中每个词语的结构句法特征；利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训练CRF模型；利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件。本发明实施例提供的一种基于结构句法的情绪原因事件识别方法及系统获取待测文本的情绪原因事件的准确率较高，即对于情绪原因事件的识别性能较好。

Description

一种基于结构句法的情绪原因事件识别方法及系统

技术领域

本发明涉及信息抽取技术领域，更具体地说，涉及一种基于结构句法的情绪原因事件识别方法及系统。

背景技术

随着互联网的高速发展，网络信息数据不断增加，大量信息以电子文本的形式呈现在人们面前。而如何从这些大量的信息中迅速、准确地提取出人们所需求的重要信息就越发重要。

信息抽取是从文本信息中自动获取所需信息的一种主要手段。信息抽取是将无结构的文本信息，按照人们的需求识别和抽取出来，转化为结构化或半结构化的信息，并采用数据库的形式存储，以便人们查询和进一步的分析、利用。其中，由文本信息中获取其情绪原因事件是信息抽取中的一个重要方面，情绪原因事件是指文本信息(可以是某段语句)中情绪的触发事件。例如，对于文本信息：IamhappybecauseIhavepassedthetest。该句中情绪对应的情绪词为happy，与之对应的情绪原因事件为Ihavepassedthetest。

目前，情绪原因事件识别方法大多是基于机器学习的方法，即使用统计的方法进行研究。主要还是基于全监督的学习方法，这种方法把情绪原因事件识别看成分类问题，选择合适的特征并使用合适的分类器来完成。但是，这种方法获取待测文本的情绪原因事件的准确率较低。

综上所述，现有技术中的情绪原因事件识别方法存在获取待测文本的情绪原因事件的准确率较低的问题。

发明内容

本发明的目的是提供一种基于结构句法的情绪原因事件识别方法及系统，以解决现有技术中存在的获取待测文本的情绪原因事件的准确率较低的问题。

为了实现上述目的，本发明提供如下技术方案：

一种基于结构句法的情绪原因事件识别方法，包括：

获取预设量的训练文本，所述训练文本为已提供其情绪原因事件的文本；

将所述训练文本进行分词处理，得到分别与每个所述训练文本对应的训练词组；

确定所述训练词组中每个词语的结构句法特征；

利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训练CRF模型；

利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件。

优选的，所述利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训练CRF模型，包括：

确定每个所述训练词组中与该训练词组的情绪原因事件对应的训练情绪词；其中，所述训练词组的情绪原因事件为与所述训练词组对应的训练文本的情绪原因事件；

确定每个所述训练词组中每个词语的词特征、词性特征及词距离；其中，每个所述训练词组中每个词语的词距离为该训练词组中每个词语与该训练词组中的训练情绪词之间的距离；

利用每个所述训练词组及该训练词组中每个词语的词特征、词性特征、词距离及结构句法特征训练CRF模型。

优选的，确定每个所述训练词组中每个词语的词特征、词性特征及结构句法特征，包括：

利用Stanford工具确定所述训练词组中每个词语的词特征、词性特征及结构句法特征。

优选的，所述确定每个所述训练词组中每个词语的词特征、词性特征及词距离，包括：

确定每个所述训练词组中每个词语的词特征、词性特征及词距离；其中，每个所述训练词组中位于该训练词组中的训练情绪词左边的词语的词距离为负数，位于该训练词组中的训练情绪词右边的词语的词距离为正数。

优选的，所述利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件，包括：

获取待测文本，所述待测文本为未提供其情绪原因事件的文本；

将所述待测文本进行分词处理，得到待测词组；

确定所述待测词组中包括的待测情绪词；

确定所述待测词组中每个词语的词特征、词性特征、词距离及结构句法特征；其中，所述待测词组中每个词语的词距离为该待测词组中每个词语与待测情绪词之间的距离；

利用所述待测词组中每个词语的词特征、词性特征、词距离及结构句法特征，通过所述CRF模型，得到所述待测文本的情绪原因事件。

一种基于结构句法的情绪原因事件识别系统，包括：

获取模块，用于获取预设量的训练文本，所述训练文本为已提供其情绪原因事件的文本；

分词模块，用于将所述训练文本进行分词处理，得到分别与每个所述训练文本对应的训练词组；

第一确定模块，用于确定所述训练词组中每个词语的结构句法特征；

训练模块，用于利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训练CRF模型；

第二确定模块，用于利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件。

本发明提供的一种基于结构句法的情绪原因事件识别方法及系统，包括：获取预设量的训练文本，所述训练文本为已提供其情绪原因事件的文本；将所述训练文本进行分词处理，得到分别与每个所述训练文本对应的训练词组；确定所述训练词组中每个词语的结构句法特征；利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训练CRF模型；利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件。与现有技术相比，本申请中利用训练文本进行分词后的词组及词组中每个词语的结构句法特征构建CRF(conditionalrandomfieldalgorithm，条件随机场算法)模型，即建立一个统一的概率模型，进一步利用上述CRF模型确定待测文本的情绪原因事件，实验证明，本发明实施例提供的一种基于结构句法的情绪原因事件识别方法及系统获取待测文本的情绪原因事件的准确率较高，即对于情绪原因事件的识别性能较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于结构句法的情绪原因事件识别方法的流程图；

图2为本发明实施例提供的一种基于结构句法的情绪原因事件识别方法中结构句法特征中各节点的示意图；

图3为本发明实施例提供的一种基于结构句法的情绪原因事件识别方法中步骤S16的流程图；

图4为本发明实施例提供的一种基于结构句法的情绪原因事件识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种基于结构句法的情绪原因事件识别方法的流程图，可以包括以下步骤：

S11：获取预设量的训练文本，训练文本为已提供其情绪原因事件的文本。

其中，预设量可根据实际需要进行确定。

S12：将训练文本进行分词处理，得到分别与每个训练文本对应的训练词组。

其中，分词处理即为将一段文本分割成词语的组合，如将语句“我很高兴”，分割成“我”“很”“高兴”。另外，本发明实施例中训练文本及下文中的待测文本可以是英文文本，也可以是中文文本。

S13：确定训练词组中每个词语的结构句法特征。

S14：利用训练词组及每个训练词组包括的每个词语的结构句法特征训练CRF模型。

S15：利用CRF模型确定待测词组对应的待测文本的情绪原因事件。

本申请中利用训练文本进行分词后的词组及词组中每个词语的结构句法特征构建CRF(conditionalrandomfieldalgorithm，条件随机场算法)模型，即建立一个统一的概率模型，进一步利用上述CRF模型确定待测文本的情绪原因事件，实验证明，本发明实施例提供的一种基于结构句法的情绪原因事件识别方法获取待测文本的情绪原因事件的准确率较高，即对于情绪原因事件的识别性能较好。

其中，利用训练词组及每个训练词组包括的每个词语的结构句法特征训练CRF模型，可以是，将训练词组及每个训练词组包括的每个词语的结构句法特征处理成CRF++所需的格式，然后将其训练成CRF模型。

另外，针对序列标注模型的求解，表现较好的是条件随机场方法，即与CRF模型对应的方法。CRF模型，即条件随机场模型是Lafferty等在最大熵模型和隐马尔可夫模型的基础上提出的一种无向图学习模型，是一种用于标注和切分有序数据的条件概率模型。CRF模型对应的方法是对序列的整体优化。具体求解公式如下：

p_{λ} (Y | W) = \frac{1}{Z (W)} \exp (\underset{t &Element; T}{Σ} \underset{k}{Σ} λ_{k} f_{k} (y_{t - 1}, W, t))

其中，Y＝{y_t}表示对应的输出标记序列；y_t∈{B,I,E,O}分别代表对应的词语是否是情绪原因对应的第一个词、情绪原因的中间词、情绪原因的最后一个词、非情绪原因中的词；W表示待测词序列，Z(W)是归一化因子，f_k为特征函数，t为相应特征的下标。

需要说明的是，本发明实施例提供的一种基于结构句法的情绪原因事件识别方法中，利用训练词组及每个训练词组包括的每个词语的结构句法特征训练CRF模型，可以包括以下步骤：

确定每个训练词组中与该训练词组的情绪原因事件对应的训练情绪词；其中，训练词组的情绪原因事件为与训练词组对应的训练文本的情绪原因事件；

确定每个训练词组中每个词语的词特征、词性特征及词距离；其中，每个训练词组中每个词语的词距离为该训练词组中每个词语与该训练词组中的训练情绪词之间的距离；

利用每个训练词组及该训练词组中每个词语的词特征、词性特征、词距离及结构句法特征训练CRF模型。

可以利用Stanford工具确定训练词组中每个词语的词特征、词性特征及结构句法特征。词特征可以是词语本身。

而确定每个训练词组中每个词语的词特征、词性特征及词距离时，可以包括：确定每个训练词组中每个词语的词特征、词性特征及词距离；其中，每个训练词组中位于该训练词组中的训练情绪词左边的词语的词距离为负数，位于该训练词组中的训练情绪词右边的词语的词距离为正数。而词距离的绝对值则可以是一个词语在该训练词组中与训练情绪词之间的字数差。举例说明，训练词组为“Marie”“was”“agitated”“.”。“Agitated”为训练情绪词，则每个词语的词特性、词性特征、词距离及结构句法特征如下表所示。

每个词语的词特性、词性特征、词距离及结构句法特征的统计表

其中，结构句法特征中的父节点、到根节点路径、路径长度、左兄弟节点及右兄弟节点均是由Stanford工具获得的，如下：

图2为结构句法特征中各节点的示意图，其中was的词性特征是VBD，(VBDwas)组成一个叶子节点；该叶子节点的父节点为VP，到根节点的路径为VBD>VP>S>ROOT，路径长度为4，没有左兄弟节点，右兄弟节点为VP。

另外，可以将每个词语的词特征、词性特征、词距离及结构句法特征转换成特征向量，则每个词语均可以具有与之对应的一个特征向量，利用特征向量构建CRF模型。

由此，获取的CRF模型，能够综合考虑到文本中情绪词的上下文特征，据其建立的CRF模型能够更加准确的识别待测文本的情绪原因事件。

需要说明的是，本发明实施例提供的一种基于结构句法的情绪原因事件识别方法中，利用CRF模型确定待测词组对应的待测文本的情绪原因事件，即步骤S16，可以包括以下步骤：

S31：获取待测文本，待测文本为未提供其情绪原因事件的文本。

S32：将待测文本进行分词处理，得到待测词组。

对于进行分词处理的具体说明请参考上文中的相关内容，在此不再赘述。

S33：确定待测词组中包括的待测情绪词。

S34：确定待测词组中每个词语的词特征、词性特征、词距离及结构句法特征；其中，待测词组中每个词语的词距离为该待测词组中每个词语与待测情绪词之间的距离。

对于每个词语的词特征、词性特征、词距离及结构句法特征的具体说明请参考上文中的相关内容，在此不再赘述。

S35：利用待测词组中每个词语的词特征、词性特征、词距离及结构句法特征，通过CRF模型，得到待测文本的情绪原因事件。

其中，可以将每个词语的词特征、词性特征、词距离及结构句法特征转换成特征向量，然后将特征向量作为CRF模型的输入，以得到与之对应的输出，即待测文本的情绪原因事件。实验证明，由此，获取的待测文本的情绪原因事件的准确率较高。

与上述方法实施例相对应，本发明实施例还提供了一种基于结构句法的情绪原因事件识别系统，其结构示意图如图4所示，可以包括：

获取模块41，用于获取预设量的训练文本，训练文本为已提供其情绪原因事件的文本；

分词模块42，用于将训练文本进行分词处理，得到分别与每个训练文本对应的训练词组；

第一确定模块43，用于确定训练词组中每个词语的结构句法特征；

训练模块44，用于利用训练词组及每个训练词组包括的每个词语的结构句法特征训练CRF模型；

第二确定模块45，用于利用CRF模型确定待测词组对应的待测文本的情绪原因事件。

通过上述系统，利用训练文本进行分词后的词组及词组中每个词语的结构句法特征构建CRF模型，即建立一个统一的概率模型，进一步利用上述CRF模型确定待测文本的情绪原因事件，实验证明，本发明实施例提供的一种基于结构句法的情绪原因事件识别系统获取待测文本的情绪原因事件的准确率较高，即对于情绪原因事件的识别性能较好。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于结构句法的情绪原因事件识别方法，其特征在于，包括：

确定所述训练词组中每个词语的结构句法特征；

2.根据权利要求1所述的方法，其特征在于，所述利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训练CRF模型，包括：

3.根据权利要求2所述的方法，其特征在于，确定每个所述训练词组中每个词语的词特征、词性特征及结构句法特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述确定每个所述训练词组中每个词语的词特征、词性特征及词距离，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件，包括：

将所述待测文本进行分词处理，得到待测词组；

确定所述待测词组中包括的待测情绪词；

6.一种基于结构句法的情绪原因事件识别系统，其特征在于，包括：