CN106951412A

CN106951412A - 一种中文情感表达组合抽取方法及装置

Info

Publication number: CN106951412A
Application number: CN201710182656.3A
Authority: CN
Inventors: 卢奇; 陈文亮
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2017-07-14
Anticipated expiration: 2037-03-24
Also published as: CN106951412B

Abstract

本发明公开了一种中文情感表达组合抽取方法，包括：提取目标中文语句库中每个语句包含的对象、观点词和关系词；构建该语句对应的一个或多个组合项，每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系，每个情感表达组合为一个对象和一个观点词构成的二元对；对所有语句对应的组合项进行汇总，确定组合项候选集；根据情感表达组合与关系词的映射关系，对组合项候选集中的情感表达组合进行排序；根据排序结果，确定待抽取的情感表达组合。应用本发明实施例所提供的技术方案，抽取到具体的情感表达组合，可以作为情感分析的情感资源，提高情感分析的可靠性。本发明还公开了一种中文情感表达组合抽取装置，具有相应技术效果。

Description

一种中文情感表达组合抽取方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种中文情感表达组合抽取方法及装置。

背景技术

随着互联网技术的快速发展、信息化逐渐增强，信息量越来越大，形成了极具有研究价值的庞大数据。根据互联网大数据来分析用户的情感，让计算机理解人类情感，是自然语言处理(NLP)的一个重要研究方向。

情感分析在NLP中具有重要的研究意义。目前用于情感分析的情感资源还不充分，主要资源大多是情感词典，利用情感词典进行观点的倾向性分析。

通过这种方式仅能得到笼统的观点倾向，在情感分析任务中，情感的倾向性只是其中一个方面，仅仅知道大多数用户的观点倾向远远不够。比如，在一个购物网站上，如果仅给出某款型号电脑的好评率，则只能给用户一个大致的判断，用户据此很难确定是否要购买。所以，通过这种方式给出的情感表达过于宽泛，情感分析可靠性不高。

发明内容

本发明的目的是提供一种中文情感表达组合抽取方法及装置，以抽取出具体的情感表达组合，提高情感分析的可靠性。

为解决上述技术问题，本发明提供如下技术方案：

一种中文情感表达组合抽取方法，包括：

提取目标中文语句库中每个语句包含的对象、观点词和关系词；

针对每个语句，基于提取到的该语句包含的对象、观点词和关系词，构建该语句对应的一个或多个组合项，每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系，每个情感表达组合为一个对象和一个观点词构成的二元对；

对所有语句对应的组合项进行汇总，确定组合项候选集；

根据情感表达组合与关系词的映射关系，对所述组合项候选集中的情感表达组合进行排序；

根据排序结果，确定待抽取的情感表达组合。

在本发明的一种具体实施方式中，所述提取目标中文语句库中每个语句包含的对象、观点词和关系词，包括：

在目标中文语句库中，根据预设的第一类词性，提取每个语句包含的对象；

根据预设的第二类词性，提取每个语句包含的观点词；

针对每个语句，分别将该语句中每个对象和每个观点词的中间部分确定为关系词。

在本发明的一种具体实施方式中，所述映射关系中携带相应情感表达组合与关系词的映射方向的信息。

在本发明的一种具体实施方式中，所述对所有语句对应的组合项进行汇总，确定组合项侯选集，包括：

确定所有语句对应的组合项中相同组合项的出现次数；

对所有语句对应的组合项进行去重处理；

根据去重结果，确定组合项侯选集，所述组合项侯选集中包含多个组合项及每个组合项的出现次数信息。

在本发明的一种具体实施方式中，所述根据去重结果，确定组合项侯选集，包括：

对去重处理后的组合项进行去噪处理；

根据去噪结果，确定组合项侯选集。

在本发明的一种具体实施方式中，所述根据情感表达组合与关系词的映射关系，对所述组合项侯选集中的情感表达组合进行排序，包括：

根据情感表达组合与关系词的映射关系，构建情感表达组合与关系词的二部图；

根据所述二部图和预设的每个情感表达组合的初始分数，确定每个情感表达组合的收敛分数；

根据每个情感表达组合的收敛分数，对所述组合项侯选集中的情感表达组合进行排序。

在本发明的一种具体实施方式中，所述根据所述二部图和预设的每个情感表达组合的初始分数，确定每个情感表达组合的收敛分数，包括：

根据所述二部图，确定情感表达组合与关系词的映射关系矩阵；

根据预设的每个情感表达组合的初始分数，确定情感表达组合的初始分数矩阵；

将所述情感表达组合的初始分数矩阵确定为第一分数矩阵；

根据所述映射关系矩阵与所述第一分数矩阵的乘积，确定关系词的分数矩阵；

对所述关系词的分数矩阵进行归一化处理；

根据所述映射关系矩阵的转置矩阵与归一化后的关系词的分数矩阵的乘积，确定情感表达组合的分数矩阵；

对所述情感表达组合的分数矩阵进行归一化处理；

将归一化后的情感表达组合的分数矩阵确定为第一分数矩阵，重复执行所述根据所述映射关系矩阵与所述第一分数矩阵的乘积，确定关系词的分数矩阵的步骤，直至相邻两次归一化后的情感表达组合的分数矩阵之间所有相应项的差值均小于设定第一收敛阈值，获得每个情感表达组合的收敛分数。

将所述情感表达组合的初始分数矩阵确定为第二分数矩阵；

根据所述映射关系矩阵的转置矩阵、所述映射关系矩阵和所述第二分数矩阵的乘积，确定情感表达组合的分数矩阵；

对所述情感表达组合的分数矩阵进行归一化处理；

将归一化后的情感表达组合的分数矩阵确定为第二分数矩阵，重复执行所述根据所述映射关系矩阵的转置矩阵、所述映射关系矩阵和所述第二分数矩阵的乘积，确定情感表达组合的分数矩阵的步骤，直至相邻两次归一化后的情感表达组合的分数矩阵之间所有相应项的差值均小于设定第二收敛阈值，获得每个情感表达组合的收敛分数。

在本发明的一种具体实施方式中，所述根据排序结果，确定待抽取的情感表达组合，包括：

根据排序结果，将所述组合项侯选集中的情感表达组合划分到合格列表和不合格列表中；

确定所述不合格列表中每个情感表达组合的观点词与所述合格列表中观点词集合的相似度；

确定所述不合格列表中每个情感表达组合的对象与所述合格列表中对象集合的相似度；

针对所述不合格列表中的每个情感表达组合，如果该情感表达组合的观点词与所述合格列表中观点词集合的相似度和该情感表达的对象与所述合格列表中对象集合的相似度均大于设定的相似度阈值，则将该情感表达组合划分到所述合格列表中；

将所述合格列表中的情感表达组合确定为待抽取的情感表达组合。

一种中文情感表达组合抽取装置，包括：

提取模块，用于提取目标中文语句库中每个语句包含的对象、观点词和关系词；

构建模块，用于针对每个语句，基于提取到的该语句包含的对象、观点词和关系词，构建该语句对应的一个或多个组合项，每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系，每个情感表达组合为一个对象和一个观点词构成的二元对；

汇总模块，用于对所有语句对应的组合项进行汇总，确定组合项候选集；

排序模块，用于根据情感表达组合与关系词的映射关系，对所述组合项候选集中的情感表达组合进行排序；

抽取模块，用于根据排序结果，确定待抽取的情感表达组合。

应用本发明实施例所提供的技术方案，提取出目标中文语句库中每个语句包含的对象、观点词和关系词，针对每个语句，基于提取到的对象、观点词和关系词，可以构建该语句对应的一个或多个组合项，每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系，每个情感表达组合为一个对象和一个观点词构成的二元对，对所有语句对应的组合项进行汇总，确定组合项侯选集，根据情感表达组合与关系词的映射关系，可以对组合项侯选集中的情感表达组合进行排序，根据排序结果，确定待抽取的情感表达组合。抽取到具体的情感表达组合，可以作为情感分析的情感资源，提高情感分析的可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种中文情感表达组合抽取方法的实施流程图；

图2为本发明实施例中对象、观点词、关系词提取示意图；

图3为本发明实施例中一种二部图模型示意图；

图4为本发明实施例中映射关系矩阵示意图；

图5为本发明实施例中迭代过程收敛示意图；

图6为本发明实施例中关系词收敛结果示意图；

图7为本发明实施例中一种中文情感表达组合抽取装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，为本发明实施例所提供的一种中文情感表达组合抽取方法的实施流程图，该方法可以包括以下步骤：

S110：提取目标中文语句库中每个语句包含的对象、观点词和关系词。

目标中文语句库为待进行情感表达组合抽取的语句库，可以是购物网站或者旅游网站等的评论库，还可以是各种语料库。

目标中文语句库中包含多个语句。可以根据词性，提取每个语句包含的对象、观点词和关系词。

在本发明的一种具体实施方式中，步骤S110可以包括以下步骤：

步骤一：在目标中文语句库中，根据预设的第一类词性，提取每个语句包含的对象；

步骤二：根据预设的第二类词性，提取每个语句包含的观点词；

步骤三：针对每个语句，分别将该语句中每个对象和每个观点词的中间部分确定为关系词。

为便于描述，将上述三个步骤结合起来进行说明。

在本发明实施例中，可以预设第一类词性和第二类词性，通过词性来限制对象和观点词。在目标中文语句库中，可以根据预设的第一类词性，提取每个语句包含的对象，即将具有第一类词性的词确定为对象，根据预设的第二类词性，提取每个语句包含的观点词，即将具有第二类词性的词确定为观点词。

如，第一类词性的集合N＝{n,ns,vn,nz,s,nr}，其中，n为名词、ns为地名、vn为动名词、nz为其他专有名词、s为处所词、nr为人名；第二类词性的集合S＝{a}，其中，a为形容词。

针对目标中文语句库中的每个语句，可以分别将该语句中每个对象和每个观点词的中间部分确定为关系词(pattern)。

如图2所示语句“名气挺大但是性价比不高”中，词性满足集合N的对象有“名气”和“性价比”，词性满足集合S的观点词有“大”和“高”，每个对象和每个观点词的中间部分的关系词分别为“挺”、“挺大但是性价比不”、“但是”和“不”。

S120：针对每个语句，基于提取到的该语句包含的对象、观点词和关系词，构建该语句对应的一个或多个组合项。

每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系，每个情感表达组合为一个对象和一个观点词构成的二元对。

在步骤S110，提取到目标中文语句库中每个语句包含的对象、观点词和关系词后，针对每个语句，基于提取到的该语句包含的对象、观点词和关系词，可以构建该语句对应的一个或多个组合项。

具体的，可以将每个对象逐一与每个观点词组合起来，以二元对[对象-观点词]的方式构成情感表达组合，如[价格-高]、[性价比-高]、[长城-雄伟]，即每个情感表达组合为一个对象和一个观点词构成的二元对。同时，可以确定每个情感表达组合与每个关系词的映射关系。基于此，可以获得一个或多个组合项，每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系。

每个情感表达组合与每个关系词的映射关系中可以携带相应情感表达组合与关系词的映射方向的信息，这样可以更准确地反映相应情感表达组合与关系词的映射关系。在本发明实施例中，可以在关系词后添加“+”、“-”符号表示映射方向。如将“对象+关系词+观点词”形式的关系词记作“关系词-”；将“观点词+关系词+对象”形式的关系词记作“关系词+”。

仍以图2所示语句为例，基于提取到的该语句包含的对象、观点词和关系词，构建得到的该语句对应的组合项如下：

[名气-大]——挺-

[名气-高]——挺大但是性价比不-

[性价比-大]——但是+

[性价比-高]——不-

S130：对所有语句对应的组合项进行汇总，确定组合项侯选集。

针对每个语句，可以构建该语句对应的一个或多个组合项，对所有语句对应的组合项进行汇总，可以确定组合项侯选集。

在本发明的一种具体实施方式中，步骤S130可以包括以下步骤：

第一个步骤：确定所有语句对应的组合项中相同组合项的出现次数；

第二个步骤：对所有语句对应的组合项进行去重处理；

第三个步骤：根据去重结果，确定组合项侯选集，组合项侯选集中包含多个组合项及每个组合项的出现次数信息。

为便于描述，将上述三个步骤结合起来进行说明。

目标中文语句库包含多个语句，构建得到每个语句对应的组合项中，可能存在相同组合项，可以确定出所有语句对应的组合项中相同组合项的出现次数。对所有语句对应的组合项进行去重处理，对于相同组合项仅保留一个，根据去重结果，确定组合项侯选集，组合项侯选集中包含多个组合项及每个组合项的出现次数信息。具体形式可以是“情感表达组合——关系词——出现次数”。

比如，对图2所示语句对应的组合项进行汇总，得到的组合项侯选集为：

[名气-大]——挺-——1

[名气-高]——挺大但是性价比不-——1

[性价比-大]——但是+——1

[性价比-高]——不-——1

在实际的中文语句库中，随着“性价比不高”出现的越多，该组合项的出现次数也随之增加。

在本发明的一种具体实施方式中，在确定组合项侯选集时，可以先对去重处理后的组合项进行去噪处理，根据去噪结果，确定组合项侯选集。

在本发明实施例中，可以预先设定去噪规则，根据去噪规则，对去重处理后的组合项进行去噪处理。具体的去噪规则可以根据实际情况进行设定和调整。

比如，可以将属于并列连词，如“和、又、而且、而”等的关系词确定为噪声，还可以将“的-”关系词确定为噪声，还可以将“时候、人、免费、美”等对象确定为噪声。

根据去噪后的组合项及各组合项的出现次数，确定组合项侯选集。

S140：根据情感表达组合与关系词的映射关系，对组合项侯选集中的情感表达组合进行排序。

组合项侯选集中包含多个组合项及每个组合项的出现次数信息。每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系。如果一个情感表达组合与很多个关系词具有映射关系，表明这个情感表达组合比较重要。如果一个关系词可以映射到很多个情感表达组合，表明这个关系词比较重要。

根据情感表达组合与关系词的映射关系，可以对组合项侯选集中的情感表达组合进行排序。

在本发明的一种具体实施方式中，步骤S140包括以下步骤：

步骤一：根据情感表达组合与关系词的映射关系，构建情感表达组合与关系词的二部图；

步骤二：根据二部图和预设的每个情感表达组合的初始分数，确定每个情感表达组合的收敛分数；

步骤三：根据每个情感表达组合的收敛分数，对组合项侯选集中的情感表达组合进行排序。

为便于描述，将上述三个步骤结合起来进行说明。

根据组合项侯选集中每个情感表达组合与关系词的映射关系，可以构建情感表达组合与关系词的二部图。如图3所示，为情感表达组合与关系词的二部图模型示意图，其中，情感表达组合“pair₁”分别与关系词“很-”、“的+”、“挺-”具有映射关系。

根据二部图和预设的每个情感表达组合的初始分数，可以确定每个情感表达组合的收敛分数。

在本发明的一种具体实施方式中，可以通过以下步骤确定每个情感表达组合的收敛分数，也可称为二部图排序：

第一个步骤：根据二部图，确定情感表达组合与关系词的映射关系矩阵；

第二个步骤：根据预设的每个情感表达组合的初始分数，确定情感表达组合的初始分数矩阵；

第三个步骤：将情感表达组合的初始分数矩阵确定为第一分数矩阵；

第四个步骤：根据映射关系矩阵与第一分数矩阵的乘积，确定关系词的分数矩阵；

第五个步骤：对关系词的分数矩阵进行归一化处理；

第六个步骤：根据映射关系矩阵的转置矩阵与归一化后的关系词的分数矩阵的乘积，确定情感表达组合的分数矩阵；

第七个步骤：对情感表达组合的分数矩阵进行归一化处理；

第八个步骤：将归一化后的情感表达组合的分数矩阵确定为第一分数矩阵，重复执行第四个步骤的操作，直至相邻两次归一化后的情感表达组合的分数矩阵之间所有相应项的差值均小于设定第一收敛阈值，获得每个情感表达组合的收敛分数。

为便于描述，将上述八个步骤结合起来进行说明。

根据情感表达组合与关系词的二部图，可以确定映射关系矩阵。图4所示为一种映射关系矩阵，其中，count_u,k表示组合项“pair_u——patt_k”的出现次数。

在本发明实施例中，可以预先设定每个情感表达组合的初始分数，比如均设定为1，根据预设的每个情感表达组合的初始分数，可以确定情感表达组合的初始分数矩阵，情感表达组合的初始分数矩阵为一维矩阵。

将情感表达组合的初始分数矩阵确定为第一分数矩阵。

计算映射关系矩阵与第一分数矩阵的乘积，将该乘积确定为关系词的分数矩阵。对关系词的分数矩阵进行归一化处理，以保证相邻两次归一化后的关系词的分数矩阵具有相同的总分数。

计算映射关系矩阵的转置矩阵与归一化后的关系词的分数矩阵的乘积，确定情感表达组合的分数矩阵。对情感表达组合的分数矩阵进行归一化处理，以保证相邻两次归一化后的情感表达组合的分数矩阵具有相同的总分数。

将归一化后的情感表达组合的分数矩阵确定为第一分数矩阵，重复执行根据映射关系矩阵与第一分数矩阵的乘积，确定关系词的分数矩阵的步骤，进行迭代运算。直至相连两次归一化后的情感表达组合的分数矩阵之间所有相应项的差值均小于设定第一收敛阈值，即相邻两次归一化后的情感表达组合的分数矩阵近似收敛，结束迭代过程，获得每个情感表达组合的收敛分数。

第一收敛阈值可以根据实际情况进行设定和调整，如设置为1e-7。

上述迭代计算过程如公式(1)所示：

其中，A_i为关系词的分数矩阵，C_i、C_i+1为情感表达组合的分数矩阵，B为映射关系矩阵。

在本发明实施例中，可以使用以下公式(2)～公式(4)对需要进行归一化处理的矩阵X进行归一化处理：

N＝len(X) 公式(2)

X[j]＝X[j]/sum(X)*N,j＝1,2...N 公式(4)

通过公式(2)可以得到矩阵X的分数池N，即归一化后矩阵X的总分。通过公式(3)对矩阵X各维度进行求和，得到矩阵X实际运算后的总分数sum(X)。通过公式(4)对矩阵X每一维分数所占的比例重新分配分数，分数之和为N。对矩阵X进行这样的归一化处理，是因为实际中矩阵维度很高，如果控制总分数和为1，则语料之间不具备可比性，因为每一维度平均被分配的分数不同，随着规模越大，每一维被分配的分数会变低，在同一个收敛阙值情况下，维度越高，直观上收敛速度越快，但是收敛越不可靠。

在本发明的另一种具体实施方式中，可以通过以下步骤确定每个情感表达组合的收敛分数：

第三个步骤：将情感表达组合的初始分数矩阵确定为第二分数矩阵；

第四个步骤：根据映射关系矩阵的转置矩阵、映射关系矩阵和第二分数矩阵的乘积，确定情感表达组合的分数矩阵；

第五个步骤：对情感表达组合的分数矩阵进行归一化处理；

第六个步骤：将归一化后的情感表达组合的分数矩阵确定为第二分数矩阵，重复执行第四个步骤的操作，直至相邻两次归一化后的情感表达组合的分数矩阵之间所有相应项的差值均小于设定第二收敛阈值，获得每个情感表达组合的收敛分数。

为便于描述，将上述六个步骤结合起来进行说明。

根据情感表达组合与关系词的二部图，可以确定情感表达组合与关系词的映射关系矩阵，如图4所示。

将情感表达组合的初始分数矩阵确定为第二分数矩阵。

计算映射关系矩阵的转置矩阵、映射关系矩阵和第二分数矩阵的乘积，将该乘积确定为情感表达组合的分数矩阵。对情感表达组合的分数矩阵进行归一化处理，以保证相邻两次归一化后的情感表达组合的分数矩阵具有相同的总分数。

将归一化后的情感表达组合的分数矩阵确定为第二分数矩阵，重复执行根据映射关系矩阵的转置矩阵、映射关系矩阵和第二分数矩阵的乘积，确定情感表达组合的分数矩阵的步骤，进行迭代运算。直至相连两次归一化后的情感表达组合的分数矩阵之间所有相应项的差值均小于设定第二收敛阈值，即相邻两次归一化后的情感表达组合的分数矩阵近似收敛，结束迭代过程，获得每个情感表达组合的收敛分数。

第二收敛阈值与第一收敛阈值可以相同还可以不同，可以根据实际情况进行设定和调整，如设置为1e-7。

上述迭代计算过程如公式(5)所示：

C_i+1＝B^T·B·C_i 公式(5)

在本发明实施例中，同样可以使用公式(2)～公式(4)对需要进行归一化处理的矩阵X进行归一化处理，具体过程在此不再赘述。

确定出每个情感表达组合的收敛分数后，可以根据每个情感表达组合的收敛分数，对组合项侯选集中的情感表达组合进行排序，具体的，可以按照分数高低顺序对情感表达组合进行排序。

S150：根据排序结果，确定待抽取的情感表达组合。

在步骤S140，对组合项侯选集中的情感表达组合进行排序后，根据排序结果，可以确定出待抽取的情感表达组合。

具体的，可以从分数最高的情感表达开始，按照分数高低，选择前a个情感表达组合，将其确定为待抽取的情感表达组合，a可以为设定数量值或者为根据组合项侯选集中情感表达组合总数的设定占比计算得到的数值。

在本发明的一种具体实施方式中，步骤S150可以包括以下步骤：

步骤一：根据排序结果，将组合项侯选集中的情感表达组合划分到合格列表和不合格列表中；

步骤二：确定不合格列表中每个情感表达组合的观点词与合格列表中观点词集合的相似度；

步骤三：确定不合格列表中每个情感表达组合的对象与合格列表中对象集合的相似度；

步骤四：针对不合格列表中的每个情感表达组合，如果该情感表达组合的观点词与合格列表中观点词集合的相似度和该情感表达的对象与合格列表中对象集合的相似度均大于设定的相似度阈值，则将该情感表达组合划分到合格列表中；

步骤五：将合格列表中的情感表达组合确定为待抽取的情感表达组合。

为便于描述，将上述五个步骤结合起来进行说明。

在步骤S140，对组合项侯选集中的情感表达组合进行排序，可以得到大量情感表达组合的排序结果。虽然排序靠前的情感表达组合正确率很高，但是排序结果靠后的情感表达组合中也包含很多正确的，比如：

[杜鹃花—灿烂]——盛开的+——1

[杜鹃花—灿烂]——开得很-——1

该情感表达组合有两个关系词，分别代表了“灿烂盛开的杜鹃花”以及“杜鹃花开得很灿烂”。如果该情感表达组合出自旅游语料，而整个语料中涉及到花的评论很少，这将导致“开得很”这个关系词出现次数较少，在迭代中获得的分数较低，因此，仅仅包含该关系词的情感表达组合分数远低于其他情感表达组合，这就导致“杜鹃花—灿烂”获得了较低排名。反之，如果在一个关于花的评论语料中进行情感表达组合的排序，“开得很”这个关系词的分数会因为映射到更多的情感表达组合使得分数变高，这样就能成功将和花有关的情感表达组合排序靠前。

在本发明实施例中，可以认为任意对象的观点词都具有相似性，任意观点词描述的对象也具有相似性。比如对象“长城”，它所拥有的观点词有“雄伟”、“壮观”、“宏伟”等。同理，观点词“繁茂”一般形容“林木”、“灌木”这些对象。这些对象或观点词相似度很高，可以利用这一点对排名靠后的情感表达组合进行提炼。

根据排序结果，可以将组合项侯选集中的情感表达组合划分到合格列表和不合格列表中。如将前K％的情感表达组合划分到合格列表中，将剩下的其他情感表达组合划分到不合格列表中。K％可以根据实验正确率统计结果进行设定和调整，如设定为10％。

这样，合格列表中包含多个情感表达组合，将其中每个情感表达组合的观点词提取出来构成观点词集合，将其中每个情感表达组合的对象提取出来构成对象集合。

针对不合格列表中每个情感表达组合的观点词，可以确定该观点词与合格列表中每个观点词的相似度，进而确定该观点词与合格列表中观点词集合的相似度。具体的，该观点词与合格列表中观点词集合的相似度可以等于该观点词与合格列表中每个观点词的相似度的平均值。

针对不合格列表中每个情感表达组合的对象，可以确定该对象与合格列表中每个对象的相似度，进而确定该对象与合格列表中对象集合的相似度。具体的，该对象与合格列表中对象集合的相似度可以等于该对象与合格列表中每个对象的相似度的平均值。

相似度的计算可以利用现有技术中的word2vec模型，本发明实施例对此不再赘述。

针对不合格列表中每个情感表达组合，可以判断该情感表达组合的观点词与合格列表中观点词集合的相似度和该情感表达的对象与合格列表中对象集合的相似度是否均大于设定的相似度阈值，如果均大于，则可以将该情感表达组合划分到合格列表中。相似度阈值可以根据实际情况进行设定和调整。

将合格列表中的情感表达组合确定为待抽取的情感表达组合。

对不合格列表中的情感表达组合进行提炼，可以充分扩大最终提取到的情感表达组合，提高准确率。

应用本发明实施例所提供的方法，提取出目标中文语句库中每个语句包含的对象、观点词和关系词，针对每个语句，基于提取到的对象、观点词和关系词，可以构建该语句对应的一个或多个组合项，每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系，每个情感表达组合为一个对象和一个观点词构成的二元对，对所有语句对应的组合项进行汇总，确定组合项侯选集，根据情感表达组合与关系词的映射关系，可以对组合项侯选集中的情感表达组合进行排序，根据排序结果，确定待抽取的情感表达组合。抽取到具体的情感表达组合，可以作为情感分析的情感资源，提高情感分析的可靠性。

为进一步说明本发明实施例所提供的技术方案的效果，下面从实验角度进行说明：

本实验使用了三种语料：来源于GIGAword的新闻语料、来自大众点评的餐馆语料、来自携程的旅游语料，其中，餐馆语料和旅游语料是用户评论文本。对语料进行预处理：句子切分、分词、词性标注。表1是语料的相关统计数据以及候选对抽取的结果统计。从表1中可以看出候选对的规模较为庞大，经过检查后发现正确率不高。

语料	句子片段数	情感表达组合pair数量	关系词pattern数量
				新闻	15887167	1198320	1772387
餐馆	13887566	935133	1884141
				旅游	2857252	266934	332954

表1

实验过程主要分成三个步骤：组合项候选集的获取；情感表达组合的排序；情感表达组合的提炼。所有统计数据各抽取样例50个，取平均值。若正确率统计结果差距超过4％，则重新抽取进行正确率统计。

构建了两种Baseline进行对比：1)Baseline1：使用组合项候选集直接作为系统结果；2)Baseline2：按照组合项的出现次数高低进行排序作为系统结果。

表2展示了排序实验结果，其中M％-N％表示排序后的结果分布。实验结果表明，本发明实施例提出的二部图排序算法能有效的对情感表达组合进行排序。在表2中，三种语料中前10％的情感表达组合都达到了90％以上的正确率，随排序往后其正确率也随之降低。由于二部图排序算法效果表现优秀，后60％正确率才开始大幅度下降，故不再按10％作为划分统计，而是以30％为一组进行统计。旅游语料相比较另外两个语料质量较好，在前30％的结果都保持了较高的正确率，故而在提炼实验中只对其后70％的结果进行提炼，新闻和餐馆语料都是对后90％的结果进行提炼。

语料

0％-10％

10％-20％

20％-30％

30％-40％

40％-70％

70％-100％

新闻

91％

77％

56％

44％

25％

14％

餐馆

92％

71％

63％

46％

31％

15％

旅游

97％

93％

90％

69％

54％

21％

表2

表3中第一栏“>K”表示取相似度K以上的值时对应的正确率统计。从结果中可以看出，新闻语料区别于用户评论语料，正确率下降的最快。当相似度平均分低于0.25时，正确率开始较明显的降低，此时提炼出情感表达组合有17198个。餐馆语料平均相似度在0.2以上保持了较好的正确率，有情感表达组合52204个。携程和餐馆都属于评论语料，和餐馆提炼效果相似，在均分0.2以上保持了较高的正确率，但是语料规模相对较小，只有5264个情感表达组合。

语料	>0.3-数目	>0.25-数目	>0.2-数目	>0.15-数目	>0.1-数目
						新闻	93％-8004	89％-17198	81％-37374	74％-88234	68％-220599
餐馆	91％-7136	88％-20851	90％-52204	81％-112333	75％-225105
						旅游	94％-655	91％-2013	90％-5624	83％-14211	77％-35858

表3

表4展示了Baseline1、Baseline2及二部图排序算法的对比结果，其中Baseline1是对整个候选集随机选取样本进行正确率评估。从旅游语料的三个区间结果上看，基于词频的排序Baseline2在10％之后正确率开始趋于Baseline1，这说明词频和正确率还是存在一定的正相关性。从表中还可以看出，二部图排序算法比Baseline2可以更好地进行排序。此外，还将二部图排序和Baseline2相应区间的集合进行了比较，来计算它们之间的不同，在表4中“集合差占比”表示。在集合差占比一栏中，在0％-10％区间，两者之间的集合差别在50％左右，这说明二部图排序算法可以将大量正确的低频情感表达组合排在较前位置。

最终，得到了正确率90％以上的新闻情感表达组合的二元对13.7万个，餐馆二元对14.5万个，旅游二元对3.2万个。但是从表3提炼的数量上来看，虽然保证了正确率，可是在剩下的结果中依然存在一些情感表达组合未抽取出来。

语料排序	Baseline1	Baseline2	二部图排序	集合差占比
					旅游0％-10％	56％	86％	97％	49.5％
旅游10％-20％	56％	66％	93％	90.5％
					旅游20％-30％	56％	58％	90％	87.1％
餐馆0％-10％	43％	80％	92％	49.8％
					新闻0％-10％	39％	70％	91％	65.4％

表4

在排序实验中，pair分数变化以1e-7作为收敛状态值。图5中记录了从第一次迭代开始情感表达组合二元对的收敛情况。从中可以看出语料规模越大，收敛速度越快，三个语料的迭代曲线都是单调递减。但在收敛过程中并不是一直平稳的下降，期间三个语料都出现了在趋于稳定时陡然下降的情况。这是因为pair和pattern的映射关系导致了部分pair出现一种“抱团”现象。拥有相同pattern的pair，它们的变化幅度相同，形成了一个小集体。当新的一组pair分数变化开始小于1e-7后，立刻从未不稳定状态变成了稳定状态，这就出现了图中曲线在稳定前发生的骤降现象。

图6给出了三个数据集排序后前20个pattern的对比。从图中可以看出，两种用户评论语料(餐馆、旅游)经过排序后，前20个pattern的排序结果非常相似。两种用户评论的语料展现了很强的相关性，它们之间相同的pattern在图中用线标示出来。在前20个pattern中，有13个相同。由于新闻语料的风格和前两种用户评论的语料不一致，相同的pattern只有“的+”、“不-”和“是-”三个，在图中用方框圈出。

表4为情感表达组合抽取样例。

表4

从表4抽取出的情感表达组合中，分别展示了三个数据集上的对象样例各20个。描述这些对象的观点词修饰正确，将对象的主要特点都成功体现出来。当然其中也存在些许错误，比如“洪水高”。一般“高”形容水位，形容洪水的量词以“大”为主。“洪水高”排名高的原因是语料中出现多次“洪水水位高”从而导致水位被作为分数较高的pattern使得“洪水高”这个pair获得了较高的分数。

本发明实施例所提供的技术方案可以获得较高正确率的情感表达组合，可以基于语料自动生成，不需要人工干预设置种子词或者关系词就可获得正确率较高的情感表达组合。在实际应用中可以对用户评论进行自动化挑选对象和观点词，方便用户查看。将情感表达组合作为整体，是因为不同对象结合相同观点词的情感倾向可能会发生变化，如“价格-高”和“性价比-高”的情感倾向相反。通过本发明实施例所提供的技术方案在大规模语料中得到的情感表达组合资源对情感分析具有很大的潜在价值。

相应于上面的方法实施例，本发明实施例还提供了一种中文情感表达组合抽取装置，下文描述的一种中文情感表达组合抽取装置与上文描述的一种中文情感表达组合抽取方法可相互对应参照。

参见图7所示，该装置包括以下模块：

提取模块710，用于提取目标中文语句库中每个语句包含的对象、观点词和关系词；

构建模块720，用于针对每个语句，基于提取到的该语句包含的对象、观点词和关系词，构建该语句对应的一个或多个组合项，每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系，每个情感表达组合为一个对象和一个观点词构成的二元对；

汇总模块730，用于对所有语句对应的组合项进行汇总，确定组合项候选集；

排序模块740，用于根据情感表达组合与关系词的映射关系，对组合项候选集中的情感表达组合进行排序；

抽取模块750，用于根据排序结果，确定待抽取的情感表达组合。

应用本发明实施例所提供的装置，提取出目标中文语句库中每个语句包含的对象、观点词和关系词，针对每个语句，基于提取到的对象、观点词和关系词，可以构建该语句对应的一个或多个组合项，每个组合项包含一个情感表达组合及该情感表达组合与一个关系词的映射关系，每个情感表达组合为一个对象和一个观点词构成的二元对，对所有语句对应的组合项进行汇总，确定组合项侯选集，根据情感表达组合与关系词的映射关系，可以对组合项侯选集中的情感表达组合进行排序，根据排序结果，确定待抽取的情感表达组合。抽取到具体的情感表达组合，可以作为情感分析的情感资源，提高情感分析的可靠性。

在本发明的一种具体实施方式中，提取模块710，具体用于：

根据预设的第二类词性，提取每个语句包含的观点词；

在本发明的一种具体实施方式中，映射关系中携带相应情感表达组合与关系词的映射方向的信息。

在本发明的一种具体实施方式中，汇总模块730，具体用于：

确定所有语句对应的组合项中相同组合项的出现次数；

对所有语句对应的组合项进行去重处理；

根据去重结果，确定组合项侯选集，组合项侯选集中包含多个组合项及每个组合项的出现次数信息。

在本发明的一种具体实施方式中，汇总模块730，具体用于：

对去重处理后的组合项进行去噪处理；

根据去噪结果，确定组合项侯选集。

在本发明的一种具体实施方式中，排序模块740，具体用于：

根据二部图和预设的每个情感表达组合的初始分数，确定每个情感表达组合的收敛分数；

根据每个情感表达组合的收敛分数，对组合项侯选集中的情感表达组合进行排序。

在本发明的一种具体实施方式中，排序模块740，具体用于：

根据二部图，确定情感表达组合与关系词的映射关系矩阵；

将情感表达组合的初始分数矩阵确定为第一分数矩阵；

根据映射关系矩阵与第一分数矩阵的乘积，确定关系词的分数矩阵；

对关系词的分数矩阵进行归一化处理；

根据映射关系矩阵的转置矩阵与归一化后的关系词的分数矩阵的乘积，确定情感表达组合的分数矩阵；

对情感表达组合的分数矩阵进行归一化处理；

将归一化后的情感表达组合的分数矩阵确定为第一分数矩阵，重复执行根据映射关系矩阵与第一分数矩阵的乘积，确定关系词的分数矩阵的步骤，直至相邻两次归一化后的情感表达组合的分数矩阵之间所有相应项的差值均小于设定第一收敛阈值，获得每个情感表达组合的收敛分数。

在本发明的一种具体实施方式中，排序模块740，具体用于：

根据二部图，确定情感表达组合与关系词的映射关系矩阵；

将情感表达组合的初始分数矩阵确定为第二分数矩阵；

根据映射关系矩阵的转置矩阵、映射关系矩阵和第二分数矩阵的乘积，确定情感表达组合的分数矩阵；

对情感表达组合的分数矩阵进行归一化处理；

将归一化后的情感表达组合的分数矩阵确定为第二分数矩阵，重复执行根据映射关系矩阵的转置矩阵、映射关系矩阵和第二分数矩阵的乘积，确定情感表达组合的分数矩阵的步骤，直至相邻两次归一化后的情感表达组合的分数矩阵之间所有相应项的差值均小于设定第二收敛阈值，获得每个情感表达组合的收敛分数。

在本发明的一种具体实施方式中，抽取模块750，具体用于：

根据排序结果，将组合项侯选集中的情感表达组合划分到合格列表和不合格列表中；

确定不合格列表中每个情感表达组合的观点词与合格列表中观点词集合的相似度；

确定不合格列表中每个情感表达组合的对象与合格列表中对象集合的相似度；

针对不合格列表中的每个情感表达组合，如果该情感表达组合的观点词与合格列表中观点词集合的相似度和该情感表达的对象与合格列表中对象集合的相似度均大于设定的相似度阈值，则将该情感表达组合划分到合格列表中；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种中文情感表达组合抽取方法，其特征在于，包括：

对所有语句对应的组合项进行汇总，确定组合项候选集；

根据排序结果，确定待抽取的情感表达组合。

2.根据权利要求1所述的中文情感表达组合抽取方法，其特征在于，所述提取目标中文语句库中每个语句包含的对象、观点词和关系词，包括：

根据预设的第二类词性，提取每个语句包含的观点词；

3.根据权利要求2所述的中文情感表达组合抽取方法，其特征在于，所述映射关系中携带相应情感表达组合与关系词的映射方向的信息。

4.根据权利要求1所述的中文情感表达组合抽取方法，其特征在于，所述对所有语句对应的组合项进行汇总，确定组合项侯选集，包括：

确定所有语句对应的组合项中相同组合项的出现次数；

对所有语句对应的组合项进行去重处理；

5.根据权利要求4所述的中文情感表达组合抽取方法，其特征在于，所述根据去重结果，确定组合项侯选集，包括：

对去重处理后的组合项进行去噪处理；

根据去噪结果，确定组合项侯选集。

6.根据权利要求1所述的中文情感表达组合抽取方法，其特征在于，所述根据情感表达组合与关系词的映射关系，对所述组合项侯选集中的情感表达组合进行排序，包括：

7.根据权利要求6所述的中文情感表达组合抽取方法，其特征在于，所述根据所述二部图和预设的每个情感表达组合的初始分数，确定每个情感表达组合的收敛分数，包括：

将所述情感表达组合的初始分数矩阵确定为第一分数矩阵；

对所述关系词的分数矩阵进行归一化处理；

对所述情感表达组合的分数矩阵进行归一化处理；

8.根据权利要求6所述的中文情感表达组合抽取方法，其特征在于，所述根据所述二部图和预设的每个情感表达组合的初始分数，确定每个情感表达组合的收敛分数，包括：

将所述情感表达组合的初始分数矩阵确定为第二分数矩阵；

对所述情感表达组合的分数矩阵进行归一化处理；

9.根据权利要求1至8任一项所述的中文情感表达组合抽取方法，其特征在于，所述根据排序结果，确定待抽取的情感表达组合，包括：

10.一种中文情感表达组合抽取装置，其特征在于，包括：