CN107291686A

CN107291686A - 情感标识的辨识方法和情感标识的辨识系统

Info

Publication number: CN107291686A
Application number: CN201610228512.2A
Authority: CN
Inventors: 刘克松; 杨建武; 张丹; 蔡慧慧; 马路
Original assignee: Peking University; Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University; Beijing Founder Electronics Co Ltd
Priority date: 2016-04-13
Filing date: 2016-04-13
Publication date: 2017-10-24
Anticipated expiration: 2036-04-13
Also published as: CN107291686B

Abstract

本发明提供了一种情感标识的辨识方法和情感标识的辨识系统，其中，情感标识的辨识方法包括：根据情感标识的使用频率确定种子词和种子词对应的文本集合；在对应的文本集合中确定候选词语；根据预设的似然比模型确定候选词语与种子词的相关性数值，以根据相关性数值确定候选词语对应的情感标识。通过本发明的技术方案，针对不同文本语境对情感标识进行识别，适用于多种互联网社交平台。

Description

情感标识的辨识方法和情感标识的辨识系统

技术领域

本发明涉及语义辨识技术领域，具体而言，涉及一种情感标识的辨识方法和一种情感标识的辨识系统。

背景技术

随着互联网的飞速发展，社交网络和电子商务日益融入人们生活。网络空间上随处可见对公众人物、热点事件、网购商品和影视作品等等的评论言论。通常这些评论的文本长度较短，口语化，且带有强烈的个人情感色彩。通常文本情感倾向分析技术依赖领域情感词典，情感词库的构建是文本情感分析任务的一个重要环节。在丰富、完善的情感词表基础上，可对文本中的观点、立场以及情感倾向进行识别、分类、提炼、整合、追踪和分析研究。

相关技术中，虽然存在一些通用的情感词库，但是情感标识(如词语和表情符号等)具有很强的领域相关性。例如，一个词语的褒贬倾向并不是在所有领域都是一致的，一个情感词库也不可能涵盖所有领域。不同领域的情感标识有明显的差异。例如，在表达上网的网速时“快”是正面评价词，而在表达手机电池使用时间时“快”是负面评价词。因此，词语在领域内的褒贬倾向鲜明更为重要。一般依据规范书面语通过专家知识得到的通用情感词词典很难适用于复杂的互联网环境。

另外，通过手工构建情感词词典需要大量的人工干预和人工判断，存在较大的随意性和主观性。无法及时收录最新的网络流行语，而且缺乏不同领域之间的移植性，不能由机器自动迁移到其他领域，无法考虑词语的领域属性，不能从问题领域角度考虑词的情感倾向，具有一定的局限性。

因此，如何提高情感标识的辨识的准确性成为亟待解决的技术问题。

发明内容

本发明正是基于上述技术问题至少之一，提出了一种新的情感标识的辨识方案，通过根据情感标识的使用频率确定种子词及其文本集合，并根据似然比模型确定候选词语与种子词的相关性数值，针对不同文本语境对情感标识进行识别，适用于多种互联网社交平台。

有鉴于此，根据本发明的第一方面的实施例，提出了一种情感标识的辨识方法，包括：根据情感标识的使用频率确定种子词和种子词对应的文本集合；在对应的文本集合中确定候选词语；根据预设的似然比模型确定候选词语与种子词的相关性数值，以根据相关性数值确定候选词语对应的情感标识。

在该技术方案中，通过根据情感标识的使用频率确定种子词及其文本集合，并根据似然比模型确定候选词语与种子词的相关性数值，针对不同文本语境对情感标识进行识别，适用于多种互联网社交平台。

其中，结合种子词的文本集合的语境，考虑候选词语在上述文本集合中出现的概率，例如，候选词语在种子词的相邻位置出现的概率，更能反映候选词语与种子词的相关性。

在上述技术方案中，优选地，根据预设的似然比模型确定候选词语与种子词的相关性数值，以根据相关性数值确定候选词语对应的情感标识，具体包括以下步骤：将种子词记作s，同时将候选词语记作w，确定文本集合中的种子词的相邻文本段落；计算候选词语属于相邻文本段落的条件概率，并记作P(w|s)；计算候选词语属于文本集合的概率，并记作P(w)，并将候选词语出现在文本集合的次数记作k；根据第一公式计算候选词语的依赖性系数，依赖性系数记作M(w，s)，其中，第一公式为确定依赖性系数大于零的候选词语，以确定为参考情感词语，并根据依赖性系数从大到小的顺序对参考情感词语进行排序。

在该技术方案中，通过计算种子词的依赖性系数，确定依赖性系数大于零即确定P(w|s)大于P(w)，对候选词语进行进一步地筛选，并且根据依赖性系数从大到小的顺序对参考情感词语进行排序，更利于快速地确定情感标识的语义特性。

在上述任一项技术方案中，优选地，根据预设的似然比模型确定候选词语与种子词的相关性数值，以根据相关性数值确定候选词语对应的情感标识，具体还包括以下步骤：创建参考情感词语的二维矩阵，二维矩阵的行对应于参考情感词语向量或种子词向量，二维矩阵的列对应于文本集合的向量；确定二维矩阵的特征值，二维矩阵的左特征向量矩阵和右特征向量矩阵，以及二维矩阵的特征值组成的对角矩阵；根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵，其中，第二公式为C＝U×∑×V^T，C表征低秩近似矩阵，U表征左特征向量矩阵，V^T表征右特征向量矩阵，∑表征特征值组成的对角矩阵。

在该技术方案中，通过创建参考情感词语的二维矩阵，并进一步地确定二维矩阵的低秩相似矩阵，减小了计算量，有利于进一步地快速计算参考候选词语和种子词的相关性。

在上述任一项技术方案中，优选地，根据预设的似然比模型确定候选词语与种子词的相关性数值，以根据相关性数值确定候选词语对应的情感标识，具体还包括以下步骤：根据第三公式分别对参考情感词语和种子词进行空间变化处理，以变换至语义空间进行识别，其中，第三公式为x为w时，T(w)表征参考情感词语在语义空间中的向量表示，x为s时，T(s)表征种子词在语义空间中的向量表示，表征参考情感词语向量的转置向量或种子词向量的转置向量，U表征左特征向量矩阵，∑^-1表征对角矩阵的逆矩阵。

在该技术方案中，考虑词之间的语义关联特征，从隐含语义分析(Latent Semantics Analysis)的角度，为衡量情感种子词s和候选词语w在低维语义空间的相似度，需要把文本集合从原始词空间映射到语义空间。假设文本集合经去噪、分词、得到词-文档(term-document)矩阵C(行表示某个词，列表示某篇文档)，那么该矩阵奇异值分解(SingularValue Decomposition)得到C＝U×∑×V^T，其中矩阵U和V是矩阵C的左右奇异值特征矩阵，∑是对角元为奇异值的对角矩阵。当取奇异值最大的前k个元素时，∑_k是对角元为奇异值的对角矩阵，U_k和V_k矩阵的列为奇异值对应的特征向量矩阵，得到矩阵C的低秩近似为C_k＝U_k×∑_k×V_k ^T。

在上述任一项技术方案中，优选地，根据预设的似然比模型确定候选词语与种子词的相关性数值，以根据相关性数值确定候选词语对应的情感标识，具体还包括以下步骤：根据第四公式计算参考情感词语与种子词的相关性系数，其中，第四公式为R(w，s)＝T(w)^T×T(s)，T(w)^T表征T(w)的转置矩阵，R(w，s)表征相关性系数。

在该技术方案中，通过计算参考情感词语与种子词的相关系系数，参考情感词语的相关语义直观地转换为相关性系数，以供服务器根据相关系系数阈值进行语义辨识，另外，还可以将相关性系数生成列表提示给服务器维护人员，以进一步地进行人工筛选，以循环生成新的种子词。

根据本发明的第二方面的实施例，提出了一种情感标识的辨识系统，包括：确定单元，用于根据情感标识的使用频率确定种子词和种子词对应的文本集合；确定单元还用于：在对应的文本集合中确定候选词语；确定单元还用于：根据预设的似然比模型确定候选词语与种子词的相关性数值，以根据相关性数值确定候选词语对应的情感标识。

在上述技术方案中，优选地，确定单元还用于：将种子词记作s，同时将候选词语记作w，确定文本集合中的种子词的相邻文本段落；确定单元还用于：计算候选词语属于相邻文本段落的条件概率，并记作P(w|s)；确定单元还用于：计算候选词语属于文本集合的概率，并记作P(w)，并将候选词语出现在文本集合的次数记作k；确定单元还用于：根据第一公式计算候选词语的依赖性系数，依赖性系数记作M(w，s)，其中，第一公式为确定单元还用于：确定依赖性系数大于零的候选词语，以确定为参考情感词语，并根据依赖性系数从大到小的顺序对参考情感词语进行排序。

在上述任一项技术方案中，优选地，还包括：创建单元，用于创建参考情感词语的二维矩阵，二维矩阵的行对应于参考情感词语向量或种子词向量，二维矩阵的列对应于文本集合的向量；确定单元还用于：确定二维矩阵的特征值，二维矩阵的左特征向量矩阵和右特征向量矩阵，以及二维矩阵的特征值组成的对角矩阵；确定单元还用于：根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵，其中，第二公式为C＝U×∑×V^T，C表征低秩近似矩阵，U表征左特征向量矩阵，V^T表征右特征向量矩阵，∑表征特征值组成的对角矩阵。

在上述任一项技术方案中，优选地，还包括：空间变化单元，用于根据第三公式分别对参考情感词语和种子词进行空间变化处理，以变换至语义空间进行识别，其中，第三公式为x为w时，T(w)表征参考情感词语在语义空间中的向量表示，x为s时，T(s)表征种子词在语义空间中的向量表示，表征参考情感词语向量的转置向量或种子词向量的转置向量，U表征左特征向量矩阵，∑^-1表征对角矩阵的逆矩阵。

在上述任一项技术方案中，优选地，确定单元还用于：根据第四公式计算参考情感词语与种子词的相关性系数，其中，第四公式为R(w，s)＝T(w)^T×T(s)，T(w)^T表征T(w)的转置矩阵，R(w，s)表征相关性系数。

通过以上技术方案，通过根据情感标识的使用频率确定种子词及其文本集合，并根据似然比模型确定候选词语与种子词的相关性数值，针对不同文本语境对情感标识进行识别，适用于多种互联网社交平台。

附图说明

图1示出了根据本发明的一个实施例的情感标识的辨识方法的示意流程图；

图2示出了根据本发明的一个实施例的情感标识的辨识系统的示意框图；

图3示出了根据本发明的另一个实施例的情感标识的辨识系统的示意框图；

图4示出了根据本发明的另一个实施例的情感标识的辨识方法的示意流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的情感标识的辨识方法的示意流程图。

如图1所示，根据本发明的实施例的情感标识的辨识方法，包括：步骤102，根据情感标识的使用频率确定种子词和种子词对应的文本集合；步骤104，在对应的文本集合中确定候选词语；步骤106，根据预设的似然比模型确定候选词语与种子词的相关性数值，以根据相关性数值确定候选词语对应的情感标识。

图2示出了根据本发明的一个实施例的情感标识的辨识系统的示意框图。

如图2所示，根据本发明的一个实施例的情感标识的辨识系统200，包括：确定单元202，用于根据情感标识的使用频率确定种子词和种子词对应的文本集合；确定单元202还用于：在对应的文本集合中确定候选词语；确定单元202还用于：根据预设的似然比模型确定候选词语与种子词的相关性数值，以根据相关性数值确定候选词语对应的情感标识。

在上述技术方案中，优选地，确定单元202还用于：将种子词记作s，同时将候选词语记作w，确定文本集合中的种子词的相邻文本段落；确定单元202还用于：计算候选词语属于相邻文本段落的条件概率，并记作P(w|s)；确定单元202还用于：计算候选词语属于文本集合的概率，并记作P(w)，并将候选词语出现在文本集合的次数记作k；确定单元202还用于：根据第一公式计算候选词语的依赖性系数，依赖性系数记作M(w，s)，其中，第一公式为确定单元202还用于：确定依赖性系数大于零的候选词语，以确定为参考情感词语，并根据依赖性系数从大到小的顺序对参考情感词语进行排序。

在上述任一项技术方案中，优选地，还包括：创建单元204，用于创建参考情感词语的二维矩阵，二维矩阵的行对应于参考情感词语向量或种子词向量，二维矩阵的列对应于文本集合的向量；确定单元202还用于：确定二维矩阵的特征值，二维矩阵的左特征向量矩阵和右特征向量矩阵，以及二维矩阵的特征值组成的对角矩阵；确定单元202还用于：根据左特征向量矩阵、右特征向量矩阵、对角矩阵和第二公式计算二维矩阵的低秩近似矩阵，其中，第二公式为C＝U×∑×V^T，C表征低秩近似矩阵，U表征左特征向量矩阵，V^T表征右特征向量矩阵，∑表征特征值组成的对角矩阵。

在上述任一项技术方案中，优选地，还包括：空间变化单元206，用于根据第三公式分别对参考情感词语和种子词进行空间变化处理，以变换至语义空间进行识别，其中，第三公式为x为w时，T(w)表征参考情感词语在语义空间中的向量表示，x为s时，T(s)表征种子词在语义空间中的向量表示，表征参考情感词语向量的转置向量或种子词向量的转置向量，U表征左特征向量矩阵，∑^-1表征对角矩阵的逆矩阵。

在该技术方案中，考虑词之间的语义关联特征，从隐含语义分析(Latent Semantics Analysis)的角度，为衡量情感种子词s和候选词语w在低维语义空间的相似度，需要把文本集合从原始词空间映射到语义空间。假设文本集合经去噪、分词、得到词-文档(term-document)矩阵C(行表示某个词，列表示某篇文档)，那么该矩阵奇异值分解(SingularValue Decomposition)得到C＝U×∑×V^T，其中矩阵U和V是矩阵C的左右奇异值特征矩阵，∑是对角元为奇异值的对角矩阵。当取奇异值最大的前k个元素时，Σ_k是对角元为奇异值的对角矩阵，U_k和V_k矩阵的列为奇异值对应的特征向量矩阵，得到矩阵C的低秩近似为C_k＝U_k×Σ_k×V_k ^T。

在上述任一项技术方案中，优选地，确定单元202还用于：根据第四公式计算参考情感词语与种子词的相关性系数，其中，第四公式为R(w，s)＝T(w)^T×T(s)，T(w)^T表征T(w)的转置矩阵，R(w，s)表征相关性系数。

图3示出了根据本发明的另一个实施例的情感标识的辨识系统的示意框图。

如图3所示，根据本发明的另一个实施例的情感标识的辨识系统300，包括：文本采集模块302、种子词生成模块304、情感词扩展模块306和人工校验模块308。

(1)文本采集模块302用于：确定特定领域，也即文本情感分析的应用领域，比如网民购买商品后的评论、网民对社会民生事件的评论等等。确定领域之后，通过网络爬虫对特定领域相关的评论文本进行定向采集。

例如，对于商品评论内容，因为评论通常集中在某些固定的购物网站，可以采集某一段时间段某一类商品的所有评论。对于网络舆情事件，如微博等社交网络上的讨论和评论内容，由于社交网络数据大，内容纷繁复杂且噪音多，可采用在某一段时间内由关键词词组定义的某一类事件过滤出事件相关的微博文本。

(2)情感种子词生成模块304用于：分析领域相关评论文本中具有强烈感情色彩的词汇。情感种子词是在领域内有明确的褒贬倾向，而且是较为常用的词。有些词的情感倾向非常明确，但与领域的相关度很低，被使用的概率比较低，那么这些词的敏感度就会降低，可能与绝大多数词的语义相似度都较小。比如,“温文尔雅”是个正面的词，属于成语，偏书面用，但在商品评论里几乎不会有人使用这个词。

生成情感种子词的文本集合，首先通过特定领域的文本采集模块302得到特定领域语料库，经过去噪、去重、分词和词性标注等处理，统计其中高频的形容词和副词，如果是社交媒体文本，情感标识还包括表情符号。候选词汇作为潜在的种子词，需要对候选词汇诸如形容词、副词、以及表情符号按词频降序排列。如果是商品评论并且有商品的打分数据，可进一步根据词所对应文本的打分得到情感词的极性。最后，对长度不超过100的高频修饰词表，经人工干预的手段，挑选种子词，并标记其情感极性。

(3)候情感词扩展模块306用于：利用大规模的无标注的文本集合，结合情感种子词，通过分析不同词之间的统计特征、语义关联特征实现情感词的扩展。

(4)人工校验模块308用于：对情感种子词的候选词、扩展得到的情感词列表进行人工校验。需要指出的是此处的人工校验是针对已经排序的候选列表，通常比较正确的情感词都出现在列表中排名靠前，所以所需的人工筛选工作量是极少的。

由于领域情感词数目有限，不同的情感种子词扩展出的情感词存在交叉重复的可能，可以利用这一特性，在遍历不同种子词的扩展集时，自动排除已经通过人工审核的词，这样进一步减少人工干预的程度。

情感词扩展集审核去重：假设情感种子词集合为{S_i},经上述算法自动得到情感词扩展集合T₁，再经人工校验得到情感词集R₁；S₂经上述算法自动得到情感词扩展集合T₁，从中扣除已知情感词，只需对(T₁-R₁)集合进行人工校验，得到T₂，依次类推。

如图4所示，根据本发明的另一个实施例的情感标识的辨识方法，包括：步骤402，根据情感标识所在领域确定文本集合，对文本集合进行去噪和分词等预处理，并进行词频统计和词性标注，经过人工干预得到种子词；步骤404，特征统计步骤406，语义统计；步骤408，候选情感词列表，经过人工干预筛选得到该领域内的情感词。

以上结合附图详细说明了本发明的技术方案，考虑到如何提高情感标识的辨识的准确性成的技术问题。因此，本发明提出了一种新的情感标识的辨识方案，通过根据情感标识的使用频率确定种子词及其文本集合，并根据似然比模型确定候选词语与种子词的相关性数值，针对不同文本语境对情感标识进行识别，适用于多种互联网社交平台。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种情感标识的辨识方法，适用于终端，其特征在于，包括：

根据情感标识的使用频率确定种子词和所述种子词对应的文本集合；

在所述对应的文本集合中确定候选词语；

根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值，以根据所述相关性数值确定所述候选词语对应的情感标识。

2.根据权利要求1所述的情感标识的辨识方法，其特征在于，根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值，以根据所述相关性数值确定所述候选词语对应的情感标识，具体包括以下步骤：

将所述种子词记作s，同时将所述候选词语记作w，确定所述文本集合中的所述种子词的相邻文本段落；

计算所述候选词语属于所述相邻文本段落的条件概率，并记作P(w|s)；

计算所述候选词语属于所述文本集合的概率，并记作P(w)，并将所述候选词语出现在所述文本集合的次数记作k；

根据第一公式计算所述候选词语的依赖性系数，所述依赖性系数记作M(w，s)，

其中，所述第一公式为

确定所述依赖性系数大于零的候选词语，以确定为参考情感词语，并根据所述依赖性系数从大到小的顺序对所述参考情感词语进行排序。

3.根据权利要求1或2所述的情感标识的辨识方法，其特征在于，根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值，以根据所述相关性数值确定所述候选词语对应的情感标识，具体还包括以下步骤：

创建所述参考情感词语的二维矩阵，所述二维矩阵的行对应于所述参考情感词语向量或所述种子词向量，所述二维矩阵的列对应于所述文本集合的向量；

确定所述二维矩阵的特征值，所述二维矩阵的左特征向量矩阵和右特征向量矩阵，以及所述二维矩阵的特征值组成的对角矩阵；

根据所述左特征向量矩阵、所述右特征向量矩阵、所述对角矩阵和第二公式计算所述二维矩阵的低秩近似矩阵，

其中，所述第二公式为C＝U×∑×V^T，所述C表征所述低秩近似矩阵，所述U表征所述左特征向量矩阵，所述V^T表征所述右特征向量矩阵，所述∑表征所述特征值组成的对角矩阵。

4.根据权利要求3所述的情感标识的辨识方法，其特征在于，根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值，以根据所述相关性数值确定所述候选词语对应的情感标识，具体还包括以下步骤：

根据第三公式分别对所述参考情感词语和所述种子词进行空间变化处理，以变换至语义空间进行识别，

其中，所述第三公式为所述x为所述w时，T(w)表征所述参考情感词语在所述语义空间中的向量表示，所述x为所述s时，T(s)表征所述种子词在所述语义空间中的向量表示，所述表征所述参考情感词语向量的转置向量或所述种子词向量的转置向量，所述U表征所述左特征向量矩阵，所述∑^-1表征所述对角矩阵的逆矩阵。

5.根据权利要求4所述的情感标识的辨识方法，其特征在于，根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值，以根据所述相关性数值确定所述候选词语对应的情感标识，具体还包括以下步骤：

根据第四公式计算所述参考情感词语与所述种子词的相关性系数，

其中，所述第四公式为R(w，s)＝T(w)^T×T(s)，所述T(w)^T表征所述T(w)的转置矩阵，所述R(w，s)表征所述相关性系数。

6.一种情感标识的辨识系统，适用于终端，其特征在于，包括：

确定单元，用于根据情感标识的使用频率确定种子词和所述种子词对应的文本集合；

所述确定单元还用于：在所述对应的文本集合中确定候选词语；

所述确定单元还用于：根据预设的似然比模型确定所述候选词语与所述种子词的相关性数值，以根据所述相关性数值确定所述候选词语对应的情感标识。

7.根据权利要求6所述的情感标识的辨识系统，其特征在于，

所述确定单元还用于：将所述种子词记作s，同时将所述候选词语记作w，确定所述文本集合中的所述种子词的相邻文本段落；

所述确定单元还用于：计算所述候选词语属于所述相邻文本段落的条件概率，并记作P(w|s)；

所述确定单元还用于：计算所述候选词语属于所述文本集合的概率，并记作P(w)，并将所述候选词语出现在所述文本集合的次数记作k；

所述确定单元还用于：根据第一公式计算所述候选词语的依赖性系数，所述依赖性系数记作M(w，s)，

其中，所述第一公式为

所述确定单元还用于：确定所述依赖性系数大于零的候选词语，以确定为参考情感词语，并根据所述依赖性系数从大到小的顺序对所述参考情感词语进行排序。

8.根据权利要求6或7所述的情感标识的辨识系统，其特征在于，还包括：

创建单元，用于创建所述参考情感词语的二维矩阵，所述二维矩阵的行对应于所述参考情感词语向量或所述种子词向量，所述二维矩阵的列对应于所述文本集合的向量；

所述确定单元还用于：确定所述二维矩阵的特征值，所述二维矩阵的左特征向量矩阵和右特征向量矩阵，以及所述二维矩阵的特征值组成的对角矩阵；

所述确定单元还用于：根据所述左特征向量矩阵、所述右特征向量矩阵、所述对角矩阵和第二公式计算所述二维矩阵的低秩近似矩阵，

9.根据权利要求8所述的情感标识的辨识系统，其特征在于，还包括：

空间变化单元，用于根据第三公式分别对所述参考情感词语和所述种子词进行空间变化处理，以变换至语义空间进行识别，

10.根据权利要求9所述的情感标识的辨识系统，其特征在于，

所述确定单元还用于：根据第四公式计算所述参考情感词语与所述种子词的相关性系数，