CN110399595A

CN110399595A - 一种文本信息标注的方法以及相关装置

Info

Publication number: CN110399595A
Application number: CN201910706016.7A
Authority: CN
Inventors: 徐灿
Original assignee: Tencent Technology Chengdu Co Ltd
Current assignee: Tencent Technology Chengdu Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-01
Anticipated expiration: 2039-07-31
Also published as: CN110399595B

Abstract

本申请实施例公开了一种文本信息标注的方法以及相关装置，该方法通过计算待标注词语为正面倾向的概率值和负面倾向的概率值，然后根据概率值确定待标注词语的情感倾向，本申请实施例考虑了正面倾向和负面倾向两个情况，突出了正面倾向和负面倾向的特点，能够正确识别待标注词语的正负倾向，解决当前容易将词性相反的词语归到同一情感倾向，导致情感分析错误的技术问题。

Description

一种文本信息标注的方法以及相关装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本信息标注的方法以及相关装置。

背景技术

随着现代社会的发展，文本分析对于计算机处理人们日常使用的语言具有重要的作用。自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。人们希望通过计算机从文本信息中提取出重要的信息，例如人们对某事物的情感。

情感分析是NLP中一个非常重要的方向，互联网(如博客和论坛以及社会服务网络)上产生了大量的对于诸如人物、事件、产品等有价值的新闻文章以及评论信息。这些新闻文章以及信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。通过情感分析能够从大量文本信息中获取到人们对于事物的情感倾向性，从而根据情感分析的情况进行相应的活动。

当前通过词向量的余弦距离计算两个词的相似性，容易将词性相反的词语归到同一情感倾向，导致情感分析错误。

发明内容

本申请实施例提供了一种文本信息标注的方法以及相关装置，用于解决当前文本情感分析容易将词性相反的词语归到同一情感倾向，导致情感分析错误的技术问题。

有鉴于此，本申请实施例第一方面提供一种文本信息标注的方法，包括：

获取第一词库，所述第一词库为存储种子词的词库，所述种子词为已标注情感倾向的词语；

获取待标注词语的词向量；

根据所述种子词与所述词向量确定所述待标注词语的正面概率值和负面概率值，所述正面概率值为所述待标注词语为正面倾向的概率值，所述负面概率值为所述待标注词语为负面倾向的概率值；

根据所述正面概率值和所述负面概率值确定所述待标注词语的情感倾向；

根据所述待标注词语的情感倾向，将所述待标注词语添加至所述第一词库，得到第二词库。

本申请实施例第二方面提供一种文本信息标注的装置，包括：

获取单元，用于获取第一词库，所述第一词库为存储种子词的词库，所述种子词为已标注情感倾向的词语；

获取单元还用于获取待标注词语的词向量；

处理单元，用于根据所述种子词与所述词向量确定所述待标注词语的正面概率值和负面概率值，所述正面概率值为所述待标注词语为正面倾向的概率值，所述负面概率值为所述待标注词语为负面倾向的概率值；

处理单元还用于根据所述正面概率值和所述负面概率值确定所述待标注词语的情感倾向；

处理单元还用于根据所述待标注词语的情感倾向，将所述待标注词语添加至所述第一词库，得到第二词库。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述处理单元还用于根据顶点之间的权重，采用随机游走算法计算粒子游走到顶点的游走概率值，直到全局收敛或达到迭代次数，其中，所述顶点与所述待标注词语具有对应关系，所述权重为所述词向量之间的余弦距离，所述待标注词语与所述种子词相同的情况下，所述待标注词语的初始概率为第一概率，所述待标注词语与所述种子词不同的情况下，所述待标注词语的初始概率为第二概率；

若所述种子词的情感倾向为正面倾向，则根据所述待标注词语对应的所述游走概率值，确定所述待标注词语的所述正面概率值；

若所述种子词的情感倾向为负面倾向，则根据所述待标注词语对应的所述游走概率值，确定所述待标注词语的所述负面概率值。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述处理单元还用于获取综合得分，所述综合得分与所述正面概率值正相关，与所述负面概率值负相关；

按照所述综合得分由高往低的顺序对所述待标注词语进行排序，得到排序结果；

根据所述排序结果确定从前至后的M个所述待标注词语的情感倾向为正面倾向，确定从后至前的N个所述待标注词语的情感倾向为负面倾向，其中，所述M为大于或等于1的整数，所述N为大于或等于1的整数。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述第一词库包括第一正面词库和第一负面词库，所述第二词库包括第二正面词库和第二负面词库；

所述处理单元还用于若所述待标注词语的情感倾向为正面倾向，则将所述待标注词语添加至所述第一正面词库，得到第二正面词库；

若所述待标注词语的情感倾向为负面倾向，则将所述待标注词语添加至所述第一负面词库，得到第二负面词库。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述获取单元还用于获取逐点互信息矩阵，所述逐点互信息矩阵包括所述待标注词语的共现概率的对数值；根据所述逐点互信息矩阵，通过奇异值分解算法获取所述待标注词语的所述词向量。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述处理单元还用于获取候选词库，所述候选词库为去除低频词以及误用词后的词库，所述低频词为在语料中出现次数少于预设阈值的词语，所述误用词表示词性为已选定词性的词语；根据所述候选词库和所述待标注词语的情感倾向将所述待标注词语添加至所述第一词库，得到第二词库。

在一种可能的设计中，在本申请实施例第二方面的一种实现方式中，所述处理单元还用于获取文本信息；根据所述第二词库中的词语对所述文本信息进行情感分析。

本申请实施例第三方面提供一种服务器，包括：一个或一个以上中央处理器，存储器，输入输出接口，有线或无线网络接口，电源；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，在所述服务器上执行所述存储器中的指令操作以执行上述第一方面的方法。

本申请第四方面提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行上述第一方面的方法。

本申请第五方面提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例通过计算待标注词语为正面倾向的概率值和负面倾向的概率值，然后根据概率值确定待标注词语的情感倾向，本申请实施例考虑了正面倾向和负面倾向两个情况，突出了正面倾向和负面倾向的特点，能够正确识别待标注词语的正负倾向，解决当前容易将词性相反的词语归到同一情感倾向，导致情感分析错误的技术问题。

附图说明

图1为通过文本情感分析得到某评价对象的口碑的分析情况图；

图2为本申请实施例提供的一种文本信息标注的方法的流程图；

图3为本申请实施例提供的文本信息标注的方法的一个可选实施例的流程图；

图4为本申请实施例提供的文本信息标注的方法的一个可选实施例的流程图；

图5为本申请实施例提供的文本信息标注方法的应用例示意图；

图6为应用例中第一正面词库的词语数量与准确率的关系图；

图7为应用例中第一负面词库的词语数量与准确率的关系图；

图8为本申请提供一种文本信息标注的装置的示意图；

图9是本申请实施例提供的一种服务器结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

随着自然语言处理技术研究和进步，自然语言处理技术在多个领域展开研究和应用，例如文本情感分析、文本分类和聚类、信息检索和过滤、信息抽取问答系统拼音汉字转换系统、机器翻译、新信息检测等，相信随着技术的发展，自然语言处理技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及自然语言处理的文本情感分析等技术，具体通过如下实施例进行说明:

应理解，文本情感分析越来越成为自然语言处理中热门方向。在文本情感分析中，包括三种级别的情感分析，分别是文章级、句子级以及词语级。文章级情感分析是指一个整体的情感倾向，即一篇文章传达总体为正面还是负面的情感倾向。而句子级情感分析则是一个句子传达总体为正面还是负面的情感倾向。词语级情感分析是一个词语表现出正面倾向或负面倾向(还可以有中性倾向或感情色彩的倾向，例如生气倾向、憎恨倾向、害怕倾向、内疚倾向、感兴趣倾向、高兴倾向、悲伤倾向)，本申请实施例以正面倾向和负面倾向为例进行说明，其他情感倾向的分析类似，此处不再赘述。举个例子，“很好”这个词语的情感倾向为正面倾向，“差评”这个词语的情感倾向为负面倾向。

可以理解的是，文章由多个句子组成，句子又由多个词语组成，因此，要对文章或者句子进行情感分析，首先要对词语进行分析。词语的情感是句子或篇章级情感分析的基础。一般可以通过正面倾向和负面倾向的情感对词语进行分类，在实际应用中，还可以有生气倾向、憎恨倾向、害怕倾向、内疚倾向等分类方式，这些分类方式与正面倾向和负面倾向的分类类似，本申请实施例不再赘述。得到词语的情感后，可以分析文章或句子中词语的情感集合，从而综合得到文章级或句子级的情感分析结果。举个简单的例子，若一篇文章中情感倾向为负面倾向的词语占据绝大部分，则可以将该文章的情感定位为负面倾向，进一步分析该文章的评价对象后，可以得到该文章实际上是对某评价对象呈负面倾向，从而分析得到社会对某评价对象的口碑。

如图1所示，图1为通过文本情感分析得到某评价对象的口碑的分析情况图。可以看出，每篇文章对游戏A的情感倾向均已经分析完毕，例如，文章1对游戏A的情感倾向为中性，文章2对游戏A的情感倾向为负面，文章3对游戏A的情感倾向为正面。图1右边为分析扇形图，可以看出，全部文章中，对游戏A的情感倾向为正面倾向、负面倾向以及中性倾向的文章占据总文章的百分比。通过这个扇形图可以看出如今游戏A的正面倾向文章较多，游戏A在人们中的口碑较好。图1中右下角为全部文章中出现频率较高的词语，可供人们分析游戏A的情况。

而在分析文章或句子前，首先要对词语进行情感倾向的分类。

一般是通过词语的上下文形成词语的词向量，因此词向量能够反映该词语的上下文，同时该词语的上下文决定了该词语的词向量，若两个词语的上下文比较相似，则两个词语的词向量比较相似。通过两个词语的词向量之间的余弦距离可以表示两个词语的词向量相似程度，因此通过两个词语的词向量之间的余弦距离对词语进行聚类或分类。例如，“好”与“很好”的词向量之间的余弦距离较小，说明“好”与“很好”理论上属于同一类的情感倾向，即都是正面情感倾向。然而，这种方式比较依赖上下文的情形，如果两个词上下文比较相似，则两个词语的词向量比较相似，余弦距离较小，分到同一类。在实际应用中，发现有很多情感倾向相反的词语，上下文也比较相似，因此容易错误地吧情感倾向相反的词语分到同一类。例如，“很好”与“很差”这两个词的上下文比较相似，两个词语的词向量比较相似，余弦距离较小，分到了同一类，例如都分到了正面倾向，但是显然“很差”这个词语是负面倾向。因此，这种仅根据余弦距离进行分类的方法容易将词性相反的词语归到同一情感倾向，导致情感分析错误。

有鉴于此，本申请实施例提供一种文本信息标注的方法，如图2所示，图2为本申请实施例提供的一种文本信息标注的方法的流程图，本申请实施例提供一种文本信息标注的方法，包括以下步骤：

201、获取第一词库，第一词库为存储种子词的词库，种子词为已标注情感倾向的词语；

在本申请实施例中，首先人工标注几个种子词作为最初的第一词库，或者通过算法得出一些基础词语，作为最初的第一词库。选择种子词时，可以选择与上下文无关的情感词。例如，选择“很好”作为正面倾向的词语，因为“很好”出现在任何语境中都是一个正面词。可以选择“糟糕”作为负面倾向的词语，因为“糟糕”出现在任何语境中都认为是一个负面词。

第一词库中的种子词都为同一情感倾向。若第一词库中的种子词都是正面倾向的词语，则“糟糕”不能出现在该词库中，并且，所有负面倾向的词语都不能作为该词库的种子词。若第一词库中的种子词都是负面倾向的词语，则正面倾向的词语不能作为该词库的种子词。种子词的情感倾向与第一词库中其他种子词的情感倾向相同。可以通过人工挑选种子词或者人工审核种子词保证。

并且，种子词一般是与上下文无关的情感词，即挑选种子词时，不以上下文为依据，而依照词语本身的含义对其情感倾向进行定义。例如，“很好”本身的情感倾向为正面倾向，与上下文无关。

第一词库是一种情感词库，情感词库中包括若干个情感词，情感词是带有情绪的词，在本申请实施例中，情感词分为正面词和负面词。正面词是指情感倾向为正面倾向的词语，负面词是指情感倾向为负面倾向的词语。比如“很好”、“高兴”是正面词，“讨厌”、“糟糕”是负面词。

202、获取待标注词语的词向量；

在本申请实施例中，可以通过正数逐点互信息(positive pointwise mutualinformation，PPMI)算法从语料中获取词向量，也可以通过基于负采样的跳跃模型(skip-gram with negative sampling，SGNS)从语料中获取词向量，在实际应用中，还可以采用其他词向量模型(Word2vec模型)或者其他算法获取词向量，或者是直接从数据库中提取词向量，接收其他装置的词向量等，具体此处不做限定。

获取词向量一般是从语料中获取，语料是指准备好的文本信息集合，一般是若干篇文章的集合，在本申请实施例中，可以采用27万篇游戏类行业媒体文章。采用的语料都是同一垂直领域的文章，有利于词语的准确分类。垂直领域是指特定领域，比如娱乐类文章，游戏类文章，体育类文章。

然后将这些文章进行分词，分词可以采用结巴分词或者其他分词方式，具体不做限定。分词后得到若干个词语，这些词语可以作为待标注词语，根据这些词语以及其上下文可以通过上述的算法得到对应的词向量。

待标注词语是这些词向量对应的词语，也可以是对文章进行分词后的词语再经过候选词典筛选的词语，即根据对文章进行分词后的词语到候选词典中检索，若发现候选词典中有相同的词语，则通过候选词典的筛选，若发现候选词典中没有相同的词语，则该词语不通过候选词典的筛选。

203、根据种子词与词向量确定待标注词语的正面概率值和负面概率值，正面概率值为待标注词语为正面倾向的概率值，负面概率值为待标注词语为负面倾向的概率值；

在本申请实施例中，可以通过词向量确定该词向量对应的待标注词语与种子词之间的紧密程度，待标注词语与种子词越紧密，说明待标注词语的情感倾向与种子词的情感倾向越接近，即待标注词语与种子词有相同情感倾向的概率越大，因此可以通过词向量和种子词确定该待标注词语与种子词之间的某种参数，该参数用于表示待标注词语与种子词之间的紧密程度。

在本申请实施例中，第一词库包括存储正面倾向词语的第一正面词库和存储负面倾向词语的第一负面词库，根据第一正面词库中的正面种子词以及待标注词语的词向量可以确定该待标注词语与正面种子词的紧密程度，即确定该待标注词语的正面概率值，表示待标注词语与正面种子词有相同情感倾向的概率(可能性)，亦表示待标注词语为正面倾向的概率值。根据第一负面词库中的负面种子词以及待标注词语的词向量可以确定该待标注词语与负面种子词的紧密程度，即确定该待标注词语的负面概率值，表示待标注词语与负面种子词有相同情感倾向的概率(可能性)，亦表示待标注词语为负面倾向的概率值。

表示待标注词语与种子词之间的紧密程度的参数有很多，例如余弦距离等，在本申请实施例中，可以通过随机游走算法的游走概率值表示，在实际应用中，还可以通过其他参数表示，具体此处不做限定。

204、根据正面概率值和负面概率值确定待标注词语的情感倾向；

在本申请实施例中，可以根据正面概率值和负面概率值确定待标注词语的情感倾向，正面概率值越大说明待标注词语越可能是正面倾向，负面概率值越大说明待标注词语越可能是负面倾向，可以比较正面概率值和负面概率值的大小从而确定待标注词语的情感倾向，也可以设定函数计算得出一个综合得分，通过综合得分对待标注词语的情感倾向进行确定。

可以设定为，综合得分大于预设正面阈值的待标注词语的情感倾向为正面倾向，综合得分小于预设负面阈值的待标注词语的情感倾向为负面倾向，综合得分在预设正面阈值和预设负面阈值之间的待标注词语不确定情感倾向，不添加至第一词库。

205、根据待标注词语的情感倾向，将待标注词语添加至第一词库，得到第二词库。

在本申请实施例中，若待标注词语是正面倾向，则将待标注词语添加至存储正面倾向词语的第一词库，若待标注词语是负面倾向，则将待标注词语添加至存储负面倾向词语的第一词库。第二词库为添加了待标注词语后的第一词库。

待标注词语添加至第一词库可以看做是对待标注词语进行标注，例如，将待标注词语添加至存储正面倾向词语的第一词库相当于将待标注词语标注为正面倾向，将待标注词语添加至存储负面倾向词语的第一词库相当于将待标注词语标注为负面倾向。

第二词库实际上是第一词库的扩充，第二词库中的词语比第一词库更多，本申请实施例可以不断扩充词库，直到词库中的词语满足数量要求。人工挑选一定数量的种子词作为初始词库之后，可以根据初始词库不断扩充词库。

获取到具有一定数量词语的第二词库后，可以根据第二词库进行句子级或者文章级的文本情感分析。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例还提供文本信息标注的方法的一个可选实施例，根据种子词与词向量确定待标注词语的正面概率值和负面概率值包括：

根据顶点之间的权重，采用随机游走算法计算粒子游走到顶点的游走概率值，直到全局收敛或达到迭代次数，其中，顶点与待标注词语具有对应关系，权重为词向量之间的余弦距离，待标注词语与种子词相同的情况下，待标注词语的初始概率为第一概率，待标注词语与种子词不同的情况下，待标注词语的初始概率为第二概率；

若种子词的情感倾向为正面倾向，则根据待标注词语对应的游走概率值，确定待标注词语的正面概率值；

若种子词的情感倾向为负面倾向，则根据待标注词语对应的游走概率值，确定待标注词语的负面概率值。

在本申请实施例中，通过随机游走算法计算表示待标注词语与种子词之间的紧密程度的参数。随机游走(random walk)算法是用于计算粒子在顶点图上游走概率的算法，粒子游走到某个顶点的概率与初始概率以及顶点间的权重相关，以待标注词语作为顶点，顶点间的连线为顶点之间的边，将待标注词语的词向量之间的余弦距离作为边的权重，以种子词确定初始概率，具体是，当待标注词语与种子词相同的情况下，待标注词语的初始概率为第一概率，待标注词语与种子词不同的情况下，待标注词语的初始概率为第二概率；第一概率与第二概率体现出差异，则可以区分待标注词语中与种子词相同以及不同的两种待标注词语，例如，第一概率是大于0的数值，而第二概率等于0。在实际应用中，一般设定第一概率为1/s，其中，s代表待标注词语中与种子词相同的个数，而与种子词不相同的待标注词语的初始概率，即第二概率一般设定为0。

以下将详细描述本申请实施例的随机游走算法：

从顶点图的初始状态出发，沿顶点图中的边随机游走。在任意点上，算法以一定的概率随机地选择与该顶点相邻的边，沿这条边移动到下一个顶点，或以一定的概率直接回到初始状态。对于一个非周期不可约的顶点图，经过若干次随机游走过程，到达顶点图中每一个顶点的游走概率值达到平稳分布，再次迭代也不改变图中的概率分布值。此时，顶点图中每个点的游走概率值可以看作该词与种子词的联系紧密程度。

由于种子词是从第一词库中取得的，一般都是正面词或者都是负面词，因此本申请实施例的随机游走算法实际上得到每个待标注词语与正面词的联系紧密程度，或者与负面词的联系紧密程度，不会出现情感倾向相反的情况。

根据存储正面种子词的第一词库执行随机游走算法可以得到待标注词语的游走概率值，即正面概率值，正面概率值表示待标注词语与正面词的联系紧密程度，即待标注词语为正面倾向的概率；根据存储负面种子词的第一词库执行随机游走算法可以得到待标注词语的游走概率值，即负面概率值，负面概率值表示待标注词语与负面词的联系紧密程度，即待标注词语为负面倾向的概率。

待标注词语的游走概率值为正面概率值还是负面概率值，具体由第一词库中的种子词的情感倾向决定。若种子词的情感倾向为正面倾向，则待标注词语的游走概率值为正面概率值，若种子词的情感倾向为负面倾向，则待标注词语的游走概率值为负面概率值。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例还提供文本信息标注的方法的一个可选实施例，根据正面概率值和负面概率值确定待标注词语的情感倾向包括：

获取综合得分，综合得分与正面概率值正相关，与负面概率值负相关；

按照综合得分由高往低的顺序对待标注词语进行排序，得到排序结果；

根据排序结果确定从前至后的M个待标注词语的情感倾向为正面倾向，确定从后至前的N个待标注词语的情感倾向为负面倾向，其中，M为大于或等于1的整数，N为大于或等于1的整数。

在本申请实施例中，通过综合得分的方式确定待标注词语的情感倾向。综合得分的计算方式具体不做限定，可以是正面概率值减去负面概率值，还可以是其他算法。这些算法中，综合得分与正面概率值正相关，与负面概率值负相关，则正面概率值越大，综合得分越高，负面概率值越大，综合得分越低。本申请实施例还提供其中一种算法计算综合得分：

其中，P^P(w)为正面概率值，P^N(w)为负面概率值。通过正面概率值除以正负概率值之和得到综合得分，正面概率值越大，综合得分越高，负面概率值越大，综合得分越低。

计算得到综合得分后，可以根据综合得分确定待标注词语的情感倾向，具体实现方式可以是：按照综合得分由高往低的顺序对待标注词语进行排序，排在前面的待标注词语正面概率值大，基本确定该待标注词语为正面倾向，而排在后面的待标注词语负面概率值大，则可以基本确定该待标注词语为负面倾向。在计算机实现上，可以设定阈值M和N，M为大于或等于1的整数，N为大于或等于1的整数，确定从前至后的M个待标注词语的情感倾向为正面倾向，确定从后至前的N个待标注词语的情感倾向为负面倾向。M和N可以根据需要标注为正面倾向的词数量和需要标注为负面倾向的词数量来决定。例如，本次计算需要从待标注词语中标注200个正面倾向的词，300个负面倾向的词，则可以设定M为200，N为300。从而从待标注词语中标注200个正面倾向的词，300个负面倾向的词，然后将200个情感倾向为正面倾向的待标注词语放入存储正面倾向的种子词的第一词库，将300个情感倾向为负面倾向的待标注词语放入存储负面倾向的种子词的第一词库。使得第一词库得到扩充，扩充后的第一词库可以继续扩充，直到第一词库中种子词的数量满足要求。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例还提供文本信息标注的方法的一个可选实施例，第一词库包括第一正面词库和第一负面词库，第二词库包括第二正面词库和第二负面词库；

根据待标注词语的情感倾向，将待标注词语添加至第一词库，得到第二词库包括：

若待标注词语的情感倾向为正面倾向，则将待标注词语添加至第一正面词库，得到第二正面词库；

若待标注词语的情感倾向为负面倾向，则将待标注词语添加至第一负面词库，得到第二负面词库。

在本申请实施例中，第一正面词库中存储情感倾向为正面倾向的种子词，第一负面词库存储情感倾向为负面倾向的种子词。若待标注词语的情感倾向为正面倾向，则待标注词语的情感倾向与第一正面词库中的种子词的情感倾向相同，可以将待标注词语添加至第一正面词库。若待标注词语的情感倾向为负面倾向，则待标注词语的情感倾向与第一负面词库中的种子词的情感倾向相同，可以将待标注词语添加至第一负面词库。

第一正面词库中的种子词都是正面倾向，例如为：['出众','完美','非凡','很好','流畅','唯美','杰出','最好','超凡','精美']，第一负面词库中的种子词都是负面倾向，例如为['差评','侵权','遭遇','下跌','丑','最差','骂声','很烂','抄袭','糟糕']。这些种子词都是与上下文无关的种子词。

得到的第二正面词库和第二负面词库可以作为词语级、句子级以及文章级情感分析的基础。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例还提供文本信息标注的方法的一个可选实施例，根据待标注词语的情感倾向，将待标注词语添加至第一词库，得到第二词库包括：

获取候选词库，候选词库为去除低频词以及误用词后的词库，低频词为在语料中出现次数少于预设阈值的词语，误用词表示词性为已选定词性的词语；

根据候选词库和待标注词语的情感倾向将待标注词语添加至第一词库，得到第二词库。

在本申请实施例中，可以建立候选词库对待标注词语进行筛选。候选词库的建立过程是：获取语料，语料在本申请实施例中可以是27万篇游戏类行业媒体文章，然后使用结巴分词对语料进行分词，实际应用中，还可以用其他分词方式。然后对分词后的词语进行词性标注，即名词、动词、形容词、停止词(常为冠词、介词、副词或连词)等词性的标注。可以根据词语的词性标注，将词性为停止词的词语去掉。并且可以将词语在语料中出现的次数少于100的词语去掉。将这些词语去掉后，剩下的词语可以作为候选词库，当采用候选词库对待标注词语进行筛选时，可以过滤停止词和词频少的词。

筛选的方式可以是将待标注词语与候选词库比对，候选词库中有该待标注词语则该待标注词语通过筛选，候选词库中没有该待标注词语则该待标注词语不通过筛选。通过筛选的待标注词语才能添加至第一词库。

筛选的时机可以是对语料分词之后确定待标注词语并对待标注词语进行筛选，也可以是计算词向量后进行筛选，还可以是确定待标注词语的情感倾向后进行筛选，只要在将待标注词语放入第一词库之前筛选即可。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例还提供文本信息标注的方法的一个可选实施例，根据待标注词语的情感倾向，将待标注词语添加至第一词库，得到第二词库之后，方法还包括：

获取文本信息；

根据第二词库中的词语对文本信息进行情感分析。

在本申请实施例中，文本信息可以是文章集合，根据第二词库中已经标注了情感倾向的词语，可以对文本信息进行文本情感分析。首先可以是对一篇文章进行情感分析，将文章切分为句子后，统计每个句子中评价对象跟第二词库中词语的共现，将共现到的词语的情感倾向参数相加(可以设定情感倾向为正面倾向则情感倾向参数为1，情感倾向为负面倾向则情感倾向参数为-1)，相加后可以得到该句话对评价对象的情感倾向。例如，“在XX年度游戏排行中，游戏A夺得冠军”这句话中，游戏A为评价对象，冠军为第二词库中的词语且为正面倾向，则该句话对游戏A的情感倾向为正面。

通过上述方式得到每句话的情感倾向后，对文章标题和内容句子权重分别为0.7和0.3进行加权求和。如果最终求和小于0标记该文章对评价对象的情感倾向为负面，大于0标记该文章对评价对象的情感倾向为正面。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例还提供文本信息标注的方法的一个可选实施例，如图3所示，图3为本申请实施例提供的文本信息标注的方法的一个可选实施例的流程图，该方法包括：

301、获取第一正面词库和第一负面词库；

第一正面词库中存储情感倾向为正面倾向的种子词，第一负面词库存储情感倾向为负面倾向的种子词。

在本申请实施例中，步骤301与前述图2对应的各个实施例中步骤201类似，此处不再赘述。

302、通过PPMI算法从语料中获取词向量；

在本申请实施例中，具体通过PPMI算法从语料中获取词向量。

首先对语料中每篇文章进行分句分词；

然后以对分词后的词语作为待标注词语，对待标注词语进行统计，统计每两个词共现的概率；

获取逐点互信息矩阵，逐点互信息矩阵包括待标注词语的共现概率的对数值；具体计算公式为：

其中，w和c表示语料中词语w和词语c，表示词语w和词语c的共现概率，表示词语w出现的概率，表示词语c出现的概率，#(w,c)表示词语w和词语c共同出现的次数，#(w)表示词语w出现的次数，#(c)表示词语c出现的次数，|D|表示语料中文章数量。

如果词语w和词语c没有共现过，则会导致：

PMI(w,c)＝log0＝-∞；

为避免负无穷的出现，可以将对数值小于0的值全部置0，即：

PPMI(w,c)＝max(PMI(w,c),0)；

置零后的逐点互信息矩阵即为PPMI矩阵，是一个稀疏词袋模型，每一行可以看成是一个词典大小的向量；

根据逐点互信息矩阵，通过奇异值分解算法获取待标注词语的词向量。

奇异值分解算法(singular value decomposition，SVD)是线性代数中一种重要的矩阵分解，可以通过奇异值分解算法对逐点互信息矩阵进行分解降维，得到词向量。

303、根据重启第一正面词库与词向量，通过重启随机游走算法确定待标注词语的正面概率值，根据第一负面词库与词向量，通过重启随机游走算法确定待标注词语的负面概率值；

重启随机游走(random walk with restart)算法是随机游走算法的改进，粒子在顶点的游走方式是从一个顶点开始，在每一步游走时面临两个选择，或者移动到一个随机选择的邻点，或者跳回起点。

在本申请实施例中，步骤303通过重启随机游走算法计算正面概率值和负面概率值的情况与图2对应的各个实施例中步骤203类似，此处不再赘述。

304、根据正面概率值和负面概率值确定待标注词语的情感倾向；

在本申请实施例中，步骤3304与图2对应的各个实施例中步骤204类似，此处不再赘述。

305、若待标注词语的情感倾向为正面倾向，则将待标注词语添加至第一正面词库，得到第二正面词库，若待标注词语的情感倾向为负面倾向，则将待标注词语添加至第一负面词库，得到第二负面词库。

在本申请实施例中，第一正面词库用于存储正面倾向的词语，因此若待标注词语的情感倾向为正面倾向，则将待标注词语添加至第一正面词库，得到第二正面词库。而第一负面词库用于存储负面倾向的词语，因此若待标注词语的情感倾向为负面倾向，则将待标注词语添加至第一负面词库，得到第二负面词库。

可选地，在上述图2对应的各个实施例的基础上，本申请实施例还提供文本信息标注的方法的一个可选实施例，如图4所示，图4为本申请实施例提供的文本信息标注的方法的一个可选实施例的流程图，该方法包括：

401、获取第一正面词库和第一负面词库；

在本申请实施例中，步骤401与前述图3对应的各个实施例中步骤301类似，此处不再赘述。

402、通过SGNS算法从语料中获取词向量；

在本申请实施例中，SGNS算法可以通过word2vec工具包实现。通过word2vec工具包可以在分词后的语料中训练得到SGNS词向量。

403、根据重启第一正面词库与词向量，通过重启随机游走算法确定待标注词语的正面概率值，根据第一负面词库与词向量，通过重启随机游走算法确定待标注词语的负面概率值；

在本申请实施例中，步骤403与前述图3对应的各个实施例中步骤303类似，此处不再赘述。

404、根据正面概率值和负面概率值确定待标注词语的情感倾向；

在本申请实施例中，步骤404与前述图3对应的各个实施例中步骤304类似，此处不再赘述。

405、若待标注词语的情感倾向为正面倾向，则将待标注词语添加至第一正面词库，得到第二正面词库，若待标注词语的情感倾向为负面倾向，则将待标注词语添加至第一负面词库，得到第二负面词库。

在本申请实施例中，步骤405与前述图3对应的各个实施例中步骤305类似，此处不再赘述。

图3所示的实施例展示了通过PPMI算法获取词向量，通过RWR算法计算正负面概率值的方式将待标注词语添加至第一词库，图4所示的实施例展示了通过SGNS算法获取词向量，通过RWR算法计算正负面概率值的方式将待标注词语添加至第一词库。在实际应用中，可以通过图3和图4两种实施例交替使用的方式不断将待标注词语添加至第一词库，如图5所示，图5为本申请实施例提供的文本信息标注方法的应用例示意图。

从图5可以看出，可以通过RWR算法确定待标注词语的情感倾向，RWR算法以待标注词语的词向量和第一词库中的种子词为输入，经过RWR算法运算后，能够输出待标注词语的正负面概率值，从而确定待标注词语的情感倾向。

需要说明的是，一般是同时对多个待标注词语进行情感倾向的确定，即输入RWR算法的是多个待标注词语的词向量，可以以矩阵的方式输入。经过RWR算法运算后，得到多个待标注词语的正负面概率，可以以向量的方式输出。

根据待标注词语的正负面概率确定待标注词语的情感倾向后，可以将正面倾向的待标注词语放入第一词库中的第一正面词库，将负面倾向的待标注词语放入第一词库的第一负面词库，使得第一词库得到扩充。

扩充后的第一词库可以继续作为下一次RWR算法的输入，如此迭代，每次都扩充第一词库，最后得到存储词语数量满足要求的第一词库。

在本申请实施例中，可以有两种实现方式：

1、根据PPMI词向量和第一正面词库，通过一次RWR算法得到待标注词语的正面概率值，根据PPMI词向量和第一负面词库，通过一次RWR算法得到待标注词语的负面概率值，然后根据正负面概率值确定待标注词语的情感倾向，并将确定情感倾向的待标注词语添加至第一词库(即第一正面词库或第一负面词库)。

2)根据SGNS词向量和第一正面词库，通过一次RWR算法得到待标注词语的正面概率值，根据SGNS词向量和第一负面词库，通过一次RWR算法得到待标注词语的负面概率值，然后根据正负面概率值确定待标注词语的情感倾向，并将确定情感倾向的待标注词语添加至第一词库(即第一正面词库或第一负面词库)。

本申请实施例可以分别执行3次上述的两种实现方式，得到每次选取一定数量的待标注词语加入第一词库(期间可以通过人工审核剔除错误判断情感倾向的待标注词语)，最终得到包括1905个负面倾向词语的第一负面词库和包括1850个正面倾向词语的第一正面词库。

本申请实施例还提供了传统方法的对照应用例。

根据上述图3对应的实施例，本申请实施例生成待标注词语的PPMI词向量，基于20个种子词，通过RWR算法，多次扩充第一词库，将1000个待标注词语添加至第一词库，并通过第一词库中正确标注情感倾向的词语占第一词库中总词语数量的比例计算该第一词库的准确率。

根据上述图4对应的实施例，本申请实施例生成待标注词语的SGNS词向量，基于20个种子词，通过RWR算法，多次扩充第一词库，将1000个待标注词语添加至第一词库，并通过第一词库中正确标注情感倾向的词语占第一词库中总词语数量的比例计算该第一词库的准确率。

根据传统方式，本申请实施例生成待标注词语的PPMI词向量，将词向量之间的余弦距离小于阈值的待标注词语添加至第一词库，并通过第一词库中正确标注情感倾向的词语占第一词库中总词语数量的比例计算该第一词库的准确率。

根据传统方式，本申请实施例生成待标注词语的SGNS词向量，将词向量之间的余弦距离小于阈值的待标注词语添加至第一词库，并通过第一词库中正确标注情感倾向的词语占第一词库中总词语数量的比例计算该第一词库的准确率。

根据上述方法扩充第一词库，生成图6，图6为应用例中第一正面词库的词语数量与准确率的关系图，从图6中可以看出，在不断扩充第一词库时，第一正面词库中的词语数量不断增加，准确率不断下降。相较于传统方式通过PPMI词向量或SGNS词向量的余弦距离进行词语标注，本申请实施例提供的文本信息标注的方法通过PPMI词向量或SGNS词向量以及RWR算法将待标注词语扩充至第一正面词库，使得第一正面词库中的词语数量不断增加的同时，第一正面词库中的准确率相比传统方式提升较大。

同理，通过类似的方式对第一负面词库进行扩充，可以得到图7，图7为应用例中第一负面词库的词语数量与准确率的关系图。从图7可以看出，相较于传统方式，本申请实施例通过PPMI词向量或SGNS词向量以及RWR算法将待标注词语扩充至第一负面词库，使得第一负面词库中的词语数量不断增加的同时，第一负面词库中的准确率相比传统方式提升较大。

图8为本申请提供一种文本信息标注的装置的示意图，本申请提供一种文本信息标注的装置800，包括：

获取单元801，用于获取第一词库，第一词库为存储种子词的词库，种子词为已标注情感倾向的词语；

获取单元801还用于获取待标注词语的词向量；

处理单元802，用于根据种子词与词向量确定待标注词语的正面概率值和负面概率值，正面概率值为待标注词语为正面倾向的概率值，负面概率值为待标注词语为负面倾向的概率值；

处理单元802还用于根据正面概率值和负面概率值确定待标注词语的情感倾向；

处理单元802还用于根据待标注词语的情感倾向，将待标注词语添加至第一词库，得到第二词库。

处理单元802还用于根据顶点之间的权重，采用随机游走算法计算粒子游走到顶点的游走概率值，直到全局收敛或达到迭代次数，其中，顶点与待标注词语具有对应关系，权重为词向量之间的余弦距离，待标注词语与种子词相同的情况下，待标注词语的初始概率为第一概率，待标注词语与种子词不同的情况下，待标注词语的初始概率为第二概率；

处理单元还用于获取综合得分，综合得分与正面概率值正相关，与负面概率值负相关；

第一词库包括第一正面词库和第一负面词库，第二词库包括第二正面词库和第二负面词库；

处理单元802还用于若待标注词语的情感倾向为正面倾向，则将待标注词语添加至第一正面词库，得到第二正面词库；

获取单元801还用于获取逐点互信息矩阵，逐点互信息矩阵包括待标注词语的共现概率的对数值；根据逐点互信息矩阵，通过奇异值分解算法获取待标注词语的词向量。

处理单元802还用于获取候选词库，候选词库为去除低频词以及误用词后的词库，低频词为在语料中出现次数少于预设阈值的词语，误用词表示词性为已选定词性的词语；根据候选词库和待标注词语的情感倾向将待标注词语添加至第一词库，得到第二词库。

处理单元802还用于获取文本信息；根据第二词库中的词语对文本信息进行情感分析。

图9是本申请实施例提供的一种服务器结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。

在本申请实施例中，CPU922具体用于：

获取第一词库，第一词库为存储种子词的词库，种子词为已标注情感倾向的词语；

获取待标注词语的词向量；

根据种子词与词向量确定待标注词语的正面概率值和负面概率值，正面概率值为待标注词语为正面倾向的概率值，负面概率值为待标注词语为负面倾向的概率值；

根据正面概率值和负面概率值确定待标注词语的情感倾向；

根据待标注词语的情感倾向，将待标注词语添加至第一词库，得到第二词库。

在本申请实施例中，CPU922还用于：

获取逐点互信息矩阵，逐点互信息矩阵包括待标注词语的共现概率的对数值；

在本申请实施例中，CPU922还用于：

获取文本信息；

根据第二词库中的词语对文本信息进行情感分析。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文本信息标注的方法，其特征在于，包括：

获取待标注词语的词向量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述种子词与所述词向量确定所述待标注词语的正面概率值和负面概率值包括：

根据顶点之间的权重，采用随机游走算法计算粒子游走到顶点的游走概率值，直到全局收敛或达到迭代次数，其中，所述顶点与所述待标注词语具有对应关系，所述权重为所述词向量之间的余弦距离，所述待标注词语与所述种子词相同的情况下，所述待标注词语的初始概率为第一概率，所述待标注词语与所述种子词不同的情况下，所述待标注词语的初始概率为第二概率；

3.根据权利要求1所述的方法，其特征在于，所述根据所述正面概率值和所述负面概率值确定所述待标注词语的情感倾向包括：

获取综合得分，所述综合得分与所述正面概率值正相关，与所述负面概率值负相关；

4.根据权利要求3所述的方法，其特征在于，所述第一词库包括第一正面词库和第一负面词库，所述第二词库包括第二正面词库和第二负面词库；

所述根据所述待标注词语的情感倾向，将所述待标注词语添加至所述第一词库，得到第二词库包括：

若所述待标注词语的情感倾向为正面倾向，则将所述待标注词语添加至所述第一正面词库，得到第二正面词库；

5.根据权利要求1所述的方法，其特征在于，所述获取待标注词语的词向量包括：

获取逐点互信息矩阵，所述逐点互信息矩阵包括所述待标注词语的共现概率的对数值；

根据所述逐点互信息矩阵，通过奇异值分解算法获取所述待标注词语的所述词向量。

6.根据权利要求1所述的方法，其特征在于，所述根据所述待标注词语的情感倾向，将所述待标注词语添加至所述第一词库，得到第二词库包括：

获取候选词库，所述候选词库为去除低频词以及误用词后的词库，所述低频词为在语料中出现次数少于预设阈值的词语，所述误用词表示词性为已选定词性的词语；

根据所述候选词库和所述待标注词语的情感倾向将所述待标注词语添加至所述第一词库，得到第二词库。

7.根据权利要求1所述的方法，其特征在于，所述根据所述待标注词语的情感倾向，将所述待标注词语添加至所述第一词库，得到第二词库之后，所述方法还包括：

获取文本信息；

根据所述第二词库中的词语对所述文本信息进行情感分析。

8.一种文本信息标注的装置，其特征在于，包括：

获取单元还用于获取待标注词语的词向量；

9.一种服务器，其特征在于，包括：一个或一个以上中央处理器，存储器，输入输出接口，有线或无线网络接口，电源；

所述存储器为短暂存储存储器或持久存储存储器；

所述中央处理器配置为与所述存储器通信，在所述服务器上执行所述存储器中的指令操作以执行权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至7中任意一项所述的方法。