CN103559174B

CN103559174B - 语义情感分类特征值提取方法及系统

Info

Publication number: CN103559174B
Application number: CN201310459413.1A
Authority: CN
Inventors: 邹存璐; 刘长虹; 王菊; 孟令胜
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2013-09-30
Filing date: 2013-09-30
Publication date: 2016-03-09
Anticipated expiration: 2033-09-30
Also published as: CN103559174A

Abstract

本发明提供一种语义情感分类特征值提取方法，包括：通过爬取互联网用户的评价信息获取分类语料库，其中，分类语料库包括自然语言描述文本和类别信息，根据中文分词算法将自然语言描述文本的段落句子拆分为词语；根据分类语料库的类别信息，计算词语与类别信息之间的类别PMI互信息；根据类别PMI互信息与类别信息之间的线性相关的特性获得PMI斜率值，根据PMI斜率值判断词语的情感词性；根据预设的PMI斜率值的阈值，提取具有情感倾向的词语作为自然语言描述的语义情感分类特征值。利用本发明能够解决获取特征值计算复杂度高和语义情感分析的准确度不稳定的问题。

Description

语义情感分类特征值提取方法及系统

技术领域

本发明涉及人工智能及识别技术领域，更为具体地，涉及一种语义情感分类特征值提取方法及系统。

背景技术

大数据是目前一个非常热门的讨论话题，从互联网的机器实时采集的监测数据，到互联网上用户产生的海量的内容数据，都是大数据覆盖的内容。

大数据最核心的价值是：利用数学统计、机器学习、自然语言处理等技术，从大数据中挖掘出有价值的信息知识，从而能够对事物进行预测。由于web2.0的迅猛发展，用户在互联网上产生大量的内容文本信息，例如互联网上的社会化媒体(社交网站、社区等)数据(评论、社交关系、地理位置等信息)。对文本信息进行分析挖掘都离不开自然语言处理技术，而其中文本分类问题是最为常见也是应用范围最广的，从垃圾邮件自动识别到当下热门的语义情分分析，都离不开文本分类算法。

文本分类主流的方法之一是采用机器学习技术(例如朴素贝叶斯，支持向量机等)对训练样本进行特征信息提取学习，而在这里特征值的选取尤为重要，特征值选取好坏会直接影响机器学习方法最后的准确率。

对于特征值的提取，目前主要有两种方法。例如在情感分析中，主要采用基于字典以及利用互信息迭代自动获取特征值两种方法，基于字典的方法需要大量人工整理出跟情感表达相关的词语，这种方法在应用互联网领域有很大的局限性，因为互联网领域的新词更新很快，人工很难及时更新词典。对于采用互信息迭代计算的方法，一般是人工选取一定的种子词语(数量大概为10个左右)，然后计算样本集中词语跟种子词语的互信息，并选取互信息较高的新词更新到种子词语集中，并反复迭代，直到种子词语集包含的词语数量较为稳定。

图1示出了现有获取情感词语的方法流程。如图1所示，获取情感词语的具体流程包括：人工选取种子词语，通过获取语料库中的评价信息进行中文分词，然后计算中文分词后获取的词语跟人工选取的种子词语的互信息；选取互信息较高的新词更新到种子词库中，并反复迭代，直到种子词库中包含的词语数量较为稳定为止。

上述方法虽然做到了自动获取情感词语，但是却存在以下几点问题：

1)由于需要多次迭代以及大量的比较计算(随着种子词库的增加计算成倍增加)的方式，对于处理海量的互联网数据效率很低。

2)在不同应用场景下，词语的词性会有不同的诠释，而种子词选取上往往依赖于个人经验，种子词语的质量对后续的迭代计算会产生巨大的影响，直接影响最终特征值选取的好坏。

3)通过PMI(PointwiseMutualInformation，之前的互信息)互信息来扩展种子词的方法，离不开阈值的确定，一般迭代计算方法都是采用统一的经验阈值来确定，但是由于多次迭代过程中，种子词库数量的增加，都会影响PMI值的阈值变化，造成每次迭代选取出的特征值质量不一致。

因此，亟需一种能够降低计算复杂度、提高语义情感分析准确度的情感词语获取技术。

发明内容

鉴于上述问题，本发明的目的是提供一种语义情感分类特征值提取方法及系统，以解决获取特征值计算复杂度高和语义情感分析的准确度不稳定的问题。

本发明提供一种语义情感分类特征值提取方法，包括：

通过爬取互联网用户的评价信息获取分类语料库，其中，分类语料库包括自然语言描述文本和类别信息，

根据中文分词算法将自然语言描述文本的段落句子拆分为词语；

根据分类语料库的类别信息，计算词语与类别信息之间的类别PMI互信息；

根据类别PMI互信息与类别信息之间的线性相关的特性获得PMI斜率值，并根据PMI斜率值判断词语的情感词性；

根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为自然语言描述文本的语义情感分类特征值。

此外，优选的方案是，中文分词中采用的算法包括：最大匹配法、最大均词长法和最小方差法。

此外，优选的方案是，类别PMI互信息计算公式为：

其中，p(t∧c)为词语t和类别c同时出现的概率，p(t)为词语出现的概率，p(c)为类别c出现的概率。

此外，优选的方案是，类别PMI互信息与类别信息之间通过线性拟合方法获得PMI斜率值，拟合的方法计算出线性函数y＝ax+b中的变量a和b，

其中，变量a为PMI斜率值，变量a和b可以通过以下公式获得：

a = \frac{{nΣ}_{k = 1}^{n} x_{k} y_{k} - Σ_{k = 1}^{n} x_{k} Σ_{k = 1}^{n} y_{k}}{{nΣ}_{k = 1}^{n} {x_{k}}^{2} - Σ_{k = 1}^{n} x_{k} Σ_{k = 1}^{n} x_{k}}

b = \frac{Σ_{k = 1}^{n} y_{k} - {aΣ}_{k = 1}^{n} x_{k}}{n}

本发明提供一种语义情感分类特征值提取系统，包括：

分类语料库获取单元，用于通过爬取互联网用户的评价信息获取分类语料库，其中，分类语料库包括自然语言描述文本和类别信息，

中文分词单元，用于根据中文分词算法将自然语言描述文本的段落句子拆分为词语；

类别PMI互信息计算单元，用于根据分类语料库的类别信息，计算词语与类别信息之间的类别PMI互信息；

PMI斜率值获取单元，用于根据类别PMI互信息与类别信息之间的线性相关的特性获得PMI斜率值，并根据PMI斜率值来判断所述词语的情感词性；

特征值选取单元，用于根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为自然语言描述文本的语义情感分类特征值。

此外，优选的方案是，在中文分词单元中，中文分词中采用的算法包括：最大匹配法、最大均词长法和最小方差法。

此外，优选的方案是，在类别PMI互信息获取单元中，类别PMI互信息计算公式为：

此外，优选的方案是，在PMI斜率值获取单元中，类别PMI互信息与类别信息之间通过线性拟合方法获得PMI斜率值，拟合的方法计算出线性函数y＝ax+b中的变量a和b，

其中，变量a为PMI斜率值，变量a和b可以通过以下公式获得：

a = \frac{{nΣ}_{k = 1}^{n} x_{k} y_{k} - Σ_{k = 1}^{n} x_{k} Σ_{k = 1}^{n} y_{k}}{{nΣ}_{k = 1}^{n} {x_{k}}^{2} - Σ_{k = 1}^{n} x_{k} Σ_{k = 1}^{n} x_{k}}

b = \frac{Σ_{k = 1}^{n} y_{k} - {aΣ}_{k = 1}^{n} x_{k}}{n}

从上面的技术方案可知，本发明的语义情感分类特征值提取方法及系统，提供一种有效针对语义情感分类特征值自动提取的方法，从而能够降低计算的复杂度，提高运算的效率，并且能够提高语义情感分析的准确度的稳定性。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为现有获取情感词语的方法流程图；

图2为根据本发明实施例的语义情感分类特征值提取方法流程图；

图3为根据本发明实施例的语义情感分类特征值提取系统框图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。

通过对前述现有技术分析，现有技术中特征值的获取是通过计算候选词与种子词之间的互信息反复迭代来获取的，种子词语依靠个人经验设定，准确度不稳定，且由于需要反复迭代使得特征值的获取效率低、计算复杂度较高。为了解决这些问题，本发明利用特征值与类别的互信息斜率比较的方式，不需要反复迭代计算直接利用阈值就可以获取特征值，以提高获取特征值的效率。

以下将结合附图对本发明的具体实施例进行详细描述。

图2示出了根据本发明实施例的语义情感分类特征值提取方法流程。

如图2所示，本发明提供的语义情感分类特征值提取方法，包括：

S210：通过爬取互联网用户的评价信息获取分类语料库，其中，分类语料库包括自然语言描述文本和类别信息，

S220：根据中文分词算法将自然语言描述文本的段落句子拆分为词语；

S230：根据分类语料库的类别信息，计算词语与类别信息之间的类别PMI互信息；

S240：根据类别PMI互信息与类别信息之间的线性相关的特性获得PMI斜率值，并根据PMI斜率值判断词语的情感词性；

S250：根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为自然语言描述文本的语义情感分类特征值。

在上述步骤S210中，可以利用众包的理念以及网页爬虫技术爬取互联网用户的评价信息，进而获取分类语料库。在本发明的一个具体实施例中，在点评类网站中包含了大量用户的自然语言评论描述以及对应的星级评价(1-5颗星)(星级评价即为类别信息)；其中，在大众点评网站上，用户对一家饭店的评价信息如下所示：

<4，瑞福园，朋友们对这家店的映像真的很好我也就来看看没想到真的是好吃好看呢客人那么多服务还不错环境也不错非常喜欢>

上面信息的第一个字段代表了用户的星级打分，第二字段为饭店名称，第三字段是用户的自然语言描述包括服务环境等信息。上面的信息对于文本分类算法来说是天然的语料库，避免了采用人工标注成本过高的问题。其中，星级评价对应了文本分类算法的5种不同类别(1-5颗星)，自然语言描述对应了文本信息。同时由于互联网上包含了海量的用户评价信息，利用大量的语料库分类数据可以有效的减小噪音的干扰，提高类别信息的准确度。

也就是说，本发明可以利用有分类标识的语料库来直接获得大量的种子词语(即：可以通过PMI斜率值的阈值来控制平和词语的质量与数量)，然后再利用无分类标识的语料库进行迭代学习，从而解决传统方法中种子词选取依赖个人经验导致偏离的问题。

在上述步骤S220中，中文分词是指利用中文分词算法把自然语言描述文本中的段落句子拆分为词语，中文分词中采用三条规则算法进行匹配：

第一：最大匹配法

选择所有匹配中最大的一个，例如下面两种匹配：

(一)C1C2C3C4C5

(二)C1C2C3C4C5

其中，C1-C5分别代表一个字，按照最大匹配原则选取第二个。

第二：最大均词长法

如果有相同的最大匹配，则比较平均词长，选最大平均词长，例如：

(一)C1C2C3

(二)C1C2C3

其中，C1-C3分别代表一个字，有相同的最大匹配，按照最大均词长匹配原则选取第二个。

第三：最小方差法

如果有相同最大匹配、最大均词长，则选最小方差，例如：

(一)C1C2C3C4C5C6

(二)C1C2C3C4C5C6

其中，C1-C6分别代表一个字，有相同最大匹配、最大均词长，按照最小方差原则，选第一个，因为一个方差最小。

在本发明中，为了提高分词的效率，由于可以假设不同记录的描述相互独立，因此可以采用分布式并行计算的方式对海量的文本进行批量处理。

在上述步骤S230中，计算类别PMI互信息是指充分利用语料库中的类别信息，直接计算词语与类别之间的互信息而不是迭代方式中的词语与词语的互信息，其中，类别PMI互信息计算公式为：

其中，p(t∧c)为词语t和类别c同时出现的概率，p(t)为词语出现的概率，p(c)为类别c出现的概率。通过计算每个词语在不同类别中的互信息，发现具有较强情感倾向的词语的互信息与用户评价星级存在很强的相关性。

在本发明中，通过充分利用语料库中的类别信息，计算词语与类别的PMI互信息，由于类别的种类会远远小于词语的个数，这大大降低了传统方法中词语与词语之间PMI互信息的计算量，提高了运算效率。

在上述步骤S240中，计算PMI斜率是指利用类别PMI互信息与星级之间的线性相关的特性，利用拟合的算法计算出线性函数y＝ax+b中的变量a和b，然后利用斜率a的值来判断情感词语的词性的强弱，其中变量a和b可以通过以下公式获得：

a = \frac{{nΣ}_{k = 1}^{n} x_{k} y_{k} - Σ_{k = 1}^{n} x_{k} Σ_{k = 1}^{n} y_{k}}{{nΣ}_{k = 1}^{n} {x_{k}}^{2} - Σ_{k = 1}^{n} x_{k} Σ_{k = 1}^{n} x_{k}}

b = \frac{Σ_{k = 1}^{n} y_{k} - {aΣ}_{k = 1}^{n} x_{k}}{n}

例如在语料库中我们有如下两个词语：

大骗子，3.360147741333341，2.207347516687106，0.4764436162124497，0.0，0.0，-1.44185209274292

拾金不昧，0.0，0.0，0.20465547507840182，0.3010152255720754，1.3918172978557635，0.5935808420181274

其中情感词语后面的5个值分别代表该词语与5个星级类别的PMI互信息，第6个值为PMI互信息与星级(1到5)通过线性拟合而获得的斜率。

在本发明的一个具体实施例中，采用线性拟合的方法获得PMI斜率值，本领域技术人员应当知晓，线性拟合的方法并不是唯一获得PMI斜率值的方法，也可以根据类别PMI互信息与类别信息之间的线性关系，采用其他的计算方法获得PMI斜率值。

通过上述实验结果发现，正面情感词语的斜率大于0(与星级正相关，越正面的词语出现在评级高的描述中的概率越大)，而负面情感词语的斜率小于0(与星级负相关，越负面的词语出现评级低的描述中的概率越大)。

在本发明中，通过利用类别PMI互信息的斜率来判断词语的情感倾向，从而避免了现有方法中需要反复迭代的复杂计算，从而能够在短时间内有效处理海量数据。

在上述步骤S250中，选取特征值是指利用PMI斜率的阈值，自动提取具有情感倾向的词语作为文本分类算法的特征值。

在本发明的具体实施例中，从大众点评的语料库中可知，负面的词语会相对多一些，因此针对正负面词语分别采用不同的阈值来获取较高质量的特征值(比如：斜率大于0.12或者小于-0.2)。

在本发明中，由于计算过程中没有繁杂的迭代过程，避免了不同迭代中阈值的变化。

其中，PMI斜率的阈值的确定方法如下：

获取PMI斜率的阈值，除了传统方法中每次迭代中获取PMI斜率的阈值，还包括需要利用先验知识或者多次验证的方法，范围较小的PMI斜率的阈值可以提高输出的准确率但是同时会降低召回率，反之，较大的PMI斜率的阈值会降低准确率却提高召回率，所以合适的PMI斜率的阈值是能够适当平衡准确率以及召回率使两者都在可接受的范围内。多次验证的方法，在小样本数据中，采用不同的PMI斜率的阈值进行多次计算，并对结果进行人工审查，最终确定一个比较合适的PMI斜率的阈值用在全局计算中。

具体地，作为示例，在大众点评网上，通过上述方法在美食垂直领域一共获得了20982个情感词语，综合考虑原本的情感词典中包含的情感词语，实际增加的情感词语条数为17081个。在计算效率方面，从计算复杂度方面可以很明显的看出优势，类别基本上只有5个左右，一个候选词只需要计算5个类别的PMI互信息并且只需要1次迭代，而对于传统方法来说，每次迭代都需要计算种子词的PMI互信息，种子词的数量至少是10个以上，并随着迭代次数不断增加。

通过对比基于情感词典作为特征值的方法，比较两种特征值在准确率的影响，根据上述实验结果显示：通过自动获取情感词语扩充特征值之后，朴素贝叶斯算法在严格准确率(既分类结果与样本数据完全匹配)从48.64％提高到了54.75％(提高了约6％)，宽松准确率(既分类结果与样本数据容错为1，例如分类为5，实际为4也认为是正确)从84.59％提高到了93.05％(提高了将近10％)。从对比结果可以得出，通过PMI斜率值的阈值获取情感特征值的方法，能够大大提高语义情感分析的准确度。

上述为本发明提供的语义情感分类特征值提取方法，与该语义情感分类特征值提取方法相对应，本发明还提供了一种语义情感分类特征值提取系统。

图3示出了根据本发明实施例的语义情感分类特征值提取系统。

如图3所示，本发明提供的语义情感分类特征值提取系统300包括：分类语料库获取单元310、中文分词单元320、类别PMI互信息计算单元330、PMI斜率值获取单元340和特征值选取单元350。

其中，分类语料库获取单元310，用于通过网页爬虫技术爬取互联网用户的评价信息获取分类语料库，其中，分类语料库包括自然语言描述文本和类别信息。

中文分词单元320，用于根据中文分词算法将自然语言描述文本的段落句子拆分为词语。

类别PMI互信息计算单元330，用于根据分类语料库的类别信息，计算词语与类别信息之间的类别PMI互信息。

PMI斜率值获取单元340，用于根据类别PMI互信息与类别信息之间的线性相关的特性获取PMI斜率值，并根据PMI斜率值判断词语的情感词性。

特征值选取单元350，用于根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为自然语言描述文本的语义情感分类特征值。

在中文分词单元320中，中文分词中采用的算法包括：最大匹配法、最大均词长法和最小方差法。

在类别PMI互信息获取单元330中，类别PMI互信息计算公式为：

在PMI斜率值获取单元中，类别PMI互信息与类别信息之间通过线性拟合方法获得PMI斜率值，拟合的方法计算出线性函数y＝ax+b中的变量a和b，

其中，变量a为PMI斜率值，变量a和b可以通过以下公式获得：

a = \frac{{nΣ}_{k = 1}^{n} x_{k} y_{k} - Σ_{k = 1}^{n} x_{k} Σ_{k = 1}^{n} y_{k}}{{nΣ}_{k = 1}^{n} {x_{k}}^{2} - Σ_{k = 1}^{n} x_{k} Σ_{k = 1}^{n} x_{k}}

b = \frac{Σ_{k = 1}^{n} y_{k} - {aΣ}_{k = 1}^{n} x_{k}}{n}

通过上述实施方式可以看出，本发明提供的语义情感分类特征值提取方法和系统，通过利用语料库中的类别信息，计算词语与类别的PMI互信息，降低了传统方法中词语与词语之间PMI互信息的计算量，提高了运算效率；通过利用类别PMI互信息的斜率来判断词语的情感倾向，从而避免了传统方法中需要反复迭代的复杂计算；选取特征值的阈值可以利用数据的统计信息来直接确定，避免了不同迭代中阈值的变化；通过PMI获取情感特征值的方法，大大提高了语义情感分析的准确度。

如上参照附图以示例的方式描述了根据本发明提出的语义情感分类特征值提取方法和系统。但是，本领域技术人员应当理解，对于上述本发明所提出的语义情感分类特征值提取方法和系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种语义情感分类特征值提取方法，包括：

通过爬取互联网用户的评价信息获取分类语料库，其中，所述分类语料库包括自然语言描述文本和类别信息，

根据中文分词算法将所述自然语言描述文本的段落句子拆分为词语；

根据所述分类语料库的类别信息，计算所述词语与所述类别信息之间的类别PMI互信息；

根据所述类别PMI互信息与所述类别信息之间的线性相关的特性获得PMI斜率值，并根据所述PMI斜率值判断所述词语的情感词性；

根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为所述自然语言描述文本的语义情感分类特征值。

2.如权利要求1所述的语义情感分类特征值提取方法，其中，所述中文分词算法包括：最大匹配法、最大均词长法和最小方差法。

3.如权利要求1所述的语义情感分类特征值提取方法，其中，

所述类别PMI互信息计算公式为：

4.如权利要求1所述的语义情感分类特征值提取方法，其中，

所述类别PMI互信息与所述类别信息之间通过线性拟合方法获得PMI斜率值，拟合的方法计算出线性函数y=ax+b中的变量a和b，

其中，变量a为PMI斜率值，变量a和b可以通过以下公式获得：

。

5.一种语义情感分类特征值提取系统，包括：

分类语料库获取单元，用于通过爬取互联网用户的评价信息获取分类语料库，其中，所述分类语料库包括自然语言描述文本和类别信息，

中文分词单元，用于根据中文分词算法将所述自然语言描述文本的段落句子拆分为词语；

类别PMI互信息计算单元，用于根据所述分类语料库的类别信息，计算所述词语与所述类别信息之间的类别PMI互信息；

PMI斜率值获取单元，用于根据所述类别PMI互信息与所述类别信息之间的线性相关的特性获取PMI斜率值，并根据所述PMI斜率值判断所述词语的情感词性；

特征值选取单元，用于根据预设的PMI斜率值的阈值提取具有情感倾向的词语作为所述自然语言描述文本的语义情感分类特征值。

6.如权利要求5所述的语义情感分类特征值提取系统，其中，在所述中文分词单元中，

所述中文分词算法包括：最大匹配法、最大均词长法和最方差法。

7.如权利要求5所述的语义情感分类特征值提取系统，其中，在所述类别PMI互信息获取单元中，所述类别PMI互信息计算公式为：

8.如权利要求5所述的语义情感分类特征值提取系统，其中，

在PMI斜率值获取单元中，所述类别PMI互信息与所述类别信息之间通过线性拟合方法获得PMI斜率值，拟合的方法计算出线性函数y=ax+b中的变量a和b，

其中，变量a为PMI斜率值，变量a和b可以通过以下公式获得：

。