CN103488623A

CN103488623A - 多种语言文本数据分类处理方法

Info

Publication number: CN103488623A
Application number: CN201310397617.7A
Authority: CN
Inventors: 程学旗; 林政�; 张瑾; 谭松波; 徐学可
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-09-04
Filing date: 2013-09-04
Publication date: 2014-01-01

Abstract

本发明公开了一种自学习的涉及多语言数据处理分类方法，包括通过第一种子词中文或者外文“很”抽取候选情感词，然后进行停用词过滤，停用词表从语料库中自动获取；步骤2，通过第二种子词“好”和第三种子词“差”或者外文“好”“差”对情感词和情感文本同时进行支持或反对聚类；通过半监督学习构建情感分类器，先从聚类的结果中挑选确信的样本训练初始分类器，然后融合文本的情感得分和分类器的后验概率来挑选新样本加入训练集。本发明提出的面向多语言倾向性分析的方法是语言无关的，无需借助机器翻译系统和大规模双语词典，直接在目标语言上学习情感分类器，具有最小资源依赖性，对于每种目标语言，仅仅需要三个种子词而不需要其他先验知识。

Description

多种语言文本数据分类处理方法

技术领域

本发明涉及数据处理领域，涉及海量文本数据倾向性分析，尤其是面向多语言（不熟悉语言）的自动情感分类方法。

背景技术

随着互联网的快速发展和全球化进程的加快，因特网所提供的信息资源呈现出多语言化的特点。全球标准互联网用户调查和分析权威机构Nielsen NetRatings的调查数据显示，从2000年到2008年的9年间，全世界各种语言的网络使用增长率达到305.5%。因特网资源的多语言性及用户对母语和非母语熟悉程度的差异性，不可避免地给用户利用网络信息带来了语言障碍。

网络正悄然无息地影响着人们的生活习惯，随着论坛、博客、评论、微博等网络交流平台不断涌现，人们越来越习惯于在网上发表主观性的言论，这些言论用于表达自己对于日常事件、产品、政策等的观点和看法，使得网上存在大量带有情感倾向性的文本。情感分析是一种重要的信息组织方式，研究的是自动挖掘和分析文本中的立场、观点、看法、情绪、好恶等主观信息。

多语言情感分析具有极其重要的研究意义：

从理论上看，情感倾向性分析是自然语言处理、人工智能、甚至认知科学领域所面临的重要研究课题之一。情感倾向性研究所取得的每一个进步，都有助于加深我们对人类的智能、语言、思维等问题的了解。

网络因其开放性和虚拟性，已经成为民意表达的重要通道和空间。利用多语言的情感倾向性分析技术，可以更加及时地了解世界各地网络社会民意。

同时，多数产品生产、销售厂商希望通过跟踪用户对产品的回馈意见来获得改进产品质量的针对性意见；潜在的消费者也希望通过网上真实的评价信息来调整个人的购买意向。利用多语言情感倾向性分析技术对多语言的产品评论观点进行组织和分类，有利于人们更全面地了解产品，培育潜在消费群体。

综上所述，多语言情感倾向性分析研究不但具有深远的理论价值，而且有着广阔的应用前景，可以创造较大的社会和经济效益。

近年来，特定语言（比如英文或中文）的情感倾向性研究取得了很大的进步，然而多语言（非特定语言或不熟悉语言）的情感倾向性研究却没有太大突破。

通常情况下，多语言的情感分类主要通过跨语言的思路来解决，大致归纳为以下三种：

采用KCCA(Kernel Canonical Correlation Analysis)、LSI(LatentSemantic Indexing)等方法，不依赖于翻译资源，以平行语料为基础完成源和目标语言的空间转换。LSI方法是跨语言信息检索领域常用的仅依据平行语料就可以进行源和目标语言空间转换的方法。但是，双语平行语料依然是稀缺资源，大规模的双语平行语料获取不易，而且每切换一种语言就需要一批双语平行语料，代价太高。

借助统计机器翻译系统来进行跨语言情感分类器迁移。一方面，可以将有标注的源语言数据集翻译成目标语言，然后在翻译后的训练语料上训练分类器对测试集进行判别；另一方面，可以将目标语言测试集翻译成源语言，然后直接应用在源语言上训练的分类器。然而，基于机器翻译的方法会损失跨语言情感分析的精度。一方面，机器翻译系统生成唯一解，所以翻译未必正确；另一方面，机器翻译系统依赖于训练集，当目标语言的领域与训练集相差较大时性能不佳。

借助双语词典来进行跨语言情感分类器迁移。在有监督学习中，可以先在源语言上学习情感分类器，然后借助双语词典将特征空间翻译成目标语言；在无监督学习中，可以将源语言的情感词典通过双语词典翻译成目标语言。然而，大部分基于双语词典的工作在选取翻译词的时候没有考虑情感词的上下文依赖关系。此外，情感词的极性（支持或反对）具有领域依赖性，面对不同实体会表现出不同极性，所以将通用的情感词典用于特定领域往往性能不佳。

综上所述，多语言的情感倾向性分析主要存在以下两个问题：

（1）多语言情感分析过于依赖外部资源

大部分多语言情感分析技术是依赖于机器翻译或者双语词典的。如果没有机器翻译系统或编纂好的双语词典，多语言情感分析的工作将很难进行。

（2）多语言情感分析性能差强人意

首先，基于机器翻译的方法会损失跨语言情感分析的精度。其次，大部分基于双语词典的工作在选取翻译词的时候没有考虑情感词的上下文依赖关系。最后，不同语言的情感表达差异很大，从原始空间导出的模型被转换到目标语言空间时存在信息损失。

发明内容

为了解决上述问题，本发明的目的在于公开多种语言文本数据分类处理方法及系统，在既不借助外部资源（统计机器翻译系统和双语词典），也没有任何标注数据的情况下，仅仅用三个种子词去完成多语言的自动情感分类，这种语言无关的解决方案不仅具有最少的资源依赖性，而且实际分类性能可以接近或超过基于翻译的方法。

具体地讲，本发明公开了一种自学习的涉及多语言数据处理分类方法，包括如下步骤：

步骤1，通过第一种子词中文或者外文“很”抽取候选情感词，然后进行停用词过滤，停用词表从语料库中自动获取；

步骤1具体包括：

步骤21，统计语料库中所有词的词频，将超过一定阈值的高频词看作停用词，自动获得停用词表；

步骤22，如果停用词表中出现情感词（情感词通过“很”自动获取后），则将情感词自动滤除，只保留非情感词的停用词，得到非情感词集合。

步骤2，通过第二种子词“好”和第三种子词“差”或者外文“好”“差”对情感词和情感文本同时进行支持或反对聚类；

步骤2具体包括：

步骤31，对情感词和情感文本进行粗略标注为正/负；文本中所包含的所有情感词均被赋予相同的倾向性；

步骤32，对每个情感词指定一个唯一的极性，引入KL距离法对极性模糊的情感词进行消歧；

步骤33，对情感词和情感文本进行迭代聚类；

步骤34，用消歧后的情感词来重新标注情感文本作为标注集，然后再用该标注集重新标注情感词，如此反复，迭代进行。

步骤3，通过半监督学习构建情感分类器，先从步骤2聚类的结果中挑选确信的样本训练初始分类器，然后融合文本的情感得分和分类器的后验概率来挑选新样本加入训练集。

步骤3具体包括：

步骤41，从标注集中挑选最确信的样本作为初始训练集，然后在初始训练集上训练分类器；

步骤42，从分类器的预测结果中挑选最确信的样本加入训练集重新训练分类器，迭代进行。

步骤41具体包括：

步骤51，将所有的文本按照情感词得分进行排序，然后挑选得分最高的文本作为初始集，用于提高初始训练集的准确率；

步骤52，新机制将分类器生成的后验概率和文本的情感得分相加，用于防止自学习过程中的分类偏移。

所述的涉及多语言数据处理分类方法，步骤2还包括步骤24，对于集合S中的每一个词统计“很”的出现频率，并根据公式计算权重：

α (w_{i}) = \frac{f (very, w_{i})}{Σ_{i = 1}^{n} f (very, w_{i})}

所述的涉及多语言数据处理分类方法，所述KL距离法，用于衡量两个分布的差距；

假设有两个概率分布，P代表正类文本和Q代表负类文本，它们的KL距离被定义为：

D_{KL} (P | | Q) = \underset{i}{Σ} P (i) \log \frac{P (i)}{Q (i)}

所述的涉及多语言数据处理分类方法，所述步骤33中，在每一轮的迭代过程中，文本的极性由当前最新的情感词来判定，每一篇文档d的情感得分被定义为：

sentiment_score (d) \frac{Σ_{i = 1}^{m} α (w_{i} &Element; positive)}{len (d)} - \frac{Σ_{i = 1}^{n} α (w_{i} &Element; negative)}{len (d)}

其中len(d)代表d的长度,m代表d中正类情感词的数目,n代表d中负类情感词的数目,α(wi)代表情感词wi的权重。

本发明的有益效果在于：本发明提出的面向多语言倾向性分析的方法是语言无关的，无需借助机器翻译系统和大规模双语词典，直接在目标语言上学习情感分类器，具有最小的资源依赖性，对于每一种目标语言，仅仅需要三个种子词而不需要其他先验知识。通过自学习得到的情感分类器可以克服基于翻译方法的不足，还可以减少跨语言空间转换带来的信息损失。

本发明仅仅因为选择了3个种子词作为启发信息，不会损失精度。从理论上，通过三个种子词自动学习情感分类器，避开机器翻译方法，也避免了翻译引入的错误；从实验上，多组实验结果证明了本发明性能优于基准方法。

附图说明

图1是情感分类算法流程图；

图2是情感词抽取算法流程图；

图3是情感词和情感文本聚类算法流程图；

图4是情感分类器自学习算法流程图。

具体实施方式

为实现上述目的，本发明提出了一种自学习的涉及多语言数据处理分类方法，包括：

见图1是情感分类算法流程图。

步骤1，通过“很（very）”抽取候选情感词，然后进行停用词过滤，停用词表是从目标语言自动获取的；

步骤2，通过“好（good）”和“差（bad）”对情感词和情感文本同时进行聚类（支持或反对）；

所述步骤1包括：

除了可以通过“很（very）”抽取英语情感词外，还包括将“很（very）”翻译成其他目标语言，从而抽取目标语言的情感词，比如法语中对应的“很（très）”，德语中对应的“很（sehr）”，西班牙语中对应的“很（muy）”，荷兰语中对应的“很（zeer）”等等。

对于每种语言，统计语料库中所有词的词频，然后将超过一定阈值的高频词近似看作停用词，从而自动获得停用词表。

如果停用词表中出现情感词，则将情感词滤除，只保留非情感词的停用词。

所述步骤2包括：

通过两个极性相反的种子词对情感词和情感文本进行聚类，如果映射到其他目标语言，可通过翻译“好（good）”和“差（bad）”得到其他目标语言的种子词。

如果对应法语的倾向性分析，两个种子词分别是正类情感词“好（bonne）”和负类情感词“差（mauvaise）”。如果对应德语的倾向性分析，两个种子词分别是正类情感词“好（gut）”和负类情感词“差（schlecht）”。如果对应西班牙语的倾向性分析，两个种子词分别是正类情感词“好（bueno）”和负类情感词“差（mal）”。如果对应荷兰语的倾向性分析，两个种子词分别是正类情感词“好（goede）”和负类情感词“差（slecht）”。

首先，进行粗略标注。通过“好（good）”和“差（bad）”对情感词和文本同时进行粗略标注，即如果一篇文本包含“好/差（good/bad）”则被标为正/负（positive/negative），与此同时，被标注为正/负（positive/negative）的文本中所包含的所有情感词都被赋予相同的倾向性。

其次，对每个情感词指定一个唯一的极性。某个情感词可能既出现在正类文本中又出现在负类文本中，引入KL距离法对极性模糊的情感词进行消歧。

最后，对情感词和情感文本进行迭代聚类。

用上一步消歧后的情感词来重新标注情感文本，然后再用最新标注的情感文本重新标注情感词，如此反复，迭代进行。

所述步骤3包括：

从标注集中挑选最确信的样本作为初始训练集，然后在初始训练集上训练分类器。

从分类器的预测结果中挑选最确信的样本加入训练集重新训练分类器，迭代进行。

为了提高初始训练集的准确率，将所有的文本按照情感词得分进行排序，然后挑选得分最高的文本作为初始集。

为了防止自学习过程中的分类偏移，本发明提出了一种融合的样本选择机制，新机制将分类器生成的后验概率和文本的情感得分相加（融合）。

为了证明所提方法的有效性，将本发明在多语言的酒店评论上进行实验。多语言的酒店评论是从某一网站上采集的，包括法语、德语、西班牙语和荷兰语。

构造多语言语料库需要经过一些预处理：

首先，从网站采集带评论的网页。

然后，去除网页中的HTML标记和其它噪音。

最后，利用语种识别工具，如TextCat工具，对抽取出的评论进行语言识别。工具自动识别属于现有技术。

每种语言的情感语料包含正负类评论假设各2000篇。在基于翻译的情感分类实验中，选择源语言的50%作为标注集，目标语言的50%作为测试集。在半监督学习的实验中，选择10%最确信的样本作为初始训练集,50%标注样本作为测试集，40%未标注样本作为挑选集。

为了验证迭代的KL距离法对于倾向性消歧是有效的，在多种语言语料上进行实验。

表1列出了在使用迭代KL距离法之前和之后对前10%确信样本的预测正确率。

表1前10%确信样本的预测正确率，预测正确率=正确标注的样本数/被标注的样本总数。

从表1可以看出，在应用了迭代KL距离法之后，前10%确信样本的预测正确率平均提高了6.54个百分点，从而证明使用迭代的KL距离可以提高挑选出的初始训练集的质量。为了验证所提方法的有效性，在多语言情感分类任务中，将本发明的方法和其他基准方法进行对比，基准方法分别是：

1、有监督学习方法：基于机器翻译的方法。

首先，在源语言的标注集上训练情感分类器。

其次，将目标语言的测试集通过谷歌工具翻译成源语言。

最后，将情感分类器应用于翻译后的测试集。

2、无监督学习方法：基于情感词典的方法。

首先，将源语言的情感词典翻译成目标语言。

然后，用翻译后的情感词典对目标语言文本进行分类。

表2和表3分别给出了将英中文/英文作为源语言的对比实验结果。

表2中文作为源语言时本文方法与机器翻译法和情感词典法的对比结果

在表2的实验中，对于无监督学习，中文情感词典被翻译成其他语言；对于有监督学习，其他语言的测试集被翻译成中文。在半监督学习过后，本发明平均比无监督学习的基准方法高出18.95个百分点，平均比有监督学习的基准方法高出12.68个百分点。基准方法的性能之所以下降比较明显是因为对中文进行机器翻译的正确率不高。中文和其他四种目标语言属于不同语系，语言特性不同，所以从中文迁移得到的情感分类器和情感词典性能不佳。

表3英文作为源语言时本文方法与机器翻译法和情感词典法的对比结果

在表3的实验中，英文情感词典被翻译成其他目标语言，目标语言的测试集被翻译成英文。在半监督学习过后，本方法平均比无监督学习的基准方法高出7.23个百分点，平均比有监督学习的基准方法高出2.01个百分点。与中文相比，英文和其他四种目标语言更为相似，所以从英文迁移得到的情感分类器和情感词典的质量明显好于从中文迁移的结果。

对表2和表3进行联合分析，本发明所提的多语言情感分类方法之所以能超过基于机器翻译的方法是因为克服了机器翻译方法的诸多不足。一方面，机器翻译系统生成唯一解，可能会引入翻译错误从而影响分类器性能。另一方面，源语言和目标语言可能遵从不同的分布，所以跨语言得到的情感分类器性能不佳。而本发明直接从目标语言学习情感分类器，所学情感分类器的性能仅仅和目标语言的质量与特性有关。

下面举出其中的三篇中文为例说明本发明的数据处理过程。

选取中文常用种子词：很、好、差

假如有以下三篇评论，实际上是有一个海量的评论，所要处理的文字要远远多于三篇文字，也不限于中文，这些评论形成一个聚类数据，是必须通过计算机的数据处理才能得到分类。

评论1：

入住丽晶，感觉很好。因为是新酒店，的确有淡淡的油漆味，房间很新，房间很大，卫生间设备齐全，服务态度也很好。

评论2：

房间很大很空旷，电视很模糊，卫生间很小，是淋浴房，设施很简陋，与前台服务员标榜的四星酒店相去甚远，总之，条件很差。

评论3：

酒店位置还是很好的，闹中取静，步行到铜锣湾和时代广场所在的最热闹的商业区也不到十分钟。坐公交车、坐地铁都很方便。

下面用本发明的方法通过上面的文字进行处理：

第一步：通过“很”获取情感词如下：好、新、大、空旷、模糊、小、简陋、差、方便

第二步：通过“好”和“差”对文本进行粗略分类:

评论1（正类）；评论2（负类）；评论3（正类）

对情感词进行粗略分类：

评论1中包含的情感词都是正类：新大

评论2中包含的情感词都是负类：大空旷模糊小简陋

评论3中包含的情感词都是正类：方便

第三步：对情感词极性进行消歧，为每个情感词指定一个唯一的极性。

以“大”为例，分别计算“大”在正类文本集合和负类文本集合上的KL距离，KL计算过程如下：

δ (w; P | | Q) = P (w) \log \frac{P (w)}{Q (w)}

通过计算得到δ(大;正类||负类)＞δ(大;负类||正类)，所以指定“大”为正类。

具体KL距离计算过程参照步骤32进行。

由于只有在很多文本上才能计算出有价值的信息，仅从这三篇样例上看，“大”在以上样例的正负类上都只出现一次。而实际情况是，如果有很多样本可以统计出“大”出现在正类文本中的概率更大。如果想要举出合适的例子真的非常麻烦，因为需要穷举更多的样本，分别计算出现在正类和负类样本中的概率，而且只迭代一轮结果是不精确的，需要迭代很多轮才能求得稳定的可信的结果。

本发明的借助最少的资源（先验知识），对一种完全不了解的语言进行倾向性分析，自动在目标语言语料上学习情感分类器。

下面通过图2、3、4说明只使用三个种子词完成情感分类的详细过程。

图2是情感词抽取算法流程图。

如图2所示，该方法包括：

步骤21，根据模式“很wi”抽取所有的wi组成候选情感词集合C。

步骤22，统计语料库中每个词的词频，将词频超过给定阈值的词组成停用词表。

步骤23，从候选情感词集合C中去除停用词得到集合S。

步骤24，对于集合S中的每一个词wi统计“很wi”的出现频率，并根据公式计算权重。

α (w_{i}) = \frac{f (very, w_{i})}{Σ_{i = 1}^{n} f (very, w_{i})}

图3是情感词和情感文本聚类算法流程图。

如图3所示，该方法包括：

步骤31，用种子词对情感词和情感文本进行粗略标注。

以中文为例，如果一篇文本包含“好/差”则被标为“正/负”，与此同时，被标注为正/负的文本中所包含情感词被赋予相同的倾向性。

以英文为例，如果一篇文本包含“good/bad(好/差)”则被标为positive/negative（正/负），与此同时，被标注为positive/negative（正/负）的文本中所包含情感词被赋予相同的倾向性。

步骤32，对每个情感词指定一个唯一的极性。某个情感词可能既出现在正类文本中又出现在负类文本中，本发明引入KL距离法对极性模糊的情感词进行消歧。KL距离又称为相对熵，用于衡量两个分布的差距。假设有两个概率分布P和Q，它们的KL距离被定义为：

D_{KL} (P | | Q) = \underset{i}{Σ} P (i) \log \frac{P (i)}{Q (i)}

当KL距离被应用于单样本上时，又被称为逐点KL距离：

δ (w; P | | Q) = P (w) \log \frac{P (w)}{Q (w)}

假设P代表正类文本，Q代表负类文本，当一个词经常出现在P分布中而很少出现在Q分布中时，那么这个词与P分布的结合就很强，与Q分布的结合就很弱。在用KL距离进行消歧时，每一个情感词w的倾向性通过比较δ(w;positive||negative)和δ(w;negative||positive)来决定:

polarity (w) = \{\begin{matrix} positive & δ (w; positive | | negative) > δ (w; negative | | positive) \\ negative & δ (w; positive | | negative) < δ (w; negative | | positive) \end{matrix}

步骤33，对情感词和情感文本进行迭代聚类。经过步骤1和步骤2，可以挖掘出更多带极性的情感词，这些情感词可以提供更多的启发信息对情感文本进行重新标注，在得到新标注的情感文本后，又可以根据公式polarity(w)重新对情感词进行标注。在每一轮的迭代过程中，文本的极性都是由当前最新的情感词来判定的，每一篇文档d的情感得分被定义为：

sentiment_score (d) \frac{Σ_{i = 1}^{m} α (w_{i} &Element; positive)}{len (d)} - \frac{Σ_{i = 1}^{n} α (w_{i} &Element; negative)}{len (d)}

本发明采用一种迭代的策略使得文本标注和情感词标注相互促进。如果提高文本标注的正确率，那么情感词标注的准确率也会提高，反之亦然。

图4是情感分类器自学习算法流程图。

如图4所示，该方法包括：

步骤41，根据情感词得分sentiment_score(d)对所有文档进行排序，得到初始训练集，通过机器学习方法训练得到初始情感分类器。

步骤42，对于每篇文本，分别计算生成每个类别的后验概率p和每个类别下的情感得分s。

步骤43，对于每个类别，按照(p+s)的分值对所有文本进行排序。

步骤44，挑选出n个得分最高的正类文本和负类文本加入训练集。

步骤45，用最新得到的训练集重新训练分类器。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明权利要求的保护范围。

Claims

1.一种自学习的涉及多语言数据处理分类方法，其特征在于，包括如下步骤：

2.如权利要求1所述的涉及多语言数据处理分类方法，其特征在于，所述步骤1包括：

步骤22，如果停用词表中出现情感词，则将情感词滤除，只保留非情感词的停用词，得到非情感词集合。

3.如权利要求2所述的涉及多语言数据处理分类方法，其特征在于，所述步骤2包括：

步骤33，对情感词和情感文本进行迭代聚类；

4.如权利要求3所述的涉及多语言数据处理分类方法，其特征在于，所述步骤3包括：

5.如权利要求3所述的涉及多语言数据处理分类方法，其特征在于，所述步骤3包括：

步骤43，将所有的文本按照情感词得分进行排序，然后挑选得分最高的文本作为初始集，用于提高初始训练集的准确率；

步骤44，新机制将分类器生成的后验概率和文本的情感得分相加，用于防止自学习过程中的分类偏移。

6.如权利要求2所述的涉及多语言数据处理分类方法，其特征在于，步骤2还包括步骤24，对于集合S中的每一个词统计“很”的出现频率，并根据公式计算权重：

α (w_{i}) = \frac{f (very, w_{i})}{Σ_{i = 1}^{n} f (very, w_{i})}

7.如权利要求2所述的涉及多语言数据处理分类方法，其特征在于，所述KL距离法，用于衡量两个分布的差距；

D_{KL} (P | | Q) = \underset{i}{Σ} P (i) \log \frac{P (i)}{Q (i)}

8.如权利要求2所述的涉及多语言数据处理分类方法，其特征在于，所述步骤33中，在每一轮的迭代过程中，文本的极性由当前最新的情感词来判定，每一篇文档d的情感得分被定义为：

sentiment_score (d) \frac{Σ_{i = 1}^{m} α (w_{i} &Element; positive)}{len (d)} - \frac{Σ_{i = 1}^{n} α (w_{i} &Element; negative)}{len (d)}