CN106326214A

CN106326214A - 一种基于迁移学习的跨语言情感分析方法及装置

Info

Publication number: CN106326214A
Application number: CN201610756729.0A
Authority: CN
Inventors: 程国艮; 巢文涵; 何晓楠
Original assignee: Mandarin Technology (beijing) Co Ltd
Current assignee: Mandarin Technology (beijing) Co Ltd
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2017-01-11

Abstract

本发明公开了一种基于迁移学习的跨语言情感分析方法及装置，涉及机器翻译技术领域；解决了传统机器学习的方法此无法直接适用于跨语言情感分析的技术问题；该技术方案包括：建立源语言到目标语言的空间迁移模型，将扩展后的情感分类特征pivot集合与目标语言以及源语言的语言特征空间相融合，通过转换和降维，得到转换因子，将源语言转移到目标语言。

Description

一种基于迁移学习的跨语言情感分析方法及装置

技术领域

本发明涉及机器翻译技术领域，特别涉及一种基于迁移学习的跨语言情感分析方法及装置。

背景技术

跨语言情感分析面临的主要问题是目标语言情感资源不足，缺少情感词典以及有标注的语料。而传统机器学习的方法则需要目标语言的语料支持，因此无法直接适用于跨语言情感分析问题。根据常识来分析，两种自然语言的差异可能是极大的，例如中文和英文，中文是字组成词，词组成句子，而词和词之间没有空格。不同字有不同的意思，而字组成词则有别的意思。而英文以单词为最小单位，每个单词可能有很多意思，很多词性，每个词还有多种形态变化。而句子本身也有时态变化。两种语言都有一词多义的情况，很多时候难以准确地对译。尤其是跨语言情感分类，面对两种语言的文本语料，源语言和目标语言的特征空间是截然不同的，同时源语言和目标语言的数据分布空间也完全不同。由于自然语言的巨大差异，直观上似乎都难以解决。

发明内容

本发明要解决的是传统机器学习的方法此无法直接适用于跨语言情感分析的技术问题。

为了解决上述问题，本发明提供了一种基于迁移学习的跨语言情感分析方法，包括：建立源语言到目标语言的空间迁移模型，将扩展后的情感分类特征pivot集合与目标语言以及源语言的语言特征空间相融合，通过转换和降维，得到转换因子，将源语言转移到目标语言。

本发明还提供了一种基于迁移学习的跨语言情感分析装置，包括：包括模型构建单元、特征集合筛选与扩展单元、转换及降维单元，升维及补偿单元；模型构建单元用于建立源语言到目标语言的空间迁移模型；特征集合筛选与扩展单元用于将扩展后的情感分类特征pivot集合与目标语言以及源语言的语言特征空间相融合；转换及降维单元用于源语言到目标语言转换和降维，得到转换因子；升维补偿单元用于将源语言转移到目标语言。

本发明的技术方案实现了一种基于迁移学习的跨语言情感分析方法及装置，解决了传统机器学习的方法此无法直接适用于跨语言情感分析的技术问题。

附图说明

图1 一种基于迁移学习的跨语言情感分析方法流程图；

图2 目标语言与源语言空间迁移模型示意图；

图3 特征空间转换链示意图；

图4 SCL-ST算法流程示意图；

图5 双语言文本VSM模型图；

图6 Pivot投影示意图；

图7 一种基于迁移学习的跨语言情感分析装置结构图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行更详细的说明。

需要说明的是，如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一，一种基于迁移学习的跨语言情感分析方法，如图1所示，包括：

建立源语言到目标语言的空间迁移模型，将扩展后的情感分类特征pivot集合与目标语言以及源语言的语言特征空间相融合，通过转换和降维，得到转换因子，将源语言转移到目标语言。

本技术方案在现有模型的基础上提出基于迁移学习的方法，从情感资源丰富的源语言，将情感知识迁移到情感资源贫乏的目标语言，最终得到面对目标语言的情感极性分类器。

实施例二，一种基于迁移学习的跨语言情感分析方法，如图2-6所示，在实施例一的基础上。进一步包括：

更优的，获得扩展后的情感分类特征集合之前，首先使用源语言和目标语言的全部语料，筛选情感分类特征pivot；情感分类特征pivot由一个词对组成，即<源语言词，目标语言词>。

SCL-ST模型需使用源语言标注语料、目标语言未标注语料、源语言与目标语言的双语词典以及一个源语言同义词词典。考虑到在跨语言任务中，源语言的语料较为丰富，而目标语言语料稀缺，因此本发明所需要的资源通常很容易获得。首先使用源语言和目标语言的全部语料，以文本词频(TF)作为特征值，建立词袋模型。词袋模型构建之后，基于CL-SCL模型选取pivot特征集合作为迁移学习的基础。Pivot由一个词对组成，每个特征以词对的方式表示，即<源语言词，目标语言词>。

更优的，筛选情感分类特征pivot选取全部依据源语言标注语料，源语言的特征词选取之后，对源语言特征词进行翻译，取该翻译为目标语言特征词；翻译后得到特征词对，使用源语言进行同义词扩展，即把目标特征词的同义词一并加入情感分类特征pivot集合中，得到新的情感分类特征pivot。

pivot集合得到扩充后，依照后文模型中的算法，可以更多地保留语料信息，增强模型鲁棒性，从而提高最后的分类准确率。在得到Pivot集合并扩展后，以这些特征pivot为核心，建立源语言和目标语言之间的桥梁。

更优的，在得到情感分类特征Pivot集合并扩展后，以所述情感分类特征pivot为核心，建立源语言和目标语言之间的转换因子。

通过转换和降维，得到转换因子，可以分别把源语言特征空间和目标语言特征空间映射到一个低维正交空间内。同时对中文和英文语料进行降维，找到一个使得中英文相似度最高的低维空间，把两种语言的语料映射上去，本发明要解决的是情感倾向性分类任务，因此这个低维空间，需要跟情感分析任务有关联，在映射的过程中，应该尽量保留情感倾向性分析有关的有效信息，而其他冗余信息则尽量刨除。

更优的，把低维的特征空间还原到目标语言语料特征空间，通过目标语言的情感极性分类器补全通过降维造成的信息损失，实现将源语言转移到目标语言。所述分类器是在目标语言的高维度特征空间训练得到的，可以直接对转换为词袋特征向量的目标语言文本进行分类。

该方法基于半监督学习策略，通过特征空间迁移的思想来训练目标语言分类器，一定程度上弥补了迁移学习过程中由于特征空间降维所造成的信息损失。

模型的提出和步骤

本发明依据现存的跨语言文本分类模型CL-SCL，针对跨语言情感倾向性分类提出一个新的模型。该模型提出空间迁移的概念以及迁移学习理论和结构化学习理论，简称SCL-ST(Structural Correspondence Learning with Space Transfer)。

本发明所研究的问题是跨语言情感分类，面对两种语言的文本语料，源语言和目标语言的特征空间是截然不同的，同时源语言和目标语言的数据分布空间也完全不同。使用迁移学习的思想来分析这个任务，则这两个问题都需要得到较好的解决。而这两个问题，由于自然语言的巨大差异，直观上似乎都难以解决。

首先需要认清，最终的目标是面向目标语言的情感倾向性分类，即需要一个能够对目标语言进行情感极性分类的分类器。但是现在是有源语言语料的标注。如果能够通过某种方法，将源语言的特征空间以及目标语言的特征空间同时映射到一个统一的特征空间下，那么只要在这个空间内使用源语言的标注训练分类器，则可以将问题转化成一个传统的监督机器学习问题。

但是根据常识来分析，两种自然语言的差异可能是极大的，例如中文和英文，中文是字组成词，词组成句子，而词和词之间没有空格。不同字有不同的意思，而字组成词则有别的意思。而英文以单词为最小单位，每个单词可能有很多意思，很多词性，每个词还有多种形态变化。而句子本身也有时态变化。两种语言都有一词多义的情况，很多时候难以准确地对译。这种情况下能够想到的方法，只有降维。同时对中文和英文语料进行降维，找到一个使得中英文相似度最高的低维空间，把两种语言的语料映射上去。但是如何映射，如何找到这个低维空间？还有一个关键问题是，本发明要解决的是情感倾向性分类任务，因此这个低维空间，需要跟情感分析任务有关联，在映射的过程中，应该尽量保留情感倾向性分析有关的有效信息，而其他冗余信息则尽量刨除。所以在考虑空间映射的同时，也需要考虑情感特征的抽取和表示，以及如何将这些特征和空间映射的方法相结合。

另一方面，当空间映射到低维后，不管是源语言还是目标语言的信息都会损失很多。那么为了保证分类的效果，需要找到一个途径把这些丢失的信息，尽可能补充回来。这里涉及到很多问题，后文会进行阐述。

经过上面的分析，本发明提出一个基于特征空间转换思想，如图2所示，XS表示源的特征空间，XT表示目标语言的特征空间。首先将源语言的特征空间通过转换因子映射到一个低维空间θX_S，再将这个空间过渡到θX_T，最终再回归到原始的目标语言特征空间XT。整个空间迁移过程如图3所示。

从XS到XT迁移的过程，经过了θX_S和θX_T两个空间的低维度空间，这个过程可以看做一个空间迁移的链条，当带有标注的情感信息经过这个链条，就可以从源语言特征空间转移到目标语言。

整个模型的流程如图4所示。模型所需要的语料是源语言的标注语料以及目标语言的未标注语料。首先基于源语言的标注实例，筛选情感分类特征。这里把情感分类特征称为pivot，即用于迁移学习的枢纽特征。假设源语言所找出来的pivot同样对目标语言的情感分类适用。将这些源语言的pivot特征，映射到目标语言中，则得到目标语言的pivot集合。通过结构化学习的方法，将扩展后的pivot集合与目标语言以及源语言的语言特征空间想融合，通过转换和降维，得到转换因子，可以分别把源语言特征空间和目标语言特征空间映射到一个低维正交空间内。

首先假设上文提到的θX_S和θX_T两个空间是同一个空间，事实上这两个空间非常相近。首先在θX_S内通过源语言实例的标注训练一个线性分类器，在将这个分类器直接应用到对目标语言映射后的文本的标注上，从而得到目标语言实例的标注。通过筛选最可靠的标注，则得到了目标语言语料的部分标注，将目标语言的实例分为有标注和没有标注两部分。这样就把对目标语言的情感分类问题转化为一个半监督学习问题。最后通过一个半监督学习策略，实现假设空间的迁移，补全通过降维造成的信息损失，从而最终得到目标语言的情感极性分类器。整个过程将在后文进行详细描述。

语料资源与模型构建

SCL-ST模型需使用源语言标注语料、目标语言未标注语料、源语言与目标语言的双语词典以及一个源语言同义词词典。考虑到在跨语言任务中，源语言的语料较为丰富，而目标语言语料稀缺，因此本发明所需要的资源通常很容易获得。首先使用源语言和目标语言的全部语料，以文本词频(TF)作为特征值，建立词袋模型，如图5所示。源语言语料构建词袋模型后得到矩阵其中x_Si∈X_S为源语言语料的词袋向量。同样的语料抽去标注y_S，则得到而目标语言语料同样构建词袋模型得到其中x_Ti∈X_T。

特征集合筛选与扩展

词袋模型构建之后，基于CL-SCL模型选取pivot特征集合作为迁移学习的基础。Pivot由一个词对组成，每个特征以词对的方式表示，即<源语言词，目标语言词>。

Pivot选取全部依据源语言标注语料，首先使用互信息方法选取源语言特征词。互信息(Mutual Information)是信息论中的一个重要概念。互信息可以被理解为一种有用的信息度量，用于描述两个事件集合的相关性。

互信息值计算公式如下：

其中U表示该词是否在文本中出现，而C表示文本的极性。e_t＝1表示该词在文本中出现，e_c＝1表示该文本极性为正向。N_S表示该词在条件s下的文档频率统计，如N₁₀表示该词在负向文本中出现的文档频率。N₁.＝N₁₀+N₁₁表示该词正负文档频率之和，及总文档频率。总文档数N＝N₀₀+N₀₁+N₁₀+N₁₁。而P(U＝1,C＝1)＝N₁₁/N。计算文本中所有出现的词与文本情感极性的相关度，选择互信息值最高的m个特征词{w_S}。

V_S＝MutualInformation(D_S,m) (1.2)

源语言的特征词选取之后，使用双语词典对源语言特征词进行翻译(这里选取频率最高的翻译)，取该翻译为目标语言特征词。

P'＝{{w_S,translate(w_S)},Φ|w_S∈V_S} (1.3)

翻译后得到特征词对，使用源语言进行同义词扩展。即把目标特征词的同义词一并加入pivot集合中，得到新的pivot。以英文为源语言，中文为目标语言为例：

{“wonderful”,”精彩”}＝>{“grand”,“fantastic”,“marvelous”,“marvellous”,“wonderful”,“wondrous”,“terrific”,“tremendous”,“精彩”}

得到最终的pivot集合P：

P＝{{{w_S},w_T}|w_S∈P',w_T∈V_T} (1.4)

pivot集合得到扩充后，依照后文模型中的算法，可以更多地保留语料信息，增强模型鲁棒性，从而提高最后的分类准确率。

训练投影矩阵

接下来根据CL-SCL模型的方法，求得转换因子。在得到Pivot集合并扩展后，以这些特征pivot为核心，建立源语言和目标语言之间的桥梁。

如图6所示，构建的词袋模型所组成的矩阵D，左侧列为源语言词袋，而右侧列为目标语言词袋。并将所有语料，包括英文标注语料D_S,图中阴影部分没有。将每个pivot特征集合在语料矩阵中做投影，即所有出现该词对中的词被设成“0”。此外出现该特征的文本被标记为1，否则被标记为-1。得到一个投影后带有标记的词袋特征矩阵D_l：

D_l＝{(MASK(x,p_l),IN(x,p_l))|x∈D_u} (1.5)

利用投影后的语料和对应的标记，对每一个pivot p_l训练一个相对应的线性分类器

w_l：

将所有w_l合成一个矩阵W：

W＝[w₁|w₂|...|w_m] (1.7)

最后对矩阵W进行SVD分解，取前k个特征值得到转换因子。

[UDV^T]＝SVD(W) (1.8)

实验证明这个模型不仅可以用在情感极性分类任务中，也可以用到多种跨语言任务当中，只要模型中使用的特征基于词对即可。

半监督学习策略

上文得到转换因子矩阵，该因子可以将源语言和目标语言的特征向量映射到同一个空间中。本小节主要介绍基于半监督学习的文本特征空间转换策略，通过训练多个线性分类器，将原问题转化为一个半监督学习任务。

首先将源语言特征矩阵X_S通过转换因子映射到低维空间θX_S，同时根据标注集和Y可以训练线性分类器f_S:

f_S(x_S)＝sign(v_S ^*Tθx_S) (1.11)

该分类器同样可以对目标语言进行分类。只需计算:

f_S(x_T)＝sign(v_S ^*Tθx_T) (1.12)

即可得到目标语言xT的极性。然而这个极性是通过θx_S的训练数据得到的，鉴于特征空间的差异性，结果并不准确。使用分类器f_S对所有目标语言文本xT做预测，则得到了目标语言文本的标注。

然而，分类器f_S只是在θx_S这个低维空间上训练的，使用该分类器对目标语言进行分类，其准确率容易受到空间维度的限制。在文本特征空间通过转换因子矩阵进行转换时，由于降维幅度非常大，会造成一定的信息损失。而这些信息中有可能会包含情感分析相关或者语义相关的知识，如果弃之不用则比较可惜。目标语言有大量的未标注语料，如果可以通过无监督或者半监督的方法来充分利用这些语料，在模型中加入更多目标语言本身的特性或情感知识，则可以进一步提高分类准确率。提升准确率使用的主要思想是大幅提高模型的特征空间维度，实际上就是把低维的特征空间还原到目标语言语料特征空间。

下面本发明着重研究这些尚未被充分利用的未标注语料。所有未标注语料对应的特征矩阵D_un是一个分块矩阵：

该矩阵左上角为源语言的未标注语料(可以用有标注的语料代替)右下角为目标语言未标注语料现已训练处分类器该分类器的训练特征空间为θ*(M_S 0),而是用该分类器标注时，目标语言实例集合则为而新的标注空间为Y_co。

提取置信度最高的n个标注以及标注所对应的文本，将这些标注的实例集合以及对应的标注重新整合起来，可以生成一个新的训练语料集：

D_co＝InsanceSelection((v^Tθx_T,y),n) (1.13)

这样便将原问题转化为半监督学习问题。得到的训练集此时重新训练线性分类器

此时得到的分类器f_co依然是在经过θ映射后的低维空间得到的。而对于跨语言任务，更理想的情况是得到一个跟做单语言任务相当的分类器，以使得分类准确率能达到单语分类的水平，有时甚至能得到更好的结果。f_co的分类效果已经高于f_S，使用f_co对全部目标语言语料进行一次重新标注，即对重新做一次标注，得到新的标注集合Y_T。重新选择置信度最高的比例为r的标注，并匹配相应的文本，可以生成新的有标注目标语言训练语料:

D_T＝InsanceSelection((x_T,y_T),r) (1.16)

在训练集上训练线性SVM分类器：

f_T(x_T)＝sign(w^*Tx_T+b) (1.17)

如此可得到最后的分类器f_T。该分类器是在目标语言的高维度特征空间训练得到的，可以直接对转换为词袋特征向量的目标语言文本进行分类。

实施例三，一种基于迁移学习的跨语言情感分析装置，如图7所示，包括：包括模型构建单元、特征集合筛选与扩展单元、转换及降维单元，升维及补偿单元；模型构建单元用于建立源语言到目标语言的空间迁移模型；特征集合筛选与扩展单元用于将扩展后的情感分类特征pivot集合与目标语言以及源语言的语言特征空间相融合；转换及降维单元用于源语言到目标语言转换和降维，得到转换因子；升维补偿单元用于将源语言转移到目标语言。

实施例四，一种基于迁移学习的跨语言情感分析装置，如图2-6所示，在实施例三的基础上。进一步包括：

更优的，特征集合筛选与扩展单元用于获得扩展后的情感分类特征集合之前，首先使用源语言和目标语言的全部语料，筛选情感分类特征pivot；情感分类特征pivot由一个词对组成，即<源语言词，目标语言词>。

更优的，特征集合筛选与扩展单元筛选情感分类特征pivot选取全部依据源语言标注语料，源语言的特征词选取之后，对源语言特征词进行翻译，取该翻译为目标语言特征词；翻译后得到特征词对，使用源语言进行同义词扩展，即把目标特征词的同义词一并加入情感分类特征pivot集合中，得到新的情感分类特征pivot。

更优的，转换及降维单元用于在得到情感分类特征Pivot集合并扩展后，以所述情感分类特征pivot为核心，建立源语言和目标语言之间的转换因子。

更优的，升维及补偿单元用于把低维的特征空间还原到目标语言语料特征空间，通过目标语言的情感极性分类器补全通过降维造成的信息损失，实现将源语言转移到目标语言。

实施例三、四的装置分别于实施例一、二方法一一对应，关于实施例三、四的具体说明及有益效果与实施例一二一致，在此不一一重复，请参照实施例一二部分。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims

1.一种基于迁移学习的跨语言情感分析方法，其特征在于，建立源语言到目标语言的空间迁移模型，将扩展后的情感分类特征pivot集合与目标语言以及源语言的语言特征空间相融合，通过转换和降维，得到转换因子，将源语言转移到目标语言。

2.如权利要求1所述的方法，其特征在于，获得扩展后的情感分类特征集合之前，首先使用源语言和目标语言的全部语料，筛选情感分类特征pivot；情感分类特征pivot由一个词对组成，即<源语言词，目标语言词>。

3.如权利要求2所述的方法，其特征在于，筛选情感分类特征pivot选取全部依据源语言标注语料，源语言的特征词选取之后，对源语言特征词进行翻译，取该翻译为目标语言特征词；翻译后得到特征词对，使用源语言进行同义词扩展，即把目标特征词的同义词一并加入情感分类特征pivot集合中，得到新的情感分类特征pivot。

4.如权利要求3所述的方法，其特征在于，在得到情感分类特征Pivot集合并扩展后，以所述情感分类特征pivot为核心，建立源语言和目标语言之间的转换因子。

5.如权利要求4所述的方法，其特征在于，把低维的特征空间还原到目标语言语料特征空间，通过目标语言的情感极性分类器补全通过降维造成的信息损失，实现将源语言转移到目标语言。

6.一种基于迁移学习的跨语言情感分析装置，其特征在于，包括模型构建单元、特征集合筛选与扩展单元、转换及降维单元，升维及补偿单元；模型构建单元用于建立源语言到目标语言的空间迁移模型；特征集合筛选与扩展单元用于将扩展后的情感分类特征pivot集合与目标语言以及源语言的语言特征空间相融合；转换及降维单元用于源语言到目标语言转换和降维，得到转换因子；升维补偿单元用于将源语言转移到目标语言。

7.如权利要求6所述的装置，其特征在于，特征集合筛选与扩展单元用于获得扩展后的情感分类特征集合之前，首先使用源语言和目标语言的全部语料，筛选情感分类特征pivot；情感分类特征pivot由一个词对组成，即<源语言词，目标语言词>。

8.如权利要求7所述的装置，其特征在于，特征集合筛选与扩展单元筛选情感分类特征pivot选取全部依据源语言标注语料，源语言的特征词选取之后，对源语言特征词进行翻译，取该翻译为目标语言特征词；翻译后得到特征词对，使用源语言进行同义词扩展，即把目标特征词的同义词一并加入情感分类特征pivot集合中，得到新的情感分类特征pivot。

9.如权利要求8所述的装置，其特征在于，转换及降维单元用于在得到情感分类特征Pivot集合并扩展后，以所述情感分类特征pivot为核心，建立源语言和目标语言之间的转换因子。

10.如权利要求9所述的装置，其特征在于，升维及补偿单元用于把低维的特征空间还原到目标语言语料特征空间，通过目标语言的情感极性分类器补全通过降维造成的信息损失，实现将源语言转移到目标语言。