CN108960317B

CN108960317B - 基于词向量表示和分类器联合训练的跨语言文本分类方法

Info

Publication number: CN108960317B
Application number: CN201810680474.3A
Authority: CN
Inventors: 曹海龙; 杨沐昀; 赵铁军; 高国骥
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2021-09-28
Anticipated expiration: 2038-06-27
Also published as: CN108960317A

Abstract

基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法，本发明涉及跨语言文本分类方法。本发明的目的是为了解决现有基于同义词替换的方法分类准确率低，现有基于翻译的方法准确率较高，但是训练翻译器需要大量的语料，而且训练耗时较长，任务的复杂性与时间消耗远远超过了文本分类这一较为简单的任务，因此并不实用的问题。过程为：一：语料预处理：二：通过梯度优化方法优化总的损失函数，使总的损失函数达到最小值，对应一组词向量和一个分类器；三：取概率最大的标签作为目标端语言T上的测试文本的分类结果；与测试集的标准结果对比，得到测试准确率和召回率指标。本发明用于跨语言文本分类领域。

Description

基于词向量表示和分类器联合训练的跨语言文本分类方法

技术领域

本发明涉及跨语言文本分类方法。

背景技术

文本分类是自然语言处理、机器学习和信息检索领域最重要的基础技术之一。它的任务是将一段文本归到某个特定的类别，或者为一段文本打一个或多个标签。也是重要研究领域。

跨语言文本分类任务的背景是：存在两种语言的文本，分别定义为源端语言文本和目标端语言文本，在目标端语言上缺少足够的训练语料以致不能训练出性能合格的文本分类器，需要借助源语言。任务的目标是在源端语言上训练一个文本分类器，使该分类器在在目标端语言文本上做测试并能够取得良好的分类性能。

跨语言文本分类问题出现的主要背景是：由于大量语种缺少足够多的训练语料以训练性能合格的文本分类器，因此我们需要借助某些语料资源较为丰富的语言(例如英语)来进行机器学习系统(例如分类器)的构建和任务的训练。

传统方法实现跨语言文本分类技术的主要有以下两种途径：

1.基于同义词替换的方法。在有较为丰富的翻译词典资源的情形下，我们可以直接简单地将目标语言中的词和替换为源语言中的词，使得两种文本在词层面的特征空间相同。这种方法简单、直接、快速，但是分类准确率低。

2.基于翻译的方法。我们可以直接引入一个训练好的翻译模型，可以是基于统计的翻译模型或者基于神经网络的编码-解码翻译模型，然后利用该翻译模型将目标端语言文本直接翻译为源端语言文本之后再做分类。这种方法准确率较高，但是训练翻译器需要大量的语料，而且训练耗时较长，任务的复杂性与时间消耗远远超过了文本分类这一较为简单的任务，因此并不实用。

发明内容

本发明的目的是为了解决现有基于同义词替换的方法分类准确率低，现有基于翻译的方法准确率较高，但是训练翻译器需要大量的语料，而且训练耗时较长，任务的复杂性与时间消耗远远超过了文本分类这一较为简单的任务，因此并不实用的问题，而提出基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法。

基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法，其特征在于：

步骤一：语料预处理：

从平行语料中提取词表，采用-0.1～0.1之间的随机数初始化平行语料中词向量矩阵，并对分类语料进行词干还原，去除低频词处理；

所述平行语料为N对英文以及对应的中文翻译；

所述词表为平行语料中所有词，每个词有一个索引；

所述词向量矩阵为平行语料中所有词向量组成的词向量矩阵；

英文作为源端语言，设为S，待分类文本的语种为目标端语言，设为T；

定义C_s表示平行语料中源端语言部分，C_T表示平行语料中目标端语言部分；

定义源端语言S上有|S|个词，目标端语言T上有|T|个词，s和t分别表示源端和目标端语言的词；

步骤二：通过梯度优化方法(如SGD，Adam，AdaGrad等方法)优化总的损失函数loss(loss的计算方式由公式(7)给出)，使总的损失函数loss达到最小值，达到最小值时对应一组词向量和一个分类器，分类器为逻辑斯蒂回归分类器，分类器参数为权值向量W和偏置b；

步骤三：将目标端语言T上的测试文本用使总的损失函数loss达到最小值时对应的一组词向量加权求和得到文本向量，将文本向量输入使总的损失函数loss达到最小值时对应的分类器进行测试，得到在每个标签上的概率分布，取概率最大的标签作为目标端语言T上的测试文本的分类结果，与测试集的标准结果对比，得到测试准确率和召回率指标。

本发明的有益效果为：

1.本发明采用跨语言词向量作为文本的表示，通过跨语言任务训练得到融合了多语特征的跨语言词向量，并将之应用于分类任务中，文本分类准确率高。

2.本发明突破了现有方法的单独训练词向量的局限，将训练词向量和优化分类器统一在同一个过程中，将词向量表示和分类器做联合训练，以使得训练得到的词向量中不仅包含了源端语言信息和目标端语言信息在内跨语言信息，也融合进了文本类别信息，训练翻译器不需要大量的语料，训练耗时短，实用性强，从而帮助其在文本分类任务上的表现优于现有方法。

本发明对跨语言文本处理、信息检索、稀有语言等领域有促进作用。本发明的创新之处在于，突破了原有方法的局限，将优化词向量和优化分类器统一在同一个过程中，将词向量表示和分类器联合训练，因此得到的词向量在文本分类任务下将有更优越的性能。在RCV路透社新闻分类任务中的准确率达到90％以上，超过现有的方法2％左右。同时在TED多语文本分类任务中也取得了良好的性能，在12个源端-目标端语言对上表现良好。

附图说明

图1为本发明流程图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，本实施方式的基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法具体过程为：

传统的文本分类任务通常将词表示为一个one-hot向量，将文本通过词袋模型表示为一个高维的文本向量，向量的维数和词表大小一致，向量在每一维上的分量表示该文本中某个词的权重，常见的有用词频表示权重或0和1分别代表该词存在或不存在。采用这种词袋表示法会造成较严重的稀疏问题和维数问题。在较大规模的文本分类中需要耗费较多计算资源。另外，词袋表示忽略了词的上下文信息和词序信息，不能充分表达语义。

词向量的出现解决了这一问题。词向量(word embedding也译作词嵌入，本申请书中统称为词向量)将词语表示为较低维的稠密向量，一般通过训练神经网络语言模型得到。例如word2vec就是单语词向量的一种较为流行的实现。

跨语言词向量是能够表示多语信息的词向量。本发明中，采用跨语言词向量作为词语的表示并由此构成文本的表示。

为了建立一个跨语言文本分类器，我们提出一种联合训练方法来训练融合了文本类别信息的跨语言词向量，然后在该向量空间建立文本分类器，文本分类器使用的文本向量由训练得到的词向量做平均来得到。

采用英文作为源端语言，设为S，待分类文本的语种为目标语言，设为T。在整个训练过程中，所用到的语料资源包括：带有类别标记的源端语言文本(训练用的源端语言文本)，平行语料为不带类别标记的S和T语言，以及S语言和T语言的翻译词典对，即双语词对齐表。不使用任何带标签的目标端语言文本参与训练过程，而仅在测试阶段计算准确率等测试指标时用到。

在整个训练过程中，通过联合训练得到带有文本类别信息的跨语言词向量是最关键的步骤。形式地，我们定义源语言S上有|S|个词，目标端语言上有|T|个词，s和t分别表示源端和目标端语言的词，在S和T上的平行语料中，C_s表示源端语言部分，C_T表示目标端语言部分。我们的模型中还需要用到词对齐信息，词对齐信息可以由平行语料自动获得(通过IBM模型或者其他的词对齐工具例如GIZA++)。通过建立一个双语模型来训练跨语言词向量。在双语模型中，每个词s需要去预测在语料中与其邻接的词的概率(公式1和2)以及T中与之对齐的词t的邻接词的概率(公式3和4)。

步骤一：语料预处理：

从平行语料中提取词表(每个词表有很多词，平行语料包括S和T)，采用-0.1～0.1之间的随机数初始化平行语料中词向量矩阵，并对分类语料(现有的，有类别标签的语料，比如每段或每篇文本是消极还是积极，积极和消极就是2个类别标签)进行词干还原，去除低频词等处理；

所述平行语料为N对英文以及对应的中文翻译；

所述词表为平行语料中所有词，每个词有一个索引(序号，矩阵中几行几列)；

所述词向量矩阵为平行语料中所有词向量(每个词为一个词向量)组成的词向量矩阵；

英文作为源端语言，设为S，待分类文本(没有类别标签的文本)的语种为目标端语言，设为T；

定义C_s表示平行语料中源端语言部分，C_T表示平行语料中目标端语言部分；源端语言指一个语种、平行语料中的源端语言部分指这个语料中属于这个语种的那一部分。所以另外用一个字母表示。下标表示语种，C表示它是语料中的。

步骤二：通过梯度优化方法(如SGD，Adam，AdaGrad等方法)优化总的损失函数loss，使总的损失函数loss达到最小值，达到最小值时对应一组词向量和一个分类器，分类器为逻辑斯蒂回归分类器，分类器参数为权值向量W和偏置b；

步骤二的训练过程简单讲相当于：

1.初始化词向量和分类器参数w,b

2.用初始化的词向量中的词向量、w、b计算loss

3.更新词向量,w,b使得loss减小

4、反复执行上述的第3步，得到最终的词向量以及w,b

所以步骤二虽然优化的是loss，但最终是为了得到更新后的词向量以及w,b；

步骤三：采用使总的损失函数loss，(损失函数的计算方式由公式(7)所示)，达到最小值时对应的分类器对测试语料(现有的，测试语料不带标签有类别，测试的都是目标端的)进行测试，测试时将目标端语言T上的测试文本用使总的损失函数loss达到最小值时对应的一组词向量加权求和得到文本向量(没有标签的，但是已知有几个类别)，

将文本向量输入使总的损失函数loss达到最小值时对应的分类器进行测试，得到在每个标签上的概率分布，取概率最大的标签作为目标端语言T上的测试文本的分类结果，与测试集的标准结果(带有标签和类别)对比，得到测试准确率和召回率等指标。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤二中总的损失函数loss的具体求解过程为：

总的损失函数包括三项：

一为源端语言损失，即源端语言S上的损失，由平行语料中的源端语言部分得到；

二为目标端语言损失，即目标端语言T上的损失，由平行语料中的目标端语言部分得到；

三为分类器损失；

根据源端语言损失、目标端语言损失和分类器损失构造总的损失函数loss。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述源端语言损失，即源端语言S上的损失，由平行语料中的源端语言部分得到；具体过程为：

在C_s中，单语(只用C_s)损失为：

其中，C_s表示源端语言部分；Obj(C_s|C_s)表示平行语料中源端语言中的单语损失；w表示源端语言的词s上下文的词中某一个；p(w|s)表示中心词是s的条件下，预测s的窗口的概率；adj(s)表示源端语言的词s上下文的词；

公式中的概率值p由一个双层的全连接前馈神经网络得到；过程为：

将C_s中的所有词的词向量作为中心词词向量输入到神经网络中，词向量的维数512，经过全连接层后维数变为|S|维，经过softmax运算，softmax运算中每一个词的概率运算表达式为：

其中p_i表示第i个词的概率，e_i表示经过全连接层后产生的向量的第i维，e_j表示经过全连接层后产生的向量的第j维，1≤i≤|S|、1≤j≤|S|，经过softmax运算得到S中每一个词的概率后，从S中挑出adj(s)代表的概率取对数再加和，得到

对每个中心词得到的

再做加和，得到

输出；

在C_s中，双语损失为：

其中，C_T表示目标端语言部分；Obj(C_T|C_S)表示平行语料中源端语言和目标端语言中的双语损失；adj(t)表示目标端语言的词t上下文的词；

其中

表示对齐的词对(一个源端语言词对应一个目标端语言词)，词对齐信息由平行语料自动获得(通过IBM模型或者其他的词对齐工具例如GIZA++)；adj(.)表示与某词邻接的词，公式中的概率值p由一个双层的全连接前馈神经网络得到；

将C_s中的所有词的词向量作为中心词词向量输入到神经网络中，词向量的维数512，经过全连接层后维数变为|T|维，经过softmax运算，得到T中每一个词的概率，从T中挑出w∈adj(t),

代表的概率取对数再加和，得到

对每个中心词得到的

再做加和，得到

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：所述目标端语言损失，即目标端语言T上的损失，由平行语料中的目标端部分得到；具体过程为：

在C_T中，单语损失为：

Obj(C_T|C_T)表示平行语料中目标端语言中的单语损失；

将C_T中的所有词的词向量作为中心词词向量输入到神经网络中，词向量的维数512，经过全连接层后维数变为|T|维，经过softmax运算，得到T中每一个词的概率，从T中挑出_adj(t)代表的概率取对数再加和，得到

对每个中心词得到的

再做加和，得到

在C_T中，双语损失为：

Obj(C_S|C_T)表示平行语料中源端语言和目标端语言中的双语损失；其中

表示对齐的词对(一个目标端语言词对应一个源端语言词)，词对齐信息由平行语料自动获得(通过IBM模型或者其他的词对齐工具例如GIZA++)；adj(.)表示与某词邻接的词，公式中的概率值p由一个双层的全连接前馈神经网络得到；

将C_T中的所有词的词向量作为中心词词向量输入到神经网络中，词向量的维数512，经过全连接层后维数变为|S|维，经过softmax运算，得到S中每一个词的概率，从S中挑出w∈adj(s),

代表的概率取对数再加和，得到

对每个中心词得到的

再做加和，得到

将(1)、(2)、(3)、(4)组合，得到在平行语料上的目标函数：

Obj(C)＝α₁Obj(C_S|C_S)+α₂Obj(C_T|C_S)+α₃Obj(C_T|C_T)+α₄Obj(C_S|C_T)，(5)

其中，α₁，α₂，α₃，α₄为超参数，均为标量。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述分类器损失为：

由于任务是训练文本分类器，理想的词向量需要带有文本类别信息。因此还需要在词向量中融合进文本类别信息，做法是训练过程中将文本分类的语料作为监督信息，在损失函数中加入文本分类器的损失，将双语模型和文本分类器做联合训练以得到融合了文本标签信息和跨语言信息的词向量。

采用逻辑斯蒂回归分类器作为文本分类器，文本分类器损失采用交叉熵损失函数，记为L；文本分类器损失函数为：

其中，C_L表示文本分类语料(有标签的)，S^d表示文本分类语料中的任一文本；X表示文本向量，由文本中每个词的词向量加权求和得到；X_Sd为文本S^d代表的文本向量，b为偏置；W为每类文本类别(二分类就2个W，四分类就4个W，)对应的权值向量，tag(S^d)为文本S^d的标签(积极或消极)，

为文本S^d的标签对应的权值向量。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：所述根据源端语言损失、目标端语言损失和分类器损失得到总的损失函数；具体公式为：

loss＝-Obj(C)-L(C_L) (7)

其中Obj(C)表示平行语料上的目标函数；L(C_L)表示文本分类器损失函数；

加入分类器损失函数之后，训练得到的词向量信息将融合单语信息，跨语言信息以及文本类别信息，能满足我们的任务要求。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：所述步骤二中通过梯度优化方法(如SGD，Adam，AdaGrad等方法)优化总的损失函数loss，使总的损失函数loss达到最小值，具体过程为：

1)计算总的损失函数loss对词向量(代表的每个词是来自步骤一的平行语料)矩阵的偏导数，计算总的损失函数loss对权值向量W和偏置b(公式6中)的偏导数；

2)当前词向量矩阵的值减去loss对当前词向量矩阵的偏导数，当前权值向量W减去loss对当前权值向量W的偏导数，当前偏置b减去loss对当前偏置b的偏导数，计算总的损失函数loss；

3)重复执行1)、2)直到1)的偏导数为零或者loss不再减小(这个偏导数和loss是1)里的偏导数和loss)，得到此时对应一组词向量和一个分类器，分类器为逻辑斯蒂回归分类器，分类器参数为权值向量W和偏置b。

其它步骤及参数与具体实施方式一至六之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本实施例具体是按照以下步骤制备的：

步骤一：语料预处理：包括提取词表，并初始化词向量矩阵。采用欧洲议会平行语料(每个语言对有100万句)作为训练词向量所需的平行语料，采用TED语料进行文本分类训练，该数据集为二分类任务。对分类语料做词干还原，去除低频词等处理。本方案还需要双语词对齐资源，如果缺少，需要有GIZA++工具，通过训练双语平行语料得到双语词对齐表。

步骤二：构造损失函数。损失函数包括三项，一为源端语言损失，即源端语言S上的损失，由平行语料的源端部分得到。计算方法按照公式(1)和公式(2).二为目标端损失，由平行语料中的目标端部分得到，计算方法按照公式(3)和公式(4)所示。各公式中的概率p由一个两层的馈神经网络计算得出。三是分类器损失，由(6)式得到。总的损失函数由(7)式计算得到。

步骤三：训练与测试。在具体的语料中构造上述损失函数，并利用基于梯度的优化方法(如SGD，Adam，AdaGrad等方法)，以整个词表上的词向量矩阵和分类器参数为整个目标函数的可训练参数进行训练，直至收敛。之后在测试语料上做测试。得到测试结果。本例使用SGD(随机梯度下降方法)作为优化方法。

测试结果显示：在TED数据集上的多种语言对上得到的分类准确率超过现有方法表现，在英德语言对上的F₁值达到0.413。

实施例二：

本实施例具体是按照以下步骤制备的：

步骤一：语料预处理：包括提取词表，并初始化词向量矩阵。采用欧洲议会平行语料(每个语言对有100万句)作为训练词向量所需的平行语料，采用RCV1语料进行文本分类训练，该数据集为四分类任务。对分类语料做词干还原，去除低频词等处理。并通过GIZA++工具，利用平行语料训练得到双语词对齐表，即翻译词典。

步骤二：构造损失函数。构造损失函数。损失函数包括三项，一是源端语言损失，即源端语言S上的损失，由平行语料的源端部分得到。计算方法按照公式(1)和公式(2).二为目标端损失，由平行语料中的目标端部分得到，计算方法按照公式(3)和公式(4)所示。各公式中的概率p由一两层的馈神经网络计算得出。三是分类器损失，由(6)式改进成的多分类的逻辑斯蒂回归损失函数，即softmax回归的交叉熵损失函数得到。损失函数的表达式为：

总的损失函数由(7)式得到，其中的多分类分类器损失部分需要由(6)式改进为(8)式。

步骤三：训练与测试。在具体的语料中构造上述损失函数，并利用基于梯度的优化方法(如SGD，Adam，AdaGrad等方法)，以整个词表上的词向量矩阵和分类器参数为整个目标函数的可训练参数进行训练，直至收敛。之后在测试语料上做测试。得到测试结果。本例使用Adam方法作为优化方法。

测试结果显示：本方法在RCV语料上得到的分类准确率超过了现有的方案。在英德语言对上得到的分类结果正确率为90.2％。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法，其特征在于：

步骤一：语料预处理：

所述平行语料为N对英文以及对应的中文翻译；

所述词表为平行语料中所有词，每个词有一个索引；

步骤二：通过梯度优化方法优化总的损失函数loss，使总的损失函数loss达到最小值，达到最小值时对应一组词向量和一个分类器，分类器为逻辑斯蒂回归分类器，分类器参数为权值向量W和偏置b；

步骤三：将目标端语言T上的测试文本用使总的损失函数loss达到最小值时对应的一组词向量加权求和得到文本向量，将文本向量输入使总的损失函数loss达到最小值时对应的分类器进行测试，得到在每个标签上的概率分布，取概率最大的标签作为目标端语言T上的测试文本的分类结果，与测试集的标准结果对比，得到测试准确率和召回率指标；

所述步骤二中总的损失函数loss的具体求解过程为：

总的损失函数包括三项：

三为分类器损失；

根据源端语言损失、目标端语言损失和分类器损失构造总的损失函数loss；

所述根据源端语言损失、目标端语言损失和分类器损失构造总的损失函数loss；具体公式为：

loss＝-Obj(C)-L(C_L) (7)

所述步骤二中通过梯度优化方法优化总的损失函数loss，使总的损失函数loss达到最小值，具体过程为：

1)计算总的损失函数loss对词向量矩阵的偏导数，计算总的损失函数loss对权值向量W和偏置b的偏导数；

2)当前词向量矩阵的值减去loss对当前词向量矩阵的偏导数，当前权值向量W减去loss对当前权值向量W的偏导数，当前偏置b减去loss对当前偏置b的偏导数；

3)重复执行1)、2)直到1)的偏导数为零或者loss不再减小，得到此时对应一组词向量和一个分类器，分类器为逻辑斯蒂回归分类器，分类器参数为权值向量W和偏置b。

2.根据权利要求1所述基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法，其特征在于：所述源端语言损失，即源端语言S上的损失，由平行语料中的源端语言部分得到；具体过程为：

在C_s中，单语损失为：