CN108960317B - 基于词向量表示和分类器联合训练的跨语言文本分类方法 - Google Patents

基于词向量表示和分类器联合训练的跨语言文本分类方法 Download PDF

Info

Publication number
CN108960317B
CN108960317B CN201810680474.3A CN201810680474A CN108960317B CN 108960317 B CN108960317 B CN 108960317B CN 201810680474 A CN201810680474 A CN 201810680474A CN 108960317 B CN108960317 B CN 108960317B
Authority
CN
China
Prior art keywords
word
language
loss
text
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810680474.3A
Other languages
English (en)
Other versions
CN108960317A (zh
Inventor
曹海龙
杨沐昀
赵铁军
高国骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201810680474.3A priority Critical patent/CN108960317B/zh
Publication of CN108960317A publication Critical patent/CN108960317A/zh
Application granted granted Critical
Publication of CN108960317B publication Critical patent/CN108960317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法,本发明涉及跨语言文本分类方法。本发明的目的是为了解决现有基于同义词替换的方法分类准确率低,现有基于翻译的方法准确率较高,但是训练翻译器需要大量的语料,而且训练耗时较长,任务的复杂性与时间消耗远远超过了文本分类这一较为简单的任务,因此并不实用的问题。过程为:一:语料预处理:二:通过梯度优化方法优化总的损失函数,使总的损失函数达到最小值,对应一组词向量和一个分类器;三:取概率最大的标签作为目标端语言T上的测试文本的分类结果;与测试集的标准结果对比,得到测试准确率和召回率指标。本发明用于跨语言文本分类领域。

Description

基于词向量表示和分类器联合训练的跨语言文本分类方法
技术领域
本发明涉及跨语言文本分类方法。
背景技术
文本分类是自然语言处理、机器学习和信息检索领域最重要的基础技术之一。它的任务是将一段文本归到某个特定的类别,或者为一段文本打一个或多个标签。也是重要研究领域。
跨语言文本分类任务的背景是:存在两种语言的文本,分别定义为源端语言文本和目标端语言文本,在目标端语言上缺少足够的训练语料以致不能训练出性能合格的文本分类器,需要借助源语言。任务的目标是在源端语言上训练一个文本分类器,使该分类器在在目标端语言文本上做测试并能够取得良好的分类性能。
跨语言文本分类问题出现的主要背景是:由于大量语种缺少足够多的训练语料以训练性能合格的文本分类器,因此我们需要借助某些语料资源较为丰富的语言(例如英语)来进行机器学习系统(例如分类器)的构建和任务的训练。
传统方法实现跨语言文本分类技术的主要有以下两种途径:
1.基于同义词替换的方法。在有较为丰富的翻译词典资源的情形下,我们可以直接简单地将目标语言中的词和替换为源语言中的词,使得两种文本在词层面的特征空间相同。这种方法简单、直接、快速,但是分类准确率低。
2.基于翻译的方法。我们可以直接引入一个训练好的翻译模型,可以是基于统计的翻译模型或者基于神经网络的编码-解码翻译模型,然后利用该翻译模型将目标端语言文本直接翻译为源端语言文本之后再做分类。这种方法准确率较高,但是训练翻译器需要大量的语料,而且训练耗时较长,任务的复杂性与时间消耗远远超过了文本分类这一较为简单的任务,因此并不实用。
发明内容
本发明的目的是为了解决现有基于同义词替换的方法分类准确率低,现有基于翻译的方法准确率较高,但是训练翻译器需要大量的语料,而且训练耗时较长,任务的复杂性与时间消耗远远超过了文本分类这一较为简单的任务,因此并不实用的问题,而提出基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法。
基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法,其特征在于:
步骤一:语料预处理:
从平行语料中提取词表,采用-0.1~0.1之间的随机数初始化平行语料中词向量矩阵,并对分类语料进行词干还原,去除低频词处理;
所述平行语料为N对英文以及对应的中文翻译;
所述词表为平行语料中所有词,每个词有一个索引;
所述词向量矩阵为平行语料中所有词向量组成的词向量矩阵;
英文作为源端语言,设为S,待分类文本的语种为目标端语言,设为T;
定义Cs表示平行语料中源端语言部分,CT表示平行语料中目标端语言部分;
定义源端语言S上有|S|个词,目标端语言T上有|T|个词,s和t分别表示源端和目标端语言的词;
步骤二:通过梯度优化方法(如SGD,Adam,AdaGrad等方法)优化总的损失函数loss(loss的计算方式由公式(7)给出),使总的损失函数loss达到最小值,达到最小值时对应一组词向量和一个分类器,分类器为逻辑斯蒂回归分类器,分类器参数为权值向量W和偏置b;
步骤三:将目标端语言T上的测试文本用使总的损失函数loss达到最小值时对应的一组词向量加权求和得到文本向量,将文本向量输入使总的损失函数loss达到最小值时对应的分类器进行测试,得到在每个标签上的概率分布,取概率最大的标签作为目标端语言T上的测试文本的分类结果,与测试集的标准结果对比,得到测试准确率和召回率指标。
本发明的有益效果为:
1.本发明采用跨语言词向量作为文本的表示,通过跨语言任务训练得到融合了多语特征的跨语言词向量,并将之应用于分类任务中,文本分类准确率高。
2.本发明突破了现有方法的单独训练词向量的局限,将训练词向量和优化分类器统一在同一个过程中,将词向量表示和分类器做联合训练,以使得训练得到的词向量中不仅包含了源端语言信息和目标端语言信息在内跨语言信息,也融合进了文本类别信息,训练翻译器不需要大量的语料,训练耗时短,实用性强,从而帮助其在文本分类任务上的表现优于现有方法。
本发明对跨语言文本处理、信息检索、稀有语言等领域有促进作用。本发明的创新之处在于,突破了原有方法的局限,将优化词向量和优化分类器统一在同一个过程中,将词向量表示和分类器联合训练,因此得到的词向量在文本分类任务下将有更优越的性能。在RCV路透社新闻分类任务中的准确率达到90%以上,超过现有的方法2%左右。同时在TED多语文本分类任务中也取得了良好的性能,在12个源端-目标端语言对上表现良好。
附图说明
图1为本发明流程图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式的基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法具体过程为:
传统的文本分类任务通常将词表示为一个one-hot向量,将文本通过词袋模型表示为一个高维的文本向量,向量的维数和词表大小一致,向量在每一维上的分量表示该文本中某个词的权重,常见的有用词频表示权重或0和1分别代表该词存在或不存在。采用这种词袋表示法会造成较严重的稀疏问题和维数问题。在较大规模的文本分类中需要耗费较多计算资源。另外,词袋表示忽略了词的上下文信息和词序信息,不能充分表达语义。
词向量的出现解决了这一问题。词向量(word embedding也译作词嵌入,本申请书中统称为词向量)将词语表示为较低维的稠密向量,一般通过训练神经网络语言模型得到。例如word2vec就是单语词向量的一种较为流行的实现。
跨语言词向量是能够表示多语信息的词向量。本发明中,采用跨语言词向量作为词语的表示并由此构成文本的表示。
为了建立一个跨语言文本分类器,我们提出一种联合训练方法来训练融合了文本类别信息的跨语言词向量,然后在该向量空间建立文本分类器,文本分类器使用的文本向量由训练得到的词向量做平均来得到。
采用英文作为源端语言,设为S,待分类文本的语种为目标语言,设为T。在整个训练过程中,所用到的语料资源包括:带有类别标记的源端语言文本(训练用的源端语言文本),平行语料为不带类别标记的S和T语言,以及S语言和T语言的翻译词典对,即双语词对齐表。不使用任何带标签的目标端语言文本参与训练过程,而仅在测试阶段计算准确率等测试指标时用到。
在整个训练过程中,通过联合训练得到带有文本类别信息的跨语言词向量是最关键的步骤。形式地,我们定义源语言S上有|S|个词,目标端语言上有|T|个词,s和t分别表示源端和目标端语言的词,在S和T上的平行语料中,Cs表示源端语言部分,CT表示目标端语言部分。我们的模型中还需要用到词对齐信息,词对齐信息可以由平行语料自动获得(通过IBM模型或者其他的词对齐工具例如GIZA++)。通过建立一个双语模型来训练跨语言词向量。在双语模型中,每个词s需要去预测在语料中与其邻接的词的概率(公式1和2)以及T中与之对齐的词t的邻接词的概率(公式3和4)。
步骤一:语料预处理:
从平行语料中提取词表(每个词表有很多词,平行语料包括S和T),采用-0.1~0.1之间的随机数初始化平行语料中词向量矩阵,并对分类语料(现有的,有类别标签的语料,比如每段或每篇文本是消极还是积极,积极和消极就是2个类别标签)进行词干还原,去除低频词等处理;
所述平行语料为N对英文以及对应的中文翻译;
所述词表为平行语料中所有词,每个词有一个索引(序号,矩阵中几行几列);
所述词向量矩阵为平行语料中所有词向量(每个词为一个词向量)组成的词向量矩阵;
英文作为源端语言,设为S,待分类文本(没有类别标签的文本)的语种为目标端语言,设为T;
定义Cs表示平行语料中源端语言部分,CT表示平行语料中目标端语言部分;源端语言指一个语种、平行语料中的源端语言部分指这个语料中属于这个语种的那一部分。所以另外用一个字母表示。下标表示语种,C表示它是语料中的。
定义源端语言S上有|S|个词,目标端语言T上有|T|个词,s和t分别表示源端和目标端语言的词;
步骤二:通过梯度优化方法(如SGD,Adam,AdaGrad等方法)优化总的损失函数loss,使总的损失函数loss达到最小值,达到最小值时对应一组词向量和一个分类器,分类器为逻辑斯蒂回归分类器,分类器参数为权值向量W和偏置b;
步骤二的训练过程简单讲相当于:
1.初始化词向量和分类器参数w,b
2.用初始化的词向量中的词向量、w、b计算loss
3.更新词向量,w,b使得loss减小
4、反复执行上述的第3步,得到最终的词向量以及w,b
所以步骤二虽然优化的是loss,但最终是为了得到更新后的词向量以及w,b;
步骤三:采用使总的损失函数loss,(损失函数的计算方式由公式(7)所示),达到最小值时对应的分类器对测试语料(现有的,测试语料不带标签有类别,测试的都是目标端的)进行测试,测试时将目标端语言T上的测试文本用使总的损失函数loss达到最小值时对应的一组词向量加权求和得到文本向量(没有标签的,但是已知有几个类别),
将文本向量输入使总的损失函数loss达到最小值时对应的分类器进行测试,得到在每个标签上的概率分布,取概率最大的标签作为目标端语言T上的测试文本的分类结果,与测试集的标准结果(带有标签和类别)对比,得到测试准确率和召回率等指标。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤二中总的损失函数loss的具体求解过程为:
总的损失函数包括三项:
一为源端语言损失,即源端语言S上的损失,由平行语料中的源端语言部分得到;
二为目标端语言损失,即目标端语言T上的损失,由平行语料中的目标端语言部分得到;
三为分类器损失;
根据源端语言损失、目标端语言损失和分类器损失构造总的损失函数loss。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述源端语言损失,即源端语言S上的损失,由平行语料中的源端语言部分得到;具体过程为:
在Cs中,单语(只用Cs)损失为:
Figure GDA0003192335460000051
其中,Cs表示源端语言部分;Obj(Cs|Cs)表示平行语料中源端语言中的单语损失;w表示源端语言的词s上下文的词中某一个;p(w|s)表示中心词是s的条件下,预测s的窗口的概率;adj(s)表示源端语言的词s上下文的词;
公式中的概率值p由一个双层的全连接前馈神经网络得到;过程为:
将Cs中的所有词的词向量作为中心词词向量输入到神经网络中,词向量的维数512,经过全连接层后维数变为|S|维,经过softmax运算,softmax运算中每一个词的概率运算表达式为:
Figure GDA0003192335460000052
其中pi表示第i个词的概率,ei表示经过全连接层后产生的向量的第i维,ej表示经过全连接层后产生的向量的第j维,1≤i≤|S|、1≤j≤|S|,经过softmax运算得到S中每一个词的概率后,从S中挑出adj(s)代表的概率取对数再加和,得到
Figure GDA0003192335460000061
对每个中心词得到的
Figure GDA0003192335460000062
再做加和,得到
Figure GDA0003192335460000063
输出;
在Cs中,双语损失为:
Figure GDA0003192335460000064
其中,CT表示目标端语言部分;Obj(CT|CS)表示平行语料中源端语言和目标端语言中的双语损失;adj(t)表示目标端语言的词t上下文的词;
其中
Figure GDA00031923354600000610
表示对齐的词对(一个源端语言词对应一个目标端语言词),词对齐信息由平行语料自动获得(通过IBM模型或者其他的词对齐工具例如GIZA++);adj(.)表示与某词邻接的词,公式中的概率值p由一个双层的全连接前馈神经网络得到;
公式中的概率值p由一个双层的全连接前馈神经网络得到;过程为:
将Cs中的所有词的词向量作为中心词词向量输入到神经网络中,词向量的维数512,经过全连接层后维数变为|T|维,经过softmax运算,得到T中每一个词的概率,从T中挑出w∈adj(t),
Figure GDA00031923354600000611
代表的概率取对数再加和,得到
Figure GDA0003192335460000065
对每个中心词得到的
Figure GDA0003192335460000066
再做加和,得到
Figure GDA0003192335460000067
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述目标端语言损失,即目标端语言T上的损失,由平行语料中的目标端部分得到;具体过程为:
在CT中,单语损失为:
Figure GDA0003192335460000068
Obj(CT|CT)表示平行语料中目标端语言中的单语损失;
公式中的概率值p由一个双层的全连接前馈神经网络得到;过程为:
将CT中的所有词的词向量作为中心词词向量输入到神经网络中,词向量的维数512,经过全连接层后维数变为|T|维,经过softmax运算,得到T中每一个词的概率,从T中挑出adj(t)代表的概率取对数再加和,得到
Figure GDA0003192335460000069
对每个中心词得到的
Figure GDA0003192335460000071
再做加和,得到
Figure GDA0003192335460000072
在CT中,双语损失为:
Figure GDA0003192335460000073
Obj(CS|CT)表示平行语料中源端语言和目标端语言中的双语损失;其中
Figure GDA0003192335460000078
表示对齐的词对(一个目标端语言词对应一个源端语言词),词对齐信息由平行语料自动获得(通过IBM模型或者其他的词对齐工具例如GIZA++);adj(.)表示与某词邻接的词,公式中的概率值p由一个双层的全连接前馈神经网络得到;
公式中的概率值p由一个双层的全连接前馈神经网络得到;过程为:
将CT中的所有词的词向量作为中心词词向量输入到神经网络中,词向量的维数512,经过全连接层后维数变为|S|维,经过softmax运算,得到S中每一个词的概率,从S中挑出w∈adj(s),
Figure GDA0003192335460000079
代表的概率取对数再加和,得到
Figure GDA0003192335460000074
对每个中心词得到的
Figure GDA0003192335460000075
再做加和,得到
Figure GDA0003192335460000076
将(1)、(2)、(3)、(4)组合,得到在平行语料上的目标函数:
Obj(C)=α1Obj(CS|CS)+α2Obj(CT|CS)+α3Obj(CT|CT)+α4Obj(CS|CT),(5)
其中,α1,α2,α3,α4为超参数,均为标量。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:所述分类器损失为:
由于任务是训练文本分类器,理想的词向量需要带有文本类别信息。因此还需要在词向量中融合进文本类别信息,做法是训练过程中将文本分类的语料作为监督信息,在损失函数中加入文本分类器的损失,将双语模型和文本分类器做联合训练以得到融合了文本标签信息和跨语言信息的词向量。
采用逻辑斯蒂回归分类器作为文本分类器,文本分类器损失采用交叉熵损失函数,记为L;文本分类器损失函数为:
Figure GDA0003192335460000077
其中,CL表示文本分类语料(有标签的),Sd表示文本分类语料中的任一文本;X表示文本向量,由文本中每个词的词向量加权求和得到;XSd为文本Sd代表的文本向量,b为偏置;W为每类文本类别(二分类就2个W,四分类就4个W,)对应的权值向量,tag(Sd)为文本Sd的标签(积极或消极),
Figure GDA0003192335460000081
为文本Sd的标签对应的权值向量。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是:所述根据源端语言损失、目标端语言损失和分类器损失得到总的损失函数;具体公式为:
loss=-Obj(C)-L(CL) (7)
其中Obj(C)表示平行语料上的目标函数;L(CL)表示文本分类器损失函数;
加入分类器损失函数之后,训练得到的词向量信息将融合单语信息,跨语言信息以及文本类别信息,能满足我们的任务要求。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是:所述步骤二中通过梯度优化方法(如SGD,Adam,AdaGrad等方法)优化总的损失函数loss,使总的损失函数loss达到最小值,具体过程为:
1)计算总的损失函数loss对词向量(代表的每个词是来自步骤一的平行语料)矩阵的偏导数,计算总的损失函数loss对权值向量W和偏置b(公式6中)的偏导数;
2)当前词向量矩阵的值减去loss对当前词向量矩阵的偏导数,当前权值向量W减去loss对当前权值向量W的偏导数,当前偏置b减去loss对当前偏置b的偏导数,计算总的损失函数loss;
3)重复执行1)、2)直到1)的偏导数为零或者loss不再减小(这个偏导数和loss是1)里的偏导数和loss),得到此时对应一组词向量和一个分类器,分类器为逻辑斯蒂回归分类器,分类器参数为权值向量W和偏置b。
其它步骤及参数与具体实施方式一至六之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本实施例具体是按照以下步骤制备的:
步骤一:语料预处理:包括提取词表,并初始化词向量矩阵。采用欧洲议会平行语料(每个语言对有100万句)作为训练词向量所需的平行语料,采用TED语料进行文本分类训练,该数据集为二分类任务。对分类语料做词干还原,去除低频词等处理。本方案还需要双语词对齐资源,如果缺少,需要有GIZA++工具,通过训练双语平行语料得到双语词对齐表。
步骤二:构造损失函数。损失函数包括三项,一为源端语言损失,即源端语言S上的损失,由平行语料的源端部分得到。计算方法按照公式(1)和公式(2).二为目标端损失,由平行语料中的目标端部分得到,计算方法按照公式(3)和公式(4)所示。各公式中的概率p由一个两层的馈神经网络计算得出。三是分类器损失,由(6)式得到。总的损失函数由(7)式计算得到。
步骤三:训练与测试。在具体的语料中构造上述损失函数,并利用基于梯度的优化方法(如SGD,Adam,AdaGrad等方法),以整个词表上的词向量矩阵和分类器参数为整个目标函数的可训练参数进行训练,直至收敛。之后在测试语料上做测试。得到测试结果。本例使用SGD(随机梯度下降方法)作为优化方法。
测试结果显示:在TED数据集上的多种语言对上得到的分类准确率超过现有方法表现,在英德语言对上的F1值达到0.413。
实施例二:
本实施例具体是按照以下步骤制备的:
步骤一:语料预处理:包括提取词表,并初始化词向量矩阵。采用欧洲议会平行语料(每个语言对有100万句)作为训练词向量所需的平行语料,采用RCV1语料进行文本分类训练,该数据集为四分类任务。对分类语料做词干还原,去除低频词等处理。并通过GIZA++工具,利用平行语料训练得到双语词对齐表,即翻译词典。
步骤二:构造损失函数。构造损失函数。损失函数包括三项,一是源端语言损失,即源端语言S上的损失,由平行语料的源端部分得到。计算方法按照公式(1)和公式(2).二为目标端损失,由平行语料中的目标端部分得到,计算方法按照公式(3)和公式(4)所示。各公式中的概率p由一两层的馈神经网络计算得出。三是分类器损失,由(6)式改进成的多分类的逻辑斯蒂回归损失函数,即softmax回归的交叉熵损失函数得到。损失函数的表达式为:
Figure GDA0003192335460000091
总的损失函数由(7)式得到,其中的多分类分类器损失部分需要由(6)式改进为(8)式。
步骤三:训练与测试。在具体的语料中构造上述损失函数,并利用基于梯度的优化方法(如SGD,Adam,AdaGrad等方法),以整个词表上的词向量矩阵和分类器参数为整个目标函数的可训练参数进行训练,直至收敛。之后在测试语料上做测试。得到测试结果。本例使用Adam方法作为优化方法。
测试结果显示:本方法在RCV语料上得到的分类准确率超过了现有的方案。在英德语言对上得到的分类结果正确率为90.2%。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (4)

1.基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法,其特征在于:
步骤一:语料预处理:
从平行语料中提取词表,采用-0.1~0.1之间的随机数初始化平行语料中词向量矩阵,并对分类语料进行词干还原,去除低频词处理;
所述平行语料为N对英文以及对应的中文翻译;
所述词表为平行语料中所有词,每个词有一个索引;
所述词向量矩阵为平行语料中所有词向量组成的词向量矩阵;
英文作为源端语言,设为S,待分类文本的语种为目标端语言,设为T;
定义Cs表示平行语料中源端语言部分,CT表示平行语料中目标端语言部分;
定义源端语言S上有|S|个词,目标端语言T上有|T|个词,s和t分别表示源端和目标端语言的词;
步骤二:通过梯度优化方法优化总的损失函数loss,使总的损失函数loss达到最小值,达到最小值时对应一组词向量和一个分类器,分类器为逻辑斯蒂回归分类器,分类器参数为权值向量W和偏置b;
步骤三:将目标端语言T上的测试文本用使总的损失函数loss达到最小值时对应的一组词向量加权求和得到文本向量,将文本向量输入使总的损失函数loss达到最小值时对应的分类器进行测试,得到在每个标签上的概率分布,取概率最大的标签作为目标端语言T上的测试文本的分类结果,与测试集的标准结果对比,得到测试准确率和召回率指标;
所述步骤二中总的损失函数loss的具体求解过程为:
总的损失函数包括三项:
一为源端语言损失,即源端语言S上的损失,由平行语料中的源端语言部分得到;
二为目标端语言损失,即目标端语言T上的损失,由平行语料中的目标端语言部分得到;
三为分类器损失;
根据源端语言损失、目标端语言损失和分类器损失构造总的损失函数loss;
所述根据源端语言损失、目标端语言损失和分类器损失构造总的损失函数loss;具体公式为:
loss=-Obj(C)-L(CL) (7)
其中Obj(C)表示平行语料上的目标函数;L(CL)表示文本分类器损失函数;
所述步骤二中通过梯度优化方法优化总的损失函数loss,使总的损失函数loss达到最小值,具体过程为:
1)计算总的损失函数loss对词向量矩阵的偏导数,计算总的损失函数loss对权值向量W和偏置b的偏导数;
2)当前词向量矩阵的值减去loss对当前词向量矩阵的偏导数,当前权值向量W减去loss对当前权值向量W的偏导数,当前偏置b减去loss对当前偏置b的偏导数;
3)重复执行1)、2)直到1)的偏导数为零或者loss不再减小,得到此时对应一组词向量和一个分类器,分类器为逻辑斯蒂回归分类器,分类器参数为权值向量W和偏置b。
2.根据权利要求1所述基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法,其特征在于:所述源端语言损失,即源端语言S上的损失,由平行语料中的源端语言部分得到;具体过程为:
在Cs中,单语损失为:
Figure FDA0003192335450000021
其中,Cs表示源端语言部分;Obj(Cs|Cs)表示平行语料中源端语言中的单语损失;w表示源端语言的词s上下文的词中某一个;p(w|s)表示中心词是s的条件下,预测s的窗口的概率;adj(s)表示源端语言的词s上下文的词;
公式中的概率值p由一个双层的全连接前馈神经网络得到;过程为:
将Cs中的所有词的词向量作为中心词词向量输入到神经网络中,词向量的维数512,经过全连接层后维数变为|S|维,经过softmax运算,得到S中每一个词的概率,从S中挑出adj(s)代表的概率取对数再加和,得到
Figure FDA0003192335450000022
对每个中心词得到的
Figure FDA0003192335450000023
再做加和,得到
Figure FDA0003192335450000024
输出;
在Cs中,双语损失为:
Figure FDA0003192335450000025
其中,CT表示目标端语言部分;Obj(CT|CS)表示平行语料中源端语言和目标端语言中的双语损失;adj(t)表示目标端语言的词t上下文的词;
其中
Figure FDA0003192335450000026
表示对齐的词对;
公式中的概率值p由一个双层的全连接前馈神经网络得到;过程为:
将Cs中的所有词的词向量作为中心词词向量输入到神经网络中,词向量的维数512,经过全连接层后维数变为|T|维,经过softmax运算,得到T中每一个词的概率,从T中挑出w∈adj(t),
Figure FDA0003192335450000031
代表的概率取对数再加和,得到
Figure FDA0003192335450000032
对每个中心词得到的
Figure FDA0003192335450000033
再做加和,得到
Figure FDA0003192335450000034
3.根据权利要求2所述基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法,其特征在于:所述目标端语言损失,即目标端语言T上的损失,由平行语料中的目标端部分得到;具体过程为:
在CT中,单语损失为:
Figure FDA0003192335450000035
Obj(CT|CT)表示平行语料中目标端语言中的单语损失;
公式中的概率值p由一个双层的全连接前馈神经网络得到;过程为:
将CT中的所有词的词向量作为中心词词向量输入到神经网络中,词向量的维数512,经过全连接层后维数变为|T|维,经过softmax运算,softmax运算中每一个词的概率运算表达式为:
Figure FDA0003192335450000036
其中pi表示第i个词的概率,ei表示经过全连接层后产生的向量的第i维,ej表示经过全连接层后产生的向量的第j维,1≤i≤|T|、1≤j≤|T|,经过softmax运算得到S中每一个词的概率后,得到T中每一个词的概率,从T中挑出adj(t)代表的概率取对数再加和,得到
Figure FDA0003192335450000037
对每个中心词得到的
Figure FDA0003192335450000038
再做加和,得到
Figure FDA0003192335450000039
在CT中,双语损失为:
Figure FDA00031923354500000310
Obj(CS|CT)表示平行语料中源端语言和目标端语言中的双语损失;其中
Figure FDA00031923354500000311
表示对齐的词对;
公式中的概率值p由一个双层的全连接前馈神经网络得到;过程为:
将CT中的所有词的词向量作为中心词词向量输入到神经网络中,词向量的维数512,经过全连接层后维数变为|S|维,经过softmax运算,得到S中每一个词的概率,从S中挑出w∈adj(s),
Figure FDA0003192335450000041
代表的概率取对数再加和,得到
Figure FDA0003192335450000042
对每个中心词得到的
Figure FDA0003192335450000043
再做加和,得到
Figure FDA0003192335450000044
将(1)、(2)、(3)、(4)组合,得到在平行语料上的目标函数:
Obj(C)=α1Obj(CS|CS)+α2Obj(CT|CS)+α3Obj(CT|CT)+α4Obj(CS|CT), (5)
其中,α1,α2,α3,α4为超参数,均为标量。
4.根据权利要求3所述基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法,其特征在于:所述分类器损失为:
采用逻辑斯蒂回归分类器作为文本分类器,文本分类器损失采用交叉熵损失函数,记为L;文本分类器损失函数为:
Figure FDA0003192335450000045
其中,CL表示文本分类语料,Sd表示文本分类语料中的任一文本;X表示文本向量,由文本中每个词的词向量加权求和得到;
Figure FDA0003192335450000046
为文本Sd代表的文本向量,b为偏置;W为每类文本类别对应的权值向量,tag(Sd)为文本Sd的标签,
Figure FDA0003192335450000047
为文本Sd的标签对应的权值向量。
CN201810680474.3A 2018-06-27 2018-06-27 基于词向量表示和分类器联合训练的跨语言文本分类方法 Active CN108960317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810680474.3A CN108960317B (zh) 2018-06-27 2018-06-27 基于词向量表示和分类器联合训练的跨语言文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810680474.3A CN108960317B (zh) 2018-06-27 2018-06-27 基于词向量表示和分类器联合训练的跨语言文本分类方法

Publications (2)

Publication Number Publication Date
CN108960317A CN108960317A (zh) 2018-12-07
CN108960317B true CN108960317B (zh) 2021-09-28

Family

ID=64487284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810680474.3A Active CN108960317B (zh) 2018-06-27 2018-06-27 基于词向量表示和分类器联合训练的跨语言文本分类方法

Country Status (1)

Country Link
CN (1) CN108960317B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918499A (zh) * 2019-01-14 2019-06-21 平安科技(深圳)有限公司 一种文本分类方法、装置、计算机设备及存储介质
CN110297903B (zh) * 2019-06-11 2021-04-30 昆明理工大学 一种基于不对等语料的跨语言词嵌入方法
US11126797B2 (en) * 2019-07-02 2021-09-21 Spectrum Labs, Inc. Toxic vector mapping across languages
CN110413736B (zh) * 2019-07-25 2022-02-25 百度在线网络技术(北京)有限公司 跨语言文本表示方法和装置
CN112446462A (zh) * 2019-08-30 2021-03-05 华为技术有限公司 目标神经网络模型的生成方法和装置
CN112329481B (zh) * 2020-10-27 2022-07-19 厦门大学 缓解语言对差异冲突的多语言机器翻译模型的训练方法
CN113032559B (zh) * 2021-03-15 2023-04-28 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN113312453B (zh) * 2021-06-16 2022-09-23 哈尔滨工业大学 一种面向跨语言对话理解的模型预训练系统
CN113343672B (zh) * 2021-06-21 2022-12-16 哈尔滨工业大学 一种基于语料合并的无监督双语词典构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779085B2 (en) * 2015-05-29 2017-10-03 Oracle International Corporation Multilingual embeddings for natural language processing

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Cross-lingual Text Classification via Model Translation with Limited Dictionaries;Xu, Ruochen等;《PROCEEDINGS OF THE 2016 ACM CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》;20161031;全文 *
基于词向量的越汉跨语言事件检索研究;唐亮等;《中文信息学报》;20180331;全文 *

Also Published As

Publication number Publication date
CN108960317A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108960317B (zh) 基于词向量表示和分类器联合训练的跨语言文本分类方法
Farahani et al. Parsbert: Transformer-based model for persian language understanding
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
Pota et al. Multilingual POS tagging by a composite deep architecture based on character-level features and on-the-fly enriched word embeddings
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
Nasim et al. Sentiment analysis on Urdu tweets using Markov chains
Asgari et al. Comparing fifty natural languages and twelve genetic languages using word embedding language divergence (WELD) as a quantitative measure of language distance
Zhang et al. A multi-feature fusion model for Chinese relation extraction with entity sense
JP2018025874A (ja) テキスト解析装置及びプログラム
Jian et al. [Retracted] LSTM‐Based Attentional Embedding for English Machine Translation
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
Ali et al. SiNER: A large dataset for Sindhi named entity recognition
Stoeckel et al. Voting for POS tagging of Latin texts: Using the flair of FLAIR to better ensemble classifiers by example of Latin
Saddam et al. Sentiment analysis of flood disaster management in Jakarta on Twitter using support vector machines
Andrabi A review of machine translation for south asian low resource languages
Seeha et al. ThaiLMCut: Unsupervised pretraining for Thai word segmentation
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
Balouchzahi et al. LA-SACo: A study of learning approaches for sentiments analysis inCode-mixing texts
Shirghasemi et al. The impact of active learning algorithm on a cross-lingual model in a Persian sentiment task
CN110489624B (zh) 基于句子特征向量的汉越伪平行句对抽取的方法
Ahmad et al. Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language
CN111597810A (zh) 一种半监督解耦的命名实体识别方法
Tang Research on Word Vector Training Method Based on Improved Skip-Gram Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant