CN110297903B - 一种基于不对等语料的跨语言词嵌入方法 - Google Patents

一种基于不对等语料的跨语言词嵌入方法 Download PDF

Info

Publication number
CN110297903B
CN110297903B CN201910499213.6A CN201910499213A CN110297903B CN 110297903 B CN110297903 B CN 110297903B CN 201910499213 A CN201910499213 A CN 201910499213A CN 110297903 B CN110297903 B CN 110297903B
Authority
CN
China
Prior art keywords
word
language
cross
word vector
language word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910499213.6A
Other languages
English (en)
Other versions
CN110297903A (zh
Inventor
王红斌
冯银汉
线岩团
余正涛
郭剑毅
文永华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910499213.6A priority Critical patent/CN110297903B/zh
Publication of CN110297903A publication Critical patent/CN110297903A/zh
Application granted granted Critical
Publication of CN110297903B publication Critical patent/CN110297903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于不对等语料的跨语言词嵌入方法,属于自然语言处理技术领域。本发明首先对单语词向量进行归一化,对小字典词对(训练集跨语言词对)正交最优线性变换求得梯度下降初始值,然后通过对大型源语言(英语)语料进行聚类,借助小字典找到与每一聚类簇相对应的源语言词,取聚类得到的每一簇词向量均值和源语言与目标语言对应的词向量均值,建立新的双语词向量对应关系,将新建立的双语词向量扩展到小字典中,使得小字典得以泛化和扩展。最后,利用泛化扩展后的字典对跨语言词嵌入映射模型进行梯度下降求得最优值。

Description

一种基于不对等语料的跨语言词嵌入方法
技术领域
本发明涉及一种基于不对等语料的跨语言词嵌入方法,属于自然语言处理技术领域。
背景技术
双语词嵌入通常采用从源语言空间到目标语言空间映射,通过源语言映射嵌入到目标语言空间的最小距离线性变换实现跨语言词嵌入。但是大型的平行语料难以获得,词嵌入的准确率难以提高。
发明内容
本发明提供了一种基于不对等语料的跨语言词嵌入方法。
本发明的技术方案是:一种基于不对等语料的跨语言词嵌入方法,所述方法的具体步骤如下:
Step1、收集源语言语料和跨语言词对,将跨语言词对分成训练集和测试集;其中,跨语言词对指代的由源语言、目标语言组成的词对;
Step2、采用词向量转换工具分别对源语言语料、训练集的跨语言词对、测试集的跨语言词对进行处理分别得到源语言语料词向量S、训练集跨语言词对的词向量D、测试集跨语言词对的词向量DT;
Step3、分别归一化源语言语料词向量S、训练集跨语言词对的词向量D,得到归一化源语言语料词向量SN、归一化训练集跨语言词对的词向量DN;
Step4、用跨语言词嵌入方法和正交方法求归一化训练集跨语言词对的词向量DN的转换矩阵W;根据W得到梯度下降的初始值W1=W;
Step5、采用K-means对归一化源语言语料词向量SN进行聚类,得到S1,S2,S3,...,Si,...,Sn个聚类簇;其中Si为第i个簇,n为聚类的簇数;
Step6、建立SN→X→Y之间的关系;SN为归一化源语言语料词向量,X为归一化训练集跨语言词对的词向量DN中的源语言词向量集合,Y为归一化训练集跨语言词对的词向量DN中与X互译的目标语言词向量集合,A是X在归一化源语言语料词向量SN中能查找到的集合,为{a1,a2,…,aj,...,ak},其中aj是A中第j个词向量,与SN聚类后的某个簇Si存在对应关系,即aj∈Si,对簇Si求平均为Si',查找到Y中与aj互译的目标语言词向量bm,将Si'与bm这对扩展后的对应关系一同追加到归一化训练集跨语言词对的词向量DN后面;
Step7、重复Step6,直到{a1,a2,…,aj,...,ak}都找到互译的目标语言词向量,并将词向量都追加到归一化训练集跨语言词对的词向量DN中,得到新的训练集跨语言词对的词向量D1,转到Step8;
Step8、以W1为初始值,对D1进行梯度下降求解,得到转换矩阵W的最优值Wb
还包括如下步骤:
Srep9、根据得到的转换矩阵W的最优值Wb,进行如下验证:
如果ulWb=vl,则测试正确个数P=P+1;否则不统计;其中,l=1,2,...,r;初始的P=0;
根据P的取值,统计
Figure BDA0002089630090000021
其中,r表示测试集中词对的对数;U为测试集跨语言词对的词向量DT中的源语言词向量集合,ul∈U、ul表示U中第l个源语言词向量;V为测试集跨语言词对的词向量DT中与U互译的目标语言词向量集合,vl∈V、vl表示V中与U互译的第l个目标语言词向量。
所述词向量转换工具采用:Word2vec、Glove。
本发明的有益效果是:本发明首先对单语词向量进行归一化,对小字典词对(训练集跨语言词对)正交最优线性变换求得梯度下降初始值,然后通过对大型源语言(英语)语料进行聚类,借助小字典找到与每一聚类簇相对应的源语言词,取聚类得到的每一簇词向量均值和源语言与目标语言对应的词向量均值,建立新的双语词向量对应关系,将新建立的双语词向量扩展到小字典中,使得小字典得以泛化和扩展。最后,利用泛化扩展后的字典对跨语言词嵌入映射模型进行梯度下降求得最优值。
附图说明
图1为本发明中的整体流程图;
图2为本发明中跨语言词嵌入原始原理图;
图3为本发明的小字典扩展和泛化原理图。
具体实施方式
实施例1:一种基于不对等语料的跨语言词嵌入方法,流程如图1所示,所述方法具体步骤如下:
Step1、语料的准备和收集,得到源语言语料、目标语言语料和跨语言词对,把词对分为训练集(小字典5000词作为训练集用来训练转换矩阵W)和测试集(1500词对作为测试集验证本专利算法的有效性);
第一组实验:如使用由Dinu提供的公共英语单语词数据集作为源语言语料;其中,Dinu提供的有(UKWAC+维基百科+BNC)的28亿个公共英语语料。除了英语意大利语外,还选择了两种有公共资源的语言进行测试。第二、三组实验:英语-德语、英语-芬兰语;上述三组实验用欧洲平行语料库(Europarl Parallel Corpus)中的词对作为跨语言词对并分为训练集和测试集;其中以词典中5000个最常用的词对作为训练集和随机1500词对作为测试集。
三组实验分别都是按照如下的步骤进行:
Step2、用Word2vec分别对源语言语料、目标语言语料和跨语言词对进行处理分别得到源语言语料词向量S、目标语语料词向量P及跨语言词对的词向量D;词嵌入使用Word2vec工具包CBoW负采样,上下文窗口设置为5个单词,嵌入的维度为300维,子采样为1*10-5,负样本数量为10个。(也可以采用Glove等词向量转换工具进行处理)。
Step3、归一化20万个词的源语言语料词向量S、5000对训练集跨语言词对的词向量D,得到归一化源语言语料词向量SN、归一化训练集跨语言词对的词向量DN;
Step4、用跨语言词嵌入方法和正交方法求归一化训练集跨语言词对的词向量DN的转换矩阵W;根据W得到梯度下降的初始值W1=W;
如图2所示:跨语言词嵌入映射方法,小字典对应的5000对词向量,其中xi∈X是步骤Step3归一化训练集跨语言词对的词向量DN中的源语言词向量集合,yi∈Y是通过步骤Step3归一化训练集跨语言词对的词向量DN中的目标语言的词向量。找到一个中间转换矩阵W,使得xiW无限接近yi。在学习过程中,W可以通过以下优化问题学习:
Figure BDA0002089630090000041
将以上跨语言词嵌入映射方法进行转换,相当于最小残差矩阵F范数的平方:
Figure BDA0002089630090000042
将W约束为正交矩阵(即WWT=WTW=I)。W1由W1=VUT给出正交性约束下的精确解,其中YTX=UZVT是YTX的SVD分解,可以在有效地时间内计算最佳线性转换。由此可以得到梯度下降的较为理想的初始值W1,可以降低梯度下降的迭代次数,降低算法的运算时间。
Step5、采用K-means对归一化源语言语料词向量SN进行聚类,得到S1,S2,S3,...,Si,...,Sn个聚类簇;其中Si为第i个簇,n为聚类的簇数;
关于K-means聚类中n值的选取:本发明对20万源语言词向量(英语)进行聚类,由于训练集采用5000词对词向量,本申请分别对源语言词向量聚4000,5000,6000,7000和8000簇进行了实验。最终,本实施例中,采用的n=8000;
Step6、建立SN→X→Y之间的关系;SN为归一化源语言语料词向量,X为归一化训练集跨语言词对的词向量DN中的源语言词向量集合,Y为归一化训练集跨语言词对的词向量DN中与X互译的目标语言词向量集合,A是X在归一化源语言语料词向量SN中能查找到的集合,为{a1,a2,…,aj,...,ak},其中aj是A中第j个词向量,与SN聚类后的某个簇Si存在对应关系,即aj∈Si,对簇Si求平均为Si',查找到Y中与aj互译的目标语言词向量bm,将Si'与bm这对扩展后的对应关系一同追加到归一化训练集跨语言词对的词向量DN后面;
所述步骤Step6的具体步骤为:
如图3所示:由于双语字典比较难获得,在跨语言词嵌入的时候常常会遇到语料不对等情况,源语言S比较容易获得,目标语言比较稀缺的情况。本申请基于小型跨语言词对(即小字典)并对其进行泛化,把语料较为丰富的源语言S进行聚类为簇S1,S2,S3,...,Si,...,Sn,对每个簇求词向量的
Figure BDA0002089630090000043
(Si为第i簇的词向量和,ni为第i簇中的源语言单词个数),得到S1',S2',S3',...,Si',...,Sn',从小字典中找到相应的簇Si对应的源语言单词集合的aj(英语),取出平均向量Si',同时取aj对应的目标语言词的词向量bm(若是一对一取bm的词向量,一对多取bm的词向量求平均bm')。若从小字典中找不到相应某一簇对应的源语言单词集合的aj(英语),bm就放弃该簇的处理。将Si'与bm/bm'这对扩展后的对应关系一同追加到归一化训练集跨语言词对的词向量DN后面使小字典得以扩展和泛化,得到新的字典D1
Step7、重复Step6,直到{a1,a2,…,aj,...,ak}都找到互译的目标语言词向量,并将词向量都追加到归一化训练集跨语言词对的词向量DN中,得到新的训练集跨语言词对的词向量D1,转到Step8;
Step8、以W1为初始值,对D1进行梯度下降求解,得到转换矩阵W的最优值Wb
所述步骤Step8的具体步骤为:
本申请将Step7中泛化后的小字典D1作为梯度下降的训练数据对转换矩阵W的训练和学习。所追求最理想的结果是XW=Y,因此考虑为简单的线性过程,由此得到损失函数为:
Figure BDA0002089630090000051
更新迭代为:
W=W+α▽w (4)
其中,xi,yi以步骤Step4的定义为准。
其中α为学习率,经过训练学习得到最后的结果。
Srep9、根据得到的转换矩阵W的最优值Wb,进行如下验证:
所述步骤Step9的具体步骤为:通过对1500测试集词对的跨语言正确率实验验证本专利算法的有效性。为了验证本发明跨语言词嵌入的效果,将采用统一的评价标准:正确率做为本发明的评价标准,衡量本发明的性能。测试正确的为1,不正确的为0。
Figure BDA0002089630090000052
本发明为了验证该发明的的有效性、可行性设计以下两组实验进行验证:
实验一:由表1看出聚类n值对实验结果有很大的影响,当n=8000时已经取得很好的实验结果。由下表1可以看出。
表1对不同n值下的双语词汇归纳的正确性(%)
n 英语-意大利语 英语-德语 英语-芬兰语
4000 36.87 38.27 26.23
5000 38.73 40.80 27.65
6000 39.27 41.85 27.78
7000 40.16 42.07 28.72
8000 40.73 42.15 29.15
本发明选用常用的词对作为学习的字典,会出现源语言的一个词对应目标语言的多个词,例如在英语-意大利语字典中
Figure BDA0002089630090000061
been同时对应三个词,显而易见been是同一个词在聚类后的一个簇中。对种子字典扩展的时候需要对意大利语的三个词词向量进行求平均,把两个平均添加到种子字典后面,如果这一类词出现得多的话,扩展后的字典不会很大。本实验对(英语-意大利语)聚类扩展得到的字典为6607个词对。英语-德语,英语-芬兰语同样存在这样的问题。一簇还包括相近的词,字典中属于同一簇的词越多,扩展以后的字典就越小。
而在本发明选用选用5000的种子字典,选用更大或者更小的字典对实验结果必然产生影响,更大的字典有更高的准确率,但是大的字典很多情况下由于语料稀缺,双语词典难以获得。从而转向更小的字典的研究,基于更小的字典会导致聚类后扩展的字典也更小,从而使得学习到的模型差一些,从而影响实验结果。
实验二:对于双语词嵌入的实验,本发明的方法与Mikolov,Xing,Artetxe 2016和Artetxe 2017等人提出的方法进行了比较。表2显示了与以前的工作相比较,选择n=8000最佳性能配置的结果与其它方法进行比较。
表2双语词嵌入正确率实验结果对比
英语-意大利语 英语-德语 英语-芬兰语
Mikolov et al.(2013a) 34.93 35.21 25.91
Xing et al.(2015) 36.87 41.27 28.23
Artetxe et al.(2016) 39.27 41.87 30.62
Artetxe et al.(2017) 39.67 40.87 28.72
本文的方法 40.73 42.15 29.15
由表2看出Xing的方法比Mikolov准确率高,这与它们在中报告内容一致。Artetxe较之前的两种方法也有比较好的表现结果,比之前的两种方法表现更为优秀。Artetxe2016在Mikolov的基础上引入了长度归一化和中心化,在三种语言的表现上都有很大的提高。Artetxe 2017提出了自学习框架,能在25个词对情况下就有不俗的结果。但是在5000词对下在英语-德语、英语-芬兰语结果稍逊于Artetxe 2016。
本发明专利的方法对源语言进行聚类,使得小字典得予扩展和泛化,并用正交svd求得梯度下降初始值,降低迭代次数,有效减少了训练时间。同时在在结果上也有明显的提高,但是在英语-芬兰语的表现结果比Artetxe 2016稍微差一点。
三种语言对的准确率都表现出相同的一般性,它们的准确度也有明显的差异,这是所涉及的语言的邻近性所致。芬兰语是非印欧语的凝集语言,使得对这一语言的任务变得相当困难。在小字典上取得良好结果表明本文方法的鲁棒性。即使对于遥远的语言对,其中嵌入空间的结构相似性可能较弱。它也能从双语词对中学习非常好的双语映射。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (3)

1.一种基于不对等语料的跨语言词嵌入方法,其特征在于:所述方法的具体步骤如下:
Step1、收集源语言语料和跨语言词对,将跨语言词对分成训练集和测试集;其中,跨语言词对指代的由源语言、目标语言组成的词对;
Step2、采用词向量转换工具分别对源语言语料、训练集的跨语言词对、测试集的跨语言词对进行处理分别得到源语言语料词向量S、训练集跨语言词对的词向量D、测试集跨语言词对的词向量DT;
Step3、分别归一化源语言语料词向量S、训练集跨语言词对的词向量D,得到归一化源语言语料词向量SN、归一化训练集跨语言词对的词向量DN;
Step4、用跨语言词嵌入方法和正交方法求归一化训练集跨语言词对的词向量DN的转换矩阵W;根据W得到梯度下降的初始值W1=W;
Step5、采用K-means对归一化源语言语料词向量SN进行聚类,得到S1,S2,S3,...,Si,...,Sn个聚类簇;其中Si为第i个簇,n为聚类的簇数;
Step6、建立SN→X→Y之间的关系;SN为归一化源语言语料词向量,X为归一化训练集跨语言词对的词向量DN中的源语言词向量集合,Y为归一化训练集跨语言词对的词向量DN中与X互译的目标语言词向量集合,A是X在归一化源语言语料词向量SN中能查找到的集合,为{a1,a2,…,aj,...,ak},其中aj是A中第j个词向量,与SN聚类后的某个簇Si存在对应关系,即aj∈Si,对簇Si求平均为Si',查找到Y中与aj互译的目标语言词向量bm,将Si'与bm这对扩展后的对应关系一同追加到归一化训练集跨语言词对的词向量DN后面;
Step7、重复Step6,直到{a1,a2,…,aj,...,ak}都找到互译的目标语言词向量,并将词向量都追加到归一化训练集跨语言词对的词向量DN中,得到新的训练集跨语言词对的词向量D1,转到Step8;
Step8、以W1为初始值,对D1进行梯度下降求解,得到转换矩阵W的最优值Wb
2.根据权利要求1所述的基于不对等语料的跨语言词嵌入方法,其特征在于:还包括如下步骤:
Step9、根据得到的转换矩阵W的最优值Wb,进行如下验证:
如果ulWb=vl,则测试正确个数P=P+1;否则不统计;其中,l=1,2,...,r;初始的P=0;
根据P的取值,
Figure FDA0002089630080000021
其中,r表示测试集中词对的对数;U为测试集跨语言词对的词向量DT中的源语言词向量集合,ul∈U、ul表示U中第l个源语言词向量;V为测试集跨语言词对的词向量DT中与U互译的目标语言词向量集合,vl∈V、vl表示V中与U互译的第l个目标语言词向量。
3.根据权利要求1所述的基于不对等语料的跨语言词嵌入方法,其特征在于:所述词向量转换工具采用:Word2vec、Glove。
CN201910499213.6A 2019-06-11 2019-06-11 一种基于不对等语料的跨语言词嵌入方法 Active CN110297903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910499213.6A CN110297903B (zh) 2019-06-11 2019-06-11 一种基于不对等语料的跨语言词嵌入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910499213.6A CN110297903B (zh) 2019-06-11 2019-06-11 一种基于不对等语料的跨语言词嵌入方法

Publications (2)

Publication Number Publication Date
CN110297903A CN110297903A (zh) 2019-10-01
CN110297903B true CN110297903B (zh) 2021-04-30

Family

ID=68027771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910499213.6A Active CN110297903B (zh) 2019-06-11 2019-06-11 一种基于不对等语料的跨语言词嵌入方法

Country Status (1)

Country Link
CN (1) CN110297903B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553154B (zh) * 2020-04-28 2023-04-07 合肥工业大学 一种基于扰动对抗训练的跨语言词向量构建方法
CN112287695A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN112287694A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于共享编码器的汉越无监督神经机器翻译方法
CN113343672B (zh) * 2021-06-21 2022-12-16 哈尔滨工业大学 一种基于语料合并的无监督双语词典构建方法
CN113627175B (zh) * 2021-08-17 2024-05-28 北京计算机技术及应用研究所 一种利用正交变换计算汉语词向量的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491444A (zh) * 2017-08-18 2017-12-19 南京大学 基于双语词嵌入技术的并行化词对齐方法
WO2018211408A1 (en) * 2017-05-15 2018-11-22 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN108960317A (zh) * 2018-06-27 2018-12-07 哈尔滨工业大学 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109635303A (zh) * 2018-12-19 2019-04-16 中国科学技术大学 特定领域意义改变词的识别方法
CN109829161A (zh) * 2019-01-30 2019-05-31 延边大学 一种多语种自动摘要的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018211408A1 (en) * 2017-05-15 2018-11-22 Thomson Reuters Global Resources Unlimited Company Neural paraphrase generator
CN107491444A (zh) * 2017-08-18 2017-12-19 南京大学 基于双语词嵌入技术的并行化词对齐方法
CN108960317A (zh) * 2018-06-27 2018-12-07 哈尔滨工业大学 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109635303A (zh) * 2018-12-19 2019-04-16 中国科学技术大学 特定领域意义改变词的识别方法
CN109829161A (zh) * 2019-01-30 2019-05-31 延边大学 一种多语种自动摘要的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A neural generative autoencoder for bilingual word embeddings;JinsongSu;《Information Sciences》;20171003;全文 *
基于跨语言语料的汉泰词分布表示;张金鹏;《计算机工程与科学》;20151231;第37卷(第12期);全文 *

Also Published As

Publication number Publication date
CN110297903A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN110297903B (zh) 一种基于不对等语料的跨语言词嵌入方法
CN105244029B (zh) 语音识别后处理方法及系统
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
Alayrac et al. Unsupervised learning from narrated instruction videos
WO2017024691A1 (zh) 一种模拟电路故障模式分类方法
CN107861947B (zh) 一种基于跨语言资源的柬语命名实体识别的方法
CN103559504A (zh) 图像目标类别识别方法及装置
CN110210538B (zh) 一种家居图像多目标识别方法及装置
US20180068652A1 (en) Apparatus and method for training a neural network language model, speech recognition apparatus and method
CN108021551B (zh) 一种语料扩展方法及装置
CN105868178A (zh) 一种基于短语主题建模的多文档自动摘要生成方法
CN104391885A (zh) 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
CN107391495B (zh) 一种双语平行语料的句对齐方法
CN103020167A (zh) 一种计算机中文文本分类方法
CN110516229A (zh) 一种基于深度学习的领域自适应中文分词方法
CN104572632B (zh) 一种确定具有专名译文的词汇的翻译方向的方法
CN115329785A (zh) 融入音素特征的英-泰-老多语言神经机器翻译方法及装置
CN115935959A (zh) 一种低资源黏着语序列标注的方法
CN105632485B (zh) 一种基于语种识别系统的语言距离关系的获取方法
CN109582951B (zh) 一种基于多重cca算法的柬汉双语词向量模型构建方法
Wang et al. Integrating vectorized lexical constraints for neural machine translation
CN103116575A (zh) 基于层次短语模型的译文词序概率确定方法及装置
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN116561325B (zh) 一种多语言融媒体文本情感分析方法
Gui et al. A mixed model for cross lingual opinion analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant