CN110516230B - 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 - Google Patents

基于枢轴语言的汉-缅双语平行句对抽取方法及装置 Download PDF

Info

Publication number
CN110516230B
CN110516230B CN201910627818.9A CN201910627818A CN110516230B CN 110516230 B CN110516230 B CN 110516230B CN 201910627818 A CN201910627818 A CN 201910627818A CN 110516230 B CN110516230 B CN 110516230B
Authority
CN
China
Prior art keywords
chinese
english
sentences
burmese
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910627818.9A
Other languages
English (en)
Other versions
CN110516230A (zh
Inventor
毛存礼
吴霞
余正涛
张少宁
张亚飞
朱浩东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910627818.9A priority Critical patent/CN110516230B/zh
Publication of CN110516230A publication Critical patent/CN110516230A/zh
Application granted granted Critical
Publication of CN110516230B publication Critical patent/CN110516230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于枢轴语言的汉‑缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。本发明首先利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量;利用已有的汉‑英、英‑缅平行语料作为约束条件,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间;利用联合训练的方法,将英语作为枢轴语言,学习汉‑英‑缅三语的公共表示,计算汉‑缅双语句子的距离,判断汉‑缅双语句子是否为平行句子。本发明解决汉语‑缅语平行数据抽取的问题,利用英语作为枢轴语言抽取汉缅平行句对,为后续自然语言处理工作提供数据基础,对构建汉‑缅双语平行语料库具有重要的理论和实际运用价值。

Description

基于枢轴语言的汉-缅双语平行句对抽取方法及装置
技术领域
本发明涉及基于枢轴语言的汉-缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。
背景技术
枢轴语言的分布式表示可以连接不同但具有相似语义空间(相同)的对象,例如多语言数据(单词,短语,句子等),被广泛应用于自然语言处理中。汉缅平行句对抽取是开展汉缅机器翻译任务的基础,但是由于缅语资源比较少,英语是缅甸的官方语言,汉语比较丰富,所以利用英语作为枢轴语言研究汉缅句对的抽取,抽取到大量的汉缅句对为后期机器翻译等自然语言处理工作提供数据支持。
发明内容
本发明提供了基于枢轴语言的汉-缅双语平行句对抽取方法及装置,以用于解决汉语-缅语平行数据抽取的问题,利用英语作为枢轴语言研究汉缅句对的抽取兼为后续自然语言处理工作提供数据基础。
本发明的技术方案是:基于枢轴语言的汉-缅双语平行句对抽取方法,所述抽取方法的具体步骤如下:
Step1、利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量;DAE是一种无监督方式的机器学习算法,主要目的是重建模型输入,以便在编码端学习输入的表示;
Step2、基于句子语义相同的不同语言在语义空间中距离近的性质,利用已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间;CorrNet能够同时学习句子表示和决策曲面的算法,可以将隐藏层视为学习表征的投影(表示学习),将输出层视为学习决策函数(分类学习);
Step3、利用联合训练的方法,将英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,判断汉-缅双语句子是否为平行句子。此步骤实现当两种语言之间没有平行语料时,利用枢轴语言学习三种语言的公共表示,联合训练后,实现语言之间匹配等价项,在公共的语义空间中汉、英、缅平行的句子距离非常近,而非平行的句子距离则较远;
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、通过在输入中添加噪声函数来重建无噪声输入;
Step1.2、使用去噪自动编码器DAE训练汉语、英语、缅语三种句子的表征向量。
作为本发明的优选方案,所述Step1.1中,添加噪声函数的具体操作为:删除句子的部分词,或者打乱词的顺序,且噪声函数是N(S|P0,Px),S表示一个句子,P0,Px都是表示概率为[0,1]的数。
作为本发明的优选方案,所述步骤Step1.1的具体步骤如下:
Step1.1.1、对于每一个句子x中的每个word,噪声函数N(S|P0,Px)会以一个P0的概率来删除word;
Step1.1.2、对于句子S中的每一对不重叠的2元语法bigram,即w(i)w(i+1),N(S|P0,Px)函数会以一个Px的概率来交换两个词的位置;
Step1.1.3、使用如下交叉熵公式表示降噪自编码器的损失函数,通过最小化损失函数,使得噪声最小;
Figure BDA0002127697590000021
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、利用去噪自编码器将输入的句子进行重建,获取单语语料下每种语言重建时的损失,如下公式;
Figure BDA0002127697590000022
Figure BDA0002127697590000023
其中,
Figure BDA0002127697590000024
代表将输入
Figure BDA0002127697590000025
编码为一个隐藏表示h,g(·)表示试图从隐藏表示h中重建
Figure BDA0002127697590000026
Step2.2、基于汉-英平行语料、英-缅平行语料,学习跨语言下两种语言互相重建时的损失,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间,损失函数公式如下所示:
Figure BDA0002127697590000027
Figure BDA0002127697590000031
其中,S()是一个标准化函数,使
Figure BDA0002127697590000032
Figure BDA0002127697590000033
具有零均值和单位方差;此外,λ是缩放超参数,corr是如下定义的相关函数:
Figure BDA0002127697590000034
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、利用联合训练的方法,学习汉-英-缅三语的公共语义表示,通过最小化如下目标函数来训练联合模型;
Figure BDA0002127697590000035
Step3.2、计算公共语义空间中汉-缅句子间的距离,并根据汉-缅句子间的距离判断他们是否是平行句子。
据上述步骤功能模块化制成基于枢轴语言的汉-缅双语平行句对抽取装置,具体包括如下模块:
句子表征模块,用于将汉语、英语、缅语三种语言的句子分别进行向量表征;
公共语义空间表征模块,用于将已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅三种语言的句子表征投影到公共语义空间;
汉缅双语平行句对判断模块,用于使用英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,根据汉-缅双语句子的距离判断汉-缅双语句子是否为平行句子。
本发明的有益效果是:
本发明可以实现利用大规模英语数据作为枢轴语言抽取汉-缅双语平行句对,补充当前汉-缅双语平行句对不足的问题,为后续汉语-缅语情感分子、跨语言检索,机器翻译等自然语言处理工作提供数据基础。对构建汉-缅双语平行语料库具有重要的理论和实际运用价值。
附图说明
图1为本发明总的框架图;
图2为本发明中的去噪自编码器流程图;
图3为本发明中的装置架构图;
图4为本发明中的整体流程图。
具体实施方式
实施例1:如图1-4所示,基于枢轴语言的汉-缅双语平行句对抽取方法,所述抽取方法的具体步骤如下:
Step1、利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量;
Step1.1、通过在输入中添加噪声函数来重建无噪声输入,可以学习反映输入数据的基本特征;添加噪声函数的具体操作为:删除句子的部分词,或者打乱词的顺序,且噪声函数是N(S|P0,Px),S表示一个句子,P0,Px都是表示概率为[0,1]的数。
Step1.1.1、对于每一个句子x中的每个word,噪声函数N(S|P0,Px)会以一个P0的概率来删除word;
Step1.1.2、对于句子S中的每一对不重叠的2元语法bigram,即w(i)w(i+1),N(S|P0,Px)函数会以一个Px的概率来交换两个词的位置;
Step1.1.3、使用如下交叉熵公式表示降噪自编码器的损失函数,通过最小化损失函数,使得噪声最小;
Figure BDA0002127697590000041
Step1.2、使用去噪自动编码器DAE训练汉语、英语、缅语三种句子的表征向量。其中自动编码器具有三层神经网络:输入层、编码层(隐藏层)、解码层。该网络的主要目的是重建其输入,以便它可以在编码级学习输入的表示。它是一种无监督方式的机器学习算法,利用反向传播机制,将目标端的值设置成和输入值相同。它的训练目标是把输入复制一份给输出,在内部,它有用于表征输入特征的编码层。。在,使用去噪自动编码器(DAE)训练句子向量。
Step2、基于句子语义相同的不同语言在语义空间中距离近的性质,利用已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、利用去噪自编码器将输入的句子进行重建,获取单语语料下每种语言重建时的损失,假设存在训练数据
Figure BDA0002127697590000042
其中每个训练实例都只包含两种语言,即
Figure BDA0002127697590000043
其中j∈{1,2},v1,v2分别表示汉语、缅语,M为枢轴语言-英语。即:
Figure BDA0002127697590000044
代表了汉-英两种语言,
Figure BDA0002127697590000045
代表了英-缅两种语言,训练数据包含了N1个实例
Figure BDA0002127697590000046
训练数据包含了N2个实例
Figure BDA0002127697590000047
则N1+N2=N,z是Z1,Z2的并集。
对于给定的两种语言
Figure BDA0002127697590000051
目标是:
(1)最小化自我重构误差,即最小化从
Figure BDA0002127697590000052
Figure BDA0002127697590000053
Figure BDA0002127697590000054
Figure BDA0002127697590000055
重构时的误差。
(2)最小化跨语言重构误差,即最小化从
Figure BDA0002127697590000056
Figure BDA0002127697590000057
Figure BDA0002127697590000058
Figure BDA0002127697590000059
重构时的误差。
(3)最大化两种语言的隐藏表示之间的相关性。
利用去噪自编码器将输入的句子进行重建,获取单语语料下每种语言重建时的损失,如下公式;
Figure BDA00021276975900000510
Figure BDA00021276975900000511
其中,
Figure BDA00021276975900000512
代表将输入
Figure BDA00021276975900000513
编码为一个隐藏表示h,g(·)表示试图从隐藏表示h中重建
Figure BDA00021276975900000514
Step2.2、基于汉-英平行语料、英-缅平行语料,学习跨语言下两种语言互相重建时的损失,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间,损失函数公式如下所示:
Figure BDA00021276975900000515
Figure BDA00021276975900000516
其中,S()是一个标准化函数,使
Figure BDA00021276975900000517
Figure BDA00021276975900000518
具有零均值和单位方差;此外,λ是缩放超参数,corr是如下定义的相关函数:
Figure BDA00021276975900000519
需要强调的是,s()确保该表示已经具有零均值和单位方差,因此在计算相关性时不需要单独的标准化。
Step3、利用联合训练的方法,将英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,判断汉-缅双语句子是否为平行句子。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、利用联合训练的方法,学习汉-英-缅三语的公共语义表示,通过最小化如下目标函数来训练联合模型;
Figure BDA00021276975900000520
Step3.2、计算公共语义空间中汉-缅句子间的距离,并根据汉-缅句子间的距离判断他们是否是平行句子。
为了弄清楚基于枢轴语言的汉-缅双语平行句对抽取方法的贡献程度,采用汉-英平行语料是使用公开的数据集,英-缅平行语料主要是从在线词典、新闻网站等网站、杂志上爬取的文本数据,通过人工筛选等步骤形成的可用的文本语料库。如下表1所示。
表1实验中所用语料信息
语言 平行句子数(万)
汉-英 5.0
英-缅 3.0
汉-缅 1.0
为了测试基于枢轴的汉-缅语义空间模型性能好坏,分别选取了1.0K的平行句子和2.0K的非平行句子以及2.0K的平行句子和3.0K的非平行句子做验证。在评价指标的方面,选用准确率(Accuracy),精确率(Precision),召回率(Recall)和F值(F1-Measure)用于衡量模型是否能够正确地对汉缅平行句进行分类。具体公式如下:
Figure BDA0002127697590000061
Figure BDA0002127697590000062
Figure BDA0002127697590000063
其中TP是真的正例,FP是假的反例,FP是假的正例,TN是真的反例。
对基于枢轴语言的汉-缅双语平行句对抽取方法以及不使用该方法的实验结果进行了对比分析,实验结果如表2所示,为了验证不同规模的数据集对实验结果的影响,本文同时添加了一组语料对照实验。
表2实验结果
Figure BDA0002127697590000064
Figure BDA0002127697590000071
从表2中可以看出,通过基于枢轴语言的汉-缅双语平行句对抽取方法训练得到的汉缅平行句对抽取模型的平均准确率比未使用英语做枢轴语言的汉缅平行句对抽取模型高11.3%。可见基于枢轴语言的汉-缅双语平行句对抽取方法在汉-缅双语平行句对抽取问题上比不使用英语作为枢轴语言效果好。主要体现:1)英语作为枢轴语言可以弥补语料严重不足问题;
根据本发明的构思,本发明还提供了一种基于枢轴语言的汉-缅双语平行句对抽取装置,如图3所示,该装置包括如下模块:
句子表征模块,用于将汉语、英语、缅语三种语言的句子分别进行向量表征;
公共语义空间表征模块,用于将已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅三种语言的句子表征投影到公共语义空间;
汉缅双语平行句对判断模块,用于使用英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,根据汉-缅双语句子的距离判断汉-缅双语句子是否为平行句子。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.基于枢轴语言的汉-缅双语平行句对抽取方法,其特征在于:所述抽取方法的具体步骤如下:
Step1、利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量;
Step2、基于句子语义相同的不同语言在语义空间中距离近的性质,利用已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅的三种语言的句子的表征向量投影到公共语义空间;
Step3、利用联合训练的方法,将英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,判断汉-缅双语句子是否为平行句子;
所述步骤Step2的具体步骤为:
Step2.1、利用降噪编码器将输入的句子进行重建,获取单语语料下每种语言重建时的损失,如下公式;
Figure FDA0002572384780000011
Figure FDA0002572384780000012
其中,
Figure FDA0002572384780000013
表示汉语、缅语两种语言句子的输入,
Figure FDA0002572384780000014
代表将输入
Figure FDA0002572384780000015
编码为一个隐藏向量表示,
Figure FDA0002572384780000016
表示从隐藏向量表示中重建
Figure FDA0002572384780000017
Figure FDA0002572384780000018
表示输入
Figure FDA0002572384780000019
与重建后的
Figure FDA00025723847800000110
之间的均值误差,同理
Figure FDA00025723847800000111
表示英语句子的输入,
Figure FDA00025723847800000112
代表将输入
Figure FDA00025723847800000113
编码为一个隐藏向量表示,
Figure FDA00025723847800000114
表示从隐藏向量表示中重建
Figure FDA00025723847800000115
Figure FDA00025723847800000116
表示输入
Figure FDA00025723847800000117
与重建后的
Figure FDA00025723847800000118
之间的均值误差;
Step2.2、基于汉-英平行语料、英-缅平行语料,学习跨语言下两种语言互相重建时的损失,通过CorrNet把汉、英、缅的三种语言的句子的表征向量投影到公共语义空间,损失函数公式如下所示:
Figure FDA00025723847800000119
Figure FDA00025723847800000120
其中,
Figure FDA00025723847800000121
Figure FDA00025723847800000122
Figure FDA00025723847800000123
两种语言输入的串联表示,
Figure FDA00025723847800000124
是将输入
Figure FDA00025723847800000125
编码为一个隐藏向量表示,
Figure FDA0002572384780000021
表示从隐藏向量表示中重建
Figure FDA0002572384780000022
Figure FDA0002572384780000023
表示
Figure FDA0002572384780000024
与重建后的
Figure FDA0002572384780000025
之间的均值误差,S()是一个标准化函数,使
Figure FDA0002572384780000026
Figure FDA0002572384780000027
具有零均值和单位方差,vj是汉语、缅语两种语言句子的向量表示,
Figure FDA0002572384780000028
表示将vj编码为隐藏表示,vM是英语句子的向量表示,
Figure FDA0002572384780000029
表示将vM编码为隐藏表示,此外,λ是缩放超参数,corr是如下定义的相关函数:
Figure FDA00025723847800000210
2.根据权利要求1所述的基于枢轴语言的汉-缅双语平行句对抽取方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、通过在输入中添加噪声函数来重建无噪声输入;
Step1.2、使用降噪编码器DAE训练汉语、英语、缅语三种句子的表征向量。
3.根据权利要求2所述的基于枢轴语言的汉-缅双语平行句对抽取方法,其特征在于:所述Step1.1中,添加噪声函数的具体操作为:删除句子的部分词,或者打乱词的顺序,且噪声函数是N(S|P0,Px),S表示一个句子,P0,Px都是表示概率为[0,1]的数。
4.根据权利要求2所述的基于枢轴语言的汉-缅双语平行句对抽取方法,其特征在于:
所述步骤Step1.1的具体步骤如下:
Step1.1.1、对于每一个句子S中的每个word,噪声函数N(S|P0,Px)会以一个P0的概率来删除word;
Step1.1.2、对于句子S中的每一对不重叠的2元语法bigram,即w(i)w(i+1),N(S|P0,Px)函数会以一个Px的概率来交换两个词的位置;其中,w(i)是句子中第i个词的向量表示,w(i+1)是句子中第i+1个词的向量表示;
Step1.1.3、使用如下交叉熵公式表示降噪编码器的损失函数,通过最小化损失函数,使得噪声最小;
Figure FDA00025723847800000211
5.根据权利要求1所述的基于枢轴语言的汉-缅双语平行句对抽取方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、利用联合训练的方法,学习汉-英-缅三语的公共语义表示,通过最小化如下目标函数来训练联合模型;
Figure FDA0002572384780000031
其中,
Figure FDA0002572384780000032
表示两种语言输入
Figure FDA0002572384780000033
Figure FDA0002572384780000034
的串联,h(zi)表示将zi编码为一个隐藏向量表示,
Figure FDA0002572384780000035
表示将
Figure FDA0002572384780000036
编码为一个隐藏向量表示,
Figure FDA0002572384780000037
表示将
Figure FDA0002572384780000038
编码为一个隐藏向量表示,L(zi,(h(zi)))表示zi与隐藏向量表示h(zi)之间的均值误差,N表示句子的数量;
Step3.2、计算公共语义空间中汉-缅句子间的距离,并根据汉-缅句子间的距离判断他们是否是平行句子。
6.基于枢轴语言的汉-缅双语平行句对抽取装置,其特征在于:包括如下模块:
句子表征模块,用于将汉语、英语、缅语三种语言的句子分别获取表征向量;
公共语义空间表征模块,用于将已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅三种语言的句子的表征向量投影到公共语义空间;
汉缅双语平行句对判断模块,用于使用英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,根据汉-缅双语句子的距离判断汉-缅双语句子是否为平行句子;
利用降噪编码器将输入的句子进行重建,获取单语语料下每种语言重建时的损失,如下公式;
Figure FDA0002572384780000039
Figure FDA00025723847800000310
其中,
Figure FDA00025723847800000311
表示汉语、缅语两种语言句子的输入,
Figure FDA00025723847800000312
代表将输入
Figure FDA00025723847800000313
编码为一个隐藏向量表示,
Figure FDA00025723847800000314
表示从隐藏向量表示中重建
Figure FDA00025723847800000315
Figure FDA00025723847800000316
表示输入
Figure FDA00025723847800000317
与重建后的
Figure FDA00025723847800000318
之间的均值误差,同理
Figure FDA00025723847800000319
表示英语句子的输入,
Figure FDA0002572384780000041
代表将输入
Figure FDA0002572384780000042
编码为一个隐藏向量表示,
Figure FDA0002572384780000043
表示从隐藏向量表示中重建
Figure FDA0002572384780000044
Figure FDA0002572384780000045
表示输入
Figure FDA0002572384780000046
与重建后的
Figure FDA0002572384780000047
之间的均值误差;
基于汉-英平行语料、英-缅平行语料,学习跨语言下两种语言互相重建时的损失,通过CorrNet把汉、英、缅的三种语言的句子的表征向量投影到公共语义空间,损失函数公式如下所示:
Figure FDA0002572384780000048
Figure FDA0002572384780000049
其中,
Figure FDA00025723847800000410
Figure FDA00025723847800000411
Figure FDA00025723847800000412
两种语言输入的串联表示,
Figure FDA00025723847800000413
是将输入
Figure FDA00025723847800000414
编码为一个隐藏向量表示,
Figure FDA00025723847800000415
表示从隐藏向量表示中重建
Figure FDA00025723847800000416
Figure FDA00025723847800000417
表示
Figure FDA00025723847800000418
与重建后的
Figure FDA00025723847800000419
之间的均值误差,S()是一个标准化函数,使
Figure FDA00025723847800000420
Figure FDA00025723847800000421
具有零均值和单位方差,vj是汉语、缅语两种语言句子的向量表示,
Figure FDA00025723847800000422
表示将vj编码为隐藏表示,vM是英语句子的向量表示,
Figure FDA00025723847800000423
表示将vM编码为隐藏表示,此外,λ是缩放超参数,corr是如下定义的相关函数:
Figure FDA00025723847800000424
CN201910627818.9A 2019-07-12 2019-07-12 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 Active CN110516230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910627818.9A CN110516230B (zh) 2019-07-12 2019-07-12 基于枢轴语言的汉-缅双语平行句对抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910627818.9A CN110516230B (zh) 2019-07-12 2019-07-12 基于枢轴语言的汉-缅双语平行句对抽取方法及装置

Publications (2)

Publication Number Publication Date
CN110516230A CN110516230A (zh) 2019-11-29
CN110516230B true CN110516230B (zh) 2020-09-08

Family

ID=68622954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910627818.9A Active CN110516230B (zh) 2019-07-12 2019-07-12 基于枢轴语言的汉-缅双语平行句对抽取方法及装置

Country Status (1)

Country Link
CN (1) CN110516230B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310480B (zh) * 2020-01-20 2021-12-28 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
CN112287688B (zh) * 2020-09-17 2022-02-11 昆明理工大学 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置
CN112257460B (zh) * 2020-09-25 2022-06-21 昆明理工大学 基于枢轴的汉越联合训练神经机器翻译方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591857A (zh) * 2011-01-10 2012-07-18 富士通株式会社 一种平行语料资源获取方法及系统
CN105512114A (zh) * 2015-12-14 2016-04-20 清华大学 平行句对的筛选方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105163121B (zh) * 2015-08-24 2018-04-17 西安电子科技大学 基于深度自编码网络的大压缩比卫星遥感图像压缩方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591857A (zh) * 2011-01-10 2012-07-18 富士通株式会社 一种平行语料资源获取方法及系统
CN105512114A (zh) * 2015-12-14 2016-04-20 清华大学 平行句对的筛选方法和系统

Also Published As

Publication number Publication date
CN110516230A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
Zahran et al. Word representations in vector space and their applications for arabic
CN112541343B (zh) 基于词对齐的半监督对抗学习跨语言摘要生成方法
Fernandes et al. Quality-aware decoding for neural machine translation
Cha et al. Language modeling by clustering with word embeddings for text readability assessment
CN110516230B (zh) 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN110378409A (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN112287695A (zh) 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115017299A (zh) 一种基于去噪图自编码器的无监督社交媒体摘要方法
Ordoñez et al. Will longformers PAN out for authorship verification
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
Adjeisah et al. Pseudotext Injection and Advance Filtering of Low‐Resource Corpus for Neural Machine Translation
Babić et al. A comparison of approaches for measuring the semantic similarity of short texts based on word embeddings
CN114742069A (zh) 一种代码相似度检测方法及装置
Chauhan et al. Improved unsupervised neural machine translation with semantically weighted back translation for morphologically rich and low resource languages
Raju et al. Effective preprocessing based neural machine translation for english to telugu cross-language information retrieval
Wu et al. An intelligent duplicate bug report detection method based on technical term extraction
CN115129818A (zh) 基于知识驱动多分类的情绪原因对提取方法及系统
Wijayanti et al. Learning bilingual word embedding for automatic text summarization in low resource language
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
Lv et al. Siamese multiplicative LSTM for semantic text similarity
de Lacalle et al. Evaluating multimodal representations on sentence similarity: vSTS, visual semantic textual similarity dataset

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant