CN110516230B - 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 - Google Patents
基于枢轴语言的汉-缅双语平行句对抽取方法及装置 Download PDFInfo
- Publication number
- CN110516230B CN110516230B CN201910627818.9A CN201910627818A CN110516230B CN 110516230 B CN110516230 B CN 110516230B CN 201910627818 A CN201910627818 A CN 201910627818A CN 110516230 B CN110516230 B CN 110516230B
- Authority
- CN
- China
- Prior art keywords
- chinese
- english
- sentences
- burmese
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于枢轴语言的汉‑缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。本发明首先利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量;利用已有的汉‑英、英‑缅平行语料作为约束条件,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间;利用联合训练的方法,将英语作为枢轴语言,学习汉‑英‑缅三语的公共表示,计算汉‑缅双语句子的距离,判断汉‑缅双语句子是否为平行句子。本发明解决汉语‑缅语平行数据抽取的问题,利用英语作为枢轴语言抽取汉缅平行句对,为后续自然语言处理工作提供数据基础,对构建汉‑缅双语平行语料库具有重要的理论和实际运用价值。
Description
技术领域
本发明涉及基于枢轴语言的汉-缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。
背景技术
枢轴语言的分布式表示可以连接不同但具有相似语义空间(相同)的对象,例如多语言数据(单词,短语,句子等),被广泛应用于自然语言处理中。汉缅平行句对抽取是开展汉缅机器翻译任务的基础,但是由于缅语资源比较少,英语是缅甸的官方语言,汉语比较丰富,所以利用英语作为枢轴语言研究汉缅句对的抽取,抽取到大量的汉缅句对为后期机器翻译等自然语言处理工作提供数据支持。
发明内容
本发明提供了基于枢轴语言的汉-缅双语平行句对抽取方法及装置,以用于解决汉语-缅语平行数据抽取的问题,利用英语作为枢轴语言研究汉缅句对的抽取兼为后续自然语言处理工作提供数据基础。
本发明的技术方案是:基于枢轴语言的汉-缅双语平行句对抽取方法,所述抽取方法的具体步骤如下:
Step1、利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量;DAE是一种无监督方式的机器学习算法,主要目的是重建模型输入,以便在编码端学习输入的表示;
Step2、基于句子语义相同的不同语言在语义空间中距离近的性质,利用已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间;CorrNet能够同时学习句子表示和决策曲面的算法,可以将隐藏层视为学习表征的投影(表示学习),将输出层视为学习决策函数(分类学习);
Step3、利用联合训练的方法,将英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,判断汉-缅双语句子是否为平行句子。此步骤实现当两种语言之间没有平行语料时,利用枢轴语言学习三种语言的公共表示,联合训练后,实现语言之间匹配等价项,在公共的语义空间中汉、英、缅平行的句子距离非常近,而非平行的句子距离则较远;
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、通过在输入中添加噪声函数来重建无噪声输入;
Step1.2、使用去噪自动编码器DAE训练汉语、英语、缅语三种句子的表征向量。
作为本发明的优选方案,所述Step1.1中,添加噪声函数的具体操作为:删除句子的部分词,或者打乱词的顺序,且噪声函数是N(S|P0,Px),S表示一个句子,P0,Px都是表示概率为[0,1]的数。
作为本发明的优选方案,所述步骤Step1.1的具体步骤如下:
Step1.1.1、对于每一个句子x中的每个word,噪声函数N(S|P0,Px)会以一个P0的概率来删除word;
Step1.1.2、对于句子S中的每一对不重叠的2元语法bigram,即w(i)w(i+1),N(S|P0,Px)函数会以一个Px的概率来交换两个词的位置;
Step1.1.3、使用如下交叉熵公式表示降噪自编码器的损失函数,通过最小化损失函数,使得噪声最小;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、利用去噪自编码器将输入的句子进行重建,获取单语语料下每种语言重建时的损失,如下公式;
Step2.2、基于汉-英平行语料、英-缅平行语料,学习跨语言下两种语言互相重建时的损失,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间,损失函数公式如下所示:
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、利用联合训练的方法,学习汉-英-缅三语的公共语义表示,通过最小化如下目标函数来训练联合模型;
Step3.2、计算公共语义空间中汉-缅句子间的距离,并根据汉-缅句子间的距离判断他们是否是平行句子。
据上述步骤功能模块化制成基于枢轴语言的汉-缅双语平行句对抽取装置,具体包括如下模块:
句子表征模块,用于将汉语、英语、缅语三种语言的句子分别进行向量表征;
公共语义空间表征模块,用于将已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅三种语言的句子表征投影到公共语义空间;
汉缅双语平行句对判断模块,用于使用英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,根据汉-缅双语句子的距离判断汉-缅双语句子是否为平行句子。
本发明的有益效果是:
本发明可以实现利用大规模英语数据作为枢轴语言抽取汉-缅双语平行句对,补充当前汉-缅双语平行句对不足的问题,为后续汉语-缅语情感分子、跨语言检索,机器翻译等自然语言处理工作提供数据基础。对构建汉-缅双语平行语料库具有重要的理论和实际运用价值。
附图说明
图1为本发明总的框架图;
图2为本发明中的去噪自编码器流程图;
图3为本发明中的装置架构图;
图4为本发明中的整体流程图。
具体实施方式
实施例1:如图1-4所示,基于枢轴语言的汉-缅双语平行句对抽取方法,所述抽取方法的具体步骤如下:
Step1、利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量;
Step1.1、通过在输入中添加噪声函数来重建无噪声输入,可以学习反映输入数据的基本特征;添加噪声函数的具体操作为:删除句子的部分词,或者打乱词的顺序,且噪声函数是N(S|P0,Px),S表示一个句子,P0,Px都是表示概率为[0,1]的数。
Step1.1.1、对于每一个句子x中的每个word,噪声函数N(S|P0,Px)会以一个P0的概率来删除word;
Step1.1.2、对于句子S中的每一对不重叠的2元语法bigram,即w(i)w(i+1),N(S|P0,Px)函数会以一个Px的概率来交换两个词的位置;
Step1.1.3、使用如下交叉熵公式表示降噪自编码器的损失函数,通过最小化损失函数,使得噪声最小;
Step1.2、使用去噪自动编码器DAE训练汉语、英语、缅语三种句子的表征向量。其中自动编码器具有三层神经网络:输入层、编码层(隐藏层)、解码层。该网络的主要目的是重建其输入,以便它可以在编码级学习输入的表示。它是一种无监督方式的机器学习算法,利用反向传播机制,将目标端的值设置成和输入值相同。它的训练目标是把输入复制一份给输出,在内部,它有用于表征输入特征的编码层。。在,使用去噪自动编码器(DAE)训练句子向量。
Step2、基于句子语义相同的不同语言在语义空间中距离近的性质,利用已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、利用去噪自编码器将输入的句子进行重建,获取单语语料下每种语言重建时的损失,假设存在训练数据其中每个训练实例都只包含两种语言,即其中j∈{1,2},v1,v2分别表示汉语、缅语,M为枢轴语言-英语。即:代表了汉-英两种语言,代表了英-缅两种语言,训练数据包含了N1个实例训练数据包含了N2个实例则N1+N2=N,z是Z1,Z2的并集。
(3)最大化两种语言的隐藏表示之间的相关性。
利用去噪自编码器将输入的句子进行重建,获取单语语料下每种语言重建时的损失,如下公式;
Step2.2、基于汉-英平行语料、英-缅平行语料,学习跨语言下两种语言互相重建时的损失,通过CorrNet把汉、英、缅的三种语言的句子表征投影到公共语义空间,损失函数公式如下所示:
需要强调的是,s()确保该表示已经具有零均值和单位方差,因此在计算相关性时不需要单独的标准化。
Step3、利用联合训练的方法,将英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,判断汉-缅双语句子是否为平行句子。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、利用联合训练的方法,学习汉-英-缅三语的公共语义表示,通过最小化如下目标函数来训练联合模型;
Step3.2、计算公共语义空间中汉-缅句子间的距离,并根据汉-缅句子间的距离判断他们是否是平行句子。
为了弄清楚基于枢轴语言的汉-缅双语平行句对抽取方法的贡献程度,采用汉-英平行语料是使用公开的数据集,英-缅平行语料主要是从在线词典、新闻网站等网站、杂志上爬取的文本数据,通过人工筛选等步骤形成的可用的文本语料库。如下表1所示。
表1实验中所用语料信息
语言 | 平行句子数(万) |
汉-英 | 5.0 |
英-缅 | 3.0 |
汉-缅 | 1.0 |
为了测试基于枢轴的汉-缅语义空间模型性能好坏,分别选取了1.0K的平行句子和2.0K的非平行句子以及2.0K的平行句子和3.0K的非平行句子做验证。在评价指标的方面,选用准确率(Accuracy),精确率(Precision),召回率(Recall)和F值(F1-Measure)用于衡量模型是否能够正确地对汉缅平行句进行分类。具体公式如下:
其中TP是真的正例,FP是假的反例,FP是假的正例,TN是真的反例。
对基于枢轴语言的汉-缅双语平行句对抽取方法以及不使用该方法的实验结果进行了对比分析,实验结果如表2所示,为了验证不同规模的数据集对实验结果的影响,本文同时添加了一组语料对照实验。
表2实验结果
从表2中可以看出,通过基于枢轴语言的汉-缅双语平行句对抽取方法训练得到的汉缅平行句对抽取模型的平均准确率比未使用英语做枢轴语言的汉缅平行句对抽取模型高11.3%。可见基于枢轴语言的汉-缅双语平行句对抽取方法在汉-缅双语平行句对抽取问题上比不使用英语作为枢轴语言效果好。主要体现:1)英语作为枢轴语言可以弥补语料严重不足问题;
根据本发明的构思,本发明还提供了一种基于枢轴语言的汉-缅双语平行句对抽取装置,如图3所示,该装置包括如下模块:
句子表征模块,用于将汉语、英语、缅语三种语言的句子分别进行向量表征;
公共语义空间表征模块,用于将已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅三种语言的句子表征投影到公共语义空间;
汉缅双语平行句对判断模块,用于使用英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,根据汉-缅双语句子的距离判断汉-缅双语句子是否为平行句子。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.基于枢轴语言的汉-缅双语平行句对抽取方法,其特征在于:所述抽取方法的具体步骤如下:
Step1、利用降噪编码器DAE得到汉、英、缅的三种句子的表征向量;
Step2、基于句子语义相同的不同语言在语义空间中距离近的性质,利用已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅的三种语言的句子的表征向量投影到公共语义空间;
Step3、利用联合训练的方法,将英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,判断汉-缅双语句子是否为平行句子;
所述步骤Step2的具体步骤为:
Step2.1、利用降噪编码器将输入的句子进行重建,获取单语语料下每种语言重建时的损失,如下公式;
其中,表示汉语、缅语两种语言句子的输入,代表将输入编码为一个隐藏向量表示,表示从隐藏向量表示中重建 表示输入与重建后的之间的均值误差,同理表示英语句子的输入,代表将输入编码为一个隐藏向量表示,表示从隐藏向量表示中重建 表示输入与重建后的之间的均值误差;
Step2.2、基于汉-英平行语料、英-缅平行语料,学习跨语言下两种语言互相重建时的损失,通过CorrNet把汉、英、缅的三种语言的句子的表征向量投影到公共语义空间,损失函数公式如下所示:
其中,是和两种语言输入的串联表示,是将输入编码为一个隐藏向量表示,表示从隐藏向量表示中重建 表示与重建后的之间的均值误差,S()是一个标准化函数,使和具有零均值和单位方差,vj是汉语、缅语两种语言句子的向量表示,表示将vj编码为隐藏表示,vM是英语句子的向量表示,表示将vM编码为隐藏表示,此外,λ是缩放超参数,corr是如下定义的相关函数:
2.根据权利要求1所述的基于枢轴语言的汉-缅双语平行句对抽取方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、通过在输入中添加噪声函数来重建无噪声输入;
Step1.2、使用降噪编码器DAE训练汉语、英语、缅语三种句子的表征向量。
3.根据权利要求2所述的基于枢轴语言的汉-缅双语平行句对抽取方法,其特征在于:所述Step1.1中,添加噪声函数的具体操作为:删除句子的部分词,或者打乱词的顺序,且噪声函数是N(S|P0,Px),S表示一个句子,P0,Px都是表示概率为[0,1]的数。
6.基于枢轴语言的汉-缅双语平行句对抽取装置,其特征在于:包括如下模块:
句子表征模块,用于将汉语、英语、缅语三种语言的句子分别获取表征向量;
公共语义空间表征模块,用于将已有的汉-英、英-缅平行语料作为约束条件,通过CorrNet把汉、英、缅三种语言的句子的表征向量投影到公共语义空间;
汉缅双语平行句对判断模块,用于使用英语作为枢轴语言,学习汉-英-缅三语的公共表示,计算汉-缅双语句子的距离,根据汉-缅双语句子的距离判断汉-缅双语句子是否为平行句子;
利用降噪编码器将输入的句子进行重建,获取单语语料下每种语言重建时的损失,如下公式;
其中,表示汉语、缅语两种语言句子的输入,代表将输入编码为一个隐藏向量表示,表示从隐藏向量表示中重建 表示输入与重建后的之间的均值误差,同理表示英语句子的输入,代表将输入编码为一个隐藏向量表示,表示从隐藏向量表示中重建 表示输入与重建后的之间的均值误差;
基于汉-英平行语料、英-缅平行语料,学习跨语言下两种语言互相重建时的损失,通过CorrNet把汉、英、缅的三种语言的句子的表征向量投影到公共语义空间,损失函数公式如下所示:
其中,是和两种语言输入的串联表示,是将输入编码为一个隐藏向量表示,表示从隐藏向量表示中重建 表示与重建后的之间的均值误差,S()是一个标准化函数,使和具有零均值和单位方差,vj是汉语、缅语两种语言句子的向量表示,表示将vj编码为隐藏表示,vM是英语句子的向量表示,表示将vM编码为隐藏表示,此外,λ是缩放超参数,corr是如下定义的相关函数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627818.9A CN110516230B (zh) | 2019-07-12 | 2019-07-12 | 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627818.9A CN110516230B (zh) | 2019-07-12 | 2019-07-12 | 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516230A CN110516230A (zh) | 2019-11-29 |
CN110516230B true CN110516230B (zh) | 2020-09-08 |
Family
ID=68622954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910627818.9A Active CN110516230B (zh) | 2019-07-12 | 2019-07-12 | 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516230B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310480B (zh) * | 2020-01-20 | 2021-12-28 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN112287688B (zh) * | 2020-09-17 | 2022-02-11 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN112257460B (zh) * | 2020-09-25 | 2022-06-21 | 昆明理工大学 | 基于枢轴的汉越联合训练神经机器翻译方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591857A (zh) * | 2011-01-10 | 2012-07-18 | 富士通株式会社 | 一种平行语料资源获取方法及系统 |
CN105512114A (zh) * | 2015-12-14 | 2016-04-20 | 清华大学 | 平行句对的筛选方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105163121B (zh) * | 2015-08-24 | 2018-04-17 | 西安电子科技大学 | 基于深度自编码网络的大压缩比卫星遥感图像压缩方法 |
-
2019
- 2019-07-12 CN CN201910627818.9A patent/CN110516230B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102591857A (zh) * | 2011-01-10 | 2012-07-18 | 富士通株式会社 | 一种平行语料资源获取方法及系统 |
CN105512114A (zh) * | 2015-12-14 | 2016-04-20 | 清华大学 | 平行句对的筛选方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110516230A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zahran et al. | Word representations in vector space and their applications for arabic | |
CN112541343B (zh) | 基于词对齐的半监督对抗学习跨语言摘要生成方法 | |
Fernandes et al. | Quality-aware decoding for neural machine translation | |
Cha et al. | Language modeling by clustering with word embeddings for text readability assessment | |
CN110516230B (zh) | 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 | |
CN110378409A (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN112287695A (zh) | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN111984782A (zh) | 藏文文本摘要生成方法和系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115017299A (zh) | 一种基于去噪图自编码器的无监督社交媒体摘要方法 | |
Ordoñez et al. | Will longformers PAN out for authorship verification | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
Adjeisah et al. | Pseudotext Injection and Advance Filtering of Low‐Resource Corpus for Neural Machine Translation | |
Babić et al. | A comparison of approaches for measuring the semantic similarity of short texts based on word embeddings | |
CN114742069A (zh) | 一种代码相似度检测方法及装置 | |
Chauhan et al. | Improved unsupervised neural machine translation with semantically weighted back translation for morphologically rich and low resource languages | |
Raju et al. | Effective preprocessing based neural machine translation for english to telugu cross-language information retrieval | |
Wu et al. | An intelligent duplicate bug report detection method based on technical term extraction | |
CN115129818A (zh) | 基于知识驱动多分类的情绪原因对提取方法及系统 | |
Wijayanti et al. | Learning bilingual word embedding for automatic text summarization in low resource language | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
Lv et al. | Siamese multiplicative LSTM for semantic text similarity | |
de Lacalle et al. | Evaluating multimodal representations on sentence similarity: vSTS, visual semantic textual similarity dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |