CN115329785B - 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 - Google Patents
融入音素特征的英-泰-老多语言神经机器翻译方法及装置 Download PDFInfo
- Publication number
- CN115329785B CN115329785B CN202211262749.4A CN202211262749A CN115329785B CN 115329785 B CN115329785 B CN 115329785B CN 202211262749 A CN202211262749 A CN 202211262749A CN 115329785 B CN115329785 B CN 115329785B
- Authority
- CN
- China
- Prior art keywords
- tai
- language
- phoneme
- english
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融入音素特征的英‑泰‑老多语言神经机器翻译方法及装置,属于自然语言处理技术领域。泰语和老挝语属于低资源语言,多语言神经机器翻译方法可以有效提升其翻译质量。针对泰老之间字符差异较大导致现有方法难以得到统一词表征形式的问题,本发明提出了一种融入音素特征的英‑泰‑老多语言神经机器翻译方法,主要包括文本数据预处理以及音素的生成与处理、融入音素特征的英‑泰‑老多语言神经机器翻译方法、英‑泰‑老多语言神经机器翻译三部分。根据这三个功能模块化制成融入音素特征的英‑泰‑老多语言神经机器翻译装置,对输入的泰语或老挝语进行翻译,本发明有效提升了英泰老多语言机器翻译效果。
Description
技术领域
本发明涉及融入音素特征的英-泰-老多语言神经机器翻译方法及装置,属于自然语言处理技术领域。
背景技术
多语言神经机器翻译(MNMT)在低资源语言翻译上取得了较好的效果,相比单独训练双语翻译模型,MNMT能够通过共享跨语言知识来提升资源稀缺语言的机器翻译性能。然而,在如何利用语言之间特有的知识上仍有较大的研究空间。
现有方法在进行多语言词表征时,由于不同语言之间字符差异性较大难以得到统一的词表征形式,例如,泰语和老挝语属于孤立型语言,不具备天然分词,在机器翻译模型训练的过程中,泰语、老挝语和英语之间的语言差异性极大,仅仅通过联合训练或参数共享的方式无法得到准确的语义表征。泰语和老挝语都属于汉藏语系壮侗语族的壮傣语支,在构词特点、词语音素以及句法结构上都有相同或相似的地方,特别是在音素层面上,大部分具有相同含义的泰语、老挝语音素相同。泰语和老挝语句法结构基本一致,都属于主语-谓语-宾语(Subject-Verb-Object, SVO)的结构,音素也有较高的相似度,如汉语“去”对应的老挝语音素pai-khao和泰语音素pai-khao相同,并且,汉语“我”和“厕所”对应的泰语、老挝语音素也具备一定的相似性,这说明泰语、老挝语两种语言在音素层面上存在大量的一致性。相似性高的语言进行多语言联合训练时,该特性有助于提高翻译模型性能,这是因为模型在训练过程中能自动学习到语言在句法、词法等层面上的相似特征。针对以上问题,本发明提出了融入音素特征的英-泰-老多语言神经机器翻译方法。
发明内容
本发明提供了融入音素特征的英-泰-老多语言神经机器翻译方法及装置,以缓解泰语和老挝语数据稀缺以及词表征不统一的问题,提高英泰老多语言机器翻译效果。
本发明的技术方案是:第一方面,基于融入音素特征的英-泰-老多语言神经机器翻译方法,所述融入音素特征的英-泰-老多语言神经机器翻译方法的具体步骤如下:
Step1、数据预处理:多语言联合训练可以有效提升低资源翻译效果,但是泰语和老挝语字符差异较大,无法得到统一的词表征形式,因此结合音素级别的语言相似性特点,将文本转化为对应的音素,利用音素特征拉近语义距离,同时本发明使用BPE方法进行分词,使泰-老音素特征可以联合学习;
Step2、融入音素特征的英-泰-老多语言神经机器翻译模型训练:针对泰语和老挝语字符差异较大的问题,利用语言相似性能够拉近语义距离,设计音素特征表示模块和泰老文本表示模块,基于交叉注意力机制得到融合音素特征后的泰老文本表示,拉近泰老之间的语义距离,针对多语言联合训练会造成模型过度泛化的问题,基于参数分化策略对模型进行微调;
Step3、英-泰-老多语言神经机器翻译:通过调用服务器上部署的英-泰-老多语言神经机器翻译模型能够高效将泰语和老挝语翻译成英语。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、本发明的文本数据来源于亚洲语言树库(ALT),泰-英和老-英分别有20106条平行句对。由于该数据集没有划分训练集、验证集和测试集,本发明选取泰-英和老-英数据各1000条作为验证集,取1106条作为测试集,剩余的18000条作为训练集。利用G2P(字符转音素)工具将泰语和老挝语文本转化成对应的音素序列。例如将泰语文本“”转化为音素序列“pai-khao”,将对应的老挝语文本“”转化为音素序列“pai-khao”;
Step1.2、为了对泰-老音素特征联合学习,对所有训练数据中的文本和音素进行联合BPE,共享词表大小设置为4000,再利用该词表分别对所有数据分子词,以便后续模型进行特征学习;
作为本发明的优选方案,所述Step2的具体步骤为:
其中Multihead为多头注意力机制,计算如下:
Step2.4、文本词向量表征为查询向量,音素词向量表征为键向量和值向量,经过音素-文本交叉注意力机制得到融入音素特征的文本表示,并采用加权的方式与进行融合,最后使用位置前馈网络FFN更新序列每个位置的状态,得到:
Step2.5、本发明解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成。与泰老文本表示模块类似,首先将泰语或老挝语句子x对应的英语句子进行词向量表征得到,其中z为目标语言序列长度;
Step2.6、经过多层解码器之后,将解码器最后一层的输出作为softmax层的输入,并预测目标句子的概率分布:
Step2.7、根据标签值和预测值的差异计算多语言联合损失,并通过反向传播对模型进行调优,迭代训练直到模型收敛,目标函数如下:
其中,D是训练语料中所有平行句对的集合,是模型中所有参数的集合,L表示模型联合训练的语言对总数,N表示目标语言句子长度,表示训练语料中属于第l个语言对的平行句对数量,表示第l语言对中第d个句子的第t个单词的翻译概率,表示模型中编码器的参数,表示模型中解码器的参数,表示模型中注意力机制的参数。
Step2.8、考虑到不同语言之间的参数干扰问题,本发明基于该思想对模型进行微调,即针对训练好的模型,分别利用泰语-英语和老挝语-英语的验证集获取两个语言对在各个参数上的梯度,并依此计算各个参数上两个语言对梯度的余弦相似度,公式如下:
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、将输入的文本转化出对应的音素,并根据词表利用BPE对文本和音素进行分词操作,最后将文本和音素的子词序列转化为对应id,以便对其进行向量表示。
Step3.2、将训练出的“.pt”格式模型部署到服务器端上,从而实现通过Web多用户并发请求的功能。
Step3.3、在Web端调用部署到服务器端的英-泰-老多语言神经机器翻译模型,来测试输入的文本,进而得到准确值高的泰语和老挝语翻译结果。
第二方面,提供一种融入音素特征的英-泰-老多语言神经机器翻译装置,包括如下模块:
文本数据预处理以及音素的生成与处理模块,用于实现以下功能:用于结合音素级别的语言相似性特点,将文本转化为对应的音素,利用音素特征拉近语义距离,同时使用BPE方法进行分词,使泰-老音素特征能联合学习;
融入音素特征的英-泰-老多语言神经机器翻译模型训练模块:用于利用语言相似性能拉近语义距离,设计音素特征表示模块和泰老文本表示模块,基于交叉注意力机制得到融合音素特征后的泰老文本表示,拉近泰老之间的语义距离,针对多语言联合训练会造成模型过度泛化的问题,基于参数分化策略对模型进行微调;
英-泰-老多语言神经机器翻译模块:用于通过调用服务器上部署的英-泰-老多语言神经机器翻译模型能高效将泰语和老挝语翻译成英语。
本发明的有益效果是:
1、本发明提出了联合泰语、老挝语音素特征和文本表示方法,基于交叉注意力机制进一步学习融合音素特征后的文本表示,进一步拉近了泰语、老挝语之间的语义表征距离。
2、本发明基于参数分化策略,保留不同语言对之间特定的训练参数,通过微调的方式有效改善了模型翻译性能,降低不同语言对参数的干扰,缓解了联合训练造成的模型过度泛化问题。
附图说明
图1为本发明中融合音素特征的多语言神经机器翻译模型框架图;
图2为本发明中基于交叉注意力机制的音素-文本表示模块图;
图3为本发明中融入音素特征的英-泰-老多语言神经机器翻译方法整体流程图。
具体实施方式
实施例1:如图1-图3所示,融入音素特征的英-泰-老多语言神经机器翻译方法,所述融入音素特征的英-泰-老多语言神经机器翻译方法的具体步骤如下:
Step1、数据预处理:多语言联合训练可以有效提升低资源翻译效果,但是泰语和老挝语字符差异较大,无法得到统一的词表征形式,本发明结合其音素级别的语言相似性特点,将文本转化为对应的音素,利用音素特征拉近语义距离,同时本发明使用BPE方法进行分词,使泰-老音素特征可以联合学习;
Step2、融入音素特征的英-泰-老多语言神经机器翻译模型训练:针对泰语和老挝语字符差异较大的问题,考虑利用语言相似性能够拉近语义距离,设计音素特征表示模块和泰老文本表示模块,基于交叉注意力机制得到融合音素特征后的泰老文本表示,拉近泰老之间的语义距离,针对多语言联合训练会造成模型过度泛化的问题,基于参数分化策略对模型进行微调;
Step3、英-泰-老多语言神经机器翻译:通过调用服务器上部署的英-泰-老多语言神经机器翻译模型能够高效将泰语和老挝语翻译成英语。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、本发明的文本数据来源于亚洲语言树库(ALT),泰-英和老-英分别有20106条平行句对。由于该数据集没有划分训练集、验证集和测试集,本发明选取泰-英和老-英数据各1000条作为验证集,取1106条作为测试集,剩余的18000条作为训练集。利用G2P(字符转音素)工具将泰语和老挝语文本转化成对应的音素序列。例如将泰语文本“”转化为音素序列“pai-khao”,将对应的老挝语文本“”转化为音素序列“pai-khao”;
Step1.2、为了对泰-老音素特征联合学习,本发明对所有训练数据中的文本和音素进行联合BPE,共享词表大小设置为4000,再利用该词表分别对所有数据分子词,以便后续模型进行特征学习;
作为本发明的优选方案,所述Step2的具体步骤为:
其中Multihead为多头注意力机制,计算如下:
Step2.4、文本词向量表征为查询向量,音素词向量表征为键向量和值向量,经过音素-文本交叉注意力机制得到融入音素特征的文本表示,并采用加权的方式与进行融合,最后使用位置前馈网络FFN更新序列每个位置的状态,得到:
Step2.5、本发明解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成。与泰老文本表示模块类似,首先将泰语或老挝语句子x对应的英语句子进行词向量表征得到,其中z为目标语言序列长度;
Step2.6、经过多层解码器之后,将解码器最后一层的输出作为softmax层的输入,并预测目标句子的概率分布:
Step2.7、根据标签值和预测值的差异计算多语言联合损失,并通过反向传播对模型进行调优,迭代训练直到模型收敛,目标函数如下:
其中,D是训练语料中所有平行句对的集合,是模型中所有参数的集合,L表示模型联合训练的语言对总数,N表示目标语言句子长度,表示训练语料中属于第l个语言对的平行句对数量,表示第l语言对中第d个句子的第t个单词的翻译概率,表示模型中编码器的参数,表示模型中解码器的参数,表示模型中注意力机制的参数。
Step2.8、考虑到不同语言之间的参数干扰问题,本发明基于该思想对模型进行微调,即针对训练好的模型,分别利用泰语-英语和老挝语-英语的验证集获取两个语言对在各个参数上的梯度,并依此计算各个参数上两个语言对梯度的余弦相似度,公式如下:
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、将输入的文本转化出对应的音素,并根据词表利用BPE对文本和音素进行分词操作,最后将文本和音素的子词序列转化为对应id,以便对其进行向量表示。
Step3.2、将训练出的“.pt”格式模型部署到服务器端上,从而实现通过Web多用户并发请求的功能。
Step3.3、在Web端调用部署到服务器端的英-泰-老多语言神经机器翻译模型,来测试输入的文本,进而得到准确值高的泰语和老挝语翻译结果。
根据本发明的构思,本发明还提供了一种融入音素特征的英-泰-老多语言神经机器翻译装置,如图3所示,该装置包括如下集成模块:
文本数据预处理以及音素的生成与处理模块,用于实现以下功能:用于结合音素级别的语言相似性特点,将文本转化为对应的音素,利用音素特征拉近语义距离,同时使用BPE方法进行分词,使泰-老音素特征能联合学习;
融入音素特征的英-泰-老多语言神经机器翻译模型训练模块:用于利用语言相似性能拉近语义距离,设计音素特征表示模块和泰老文本表示模块,基于交叉注意力机制得到融合音素特征后的泰老文本表示,拉近泰老之间的语义距离,针对多语言联合训练会造成模型过度泛化的问题,基于参数分化策略对模型进行微调;
英-泰-老多语言神经机器翻译模块:用于通过调用服务器上部署的英-泰-老多语言神经机器翻译模型能高效将泰语和老挝语翻译成英语。
为了验证本发明提出的融入音素特征的英-泰-老多语言神经机器翻译方法的效果,设计了对比实验和消融实验。
表1 一对一及多对一翻译场景下的实验结果
实验如表1所示,在一对一的翻译场景下,基于Transformer框架在老-英和泰-英翻译方向上BLEU值分别达到了9.72和14.70。在多对一的翻译场景下,所有模型相比一对一场景下的BLEU值均有明显提升,其中,本发明提出的方法在老-英和泰-英翻译方向上BLEU值分别达到了15.40和17.99,取得了最高水平,在老-英和泰-英翻译方向上BLEU值分别提升了5.68和3.29,这说明利用MNMT方法将老挝语-英语和泰语-英语联合训练,可以通过知识迁移有效缓解老挝语和泰语数据稀缺导致的模型翻译性能不佳的问题。
此外,本发明方法相比Multi-Source在老-英和泰-英翻译方向上BLEU值分别提升了2.65和1.86,这说明共享编码器可以有效利用泰老语言相似性,提升模型翻译效果。相比Adapter,本发明方法在老-英和泰-英翻译方向上BLEU值分别提升了0.87和1.20,这说明低资源情况下单独训练额外参数效果不佳,本发明采用微调语言特定模块的方式,避免了引入额外参数。相比PD,本发明方法在老-英和泰-英翻译方向上BLEU值分别提升了1.36和1.63,这说明该方法会过早分离模型参数从而导致模型知识迁移不充分,本发明通过将参数分化思想应用到微调阶段缓解了该问题。相比Lass,本发明方法在老-英和泰-英翻译方向上BLEU值分别提升了2.86和2.75,这说明该方法依赖大规模的模型参数和训练数据,在低资源情况下会出现过度裁剪而丢失部分共有参数的问题,本发明通过微调的方式在学习语言特定知识的同时保留了语言相似特征。相比Baseline,本发明方法在老-英和泰-英翻译方向上BLEU值分别提升了0.97和0.99,说明本发明方法可以有效拉近泰老之间的语义距离并缓解联合训练造成的模型过度泛化的问题,提升翻译模型性能。
表2是设计了去除音素特征、去除基于参数分化的微调策略的消融实验,其它层保持不变进行模型训练。
表2 消融实验
方法 | 老-英 | 泰-英 | ||
Baseline | 14.43 | - | 17.00 | - |
Baseline+音素 | 15.13 | +0.70 | 17.74 | +0.74 |
Baseline+参数分化 | 14.64 | +0.21 | 17.23 | +0.23 |
Baseline+音素+参数分化 | 15.40 | +0.97 | 17.99 | +0.99 |
实验结果表明,融入音素特征使模型在老-英和泰-英翻译方向上BLEU值分别提升了0.70和0.74,说明该方法可以有效拉近泰老之间的语义距离,缓解泰老字符差异较大导致的词表征形式不同意的问题,大幅提升模型翻译效果。基于参数分化思想的微调策略使模型在老-英和泰-英翻译方向上BLEU值分别提升了0.21和0.23,说明该方法可以学习到语言特定知识,缓解联合训练造成模型过度泛化的问题,进一步提升模型性能。基线模型+音素的方式相比基线模型+参数分化的方式,在老-英和泰-英翻译方向上的BLEU值提升更为明显,说明本发明提出的方法对翻译性能带来的提升更依赖于泰语和老挝语之间的音素相似性,进一步说明在多语言神经机器翻译中,有效利用语言之间的相似性能够提升机器翻译性能。两种方法可同时使用,此时模型效果达到最佳,在老-英和泰-英翻译方向上BLEU值分别提升了0.97和0.99,充分证明了本发明方法的有效性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.融入音素特征的英-泰-老多语言神经机器翻译方法,其特征在于:
所述融入音素特征的英-泰-老多语言神经机器翻译方法的具体步骤如下:
Step1、数据预处理:结合音素级别的语言相似性特点,将文本转化为对应的音素,利用音素特征拉近语义距离,同时使用BPE方法进行分词,使泰-老音素特征能联合学习;
Step2、融入音素特征的英-泰-老多语言神经机器翻译模型训练:利用语言相似性能拉近语义距离,设计音素特征表示模块和泰老文本表示模块,基于交叉注意力机制得到融合音素特征后的泰老文本表示,拉近泰老之间的语义距离,针对多语言联合训练会造成模型过度泛化的问题,基于参数分化策略对模型进行微调;
Step3、英-泰-老多语言神经机器翻译:通过调用服务器上部署的英-泰-老多语言神经机器翻译模型将泰语和老挝语翻译成英语。
2.根据权利要求1所述的融入音素特征的英-泰-老多语言神经机器翻译方法,其特征在于:所述Step1的具体步骤为:
Step1.1、文本数据来源于亚洲语言树库ALT,泰-英和老-英分别有20106条平行句对;由于该数据集没有划分训练集、验证集和测试集,选取泰-英和老-英数据各1000条作为验证集,取1106条作为测试集,剩余的18000条作为训练集;利用G2P字符转音素工具将泰语和老挝语文本转化成对应的音素序列;
Step1.2、为了对泰-老音素特征联合学习,对所有训练数据中的文本和音素进行联合BPE,共享词表大小设置为4000,再利用该词表分别对所有数据分子词,以便后续模型进行特征学习。
3.根据权利要求1所述的融入音素特征的英-泰-老多语言神经机器翻译方法,其特征在于:所述Step2的具体步骤为:
其中Multihead为多头注意力机制,计算如下:
Step2.4、文本词向量表征为查询向量,音素词向量表征为键向量和值向量,经过音素-文本交叉注意力机制得到融入音素特征的文本表示,并采用加权的方式与进行融合,最后使用位置前馈网络FFN更新序列每个位置的状态,得到:
Step2.5、解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成;与泰老文本表示模块类似,首先将泰语或老挝语句子x对应的英语句子进行词向量表征得到,其中z为目标语言序列长度;
Step2.6、经过多层解码器之后,将解码器最后一层的输出作为softmax层的输入,并预测目标句子的概率分布:
Step2.7、根据标签值和预测值的差异计算多语言联合损失,并通过反向传播对模型进行调优,迭代训练直到模型收敛,目标函数如下:
其中,D是训练语料中所有平行句对的集合,是模型中所有参数的集合,L表示模型联合训练的语言对总数,N表示目标语言句子长度,表示训练语料中属于第l个语言对的平行句对数量,表示第l语言对中第d个句子的第t个单词的翻译概率,表示模型中编码器的参数,表示模型中解码器的参数,表示模型中注意力机制的参数;
Step2.8、对模型进行微调,即针对训练好的模型,分别利用泰语-英语和老挝语-英语的验证集获取两个语言对在各个参数上的梯度,并依此计算各个参数上两个语言对梯度的余弦相似度,公式如下:
4.根据权利要求1所述的融入音素特征的英-泰-老多语言神经机器翻译方法,其特征在于:所述Step3的具体步骤为:
Step3.1、将输入的文本转化出对应的音素,并根据词表利用BPE对文本和音素进行分词操作,最后将文本和音素的子词序列转化为对应id,以便对其进行向量表示;
Step3.2、将训练出的“.pt”格式模型部署到服务器端上,从而实现通过Web多用户并发请求的功能;
Step3.3、在Web端调用部署到服务器端的英-泰-老多语言神经机器翻译模型,来测试输入的文本,进而得到准确值高的泰语和老挝语翻译结果。
5.融入音素特征的英-泰-老多语言神经机器翻译装置,其特征在于:包括用于执行如权利要求1-4任一项权利要求所述方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211262749.4A CN115329785B (zh) | 2022-10-15 | 2022-10-15 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211262749.4A CN115329785B (zh) | 2022-10-15 | 2022-10-15 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115329785A CN115329785A (zh) | 2022-11-11 |
CN115329785B true CN115329785B (zh) | 2023-01-20 |
Family
ID=83914629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211262749.4A Active CN115329785B (zh) | 2022-10-15 | 2022-10-15 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329785B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116822517B (zh) * | 2023-08-29 | 2023-11-10 | 百舜信息技术有限公司 | 一种多语言翻译的术语识别方法 |
CN116822495B (zh) * | 2023-08-31 | 2023-11-03 | 小语智能信息科技(云南)有限公司 | 基于对比学习的汉-老、泰平行句对抽取方法及装置 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105632485A (zh) * | 2015-12-28 | 2016-06-01 | 浙江大学 | 一种基于语种识别系统的语言距离关系的获取方法 |
CN105723362A (zh) * | 2013-10-28 | 2016-06-29 | 余自立 | 自然表达处理方法、处理及回应方法、设备及系统 |
CN106328127A (zh) * | 2015-06-30 | 2017-01-11 | 三星电子株式会社 | 语音识别设备,语音识别方法和电子装置 |
CN108170686A (zh) * | 2017-12-29 | 2018-06-15 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
CN110457719A (zh) * | 2019-10-08 | 2019-11-15 | 北京金山数字娱乐科技有限公司 | 一种翻译模型结果重排序的方法及装置 |
JP2020126493A (ja) * | 2019-02-05 | 2020-08-20 | 富士通株式会社 | 対訳処理方法および対訳処理プログラム |
CN112183106A (zh) * | 2020-09-03 | 2021-01-05 | 广发证券股份有限公司 | 一种基于音素联想及深度学习的语义理解方法及装置 |
CN112329485A (zh) * | 2020-11-23 | 2021-02-05 | 深圳云译科技有限公司 | 翻译方法、装置、系统及存储介质 |
CN112562640A (zh) * | 2020-12-01 | 2021-03-26 | 北京声智科技有限公司 | 多语言语音识别方法、装置、系统及计算机可读存储介质 |
CN113823259A (zh) * | 2021-07-22 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 将文本数据转换为音素序列的方法及设备 |
CN113887480A (zh) * | 2021-10-19 | 2022-01-04 | 小语智能信息科技(云南)有限公司 | 基于多解码器联合学习的缅甸语图像文本识别方法及装置 |
WO2022038692A1 (ja) * | 2020-08-19 | 2022-02-24 | 日本電信電話株式会社 | 変換装置、変換方法、およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019139431A1 (ko) * | 2018-01-11 | 2019-07-18 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 |
CN112352275A (zh) * | 2018-12-13 | 2021-02-09 | 微软技术许可有限责任公司 | 具有多级别文本信息的神经文本到语音合成 |
US11113859B1 (en) * | 2019-07-10 | 2021-09-07 | Facebook Technologies, Llc | System and method for rendering three dimensional face model based on audio stream and image data |
CN110717341B (zh) * | 2019-09-11 | 2022-06-14 | 昆明理工大学 | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 |
CN112489618A (zh) * | 2019-09-12 | 2021-03-12 | 微软技术许可有限责任公司 | 利用多级别上下文特征的神经文本到语音合成 |
CN113627150B (zh) * | 2021-07-01 | 2022-12-20 | 昆明理工大学 | 基于语言相似性的迁移学习平行句对抽取方法及装置 |
-
2022
- 2022-10-15 CN CN202211262749.4A patent/CN115329785B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105723362A (zh) * | 2013-10-28 | 2016-06-29 | 余自立 | 自然表达处理方法、处理及回应方法、设备及系统 |
CN106328127A (zh) * | 2015-06-30 | 2017-01-11 | 三星电子株式会社 | 语音识别设备,语音识别方法和电子装置 |
CN105632485A (zh) * | 2015-12-28 | 2016-06-01 | 浙江大学 | 一种基于语种识别系统的语言距离关系的获取方法 |
CN108170686A (zh) * | 2017-12-29 | 2018-06-15 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
JP2020126493A (ja) * | 2019-02-05 | 2020-08-20 | 富士通株式会社 | 対訳処理方法および対訳処理プログラム |
CN110457719A (zh) * | 2019-10-08 | 2019-11-15 | 北京金山数字娱乐科技有限公司 | 一种翻译模型结果重排序的方法及装置 |
WO2022038692A1 (ja) * | 2020-08-19 | 2022-02-24 | 日本電信電話株式会社 | 変換装置、変換方法、およびプログラム |
CN112183106A (zh) * | 2020-09-03 | 2021-01-05 | 广发证券股份有限公司 | 一种基于音素联想及深度学习的语义理解方法及装置 |
CN112329485A (zh) * | 2020-11-23 | 2021-02-05 | 深圳云译科技有限公司 | 翻译方法、装置、系统及存储介质 |
CN112562640A (zh) * | 2020-12-01 | 2021-03-26 | 北京声智科技有限公司 | 多语言语音识别方法、装置、系统及计算机可读存储介质 |
CN113823259A (zh) * | 2021-07-22 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 将文本数据转换为音素序列的方法及设备 |
CN113887480A (zh) * | 2021-10-19 | 2022-01-04 | 小语智能信息科技(云南)有限公司 | 基于多解码器联合学习的缅甸语图像文本识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
《Computer Speech & Language》;Qianchen等;《INTERSPEECH 2021》;20210903;1244-1248 * |
n integrating a language model into neural machine translation;n integrating a language model into neural machine translation;《Computer Speech & Language》;20170930;137-148 * |
主观题自动评分研究——回顾、反思与展望;江进林等;《中国外语》;20211101;58-64 * |
Also Published As
Publication number | Publication date |
---|---|
CN115329785A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920473B (zh) | 一种基于同类词与同义词替换的数据增强机器翻译方法 | |
CN115329785B (zh) | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 | |
Zhang et al. | Style transfer as unsupervised machine translation | |
CN111382580B (zh) | 一种面向神经机器翻译的编码器-解码器框架预训练方法 | |
CN110070855B (zh) | 一种基于迁移神经网络声学模型的语音识别系统及方法 | |
Sen et al. | Neural machine translation of low-resource languages using SMT phrase pair injection | |
Jian et al. | Lstm-based attentional embedding for English machine translation | |
CN115935959A (zh) | 一种低资源黏着语序列标注的方法 | |
CN112257460A (zh) | 基于枢轴的汉越联合训练神经机器翻译方法 | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN113657125B (zh) | 一种基于知识图谱的蒙汉非自回归机器翻译方法 | |
Sun | [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology | |
CN115860015B (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 | |
Hirasawa et al. | Pre-trained word embedding and language model improve multimodal machine translation: A case study in Multi30K | |
Shi et al. | Adding Visual Information to Improve Multimodal Machine Translation for Low-Resource Language | |
Soky et al. | TriECCC: Trilingual Corpus of the Extraordinary Chambers in the Courts of Cambodia for Speech Recognition and Translation Studies | |
He | Self-calibration system for pragmatic failure in English-Chinese translation based on big data | |
Zhang | Research on English machine translation system based on the internet | |
Al Shiam et al. | A neural attention-based encoder-decoder approach for english to bangla translation | |
Laitonjam et al. | A Hybrid Machine Transliteration Model Based on Multi-source Encoder–Decoder Framework: English to Manipuri | |
Zhou et al. | Research trend in the international literatures on machine translation based on CiteSpace | |
Li et al. | Summer: WeChat Neural Machine Translation Systems for the WMT22 Biomedical Translation Task | |
CN115496079B (zh) | 一种中文翻译方法和装置 | |
Liu et al. | Sentence Simplification Using Paraphrase Corpus for Initialization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |