CN112395891A - 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法 - Google Patents

一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法 Download PDF

Info

Publication number
CN112395891A
CN112395891A CN202011393610.4A CN202011393610A CN112395891A CN 112395891 A CN112395891 A CN 112395891A CN 202011393610 A CN202011393610 A CN 202011393610A CN 112395891 A CN112395891 A CN 112395891A
Authority
CN
China
Prior art keywords
fine
model
information
translation
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011393610.4A
Other languages
English (en)
Inventor
苏依拉
张妍彤
王涵
程永坤
仁庆道尔吉
石宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202011393610.4A priority Critical patent/CN112395891A/zh
Publication of CN112395891A publication Critical patent/CN112395891A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明为解决目前汉蒙机器翻译译文质量低、翻译效果不理想问题,提出了一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法,首先,本发明从蒙古文的语言特点出发,将蒙古文数据进行词根、词缀的切分,将中文进行字粒度切分。其次,本发明采用当前比较先进的谷歌提供的已经预训练好的开源Bert语言模型,将Bert语言模型的输出直接送入每一层编码器中的Bert注意力模块中,这样可以有效把中文的语义信息融入编码器。最后,本发明结合细粒度压缩的方法,通过信息熵对信息表示进行细粒度压缩,从而达到模型加速推断的目的。本发明在进行蒙汉翻译的过程中,通过使用Bert语言模型引入更多的语义信息,使翻译准确度更高;通过使用细粒度压缩的方法使得模型能够有更快的训练速度。

Description

一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法
技术领域
本发明属于机器翻译技术领域,特别涉及一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法。
背景技术
机器翻译是借助计算机自动地将一种自然语言(源语言)转化为含义相同的另外一种自然语言(目标语言)的过程。它高度依赖平行语料数据的规模以及质量。随着国际间交流日趋频繁,机器翻译作为一种重要的技术,在人们的生活中扮演着重要的角色。其发展历程从早期的词典匹配、规则翻译,到基于语料库的统计机器翻译,再到当前主流的神经网络机器翻译(NMT)。然而,目前可使用的蒙汉平行语料资源规模有限。
蒙古语是一种黏着语,属于阿尔泰语系,本发明研究的是传统蒙古文到中文的翻译。蒙古文单词以词根+词缀的形式呈现,词缀分为两类:一类是派生词缀,它和词根结合形成新的含义,一个词根后面结合一个或多个派生词缀形成词干;另一类结合词干用于表达语法含义。蒙古文词形变化非常复杂。它的语序与中文有很大的差别。
语言模型就是根据上下文去预测下一个词是什么,这不需要人工标注语料,所以它能够从无限制的大规模单语语料中,学习到丰富的语义知识。因此对于像蒙古语这样语料资源有限的语种,将语言模型融入到翻译模型中能够提高翻译质量。Bert语言模型是当前热门的选择之一,它的核心思想是:通过预训练为无标记的文本提供基于上下文信息的双向特征表征。Bert语言模型具备广泛的通用性。
目前,虽然已经有一些针对低资源语言的机器翻译技术被提出,但仍旧存在平行语料库匮乏的问题,同时大量注意力操作的使用也导致模型整体的推断效率相对较低从而导致翻译译文的质量并不理想。
发明内容
为了克服上述现有技术的缺点,解决目前汉蒙机器翻译译文质量低、翻译效果不理想问题,本发明的目的在于提供一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法,可提高蒙汉翻译译文质量,加速模型推断速度。
为了实现上述目的,本发明采用的技术方案是:
一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法,包括:
步骤1,将蒙古文数据和中文数据进行预处理;
步骤2,采用Transformer翻译模型,所述Transformer翻译模型的主体是基于自注意力机制构造的编码器和解码器;利用已经预训练好的开源Bert语言模型,将Bert语言模型的输出直接当作每一层编码器中Bert注意力模块的输入,从而将中文的语义信息融入编码器,引入更多的语义信息;
步骤3,结合细粒度压缩方法,通过信息熵对信息表示进行细粒度压缩,从而达到加速推断的目的。
所述步骤1中,从蒙古文的语言特点出发,对蒙古文数据进行词根、词缀的切分,得到比词级粒度更小的粒度;对中文数据进行分字以及字粒度切分。
所述步骤2中,Bert语言模型由Transformer模型的Encoder堆叠而成,其目标是利用大规模无标注语料训练、获得包含丰富语义信息的表示,为谷歌提供的开源模型。
所述步骤2中,首先将源语言句子输入已经训练好的开源Bert语言模型,输出的是包含该句子语义信息的语义表示向量,再将此向量融入编码器中。
所述Bert语言模型和细粒度压缩方法融入Transformer翻译模型。
所述步骤3中,将信息熵作为不同层的注意力权重所包含的信息量大小的衡量指标,通过细粒度压缩对解码器中每层注意力的查询表示Q和键表示K进行信息压缩,从而在译文质量不发生明显改变的情况下提升模型的推断速度。
对于一个随机变量X,信息熵的计算公式如下:
Figure BDA0002813670940000031
其中,E()是信息熵,P(·)为变量X的概率质量函数,G(·)表示所含信息量,xi是第i个事件;
第d个序列的概率质量函数表为:
Figure BDA0002813670940000032
其中,P(Ct)是概率质量函数,Ct代表t时刻句子序列在注意力操作中当前候选语言片段被选中的事件,fq和fk分别为注意力子层的输入,dk为压缩前查询表示Q和键表示K的维度,通过维度变换矩阵Wq和Wk得到Transformer翻译模型注意力层的查询表示Q和键表示K,直接以信息熵的均值作为模型某一层的权重信息量的衡量;
最终得到细粒度表示维度如下:
Figure BDA0002813670940000033
其中,
Figure BDA0002813670940000034
表示细粒度表示维度,B(E)表示细粒度表示维度函数,λ为映射比例的下界,用来表示空间的压缩程度;E表示每一层的信息量,Emin和Emax为所有层中信息量的最小值和最大值,Emax计算公式如下:
Emax=ln(1/dk)
公式中dk为压缩前查询表示Q和键表示K的维度。
与现有的蒙汉机器翻译方法相比,本发明采用当前比较先进的Bert语言模型有效把源语言的语义信息融入翻译模型中。然后,本发明结合细粒度压缩的方法,通过信息熵对信息表示进行细粒度压缩,从而达到模型加速推断的目的。本发明的优势在于:通过使用Bert语言模型引入更多的语义信息,使翻译准确度更高,有效提升了蒙汉翻译译文的质量;通过使用细粒度压缩的方法使得模型能够有更快的训练速度。
附图说明
图1是本发明整体框架图。
图2是本发明的Bert语言模型图。
图3是本发明Bert语言模型中Masked LM框架图。
图4是本发明细粒度压缩示意图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,本发明一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法,包括:
步骤1,将蒙古文数据和中文数据进行预处理。
具体地,从蒙古文的语言特点出发,对蒙古文数据进行词根、词缀的切分,得到比词级粒度更小的粒度;对中文数据进行分字以及字粒度切分。
BPE算法通过将句子拆分来缓解数据稀疏问题,从而提升翻译模型的鲁棒性。它的原理是:将词分割成字符,统计字符对出现的次数,每次将出现次数最多的字符对保存,直至循环次数结束。本发明在进行BPE算法之前,将中文句子进行分字处理,因此经过BPE算法之后粒度更小。
步骤2,采用Transformer翻译模型,Transformer翻译模型的主体是基于自注意力机制构造的编码器和解码器,并搭建了完全基于注意力机制的Seq2Seq模型。Transformer模型在任务表现、并行能力以及训练速度方面都有大幅提升。
本发明中,利用的Bert语言模型是谷歌提供的比较先进的开源模型,由Transformer模型的Encoder堆叠而成,其目标是利用大规模无标注语料训练、获得包含丰富语义信息的表示。语言模型通常采用大规模、与特定NLP任务无关的文本语料进行训练,其目标是学习语言本身应该是什么样的。在本发明中,利用已经预训练好的开源Bert语言模型,将Bert语言模型的输出直接当作每一层编码器中Bert注意力模块的输入,从而将中文的语义信息融入编码器。即,将源语言输入已经训练好的开源Bert语言模型,其输出的是包含该句子语义信息的语义表示向量,再将此向量融入编码器中。从而引入更多的语义信息,实现更好的翻译效果。
Bert注意力模块是新添加到Transformer编码器模型中的一部分,随机初始化其参数,目的是接收Bert语言模型的输出,从而有效的把中文的语义信息融入到编码器中;而编码器中的自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,捕捉数据或特征的内部相关性。
Bert语言模型的改进方法之一是Masked LM,它的思想是:给定一句话,随机抹去这句话中的一个或几个词,要求根据剩余词汇预测被抹去的几个词分别是什么。在一句话中随机选择15%的词汇用于预测。对于在原句中被抹去的词汇,80%情况下采用一个特殊符号[MASK]替换,10%情况下采用一个任意词替换,剩余10%情况下保持原词汇不变。采取该手段主要原因是:在后续微调任务中语句中并不会出现[MASK]标记,其另一个好处是:迫使模型更多地依赖于上下文信息去预测词汇,并且赋予了模型一定的纠错能力。
步骤3,结合细粒度压缩方法,通过信息熵对信息表示进行细粒度压缩,从而在不损失翻译质量的基础上达到模型加速推断的目的。本发明可将Bert语言模型和细粒度压缩方法融入Transformer翻译模型,以求改善翻译质量和翻译速度。
本发明将信息熵作为不同层的注意力权重所包含的信息量大小的衡量指标,通过细粒度压缩对解码器中每层注意力的查询表示Q和键表示K进行信息压缩,从而在译文质量不发生明显改变的情况下提升模型的推断速度。
信息熵被用来衡量一个事件中包含信息的期望.由事件的概率分布和每个事件所包含的信息量构成了一个随机变量,熵就是分布产生的信息量的平均值。对于一个随机变量X,信息熵的计算公式如下式(1):
Figure BDA0002813670940000061
其中,E()是信息熵,P(·)为变量X的概率质量函数,G(·)表示所含信息量,xi是第i个事件;
第d个序列的概率质量函数表为式(2):
Figure BDA0002813670940000062
其中,P(Ct)是概率质量函数,Ct代表t时刻句子序列在注意力操作中当前候选语言片段被选中的事件,fq和fk分别为注意力子层的输入,dk为压缩前查询表示Q和键表示K的维度,通过维度变换矩阵Wq和Wk得到Transformer翻译模型注意力层的查询表示Q和键表示K,直接以信息熵的均值作为模型某一层的权重信息量的衡量;
最终得到细粒度表示维度如式(3):
Figure BDA0002813670940000063
其中,
Figure BDA0002813670940000064
表示细粒度表示维度,B(E)表示细粒度表示维度函数,λ为映射比例的下界,用来表示空间的压缩程度;E表示每一层的信息量,Emin和Emax为所有层中信息量的最小值和最大值,Emax计算公式如式(4):
Emax=ln(1/dk) (4)
公式中dk为压缩前查询表示Q和键表示K的维度。
本发明具体实现步骤可描述如下:
1、对中文和蒙古语语料进行数据及划分以及数据预处理工作;数据集划分是指划分为训练集、验证集和测试集,数据预处理工作包括中文分词和蒙古语切分处理;
2、构建Transformer机器翻译模型构架,包括编码器和解码器;
3、将训练好的Bert语言模型以注意力机制融入Transformer模型的每一层编码器中,如图1所示,Bert语言模型的细节如图2和3所示;
4、将细粒度压缩方法应用到Transformer解码器中,如图4所示;
5、利用大规模的汉蒙平行语料进行翻译模型的训练;
综上,本发明在进行蒙汉翻译的过程中,通过使用Bert语言模型引入更多的语义信息,使翻译准确度更高;通过使用细粒度压缩的方法使得模型能够有更快的训练速度。

Claims (7)

1.一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法,其特征在于,包括:
步骤1,将蒙古文数据和中文数据进行预处理;
步骤2,采用Transformer翻译模型,所述Transformer翻译模型的主体是基于自注意力机制构造的编码器和解码器;利用已经预训练好的开源Bert语言模型,将Bert语言模型的输出直接当作每一层编码器中Bert注意力模块的输入,从而将中文的语义信息融入编码器,引入更多的语义信息;
步骤3,结合细粒度压缩方法,通过信息熵对信息表示进行细粒度压缩,从而达到加速推断的目的。
2.根据权利要求1所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法,其特征在于,所述步骤1中,从蒙古文的语言特点出发,对蒙古文数据进行词根、词缀的切分,得到比词级粒度更小的粒度;对中文数据进行分字以及字粒度切分。
3.根据权利要求1所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法,其特征在于,所述步骤2中,Bert语言模型由Transformer模型的Encoder堆叠而成,其目标是利用大规模无标注语料训练、获得包含丰富语义信息的表示。
4.根据权利要求1所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法,其特征在于,所述步骤2中,首先将源语言句子输入已经训练好的开源Bert语言模型,输出的是包含该句子语义信息的语义表示向量,再将此向量融入编码器中。
5.根据权利要求1所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法,其特征在于,所述Bert语言模型和细粒度压缩方法融入Transformer翻译模型。
6.根据权利要求5所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法,其特征在于,所述步骤3中,将信息熵作为不同层的注意力权重所包含的信息量大小的衡量指标,通过细粒度压缩对解码器中每层注意力的查询表示Q和键表示K进行信息压缩,从而在译文质量不发生明显改变的情况下提升模型的推断速度。
7.根据权利要求6所述结合Bert语言模型和细粒度压缩的汉蒙翻译方法,其特征在于,对于一个随机变量X,信息熵的计算公式如下:
Figure FDA0002813670930000021
其中,E()是信息熵,P(·)为变量X的概率质量函数,G(·)表示所含信息量,xi是第i个事件;
第d个序列的概率质量函数表为:
Figure FDA0002813670930000022
其中,P(Ct)是概率质量函数,Ct代表t时刻句子序列在注意力操作中当前候选语言片段被选中的事件,fq和fk分别为注意力子层的输入,dk为压缩前查询表示Q和键表示K的维度,通过维度变换矩阵Wq和Wk得到Transformer翻译模型注意力层的查询表示Q和键表示K,直接以信息熵的均值作为模型某一层的权重信息量的衡量;
最终得到细粒度表示维度如下:
Figure FDA0002813670930000023
其中,
Figure FDA0002813670930000024
表示细粒度表示维度,B(E)表示细粒度表示维度函数,λ为映射比例的下界,用来表示空间的压缩程度;E表示每一层的信息量,Emin和Emax为所有层中信息量的最小值和最大值,Emax计算公式如下:
Emax=ln(1/dk)
公式中dk为压缩前查询表示Q和键表示K的维度。
CN202011393610.4A 2020-12-03 2020-12-03 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法 Pending CN112395891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011393610.4A CN112395891A (zh) 2020-12-03 2020-12-03 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011393610.4A CN112395891A (zh) 2020-12-03 2020-12-03 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法

Publications (1)

Publication Number Publication Date
CN112395891A true CN112395891A (zh) 2021-02-23

Family

ID=74604986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011393610.4A Pending CN112395891A (zh) 2020-12-03 2020-12-03 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法

Country Status (1)

Country Link
CN (1) CN112395891A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011176A (zh) * 2021-03-10 2021-06-22 云从科技集团股份有限公司 语言模型训练及其语言推理方法、装置及计算机存储介质
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598222A (zh) * 2019-09-12 2019-12-20 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理系统的训练方法及装置
CN110598223A (zh) * 2019-09-20 2019-12-20 沈阳雅译网络技术有限公司 一种从粗粒度到细粒度的神经机器翻译推断加速方法
US20200184020A1 (en) * 2018-12-11 2020-06-11 Salesforce.Com, Inc. Structured Text Translation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200184020A1 (en) * 2018-12-11 2020-06-11 Salesforce.Com, Inc. Structured Text Translation
CN110598222A (zh) * 2019-09-12 2019-12-20 北京金山数字娱乐科技有限公司 语言处理方法及装置、语言处理系统的训练方法及装置
CN110598223A (zh) * 2019-09-20 2019-12-20 沈阳雅译网络技术有限公司 一种从粗粒度到细粒度的神经机器翻译推断加速方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIARUI ZHANG: "Dynamic Attention Aggregation with BERT for Neural Machine Translation", 《2020 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 *
苏依拉等: "中文字粒度切分在蒙汉机器翻译的应用", 《中文信息学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011176A (zh) * 2021-03-10 2021-06-22 云从科技集团股份有限公司 语言模型训练及其语言推理方法、装置及计算机存储介质
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型

Similar Documents

Publication Publication Date Title
CN109359293B (zh) 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN107967262B (zh) 一种神经网络蒙汉机器翻译方法
CN110532554B (zh) 一种中文摘要生成方法、系统及存储介质
CN110852117B (zh) 一种提升神经机器翻译效果的有效数据增强方法
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN109697232A (zh) 一种基于深度学习的中文文本情感分析方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN107688608A (zh) 智能语音问答方法、装置、计算机设备和可读存储介质
CN109359291A (zh) 一种命名实体识别方法
CN107491444B (zh) 基于双语词嵌入技术的并行化词对齐方法
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN112580373B (zh) 一种高质量蒙汉无监督神经机器翻译方法
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110263154A (zh) 一种网络舆情情感态势量化方法、系统及存储介质
CN112395891A (zh) 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN109325243B (zh) 字符级基于序列模型的蒙古文切词方法及其切词系统
CN114757184A (zh) 实现航空领域知识问答的方法和系统
CN113657122A (zh) 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210223

RJ01 Rejection of invention patent application after publication