CN112084796A - 一种基于Transformer深度学习模型的多语种地名词根汉译方法 - Google Patents

一种基于Transformer深度学习模型的多语种地名词根汉译方法 Download PDF

Info

Publication number
CN112084796A
CN112084796A CN202010967634.XA CN202010967634A CN112084796A CN 112084796 A CN112084796 A CN 112084796A CN 202010967634 A CN202010967634 A CN 202010967634A CN 112084796 A CN112084796 A CN 112084796A
Authority
CN
China
Prior art keywords
place name
root
language
chinese
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010967634.XA
Other languages
English (en)
Other versions
CN112084796B (zh
Inventor
张雪英
赵文强
吴恪涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Wenjing Information Technology Co ltd
Original Assignee
Nanjing Wenjing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Wenjing Information Technology Co ltd filed Critical Nanjing Wenjing Information Technology Co ltd
Priority to CN202010967634.XA priority Critical patent/CN112084796B/zh
Priority to PCT/CN2020/136009 priority patent/WO2022057116A1/zh
Priority to JP2021528844A priority patent/JP2022552029A/ja
Publication of CN112084796A publication Critical patent/CN112084796A/zh
Application granted granted Critical
Publication of CN112084796B publication Critical patent/CN112084796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于Transformer模型的多语种地名汉译方法,其语种范围涵盖英语、法语和德语:基于地名语种知识库结合待汉译地名的语种特征,分辨输入待汉译地名的语种,并根据语种选取地名词根抽取规则库中相应的地名词根抽取规则来提取待汉译地名的词根;将提取到的地名词根文本通过字符嵌入模型转为字符向量;基于英语、法语和德语地名词根与对应中文地名词根翻译语料训练和微调得到的Transformer模型,输入待汉译地名词根的字符向量,获取最终词根汉译结果。本发明提供的汉译的英语、法语和德语地名词根结果均具有较好可读性,符合汉语阅读习惯,一定程度上满足多语种地名词根汉译需求,具有良好的灵活性和普适性。

Description

一种基于Transformer深度学习模型的多语种地名词根汉译 方法
技术领域
本发明涉及机器翻译领域,具体涉及一种基于Transformer深度学习模型的英语、法语和德语地名词根汉译方法。
背景技术
地名作为不可或缺的基础地理信息和社会公共信息,是各类社会信息关联的重要桥梁,在国家和社会管理、经济发展、文化建设、国防外交等方面发挥着重要作用。 经济交往过程中大量外文地名的出现急需提出一种能合理地翻译外文地名的方法。
近年来,神经机器翻译方面的研究得到迅速发展,相对于统计机器翻译而言在翻译质量上取得显著的提升。神经机器翻译通常采用编码器-解码器框架实现自然语言之 间的端到端翻译,而Transformer模型是众多神经机器翻译模型中的佼佼者。Transformer 模型与其他神经机器翻译模型最为显著的不同之处在于模型完全依赖注意力机制,摒 弃了传统神经机器翻译模型采用的循环神经网络和卷积神经网络,这使得Transformer 模型很大程度上缓解了梯度消失和梯度爆炸问题,提高了模型并行计算的能力,缩短 了模型训练的时间。
目前,谷歌、微软和百度等在内的高科技公司都推出了相应的翻译产品,并且广受好评,但这些翻译产品在翻译外文地名时会出现错误使用意译和音译的问题,导致 外文地名被翻译为某个形容词或特殊名词,同时还会出现中文翻译结果语序混乱的问 题,翻译结果与中文使用习惯不相符。因此,如何实现能合理并高效翻译外文地名的 翻译方法是目前迫切需要解决的问题。
发明内容
本发明的目的在于针对现有翻译系统在外文地名汉译过程中出现的局限和不足,提供一种基于Transformer模型的多语种地名词根汉译方法,以获得高效合理的英语、 法语和德语地名的汉译结果。
本发明为解决上述问题是通过以下步骤来实现的:
步骤1:首先对原始外文地名语料和对应中文翻译语料进行预处理;
步骤2:然后基于由收集、整理的各语种地名、语言特征获取的规则所组成的地名语种规则知识库并结合外文地名的语种特征,识别输入外文地名的语种;
步骤3:根据识别出的外文地名的语种信息,从地名词根抽取库中选择与语种相对应的地名词根抽取规则,提取外文地名的词根部分,利用中文地名词根抽取规则抽取 对应中文翻译中的地名词根部分;
步骤4:将外文地名和对应中文翻译的词根文本转化为字符集合,并利用独热编码与由浅层前馈神经网络构建的字符嵌入模型获取每个外文字符和中文字符相应的字符 向量;
步骤5:训练和微调Transformer模型,以BLEU(Bilingual EvaluationUnderstudy, 双语评估替补)得分为依据来调整词嵌入层输出维度、编码器层数、自注意力机制数、 前馈神经网络输出维度、批处理数量、预训练次数和丢弃正则化概率七个超参数的取 值,使得Transformer模型对测试集的翻译结果能取得最高的BLEU得分;
步骤6:按照步骤1、2和3提取待汉译地名的词根部分,并将提取结果转化为字 符向量输入到训练、微调完毕的Transformer模型中,输出相应的词根汉译结果。
作为优选,上述预处理包括地名特殊字符剔除处理、外文地名缩写部分扩充处理和外文地名统一小写化处理和发音符号替代处理。
为实现所述地名特殊字符剔除处理、外文地名缩写部分扩充处理和外文地名统一小写化处理,需构建特殊字符库、缩写-全称映射库和发音符号替换映射库,并以上述 知识库为基础,遍历地名字符串。
作为优选,本发明通过归纳总结获得英语、法语和德语地名中出现频率高且能清晰区分三种语言的单词构建基础地名语种规则知识库。
今天不,本发明基于所述基础地名语种规则知识库可结合第三方知识库中归纳的英语、法语和德语中常用人名、地名做进一步扩充,建立地名语种规则知识库辅助地 名的语种识别。
上述地名词根提取包含对地名通名和地名中起到转折作用词汇的剔除,即通过构建一个地名剔除词库,将归纳整理的外文、中文地名常用通名词汇和起到转折作用的 词汇储存其中,预处理后的外文、中文地名经过分词处理后,将每个分词结果通过索 引与地名剔除词库对比,仅保留不能匹配的分词结果,从而获得外文、中文地名的词 根。
上述步骤6中,所述将提取结果转化为字符向量是通过构建浅层前馈神经网络将由独热编码表示的地名词根字符转化为字符向量。
上述微调Transformer模型是通过控制变量的方法设置对照实验来确定词嵌入层输 出维度、编码器层数、自注意力机制数、前馈神经网络输出维度、批处理数量、预训 练次数和丢弃正则化概率七个超参数的局部最优取值。
通过采用固定其他超参数不变,改变上述七个超参数中某个超参数的取值,经过模型训练后评价该超参数的不同取值模型在测试集上的BLEU得分,从而判定该超参 数在取值范围内的最优取值。
作为优选,上述模型训练次数不低于50000。
与现有技术相比,本发明具有以下有益技术效果:
1,本发明着重于外文地名词根与中文地名词根间的端到端翻译,通过基于知识库的方法实现外文地名和中文地名中地名词根的抽取,并通过字符嵌入模型将外文地名 和中文地名的词根抽取结果进一步转化为字符集合,以特殊的字符集合形式作为Transformer模型的输入,扩充了地名序列上下文依赖,从而得到更好的地名词根翻译 结果。
2,本发明归纳整理所涉及外文特征、相应语种地名特征和人名特征,将上述特征转化为相应的规则,构建地名语种规则知识库。利用构建完毕的地名语种规则知识库 识别输入外文地名语种,从而减少了对于人工的依赖。
3,本发明归纳整理所涉及外文地名各项组成部分,并对各个组分进行分类,将其出现规律转化为规则,构建地名词根抽取规则库。利用构建完毕的地名词根抽取规则 库抽取输入外文地名中的词根部分,从而显著提高了地名词根的翻译效率。
附图说明
图1是本发明的外文地名词根汉译方法流程图;
图2是本发明的词根字符向量获取流程图;
图3是本发明涉及的Transformer模型架构图;
图4是本发明涉及的Transformer模型中多头注意力机制计算流程图。
具体实施方式
下面结合附图对本发明的具体实施做详细的说明。基于Transformer深度学习模型 的多语种地名词根汉译方法包含以下步骤:
(1)对原始外文地名语料和对应的中文翻译语料进行预处理,剔除外文地名语料中的特殊字符;剔除特殊字符的外文地名还需对缩写部分按照规则进行扩充;扩充完 毕的外文地名语料还需进行小写化处理和发音符号替代处理。
1)通过建立特殊字符库结合字符串匹配的方法,剔除外文地名语料中由于编码转换、数据清洗不完全而存在的“#$./-”等特殊字符。
2)对外文地名中缩写形式,通过缩写对应规则来将地名语料存在的缩写形式转化为全称。
3)外文地名语料统一进行小写处理和发音符号替换处理,例如“New York”和“new york”,“cafe”和“café”都指向同一种地名,通过小写处理和基于发音符号替 换词库的字符替换方法统一外文地名语料的格式。
(2)通过归纳总结得到的地名语种识别知识库,根据知识库中建立的单词与源语言之间的“键-值”关联来识别输入地名的语种。
(3)根据待汉译地名的语种信息,选择语种对应的地名词根提取规则和中文地名词根提取规则提取预处理后的外文地名语料和中文翻译语料中的词根,词根提取规则 包括地名专名提取规则、地名通名和起到转折作用的词汇剔除规则两部分,确定输入 地名中应该被剔除或被保留的部分;
(3)根据地名词根提取结果,将外文地名词根和中文地名词根转化为相应的字符集合,并构建每个外文地名词根和中文地名词根的字符向量,其对应的字符向量分别 表示为Vei,Vci
(4)训练和微调Transformer模型为外文地名词根汉译模型,训练语料如表1所示。模型训练所需数据由外文地名词根和对应的中文地名词根数据集按照7:2:1的比例 分割为训练集、验证集和测试集而组成。训练集是模型训练时所需的数据,验证集是 模型在训练固定次数后判断模型性能的数据集,可以有效地提示模型是否处于过拟合 或欠拟合状态,测试集是判断模型训练是否符合要求的数据集。在Transformer模型正 式训练过程中,通过改变一个参数(如,注意力机制数),固定其他参数取值不变的方 式,观察参数在不同取值下,比较模型在相同数据集上训练和测试的BLEU得分,从 而判定该参数的局部最优取值。本方法对包括编码器/解码器层数、注意力机制数、词 嵌入层输出维度、前馈神经网络输出维度、批处理大小、预训练次数和丢弃正则化概 率在内的7个超参数进行了微调。
Transformer模型主体由编码器(Encoder)和解码器(Decoder)组成,在模型训 练阶段,编码器和解码器的输入分别是外文地名字符向量和对应中文地名字符向量, 而字符向量的维度是由词嵌入层输出维度控制的。字符向量在输入编码器或解码器前 会先进行一步位置编码处理,为每个字符向量加上一个相同维度的矩阵Mpe,计算公式 为:
EncoderInput=Vei(Vci)+Mpe
接下来将关于解码器中的处理进行详细介绍,经过位置编码处理的字符向量输入编码器后,触发自注意力机制,字符向量将分别乘上矩阵Wq,Wk,Wv获得query矩阵 Q,key矩阵K和value矩阵V,自注意力机制的输出Z计算公式为:
Figure BDA0002682921620000051
其中,dk是字符向量的维度,而多头自注意力机制的输出则是将所有自注意力机制的输出连接在一起并乘上矩阵Wo,其中自注意力机制的数量n由注意力机制数确定, 具体计算公式为:
MultiHead(Z1,Z2,…,Zn)=Concat(Z1,Z2,…,Zn)Wo
在多头自注意力机制的输出进入前馈神经网络之前,模型对其进行了一次残差连接操作,将编码器的输入信息和多头自注意力机制的输出相结合,具体计算公式为:
Z1,Z2,…,Zn=LayerNorm(MultiHead(Z1,Z2,…,Zn)+EncoderInput)
其中,LayerNorm是一种正则化操作,经过残差连接和正则化操作后的Z1,Z2,…,Zn作为前馈神经网络的输入,前馈神经网络输出维度则由前馈神经网络输出维度控制。 前馈神经网络的输出还需要进行一次残差连接和正则化操作才能输入到下一个编码层 中,在这次残差连接和正则化操作中,前馈神经网络的输出需要和第一次残差连接和 正则化操作后的Z1,Z2,…,Zn相加。之后每个编码层内进行的操作都与上述操作 一致,而编码层数量由编码器/解码器层数控制。
在编码器中的操作与解码器大致相同,不同之处在于解码器的输入是中文地名词根字符集合的字符向量,以及在每个解码层中相较于编码层增加了编码器-解码器注意 力机制,将解码器输出的矩阵和编码层中获得的多头注意力机制输出相结合,融合了 输入和输出潜在的特征。
Transformer模型构建了前馈神经网络层和softmax层对编码器的输出进行操作,其中前馈神经网络层是将编码器的输出映射为与词典维度相同的向量,而softmax层则 将映射后向量转化为概率,并将最大概率对应的字符作为输出,模型的最后输出是由 每个输出字符组成的。
除了与Transformer内部结构相关的超参数外,在微调过程中还考虑了批处理大小、 预训练次数和丢弃正则化概率三个超参数。批处理大小决定了训练数据被划分为批数据后的数据量,预训练次数决定了正式训练前模型预训练的次数,丢弃正则化概率决 定了模型训练过程中所有神经元中不更新参数神经元的占比。
如图1所示,地理模型网络服务动态组合方法主要由以下三个部分组成:
1.基于规则的地名词根抽取;
2.地名词根的字符向量表达;
3.Transformer模型的训练和微调。
以英文地名“Hazardville Fire Department”和对应的中文翻译“哈扎德维尔消防局” 为例来详细描述外文地名词根汉译流程。
(1)地名源数据预处理
首先,英文地名“Hazardville Fire Department”与中文翻译“哈扎德维尔消防局” 结合为地名翻译对,其次由于地名“Hazardville Fire Department”中不存在特殊字符, 因此经过英文地名小写处理后转变为“hazardville fire department”。
(2)基于规则的地名词根提取
地名源数据预处理结果“hazardville fire department”与对应中文翻译“哈扎德维 尔消防局”作为地名词根数据提取模块的输入,地名词根数据提取模块首先根据地名拆分规则提取出地名词根部分,在本例中,输入地名所提取到的地名词根为“hazardville”和“哈扎德维尔”。地名拆分规则是在分析英文和中文地名特性之后总结出来,其中, 英文地名拆分规则会过滤掉地名前缀词、地名后缀词和地名特殊单词,如表1所示, 地名前缀词主要包括方位词;地名后缀词主要包括自然环境通名,行政区划通名和兴 趣点通名三大类;地名特殊单词是在地名中对语序起转折或承接作用的单词所组成的 集合,而中文地名拆分规则如
表2所示会过滤掉地名前缀词和地名后缀词,中文地名前缀词和地名后缀词所包含 的内容类似英文地名前缀词和地名后缀词。
表1:英文地名拆分规则
Figure BDA0002682921620000071
表2:中文地名拆分规则
Figure BDA0002682921620000072
(3)地名词根向量化
基于地名词根数据提取结果,首先将地名词根数据转化为字符集合,之后通过开源的PyTorch中word-embedding层构建的浅层神经网络将字符形式的地名数据转化为 计算机能读懂的向量形式,“hazardville”经浅层神经网络向量化的流程如图2所示。
(4)训练和微调Transformer模型
Transformer模型训练和微调所需语料的具体样例如表3所示:
表3:Transformer模型训练和微调所需语料样例
Figure BDA0002682921620000073
Figure BDA0002682921620000081
在Transformer模型实际训练和微调过程中,以微调注意力机制数为例,严格按照控制变量法的方式,固定模型中其他参数不变,分别设置注意力机制数为8、32、128、 256个,经过50000次训练后,评估各个模型在测试集上的BLEU得分,从而认为注 意力机制数取256是局部最优值,具体实验结果如表4所示。
表4:其他条件不变,在不同的注意力机制数下,模型BLEU得分表
Figure BDA0002682921620000082
Transformer模型中包括输入维度、前馈层输出维度、编码层数和批处理数等其他6个参数的局部最优值获得方法与上述方法相同。
Transformer模型中的编码器与解码器的输入分别是英文地名字符集合与相应汉译 地名字符集合的字符向量,模型具体架构如图3所示,字符向量在输入编码器和解码 器前会进行一步位置编码处理,为字符集合中每个字符向量Vci加上一个相同维度的矩 阵Mpe,计算公式为:
Input=Vci+Mpe
经过位置编码的字符向量输入编码器和解码器后,分别乘上矩阵Wq,Wk,Wv获得query矩阵Q,key矩阵K和value矩阵V,而自注意力机制的输出Z的计算公式为:
Figure BDA0002682921620000083
其中,dk是字符向量的维度,而多头自注意力机制的输出则是将所有自注意力机制的输出连接在一起并乘上矩阵Wo,计算公式为:
MultiHead(Z1,Z2,…,Zn)=Concat(Z1,Z2,…,Zn)Wo
在多头自注意力机制的输出进入前馈神经网络之前,模型对其进行了一次残差连接操作,将编码器或解码器输入信息和多头自注意力机制的输出相结合,计算公式为:
Z1,Z2,…,Zn=LayerNorm(MultiHead(Z1,Z2,…,Zn)+EncoderInput)
其中,LayerNorm是一种正则化操作,经过残差连接和正则化操作后的Z1,Z2,…,Zn作为前馈神经网络的输入,从而对源语言和目标语言间的潜在映射关系进行建模, 前馈神经网络的输出还需要进行一次残差连接和正则化操作才能输入到下一个编码层 或解码层中,在这次残差连接和正则化操作中,前馈神经网络的输出需要和第一次残 差连接和正则化操作后的Z1,Z2,…,Zn相加,多头注意力机制具体计算流程如图4 所示。
在解码器中操作与编码器大致相同,不同之处在于每个解码层中相较于编码层增加了编码器-解码器注意力机制,将编码器输出的矩阵和解码层中获得的多头注意力机 制输出相结合,融合了输入和输出潜在的特征。
Transformer模型构建了前馈神经网络层和softmax层对解码器的输出进行操作,其中前馈神经网络层是将解码器的输出映射为与词典维度相同的向量,而softmax层则 将映射后向量转化为概率,并将最大概率对应的字符作为输出,模型的最后输出是由 每个输出字符组成的,结合本例,模型最后的输出为“哈扎德维尔”。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可想到的变换或替换,都应涵盖 在本发明的包含范围之内。

Claims (10)

1.一种基于Transformer深度学习模型的多语种地名词根汉译方法,其特征在于包括以下步骤:
步骤1:对原始外文地名语料和对应中文翻译语料进行预处理;
步骤2:基于由收集、整理的各语种地名、语言特征获取的规则所组成的地名语种规则知识库并结合外文地名的语种特征,识别输入外文地名的语种;
步骤3:根据识别出的外文地名的语种信息,从地名词根抽取库中选择与语种相对应的地名词根抽取规则,提取外文地名的词根部分,利用中文地名词根抽取规则抽取对应中文翻译中的地名词根部分;
步骤4:将外文地名和对应中文翻译的词根文本转化为字符集合,并利用独热编码与由浅层前馈神经网络构建的字符嵌入模型获取每个外文字符和中文字符相应的字符向量;
步骤5:训练和微调Transformer模型,以BLEU得分为依据来调整词嵌入层输出维度、编码器层数、自注意力机制数、前馈神经网络输出维度、批处理数量、预训练次数和丢弃正则化概率七个超参数的取值,使得Transformer模型对测试集的翻译结果能取得最高的BLEU得分;
步骤6:按照步骤1、2和3提取待汉译地名的词根部分,并将提取结果转化为字符向量输入到训练、微调完毕的Transformer模型中,输出相应的词根汉译结果。
2.根据权利要求1所述的基于Transformer深度学习模型的多语种地名词根汉译方法,其特征在于,所述预处理包括地名特殊字符剔除处理、外文地名缩写部分扩充处理和外文地名统一小写化处理和发音符号替代处理。
3.根据权利要求2所述的基于Transformer深度学习模型的多语种地名词根汉译方法,其特征在于,构建特殊字符库、缩写-全称映射库和发音符号替换映射库,并以上述知识库为基础,以遍历地名字符串的方式实现所述地名特殊字符剔除处理、外文地名缩写部分扩充处理和外文地名统一小写化处理。
4.根据权利要求1所述的基于Transformer深度学习模型的多语种地名词根汉译方法,其特征在于,通过归纳总结获得英语、法语和德语地名中出现频率高且能清晰区分三种语言的单词构建基础地名语种规则知识库。
5.根据权利要求4所述的基于Transformer深度学习模型的多语种地名词根汉译方法,其特征在于,基于所述基础地名语种规则知识库可结合第三方知识库中归纳的英语、法语和德语中常用人名、地名做进一步扩充,建立地名语种规则知识库辅助地名的语种识别。
6.根据权利要求1所述的基于Transformer深度学习模型的多语种地名词根汉译方法,其特征在于,所述地名词根提取包含对地名通名和地名中起到转折作用词汇的剔除,即通过构建一个地名剔除词库,将归纳整理的外文、中文地名常用通名词汇和起到转折作用的词汇储存其中,预处理后的外文、中文地名经过分词处理后,将每个分词结果通过索引与地名剔除词库对比,仅保留不能匹配的分词结果,从而获得外文、中文地名的词根。
7.根据权利要求1所述的基于Transformer深度学习模型的多语种地名词根汉译方法,其特征在于,步骤6中所述将提取结果转化为字符向量是通过构建浅层前馈神经网络将由独热编码表示的地名词根字符转化为字符向量。
8.根据权利要求1所述的基于Transformer深度学习模型的多语种地名词根汉译方法,其特征在于所述微调Transformer模型是通过控制变量的方法设置对照实验来确定词嵌入层输出维度、编码器层数、自注意力机制数、前馈神经网络输出维度、批处理数量、预训练次数和丢弃正则化概率七个超参数的局部最优取值。
9.根据权利要求8所述的基于Transformer深度学习模型的多语种地名词根汉译方法,其特征在于通过采用固定其他超参数不变,改变上述七个超参数中某个超参数的取值,经过模型训练后评价该超参数的不同取值模型在测试集上的BLEU得分,从而判定该超参数在取值范围内的最优取值。
10.根据权利要求9所述的基于Transformer深度学习模型的多语种地名词根汉译方法,其特征在于所述模型训练次数不低于50000。
CN202010967634.XA 2020-09-15 2020-09-15 一种基于Transformer深度学习模型的多语种地名词根汉译方法 Active CN112084796B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010967634.XA CN112084796B (zh) 2020-09-15 2020-09-15 一种基于Transformer深度学习模型的多语种地名词根汉译方法
PCT/CN2020/136009 WO2022057116A1 (zh) 2020-09-15 2020-12-14 一种基于Transformer深度学习模型的多语种地名词根汉译方法
JP2021528844A JP2022552029A (ja) 2020-09-15 2020-12-14 Transformerのディープラーニングモデルに基づいて多言語による地名の語根を中国語に翻訳する方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010967634.XA CN112084796B (zh) 2020-09-15 2020-09-15 一种基于Transformer深度学习模型的多语种地名词根汉译方法

Publications (2)

Publication Number Publication Date
CN112084796A true CN112084796A (zh) 2020-12-15
CN112084796B CN112084796B (zh) 2021-04-09

Family

ID=73737117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010967634.XA Active CN112084796B (zh) 2020-09-15 2020-09-15 一种基于Transformer深度学习模型的多语种地名词根汉译方法

Country Status (3)

Country Link
JP (1) JP2022552029A (zh)
CN (1) CN112084796B (zh)
WO (1) WO2022057116A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239707A (zh) * 2021-03-01 2021-08-10 北京小米移动软件有限公司 文本翻译方法、文本翻译装置及存储介质
CN113393445A (zh) * 2021-06-21 2021-09-14 上海交通大学医学院附属新华医院 乳腺癌影像确定方法及系统
CN113807105A (zh) * 2021-07-22 2021-12-17 中国测绘科学研究院 一种法语地名机器翻译方法
CN113962198A (zh) * 2021-10-19 2022-01-21 中国平安财产保险股份有限公司 中文文本的转换方法、装置、设备及介质
CN118070819A (zh) * 2024-04-19 2024-05-24 南京师范大学 一种基于lstm的阿语地名专名自动汉译模型与方法
CN118070819B (zh) * 2024-04-19 2024-07-09 南京师范大学 一种基于lstm的阿语地名专名自动汉译模型与方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101348A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 多语种端到端ocr算法及系统
CN114897004B (zh) * 2022-04-15 2023-05-02 成都理工大学 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法
CN114821257B (zh) * 2022-04-26 2024-04-05 中国科学院大学 导航中视频流与自然语言的智能处理方法和装置、设备
CN114880022B (zh) * 2022-04-28 2024-06-14 南通大学 一种基于CodeBERT微调和检索增强的Bash代码注释生成方法
CN114626363B (zh) * 2022-05-16 2022-09-13 天津大学 一种基于翻译的跨语言短语结构分析方法及装置
CN117592462B (zh) * 2024-01-18 2024-04-16 航天宏图信息技术股份有限公司 基于地物群的开源地名数据的相关性处理方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN109829173A (zh) * 2019-01-21 2019-05-31 中国测绘科学研究院 一种英文地名翻译方法及装置
CN109902312A (zh) * 2019-03-01 2019-06-18 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN110457715A (zh) * 2019-07-15 2019-11-15 昆明理工大学 融入分类词典的汉越神经机器翻译集外词处理方法
CN111008517A (zh) * 2019-10-30 2020-04-14 天津大学 一种基于张量分解技术的神经语言模型的压缩方法
CN111178091A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种多维度的中英双语数据清洗方法
CN111209749A (zh) * 2020-01-02 2020-05-29 湖北大学 一种将深度学习应用于中文分词的方法
CN111368035A (zh) * 2020-03-03 2020-07-03 新疆大学 一种基于神经网络的汉维-维汉机构名词典的挖掘系统
CN111444343A (zh) * 2020-03-24 2020-07-24 昆明理工大学 基于知识表示的跨境民族文化文本分类方法
CN111581988A (zh) * 2020-05-09 2020-08-25 浙江大学 一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0754522B2 (ja) * 1987-02-27 1995-06-07 日本電信電話株式会社 自然言語複合名詞解析・変換方式
JP6144458B2 (ja) * 2012-03-06 2017-06-07 日本放送協会 手話翻訳装置及び手話翻訳プログラム
US20140163951A1 (en) * 2012-12-07 2014-06-12 Xerox Corporation Hybrid adaptation of named entity recognition
CN104331401B (zh) * 2014-11-25 2017-05-31 中国农业银行股份有限公司 一种翻译方法及系统
CN111310456B (zh) * 2020-02-13 2023-06-20 支付宝(杭州)信息技术有限公司 一种实体名称匹配方法、装置及设备
CN111222342B (zh) * 2020-04-15 2020-08-11 北京金山数字娱乐科技有限公司 一种翻译方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统
CN109829173A (zh) * 2019-01-21 2019-05-31 中国测绘科学研究院 一种英文地名翻译方法及装置
CN109902312A (zh) * 2019-03-01 2019-06-18 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN110457715A (zh) * 2019-07-15 2019-11-15 昆明理工大学 融入分类词典的汉越神经机器翻译集外词处理方法
CN111008517A (zh) * 2019-10-30 2020-04-14 天津大学 一种基于张量分解技术的神经语言模型的压缩方法
CN111178091A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种多维度的中英双语数据清洗方法
CN111209749A (zh) * 2020-01-02 2020-05-29 湖北大学 一种将深度学习应用于中文分词的方法
CN111368035A (zh) * 2020-03-03 2020-07-03 新疆大学 一种基于神经网络的汉维-维汉机构名词典的挖掘系统
CN111444343A (zh) * 2020-03-24 2020-07-24 昆明理工大学 基于知识表示的跨境民族文化文本分类方法
CN111581988A (zh) * 2020-05-09 2020-08-25 浙江大学 一种基于任务层面课程式学习的非自回归机器翻译模型的训练方法和训练系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
安苏雅拉等: "基于transformer神经网络的汉蒙机构名翻译研究", 《中文信息学报》 *
杨成荣: "基于门控卷积神经网络的代码自动摘要算法cover-控制变量法", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239707A (zh) * 2021-03-01 2021-08-10 北京小米移动软件有限公司 文本翻译方法、文本翻译装置及存储介质
CN113393445A (zh) * 2021-06-21 2021-09-14 上海交通大学医学院附属新华医院 乳腺癌影像确定方法及系统
CN113807105A (zh) * 2021-07-22 2021-12-17 中国测绘科学研究院 一种法语地名机器翻译方法
CN113807105B (zh) * 2021-07-22 2023-07-21 中国测绘科学研究院 一种法语地名机器翻译方法
CN113962198A (zh) * 2021-10-19 2022-01-21 中国平安财产保险股份有限公司 中文文本的转换方法、装置、设备及介质
CN113962198B (zh) * 2021-10-19 2024-06-25 中国平安财产保险股份有限公司 中文文本的转换方法、装置、设备及介质
CN118070819A (zh) * 2024-04-19 2024-05-24 南京师范大学 一种基于lstm的阿语地名专名自动汉译模型与方法
CN118070819B (zh) * 2024-04-19 2024-07-09 南京师范大学 一种基于lstm的阿语地名专名自动汉译模型与方法

Also Published As

Publication number Publication date
CN112084796B (zh) 2021-04-09
JP2022552029A (ja) 2022-12-15
WO2022057116A1 (zh) 2022-03-24

Similar Documents

Publication Publication Date Title
CN112084796B (zh) 一种基于Transformer深度学习模型的多语种地名词根汉译方法
CN110543639B (zh) 一种基于预训练Transformer语言模型的英文句子简化算法
US8069027B2 (en) Word alignment apparatus, method, and program product, and example sentence bilingual dictionary
CN111259151B (zh) 一种混合文本敏感词变体识别方法和装置
CN111737975A (zh) 文本内涵质量的评估方法、装置、设备及存储介质
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN114780582A (zh) 基于表格问答的自然答案生成系统及其方法
CN111680529A (zh) 一种基于层聚合的机器翻译算法及装置
CN113408307B (zh) 一种基于翻译模板的神经机器翻译方法
CN112765977B (zh) 一种基于跨语言数据增强的分词方法及装置
Shahroz et al. RUTUT: roman Urdu to Urdu translator based on character substitution rules and unicode mapping
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
KR102534131B1 (ko) 대화 형식 기반의 도서 추천 서비스 제공 방법 및 그를 위한 장치
CN113705223A (zh) 以读者为中心的个性化英文文本简化方法
CN114298048A (zh) 命名实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant