CN109165391A - 一种利用偏旁部首信息的神经网络机器翻译系统及方法 - Google Patents
一种利用偏旁部首信息的神经网络机器翻译系统及方法 Download PDFInfo
- Publication number
- CN109165391A CN109165391A CN201810839361.3A CN201810839361A CN109165391A CN 109165391 A CN109165391 A CN 109165391A CN 201810839361 A CN201810839361 A CN 201810839361A CN 109165391 A CN109165391 A CN 109165391A
- Authority
- CN
- China
- Prior art keywords
- sequence
- neural network
- radical
- word
- training pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 70
- 238000013519 translation Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000001537 neural effect Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 210000005036 nerve Anatomy 0.000 abstract description 4
- 238000003860 storage Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000721047 Danaus plexippus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种利用偏旁部首信息的神经网络机器翻译系统及方法,其特征在于:利用偏旁部首信息的神经网络机器翻译系统包括:第一训练模型,所述第一训练模型被训练成能够读取第一自然语言源句中的第一文字序列,并将该第一文字序列逐字进行拆分,将其拆分成与所述第一文字序列对应的偏旁部首序列;第二训练模型,所述第二训练模型被训练成读取所述第一训练模型输出的偏旁部首序列,并将该偏旁部首序列映射至与该偏旁部首序列相对应的输入序列;以及神经网络翻译模型,所述神经机器翻译系统被配置成接收所述输入序列,并且生成表示所述第一文字序列到第二自然语言的翻译的第二文字序列的输出语言符号的输出序列。
Description
技术领域
本发明涉及神经翻译技术领域,具体涉及一种利用偏旁部首信息的神经 网络机器翻译系统及方法。
背景技术
机器翻译是人工智能和自然语言处理的交叉学科,在日常生活中,教学 科研,生产活动和对外贸易中都有着重要的作用,传统神经机器翻译的方法 都是基于字母文字开发,无形中导致对涉及到汉语、韩语以及日语的法医时, 其翻译质量相对低下。
发明内容
有鉴于此,本发明提供一种利用偏旁部首信息的神经网络机器翻译系统 及方法,针对汉语、韩语、日语文字体系的特点,将偏旁部首引入到机械翻 译系统中,把第一自然语言的第一文字序列拆分成偏旁部首的序列,然后输 入至神经翻译系统内进行翻译。
本发明的一方面提供一种利用偏旁部首信息的神经网络机器翻译系统, 其特征在于:利用偏旁部首信息的神经网络机器翻译系统包括:
第一训练模型,所述第一训练模型被训练成能够读取第一自然语言源句 中的第一文字序列,并将该第一文字序列逐字进行拆分,将其拆分成与所述 第一文字序列对应的偏旁部首序列;
第二训练模型,所述第二训练模型被训练成读取所述第一训练模型输出 的偏旁部首序列,并将该偏旁部首序列映射至与该偏旁部首序列相对应的输 入序列;以及
神经网络翻译模型,所述神经网络翻译模型被配置成接收所述输入序列, 并且生成一输出序列,所述输出序列表示所述第一文字序列到第二自然语言 的第二文字序列的输出语言符号。
优选地,利用偏旁部首信息的神经网络机器翻译系统还包括第三训练模 型,所述第三训练模型被训练成读取所述第一文字序列,并提取所述第一文 字序列内的亚词单位。
优选地,利用偏旁部首信息的神经网络机器翻译系统还包括第四训练模 型,所述第四训练模型被训练成读取所述第一文字序列,并将第一文字序列 中来自中文、日文、韩文中,本质、意义相同、形状一样或稍异的表意文字, 用统一的编码进行表示。
优选地,所述神经机器翻译系统包括:
词嵌入层,所述词嵌入层用于将输入序列转化成第一词向量序列;
循环神经网络,所述循环神经网络包括编码器神经网络以及解码器神经 网络,所述编码器神经网络和所述解码器神经网络中均使用双层往复循环神 经网络LSTM;以及
注意力机制子系统。
优选地,所述解码器神经网络包括LSTM层的堆栈和softmax输出层。
本发明的另一方面提供一种利用偏旁部首信息的神经网络机器翻译方 法,其特征在于,所述利用偏旁部首信息的神经网络机器翻译方法包括:
将第一自然语言源句中的第一文字序列拆分成偏旁部首序列;
将偏旁部首序列映射至目标字符,形成输入序列;
利用机械翻译系统对输入序列进行翻译。
优选地,所述利用偏旁部首信息的神经网络机器翻译方法还包括:读取 所述第一文字序列,并将第一文字序列中来自中文、日文、韩文中,本质、 意义相同、形状一样或稍异的表意文字,用统一的编码进行表示。
优选地,所述利用偏旁部首信息的神经网络机器翻译方法还包括:读取 所述第一文字序列,并提取所述第一文字序列内的亚词单位。
本发明具有的优点和积极效果是:本发明提供一种利用偏旁部首信息 的神经网络机器翻译系统及方法,针对汉语、韩语、日语文字体系的特点, 将偏旁部首引入到机械翻译系统中,把第一自然语言的第一文字序列拆分成 偏旁部首的序列,然后输入至神经翻译系统内进行翻译。提高了翻译的质量。 特别在输入语言以及目标语言均在汉语、韩语、日语之间进行互相翻译的过 程中,其翻译质量有显著提高。
具体实施方式
为了更好的理解本发明,下面结合具体实施例对本发明进行进一步的描 述。
翻译系统将源自然语言的源文字序列翻译成目标自然语言的目标文字 序列,例如将英语的句子或短语翻译成法语的句子或短语,将英语的句子或 短语翻译成德语的句子或短语,或者将韩语的句子或短语翻译成西班牙语的 句子或短语。本发明提供一种利用偏旁部首信息的神经网络机器翻译系统, 适用于涉及到汉语、韩语、日语语言的翻译。
本发明的利用偏旁部首信息的神经网络机器翻译系统包括:
第一训练模型,所述第一训练模型被训练成能够读取第一自然语言源句 中的第一文字序列,并将该第一文字序列逐字进行拆分,将其拆分成与所述 第一文字序列对应的偏旁部首序列;
第二训练模型,所述第二训练模型被训练成读取所述第一训练模型输出 的偏旁部首序列,并将该偏旁部首序列映射至与该偏旁部首序列相对应的输 入序列;以及
神经网络翻译模型,所述神经网络翻译模型被配置成接收所述输入序列, 并且生成一输出序列,所述输出序列表示所述第一文字序列到第二自然语言 的第二文字序列的输出语言符号。
为了生成所述神经网络翻译模型的输入序列,将源序列进行切分,从而 形成输入语言符号的输入序列。一般而言,输入序列中的每个输入语言符号 选自输入语言符号的词汇,所述词汇包括针对一组文字单元中的每个的相应 语言符号。除了文字单元以外,输入语言符号的词汇还包括一个或多个特殊 的指定语言符号,例如起始句语言符号和结束句语言符号。在一些实施方式 中,文字单元是源自然语言的文字。在一些其它实施方式中,文字单元中的 一些或全部是子词单元,例如字符、混合文字/字符等。
特别地,在这些实施方式中的一些中,文字单元是文字片段,并且系统 通过首先使用训练的文字片段机器学习模型将序列中的文字分解成文字片 段来将源序列切分,所述训练的文字片段机器学习模型已经被训练成将文字 分解成文字片段,并且包括特殊的文字边界符号,以使得能够从文字片段序 列恢复原始文字序列而无歧义。
本发明针对于汉语、韩语以及日语的语言组成结构,韩语、韩语以及日 语的文字均可以拆分成相应的的偏旁部首。
进一步地,本发明设置有第一存储装置,所述第一存储装置内存储有偏 旁部首的全序列,对所述第一存储装置内的偏旁部首的全序列进行训练,形 成所述第一训练模型,所述第一训练模型被训练成能够读取第一自然语言源 句中的第一文字序列,并将该第一文字序列逐字进行拆分,将其拆分成与所 述第一文字序列对应的偏旁部首序列。
在本发明的一个具体实施例中,所述偏旁部首的全序列可以参考 cns11643字符表,所述cns11643字符表内包括517个部首,33个笔画,将 该517个部首以及33个笔画全部存储于所述第一存储装置内,并对其进行 训练,形成第一训练模型,所述第一训练模型被训练成能够读取第一自然语 言源句中的第一文字序列,并将该第一文字序列逐字进行拆分,将其拆分成 与所述第一文字序列对应的偏旁部首序列。
例如,可→丁 口;君→尹 口。
进一步地,得到所述偏旁部首序列之后,需要将所述偏旁部首序列转化 成输入序列,在本发明中,设置有第二训练模型,所述第二训练模型被训练 成读取所述第一训练模型输出的偏旁部首序列,并将该偏旁部首序列映射至 与该偏旁部首序列相对应的输入序列。
具体的,在本发明的一个实施例中,所述输入序列的格式为UTF-8编码 序列,通过将该偏旁部首序列进行unicode编码,将偏旁部首序列转换 成UTF-8编码序列,具体见表1,表1为UTF-8编码与偏旁部首的映射关系 的部分举例说明。
表1 UTF-8编码与偏旁部首的映射关系
表1列举了部分UTF-8编码与偏旁部首的映射关系,在所述第二训练模 型中,将偏旁部首序列与UTF-8编码一一对应,使得每个偏旁部首序列都对 应一个单独的UTF-8编码,能够将偏旁部首序列转化成机械识别的语言。
UTF-8包含了大部分文字的编码,可以表达更多的语言,使用UTF-8 一个最大的好处就是其他地区的用户(美国、印度、台湾)无需安装简体中 文支持,就能正常看您的文字,并且不会出现乱码。
在本发明的一个实施例中,设置有第二存储装置,所述第二存储装置内 存储有中日韩统一表意文字CJK Unified Ideographs,中日韩统一表意文字 CJK UnifiedIdeographs的主要目的是要把分别来自中文、日文、韩文、越文 中,本质、意义相同、形状一样或稍异的表意文字(主要为汉字,但也有仿 汉字如日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准 内赋予相同编码。
进一步地,在进行汉语、韩语、日语等语言之间进行互相翻译的过程中, 例如汉语翻译成韩语,或者日语翻译成韩语,在这类与语言之间进行翻译的 过程,还可以先通过第四训练模型对第一文字序列进行训练,所述第四训练 模型被训练成读取所述第一文字序列,并将第一文字序列中来自中文、日文、 韩文中,本质、意义相同、形状一样或稍异的表意文字,用统一的编码进行 表示。
具体地,在对第一文字序列进行拆分之前,可以对所述第二存储单元中 的日韩统一表意文字CJK Unified Ideographs进行训练,生成第四训练模型, 所述第四训练模型被训练成读取所述第一文字序列,并将第一文字序列中来 自中文、日文、韩文中,本质、意义相同、形状一样或稍异的表意文字,用 统一的编码进行表示。对于第一文字序列,首先通过第四训练模型对其进行 训练,挑选出第一文字序列中与目标语言本质、意义相同、形状一样或稍异 的表意文字,将这部分文字用同一的编码进行表示,然后在对剩余的文字序 列进行拆分。
进一步地,在字母语言中,很多字母组合(亚词单位sub-word unit)在 各种词中反复出现,是语言内部的“共享单位”;例如:-tion,-ly,-er, -est,亚词单位sub-wordunit的词表相对短小,可使模型更加紧凑,另外亚 词单位sub-word unit带有词之间的共享元信息,可帮助更准确的翻译;利用 亚词单位sub-word unit在语言中共享特点,可以有效提升翻译质量。
参考所述亚词单位sub-word unit在字母语言中翻译中显著作用,针对汉 语、韩语、日语的文字组成结构,也可以提炼出汉语、韩语、日语文字体系 中亚词单位sub-wordunit。具体的,本发明的一个实施例中,设置有第三存 储装置,所述第三存储装置内设置有汉语、韩语、日语亚词单位sub-word unit。
进一步地,对所述第三存储装置内的本发明汉语、韩语、日语亚词单位 sub-wordunit进行训练,形成所述第三训练模型,所述第三训练模型被训练 成读取所述第一文字序列,并提取所述第一文字序列内的亚词单位,并将该 亚词单位通过所述神经机器翻译系统进行翻译。
在本发明的一个实施例中,所述第三训练模型采用BPE模型,BPE模 型是一种非监督学习技术,可用于近似获取亚词单位sub-word unit,本发明 的实施例中,可以利用BPE模型训练得到跟所述第一文字序列相对应的汉 语、韩语、日语亚词单位sub-word unit,具体如表2所示。
表2第一文字序列与亚词单位的映射关系
如表2所示,首先将文字序列拆分成偏旁部首序列,例如将“英”拆分 成“十丨央”,然后再提取所述偏旁部首序列中的亚词单位,本实施例 中,将偏旁部首序列“十丨央”,训练成“十丨央”,其中 “十丨”、“央”为不同的亚词单位。又见文字序列“语”,其对 应的偏旁部首序列为“讠一□口”,将其提取为由亚词单位“讠”、“一□口”组成的亚词单位序列。
所述汉语、韩语、日语亚词单位sub-word unit的亚词单位,是将偏旁部 首序列中的某一个或者某几个连续的偏旁部首进行组合,其组合之后是否具 有固定的含义,例如,“英”的偏旁部首序列的“十丨”,其组合在一起, 整体作为“艹”,在汉语、韩语、或者日语中,“艹”反复出现,是语言内 部的“共享单位”。
进一步地,亚词单位模型的训练,训练时可以指定词库大小,因此不同 词库出现的亚词单位会存在差别。指定词库是指对整个偏旁部首以及笔画数 据进行训练,最终生成指定数量的亚词单位词库,所述指定数量的亚词单位 词库为指定词库。例如,对整个偏旁部首以及笔画数据进行训练,最终生成 2000个亚词单位,所述指定词库的大小为2000。
表2中给出的示例,是指定词库大小为1000的情况,如果指定词库的 大小改为2000,其得到的亚词单位序列会发生改变。
本发明实施例使用BPE的翻译模型利用了亚词单位在语言中共享特点, 提升翻译质量。
本发明中将针对汉语、韩语、日语文字体系的特点,将偏旁部首引入到 机械翻译系统中,把第一自然语言的第一文字序列拆分成偏旁部首的序列, 然后输入至神经翻译系统内进行翻译。
表3中示出了本发明翻译过程的一个示例。
表3翻译过程举例
表3中以日语翻译成汉语为例,首先将日语的第一序列“英語”提取和 输出序列本质、意义相同、形状一样或稍异的表意文字,用统一的编码进行 表示,本实施例中,日语和汉语相同的表一符号为“十丨央”,对于这 部分内容,可以采用与汉语相同的表意符号进行表示,并且拆分成相同的偏 旁部首序列;剩余不同的部分,再进行拆分,拆分偏旁部首序列。
进一步地,所述神经机器翻译系统被配置成接受输入序列,并且对输入 序列进行处理,并生成包括来自输出语言词汇的输出言语符号的输出序列。 所述神经机器翻译系统包括:词嵌入层、循环神经网络以及注意力机制。
所述词嵌入层用于将输入序列转化成第一词向量序列,具体地,所述词 嵌入层内存储有和所述输入序列对应的词向量表。将所述输入序列输入到所 述词嵌入层,输出的是和所述输入序列相对应的第一词向量序列。
所述循环神经网络包括编码器神经网络以及解码器神经网络,所述编码 器神经网络和所述解码器神经网络中均使用多往复循环神经网络LSTM。
编码器神经网络包括多个长短期记忆(LSTM)神经网络层。更具体而言, 编码器神经网络包括后面跟随有单向LSTM层的堆栈的双向LSTM层。
编码器神经网络被配置成接收输入序列并且对输入序列进行处理,以 生成输入序列中的每个语言符号的相应编码表示。
解码器神经网络和注意力子系统被配置成对编码表示进行处理,以生 成包括来自输出词汇的输出语言符号的输出序列。一般而言,解码器神经网 络被配置成为输出序列中的每个位置接收输出序列中的前一个位置处的语 言符号。解码器神经网络也被配置成接收由注意力子系统生成的针对所述位 置的注意力上下文矢量,并且对所述前一个语言符号和所述注意力上下文矢 量进行处理以生成一组分值,所述一组分值包括针对输出词汇中的每个输出 语言符号的相应分值。
特别地,解码器神经网络包括LSTM层的堆栈和softmax输出层。在每 个位置处,LSTM层的堆栈被配置成对前一个语言符号和注意力上下文矢量 进行处理以生成针对所述位置的LSTM输出,并且softmax输出层被配置成 对LSTM输出进行处理以生成针对所述位置的一组分值。注意力子系统被配 置成在输出序列中的每个位置处接收前一个位置处的由堆栈中的底部LSTM 层生成的LSTM输出,并且使用所述接收的LSTM输出来生成针对所述位置的注意力上下文矢量。一般而言,注意力上下文矢量是编码表示的加权和, 其中所述加权和中的权重基于所接收的LSTM输出进行确定。
为了生成输出序列中的给定位置处的输出,系统基于所述位置处的一组 分值中的各个分值选择语言符号,即通过选择具有最高分值的语言符号或者 通过根据来自输出语言符号的词汇的分值对语言符号进行取样。
系统继续选择语言符号并且将语言符号添加至输出序列,直到系统为输 出序列中的当前位置选择结束句输出语言符号为止。一旦已经选择了结束 句输出语言符号,系统就将在结束句输出之前添加至输出序列的输出视作最 终输出序列。
在一些实施方式中,系统使用波束搜索生成输出序列。也就是说,系统 维持被并行处理和扩展的多个候选输出序列的波束,并且继续处理直到波束 中的所有候选输出序列已经被最终确定或者从波束中移除为止。一旦已经生 成了输出序列,系统就通过将由输出序列中的语言符号表示的文字单元转换 成目标语言的文字来生成目标序列。
本发明的第二方面提供一种利用偏旁部首信息的神经网络机器翻译方 法,其特征在于,所述利用偏旁部首信息的神经网络机器翻译方法包括:
将第一自然语言源句中的第一文字序列拆分成偏旁部首序列;
将偏旁部首序列映射至目标字符,形成输入序列;
利用机械翻译系统对输入序列进行翻译。
进一步地,所述利用偏旁部首信息的神经网络机器翻译方法还包括:读 取所述第一文字序列,并将第一文字序列中来自中文、日文、韩文中,本质、 意义相同、形状一样或稍异的表意文字,用统一的编码进行表示。
进一步地,所述利用偏旁部首信息的神经网络机器翻译方法还包括:读 取所述第一文字序列,并提取所述第一文字序列内的亚词单位。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来 将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示 这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系 列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明 确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有 的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素, 并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同 要素。
最后应说明的是:显然,上述实施例仅仅是为清楚地说明本发明所作的 举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上 述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对 所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于 本发明的保护范围之中。
Claims (8)
1.一种利用偏旁部首信息的神经网络机器翻译系统,其特征在于:利用偏旁部首信息的神经网络机器翻译系统包括:
第一训练模型,所述第一训练模型被训练成能够读取第一自然语言源句中的第一文字序列,并将该第一文字序列逐字进行拆分,将其拆分成与所述第一文字序列对应的偏旁部首序列;
第二训练模型,所述第二训练模型被训练成读取所述第一训练模型输出的偏旁部首序列,并将该偏旁部首序列映射至与该偏旁部首序列相对应的输入序列;以及
神经网络翻译模型,所述神经网络翻译模型被配置成接收所述输入序列,并且生成一输出序列,所述输出序列表示所述第一文字序列到第二自然语言的第二文字序列的输出语言符号。
2.根据权利要求1所述的利用偏旁部首信息的神经网络机器翻译系统,其特征在于:利用偏旁部首信息的神经网络机器翻译系统还包括第三训练模型,所述第三训练模型被训练成读取所述第一文字序列,并提取所述第一文字序列内的亚词单位。
3.根据权利要求2所述的利用偏旁部首信息的神经网络机器翻译系统,其特征在于:利用偏旁部首信息的神经网络机器翻译系统还包括第四训练模型,所述第四训练模型被训练成读取所述第一文字序列,并将第一文字序列中来自中文、日文、韩文中,本质、意义相同、形状一样或稍异的表意文字,用统一的编码进行表示。
4.根据权利要求3所述的利用偏旁部首信息的神经网络机器翻译系统,其特征在于:所述神经机器翻译系统包括:
词嵌入层,所述词嵌入层用于将输入序列转化成第一词向量序列;
循环神经网络,所述循环神经网络包括编码器神经网络以及解码器神经网络,所述编码器神经网络和所述解码器神经网络中均使用双层往复循环神经网络LSTM;以及
注意力机制子系统。
5.根据权利要求4所述的利用偏旁部首信息的神经网络机器翻译系统,其特征在于,所述解码器神经网络包括LSTM层的堆栈和softmax输出层。
6.一种利用偏旁部首信息的神经网络机器翻译方法,其特征在于,所述利用偏旁部首信息的神经网络机器翻译方法包括:
将第一自然语言源句中的第一文字序列拆分成偏旁部首序列;
将偏旁部首序列映射至目标字符,形成输入序列;
利用机械翻译系统对输入序列进行翻译。
7.根据权利要求6所述的利用偏旁部首信息的神经网络机器翻译方法,其特征在于:所述利用偏旁部首信息的神经网络机器翻译方法还包括:读取所述第一文字序列,并将第一文字序列中来自中文、日文、韩文中,本质、意义相同、形状一样或稍异的表意文字,用统一的编码进行表示。
8.根据权利要求6所述的利用偏旁部首信息的神经网络机器翻译方法,其特征在于:所述利用偏旁部首信息的神经网络机器翻译方法还包括:读取所述第一文字序列,并提取所述第一文字序列内的亚词单位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810839361.3A CN109165391A (zh) | 2018-07-27 | 2018-07-27 | 一种利用偏旁部首信息的神经网络机器翻译系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810839361.3A CN109165391A (zh) | 2018-07-27 | 2018-07-27 | 一种利用偏旁部首信息的神经网络机器翻译系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109165391A true CN109165391A (zh) | 2019-01-08 |
Family
ID=64898372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810839361.3A Pending CN109165391A (zh) | 2018-07-27 | 2018-07-27 | 一种利用偏旁部首信息的神经网络机器翻译系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109165391A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783435A (zh) * | 2019-03-18 | 2020-10-16 | 株式会社理光 | 共享词汇的选择方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110202330A1 (en) * | 2010-02-12 | 2011-08-18 | Google Inc. | Compound Splitting |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
-
2018
- 2018-07-27 CN CN201810839361.3A patent/CN109165391A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110202330A1 (en) * | 2010-02-12 | 2011-08-18 | Google Inc. | Compound Splitting |
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
Non-Patent Citations (2)
Title |
---|
JINYI ZHANG 等: "Improving Character-level Japanese-Chinese Neural Machine Translation with Radicals as an Additional Input Feature", 《HTTPS://ARXIV.ORG/ABS/1805.02937》 * |
SHAOHUI KUANG 等: "Apply Chinese Radicals Into Neural Machine Translation: Deeper Than Character Level", 《HTTPS://ARXIV.ORG/ABS/1805.01565V1》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783435A (zh) * | 2019-03-18 | 2020-10-16 | 株式会社理光 | 共享词汇的选择方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
CN109190131B (zh) | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 | |
Baniata et al. | A Neural Machine Translation Model for Arabic Dialects That Utilizes Multitask Learning (MTL). | |
KR102329127B1 (ko) | 방언을 표준어로 변환하는 방법 및 장치 | |
CN109684648A (zh) | 一种多特征融合的古今汉语自动翻译方法 | |
CN110851599B (zh) | 一种中文作文自动评分方法及教辅系统 | |
CN109948152A (zh) | 一种基于lstm的中文文本语法纠错模型方法 | |
CN109241540B (zh) | 一种基于深度神经网络的汉盲自动转换方法和系统 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN110083826A (zh) | 一种基于Transformer模型的老汉双语对齐方法 | |
CN112507734B (zh) | 一种基于罗马化维吾尔语的神经机器翻译系统 | |
WO2023051148A1 (zh) | 用于多语言处理的方法和装置 | |
CN111222329B (zh) | 句向量训练方法及模型、句向量预测方法及系统 | |
CN101667099A (zh) | 一种连笔键盘文字输入的方法和设备 | |
CN109165391A (zh) | 一种利用偏旁部首信息的神经网络机器翻译系统及方法 | |
Das et al. | English to Indian languages machine transliteration system at NEWS 2010 | |
Bluche et al. | Faster segmentation-free handwritten Chinese text recognition with character decompositions | |
CN113609873A (zh) | 翻译模型训练方法、装置及介质 | |
Saurav et al. | " A Passage to India": Pre-trained Word Embeddings for Indian Languages | |
Koo | An unsupervised method for identifying loanwords in Korean | |
CN109960782A (zh) | 一种基于深度神经网络的藏文分词方法及装置 | |
Lu et al. | An automatic spelling correction method for classical mongolian | |
Vashistha et al. | Active learning for neural machine translation | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
Dhore et al. | Survey on machine transliteration and machine learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190108 |
|
RJ01 | Rejection of invention patent application after publication |