CN110348025A - 一种基于字形的翻译方法、装置、存储介质及电子设备 - Google Patents
一种基于字形的翻译方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110348025A CN110348025A CN201910651109.4A CN201910651109A CN110348025A CN 110348025 A CN110348025 A CN 110348025A CN 201910651109 A CN201910651109 A CN 201910651109A CN 110348025 A CN110348025 A CN 110348025A
- Authority
- CN
- China
- Prior art keywords
- target
- word
- vector
- image
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 247
- 238000013519 translation Methods 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims description 68
- 238000011176 pooling Methods 0.000 claims description 37
- 238000013527 convolutional neural network Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000003608 fece Anatomy 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于字形的翻译方法、装置、存储介质及电子设备,其中,该方法包括:获取源语言为中文的目标文本,并确定目标文本的目标分词;确定目标分词中所包含的目标字在多种字体下分别对应的字图像,根据目标字的所有字图像生成目标字的字向量;根据目标分词中所有的目标字的字向量生成目标分词的词向量;基于目标分词的词向量对目标文本进行翻译处理,确定目标文本所对应的目标语言的翻译文本。通过本发明实施例提供的基于字形的翻译方法、装置、存储介质及电子设备,通过目标字的多个字图像生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征,提高翻译结果的准确度。
Description
技术领域
本发明涉及基于字形的翻译技术领域,具体而言,涉及一种基于字形的翻译方法、装置、存储介质及电子设备。
背景技术
目前,基于深度学习的序列到序列的编码-解码模型提供了一种机器翻译任务中经常用到的解决办法。但是由于机器翻译任务中很难获得数量足够大、质量足够高的训练数据,因此低频词和未登录词成为影响机器翻译效果的一个很重要的因素。低频词即为出现频率较小的词,未登录词主要集中在组织名称、人名、地点名称等一些命名实体上。由于低频词和未登录词的存在,导致现有的机器翻译效果较差。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种基于字形的翻译方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种基于字形的翻译方法,包括:
获取源语言为中文的目标文本,并确定所述目标文本的目标分词;
确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像,根据所述目标字的所有字图像生成所述目标字的字向量;
根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;
基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本。
在一种可能的实现方式中,所述根据所述目标字的所有字图像生成所述目标字的字向量包括:
确定所述目标字的每个字图像的图像矩阵,对所述目标字的D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述目标字的每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述目标字的D个字图像的图像编码生成所述目标字的字向量。
在一种可能的实现方式中,所述根据所述目标字的所有字图像生成所述目标字的字向量,包括:
基于卷积神经网络对所述目标字的字图像进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;
其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。
在一种可能的实现方式中,所述根据所述目标字的所有字图像生成所述目标字的字向量包括:
基于卷积神经网络对所述目标字的字图像进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。
在一种可能的实现方式中,该方法还包括:
建立总损失函数L,在训练时基于所述总损失函数对翻译结果进行评价;
其中,L=(1-λ)L(mt)+λL(cls);L(mt)表示中文翻译模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示所述字图像分类器对应的权重;所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。
在一种可能的实现方式中,所述基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本,包括:
根据所述目标文本的所有目标分词的词向量生成所述目标文本的分词序列[x1,x2,…,xt,…xn];n为所述目标文本包含的目标分词总数,xt表示第t个目标分词的词向量;
将所述分词序列作为编码器的输入,生成所述分词序列对应的编码隐向量序列[h1,h2,…,ht,…hn],ht表示第t个编码时刻的编码隐向量;
根据所述编码隐向量序列和解码器在当前解码时刻的解码隐向量si进行点积处理,确定所述编码隐向量序列中每一个编码隐向量的权重,并对所述编码隐向量进行加权处理,生成当前解码时刻的注意力向量ci;
在不同的解码时刻重复上述生成注意力向量的过程,直至解码结束,确定每个解码时刻的注意力向量,并根据所有的解码隐向量和注意力向量生成所述目标文本所对应的目标语言的翻译文本。
第二方面,本发明实施例还提供了一种基于字形的翻译装置,包括:
获取模块,用于获取源语言为中文的目标文本,并确定所述目标文本的目标分词;
字向量确定模块,用于确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像,根据所述目标字的所有字图像生成所述目标字的字向量;
词向量确定模块,用于根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;
翻译模块,用于基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本。
在一种可能的实现方式中,所述字向量确定模块根据所述目标字的所有字图像生成所述目标字的字向量包括:
确定所述目标字的每个字图像的图像矩阵,对所述目标字的D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述目标字的每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述目标字的D个字图像的图像编码生成所述目标字的字向量。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的基于字形的翻译方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的基于字形的翻译方法。
本发明实施例上述第一方面提供的方案中,以字为单位确定目标文本每个分词的词向量,且利用不同字体中丰富的字形信息,通过目标字的多个字图像生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征;此外,中文为象形文字,不同字体中也包含丰富的语义信息,即目标字的字向量中包含字形特征和语义特征,基于该字向量生成词向量,可以更加有效地识别未登录词和低频词,可以进一步提高翻译结果的准确度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种基于字形的翻译方法的流程图;
图2示出了本发明实施例所提供的基于字形的翻译方法中,卷积神经网络的一种结构示意图;
图3示出了本发明实施例所提供的一种基于字形的翻译装置的结构示意图;
图4示出了本发明实施例所提供的用于执行基于字形的翻译方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种基于字形的翻译方法,参见图1所示,包括:
步骤101:获取源语言为中文的目标文本,并确定目标文本的目标分词。
本发明实施例中,“源语言”指的是翻译场景中翻译前原始的语言,“目标语言”指的是翻译后的语言,即通过翻译的方式由源语言引导出目标语言。例如,当前需要将汉语翻译成英语,则汉语为源语言,英语为目标语言。
本实施例中的目标文本即为需要翻译的文本,该目标文本为中文格式的,即源语言为中文,基于中文的字形特征进行翻译。目标分词为目标文本中的分词,具体可通过分词处理来确定目标文本的目标分词,该分词处理的过程具体可通过分词模型实现。其中,第目标分词的数量可以是一个,也可以是多个,具体根据分词结果而定。例如,目标文本是“邓紫棋唱功怎么样”,分词处理后为“邓紫棋唱功怎么样”,则“邓紫棋”、“唱功”、“怎么样”均可以是目标分词。此外,本领域技术人员可以理解,目标文本也可以为分词处理后的文本,此时不需要分词处理过程即可以得到相应的目标分词。
步骤102:确定目标分词中所包含的目标字在多种字体下分别对应的字图像,根据目标字的所有字图像生成目标字的字向量。
本发明实施例中,目标分词中包含一个或多个目标字,基于目标字的图像来提取目标字的字形特征;且为了更好地提取目标字的字形特征,本实施例中利用目标字的多种字体的字图像来生成包含字形特征的字向量,使得目标字的字向量可以包含多种字体的字形特征,后续进行翻译时结果更加准确。
具体的,首先以字为单位确定目标分词中包含的字,即目标字,之后确定目标字在多种字体下分别对应的字图像,进而基于该目标字的所有字图像即可生成包含多种字体字形特征的字向量。例如,目标字为汉字“我”,此时可以确定“我”在宋体、楷体、隶书等字体下对应不同的字形,从而可以将不同字体下的目标字“我”的写法转换为图像,即字图像,该字图像可以为灰度图片,也可以为二值化的黑白图片。以字图像是灰度图片为例,每个字图像可以是长为L、宽为W的数字张量(此时为矩阵),每个数字的取值范围为0~255;之后基于该目标字“我”在多种字体下对应的多个字图像生成该目标字的字向量。
需要说明的是,本实施例中的“字体”还可以包含不同历史时期的字体,比如金文、草书、魏碑等,只要是该字体可以包含字形特征即可。同时,在在本实施例中,对目标文本进行分词处理后可以确定一个或多个分词,可以将其中的部分分词作为本实施例中的目标分词,也可以将所有的分词均作为目标分词;同样的,目标分词可以分为多个字,本实施例中可以将其中的部分字作为目标字,也可以将目标分词包含的所有字作为目标字。
可选的,本发明实施例中,可以基于卷积神经网络对目标字的字图像编码处理,该卷积神经网络的输出即可作为目标字的字向量。其中,由于字图像集合中包含多个字图像,可以将所有的字图像统一进行编码处理生成字向量,也可以分别对每个字图像进行编码处理,之后基于所有的编码处理结果再生成目标字的字向量。具体的,上述步骤102“根据目标字的所有字图像生成目标字的字向量”包括:
步骤A1:确定目标字的每个字图像的图像矩阵,对目标字的D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对图像张量进行编码处理,生成目标字的字向量。
本实施例中,每个字图像本质上仍然是图片,可以基于传统的图像处理技术来确定字图像的图像矩阵。例如,若字图像为灰度图像,则该字图像唯一对应相应的图像矩阵,该图像矩阵中的每个元素的取值范围为0~255。同时,在深度方向上拼接生成图像张量;此处的“深度方向”指的是该图像张量的深度方向。例如,图像矩阵为L×W的矩阵,则图像张量即为L×W×D的三维张量。
或者,上述步骤102“根据目标字的所有字图像生成目标字的字向量”包括:
步骤A2:确定目标字的每个字图像的图像矩阵,分别对每个字图像的图像矩阵进行编码处理,生成每个字图像的图像编码;根据目标字的D个字图像的图像编码生成目标字的字向量。
本发明实施例中,对于目标字的多个字图像(即D个字图像),可以基于卷积神经网络分别对每个字图像的图像矩阵进行编码处理,基于该卷积神经网络的输出即可确定相应字图像的图像编码,之后基于D个字图像的图像编码生成该目标字的字图像。具体的,可以将D个图像编码拼接为一个编码,将拼接后生成的编码作为目标字的字向量;或者,对D个图像编码进行池化处理(例如最大池化处理等),将池化处理后的编码作为目标字的字向量。
步骤103:根据目标分词中所有的目标字的字向量生成目标分词的词向量。
本发明实施例中,由于目标分词中可能包含多个目标字,此时需要结合目标分词中所包含的所有目标字的字向量来生成目标分词词向量。例如,目标分词“邓紫棋”包含3个目标字,分别为“邓”、“紫”、“棋”,此时需要结合三个目标字“邓”、“紫”、“棋”的字向量来生成目标分词“邓紫棋”的词向量,该词向量包含该目标分词中所有目标字的字形特征。具体的,可以对目标分词中所有目标字的字向量进行非线性变换,并最终生成该目标分词的词向量。例如,基于最大池化处理生成目标分词的词向量,也可以采用其他的非线性变换方式,本实施例对此不做限定。
步骤104:基于目标分词的词向量对目标文本进行翻译处理,确定目标文本所对应的目标语言的翻译文本。
本发明实施例中,在生成包含字形特征的目标分词的词向量之后,即可基于该词向量进行翻译,将中文目标文本翻译成目标语言的文本,即翻译文本。其中,在确定词向量之后,可以基于序列到序列的编码-解码模型进行机器翻译。
本发明实施例提供的一种基于字形的翻译方法,以字为单位确定目标文本每个分词的词向量,且利用不同字体中丰富的字形信息,通过目标字的多个字图像生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征;此外,中文为象形文字,不同字体中也包含丰富的语义信息,即目标字的字向量中包含字形特征和语义特征,基于该字向量生成词向量,可以更加有效地识别未登录词和低频词,可以进一步提高翻译结果的准确度。
可选的,上述步骤104“基于目标分词的词向量对目标文本进行翻译处理,确定目标文本所对应的目标语言的翻译文本”包括:
步骤B1:根据目标文本的所有目标分词的词向量生成目标文本的分词序列[x1,x2,…,xt,…xn];n为目标文本包含的目标分词总数,xt表示第t个目标分词的词向量。
本发明实施例中,若目标文本包含n个目标分词,基于上述的步骤102-103即可确定每个目标分词的词向量xt,进而可以确定目标文本的分词序列。其中,需要按照目标分词在目标文本中的位置依次排列,进而生成相应的分词序列[x1,x2,…,xi,…xn]。
步骤B2:将分词序列作为编码器的输入,生成分词序列对应的编码隐向量序列[h1,h2,…,ht,…hn],ht表示第t个编码时刻的编码隐向量。
本发明实施例中,首先利用编码器对目标文本的分词序列进行编码,生成相应的编码隐向量序列。具体的,该编码器可以为循环神经网络(例如长短期记忆网络等),该循环神经网络通过对分词序列进行进一步编码,可以生成目标文本在每个编码时刻的编码隐向量ht,从而可以生成编码隐向量序列[h1,h2,…,ht,…hn]。其中,由于目标文本为中文的文本,该编码器优选为中文编码器。
步骤B3:根据编码隐向量序列和解码器在当前解码时刻的解码隐向量si进行点积处理,确定编码隐向量序列中每一个编码隐向量的权重,并对编码隐向量进行加权处理,生成当前解码时刻的注意力向量ci。
步骤B4:在不同的解码时刻重复上述生成注意力向量的过程,直至解码结束,确定每个解码时刻的注意力向量,并根据所有的解码隐向量和注意力向量生成目标文本所对应的目标语言的翻译文本。
本发明实施例中,基于解码器对编码隐向量序列进行解码处理,该解码器与上述的编码器共同组成编码-解码模型。其中,该解码器也可以是循环神经网络(例如长短期记忆网络等)。本实施例中基于每个解码时刻的注意力向量进行解码处理。
具体的,根据编码隐向量序列[h1,h2,…,ht,…hn]和解码器在当前解码时刻的解码隐向量si进行点积处理,可以得到每一个编码隐向量的权重ωi,之后通过加权处理即可生成当前解码时刻的注意力向量ci,即ci=Σωihi。可选的,还可以根据编码隐向量序列[h1,h2,…,ht,…hn]和当前解码时刻的注意力向量ci生成下一个解码时刻的解码隐向量si+1,例如,可以将编码隐向量与注意力向量拼在一起生成解码隐向量,也可采用其他方式生成下一个解码时刻的解码隐向量。在生成下一个解码时刻的解码隐向量之后,进行下一解码阶段的解码处理过程,即生成下一解码时刻的注意力向量ci+1,直至解码过程完全结束。此时,根据所有的解码隐向量和注意力向量即可生成目标文本所对应的目标语言的翻译文本。
本实施例中的基于注意力向量和编码器输出的所有序列信息(即编码隐向量序列)生成解码隐向量,从而可以有效的传递先前编码器层的信息,提高了翻译效果。
在上述实施例的基础上,上述步骤102“根据目标字的所有字图像生成目标字的字向量”,包括:
步骤C1:基于卷积神经网络对目标字的字图像进行编码处理,卷积神经网络的至少一个池化层输出c×c的第一中间向量;其中,池化层的过滤器尺寸为s×s,且步长也为s;输入至池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。
本发明实施例中,可以基于卷积神经网络对字图像进行编码处理,该卷积神经网络一般包括卷积层、池化层、全连接层等,具体可基于实际情况而定。本实施例中的卷积神经网络包含池化层,且其中的至少一个池化层可以输出c×c的向量,即第一中间向量。具体的,该池化层的输入为a×a的向量,经过池化层s×s大小的过滤器、步长为s的池化操作之后,若a=s×c,则该池化层即可输出c×c的向量。本实施例中,c优先为2,此时可以将字图像分割为四部分,从而可以捕捉该目标字在各个部分的字形特征;由于汉字包含偏旁部首等信息,此时也更容易捕捉汉字的偏旁部首信息。
例如,c=2,该池化层的输入为8×8的向量(即a=8),则池化层的过滤器大小为4×4,且池化处理时的步长为4;将8×8的向量输入至该池化层进行池化处理后,即可生成2×2的第一中间向量。其中,该池化层可以是最大池化层。a、c、s的数值具体可基于卷积神经网络的结构而定。
在上述实施例的基础上,上述步骤102“根据目标字的所有字图像生成目标字的字向量”包括:
步骤C2:基于卷积神经网络对目标字的字图像进行编码处理,卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。
本发明实施例中,基于卷积神经网络来提取目标字的字形特征。为了更好地提取出字形特征,本实施例中将字分为至少四部分来提取字形特征。具体的,该卷积神经网络中至少存在一个能够输出c×c×H向量的卷积层,该卷积层可以提取出c×c个部分的特征。若c=2,则可以将字图像分割为四部分,从而可以捕捉该目标字在每个部分的字形特征;由于汉字包含偏旁部首等信息,此时也更容易捕捉汉字的偏旁部首信息。
此外,该卷积神经网络的一个卷积层的输入为c×c的向量,其中,该输入的深度可以为1,也可以为其他值,本实施例对此不做限定。该卷积层通过H个1×1的卷积核对c×c的输入向量进行卷积处理,从而可以输出c×c×H的向量,即第二中间向量,此时的H表示第二中间向量的深度。本实施例中通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题。本领域技术人员可以理解,该卷积神经网络可以包含上述步骤C1中的池化层和步骤C2中的卷积层,此时可以将上述池化层输出的第一中间向量作为该卷积层的输入,进而该卷积层输出第二中间向量。
具体的,本实施例基于卷积神经网络对目标字的字图像进行编码处理的一种过程示意图参见图2所示。其中,每个字图像为L×W的矩阵,将目标字的D个字图像拼接成L×W×D的三维张量作为该卷积神经网络的输入;之后基于卷积、池化等处理后(图2中以3×3卷积为例说明)生成s×s的向量,并将该s×s的向量输入至池化层进行最大池化处理,图2中以s=6为例说明。经最大池化处理后生成c×c的第一中间向量(图2中以c=2为例说明),之后经过1×1卷积处理生成2×2×H的第二中间向量,最后再经过一系列处理即可生成最终的字向量,图2中以该字向量为1×1的向量为例说明。
在上述实施例的基础上,为本发明实施例提供的方法建立总损失函数,基于该总损失函数对模型训练进行约束。具体的,建立总损失函数的过程包括:
建立总损失函数L,在训练时基于总损失函数对翻译结果进行评价;
其中,L=(1-λ)L(mt)+λL(cls);L(mt)表示中文翻译模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示字图像分类器对应的权重;字图像分类器为基于目标字的字向量对相应目标字进行分类的模型。
本发明实施例中,总损失函数中的L(mt)表示中文翻译模型对应的损失函数,本实施例中的翻译方法可以看作基于一个翻译模型(例如包含卷积神经网络、编码器、解码器等)进行翻译,该翻译模型即为上述的“中文翻译模型”。此外,本实施例中可以基于卷积神经网络生成目标字的字向量,之后可以将该字向量输入至训练好的分类器中,基于目标字包含字形特征的字向量可以对字图像进行分类,即利用分类器可以识别出该目标字对应哪个汉字,该分类器即为“字图像分类器”。对于多任务学习,因为在相关任务上共享底层的参数,因此被认为比单任务学习所获得的模型有更加强的泛化能力;本实施例中将字图像分类器的损失函数添加至总损失函数中,通过多任务的学习可以增强该中文翻译模型的泛化能力,且通过图像分类也可以进一步减小过拟合。
本发明实施例提供的一种基于字形的翻译方法,以字为单位确定目标文本每个分词的词向量,且利用不同字体中丰富的字形信息,通过目标字的多个字图像生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征;此外,中文为象形文字,不同字体中也包含丰富的语义信息,即目标字的字向量中包含字形特征和语义特征,基于该字向量生成词向量,可以更加有效地识别未登录词和低频词,可以进一步提高翻译结果的准确度。基于卷积神经网络的池化层可以输出c×c的第一中间向量,可以将图像分割为多个部分,利于捕捉目标字在各个部分的字形特征;通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题。将字图像分类器的损失函数添加至总损失函数中,通过多任务的学习可以增强总模型的泛化能力,也可以进一步减小过拟合。
以上详细介绍了基于字形的翻译方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种基于字形的翻译装置,参见图3所示,包括:
获取模块31,用于获取源语言为中文的目标文本,并确定所述目标文本的目标分词;
字向量确定模块32,用于确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像,根据所述目标字的所有字图像生成所述目标字的字向量;
词向量确定模块33,用于根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;
翻译模块34,用于基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本。
在上述实施例的基础上,所述字向量确定模块32根据所述目标字的所有字图像生成所述目标字的字向量包括:
确定所述目标字的每个字图像的图像矩阵,对所述目标字的D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述目标字的每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述目标字的D个字图像的图像编码生成所述目标字的字向量。
在上述实施例的基础上,所述字向量确定模块32根据所述目标字的所有字图像生成所述目标字的字向量,包括:
基于卷积神经网络对所述目标字的字图像进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;
其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。
在上述实施例的基础上,所述字向量确定模块32根据所述目标字的所有字图像生成所述目标字的字向量包括:
基于卷积神经网络对所述目标字的字图像进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。
在上述实施例的基础上,该装置还包括评价模块;所述评价模块用于:
建立总损失函数L,在训练时基于所述总损失函数对翻译结果进行评价;
其中,L=(1-λ)L(mt)+λL(cls);L(mt)表示中文翻译模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示所述字图像分类器对应的权重;所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。
在上述实施例的基础上,所述翻译模块34基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本,包括:
根据所述目标文本的所有目标分词的词向量生成所述目标文本的分词序列[x1,x2,…,xt,…xn];n为所述目标文本包含的目标分词总数,xt表示第t个目标分词的词向量;
将所述分词序列作为编码器的输入,生成所述分词序列对应的编码隐向量序列[h1,h2,…,ht,…hn],ht表示第t个编码时刻的编码隐向量;
根据所述编码隐向量序列和解码器在当前解码时刻的解码隐向量si进行点积处理,确定所述编码隐向量序列中每一个编码隐向量的权重,并对所述编码隐向量进行加权处理,生成当前解码时刻的注意力向量ci;
在不同的解码时刻重复上述生成注意力向量的过程,直至解码结束,确定每个解码时刻的注意力向量,并根据所有的解码隐向量和注意力向量生成所述目标文本所对应的目标语言的翻译文本。
本发明实施例提供的一种基于字形的翻译装置,以字为单位确定目标文本每个分词的词向量,且利用不同字体中丰富的字形信息,通过目标字的多个字图像生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征;此外,中文为象形文字,不同字体中也包含丰富的语义信息,即目标字的字向量中包含字形特征和语义特征,基于该字向量生成词向量,可以更加有效地识别未登录词和低频词,可以进一步提高翻译结果的准确度。基于卷积神经网络的池化层可以输出c×c的第一中间向量,可以将图像分割为多个部分,利于捕捉目标字在各个部分的字形特征;通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题。将字图像分类器的损失函数添加至总损失函数中,通过多任务的学习可以增强总模型的泛化能力,也可以进一步减小过拟合。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的基于字形的翻译方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图4示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的基于字形的翻译方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于字形的翻译方法,其特征在于,包括:
获取源语言为中文的目标文本,并确定所述目标文本的目标分词;
确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像,根据所述目标字的所有字图像生成所述目标字的字向量;
根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;
基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标字的所有字图像生成所述目标字的字向量包括:
确定所述目标字的每个字图像的图像矩阵,对所述目标字的D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述目标字的每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述目标字的D个字图像的图像编码生成所述目标字的字向量。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标字的所有字图像生成所述目标字的字向量,包括:
基于卷积神经网络对所述目标字的字图像进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;
其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标字的所有字图像生成所述目标字的字向量包括:
基于卷积神经网络对所述目标字的字图像进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。
5.根据权利要求1-4任一所述的方法,其特征在于,还包括:
建立总损失函数L,在训练时基于所述总损失函数对翻译结果进行评价;
其中,L=(1-λ)L(mt)+λL(cls);L(mt)表示中文翻译模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示所述字图像分类器对应的权重;所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。
6.根据权利要求1-4任一所述的方法,其特征在于,所述基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本,包括:
根据所述目标文本的所有目标分词的词向量生成所述目标文本的分词序列[x1,x2,…,xt,…xn];n为所述目标文本包含的目标分词总数,xt表示第t个目标分词的词向量;
将所述分词序列作为编码器的输入,生成所述分词序列对应的编码隐向量序列[h1,h2,…,ht,…hn],ht表示第t个编码时刻的编码隐向量;
根据所述编码隐向量序列和解码器在当前解码时刻的解码隐向量si进行点积处理,确定所述编码隐向量序列中每一个编码隐向量的权重,并对所述编码隐向量进行加权处理,生成当前解码时刻的注意力向量ci;
在不同的解码时刻重复上述生成注意力向量的过程,直至解码结束,确定每个解码时刻的注意力向量,并根据所有的解码隐向量和注意力向量生成所述目标文本所对应的目标语言的翻译文本。
7.一种基于字形的翻译装置,其特征在于,包括:
获取模块,用于获取源语言为中文的目标文本,并确定所述目标文本的目标分词;
字向量确定模块,用于确定所述目标分词中所包含的目标字在多种字体下分别对应的字图像,根据所述目标字的所有字图像生成所述目标字的字向量;
词向量确定模块,用于根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;
翻译模块,用于基于所述目标分词的词向量对所述目标文本进行翻译处理,确定所述目标文本所对应的目标语言的翻译文本。
8.根据权利要求7所述的装置,其特征在于,所述字向量确定模块根据所述目标字的所有字图像生成所述目标字的字向量包括:
确定所述目标字的每个字图像的图像矩阵,对所述目标字的D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者
确定所述目标字的每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述目标字的D个字图像的图像编码生成所述目标字的字向量。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-6任意一项所述的基于字形的翻译方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6任意一项所述的基于字形的翻译方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910651109.4A CN110348025A (zh) | 2019-07-18 | 2019-07-18 | 一种基于字形的翻译方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910651109.4A CN110348025A (zh) | 2019-07-18 | 2019-07-18 | 一种基于字形的翻译方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110348025A true CN110348025A (zh) | 2019-10-18 |
Family
ID=68178907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910651109.4A Pending CN110348025A (zh) | 2019-07-18 | 2019-07-18 | 一种基于字形的翻译方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348025A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851484A (zh) * | 2019-11-13 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种获取多指标问题答案的方法及装置 |
CN112668346A (zh) * | 2020-12-24 | 2021-04-16 | 科大讯飞股份有限公司 | 翻译方法、装置、设备及存储介质 |
CN112926343A (zh) * | 2019-12-06 | 2021-06-08 | 搜狗(杭州)智能科技有限公司 | 一种数据处理方法、装置和电子设备 |
CN113947092A (zh) * | 2020-07-16 | 2022-01-18 | 阿里巴巴集团控股有限公司 | 一种翻译方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168952A (zh) * | 2017-05-15 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN107608973A (zh) * | 2016-07-12 | 2018-01-19 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108595416A (zh) * | 2018-03-27 | 2018-09-28 | 义语智能科技(上海)有限公司 | 字符序列处理方法及设备 |
CN108681539A (zh) * | 2018-05-07 | 2018-10-19 | 内蒙古工业大学 | 一种基于卷积神经网络的蒙汉神经翻译方法 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
-
2019
- 2019-07-18 CN CN201910651109.4A patent/CN110348025A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608973A (zh) * | 2016-07-12 | 2018-01-19 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
CN107168952A (zh) * | 2017-05-15 | 2017-09-15 | 北京百度网讯科技有限公司 | 基于人工智能的信息生成方法和装置 |
CN108595416A (zh) * | 2018-03-27 | 2018-09-28 | 义语智能科技(上海)有限公司 | 字符序列处理方法及设备 |
CN108595590A (zh) * | 2018-04-19 | 2018-09-28 | 中国科学院电子学研究所苏州研究院 | 一种基于融合注意力模型的中文文本分类方法 |
CN108681539A (zh) * | 2018-05-07 | 2018-10-19 | 内蒙古工业大学 | 一种基于卷积神经网络的蒙汉神经翻译方法 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851484A (zh) * | 2019-11-13 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种获取多指标问题答案的方法及装置 |
CN112926343A (zh) * | 2019-12-06 | 2021-06-08 | 搜狗(杭州)智能科技有限公司 | 一种数据处理方法、装置和电子设备 |
CN113947092A (zh) * | 2020-07-16 | 2022-01-18 | 阿里巴巴集团控股有限公司 | 一种翻译方法及装置 |
CN112668346A (zh) * | 2020-12-24 | 2021-04-16 | 科大讯飞股份有限公司 | 翻译方法、装置、设备及存储介质 |
CN112668346B (zh) * | 2020-12-24 | 2024-04-30 | 中国科学技术大学 | 翻译方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516577B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
US20190180154A1 (en) | Text recognition using artificial intelligence | |
CN110348025A (zh) | 一种基于字形的翻译方法、装置、存储介质及电子设备 | |
CN110334357A (zh) | 一种命名实体识别的方法、装置、存储介质及电子设备 | |
CN112016315B (zh) | 模型训练、文本识别方法及装置、电子设备、存储介质 | |
CN111667066A (zh) | 网络模型的训练、文字识别方法、装置和电子设备 | |
CN114444565B (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN113435499B (zh) | 标签分类方法、装置、电子设备和存储介质 | |
Zhang et al. | Ensemble model of attention mechanism-based DCGAN and autoencoder for noised OCR classification | |
CN110363830B (zh) | 元素图像生成方法、装置及系统 | |
CN109697442B (zh) | 一种字符识别模型的训练方法和装置 | |
CN112163114A (zh) | 一种基于特征融合的图像检索方法 | |
Kaddoura | A Primer on Generative Adversarial Networks | |
CN110348023A (zh) | 一种中文文本分词的方法、装置、存储介质及电子设备 | |
CN117710295A (zh) | 图像处理方法、装置、设备、介质及程序产品 | |
CN110889290B (zh) | 文本编码方法和设备、文本编码有效性检验方法和设备 | |
CN112839185A (zh) | 用于处理图像的方法、装置、设备和介质 | |
CN110348022A (zh) | 一种相似度分析的方法、装置、存储介质及电子设备 | |
US12112524B2 (en) | Image augmentation method, electronic device and readable storage medium | |
CN115618019A (zh) | 知识图谱构建方法、装置及终端设备 | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
CN116955138A (zh) | 一种验收方法、装置、设备及存储介质 | |
CN114359739A (zh) | 目标识别方法及装置 | |
CN113744158A (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN114519678A (zh) | 一种扫描透射图像恢复方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |