CN108170686B - 文本翻译方法及装置 - Google Patents

文本翻译方法及装置 Download PDF

Info

Publication number
CN108170686B
CN108170686B CN201711480227.0A CN201711480227A CN108170686B CN 108170686 B CN108170686 B CN 108170686B CN 201711480227 A CN201711480227 A CN 201711480227A CN 108170686 B CN108170686 B CN 108170686B
Authority
CN
China
Prior art keywords
word
source text
phoneme
vector corresponding
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711480227.0A
Other languages
English (en)
Other versions
CN108170686A (zh
Inventor
王亚楠
孟廷
刘俊华
魏思
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201711480227.0A priority Critical patent/CN108170686B/zh
Publication of CN108170686A publication Critical patent/CN108170686A/zh
Application granted granted Critical
Publication of CN108170686B publication Critical patent/CN108170686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种文本翻译方法及装置,属于语言处理技术领域。该方法包括:获取源文本对应的音素序列编码向量及词序列向量;其中,源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数相同;将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本。由于在机器翻译的解码阶段之前,结合了词序列和音素序列进行编码,从而可利用音素序列对语音识别结果作容错处理,使得翻译后的目标文本能够更加准确地对应源语音信号。因此,翻译结果更加准确。

Description

文本翻译方法及装置
技术领域
本发明实施例涉及语言处理技术领域,更具体地,涉及一种文本翻译方法及装置。
背景技术
目前,语言沟通成为不同种族群体在相互交流时所面临的一个重要课题。传统的翻译方式通常是采用人工陪同口译、交替口译以及同声传译等,以解决语言沟通障碍问题,但受限于人力不足以及成本限制,无法满足普通人进行沟通交流的需求。而语音翻译技术的发展对传统翻译方式做出了有益补充,为普通人日常沟通交流提供了另一条途径,并在成本及时效性等方面更具优势。语音翻译包括语音识别、机器翻译和语音合成这三个步骤,在语音识别环节中引入的错误,会直接影响后续翻译准确度。相关技术在翻译源文本时,需要先将源语音信号转化为语素序列,再将音素序列转化成词序列,以得到源文本。通过上述过程实现语音识别后,可将源文本作为翻译模型的输入,从而输出得到翻译结果。由于在将源文本的音素序列转化为源文本的词序列时,转化过程容易出错,从而导致翻译结果也容易出错。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的文本翻译方法及装置。
根据本发明实施例的第一方面,提供了一种文本翻译方法,该方法包括:
获取源文本对应的音素序列编码向量及词序列向量;其中,源文本对应的音素序列编码向量由源文本中每一分词对应的音素编码向量所构成,源文本对应的词序列向量由源文本中每一分词对应的词向量所构成,源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数相同;
将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本。
本发明实施例提供的方法,通过获取源文本对应的音素序列编码向量及词序列向量。将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本。由于在机器翻译的解码阶段之前,结合了词序列和音素序列进行编码,从而可利用音素序列对语音识别结果作容错处理,使得翻译后的目标文本能够更加准确地对应源语音信号。因此,翻译结果更加准确。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,获取源文本中每一分词对应的音素编码向量,包括:
获取源文本中每一分词对应的音素序列中最后一个音素的编码向量,并作为每一分词对应的音素编码向量。
结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,获取源文本中每一分词对应的音素编码向量,包括:
对源文本对应的音素序列作卷积处理,得到卷积向量;
根据卷积向量的维度及源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸;
基于窗口尺寸对卷积向量作池化处理,得到每一分词对应的音素编码向量。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,根据卷积向量的维度及源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸,包括:
计算卷积向量的维度与源文本对应的词序列向量中包含的词向量数之间的比值,对计算得到的比值向上取整,将得到的整数值作为池化处理的窗口尺寸。
结合第一方面的第一种可能的实现方式,在第五种可能的实现方式中,每一分词对应的词向量为初始词向量或者词编码向量。
结合第一方面的第一种可能的实现方式,在第六种可能的实现方式中,将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本,包括:
将源文本中每一分词对应的音素编码向量与每一分词对应的词向量进行拼接,得到每一分词对应的特征向量,将每一分词对应的特征向量输入至翻译模型,输出得到源文本对应的目标文本。
根据本发明实施例的第二方面,提供了一种文本翻译装置,该装置包括:
获取模块,用于获取源文本对应的音素序列编码向量及词序列向量;其中,源文本对应的音素序列编码向量由源文本中每一分词对应的音素编码向量所构成,源文本对应的词序列向量由源文本中每一分词对应的词向量所构成,源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数相同;
翻译模块,用于将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,获取模块,用于对源文本对应的音素序列作卷积处理,得到卷积向量;根据卷积向量的维度及源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸;基于窗口尺寸对卷积向量作池化处理,得到每一分词对应的音素编码向量。
根据本发明实施例的第三方面,提供了一种文本翻译设备,包括:
至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的文本翻译方法。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的文本翻译方法。
应当理解的是,以上的一般描述和后文的细节描述是示例性和解释性的,并不能限制本发明实施例。
附图说明
图1为本发明实施例的一种神经翻译系统的框架示意图;
图2为本发明实施例的一种文本翻译方法的流程示意图;
图3为本发明实施例的另一种文本翻译方法的流程示意图;
图4为本发明实施例的一种规整音素序列的过程示意图;
图5为本发明实施例的一种翻译模型的结构示意图;
图6为本发明实施例的一种文本翻译装置的框图;
图7为本发明实施例的一种文本翻译设备的框图。
具体实施方式
下面结合附图和实施例,对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例,但不用来限制本发明实施例的范围。
语音翻译是指从源语言到目标语言的语音信号的自动翻译过程。目前主要的翻译方式是依次进行语音识别、文本翻译及语音合成来实现语音翻译。该方式主要是借助语音识别及机器翻译技术,具体实现流程如下:
(1)语音识别,主要是将源语音信号转化为源文本;
(2)文本优化,主要是对源文本作优化处理,更利于机器翻译;
(3)文本翻译,主要是将源文本通过机器翻译模型翻译成目标文本;
(4)语音合成,主要是将目标文本转化为音频。
其中,机器翻译是指将源语言转化成目标语言的过程。目前关于机器翻译的主流研究方向是基于神经网络的神经机器翻译。神经机器翻译是指直接采用神经网络以端到端的形式进行翻译建模的机器翻译方式。具体过程如下:首先使用一个作为编码器的神经网络将源文本编码为一个稠密向量,然后使用一个作为解码器的神经网络从该稠密向量中解码出目标文本。这种神经网络模型也称为“编码器(Encoder)-解码器(Decoder)”结构。
传统的Encoder-Decoder结构中,Encoder需要把所有的输入序列都编码成了一个统一的语义向量再进行解码,从而语义向量中必须包含输入序列的所有信息,而语义向量的长度就成了限制模型性能的瓶颈。在传统的编码-解码框架引入注意力机制,基本思想是目标文本中的分词往往只与源文本中的部分分词有关,每个时间使用不同的语义向量,每一个语义向量会自动选取与当前输出最相关的上下文信息。这种Attention机制极大地提升了神经机器翻译的性能。
基于循环神经网络(RNN,Recurrent Neural Networks)和Attention的翻译系统可如图1所示。图1为基于RNN和Attention的神经翻译系统框架图,输入的源文本为x=(x1,x2,x3,…,xn),输出的目标文本为y=(y1,y2,y3,...,yl)。其中,n表示源文本的句子长度,即源文本分词的个数。l表示目标文本的句子长度,也即目标文本中分词的个数。上述神经翻译系统框架包含了三个模块,分别是基于双向RNN的Encode模块,Attention模块,以及基于RNN的Decode模块,每个模块具体流程描述如下:
(1)Encode模块
该模块主要用来计算输入源文本中每个分词在该句上下文语境中的表征编码。首先,通过词向量查表技术得到每个分词xi对应的词向量ei。然后,通过前向循环神经网络基于该词向量ei得到每个分词在历史词汇信息下的向量表示fi,以及反向循环神经网络基于该词向量得到每个分词在未来词汇信息下的向量表示li。最后,将两者拼接起来形成每个分词在该源文本中的表征向量hi
(2)Attention模块
该模块主要用来计算第i个解码时刻所依赖的源文本信息表征Ci。假设上一时刻RNN解码隐含状态为si-1,则Ci的计算方式可参考如下公式:
Figure BDA0001533611430000061
Figure BDA0001533611430000062
在上述公式中,第i个解码时刻的源文本信息表征Ci是源文本中每个分词的翻译贡献程度的平均加权。αij表示在翻译得到第i个目标分词时第j个分词所起到的贡献程度。a(si-1,hj)是依赖于编码模块第j个分词的编码特征hj和解码模块上一时刻解码循环神经网络的输出特征si-1的函数。该函数可以有多种实现方式,如前馈神经网络函数,本发明实施例对此不作具体限定。该函数的其中一种实现形式可通过如下公式表示:
a(si-1,hj)=vTtanh(Wsi-1+Uhj)
(3)Decode模块
该模块主要用于基于源文本采用循环神经网络用来生成目标文本。具体计算过程可参考如下公式:
si=f(xi-1,yi-1,ci)
Figure BDA0001533611430000063
其中,f()表示实时变换函数,可以为普通的RNN,或者是改进后的基于门控循环单元(Gated Recurrent Unit,GRU),或者基于长短期记忆网络(Long Short Term Memory,LSTM),本发明实施例对此不作具体限定。P(yi=Vk)表示yi是目标语言词表中第k个词的概率,Lk(si)表示与第k个目标词相关的变换函数。在每个解码时刻上计算完解码结果为目标语言词表中第k个词的概率之后,即可通过Viterbi解码得到最优解码序列y=(y1,y2,y3,...,yl),从而使得整个目标文本的输出概率P(y|x)最大。
在上述语音翻译过程中,一般使用的是基于字(Character-based)的神经翻译系统。在使用基于字(Character-based)的神经翻译系统翻译源文本时,可先将源语音信号转化为语素序列,再将音素序列转化成词序列,以得到源文本。通过上述语音识别的过程得到源文本后,可翻译源文本,从而得到翻译结果。其中,源文本对应的音素序列可以通过p=(p1,p2,p3,...,pm)表示,m表示源文本中包含的音素数。第i个分词xi可能对应的音素序列是pk(1≤k≤l),pk+1,...,pl(k≤l≤m)。例如,源文本“你好”对应的音素序列为“ni h ao”。源文本“你好”中分词的数量为一个,而分词对应的音素序列中包含3个音素。
在将音素序列转化得到源文本的过程中,即使采取了纠错措施,音素序列与源文本之间仍会存在偏差。例如,语音识别出的音素序列为“wo y ao qu ji ch ang”,而语音识别出的源文本可能却为“我要吃机场”,也即语音识别中音素“qu”是对的,但是在该句的语境下识别出的文字“吃”却是错误的,从而依据识别出的源文本可能不能得到正确的翻译结果“I want to go to airport”。针对上述情形,本发明实施例提供了一种文本翻译方法。该方法适用于将源语音信号翻译成目标文本的语音翻译场景,也适用于将一种语言的文本翻译成另一种语言的文本的场景,本发明实施例对此不作具体限定。参见图2,该方法包括:201、获取源文本对应的音素序列编码向量及词序列向量;202、将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本。
在上述步骤201中,源文本对应的音素序列编码向量由源文本中每一分词对应的音素编码向量所构成,源文本对应的词序列向量由源文本中每一分词对应的词向量所构成,源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数相同。如源文本对应的音素序列编码向量为{hc1、hc2、…、hcn},源文本对应的词序列向量为{hw1、hw2、…、hwn}为例,源文本对应的音素序列编码向量中每一分词对应的音素编码向量分别为hc1、hc2、…、hcn,源文本对应的音素序列编码向量中包含的音素编码向量数,即为所有分词对应的音素编码向量的总数量n。源文本对应的词序列向量中每一分词对应的词向量分别为hw1、hw2、…、hwn,源文本对应的词序列向量中包含的词向量数,即为所有分词对应的词向量的总数量n。因此,源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数相同且均为n。
其中,hc1为源文本中第一个分词对应的音素编码向量,hw1为源文本中第一个分词对应的词向量。n表示源文本中分词的总数量,hcn为源文本中第n个分词对应的音素编码向量,hwn为源文本中第n个分词对应的词向量。
在获取到源文本中每一分词对应的音素编码向量及词向量之后,可将每一分词对应的音素编码向量与每一分词对应的词向量输入至翻译模型,输出得到源文本对应的目标文本。
本发明实施例提供的方法,通过获取源文本对应的音素序列编码向量及词序列向量。将源文本对应的音素序列编码向量词序列向量输入至翻译模型,输出得到源文本对应的目标文本。由于在机器翻译的解码阶段之前,结合了词序列和音素序列进行编码,从而可利用音素序列对语音识别结果作容错处理,使得翻译后的目标文本能够更加准确地对应源语音信号。因此,翻译结果更加准确。
由上述实施例的内容可知,源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数需要相同,才能一一对应进行拼接。为了让两者相同,作为一种可选实施例,本发明实施例还提供了一种获取源文本中每一分词对应的音素编码向量的方法,该方法包括:获取源文本中每一分词对应的音素序列中最后一个音素的编码向量,并作为每一分词对应的音素编码向量。
以源文本中的分词x1对应的音素序列为p1、p2及p3为例。分词x1对应的音素序列中最后一个音素为p3。若p3的编码向量为hp3,则可将hp3作为分词x1对应的音素编码向量。需要说明的是,实际实施中可先获取每一分词对应的音素序列中的最后一个音素,再获取最后一个音素的编码向量。也可以先获取每一分词对应的音素序列编码向量,再从每一分词对应的音素序列编码向量中选取最后一个音素的编码向量,本发明实施例对此不作具体限定。
由于源文本对应的音素序列编码向量中包含的音素编码向量数是通过卷积神经网络对音素序列进行编码后所确定的,从而源文本对应的音素序列编码向量中包含的音素编码向量数可以由卷积神经网络所确定。具体地,源文本对应的音素序列编码向量中包含的音素编码向量数可以由卷积神经网络的池化处理的窗口尺寸所确定。基于上述实施例的内容,为了保证源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数相同,本发明实施例还提供了一种获取源文本中每一分词对应的音素编码向量的方法。参见图3,该方法包括:1011、对源文本对应的音素序列作卷积处理,得到卷积向量;1012、根据卷积向量的维度及源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸;1013、基于窗口尺寸对卷积向量作池化处理,得到每一分词对应的音素编码向量。
具体地,以卷积处理的卷积核数为s,卷积核的窗口尺寸均为k,卷积移动步长为step为例,则对源文本对应的音素序列作卷积处理后,得到的卷积向量的维度可通过如下公式表示:
Figure BDA0001533611430000091
在上述公式,dim为卷积向量的维度,m为源文本对应的音素序列的长度。
在得到卷积向量的维度及源文本对应的词序列向量中包含的词向量数之后,可确定池化处理的窗口尺寸。本发明实施例不对根据卷积向量的维度及源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸的方式作具体限定,包括但不限于:计算卷积向量的维度与源文本对应的词序列向量中包含的词向量数之间的比值,对计算得到的比值向上取整,将得到的整数值作为池化处理的窗口尺寸。
上述计算过程可通过如下公式表示:
Figure BDA0001533611430000101
在上述公式中,dim为卷积向量的维度,n为源文本对应的词序列向量中包含的词向量数。
Figure BDA0001533611430000102
表示向上取整运算,stride为池化处理的窗口尺寸。
例如,以源文本为“在干啥”为例。对应的词序列为“在干啥”,对应的音素序列为“zai g an sh a”。其中,源文本对应的词序列向量中包含的词向量数为3,从而源文本对应的音素序列编码向量中包含的音素编码向量数也需要为3。若预先设定的卷积处理的卷积核数为1,卷积核的窗口尺寸为2,卷积移动步长为step为1,则可得到卷积向量的维度:
Figure BDA0001533611430000103
根据卷积向量的维度及源文本对应的词序列向量中包含的词向量数,可计算得到池化处理的窗口尺寸:
Figure BDA0001533611430000104
在确定池化处理的窗口尺寸后,卷积神经网络中的池化层可根据池化处理的窗口尺寸对卷积向量作池化处理,从而得到每一分词对应的音素编码向量。其中,音素序列进行卷积及池化处理的规整过程可参考图4。图4中p=(p1,p2,p3,...,pm)为输入源文本对应的音素序列,{hc1、hc2、…、hcn}为源文本对应的音素序列编码向量。卷积层用于得到卷积向量,池化层用于对卷积向量作池化处理,输出层用于输出源文本对应的音素序列编码向量。
本发明实施例提供的方法,通过获取源文本中每一分词对应的音素序列中最后一个音素的编码向量,并作为每一分词对应的音素编码向量。或者,通过对源文本对应的音素序列作卷积处理,得到卷积向量。根据卷积向量的维度及源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸。基于窗口尺寸对卷积向量作池化处理,得到每一分词对应的音素编码向量。由于可将每一分词对应的词向量与音素编码向量进行拼接,将拼接后得到的特征向量作为翻译过程输入参数,从而可更好地表示源语音信号的特征,提高了翻译过程中输入参数的准确度。
基于上述实施例的内容,作为一种可选实施例,每一分词对应的词向量为初始词向量或者词编码向量。
若每一分词对应的词向量为初始词向量,则实际实施过程中只需将每一分词转化为初始词向量即可。具体地,可通过查表的方式,如在词向量表中查询每一分词对应的初始词向量。
若每一分词对应的词向量为词编码向量,则在得到每一分词的初始词向量后,还可对初始词向量进行编码。具体地,可通过RNN对初始词向量进行编码,本发明实施例不对编码方式作具体限定。其中,编码后得到的每一分词对应的词编码向量与上下文关联更加紧密,并能更好地表示源语音信号的特征。
由于每一分词对应的词向量可以为初始词向量或者词编码向量,从而后续在将每一分词对应的音素编码向量与每一分词对应的词向量进行拼接时,可存在两种不同的拼接方式。实际实施中,可根据向量的具体内容对每一分词的音素编码向量与词向量进行拼接,如采用横向拼接的方式,本发明实施例对此不作具体限定。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本的方式作具体限定,包括但不限于:将源文本中每一分词对应的音素编码向量与每一分词对应的词向量进行拼接,得到每一分词对应的特征向量,将每一分词对应的特征向量输入至翻译模型,输出得到源文本对应的目标文本。
具体地,以源文本对应的音素序列编码向量为{hc1、hc2、…、hcn},源文本对应的词序列向量为{hw1、hw2、…、hwn}为例,将第一个分词对应的音素编码向量hc1与第一个分词对应的词向量hw1进行拼接,可得到第一个分词对应的特征向量h1。将第n个分词对应的音素编码向量hcn与第n个分词对应的词向量hwn进行拼接,可得到第n个分词对应的特征向量hn。按照上述拼接过程,可得到每一分词对应的特征向量。每一分词对应的特征向量可构成源文本对应的特征向量,即为{h1、h2、…、hn}。
例如,若源文本对应的词序列向量的大小为1×250,源文本对应的音素序列编码向量的大小为1×250,则拼接后得到的源文本对应的特征向量,其大小为1×500。
在将源文本对应的特征向量作为一个整体输入至翻译模型中的Decode层后,也即,将每一分词对应的特征向量输入至翻译模型中的Decode层后,可通过翻译模型对源文本进行翻译并得到目标文本。其中,翻译模型的结构可参考图5。如图5所示,x=(x1,x2,x3,...,xn)为输入的源文本,p=(p1,p2,p3,...,pm)为输入源文本对应的音素序列,y=(y1,y2,y3,...,yl)为输出的目标文本。{hw1、hw2、…、hwn}为源文本对应的词序列向量,{hc1、hc2、…、hcn}为源文本对应的音素序列编码向量。Decode表示翻译模型中的解码层,yt-1为目标文本中的第t-1个分词,yt为目标文本中的第t个分词,St-1及St为翻译过程的中间结果。
本发明实施例提供的方法,通过将源文本中每一分词对应的音素编码向量与每一分词对应的词向量进行拼接,得到每一分词对应的特征向量,将每一分词对应的特征向量输入至翻译模型,输出得到源文本对应的目标文本。由于可将每一分词对应的词向量与音素编码向量进行拼接,将拼接后得到的特征向量作为翻译过程输入参数,从而可更好地表示源语音信号的特征,提高了翻译过程中输入参数的准确度。
需要说明的是,上述所有可选实施例,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
基于上述实施例的内容,本发明实施例提供了一种文本翻译装置,该文本翻译装置用于执行上述方法实施例中的文本翻译方法。参见图6,该装置包括:
获取模块601,用于获取源文本对应的音素序列编码向量及词序列向量;其中,源文本对应的音素序列编码向量由源文本中每一分词对应的音素编码向量所构成,源文本对应的词序列向量由源文本中每一分词对应的词向量所构成,源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数相同;
翻译模块602,用于将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本。
作为一种可选实施例,获取模块601,用于获取源文本中每一分词对应的音素序列中最后一个音素的编码向量,并作为每一分词对应的音素编码向量。
作为一种可选实施例,获取模块601,包括:
卷积处理单元,用于对源文本对应的音素序列作卷积处理,得到卷积向量;
确定单元,用于根据卷积向量的维度及源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸;
池化处理单元,用于基于窗口尺寸对卷积向量作池化处理,得到每一分词对应的音素编码向量。
作为一种可选实施例,确定单元,用于计算卷积向量的维度与源文本对应的词序列向量中包含的词向量个数之间的比值,对计算得到的比值向上取整,将得到的整数值作为池化处理的窗口尺寸。
作为一种可选实施例,每一分词对应的词向量为初始词向量或者词编码向量。
作为一种可选实施例,获取模块601,用于将源文本中每一分词对应的音素编码向量与每一分词对应的词向量进行拼接,得到每一分词对应的特征向量,将每一分词对应的特征向量输入至翻译模型,输出得到源文本对应的目标文本。
本发明实施例提供的装置,通过获取源文本对应的音素序列编码向量及词序列向量。将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本。由于在机器翻译的解码阶段之前,结合了词序列和音素序列进行编码,从而可利用音素序列对语音识别结果作容错处理,使得翻译后的目标文本能够更加准确地对应源语音信号。因此,翻译结果更加准确。
另外,通过获取源文本中每一分词对应的音素序列中最后一个音素的编码向量,并作为每一分词对应的音素编码向量。或者,通过对源文本对应的音素序列作卷积处理,得到卷积向量。根据卷积向量的维度及源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸。基于窗口尺寸对卷积向量作池化处理,得到每一分词对应的音素编码向量。由于可将每一分词对应的词向量与音素编码向量进行拼接,将拼接后得到的特征向量作为翻译过程输入参数,从而可更好地表示源语音信号的特征,提高了翻译过程中输入参数的准确度。
本发明实施例提供了一种文本翻译设备。参见图7,该设备包括:处理器(processor)701、存储器(memory)702和总线703;
其中,处理器701及存储器702分别通过总线703完成相互间的通信;
处理器701用于调用存储器702中的程序指令,以执行上述实施例所提供的文本翻译方法,例如包括:获取源文本对应的音素序列编码向量及词序列向量;其中,源文本对应的音素序列编码向量由源文本中每一分词对应的音素编码向量所构成,源文本对应的词序列向量由源文本中每一分词对应的词向量所构成,源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数相同;将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述实施例所提供的文本翻译方法,例如包括:获取源文本对应的音素序列编码向量及词序列向量;其中,源文本对应的音素序列编码向量由源文本中每一分词对应的音素编码向量所构成,源文本对应的词序列向量由源文本中每一分词对应的词向量所构成,源文本对应的音素序列编码向量中包含的音素编码向量数与源文本对应的词序列向量中包含的词向量数相同;将源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到源文本对应的目标文本。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的文本翻译设备等实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分方法。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种文本翻译方法,其特征在于,包括:
获取源文本对应的音素序列编码向量及词序列向量;其中,所述源文本对应的音素序列编码向量由所述源文本中每一分词对应的音素编码向量所构成,所述源文本对应的词序列向量由所述源文本中每一分词对应的词向量所构成,所述源文本对应的音素序列编码向量中包含的音素编码向量数与所述源文本对应的词序列向量中包含的词向量数相同,所述源文本对应的音素序列编码向量中包含的音素编码向量数等于所述源文本中分词的总数量;
将所述源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到所述源文本对应的目标文本。
2.根据权利要求1所述的方法,其特征在于,所述获取源文本中每一分词对应的音素编码向量,包括:
获取所述源文本中每一分词对应的音素序列中最后一个音素的编码向量,并作为每一分词对应的音素编码向量。
3.根据权利要求1所述的方法,其特征在于,所述获取源文本中每一分词对应的音素编码向量,包括:
对所述源文本对应的音素序列作卷积处理,得到卷积向量;
根据所述卷积向量的维度及所述源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸;
基于所述窗口尺寸对所述卷积向量作池化处理,得到每一分词对应的音素序列编码向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述卷积向量的维度及所述源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸,包括:
计算所述卷积向量的维度与所述源文本对应的词序列向量中包含的词向量数之间的比值,对计算得到的比值向上取整,将得到的整数值作为池化处理的窗口尺寸。
5.根据权利要求1所述的方法,其特征在于,所述每一分词对应的词向量为初始词向量或者词编码向量。
6.根据权利要求1所述的方法,其特征在于,所述将所述源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到所述源文本对应的目标文本,包括:
将所述源文本中每一分词对应的音素编码向量与每一分词对应的词向量进行拼接,得到每一分词对应的特征向量,将每一分词对应的特征向量输入至翻译模型,输出得到所述源文本对应的目标文本。
7.一种文本翻译装置,其特征在于,包括:
获取模块,用于获取源文本对应的音素序列编码向量及词序列向量;其中,所述源文本对应的音素序列编码向量由所述源文本中每一分词对应的音素编码向量所构成,所述源文本对应的词序列向量由所述源文本中每一分词对应的词向量所构成,所述源文本对应的音素序列编码向量中包含的音素编码向量数与所述源文本对应的词序列向量中包含的词向量数相同,所述源文本对应的音素序列编码向量中包含的音素编码向量数等于所述源文本中分词的总数量;
翻译模块,用于将所述源文本对应的音素序列编码向量与词序列向量输入至翻译模型,输出得到所述源文本对应的目标文本。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,用于对所述源文本对应的音素序列作卷积处理,得到卷积向量;根据所述卷积向量的维度及所述源文本对应的词序列向量中包含的词向量数,确定池化处理的窗口尺寸;基于所述窗口尺寸对所述卷积向量作池化处理,得到每一分词对应的音素序列编码向量。
9.一种文本翻译设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。
CN201711480227.0A 2017-12-29 2017-12-29 文本翻译方法及装置 Active CN108170686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711480227.0A CN108170686B (zh) 2017-12-29 2017-12-29 文本翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711480227.0A CN108170686B (zh) 2017-12-29 2017-12-29 文本翻译方法及装置

Publications (2)

Publication Number Publication Date
CN108170686A CN108170686A (zh) 2018-06-15
CN108170686B true CN108170686B (zh) 2020-02-14

Family

ID=62516337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711480227.0A Active CN108170686B (zh) 2017-12-29 2017-12-29 文本翻译方法及装置

Country Status (1)

Country Link
CN (1) CN108170686B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766414B (zh) * 2018-06-29 2021-01-15 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质
CN110147554B (zh) * 2018-08-24 2023-08-22 腾讯科技(深圳)有限公司 同声翻译方法、装置和计算机设备
CN110931000B (zh) * 2018-09-20 2022-08-02 杭州海康威视数字技术股份有限公司 语音识别的方法和装置
CN109614612A (zh) * 2018-11-29 2019-04-12 武汉大学 一种基于seq2seq+attention的中文文本纠错方法
CN112352275A (zh) * 2018-12-13 2021-02-09 微软技术许可有限责任公司 具有多级别文本信息的神经文本到语音合成
CN110119513A (zh) * 2018-12-19 2019-08-13 吉林化工学院 一种基于大数据分析的远程日语教学交互系统及交互方法
CN111428518B (zh) * 2019-01-09 2023-11-21 科大讯飞股份有限公司 一种低频词翻译方法及装置
CN109902312B (zh) * 2019-03-01 2023-07-11 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN109933809B (zh) * 2019-03-15 2023-09-15 北京金山数字娱乐科技有限公司 一种翻译方法及装置、翻译模型的训练方法及装置
CN110415687B (zh) * 2019-05-21 2021-04-13 腾讯科技(深圳)有限公司 语音处理方法、装置、介质、电子设备
CN110827801B (zh) * 2020-01-09 2020-04-17 成都无糖信息技术有限公司 一种基于人工智能的自动语音识别方法及系统
CN111326157B (zh) * 2020-01-20 2023-09-08 抖音视界有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111862847A (zh) * 2020-07-07 2020-10-30 深圳康佳电子科技有限公司 一种电子桌牌及翻译系统
CN111950303B (zh) * 2020-10-19 2021-01-08 平安科技(深圳)有限公司 医疗文本翻译方法、装置及存储介质
CN115329785B (zh) * 2022-10-15 2023-01-20 小语智能信息科技(云南)有限公司 融入音素特征的英-泰-老多语言神经机器翻译方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106601226A (zh) * 2016-11-18 2017-04-26 中国科学院自动化研究所 音素时长预测建模方法及音素时长预测方法
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010025460A1 (en) * 2008-08-29 2010-03-04 O3 Technologies, Llc System and method for speech-to-speech translation
CN101788978B (zh) * 2009-12-30 2011-12-07 中国科学院自动化研究所 一种拼音和汉字相结合的汉外口语自动翻译方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
CN106601226A (zh) * 2016-11-18 2017-04-26 中国科学院自动化研究所 音素时长预测建模方法及音素时长预测方法

Also Published As

Publication number Publication date
CN108170686A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN108170686B (zh) 文本翻译方法及装置
US10380996B2 (en) Method and apparatus for correcting speech recognition result, device and computer-readable storage medium
CN109446534B (zh) 机器翻译方法及装置
CN111145728B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111199727B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN109492202B (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN107632981B (zh) 一种引入源语组块信息编码的神经机器翻译方法
CN103971686B (zh) 自动语音识别方法和系统
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN112509555B (zh) 方言语音识别方法、装置、介质及电子设备
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113574595A (zh) 用于具有触发注意力的端到端语音识别的系统和方法
CN111126072B (zh) 一种Seq2Seq模型训练方法、装置、介质和设备
CN113327595B (zh) 发音偏误检测方法、装置及存储介质
CN114662476A (zh) 一种融合词典与字符特征的字符序列识别方法
CN107452374B (zh) 基于单向自标注辅助信息的多视角语言识别方法
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN114548053A (zh) 一种基于编辑方法的文本对比学习纠错系统、方法及装置
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN114708474A (zh) 一种融合局部和全局特征的图像语义理解算法
CN113450758A (zh) 语音合成方法、装置、设备及介质
CN110717316B (zh) 字幕对话流的主题分割方法及装置
CN112749551A (zh) 文本纠错方法、装置、设备及可读存储介质
CN112668346A (zh) 翻译方法、装置、设备及存储介质
CN115270771B (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant