CN114358026A - 语音翻译方法、装置、设备和计算机可读存储介质 - Google Patents

语音翻译方法、装置、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN114358026A
CN114358026A CN202111590268.1A CN202111590268A CN114358026A CN 114358026 A CN114358026 A CN 114358026A CN 202111590268 A CN202111590268 A CN 202111590268A CN 114358026 A CN114358026 A CN 114358026A
Authority
CN
China
Prior art keywords
translation
accent
target
participle
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111590268.1A
Other languages
English (en)
Inventor
赵彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111590268.1A priority Critical patent/CN114358026A/zh
Publication of CN114358026A publication Critical patent/CN114358026A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请公开了一种语音翻译方法、装置以及存储介质,该方法包括:获取语音数据的识别文本和至少一个候选翻译结果;对所述识别文本进行重音识别,得到重音识别结果;基于重音识别结果和至少一个候选翻译结果,得到识别文本的目标翻译结果。通过上述方式,本申请能够获得准确度较高的翻译结果。

Description

语音翻译方法、装置、设备和计算机可读存储介质
技术领域
本申请涉及翻译领域,特别是涉及一种语音翻译方法、装置、设备和计算机可读存储介质。
背景技术
随着信息化时代的快速发展,跨语种交流障碍已经成为全世界人民共同面对的问题,翻译服务是解决语言交流障碍的主要手段之一。传统翻译服务行业受限于人力和成本难以普及。新兴的语音翻译技术在成本和时效性上弥补了传统翻译服务行业的不足,为普通人日常交流提供了新的途径。
语音翻译是指将源语言的语音信号自动翻译成目标语言的语音信号的过程,该过程一般需要先翻译得到目标语言的翻译结果,再将翻译结果转换成目标语言的语音信号。其中,源语言的语音信号通常会强调关键词汇,表现为语速慢、重音。现有的翻译方案仅仅只是将语音信号识别后的识别文本进行翻译,并没有考虑语音中存在的重音信息。
发明内容
本申请主要解决的技术问题是提供一种语音翻译方法、装置、设备和计算机可读存储介质,能够获得较高准确度的翻译结果。
为解决上述技术问题,本申请第一方面提供了一种语音翻译方法,该方法包括:获取语音数据的识别文本和至少一个候选翻译结果;对识别文本进行重音识别,得到重音识别结果;基于重音识别结果和至少一个候选翻译结果,得到识别文本的目标翻译结果。
为解决上述技术问题,本申请第二方面提供了一种语音翻译装置,该装置包括:获取模块,用于获取语音数据的识别文本和至少一个候选翻译结果;重音识别模块,用于对识别文本进行重音识别,得到重音识别结果;翻译结果确定模块,用于基于重音识别结果和至少一个候选翻译结果,得到识别文本的目标翻译结果。
为解决上述技术问题,本申请第三方面提供了一种语音翻译设备,该设备包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的语音翻译方法。
为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的语音翻译方法。
本申请的有益效果是:区别于现有技术的情况,本申请获取语音数据的识别文本和至少一个候选翻译结果后,基于识别文本的重音识别结果和候选翻译结果确定该识别文本最终的目标翻译结果。上述方式,在现有的翻译方案中考虑重音因素对翻译的影响,故可以强化翻译过程中的重音信息,进而能够获得准确度较高的翻译结果。
附图说明
图1是本申请语音翻译方法第一实施方式的流程示意图;
图2是本申请语音翻译方法第二实施方式的流程示意图;
图3是本申请语音翻译方法第三实施方式的流程示意图;
图4是本申请语音翻译方法第四实施方式的流程示意图;
图5是本申请第四实施方式中步骤S430一实施方式的流程示意图;
图6是本申请语音翻译方法第五实施方式的流程示意图;
图7是本申请提供的翻译系统一实施方式的框架示意图;
图8是本申请语音翻译方法第六实施方式的流程示意图;
图9是本申请提供的语音翻译装置一实施方式的框架示意图;
图10是本申请提供的语音翻译设备一实施方式的框架示意图;
图11是本申请计算机可读存储介质一实施方式的框架示意图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中有涉及“第一”、“第二”等的描述,该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,本申请所说的分词可以是一个字,也可以是多个字组成的词。
请参阅图1,图1是本申请语音翻译方法第一实施方式的流程示意图。该方法包括:
S110:获取语音数据的识别文本和至少一个候选翻译结果。
本实施例中,可通过对语音数据进行语音识别,得到该识别文本。具体地,可以将语音数据按照时间片分成语音帧,提取每个语音帧的特征形成特征帧序列,得到特征数据。将特征数据送入提前训练好的识别模型得到识别文本。
在得到该识别文本之后,将该识别文本送入翻译系统,翻译系统生成一个或多个候选翻译结果,该候选翻译结果例如可以为候选翻译文本或者对应的候选翻译语音数据。该翻译系统可以是预先训练好的翻译模型,或者其他能够实现翻译的模块。
S120:对识别文本进行重音识别,得到重音识别结果。
例如,可识别语音数据中的重音,得到语音数据中的重音词,再将语音数据中的重音词对应至识别文本中,得到识别文件中的重音识别结果。该重音识别结果具体可以但不限为识别文本中重音词的位置。
S130:基于重音识别结果和至少一个候选翻译结果,得到识别文本的目标翻译结果。
本实施例中,可参考识别文本的重音情况,来确定识别文本的目标翻译结果,该目标翻译结果例如可以为目标翻译文本或者对应的目标翻译语音数据,由于考虑重音因素对翻译的影响,故可以强化翻译过程中的重音信息,进而能够获得准确度较高的翻译结果。
具体地,可以基于该重音识别结果,确定各候选翻译结果的目标翻译得分,并利用各候选翻译结果的目标翻译得分,确定目标翻译结果,例如可以从至少一个候选翻译结果中选择目标翻译得分满足第一要求的候选翻译结果作为目标翻译结果,或者,从至少一个候选翻译结果中选择目标翻译得分满足第二要求的至少两个候选翻译结果,然后综合该至少两个候选翻译结果得到该目标翻译结果。
在一具体实施例中,可根据重音识别结果确定识别文本中的重音词的位置,并基于该重音词的位置,确定各候选翻译结果的目标翻译得分。具体如,针对各候选翻译结果:获取该候选翻译结果中各重音词的翻译准确度,利用该候选翻译结果中各重音词的翻译准确度,得到该候选翻译结果的目标翻译得分。例如,获取该候选翻译结果中各重音词的翻译准确度的第一均值、以及该候选翻译结果中非重音词的翻译准确度的第第二均值,将第一均值和第二均值进行加权平均或加权求和,作为该候选翻译结果的目标翻译得分,其中,第一均值的权重大于第二均值的权重;又例如,将该候选翻译结果中的各分词的翻译准确度进行加权求和或加权平均,作为该候选翻译结果的目标翻译得分,其中,属于重音词的分词的权重高于不属于重音词的权重;又例如,直接利用方差、均值等统计方式统计该候选翻译结果中各重音词的翻译准确度,得到统计结果,以作为该候选翻译结果的目标翻译得分。
在一具体应用场景中,可以基于所述重音识别结果,确定所述识别文本中各原始分词的激励权重,并基于所述激励权重和各所述候选翻译结果的得分因子,确定各所述候选翻译结果的目标翻译得分。
具体如,可利用识别文本中重音词的位置,分别计算识别文本中各原始分词对每个候选翻译结果的激励权重,获取候选翻译结果的得分因子,其中,该候选翻译结果的得分因子包括以下至少一者:候选翻译结果中各翻译分词的翻译准确度,各原始分词对候选翻译结果的各翻译分词的翻译贡献度。通过统计各原始分词的激励权重以及候选翻译结果的得分因子,即可得到候选翻译结果的目标翻译得分,该统计方式可以但不限为求积和求和等。上述方式通过在原始翻译结果中加入识别文本中各原始分词的激励权重,利用激励权重计算候选翻译结果的目标翻译得分,可提高翻译结果的准确度。
可以理解地是,上述翻译准确度和翻译贡献度可以但不限于由翻译系统给出,在一些具体应用场景中,该翻译系统包含编码模块、解码模块以及注意力计算模块。翻译准确度可由翻译系统直接给出,翻译贡献度由翻译系统的注意力计算模块计算得到,注意力计算模块可基于翻译系统通过解码网络获得的输出特征以及每一分词在识别文本中的解码特征,获取每一分词的翻译贡献度。
请参阅图2,图2是本申请语音翻译方法第二实施方式的流程示意图,该方法包括:
S210:获取语音数据的识别文本和至少一个候选翻译结果。
具体地,在一实施例中,将语音数据通过语音识别系统转化为识别文本,再使用翻译模型或翻译系统对识别文本进行翻译,得到一个或多个翻译结果。
S220:基于各原始分词与重音词之间的位置关系,确定各原始分词的激励权重。
在一实施例中,可通过重音识别技术识别语音数据中的重音词,标记所述重音词在识别文本中对应的原始分词。若原始分词与重音词的位置重叠,即代表该原始分词为重音词;与重音词的位置不重叠,则该词不是重音词。其中,与重音词位置重叠的原始分词的激励权重大于与重音词位置不重叠的原始分词的激励权重。
确定各原始分词的激励权重的方式可以包括:将与重音词位置重叠的原始分词的激励权重确定为第一预设权重,将与重音词位置不重叠的原始分词的激励权重确定为第二预设权重,其中,第一预设权重大于第二预设权重;或者,对于各原始分词,确定原始分词与各重音词的子权重,统计对应各重音词的子权重得到原始分词的激励权重,其中,原始分词与重音词的距离越大,对应的子权重越小。
在一具体应用场景中,将与重音词位置重叠的原始分词的激励权重确定为第一预设权重,将与重音词位置不重叠的原始分词的激励权重确定为第二预设权重。例如,将第一预设权重设置为1,将第二预设权重设置为0。可以理解地,在其它应用场景中,也可以将第一预设权重和第二预设权重设为其它数值。
在另一具体应用场景中,可通过统计对应各重音词的子权重得到原始分词的激励权重,可以采用下述函数计算原始分词的激励权重,
Figure BDA0003429631030000061
其中,θi表示识别文本中第i个原始分词的激励权重。
Figure BDA0003429631030000062
表示第i个原始分词对应识别文本中各重音词的子权重,可采用如下公式计算:
Figure BDA0003429631030000063
其中,Ik表示第k个重音词在文本中的位置。例如,在一实施例中,识别文本包含5个原始分词,其中,第一个重音词为第一个原始分词,第二个重音词为第三个原始分词。现计算识别文本中第四个原始分词的激励权重,则第四个原始分词对应于第一个重音词的子权重为1/16,第四个原始分词对应于第二个重音词的子权重为1/4,将两个子权重相加,即可得到第四个原始分词的激励权重。
可以理解地,在其它实施例中,也可以采用其它方式计算原始分词的激励权重,在此不做限定。
S230:基于激励权重和各候选翻译结果的得分因子,确定各候选翻译结果的目标翻译得分。
具体地,通过统计识别文本中各分词的激励权重和各候选翻译结果中各分词的得分因子,即可得到各候选翻译结果的目标翻译得分。统计方式可以采用求积和求和等方式。
S240:利用目标翻译得分,从至少一个候选翻译结果中选出所述目标翻译结果。
请参阅图3,图3是本申请语音翻译方法第三实施方式的流程示意图,该方法包括:
S310:获取语音数据的识别文本和至少一个候选翻译结果。
S320:对语音数据进行重音识别,得到语音数据中各语音帧属于重音帧的概率。
本实施例中可以但不限于通过识别模型得到各语音帧属于重音帧的概率,在一具体实施方式中,可以将语音数据分成若干帧,提取每帧的特征形成特征帧序列,得到特征数据。将特征数据输入识别模型,通过模式识别方法给出每一帧属于重音帧的概率。在其它实施例中,也可以采用其它方式判断语音帧属于重音帧的概率,在此不做限定。
S330:对于各原始分词,统计原始分词对应的各语音帧的概率,得到原始分词的重音得分。
具体地,在一实施例中,判断识别文本中第i个原始分词是否是重音词时,可以根据时序对应关系,确定第i个原始分词出现在哪些语音帧中,统计所有出现第i个原始分词的语音帧属于重音帧的概率,得到第i个原始分词的重音得分。其中,统计所有出现第i个原始分词的语音帧属于重音帧概率的方式可以为求和或求平均值,也可以采用其它统计方式(如Veterbi解码算法),在此不做限定。分别统计识别文本中每个原始分词对应的各语音帧的概率,得到每个原始分词的重音得分。
S340:基于重音得分,确定原始分词是否属于重音词,将属于重音词的原始分词的位置作为识别文本中重音词的位置。
将第i个原始分词的重音得分与预设分值对比,若第i个原始分词的重音得分大于预设分值,则认为第i个原始分词为重音词。
S350:基于识别文本中重音词的位置,确定识别文本中各原始分词的激励权重。
具体地,识别文本中与重音词位置重叠的原始分词的激励权重大于与重音词位置不重叠的原始分词的激励权重,例如,在一实施例中,可以将重音词位置重叠的原始分词的激励权重设置为1,将与重音词位置不重叠的原始分词的激励权重设置为0。
S360:基于激励权重和各候选翻译结果的得分因子,确定各候选翻译结果的目标翻译得分。
上述步骤S310和S360请分别参见第一实施方式的步骤S110和S130,在此不再赘述。
S370:利用目标翻译得分,从至少一个候选翻译结果中选出所述目标翻译结果。
请参阅图4,图4是本申请语音翻译方法第四实施方式的流程示意图,该方法包括:
S410:获取语音数据的识别文本和至少一个候选翻译结果。
S420:基于识别文本的重音识别结果,确定识别文本中各原始分词的激励权重。
步骤S410和S420请分别参见第一实施方式的步骤S110和S120,在此不再赘述。
S430:基于目标激励权重、目标翻译准确度以及目标翻译贡献度,得到分词组对应的子得分。
在一实施例中,分词组可以由识别文本中的原始分词和候选翻译结果中的翻译分词组成,对于各候选翻译结果,由各原始分词和候选翻译结果中的各翻译分词组成不同分词组。例如,选择候选翻译结果中的第一翻译分词,并找出识别文本中对应第一翻译分词的第一原始分词,将第一原始分词和第一翻译分词组成第一分词组。需说明的是,由于识别文本中的一个原始分词可以对应候选翻译结果中的两个翻译分词(如原始分词是“apple”,翻译分词是“苹果”,此时原始分词“apple”对应的第一翻译分词可以是“苹”,对应的第二翻译分词可以是“果”。),因此同一个原始分词可能会出现在多个分词组中。同理,一个分词组中还可能出现多个原始分词,此处所述的一个原始分词为一个字。
目标激励权重为分词组中的原始分词的激励权重,即步骤S420得到的激励权重;目标翻译准确度为分词组的翻译分词的翻译准确度,该翻译准确度可通过翻译系统直接从识别文本的翻译结果获取;目标翻译贡献度为分词组的原始分词对分词组的翻译分词的翻译贡献度。
统计目标激励权重、目标翻译准确度和目标翻译贡献度,即可得到分词组的子得分。例如,在一实施例中,已确定识别文本中的第一原始分词,以及该原始分词在候选翻译结果中的对应的第一翻译分词,将第一原始分词和第一翻译分词组成第一分词组。根据识别文本中重音词的位置,计算第一原始分词的第一目标激励权重;并获取第一翻译分词的第一目标翻译准确度和第一原始分词对第一翻译分词的第一目标翻译贡献度,将第一目标激励权重、第一目标翻译准确度和第一目标翻译贡献度进行相应运算,如相乘或相加,即可得到第一分词组的第一子得分。
S440:对各分词组对应的子得分进行统计,得到目标翻译得分。
采用步骤S430分别计算所有分词组的子得分,将所有分词组的子得分进行求和,即可得到目标翻译得分。
S450:利用目标翻译得分,从至少一个候选翻译结果中选出目标翻译结果。
本实施例通过将原始分词和翻译分词组成分词组,计算每个分词组的得分,再对所有分词组得分进行求和,得到候选翻译结果的目标翻译得分,可减小计算过程中的误差,保证目标翻译得分的准确性。
请参阅图5,图5是本申请第四实施方式中步骤S430一实施方式的流程示意图。基于目标激励权重、目标翻译准确度以及目标翻译贡献度,得到分词组对应的子得分,包括:
S431:获取目标激励权重与目标翻译贡献度的乘积,得到第一数值。
其中,目标激励权重指的是分词组中一原始分词的激励权重,目标翻译贡献度指的是得到翻译结果中的翻译分词时,识别文本中的某个原始分词对该翻译分词的翻译贡献度。
S432:获取第一数值与预设数值的和,得到第二数值。
其中,预设数值可以为任意整数,如1,2,3,优选地,预设数值可设为1。
S433:将第二数值与目标翻译准确度的乘积,作为分词组对应的子得分。
在一实施例中,将预设数值设置为1,则一个分词组的得分可采用下述公式得到,
Figure BDA0003429631030000091
其中,θi为目标激励权重,αji为翻译得到第j个翻译分词时第i个原始分词的目标翻译贡献度,p(yj|X,y0,y1,…yj-1)为目标翻译准确度,Nsrc为识别文本中原始分词的数量,Ndst为翻译结果中翻译分词的数量。
例如,在一具体实施例中,第一分词组含有两个原始分词和一个翻译分词,分别获取第一目标激励权重、第二目标激励权重、第一目标翻译贡献度、第二目标翻译贡献度和目标翻译准确度,将第一目标激励权重与第一目标翻译贡献度的乘积加上预设数值得到第三数值,第二目标激励权重与第二目标翻译贡献度的乘积加上预设数值得到第四数值,第三数值和第四数值相加再乘以目标翻译准确度即可得到第一分词组的子得分。
请结合参阅图6和图7,图6是本申请语音翻译方法第五实施方式的流程示意图;图7是本申请提供的翻译系统一实施方式的框架示意图。该方法还包括:
S610:获取语音数据的识别文本和至少一个候选翻译结果。
在一实施例中,可将语音数据通过语音识别系统转化为识别文本,再使用翻译模型对识别文本进行翻译,得到一个或多个翻译结果。
S620:基于识别文本的重音识别结果,确定识别文本中各原始分词的激励权重。
其中,重音识别结果包括识别文本中重音词的位置,根据重音词的位置确定各原始分词的激励权重,在一实施例中,识别文本中各原始分词距离重音词的位置越近,其对应的激励权重越大。
S630:从识别文本的翻译结果中,获取到各候选翻译结果对应的翻译准确度;和/或,获取各原始分词的编码特征和各翻译分词对应的解码特征。
其中,翻译准确度是一个具体的数值,可以但不限于由翻译系统得到。编码特征和解码特征是对识别文本进行翻译过程中得到的;以任意原始分词作为目标原始分词、任意翻译分词作为目标翻译分词,利用目标原始分词的编码特征以及目标翻译分词的前一翻译分词的解码特征,得到目标原始分词对目标翻译分词的翻译贡献度。
在一具体实施方式中,编码特征和解码特征可由基于Encoder-Decoder的翻译系统得到,如图7所示,该翻译系统主要包括三个模块:编码模块(Encode)、注意力计算模块(Attention)以及解码模块(Decode)。识别文本进入翻译系统后,先经过编码模块,编码模块对输入的识别文本进行编码,得到识别文本编码信息。该识别文本编码信息可以表示为H=(h1,h2,h3,···,hNsrc),其中,H包括识别文本中所有原始分词的编码特征,h1表示第一个原始分词的编码特征,h2表示第二个原始分词的编码特征,hNsrc表示识别文本最后一个原始分词的编码特征,Nsrc表示识别文本长度,即识别文本包含多少个原始分词。
在解码模块输入上前一翻译分词的翻译结果(如yj-1),通过解码网络获得对应的输出特征(如sj-1),利用目标原始分词的编码特征以及目标翻译分词的前一翻译分词的解码特征,得到目标原始分词对目标翻译分词的翻译贡献度。例如,在一实施例中,目标原始分词的编码特征为hi,目标翻译分词的前一翻译分词的解码特征为sj-1,则可以采用下述公式计算第i个原始分词对第j个翻译分词的翻译贡献度,
Figure BDA0003429631030000111
其中,exp(a(hi,sj-1))指的是以e为底的指数函数;a(hi,sj-1)是关于第i个原始分词的编码特征hi和上一翻译分词的解码特征Sj-1的函数;Nsrc表示识别文本的长度;hk是识别文本中地k个原始分词的编码特征;
Figure BDA0003429631030000112
是对每个原始分词的函数进行求和。
上述函数a(hi,sj-1)可以为下述任意一个形式,公式中的v、W均为常量矩阵,d为hi的长度,
a(hi,sj-1)=vT tanh(Whhi+Wssj-1)
a(hi,sj-1)=hi Tsj-1
Figure BDA0003429631030000113
a(hi,sj-1)=hi TWsj-1
可以理解地,函数a(hi,sj-1)也可以采用其它形式,在此不做限定。
S640:基于激励权重和各候选翻译结果的得分因子,确定各候选翻译结果的目标翻译得分。
其中,候选翻译结果的得分因子可以包括各候选翻译结果对应的翻译准确度和各原始分词对候选翻译结果中各翻译分词的翻译贡献度,统计原始分词的激励权重、候选翻译结果对应的翻译准确度以及原始分词对候选翻译结果中各翻译分词的翻译贡献度即可得到候选翻译结果的目标翻译得分。
S650:利用目标翻译得分,从至少一个候选翻译结果中选出目标翻译结果。
请结合参阅图7和图8,图8是本申请语音翻译方法第六实施方式的流程示意图,该方法还包括:
S810:将语音数据划分为若干语音帧,并提取各语音帧的特征,得到语音数据的特征数据;对特征数据进行识别,得到识别文本。
本实施例中,将语音数据按照时间片分成语音帧,可每间隔10毫秒分一帧,也可每间隔40毫秒分一帧,提取每个语音帧的特征形成特征帧序列,得到特征数据。其中,特征数据可以是一个N*d的矩阵,N为语音帧的数量,d为特征维度。将特征数据送入提前训练好的识别模型得到识别文本,进一步还可以对识别文本进行相关处理(如数字规整、标点符合处理等)。可以理解地,在其它实施例中,也可以使用其它语音识别方法,如采用语音识别系统(ASR系统)识别语音数据得到识别文本,具体语音识别方法在此不做限定。
S820:利用翻译系统对识别文本进行翻译,得到识别文本的翻译结果,其中,翻译结果包括至少一个候选翻译结果。
进一步地,可以将识别文本送入翻译系统,翻译系统会给出至少一个候选翻译结果,并针对每个候选翻译结果的翻译准确度进行评分。具体地,可以采用基于Encoder-Decoder的翻译系统进行翻译,如图7所示,识别文本中的第i个原始分词经过编码模块后,得到识别文本编码信息hi
在解码模块输入上一分词的翻译结果yj-1,通过解码网络获得对应的输出特征sj-1,将该输出特征和识别文本编码信息输入自注意力计算模块,自注意力计算模块计算当前的Attention信息,将当前的Attention信息和解码模块的输出特征结合得到当前翻译结果,翻译识别文本中所有原始分词,即可翻译结果。翻译系统在翻译过程中可以给出多个候选翻译结果,每个候选翻译结果都会有一个得分。
其中,该翻译系统所包含的网络结构可以有多种实现方式,如CNN(卷积神经网络,Convolutional Neural Networks)、LSTM(长短期记忆神经网络,Long Short-TermMemory)、SelfAttention(自注意力机制)等,在此不做限定。
S830:基于识别文本的重音识别结果,确定识别文本中各原始分词的激励权重。
S840:基于激励权重和各候选翻译结果的得分因子,确定各候选翻译结果的目标翻译得分。
步骤S830-S840可参见第一实施方式的步骤S120-S130,在此不再赘述。
S850:基于目标翻译得分,从至少一个候选翻译结果中,选出识别文本对应的目标翻译结果。
在一实施例中,在得出所有候选翻译结果的目标翻译得分后,可选中目标翻译得分最高的候选翻译结果作为目标翻译结果。
请参阅图9,图9是本申请提供的语音翻译装置一实施方式的框架示意图。语音翻译装置90包括:获取模块91,权重确定模块92和计算模块93。获取模块91用于获取语音数据的识别文本和至少一个候选翻译结果;重音识别模块92用于对识别文本进行重音识别,得到重音识别结果;翻译结果确定模块93用于基于重音识别结果和至少一个候选翻译结果,得到识别文本的目标翻译结果。
其中,基于重音识别结果和至少一个候选翻译结果,得到识别文本的目标翻译结果,包括:基于重音识别结果,确定各候选翻译结果的目标翻译得分;利用目标翻译得分,从至少一个候选翻译结果中选出目标翻译结果。
其中,基于重音识别结果,确定各候选翻译结果的目标翻译得分,包括:基于重音识别结果,确定识别文本中各原始分词的激励权重;基于激励权重和各候选翻译结果的得分因子,确定各候选翻译结果的目标翻译得分。
在一些公开实施例中,上述重音识别结果包括识别文本中重音词的位置。其中,基于重音识别结果,确定识别文本中各原始分词的激励权重,具体包括:基于各原始分词与重音词之间的位置关系,确定各原始分词的激励权重,其中,与重音词位置重叠的原始分词的激励权重大于与重音词位置不重叠的原始分词的激励权重。
其中,基于各原始分词与重音词之间的位置关系,确定各原始分词的激励权重,包括:将与重音词位置重叠的原始分词的激励权重确定为第一预设权重,将与重音词位置不重叠的原始分词的激励权重确定为第二预设权重,其中,第一预设权重大于第二预设权重;或者,对于各原始分词,确定原始分词与各重音词的子权重,统计对应各重音词的子权重得到原始分词的激励权重,其中,原始分词与重音词的距离越大,对应的子权重越小。
在一些公开实施例中,上述候选翻译结果的得分因子包括:候选翻译结果中各翻译分词的翻译准确度,和/或,各原始分词对候选翻译结果中各翻译分词的翻译贡献度。其中,基于激励权重和各候选翻译结果的得分因子,确定各候选翻译结果的目标翻译得分,具体包括:对于各候选翻译结果,将各原始分词和候选翻译结果中的各翻译分词组成不同分词组。对于各分词组,基于目标激励权重、目标翻译准确度以及目标翻译贡献度,得到分词组对应的子得分,其中,目标激励权重为分词组中的原始分词的激励权重,目标翻译准确度为分词组的翻译分词的翻译准确度,目标翻译贡献度为分词组的原始分词对分词组的翻译分词的翻译贡献度,统计各分词组对应的子得分,得到目标翻译得分。
其中,基于目标激励权重、目标翻译准确度以及目标翻译贡献度,得到分词组对应的子得分,包括:获取目标激励权重与目标翻译贡献度的乘积,将乘积与预设数值的和与目标翻译准确度的乘积,作为分词组对应的子得分;统计各分词组对应的子得分,得到目标翻译得分,包括:对各分词组对应的子得分进行求和,得到目标翻译得分。
其中,在基于激励权重和各候选翻译结果的得分因子,确定各候选翻译结果的目标翻译得分之前,包括:从识别文本的翻译结果中,获取到各候选翻译结果对应的翻译准确度;和/或,获取各原始分词的编码特征和各翻译分词对应的解码特征,其中,编码特征和解码特征是对识别文本进行翻译过程中得到的;以任意原始分词作为目标原始分词、任意翻译分词作为目标翻译分词,利用目标原始分词的编码特征以及目标翻译分词的前一翻译分词的解码特征,得到目标原始分词对目标翻译分词的翻译贡献度。
其中,对识别文本进行重音识别,得到重音识别结果,包括:对语音数据进行重音识别,得到语音数据中各语音帧属于重音帧的概率;统计各原始分词对应的各语音帧的概率,得到各原始分词的重音得分;基于重音得分,确定原始分词是否属于重音词,将属于重音词的原始分词的位置作为识别文本中重音词的位置。
其中,获取语音数据的识别文本和至少一个候选翻译结果,包括:将语音数据划分为若干语音帧,并提取各语音帧的特征,得到语音数据的特征数据;对特征数据进行识别,得到识别文本;利用翻译系统对识别文本进行翻译,得到识别文本的翻译结果,其中,翻译结果包括至少一个候选翻译结果。
请参阅图10,图10是本申请提供的语音翻译设备一实施方式的框架示意图。
语音翻译设备100包括相互耦接的存储器101和处理器102,存储器101中存储有程序指令,处理器102用于执行程序指令以实现上述任一触碰检测方法实施例中的步骤。具体地,语音翻译设备100可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
具体而言,处理器102用于控制其自身以及存储器101以实现上述任一触碰检测方法实施例中的步骤。处理器102还可以称为CPU(Central Processing Unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器102可以由集成电路芯片共同实现。
请参阅图11,图11是本申请计算机可读存储介质一实施方式的框架示意图。
计算机可读存储介质110存储有程序指令111,程序指令111被处理器执行时,用以实现上述任一方法实施例中的步骤。
计算机可读存储介质110具体可以为U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储计算机程序的介质,或者也可以为存储有该计算机程序的服务器,该服务器可将存储的计算机程序发送给其他设备运行,或者也可以自运行该存储的计算机程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (14)

1.一种语音翻译方法,其特征在于,所述方法包括:
获取语音数据的识别文本和至少一个候选翻译结果;
对所述识别文本进行重音识别,得到重音识别结果;
基于所述重音识别结果和所述至少一个候选翻译结果,得到所述识别文本的目标翻译结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述重音识别结果和所述至少一个候选翻译结果,得到所述识别文本的目标翻译结果,包括:
基于所述重音识别结果,确定各所述候选翻译结果的目标翻译得分;
利用所述目标翻译得分,从所述至少一个候选翻译结果中选出所述目标翻译结果。
3.根据权利要求2所述的方法,其特征在于,所述基于所述重音识别结果,确定各所述候选翻译结果的目标翻译得分,包括:
基于所述重音识别结果,确定所述识别文本中各原始分词的激励权重;
基于所述激励权重和各所述候选翻译结果的得分因子,确定各所述候选翻译结果的目标翻译得分。
4.根据权利要求3所述的方法,其特征在于,所述重音识别结果包括所述识别文本中重音词的位置;
所述基于所述重音识别结果,确定所述识别文本中各原始分词的激励权重,包括:
基于各所述原始分词与所述重音词之间的位置关系,确定各所述原始分词的激励权重,其中,与重音词位置重叠的所述原始分词的激励权重大于与重音词位置不重叠的所述原始分词的激励权重。
5.根据权利要求4所述的方法,其特征在于,所述基于各所述原始分词与所述重音词之间的位置关系,确定各所述原始分词的激励权重,包括:
将与重音词位置重叠的所述原始分词的激励权重确定为第一预设权重,将与重音词位置不重叠的所述原始分词的激励权重确定为第二预设权重,其中,所述第一预设权重大于所述第二预设权重;
或者,对于各所述原始分词,确定所述原始分词与各所述重音词的子权重,统计对应各所述重音词的子权重得到所述原始分词的激励权重,其中,所述原始分词与所述重音词的距离越大,对应的所述子权重越小。
6.根据权利要求3所述的方法,其特征在于,所述候选翻译结果的得分因子包括以下至少一者:所述候选翻译结果中各翻译分词的翻译准确度,各所述原始分词对所述候选翻译结果中各翻译分词的翻译贡献度。
7.根据权利要求6所述的方法,其特征在于,所述基于所述激励权重和各所述候选翻译结果的得分因子,确定各所述候选翻译结果的目标翻译得分,包括:
对于各所述候选翻译结果,由各所述原始分词和所述候选翻译结果中的各翻译分词组成不同分词组;
对于各所述分词组,基于目标激励权重、目标翻译准确度以及目标翻译贡献度,得到所述分词组对应的子得分,其中,所述目标激励权重为所述分词组中的原始分词的激励权重,所述目标翻译准确度为所述分词组的翻译分词的翻译准确度,所述目标翻译贡献度为所述分词组的原始分词对所述分词组的翻译分词的翻译贡献度;
对各所述分词组对应的子得分进行统计,得到所述目标翻译得分。
8.根据权利要求7所述的方法,其特征在于,所述基于目标激励权重、目标翻译准确度以及目标翻译贡献度,得到所述分词组对应的子得分,包括:
获取所述目标激励权重与所述目标翻译贡献度的乘积,将所述乘积与预设数值的和与所述目标翻译准确度的乘积,作为所述分词组对应的子得分;
所述对各所述分词组对应的子得分进行统计,得到所述目标翻译得分,包括:
对各所述分词组对应的子得分进行求和,得到所述目标翻译得分。
9.根据权利要求7所述的方法,其特征在于,在所述基于所述激励权重和各所述候选翻译结果的得分因子,确定各所述候选翻译结果的目标翻译得分之前,所述方法还包括:
从所述识别文本的翻译结果中,获取到各所述候选翻译结果对应的翻译准确度;和/或,
获取各所述原始分词的编码特征和各所述翻译分词对应的解码特征,其中,所述编码特征和解码特征是对识别文本进行翻译过程中得到的;以任意所述原始分词作为目标原始分词、任意所述翻译分词作为目标翻译分词,利用所述目标原始分词的编码特征以及目标翻译分词的前一所述翻译分词的解码特征,得到所述目标原始分词对所述目标翻译分词的翻译贡献度。
10.根据权利要求1所述的方法,其特征在于,所述重音识别结果包括所述识别文本中重音词的位置;
所述对所述识别文本进行重音识别,得到重音识别结果,包括:
对所述语音数据进行重音识别,得到所述语音数据中各语音帧属于重音帧的概率;
对于各所述原始分词,统计所述原始分词对应的各所述语音帧的所述概率,得到所述原始分词的重音得分;
基于所述重音得分,确定所述原始分词是否属于重音词,将属于重音词的所述原始分词的位置作为所述识别文本中重音词的位置。
11.根据权利要求1所述的方法,其特征在于,获取语音数据的识别文本和至少一个候选翻译结果,包括:
将所述语音数据划分为若干语音帧,并提取各语音帧的特征,得到所述语音数据的特征数据;对所述特征数据进行识别,得到所述识别文本;
利用翻译系统对所述识别文本进行翻译,得到所述识别文本的翻译结果,其中,所述翻译结果包括至少一个候选翻译结果。
12.一种语音翻译装置,其特征在于,所述装置包括:
获取模块,所述获取模块用于获取语音数据的识别文本和至少一个候选翻译结果;
重音识别模块,所述重音识别模块用于对所述识别文本进行重音识别,得到重音识别结果;
翻译结果确定模块,所述翻译结果确定模块用于基于所述重音识别结果和所述至少一个候选翻译结果,得到所述识别文本的目标翻译结果。
13.一种语音翻译设备,其特征在于,包括相互耦接的存储器和处理器,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序指令,所述程序指令能够被执行以实现如权利要求1-11任一项所述的方法。
CN202111590268.1A 2021-12-23 2021-12-23 语音翻译方法、装置、设备和计算机可读存储介质 Pending CN114358026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111590268.1A CN114358026A (zh) 2021-12-23 2021-12-23 语音翻译方法、装置、设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111590268.1A CN114358026A (zh) 2021-12-23 2021-12-23 语音翻译方法、装置、设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114358026A true CN114358026A (zh) 2022-04-15

Family

ID=81101688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111590268.1A Pending CN114358026A (zh) 2021-12-23 2021-12-23 语音翻译方法、装置、设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114358026A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275455A (zh) * 2023-11-22 2023-12-22 深圳市阳日电子有限公司 一种用于翻译耳机的声音克隆方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275455A (zh) * 2023-11-22 2023-12-22 深圳市阳日电子有限公司 一种用于翻译耳机的声音克隆方法
CN117275455B (zh) * 2023-11-22 2024-02-13 深圳市阳日电子有限公司 一种用于翻译耳机的声音克隆方法

Similar Documents

Publication Publication Date Title
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
JP6334815B2 (ja) 学習装置、方法、プログラムおよび音声対話システム
CN110163181B (zh) 手语识别方法及装置
US20090037175A1 (en) Confidence measure generation for speech related searching
US11556709B2 (en) Text autocomplete using punctuation marks
EP4064277B1 (en) Method and apparatus for training speech recognition model, device and storage medium
CN112489626B (zh) 一种信息识别方法、装置及存储介质
CN108228574B (zh) 文本翻译处理方法及装置
CN111783450B (zh) 语料文本中的短语提取方法、装置、存储介质及电子设备
CN113990352B (zh) 用户情绪识别与预测方法、装置、设备及存储介质
CN110503956B (zh) 语音识别方法、装置、介质及电子设备
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
CN114358026A (zh) 语音翻译方法、装置、设备和计算机可读存储介质
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN108304389B (zh) 交互式语音翻译方法及装置
CN111694936A (zh) 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
WO2023050669A1 (zh) 基于神经网络的信息推送方法、系统、设备及介质
CN109344388A (zh) 一种垃圾评论识别方法、装置及计算机可读存储介质
CN112786041B (zh) 语音处理方法及相关设备
CN115527520A (zh) 异常检测方法、装置、电子设备和计算机可读存储介质
CN115203372A (zh) 文本意图分类方法、装置、计算机设备及存储介质
CN115062603A (zh) 对齐增强语义解析方法、装置和计算机程序产品
CN114528851A (zh) 回复语句确定方法、装置、电子设备和存储介质
CN114254634A (zh) 一种多媒体数据的挖掘方法、装置、存储介质及设备
CN113535925A (zh) 语音播报方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230522

Address after: 230026 No. 96, Jinzhai Road, Hefei, Anhui

Applicant after: University of Science and Technology of China

Applicant after: IFLYTEK Co.,Ltd.

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Applicant before: IFLYTEK Co.,Ltd.

TA01 Transfer of patent application right