CN111241853B - 一种会话翻译方法、装置、存储介质及终端设备 - Google Patents

一种会话翻译方法、装置、存储介质及终端设备 Download PDF

Info

Publication number
CN111241853B
CN111241853B CN201811446077.6A CN201811446077A CN111241853B CN 111241853 B CN111241853 B CN 111241853B CN 201811446077 A CN201811446077 A CN 201811446077A CN 111241853 B CN111241853 B CN 111241853B
Authority
CN
China
Prior art keywords
session information
language
target
neural network
session
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811446077.6A
Other languages
English (en)
Other versions
CN111241853A (zh
Inventor
张文静
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Technology Group Co Ltd
Original Assignee
TCL Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Technology Group Co Ltd filed Critical TCL Technology Group Co Ltd
Priority to CN201811446077.6A priority Critical patent/CN111241853B/zh
Publication of CN111241853A publication Critical patent/CN111241853A/zh
Application granted granted Critical
Publication of CN111241853B publication Critical patent/CN111241853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种会话翻译方法,包括:获取第一会话信息;确定接收第一会话信息的目标用户,并获取目标用户所设置的目标接收语言;添加与目标接收语言相对应的目标语言标签至第一会话信息中;将添加目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型,获取多语言神经网络机器翻译模型输出的第二会话信息,其中,第二会话信息为第一会话信息翻译成目标接收语言后的会话信息;将第二会话信息发送至目标用户,以实现多语言会话中的实时翻译,解决不同语种之间沟通、交流困难的问题,从而满足人们日常工作、生活的需求。本发明还提供一种会话翻译装置、计算机可读存储介质及终端设备。

Description

一种会话翻译方法、装置、存储介质及终端设备
技术领域
本发明涉及通信技术领域,尤其涉及一种会话翻译方法、装置、计算机可读存储介质及终端设备。
背景技术
随着社会的快速发展,人们的工作、生活中不再只与同语种的人沟通、交流,多语言环境的会话成为了发展趋势,在多语言的会话中,要准确、快速理解对方发送的会话信息成为有效交流的关键,这需要会话者精通、了解会话过程中所涉及的所有语言,对于会话者要求较高,而日常生活中,并不是每一个会话者都能够精通多语言的,造成了不同语种之间交流的困难,影响了沟通效率。
发明内容
本发明实施例提供了一种会话翻译方法、装置、计算机可读存储介质及终端设备,能够进行多语言会话中会话信息的实时翻译,以解决不同语种之间交流困难的问题。
本发明实施例的第一方面,提供了一种会话翻译方法,包括:
获取第一会话信息;
确定接收所述第一会话信息的目标用户,并获取所述目标用户所设置的目标接收语言;
添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中;
将添加所述目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的第二会话信息,其中,所述第二会话信息为所述第一会话信息翻译成所述目标接收语言后的会话信息;
将所述第二会话信息发送至所述目标用户。
进一步地,所述第一会话信息为第一语音信息;
相应地,所述添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中,包括:
将所述第一语音信息转换成相对应的文本信息,并添加与所述目标接收语言相对应的目标语言标签至所述文本信息中。
优选地,所述将所述第二会话信息发送至所述目标用户,包括:
将所述第二会话信息转换成相对应的第二语音信息,并将所述第二语音信息发送至所述目标用户。
可选地,所述将所述第二会话信息转换成相对应的第二语音信息,包括:
将所述第二会话信息转换成对应的音素序列,并获取各所述音素序列的起止时间和频率变化情况;
根据各所述音素序列及各所述音素序列所对应的起止时间与频率变化情况,生成对应的第二语音信息。
进一步地,所述多语言神经网络机器翻译模型通过以下步骤训练得到:
预先收集样本会话信息;
设置各所述样本会话信息对应的目标翻译语言及所述目标翻译语言所对应的样本语言标签;
标记各所述样本会话信息与所述目标翻译语言相对应的标准翻译文本;
将所述样本语言标签添加至所述样本会话信息中;
将添加所述样本语言标签的样本会话信息输入至初始的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的训练翻译文本;
计算所述训练翻译文本与所述标准翻译文本之间的误差;
若所述误差不满足预设条件,则调整所述多语言神经网络机器翻译模型的模型参数,并将模型参数调整后的多语言神经网络机器翻译模型作为初始的多语言神经网络机器翻译模型,返回执行将添加所述样本语言标签的样本会话信息输入至初始的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的训练翻译文本的步骤以及后续步骤;
若所述误差满足所述预设条件,则确定所述多语言神经网络机器翻译模型训练完成。
优选地,所述多语言神经网络机器翻译模型为使用基于注意力机制的编码-解码结构的神经网络模型。
可选地,所述获取所述目标用户所设置的目标接收语言,包括:
确定所述目标用户所对应的终端设备;
获取所述终端设备中所设置的系统语言,并将所述系统语言确定为所述目标用户所设置的目标接收语言。
本发明实施例的第二方面,提供了一种会话翻译装置,包括:
第一会话信息获取模块,用于获取第一会话信息;
目标接收语言确定模块,用于确定接收所述第一会话信息的目标用户,并获取所述目标用户所设置的目标接收语言;
目标语言标签添加模块,用于添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中;
第一会话信息翻译模块,用于将添加所述目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的第二会话信息,其中,所述第二会话信息为所述第一会话信息翻译成所述目标接收语言后的会话信息;
第二会话信息发送模块,用于将所述第二会话信息发送至所述目标用户。
本发明实施例的第三方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述第一方面所述会话翻译方法的步骤。
本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面所述会话翻译方法的步骤。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,在获取第一会话信息时,即确定接收所述第一会话信息的目标用户,并获取所述目标用户所设置的目标接收语言;然后,添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中,并将添加所述目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的第二会话信息,其中,所述第二会话信息为所述第一会话信息翻译成所述目标接收语言后的会话信息;最后,将所述第二会话信息发送至所述目标用户,以实现多语言会话中的实时翻译,解决不同语种之间沟通、交流困难的问题,从而满足人们日常工作、生活的需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种会话翻译方法的一个实施例流程图;
图2为本发明实施例中一种会话翻译方法在一个应用场景下的流程示意图;
图3为本发明实施例中一种会话翻译方法在一个应用场景下训练多语言神经网络机器翻译模型的流程示意图;
图4为本发明实施例提供的一种多语言神经网络机器翻译模型的结构示意图;
图5为本发明实施例中一种会话翻译装置的一个实施例结构图;
图6为本发明一实施例提供的一种终端设备的示意图。
具体实施方式
本发明实施例提供了一种会话翻译方法、装置、计算机可读存储介质及终端设备,用于进行多语言会话中会话信息的实时翻译,以解决不同语种之间交流困难的问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种会话翻译方法,所述会话翻译方法包括:
步骤S101、获取第一会话信息;
在多人多语言的会话中,可实时获取正在进行的第一会话信息,如实时获取用户A发送的文本信息等。
步骤S102、确定接收所述第一会话信息的目标用户,并获取所述目标用户所设置的目标接收语言;
在获取到正在进行的第一会话信息后,可根据具体应用场景确定接收所述第一会话信息的目标用户,在确定所述目标接收用户后,则可进一步根据所述目标接收用户获取其所设置的目标接收语言。
其中,本发明实施例中,所述获取所述目标用户所设置的目标接收语言,可以包括:
步骤a、确定所述目标用户所对应的终端设备;
步骤b、获取所述终端设备中所设置的系统语言,并将所述系统语言确定为所述目标用户所设置的目标接收语言。
当用户通过即时通讯软件进行会话交流时,本发明实施例,在确定了目标用户后,可进一步确定出所述目标用户所对应的终端设备,随后可通过遍历所述终端设备,来获取所述终端设备中所设置的系统语言,并将所述系统语言确定为所述目标用户的目标接收语言。
如在某一会话场景中有四个人,分别是来自中国的A、来自英国的B、来自日本的C以及来自韩国的D,其中,来自中国的A只会讲汉语并且只能听懂汉语,来自英国的B只会讲英语并且只能听懂英语,来自日本的C只会讲日语并且只能听懂日语,来自韩国的D只会讲韩语并且只能听懂韩语,因而,A所对应的终端设备A中所设置的系统语言为汉语,B所对应的终端设备B中所设置的系统语言为英语,C所对应的终端设备C中所设置的系统语言为日语,D所对应的终端设备D中所设置的系统语言为韩语。在该会话场景中,当获取到A发出的第一会话信息时,则可确定接收所述第一会话信息的目标用户为B、C以及D,进而可确定对应的终端设备分别为终端设备B、终端设备C以及终端设备D,由此可确定目标用户B所设置的目标接收语言为英语,目标用户C所设置的目标接收语言为日语,目标用户D所设置的目标接收语言为韩语。
步骤S103、添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中;
本发明实施例中,可预先为各语种设置与之相对应的语言标签,所述语言标签可被下述的多语言神经网络机器翻译模型所识别。因而,当确定了目标用户以及目标用户所设置的目标接收语言后,可获取与所述目标接收语言相对应的目标语言标签,所述目标语言标签为所述语言标签中的一种。在获取到所述目标接收语言所对应的目标语言标签后,即可将所述目标语言标签添加至所述第一会话信息中。
需要说明的是,在多人会话场景中,在进行目标语言标签的添加之前,可首先进行所述第一会话信息的复制,如在上述所述的四人会话场景中,当获取到A发送的第一会话信息,并确定目标用户为B、C以及D三人时,则在进行目标语言标签的添加之前,可首先对所述第一会话信息进行复制,得到三份所述第一会话信息,然后将与目标用户B所设置的目标接收语言(英语)相对应的目标语言标签<En>添加至第一个第一会话信息中,将与目标用户C所设置的目标接收语言(日语)相对应的目标语言标签<Ja>添加至第二个第一会话信息中,以及将与目标用户D所设置的目标接收语言(韩语)相对应的目标语言标签<Ko>添加至第三个第一会话信息中。
步骤S104、将添加所述目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的第二会话信息,其中,所述第二会话信息为所述第一会话信息翻译成所述目标接收语言后的会话信息;
在完成所述目标语言标签的添加后,则可将添加有所述目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型中,如将添加有目标语言标签<En>的第一会话信息、添加有目标语言标签<Ja>的第一会话信息以及添加有目标语言标签<Ko>的第一会话信息均输入至所述多语言神经网络机器翻译模型,而所述多语言神经网络机器翻译模型在接收到所述第一会话信息后,可根据所述目标语言标签确定所要翻译的语种,然后将各所述第一会话信息翻译成对应语种的第二会话信息,如将添加有目标语言标签<En>的第一会话信息翻译成英语的第二会话信息,将添加有目标语言标签<Ja>的第一会话信息翻译成日语的第二会话信息,将添加有目标语言标签<Ko>的第一会话信息翻译成韩语的第二会话信息,等等。
其中,所述多语言神经网络机器翻译模型的训练过程将在后续内容中进行详细描述。
步骤S105、将所述第二会话信息发送至所述目标用户。
在得到所述多语言神经网络机器翻译模型所输出的第二会话信息后,则可将所述第二会话信息发送至所对应的目标用户,如在上述所述的四人会话场景中,可将英语的第二会话信息发送至目标用户B,将日语的第二会话信息发送目标用户C,将韩语的第二会话信息发送至目标用户D。
进一步地,如图2所示,当本发明实施例提供的会话翻译方法应用于语音会话或者视频会话时,所述会话翻译方法可以包括步骤S201、步骤S202、步骤S203、步骤S204以及步骤S205,其中:
步骤S201、获取第一会话信息,其中,所述第一会话信息为第一语音信息;
在多人多语言的语音或者视频会话中,可实时获取正在进行的第一语音信息。
步骤S202、确定接收所述第一会话信息的目标用户,并获取所述目标用户所设置的目标接收语言;
在此,步骤S202与上述步骤S102相似,原理相同,为简明起见,在此不再赘述。
步骤S203、将所述第一语音信息转换成相对应的文本信息,并添加与所述目标接收语言相对应的目标语言标签至所述文本信息中;
因多语言神经网络机器翻译模型只能处理文本信息,因而,当所获取的第一会话信息为第一语音信息时,可首先通过语音识别技术对所述第一语音信息进行识别,并将所述第一语音信息转换成对应的文本信息,如可通过特征提取、声学模型、语言模型、字典匹配以及解码等操作来识别所述第一语音信息,并将所述第一语音信息转换成对应的文本信息,随后可添加与所述目标接收语言相对应的目标语言标签至所述文本信息中。
在此,为更有效地提取出所述第一语音信息中的声音信号,可对所述第一语音信息进行滤波、分帧等音频数据处理工作,以将需要分析的声音信号提取出来。
步骤S204、将添加所述目标语言标签的文本信息输入至预训练完成的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的第二会话信息,其中,所述第二会话信息为所述文本信息翻译成所述目标接收语言后的会话信息;
在得到所述第一语音信息所转换后的文本信息,以及将对应的目标语言标签添加至所述文本信息后,即可将添加有所述目标语言标签的文本信息输入至预训练完成的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的第二会话信息。在此,所述多语言神经网络机器翻译模型对所述文本信息的处理过程与上述步骤S104相同,为简明起见,在此不再赘述。
步骤S205、将所述第二会话信息转换成相对应的第二语音信息,并将所述第二语音信息发送至所述目标用户。
本发明实施例中,在得到所述多语言神经网络机器翻译模型所输出的第二会话信息后,其中,所述第二会话信息为文本信息,则可首先通过语音合成技术将所述第二会话信息转换成相应的第二语音信息,并可将所转换得到的第二语音信息发送至所对应的目标用户。如在上述所述的四人会话场景中,在得到所述多语言神经网络机器翻译模型输出的第二会话信息为英语的第二会话信息、日语的第二会话信息以及韩语的第二会话信息后,可通过语音合成技术将英语的第二会话信息转换成英语的第二语音信息、将日语的第二会话信息转换成日语的第二语音信息以及将韩语的第二会话信息转换成韩语的第二语音信息,随后可将英语的第二语音信息发送至目标用户B,将日语的第二语音信息发送目标用户C,将韩语的第二语音信息发送至目标用户D。
可选地,所述将所述第二会话信息转换成相对应的第二语音信息,可以包括:
步骤c、将所述第二会话信息转换成对应的音素序列,并获取各所述音素序列的起止时间和频率变化情况;
步骤d、根据各所述音素序列及各所述音素序列所对应的起止时间与频率变化情况,生成对应的第二语音信息。
在此,语音合成主技术要包括文本处理流程和语音合成流程,文本处理流程中主要是将文本的第二会话信息转化成音素序列,并标出每个音素序列的起止时间、频率变化情况等信息。而语音合成流程则主要是根据音素序列,以及标注好的起止时间、频率变化情况等信息生成语音,其中,在生成语音信息时可以使用拼接法或者参数法,所述拼接法是指从事先录制好的大量语音中,选择所需的基本单位拼接而成,这里的基本单位可以是音节、音素等单位;所述参数法则是指根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化波形,以此完成语音合成。
下面将对所述多语言神经网络机器翻译模型的训练过程进行详细描述,如图3所示,所述多语言神经网络机器翻译模型通过以下步骤训练得到:
步骤S301、预先收集样本会话信息;
步骤S302、设置各所述样本会话信息对应的目标翻译语言及所述目标翻译语言所对应的样本语言标签;
步骤S303、标记各所述样本会话信息与所述目标翻译语言相对应的标准翻译文本;
步骤S304、将所述样本语言标签添加至所述样本会话信息中;
步骤S305、将添加所述样本语言标签的样本会话信息输入至初始的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的训练翻译文本;
步骤S306、计算所述训练翻译文本与所述标准翻译文本之间的误差;
步骤S307、判断所述误差是否满足预设条件;
步骤S308、若所述误差满足所述预设条件,则确定所述多语言神经网络机器翻译模型训练完成;
步骤S309、若所述误差不满足所述预设条件,则调整所述多语言神经网络机器翻译模型的模型参数,并将模型参数调整后的多语言神经网络机器翻译模型作为初始的多语言神经网络机器翻译模型,返回执行将添加所述样本语言标签的样本会话信息输入至初始的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的训练翻译文本的步骤以及后续步骤。
对于上述步骤S301和步骤S302,可以理解的是,在进行训练之前,可首先收集训练样本,如收集各种会话中的会话信息,即上述的样本会话信息,以作为所述多语言神经网络机器翻译模型的训练样本。在收集到所述样本会话信息后,可设置各样本会话信息对应的目标翻译语言及与目标翻译语言相对应的样本语言标签,即通过样本语言标签表明期望所述多语言神经网络机器翻译模型将所述样本会话信息翻译成何种语种的会话信息。
对于上述步骤S303和步骤S304,可以理解的是,在确定了各样本会话信息对应的目标翻译语言后,可预先标记各样本会话信息翻译成所述目标翻译语言所对应的标准翻译文本,并将对应的样本语言标签添加至各所述样本会话信息中,如在某一具体应用场景中,各样本会话信息对应的标准翻译文本及样本语言标签的添加可如下述表1所示,其中,Source为添加有样本语言标签的样本会话信息,Target为各样本会话信息翻译成对应语言的标准翻译文本:
表1
Figure BDA0001885736630000111
对于上述步骤S305,可以理解的是,在将各样本语言标签添加至对应的样本会话信息后,可将添加有样本语言标签的样本会话信息输入至初始的多语言神经网络机器翻译模型中。
本发明实施例中,所述多语言神经网络机器翻译模型为使用基于注意力机制的编码-解码结构的神经网络模型,即如图4所示,所述多语言神经网络机器翻译模型包括编码器和解码器,所述编码器与所述解码器的连接则引入了注意力机制,即在所述编码器和所述解码器之间加入了一个注意力层,以通过注意力层的加入来提高翻译结果的准确性。在将添加有样本语言标签的样本会话信息输入至初始的多语言神经网络机器翻译模型后,所述多语言神经网络翻译模型中的编码器则会对所述样本会话信息进行编码,在此,所述编码器可以使用循环神经网络或者卷积神经网络来对所述样本会话信息进行编码,并计算出每个输出的权重;然后将其输入至注意力层,以通过注意力层得到经过加权的编码;最后将经过加权的编码输入至解码器中进行解码,在此,所述解码器也可以使用循环神经网络或者卷积神经网络来对编码信息进行解码,从而得到所述多语言神经网络机器翻译模型输出的训练翻译文本。
其中,在使用循环神经网络进行编码、解码时,可以采用LSTM等神经单元,LSTM神经单元可通过增加输入门限、遗忘门限和输出门限,使得自循环的权重是变化的,这样一来在模型参数固定的情况下,不同时刻的积分尺度可以动态改变,从而避免了梯度消失或者梯度膨胀的问题。另外,在所述多语言神经网络机器翻译模型增加了注意力层,可将上一时刻的状态输入到当前时刻,以增加模型的复杂性,使其泛化性更高,提高翻译结果的准确性。
对于上述步骤S306至步骤S309,可以理解的是,在得到所述多语言神经网络机器翻译模型输出的训练翻译文本后,则可计算所述训练翻译文本与对应的标准翻译文本之间的误差,并判断所述误差是否满足预设条件,如判断误差是否小于5%。在此,所述预设条件可以在训练具体的多语言神经网络机器翻译模型时确定,例如设定预设条件为误差小于特定阈值,该特定阈值可以是一个百分比数值。当所述误差满足所述预设条件时,如所述训练翻译文本与所述标准翻译文本之间的误差小于5%时,则可确定所述多语言神经网络机器翻译模型训练完成;而当所述误差不满足所述预设条件时,如所述训练翻译文本与所述标准翻译文本之间的误差为10%时,则可调整所述多语言神经网络机器翻译模型的模型参数,并将模型参数调整后的多语言神经网络机器翻译模型作为初始的多语言神经网络机器翻译模型,然后重新进行训练文本的训练,以通过反复调整多语言神经网络机器翻译模型的模型参数,并进行多次训练文本的训练,来使得后续训练输出的训练翻译文本与标准翻译文本之间的误差最小化,直到所述误差满足所述预设条件为止。
可以理解的是,在一个具体应用场景中,所述多语言神经网络机器翻译模型可包括输入层、隐藏层及输出层,其中,所述多语言神经网络机器翻译模型的模型参数则可包括权值矩阵、输入层到隐藏层间的第一偏置向量以及隐藏层到输出层间的第二偏向量,所述输入层用于进行会话信息的输入,所述隐藏层用于通过编码器、解码器对会话信息进行编码、解码处理,所述输出层则用于将编码、解码处理后的会话信息重新输入至输入层,以开启隐藏层下一次编码、解码的迭代处理。因而,当训练过程中的误差不满足所述预设条件时,则可通过梯度下降法等更新所述多语言神经网络机器翻译模型中的权值矩阵、第一偏置向量以及第二偏置向量,以完成模型参数的调整。
需要说明的是,本发明实施例中,在多语言神经网络机器翻译模型的训练过程中,作为训练文本的各样本会话信息具有语言标签,以表明其所对应的翻译文本的语种,例如对中文样本会话信息添加标签<En>进行标记,表明要将其翻译为英语,然后将其倒叙输入编码器进行编码。这样可以使用多种语言对一起进行训练,以提高多语言神经网络机器翻译模型的翻译精度和翻译速度。
本发明实施例中,在获取第一会话信息时,即确定接收所述第一会话信息的目标用户,并获取所述目标用户所设置的目标接收语言;然后,添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中,并将添加所述目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型,获取所述多语言神经网络机器翻译模型输出的第二会话信息,其中,所述第二会话信息为所述第一会话信息翻译成所述目标接收语言后的会话信息;最后,将所述第二会话信息发送至所述目标用户,以实现多语言会话中的实时翻译,解决不同语种之间沟通、交流困难的问题,从而满足人们日常工作、生活的需求。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种会话翻译方法,下面将对一种会话翻译装置进行详细描述。
图5示出了本发明实施例中一种会话翻译装置的一个实施例结构图。如图5所示,所述会话翻译装置,包括:
第一会话信息获取模块501,用于获取第一会话信息;
目标接收语言确定模块502,用于确定接收所述第一会话信息的目标用户,并获取所述目标用户所设置的目标接收语言;
目标语言标签添加模块503,用于添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中;
第一会话信息翻译模块504,用于将添加所述目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的第二会话信息,其中,所述第二会话信息为所述第一会话信息翻译成所述目标接收语言后的会话信息;
第二会话信息发送模块505,用于将所述第二会话信息发送至所述目标用户。
进一步地,所述第一会话信息为第一语音信息;
相应地,所述目标语言标签添加模块503,还用于将所述第一语音信息转换成相对应的文本信息,并添加与所述目标接收语言相对应的目标语言标签至所述文本信息中。
优选地,所述第二会话信息发送模块505,还用于将所述第二会话信息转换成相对应的第二语音信息,并将所述第二语音信息发送至所述目标用户。
可选地,所述第二会话信息发送模块505,包括:
第二会话信息转换单元,用于将所述第二会话信息转换成对应的音素序列,并获取各所述音素序列的起止时间和频率变化情况;
第二语音信息生成单元,用于根据各所述音素序列及各所述音素序列所对应的起止时间与频率变化情况,生成对应的第二语音信息。
进一步地,所述会话翻译装置,还包括:
样本会话信息收集模块,用于预先收集样本会话信息;
目标翻译语言设置模块,用于设置各所述样本会话信息对应的目标翻译语言及所述目标翻译语言所对应的样本语言标签;
标准翻译文本标记模块,用于标记各所述样本会话信息与所述目标翻译语言相对应的标准翻译文本;
样本语言标签添加模块,用于将所述样本语言标签添加至所述样本会话信息中;
训练翻译文本获得模块,用于将添加所述样本语言标签的样本会话信息输入至初始的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的训练翻译文本;
误差计算模块,用于计算所述训练翻译文本与所述标准翻译文本之间的误差;
模型参数调整模块,用于若所述误差不满足预设条件,则调整所述多语言神经网络机器翻译模型的模型参数,并将模型参数调整后的多语言神经网络机器翻译模型作为初始的多语言神经网络机器翻译模型,返回执行将添加所述样本语言标签的样本会话信息输入至初始的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的训练翻译文本的步骤以及后续步骤;
模型训练完成确定模块,用于若所述误差满足所述预设条件,则确定所述多语言神经网络机器翻译模型训练完成。
优选地,所述多语言神经网络机器翻译模型为使用基于注意力机制的编码-解码结构的神经网络模型。
可选地,所述目标接收语言确定模块502,包括:
终端设备确定单元,用于确定所述目标用户所对应的终端设备;
目标接收语言确定单元,用于获取所述终端设备中所设置的系统语言,并将所述系统语言确定为所述目标用户所设置的目标接收语言。
图6是本发明一实施例提供的一种终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如会话翻译程序。所述处理器60执行所述计算机程序62时实现上述各个会话翻译方法实施例中的步骤,例如图1所示的步骤S101至步骤S105。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块501至模块505的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。例如,所述计算机程序62可以被分割成第一会话信息获取模块、目标接收语言确定模块、目标语言标签添加模块、第一会话信息翻译模块、第二会话信息发送模块,各模块具体功能如下:
第一会话信息获取模块,用于获取第一会话信息;
目标接收语言确定模块,用于确定接收所述第一会话信息的目标用户,并获取所述目标用户所设置的目标接收语言;
目标语言标签添加模块,用于添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中;
第一会话信息翻译模块,用于将添加所述目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的第二会话信息,其中,所述第二会话信息为所述第一会话信息翻译成所述目标接收语言后的会话信息;
第二会话信息发送模块,用于将所述第二会话信息发送至所述目标用户。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种会话翻译方法,其特征在于,包括:
获取第一会话信息;
确定接收所述第一会话信息的目标用户,并获取所述目标用户所设置的目标接收语言;其中,所述获取所述目标用户所设置的目标接收语言,包括:确定所述目标用户所对应的终端设备;获取所述终端设备中所设置的系统语言,并将所述系统语言确定为所述目标用户所设置的目标接收语言;
添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中;
将添加所述目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的第二会话信息,其中,所述第二会话信息为所述第一会话信息翻译成所述目标接收语言后的会话信息;
将所述第二会话信息转换成对应的音素序列,并获取各所述音素序列的起止时间和频率变化情况;
根据各所述音素序列及各所述音素序列所对应的起止时间与频率变化情况,生成对应的第二语音信息;
将所述第二语音信息发送至所述目标用户。
2.根据权利要求1所述的会话翻译方法,其特征在于,所述第一会话信息为第一语音信息;
相应地,所述添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中,包括:
将所述第一语音信息转换成相对应的文本信息,并添加与所述目标接收语言相对应的目标语言标签至所述文本信息中。
3.根据权利要求1所述的会话翻译方法,其特征在于,所述多语言神经网络机器翻译模型通过以下步骤训练得到:
预先收集样本会话信息;
设置各所述样本会话信息对应的目标翻译语言及所述目标翻译语言所对应的样本语言标签;
标记各所述样本会话信息与所述目标翻译语言相对应的标准翻译文本;
将所述样本语言标签添加至所述样本会话信息中;
将添加所述样本语言标签的样本会话信息输入至初始的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的训练翻译文本;
计算所述训练翻译文本与所述标准翻译文本之间的误差;
若所述误差不满足预设条件,则调整所述多语言神经网络机器翻译模型的模型参数,并将模型参数调整后的多语言神经网络机器翻译模型作为初始的多语言神经网络机器翻译模型,返回执行将添加所述样本语言标签的样本会话信息输入至初始的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的训练翻译文本的步骤以及后续步骤;
若所述误差满足所述预设条件,则确定所述多语言神经网络机器翻译模型训练完成。
4.根据权利要求1所述的会话翻译方法,其特征在于,所述多语言神经网络机器翻译模型为使用基于注意力机制的编码-解码结构的神经网络模型。
5.一种会话翻译装置,其特征在于,包括:
第一会话信息获取模块,用于获取第一会话信息;
目标接收语言确定模块,用于确定接收所述第一会话信息的目标用户,并获取所述目标用户所设置的目标接收语言;
目标语言标签添加模块,用于添加与所述目标接收语言相对应的目标语言标签至所述第一会话信息中;
第一会话信息翻译模块,用于将添加所述目标语言标签的第一会话信息输入至预训练完成的多语言神经网络机器翻译模型,得到所述多语言神经网络机器翻译模型输出的第二会话信息,其中,所述第二会话信息为所述第一会话信息翻译成所述目标接收语言后的会话信息;
第二会话信息发送模块,用于将所述第二会话信息发送至所述目标用户;
所述目标接收语言确定模块,包括:
终端设备确定单元,用于确定所述目标用户所对应的终端设备;
目标接收语言确定单元,用于获取所述终端设备中所设置的系统语言,并将所述系统语言确定为所述目标用户所设置的目标接收语言;
所述第二会话信息发送模块,包括:
第二会话信息转换单元,用于将所述第二会话信息转换成对应的音素序列,并获取各所述音素序列的起止时间和频率变化情况;
第二语音信息生成单元,用于根据各所述音素序列及各所述音素序列所对应的起止时间与频率变化情况,生成对应的第二语音信息。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述会话翻译方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述会话翻译方法的步骤。
CN201811446077.6A 2018-11-29 2018-11-29 一种会话翻译方法、装置、存储介质及终端设备 Active CN111241853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811446077.6A CN111241853B (zh) 2018-11-29 2018-11-29 一种会话翻译方法、装置、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811446077.6A CN111241853B (zh) 2018-11-29 2018-11-29 一种会话翻译方法、装置、存储介质及终端设备

Publications (2)

Publication Number Publication Date
CN111241853A CN111241853A (zh) 2020-06-05
CN111241853B true CN111241853B (zh) 2022-05-27

Family

ID=70874449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811446077.6A Active CN111241853B (zh) 2018-11-29 2018-11-29 一种会话翻译方法、装置、存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN111241853B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241074A (zh) * 2021-04-28 2021-08-10 平安科技(深圳)有限公司 多语言转译模型的训练方法、装置、设备及可读存储介质
CN113726952B (zh) * 2021-08-09 2023-04-28 北京小米移动软件有限公司 通话过程中的同声传译方法及装置、电子设备、存储介质
CN114124864B (zh) * 2021-09-28 2023-07-07 维沃移动通信有限公司 消息处理方法、装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216820A (zh) * 2008-01-17 2008-07-09 北京中星微电子有限公司 一种多国化翻译的方法和装置
CN101494621A (zh) * 2009-03-16 2009-07-29 西安六度科技有限公司 一种多语言即时通讯终端翻译系统和翻译方法
CN105338161A (zh) * 2014-06-30 2016-02-17 展讯通信(上海)有限公司 一种语句信息匹配系统及方法以及移动终端
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216820A (zh) * 2008-01-17 2008-07-09 北京中星微电子有限公司 一种多国化翻译的方法和装置
CN101494621A (zh) * 2009-03-16 2009-07-29 西安六度科技有限公司 一种多语言即时通讯终端翻译系统和翻译方法
CN105338161A (zh) * 2014-06-30 2016-02-17 展讯通信(上海)有限公司 一种语句信息匹配系统及方法以及移动终端
CN108563640A (zh) * 2018-04-24 2018-09-21 中译语通科技股份有限公司 一种多语言对的神经网络机器翻译方法及系统

Also Published As

Publication number Publication date
CN111241853A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111292720B (zh) 语音合成方法、装置、计算机可读介质及电子设备
WO2020186778A1 (zh) 错词纠正方法、装置、计算机装置及存储介质
CN110797016B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN110288972B (zh) 语音合成模型训练方法、语音合成方法及装置
CN111241853B (zh) 一种会话翻译方法、装置、存储介质及终端设备
WO2021127817A1 (zh) 一种多语言文本合成语音方法、装置、设备及存储介质
CN111292719A (zh) 语音合成方法、装置、计算机可读介质及电子设备
CN111400481B (zh) 针对多轮对话生成回复语句的方法和装置
CN111382261B (zh) 摘要生成方法、装置、电子设备及存储介质
CN112837669B (zh) 语音合成方法、装置及服务器
CN114360557B (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
WO2023142454A1 (zh) 语音翻译和模型训练方法、装置、电子设备以及存储介质
CN115762489A (zh) 语音识别模型的数据处理系统及方法、语音识别方法
CN116343747A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN114155832A (zh) 基于深度学习的语音识别方法、装置、设备及介质
CN108920560B (zh) 生成方法、训练方法、装置、计算机可读介质及电子设备
CN116469374A (zh) 基于情感空间的语音合成方法、装置、设备及存储介质
CN116415597A (zh) 语音翻译、同声传译方法
CN113327578B (zh) 一种声学模型训练方法、装置、终端设备及存储介质
CN115132182A (zh) 一种数据识别方法、装置、设备及可读存储介质
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
CN111048065A (zh) 文本纠错数据生成方法及相关装置
CN115982343B (zh) 摘要生成方法、训练摘要生成模型的方法及装置
CN117851828A (zh) 模型训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 516006 TCL science and technology building, No. 17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province

Applicant after: TCL Technology Group Co.,Ltd.

Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District

Applicant before: TCL Corp.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant