CN117496941A

CN117496941A - 语音数据处理方法、装置及系统

Info

Publication number: CN117496941A
Application number: CN202310696062.XA
Authority: CN
Inventors: 迟海波; 郝征鹏; 蒋宁
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2023-06-13
Filing date: 2023-06-13
Publication date: 2024-02-02

Abstract

本申请实施例提供了一种语音数据处理方法、装置及系统，其中方法包括：服务端确定至少一个语音播放设备当前播放语音数据所采用的目标语言；若从语音收录设备获取到待处理的原始语音数据，则将原始语音数据输入声纹识别模型中进行声纹识别处理，得到原始语音数据中发音用户的发音特征；根据目标语言和发音特征，对原始语音数据进行转换处理，得到至少一个目标语音数据；将目标语音数据发送给对应的语音播放设备。通过本申请实施例，提升了语音转译效率并实现了语音转译结果的动态性。

Description

语音数据处理方法、装置及系统

技术领域

本申请涉及音频处理技术领域，尤其涉及一种语音数据处理方法、装置及系统。

背景技术

随着全球化进程的不断发展与进步，位于不同地区或国家的多个用户通过语音协同工作，已成为当前主流的全球化工作模式之一。然而，由于不同地区或不同国家的用户的讲话语言往往不同，例如，有的用户讲英文、有的用户讲日文、有的用户讲四川方言、有的用户讲普通话等。在此情况下，语音转译成为了必不可少的处理环节。然而，目前的语音转译通常是在语音采集端执行，不仅转译效率低，而且转译结果通常是一成不变的，听者不能真切的体会到讲话人的讲话情绪，如音调、语速等，因此可能会影响后续的有效交流。

发明内容

本申请提供了一种语音数据处理方法、装置及系统，以提升语音转译效率并实现语音转译结果的动态性。

第一方面，本申请实施例提供了一种语音数据处理方法，应用于服务端，包括：

确定至少一个语音播放设备当前播放语音数据所采用的目标语言；

若从语音收录设备获取到待处理的原始语音数据，则将所述原始语音数据输入声纹识别模型中进行声纹识别处理，得到所述原始语音数据中发音用户的发音特征；

根据所述目标语言和所述发音特征，对所述原始语音数据进行转换处理，得到至少一个目标语音数据；

将所述目标语音数据发送给对应的所述语音播放设备。

可以看出，本申请实施例中，服务端确定至少一个语音播放设备当前播放语音数据所采用的目标语言；若从语音收录设备获取到待处理的原始语音数据，则将原始语音数据输入声纹识别模型中进行声纹识别处理，得到原始语音数据中发音用户的发音特征；根据目标语言和发音特征，对原始语音数据进行转换处理，得到至少一个目标语音数据。该语音处理过程中，由于是服务端进行语音转译处理，而服务端相较于语音采集端而言数据处理效率高，因此提升了语音转译效率。再者，通过识别发音用户的发音特征，并基于该发音特征和各语音播放设备当前播放语音数据所采用的目标语言，将原始语音数据转换为目标语音数据，使得目标语音数据具备发音特征和对应的目标语言，由此，语音播放设备基于目标语音数据进行语音播放，不仅能够使听者听到的语音数据在发音用户的音调、语速等方面与原始语音数据更接近，提升听者的收听体验，而且实现了语音转译效果的动态性，更有利于后续听者与发音用户进行有效沟通。

第二方面，本申请实施例提供了一种语音数据处理装置，包括：

确定模块，用于确定至少一个语音播放设备当前播放语音数据所采用的目标语言；

识别模块，用于若从语音收录设备获取到待处理的原始语音数据，则将所述原始语音数据输入声纹识别模型中进行声纹识别处理，得到所述原始语音数据中发音用户的发音特征；

转换模块，用于根据所述目标语言和所述发音特征，对所述原始语音数据进行转换处理，得到至少一个目标语音数据；

发送模块，用于将所述目标语音数据发送给对应的所述语音播放设备。

第三方面，本申请实施例提供了一种语音数据处理系统，包括：至少一个语音收录设备、服务端和至少一个语音播放设备；

所述语音收录设备，用于收录待处理的原始语音数据；

所述服务端，用于确定所述语音播放设备当前播放语音数据所采用的目标语言；若从所述语音收录设备获取到所述原始语音数据，则将所述原始语音数据输入声纹识别模型中进行声纹识别处理，得到所述原始语音数据中发音用户的发音特征；根据所述目标语言和所述发音特征，对所述原始语音数据进行转换处理，得到至少一个目标语音数据；将所述目标语音数据发送给对应的所述语音播放设备；

所述语音播放设备，接收所述服务端发送的所述目标语音数据，并基于所述目标语音数据进行语音播放处理。

第四方面，本申请实施例提供了一种电子设备，包括：

处理器；以及，被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行上述第一方面提供的语音数据处理方法中的步骤。

第五方面，本申请实施例提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行上述第一方面提供的语音数据处理方法中的步骤。

附图说明

为了更清楚地说明本申请一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音数据处理方法的应用场景示意图；

图2为本申请实施例提供的一种语音数据处理方法的第一种流程示意图；

图3为本申请实施例提供的一种语音数据处理方法的第二种流程示意图；

图4为本申请实施例提供的一种语音数据处理装置的模块组成示意图；

图5为本申请实施例提供的一种语音数据处理系统的组成示意图；

图6为本申请一个或多个实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请一个或多个实施例中的技术方案，下面将结合本申请一个或多个实施例中的附图，对本申请一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

考虑到现有的语音转译通常是在语音采集端执行，由于语音采集端的数据处理能力有限，因此语音转译效率偏低。并且现有的语音转译方式中，语音转译结果往往是一层不变的，即不论讲话人采用什么样的情绪、什么样的音高及音调讲话，语音转译结果都是一样的，使得听者难以真切的体会到讲话人的讲话情绪，而这不仅会降低听者的视听体验，而且很可能会影响听者与讲话人的后续沟通。基于此，本申请实施例提供了一种语音数据处理方法，该方法中，由服务端进行语音转译处理，由于服务端相较于语音采集端而言数据处理效率高，因此提升了语音转译效率。并且是基于发音用户的发音特征及语音播放设备当前播放语音数据所采用的目标语言，将原始语音数据转换为目标语音数据，使得目标语音数据具备发音特征和对应的目标语言进行播放，由此，语音播放设备基于目标语音数据进行语音播放，不仅能够使听者听到的语音数据在发音用户的音调、语速等方面与原始语音数据更接近，提升听者的收听体验，而且实现了语音转译效果的动态性，更有利于后续听者与发音用户进行有效沟通。

具体的，图1为本申请一个或多个实施例提供的一种语音数据处理方法的引用场景示意图，如图1所示，该场景包括：M个语音收录设备(如麦克风等)、服务端及N个语音播放设备(如耳机等)其中，M和N为正整数，M与N可以相同也可以不同。语音收录设备用于收录发音用户的待处理的原始语音数据，不同的发音用户可以共用同一个语音收录设备，也可以分别使用不同的语音收录设备。服务端用于确定每个语音播放设备当前播放语音数据所采用的目标语言；并在从语音收录设备获取到原始语音数据时，将原始语音数据输入声纹识别模型中进行声纹识别处理，得到原始语音数据中发音用户的发音特征；根据目标语言和发音特征，对原始语音数据进行转换处理，得到至少一个目标语音数据；将目标语音数据发送给对应的语音播放设备。语音播放设备用于接收服务端发送的目标语音数据，并基于目标语音数据进行语音播放处理；不同的收听用户可以共用同一个语音播放设备，也可以使用不同的语音播放设备；不同的语音播放设备可以接收相同的目标语音数据，也可以接收不同的目标语音数据。

由此，由服务端进行语音转译处理，提升了语音转译效率；基于发音用户的发音特征及语音播放设备当前播放语音数据所采用的目标语言，将原始语音数据转换为目标语音数据，使得不仅能够使听者听到的语音数据在发音用户的音调、语速等方面与原始语音数据更接近，提升听者的收听体验，而且实现了语音转译效果的动态性，更有利于后续听者与发音用户进行有效沟通。

基于上述应用场景架构，本申请一个或多个实施例提供了一种语音数据处理方法。图2为本申请一个或多个实施例提供的一种语音数据处理方法的流程示意图，图2中的方法能够由服务端执行。如图2所示，该方法包括以下步骤：

步骤S102，确定至少一个语音播放设备当前播放语音数据所采用的目标语言；

为了提升语音转译效率，本申请中构建了包括服务端、至少一个语音收录设备(如麦克风等)及至少一个语音播放设备(如耳机等)的语音处理系统。其中，语音收录设备用于收录发音用户的待处理的原始语音数据。语音播放设备可以包括语言选择控件，使用语音播放设备收听语音的收听用户可以操作该语言选择控件，选择语音播放设备当前播放语音数据所采用的目标语言；语音播放设备响应于收听用户的选择操作，将该目标语言的第二语言类型信息发送给服务端。服务端根据获取到的该第二语言类型信息，确定语音播放设备当前播放语音数据所采用的目标语言。目标语言包括语种(例如英文、日文、中文等)、方言(例如四川方言、天津方言等)等。

可以理解的是，不同的发音用户可以共用同一个语音收录设备，也可以分别使用不同的语音收录设备；不同的收听用户可以共用同一个语音播放设备，也可以使用不同的语音播放设备；不同的语音播放设备可以接收相同的目标语音数据，也可以接收不同的目标语音数据。

作为一个示例，甲、乙、丙三个用户位于三个不同的地域，在甲、乙、丙三个用户的语音会议中，每个用户都可以操作一个语音收录设备和一个语音播放设备，通过各自的语音收录设备收录各自的原始语音数据并提供给服务端，通过各自的语音播放设备选择当前播放语音数据所采用的目标语言，并播放服务端发送的目标语音数据。当甲是发音用户，乙和丙是收听用户时，若乙和丙选择了相同的目标语音，那么乙和丙操作的语音播放设备接收相同的目标语音数据；若乙和丙选择了不同的目标语音，那么乙和丙操作的语音播放设备接收不同的目标语音数据。作为另一示例，甲、乙、丙三个用户中，甲与乙在一起(例如在同一个办公室中)，丙位于与甲和乙不同的地域。在甲、乙、丙三个用户的语音会议中，甲和乙可以操作同一个语音收录设备，还可以分别操作一个语音收录设备；当甲和乙希望语音播放设备使用同一语言播放语音数据时，可以使用同一个语音播放设备，也可以使用不同的语音播放设备；当甲用户和乙用户希望语音播放设备使用不同的语言播放语音数据时，可以分别操作一个语音播放设备。丙用户可以操作一个语音收录设备和一个语音播放设备。

需要指出的是，本申请实施例提供的语音数据处理方法及语音数据处理系统不限为上述场景，其可以应用于任一具有语音转译需求的场景中。

步骤S104，若从语音收录设备获取到待处理的原始语音数据，则将原始语音数据输入声纹识别模型中进行声纹识别处理，得到原始语音数据中发音用户的发音特征；

可选地，当语音收录设备收录到待处理的原始语音数据时，将收录到的原始语音数据发送给服务端，服务端接收语音收录设备发送的原始语音数据。或者，服务端按照预设时间间隔(例如30毫秒、1秒等)向语音收录设备发送数据获取请求，并接收语音收录设备发送的待处理的原始语音数据。或者，语音收录设备在收录到待处理的原始语音数据时，将原始语音数据保存至指定存储区域，服务端若检测到该存储区域中存有待处理的原始语音数据，则从指定存储区域中获取该原始语音数据。对于服务端从语音收录设备获取待处理的原始语音数据的具体方式，可以在实际应用中根据需要自行设定，对此本申请中不做具体限定。

声纹识别模型是预先进行训练处理得到的，发音特征可以包括情绪、发音用户的性别、发音用户所属的年龄段等。由于人在不同情绪下发音的音量、语速、音调等均不同，因此，通过分析发音用户的情绪，可以在后续的转换处理过程中，基于情绪所对应的音量、语速、音调等参数进行转换处理，得到与原始语音数据中发音用户的音量、语速、音调等更接近的目标语音数据。对于声纹识别模型的具体训练过程以及具体的声纹识别过程，本申请中均不做具体限定，其可以在实际应用中根据需要自行设定。

步骤S106，根据目标语言和发音特征，对原始语音数据进行转换处理，得到至少一个目标语音数据；

其中，每个目标语音数据对应发音特征和一种目标语言。可以理解的是，确定的目标语言的数量，与得到的目标语音数据的数量一致。例如，服务端获取到语音播放设备1当前播放语音数据所采用的目标语言是英文、语音播放设备2当前播放语音数据所采用的目标语言是四川方言、语音播放设备3当前播放语音数据所采用的目标语言是英文。则对原始语音数据进行转换处理，得到两个目标语音数据。其中一个目标语音数据基于发音特征和英文进行播放，另一个目标语音数据基于发音特征和四川方言进行播放。

步骤S108，将目标语音数据发送给对应的语音播放设备。

其中，目标语音数据具备发音特征和对应的目标语言。当语音播放设备接收到服务端发送的目标语音数据时，基于目标语音数据进行语音播放处理。或者，当语音播放设备接收到服务端发送的目标语音数据时，基于发音特征和对应的目标语言进行语音播放处理。

本申请实施例中，服务端确定至少一个语音播放设备当前播放语音数据所采用的目标语言；若从语音收录设备获取到待处理的原始语音数据，则将原始语音数据输入声纹识别模型中进行声纹识别处理，得到原始语音数据中发音用户的发音特征；根据目标语言和发音特征，对原始语音数据进行转换处理，得到至少一个目标语音数据。该语音处理过程中，由于是服务端进行语音转译处理，而服务端相较于语音采集端而言数据处理效率高，因此提升了语音转译效率。再者，通过识别发音用户的发音特征，并基于该发音特征和各语音播放设备当前播放语音数据所采用的目标语言，将原始语音数据转换为目标语音数据，使得目标语音数据具备发音特征和对应的目标语言，由此，语音播放设备基于目标语音数据进行语音播放，不仅能够使听者听到的语音数据在发音用户的音调、语速等方面与原始语音数据更接近，提升听者的收听体验，而且实现了语音转译效果的动态性，更有利于后续听者与发音用户进行有效沟通。

为了保障目标语音数据的准确性，本申请一个或多个实施例中，首先对原始语音数据进行文本转换处理，并基于得到的目标文本和发音特征进行语音合成处理，得到目标语音数据。具体的，如图3所示，步骤S106可以包括以下步骤S106-2至步骤S106-6：

步骤S106-2，确定原始语音数据所采用的原始语言；

本申请的一个或多个实施例中，可以由服务端识别原始语音数据所采用的原始语言，相应的，步骤S106-2可以包括：根据预设语言识别方式对原始语音数据进行语言识别处理，得到原始语音数据所采用的原始语言。其中，预设语言识别方式可以是通过预先训练的语言识别模型，还可以是调用预设的语言识别接口等，预设语言识别方式可以在实际应用中根据需要自行设定。

本申请的另一个或多个实施例中，可以由语音收录设备确定原始语音数据说采用的原始语言，并将确定的原始语言与原始语音数据一同提供给服务端。相应的，步骤S106-2可以包括：将从语音收录设备获取到的第一语言类型信息所对应的语言，确定为原始语音数据所采用的原始语言。其中，语音收录设备可以通过预先训练的语言识别模型确定原始语音数据所采用的原始语言，也可以调用预设的语言识别接口确定原始语音数据所采用的原始语言。

步骤S106-4，根据原始语言和目标语言，对原始语音数据进行文本转换处理，得到至少一个目标文本；每个目标文本对应一种目标语言；

本申请一个或多个实施例中，可以预先训练多个文本转换模型，每个文本转换模型对应一种原始语言和一种目标语言，每个文本转换模型用于将对应的原始语言的语音数据转换为对应的目标语言的文本。相应的，步骤S106-4可以包括：根据原始语言和目标语言，确定多个文本转换模型中待进行文本转换处理的至少一个目标文本转换模型；将原始语音数据输入目标文本转换模型中进行文本转换处理，得到至少一个目标文本数据。

其中，根据原始语言和目标语言，确定多个文本转换模型中待进行文本转换处理的至少一个目标文本转换模型，可以包括：将原始语言与每个目标语言进行组合得到至少一个语言对，根据每个语言对从预设的语言对与文本转换模型的对应关系中查询对应的文本转换模型，并将查询到的文本转换模型确定为待进行文本转换处理的目标文本转换模型。

作为示例，原始语言为中文，目标语言包括英文和日文，那么得到中文-英文、中文-日文两个语言对，根据每个语言对分别查询到对应的目标文本转换模型。可以理解的是，根据原始语言中文、目标语言英文组合得到的语言对，与根据原始语言英文、目标语言中文组合得到的语言对不同，前者组合得到的语言对为中文-英文，后者得到的语言对为英文-中文。

本申请另一个或多个实施例中，可以预先训练一个文本转换模型并预设多个语言转换接口；其中，文本转换模型用于将任意语言的语音数据转换为预设语言的文本；每个语言转换接口对应一种目标语言，每个语言转换接口用于将预设语言的文本转换为对应的目标语言的文本；预设语言例如为中文。相应的，步骤S106-4可以包括：将原始语音数据输入文本转换模型中进行文本转换处理，得到预设语言的中间文本；根据目标语言，确定多个语言转换接口中待进行语言转换的至少一个目标语言转换接口；调用目标语言转换接口对中间文本进行语言转换处理，得到至少一个目标文本。例如，原始语言为日文，预设语言为中文，目标语言为英文，则首先通过文本转换模型将日文形式的原始语音数据转换为中文文本，然后通过对应的目标转换接口将中文文本转换为英文文本。

其中，根据目标语言，确定多个语言转换接口中待进行语言转换的至少一个目标语言转换接口，可以包括：根据目标语言，从预设的目标语言与语言转换接口的对应关系中，查询关联的语言转换接口，并将查询到的语言转换接口确定为目标语言转换接口。

步骤S106-6，根据发音特征和目标文本，进行语音合成处理，得到至少一个目标语音数据。

具体的，根据发音特征，确定目标语音合成参数；将得到的至少一个目标文本与目标语音合成参数输入语音合成模型中进行语音合成处理，得到至少一个目标语音数据。

其中，根据发音特征，确定目标语音合成参数可以包括：根据发音特征、及预设的发音特征与语音合成参数的对应关系，确定目标语音合成参数。

作为示例，发音特征包括性别男、年龄属于20-30岁、情绪为兴奋，可以确定目标语言合成参数包括：sex＝1、age＝20-30、volume(音量)＝80、speed(语速)＝50、pitch(音调)＝60等。

由此，通过识别发音用户的发音特征，并基于该发音特征和各语音播放设备当前播放语音数据所采用的目标语言，将原始语音数据转换为目标语音数据，使得目标语音数据可基于发音特征和对应的目标语言进行播放，由此，不仅能够使听者听到的语音数据在发音用户的音调、语速等方面与原始语音数据更接近，提升听者的收听体验，而且实现了语音转译效果的动态性，更有利于后续听者与发音用户进行有效沟通。

为了保障服务端与语音收录设备和语音播放设备的有效通讯，本申请一个或多个实施例中，服务端分别与语音收录设备和语音播放设备建立通信连接，并通过通信连接进行数据通讯。

相应的，前述步骤S102可以包括：与至少一个语音播放设备建立第一通信连接；通过第一通信连接接收语音播放设备发送的第二语言类型信息；将第二语言类型信息所对应的语言，确定为语音播放设备当前播放语音数据所采用的目标语言。具体的，语音播放设备响应于用户的设备开机操作，向服务端发送连接请求；服务端根据该连接请求与语音播放设备建立第一通信连接，当语音播放设备获取到用户选择的当前播放语音数据所采用的目标语言时，通过建立的第一通信连接将目标语言的第二语言类型信息发送给服务端。服务端接收语音播放设备通过第一通信连接发送的第二语言类型信息，并将第二语言类型信息对应的语言，确定为目标语言。其中，第一通信可以为Websocket连接，还可以为其他形式的连接，对此，本申请中不做具体限定，其可以在实际应用中根据需要自行设定。

进一步的，步骤S104之前还包括：与语音收录设备建立第二通信接；通过第二通信连接从语音收录设备获取待处理的原始语音数据。其中，第二通信连接与第一通信连接的类型可以相同，也可以不同，其可以在实际应用中根据需要自行设定。

为了提升目标语音数据的管理效率，本申请一个或多个实施例中，针对每种语言设置对应的语音池，并将得到的目标语音数据保存至对应的目标语音池中。即步骤S106之后还可以包括：根据目标语言，将目标语音数据保存至对应的目标语音池中。具体的，根据目标语言，从语言对语音池地址的关联关系中获取关联的语音池地址，并将获取到的语音池地址对应的语音池确定为目标语音池，将目标语音数据保存至目标语音池中。

为了提升目标语音数据发送至语音播放设备的效率，避免收听用户等待时间过长，本申请一个或多个实施例中，服务端中设置有语音转译服务，通过该语音转译服务执行前述对原始语音数据的转换处理，并将得到的目标语音数据保存至对应的目标语音池中，当服务端检测到目标语音池中有待发送的目标语音数据时，将目标语言池中的目标语音数据发送给语音播放设备。即步骤S108可以包括：将目标语言池中的目标语音数据发送给语音播放设备。

具体的，步骤S102之后还可以包括：建立目标语言与连接标识的关联关系；在步骤S108中，当服务端检测到目标语音池中有待发送的目标语音数据时，根据目标语音对应的目标语言，从建立的目标语言与连接标识的关联关系中获取关联的连接标识，通过该连接标识对应的第一通信连接，将目标语言池中的目标语音数据发送给对应的语音播放设备。

进一步的，为了避免语音池中的目标语音数据过多而占用过多的存储空间，本申请一个或多个实施例中，方法还包括：若确定目标语音池中的目标语音数据已发送至对应的各语音播放设备，则将目标语音数据从目标语音池中删除。

本申请一个或多个实施例中，服务端确定至少一个语音播放设备当前播放语音数据所采用的目标语言；若从语音收录设备获取到待处理的原始语音数据，则将原始语音数据输入声纹识别模型中进行声纹识别处理，得到原始语音数据中发音用户的发音特征；根据目标语言和发音特征，对原始语音数据进行转换处理，得到至少一个目标语音数据；将目标语音数据发送给对应的语音播放设备，由语音播放设备基于发音特征和对应的目标语言进行语音播放处理。该语音处理过程中，由于是服务端进行语音转译处理，而服务端相较于语音采集端而言数据处理效率高，因此提升了语音转译效率。再者，通过识别发音用户的发音特征，并基于该发音特征和各语音播放设备当前播放语音数据所采用的目标语言，将原始语音数据转换为目标语音数据，使得目标语音数据可基于发音特征和对应的目标语言进行播放，由此，不仅能够使听者听到的语音数据在发音用户的音调、语速等方面与原始语音数据更接近，提升听者的收听体验，而且实现了语音转译效果的动态性，更有利于后续听者与发音用户进行有效沟通。

对应上述描述的语音数据处理方法，基于相同的技术构思，本申请一个或多个实施例还提供一种语音数据处理装置。图4为本申请一个或多个实施例提供的一种语音数据处理装置的模块组成示意图，如4所示，该装置包括：

确定模块201，用于确定至少一个语音播放设备当前播放语音数据所采用的目标语言；

识别模块202，用于若从语音收录设备获取到待处理的原始语音数据，则将所述原始语音数据输入声纹识别模型中进行声纹识别处理，得到所述原始语音数据中发音用户的发音特征；

转换模块203，用于根据所述目标语言和所述发音特征，对所述原始语音数据进行转换处理，得到至少一个目标语音数据；

发送模块204，用于将所述目标语音数据发送给对应的所述语音播放设备。

本申请实施例提供的语音数据处理装置，确定至少一个语音播放设备当前播放语音数据所采用的目标语言；若从语音收录设备获取到待处理的原始语音数据，则将原始语音数据输入声纹识别模型中进行声纹识别处理，得到原始语音数据中发音用户的发音特征；根据目标语言和发音特征，对原始语音数据进行转换处理，得到至少一个目标语音数据。该语音处理过程中，由于是服务端进行语音转译处理，而服务端相较于语音采集端而言数据处理效率高，因此提升了语音转译效率。再者，通过识别发音用户的发音特征，并基于该发音特征和各语音播放设备当前播放语音数据所采用的目标语言，将原始语音数据转换为目标语音数据，使得目标语音数据具备发音特征和对应的目标语言，由此，语音播放设备基于目标语音数据进行语音播放，不仅能够使听者听到的语音数据在发音用户的音调、语速等方面与原始语音数据更接近，提升听者的收听体验，而且实现了语音转译效果的动态性，更有利于后续听者与发音用户进行有效沟通。

需要说明的是，本申请中关于语音数据处理装置的实施例与本申请中关于语音数据处理方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的语音数据处理方法的实施，重复之处不再赘述。

进一步的，对应上述描述的语音数据处理方法，基于相同的技术构思，本申请一个或多个实施例还提供了一种语音数据处理系统。图5为本申请一个或多个实施例提供的一种语音数据处理系统的组成示意图，如图5所示，该系统包括：至少一个语音收录设备301、服务端302和至少一个语音播放设备303；

所述语音收录设备301，用于收录待处理的原始语音数据；

所述服务端302，用于确定所述语音播放设备303当前播放语音数据所采用的目标语言；若从所述语音收录设备301获取到所述原始语音数据，则将所述原始语音数据输入声纹识别模型中进行声纹识别处理，得到所述原始语音数据中发音用户的发音特征；根据所述目标语言和所述发音特征，对所述原始语音数据进行转换处理，得到至少一个目标语音数据；将所述目标语音数据发送给对应的所述语音播放设备303；

所述语音播放设备303，接收所述服务端302发送的所述目标语音数据，并基于所述目标语音数进行语音播放处理。

本申请实施例提供的语音数据处理系统，服务端确定至少一个语音播放设备当前播放语音数据所采用的目标语言；若从语音收录设备获取到待处理的原始语音数据，则将原始语音数据输入声纹识别模型中进行声纹识别处理，得到原始语音数据中发音用户的发音特征；根据目标语言和发音特征，对原始语音数据进行转换处理，得到至少一个目标语音数据。该语音处理过程中，由于是服务端进行语音转译处理，而服务端相较于语音采集端而言数据处理效率高，因此提升了语音转译效率。再者，通过识别发音用户的发音特征，并基于该发音特征和各语音播放设备当前播放语音数据所采用的目标语言，将原始语音数据转换为目标语音数据，使得目标语音数据具备发音特征和对应的目标语言，由此，语音播放设备基于目标语音数据进行语音播放，不仅能够使听者听到的语音数据在发音用户的音调、语速等方面与原始语音数据更接近，提升听者的收听体验，而且实现了语音转译效果的动态性，更有利于后续听者与发音用户进行有效沟通。

需要说明的是，本申请中关于语音数据处理系统的实施例与本申请中关于语音数据处理方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的语音数据处理方法的实施，重复之处不再赘述。

进一步地，对应上述描述的语音数据处理方法，基于相同的技术构思，本申请一个或多个实施例还提供一种电子设备，该电子设备用于执行上述的语音数据处理方法，图6为本申请一个或多个实施例提供的一种电子设备的结构示意图。

如图6所示，电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器401和存储器402，存储器402中可以存储有一个或一个以上存储应用程序或数据。其中，存储器402可以是短暂存储或持久存储。存储在存储器402的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括电子设备中的一系列计算机可执行指令。更进一步地，处理器401可以设置为与存储器402通信，在电子设备上执行存储器402中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源403，一个或一个以上有线或无线网络接口404，一个或一个以上输入输出接口405，一个或一个以上键盘406等。

在一个具体的实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

将所述目标语音数据发送给对应的所述语音播放设备。

本申请一个或多个实施例提供的电子设备，确定至少一个语音播放设备当前播放语音数据所采用的目标语言；若从语音收录设备获取到待处理的原始语音数据，则将原始语音数据输入声纹识别模型中进行声纹识别处理，得到原始语音数据中发音用户的发音特征；根据目标语言和发音特征，对原始语音数据进行转换处理，得到至少一个目标语音数据。该语音处理过程中，由于是服务端进行语音转译处理，而服务端相较于语音采集端而言数据处理效率高，因此提升了语音转译效率。再者，通过识别发音用户的发音特征，并基于该发音特征和各语音播放设备当前播放语音数据所采用的目标语言，将原始语音数据转换为目标语音数据，使得目标语音数据具备发音特征和对应的目标语言，由此，语音播放设备基于目标语音数据进行语音播放，不仅能够使听者听到的语音数据在发音用户的音调、语速等方面与原始语音数据更接近，提升听者的收听体验，而且实现了语音转译效果的动态性，更有利于后续听者与发音用户进行有效沟通。

需要说明的是，本申请中关于电子设备的实施例与本申请中关于语音数据处理方法及图像去噪方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的语音数据处理方法及图像去噪方法的实施，重复之处不再赘述。

进一步地，对应上述描述的语音数据处理方法，基于相同的技术构思，本申请一个或多个实施例还提供了一种存储介质，用于存储计算机可执行指令，一个具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

将所述目标语音数据发送给对应的所述语音播放设备。

本申请一个或多个实施例提供的存储介质存储的计算机可执行指令在被处理器执行时，确定至少一个语音播放设备当前播放语音数据所采用的目标语言；若从语音收录设备获取到待处理的原始语音数据，则将原始语音数据输入声纹识别模型中进行声纹识别处理，得到原始语音数据中发音用户的发音特征；根据目标语言和发音特征，对原始语音数据进行转换处理，得到至少一个目标语音数据。该语音处理过程中，由于是服务端进行语音转译处理，而服务端相较于语音采集端而言数据处理效率高，因此提升了语音转译效率。再者，通过识别发音用户的发音特征，并基于该发音特征和各语音播放设备当前播放语音数据所采用的目标语言，将原始语音数据转换为目标语音数据，使得目标语音数据具备发音特征和对应的目标语言，由此，语音播放设备基于目标语音数据进行语音播放，不仅能够使听者听到的语音数据在发音用户的音调、语速等方面与原始语音数据更接近，提升听者的收听体验，而且实现了语音转译效果的动态性，更有利于后续听者与发音用户进行有效沟通。

需要说明的是，本申请中关于存储介质的实施例与本申请中关于语音数据处理方法及图像去噪方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的语音数据处理方法及图像去噪方法的实施，重复之处不再赘述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

Claims

1.一种语音数据处理方法，其特征在于，应用于服务端，所述方法包括：

将所述目标语音数据发送给对应的所述语音播放设备。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标语言和所述发音特征，对所述原始语音数据进行转换处理，得到至少一个目标语音数据，包括：

确定所述原始语音数据所采用的原始语言；

根据所述原始语言和所述目标语言，对所述原始语音数据进行文本转换处理，得到至少一个目标文本；每个所述目标文本对应一种所述目标语言；

根据所述发音特征和所述目标文本，进行语音合成处理，得到至少一个目标语音数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述原始语言和所述目标语言，对所述原始语音数据进行文本转换处理，得到至少一个目标文本，包括：

根据所述原始语言和所述目标语言，确定多个文本转换模型中待进行文本转换处理的至少一个目标文本转换模型；每个所述文本转换模型对应一种原始语言和一种目标语言，每个所述文本转换模型用于将对应的原始语言的语音数据转换为对应的目标语言的文本；

将所述原始语音数据输入所述目标文本转换模型中进行文本转换处理，得到至少一个目标文本数据。

4.根据权利要求2所述的方法，其特征在于，所述根据所述原始语言和所述目标语言，对所述原始语音数据进行文本转换处理，得到至少一个目标文本，包括：

将所述原始语音数据输入文本转换模型中进行文本转换处理，得到预设语言的中间文本；所述文本转换模型用于将任意语言的语音数据转换为所述预设语言的文本；

根据所述目标语言，确定多个语言转换接口中待进行语言转换的至少一个目标语言转换接口；每个所述语言转换接口对应一种目标语言，每个所述语言转换接口用于将所述预设语言的文本转换为对应的目标语言的文本；

调用所述目标语言转换接口对所述中间文本进行语言转换处理，得到至少一个所述目标文本。

5.根据权利要求2所述的方法，其特征在于，所述根据所述发音特征和所述目标文本，进行语音合成处理，得到至少一个目标语音数据，包括：

根据所述发音特征，确定目标语音合成参数；

将所述目标文本与所述目标语音合成参数输入语音合成模型中进行语音合成处理，得到至少一个目标语音数据。

6.根据权利要求2所述的方法，其特征在于，所述确定所述原始语音数据所采用的原始语言，包括：

根据预设语言识别方式对所述原始语音数据进行语言识别处理，得到所述原始语音数据所采用的原始语言；或者，

将从所述语音收录设备获取到的第一语言类型信息所对应的语言，确定为所述原始语音数据所采用的原始语言。

7.根据权利要求1所述的方法，其特征在于，所述确定至少一个语音播放设备当前播放语音数据所采用的目标语言，包括：

与至少一个语音播放设备建立第一通信连接；

通过所述第一通信连接接收所述语音播放设备发送的第二语言类型信息；

将所述第二语言类型信息所对应的语言，确定为所述语音播放设备当前播放语音数据所采用的目标语言；

所述若从语音收录设备获取到待处理的原始语音数据之前，所述方法还包括：

与所述语音收录设备建立第二通信连接；

通过所述第二通信连接从所述语音收录设备获取待处理的原始语音数据。

8.根据权利要求1所述的方法，其特征在于，所述对所述原始语音数据进行转换处理，得到至少一个目标语音数据之后，所述方法还包括：

根据所述目标语言，将所述目标语音数据保存至对应的目标语音池中；每个所述目标语音池对应一种所述目标语言；

所述将所述目标语音数据发送给所述语音播放设备进行播放处理，包括：

将所述目标语言池中的所述目标语音数据发送给所述语音播放设备。

9.一种语音数据处理装置，其特征在于，包括：

10.一种语音数据处理系统，其特征在于，包括：至少一个语音收录设备、服务端和至少一个语音播放设备；

所述语音收录设备，用于收录待处理的原始语音数据；

所述语音播放设备，接收所述服务端发送的所述目标语音数据，并基于所述目标语音数进行语音播放处理。

11.一种电子设备，其特征在于，包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令被配置由所述处理器执行，所述可执行指令包括用于执行如权利要求1-8任一项所述的语音数据处理方法中的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机可执行指令，所述可执行指令使得计算机执行如1-8任一项所述的语音数据处理方法。