CN115223566A

CN115223566A - 一种语音传输方法、系统及装置

Info

Publication number: CN115223566A
Application number: CN202210850519.3A
Authority: CN
Inventors: 王磊; 赵德欣; 成莎莎; 杨杰
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-10-21

Abstract

本发明实施例提供了一种语音传输方法、系统及装置，应用于数据通信技术领域。该方案应用于语音传输系统中的发送端，语音传输系统还包括接收端，该方案包括：接收待发送的语音数据；提取所述待发送的语音数据的声纹特征信息和语义信息；向所述接收端发送所提取的声纹特征信息和语义信息，以使所述接收端在接收到所述发送端发送的声纹特征信息和语义信息后，基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。通过本方案，可以提高语音传输的质量。

Description

一种语音传输方法、系统及装置

技术领域

本发明涉及数据通信技术领域，特别是涉及一种语音传输方法、系统及装置。

背景技术

随着视频语音通话、在线直播、视频会议等互联网产品的普及和广泛应用，高效率和低延迟的语音数据的传输变的越来越重要。

相关技术中，发送端在接收到待发送的语音数据后，直接将语音数据发送至接收端，由于语音数据的数据量较大，传输语音数据需要占用较多的带宽，容易出现丢包、卡顿的情况，语音传输质量差。

发明内容

本发明实施例的目的在于提供一种语音传输方法、系统及装置，以提高语音传输的质量。具体技术方案如下：

第一方面，本发明实施例提供一种语音传输方法，应用于语音传输系统中的发送端，所述语音传输系统还包括接收端，所述方法包括：

接收待发送的语音数据；

提取所述待发送的语音数据的声纹特征信息和语义信息；

向所述接收端发送所提取的声纹特征信息和语义信息，以使所述接收端在接收到所述发送端发送的声纹特征信息和语义信息后，基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

可选的，在所述提取所述待发送的语音数据的声纹特征信息和语义信息之前，所述方法还包括：

确定所述待发送的语音数据所处的当前会话是否为新建立的会话；

若所述待发送的语音数据所处的当前会话是新建立的会话，则执行所述提取所述待发送的语音数据的声纹特征信息和语义信息的步骤。

可选的，所述方法还包括：

若所述待发送的语音数据所处的当前会话不是新建立的会话，则提取所述待发送的语音数据的语义信息；

向所述接收端发送所提取的语义信息，以使所述接收端接收所述发送端所发送的语义信息，并从历史保存的声纹特征信息中读取与所接收的语义信息对应的声纹特征信息，以及基于所读取的声纹特征信息，将所接收的语义信息转换为语音数据；

其中，所述历史保存的声纹特征信息为：当前会话中，所述接收端接收到的所述发送端最先发送的声纹特征信息；每一语义信息对应的声纹特征信息为：该语义信息所属语音数据包含的声纹特征信息。

可选的，所述提取所述待发送的语音数据的声纹特征信息和语义信息，包括：

将所述待发送的语音数据输入预先训练的语音数据处理模型，以得到所述语音数据处理模型输出的语义信息和声纹特征信息。

可选的，所述语音数据处理模型与语音数据恢复模型共享训练数据；其中，所述语音数据恢复模型为：所述接收端基于所接收的声纹特征信息将所接收的语义信息转换为语音数据时所利用的模型。

第二方面，本发明实施例提供一种语音传输方法，应用于语音传输系统中的接收端，所述语音传输系统还包括发送端，所述方法包括：

接收所述发送端发送的声纹特征信息和语义信息；其中，所述发送端发送的声纹特征信息和语义信息为：所述发送端从所接收待发送的语音数据中提取的声纹特征信息和语义信息；

基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

可选的，在所述接收所述发送端发送的声纹特征信息和语义信息之后，所述方法还包括：

在当前会话周期内，保存所接收的声纹特征信息。

可选的，所述方法还包括：

若仅接收到所述发送端所发送的语义信息，则从历史保存的声纹特征信息中读取与所接收的语义信息对应的声纹特征信息；其中，所述历史保存的声纹特征信息为：当前会话中，所述接收端接收到的所述发送端最先发送的声纹特征信息；每一语义信息对应的声纹特征信息为：该语义信息所属语音数据包含的声纹特征信息；

基于所读取的声纹特征信息，将所接收的语义信息转换为语音数据。

可选的，所述基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据，包括：

将所接收的声纹特征信息和语义信息，输入至预先训练的语音数据恢复模型，以得到所述语音数据恢复模型输出的语音数据。

可选的，所述语音数据恢复模型与语音数据处理模型共享训练数据；其中，所述语音数据处理模型为：所述发送端提取所述待发送的语音数据的声纹特征信息和语义信息时所利用的模型。

第三方面，本发明实施例提供一种语音传输系统，其特征在于，所述系统包括发送端和接收端，其中：

所述发送端，用于执行第一方面所述方法的步骤；

所述接收端，用于执行第二方面所述方法的步骤。

可选的，所述系统还包括：

云端服务器，用于对语音数据处理模型和语音数据恢复模型进行训练，且在训练完成之后，将所述语音数据处理模型发送至所述发送端，且将所述语音数据恢复模型发送至所述接收端；

其中，所述语音数据恢复模型与所述语音数据处理模型共享训练数据，所述语音数据处理模型为：所述发送端提取所述待发送的语音数据的声纹特征信息和语义信息时所利用的模型；所述语音数据恢复模型为：所述接收端基于所接收的声纹特征信息将所接收的语义信息转换为语音数据时所利用的模型。

第四方面，本发明实施例提供一种语音传输装置，应用于语音传输系统中的发送端，所述语音传输系统还包括接收端；

第一接收模块，用于接收待发送的语音数据；

信息提取模块，用于提取所述待发送的语音数据的声纹特征信息和语义信息；

信息发送模块，用于向所述接收端发送所提取的声纹特征信息和语义信息，以使所述接收端在接收到所述发送端发送的声纹特征信息和语义信息后，基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

第五方面，本发明实施例提供一种语音传输装置，应用于语音传输系统中的接收端，所述语音传输系统还包括发送端；

信息接收模块，用于接收所述发送端发送的声纹特征信息和语义信息；其中，所述发送端发送的声纹特征信息和语义信息为：所述发送端从所接收待发送的语音数据中提取的声纹特征信息和语义信息；

数据转换模块，用于基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

第六方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面或第二方面任一项所述的方法步骤。

第七方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面或第二方面任一项所述的方法步骤。

本发明实施例有益效果：

本发明实施例提供的一种语音传输方法、系统及装置，发送端可以接收待发送的语音数据，进而提取待发送的语音数据的声纹特征信息和语义信息，并向接收端发送所提取的声纹特征信息和语义信息；当接收端接收到发送端发送的声纹特征信息和语义信息时，可以基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。由于在语音传输过程中，仅需要传输语音数据的声纹特征信息和语义信息，而无需传输完整的语音数据，从而降低了语音传输的数据量，减小了语音传输的时延，故而提高了语音传输的质量。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本发明实施例所提供的一种语音传输系统的结构示意图；

图2为本发明实施例所提供的一种声纹特征信息及语义信息提取示意图；

图3为本发明实施例所提供的一种语音传输系统的另一结构示意图；

图4为本发明实施例所提供的一种语音传输系统的架构示意图；

图5为本发明实施例所提供的一种语音传输方法的流程图；

图6为本发明实施例所提供的另一种语音传输方法的流程图；

图7为本发明实施例所提供的一种语音传输装置的结构示意图；

图8为本发明实施例所提供的另一种语音传输装置的结构示意图；

图9为本发明实施例所提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

随着视频语音通话、在线直播、视频会议等互联网产品的普及和广泛应用，高效率和低延迟的语音数据的传输变的越来越重要。相关技术中，发送端在接收到待发送的语音数据后，直接将语音数据发送至接收端，由于语音数据的数据量较大，传输语音数据需要占用较多的带宽，容易出现丢包、卡顿的情况，语音传输质量差。

另外，随着通信网络的复杂性的提高，经常存在5G(5th Generation MobileCommunication Technology，第五代移动通信技术)网络回落以及在物联网窄带中进行语音传输的需求，而通过相关技术传输语音数据需要占用较大的带宽，从而无法满足此类场景下的需求。

为了解决相关技术中所存在的技术问题，本发明实施例提供了一种语音传输方法、系统及装置。

需要说明的是，本发明实施例所提供的语音传输系统可以为5G架构，本发明实施例中的发送端和接收端仅表示一次数据传输中的角色，其在整个会话中，发送端和接收端的角色可以互换。举例而言，语音传输系统包括通信设备A和通信设备B，当通信设备A需要向通信设备B发送数据时，通信设备A即为发送端，通信设备B即为接收端；而当通信设备B需要向通信设备A发送数据时，通信设备B即为发送端，通信设备A即为接收端。上述接收端、发送端可以为基站、边缘侧服务器等各类通信设备。

为了更清楚的阐述本发明实施例的技术方案，首先对本发明实施例所提供的语音传输系统进行介绍，其中，本发明实施例所提供的语音传输系统，可以包括发送端和接收端，其中：

发送端，用于接收待发送的语音数据；提取待发送的语音数据的声纹特征信息和语义信息；向接收端发送所提取的声纹特征信息和语义信息；

接收端，用于当接收到发送端发送的声纹特征信息和语义信息时，基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

本发明实施例上述方案中，发送端可以接收待发送的语音数据，进而提取待发送的语音数据的声纹特征信息和语义信息，并向接收端发送所提取的声纹特征信息和语义信息；当接收端接收到发送端发送的声纹特征信息和语义信息时，可以基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。由于在语音传输过程中，仅需要传输语音数据的声纹特征信息和语义信息，而无需传输完整的语音数据，从而降低了语音传输的数据量，减小了语音传输的时延，故而提高了语音传输的质量。同时，由于语音传输的数据量较小，从而可以满足窄带宽等场景的需求，实现在窄带宽等场景下的语音传输。

下面将结合说明书附图，对本发明实施例所提供的语音传输系统进行详尽的阐述。

如图1所示，本发明实施例提供一种语音传输系统，包括发送端101和接收端102，其中：

发送端101，用于接收待发送的语音数据；提取待发送的语音数据的声纹特征信息和语义信息；向接收端102发送所提取的声纹特征信息和语义信息；

接收端102，用于当接收到发送端101发送的声纹特征信息和语义信息时，基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

其中，发送端101所接收的语音数据可以为客户端发送的语音数据，示例性的，一种场景中包括通信设备A、通信设备B、客户端C和客户端D，其中，通信设备A为客户端C边缘侧的通信设备，通信设备D为客户端B边缘侧的通信设备，当客户端C和客户端D之间进行语音通信时，客户端C需要将语音数据发送给通信设备A，通信设备A传输至通信设备B，通信设备B再传输给客户端D，上述过程中，通信设备A为本发明所指发送端，其接收到客户端C发送的语音数据为待发送的语音数据。当然，若客户端D需要发送语音数据时，客户端D可以将语音数据发送给通信设备B，通信设备B传输至通信设备A，通信设备A再传输给客户端C，上述过程中，通信设备B为本发明所指发送端，其接收到客户端D发送的语音数据为待发送的语音数据。

发送端101在接收到待发送的语音数据之后，并不是直接对待发送的语音数据进行打包发送，而是从待发送的语音数据中，提取出声纹特征信息和语义信息。其中，声纹特征信息是对语音中所蕴含的、能唯一表征和标识说话对象身份的语音特征参数及基于这些特征参数所建立的语音模型的总称，简单而言声纹特征信息可以表征一个说话对象声音特色，本发明实施例中，所提取的声纹特征信息可以为声纹特征信息向量。可以利用声纹特征信息提取模型，例如X-VECTORS(一种声纹识别算法)模型框架训练的声纹特征信息提取模型，提取语音数据中的声纹特征信息。上述语义信息可以为将语音数据切分成帧片段，并按照人耳对频率非线性感知的特性，提取基础声学特征，进而输入声学模型和语言模型得到最终的语义信息，一种实现方式中，该语义信息可以为经过文本预处理生成语言学特征序列，如语音数据中的语言信息，例如“你好吗”。

一种实现方式中，发送端101可以将待发送的语音数据输入预先训练的语音数据处理模型，以得到语音数据处理模型输出的语义信息和声纹特征信息。上述语音数据处理模型可以为一个即用于提取声纹特征信息，也用于提取语义信息的神经网络模型，也可以包括一个用于提取声纹特征信息的声纹提取模型，一个用于提取语义信息的语义提取模型，这都是可以的。

示例性的，如图2所示，本发明实施例提供一种声纹特征信息及语义信息提取示意图，通过不同的神经网络模型，分别提取声纹特征和语义信息，如利用声纹提取模型提取声纹特征，作为声纹特征信息，利用语义信息提取模型提取语义信息，进而将所提取的声纹特征信息和语义信息叠加后进行编码发送，其中，上述声纹提取模型可以针对语音数据中每一帧数据进行特征提取，得到帧特征(frame-level)，也可以针对语音数据中各帧数据进行特征提取，得到多帧特征(segmental level)，进而将所提取的帧特征和多帧特征合并作为声纹特征。

发送端101在接收提取出声纹特征信息和语义信息之后，即将所提取的声纹特征信息和语义信息发送给接收端102，接收端102在接收到发送端101发送的声纹特征信息和语义信息后，可以基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据，例如将语义信息叠加声纹通过声学特征生成网络输出频谱，作为语音数据。

在发送端101利用语音数据处理模型提取声纹特征信息和语义信息的情况下，上述接收端102可以将所接收的声纹特征信息和语义信息，输入至预先训练的语音数据恢复模型，以得到语音数据恢复模型输出的语音数据。

可选的，上述语音数据处理模型和语音数据恢复模型共享训练数据。简单而言，语音数据处理模型为基于样本语音数据，以及与样本语音数据对应的样本信息所训练的，在语音数据处理模型训练过程中，上述样本语音数据作为训练过程中的输入数据，样本信息作为真值，样本信息包括样本数据对应的语义信息真值和声纹特征信息真值；而在语音数据恢复模型训练过程中，上述样本信息作为训练过程中的输入数据，样本语音数据作为真值。本方式中，通过语音数据处理模型和语音数据恢复模型共享训练数据，可以使得声纹特征信息、语音信息的提取与恢复更加的统一和精准。

如图3所示，本发明实施例还提供一种语音传输系统，还包括云端服务器103，其中：

云端服务器103，用于对语音数据处理模型和语音数据恢复模型进行训练，且在训练完成之后，将所述语音数据处理模型发送至所述发送端，且将所述语音数据恢复模型发送至所述接收端；

其中，所述语音数据恢复模型与所述语音数据处理模型共享训练数据，所述语音数据处理模型为：所述发送端101提取所述待发送的语音数据的声纹特征信息和语义信息时所利用的模型；所述语音数据恢复模型为：所述接收端102基于所接收的声纹特征信息将所接收的语义信息转换为语音数据时所利用的模型。

示例性，如图4所示，本发明实施例还提供一种语音传输系统的架构示意图，包括边缘服务器401、边缘服务器402以及作为5G通信网络中主锚点的云端服务器403。图4中，UPF POOL(用户平面功能池)负责5G核心网用户面数据包的路由和转发、数据和业务识别、动作和策略执行。边缘服务器401所在网络侧为发送侧，边缘服务器402所在网络侧为接收侧。云端服务器403进行云端模型迭代，即在云端进行模型的迭代，训练得到语音数据处理模型和语音数据恢复模型，并将所得到的语音数据处理模型和语音数据恢复模型下发给边缘服务器401、边缘服务器402。当发送侧的客户端需要传输语音数据时，语音数据首先通过基站转发至发送侧的UPF POOL，UPF POOL转发至边缘服务器401，边缘服务器401在接收到客户端发送的语音数据后，利用云端服务器403下发的语音数据处理模型提取语音数据的声纹特征信息和语义信息(在后续会话中仅需提取语义信息)，并将所提取的声纹特征信息和语义信息发送至接收侧的边缘服务器402。边缘服务器402在接收到声纹特征信息和语义信息后，将所接收到的声纹特征信息和语义信息输入至云端服务器403下发的语音数据恢复模型中，得到语音数据，进而将所得到的语音数据传输至接收侧的UPF POOL，UPF POOL下发至接收侧的基站，并由基站发送至接受侧的客户端。

在实际用于过程中，由于语音数据处理模型和语音数据恢复模型可以由云端统一训练，训练完成之后，再分发给各边缘侧的通信设备，无需在各边缘侧的通信设备之间同步训练数据，训练效率更高。

在接收端102在得到语音数据之后，即可将所恢复的语音数据传输至对应的终端设备，终端设备可以将语音数据输入声码器合成语音。

一种实施例中，由于同一个人的语音数据中所包含的声纹特征信息相同，因此为了进一步的减小语音传输的数据量，在一个会话周期内，本发明实施例可以仅提取并传输一次声纹特征信息，进而在会话周期的后期传输过程中，仅需要传输语音数据的语义信息，而无需传输声纹特征信息。

在此情况下，一种实现方式中，发送端101，还用于在提取待发送的语音数据的声纹特征信息和语义信息之前，确定待发送的语音数据所处的当前会话是否为新建立的会话。若为新建立的会话，说明尚未提取过该语音数据所属对象的声纹特征信息，因此，需要进行声纹特征信息的提取，此时发送端101具体用于若待发送的语音数据所处的当前会话是新建立的会话，则执行提取所述待发送的语音数据的声纹特征信息和语义信息的步骤。在此情况下，上述接收端102还用于在当前会话周期内，保存所接收的声纹特征信息。以接收端和发送端均为边缘服务器为例，可以在边缘服务器中缓存所接收的声纹特征信息。若待发送的语音数据所处的当前会话不是新建立的会话，则说明在接收到当前的待发送的语音数据之前，发送端101已经提取并发送过声纹特征信息，且接收端102也已保存对应的声纹特征信息，此时，为了进一步的减小语音传输的数据量，发送端101可以仅提取待发送的语音数据的语义信息，即若待发送的语音数据所处的当前会话不是新建立的会话，则提取待发送的语音数据的语义信息，并向接收端102发送所提取的语义信息。在此情况下，接收端所接收的数据中仅包含语义信息而不包含声纹特征信息，因此，其可以在接收发送端所发送的语义信息之后，从历史保存的声纹特征信息中，读取与所接收的语义信息对应的声纹特征信息；基于所读取的声纹特征信息，将所接收的语义信息转换为语音数据；其中，历史保存的声纹特征信息为：当前会话中，接收端接收到的发送端最先发送的声纹特征信息；每一语义信息对应的声纹特征信息为：该语义信息所属语音数据包含的声纹特征信息。

本发明实施例上述方案中，可以提高语音传输的质量，且可以满足窄带宽等场景的需求，实现在窄带宽等场景下的语音传输，进一步的，通过确定待发送的语音数据所处的当前会话是否为新建立的会话，仅在待发送的语音数据所处的当前会话是新建立的会话的情况下，执行提取待发送的语音数据的语义信息的步骤，从而可以进一步的减小语音传输的数据量。

在上述方案的基础上，本发明实施例提供一种结合5G框架的语音传输系统，在发送端边缘侧对语音语义和声纹特征信息进行提取，语义信息跟声纹特征信息叠加编码传输，接收端对语义信息和声纹信息进行恢复和语音合成。依据5G云边端网络架构在云端对语音编解码器模型进行集中训练和分发到边缘侧的通信设备，无需发送端和接收端同步知识库，声纹和语义的恢复更加的统一和精准。利用边缘侧的语音数据处理模型对待传输的语音数据进行声纹特征信息和语义信息的提取，设备终端的没有算力要求。发送端和接收端用户声纹特征信息数据在首次建立连接时发送并缓存，之后在整个会话session(会话)中有效，使会话双方更加灵活安全。

相应于本发明上述实施例所提供的语音传输系统，如图5所示，本发明实施例还提供了一种语音传输方法，应用于语音传输系统中的发送端，语音传输系统还包括接收端，方法包括步骤S501-S503；

S501，接收待发送的语音数据；

S502，提取待发送的语音数据的声纹特征信息和语义信息；

一种实现方式中，在提取待发送的语音数据的声纹特征信息和语义信息之前，可以确定待发送的语音数据所处的当前会话是否为新建立的会话，若是新建立的会话，则执行步骤S502；

若待发送的语音数据所处的当前会话不是新建立的会话，则提取待发送的语音数据的语义信息，进而向接收端发送所提取的语义信息，以使接收端接收发送端所发送的语义信息，并从历史保存的声纹特征信息中读取与所接收的语义信息对应的声纹特征信息，以及基于所读取的声纹特征信息，将所接收的语义信息转换为语音数据；其中，历史保存的声纹特征信息为：当前会话中，接收端接收到的发送端最先发送的声纹特征信息；每一语义信息对应的声纹特征信息为：该语义信息所属语音数据包含的声纹特征信息。

可选的，一种信息提取实现方式中，可以将待发送的语音数据输入预先训练的语音数据处理模型，以得到语音数据处理模型输出的语义信息和声纹特征信息。

其中，语音数据处理模型可以与语音数据恢复模型共享训练数据；其中，语音数据恢复模型为：接收端基于所接收的声纹特征信息将所接收的语义信息转换为语音数据时所利用的模型。

S503，向接收端发送所提取的声纹特征信息和语义信息，以使接收端在接收到发送端发送的声纹特征信息和语义信息后，基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

相应于本发明上述实施例所提供的语音传输系统，如图6所示，本发明实施例还提供了一种语音传输方法，应用于语音传输系统中的接收端，语音传输系统还包括发送端，方法包括步骤S601-S602；

S601，接收发送端发送的声纹特征信息和语义信息；其中，发送端发送的声纹特征信息和语义信息为：发送端从所接收待发送的语音数据中提取的声纹特征信息和语义信息；

一种实现方式中，在接收发送端发送的声纹特征信息和语义信息之后，可以在当前会话周期内，保存所接收的声纹特征信息。从而，接收端若仅接收所述发送端所发送的语义信息，则可以从历史保存的声纹特征信息中读取与所接收的语义信息对应的声纹特征信息，并且基于所读取的声纹特征信息，将所接收的语义信息转换为语音数据。

其中，历史保存的声纹特征信息为：当前会话中，接收端接收到的发送端最先发送的声纹特征信息；每一语义信息对应的声纹特征信息为：该语义信息所属语音数据包含的声纹特征信息；

S602，基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

一种实现方式中，可以将所接收的声纹特征信息和语义信息，输入至预先训练的语音数据恢复模型，以得到语音数据恢复模型输出的语音数据。

其中，可选的，上述语音数据恢复模型可以与语音数据处理模型共享训练数据；其中，语音数据处理模型为：发送端提取待发送的语音数据的声纹特征信息和语义信息时所利用的模型。

相应于本发明上述实施例所提供的应用于发送端的语音传输方法，如图7所示，本发明实施例还提供了一种语音传输装置，应用于语音传输系统中的发送端，所述语音传输系统还包括接收端，所述装置包括：

第一接收模块701，用于接收待发送的语音数据；

信息提取模块702，用于提取所述待发送的语音数据的声纹特征信息和语义信息；

信息发送模块703，用于向所述接收端发送所提取的声纹特征信息和语义信息，以使所述接收端在接收到所述发送端发送的声纹特征信息和语义信息后，基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

可选的，所述信息提取模块，还用于在所述提取所述待发送的语音数据的声纹特征信息和语义信息之前，确定所述待发送的语音数据所处的当前会话是否为新建立的会话；若所述待发送的语音数据所处的当前会话是新建立的会话，则执行所述提取所述待发送的语音数据的声纹特征信息和语义信息的步骤。

可选的，所述信息提取模块，还用于若所述待发送的语音数据所处的当前会话不是新建立的会话，则提取所述待发送的语音数据的语义信息；向所述接收端发送所提取的语义信息，以使所述接收端接收所述发送端所发送的语义信息，并从历史保存的声纹特征信息中读取与所接收的语义信息对应的声纹特征信息，以及基于所读取的声纹特征信息，将所接收的语义信息转换为语音数据；其中，所述历史保存的声纹特征信息为：当前会话中，所述接收端接收到的所述发送端最先发送的声纹特征信息；每一语义信息对应的声纹特征信息为：该语义信息所属语音数据包含的声纹特征信息。

可选的，所述信息提取模块，具体将所述待发送的语音数据输入预先训练的语音数据处理模型，以得到所述语音数据处理模型输出的语义信息和声纹特征信息。

相应于本发明上述实施例所提供的应用于接收端的语音传输方法，如图8所示，本发明实施例还提供了一种语音传输装置，应用于语音传输系统中的接收端，所述语音传输系统还包括发送端，所述装置包括：

信息接收模块801，用于接收所述发送端发送的声纹特征信息和语义信息；其中，所述发送端发送的声纹特征信息和语义信息为：所述发送端从所接收待发送的语音数据中提取的声纹特征信息和语义信息；

数据转换模块802，用于基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

可选的，所述装置还包括：

特征保存模块，用于在所述信息接收模块执行所述接收所述发送端发送的声纹特征信息和语义信息之后，在当前会话周期内，保存所接收的声纹特征信息。

可选的，所述数据转换模块，还用于若仅接收到所述发送端所发送的语义信息，则从历史保存的声纹特征信息中读取与所接收的语义信息对应的声纹特征信息；其中，所述历史保存的声纹特征信息为：当前会话中，所述接收端接收到的所述发送端最先发送的声纹特征信息；每一语义信息对应的声纹特征信息为：该语义信息所属语音数据包含的声纹特征信息；基于所读取的声纹特征信息，将所接收的语义信息转换为语音数据。

可选的，所述数据转换模块，具体将所接收的声纹特征信息和语义信息，输入至预先训练的语音数据恢复模型，以得到所述语音数据恢复模型输出的语音数据。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现如下步骤：

接收待发送的语音数据；提取所述待发送的语音数据的声纹特征信息和语义信息；向所述接收端发送所提取的声纹特征信息和语义信息，以使所述接收端在接收到所述发送端发送的声纹特征信息和语义信息后，基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

或者，

接收所述发送端发送的声纹特征信息和语义信息；其中，所述发送端发送的声纹特征信息和语义信息为：所述发送端从所接收待发送的语音数据中提取的声纹特征信息和语义信息；基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一语音传输方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一语音传输方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于方法、装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种语音传输方法，其特征在于，应用于语音传输系统中的发送端，所述语音传输系统还包括接收端，所述方法包括：

接收待发送的语音数据；

提取所述待发送的语音数据的声纹特征信息和语义信息；

2.根据权利要求1所述的方法，其特征在于，在所述提取所述待发送的语音数据的声纹特征信息和语义信息之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述待发送的语音数据的声纹特征信息和语义信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述语音数据处理模型与语音数据恢复模型共享训练数据；其中，所述语音数据恢复模型为：所述接收端基于所接收的声纹特征信息将所接收的语义信息转换为语音数据时所利用的模型。

6.一种语音传输方法，其特征在于，应用于语音传输系统中的接收端，所述语音传输系统还包括发送端，所述方法包括：

7.根据权利要求6述的方法，其特征在于，在所述接收所述发送端发送的声纹特征信息和语义信息之后，所述方法还包括：

在当前会话周期内，保存所接收的声纹特征信息。

8.根据权利要求6所述的方法，其特征在于，所述方法还包括：

9.根据权利要求6所述的方法，其特征在于，所述基于所接收的声纹特征信息，将所接收的语义信息转换为语音数据，包括：

10.根据权利要求9所述的方法，其特征在于，所述语音数据恢复模型与语音数据处理模型共享训练数据；其中，所述语音数据处理模型为：所述发送端提取所述待发送的语音数据的声纹特征信息和语义信息时所利用的模型。

11.一种语音传输系统，其特征在于，所述系统包括发送端和接收端，其中：

所述发送端，用于执行权利要求1-5任一项所述方法的步骤；

所述接收端，用于执行权利要求6-10任一项所述方法的步骤。

12.根据权利要求11所述的语音传输系统，其特征在于，所述系统还包括：

13.一种语音传输装置，其特征在于，应用于语音传输系统中的发送端，所述语音传输系统还包括接收端，所述装置包括：

第一接收模块，用于接收待发送的语音数据；

14.一种语音传输装置，其特征在于，应用于语音传输系统中的接收端，所述语音传输系统还包括发送端，所述装置包括：

15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5或6-10任一项所述的方法步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5或6-10任一项所述的方法步骤。