CN112151017B

CN112151017B - 语音处理方法、装置、系统、设备及存储介质

Info

Publication number: CN112151017B
Application number: CN202011330982.2A
Authority: CN
Inventors: 陈孝良; 孔德威; 冯大航; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-02-23
Anticipated expiration: 2040-11-24
Also published as: CN112151017A

Abstract

本申请提供了一种语音处理方法、装置、系统、设备及存储介质，属于互联网技术领域。所述方法包括：响应于获取到输入语音数据，向服务器发送携带所述输入语音数据的回复请求；接收所述服务器返回的处理结果数据，所述处理结果数据由所述服务器根据终端与所述服务器之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理后得到，所述目标处理进度用于指示所述服务器对所述输入语音数据的处理进度；根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据。上述方法能够在网络信号质量差的情况下，降低语音处理的延时。

Description

语音处理方法、装置、系统、设备及存储介质

技术领域

本申请涉及互联网技术领域，特别涉及一种语音处理方法、装置、系统、设备及存储介质。

背景技术

随着互联网技术的发展，智能对话功能越来越普及，通过智能对话功能，能够根据用户的输入语音数据与用户进行对话。例如，用户的输入语音数据为“今天的温度是多少”，则根据该输入语音数据输出回复语音数据“今天的温度是20度”。

相关技术中，终端在获取到用户的输入语音数据后，将该输入语音数据上传至服务器，服务器根据该输入语音数据获取对应的回复语音数据，将回复语音数据发送给终端，然后终端播放该回复语音数据。

然而，上述方案在网络信号质量差的情况下，可能导致终端获取回复语音数据的延时较大，甚至无法获取到回复语音数据。

发明内容

本申请实施例提供了一种语音处理方法、装置、系统、设备及存储介质，能够在网络信号质量差的情况下，降低语音处理的延时，所述技术方案如下。

一方面，提供了一种语音处理方法，所述方法包括：

响应于获取到输入语音数据，向服务器发送携带所述输入语音数据的回复请求；

接收所述服务器返回的处理结果数据，所述处理结果数据由所述服务器根据终端与所述服务器之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理后得到，所述目标处理进度用于指示所述服务器对所述输入语音数据的处理进度；

根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据。

在一种可能的实现方式中，所述根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据，包括：

根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述回复语音数据。

在另一种可能的实现方式中，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述回复语音数据，包括：

确定所述目标处理进度对应的开始子模型，所述开始子模型为开始对所述处理结果数据进行处理的子模型；

从所述语音转换模型中的所述开始子模型开始，对所述处理结果数据进行处理，直至得到所述语音转换模型输出的所述回复语音数据。

在另一种可能的实现方式中，所述处理结果数据包括所述输入语音数据的回复文本数据，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述回复语音数据，包括：

调用所述语音转换模型中的音素转换子模型，对所述回复文本数据进行转换，得到所述回复文本数据对应的音素序列；

调用所述语音转换模型中的时长预测子模型，根据所述音素序列进行预测，得到所述音素序列中的每个音素的发音时长；

调用所述语音转换模型中的特征提取子模型，根据所述音素序列中的每个音素和所述每个音素的发音时长进行特征转换，得到回复声学特征；

调用所述语音转换模型中的语音转换子模型，根据所述回复声学特征进行语音转换，得到所述回复语音数据。

在另一种可能的实现方式中，所述处理结果数据包括所述输入语音数据的回复声学特征，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述回复语音数据，包括：

在另一种可能的实现方式中，所述处理结果数据包括所述输入语音数据的回复文本数据，所述根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据，包括：

若所述回复文本数据的转换频率属于第一频率范围，则根据所述网络质量参数对应的所述目标处理进度，对所述回复文本数据继续进行处理，得到所述回复语音数据；

其中，转换频率表示将文本数据转换成对应的语音数据的频率，所述第一频率范围为多个参考频率范围中频率最小的。

在另一种可能的实现方式中，所述方法还包括：

若所述回复文本数据的转换频率属于第二频率范围，则从已存储的文本数据与声学特征的对应关系中，查询所述回复文本数据对应的回复声学特征；

根据所述回复声学特征进行语音转换，得到所述回复语音数据；

其中，所述第二频率范围中的频率大于所述第一频率范围中的频率。

在另一种可能的实现方式中，所述方法还包括：

若所述回复文本数据的转换频率属于第三频率范围，则从已存储的文本数据与语音数据的对应关系中，查询所述回复文本数据对应的所述回复语音数据；

其中，所述第三频率范围为所述多个参考频率范围中频率最大的。

在另一种可能的实现方式中，所述处理结果数据包括第一处理数据和第二文本数据，所述第二文本数据为所述输入语音数据的回复文本数据中转换频率属于第二频率范围的文本数据，所述第一处理数据为所述服务器根据所述目标处理进度和第一文本数据所获取的数据，所述第一文本数据为所述回复文本数据中转换频率属于第一频率范围的文本数据，转换频率表示将文本数据转换成对应的语音数据的频率，所述第一频率范围为多个参考频率范围中频率最小的，所述第二频率范围中的频率大于所述第一频率范围中的频率。

在另一种可能的实现方式中，所述根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据，包括：

查询所述第二文本数据对应的第二声学特征；

根据所述目标处理进度，对所述第二声学特征和所述第一处理数据继续进行处理，得到所述回复语音数据。

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据，所述根据所述目标处理进度，对所述第二声学特征和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

对所述第一文本数据进行特征提取，得到第一声学特征；

将所述第一声学特征和所述第二声学特征进行拼接，得到回复声学特征；

对所述回复声学特征进行语音转换，得到所述回复语音数据。

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据对应的第一声学特征，所述根据所述目标处理进度，对所述第二声学特征和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据对应的第一语音数据，所述根据所述目标处理进度，对所述第二声学特征和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

对所述第二声学特征进行语音转换，得到第二语音数据；

将所述第一语音数据和所述第二语音数据进行拼接，得到所述回复语音数据。

在另一种可能的实现方式中，所述处理结果数据包括第一处理数据和第三文本数据，所述第三文本数据为所述输入语音数据的回复文本数据中转换频率属于第三频率范围的文本数据，所述第一处理数据为所述服务器根据所述目标处理进度和第一文本数据所获取的数据，所述第一文本数据为所述回复文本数据中转换频率属于第一频率范围的文本数据，转换频率表示将文本数据转换成对应的语音数据的频率，所述第一频率范围为多个参考频率范围中频率最小的，所述第三频率范围为所述多个参考频率范围中频率最大的。

查询所述第三文本数据对应的第三语音数据；

根据所述目标处理进度，对所述第三语音数据和所述第一处理数据继续进行处理，得到所述回复语音数据。

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据，所述根据所述目标处理进度，对所述第三语音数据和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

对所述第一文本数据进行语音转换，得到第一语音数据；

将所述第一语音数据和所述第三语音数据进行拼接，得到所述回复语音数据。

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据对应的第一声学特征，所述根据所述目标处理进度，对所述第三语音数据和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

对所述第一声学特征进行语音转换，得到第一语音数据；

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据对应的第一语音数据，所述根据所述目标处理进度，对所述第三语音数据和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

在另一种可能的实现方式中，所述服务器用于以参考帧数为单位，发送所述处理结果数据；所述接收所述服务器返回的处理结果数据包括：

接收第一组处理结果数据后，再接收下一组处理结果数据，直到接收完所述输入语音数据对应的多组处理结果数据，每组处理结果数据包括所述参考帧数的处理结果数据。

根据所述网络质量参数对应的所述目标处理进度，每次调用所述语音转换模型，对所述多组处理结果数据依次进行处理，直到处理完所述多组处理结果数据，得到所述回复语音数据。

另一方面，提供了一种语音处理方法，所述方法包括：

接收终端发送的回复请求，所述回复请求携带所述终端获取到的输入语音数据；

根据服务器与所述终端之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理，得到处理结果数据，所述目标处理进度用于指示所述服务器对所述输入语音数据的处理进度；

向所述终端发送所述处理结果数据，所述终端用于根据所述网络质量参数对应的所述目标处理进度和所述处理结果数据，获取所述输入语音数据对应的回复语音数据。

在一种可能的实现方式中，所述根据服务器与所述终端之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理，得到处理结果数据，包括：

根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据。

在另一种可能的实现方式中，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据，包括：

确定所述目标处理进度对应的结束子模型，所述结束子模型用于指示所述服务器对所述输入语音数据进行处理的最后一个子模型；

调用所述语音转换模型中至少一个子模型，对所述输入语音数据进行处理，直至得到所述结束子模型输出的所述处理结果数据。

在另一种可能的实现方式中，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据之前，所述方法还包括：

根据所述网络质量参数，确定所述语音转换模型的参数维度个数，所述网络质量参数与所述语音转换模型的参数维度个数呈正相关关系，且所述语音转换模型的参数维度个数与所述语音转换模型转换出的语音数据的质量参数呈正相关关系。

在另一种可能的实现方式中，所述目标处理进度为获取输入语音数据的回复语音数据，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据，包括：

调用所述语音转换模型中的音素转换子模型，对所述输入语音数据的回复文本数据进行转换，得到所述回复文本数据对应的音素序列；

调用所述语音转换模型中的语音转换子模型，根据所述回复声学特征进行语音转换，得到所述回复语音数据；

将所述回复语音数据确定为所述处理结果数据。

在另一种可能的实现方式中，所述目标处理进度为获取输入语音数据的回复声学特征，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据，包括：

调用所述语音转换模型中的特征提取子模型，根据所述音素序列中的每个音素和所述每个音素的发音时长进行特征转换，得到所述回复声学特征；

将所述回复声学特征确定为所述处理结果数据。

在另一种可能的实现方式中，所述根据服务器与所述终端之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理，得到处理结果数据，包括：

获取所述输入语音数据的回复文本数据；

若所述回复文本数据的转换频率属于第一频率范围，则根据所述网络质量参数对应的所述目标处理进度和所述回复文本数据，获取所述处理结果数据；

在另一种可能的实现方式中，所述方法还包括：

若所述回复文本数据的转换频率属于第二频率范围或者第三频率范围，则将所述回复文本数据确定为处理结果数据；所述第二频率范围中的频率大于所述第一频率范围中的频率，所述第三频率范围为所述多个参考频率范围中频率最大的；

向所述终端发送所述处理结果数据。

若所述输入语音数据的回复文本数据包括转换频率属于第一频率范围的第一文本数据，以及转换频率属于其他参考频率范围的其他文本数据，则根据所述网络质量参数对应的所述目标处理进度和所述第一文本数据，获取第一处理数据；

将所述第一处理数据和所述其他文本数据确定为所述处理结果数据；

获取所述输入语音数据对应的多组回复文本数据，每组回复文本数据包括参考帧数的回复文本数据；

根据所述网络质量参数对应的所述目标处理进度，每次调用所述语音转换模型，对所述多组回复文本数据依次进行处理，直到处理完所述多组回复文本数据，得到所述输入语音数据对应的多组处理结果数据，每组处理结果数据包括所述参考帧数的回复文本数据对应的处理结果数据。

在另一种可能的实现方式中，所述向所述终端发送所述处理结果数据，包括：

每获取到一组处理结果数据，则向所述终端发送所述一组处理结果数据，直到发送完所述输入语音数据对应的所述多组处理结果数据。

另一方面，提供了一种语音处理装置，所述装置包括：

请求发送模块，被配置为响应于获取到输入语音数据，向服务器发送携带所述输入语音数据的回复请求；

数据接收模块，被配置为接收所述服务器返回的处理结果数据，所述处理结果数据由所述服务器根据终端与所述服务器之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理后得到，所述目标处理进度用于指示所述服务器对所述输入语音数据的处理进度；

数据处理模块，被配置为根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据。

在一种可能的实现方式中，所述数据处理模块，被配置为根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述回复语音数据。

在另一种可能的实现方式中，所述数据处理模块，被配置为确定所述目标处理进度对应的开始子模型，所述开始子模型为开始对所述处理结果数据进行处理的子模型；从所述语音转换模型中的所述开始子模型开始，对所述处理结果数据进行处理，直至得到所述语音转换模型输出的所述回复语音数据。

在另一种可能的实现方式中，所述处理结果数据包括所述输入语音数据的回复文本数据，所述数据处理模块，被配置为调用所述语音转换模型中的音素转换子模型，对所述回复文本数据进行转换，得到所述回复文本数据对应的音素序列；调用所述语音转换模型中的时长预测子模型，根据所述音素序列进行预测，得到所述音素序列中的每个音素的发音时长；调用所述语音转换模型中的特征提取子模型，根据所述音素序列中的每个音素和所述每个音素的发音时长进行特征转换，得到回复声学特征；调用所述语音转换模型中的语音转换子模型，根据所述回复声学特征进行语音转换，得到所述回复语音数据。

在另一种可能的实现方式中，所述处理结果数据包括所述输入语音数据的回复声学特征，所述数据处理模块，被配置为调用所述语音转换模型中的语音转换子模型，根据所述回复声学特征进行语音转换，得到所述回复语音数据。

在另一种可能的实现方式中，所述处理结果数据包括所述输入语音数据的回复文本数据，所述数据处理模块，被配置为若所述回复文本数据的转换频率属于第一频率范围，则根据所述网络质量参数对应的所述目标处理进度，对所述回复文本数据继续进行处理，得到所述回复语音数据；其中，转换频率表示将文本数据转换成对应的语音数据的频率，所述第一频率范围为多个参考频率范围中频率最小的。

在另一种可能的实现方式中，所述装置还包括：

第一查询模块，被配置为若所述回复文本数据的转换频率属于第二频率范围，则从已存储的文本数据与声学特征的对应关系中，查询所述回复文本数据对应的回复声学特征；根据所述回复声学特征进行语音转换，得到所述回复语音数据；其中，所述第二频率范围中的频率大于所述第一频率范围中的频率。

在另一种可能的实现方式中，所述装置还包括：

第二查询模块，被配置为若所述回复文本数据的转换频率属于第三频率范围，则从已存储的文本数据与语音数据的对应关系中，查询所述回复文本数据对应的所述回复语音数据；其中，所述第三频率范围为所述多个参考频率范围中频率最大的。

在另一种可能的实现方式中，所述数据处理模块包括：

第一查询单元，被配置为查询所述第二文本数据对应的第二声学特征；

第一处理单元，被配置为根据所述目标处理进度，对所述第二声学特征和所述第一处理数据继续进行处理，得到所述回复语音数据。

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据，所述第一处理单元，被配置为对所述第一文本数据进行特征提取，得到第一声学特征；将所述第一声学特征和所述第二声学特征进行拼接，得到回复声学特征；对所述回复声学特征进行语音转换，得到所述回复语音数据。

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据对应的第一声学特征，所述第一处理单元，被配置为将所述第一声学特征和所述第二声学特征进行拼接，得到回复声学特征；对所述回复声学特征进行语音转换，得到所述回复语音数据。

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据对应的第一语音数据，所述第一处理单元，被配置为对所述第二声学特征进行语音转换，得到第二语音数据；将所述第一语音数据和所述第二语音数据进行拼接，得到所述回复语音数据。

在另一种可能的实现方式中，所述数据处理模块包括：

第二查询单元，被配置为查询所述第三文本数据对应的第三语音数据；

第二处理单元，被配置为根据所述目标处理进度，对所述第三语音数据和所述第一处理数据继续进行处理，得到所述回复语音数据。

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据，所述第二处理单元，被配置为对所述第一文本数据进行语音转换，得到第一语音数据；将所述第一语音数据和所述第三语音数据进行拼接，得到所述回复语音数据。

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据对应的第一声学特征，所述第二处理单元，被配置为对所述第一声学特征进行语音转换，得到第一语音数据；将所述第一语音数据和所述第三语音数据进行拼接，得到所述回复语音数据。

在另一种可能的实现方式中，所述第一处理数据为所述第一文本数据对应的第一语音数据，所述第二处理单元，被配置为将所述第一语音数据和所述第三语音数据进行拼接，得到所述回复语音数据。

在另一种可能的实现方式中，所述服务器用于以参考帧数为单位，发送所述处理结果数据；

所述数据接收模块，被配置为接收第一组处理结果数据后，再接收下一组处理结果数据，直到接收完所述输入语音数据对应的多组处理结果数据，每组处理结果数据包括所述参考帧数的处理结果数据。

在另一种可能的实现方式中，所述数据处理模块，被配置为根据所述网络质量参数对应的所述目标处理进度，每次调用所述语音转换模型，对所述多组处理结果数据依次进行处理，直到处理完所述多组处理结果数据，得到所述回复语音数据。

另一方面，提供了一种语音处理装置，所述装置包括：

数据接收模块，被配置为接收终端发送的回复请求，所述回复请求携带所述终端获取到的输入语音数据；

数据处理模块，被配置为根据服务器与所述终端之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理，得到处理结果数据，所述目标处理进度用于指示所述服务器对所述输入语音数据的处理进度；

数据发送模块，被配置为向所述终端发送所述处理结果数据，所述终端用于根据所述网络质量参数对应的所述目标处理进度和所述处理结果数据，获取所述输入语音数据对应的回复语音数据。

在另一种可能的实现方式中，所述数据处理模块，被配置为根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据。

在另一种可能的实现方式中，所述数据处理模块，被配置为确定所述目标处理进度对应的结束子模型，所述结束子模型用于指示所述服务器对所述输入语音数据进行处理的最后一个子模型；调用所述语音转换模型中至少一个子模型，对所述输入语音数据进行处理，直至得到所述结束子模型输出的所述处理结果数据。

在另一种可能的实现方式中，所述数据处理模块，还被配置为根据所述网络质量参数，确定所述语音转换模型的参数维度个数，所述网络质量参数与所述语音转换模型的参数维度个数呈正相关关系，且所述语音转换模型的参数维度个数与所述语音转换模型转换出的语音数据的质量参数呈正相关关系。

在另一种可能的实现方式中，所述目标处理进度为获取输入语音数据的回复语音数据，所述数据处理模块，被配置为调用所述语音转换模型中的音素转换子模型，对所述输入语音数据的回复文本数据进行转换，得到所述回复文本数据对应的音素序列；调用所述语音转换模型中的时长预测子模型，根据所述音素序列进行预测，得到所述音素序列中的每个音素的发音时长；调用所述语音转换模型中的特征提取子模型，根据所述音素序列中的每个音素和所述每个音素的发音时长进行特征转换，得到回复声学特征；调用所述语音转换模型中的语音转换子模型，根据所述回复声学特征进行语音转换，得到所述回复语音数据；将所述回复语音数据确定为所述处理结果数据。

在另一种可能的实现方式中，所述目标处理进度为获取输入语音数据的回复声学特征，所述数据处理模块，被配置为调用所述语音转换模型中的音素转换子模型，对所述输入语音数据的回复文本数据进行转换，得到所述回复文本数据对应的音素序列；调用所述语音转换模型中的时长预测子模型，根据所述音素序列进行预测，得到所述音素序列中的每个音素的发音时长；调用所述语音转换模型中的特征提取子模型，根据所述音素序列中的每个音素和所述每个音素的发音时长进行特征转换，得到所述回复声学特征；将所述回复声学特征确定为所述处理结果数据。

在另一种可能的实现方式中，所述数据处理模块，被配置为获取所述输入语音数据的回复文本数据；若所述回复文本数据的转换频率属于第一频率范围，则根据所述网络质量参数对应的所述目标处理进度和所述回复文本数据，获取所述处理结果数据；其中，转换频率表示将文本数据转换成对应的语音数据的频率，所述第一频率范围为多个参考频率范围中频率最小的。

在另一种可能的实现方式中，所述数据处理模块，还被配置为若所述回复文本数据的转换频率属于第二频率范围或者第三频率范围，则将所述回复文本数据确定为处理结果数据；所述第二频率范围中的频率大于所述第一频率范围中的频率，所述第三频率范围为所述多个参考频率范围中频率最大的；向所述终端发送所述处理结果数据。

在另一种可能的实现方式中，所述数据处理模块，被配置为若所述输入语音数据的回复文本数据包括转换频率属于第一频率范围的第一文本数据，以及转换频率属于其他参考频率范围的其他文本数据，则根据所述网络质量参数对应的所述目标处理进度和所述第一文本数据，获取第一处理数据；将所述第一处理数据和所述其他文本数据确定为所述处理结果数据；其中，转换频率表示将文本数据转换成对应的语音数据的频率，所述第一频率范围为多个参考频率范围中频率最小的。

在另一种可能的实现方式中，所述数据处理模块，被配置为获取所述输入语音数据对应的多组回复文本数据，每组回复文本数据包括参考帧数的回复文本数据；根据所述网络质量参数对应的所述目标处理进度，每次调用所述语音转换模型，对所述多组回复文本数据依次进行处理，直到处理完所述多组回复文本数据，得到所述输入语音数据对应的多组处理结果数据，每组处理结果数据包括所述参考帧数的回复文本数据对应的处理结果数据。

在另一种可能的实现方式中，所述数据发送模块，被配置为每获取到一组处理结果数据，则向所述终端发送所述一组处理结果数据，直到发送完所述输入语音数据对应的所述多组处理结果数据。

另一方面，提供了一种语音处理系统，所述系统包括终端和服务器；

所述终端用于响应于获取到输入语音数据，向所述服务器发送携带所述输入语音数据的回复请求；

所述服务器用于根据所述服务器与所述终端之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理，得到处理结果数据，所述目标处理进度用于指示所述服务器对所述输入语音数据的处理进度；

所述终端还用于根据所述网络质量参数对应的所述目标处理进度和所述处理结果数据，获取所述输入语音数据对应的回复语音数据。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述程序代码由所述处理器加载并执行以实现上述任一种可能实现方式中的语音处理方法中执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现上述任一种可能实现方式中的语音处理方法中执行的操作。

再一方面，提供了一种计算机程序产品，所述计算机程序产品中包括至少一条程序代码，所述程序代码由处理器加载并执行以实现上述任一种可能实现方式中的语音处理方法中执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例所提供的技术方案，不完全依赖于服务器进行语音处理，而是通过服务器和终端之间利用网络质量参数相互配合，以得到输入语音数据对应的回复语音数据。服务器在接收到终端发送的回复请求后，会根据网络质量参数对应的目标处理进度，对回复请求中的输入语音数据进行处理，得到处理结果数据，而终端会根据该目标处理进度，继续对处理结果数据进行处理，来得到回复语音数据，如此降低了对网络的依赖程度，从而能够在网络信号质量差的情况下，降低语音处理的延时，提高语音处理的鲁棒性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种语音处理方法的流程图；

图3是本申请实施例提供的一种语音处理方法的流程图；

图4是本申请实施例提供的一种语音处理方法的流程图；

图5是本申请实施例提供的一种语音转换模型的结构示意图；

图6是本申请实施例提供的一种特征提取子模型的结构示意图；

图7是本申请实施例提供的一种对数据进行流式处理的示意图；

图8是本申请实施例提供的一种语音处理方法的流程图；

图9是本申请实施例提供的一种数据存储过程的示意图；

图10是本申请实施例提供的一种语音处理方法的流程图；

图11是本申请实施例提供的一种语音处理方法的流程图；

图12是本申请实施例提供的一种语音处理方法的流程图；

图13是本申请实施例提供的一种语音处理方法的流程图；

图14是本申请实施例提供的一种语音处理装置的框图；

图15是本申请实施例提供的一种语音处理装置的框图；

图16是本申请实施例提供的一种终端的结构示意图；

图17是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请所使用的术语“第一”、“第二”、“第三”、“第四”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一子模型称为子模型，且类似地，可将第二子模型称为第一子模型。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个子模型包括3个子模型，而每个是指这3个子模型中的每一个子模型，任一是指这3个子模型中的任意一个，可以是第一个，可以是第二个、也可以是第三个。

首先，对本申请中涉及的名词进行如下介绍：

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。终端101与服务器102能够进行数据传输、消息交互等功能。

可选地，终端101可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表或者智能电梯，其中，智能电梯是指安装有语音控制系统，并通过该语音控制系统来控制电梯运行的电梯。当然，终端101也能够为其他终端，本申请对此不做限制。可选地，服务器102为独立的物理服务器，或者为多个物理服务器构成的服务器集群或者分布式系统，或者为提供云计算和云存储等云服务的云服务器。

可选地，终端101上安装有由服务器102提供服务的目标应用，可选地，目标应用为终端101操作系统中的目标应用，或者为第三方提供的目标应用。该目标应用具有语音交互的功能，能够根据用户的输入语音数据，输出对应的回复语音数据。可选地，该目标应用还具有其他功能，例如，聊天功能、游戏功能、直播功能、购物功能、音视频播放功能等，本申请对此不做限制。可选地，该目标应用为短视频应用、音乐应用、游戏应用、购物应用、聊天应用或者其他应用。

本申请实施例中，终端101用于接收用户的输入语音数据，向服务器102发送该语音数据，服务器102用于对该输入语音数据进行处理，得到处理结果数据，终端101还用于对该处理结果数据继续进行处理，得到输入语音数据对应的回复语音数据，然后输出该回复语音数据。

本申请提供的语音处理方法能够应用于任何语音交互的场景，例如，用户在逛商场时，若有任何疑问，则能够向商场的服务机器人输入语音数据，商场的服务机器人则能够通过本申请提供的方法，得到对应的回复语音数据，然后输出该回复语音数据。

又如，用户在日常生活中使用各种电子设备时，需要搜索任何东西时，能够向该电子设备输入语音数据，则电子设备能够通过本申请提供的方法获取到回复的语音数据，然后输出回复语音数据。

图2是本申请实施例提供的一种语音处理方法的流程图。执行主体为终端，参见图2，该方法包括以下步骤。

201：响应于获取到输入语音数据，向服务器发送携带输入语音数据的回复请求。

202：接收服务器返回的处理结果数据。

其中，处理结果数据由服务器根据终端与服务器之间的网络质量参数对应的目标处理进度，对输入语音数据进行处理后得到，目标处理进度用于指示服务器对输入语音数据的处理进度。

203：根据网络质量参数对应的目标处理进度，对处理结果数据继续进行处理，得到输入语音数据对应的回复语音数据。

在一种可能的实现方式中，根据网络质量参数对应的目标处理进度，对处理结果数据继续进行处理，得到输入语音数据对应的回复语音数据，包括：

根据网络质量参数对应的目标处理进度，调用语音转换模型对处理结果数据继续进行处理，得到回复语音数据。

在另一种可能的实现方式中，根据网络质量参数对应的目标处理进度，调用语音转换模型对处理结果数据继续进行处理，得到回复语音数据，包括：

确定目标处理进度对应的开始子模型，开始子模型为开始对处理结果数据进行处理的子模型；

从语音转换模型中的开始子模型开始，对处理结果数据进行处理，直至得到语音转换模型输出的回复语音数据。

在另一种可能的实现方式中，处理结果数据包括输入语音数据的回复文本数据，根据网络质量参数对应的目标处理进度，调用语音转换模型对处理结果数据继续进行处理，得到回复语音数据，包括：

调用语音转换模型中的音素转换子模型，对回复文本数据进行转换，得到回复文本数据对应的音素序列；

调用语音转换模型中的时长预测子模型，根据音素序列进行预测，得到音素序列中的每个音素的发音时长；

调用语音转换模型中的特征提取子模型，根据音素序列中的每个音素和每个音素的发音时长进行特征转换，得到回复声学特征；

调用语音转换模型中的语音转换子模型，根据回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，处理结果数据包括输入语音数据的回复声学特征，根据网络质量参数对应的目标处理进度，调用语音转换模型对处理结果数据继续进行处理，得到回复语音数据，包括：

在另一种可能的实现方式中，处理结果数据包括输入语音数据的回复文本数据，根据网络质量参数对应的目标处理进度，对处理结果数据继续进行处理，得到输入语音数据对应的回复语音数据，包括：

若回复文本数据的转换频率属于第一频率范围，则根据网络质量参数对应的目标处理进度，对回复文本数据继续进行处理，得到回复语音数据；

其中，转换频率表示将文本数据转换成对应的语音数据的频率，第一频率范围为多个参考频率范围中频率最小的。

在另一种可能的实现方式中，方法还包括：

若回复文本数据的转换频率属于第二频率范围，则从已存储的文本数据与声学特征的对应关系中，查询回复文本数据对应的回复声学特征；

根据回复声学特征进行语音转换，得到回复语音数据；

其中，第二频率范围中的频率大于第一频率范围中的频率。

在另一种可能的实现方式中，方法还包括：

若回复文本数据的转换频率属于第三频率范围，则从已存储的文本数据与语音数据的对应关系中，查询回复文本数据对应的回复语音数据；

其中，第三频率范围为多个参考频率范围中频率最大的。

在另一种可能的实现方式中，处理结果数据包括第一处理数据和第二文本数据，第二文本数据为输入语音数据的回复文本数据中转换频率属于第二频率范围的文本数据，第一处理数据为服务器根据目标处理进度和第一文本数据所获取的数据，第一文本数据为回复文本数据中转换频率属于第一频率范围的文本数据，转换频率表示将文本数据转换成对应的语音数据的频率，第一频率范围为多个参考频率范围中频率最小的，第二频率范围中的频率大于第一频率范围中的频率。

在另一种可能的实现方式中，根据网络质量参数对应的目标处理进度，对处理结果数据继续进行处理，得到输入语音数据对应的回复语音数据，包括：

查询第二文本数据对应的第二声学特征；

根据目标处理进度，对第二声学特征和第一处理数据继续进行处理，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据，根据目标处理进度，对第二声学特征和第一处理数据继续进行处理，得到回复语音数据，包括：

对第一文本数据进行特征提取，得到第一声学特征；

将第一声学特征和第二声学特征进行拼接，得到回复声学特征；

对回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据对应的第一声学特征，根据目标处理进度，对第二声学特征和第一处理数据继续进行处理，得到回复语音数据，包括：

对回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据对应的第一语音数据，根据目标处理进度，对第二声学特征和第一处理数据继续进行处理，得到回复语音数据，包括：

对第二声学特征进行语音转换，得到第二语音数据；

将第一语音数据和第二语音数据进行拼接，得到回复语音数据。

在另一种可能的实现方式中，处理结果数据包括第一处理数据和第三文本数据，第三文本数据为输入语音数据的回复文本数据中转换频率属于第三频率范围的文本数据，第一处理数据为服务器根据目标处理进度和第一文本数据所获取的数据，第一文本数据为回复文本数据中转换频率属于第一频率范围的文本数据，转换频率表示将文本数据转换成对应的语音数据的频率，第一频率范围为多个参考频率范围中频率最小的，第三频率范围为多个参考频率范围中频率最大的。

查询第三文本数据对应的第三语音数据；

根据目标处理进度，对第三语音数据和第一处理数据继续进行处理，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据，根据目标处理进度，对第三语音数据和第一处理数据继续进行处理，得到回复语音数据，包括：

对第一文本数据进行语音转换，得到第一语音数据；

将第一语音数据和第三语音数据进行拼接，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据对应的第一声学特征，根据目标处理进度，对第三语音数据和第一处理数据继续进行处理，得到回复语音数据，包括：

对第一声学特征进行语音转换，得到第一语音数据；

在另一种可能的实现方式中，第一处理数据为第一文本数据对应的第一语音数据，根据目标处理进度，对第三语音数据和第一处理数据继续进行处理，得到回复语音数据，包括：

在另一种可能的实现方式中，服务器用于以参考帧数为单位，发送处理结果数据；接收服务器返回的处理结果数据包括：

接收第一组处理结果数据后，再接收下一组处理结果数据，直到接收完输入语音数据对应的多组处理结果数据，每组处理结果数据包括参考帧数的处理结果数据。

根据网络质量参数对应的目标处理进度，每次调用语音转换模型，对多组处理结果数据依次进行处理，直到处理完多组处理结果数据，得到回复语音数据。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图3是本申请实施例提供的一种语音处理方法的流程图。执行主体为服务器，参见图3，该方法包括以下步骤。

301：接收终端发送的回复请求，回复请求携带终端获取到的输入语音数据。

302：根据服务器与终端之间的网络质量参数对应的目标处理进度，对输入语音数据进行处理，得到处理结果数据，目标处理进度用于指示服务器对输入语音数据的处理进度。

303：向终端发送处理结果数据，终端用于根据网络质量参数对应的目标处理进度和处理结果数据，获取输入语音数据对应的回复语音数据。

本申请实施例所提供的技术方案，不完全依赖于服务器进行语音处理，而是通过服务器和终端之间利用网络质量参数相互配合，以得到输入语音数据对应的回复语音数据。服务器在接收到终端发送的回复请求后，会根据网络质量参数对应的目标处理进度，对回复请求中的输入语音数据进行处理，得到处理结果数据，然后终端根据网络质量参数对应的目标处理进度和处理结果数据，获取输入语音数据对应的回复语音数据，如此降低了对网络的依赖程度，从而能够在网络信号质量差的情况下，降低语音处理的延时，提高语音处理的鲁棒性。

在一种可能的实现方式中，根据服务器与终端之间的网络质量参数对应的目标处理进度，对输入语音数据进行处理，得到处理结果数据，包括：

根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据。

在另一种可能的实现方式中，根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据，包括：

确定目标处理进度对应的结束子模型，结束子模型用于指示服务器对输入语音数据进行处理的最后一个子模型；

调用语音转换模型中至少一个子模型，对输入语音数据进行处理，直至得到结束子模型输出的处理结果数据。

在另一种可能的实现方式中，根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据之前，方法还包括：

根据网络质量参数，确定语音转换模型的参数维度个数，网络质量参数与语音转换模型的参数维度个数呈正相关关系，且语音转换模型的参数维度个数与语音转换模型转换出的语音数据的质量参数呈正相关关系。

在另一种可能的实现方式中，目标处理进度为获取输入语音数据的回复语音数据，根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据，包括：

调用语音转换模型中的音素转换子模型，对输入语音数据的回复文本数据进行转换，得到回复文本数据对应的音素序列；

调用语音转换模型中的语音转换子模型，根据回复声学特征进行语音转换，得到回复语音数据；

将回复语音数据确定为处理结果数据。

在另一种可能的实现方式中，目标处理进度为获取输入语音数据的回复声学特征，根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据，包括：

将回复声学特征确定为处理结果数据。

在另一种可能的实现方式中，根据服务器与终端之间的网络质量参数对应的目标处理进度，对输入语音数据进行处理，得到处理结果数据，包括：

获取输入语音数据的回复文本数据；

若回复文本数据的转换频率属于第一频率范围，则根据网络质量参数对应的目标处理进度和回复文本数据，获取处理结果数据；

在另一种可能的实现方式中，方法还包括：

若回复文本数据的转换频率属于第二频率范围或者第三频率范围，则将回复文本数据确定为处理结果数据；第二频率范围中的频率大于第一频率范围中的频率，第三频率范围为多个参考频率范围中频率最大的；

向终端发送处理结果数据。

若输入语音数据的回复文本数据包括转换频率属于第一频率范围的第一文本数据，以及转换频率属于其他参考频率范围的其他文本数据，则根据网络质量参数对应的目标处理进度和第一文本数据，获取第一处理数据；

将第一处理数据和其他文本数据确定为处理结果数据；

获取输入语音数据对应的多组回复文本数据，每组回复文本数据包括参考帧数的回复文本数据；

根据网络质量参数对应的目标处理进度，每次调用语音转换模型，对多组回复文本数据依次进行处理，直到处理完多组回复文本数据，得到输入语音数据对应的多组处理结果数据，每组处理结果数据包括参考帧数的回复文本数据对应的处理结果数据。

在另一种可能的实现方式中，向终端发送处理结果数据，包括：

每获取到一组处理结果数据，则向终端发送一组处理结果数据，直到发送完输入语音数据对应的多组处理结果数据。

图4是本申请实施例提供的一种语音处理方法的流程图。在该实施例中，以执行主体为服务器为例进行说明。参见图4，该方法包括以下步骤。

401：服务器接收终端发送的回复请求，回复请求携带终端获取到的输入语音数据。

其中，终端在接收到用户的输入语音数据后，会向服务器发送回复请求，以请求服务器对输入语音数据进行处理。可选地，输入语音数据的内容为任意内容，例如，为询问天气的内容、询问车票的内容、用于命令终端执行某些操作的内容等，本申请实施例对此不做限制。

402：服务器根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据。

网络质量参数为能够体现网络信号质量好坏的参数，可选地，服务器通过网络信号强度、信道干扰情况、多线程下载速率等确定网络质量参数。

其中，目标处理进度用于指示服务器对输入语音数据的处理进度，即对输入语音数据处理到何种程度。在本申请实施例中，将对输入语音数据进行处理，得到对应的回复语音数据的整个过程划分为多个阶段，相应的，能够根据该语音处理的过程确定多个处理进度。例如，语音处理的过程包括：获取输入语音数据对应的回复文本数据、将回复文本数据转换成对应的回复声学特征，以及将回复声学特征转换成回复语音数据。则多个处理进度分别为：获取输入语音数据对应的回复文本数据，获取输入语音数据对应的回复声学特征，以及获取输入语音数据对应的回复语音数据。

处理进度与网络质量参数对应，并且网络质量参数越大，对应的处理进度越靠前，也即是，网络信号质量越好，服务器对输入语音所进行的处理越多。以网络质量参数为0-100之间的数值为例，数值越大，表明网络信号质量越好，则可选地，0-50对应的处理进度为获取输入语音数据对应的回复文本数据，51-80对应的处理进度为获取输入语音数据对应的回复声学特征，81-100对应的处理进度为获取输入语音数据对应的回复语音数据。

需要说明的一点是，一般情况下，由于服务器和终端的性能差异，对同样的输入语音数据进行处理时，服务器的处理效率要高于终端的处理效率。另外，服务器按照不同处理进度来对输入语音数据进行处理时，所得到的处理结果数据的数据量是不同的，处理进度越靠前，所得到的处理结果数据的数据量越大。因此，在本申请实施例中，网路质量参数越大，对应的处理进度越靠前，以使服务器在网络信号质量越好的情况下，对输入语音数据处理的程度越大，则后续终端接收到处理结果数据后，所需要进行的处理就越简单，如此，能够提高语音处理的效率，降低语音处理的延时。虽然此种情况下，服务器需要传输给终端的处理结果数据的数据量也越大，但由于网络信号质量好，因此，并不会影响终端获取到处理结果数据的效率。另外，网络质量参数越小，对应的处理进度越靠后，则服务器对输入语音数据的处理的程度越小，所得到的处理结果数据的数据量越小，则需要传输给终端的数据量就越小，从而保证在网络信号质量差的情况下，终端能够即时获取到处理结果数据，继续对处理结果数据进行处理，以得到回复语音数据，从而降低了在网络信号质量差的情况下，终端获取回复语音数据的延时。

可选地，处理进度与网络质量参数的对应关系存储在服务器中，则服务器接收到回复请求后，根据当前的网络质量参数以及该对应关系则能够确定目标处理进度，进而按照该目标处理进度对输入语音数据进行处理。另外，不同处理进度对应的网络质量参数能够根据需要调整，或者说，不同网络质量参数对应的处理进度能够根据需要调整，本申请实施例对此不做限制。

在一种可能的实现方式中，服务器根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据，包括：服务器确定目标处理进度对应的结束子模型，结束子模型用于指示服务器对输入语音数据进行处理的最后一个子模型；服务器调用语音转换模型中至少一个子模型，对输入语音数据进行处理，直至得到结束子模型输出的处理结果数据。

语音转换模型中包括多个具有先后顺序的子模型，将输入语音数据输入到语音转换模型中，该多个子模型按照顺序依次对输入语音数据进行处理，最后一个子模型输出的为回复语音数据。该多个子模型中每个子模型的功能是不同的。例如，语音转换模型中第一个子模型用于对输入语音数据进行语音识别，第二个子模型用于生成输入语音数据对应的回复文本数据，第三个子模型用于将回复文本数据转换成对应的回复声学特征，第四个子模型用于将回复声学特征转换成回复语音数据。因此，不同子模型对应不同的处理进度。

服务器获取到目标处理进度后，要确定目标处理进度对应的结束子模型，则处理输入语音数据时，会调用该结束子模型之前的子模型以及该结束子模型对输入语音数据依次进行处理，得到处理结果数据，而不会调用该结束子模型之后的子模型。例如，目标处理进度为获取输入语音数据对应的回复声学特征，则对应的结束子模型即为上述第三个子模型。

可选地，处理进度与结束子模型的对应关系存储在服务器中，则服务器确定目标处理进度后，则能够根据该对应关系确定结束子模型。

在一种可能的实现方式中，目标处理进度为获取输入语音数据的回复语音数据，相应的，服务器根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据，包括：服务器调用语音转换模型中的音素转换子模型，对输入语音数据的回复文本数据进行转换，得到回复文本数据对应的音素序列；调用语音转换模型中的时长预测子模型，根据音素序列进行预测，得到音素序列中的每个音素的发音时长；调用语音转换模型中的特征提取子模型，根据音素序列中的每个音素和每个音素的发音时长进行特征转换，得到回复声学特征；调用语音转换模型中的语音转换子模型，根据回复声学特征进行语音转换，得到回复语音数据；将回复语音数据确定为处理结果数据。

其中，从声学性质来看，音素是从音质角度划分出来的最小语音单位。音素序列则是由多个具有先后顺序的音素构成的序列。例如，“普通话”对应的音素序列为“p、u、t、o、ng、h、u、a”。

可选地，回复声学特征包括LPC（Linear Prediction Coefficient，线性预测系数），F0（Fundamental Frequency，基频）、SP（Spectral Envelope，频谱包络）、AP（Aperiodic Parameter，非周期信号参数），基于这几种特征，则能够转换出对应的语音数据。

其中，语音转换模型能够根据样本文本数据和样本文本数据对应的语音数据训练得到，通过一次或多次训练，语音转换模型能够学习到文本数据和该文本数据对应的语音数据之间的关系，从而具备将文本数据转换成对应的语音数据的能力。

图5为语音转换模型的结构示意图，参考图5，其中，语音转换模型中包括的音素转换子模型、时长预测子模型、特征提取子模型以及语音转换子模型依次连接。可选地，该语音转换模型采用RNN（Recurrent Neural Network，循环神经网络）结构，当然，该语音转换模型也能够采用其他结构，本申请对此不做限制。可选地，时长预测子模型包括两层的LSTM（Long Short-Term Memory，长短期记忆）网络，或者，时长预测子模型还包括两层的DNN（Deep Neural Networks，深度神经网络）。或者，时长预测子模型采用Attention（注意力）子模型，该注意力子模型包括Self-Attention（自注意力）子模型和Local SensitiveAttention（基于位置信息的注意力）子模型。参考图6，特征提取子模型采用两层残差连接的LSTM网络或者采用两层残差连接的GRU（Gate Recurrent Unit，门控循环单元）网络，以及一层误差补偿网络。或者，特征提取子模型包括一层注意力网络、一层残差连接的LSTM网络以及两层残差连接的GRU网络。其中，该注意力网络包括Self-Attention（自注意力）网络和Multi-head Attention（多头注意力）网络。其中，LSTM网络或者GRU网络用于提取声学特征，误差补偿网络用于对该声学特征进行调整，已得到更准确的声学特征。可选地，语音转换子模型为声码器，声码器用于将声学特征转换为语音数据。可选地，该声码器为LPCNet声码器（一种声码器）。当然，该声码器也能够为其他声码器，本申请实施例对此不做限制。

在另一种可能的实现方式中，目标处理进度为获取输入语音数据的回复声学特征，相应的，服务器根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据，包括：服务器调用语音转换模型中的音素转换子模型，对输入语音数据的回复文本数据进行转换，得到回复文本数据对应的音素序列；调用语音转换模型中的时长预测子模型，根据音素序列进行预测，得到音素序列中的每个音素的发音时长；调用语音转换模型中的特征提取子模型，根据音素序列中的每个音素和每个音素的发音时长进行特征转换，得到回复声学特征；将回复声学特征确定为处理结果数据。

在一种可能的实现方式中，服务器根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据之前，方法还包括：服务器根据网络质量参数，确定语音转换模型的参数维度个数。其中，网络质量参数与语音转换模型的参数维度个数呈正相关关系，且语音转换模型的参数维度个数与语音转换模型转换出的语音数据的质量参数呈正相关关系。

语音转换模型中包括多个参数维度，通过调整多个不同维度的参数，以使模型能够实现语音转换的功能。语音转换模型中参数维度个数越多，语音转换模型就越精准，转换出来的语音数据的质量参数越大，即语音数据的质量越好。

需要说明的一点是，随着语音转换模型的参数维度个数变大，转换得到的语音数据的数据量也会变大，在本申请实施例中，网络质量参数与语音转换模型的参数维度个数呈正相关关系，使得在网络信号质量越好的情况下，转换出的语音数据的质量越好，虽然转换出的语音数据的数据量也越大，但由于网络信号质量好，将语音数据传输至终端的效率并不会受到影响，因此，在保证语音处理效率，降低语音处理延时的前提下，提高了语音处理的效果。

在一种可能的实现方式中，服务器采用流式的语音转换模型，对输入语音数据对应的回复文本数据进行流式处理，以得到处理结果数据。相应的，服务器根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据，包括：服务器获取输入语音数据对应的多组回复文本数据，每组回复文本数据包括参考帧数的回复文本数据；服务器根据网络质量参数对应的目标处理进度，每次调用语音转换模型，对多组回复文本数据依次进行处理，直到处理完多组回复文本数据，得到输入语音数据对应的多组处理结果数据。参考图7，对于任一组回复文本数据来讲，在T-1对应的时刻，前一个子模型对该组回复文本数据进行处理，在T对应的时刻，前一个子模型的处理结果被输入到后一个子模型继续进行处理。其中，每组处理结果数据包括参考帧数的回复文本数据对应的处理结果数据。可选地，参考帧数为任意帧数，例如，参考帧数为1、2或其他数值。

服务器获取到输入语音数据对应的多组回复文本数据后，先调用语音转换模型对第一组回复文本数据进行处理，得到第一组回复文本数据对应的处理结果数据后，再调用语音转换模型对下一组回复文本数据进行处理，得到下一组回复文本数据对应的处理结果数据，直到处理完多组回复文本数据。

在本申请实施例中，考虑到输入语音数据对应的全部回复文本数据可能较多，将所有回复文本数据一起转换成语音数据的时间较长，因此，将回复文本数据划分为多组回复文本数据，按照多组回复文本数据的先后顺序，每次只对其中一组回复文本数据进行语音转换，则能够较快地得到该组回复文本数据对应的处理结果数据，服务器能够先将该组回复文本数据对应的处理结果数据发送给终端，以使终端能够先对该处理结果数据进行处理，得到该组回复文本数据对应的语音片段，从而能够先输出该语音片段，之后，再转换出下一组回复文本数据对应的语音片段时，接着输出下一语音片段，因此，上述方法实现了一边进行语音转换，一边输出已转换出的语音数据的效果，在需要转换的回复语音数据较长的情况下，提高了语音转换的效率，保证了语音处理的响应速度，能够提高用户粘性。

需要说明的一点是，服务器调用语音转换模型对输入语音数据进行处理的方式仅是服务器对输入语音数据进行处理的一种可选方式，在其他实施例中，服务器也能够根据目标处理进度，通过其他方式对输入语音数据进行处理，来得到处理结果数据，本申请对此不做限制。

403：服务器向终端发送处理结果数据。

其中，终端用于根据网络质量参数对应的目标处理进度和处理结果数据，获取输入语音数据对应的回复语音数据。例如，在目标处理进度为获取输入语音数据的回复语音数据时，即在处理结果数据为已经转换好的回复语音数据的情况下，直接输出该回复语音数据。而在其他目标处理进度下，根据目标处理进度继续对处理结果数据进行处理，得到回复语音数据。

在一种可能的实现方式中，服务器向终端发送处理结果数据，包括：服务器每获取到一组处理结果数据，则向终端发送一组处理结果数据，直到发送完输入语音数据对应的多组处理结果数据。如此，终端能够分组接收处理结果数据，对先接收到的处理结果数据继续进行处理，得到语音片段，在输出该语音片段的同时，接收下一组处理结果数据或者对接收到的下一组处理结果数据继续进行处理，得到下一语音片段，实现了一边进行语音转换，一边输出已转换出的语音数据的效率。提高了语音转换的效率，保证了语音处理的响应速度，能够提高用户粘性。

并且，服务器根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，能够提高语音转换的效率。

图8是本申请实施例提供的一种语音处理方法的流程图。在该实施例中，以执行主体为服务器为例进行说明。参见图8，该方法包括以下步骤。

801：服务器接收终端发送的回复请求，回复请求携带终端获取到的输入语音数据。

该步骤的实现方式与上述401类似，此处不再赘述。

802：服务器获取输入语音数据的回复文本数据。

可选地，服务器对输入语音数据进行语音识别，根据语音识别结果生成输入语音数据对应的回复文本数据。当然，服务器也能够通过其他方式获取输入语音数据的回复文本数据，本申请实施例对此不做限制。

803：若回复文本数据的转换频率属于第一频率范围，服务器则根据网络质量参数对应的目标处理进度和回复文本数据，获取处理结果数据。

其中，转换频率表示将文本数据转换成对应的语音数据的频率。服务器在获取到输入语音数据的回复文本数据后，会确定该回复文本数据的转换频率，根据转换频率所属的频率范围确定如何对回复文本数据进行处理。

可选地，服务器统计根据任意终端发送的输入语音数据，获取到同一回复文本数据的频率，由于获取到该回复文本数据，即意味着要将该回复文本数据转换成对应的语音数据进行输出，因此，服务器能够将该频率确定为该回复文本数据的转换频率。

可选地，服务器存储多个参考频率范围，例如，存储三个参考频率范围，分别为第一频率范围、第二频率范围和第三频率范围。其中，第一频率范围为三个参考频率范围中频率最小的，第二频率范围中的频率大于第一频率范围中的频率，第三频率范围为三个参考频率范围中频率最大的。相应的，服务器在获取到回复文本的转换频率后，则能够根据存储的多个参考频率范围确定该转换频率所属的频率范围。

在一种可能的实现方式中，若回复文本数据的转换频率属于第一频率范围，则服务器根据网络质量参数对应的目标处理进度和该回复文本数据，获取处理结果数据。可选地，根据目标处理进度的不同，服务器获取处理结果数据的实现方式分为以下三种。

第一种，若目标处理进度为获取输入语音数据对应的回复文本数据，则服务器直接将该回复文本数据确定为处理结果数据。

第二种，若目标处理进度为获取输入语音数据对应的回复声学特征，则服务器对该回复文本数据进行特征提取，得到回复声学特征，将该回复声学特征确定为处理结果数据。

第三种，若目标处理进度为获取输入语音数据对应的回复语音数据，则服务器对该回复语音数据进行语音转换，得到回复语音数据，将该回复语音数据确定为处理结果数据。

在另一种可能的实现方式中，若回复文本数据的转换频率属于第二频率范围或者第三频率范围，则服务器将回复文本数据确定为处理结果数据。

需要说明的一点是，在本申请实施例中，考虑到一些回复文本数据的转换频率较高，而每次都基于回复文本数据进行语音转换，则需要经常执行重复的工作，因此，划分了多个参考频率范围，对于转换频率属于较高频率范围的回复文本数据，终端会直接存储该回复文本数据对应的回复文本特征或者回复语音数据，因此，服务器会直接将回复文本数据确定为处理结果数据发送给终端，之后终端基于回复文本数据进行查询操作，基于查询到的回复声学特征获取回复语音数据，或者直接查询到回复语音数据，如此，对于一些转换频率较高的回复文本数据，则不必每次都基于回复文本数据进行语音转换，能够提高语音转换的效率，节省服务器和终端的计算资源。

而对于转换频率属于第一频率范围，即转换频率较低的回复文本数据，终端则不会存储对应的声学特征或者语音数据，如此能够节省终端的存储资源。相应的，对于这些转换频率较低的回复文本数据，服务器需要根据网络质量参数对应的目标处理进度，确定如何根据该回复文本数据获取处理结果数据，而终端也会根据网络质量参数对应的目标处理进度，确定如何根据处理结果数据获取回复语音数据，以实现在网络信号质量好的情况下，由服务器承担较多的处理任务，终端承担较少的处理任务，从而提高语音转换的质量，提高语音处理的效率和效果。而在网络信号质量差的情况下，由服务器承担较少的处理任务，终端承担较多的处理任务，以减少服务器与终端之间传输的数据量，从而保证语音转换的效率，降低语音处理的延时。

其中，可选地，终端中存储的声学特征或者语音数据是由服务器获取后发送给终端的。参考图9，终端采集输入语音数据后发送给服务器，服务器获取该输入语音数据的回复文本数据，在确定该回复文本数据属于第二频率范围的情况下，获取该回复文本数据对应的声学特征，将声学特征发送给终端。或者，服务器在确定该回复文本数据属于第三频率范围的情况下，获取该回复文本数据对应的语音数据，将该语音数据发送给终端，终端存储该声学特征或者语音数据。

在另一种可能的实现方式中，输入语音数据的回复文本数据包括转换频率属于第一频率范围的第一文本数据，以及转换频率属于其他参考频率范围的其他文本数据，则服务器根据网络质量参数对应的目标处理进度和第一文本数据，获取第一处理数据，将第一处理数据和其他文本数据确定为处理结果数据。其中，其他参考频率范围包括第二频率范围和第三频率范围。

可选地，根据目标处理进度的不同，服务器获取第一处理数据的实现方式分为以下三种。

第一种，若目标处理进度为获取输入语音数据对应的回复文本数据，则服务器直接将该第一文本数据确定为第一处理数据。

第二种，若目标处理进度为获取输入语音数据对应的回复声学特征，则服务器对该第一文本数据进行特征提取，得到第一声学特征，将该第一声学特征确定为第一处理数据。

第三种，若目标处理进度为获取输入语音数据对应的回复语音数据，则服务器对该第一文本数据进行语音转换，得到第一语音数据，将该第一语音数据确定为第一处理数据。

在本申请实施例中，在回复文本数据包括转换频率属于第一频率范围的文本数据以及属于其他参考频率范围的文本数据的情况下，仅考虑对转换频率属于第一频率范围的文本数据进行处理，不对转换频率属于其他参考频率范围的文本数据进行处理，能够提高服务器进行语音处理的效率，降低对服务器性能消耗。

804：服务器向终端发送处理结果数据。

其中，终端用于根据网络质量参数对应的目标处理进度和处理结果数据，获取输入语音数据对应的回复语音数据。

需要说明的一点是，上述两个实施例能够以任意方式结合，本申请对此不做限制。

图10是本申请实施例提供的一种语音处理方法的流程图。在该实施例中，以执行主体为终端为例进行说明。参见图10，该方法包括以下步骤。

1001：终端响应于获取到输入语音数据，向服务器发送携带输入语音数据的回复请求。

可选地，终端响应于获取到输入语音数据，向服务器发送携带输入语音数据的回复请求之前，终端显示语音输入选项，响应于对该语音输入选项的触发操作，采集语音数据，将采集到的语音数据确定为输入语音数据。或者，直接采集语音数据，将采集到的语音数据确定为输入语音数据。当然，终端还能够通过其他方式获取输入语音数据，本申请实施例对此不做限制。

1002：终端接收服务器返回的处理结果数据。

处理结果数据由服务器根据终端与服务器之间的网络质量参数对应的目标处理进度，对输入语音数据进行处理后得到。目标处理进度用于指示服务器对输入语音数据的处理进度。

在一种可能的实现方式中，服务器用于以参考帧数为单位，发送处理结果数据。相应的，终端接收服务器返回的处理结果数据包括：终端接收第一组处理结果数据后，再接收下一组处理结果数据，直到接收完输入语音数据对应的多组处理结果数据，每组处理结果数据包括参考帧数的处理结果数据。如此，后续终端能够对先接收到的中间处理数据进行处理，再接收到后来的中间处理数据时，对后来的中间处理数据进行处理，如此能够提高终端进行语音处理的效率。

1003：终端根据网络质量参数对应的目标处理进度，调用语音转换模型对处理结果数据继续进行处理，得到回复语音数据。

其中，目标处理进度用于指示服务器对输入语音数据的处理进度，即对输入语音数据处理到何种程度。

可选地，处理进度与网络质量参数的对应关系存储在终端中，则终端接收到处理结果数据后，根据当前的网络质量参数以及该对应关系则能够确定目标处理进度，进而根据该目标处理进度对处理结果数据继续进行处理。另外，不同处理进度对应的网络质量参数能够根据需要调整，或者说，不同网络质量参数对应的处理进度能够根据需要调整，本申请实施例对此不做限制。

在一种可能的实现方式中，终端根据网络质量参数对应的目标处理进度，调用语音转换模型对处理结果数据继续进行处理，得到回复语音数据，包括：终端确定目标处理进度对应的开始子模型，开始子模型为开始对处理结果数据进行处理的子模型；终端从语音转换模型中的开始子模型开始，对处理结果数据进行处理，直至得到语音转换模型输出的回复语音数据。

语音转换模型中包括多个具有先后顺序的子模型，将输入语音数据输入到语音转换模型中，该多个子模型按照顺序依次对输入语音数据进行处理，最后一个子模型输出的为回复语音数据。该多个子模型中每个子模型的功能是不同的。例如，语音转换模型中第一个子模型用于对输入语音数据进行语音识别，第二个子模型用于生成输入语音数据对应的回复文本数据，第三个子模型用于将回复文本数据转换成对应的回复声学特征，第四个子模型用于将回复声学特征转换成回复语音数据。因此，不同子模型则对应不同的处理进度。

在本申请实施例中，处理结果数据为服务器按照目标处理进度，对输入语音数据进行处理后的数据，因此，终端无需调用语音转换模型中的每个子模型依次对该处理结果数据进行处理，而是要确定目标处理进度对应的开始子模型，则处理该处理结果数据时，终端会调用该开始子模型以及该开始子模型之后的子模型依次对该处理结果数据进行处理，得到回复语音数据，而不会调用该开始子模型之前的子模型。例如，目标处理进度为获取输入语音数据对应的回复声学特征，则对应的开始子模型为上述第四个子模型。

可选地，处理进度与开始子模型的对应关系存储在终端中，则终端确定目标处理进度后，则能够根据该对应关系确定开始子模型。

在一种可能的实现方式中，目标处理进度为获取输入语音数据的回复文本数据，处理结果数据包括该输入语音数据的回复文本数据。相应的，终端根据网络质量参数对应的目标处理进度，调用语音转换模型对处理结果数据继续进行处理，得到回复语音数据，包括：终端调用语音转换模型中的音素转换子模型，对回复文本数据进行转换，得到回复文本数据对应的音素序列；调用语音转换模型中的时长预测子模型，根据音素序列进行预测，得到音素序列中的每个音素的发音时长；调用语音转换模型中的特征提取子模型，根据音素序列中的每个音素和每个音素的发音时长进行特征转换，得到回复声学特征；调用语音转换模型中的语音转换子模型，根据回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，目标处理进度为获取输入语音数据的回复声学特征，终端处理结果数据包括输入语音数据的回复声学特征。相应的，终端根据网络质量参数对应的目标处理进度，调用语音转换模型对处理结果数据继续进行处理，得到回复语音数据，包括：终端调用语音转换模型中的语音转换子模型，根据回复声学特征进行语音转换，得到回复语音数据。

在一种可能的实现方式中，终端采用流式的语音转换模型，对处理结果数据进行流式处理。相应的，终端根据网络质量参数对应的目标处理进度，调用语音转换模型对处理结果数据继续进行处理，得到回复语音数据，包括：终端根据网络质量参数对应的目标处理进度，每次调用语音转换模型，对多组处理结果数据依次进行处理，直到处理完多组处理结果数据，得到回复语音数据。

其中，每组处理结果数据包括参考帧数的回复文本数据对应的处理结果数据。可选地，参考帧数为任意帧数，例如，参考帧数为1、2或其他数值。

终端在对处理结果数据进行处理时，先调用语音转换模型对第一组处理结果数据进行处理，得到第一组处理结果数据对应的语音片段后，再调用语音转换模型对下一组处理结果数据进行处理，得到下一组处理结果数据对应的语音片段，直到处理完多组处理结果数据，得到多个具有先后顺序的语音片段，该多个具有先后顺序的语音片段即为回复语音数据。采用这种语音处理方法，终端在对前一组处理结果数据进行处理，得到前一组对应的语音片段后，能够先输出该语音片段，而在输出该语音片段的同时，还能继续对当前的一组处理结果数据进行处理，以获取当前的一组处理结果数据对应的语音片段，实现了一边进行语音转换，一边输出已转换出的语音数据的效果，在需要转换的回复语音数据较长的情况下，提高了语音转换的效率，保证了语音处理的响应速度，能够提高用户粘性。

需要说明的一点是，终端调用语音转换模型对处理结果数据进行处理的方式仅是终端对处理结果数据进行处理的一种可选方式，在其他实施例中，终端也能够根据目标处理进度，通过其他方式对处理结果数据进行处理，来得到处理结果数据，本申请对此不做限制。

需要说明的一点是，可选地，终端中调用的语音转换模型与上述实施例中，服务器所调用的语音转换模型相同或者不同。其中，不同是指模型的大小上的不同，例如，终端中调用的语音转换模型的参数维度个数小于服务器所调用的语音转换模型的参数维度个数，由于参数维度个数越多，语音转换模型转换出的语音数据的质量越高，但进行语音转换的效率越低，考虑到终端的计算能力和存储资源有限，因此，服务器采用大模型，即参数维度个数多的模型，能够提高转换出的回复语音数据的质量，保证语音处理的效果，而终端采用小模型，即参数维度个数少的模型，能够提高语音处理的效率。

1004：终端输出该回复语音数据。

并且，终端根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，能够提高语音转换的效率。

需要说明的一点是，根据处理结果数据的不同，终端获取回复语音数据的实现方式能够分为三种，分别通过以下图11、图12和图13这三个实施例来阐述。

图11是本申请实施例提供的一种语音处理方法的流程图。在该实施例中，以执行主体为终端为例进行说明。参见图11，该方法包括以下步骤。

1101：终端响应于获取到输入语音数据，向服务器发送携带输入语音数据的回复请求。

该步骤的实现方式与上述1001类似，此处不再赘述。

1102：终端接收服务器返回的处理结果数据，处理结果数据包括输入语音数据的回复文本数据。

其中，处理结果数据由服务器根据终端与服务器之间的网络质量参数对应的目标处理进度，对输入语音数据进行处理后得到。目标处理进度用于指示服务器对输入语音数据的处理进度。

在本申请实施例中，终端接收到的处理结果数据包括输入语音数据的回复文本数据的原因包括以下两种：第一，输入语音数据对应的回复文本数据的转换频率属于第一频率范围，且网络质量参数对应的目标处理进度为获取输入语音数据对应的回复文本数据。第二，输入语音数据对应的回复文本数据的转换频率属于其他参考频率范围。

1103：若回复文本数据的转换频率属于第一频率范围，终端则根据网络质量参数对应的目标处理进度，对回复文本数据继续进行处理，得到回复语音数据。

终端接收服务器返回的处理结果数据后，在处理结果数据包括输入语音数据的回复文本数据的情况下，要先确定处理结果数据中回复文本数据的转换频率所属的频率范围。可选地，服务器不仅向终端发送处理结果数据，还会向终端发送处理结果数据中回复文本数据的转换频率所属的频率范围。相应的，终端接收服务器发送的该回复文本数据所属的频率范围。或者，服务器向终端发送该回复文本数据的转换频率，终端根据存储的多个参考频率范围，确定该回复文本数据所属的参考频率范围。例如，终端存储三个参考频率范围，分别为第一频率范围、第二频率范围和第三频率范围。其中，第一频率范围为三个参考频率范围中频率最小的，第二频率范围中的频率大于第一频率范围中的频率，第三频率范围为三个参考频率范围中频率最大的，则终端根据这三个参考频率范围，确定该回复文本数据所属的频率范围。

根据回复文本数据的转换频率所属频率范围的不同，终端获取回复语音数据包括以下实现方式。

在一种可能的实现方式中，若回复文本数据的转换频率属于第一频率范围，终端则根据网络质量参数对应的目标处理进度，对回复文本数据继续进行处理，得到回复语音数据。可选地，终端对该回复文本数据进行特征提取，得到回复声学特征，再对声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，若回复文本数据的转换频率属于第二频率范围，终端则从已存储的文本数据与声学特征的对应关系中，查询回复文本数据对应的回复声学特征；根据回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，若回复文本数据的转换频率属于第三频率范围，终端则从已存储的文本数据与语音数据的对应关系中，查询回复文本数据对应的回复语音数据。

在另一种可能的实现方式中，若回复文本数据中包括转换频率属于第二频率范围的第二文本数据以及转换频率属于第三频率范围的第三文本数据，则终端从已存储的文本数据与声学特征的对应关系中，查询第二文本数据对应的第二声学特征，从已存储的文本数据与语音数据的对应关系中，查询第三文本数据对应的第三语音数据，对第二声学特征进行语音转换，得到第二语音数据，将第二语音数据和第三语音数据进行拼接，得到回复语音数据。

可选地，终端通过高速缓存设备来存储文本数据和对应的声学特征，以及文本数据和对应的语音数据，如此能够提高数据读取的效率，从而能够提高语音处理效率。

1104：终端输出该回复语音数据。

在本申请实施例中，考虑到一些回复文本数据的转换频率较高，而每次都基于回复文本数据进行语音转换，则需要经常执行重复的工作，因此，划分了多个参考频率范围，对于转换频率属于较高频率范围的回复文本数据，终端会直接存储该回复文本数据对应的回复文本特征或者回复语音数据，因此，服务器会直接将回复文本数据确定为处理结果数据发送给终端，终端基于回复文本数据进行查询操作，基于查询到的回复声学特征获取回复语音数据，或者直接查询到回复语音数据，如此，对于一些转换频率较高的回复文本数据，则不必每次都基于回复文本数据进行语音转换，能够提高语音转换的效率，节省服务器和终端的计算资源。

而对于转换频率属于第一频率范围，即转换频率较低的回复文本数据，终端则不会存储对应的声学特征或者回复语音数据，如此能够节省终端的存储资源。相应的，对于这些转换频率较低的回复文本数据，服务器需要根据网络质量参数对应的目标处理进度，确定如何根据该回复文本数据获取处理结果数据，而终端也会根据网络质量参数对应的目标处理进度，确定如何根据处理结果数据获取回复语音数据，以实现在网络信号质量好的情况下，由服务器承担较多的处理任务，终端承担较少的处理任务，从而提高语音转换的质量，提高语音处理的效率和效果。而在网络信号质量差的情况下，由服务器承担较少的处理任务，终端承担较多的处理任务，以减少服务器与终端之间传输的数据量，从而保证语音转换的效率，降低语音处理的延时。

图12是本申请实施例提供的一种语音处理方法的流程图。在该实施例中，以执行主体为终端为例进行说明。参见图12，该方法包括以下步骤。

1201：终端响应于获取到输入语音数据，向服务器发送携带输入语音数据的回复请求。

该步骤的实现方式与上述1001类似，此处不再赘述。

1202：终端接收服务器返回的处理结果数据，处理结果数据包括第一处理数据和第二文本数据。

其中，第二文本数据为输入语音数据的回复文本数据中转换频率属于第二频率范围的文本数据。第一处理数据为服务器根据目标处理进度和第一文本数据所获取的数据，第一文本数据为回复文本数据中转换频率属于第一频率范围的文本数据。也即是，服务器在获取到输入语音数据对应的回复文本数据后，确定出回复文本数据中包括转换频率属于第二频率范围的第二文本数据，以及转换频率属于第一频率范围的第一文本数据，根据网络质量参数对应的目标处理进度对第一文本数据进行处理后，得到了第一处理数据，将第一处理数据和该第二文本数据确定为处理结果数据，然后向终端发送了该处理结果数据。

1203：终端查询第二文本数据对应的第二声学特征。

可选地，终端从已存储的文本数据与声学特征的对应关系中，查询第二文本数据对应的第二声学特征。

在本申请实施例中，考虑到转换频率属于第二频率范围的文本数据的转换频率较高，因此，对于转换频率属于第二频率范围的文本数据，终端会存储文本数据对应的声学特征，则服务器在获取到转换频率属于第二频率范围的文本数据时，不对该文本数据进行处理，而直接将其发送给终端，而终端直接查询该文本数据对应的声学特征，只需对该声学特征进行语音转换，则能够得到对应的语音数据，节省了提取文本数据对应的声学特征的步骤，提高了语音处理效率。另外，由于该文本数据对应的声学特征的数据量要远远小于该文本数据对应的语音数据的数据量，因此，相比于存储该文本数据对应的语音数据来说，存储声学特征能够降低对终端的存储资源的消耗。

1204：终端根据目标处理进度，对第二声学特征和第一处理数据继续进行处理，得到回复语音数据。

根据目标处理进度的不同，该步骤包括以下几种实现方式。

在一种可能的实现方式中，目标处理进度为获取输入语音数据对应的回复文本数据，第一处理数据为第一文本数据。相应的，终端根据目标处理进度，对第二声学特征和第一处理数据继续进行处理，得到回复语音数据，包括：终端对第一文本数据进行特征提取，得到第一声学特征；将第一声学特征和第二声学特征进行拼接，得到回复声学特征；对回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，目标处理进度为获取输入语音数据对应的回复声学特征，第一处理数据为第一文本数据对应的第一声学特征。相应的，终端根据目标处理进度，对第二声学特征和第一处理数据继续进行处理，得到回复语音数据，包括：终端将第一声学特征和第二声学特征进行拼接，得到回复声学特征；对回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，目标处理进度为获取输入语音数据对应的回复语音数据，第一处理数据为第一文本数据对应的第一语音数据。相应的，根据目标处理进度，对第二声学特征和第一处理数据继续进行处理，得到回复语音数据，包括：终端对第二声学特征进行语音转换，得到第二语音数据；将第一语音数据和第二语音数据进行拼接，得到回复语音数据。

1205：终端输出该回复语音数据。

图13是本申请实施例提供的一种语音处理方法的流程图。在该实施例中，以执行主体为终端为例进行说明。参见图13，该方法包括以下步骤。

1301：终端响应于获取到输入语音数据，向服务器发送携带输入语音数据的回复请求。

该步骤的实现方式与上述1001类似，此处不再赘述。

1302：终端接收服务器返回的处理结果数据，处理结果数据包括第一处理数据和第三文本数据。

其中，第三文本数据为输入语音数据的回复文本数据中转换频率属于第三频率范围的文本数据。第一处理数据为服务器根据目标处理进度和第一文本数据所获取的数据，第一文本数据为回复文本数据中转换频率属于第一频率范围的文本数据。也即是，服务器在获取到输入语音数据对应的回复文本数据后，确定出回复文本数据中包括转换频率属于第三频率范围的第三文本数据，以及转换频率属于第一频率范围的第一文本数据，根据网络质量参数对应的目标处理进度对第一文本数据进行处理后，得到了第一处理数据，将第一处理数据和该第三文本数据确定为处理结果数据，然后向终端发送了该处理结果数据。

1303：终端查询第三文本数据对应的第三语音数据。

可选地，终端从已存储的文本数据与语音数据的对应关系中，查询第三文本数据对应的第三语音数据。

在本申请实施例中，考虑到转换频率属于第三频率范围的文本数据的转换频率较高，因此，对于转换频率属于第三频率范围的文本数据，终端会存储文本数据对应的语音数据，则服务器在获取到转换频率属于第三频率范围的文本数据时，不对该文本数据进行处理，而直接将其发送给终端，而终端直接查询到该文本数据对应的语音数据，从而节省了对该文本数据进行语音转换的步骤，提高了语音处理效率。

1304：终端根据目标处理进度，对第三语音数据和第一处理数据继续进行处理，得到回复语音数据。

根据目标处理进度的不同，该步骤包括以下几种实现方式。

在一种可能的实现方式中，目标处理进度为获取输入语音数据对应的回复文本数据，第一处理数据为第一文本数据。相应的，终端根据目标处理进度，对第三语音数据和第一处理数据继续进行处理，得到回复语音数据，包括：终端对第一文本数据进行语音转换，得到第一语音数据；将第一语音数据和第三语音数据进行拼接，得到回复语音数据。

可选地，终端对第一文本数据进行语音转换，得到第一语音数据的实现方式为：终端对第一文本数据进行特征提取，得到第一声学特征，对第一声学特征进行语音转换，得到第一语音数据。

在另一种可能的实现方式中，目标处理进度为获取输入语音数据对应的回复声学特征，第一处理数据为第一文本数据对应的第一声学特征。相应的，终端根据目标处理进度，对第三语音数据和第一处理数据继续进行处理，得到回复语音数据，包括：终端对第一声学特征进行语音转换，得到第一语音数据；终端将第一语音数据和第三语音数据进行拼接，得到回复语音数据。

在另一种可能的实现方式中，目标处理进度为获取输入语音数据对应的回复语音数据，第一处理数据为第一文本数据对应的第一语音数据。相应的，终端根据目标处理进度，对第三语音数据和第一处理数据继续进行处理，得到回复语音数据，包括：终端将第一语音数据和第三语音数据进行拼接，得到回复语音数据。

1305：终端输出该回复语音数据。

需要说明的一点是，如果仅依靠服务器对输入语音数据进行处理来得到回复语音数据，则对网络信号质量的依赖非常严重，一旦网络信号出现故障，对话将无法完成。而如果仅由终端对输入语音数据进行处理来得到回复语音数据，则由于终端的计算能力有限，处理得到的回复语音数据的质量会很低。另外，如果只是通过服务器和终端之间简单地配合进行语音处理，例如，在网络信号质量好的时候通过服务器进行语音处理，在网络信号质量不好的时候，通过终端进行语音处理，则在网络信号质量不稳定的情况下，输出的回复语音信号会频繁地在高质量语音和低质量语音之间切换，造成用户听觉上的不舒适。而本申请所提供的方案，服务器和终端会根据网络信号质量相互配合对输入语音数据处理，以得到回复语音数据，不是完全依赖于服务器，因此，降低了对网络的依赖程度，从而能够在网络信号质量差的情况下，降低语音处理的延时，提高语音处理的鲁棒性。并且，也不完全依赖于终端，因此，不会受限于终端的计算能力，在提高语音处理的效率的同时，提高了处理得到的回复语音数据的质量。并且，在对语音数据进行处理时，服务器会按照网络质量参数对应的目标处理进度，对输入语音数据进行处理，得到处理结果数据，而终端也会根据网络质量参数对应的目标处理进度，继续对处理结果数据进行处理，以得到回复语音数据，也即是，不论网络信号质量是好是坏，服务器和终端都会根据网络信号质量对应的目标处理进度来相互配合进行语音处理，而不会简单地完全交给服务器处理，或者完全交给终端处理，因此，即使网络信号质量不稳定，回复语音数据的质量也会平滑过渡，而不会在高质量语音和低质量语音之间频繁切换，从而能够提高语音处理的效果，提高用户粘性。

需要说明的一点是，上述多个实施例能够以任意方式结合，本申请对此不做限制。

图14是本申请实施例提供的一种语音处理装置的框图。参见图14，该装置包括：

请求发送模块1401，被配置为响应于获取到输入语音数据，向服务器发送携带输入语音数据的回复请求；

数据接收模块1402，被配置为接收服务器返回的处理结果数据，处理结果数据由服务器根据终端与服务器之间的网络质量参数对应的目标处理进度，对输入语音数据进行处理后得到，目标处理进度用于指示服务器对输入语音数据的处理进度；

数据处理模块1403，被配置为根据网络质量参数对应的目标处理进度，对处理结果数据继续进行处理，得到输入语音数据对应的回复语音数据。

在一种可能的实现方式中，数据处理模块1403，被配置为根据网络质量参数对应的目标处理进度，调用语音转换模型对处理结果数据继续进行处理，得到回复语音数据。

在另一种可能的实现方式中，数据处理模块1403，被配置为确定目标处理进度对应的开始子模型，开始子模型为开始对处理结果数据进行处理的子模型；从语音转换模型中的开始子模型开始，对处理结果数据进行处理，直至得到语音转换模型输出的回复语音数据。

在另一种可能的实现方式中，处理结果数据包括输入语音数据的回复文本数据，数据处理模块1403，被配置为调用语音转换模型中的音素转换子模型，对回复文本数据进行转换，得到回复文本数据对应的音素序列；调用语音转换模型中的时长预测子模型，根据音素序列进行预测，得到音素序列中的每个音素的发音时长；调用语音转换模型中的特征提取子模型，根据音素序列中的每个音素和每个音素的发音时长进行特征转换，得到回复声学特征；调用语音转换模型中的语音转换子模型，根据回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，处理结果数据包括输入语音数据的回复声学特征，数据处理模块1403，被配置为调用语音转换模型中的语音转换子模型，根据回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，处理结果数据包括输入语音数据的回复文本数据，数据处理模块1403，被配置为若回复文本数据的转换频率属于第一频率范围，则根据网络质量参数对应的目标处理进度，对回复文本数据继续进行处理，得到回复语音数据；其中，转换频率表示将文本数据转换成对应的语音数据的频率，第一频率范围为多个参考频率范围中频率最小的。

在另一种可能的实现方式中，装置还包括：

第一查询模块，被配置为若回复文本数据的转换频率属于第二频率范围，则从已存储的文本数据与声学特征的对应关系中，查询回复文本数据对应的回复声学特征；根据回复声学特征进行语音转换，得到回复语音数据；其中，第二频率范围中的频率大于第一频率范围中的频率。

在另一种可能的实现方式中，装置还包括：

第二查询模块，被配置为若回复文本数据的转换频率属于第三频率范围，则从已存储的文本数据与语音数据的对应关系中，查询回复文本数据对应的回复语音数据；其中，第三频率范围为多个参考频率范围中频率最大的。

在另一种可能的实现方式中，数据处理模块1403包括：

第一查询单元，被配置为查询第二文本数据对应的第二声学特征；

第一处理单元，被配置为根据目标处理进度，对第二声学特征和第一处理数据继续进行处理，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据，第一处理单元，被配置为对第一文本数据进行特征提取，得到第一声学特征；将第一声学特征和第二声学特征进行拼接，得到回复声学特征；对回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据对应的第一声学特征，第一处理单元，被配置为将第一声学特征和第二声学特征进行拼接，得到回复声学特征；对回复声学特征进行语音转换，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据对应的第一语音数据，第一处理单元，被配置为对第二声学特征进行语音转换，得到第二语音数据；将第一语音数据和第二语音数据进行拼接，得到回复语音数据。

在另一种可能的实现方式中，数据处理模块1403包括：

第二查询单元，被配置为查询第三文本数据对应的第三语音数据；

第二处理单元，被配置为根据目标处理进度，对第三语音数据和第一处理数据继续进行处理，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据，第二处理单元，被配置为对第一文本数据进行语音转换，得到第一语音数据；将第一语音数据和第三语音数据进行拼接，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据对应的第一声学特征，第二处理单元，被配置为对第一声学特征进行语音转换，得到第一语音数据；将第一语音数据和第三语音数据进行拼接，得到回复语音数据。

在另一种可能的实现方式中，第一处理数据为第一文本数据对应的第一语音数据，第二处理单元，被配置为将第一语音数据和第三语音数据进行拼接，得到回复语音数据。

在另一种可能的实现方式中，服务器用于以参考帧数为单位，发送处理结果数据；

数据接收模块1402，被配置为接收第一组处理结果数据后，再接收下一组处理结果数据，直到接收完输入语音数据对应的多组处理结果数据，每组处理结果数据包括参考帧数的处理结果数据。

在另一种可能的实现方式中，数据处理模块1403，被配置为根据网络质量参数对应的目标处理进度，每次调用语音转换模型，对多组处理结果数据依次进行处理，直到处理完多组处理结果数据，得到回复语音数据。

图15是本申请实施例提供的一种语音处理装置的框图。参见图15，该装置包括：

数据接收模块1501，被配置为接收终端发送的回复请求，回复请求携带终端获取到的输入语音数据；

数据处理模块1502，被配置为根据服务器与终端之间的网络质量参数对应的目标处理进度，对输入语音数据进行处理，得到处理结果数据，目标处理进度用于指示服务器对输入语音数据的处理进度；

数据发送模块1503，被配置为向终端发送处理结果数据，终端用于根据网络质量参数对应的目标处理进度和处理结果数据，获取输入语音数据对应的回复语音数据。

在另一种可能的实现方式中，数据处理模块1502，被配置为根据网络质量参数对应的目标处理进度，调用语音转换模型对输入语音数据进行处理，得到处理结果数据。

在另一种可能的实现方式中，数据处理模块1502，被配置为确定目标处理进度对应的结束子模型，结束子模型用于指示服务器对输入语音数据进行处理的最后一个子模型；调用语音转换模型中至少一个子模型，对输入语音数据进行处理，直至得到结束子模型输出的处理结果数据。

在另一种可能的实现方式中，数据处理模块1502，还被配置为根据网络质量参数，确定语音转换模型的参数维度个数，网络质量参数与语音转换模型的参数维度个数呈正相关关系，且语音转换模型的参数维度个数与语音转换模型转换出的语音数据的质量参数呈正相关关系。

在另一种可能的实现方式中，目标处理进度为获取输入语音数据的回复语音数据，数据处理模块1502，被配置为调用语音转换模型中的音素转换子模型，对输入语音数据的回复文本数据进行转换，得到回复文本数据对应的音素序列；调用语音转换模型中的时长预测子模型，根据音素序列进行预测，得到音素序列中的每个音素的发音时长；调用语音转换模型中的特征提取子模型，根据音素序列中的每个音素和每个音素的发音时长进行特征转换，得到回复声学特征；调用语音转换模型中的语音转换子模型，根据回复声学特征进行语音转换，得到回复语音数据；将回复语音数据确定为处理结果数据。

在另一种可能的实现方式中，目标处理进度为获取输入语音数据的回复声学特征，数据处理模块1502，被配置为调用语音转换模型中的音素转换子模型，对输入语音数据的回复文本数据进行转换，得到回复文本数据对应的音素序列；调用语音转换模型中的时长预测子模型，根据音素序列进行预测，得到音素序列中的每个音素的发音时长；调用语音转换模型中的特征提取子模型，根据音素序列中的每个音素和每个音素的发音时长进行特征转换，得到回复声学特征；将回复声学特征确定为处理结果数据。

在另一种可能的实现方式中，数据处理模块1502，被配置为获取输入语音数据的回复文本数据；若回复文本数据的转换频率属于第一频率范围，则根据网络质量参数对应的目标处理进度和回复文本数据，获取处理结果数据；其中，转换频率表示将文本数据转换成对应的语音数据的频率，第一频率范围为多个参考频率范围中频率最小的。

在另一种可能的实现方式中，数据处理模块1502，还被配置为若回复文本数据的转换频率属于第二频率范围或者第三频率范围，则将回复文本数据确定为处理结果数据；第二频率范围中的频率大于第一频率范围中的频率，第三频率范围为多个参考频率范围中频率最大的；向终端发送处理结果数据。

在另一种可能的实现方式中，数据处理模块1502，被配置为若输入语音数据的回复文本数据包括转换频率属于第一频率范围的第一文本数据，以及转换频率属于其他参考频率范围的其他文本数据，则根据网络质量参数对应的目标处理进度和第一文本数据，获取第一处理数据；将第一处理数据和其他文本数据确定为处理结果数据；其中，转换频率表示将文本数据转换成对应的语音数据的频率，第一频率范围为多个参考频率范围中频率最小的。

在另一种可能的实现方式中，数据处理模块1502，被配置为获取输入语音数据对应的多组回复文本数据，每组回复文本数据包括参考帧数的回复文本数据；根据网络质量参数对应的目标处理进度，每次调用语音转换模型，对多组回复文本数据依次进行处理，直到处理完多组回复文本数据，得到输入语音数据对应的多组处理结果数据，每组处理结果数据包括参考帧数的回复文本数据对应的处理结果数据。

在另一种可能的实现方式中，数据发送模块1503，被配置为每获取到一组处理结果数据，则向终端发送一组处理结果数据，直到发送完输入语音数据对应的多组处理结果数据。

需要说明的是：上述实施例提供的语音处理装置在进行语音处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音处理装置与语音处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种语音处理系统，系统包括终端和服务器；

终端用于响应于获取到输入语音数据，向服务器发送携带输入语音数据的回复请求；

服务器用于根据服务器与终端之间的网络质量参数对应的目标处理进度，对输入语音数据进行处理，得到处理结果数据，目标处理进度用于指示服务器对输入语音数据的处理进度；

终端还用于根据网络质量参数对应的目标处理进度和处理结果数据，获取输入语音数据对应的回复语音数据。

本申请实施例还提供了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的语音处理方法中执行的操作。

可选地，该电子设备提供为终端。图16示出了本申请一个示例性实施例提供的终端1600的结构框图。该终端1600可以是：智能手机、平板电脑、MP3播放器（Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3）、MP4（MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4）播放器、笔记本电脑或台式电脑。终端1600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端1600包括有：处理器1601和存储器1602。

处理器1601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1601可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central ProcessingUnit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1601可以集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1601还可以包括AI（Artificial Intelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1602中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器1601所执行以实现本申请中方法实施例提供的语音处理方法。

在一些实施例中，终端1600还可选包括有：外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地，外围设备包括：射频电路1604、显示屏1605、摄像头组件1606、音频电路1607、定位组件1608和电源1609中的至少一种。

外围设备接口1603可被用于将I/O（Input /Output，输入/输出）相关的至少一个外围设备连接到处理器1601和存储器1602。在一些实施例中，处理器1601、存储器1602和外围设备接口1603被集成在同一芯片或电路板上；在一些其他实施例中，处理器1601、存储器1602和外围设备接口1603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1604用于接收和发射RF（Radio Frequency，射频）信号，也称电磁信号。射频电路1604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2G、3G、4G及5G）、无线局域网和/或WiFi（Wireless Fidelity，无线保真）网络。在一些实施例中，射频电路1604还可以包括NFC（Near Field Communication，近距离无线通信）有关的电路，本申请对此不加以限定。

显示屏1605用于显示UI（User Interface，用户界面）。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1605是触摸显示屏时，显示屏1605还具有采集在显示屏1605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1601进行处理。此时，显示屏1605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1605可以为一个，设置终端1600的前面板；在另一些实施例中，显示屏1605可以为至少两个，分别设置在终端1600的不同表面或呈折叠设计；在另一些实施例中，显示屏1605可以是柔性显示屏，设置在终端1600的弯曲表面上或折叠面上。甚至，显示屏1605还可以设置成非矩形的不规则图形，也即异形屏。显示屏1605可以采用LCD（Liquid Crystal Display，液晶显示屏）、OLED（Organic Light-Emitting Diode，有机发光二极管）等材质制备。

摄像头组件1606用于采集图像或视频。可选地，摄像头组件1606包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR（Virtual Reality，虚拟现实）拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1601进行处理，或者输入至射频电路1604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1601或射频电路1604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1607还可以包括耳机插孔。

定位组件1608用于定位终端1600的当前地理位置，以实现导航或LBS（LocationBased Service，基于位置的服务）。定位组件1608可以是基于美国的GPS（GlobalPositioning System，全球定位系统）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1609用于为终端1600中的各个组件进行供电。电源1609可以是交流电、直流电、一次性电池或可充电电池。当电源1609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1600还包括有一个或多个传感器1610。该一个或多个传感器1610包括但不限于：加速度传感器1611、陀螺仪传感器1612、压力传感器1613、指纹传感器1614、光学传感器1615以及接近传感器1616。

加速度传感器1611可以检测以终端1600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1611可以用于检测重力加速度在三个坐标轴上的分量。处理器1601可以根据加速度传感器1611采集的重力加速度信号，控制显示屏1605以横向视图或纵向视图进行用户界面的显示。加速度传感器1611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1612可以检测终端1600的机体方向及转动角度，陀螺仪传感器1612可以与加速度传感器1611协同采集用户对终端1600的3D动作。处理器1601根据陀螺仪传感器1612采集的数据，可以实现如下功能：动作感应（比如根据用户的倾斜操作来改变UI）、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1613可以设置在终端1600的侧边框和/或显示屏1605的下层。当压力传感器1613设置在终端1600的侧边框时，可以检测用户对终端1600的握持信号，由处理器1601根据压力传感器1613采集的握持信号进行左右手识别或快捷操作。当压力传感器1613设置在显示屏1605的下层时，由处理器1601根据用户对显示屏1605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1614用于采集用户的指纹，由处理器1601根据指纹传感器1614采集到的指纹识别用户的身份，或者，由指纹传感器1614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1614可以被设置终端1600的正面、背面或侧面。当终端1600上设置有物理按键或厂商Logo时，指纹传感器1614可以与物理按键或厂商Logo集成在一起。

光学传感器1615用于采集环境光强度。在一个实施例中，处理器1601可以根据光学传感器1615采集的环境光强度，控制显示屏1605的显示亮度。具体地，当环境光强度较高时，调高显示屏1605的显示亮度；当环境光强度较低时，调低显示屏1605的显示亮度。在另一个实施例中，处理器1601还可以根据光学传感器1615采集的环境光强度，动态调整摄像头组件1606的拍摄参数。

接近传感器1616，也称距离传感器，设置在终端1600的前面板。接近传感器1616用于采集用户与终端1600的正面之间的距离。在一个实施例中，当接近传感器1616检测到用户与终端1600的正面之间的距离逐渐变小时，由处理器1601控制显示屏1605从亮屏状态切换为息屏状态；当接近传感器1616检测到用户与终端1600的正面之间的距离逐渐变大时，由处理器1601控制显示屏1605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图16中示出的结构并不构成对终端1600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该电子设备提供为服务器。图17是本申请实施例提供的一种服务器的结构示意图，该服务器1700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）1701和一个或一个以上的存储器1702，其中，所述存储器1702中存储有至少一条程序代码，所述至少一条程序代码由所述处理器1701加载并执行以实现上述各个方法实施例提供的语音处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的语音处理方法中执行的操作。

本申请实施例还提供了一种计算机程序，该计算机程序中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的语音处理方法中执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据；

其中，所述根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据，包括：根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述回复语音数据；

其中，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述回复语音数据，包括：确定所述目标处理进度对应的开始子模型，所述开始子模型为开始对所述处理结果数据进行处理的子模型；从所述语音转换模型中的所述开始子模型开始，对所述处理结果数据进行处理，直至得到所述语音转换模型输出的所述回复语音数据。

2.根据权利要求1所述的方法，其特征在于，所述处理结果数据包括所述输入语音数据的回复文本数据，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述回复语音数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述处理结果数据包括所述输入语音数据的回复声学特征，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述回复语音数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述处理结果数据包括所述输入语音数据的回复文本数据，所述根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述处理结果数据包括第一处理数据和第二文本数据，所述第二文本数据为所述输入语音数据的回复文本数据中转换频率属于第二频率范围的文本数据，所述第一处理数据为所述服务器根据所述目标处理进度和第一文本数据所获取的数据，所述第一文本数据为所述回复文本数据中转换频率属于第一频率范围的文本数据，转换频率表示将文本数据转换成对应的语音数据的频率，所述第一频率范围为多个参考频率范围中频率最小的，所述第二频率范围中的频率大于所述第一频率范围中的频率。

8.根据权利要求7所述的方法，其特征在于，所述根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据，包括：

查询所述第二文本数据对应的第二声学特征；

9.根据权利要求8所述的方法，其特征在于，所述第一处理数据为所述第一文本数据，所述根据所述目标处理进度，对所述第二声学特征和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

对所述第一文本数据进行特征提取，得到第一声学特征；

10.根据权利要求8所述的方法，其特征在于，所述第一处理数据为所述第一文本数据对应的第一声学特征，所述根据所述目标处理进度，对所述第二声学特征和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

11.根据权利要求8所述的方法，其特征在于，所述第一处理数据为所述第一文本数据对应的第一语音数据，所述根据所述目标处理进度，对所述第二声学特征和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

对所述第二声学特征进行语音转换，得到第二语音数据；

12.根据权利要求1所述的方法，其特征在于，所述处理结果数据包括第一处理数据和第三文本数据，所述第三文本数据为所述输入语音数据的回复文本数据中转换频率属于第三频率范围的文本数据，所述第一处理数据为所述服务器根据所述目标处理进度和第一文本数据所获取的数据，所述第一文本数据为所述回复文本数据中转换频率属于第一频率范围的文本数据，转换频率表示将文本数据转换成对应的语音数据的频率，所述第一频率范围为多个参考频率范围中频率最小的，所述第三频率范围为所述多个参考频率范围中频率最大的。

13.根据权利要求12所述的方法，其特征在于，所述根据所述网络质量参数对应的所述目标处理进度，对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据，包括：

查询所述第三文本数据对应的第三语音数据；

14.根据权利要求13所述的方法，其特征在于，所述第一处理数据为所述第一文本数据，所述根据所述目标处理进度，对所述第三语音数据和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

对所述第一文本数据进行语音转换，得到第一语音数据；

15.根据权利要求13所述的方法，其特征在于，所述第一处理数据为所述第一文本数据对应的第一声学特征，所述根据所述目标处理进度，对所述第三语音数据和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

对所述第一声学特征进行语音转换，得到第一语音数据；

16.根据权利要求13所述的方法，其特征在于，所述第一处理数据为所述第一文本数据对应的第一语音数据，所述根据所述目标处理进度，对所述第三语音数据和所述第一处理数据继续进行处理，得到所述回复语音数据，包括：

17.根据权利要求1所述的方法，其特征在于，所述服务器用于以参考帧数为单位，发送所述处理结果数据；所述接收所述服务器返回的处理结果数据包括：

18.根据权利要求17所述的方法，其特征在于，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述回复语音数据，包括：

19.一种语音处理方法，其特征在于，所述方法包括：

向所述终端发送所述处理结果数据，所述终端用于根据所述网络质量参数对应的所述目标处理进度和所述处理结果数据，获取所述输入语音数据对应的回复语音数据；

其中，所述根据服务器与所述终端之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理，得到处理结果数据，包括：根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据；

其中，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据，包括：确定所述目标处理进度对应的结束子模型，所述结束子模型用于指示所述服务器对所述输入语音数据进行处理的最后一个子模型；调用所述语音转换模型中至少一个子模型，对所述输入语音数据进行处理，直至得到所述结束子模型输出的所述处理结果数据。

20.根据权利要求19所述的方法，其特征在于，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据之前，所述方法还包括：

21.根据权利要求19所述的方法，其特征在于，所述目标处理进度为获取输入语音数据的回复语音数据，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据，包括：

将所述回复语音数据确定为所述处理结果数据。

22.根据权利要求19所述的方法，其特征在于，所述目标处理进度为获取输入语音数据的回复声学特征，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据，包括：

将所述回复声学特征确定为所述处理结果数据。

23.根据权利要求19所述的方法，其特征在于，所述根据服务器与所述终端之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理，得到处理结果数据，包括：

获取所述输入语音数据的回复文本数据；

24.根据权利要求23所述的方法，其特征在于，所述方法还包括：

向所述终端发送所述处理结果数据。

25.根据权利要求19所述的方法，其特征在于，所述根据服务器与所述终端之间的网络质量参数对应的目标处理进度，对所述输入语音数据进行处理，得到处理结果数据，包括：

26.根据权利要求19所述的方法，其特征在于，所述根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到所述处理结果数据，包括：

27.根据权利要求26所述的方法，其特征在于，所述向所述终端发送所述处理结果数据，包括：

28.一种语音处理装置，其特征在于，所述装置包括：

数据处理模块，被配置为根据所述网络质量参数对应的所述目标处理进度，调用语音转换模型对所述处理结果数据继续进行处理，得到所述输入语音数据对应的回复语音数据；

其中，所述数据处理模块，被配置为确定所述目标处理进度对应的开始子模型，所述开始子模型为开始对所述处理结果数据进行处理的子模型；从所述语音转换模型中的所述开始子模型开始，对所述处理结果数据进行处理，直至得到所述语音转换模型输出的所述回复语音数据。

29.一种语音处理装置，其特征在于，所述装置包括：

数据处理模块，被配置为根据服务器与所述终端之间的网络质量参数对应的目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到处理结果数据，所述目标处理进度用于指示所述服务器对所述输入语音数据的处理进度；

数据发送模块，被配置为向所述终端发送所述处理结果数据，所述终端用于根据所述网络质量参数对应的所述目标处理进度和所述处理结果数据，获取所述输入语音数据对应的回复语音数据；

其中，所述数据处理模块，被配置为确定所述目标处理进度对应的结束子模型，所述结束子模型用于指示所述服务器对所述输入语音数据进行处理的最后一个子模型；调用所述语音转换模型中至少一个子模型，对所述输入语音数据进行处理，直至得到所述结束子模型输出的所述处理结果数据。

30.一种语音处理系统，其特征在于，所述系统包括终端和服务器；

所述服务器用于根据所述服务器与所述终端之间的网络质量参数对应的目标处理进度，调用语音转换模型对所述输入语音数据进行处理，得到处理结果数据，所述目标处理进度用于指示所述服务器对所述输入语音数据的处理进度；

所述终端还用于根据所述网络质量参数对应的所述目标处理进度和所述处理结果数据，获取所述输入语音数据对应的回复语音数据；

其中，所述服务器用于确定所述目标处理进度对应的结束子模型，所述结束子模型用于指示所述服务器对所述输入语音数据进行处理的最后一个子模型；调用所述语音转换模型中至少一个子模型，对所述输入语音数据进行处理，直至得到所述结束子模型输出的所述处理结果数据。

31.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述程序代码由所述处理器加载并执行以实现如权利要求1至权利要求27任一项所述的语音处理方法所执行的操作。

32.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求27任一项所述的语音处理方法所执行的操作。