CN112449208A

CN112449208A - 语音处理方法及其装置

Info

Publication number: CN112449208A
Application number: CN202011289739.0A
Authority: CN
Inventors: 邢文浩; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-03-05
Anticipated expiration: 2040-11-17
Also published as: CN112449208B

Abstract

本公开提供了一种语音处理方法及其装置。一种语音处理方法可包括以下步骤：在第一限速设置下向接收端发送音频包；从接收端接收限速反馈信息，所述限速反馈信息用于通知当前可用带宽不够；响应于所述限速反馈信息，基于第一限速设置确定第二限速设置；以及根据第二限速设置进行语音通信。

Description

语音处理方法及其装置

技术领域

本公开涉及音频技术领域，尤其涉及一种语音处理方法及其装置。

背景技术

随着网络直播的发展，各种直播平台纷纷出现。为了丰富直播的内容，很多直播平台都具有连麦互动的功能，即在同一直播平台上，两个或多个主播之间或者主播与用户之间可进行语音连麦互动。

在语音连麦过程中，发送端需要通过麦克风进行音频采集，音频预处理，音频编码，再将编码好的音频包通过网络发送给接收端，然后接收端进行解码，并且由扬声器进行播放。当网络状态较差时，会导致可用带宽很小，如果可用带宽小于音频包需要的带宽时，就会产生拥塞，这将导致音频包无法正常到达接收端，无法进行正常通话。

发明内容

本公开提供一种语音处理方法及其装置，以至少解决在语音通信过程中当网络状态发生变化时保证通信顺畅的问题。

根据本公开实施例的第一方面，提供一种语音处理方法，所述方法可包括：在第一限速设置下向接收端发送音频包；从接收端接收限速反馈信息，所述限速反馈信息用于通知当前可用带宽不够；响应于所述限速反馈信息，基于第一限速设置确定第二限速设置；以及根据第二限速设置进行语音通信。

可选地，限速设置可包括不限速设置、第一级限速设置、第二级限速设置和第三级限速设置，并且限速程度越来越高。

可选地，第一级限速设置可以是用于降低当前使用的码率的设置，第二级限速设置可以是用于启用动态比特率编码模式，开启不连续传输并降低前向纠错技术使用的码率的设置，第三级限速设置可以是用于合并音频帧并且采用长帧方式的设置。

可选地，第二限速设置可比第一限速设置的程度高一级。

可选地，基于第一限速设置确定第二限速设置的步骤可包括：在第一限速设置为不限速设置的情况下，如果接收到限速反馈信息，则将第一级限速设置确定为第二限速设置；在第一限速设置为第一级限速设置的情况下，如果接收到限速反馈信息，则将第二级限速设置确定为第二限速设置；在第一限速设置为第二级限速设置的情况下，如果接收到限速反馈信息，则将第三级限速设置确定为第二限速设置。

可选地，所述方法还可包括：在基于第一限速设置确定第二限速设置之后，在第一时间段内不根据限速反馈信息进行限速设置处理。

可选地，所述方法还可包括：如果在第一级限速设置、第二级限速设置或第三级限速设置下进行语音通信时在第二时间段内未接收到限速反馈信息，则可根据当前的限速设置执行不同的处理。

可选地，根据当前的限速设置执行不同的处理的步骤可包括：在当前的限速设置是第三级限速设置的情况下，取消第三级限速设置并且采用第二级限速设置进行语音通信；在当前的限速设置是第二级限速设置的情况下，取消第二级限速设置并且采用第一级限速设置进行语音通信；以及在当前的限速设置是第一级限速设置的情况下，进入探测模式，其中，所述探测模式用于通过增加冗余包使当前码率达到无损状态码率。

可选地，所述方法可包括：在探测模式下通过添加冗余包的数量使当前设置的码率增大至无损状态码率；在按照无损状态码率进行语音通信时，如果在第三时间段内未接收到限速反馈信息，则取消第一级限速设置并且恢复不限速设置。

根据本公开实施例的第二方面，提供一种语音处理装置，所述装置可包括：发送模块，被配置为在第一限速设置下向接收装置发送音频包；接收模块，被配置为从接收装置接收限速反馈信息，所述限速反馈信息用于通知发送装置当前可用带宽不够；以及处理模块，被配置为响应于所述限速反馈信息，基于第一限速设置确定第二限速设置，并且控制发送模块根据第二限速设置进行语音通信。

可选地，第二限速设置可比第一限速设置的程度高一级。

可选地，处理模块可被配置为：在第一限速设置为不限速设置的情况下，如果接收到限速反馈信息，则将第一级限速设置确定为第二限速设置；在第一限速设置为第一级限速设置的情况下，如果接收到限速反馈信息，则将第二级限速设置确定为第二限速设置；在第一限速设置为第二级限速设置的情况下，如果接收到限速反馈信息，则将第三级限速设置确定为第二限速设置。

可选地，处理模块可被配置为：在基于第一限速设置确定第二限速设置之后，在第一时间段内不根据限速反馈信息进行限速设置处理。

可选地，处理模块可被配置为：如果在第一级限速设置、第二级限速设置或第三级限速设置下进行语音通信时在第二时间段内未接收到限速反馈信息，则根据当前的限速设置执行不同的处理。

可选地，处理模块可被配置为：在当前的限速设置是第三级限速设置的情况下，取消第三级限速设置并且控制发送模块采用第二级限速设置进行语音通信；在当前的限速设置是第二级限速设置的情况下，取消第二级限速设置并且控制发送模块采用第一级限速设置进行语音通信；以及在当前的限速设置是第一级限速设置的情况下，进入探测模式，其中，所述探测模式用于通过增加冗余包使当前码率达到无损状态码率。

可选地，处理模块可被配置为：在探测模式下通过添加冗余包的数量使当前设置的码率增大至无损状态码率；在控制发送模块按照无损状态码率进行语音通信时，如果在第三时间段内未接收到限速反馈信息，则取消第一级限速设置并且恢复不限速设置。

根据本公开实施例的第三方面，提供一种电子设备，所述电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的语音处理方法。

根据本公开实施例的第四方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的语音处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的语音处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在语音通信过程中，当网络状态发生变化时，可根据不同的网络状态进行调整，使音频在带宽充足时达到高音质，同时在带宽很低时使用超低码率进行传输，保持通信顺畅。此外，在网络带宽不足时采用分级降速策略以保证正常通话，在网络带宽恢复后使用探测策略以防止反复切换编码码率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开实施例的用于语音通信的应用环境的示图；

图2是根据本公开实施例的语音处理方法的流程图；

图3是根据本公开另一实施例的语音处理方法的流程图；

图4是根据本公开实施例的语音处理方法的流程示意图；

图5是根据本公开实施例的应用探测模式的示意图；

图6是根据本公开实施例的语音处理设备的示图；

图7是根据本公开实施例的语音处理装置的框图；

图8是根据本公开实施例的电子设备的框图。

图9是根据本公开实施例的语音处理系统的示图。

在整个附图中，应注意，相同的参考标号用于表示相同或相似的元件、特征和结构。

具体实施方式

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的示例。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

本公开提出一种根据网络带宽自动调节码率的语音处理方案，可在带宽充足时达到很好的音质，同时在带宽不足时使用超低的码率进行传输，以保持通话的可用性。

在下文中，根据本公开的各种实施例，将参照附图对本公开的方法、装置以及系统进行详细描述。

图1是根据本公开实施例的用于语音通信的应用环境的示图。参照图1，该应用环境100包括电子设备110、电子设备120和网络130。

电子设备110和电子设备120为用户所在终端，电子设备110可以是智能手机、平板电脑、便携式计算机、台式计算机和服务器等中的至少一种。虽然本实施例仅示出两个电子设备110和120进行说明，但是本领域技术人员可以知晓，上述电子设备的数量可以为两个或更多个。本公开实施例不对电子设备的数量和类型进行任何限定。

电子设备110和电子设备120可以是相同类型的电子设备，也可以是不同类型的电子设备。

电子设备110和电子设备120可安装有用于语音通信的目标应用，该目标应用可以是多媒体类应用、社交类应用或资讯类应用等。用户可利用该目标应用进行语音连麦等。例如，电子设备110和120可以是用户使用的终端，在电子设备110和120中运行的应用内登录有用户的账户。

电子设备110可通过网络130(诸如无线网络或有线网络)与电子设备120连接，使得电子设备110和电子设备120之间可进行数据交互。例如，网络130可包含局域网(LAN)、广域网(WAN)、电话网络、无线链路、内联网、互联网或其组合等。然而，上述示例仅是示例性的，本公开不限于此。

在语音通信过程中，假设电子设备110作为发送端并且电子设备120作为接收端，电子设备110可通过麦克风进行音频采集，音频预处理，音频编码，再将编码好的音频包通过网络130发送到电子设备120，电子设备120可对音频包进行解码，然后由扬声器进行播放，反之亦然。

在本公开中，发送端是指发送音频包的设备，接收端是指接收音频包的设备。可根据发起语音的一方来确定发送端和接收端。

例如，主播可利用电子设备110经由网络130与观众所在的电子设备120进行语音连麦，或者主播可利用电子设备110经由网络130与另一主播所在的电子设备120进行语音连麦。上述示例仅是示例性的，本公开不限于此。

根据本公开的实施例，作为发送端的电子设备110可在第一限速设置下向作为接收端的电子设备120发送音频包，这里第一限速设置可以是不限速设置、第一级限速设置、第二级限速设置和第三级限速设置，并且限速程度越来越高。然后电子设备120根据接收到的音频包确定当前网络状态。当电子设备120确定当前网络处于拥塞状态时，将限速反馈信息发送给电子设备110。电子设备110响应于限速反馈信息，基于第一限速设置确定第二限速设置。这里，第二限速设置可以是第一级限速设置、第二级限速设置和第三级限速设置并且限速程度越来越高。电子设备110在第二限速设置下向电子设备120发送音频包以继续语音通信(诸如连麦)。下面将具体阐述根据本公开实施例的语音处理方法。

图2是根据本公开实施例的语音处理方法的流程图。图2所示的语音处理方法由发送音频包的发送端执行。例如，当主播向观众发出语音时，由直播所在的设备作为发送端而由观众所在的设备作为接收端，反之亦然。

参照图2，在步骤S201，发送端在第一限速设置下向接收端发送音频包。这里，第一限速设置可包括不限速设置、第一级限速设置、第二级限速设置和第三级限速设置，并且限速程度越来越高。例如，不限速设置可以是不对当前使用的码率进行限制的设置。第一级限速设置可以是用于降低当前使用的码率的设置，第二级限速设置可以是用于启用动态比特率编码模式，开启不连续传输并降低前向纠错技术(Forward Error Correction，FEC)使用的码率的设置。第三级限速可以是用于合并音频帧并且采用长帧方式的设置。然而，上述限速设置仅是示例性的，本公开不限于此。

在接收端接收到音频包后，接收端可根据接收到的音频包，使用拥塞控制算法判断当前网络是否拥塞，同时将拥塞结果(例如，True or False)反馈给发送端。当接收端确定当前网络处于拥塞状态时，向发送端发送限速反馈信息。

在步骤S202，发送端从接收端接收限速反馈信息，所述限速反馈信息可用于通知发送端当前可用带宽不够。

在步骤S203，响应于接收到的限速反馈信息，由发送端基于第一限速设置确定第二限速设置。在接收到限速反馈信息后，知晓当前可用带宽不够，需要降低码率，因此，第二限速设置比第一限速设置的程度高一级。作为示例，在第一限速设置为不限速设置的情况下，第二限速设置可被确定为第一级限速设置，在第一限速设置为第一级限速设置的情况下，第二限速设置可被确定为第二级限速设置，在第一限速设置为第二级限速设置的情况下，第二限速设置可被确定为第三级限速设置。然而，上述示例仅是示例性的，本公开还可包括其他的限速设置方式以及确定限速设置方式。

在步骤S204，发送端根据第二限速设置进行语音通信。发送端可在确定的第二限速设置下发送音频包以进行语音通信。

可选地，在基于第一限速设置确定第二限速设置之后，在第一时间段内不根据限速反馈信息进行限速设置处理。因为限速反馈是对端发过来的，而网络有延迟，对端感知到限速设置生效并且取消限速反馈需要一段时间，所以在由第一限速设置改变为第二限速设置后，在一段时间内发送端不再根据限速反馈信息进行另外的限速设置。例如，第一时间段可以是5秒，但是本公开不限于此，可根据实际需求进行不同的设置。

可选地，语音处理方法还可包括如果在第一级限速设置、第二级限速设置或第三级限速设置下进行语音通信时在第二时间段内未接收到限速反馈信息，则根据当前的限速设置执行不同的处理。这里，第二时间段可以是10秒，但不限于于此。作为示例，在当前的限速设置是第三级限速设置的情况下，取消第三级限速设置并且采用第二级限速设置进行语音通信。在当前的限速设置是第二级限速设置的情况下，取消第二级限速设置并且采用第一级限速设置进行语音通信。在当前的限速设置是第一级限速设置的情况下，进入探测模式，其中，探测模式可以用于通过增加冗余包使当前码率达到无损状态码率。在按照无损状态码率进行语音通信时，如果在第三时间段内未接收到限速反馈信息，则取消第一级限速设置并且恢复不限速设置。这里，第三时间段可以是10秒，但不限于于此。

根据本公开的实施例，可在带宽充足时达到很好的音质，同时在带宽不足时使用超低的码率进行传输，保持通话的可用性。

图3是根据本公开另一实施例的语音处理方法的流程图。

在步骤S301，发送端发送音频包。

在步骤S302，接收端确定当前网络状态。作为示例，接收端可根据接收到的音频包，使用拥塞控制算法判断当前网络是否拥塞，同时将拥塞结果反馈给发送端。例如，拥塞控制算法可采用Web RTC的谷歌拥塞控制(Google Congest Control，GCC)算法。

当确定当前网络处于正常状态时，接收端不需要发送限速反馈信息。此时，发送端可继续按照当前的码率进行语音通信。当确定当前网络处于拥塞状态时，接收端需要发送限速反馈信息给发送端，进入步骤S303，发送端接收限速反馈信息。限速反馈信息可用于通知发送端当前可用带宽不够需要降低码率。

在接收到限速反馈信息后，发送端可根据当前的限速设置执行不同的操作。

当发送端处于不限速模式(即处于不限速设置)的情况下，在接收到限速反馈信息后，在步骤S304，执行第一级限速设置C1。作为示例，第一级限速设置C1可用于降低当前使用的码率的设置。例如，在执行第一级限速设置C1后，将当前使用的码率降低32kbps。然而，降低的码率的量仅是示例性的，本公开可根据实际需求降低不同码率值。

在执行完第一级限速设置C1后，在步骤S305，进入冻结模式并且等待第一时间，然后进入限速模式。冻结模式表示不根据限速反馈信息进行任何限速设置处理的模式。在冻结模式下，如果发送端接收到限速反馈信息，也不会根据限速反馈信息再次进行限速设置。这是因为限速反馈信息是接收端发过来的，而网络有延迟，接收端感知到第一级限速设置C1的设置生效并且取消发送限速反馈信息需要一段时间。第一时间可以是5秒，但不限于此。

应注意的是，冻结模式是限制发送端在该模式下不再根据限速反馈信息进行限速设置，但是会按照设置完的第一级限速设置C1发送音频包。而进入到限速模式后，发送端如果接收到限速反馈信息，会再次进行经进一步的限速设置。

在步骤S306，发送端确定是否在连续第二时间未接收到限速反馈信息。这里，第二时间可以是10秒。如果在确定连续第二时间未接收到限速反馈信息后，则进入到步骤S307，进入到探测模式。这里，探测模式用于通过增加冗余包使当前码率达到无损状态码率。在探测模式下通过添加冗余包的数量使当前设置的码率增大至无损状态码率，并且按照无损状态码率进行语音通信。

如果在步骤S306确定连续第二时间接收到限速反馈信息后，则进入到步骤S310，执行第二级限速设置C2。这里，第二级限速设置可以是用于启用动态比特率(VariableBitRate，VBR)编码模式，开启不连续传输(Discontinuous Transmission，DTX)并降低前向纠错技术使用的码率的设置。然而，第二级限速设置的示例仅是示例性的，还可以采用其他方式进一步降低码率。

步骤S308，发送端确定是否在连续第三时间未接收到限速反馈信息。这里，第三时间可以是10秒。如果在确定连续第三时间未接收到限速反馈信息后，则进入到步骤S309，进入到不限速模式并按照不限速设置进行语音通信。如果在确定连续第三时间接收到限速反馈信息后，则返回至步骤S306。

当发送端在限速模式下按照第一级限速设置C1进行语音通信的情况下，在接收到限速反馈信息后，进入到步骤S310。例如，发送端执行第二级限速设置C2，使得启用动态比特率编码模式，开启不连续传输并降低前向纠错技术使用的码率。

在步骤S311，进入冻结模式并且等待第一时间，然后进入限速模式。在冻结模式下，如果发送端接收到限速反馈信息，也不会根据限速反馈信息再次进行限速设置。

在步骤S312，发送端确定是否在连续第二时间未接收到限速反馈信息。这里，第二时间可以是10秒。如果在确定连续第二时间未接收到限速反馈信息后，则进入到步骤S313，取消第二级限速设置C2并且采用第一级限速设置C1进行语音通信。

如果在确定连续第二时间接收到限速反馈信息后，则进入到步骤S314，执行第三级限速设置C3。这里，第三级限速设置可以是用于合并音频帧并且采用长帧方式的设置。然而，第三级限速设置的示例仅是示例性的，还可以采用其他方式进一步降低码率。

在步骤S315，进入冻结模式并且等待第一时间，然后进入限速模式。在冻结模式下，如果发送端接收到限速反馈信息，也不会根据限速反馈信息再次进行限速设置。

在步骤S316，发送端确定是否在连续第二时间未接收到限速反馈信息。这里，第二时间可以是10秒。如果在确定连续第二时间未接收到限速反馈信息后，则进入到步骤S317，取消第三级限速设置并且采用第二级限速设置进行语音通信。

如果在确定连续第二时间未接收到限速反馈信息后，则返回到步骤S316，继续按照第三级限速设置进行语音通信。然而，上述示例仅是示例性的，本公开还可以在采用第三级限速设置的情况下依然接收到限速反馈信息，则发送端可采用另外的降低码率的方式来进一步减低码率。

图4是根据本公开实施例的语音处理方法的流程示意图。

参照图4，初始时可默认网络状态正常，处于不限速模式(表示不对码率进行限制的模式)，使用较高的码率进行音频编码，可得到较高的音质。在当前传输模式为不限速模式的情况下，如果发送端从接收端接收到限速反馈信息，则表示当前可用带宽不够，需要降低码率，执行第一级限速设置C1同时进入冻结模式。第一级限速设置C1表示用于降低当前码率的设置。例如，假设当使用的码率为48kbps，当接收到信息反馈信息后，发送端执行第一级限速设置C1将当前码率降低32kbps。这里，对于第一级限速设置C1需要在降低码率的同时兼顾音质。可根据实际需求不同地设置码率将被降低的值。冻结模式表示不根据限速反馈信息进行限速设置处理的模式。在冻结模式下等待第一时间后进入限速模式。

发送端在冻结模式等待T1时间后自动进入限速模式。等待的目的是因为限速反馈是接收端发过来的，而网络有延迟，接收端感知到新设置的第一级限速设置C1生效并且取消限速反馈需要一段时间。

在限速模式下，存在多个不同的情况。例如，当在限速模式下按照第一级限速设置C1进行语音通信时，如果接收到了限速反馈信息，则说明还需要继续降低码率。此时，可进行第二级限速设置C2，即启用VBR模式，开启DTX，并减少FEC使用的码率，并且进入冻结模式。VBR和DTX可在没有语音信号时降低码率，同时减少FEC码率也会降低码率。

当在限速模式下按照第二级限速设置C2进行语音通信时，如果接收到了限速反馈信息，则需要进行第三级限速设置C3，即合并音频帧并使用长帧模式。合并音频帧可极大地减少各种包头(诸如实时传输协议(Real-time Transport Protocol，RTP)、IP、用户数据报协议(User Datagram Protocol，UDP))带来的码率损耗，同时进入冻结模式。也就是说，在每次接收到限速反馈信息并改变当前的限速设置后，都需要等待T1时间，在期间，即使接收到限速反馈信息也不会改变限速设置。

在限速模式下按照第二级限速设置C2或第三级限速设置C3进行语音通信时，如果连续T2时间未接收到限速反馈信息，则说明网络状态可能变好，可根据当前的限速设置执行不同的处理。作为示例，在当前的限速设置是第三级限速设置C3的情况下，取消第三级限速设置C3并且采用第二级限速设置C2进行语音通信。在当前的限速设置是第二级限速设置C2的情况下，取消第二级限速设置C2并且采用第一级限速设置C1进行语音通信。

在限速模式下按照第一级限速设置C1进行语音通信时，如果连续T2时间未接收到限速反馈信息，则进入探测模式。探测模式可用于通过增加冗余包使当前码率达到无损状态码率。作为示例，参照图5，假设在不限速模式下的码率为无损状态码率，例如，为48kbps，而此时在探测模式下的当前码率为24kbps，可通过添加冗余包的个数使当前码率与无损状态码率相当。然而上述示例仅是示例性的，无损状态码率可根据实际需求进行不同的设置。

对于探测模式的设计，考虑到音频编码码率在切换的时刻会带来音质下降，为了避免升高码率后又触发限速，而引起不必要的反复，这里不会立刻升高码率，而是通过添加一些冗余包使实际码率增大，使得与升级码率后的实际码率相当，如果持续T3时间未收到限速反馈信息，说明进行真正的码率升级后不会触发限速反馈，这时可取消第一级限速设置C1，恢复不限速模式下的设置，同时进入不限速模式。如果在探测模式下接收到限速反馈信息，则在限速模式下按照之前调整的限速设置进行语音通信。

根据本公开的实施例，在网络带宽不足时进行分级降速策略，在网络带宽恢复后使用探测策略防止反复切换编码码率，从而降低功耗。

图6是本公开实施例的硬件运行环境的语音处理设备的结构示意图。作为发送端的设备和作为接收端的设备可均包括图6所示的语音处理设备。例如，在主播与观众语音连麦或者主播与主播之间语音连麦时，主播与观众所在的设备都可包括上述语音处理设备的功能以及判断当前网络状态的功能。

如图6所示，语音处理设备600可包括：处理组件601、通信总线602、网络接口603、输入输出接口604、存储器605以及电源组件606。其中，通信总线602用于实现这些组件之间的连接通信。输入输出接口604可以包括视频显示器(诸如，液晶显示器)、麦克风和扬声器以及用户交互接口(诸如，键盘、鼠标、触摸输入装置等)，可选地，输入输出接口604还可包括标准的有线接口、无线接口。网络接口603可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器605可以是高速的随机存取存储器，也可以是稳定的非易失性存储器。存储器605可选的还可以是独立于前述处理组件601的存储装置。

本领域技术人员可以理解，图6中示出的结构并不构成对语音处理设备600的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图6所示，作为一种存储介质的存储器605中可包括操作系统、数据存储模块、网络通信模块、用户接口模块、语音处理程序以及数据库。

在图6所示的语音处理设备600中，网络接口603主要用于与外部设备/终端进行数据通信；输入输出接口604主要用于与用户进行数据交互；语音处理设备600中的处理组件601、存储器605可被设置在语音处理设备600中，语音处理设备600通过处理组件601调用存储器605中存储的语音处理程序，执行本公开实施例提供的语音处理方法。

处理组件601可以包括至少一个处理器，存储器605中存储有计算机可以执行指令集合，当计算机可以执行指令集合被至少一个处理器执行时，执行根据本公开实施例的语音处理方法。此外，处理组件601可执行编码操作和解码操作等。然而，上述示例仅是示例性的，本公开不限于此。

处理组件601可在不限速设置的情况下，如果接收到限速反馈信息，则执行第一级限速设置，在第一级限速设置的情况下，如果接收到限速反馈信息，则执行第二级限速设置，在第二级限速设置的情况下，如果接收到限速反馈信息，则执行第三级限速设置。

处理组件601可在基于第一限速设置确定第二限速设置之后，在第一时间段内不根据限速反馈信息进行限速设置处理。

如果在第一级限速设置、第二级限速设置或第三级限速设置下进行语音通信时在第二时间段内未接收到限速反馈信息，则处理组件601可根据当前的限速设置执行不同的处理。例如，在当前的限速设置是第三级限速设置的情况下，处理组件601可取消第三级限速设置并且控制发送模块采用第二级限速设置进行语音通信。在当前的限速设置是第二级限速设置的情况下，处理组件601可取消第二级限速设置并且控制发送模块采用第一级限速设置进行语音通信。在当前的限速设置是第一级限速设置的情况下，处理组件601可进入探测模式，其中，探测模式用于通过增加冗余包使当前码率达到无损状态码率。

处理组件601可在探测模式下通过添加冗余包的数量使当前设置的码率增大至无损状态码率，在按照无损状态码率进行语音通信时，如果在第三时间段内未接收到限速反馈信息，则取消第一级限速设置并且恢复不限速设置。

语音处理设备600可经由输入输出接口604接收用户语音。例如，主播可经由麦克风将语音输入至语音处理设备600，或者用户可经由扬声器听到主播的语音。

作为示例，语音处理设备600可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，语音处理设备600并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。语音处理设备600还可以是集成控制系统或系统管理器的一部分，或者可以被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在语音处理设备600中，处理组件601可包括中央处理器(CPU)、图形处理器(GPU)、可以编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理组件601还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理组件601可运行存储在存储器中的指令或代码，其中，存储器还可以存储数据。指令和数据还可以经由网络接口603而通过网络被发送和接收，其中，网络接口603可以采用任何已知的传输协议。

存储器605可以与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器605可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理器可以在操作上进行耦合，或者可以例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

图7是根据本公开实施例的语音处理装置的框图。根据本公开实施例的语音处理装置可以是作为发送端和接收端的电子装置的一部分，或者独立于作为发送端和接收端的电子装置。可选地，作为发送端的设备和作为接收端的设备可均包括图7所示的语音处理装置。

参照图7，语音处理装置700可包括发送模块701、接收模块702和处理模块703。语音处理装置700中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略语音处理装置700中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

发送模块701可在第一限速设置下向接收端发送音频包。接收端根据接收的音频包确定当前网络状态，在网络状态为拥塞状态时，接收端向语音处理装置发送限速反馈信息。

接收模块702可从接收端接收限速反馈信息，所述限速反馈信息用于通知语音处理装置当前可用带宽不够。

处理模块703可响应于限速反馈信息，基于第一限速设置确定第二限速设置，并且根据第二限速设置进行语音通信。

作为示例，限速设置可包括不限速设置、第一级限速设置、第二级限速设置和第三级限速设置，并且限速程度越来越高。

作为示例，第一级限速设置可以是用于降低当前使用的码率的设置，第二级限速设置可以是用于启用动态比特率编码模式，开启不连续传输并降低前向纠错技术使用的码率的设置，第三级限速可以是用于合并音频帧并且采用长帧方式的设置。

作为示例，第二限速设置可比第一限速设置的程度高一级。

作为示例，在第一限速设置为不限速设置的情况下，如果接收到限速反馈信息，则处理模块703可将第一级限速设置确定为第二限速设置。在第一限速设置为第一级限速设置的情况下，如果接收到限速反馈信息，则处理模块703可将第二级限速设置确定为第二限速设置。在第一限速设置为第二级限速设置的情况下，如果接收到限速反馈信息，则处理模块703可将第三级限速设置确定为第二限速设置。

作为示例，在基于第一限速设置确定第二限速设置之后，处理模块703可在第一时间段内不根据限速反馈信息进行限速设置处理。这是因为接收端感知到限速设置生效并且取消限速反馈需要一段时间。

作为示例，如果在第一级限速设置、第二级限速设置或第三级限速设置下进行语音通信时在第二时间段内未接收到限速反馈信息，则处理模块703可根据当前的限速设置执行不同的处理。

作为示例，在当前的限速设置是第三级限速设置的情况下，处理模块703可取消第三级限速设置并且控制发送模块采用第二级限速设置进行语音通信。在当前的限速设置是第二级限速设置的情况下，处理模块703可取消第二级限速设置并且控制发送模块采用第一级限速设置进行语音通信。在当前的限速设置是第一级限速设置的情况下，处理模块703可进入探测模式，其中，所述探测模式用于通过增加冗余包使当前码率达到无损状态码率。

在探测模式下，处理模块703可通过添加冗余包的数量使当前设置的码率增大至无损状态码率，在按照无损状态码率进行语音通信时，如果在第三时间段内未接收到限速反馈信息，则取消第一级限速设置并且恢复不限速设置。

根据本公开的实施例，可提供一种电子设备。图8是根据本公开实施例的电子设备的框图，该电子设备800可包括至少一个存储器802和至少一个处理器801，所述至少一个存储器802存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器801执行时，执行根据本公开实施例的语音处理方法。作为发送端的设备和作为接收端的设备可均包括图8所示的电子设备。

处理器801可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器801还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器、编码器和解码器等。

作为一种存储介质的存储器802可包括操作系统、数据存储模块、网络通信模块、用户接口模块、视频播放参数确定程序以及数据库。

存储器802可与处理器801集成为一体，例如，可将RAM或闪存布置在集成电路微处理器等之内。此外，存储器802可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。

作为示例，电子设备800可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备800并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

本领域技术人员可理解，图8中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

图9是根据本公开实施例的语音处理系统的示图。

参照图9，语音处理系统900包括发送端901和接收端902。在本公开中，将发送音频包的设备称为发送端，将接收音频包的设备称为接收端。发送端901和接收端902根据发起语音的一端来进行区分。例如，主播发起语音时，语音所在的设备作为发送端，而观众所在设备作为接收端，反之亦然。

发送端901和接收端902可以是相同类型的设备，也可以是不同类型的设备。发送端901和接收端902可包括上述的语音处理装置或语音处理设备，并且发送端901和接收端902也可都具有根据接收的音频包确定当前网络状态的功能。此外，发送端901和接收端902还可包括其他语音处理相关模块。

在发送端901向接收端902发送音频包后，接收端902可根据接收的音频包分析当前网络状态。在确定当前网络为拥塞状态后，接收端902向发送端901发送限速反馈信息，即通知发送端901当前网络带宽不够。

此后，发送端901可根据当前的限速设置执行不同的限速处理。可参照上面如图2至4描述的方法。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的语音处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述语音处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

在第一限速设置下向接收端发送音频包；

从接收端接收限速反馈信息，所述限速反馈信息用于通知当前可用带宽不够；

响应于所述限速反馈信息，基于第一限速设置确定第二限速设置；以及

根据第二限速设置进行语音通信。

2.根据权利要求1所述的方法，其特征在于，限速设置包括不限速设置、第一级限速设置、第二级限速设置和第三级限速设置，并且限速程度越来越高，

其中，第一级限速设置是用于降低当前使用的码率的设置，第二级限速设置是用于启用动态比特率编码模式，开启不连续传输并降低前向纠错技术使用的码率的设置，第三级限速设置是用于合并音频帧并且采用长帧方式的设置。

3.根据权利要求1所述的方法，其特征在于，第二限速设置比第一限速设置的程度高一级。

4.根据权利要求2所述的方法，其特征在于，基于第一限速设置确定第二限速设置的步骤包括：

在第一限速设置为不限速设置的情况下，如果接收到限速反馈信息，则将第一级限速设置确定为第二限速设置；

在第一限速设置为第一级限速设置的情况下，如果接收到限速反馈信息，则将第二级限速设置确定为第二限速设置；

在第一限速设置为第二级限速设置的情况下，如果接收到限速反馈信息，则将第三级限速设置确定为第二限速设置。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在基于第一限速设置确定第二限速设置之后，在第一时间段内不根据限速反馈信息进行限速设置处理。

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

如果在第一级限速设置、第二级限速设置或第三级限速设置下进行语音通信时在第二时间段内未接收到限速反馈信息，则根据当前的限速设置执行不同的处理，

其中，根据当前的限速设置执行不同的处理的步骤包括：

在当前的限速设置是第三级限速设置的情况下，取消第三级限速设置并且采用第二级限速设置进行语音通信；

在当前的限速设置是第二级限速设置的情况下，取消第二级限速设置并且采用第一级限速设置进行语音通信；以及

在当前的限速设置是第一级限速设置的情况下，进入探测模式，其中，所述探测模式用于通过增加冗余包使当前码率达到无损状态码率。

7.根据权利要求6所述的方法，其特征在于，所述方法包括：

在探测模式下通过添加冗余包的数量使当前设置的码率增大至无损状态码率；

在按照无损状态码率进行语音通信时，如果在第三时间段内未接收到限速反馈信息，则取消第一级限速设置并且恢复不限速设置。

8.一种语音处理装置，其特征在于，所述装置包括：

发送模块，被配置为在第一限速设置下向接收装置发送音频包；

接收模块，被配置为从接收装置接收限速反馈信息，所述限速反馈信息用于通知发送装置当前可用带宽不够；

处理模块，被配置为响应于所述限速反馈信息，基于第一限速设置确定第二限速设置，并且控制发送模块根据第二限速设置进行语音通信。

9.一种电子设备，其特征在于，包括:

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的语音处理方法。

10.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到7中的任一权利要求所述的语音处理方法。