CN110782907B

CN110782907B - 语音信号的发送方法、装置、设备及可读存储介质

Info

Publication number: CN110782907B
Application number: CN201911076446.1A
Authority: CN
Inventors: 曹木勇; 周佳庆
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2023-11-28
Anticipated expiration: 2039-11-06
Also published as: CN110782907A

Abstract

本申请公开了一种语音信号的发送方法、装置、设备及可读存储介质，涉及多媒体处理领域。该方法包括：对目标语音信号中的语音帧进行人声概率检测，得到人声帧；获得第一人声帧和第二人声帧，第一人声帧的人声概率大于或者等于第一要求概率，第二人声帧的人声概率小于第一要求概率；将第二人声帧归一化为静音帧；对第一人声帧和静音帧进行变长编码；对音频编码流进行发送。在对目标语音信号进行编码之前，对该目标语音信号中人声概率较低的第二人声帧归一化为静音帧，并对目标语音信号通过变长编码方式编码，静音帧的编码结果长度小于第二人声帧的编码结果长度，减小编码长度，降低该目标语音信号在发送过程中的带宽占用。

Description

语音信号的发送方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及多媒体处理领域，特别涉及一种语音信号的发送方法、装置、设备及可读存储介质。

背景技术

实时语音功能是一种在两个终端之间实现实时沟通的功能，在实时语音功能中，由发送终端持续通过麦克风进行音频信号的采集，并将采集得到的音频信号经过编码后将编码流发送至接收终端，接收终端接收到编码流并对该编码流进行解码后播放。

相关技术中，在发送终端对音频信号进行发送之前，还需要对该音频信号进行过滤，首先对音频信号进行人声检测，确定该音频信号的语音概率，该语音概率用于表示该音频信号为人声的概率，当检测到该音频信号的语音概率低于要求概率时，将该语音信号确定为环境音，并将该环境音进行丢弃。

然而，通过上述方式对音频信号进行过滤时，仅能针对环境音进行过滤从而在一定程度上减少带宽成本，而针对非环境音，当该非环境音中包括较多人声概率较低的人声帧时，该音频信号的传输带宽成本依旧较高。

发明内容

本申请实施例提供了一种语音信号的发送方法、装置、设备及可读存储介质，可以解决当非环境音中包括较多人声概率较低的人声帧时，该音频信号的传输带宽成本依旧较高的问题。所述技术方案如下：

一方面，提供了一种语音信号的发送方法，所述方法包括：

对目标语音信号中的语音帧进行人声概率检测，得到人声帧；

获得第一人声帧和第二人声帧，其中，所述第一人声帧的人声概率大于或者等于第一要求概率，所述第二人声帧的人声概率小于第一要求概率；

将所述第二人声帧归一化为静音帧；

对所述第一人声帧和所述静音帧进行变长编码，得到音频编码流；所述静音帧在变长编码方式下的第一编码长度小于所述第二人声帧的第二编码长度；

对所述音频编码流进行发送。

另一方面，提供了一种语音信号的发送装置，所述装置包括：

确定模块，用于对目标语音信号中的语音帧进行人声概率检测，得到人声帧；

所述确定模块，还用于获得第一人声帧和第二人声帧，其中，所述第一人声帧的人声概率大于或者等于第一要求概率，所述第二人声帧的人声概率小于第一要求概率；

处理模块，用于将所述第二人声帧归一化为静音帧；

编码模块，用于对所述第一人声帧和所述静音帧进行变长编码，得到音频编码流；所述静音帧在变长编码方式下的第一编码长度小于所述第二人声帧的第二编码长度；

发送模块，用于对所述音频编码流进行发送。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的语音信号的发送方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的语音信号的发送方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中任一所述的语音信号的发送方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

在对目标语音信号进行编码之前，对该目标语音信号中人声概率较低的第二人声帧进行归一化处理，将第二人声帧归一化为静音帧，并对该目标语音信号通过变长编码方式进行编码，静音帧的编码结果长度小于第二人声帧的编码结果长度，故而在不影响语音可懂度的基础上，减小目标语音信号的编码长度，并降低该目标语音信号在发送过程中的带宽占用，针对实时语音场景避免语音发送过程延时较大的问题，提高了目标语音信号的传输效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的游戏应用场景下开启实时语音对话功能的界面示意图；

图2是本申请另一个示例性实施例提供的游戏应用场景下开启实时语音对话功能的界面示意图；

图3是本申请一个示例性实施例提供的实施环境示意图；

图4是本申请一个示例性实施例提供的语音信号的发送方法的流程图；

图5是基于图4示出的实施例提供的接收终端对音频编码流的接收过程示意图；

图6是本申请另一个示例性实施例提供的语音信号的发送方法的流程图；

图7是本申请另一个示例性实施例提供的语音信号的发送方法的流程图；

图8是本申请一个示例性实施例提供的发送终端对目标语音信号进行发送的整体流程图；

图9是本申请一个示例性实施例提供的语音信号的发送装置的结构框图；

图10是本申请一个示例性的实施例提供的终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

语音帧：是指单个时间片的语音原始数字信号，可选地，该语音帧可以实现为环境音帧、静音帧、人声帧中的任意一种。其中，环境音帧是指语音原始数字信号中人声占比较小的音频帧，也即该环境音帧中的主要声音不是由人发出的声音，通常设置一要求概率，对语音帧进行人声检测后，当该语音帧的人声概率小于该要求概率时，确定该语音帧为环境音帧；静音帧是指没有能量的原始语音数字信号帧；人声帧是指语音原始数字信号中人声占比较大的音频帧，也即该人声帧中的主要声音是由人发出的声音，通常设置一要求概率，对语音帧进行人声检测后，当该语音帧的人声概率达到该要求概率时，确定该语音帧为人声帧。

人声检测：是指对语音帧进行检测，从而确定该语音帧是属于环境音帧还是人声帧的过程。可选地，对该语音帧进行检测后，确定该语音帧的人声概率，并当该人声概率达到要求概率时，确定该语音帧属于人声帧，并当该人声概率小于要求概率时，确定该语音帧属于环境音帧。可选地，在进行人声检测时，首先确定一预设人声频带，如：该预设人声频带为80赫兹(Hz)至1000Hz，根据该语音帧中属于该人声频带的信号占该语音帧整体的占比，确定该语音帧的人声概率。

变长编码：是指语音帧的编码结果长度不固定的编码方法。通过变长编码方式进行编码时，对帧内信号字节数不同的语音帧，编码后的编码结果长度也不同。整体而言，包括一字节信号的语音帧在变长编码方式编码后，编码结果长度约为15Byte，包括两个字节信号的语音帧在变长编码方式编码后，编码结果长度约为20Byte。

对应的，定长编码方式是指语音帧的编码结果长度固定的编码方法。也即，静音帧、环境音帧以及人声帧在定长编码方式下，编码得到的编码结果长度是一致的，且，语音信号的字节数不同的语音帧在定长编码方式下，编码得到的编码结果长度也是一致的。

在实时语音对话场景下，需要减少语音的带宽占用，避免过大时延导致实时语音效果较差的问题，该实时语音对话场景包括如下场景中的至少一种：

第一，在实时语音对话场景下，至少两个帐号之间建立有实时语音连接，示意性的，该实时语音对话场景可以是游戏应用程序中提供的，在对局中的队友帐号之间进行实时语音的场景；或，该实时语音对话场景可以是游戏应用程序中提供的，在对局中的所有参与帐号之间进行实时语音的场景；或，该实时语音对话场景可以是游戏应用程序中提供的，在对局中的任意至少两个帐号之间进行实时语音的场景；或，该实时语音对话场景还可以是在即时通讯应用程序的至少两个帐号之间进行实时语音的场景；示意性的，以第一帐号和第二帐号之间的实时语音为例进行说明，第一帐号在发送终端上通过麦克风进行语音输入后，发送终端采集得到目标语音信号，对该目标语音信号进行人声检测后，将该目标语音信号中人声概率小于要求概率的人声帧归一化为静音帧后，对该目标语音信号以变长编码方式进行编码，得到音频编码流后，将音频编码流发送至第二帐号；

示意性的，请参考图1，其示出了本申请一个示例性实施例提供的游戏应用场景下开启实时语音对话功能的界面示意图，如图1所示，在游戏界面100中显示有语音开启控件110和麦克风开启控件120，其中，当麦克风控件120对应开启时，用户发出的语音被游戏对局内的被队友玩家接收，可选地，接受该语音的玩家开启语音开启控件110。

示意性的，图2是本申请另一个示例性实施例提供的游戏应用场景下开启实时语音对话功能的界面示意图，如图2所示，在游戏界面200中显示有队友显示区域210，该队友显示区域中显示有队友列表，该游戏界面200中还包括全局语音开启控件220和队内语音控件230，其中，当全局语音控件220对应开启时，用户发出的语音被游戏对局内的所有玩家接收，可选地，接受该语音的玩家开启全局语音控件220；当队内语音控件230开启时，用户发出的语音被队友列表中的玩家接收，可选地，接受该语音的队友开启全局语音控件220或队内语音控件230。

第二，在实时翻译场景下，用户通过终端麦克风进行语音输入，终端采集得到用户输入的语音信号后，对该语音信号进行人声检测，并将该语音信号中人声概率小于要求概率的人声帧归一化为静音帧后，对该语音信号以变长编码方式进行编码，得到音频编码流，将音频编码流发送至服务器，该服务器中包括翻译模型，通过该翻译模型对该音频编码流对应的音频内容进行实时翻译；

第三，在实时变声场景下，用户通过终端麦克风进行语音输入，终端采集得到用户输入的语音信号后，对该语音信号进行人声检测，并将该语音信号中人声概率小于要求概率的人声帧归一化为静音帧后，对该语音信号以变长编码方式进行编码，得到音频编码流，将音频编码流发送至服务器，该服务器中包括变声模型，通过该变声模型对该音频编码流对应的音频内容进行实时变声。

值得注意的是，上述应用场景中，以本申请实施例提供的语音信号的发送方法应用于实时语音对话场景、实时翻译场景和实时变声场景中为例进行说明，实际应用过程中，该语音信号的发送方法还可以应用于其他对人声概率较低的人声帧归一化为静音帧后采用变长编码方式进行编码的场景中，本申请实施例对此不加以限定。

示意性的，以本申请实施例提供的语音信号的发送方法应用于实时语音对话场景中为例，对本申请实施例的实施环境进行示意性说明，如图1所示，该实施环境包括：发送终端310、服务器320和接收终端330；

其中，发送终端310和接收终端330之间通过服务器320建立有实时语音连接，由发送终端310采集语音信号，并对该语音信号进行编码后生成音频编码流，发送终端310将该音频编码流发送至服务器320后，服务器320将该音频编码流根据该发送终端310和接收终端330之间建立的实时语音连接，将该音频编码流发送至接收终端330，可选地，该发送终端310首先对语音信号进行预处理，并对该语音信号中的语音帧进行人声检测，根据人声检测结果将语音帧中的环境帧进行过滤，并将人声概率小于要求概率的人声帧归一化为静音帧，然后对过滤以及归一化后的语音信号以变长编码方式进行编码，得到音频编码流后，将音频编码流发送至服务器320。

服务器320用于设置预设参数，并将预设参数发送至发送终端310，该预设参数如拖尾参数等在编码过程中应用的参数。

接收终端330接收服务器320发送的音频编码流后，对该音频编码流进行解码后，对解码后的音频内容进行播放。可选地，上述接收终端330还可以实现为对音频编码流进行发送的发送终端310，同样的，发送终端310也可以时限为对音频编码流进行接收的接收终端330。

可选地，接收该音频编码流的接收终端330可以实现为一个终端设备，也可以实现为多个终端设备，本申请实施例对此不加以限定。

上述发送终端310和接收终端330可以实现为手机、平板电脑、便携式膝上笔记本电脑、可穿戴设备等移动终端，也开始实现为台式电脑等终端。

上述服务器320可以实现为一台服务器，也可以实现为多个服务器构成的服务器集群，上述服务器320可以实现为物理服务器，也可以实现为云服务器，本申请实施例对此不加以限定。

结合上述应用场景以及实施环境，对本申请实施例中涉及的语音信号的发送方法进行说明，图4是本申请一个示例性实施例提供的语音信号的发送方法的流程图，以该方法应用于如图3所示的发送终端310中为例进行说明，如图4所示，该方法包括：

步骤401，对目标语音信号中的语音帧进行人声概率检测，得到人声帧。

可选地，该目标语音信号为发送终端通过麦克风采集得到的语音信号，可选地，该麦克风可以是发送终端上自带的麦克风，也可以是该发送终端外接的麦克风，如：发送终端外接的麦克风设备，或，发送终端外接的耳机设备，该耳机设备上附带有麦克风；可选地，该目标语音信号还可以是发送终端通过下载的方式获取的语音信号。

可选地，该目标语音信号为发送终端中待发送至接收终端的语音信号，或，该目标语音信号为发送终端中待发送至服务器的语音信号。

其中，当目标语音信号为发送终端中待发送至接收终端的语音信号时，该发送终端和接收终端之间建立有实时语音连接，该发送终端和接收终端之间可以直接建立实时语音连接，也可以通过服务器建立该实时语音连接，可选地，该发送终端和接收终端之间正在进行实时语音通话，该实时语音通话可以是单向通话，即，有发送终端单向向接收终端发送语音信号，也可以是双向通话，即，发送终端既可以向接收终端发送语音信号，也可以接收由接收终端发送的语音信号。

当目标语音信号实现为发送终端中待发送至服务器的语音信号时，该发送终端正在应用由该服务器提供的实时语音处理功能，如：实时语音翻译功能、实时语音变声功能、实时语音优化功能等，发送终端将该目标语音信号发送至服务器后，由服务器对该目标语音进行对应的实时处理，得到处理结果并将该处理结果反馈给发送终端。

可选地，在对该目标语音信号中的语音帧进行人声检测时，首先确定人声检测中，由人声对应覆盖的预设频带，并根据语音帧在预设频带内的占比确定该语音帧的人声概率。

可选地，该人声对应覆盖的预设频带是根据人在发声时通常对应的频率范围确定的，如：低音的频率范围通常在82Hz至392Hz，基准音区为64Hz至523Hz；男中音的频率范围通常在123Hz至493Hz，男高音的频率范围通常在164Hz至698Hz；女低音的频率范围通常在123Hz至493Hz，女高音的频率范围通常在220Hz至1100Hz。假设该人声对应覆盖的预设频带为80Hz至1000Hz，根据语音帧中属于该预设频带的信号占该语音帧整体的占比，确定该语音帧的人声概率。

可选地，通过高斯混合模型算法对该人声概率进行计算，其中，高斯混合模型通过高斯概率密度函数(正态分布曲线)量化该语音帧，将该语音帧分解为若干个基于高斯概率密度函数形成的模型，从而对该语音帧进行人声概率检测。可选地，通过人声概率检测对该目标语音信号中的环境音帧进行过滤后，保留目标语音信号中的人声帧。

步骤402，获得第一人声帧和第二人声帧，其中，第一人声帧的人声概率大于或者等于第一要求概率，第二人声帧的人声概率小于第一要求概率。

可选地，当该语音帧的人声概率达到第一概率要求时，将该语音帧确定为第一人声帧，当该语音帧的人声概率小于第一概率要求时，将该语音帧确定为第二人声帧。由于第二人声帧属于人发出的声音产生的语音帧，该第二人声帧为组成语音内容的一部分，而由于该第二人声帧的人声概率较低，存在该第二人声帧为停顿、语气词、人声拖尾音等情况的可能，该第二人声帧的静音处理不影响该语音的可懂度，而该第二人声帧以人声帧的形式在编码时，编码结果长度大于静音帧的编码结果长度，发送过程中占用带宽，故，以第一概率要求将人声帧区分为影响可懂度的第一人声帧和不影响可懂度的第二人声帧。

步骤403，将第二人声帧归一化为静音帧。

可选地，针对上述人声概率小于第一概率要求的第二人声帧，将该第二人声帧归一化为静音帧。可选地，通过对数字信号值的修改，将该第二人声帧归一化为静音帧。其中，将第二人声帧归一化为静音帧是指，根据静音帧在目标语音信号中的存在形式，对该第二人声帧进行相应的处理，示意性的，根据静音帧在目标语音信号中的数字信号值，对第二人声帧进行相应的处理，如：将第二人声帧的数字信号值调整为静音帧对应的数字信号值。

可选地，将该第二人声帧的第一数字信号值修改为静音帧对应的第二数字信号值。可选地，该目标语音信号中包括n帧第二人声帧，则将该n帧第二人声帧分别对应的第一数字信号值，皆修改为该静音帧对应的第二数字信号值。

可选地，由于第二人声帧属于人发出的声音产生的语音帧，该第二人声帧为组成语音内容的一部分，而由于该第二人声帧的人声概率较低，存在该第二人声帧为停顿、语气词、人声拖尾音等情况的可能，该第二人声帧的静音处理不影响该语音的可懂度，而该第二人声帧以人声帧的形式在编码时，编码结果长度大于静音帧的编码结果长度，发送过程中占用带宽，故对该第二人声帧归一化为静音帧，在不影响可懂度的前提下，以更小的编码结果长度为编码要求对该目标语音信号进行编码，减小发送时占用的带宽。

步骤404，对第一人声帧和静音帧进行边长编码，得到音频编码流，静音帧在变长编码方式下的第一编码长度小于第二人声帧的第二编码长度。

可选地，该变长编码方式是指语音帧的编码长度不固定的编码方式。可选地，通过变长编码方式进行编码时，对帧内信号字节数不同的语音帧，编码后的编码结果长度也不同。通常，第二人声帧(人声概率较低的人声帧)在变长编码方式编码后，编码结果长度约为30Byte；静音帧进行变长编码方式编码后，编码结果长度约为9Byte，。也即，上述静音帧的第一编码长度小于第二人声帧的第二编码长度。

本申请实施例中，以该变长编码方式通过OPUS编码格式进行编码为例进行说明，该OPUS编码格式的标准格式为RFC6717。

步骤405，对音频编码流进行发送。

可选地，在对该音频编码流进行发送时，通过将该音频编码流根据应用层要求，进行相关协议打包后再发送。

可选地，发送终端在对该音频编码流进行发送时，根据发送终端当前所应用的功能向对应的设备进行发送。

示意性的，发送终端将该音频编码流发送至接收终端，该发送终端和接收终端之间建立有实时语音连接；或，发送终端将该音频编码流发送至服务器，该服务器中包括实时翻译模型，用于对音频编码流对应的音频内容进行实时翻译；或，发送终端将该音频编码流发送至服务器，该服务器中包括实时变声模型，用于对音频编码流对应的音频内容进行变声处理。对上述三种方式分别进行展开说明：

第一，发送终端将音频编码流发送至接收终端；

发送终端和接收终端之间可以直接建立实时语音连接，也可以通过服务器建立实时语音连接，当接收终端接收到发送终端发送的音频编码流后，对该音频编码流进行解码处理，得到音频解码流，接收终端对该音频既然码流进行播放，也即对该发送终端采集的语音内容进行播放；

示意性的，请参考图5，该接收终端的接收过程如图5所示，包括：

步骤501，初始化。也即系统线程启动，内存池资源申请，根据业务组队信息，接收终端进入对应的房间，并拉取系统配置信息。步骤502，接收终端从云服务器510中进行网络收包。可选地，该网络收包过程为循环收包过程，从转发音频编码流的云服务器接收网络包。步骤503，解包。可选地，解析业务应用相关的协议，去除业务层负载，并保留语音负载，也即音频编码流。步骤504，缓冲。可选地，也即通过缓冲保存一定时长的语音负载。步骤505，解码。也即接收终端使用语音负载对应的解码器进行解压缩，得到音频解码流，也即该音频编码流在编码之前的语音原始码流。步骤506，播放。可选地，将语音原始码流传输至接收终端播放缓冲区中进行播放，若未接收到结束指令，则持续执行步骤502进行网络收包，接收到系统结束信令则执行步骤507，结束，并回收相关资源。

第二，发送终端将音频编码流发送至服务器，且服务器中包括实时翻译模型；

可选地，发送终端正在应用该服务器提供的实时翻译功能，该服务器中包括实时翻译模型，发送终端将音频编码流发送至服务器后，服务器对该音频编码流进行解码，并对解码得到的语音内容进行翻译。可选地，该服务器可以将翻译结果反馈至发送终端，也可以根据发送终端与接收终端之间通过该服务器建立的实时语音连接，将翻译结果以文本的形式发送至接收终端，或将翻译结果以语音的形式发送至接收终端。

第三，发送终端将音频编码流发送至服务器，且服务器中包括实时变声模型。

可选地，发送终端正在应用该服务器提供的实时变声功能，该服务器中包括实时变声模型，发送终端将音频编码流发送至服务器后，服务器对该音频编码流进行解码，并对解码得到的语音内容进行变声。可选地，该服务器可以将变声结果反馈至发送终端，也可以根据发送终端与接收终端之间通过该服务器建立的实时语音连接，将变声结果发送至接收终端，或将变声结果发送至接收终端和发送终端，本申请实施例对此不加以限定。

综上所述，本实施例提供的方法，在对目标语音信号进行编码之前，对该目标语音信号中人声概率较低的第二人声帧进行归一化处理，将第二人声帧归一化为静音帧，并对该目标语音信号通过变长编码方式进行编码，静音帧的编码结果长度小于第二人声帧的编码结果长度，故而在不影响语音可懂度的基础上，减小目标语音信号的编码长度，并降低该目标语音信号在发送过程中的带宽占用，针对实时语音场景避免语音发送过程延时较大的问题，提高了目标语音信号的传输效率。

在一个可选的实施例中，上述目标语音信号进行人声检测后，还需要对环境音帧进行过滤，图6是本申请另一个示例性实施例提供的语音信号的发送方法的流程图，以该方法应用于如图3所示的发送终端310中为例进行说明，如图6所示，该方法包括：

步骤601，获取待发送的目标语音信号。

其中，当目标语音信号为发送终端中待发送至接收终端的语音信号时，该发送终端和接收终端之间建立有实时语音连接。

当目标语音信号实现为发送终端中待发送至服务器的语音信号时，该发送终端正在应用由该服务器提供的实时语音处理功能，如：实时语音翻译功能、实时语音变声功能、实时语音优化功能等。

步骤602，对目标语音信号中的语音帧进行人声概率检测，得到语音帧的人声概率。

可选地，通过高斯混合模型算法对该人声概率进行计算，其中，高斯混合模型通过高斯概率密度函数(正态分布曲线)量化该语音帧，将该语音帧分解为若干个基于高斯概率密度函数形成的模型，从而对该语音帧进行人声概率检测。

步骤603，当语音帧的人声概率小于第二要求概率时，确定该语音帧为环境音帧。

可选地，当该语音帧的人声概率达到该第二要求概率时，则确定该语音帧为人声帧，并根据人声概率的第一要求概率确定该人声帧为人声概率较高的人声帧还是人声概率较低的人声帧。

可选地，该第二要求概率的概率值小于该第一要求概率。

步骤604，当环境音帧的拖尾时长达到目标时长时，对环境音帧进行丢弃。

可选地，该拖尾时长用于表示环境音的持续时长，也即当确定一帧语音帧为环境音帧时，对该环境音帧之后拖尾时长内的语音帧进行人声检测，当拖尾时长内的语音帧皆为环境音帧时，对该环境音帧进行丢弃。

步骤605，将未被丢弃的语音帧确定为人声帧。

步骤606，获得第一人声帧和第二人声帧，其中，第一人声帧的人声概率大于或者等于第一要求概率，第二人声帧的人声概率小于第一要求概率。

可选地，当该语音帧的人声概率达到第一概率要求时，将该语音帧确定为第一人声帧，当该语音帧的人声概率小于第一概率要求时，将该语音帧确定为第二人声帧。

步骤607，将第二人声帧归一化为静音帧。

步骤608，对第一人声帧和静音帧进行边长编码，得到音频编码流，静音帧在变长编码方式下的第一编码长度小于第二人声帧的第二编码长度。

可选地，该变长编码方式是指语音帧的编码结果长度不固定的编码方式。可选地，通过变长编码方式进行编码时，对帧内信号字节数不同的语音帧，编码后的编码结果长度也不同，静音帧的第一编码结果长度小于第二人声帧的第二编码结果长度。

步骤608，对音频编码流进行发送。

示意性的，发送终端将该音频编码流发送至接收终端，该发送终端和接收终端之间建立有实时语音连接；或，发送终端将该音频编码流发送至服务器，该服务器中包括实时翻译模型，用于对音频编码流对应的音频内容进行实时翻译；或，发送终端将该音频编码流发送至服务器，该服务器中包括实时变声模型，用于对音频编码流对应的音频内容进行变声处理。

综上所述，本实施例提供的方法，在对目标语音信号进行编码之前，对该目标语音信号中人声概率较低的第二人声帧进行归一化处理，将第二人声帧归一化为静音帧，从而在不影响语音可懂度的基础上，减小目标语音信号的编码长度，并降低该目标语音信号在发送过程中的带宽占用，针对实时语音场景避免语音发送过程延时较大的问题，提高了目标语音信号的传输效率。

本实施例提供的方法，在对目标语音信号中的语音帧进行人声检测后，首先确定得到环境音帧，并对环境音帧进行丢弃，从而对人声概率较低的人声帧归一化为静音帧，由于环境音帧无需被发送也不会影响该目标语音信号的可懂度，故丢弃环境音帧后，降低了该目标语音信号在发送过程中的带宽占用，提高了目标语音信号的传输效率。

在一个可选的实施例中，上述目标语音信号在进行人声检测前，还需要进行预处理，图7是本申请另一个示例性实施例提供的语音信号的发送方法的流程图，以该方法应用于如图3所示的发送终端310中为例进行说明，如图7所示，该方法包括：

步骤701，获取待发送的目标语音信号。

步骤702，对目标语音信号进行预处理。

可选地，该预处理的处理方式包括重采样处理、降噪处理、啸叫抑制处、回声消除处理中的至少一种。

其中，重采样处理包括向上重采样处理和向下重采样处理中的至少一种，在向上重采样处理时，对该目标语音信号进行差值处理，在向下重采样处理时，对该目标语音信号进行抽取处理；降噪处理是指对目标语音信号中的噪声部分进行消除的处理方式；啸叫抑制处理是指对目标语音信号中出现的啸叫情况进行消除，可以采用如频率均衡法，通过将系统的频率响应调成近似的直线，使各频率的增益基本一致消除啸叫等方式进行啸叫抑制；回声消除处理可以通过回声消除(Echo Cancellation，EC)技术实现，回声分为声学回音(Acoustic Echo)和线路回音(Line Echo)，相应的回声消除技术对应有声学回声消除(Acoustic Echo Cancellation，AEC)和线路回声消除(Line Echo Cancellation，LEC)。

步骤703，对目标语音信号中的语音帧进行人声概率检测，得到语音帧的人声概率。

步骤704，当语音帧的人声概率小于第二要求概率时，确定该语音帧为环境音帧。

步骤705，当环境音帧的拖尾时长达到目标时长时，对环境音帧进行丢弃。

步骤706，将未被丢弃的语音帧确定为人声帧。

步骤707，获得第一人声帧和第二人声帧，其中，第一人声帧的人声概率大于或者等于第一要求概率，第二人声帧的人声概率小于第一要求概率。

步骤708，将第二人声帧归一化为静音帧。

可选地，将该第二人声帧的第一数字信号值修改为静音帧对应的第二数字信号值。

步骤709，对第一人声帧和静音帧进行边长编码，得到音频编码流，静音帧在变长编码方式下的第一编码长度小于第二人声帧的第二编码长度。

步骤710，对音频编码流进行发送。

本实施例提供的方法，在对目标语音信号进行人声检测之前，对该目标语音信号进行预处理，并对预处理后的目标语音信号进行人声检测，由于在该与处理过程中，过滤了回声、啸叫、噪音等杂音，且对进行了重采样，提高了该目标语音信号的清晰度，提高了人声检测的准确度，从而对后续处理的准确度产生增益效果。

示意性的，图8是本申请一个示例性实施例提供的发送终端对目标语音信号进行发送的整体流程图，如图8所示，该过程包括：

步骤801，初始化。可选地，系统线程启动，内存池资源申请，根据业务组队信息，发送终端的用户进入对应的房间，由系统拉取配置信息。步骤802，语音信号采集。可选地，发送终端开启麦克风，并通过麦克风采集语音原始数字信号。步骤803，预处理。可选地，该预处理的处理方式包括重采样处理、降噪处理、啸叫抑制处、回声消除处理中的至少一种。步骤804，人声概率检测。可选地，基于高斯混合模型的人声概率检测，在人声覆盖的各个频带分析语音帧所占比重。步骤805，判断语音帧是否人声。可选地，当人声概率低于一阈值Frate_min时，且连续出现超过拖尾时长时，判定为环境音帧，否则将此语音帧判定为人声帧。步骤806，当语音帧为环境音帧时，对该环境音帧进行丢弃。可选地，对该环境音帧不进行编码处理，降低带宽开销，降低带宽成本。步骤807，当语音帧为人声帧时，判断人声概率是否低概率。步骤808，当人声帧为低概率人声帧时，将低概率人声帧归一化至静音帧。可选地，对于低于人声概率阈值Probability_Min(此值由服务器下发配置，在初始化的时候获取)，归一化成静音帧。步骤809，对非低概率人声帧和静音帧变长编码。步骤810，打包传输。步骤811，将数据包发送至云服务器。可选地，根据应用层要求，进行相关协议打包，传输语音目标码流至云数据转发服务器。

图9是本申请一个示例性实施例提供的语音信号的发送装置，以该装置应用于如图3所示的发送终端中为例进行说明，如图9所示，该装置包括：确定模块910、处理模块920、编码模块930以及发送模块940；

确定模块910，用于对目标语音信号中的语音帧进行人声概率检测，得到人声帧；

所述确定模块910，还用于获得第一人声帧和第二人声帧，其中，所述第一人声帧的人声概率大于或者等于第一要求概率，所述第二人声帧的人声概率小于第一要求概率；

处理模块920，用于将所述第二人声帧归一化为静音帧；

编码模块930，用于对所述第一人声帧和所述静音帧进行变长编码，得到音频编码流；所述静音帧在变长编码方式下的第一编码长度小于所述第二人声帧的第二编码长度；

发送模块940，用于对所述音频编码流进行发送。

在一个可选的实施例中，所述处理模块920，还用于在所述目标语音信号中，通过对数字信号值的修改，将所述第二人声帧归一化为所述静音帧。

在一个可选的实施例中，所述处理模块920，还用于将所述第二人声帧的第一数字信号值修改为与所述静音帧对应的第二数字信号值。

在一个可选的实施例中，所述确定模块910，还用于确定模块，还用于确定所述人声检测中，人声对应覆盖的预设频带；根据所述语音帧在所述预设频带内的占比确定所述语音帧的所述人声概率。

在一个可选的实施例中，所述确定模块910，还用于当所述语音帧的所述人声概率小于第二要求概率时，确定所述语音帧为环境音帧；当所述环境音帧的拖尾时长达到目标时长时，对所述环境音帧进行丢弃；将未被丢弃的所述语音帧确定为所述人声帧。

在一个可选的实施例中，所述处理模块920，还用于对所述目标语音信号进行预处理；

所述预处理的处理方式包括重采样处理、降噪处理、啸叫抑制处理、回声消除处理中的至少一种。

在一个可选的实施例中，所述发送模块940，还用于将所述音频编码流发送至接收终端，发送终端和所述接收终端之间建立有实时语音连接；

或，

所述发送模块940，还用于将所述音频编码流发送至服务器，所述服务器中包括实时翻译模型，用于对所述音频编码流对应的音频内容进行实时翻译；

或，

所述发送模块940，还用于将所述音频编码流发送至服务器，所述服务器中包括实时变声模型，用于对所述音频编码流对应的所述音频内容进行变声处理。

综上所述，本实施例提供的语音信号的发送装置，在对目标语音信号进行编码之前，对该目标语音信号中人声概率较低的第二人声帧进行归一化处理，将第二人声帧归一化为静音帧，从而在不影响语音可懂度的基础上，减小目标语音信号的编码长度，并降低该目标语音信号在发送过程中的带宽占用，针对实时语音场景避免语音发送过程延时较大的问题，提高了目标语音信号的传输效率。

需要说明的是：上述实施例提供的语音信号的发送装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音信号的发送装置与语音信号的发送方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本发明一个示例性实施例提供的终端1000的结构框图。该终端1000可以是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述本申请实施例中的语音信号的发送方法。

可选地，该终端1000还包括麦克风1003，该麦克风1003用于对目标语音信号进行采集。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。

另一方面，提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述本申请实施例中的语音信号的发送方法。

另一方面，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述本申请实施例中的语音信号的发送方法。

另一方面，提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中的语音信号的发送方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音信号的发送方法，其特征在于，所述方法包括：

获得第一人声帧和第二人声帧，其中，所述第一人声帧的人声概率大于或者等于第一要求概率，所述第二人声帧的人声概率小于所述第一要求概率，所述第一要求概率用于将所述人声帧区分为影响可懂度的所述第一人声帧和不影响可懂度的所述第二人声帧；

将所述第二人声帧归一化为静音帧；

对所述音频编码流进行发送。

2.根据权利要求1所述的方法，其特征在于，所述将所述第二人声帧归一化为静音帧，包括：

通过对数字信号值的修改，将所述第二人声帧归一化为所述静音帧。

3.根据权利要求2所述的方法，其特征在于，所述通过对数字信号值的修改，将所述第二人声帧归一化为所述静音帧，包括：

将所述第二人声帧的第一数字信号值修改为与所述静音帧对应的第二数字信号值。

4.根据权利要求1至3任一所述的方法，其特征在于，所述对目标语音信号中的语音帧进行人声概率检测，包括：

确定所述人声检测中，人声对应覆盖的预设频带；

根据所述语音帧在所述预设频带内的占比确定所述语音帧的所述人声概率。

5.根据权利要求4所述的方法，其特征在于，所述得到人声帧，包括：

当所述语音帧的所述人声概率小于第二要求概率时，确定所述语音帧为环境音帧；

当所述环境音帧的拖尾时长达到目标时长时，对所述环境音帧进行丢弃；

将未被丢弃的所述语音帧确定为所述人声帧。

6.根据权利要求1至3任一所述的方法，其特征在于，所述对目标语音信号中的语音帧进行人声概率检测之前，还包括：

对所述目标语音信号进行预处理；所述预处理的处理方式包括重采样处理、降噪处理、啸叫抑制处理、回声消除处理中的至少一种。

7.根据权利要求1至3任一所述的方法，其特征在于，所述对所述音频编码流进行发送，包括：

将所述音频编码流发送至接收终端，发送终端和所述接收终端之间建立有实时语音连接；

或，

将所述音频编码流发送至服务器，所述服务器中包括实时翻译模型，用于对所述音频编码流对应的音频内容进行实时翻译；

或，

将所述音频编码流发送至服务器，所述服务器中包括实时变声模型，用于对所述音频编码流对应的所述音频内容进行变声处理。

8.一种语音信号的发送装置，其特征在于，应用于发送终端中，所述装置包括：

所述确定模块，还用于获得第一人声帧和第二人声帧，其中，所述第一人声帧的人声概率大于或者等于第一要求概率，所述第二人声帧的人声概率小于所述第一要求概率，所述第一要求概率用于将所述人声帧区分为影响可懂度的所述第一人声帧和不影响可懂度的所述第二人声帧；

处理模块，用于将所述第二人声帧归一化为静音帧；

发送模块，用于对所述音频编码流进行发送。

9.根据权利要求8所述的装置，其特征在于，所述处理模块，还用于通过对数字信号值的修改，将所述第二人声帧归一化为所述静音帧。

10.根据权利要求9所述的装置，其特征在于，所述处理模块，还用于将所述第二人声帧的第一数字信号值修改为与所述静音帧对应的第二数字信号值。

11.根据权利要求8至10任一所述的装置，其特征在于，所述确定模块，还用于确定所述人声检测中，人声对应覆盖的预设频带；根据所述语音帧在所述预设频带内的占比确定所述语音帧的所述人声概率。

12.根据权利要求11所述的装置，其特征在于，所述确定模块，还用于当所述语音帧的所述人声概率小于第二要求概率时，确定所述语音帧为环境音帧；当所述环境音帧的拖尾时长达到目标时长时，对所述环境音帧进行丢弃；将未被丢弃的所述语音帧确定为所述人声帧。

13.根据权利要求8至10任一所述的装置，其特征在于，所述处理模块，还用于对所述目标语音信号进行预处理；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的语音信号的发送方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的语音信号的发送方法。