CN108055417B

CN108055417B - 一种基于语音检测回音抑制切换音频处理系统及方法

Info

Publication number: CN108055417B
Application number: CN201711430359.2A
Authority: CN
Inventors: 陈尚武; 金国庆
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2020-09-29
Anticipated expiration: 2037-12-26
Also published as: CN108055417A

Abstract

本发明提供一种基于语音检测回音抑制切换音频处理系统及方法，包括本地侧语音检测模块、网络侧语音检测模块、衰减器模块、切换器模块、回音抑制模块、扬声器和拾音器；当本地侧语音检测模块判断出本地正在语音，且网络侧语音检测模块通过语音检测方法判断出网络侧没有说活，则切换器模块把未经回音抑制模块的音频流C转发给音频流E，从而降低音频流E的失真,开启衰减器模块对音频流A进行衰减，避免音频流A该背景噪音影响网络发送音频流E，同时保留网络接收的音频流A的轻微背景音；采用本发明的技术方案，提供兼顾消除必要回音同时减少回音抑制的本地语音的处理，从而减少对声音破坏，最终提升本地发送的网络音频流E的音质。

Description

一种基于语音检测回音抑制切换音频处理系统及方法

技术领域

本发明涉及IP网络通信技术领域，具体为一种基于语音检测回音抑制切换音频处理系统及方法。

背景技术

IP网络通话因为IP网络时延，增加回音抑制模块清除模块成为必然选择。如图1所示，回音抑制基本原理是分析接收到网络音频流A特征，然后对拾音器的采集到音频流C,音频流C为混合本地声音B与回音(音频流A)的音频,回音抑制模块根据之前分析对音频流C去音频流A特性，最终得到要网络发送的音频流D。在去除音频流A特性同时，也必然对音频流C中本地音频A特性破坏，导致音频流D相比音频流C对本地声音B的声音还原要差。

发明内容

本发明的目的在于提供一种基于语音检测回音抑制切换音频处理系统及方法，能够消除必要回音同时减少回音抑制的本地语音的处理，从而减少回音抑制模块对本地声音破坏，最终提升本地发送的网络音频流E的音质。

本发明提供一种基于语音检测回音抑制切换音频处理系统，包括本地侧语音检测模块、网络侧语音检测模块、衰减器模块、切换器模块、回音抑制模块、扬声器和拾音器；

当本地侧语音检测模块判断出本地正在语音，且网络侧语音检测模块通过语音检测方法判断出网络侧没有说活，则切换器模块把未经回音抑制模块的音频流C转发给音频流E，从而降低音频流E的失真,开启衰减器模块对音频流A进行衰减，避免音频流A的背景噪音影响网络发送音频流E，同时保留网络接收的音频流A的轻微背景音；

当网络侧语音检测模块判断出网络侧开始语音，衰减器模块不对音频流A的数据包进行衰减，让网络侧音频流A无损到扬声器，同时切换器模块把经过回音抑制模块处理音频流D转发音频流E,避免音频流A的语音产生回音；切换器模块在切换转发音频流时选择在语音的字间切换，使声音切换更加平顺；一种基于语音检测回音抑制切换音频处理系统提供兼顾消除必要回音同时减少回音抑制的本地语音的处理，从而减少对声音破坏，最终提升本地发送的网络音频流E的音质。

其中：

音频流A为接收到的网络音频流；

音频流A2为音频流A经过衰减器模块处理后音频流；

音频流C为本地拾音器采集声音，包含本地声音B与回音的音频；

回音是音频流A2经过扬声器播放产生的；

音频流D为音频流C回音抑制模块处理后音频；

音频流E为音频流C与音频流D经过切换器模块处理，按时域混合后音频流。

本发明还提供一种基于语音检测回音抑制切换音频处理方法，包括如下步骤：

步骤(1)：初始状态为回音抑制状态，衰减器模块不对音频流A的数据包进行衰减，切换器模块转发音频流D的数据包，此时音频流A2等于音频流A，音频流E等于音频流D；

步骤(2)：本地侧语音检测模块判断出本地是否有语音，如果有语音则继续判断是否本地语音的能量低谷；

步骤(3)：网络侧语音检测模块判断出网络侧是否有语音，并保存最近一段时间的检测结果；

步骤(4)：本地侧语音检测模块的检测本地的语音，查询网络侧语音检测模块的语音检测历史列表没有语音；判断当前系统状态为回音抑制状态，则开启进入切换本地直通状态的流程；

步骤(5)：进入切换到本地直通状态流程状态的流程；

步骤(6)：网络侧语音检测模块的检测到网络侧的开始语音，判断当前工作模式为本地直通状态，则进入切换到回音抑制状态流程状态的流程；

步骤(7)：进入切换到回音抑制状态流程状态的流程。

作为优选方案：步骤具体分为如下步骤：

步骤(2.1)、音频流D相比音频流C消除了音频流A2的回音干扰，本地侧语音检测选择音频流D做声音检测，对音频流D的数据采用分包处理方法，周期性处理采集的分包音频数据，对每个分包的音频数据的绝对值进行累加，累加值除于分包大小得到分包的平均值；

步骤(2.2)、当前音频流的分包的平均值跟声音阀值进行判断，大于声音阀值则认定检测到语音，小于声音阀值则认为静音；

步骤(2.3)、把过去时间t内所有检测有声音分包的平均值进行累加求平均值，得到时间t的所有语音的平均数AVG；

步骤(2.4)、当检测到语音时，继续把当前音频流分包的平均值判断是否小于平均数AVG的二分一，如小于则认为在本地语音处理于能量低谷。

作为优选方案：步骤(3)具体分为如下步骤：

步骤(3.1)、接收网络音频流原始分包大小不一致，导致处理分包的时间精度不同，统一标准化时间精度，对从网络接收音频流A的数据采用重新分包处理方法，网络接收音频流A的先进入缓存队列，周期从缓存队列取固定大小音频数据；

步骤(3.2)、对每个重分包的音频数据的绝对值进行累加，累加值除于分包大小得到分包的平均值；

步骤(3.3)、分包的平均值跟声音阀值M进行判断，大于声音阀值则认定检测到语音，小于声音阀值则认为静音；

步骤(3.4)、网络侧语音检测模块检测结果放入语音检测历史列表，语音检测历史列表为固定大小，只保存最近检测结果，语音检测历史列表的时间累积大于回音的时延。

作为优选方案：步骤(5)具体分为如下步骤：

步骤(5.1)、衰减器模块对音频流A进行dn分贝衰减；对音频流A的每个采样数据进行除以衰减系数得到音频流A2，对网络侧的音频流A的背景噪音进行压制，避免音频流A的背景噪音影响网络发送音频流E；

步骤(5.2)、人的语音中两字间是存在能量低谷，在能量低谷进行切换不会一个字发音的完成性，在音频流C的能量低谷时进行切换，实现字间切换，切换对听感破坏最小，从而提高语音质量；本地侧语音检测模块判断当前处于本地侧语音属于能量低谷或没有语音时，则判断出当前语音处于字间切换，切换器模块停止转发音频流D的数据包，开始转发音频流C的数据包；

步骤(5.3)、在切换过程中，网络侧语音检测模块检测有语音，则终止切换恢复到回音抑制状态。

作为优选方案：步骤(7)具体分为如下步骤：

步骤(7.1)、衰减器模块不对音频流A的数据包进行衰减，此时音频流A2等于音频流A，让网络侧音频流A的语音能够无损传到扬声器；

步骤(7.2)、本地侧语音检测模块对音频流C的进行分包判断是否为能量低谷时，同时开T1定时器，T1定时器目的防止网络侧的声音的产生回音传入音频流E。T1定时器取值决定音频流A2到音频流C的回来延时，时间扬声器到麦克风的声学延时小于1毫米，扬声器的放音延时与麦克风采集录音延时决定T1定时器取值。如果判断音频流C处于语音能量低谷或没有语音或T1定时器超时，则同时切换器模块开始经过回音抑制模块处理音频流D转发音频流E，音频流E等于音频流D。

与现有技术相比，本发明的有益效果如下：

采用本发明的技术方案，提供兼顾消除必要回音同时减少回音抑制的本地语音的处理，从而减少对声音破坏，最终提升本地发送的网络音频流E的音质。

附图说明

图1为背景技术中所述技术方案功能结构图；

图2为本发明的整体功能结构图。

本地侧语音检测模块1，网络侧语音检测模块2，衰减器模块3，切换器模块4，回音抑制模块5，扬声器6，拾音器7。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图2所示：本发明的第一个目的是提供一种基于语音检测回音抑制切换音频处理系统，减少回音抑制模块对本地声音破坏，提升发送的网络音频流的音质。

音频流A为接收到的网络音频流。

音频流A2为音频流A经过衰减器模块3处理后音频流。

音频流C为本地拾音器采集声音，包含本地声音B与回音的音频。

回音是音频流A2经过扬声器播放产生的。

音频流D为音频流C回音抑制模块5处理后音频。

音频流E为音频流C与音频流D经过切换器模块4处理，按时域混合后音频流。

实现本发明第一个目的的技术方案是：本地侧语音检测模块1，网络侧语音检测模块2，衰减器模块3，切换器模块4，回音抑制模块5，扬声器6，拾音器7。当本地侧语音检测模块1判断出本地正在语音，且网络侧语音检测模块2通过语音检测方法判断出网络侧没有说活，则切换器模块4把未经回音抑制模块5的音频流C转发给音频流E，从而降低音频流E的失真,开启衰减器模块对音频流A进行衰减，避免音频流A的背景噪音影响网络发送音频流E，同时保留网络接收的音频流A的轻微背景音。当网络侧语音检测模块2判断出网络侧开始语音，衰减器模块3不对音频流A的数据包进行衰减，让网络侧音频流A无损到扬声器6，同时切换器模块4把经过回音抑制模块处理音频流D转发音频流E,避免音频流A的语音产生回音。切换器模块4在切换转发音频流时选择在语音的字间切换，使声音切换更加平顺。一种基于语音检测回音抑制切换音频处理系统提供兼顾消除必要回音同时减少回音抑制的本地语音的处理，从而减少对声音破坏，最终提升本地发送的网络音频流E的音质。

本发明的第二个目的是提供一种基于语音检测回音抑制切换音频处理方法:

1.初始状态为回音抑制状态，衰减器模块3不对音频流A的数据包进行衰减，切换器模块4转发音频流D的数据包，此时音频流A2等于音频流A，音频流E等于音频流D。

2.本地侧语音检测模块1判断出本地是否有语音，如果有语音则继续判断是否本地语音的能量低谷。

2.1音频流D相比音频流C消除了音频流A2的回音干扰，本地侧语音检测选择音频流D做声音检测，对音频流D的数据采用分包处理方法，周期性处理采集的分包音频数据，对每个分包的音频数据的绝对值进行累加，累加值除于分包大小得到分包的平均值。

举例：每秒8000次采样，每次采样16位数据(2字节)，分包处理周期为20毫秒，则选160次采样做为分包处理周期。把160次采样数据取绝对值，并进行全部累加得累加值，累加值除于160得到平均值。

2.2当前音频流的分包的平均值跟声音阀值进行判断，大于声音阀值则认定检测到语音，小于声音阀值则认为静音。

2.3把过去时间t内(如：1分钟)内所有检测有声音分包的平均值进行累加求平均值，得到时间t的所有语音的平均数AVG。

2.4当检测到语音时，继续把当前音频流分包的平均值判断是否小于平均数AVG的二分一，如小于则认为在本地语音处理于能量低谷。

举例：声音阀值采用较灵敏的值，如取值500。

3.网络侧语音检测模块2判断出网络侧是否有语音，并保存最近一段时间的检测结果

3.1接收网络音频流原始分包大小不一致，导致处理分包的时间精度不同，统一标准化时间精度，对从网络接收音频流A的数据采用重新分包处理方法，网络接收音频流A的先进入缓存队列，周期从缓存队列取固定大小音频数据。

举例：网络源音频流为每秒8000次采样，每次采样16位数据，网络源重新分包处理周期为20毫秒，则每个分包的音频数据单位为320字节。

3.2对每个重分包的音频数据的绝对值进行累加，累加值除于分包大小得到分包的平均值。

3.3分包的平均值跟声音阀值M进行判断，大于声音阀值则认定检测到语音，小于声音阀值则认为静音。

3.3网络侧语音检测模块2检测结果放入语音检测历史列表，语音检测历史列表为固定大小，只保存最近检测结果，语音检测历史列表的时间累积大于回音的时延。

举例：分包处理周期为20毫秒，回音小于100毫秒，则语音检测历史列表需要保存最新100毫秒内的语音检测结果，语音检测历史列表大小为5个。

4.本地侧语音检测模块1的检测本地的语音，查询网络侧语音检测模块2的语音检测历史列表没有语音。判断当前系统状态为回音抑制状态，则开启进入切换本地直通状态的流程。

5.进入切换到本地直通状态的流程，具体如下：

5.1衰减器模块3对音频流A进行dn分贝衰减。对音频流A的每个采样数据进行除以衰减系数得到音频流A2，对网络侧的音频流A的背景噪音进行压制，避免音频流A的背景噪音影响网络发送音频流E。

举例：衰减器模块3采音频流A进行9分贝衰减，根据分贝计算公式衰减系数为8，音频流A2的数据为音频流A的每个采样数据进行除以8。

分贝定义：两个同类功率量或可与功率类比的量之比值的常用对数乘以10。

5.2人的语音中两字间是存在能量低谷，在能量低谷进行切换不会一个字发音的完成性，在音频流C的能量低谷时进行切换，实现字间切换，切换对听感破坏最小，从而提高语音质量。本地侧语音检测模块1判断当前处于本地侧语音属于能量低谷或没有语音时，则判断出当前语音处于字间切换，切换器模块4停止转发音频流D的数据包，开始转发音频流C的数据包。

5.3在切换过程中，网络侧语音检测模块2检测有语音，则终止切换恢复到回音抑制状态。

6.网络侧语音检测模块2的检测到网络侧的开始语音，判断当前工作模式为本地直通状态，则进入切换到回音抑制状态的流程。

7.进入切换到回音抑制状态的流程，具体如下：

7.1衰减器模块3不对音频流A的数据包进行衰减，此时音频流A2等于音频流A，让网络侧音频流A的语音能够无损传到扬声器6；

7.2本地侧语音检测模块1对音频流C的进行分包判断是否为能量低谷时，同时开T1定时器，T1定时器目的防止网络侧的声音的产生回音传入音频流E。T1定时器取值决定音频流A2到音频流C的回来延时，时间扬声器到麦克风的声学延时小于1毫米，扬声器的放音延时与麦克风采集录音延时决定T1定时器取值。如果判断音频流C处于语音能量低谷或没有语音或T1定时器超时，则同时切换器模块4开始经过回音抑制模块处理音频流D转发音频流E，音频流E等于音频流D。

举例：T1定时包取值40毫秒，则判断判断音频流C的两个20毫秒分包，则强制进行切换。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音检测回音抑制切换音频处理系统，其特征在于，包括本地侧语音检测模块(1)、网络侧语音检测模块(2)、衰减器模块(3)、切换器模块(4)、回音抑制模块(5)、扬声器(6)和拾音器(7)；

当本地侧语音检测模块(1)判断出本地正在语音，且网络侧语音检测模块(2)通过语音检测方法判断出网络侧没有说活，则切换器模块(4)把未经回音抑制模块(5)的音频流C转发给音频流E，从而降低音频流E的失真,开启衰减器模块对音频流A进行衰减，避免音频流A的背景噪音影响网络发送音频流E，同时保留网络接收的音频流A的轻微背景音；

当网络侧语音检测模块(2)判断出网络侧开始语音，衰减器模块(3)不对音频流A的数据包进行衰减，让网络侧音频流A无损到扬声器(6)，同时切换器模块(4)把经过回音抑制模块处理音频流D转发音频流E,避免音频流A的语音产生回音；切换器模块(4)在切换转发音频流时选择在语音的字间切换，使声音切换更加平顺；

其中：

音频流A为接收到的网络音频流；

音频流A2为音频流A经过衰减器模块(3)处理后音频流；

回音是音频流A2经过扬声器(6)播放产生的；

音频流D为音频流C回音抑制模块(5)处理后音频；

音频流E为音频流C与音频流D经过切换器模块(4)处理，按时域混合后音频流。

2.一种基于语音检测回音抑制切换音频处理方法，其特征在于，包括如下步骤：

步骤(1)：初始状态为回音抑制状态，衰减器模块(3)不对音频流A的数据包进行衰减，切换器模块(4)转发音频流D的数据包，此时音频流A2等于音频流A，音频流E等于音频流D；

步骤(2)：本地侧语音检测模块(1)判断出本地是否有语音，如果有语音则继续判断是否本地语音的能量低谷；

步骤(3)：网络侧语音检测模块(2)判断出网络侧是否有语音，并保存最近一段时间的检测结果；

步骤(4)：本地侧语音检测模块(1)的检测本地的语音，查询网络侧语音检测模块(2)的语音检测历史列表没有语音；判断当前系统状态为回音抑制状态，则开启进入切换本地直通状态的流程；

步骤(5)：进入切换到本地直通状态的流程，具体分为如下步骤：

步骤(5.1)、衰减器模块(3)对音频流A进行dn分贝衰减；对音频流A的每个采样数据进行除以衰减系数得到音频流A2，对网络侧的音频流A的背景噪音进行压制，避免音频流A的背景噪音影响网络发送音频流E；

步骤(5.2)、人的语音中两字间是存在能量低谷，在能量低谷进行切换不会一个字发音的完成性，在音频流C的能量低谷时进行切换，实现字间切换，切换对听感破坏最小，从而提高语音质量；本地侧语音检测模块(1)判断当前处于本地侧语音属于能量低谷或没有语音时，则判断出当前语音处于字间切换，切换器模块(4)停止转发音频流D的数据包，开始转发音频流C的数据包；

步骤(5.3)、在切换过程中，网络侧语音检测模块(2)检测有语音，则终止切换恢复到回音抑制状态；

步骤(6)：网络侧语音检测模块(2)的检测到网络侧的开始语音，判断当前工作模式为本地直通状态，则进入切换到回音抑制状态的流程；

步骤(7)：进入切换到回音抑制状态的流程，具体分为如下步骤：

步骤(7.1)、衰减器模块(3)不对音频流A的数据包进行衰减，此时音频流A2等于音频流A，让网络侧音频流A的语音能够无损传到扬声器(6)；

步骤(7.2)、本地侧语音检测模块(1)对音频流C的进行分包判断是否为能量低谷时，同时开T1定时器，T1定时器目的防止网络侧的声音的产生回音传入音频流E。T1定时器取值决定音频流A2到音频流C的回来延时，时间扬声器到麦克风的声学延时小于1毫米，扬声器的放音延时与麦克风采集录音延时决定T1定时器取值；如果判断音频流C处于语音能量低谷或没有语音或T1定时器超时，则同时切换器模块(4)开始经过回音抑制模块处理音频流D转发音频流E，音频流E等于音频流D。

3.根据权利要求2中所述的一种基于语音检测回音抑制切换音频处理方法，其特征在于，步骤(2)具体分为如下步骤：

4.根据权利要求2中所述的一种基于语音检测回音抑制切换音频处理方法，其特征在于，步骤(3)具体分为如下步骤：

步骤(3.4)、网络侧语音检测模块(2)检测结果放入语音检测历史列表，语音检测历史列表为固定大小，只保存最近检测结果，语音检测历史列表的时间累积大于回音的时延。