CN102568488B

CN102568488B - 一种抑制网络丢包影响的语音数据后处理方法

Info

Publication number: CN102568488B
Application number: CN2012100419942A
Authority: CN
Inventors: 何佳; 王小敏; 王大勇; 尼秀明
Original assignee: ANHUI CREARO TECHNOLOGY Co Ltd
Current assignee: ANHUI CREARO TECHNOLOGY CO., LTD.
Priority date: 2012-02-23
Filing date: 2012-02-23
Publication date: 2013-06-12
Anticipated expiration: 2032-02-23
Also published as: CN102568488A

Abstract

本发明公开了一种抑制网络丢包影响的语音数据后处理方法，包括下面主要步骤：a.有数据包丢失时，在缓冲的数据包和当前接收的数据包中选取合适的两个极值点；b.用正弦函数对选取的两个极值点分别进行拟合；c.用拟合好的两个正弦函数的线性组合对两个极值点间的采样点的幅值进行校正，并以校正后的数据包作为播放数据包。本发明方法可以抑制在网络传输过程中数据包丢失情况下引入的高频噪音，改善主观听觉感受。

Description

一种抑制网络丢包影响的语音数据后处理方法

技术领域

本发明涉及一种语音数据的后处理方法，具体是一种抑制网络丢包影响的语音数据后处理方法。

背景技术

随着近年来互联网的迅猛发展，如视频会议、视频监控、VOIP等基于网络音视频技术的各种应用和产品得到了迅速的推广。其中音频数据在网络上传输时，为了保证实时性，大多数应用都是基于UDP进行传输的。UDP传输数据的特点是传输时不能保证负载数据的完整性。因此传输的音频数据不可避免的会产生丢包。如果丢包后的数据不做任何处理，直接播放会引入很多高频噪音，影响主观听觉感受。人们对音频数据在网络传输丢包的后处理方法进行了相关的研究，如：[1]、在分布式语音识别处理和系统中减轻传输错误影响的方法和设备，专利申请号：01809628.X；[2]、处理丢失帧的语音通信系统及方法，专利申请号：01812823.8；[3]、一种在网络上传输IP语音包的丢包恢复方法，专利申请号：00129594.2。专利[1]主要是基于识别并替换传输的错误语音参数来进行语音处理，而基于UDP的数据传输一般都是数据包丢失，而数据包内容错误的情况非常少见；专利[2]、专利[3]的目的都是要减轻数据包丢失造成的影响，不过这两个方法采用的思路是通过曲线拟合、波形插值、线性预测等方法恢复丢失的数据包的语音数据，这样的处理思路一般要缓冲丢失数据包前后各若干个数据包进行处理，需要内存较多，且影响语音播放的实时性。

发明内容

本发明要解决的技术问题是提供一种抑制网络丢包影响的语音数据后处理方法，在网络传输过程中数据包丢失情况下，对收到的前后两个数据包的边缘数据进行拟合校正，通过滤除采样点幅值突变而引入的高频噪音，改善了主观听觉感受。

本发明的技术方案为：

一种抑制网络丢包影响的语音数据后处理方法，其特征在于：包括以下步骤：

（1）、将每一个音频数据包记为P，每个数据包都由M个采样点组成，第m个采样点幅值记为P(m)，m=0，……，M-1；

（2）、一个新接收到的数据包，如果其通过数据包序列号的方式判断出和上一次接收的数据包之间没有数据丢失时，则此数据包的播放按正常方式播放上一次接收的数据包，并且将此数据包缓冲起来；如果此数据包通过数据包序列号的方式判断出和上一次接收的数据包之间有数据丢失时，则将上一次接收的数据包记为P^B，将这次接收的数据包记为P^N；

（3）、如果一个点m的幅值大于前后两点的幅值，我们称为极值点；在P^B的采样点中从后向前找到的第一个极值点记为

，在P^N的采样点中从前向后找到的第二个极值点记为；

（4）、以数据包每个采样点的序号为横坐标，幅值为纵坐标，对

和前后各一个点做正弦函数曲线拟合，得以下函数式[1]：

对和前后各一个点同样按正弦函数曲线进行拟合，得以下函数式[2]：

（5）、对区间

内的点按式[1]和式[2]的线性组合后得的式[3]来求取新的幅值替代原来的幅值，函数式[3]为：

（6）、将更改了

之后若干点幅值的新的数据包P^B即时播放，并且将更改了

之前若干点幅值的新的数据包P^N缓冲起来用于后续数据包的处理；

（7）、返回步骤1重新开始处理下一个接收到的数据包。

本发明的有益效果：本发明对收到的前后两个数据包的边缘数据进行拟合校正，滤除了采样点幅值突变而引入的高频噪音，从而改善主观听觉感受，该方法具有低延时、内存需求少、复杂度低的优点。

附图说明

图1是没有校正前的采样点波形图，其中，空心圈代表了前一个数据包的采样点的幅值，空心矩形代表了当前接收的数据包的采样点的幅值，

代表前一个数据包从后向前的第一个极值点，

代表当前接收的数据包从前向后的第二个极值点。

图2是校正后的采样点波形图，其中空心圈代表了前一个数据包的采样点的幅值，空心矩形代表了当前接收的数据包的采样点的幅值，实心圈代表了校正后的采样点的幅值，实心圈代表了校正后的采样点的幅值，

代表前一个数据包从后向前的第一个极值点，代表当前接收的数据包从前向后的第二个极值点。

具体实施方式

，在P^N的采样点中从前向后找到的第二个极值点记为

；

和前后各一个点做正弦函数曲线拟合，得以下函数式[1]：

（5）、对区间

（6）、见图2，将更改了

之后若干点幅值（实心圆）的新的数据包P^B即时播放，并且将更改了

之前若干点幅值（实心圆）的新的数据包P^N缓冲起来用于后续数据包的处理；

（7）、返回步骤1重新开始处理下一个接收到的数据包。

从图1、图2可以看出，校正后的幅值可能和原来的幅值有较大的偏差，但在两个数据包相邻采样点的跳变会减小，从而抑制了高频噪声。