CN104021792B

CN104021792B - 一种语音丢包隐藏方法及其系统

Info

Publication number: CN104021792B
Application number: CN201410255493.3A
Authority: CN
Inventors: 李默嘉; 田永春; 蒲长春; 王俊; 冯国仕
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2014-06-10
Filing date: 2014-06-10
Publication date: 2016-10-26
Anticipated expiration: 2034-06-10
Also published as: CN104021792A

Abstract

本发明提供了一种语音丢包隐藏方法及其系统。加窗叠加语音恢复配合以对窗口函数的周期性自适应调整，能够根据实际语音数据进行自适应调整，算法灵活，适应语音特性变化较大的媒体数据，使丢包隐藏效果更佳，恢复出的语音质量更好。

Description

一种语音丢包隐藏方法及其系统

技术领域

本发明涉及一种语音丢包隐藏方法及其系统，特别是涉及一种适用于无线VoIP环境下的一种语音丢包隐藏方法及基于该方法的语音丢包隐藏系统。

背景技术

目前，由于VoIP技具有易于集成、成本低廉、使用方式灵活等特点，已逐步从基于有线网络的应用向基于无线网络的应用发展。在无线网络的特殊应用环境下，由于其固有的高丢包率等特性，使得VoIP技术在向无线网络移植的过程中，需要充分考虑丢包对语音质量造成的影响。丢包隐藏技术是基于人类语音的强时间相关性，在语音接收端，通过已经成功接收的语音信息，近似恢复出由于丢包而缺失的数据，使人耳感觉不出丢包的事实。这种技术由于其不需发送端的参与，且易于实施，成为当今一种较为主流的语音质量提升技术。

目前各种丢包隐藏技术层出不穷，如静音替代、白噪声替代、包复制替代等，都对传输过程中丢失的语音包进行了重建和修补，在一定程度上起到了对语音质量的恢复效果。但目前的算法都存在一定的缺陷，过于简单的算法对语音的恢复效果不够明显，太复杂的算法对媒体流的处理要求太高，不满足实时应用的需求。对之前已经收到的语音帧进行加窗叠加的算法由于其运算相对简单，并且实际恢复效果较好，在丢包隐藏算法中得到了广泛的采用。

目前已有的叠加加窗算法主要采用的是事先已经确定好的窗口函数对收到的语音帧进行处理，并没有根据实际的语音波形对窗口函数进行动态地修改，使用固定的窗口函数必然导致算法不够灵活，无法适应语音特性变化较大的媒体数据，从而影响到恢复出的语音质量。

发明内容

本发明要解决的技术问题是提供一种实际恢复效果更好的，基于VoIP无线环境下的语音丢包隐藏方法及其系统。

本发明采用的技术方案如下：

一种语音丢包隐藏方法，其特征在于，具体方法步骤为：选取一个窗口函数，将窗口函数与丢失帧左边的数据逐样点相乘，得到离散语音数据A，再将窗口函数与丢失帧右边的数据逐样点相乘，得到离散语音数据B；将A，B两段数据最靠近丢失帧的m个样点逐样点相加，得到一段m个样点的数据，作为恢复出来的语音数据，填补在丢失帧的位置，进行语音恢复；

所述方法还包括：周期性的对恢复过程中使用的窗口函数进行调整更新。

作为优选，对窗口函数进行更新的具体方法步骤为：步骤一、选取一帧，前一帧语音帧p和后一帧语音帧q都没有丢失的，基准语音帧a(在这里假设语音帧a丢失)；步骤二、通过前一帧语音帧p、后一帧语音帧q和当前的窗口函数恢复出语音帧b；步骤三、比较语音帧a(实际上没有丢失的真实语音帧a)与b之间的差异，得到关于当前窗口函数恢复效果的比较数据，从而对当前窗口函数进行调整更新。新的窗口函数生成以后，旧窗口函数直接丢弃，后续的丢失语音恢复皆通过新的窗口函数完成，直到再次更新窗口函数。

作为优选，所述步骤三中，对当前窗口函数进行调整的方法为：设置窗口函数宽度为语音帧宽度的2倍，且左右对称，窗口函数在实际使用过程中均是以离散值存在，由于窗口函数是一个对称函数，因此对其横坐标为正的右半部分进行调整，就可以得到整个新的窗口函数，将当前窗口函数的右半部分样点值表示为[w₁，w₂，w₃...w_m]，原始语音帧a表示为[a₁，a₂，a₃...a_m]，恢复出来的语音帧b表示为[b₁，b₂，b₃...b_m]，则窗口函数更新的公式为：w′_n＝2×w_n/(b_n/a_n+b_m+1-n/a_m+1-n)，根据更新公式对当前窗口函数进行调整更新；

其中，m表示一帧语音帧的长度，n表示窗口函数右半部分的n个样点，1≤n≤m，w′_n表示调整后的新窗口函数右半部分在x＝n-1处对应的y值的样点值，根据窗口函数的对称性，可得到左半部分n个样点的取值，从而得到完整的更新后的窗口函数。

作为优选，所述基准语音帧的选取方法为：给一定时间内收到的全部语音帧赋予一个标签，表示该语音帧可能被选作基准语音数据；将赋予标签的语音帧中缺失的语音帧及其相临语音帧进行标记，表示该语音帧不能被选作基准语音数据；在标记剩下的语音帧中随机选取一帧语音帧，作为基准语音帧。

作为优选，所述基准语音帧的选取方法还包括：将赋予标签的语音帧进行静音检测，检测为静音或部分静音(一帧语音帧时间中，只有一部分时间存在话音数据)的语音帧及其相临语音帧进行标记，同样表示该语音帧不能被选作基准语音数据。

作为优选，所述基准语音帧的选取方法还包括：选取相临几帧语音帧能量(语音帧中m个样点的平方和)相差在20％以内(能量相近，可根据实际情况进行调节)的语音帧中的一帧。

作为优选，对窗口函数进行调整更新的周期时间为2秒到2分钟。

作为优选，对窗口函数进行调整更新的周期时间为5秒。

基于上述语音丢包隐藏方法的一种丢包隐藏系统，其特征在于：包括依次相连的评估帧选择单元、丢失帧恢复单元和恢复效果评估单元；所述评估帧选择单元又与恢复效果评估单元相连；还包括自适应窗口更新单元，分别与恢复效果评估单元和丢失帧恢复单元相连。

与现有技术相比，本发明的有益效果是：本发明提供了一种新的语音丢包隐藏方法及其系统，配合以对窗口函数的周期性自适应调整，能够根据实际语音数据进行自适应调整，算法灵活，适应语音特性变化较大的媒体数据，使丢包隐藏效果更佳，恢复出的语音质量更好。

附图说明

图1为本发明其中一实施例的原理示意图。

图2为本发明其中一实施例的系统结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本具体实施例属于在语音接收端对所接收的语音数据进行丢包隐藏处理(由于传输信道不稳定等原因，在接收端语音数据实际上已经被丢失了，但为了使接收端接听语音的人耳感觉不出明显的丢帧感，根据一定策略重塑一帧虚假的语音数据填补丢失位置)的方法及其系统。

在本具体实施例中，系统的输入为非压缩PCM编码的离散化语音数据，对语音数据进行处理的基本单位为一帧20毫秒。以8K采样速率为例，20毫秒一帧的非压缩PCM编码语音数据一共包含160个样点，幅值在0-65535之间，由于信道丢包的存在，输入的语音数据可能会随机缺失一帧数据，由于丢包导致的缺帧会在输入时就被标记(底层基于RTP协议序号或其它自定义方式进行检测)，不需要本系统进行检测。

系统的输出为将所有因丢包导致的缺帧全部重塑的语音数据，系统的输出应尽量保证重塑的语音数据与发送端发出的原始语音数据尽可能地相似，从而使接收端不易感知到语音数据实际上在传输过程中已经被丢失的事实。

如图2所示的丢包隐藏系统，包括依次相连的评估帧选择单元、丢失帧恢复单元和恢复效果评估单元；所述评估帧选择单元又与恢复效果评估单元相连；还包括自适应窗口更新单元，分别与恢复效果评估单元和丢失帧恢复单元相连。

对丢失帧进行恢复(重塑由于丢包导致的缺帧)的模块为丢失帧恢复单元，本具体实施例中的丢失帧恢复单元所使用的技术为对语音数据进行加窗叠加的方式。

恢复效果评估单元用于评估当前窗口函数的有效性。评估帧选择单元选取出用于评估窗口函数的基准话音数据后，将通知丢失帧恢复单元对其进行模拟恢复，恢复效果评估单元收到丢失帧恢复单元恢复出的话音数据后，与原始的话音数据进行比对和计算，并将结果反馈至自适应窗口更新单元。

自适应窗口更新单元的功能是提供和生成用于丢包隐藏的窗口函数。自适应窗口更新单元向丢失帧恢复单元提供恢复话音数据过程中需要使用的窗口函数，并实时地接收来自于恢复效果评估单元的反馈信息，动态地调整窗口函数，以达到窗口函数根据输入话音数据进行自适应调整的目的。

如图1所示的语音丢包隐藏方法，输入的语音数据中，第4帧语音数据由于信道原因被丢失。基于人类语音的强时间相关性，可以利用第3帧和第5帧的语音数据对丢失的第4帧语音数据进行近似(只能确保恢复出来的第4帧语音数据与发送端发出的第4帧原始语音数据相似，无法做到完全一致)恢复，从而使接收端的人耳不易感觉出第4帧语音数据已经丢失的事实，起到增加语音质量的效果。具体方法步骤为：选取一个窗口函数(在本具体实施例中，窗口函数宽度为2帧语音数据，即320个样点，窗口函数是一个对称函数，最大幅值位置是横坐标为零的点，幅值归一化为1，横坐标的单位为样点，在横坐标方向，离0越远的位置函数幅值越小，在离0距离160个样点的位置幅值减小到0。本具体实施例中的窗口函数方程为y＝x/160+1(-160≤x≤0)，y＝-x/160+1(0≤x≤160)，在更复杂的情况下，窗口函数可以更加复杂，以取得更加平滑的恢复效果)，将窗口函数与丢失帧左边的数据(第5，6帧)逐样点相乘，得到离散语音数据A(共2帧320个样点)，再将窗口函数与丢失帧右边的数据(第2，3帧)逐样点相乘，得到离散语音数据B(共2帧320个样点)；将A，B两段数据最靠近丢失帧的m(160)个样点逐样点相加，得到一段m(160)个样点的数据，作为恢复出来的语音数据(第4帧)，填补在丢失帧的位置，作为本系统的输出，进行语音恢复，至此语音恢复过程完成；

在本具体实施例的恢复方法中，为了有效地提升语音数据的恢复效果，使窗口函数的函数波形能够更近似地反映相临两帧语音数据之间的特点，需要周期性地对恢复过程中使用的窗口函数进行调整更新。对窗口函数进行调整更新的周期时间一般为2秒到2分钟。在本具体实施例中，调整周期为5秒，在其它环境下，该调整周期大于或者小于5秒都是可以的，周期越长则越节约计算量，越短则能得到越好的恢复效果。

对窗口函数进行动态调整的功能主要由评估帧选择单元、恢复效果评估单元和自适应窗口更新单元完成。

在每个调整更新周期内，评估帧选择单元选取一帧用于评估窗口函数恢复效果的基准语音数据，基准语音数据的选取需要能够尽可能地反映出窗口函数的恢复效果，本实施例中选取方法步骤为：

步骤一、选取一帧，前一帧语音帧p和后一帧语音帧q都没有丢失的，基准语音帧a(在这里假设语音帧a丢失)；步骤二、通过前一帧语音帧p、后一帧语音帧q和当前的窗口函数恢复出语音帧b；步骤三、比较语音帧a(实际上没有丢失的真实语音帧a)与b之间的差异，得到关于当前窗口函数恢复效果的比较数据，从而对当前窗口函数进行调整更新。新的窗口函数生成以后，旧窗口函数直接丢弃，后续的丢失语音恢复皆通过新的窗口函数完成，直到再次更新窗口函数。

所述步骤三中，对当前窗口函数进行调整的方法为：窗口函数在实际使用过程中均是以离散值存在，由于窗口函数是一个对称函数，因此对其横坐标为正的右半部分进行调整，就可以得到整个新的窗口函数，将当前窗口函数的右半部分样点值表示为[w₁，w₂，w₃...w₁₆₀]，，表示窗口函数右半部分(整个窗口函数长度为2帧，一半长度为1帧，即160个样点)的160个样点的值。原始语音帧a(最初输入至系统的基准语音数据)表示为[a₁，a₂，a₃...a₁₆₀]，恢复出来的语音帧b表示为[b₁，b₂，b₃...b₁₆₀]，则窗口函数的更新的公式为：w′_n＝2×w_n/(b_n/a_n+b_161-n/a_161-n)，根据更新公式对当前窗口函数进行调整更新；

其中，1≤n≤160，w′_n表示调整后的新窗口函数在x＝n-1处对应的y值的样点值，用新的样点值取代旧的样点值带入窗口函数的xy函数，得到新的窗口函数。

所述基准语音帧的选取方法为：给一定时间内(此时间可以指定，在本具体实施中为本调整周期(5秒)内)收到的全部250帧语音帧赋予一个标签1，表示该语音帧可能被选作基准语音数据；将赋予标签的语音帧中将所有因传输过程中丢包导致缺失的语音进行标记为0，并将其相临帧也标记为0，表示该语音帧不能被选作基准语音数据；在标记剩下的语音帧中随机选取一帧语音帧，作为基准语音帧。

所述基准语音帧的选取方法还包括：将赋予标签的语音帧进行静音检测，检测为静音或部分静音(一帧20ms时间中，只有一部分时间存在话音数据)的语音帧标记为0，并将其相临帧也标记为0，同样表示该语音帧不能被选作基准语音数据。

被标记的语音帧无法正常地通过前述恢复方法进行恢复，也不具备被选为基准语音数据的特点。

更进一步地，在选取基准语音数据时，可尽量考虑选取相临几帧语音帧能量(语音帧中160个样点的平方和)相近的语音数据，可以达到更好的评估效果。因此，在本具体实施例中，我们选取相临几帧语音帧能量相差在20％以内(能量相近，可根据实际情况进行调节)的语音帧中的一帧作为基准语音数据。

若由于丢包过于严重(比如5秒内所有语音包都丢失了)等原因，通过上述方式无法选择出用于评估窗口函数效果的基准语音数据，则本调整周期内不对窗口函数进行调整，直到某个周期可以选择出合法的基准语音数据为止。

基准语音数据选取完成后，就需要对当前正在使用的窗口函数进行评估和调整，使用于丢包恢复的窗口函数始终能够更正确地反映收到的语音数据的特性，从而得到更好的恢复效果。

新的窗口函数生成以后，旧窗口函数直接丢弃，后续的丢失语音恢复皆通过新的窗口函数完成，直到下一个调整周期，再次更新窗口函数。

Claims

1.一种语音丢包隐藏方法，其特征在于，具体方法步骤为：选取一个窗口函数，将窗口函数与丢失帧左边的数据逐样点相乘，得到离散语音数据A，再将窗口函数与丢失帧右边的数据逐样点相乘，得到离散语音数据B；将A，B两段数据最靠近丢失帧的m个样点逐样点相加，得到一段m个样点的数据，作为恢复出来的语音数据，填补在丢失帧的位置；

所述方法还包括：周期性的对恢复过程中使用的窗口函数进行更新；

对窗口函数进行更新的具体方法步骤为：步骤一、选取一帧，前一帧语音帧p和后一帧语音帧q都没有丢失的，基准语音帧a；步骤二、通过前一帧语音帧p、后一帧语音帧q和当前的窗口函数恢复出语音帧b；步骤三、比较语音帧a与b之间的差异，得到关于当前窗口函数恢复效果的比较数据，从而对当前窗口函数进行调整更新；

所述步骤三中，对当前窗口函数进行调整的方法为：设置窗口函数宽度为语音帧宽度的2倍，且左右对称，将当前窗口函数的右半部分样点值表示为[w₁，w₂，w₃...w_m]，原始语音帧a表示为[a₁，a₂，a₃...a_m]，恢复出来的语音帧b表示为[b₁,b₂,b₃...b_m]，则窗口函数更新的公式为：w′_n＝2×w_n/(b_n/a_n+b_m+1-n/a_m+1-n)，根据更新公式对当前窗口函数进行调整更新；

其中，m表示一帧语音帧的长度，n表示窗口函数右半部分的n个样点，1≤n≤m，w_n′表示调整后的新窗口函数右半部分在x＝n-1处对应的y值的样点值。

2.根据权利要求1所述的语音丢包隐藏方法，其特征在于：所述基准语音帧的选取方法为：给一定时间内收到的全部语音帧赋予一个标签；将赋予标签的语音帧中缺失的语音帧及其相临语音帧进行标记；在标记剩下的语音帧中随机选取一帧语音帧，作为基准语音帧。

3.根据权利要求2所述的语音丢包隐藏方法，其特征在于：所述基准语音帧的选取方法还包括：将赋予标签的语音帧中为静音或部分静音的语音帧及其相临语音帧进行标记。

4.根据权利要求2或3所述的语音丢包隐藏方法，其特征在于：所述基准语音帧的选取方法还包括：选取相临几帧语音帧能量相差在20％以内的语音帧中的一帧。

5.根据权利要求1所述的语音丢包隐藏方法，其特征在于：对窗口函数进行调整更新的周期时间为2秒到2分钟。

6.根据权利要求5所述的语音丢包隐藏方法，其特征在于：对窗口函数进行调整更新的周期时间为5秒。

7.基于权利要求6所述语音丢包隐藏方法的一种丢包隐藏系统，其特征在于：包括依次相连的评估帧选择单元、丢失帧恢复单元和恢复效果评估单元；所述评估帧选择单元又与恢复效果评估单元相连；还包括自适应窗口更新单元，分别与恢复效果评估单元和丢失帧恢复单元相连。