CN108922549B

CN108922549B - 一种基于ip对讲系统中音频压缩的方法

Info

Publication number: CN108922549B
Application number: CN201810648279.2A
Authority: CN
Inventors: 孟利民; 柴荣灿; 蒋维; 应颂翔; 林梦嫚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2022-04-08
Anticipated expiration: 2038-06-22
Also published as: CN108922549A

Abstract

一种基于IP对讲系统中音频压缩的方法，包括以下步骤：1)音频信号的归一化与二维信号的建立；2)求采样点到远点的欧氏距离；3)确定临界半径R；4)音频信号的分类；5)分类量化；6)编码、发送；7)解码、播放。本发明提供一种基于IP对讲系统的音频压缩的方法，传输效率高、带宽利用率高、通话延迟以及语音质量兼顾，本发明在IP对讲中对语音数据应用二维K‑means和均匀量化的算法，这里我们统一命名为二维K‑u算法。在IP对讲中，完成语音数据的采集、量化以及编码，将传输成本、传输带宽以及语音质量联合考虑，实现传输效率与语音质量的最优化。

Description

一种基于IP对讲系统中音频压缩的方法

技术领域

本发明涉及音频处理领域，特别涉及一种基于IP对讲系统中音频压缩的方法。

背景技术

近年来，国内的紧急情况层出不穷，对突发事件和信息安全高效处理的社会需求不断增加，IP对讲在其中发挥了越来越重要的作用。然而在突发情况下，网络状况往往不能得到很好的保证，由此，一种网络要求低、语音质量高的IP对讲系统显得尤为重要。其中至关重要的一环就是对音频的压缩。通过压缩音频，可以减少传输成本、降低带宽，提高语音传输的效率。

传统的IP对讲中采用的音频压缩方法主要有G.711，G.723，G.728，G.729等。

G.711就是语音模拟信号的一种非线性量化，俗称PCM，细分有二种：G.711A-law和G.711 u-law。我国主要是采用A律。G.711采样率是8kHz，信息量64kbps/channel。PCM压缩在通信系统中往往需要进一步压缩，不能一步到位。它的优点和缺点很明显。优点是语音质量高，缺点是占用带宽高。

G.723.1是一个双速率的语音编码器，是ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法；其目标应用系统包括IP对讲等多媒体通信系统。优点是码率低，带宽要求较小。缺点是声音质量一般。

G.728低延时码激励线性预测编码(LD-CELP)是世界上第一个标准化参数语音CODEC，以激励线性预测编码(CELP)算法为基础，采用后向自适应线性预测、50阶合成滤波和短激励矢量等改进方法，达到了低延时的目的。优点是低延迟、抗误码能力强。缺点是算法复杂，实现起来比较困难。

G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)，它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这种算法综合了波形编码和参数编码的优点，以自适应预测编码技术为基础，采用了矢量量化、合成分析和感觉加权等技术。G.729编码器是为低时延应用设计的，它的帧长只有10ms，处理时延也是10ms，再加上5ms的前视，这就使得G.729产生的点到点的时延为25ms，比特率为8kbps。优点是低码率，高音质。缺点是算法复杂度高。

K-means算法以欧式距离作为相似度测度，求对应某一初始聚类中心向量最优分类，使得俩个对象的欧式距离最小。该算法评价指标是俩个对象的欧式距离，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。该算法优点是克服一些样本数据产生的不准确性，能保证高音质。均匀量化算法，就是把输入信号的取值域等间隔分割，其最大的优点就是在于编解码容易。

发明内容

为了克服现有技术传输效率低、带宽利用率低、设备以及网络要求高等不足，本发明提供一种基于IP对讲系统的音频压缩的方法，具有以下特点：①传输效率高②带宽利用率高③通话延迟以及语音质量兼顾的。本发明在IP对讲中对语音数据应用二维K-means和均匀量化的算法，这里我们统一命名为二维K-u算法。在IP对讲中，完成语音数据的采集、量化以及编码，将传输成本、传输带宽以及语音质量联合考虑，实现传输效率与语音质量的最优化。

本发明解决其技术问题所采用的技术方案是：

一种基于IP对讲系统中音频压缩的方法，包括以下步骤：

1)音频信号的归一化与二维信号的建立

发送端对音频信号进行采样，A₁，A₂，A₃，A₄，...，A_2N，共得到2N个采样点，得到其中的最大值A_max和最小值A_min，然后将每个采样点归一化其幅值S_i为：

记为S₁，S₂，S₃，S₄，...，S_2N。在二维重化之中，相邻两个采样点组成一个二维的信号点，原奇数采样点为横坐标，偶数采样点为纵坐标，可得T₁(S₁，S₂)，T₂(S₃，S₄)，...，T_N(S_2N－1，S_2N)，共N个二维信号点。

2)求采样点到远点的欧氏距离

进行一维到二维维度的变换后，二维信号点T_i(S_2i-1，S_2i)距坐标原点0(0，0)的欧氏距离为：

3)确定临界半径R

由于一维音频信号采样点的概率密度函数呈高斯分布，在一维转换成二维维度过程中，即S₁，S₂，S₃，S₄，...，S_2N转换成T₁(S₁，S₂)，T₂(S₃，S₄)，...，T_N(S_2N-1，S_2N)，当采样频率f_s足够大时，相邻采样点之间幅值基本相等，由此得

由于一维信号点S₁，S₂，S₃，S₄，...，S_2N的概率密度函数呈高斯分布，所以

的概率密度函数也是呈高斯分布，即二维信号采样点至原点O(0，0)的欧式距离D₁，D₂，D₃，D₄，...，D_N也呈高斯分布；设一维信号采样点S₁，S₂，S₃，S₄，...，S_2N的标准差为σ；则由线性变换可知，若有一组数据为x₁，x₂，x₃，x₄，...，x_n，其平均数为μ；若将每个数据都乘以

则有

则其平均数为

于是原数据标准差σ和新数据标准差S分别为：

故二维信号采样点的欧氏距离D₁，D₂，D₃，D₄，...，D_N的标准差为

由高斯分布的3σ原则知，在[--3σ，3σ]区间内包含了99.7％的数据量，最后求得临界半径

4)音频信号的分类

根据以上临界半径R对二维信号采样点进行分类，由于音频信号采样点的概率密度函数呈高斯分布，由高斯分布特性可知，D越小，音频信号采样点的数量越多，以D＝R为标准对二维信号点T₁，T₂，T₃，...，T_N分类，D≤R的信号点记为{K₁，K₂，K₃，K₄，...，K_P|D≤R}；D＞R的信号点记为{U₁，U₂，U₃，U₄，...，U_N-P|D＞R}；

5)分类量化

D≤R的音频信号点数据进行二维K-means算法处理，生成量化电平和量化区间；D＞R的音频信号点数据则用采用二维均匀量化，再生成相应量化电平和量化区间，以每个点用L位量化精度为例，最大可用的量化电平数为M≤2^L，L为正整数，然后将量化电平分为两部分，D≤R的音频信号点数据作二维K-means量化处理，记为M_K；D＞R的音频信号点数据则作均匀量化处理，记为M_U＝M-M_K，其中M_U＝2ⁿ，n为正整数；

5.1二维K-means聚合：

初始化量化电平，在半径为R的圆内随机生成M_K个量化电平，记为

对圆内的每个信号点{K₁，K₂，K₃，K₄，...，K_P|D≤R}逐一计算其到

的欧氏距离记为d(K_i，C_j)。对于每个信号点

得其归属的聚合区域V(C_m)表示为：

d(K_i，C_m)＜d(K_i，C_n) (6)

其中，n为[1，M_K]中任一值且n≠m。该不等式的实际意义就是找出K_i到

中每个量化电平的欧氏距离中的最小那个，然后把该点归属于该区域；

引入变量θ_m(K_i)：

聚合区域V(C_m)内所有点欧氏距离之和记为：

更新量化电平位置：

经过k次迭代不断更新聚合区域以及量化电平坐标点，并引入变量Δ来评估是否达到聚合要求，并停止迭代，Δ可根据性能要求自行设定；

5.2二维均匀量化：

对于欧式距离D＞R的信号点{U₁，U₂，U₃，U₄，...，U_N－P|D＞R}，将区域Q＝{-1≤x≤1∩－1≤y≤1}，也是将该1x1正方形区域根据大小等分成M_U个区域，即有M_U个量化电平；然后求得每个区域的中心坐标

对D＞R的每个信号点{K′₁，K′₂，K′₃，K′₄，...，K′_p|D＞R}逐一计算其到

的欧氏距离记为d′(K′_i，B_j)，j∈[1，M_U]；对于每个信号点

可得其归属的区域S(B_m)表示为：

即在所有欧式距离中找出最小的，然后把该点归属于该区域；

之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合，获得最终的量化电平记为：

对应的量化区间记为

然后对系统音频数据进行量化，即把归属于哪个区域的点都量化成该区域对应的值；

6)编码、发送

量化后的数据点在[0，R]以及[R，1]取值范围内仅有有限个可取的样值，且其正、负幅度分布的对称性使正、负采样值的个数相等，正、负向的量化级对称分布；将这有限个量化采样值的绝对值从小到大依次排列，并对应地依次赋予一个十进制数字代码，在码前以“+”、“-”号为前缀，来区分采样值的正、负；在数据点量化之后，把(12)其中的量化电平按十进制进行排列并标号；然后将十进制数字代码变换成相应的二进制编码，根据十进制数字代码的总个数，确定所需二进制编码的位数，即字长，编码完成后，发送二进制码流；

7)解码、播放

设备端对接收到的二进制码流转换为相应的十进制码流，根据十进制码流找到其对应的量化电平，进行反量化，然后将二维信号降维回复为原来的一维信号，最后即可播放。

本发明的技术构思为：为了保证音频通话质量的同时，兼顾带宽以及算法的实现难易，基于二维的K-means和均匀量化(称之为二维K-u算法)的算法被提出来，与上述传统的压缩算法不同，二维K-u算法将数据采样点由一维提升至二维，同时利用K-means算法和均匀量化算法进行压缩，其所需的传输带宽降低到原来的

大大提高了传输效率，实现系统整体带宽消耗最小化；同时俩个算法的结合，大大提升了算法的效率，缩短对于数据点的分类以及获得理想量化电平的处理时间，提升了算法效率同时兼顾了语音质量。因此二维K-u算法很好的满足了IP对讲中需求，很好地契合了高效、低带宽、高质量的对讲系统的最终目标，可以提供简单有效的算法以及有效降低了语音带宽，同时保证语音质量。

首先，在IP对讲系统中，在其语音传输中，采用二维的K-u算法。在二维的K-u算法中，首先获取临界半径，对临界半径内的这部分数据采用二维的K-means；对于剩下的数据，采用二维均匀量化。这样的解决方案，适用于像语音信号这样的高斯分布的信号。俩者的结合能大大提升IP对讲系统中的语音编码效率，传输效率以及大大降低传输带宽，具有较高的工程意义和市场价值。该问题属于一个多类优化问题，通过对音频采样数据的分析，将其分为俩部分，分别进行处理。

本发明的有益效果主要表现在：1、对于整体系统而言，引入二维K-u算法，大大缩短对于数据点的分类以及获得理想量化电平的处理时间。2、将一维的K-means以及均匀分布，扩展到二维的K-means和二维均匀量化结合的算法，其所需的传输带宽降低到原来的

大大提高了传输效率，实现系统整体带宽消耗最小化。

附图说明

图1基于IP对讲系统模型示意图

图2基于IP对讲系统中发送端的音频压缩、编码、解码流程图

图3原始数据点、二维K-means算法处理之后恢复的数据以及二维K-u算法处理之后恢复的数据对比图

具体实施方式

下面结合附图对本发明作进一步详细描述。

参照图1～图3，一种基于IP对讲系统中音频压缩的方法，二维K-u算法，即在音频压缩是采用二位K-means与均匀量化的方法，包括以下步骤：

1)音频信号的归一化与二维信号的建立

记为S₁，S₂，S₃，S₄，...，S_2N。在二维量化之中，相邻两个采样点组成一个二维的信号点，原奇数采样点为横坐标，偶数采样点为纵坐标，可得T₁(S₁，S₂)，T₂(S₃，S₄)，...，T_N(S_2N-1，S_2N)，共N个二维信号点；

2)求采样点到远点的欧氏距离

进行一维到二维维度的变换后，二维信号点T_i(S_2i-1，S_2i)距坐标原点O(0，0)的欧氏距离为：

3)确定临界半径R

则有

则其平均数为

于是原数据标准差σ和新数据标准差S分别为：

由高斯分布的3σ原则可知，在[－3σ，3σ]区间内包含了99.7％的数据量，最后求得临界半径

4)音频信号的分类

根据以上临界半径R对二维信号采样点进行分类。由于音频信号采样点的概率密度函数呈高斯分布。由高斯分布特性可知，D越小，音频信号采样点的数量越多；以D＝R为标准对二维信号点T₁，T₂，T₃，...，T_N分类，D≤R的信号点记为{K₁，K₂，K₃，K₄，...，K_P|D≤R}；D＞R的信号点记为{U₁，U₂，U₃，U₄，...，U_N-P|D＞R}；

5)分类量化

D≤R的音频信号点数据进行二维K-means算法处理，生成量化电平和量化区间；D＞R的音频信号点数据则用采用二维均匀量化，再生成相应量化电平和量化区间。以每个点用L位量化精度为例，最大可用的量化电平数为M≤2^L，L为正整数。然后将量化电平分为两部分，D≤R的音频信号点数据作二维K-means量化处理，记为M_K；D＞R的音频信号点数据则作均匀量化处理，记为M_U＝M-M_K，其中M_U＝2ⁿ，n为正整数；

5.1二维K-means聚合：

的欧氏距离记为d(K_i，C_j)。对于每个信号点

可得其归属的聚合区域V(C_m)表示为：

d(K_i，C_m)＜d(K_i，C_n) (6)

引入变量θ_m(K_i)：

聚合区域V(C_m)内所有点欧氏距离之和记为：

更新量化电平位置：

5.2二维均匀量化：

对于欧式距离D＞R的信号点{U₁，U₂，U₃，U₄，...，U_N-P|D＞R}。将区域Q＝{-1≤x≤1∩-1≤y≤1}，也是将该1x1正方形区域根据大小等分成M_U个区域，即有M_U个量化电平。然后求得每个区域的中心坐标

的欧氏距离记为d′(K′_i，B_j)，j∈[1，M_U]。对于每个信号点

可得其归属的区域S(B_m)表示为：

对应的量化区间记为

然后对系统音频数据进行量化，即把归属于哪个区域的点都量化成该区域对应的值，比如K₁归属于

区间，则把K₁置为量化电平C₁；

6)编码、发送

量化后的数据点在[0，R]以及[R，1]取值范围内仅有有限个可取的样值，且其正、负幅度分布的对称性使正、负采样值的个数相等，正、负向的量化级对称分布；将这有限个量化采样值的绝对值从小到大依次排列，并对应地依次赋予一个十进制数字代码，在码前以“+”、“-”号为前缀，来区分采样值的正、负。在数据点量化之后，我们把(12)其中的量化电平按十进制进行排列并标号，比如量化电平C₁对应十进制编码为1，C_i对应十进制编码为i。然后将十进制数字代码变换成相应的二进制编码，根据十进制数字代码的总个数，可以确定所需二进制编码的位数，即字长，编码完成后，发送二进制码流；

7)解码、播放

在图3中，可以看到二维K-means算法和二维K-u算法的效果。二维K-means算法处理之后恢复的数据以及二维K-u算法处理之后恢复的数据对比原始数据点，三者差异较为接近。但是二维K-u算法相较于二维K-means算法，在临界半径R之后的数据点采用均匀量化，在保证了音质的同时，大大简化了算法，降低编解码难度，有效提升算法运行效率。

本发明中，二维K-means算法是基于距离的聚类算法，它的评价指标是俩个对象的欧式距离，即认为两个对象的距离越近，其相似度就越大。它以欧式距离作为相似度测度，求对应某一初始聚类中心向量最优分类，使得俩个对象的欧式距离最小。均匀量化算法，就是把输入信号的取值域等间隔分割，其最大的优点就是在于编解码容易。在二维的K-u算法中，由语音信号的高斯分布的3σ原则可知，在[-3σ，3σ]区间内包含了99.7％的数据量，对这部分数据采用二维的K-means；对于剩下的小部分数据，采用二维均匀量化。这样的解决方案，适用于像语音信号这样的高斯分布的信号。俩者的结合能大大简化算法，提升基于IP对讲系统中的语音编码效率，传输效率以及大大降低传输带宽，具有较高的工程意义和市场价值。

本实例中，图1是基于IP对讲系统模型示意图。图2是基于IP对讲系统中发送端的音频压缩、编码、解码流程图。在该系统中，主要考虑的技术要点包括以下部分：1)在音频数据的[-3σ，3σ]区间区间采用二维的K-means算法；2)在音频数据的[－3σ，3σ]之外的部分采用二维均匀量化；3)满足降低语音对讲时带宽的需求，并提高传输效率的需求。根据以上技术要点，本发明提出了音频传输过程中压缩的优化问题。为了克服该问题本发明分析了问题特性，对提出的优化问题进行了分析，最重要的是本发明提出了一种高效的算法来进行求解，且有良好的效果。

本实例着眼于在同时满足基IP对讲系统中用户语音对讲数据带宽需求的前提下，最小化系统带宽占用，简化算法，提升传输效率。本发明的工作可以使得基于IP对讲系统中的用户获得较为优质且较为快捷的服务，进一步的能够实现整个系统的占用带宽和传输效率更优化。

Claims

1.一种基于IP对讲系统中音频压缩的方法，其特征在于，所述方法包括以下步骤：

1)音频信号的归一化与二维信号的建立

发送端对音频信号进行采样，A₁,A₂,A₃,A₄,…,A_2N，共得到2N个采样点，得到其中的最大值A_max和最小值A_min，然后将每个采样点归一化其幅值S_i为：

记为S₁,S₂,S₃,S₄,…,S_2N，在二维量化之中，相邻两个采样点组成一个二维的信号点，原奇数采样点为横坐标，偶数采样点为纵坐标，可得T₁(S₁,S₂),T₂(S₃,S₄),…,T_N(S_2N-1,S_2N)，共N个二维信号点；

2)求采样点到原点的欧氏距离

进行一维到二维维度的变换后，二维信号点T_i(S_2i-1,S_2i)距坐标原点O(0,0)的欧氏距离为：

3)确定临界半径R

由于一维音频信号采样点的概率密度函数呈高斯分布，在一维转换成二维维度过程中，即S₁,S₂,S₃,S₄,…,S_2N转换成T₁(S₁,S₂),T₂(S₃,S₄),…,T_N(S_2N-1,S_2N)，当采样频率f_s足够大时，相邻采样点之间幅值基本相等，由此得

由于一维信号点S₁,S₂,S₃,S₄,…,S_2N的概率密度函数呈高斯分布，所以

的概率密度函数也是呈高斯分布，即二维信号采样点至原点O(0,0)的欧式距离D₁,D₂,D₃,D₄,…,D_N也呈高斯分布；设一维信号采样点S₁,S₂,S₃,S₄,…,S_2N的标准差为σ；则由线性变换可知，若有一组数据为x₁,x₂,x₃,x₄,…,x_n，其平均数为μ；若将每个数据都乘以

则有

则其平均数为

于是原数据标准差σ和新数据标准差S分别为：

故二维信号采样点的欧氏距离D₁,D₂,D₃,D₄,…,D_N的标准差为

由高斯分布的3σ原则知，在[-3σ,3σ]区间内包含了99.7％的数据量，最后求得临界半径

4)音频信号的分类

根据以上临界半径R对二维信号采样点进行分类，由于音频信号采样点的概率密度函数呈高斯分布，由高斯分布特性可知，D越小，音频信号采样点的数量越多，以D＝R为标准对二维信号点T₁,T₂,T₃,…,T_N分类，D≤R的信号点记为{K₁,K₂,K₃,K₄,…,K_P|D≤R}；D>R的信号点记为{U₁,U₂,U₃,U₄,…,U_N-P|D>R}；

5)分类量化

D≤R的音频信号点数据进行二维K-means算法处理，生成量化电平和量化区间；D>R的音频信号点数据则用采用二维均匀量化，再生成相应量化电平和量化区间，每个点用L位量化精度，最大可用的量化电平数为M≤2^L，L为正整数，然后将量化电平分为两部分，D≤R的音频信号点数据作二维K-means量化处理，记为M_K；D>R的音频信号点数据则作二维均匀量化处理，记为M_U＝M-M_K，其中M_U＝2ⁿ，n为正整数；

5.1)二维K-means聚合：

对圆内的每个信号点{K₁,K₂,K₃,K₄,…,K_P|D≤R}逐一计算其到

的欧氏距离记为d(K_i,C_j)，对于每个信号点，得其归属的聚合区域V(C_m)表示为：

d(K_i,C_m)<d(K_i,C_n) (6)

其中，n为[1,M_K]中任一值且n≠m，公式(6)的实际意义就是找出K_i到

引入变量θ_m(K_i):

聚合区域V(C_m)内所有点欧氏距离之和记为：

更新量化电平位置：

5.2)二维均匀量化：

对于欧式距离D>R的信号点{U₁,U₂,U₃,U₄,…,U_N-P|D>R}，将区域Q＝{-1≤x≤1∩-1≤y≤1}，也是将该正方形区域根据大小等分成M_U个区域，即有M_U个量化电平；然后求得每个区域的中心坐标

对D>R的每个信号点{U₁,U₂,U₃,U₄,…,U_N-P|D>R}逐一计算其到

的欧氏距离记为d′(U_i,B_j)，j∈[1,M_U]；对于每个信号点，可得其归属的区域S(B_m)表示为：

对应的量化区间记为

6)编码、发送

量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值，且其正、负幅度分布的对称性使正、负采样值的个数相等，正、负向的量化级对称分布；将这有限个量化采样值的绝对值从小到大依次排列，并对应地依次赋予一个十进制数字代码，在码前以“+”、“－”号为前缀，来区分采样值的正、负；在数据点量化之后，把公式(12)其中的量化电平按十进制进行排列并标号；然后将十进制数字代码变换成相应的二进制编码，根据十进制数字代码的总个数，确定所需二进制编码的位数，即字长，编码完成后，发送二进制码流；

7)解码、播放