CN108922549A - 一种基于ip对讲系统中音频压缩的方法 - Google Patents
一种基于ip对讲系统中音频压缩的方法 Download PDFInfo
- Publication number
- CN108922549A CN108922549A CN201810648279.2A CN201810648279A CN108922549A CN 108922549 A CN108922549 A CN 108922549A CN 201810648279 A CN201810648279 A CN 201810648279A CN 108922549 A CN108922549 A CN 108922549A
- Authority
- CN
- China
- Prior art keywords
- point
- quantization
- data
- denoted
- quantization level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013139 quantization Methods 0.000 claims abstract description 74
- 230000005236 sound signal Effects 0.000 claims abstract description 33
- 230000006835 compression Effects 0.000 claims abstract description 13
- 238000007906 compression Methods 0.000 claims abstract description 13
- 238000010606 normalization Methods 0.000 claims abstract description 4
- 230000011664 signaling Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 10
- 238000006116 polymerization reaction Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000011002 quantification Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 23
- 238000005457 optimization Methods 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
一种基于IP对讲系统中音频压缩的方法,包括以下步骤:1)音频信号的归一化与二维信号的建立;2)求采样点到远点的欧氏距离;3)确定临界半径R;4)音频信号的分类;5)分类量化;6)编码、发送;7)解码、播放。本发明提供一种基于IP对讲系统的音频压缩的方法,传输效率高、带宽利用率高、通话延迟以及语音质量兼顾,本发明在IP对讲中对语音数据应用二维K‑means和均匀量化的算法,这里我们统一命名为二维K‑u算法。在IP对讲中,完成语音数据的采集、量化以及编码,将传输成本、传输带宽以及语音质量联合考虑,实现传输效率与语音质量的最优化。
Description
技术领域
本发明涉及音频处理领域,特别涉及一种基于IP对讲系统中音频压缩的方法。
背景技术
近年来,国内的紧急情况层出不穷,对突发事件和信息安全高效处理的社会需求不断增加,IP对讲在其中发挥了越来越重要的作用。然而在突发情况下,网络状况往往不能得到很好的保证,由此,一种网络要求低、语音质量高的IP对讲系统显得尤为重要。其中至关重要的一环就是对音频的压缩。通过压缩音频,可以减少传输成本、降低带宽,提高语音传输的效率。
传统的IP对讲中采用的音频压缩方法主要有G.711,G.723,G.728,G.729等。
G.711就是语音模拟信号的一种非线性量化,俗称PCM,细分有二种:G.711A-law和G.711 u-law。我国主要是采用A律。G.711采样率是8kHz,信息量64kbps/channel。PCM压缩在通信系统中往往需要进一步压缩,不能一步到位。它的优点和缺点很明显。优点是语音质量高,缺点是占用带宽高。
G.723.1是一个双速率的语音编码器,是ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法;其目标应用系统包括IP对讲等多媒体通信系统。优点是码率低,带宽要求较小。缺点是声音质量一般。
G.728低延时码激励线性预测编码(LD-CELP)是世界上第一个标准化参数语音CODEC,以激励线性预测编码(CELP)算法为基础,采用后向自适应线性预测、50阶合成滤波和短激励矢量等改进方法,达到了低延时的目的。优点是低延迟、抗误码能力强。缺点是算法复杂,实现起来比较困难。
G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP),它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。G.729编码器是为低时延应用设计的,它的帧长只有10ms,处理时延也是10ms,再加上5ms的前视,这就使得G.729产生的点到点的时延为25ms,比特率为8kbps。优点是低码率,高音质。缺点是算法复杂度高。
K-means算法以欧式距离作为相似度测度,求对应某一初始聚类中心向量最优分类,使得俩个对象的欧式距离最小。该算法评价指标是俩个对象的欧式距离,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。该算法优点是克服一些样本数据产生的不准确性,能保证高音质。均匀量化算法,就是把输入信号的取值域等间隔分割,其最大的优点就是在于编解码容易。
发明内容
为了克服现有技术传输效率低、带宽利用率低、设备以及网络要求高等不足,本发明提供一种基于IP对讲系统的音频压缩的方法,具有以下特点:①传输效率高②带宽利用率高③通话延迟以及语音质量兼顾的。本发明在IP对讲中对语音数据应用二维K-means和均匀量化的算法,这里我们统一命名为二维K-u算法。在IP对讲中,完成语音数据的采集、量化以及编码,将传输成本、传输带宽以及语音质量联合考虑,实现传输效率与语音质量的最优化。
本发明解决其技术问题所采用的技术方案是:
一种基于IP对讲系统中音频压缩的方法,包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,...,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
记为S1,S2,S3,S4,...,S2N。在二维重化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),共N个二维信号点。
2)求采样点到远点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点0(0,0)的欧氏距离为:
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,...,S2N转换成T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
由于一维信号点S1,S2,S3,S4,...,S2N的概率密度函数呈高斯分布,所以的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,...,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,...,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,...,xn,其平均数为μ;若将每个数据都乘以则有则其平均数为于是原数据标准差σ和新数据标准差S分别为:
故二维信号采样点的欧氏距离D1,D2,D3,D4,...,DN的标准差为由高斯分布的3σ原则知,在[--3σ,3σ]区间内包含了99.7%的数据量,最后求得临界半径
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类,由于音频信号采样点的概率密度函数呈高斯分布,由高斯分布特性可知,D越小,音频信号采样点的数量越多,以D=R为标准对二维信号点T1,T2,T3,...,TN分类,D≤R的信号点记为{K1,K2,K3,K4,...,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,...,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间,以每个点用L位量化精度为例,最大可用的量化电平数为M≤2L,L为正整数,然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为对圆内的每个信号点{K1,K2,K3,K4,...,KP|D≤R}逐一计算其到的欧氏距离记为d(Ki,Cj)。对于每个信号点得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
其中,n为[1,MK]中任一值且n≠m。该不等式的实际意义就是找出Ki到中每个量化电平的欧氏距离中的最小那个,然后把该点归属于该区域;
引入变量θm(Ki):
聚合区域V(Cm)内所有点欧氏距离之和记为:
更新量化电平位置:
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
5.2二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,...,UN-P|D>R},将区域Q={-1≤x≤1∩-1≤y≤1},也是将该1x1正方形区域根据大小等分成MU个区域,即有MU个量化电平;然后求得每个区域的中心坐标对D>R的每个信号点{K′1,K′2,K′3,K′4,...,K′p|D>R}逐一计算其到的欧氏距离记为d′(K′i,Bj),j∈[1,MU];对于每个信号点可得其归属的区域S(Bm)表示为:
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
对应的量化区间记为 然后对系统音频数据进行量化,即把归属于哪个区域的点都量化成该区域对应的值;
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负;在数据点量化之后,把(12)其中的量化电平按十进制进行排列并标号;然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
本发明的技术构思为:为了保证音频通话质量的同时,兼顾带宽以及算法的实现难易,基于二维的K-means和均匀量化(称之为二维K-u算法)的算法被提出来,与上述传统的压缩算法不同,二维K-u算法将数据采样点由一维提升至二维,同时利用K-means算法和均匀量化算法进行压缩,其所需的传输带宽降低到原来的大大提高了传输效率,实现系统整体带宽消耗最小化;同时俩个算法的结合,大大提升了算法的效率,缩短对于数据点的分类以及获得理想量化电平的处理时间,提升了算法效率同时兼顾了语音质量。因此二维K-u算法很好的满足了IP对讲中需求,很好地契合了高效、低带宽、高质量的对讲系统的最终目标,可以提供简单有效的算法以及有效降低了语音带宽,同时保证语音质量。
首先,在IP对讲系统中,在其语音传输中,采用二维的K-u算法。在二维的K-u算法中,首先获取临界半径,对临界半径内的这部分数据采用二维的K-means;对于剩下的数据,采用二维均匀量化。这样的解决方案,适用于像语音信号这样的高斯分布的信号。俩者的结合能大大提升IP对讲系统中的语音编码效率,传输效率以及大大降低传输带宽,具有较高的工程意义和市场价值。该问题属于一个多类优化问题,通过对音频采样数据的分析,将其分为俩部分,分别进行处理。
本发明的有益效果主要表现在:1、对于整体系统而言,引入二维K-u算法,大大缩短对于数据点的分类以及获得理想量化电平的处理时间。2、将一维的K-means以及均匀分布,扩展到二维的K-means和二维均匀量化结合的算法,其所需的传输带宽降低到原来的大大提高了传输效率,实现系统整体带宽消耗最小化。
附图说明
图1基于IP对讲系统模型示意图
图2基于IP对讲系统中发送端的音频压缩、编码、解码流程图
图3原始数据点、二维K-means算法处理之后恢复的数据以及二维K-u算法处理之后恢复的数据对比图
具体实施方式
下面结合附图对本发明作进一步详细描述。
参照图1~图3,一种基于IP对讲系统中音频压缩的方法,二维K-u算法,即在音频压缩是采用二位K-means与均匀量化的方法,包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,...,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
记为S1,S2,S3,S4,...,S2N。在二维量化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),共N个二维信号点;
2)求采样点到远点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点O(0,0)的欧氏距离为:
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,...,S2N转换成T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
由于一维信号点S1,S2,S3,S4,...,S2N的概率密度函数呈高斯分布,所以的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,...,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,...,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,...,xn,其平均数为μ;若将每个数据都乘以则有则其平均数为于是原数据标准差σ和新数据标准差S分别为:
故二维信号采样点的欧氏距离D1,D2,D3,D4,...,DN的标准差为由高斯分布的3σ原则可知,在[-3σ,3σ]区间内包含了99.7%的数据量,最后求得临界半径
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类。由于音频信号采样点的概率密度函数呈高斯分布。由高斯分布特性可知,D越小,音频信号采样点的数量越多;以D=R为标准对二维信号点T1,T2,T3,...,TN分类,D≤R的信号点记为{K1,K2,K3,K4,...,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,...,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间。以每个点用L位量化精度为例,最大可用的量化电平数为M≤2L,L为正整数。然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为对圆内的每个信号点{K1,K2,K3,K4,...,KP|D≤R}逐一计算其到的欧氏距离记为d(Ki,Cj)。对于每个信号点可得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
其中,n为[1,MK]中任一值且n≠m。该不等式的实际意义就是找出Ki到中每个量化电平的欧氏距离中的最小那个,然后把该点归属于该区域;
引入变量θm(Ki):
聚合区域V(Cm)内所有点欧氏距离之和记为:
更新量化电平位置:
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
5.2二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,...,UN-P|D>R}。将区域Q={-1≤x≤1∩-1≤y≤1},也是将该1x1正方形区域根据大小等分成MU个区域,即有MU个量化电平。然后求得每个区域的中心坐标对D>R的每个信号点{K′1,K′2,K′3,K′4,...,K′p|D>R}逐一计算其到的欧氏距离记为d′(K′i,Bj),j∈[1,MU]。对于每个信号点可得其归属的区域S(Bm)表示为:
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
对应的量化区间记为 然后对系统音频数据进行量化,即把归属于哪个区域的点都量化成该区域对应的值,比如K1归属于区间,则把K1置为量化电平C1;
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负。在数据点量化之后,我们把(12)其中的量化电平按十进制进行排列并标号,比如量化电平C1对应十进制编码为1,Ci对应十进制编码为i。然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,可以确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
在图3中,可以看到二维K-means算法和二维K-u算法的效果。二维K-means算法处理之后恢复的数据以及二维K-u算法处理之后恢复的数据对比原始数据点,三者差异较为接近。但是二维K-u算法相较于二维K-means算法,在临界半径R之后的数据点采用均匀量化,在保证了音质的同时,大大简化了算法,降低编解码难度,有效提升算法运行效率。
本发明中,二维K-means算法是基于距离的聚类算法,它的评价指标是俩个对象的欧式距离,即认为两个对象的距离越近,其相似度就越大。它以欧式距离作为相似度测度,求对应某一初始聚类中心向量最优分类,使得俩个对象的欧式距离最小。均匀量化算法,就是把输入信号的取值域等间隔分割,其最大的优点就是在于编解码容易。在二维的K-u算法中,由语音信号的高斯分布的3σ原则可知,在[-3σ,3σ]区间内包含了99.7%的数据量,对这部分数据采用二维的K-means;对于剩下的小部分数据,采用二维均匀量化。这样的解决方案,适用于像语音信号这样的高斯分布的信号。俩者的结合能大大简化算法,提升基于IP对讲系统中的语音编码效率,传输效率以及大大降低传输带宽,具有较高的工程意义和市场价值。
本实例中,图1是基于IP对讲系统模型示意图。图2是基于IP对讲系统中发送端的音频压缩、编码、解码流程图。在该系统中,主要考虑的技术要点包括以下部分:1)在音频数据的[-3σ,3σ]区间区间采用二维的K-means算法;2)在音频数据的[-3σ,3σ]之外的部分采用二维均匀量化;3)满足降低语音对讲时带宽的需求,并提高传输效率的需求。根据以上技术要点,本发明提出了音频传输过程中压缩的优化问题。为了克服该问题本发明分析了问题特性,对提出的优化问题进行了分析,最重要的是本发明提出了一种高效的算法来进行求解,且有良好的效果。
本实例着眼于在同时满足基IP对讲系统中用户语音对讲数据带宽需求的前提下,最小化系统带宽占用,简化算法,提升传输效率。本发明的工作可以使得基于IP对讲系统中的用户获得较为优质且较为快捷的服务,进一步的能够实现整个系统的占用带宽和传输效率更优化。
Claims (1)
1.一种基于IP对讲系统中音频压缩的方法,其特征在于,所述方法包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,...,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
记为S1,S2,S3,S4,...,S2N,在二维量化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),共N个二维信号点;
2)求采样点到远点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点O(0,0)的欧氏距离为:
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,...,S2N转换成T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
由于一维信号点S1,S2,S3,S4,...,S2N的概率密度函数呈高斯分布,所以的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,...,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,...,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,...,xn,其平均数为μ;若将每个数据都乘以则有则其平均数为于是原数据标准差σ和新数据标准差S分别为:
故二维信号采样点的欧氏距离D1,D2,D3,D4,...,DN的标准差为由高斯分布的3σ原则知,在[-3σ,3σ]区间内包含了99.7%的数据量,最后求得临界半径
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类,由于音频信号采样点的概率密度函数呈高斯分布,由高斯分布特性可知,D越小,音频信号采样点的数量越多,以D=R为标准对二维信号点T1,T2,T3,...,TN分类,D≤R的信号点记为{K1,K2,K3,K4,...,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,...,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间,以每个点用L位量化精度为例,最大可用的量化电平数为M≤2L,L为正整数,然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为对圆内的每个信号点{K1,K2,K3,K4,...,KP|D≤R}逐一计算其到的欧氏距离记为d(Ki,Cj),对于每个信号点得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
其中,n为[1,MK]中任一值且n≠m,该不等式的实际意义就是找出Ki到中每个量化电平的欧氏距离中的最小那个,然后把该点归属于该区域;
引入变量θm(Ki):
聚合区域V(Cm)内所有点欧氏距离之和记为:
更新量化电平位置:
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
5.1二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,...,UN-P|D>R},将区域Q={-1≤x≤1∩-1≤y≤1},也是将该1x1正方形区域根据大小等分成MU个区域,即有MU个量化电平;然后求得每个区域的中心坐标对D>R的每个信号点{K′1,K′2,K′3,K′4,...,K′p|D>R}逐一计算其到的欧氏距离记为d′(K′i,Bj),j∈[1,MU];对于每个信号点可得其归属的区域S(Bm)表示为:
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
对应的量化区间记为 然后对系统音频数据进行量化,即把归属于哪个区域的点都量化成该区域对应的值;
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负;在数据点量化之后,把(12)其中的量化电平按十进制进行排列并标号;然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810648279.2A CN108922549B (zh) | 2018-06-22 | 2018-06-22 | 一种基于ip对讲系统中音频压缩的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810648279.2A CN108922549B (zh) | 2018-06-22 | 2018-06-22 | 一种基于ip对讲系统中音频压缩的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108922549A true CN108922549A (zh) | 2018-11-30 |
CN108922549B CN108922549B (zh) | 2022-04-08 |
Family
ID=64421005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810648279.2A Active CN108922549B (zh) | 2018-06-22 | 2018-06-22 | 一种基于ip对讲系统中音频压缩的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108922549B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115966206A (zh) * | 2022-11-23 | 2023-04-14 | 中创科技(广州)有限公司 | Ai语音识别的智能图片生成方法、装置、设备及介质 |
CN117153191A (zh) * | 2023-11-01 | 2023-12-01 | 中瑞科技术有限公司 | 一种基于远程通信的对讲机音频采集控制方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010044727A1 (en) * | 1997-10-03 | 2001-11-22 | Yoshihisa Nakatoh | Audio signal compression method, audio signal compression apparatus, speech signal compression method, speech signal compression apparatus, speech recognition method, and speech recognition apparatus |
US20080221876A1 (en) * | 2007-03-08 | 2008-09-11 | Universitat Fur Musik Und Darstellende Kunst | Method for processing audio data into a condensed version |
CN101650946A (zh) * | 2009-09-07 | 2010-02-17 | 哈尔滨工程大学科技园发展有限公司 | 应用于航行数据记录仪的音频采集卡的音频压缩方法 |
CN101908341A (zh) * | 2010-08-05 | 2010-12-08 | 浙江工业大学 | 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法 |
CN103428175A (zh) * | 2012-05-18 | 2013-12-04 | 江苏真云计算科技有限公司 | 基于异构移动ip网络的实时语音对讲系统 |
US9135923B1 (en) * | 2014-03-17 | 2015-09-15 | Chengjun Julian Chen | Pitch synchronous speech coding based on timbre vectors |
-
2018
- 2018-06-22 CN CN201810648279.2A patent/CN108922549B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010044727A1 (en) * | 1997-10-03 | 2001-11-22 | Yoshihisa Nakatoh | Audio signal compression method, audio signal compression apparatus, speech signal compression method, speech signal compression apparatus, speech recognition method, and speech recognition apparatus |
US20080221876A1 (en) * | 2007-03-08 | 2008-09-11 | Universitat Fur Musik Und Darstellende Kunst | Method for processing audio data into a condensed version |
CN101650946A (zh) * | 2009-09-07 | 2010-02-17 | 哈尔滨工程大学科技园发展有限公司 | 应用于航行数据记录仪的音频采集卡的音频压缩方法 |
CN101908341A (zh) * | 2010-08-05 | 2010-12-08 | 浙江工业大学 | 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法 |
CN103428175A (zh) * | 2012-05-18 | 2013-12-04 | 江苏真云计算科技有限公司 | 基于异构移动ip网络的实时语音对讲系统 |
US9135923B1 (en) * | 2014-03-17 | 2015-09-15 | Chengjun Julian Chen | Pitch synchronous speech coding based on timbre vectors |
Non-Patent Citations (2)
Title |
---|
孙王等: "基于Speex的音频压缩算法分析与优化", 《中国科技信息》 * |
魏枫等: "基于Android的语音编码算法研究与应用", 《电声技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115966206A (zh) * | 2022-11-23 | 2023-04-14 | 中创科技(广州)有限公司 | Ai语音识别的智能图片生成方法、装置、设备及介质 |
CN117153191A (zh) * | 2023-11-01 | 2023-12-01 | 中瑞科技术有限公司 | 一种基于远程通信的对讲机音频采集控制方法及系统 |
CN117153191B (zh) * | 2023-11-01 | 2023-12-29 | 中瑞科技术有限公司 | 一种基于远程通信的对讲机音频采集控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108922549B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101849258B (zh) | 用于在可缩放音频编解码器中编码/解码的方法和装置 | |
RU2464649C1 (ru) | Способ обработки звукового сигнала | |
CN1121681C (zh) | 语言处理 | |
CN102270452B (zh) | 近透明或透明的多声道编码器/解码器方案 | |
CN100530979C (zh) | 一种矢量量化方法及矢量量化器 | |
US20100174539A1 (en) | Method and apparatus for vector quantization codebook search | |
CN108922549A (zh) | 一种基于ip对讲系统中音频压缩的方法 | |
CN101937680B (zh) | 码书分类重排矢量量化方法及其矢量量化器 | |
CN100585700C (zh) | 语音编码装置及其方法 | |
CN116610265A (zh) | 一种商务信息咨询系统的数据存储方法 | |
MX2007008444A (es) | Metodo y sistema para codificacion/decodificacion para un flujo de bits de video para una escalabilidad de granularidad fina. | |
CN104067338A (zh) | 改进的分层编码 | |
CN101266795B (zh) | 一种格矢量量化编解码的实现方法及装置 | |
US8380526B2 (en) | Method, device and system for enhancement layer signal encoding and decoding | |
CN102055974B (zh) | 数据压缩、解压缩方法、装置及系统 | |
Hedelin | Single stage spectral quantization at 20 bits | |
Yang et al. | A novel method of speech information hiding based on 3D-magic matrix | |
Perić et al. | Quasilogarithmic quantizer for Laplacian source: support region ubiquitous optimization task | |
Hang et al. | An even grid based lattice vector quantization algorithm for mobile audio coding | |
CN1244903C (zh) | 用于语音编码的线谱对加权量化矢量快速搜索方法 | |
CN118038882A (zh) | 音频编码方法、装置、计算机可读介质及电子设备 | |
Kamamoto et al. | Low-complexity PARCOR coefficient quantizer and prediction order estimator for lossless speech coding | |
CN101771416A (zh) | 位平面编码和解码方法、通信系统及相关设备 | |
Lee et al. | Entropy coding of compressed feature parameters for distributed speech recognition | |
RU2461079C2 (ru) | Упрощенная индексация и деиндексация векторов |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |