CN108922549B - 一种基于ip对讲系统中音频压缩的方法 - Google Patents
一种基于ip对讲系统中音频压缩的方法 Download PDFInfo
- Publication number
- CN108922549B CN108922549B CN201810648279.2A CN201810648279A CN108922549B CN 108922549 B CN108922549 B CN 108922549B CN 201810648279 A CN201810648279 A CN 201810648279A CN 108922549 B CN108922549 B CN 108922549B
- Authority
- CN
- China
- Prior art keywords
- dimensional
- quantization
- point
- signal
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013139 quantization Methods 0.000 claims abstract description 92
- 238000005070 sampling Methods 0.000 claims abstract description 55
- 230000005236 sound signal Effects 0.000 claims abstract description 33
- 230000006835 compression Effects 0.000 claims abstract description 19
- 238000007906 compression Methods 0.000 claims abstract description 19
- 238000010606 normalization Methods 0.000 claims abstract description 4
- 238000009826 distribution Methods 0.000 claims description 24
- 238000006116 polymerization reaction Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 26
- 230000008901 benefit Effects 0.000 abstract description 12
- 238000005457 optimization Methods 0.000 abstract description 5
- 230000005284 excitation Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
一种基于IP对讲系统中音频压缩的方法,包括以下步骤:1)音频信号的归一化与二维信号的建立;2)求采样点到远点的欧氏距离;3)确定临界半径R;4)音频信号的分类;5)分类量化;6)编码、发送;7)解码、播放。本发明提供一种基于IP对讲系统的音频压缩的方法,传输效率高、带宽利用率高、通话延迟以及语音质量兼顾,本发明在IP对讲中对语音数据应用二维K‑means和均匀量化的算法,这里我们统一命名为二维K‑u算法。在IP对讲中,完成语音数据的采集、量化以及编码,将传输成本、传输带宽以及语音质量联合考虑,实现传输效率与语音质量的最优化。
Description
技术领域
本发明涉及音频处理领域,特别涉及一种基于IP对讲系统中音频压缩的方法。
背景技术
近年来,国内的紧急情况层出不穷,对突发事件和信息安全高效处理的社会需求不断增加,IP对讲在其中发挥了越来越重要的作用。然而在突发情况下,网络状况往往不能得到很好的保证,由此,一种网络要求低、语音质量高的IP对讲系统显得尤为重要。其中至关重要的一环就是对音频的压缩。通过压缩音频,可以减少传输成本、降低带宽,提高语音传输的效率。
传统的IP对讲中采用的音频压缩方法主要有G.711,G.723,G.728,G.729等。
G.711就是语音模拟信号的一种非线性量化,俗称PCM,细分有二种:G.711A-law和G.711 u-law。我国主要是采用A律。G.711采样率是8kHz,信息量64kbps/channel。PCM压缩在通信系统中往往需要进一步压缩,不能一步到位。它的优点和缺点很明显。优点是语音质量高,缺点是占用带宽高。
G.723.1是一个双速率的语音编码器,是ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法;其目标应用系统包括IP对讲等多媒体通信系统。优点是码率低,带宽要求较小。缺点是声音质量一般。
G.728低延时码激励线性预测编码(LD-CELP)是世界上第一个标准化参数语音CODEC,以激励线性预测编码(CELP)算法为基础,采用后向自适应线性预测、50阶合成滤波和短激励矢量等改进方法,达到了低延时的目的。优点是低延迟、抗误码能力强。缺点是算法复杂,实现起来比较困难。
G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP),它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。G.729编码器是为低时延应用设计的,它的帧长只有10ms,处理时延也是10ms,再加上5ms的前视,这就使得G.729产生的点到点的时延为25ms,比特率为8kbps。优点是低码率,高音质。缺点是算法复杂度高。
K-means算法以欧式距离作为相似度测度,求对应某一初始聚类中心向量最优分类,使得俩个对象的欧式距离最小。该算法评价指标是俩个对象的欧式距离,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。该算法优点是克服一些样本数据产生的不准确性,能保证高音质。均匀量化算法,就是把输入信号的取值域等间隔分割,其最大的优点就是在于编解码容易。
发明内容
为了克服现有技术传输效率低、带宽利用率低、设备以及网络要求高等不足,本发明提供一种基于IP对讲系统的音频压缩的方法,具有以下特点:①传输效率高②带宽利用率高③通话延迟以及语音质量兼顾的。本发明在IP对讲中对语音数据应用二维K-means和均匀量化的算法,这里我们统一命名为二维K-u算法。在IP对讲中,完成语音数据的采集、量化以及编码,将传输成本、传输带宽以及语音质量联合考虑,实现传输效率与语音质量的最优化。
本发明解决其技术问题所采用的技术方案是:
一种基于IP对讲系统中音频压缩的方法,包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,...,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
记为S1,S2,S3,S4,...,S2N。在二维重化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),共N个二维信号点。
2)求采样点到远点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点0(0,0)的欧氏距离为:
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,...,S2N转换成T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
由于一维信号点S1,S2,S3,S4,...,S2N的概率密度函数呈高斯分布,所以的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,...,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,...,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,...,xn,其平均数为μ;若将每个数据都乘以则有则其平均数为于是原数据标准差σ和新数据标准差S分别为:
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类,由于音频信号采样点的概率密度函数呈高斯分布,由高斯分布特性可知,D越小,音频信号采样点的数量越多,以D=R为标准对二维信号点T1,T2,T3,...,TN分类,D≤R的信号点记为{K1,K2,K3,K4,...,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,...,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间,以每个点用L位量化精度为例,最大可用的量化电平数为M≤2L,L为正整数,然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为对圆内的每个信号点{K1,K2,K3,K4,...,KP|D≤R}逐一计算其到的欧氏距离记为d(Ki,Cj)。对于每个信号点得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
引入变量θm(Ki):
聚合区域V(Cm)内所有点欧氏距离之和记为:
更新量化电平位置:
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
5.2二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,...,UN-P|D>R},将区域Q={-1≤x≤1∩-1≤y≤1},也是将该1x1正方形区域根据大小等分成MU个区域,即有MU个量化电平;然后求得每个区域的中心坐标对D>R的每个信号点{K′1,K′2,K′3,K′4,...,K′p|D>R}逐一计算其到的欧氏距离记为d′(K′i,Bj),j∈[1,MU];对于每个信号点可得其归属的区域S(Bm)表示为:
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负;在数据点量化之后,把(12)其中的量化电平按十进制进行排列并标号;然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
本发明的技术构思为:为了保证音频通话质量的同时,兼顾带宽以及算法的实现难易,基于二维的K-means和均匀量化(称之为二维K-u算法)的算法被提出来,与上述传统的压缩算法不同,二维K-u算法将数据采样点由一维提升至二维,同时利用K-means算法和均匀量化算法进行压缩,其所需的传输带宽降低到原来的大大提高了传输效率,实现系统整体带宽消耗最小化;同时俩个算法的结合,大大提升了算法的效率,缩短对于数据点的分类以及获得理想量化电平的处理时间,提升了算法效率同时兼顾了语音质量。因此二维K-u算法很好的满足了IP对讲中需求,很好地契合了高效、低带宽、高质量的对讲系统的最终目标,可以提供简单有效的算法以及有效降低了语音带宽,同时保证语音质量。
首先,在IP对讲系统中,在其语音传输中,采用二维的K-u算法。在二维的K-u算法中,首先获取临界半径,对临界半径内的这部分数据采用二维的K-means;对于剩下的数据,采用二维均匀量化。这样的解决方案,适用于像语音信号这样的高斯分布的信号。俩者的结合能大大提升IP对讲系统中的语音编码效率,传输效率以及大大降低传输带宽,具有较高的工程意义和市场价值。该问题属于一个多类优化问题,通过对音频采样数据的分析,将其分为俩部分,分别进行处理。
附图说明
图1基于IP对讲系统模型示意图
图2基于IP对讲系统中发送端的音频压缩、编码、解码流程图
图3原始数据点、二维K-means算法处理之后恢复的数据以及二维K-u算法处理之后恢复的数据对比图
具体实施方式
下面结合附图对本发明作进一步详细描述。
参照图1~图3,一种基于IP对讲系统中音频压缩的方法,二维K-u算法,即在音频压缩是采用二位K-means与均匀量化的方法,包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,...,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
记为S1,S2,S3,S4,...,S2N。在二维量化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),共N个二维信号点;
2)求采样点到远点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点O(0,0)的欧氏距离为:
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,...,S2N转换成T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
由于一维信号点S1,S2,S3,S4,...,S2N的概率密度函数呈高斯分布,所以的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,...,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,...,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,...,xn,其平均数为μ;若将每个数据都乘以则有则其平均数为于是原数据标准差σ和新数据标准差S分别为:
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类。由于音频信号采样点的概率密度函数呈高斯分布。由高斯分布特性可知,D越小,音频信号采样点的数量越多;以D=R为标准对二维信号点T1,T2,T3,...,TN分类,D≤R的信号点记为{K1,K2,K3,K4,...,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,...,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间。以每个点用L位量化精度为例,最大可用的量化电平数为M≤2L,L为正整数。然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为对圆内的每个信号点{K1,K2,K3,K4,...,KP|D≤R}逐一计算其到的欧氏距离记为d(Ki,Cj)。对于每个信号点可得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
引入变量θm(Ki):
聚合区域V(Cm)内所有点欧氏距离之和记为:
更新量化电平位置:
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
5.2二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,...,UN-P|D>R}。将区域Q={-1≤x≤1∩-1≤y≤1},也是将该1x1正方形区域根据大小等分成MU个区域,即有MU个量化电平。然后求得每个区域的中心坐标对D>R的每个信号点{K′1,K′2,K′3,K′4,...,K′p|D>R}逐一计算其到的欧氏距离记为d′(K′i,Bj),j∈[1,MU]。对于每个信号点可得其归属的区域S(Bm)表示为:
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负。在数据点量化之后,我们把(12)其中的量化电平按十进制进行排列并标号,比如量化电平C1对应十进制编码为1,Ci对应十进制编码为i。然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,可以确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
在图3中,可以看到二维K-means算法和二维K-u算法的效果。二维K-means算法处理之后恢复的数据以及二维K-u算法处理之后恢复的数据对比原始数据点,三者差异较为接近。但是二维K-u算法相较于二维K-means算法,在临界半径R之后的数据点采用均匀量化,在保证了音质的同时,大大简化了算法,降低编解码难度,有效提升算法运行效率。
本发明中,二维K-means算法是基于距离的聚类算法,它的评价指标是俩个对象的欧式距离,即认为两个对象的距离越近,其相似度就越大。它以欧式距离作为相似度测度,求对应某一初始聚类中心向量最优分类,使得俩个对象的欧式距离最小。均匀量化算法,就是把输入信号的取值域等间隔分割,其最大的优点就是在于编解码容易。在二维的K-u算法中,由语音信号的高斯分布的3σ原则可知,在[-3σ,3σ]区间内包含了99.7%的数据量,对这部分数据采用二维的K-means;对于剩下的小部分数据,采用二维均匀量化。这样的解决方案,适用于像语音信号这样的高斯分布的信号。俩者的结合能大大简化算法,提升基于IP对讲系统中的语音编码效率,传输效率以及大大降低传输带宽,具有较高的工程意义和市场价值。
本实例中,图1是基于IP对讲系统模型示意图。图2是基于IP对讲系统中发送端的音频压缩、编码、解码流程图。在该系统中,主要考虑的技术要点包括以下部分:1)在音频数据的[-3σ,3σ]区间区间采用二维的K-means算法;2)在音频数据的[-3σ,3σ]之外的部分采用二维均匀量化;3)满足降低语音对讲时带宽的需求,并提高传输效率的需求。根据以上技术要点,本发明提出了音频传输过程中压缩的优化问题。为了克服该问题本发明分析了问题特性,对提出的优化问题进行了分析,最重要的是本发明提出了一种高效的算法来进行求解,且有良好的效果。
本实例着眼于在同时满足基IP对讲系统中用户语音对讲数据带宽需求的前提下,最小化系统带宽占用,简化算法,提升传输效率。本发明的工作可以使得基于IP对讲系统中的用户获得较为优质且较为快捷的服务,进一步的能够实现整个系统的占用带宽和传输效率更优化。
Claims (1)
1.一种基于IP对讲系统中音频压缩的方法,其特征在于,所述方法包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,…,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
记为S1,S2,S3,S4,…,S2N,在二维量化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),…,TN(S2N-1,S2N),共N个二维信号点;
2)求采样点到原点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点O(0,0)的欧氏距离为:
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,…,S2N转换成T1(S1,S2),T2(S3,S4),…,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
由于一维信号点S1,S2,S3,S4,…,S2N的概率密度函数呈高斯分布,所以的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,…,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,…,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,…,xn,其平均数为μ;若将每个数据都乘以则有则其平均数为于是原数据标准差σ和新数据标准差S分别为:
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类,由于音频信号采样点的概率密度函数呈高斯分布,由高斯分布特性可知,D越小,音频信号采样点的数量越多,以D=R为标准对二维信号点T1,T2,T3,…,TN分类,D≤R的信号点记为{K1,K2,K3,K4,…,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,…,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间,每个点用L位量化精度,最大可用的量化电平数为M≤2L,L为正整数,然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作二维均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1)二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为对圆内的每个信号点{K1,K2,K3,K4,…,KP|D≤R}逐一计算其到的欧氏距离记为d(Ki,Cj),对于每个信号点,得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
引入变量θm(Ki):
聚合区域V(Cm)内所有点欧氏距离之和记为:
更新量化电平位置:
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
5.2)二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,…,UN-P|D>R},将区域Q={-1≤x≤1∩-1≤y≤1},也是将该正方形区域根据大小等分成MU个区域,即有MU个量化电平;然后求得每个区域的中心坐标对D>R的每个信号点{U1,U2,U3,U4,…,UN-P|D>R}逐一计算其到的欧氏距离记为d′(Ui,Bj),j∈[1,MU];对于每个信号点,可得其归属的区域S(Bm)表示为:
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负;在数据点量化之后,把公式(12)其中的量化电平按十进制进行排列并标号;然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810648279.2A CN108922549B (zh) | 2018-06-22 | 2018-06-22 | 一种基于ip对讲系统中音频压缩的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810648279.2A CN108922549B (zh) | 2018-06-22 | 2018-06-22 | 一种基于ip对讲系统中音频压缩的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108922549A CN108922549A (zh) | 2018-11-30 |
CN108922549B true CN108922549B (zh) | 2022-04-08 |
Family
ID=64421005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810648279.2A Active CN108922549B (zh) | 2018-06-22 | 2018-06-22 | 一种基于ip对讲系统中音频压缩的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108922549B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115966206A (zh) * | 2022-11-23 | 2023-04-14 | 中创科技(广州)有限公司 | Ai语音识别的智能图片生成方法、装置、设备及介质 |
CN117153191B (zh) * | 2023-11-01 | 2023-12-29 | 中瑞科技术有限公司 | 一种基于远程通信的对讲机音频采集控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101650946A (zh) * | 2009-09-07 | 2010-02-17 | 哈尔滨工程大学科技园发展有限公司 | 应用于航行数据记录仪的音频采集卡的音频压缩方法 |
CN101908341A (zh) * | 2010-08-05 | 2010-12-08 | 浙江工业大学 | 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法 |
CN103428175A (zh) * | 2012-05-18 | 2013-12-04 | 江苏真云计算科技有限公司 | 基于异构移动ip网络的实时语音对讲系统 |
US9135923B1 (en) * | 2014-03-17 | 2015-09-15 | Chengjun Julian Chen | Pitch synchronous speech coding based on timbre vectors |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100361883B1 (ko) * | 1997-10-03 | 2003-01-24 | 마츠시타 덴끼 산교 가부시키가이샤 | 오디오신호압축방법,오디오신호압축장치,음성신호압축방법,음성신호압축장치,음성인식방법및음성인식장치 |
US20080221876A1 (en) * | 2007-03-08 | 2008-09-11 | Universitat Fur Musik Und Darstellende Kunst | Method for processing audio data into a condensed version |
-
2018
- 2018-06-22 CN CN201810648279.2A patent/CN108922549B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101650946A (zh) * | 2009-09-07 | 2010-02-17 | 哈尔滨工程大学科技园发展有限公司 | 应用于航行数据记录仪的音频采集卡的音频压缩方法 |
CN101908341A (zh) * | 2010-08-05 | 2010-12-08 | 浙江工业大学 | 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法 |
CN103428175A (zh) * | 2012-05-18 | 2013-12-04 | 江苏真云计算科技有限公司 | 基于异构移动ip网络的实时语音对讲系统 |
US9135923B1 (en) * | 2014-03-17 | 2015-09-15 | Chengjun Julian Chen | Pitch synchronous speech coding based on timbre vectors |
Non-Patent Citations (2)
Title |
---|
基于Android的语音编码算法研究与应用;魏枫等;《电声技术》;20160517(第05期);全文 * |
基于Speex的音频压缩算法分析与优化;孙王等;《中国科技信息》;20150515(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108922549A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1121681C (zh) | 语言处理 | |
Cuperman et al. | Vector predictive coding of speech at 16 kbits/s | |
Li et al. | Steganalysis of QIM steganography in low-bit-rate speech signals | |
RU2464649C1 (ru) | Способ обработки звукового сигнала | |
US8909521B2 (en) | Coding method, coding apparatus, coding program, and recording medium therefor | |
CN101421780B (zh) | 用于编码和解码时变信号的方法和设备 | |
US20100174539A1 (en) | Method and apparatus for vector quantization codebook search | |
CN101796579B (zh) | 数字音频信号的分级编码 | |
CN1377499A (zh) | 采用可变时间/频率分辨率和时间/频率转换的有效频谱包络编码方法 | |
CN108922549B (zh) | 一种基于ip对讲系统中音频压缩的方法 | |
CN1441947A (zh) | 用于与说话者无关的话音识别系统的构造话音模板的方法和设备 | |
CN1815558A (zh) | 语音中非话音部分的低数据位速率编码 | |
CN1160450A (zh) | 从连续语音中识别讲话声音的系统及其应用方法 | |
CN101406064B (zh) | 量化和反量化输入信号的方法和设备以及对输入信号编码和解码的方法和设备 | |
Yang et al. | Hierarchical representation network for steganalysis of qim steganography in low-bit-rate speech signals | |
CN100585700C (zh) | 语音编码装置及其方法 | |
CN1112674C (zh) | 用于语音有效编码的谱参数预测分解矩阵量化 | |
CN1240050C (zh) | 一种用于语音编码的固定码本快速搜索方法 | |
CN115295018A (zh) | 基于贝叶斯网络的基音周期调制信息隐藏检测方法 | |
CN115470799A (zh) | 一种用于网络边缘设备的文本传输和语义理解一体化方法 | |
CN109785848B (zh) | 基于比例因子系数差值的aac双压缩音频检测方法 | |
CN101377926B (zh) | 加速量化循环程序功能的音频编码方法 | |
CN1244905C (zh) | 评估编解码参数的方法 | |
CN1244903C (zh) | 用于语音编码的线谱对加权量化矢量快速搜索方法 | |
CN100583240C (zh) | Esm语音编码解码装置及其编码解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |