CN108922549A - 一种基于ip对讲系统中音频压缩的方法 - Google Patents

一种基于ip对讲系统中音频压缩的方法 Download PDF

Info

Publication number
CN108922549A
CN108922549A CN201810648279.2A CN201810648279A CN108922549A CN 108922549 A CN108922549 A CN 108922549A CN 201810648279 A CN201810648279 A CN 201810648279A CN 108922549 A CN108922549 A CN 108922549A
Authority
CN
China
Prior art keywords
point
quantization
data
denoted
quantization level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810648279.2A
Other languages
English (en)
Other versions
CN108922549B (zh
Inventor
孟利民
柴荣灿
蒋维
应颂翔
林梦嫚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810648279.2A priority Critical patent/CN108922549B/zh
Publication of CN108922549A publication Critical patent/CN108922549A/zh
Application granted granted Critical
Publication of CN108922549B publication Critical patent/CN108922549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

一种基于IP对讲系统中音频压缩的方法,包括以下步骤:1)音频信号的归一化与二维信号的建立;2)求采样点到远点的欧氏距离;3)确定临界半径R;4)音频信号的分类;5)分类量化;6)编码、发送;7)解码、播放。本发明提供一种基于IP对讲系统的音频压缩的方法,传输效率高、带宽利用率高、通话延迟以及语音质量兼顾,本发明在IP对讲中对语音数据应用二维K‑means和均匀量化的算法,这里我们统一命名为二维K‑u算法。在IP对讲中,完成语音数据的采集、量化以及编码,将传输成本、传输带宽以及语音质量联合考虑,实现传输效率与语音质量的最优化。

Description

一种基于IP对讲系统中音频压缩的方法
技术领域
本发明涉及音频处理领域,特别涉及一种基于IP对讲系统中音频压缩的方法。
背景技术
近年来,国内的紧急情况层出不穷,对突发事件和信息安全高效处理的社会需求不断增加,IP对讲在其中发挥了越来越重要的作用。然而在突发情况下,网络状况往往不能得到很好的保证,由此,一种网络要求低、语音质量高的IP对讲系统显得尤为重要。其中至关重要的一环就是对音频的压缩。通过压缩音频,可以减少传输成本、降低带宽,提高语音传输的效率。
传统的IP对讲中采用的音频压缩方法主要有G.711,G.723,G.728,G.729等。
G.711就是语音模拟信号的一种非线性量化,俗称PCM,细分有二种:G.711A-law和G.711 u-law。我国主要是采用A律。G.711采样率是8kHz,信息量64kbps/channel。PCM压缩在通信系统中往往需要进一步压缩,不能一步到位。它的优点和缺点很明显。优点是语音质量高,缺点是占用带宽高。
G.723.1是一个双速率的语音编码器,是ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法;其目标应用系统包括IP对讲等多媒体通信系统。优点是码率低,带宽要求较小。缺点是声音质量一般。
G.728低延时码激励线性预测编码(LD-CELP)是世界上第一个标准化参数语音CODEC,以激励线性预测编码(CELP)算法为基础,采用后向自适应线性预测、50阶合成滤波和短激励矢量等改进方法,达到了低延时的目的。优点是低延迟、抗误码能力强。缺点是算法复杂,实现起来比较困难。
G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP),它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。G.729编码器是为低时延应用设计的,它的帧长只有10ms,处理时延也是10ms,再加上5ms的前视,这就使得G.729产生的点到点的时延为25ms,比特率为8kbps。优点是低码率,高音质。缺点是算法复杂度高。
K-means算法以欧式距离作为相似度测度,求对应某一初始聚类中心向量最优分类,使得俩个对象的欧式距离最小。该算法评价指标是俩个对象的欧式距离,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。该算法优点是克服一些样本数据产生的不准确性,能保证高音质。均匀量化算法,就是把输入信号的取值域等间隔分割,其最大的优点就是在于编解码容易。
发明内容
为了克服现有技术传输效率低、带宽利用率低、设备以及网络要求高等不足,本发明提供一种基于IP对讲系统的音频压缩的方法,具有以下特点:①传输效率高②带宽利用率高③通话延迟以及语音质量兼顾的。本发明在IP对讲中对语音数据应用二维K-means和均匀量化的算法,这里我们统一命名为二维K-u算法。在IP对讲中,完成语音数据的采集、量化以及编码,将传输成本、传输带宽以及语音质量联合考虑,实现传输效率与语音质量的最优化。
本发明解决其技术问题所采用的技术方案是:
一种基于IP对讲系统中音频压缩的方法,包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,...,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
记为S1,S2,S3,S4,...,S2N。在二维重化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),共N个二维信号点。
2)求采样点到远点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点0(0,0)的欧氏距离为:
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,...,S2N转换成T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
由于一维信号点S1,S2,S3,S4,...,S2N的概率密度函数呈高斯分布,所以的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,...,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,...,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,...,xn,其平均数为μ;若将每个数据都乘以则有则其平均数为于是原数据标准差σ和新数据标准差S分别为:
故二维信号采样点的欧氏距离D1,D2,D3,D4,...,DN的标准差为由高斯分布的3σ原则知,在[--3σ,3σ]区间内包含了99.7%的数据量,最后求得临界半径
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类,由于音频信号采样点的概率密度函数呈高斯分布,由高斯分布特性可知,D越小,音频信号采样点的数量越多,以D=R为标准对二维信号点T1,T2,T3,...,TN分类,D≤R的信号点记为{K1,K2,K3,K4,...,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,...,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间,以每个点用L位量化精度为例,最大可用的量化电平数为M≤2L,L为正整数,然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为对圆内的每个信号点{K1,K2,K3,K4,...,KP|D≤R}逐一计算其到的欧氏距离记为d(Ki,Cj)。对于每个信号点得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
其中,n为[1,MK]中任一值且n≠m。该不等式的实际意义就是找出Ki中每个量化电平的欧氏距离中的最小那个,然后把该点归属于该区域;
引入变量θm(Ki):
聚合区域V(Cm)内所有点欧氏距离之和记为:
更新量化电平位置:
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
5.2二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,...,UN-P|D>R},将区域Q={-1≤x≤1∩-1≤y≤1},也是将该1x1正方形区域根据大小等分成MU个区域,即有MU个量化电平;然后求得每个区域的中心坐标对D>R的每个信号点{K′1,K′2,K′3,K′4,...,K′p|D>R}逐一计算其到的欧氏距离记为d′(K′i,Bj),j∈[1,MU];对于每个信号点可得其归属的区域S(Bm)表示为:
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
对应的量化区间记为 然后对系统音频数据进行量化,即把归属于哪个区域的点都量化成该区域对应的值;
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负;在数据点量化之后,把(12)其中的量化电平按十进制进行排列并标号;然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
本发明的技术构思为:为了保证音频通话质量的同时,兼顾带宽以及算法的实现难易,基于二维的K-means和均匀量化(称之为二维K-u算法)的算法被提出来,与上述传统的压缩算法不同,二维K-u算法将数据采样点由一维提升至二维,同时利用K-means算法和均匀量化算法进行压缩,其所需的传输带宽降低到原来的大大提高了传输效率,实现系统整体带宽消耗最小化;同时俩个算法的结合,大大提升了算法的效率,缩短对于数据点的分类以及获得理想量化电平的处理时间,提升了算法效率同时兼顾了语音质量。因此二维K-u算法很好的满足了IP对讲中需求,很好地契合了高效、低带宽、高质量的对讲系统的最终目标,可以提供简单有效的算法以及有效降低了语音带宽,同时保证语音质量。
首先,在IP对讲系统中,在其语音传输中,采用二维的K-u算法。在二维的K-u算法中,首先获取临界半径,对临界半径内的这部分数据采用二维的K-means;对于剩下的数据,采用二维均匀量化。这样的解决方案,适用于像语音信号这样的高斯分布的信号。俩者的结合能大大提升IP对讲系统中的语音编码效率,传输效率以及大大降低传输带宽,具有较高的工程意义和市场价值。该问题属于一个多类优化问题,通过对音频采样数据的分析,将其分为俩部分,分别进行处理。
本发明的有益效果主要表现在:1、对于整体系统而言,引入二维K-u算法,大大缩短对于数据点的分类以及获得理想量化电平的处理时间。2、将一维的K-means以及均匀分布,扩展到二维的K-means和二维均匀量化结合的算法,其所需的传输带宽降低到原来的大大提高了传输效率,实现系统整体带宽消耗最小化。
附图说明
图1基于IP对讲系统模型示意图
图2基于IP对讲系统中发送端的音频压缩、编码、解码流程图
图3原始数据点、二维K-means算法处理之后恢复的数据以及二维K-u算法处理之后恢复的数据对比图
具体实施方式
下面结合附图对本发明作进一步详细描述。
参照图1~图3,一种基于IP对讲系统中音频压缩的方法,二维K-u算法,即在音频压缩是采用二位K-means与均匀量化的方法,包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,...,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
记为S1,S2,S3,S4,...,S2N。在二维量化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),共N个二维信号点;
2)求采样点到远点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点O(0,0)的欧氏距离为:
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,...,S2N转换成T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
由于一维信号点S1,S2,S3,S4,...,S2N的概率密度函数呈高斯分布,所以的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,...,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,...,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,...,xn,其平均数为μ;若将每个数据都乘以则有则其平均数为于是原数据标准差σ和新数据标准差S分别为:
故二维信号采样点的欧氏距离D1,D2,D3,D4,...,DN的标准差为由高斯分布的3σ原则可知,在[-3σ,3σ]区间内包含了99.7%的数据量,最后求得临界半径
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类。由于音频信号采样点的概率密度函数呈高斯分布。由高斯分布特性可知,D越小,音频信号采样点的数量越多;以D=R为标准对二维信号点T1,T2,T3,...,TN分类,D≤R的信号点记为{K1,K2,K3,K4,...,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,...,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间。以每个点用L位量化精度为例,最大可用的量化电平数为M≤2L,L为正整数。然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为对圆内的每个信号点{K1,K2,K3,K4,...,KP|D≤R}逐一计算其到的欧氏距离记为d(Ki,Cj)。对于每个信号点可得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
其中,n为[1,MK]中任一值且n≠m。该不等式的实际意义就是找出Ki中每个量化电平的欧氏距离中的最小那个,然后把该点归属于该区域;
引入变量θm(Ki):
聚合区域V(Cm)内所有点欧氏距离之和记为:
更新量化电平位置:
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
5.2二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,...,UN-P|D>R}。将区域Q={-1≤x≤1∩-1≤y≤1},也是将该1x1正方形区域根据大小等分成MU个区域,即有MU个量化电平。然后求得每个区域的中心坐标对D>R的每个信号点{K′1,K′2,K′3,K′4,...,K′p|D>R}逐一计算其到的欧氏距离记为d′(K′i,Bj),j∈[1,MU]。对于每个信号点可得其归属的区域S(Bm)表示为:
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
对应的量化区间记为 然后对系统音频数据进行量化,即把归属于哪个区域的点都量化成该区域对应的值,比如K1归属于区间,则把K1置为量化电平C1
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负。在数据点量化之后,我们把(12)其中的量化电平按十进制进行排列并标号,比如量化电平C1对应十进制编码为1,Ci对应十进制编码为i。然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,可以确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
在图3中,可以看到二维K-means算法和二维K-u算法的效果。二维K-means算法处理之后恢复的数据以及二维K-u算法处理之后恢复的数据对比原始数据点,三者差异较为接近。但是二维K-u算法相较于二维K-means算法,在临界半径R之后的数据点采用均匀量化,在保证了音质的同时,大大简化了算法,降低编解码难度,有效提升算法运行效率。
本发明中,二维K-means算法是基于距离的聚类算法,它的评价指标是俩个对象的欧式距离,即认为两个对象的距离越近,其相似度就越大。它以欧式距离作为相似度测度,求对应某一初始聚类中心向量最优分类,使得俩个对象的欧式距离最小。均匀量化算法,就是把输入信号的取值域等间隔分割,其最大的优点就是在于编解码容易。在二维的K-u算法中,由语音信号的高斯分布的3σ原则可知,在[-3σ,3σ]区间内包含了99.7%的数据量,对这部分数据采用二维的K-means;对于剩下的小部分数据,采用二维均匀量化。这样的解决方案,适用于像语音信号这样的高斯分布的信号。俩者的结合能大大简化算法,提升基于IP对讲系统中的语音编码效率,传输效率以及大大降低传输带宽,具有较高的工程意义和市场价值。
本实例中,图1是基于IP对讲系统模型示意图。图2是基于IP对讲系统中发送端的音频压缩、编码、解码流程图。在该系统中,主要考虑的技术要点包括以下部分:1)在音频数据的[-3σ,3σ]区间区间采用二维的K-means算法;2)在音频数据的[-3σ,3σ]之外的部分采用二维均匀量化;3)满足降低语音对讲时带宽的需求,并提高传输效率的需求。根据以上技术要点,本发明提出了音频传输过程中压缩的优化问题。为了克服该问题本发明分析了问题特性,对提出的优化问题进行了分析,最重要的是本发明提出了一种高效的算法来进行求解,且有良好的效果。
本实例着眼于在同时满足基IP对讲系统中用户语音对讲数据带宽需求的前提下,最小化系统带宽占用,简化算法,提升传输效率。本发明的工作可以使得基于IP对讲系统中的用户获得较为优质且较为快捷的服务,进一步的能够实现整个系统的占用带宽和传输效率更优化。

Claims (1)

1.一种基于IP对讲系统中音频压缩的方法,其特征在于,所述方法包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,...,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
记为S1,S2,S3,S4,...,S2N,在二维量化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),共N个二维信号点;
2)求采样点到远点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点O(0,0)的欧氏距离为:
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,...,S2N转换成T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
由于一维信号点S1,S2,S3,S4,...,S2N的概率密度函数呈高斯分布,所以的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,...,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,...,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,...,xn,其平均数为μ;若将每个数据都乘以则有则其平均数为于是原数据标准差σ和新数据标准差S分别为:
故二维信号采样点的欧氏距离D1,D2,D3,D4,...,DN的标准差为由高斯分布的3σ原则知,在[-3σ,3σ]区间内包含了99.7%的数据量,最后求得临界半径
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类,由于音频信号采样点的概率密度函数呈高斯分布,由高斯分布特性可知,D越小,音频信号采样点的数量越多,以D=R为标准对二维信号点T1,T2,T3,...,TN分类,D≤R的信号点记为{K1,K2,K3,K4,...,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,...,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间,以每个点用L位量化精度为例,最大可用的量化电平数为M≤2L,L为正整数,然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为对圆内的每个信号点{K1,K2,K3,K4,...,KP|D≤R}逐一计算其到的欧氏距离记为d(Ki,Cj),对于每个信号点得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
其中,n为[1,MK]中任一值且n≠m,该不等式的实际意义就是找出Ki中每个量化电平的欧氏距离中的最小那个,然后把该点归属于该区域;
引入变量θm(Ki):
聚合区域V(Cm)内所有点欧氏距离之和记为:
更新量化电平位置:
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
5.1二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,...,UN-P|D>R},将区域Q={-1≤x≤1∩-1≤y≤1},也是将该1x1正方形区域根据大小等分成MU个区域,即有MU个量化电平;然后求得每个区域的中心坐标对D>R的每个信号点{K′1,K′2,K′3,K′4,...,K′p|D>R}逐一计算其到的欧氏距离记为d′(K′i,Bj),j∈[1,MU];对于每个信号点可得其归属的区域S(Bm)表示为:
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
对应的量化区间记为 然后对系统音频数据进行量化,即把归属于哪个区域的点都量化成该区域对应的值;
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负;在数据点量化之后,把(12)其中的量化电平按十进制进行排列并标号;然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
CN201810648279.2A 2018-06-22 2018-06-22 一种基于ip对讲系统中音频压缩的方法 Active CN108922549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810648279.2A CN108922549B (zh) 2018-06-22 2018-06-22 一种基于ip对讲系统中音频压缩的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810648279.2A CN108922549B (zh) 2018-06-22 2018-06-22 一种基于ip对讲系统中音频压缩的方法

Publications (2)

Publication Number Publication Date
CN108922549A true CN108922549A (zh) 2018-11-30
CN108922549B CN108922549B (zh) 2022-04-08

Family

ID=64421005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810648279.2A Active CN108922549B (zh) 2018-06-22 2018-06-22 一种基于ip对讲系统中音频压缩的方法

Country Status (1)

Country Link
CN (1) CN108922549B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115966206A (zh) * 2022-11-23 2023-04-14 中创科技(广州)有限公司 Ai语音识别的智能图片生成方法、装置、设备及介质
CN117153191A (zh) * 2023-11-01 2023-12-01 中瑞科技术有限公司 一种基于远程通信的对讲机音频采集控制方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044727A1 (en) * 1997-10-03 2001-11-22 Yoshihisa Nakatoh Audio signal compression method, audio signal compression apparatus, speech signal compression method, speech signal compression apparatus, speech recognition method, and speech recognition apparatus
US20080221876A1 (en) * 2007-03-08 2008-09-11 Universitat Fur Musik Und Darstellende Kunst Method for processing audio data into a condensed version
CN101650946A (zh) * 2009-09-07 2010-02-17 哈尔滨工程大学科技园发展有限公司 应用于航行数据记录仪的音频采集卡的音频压缩方法
CN101908341A (zh) * 2010-08-05 2010-12-08 浙江工业大学 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法
CN103428175A (zh) * 2012-05-18 2013-12-04 江苏真云计算科技有限公司 基于异构移动ip网络的实时语音对讲系统
US9135923B1 (en) * 2014-03-17 2015-09-15 Chengjun Julian Chen Pitch synchronous speech coding based on timbre vectors

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044727A1 (en) * 1997-10-03 2001-11-22 Yoshihisa Nakatoh Audio signal compression method, audio signal compression apparatus, speech signal compression method, speech signal compression apparatus, speech recognition method, and speech recognition apparatus
US20080221876A1 (en) * 2007-03-08 2008-09-11 Universitat Fur Musik Und Darstellende Kunst Method for processing audio data into a condensed version
CN101650946A (zh) * 2009-09-07 2010-02-17 哈尔滨工程大学科技园发展有限公司 应用于航行数据记录仪的音频采集卡的音频压缩方法
CN101908341A (zh) * 2010-08-05 2010-12-08 浙江工业大学 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法
CN103428175A (zh) * 2012-05-18 2013-12-04 江苏真云计算科技有限公司 基于异构移动ip网络的实时语音对讲系统
US9135923B1 (en) * 2014-03-17 2015-09-15 Chengjun Julian Chen Pitch synchronous speech coding based on timbre vectors

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙王等: "基于Speex的音频压缩算法分析与优化", 《中国科技信息》 *
魏枫等: "基于Android的语音编码算法研究与应用", 《电声技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115966206A (zh) * 2022-11-23 2023-04-14 中创科技(广州)有限公司 Ai语音识别的智能图片生成方法、装置、设备及介质
CN117153191A (zh) * 2023-11-01 2023-12-01 中瑞科技术有限公司 一种基于远程通信的对讲机音频采集控制方法及系统
CN117153191B (zh) * 2023-11-01 2023-12-29 中瑞科技术有限公司 一种基于远程通信的对讲机音频采集控制方法及系统

Also Published As

Publication number Publication date
CN108922549B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN101849258B (zh) 用于在可缩放音频编解码器中编码/解码的方法和装置
RU2464649C1 (ru) Способ обработки звукового сигнала
CN1121681C (zh) 语言处理
CN102270452B (zh) 近透明或透明的多声道编码器/解码器方案
CN100530979C (zh) 一种矢量量化方法及矢量量化器
US20100174539A1 (en) Method and apparatus for vector quantization codebook search
CN108922549A (zh) 一种基于ip对讲系统中音频压缩的方法
CN101937680B (zh) 码书分类重排矢量量化方法及其矢量量化器
CN100585700C (zh) 语音编码装置及其方法
CN116610265A (zh) 一种商务信息咨询系统的数据存储方法
MX2007008444A (es) Metodo y sistema para codificacion/decodificacion para un flujo de bits de video para una escalabilidad de granularidad fina.
CN104067338A (zh) 改进的分层编码
CN101266795B (zh) 一种格矢量量化编解码的实现方法及装置
US8380526B2 (en) Method, device and system for enhancement layer signal encoding and decoding
CN102055974B (zh) 数据压缩、解压缩方法、装置及系统
Hedelin Single stage spectral quantization at 20 bits
Yang et al. A novel method of speech information hiding based on 3D-magic matrix
Perić et al. Quasilogarithmic quantizer for Laplacian source: support region ubiquitous optimization task
Hang et al. An even grid based lattice vector quantization algorithm for mobile audio coding
CN1244903C (zh) 用于语音编码的线谱对加权量化矢量快速搜索方法
CN118038882A (zh) 音频编码方法、装置、计算机可读介质及电子设备
Kamamoto et al. Low-complexity PARCOR coefficient quantizer and prediction order estimator for lossless speech coding
CN101771416A (zh) 位平面编码和解码方法、通信系统及相关设备
Lee et al. Entropy coding of compressed feature parameters for distributed speech recognition
RU2461079C2 (ru) Упрощенная индексация и деиндексация векторов

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant