CN108922549B - 一种基于ip对讲系统中音频压缩的方法 - Google Patents

一种基于ip对讲系统中音频压缩的方法 Download PDF

Info

Publication number
CN108922549B
CN108922549B CN201810648279.2A CN201810648279A CN108922549B CN 108922549 B CN108922549 B CN 108922549B CN 201810648279 A CN201810648279 A CN 201810648279A CN 108922549 B CN108922549 B CN 108922549B
Authority
CN
China
Prior art keywords
dimensional
quantization
point
signal
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810648279.2A
Other languages
English (en)
Other versions
CN108922549A (zh
Inventor
孟利民
柴荣灿
蒋维
应颂翔
林梦嫚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810648279.2A priority Critical patent/CN108922549B/zh
Publication of CN108922549A publication Critical patent/CN108922549A/zh
Application granted granted Critical
Publication of CN108922549B publication Critical patent/CN108922549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

一种基于IP对讲系统中音频压缩的方法,包括以下步骤:1)音频信号的归一化与二维信号的建立;2)求采样点到远点的欧氏距离;3)确定临界半径R;4)音频信号的分类;5)分类量化;6)编码、发送;7)解码、播放。本发明提供一种基于IP对讲系统的音频压缩的方法,传输效率高、带宽利用率高、通话延迟以及语音质量兼顾,本发明在IP对讲中对语音数据应用二维K‑means和均匀量化的算法,这里我们统一命名为二维K‑u算法。在IP对讲中,完成语音数据的采集、量化以及编码,将传输成本、传输带宽以及语音质量联合考虑,实现传输效率与语音质量的最优化。

Description

一种基于IP对讲系统中音频压缩的方法
技术领域
本发明涉及音频处理领域,特别涉及一种基于IP对讲系统中音频压缩的方法。
背景技术
近年来,国内的紧急情况层出不穷,对突发事件和信息安全高效处理的社会需求不断增加,IP对讲在其中发挥了越来越重要的作用。然而在突发情况下,网络状况往往不能得到很好的保证,由此,一种网络要求低、语音质量高的IP对讲系统显得尤为重要。其中至关重要的一环就是对音频的压缩。通过压缩音频,可以减少传输成本、降低带宽,提高语音传输的效率。
传统的IP对讲中采用的音频压缩方法主要有G.711,G.723,G.728,G.729等。
G.711就是语音模拟信号的一种非线性量化,俗称PCM,细分有二种:G.711A-law和G.711 u-law。我国主要是采用A律。G.711采样率是8kHz,信息量64kbps/channel。PCM压缩在通信系统中往往需要进一步压缩,不能一步到位。它的优点和缺点很明显。优点是语音质量高,缺点是占用带宽高。
G.723.1是一个双速率的语音编码器,是ITU-T建议的应用于低速率多媒体服务中语音或其它音频信号的压缩算法;其目标应用系统包括IP对讲等多媒体通信系统。优点是码率低,带宽要求较小。缺点是声音质量一般。
G.728低延时码激励线性预测编码(LD-CELP)是世界上第一个标准化参数语音CODEC,以激励线性预测编码(CELP)算法为基础,采用后向自适应线性预测、50阶合成滤波和短激励矢量等改进方法,达到了低延时的目的。优点是低延迟、抗误码能力强。缺点是算法复杂,实现起来比较困难。
G.729也被称作“共轭结构代数码本激励线性预测编码方案”(CS-ACELP),它是当前较新的一种语音压缩标准。G.729是由美国、法国、日本和加拿大的几家著名国际电信实体联合开发的。G.729算法采用“共轭结构代数码本激励线性预测编码方案”(CS-ACELP)算法。这种算法综合了波形编码和参数编码的优点,以自适应预测编码技术为基础,采用了矢量量化、合成分析和感觉加权等技术。G.729编码器是为低时延应用设计的,它的帧长只有10ms,处理时延也是10ms,再加上5ms的前视,这就使得G.729产生的点到点的时延为25ms,比特率为8kbps。优点是低码率,高音质。缺点是算法复杂度高。
K-means算法以欧式距离作为相似度测度,求对应某一初始聚类中心向量最优分类,使得俩个对象的欧式距离最小。该算法评价指标是俩个对象的欧式距离,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。该算法优点是克服一些样本数据产生的不准确性,能保证高音质。均匀量化算法,就是把输入信号的取值域等间隔分割,其最大的优点就是在于编解码容易。
发明内容
为了克服现有技术传输效率低、带宽利用率低、设备以及网络要求高等不足,本发明提供一种基于IP对讲系统的音频压缩的方法,具有以下特点:①传输效率高②带宽利用率高③通话延迟以及语音质量兼顾的。本发明在IP对讲中对语音数据应用二维K-means和均匀量化的算法,这里我们统一命名为二维K-u算法。在IP对讲中,完成语音数据的采集、量化以及编码,将传输成本、传输带宽以及语音质量联合考虑,实现传输效率与语音质量的最优化。
本发明解决其技术问题所采用的技术方案是:
一种基于IP对讲系统中音频压缩的方法,包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,...,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
Figure BDA0001703923910000031
记为S1,S2,S3,S4,...,S2N。在二维重化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),共N个二维信号点。
2)求采样点到远点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点0(0,0)的欧氏距离为:
Figure BDA0001703923910000032
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,...,S2N转换成T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
Figure BDA0001703923910000033
由于一维信号点S1,S2,S3,S4,...,S2N的概率密度函数呈高斯分布,所以
Figure BDA0001703923910000034
的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,...,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,...,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,...,xn,其平均数为μ;若将每个数据都乘以
Figure BDA0001703923910000035
则有
Figure BDA0001703923910000036
则其平均数为
Figure BDA0001703923910000037
于是原数据标准差σ和新数据标准差S分别为:
Figure BDA0001703923910000041
Figure BDA0001703923910000042
故二维信号采样点的欧氏距离D1,D2,D3,D4,...,DN的标准差为
Figure BDA0001703923910000043
由高斯分布的3σ原则知,在[--3σ,3σ]区间内包含了99.7%的数据量,最后求得临界半径
Figure BDA0001703923910000044
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类,由于音频信号采样点的概率密度函数呈高斯分布,由高斯分布特性可知,D越小,音频信号采样点的数量越多,以D=R为标准对二维信号点T1,T2,T3,...,TN分类,D≤R的信号点记为{K1,K2,K3,K4,...,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,...,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间,以每个点用L位量化精度为例,最大可用的量化电平数为M≤2L,L为正整数,然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为
Figure BDA0001703923910000045
对圆内的每个信号点{K1,K2,K3,K4,...,KP|D≤R}逐一计算其到
Figure BDA0001703923910000046
的欧氏距离记为d(Ki,Cj)。对于每个信号点
Figure BDA0001703923910000047
得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
其中,n为[1,MK]中任一值且n≠m。该不等式的实际意义就是找出Ki
Figure BDA0001703923910000059
中每个量化电平的欧氏距离中的最小那个,然后把该点归属于该区域;
引入变量θm(Ki):
Figure BDA0001703923910000051
聚合区域V(Cm)内所有点欧氏距离之和记为:
Figure BDA0001703923910000052
更新量化电平位置:
Figure BDA0001703923910000053
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
Figure BDA0001703923910000054
5.2二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,...,UN-P|D>R},将区域Q={-1≤x≤1∩-1≤y≤1},也是将该1x1正方形区域根据大小等分成MU个区域,即有MU个量化电平;然后求得每个区域的中心坐标
Figure BDA0001703923910000055
对D>R的每个信号点{K′1,K′2,K′3,K′4,...,K′p|D>R}逐一计算其到
Figure BDA0001703923910000056
的欧氏距离记为d′(K′i,Bj),j∈[1,MU];对于每个信号点
Figure BDA0001703923910000057
可得其归属的区域S(Bm)表示为:
Figure BDA0001703923910000058
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
Figure BDA0001703923910000061
对应的量化区间记为
Figure BDA0001703923910000062
Figure BDA0001703923910000063
然后对系统音频数据进行量化,即把归属于哪个区域的点都量化成该区域对应的值;
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负;在数据点量化之后,把(12)其中的量化电平按十进制进行排列并标号;然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
本发明的技术构思为:为了保证音频通话质量的同时,兼顾带宽以及算法的实现难易,基于二维的K-means和均匀量化(称之为二维K-u算法)的算法被提出来,与上述传统的压缩算法不同,二维K-u算法将数据采样点由一维提升至二维,同时利用K-means算法和均匀量化算法进行压缩,其所需的传输带宽降低到原来的
Figure BDA0001703923910000064
大大提高了传输效率,实现系统整体带宽消耗最小化;同时俩个算法的结合,大大提升了算法的效率,缩短对于数据点的分类以及获得理想量化电平的处理时间,提升了算法效率同时兼顾了语音质量。因此二维K-u算法很好的满足了IP对讲中需求,很好地契合了高效、低带宽、高质量的对讲系统的最终目标,可以提供简单有效的算法以及有效降低了语音带宽,同时保证语音质量。
首先,在IP对讲系统中,在其语音传输中,采用二维的K-u算法。在二维的K-u算法中,首先获取临界半径,对临界半径内的这部分数据采用二维的K-means;对于剩下的数据,采用二维均匀量化。这样的解决方案,适用于像语音信号这样的高斯分布的信号。俩者的结合能大大提升IP对讲系统中的语音编码效率,传输效率以及大大降低传输带宽,具有较高的工程意义和市场价值。该问题属于一个多类优化问题,通过对音频采样数据的分析,将其分为俩部分,分别进行处理。
本发明的有益效果主要表现在:1、对于整体系统而言,引入二维K-u算法,大大缩短对于数据点的分类以及获得理想量化电平的处理时间。2、将一维的K-means以及均匀分布,扩展到二维的K-means和二维均匀量化结合的算法,其所需的传输带宽降低到原来的
Figure BDA0001703923910000071
大大提高了传输效率,实现系统整体带宽消耗最小化。
附图说明
图1基于IP对讲系统模型示意图
图2基于IP对讲系统中发送端的音频压缩、编码、解码流程图
图3原始数据点、二维K-means算法处理之后恢复的数据以及二维K-u算法处理之后恢复的数据对比图
具体实施方式
下面结合附图对本发明作进一步详细描述。
参照图1~图3,一种基于IP对讲系统中音频压缩的方法,二维K-u算法,即在音频压缩是采用二位K-means与均匀量化的方法,包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,...,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
Figure BDA0001703923910000081
记为S1,S2,S3,S4,...,S2N。在二维量化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),共N个二维信号点;
2)求采样点到远点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点O(0,0)的欧氏距离为:
Figure BDA0001703923910000082
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,...,S2N转换成T1(S1,S2),T2(S3,S4),...,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
Figure BDA0001703923910000083
由于一维信号点S1,S2,S3,S4,...,S2N的概率密度函数呈高斯分布,所以
Figure BDA0001703923910000084
的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,...,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,...,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,...,xn,其平均数为μ;若将每个数据都乘以
Figure BDA0001703923910000085
则有
Figure BDA0001703923910000086
则其平均数为
Figure BDA0001703923910000087
于是原数据标准差σ和新数据标准差S分别为:
Figure BDA0001703923910000091
Figure BDA0001703923910000092
故二维信号采样点的欧氏距离D1,D2,D3,D4,...,DN的标准差为
Figure BDA0001703923910000093
由高斯分布的3σ原则可知,在[-3σ,3σ]区间内包含了99.7%的数据量,最后求得临界半径
Figure BDA0001703923910000094
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类。由于音频信号采样点的概率密度函数呈高斯分布。由高斯分布特性可知,D越小,音频信号采样点的数量越多;以D=R为标准对二维信号点T1,T2,T3,...,TN分类,D≤R的信号点记为{K1,K2,K3,K4,...,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,...,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间。以每个点用L位量化精度为例,最大可用的量化电平数为M≤2L,L为正整数。然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为
Figure BDA0001703923910000095
对圆内的每个信号点{K1,K2,K3,K4,...,KP|D≤R}逐一计算其到
Figure BDA0001703923910000096
的欧氏距离记为d(Ki,Cj)。对于每个信号点
Figure BDA0001703923910000097
可得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
其中,n为[1,MK]中任一值且n≠m。该不等式的实际意义就是找出Ki
Figure BDA0001703923910000101
中每个量化电平的欧氏距离中的最小那个,然后把该点归属于该区域;
引入变量θm(Ki):
Figure BDA0001703923910000102
聚合区域V(Cm)内所有点欧氏距离之和记为:
Figure BDA0001703923910000103
更新量化电平位置:
Figure BDA0001703923910000104
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
Figure BDA0001703923910000105
5.2二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,...,UN-P|D>R}。将区域Q={-1≤x≤1∩-1≤y≤1},也是将该1x1正方形区域根据大小等分成MU个区域,即有MU个量化电平。然后求得每个区域的中心坐标
Figure BDA0001703923910000106
对D>R的每个信号点{K′1,K′2,K′3,K′4,...,K′p|D>R}逐一计算其到
Figure BDA0001703923910000107
的欧氏距离记为d′(K′i,Bj),j∈[1,MU]。对于每个信号点
Figure BDA0001703923910000108
可得其归属的区域S(Bm)表示为:
Figure BDA0001703923910000109
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
Figure BDA0001703923910000111
对应的量化区间记为
Figure BDA0001703923910000112
Figure BDA0001703923910000113
然后对系统音频数据进行量化,即把归属于哪个区域的点都量化成该区域对应的值,比如K1归属于
Figure BDA0001703923910000114
区间,则把K1置为量化电平C1
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负。在数据点量化之后,我们把(12)其中的量化电平按十进制进行排列并标号,比如量化电平C1对应十进制编码为1,Ci对应十进制编码为i。然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,可以确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
在图3中,可以看到二维K-means算法和二维K-u算法的效果。二维K-means算法处理之后恢复的数据以及二维K-u算法处理之后恢复的数据对比原始数据点,三者差异较为接近。但是二维K-u算法相较于二维K-means算法,在临界半径R之后的数据点采用均匀量化,在保证了音质的同时,大大简化了算法,降低编解码难度,有效提升算法运行效率。
本发明中,二维K-means算法是基于距离的聚类算法,它的评价指标是俩个对象的欧式距离,即认为两个对象的距离越近,其相似度就越大。它以欧式距离作为相似度测度,求对应某一初始聚类中心向量最优分类,使得俩个对象的欧式距离最小。均匀量化算法,就是把输入信号的取值域等间隔分割,其最大的优点就是在于编解码容易。在二维的K-u算法中,由语音信号的高斯分布的3σ原则可知,在[-3σ,3σ]区间内包含了99.7%的数据量,对这部分数据采用二维的K-means;对于剩下的小部分数据,采用二维均匀量化。这样的解决方案,适用于像语音信号这样的高斯分布的信号。俩者的结合能大大简化算法,提升基于IP对讲系统中的语音编码效率,传输效率以及大大降低传输带宽,具有较高的工程意义和市场价值。
本实例中,图1是基于IP对讲系统模型示意图。图2是基于IP对讲系统中发送端的音频压缩、编码、解码流程图。在该系统中,主要考虑的技术要点包括以下部分:1)在音频数据的[-3σ,3σ]区间区间采用二维的K-means算法;2)在音频数据的[-3σ,3σ]之外的部分采用二维均匀量化;3)满足降低语音对讲时带宽的需求,并提高传输效率的需求。根据以上技术要点,本发明提出了音频传输过程中压缩的优化问题。为了克服该问题本发明分析了问题特性,对提出的优化问题进行了分析,最重要的是本发明提出了一种高效的算法来进行求解,且有良好的效果。
本实例着眼于在同时满足基IP对讲系统中用户语音对讲数据带宽需求的前提下,最小化系统带宽占用,简化算法,提升传输效率。本发明的工作可以使得基于IP对讲系统中的用户获得较为优质且较为快捷的服务,进一步的能够实现整个系统的占用带宽和传输效率更优化。

Claims (1)

1.一种基于IP对讲系统中音频压缩的方法,其特征在于,所述方法包括以下步骤:
1)音频信号的归一化与二维信号的建立
发送端对音频信号进行采样,A1,A2,A3,A4,…,A2N,共得到2N个采样点,得到其中的最大值Amax和最小值Amin,然后将每个采样点归一化其幅值Si为:
Figure FDA0003470207150000011
记为S1,S2,S3,S4,…,S2N,在二维量化之中,相邻两个采样点组成一个二维的信号点,原奇数采样点为横坐标,偶数采样点为纵坐标,可得T1(S1,S2),T2(S3,S4),…,TN(S2N-1,S2N),共N个二维信号点;
2)求采样点到原点的欧氏距离
进行一维到二维维度的变换后,二维信号点Ti(S2i-1,S2i)距坐标原点O(0,0)的欧氏距离为:
Figure FDA0003470207150000012
3)确定临界半径R
由于一维音频信号采样点的概率密度函数呈高斯分布,在一维转换成二维维度过程中,即S1,S2,S3,S4,…,S2N转换成T1(S1,S2),T2(S3,S4),…,TN(S2N-1,S2N),当采样频率fs足够大时,相邻采样点之间幅值基本相等,由此得
Figure FDA0003470207150000013
由于一维信号点S1,S2,S3,S4,…,S2N的概率密度函数呈高斯分布,所以
Figure FDA0003470207150000014
的概率密度函数也是呈高斯分布,即二维信号采样点至原点O(0,0)的欧式距离D1,D2,D3,D4,…,DN也呈高斯分布;设一维信号采样点S1,S2,S3,S4,…,S2N的标准差为σ;则由线性变换可知,若有一组数据为x1,x2,x3,x4,…,xn,其平均数为μ;若将每个数据都乘以
Figure FDA0003470207150000015
则有
Figure FDA0003470207150000021
则其平均数为
Figure FDA0003470207150000022
于是原数据标准差σ和新数据标准差S分别为:
Figure FDA0003470207150000023
Figure FDA0003470207150000024
故二维信号采样点的欧氏距离D1,D2,D3,D4,…,DN的标准差为
Figure FDA0003470207150000025
由高斯分布的3σ原则知,在[-3σ,3σ]区间内包含了99.7%的数据量,最后求得临界半径
Figure FDA0003470207150000026
4)音频信号的分类
根据以上临界半径R对二维信号采样点进行分类,由于音频信号采样点的概率密度函数呈高斯分布,由高斯分布特性可知,D越小,音频信号采样点的数量越多,以D=R为标准对二维信号点T1,T2,T3,…,TN分类,D≤R的信号点记为{K1,K2,K3,K4,…,KP|D≤R};D>R的信号点记为{U1,U2,U3,U4,…,UN-P|D>R};
5)分类量化
D≤R的音频信号点数据进行二维K-means算法处理,生成量化电平和量化区间;D>R的音频信号点数据则用采用二维均匀量化,再生成相应量化电平和量化区间,每个点用L位量化精度,最大可用的量化电平数为M≤2L,L为正整数,然后将量化电平分为两部分,D≤R的音频信号点数据作二维K-means量化处理,记为MK;D>R的音频信号点数据则作二维均匀量化处理,记为MU=M-MK,其中MU=2n,n为正整数;
5.1)二维K-means聚合:
初始化量化电平,在半径为R的圆内随机生成MK个量化电平,记为
Figure FDA0003470207150000027
对圆内的每个信号点{K1,K2,K3,K4,…,KP|D≤R}逐一计算其到
Figure FDA0003470207150000028
的欧氏距离记为d(Ki,Cj),对于每个信号点,得其归属的聚合区域V(Cm)表示为:
d(Ki,Cm)<d(Ki,Cn) (6)
其中,n为[1,MK]中任一值且n≠m,公式(6)的实际意义就是找出Ki
Figure FDA0003470207150000031
中每个量化电平的欧氏距离中的最小那个,然后把该点归属于该区域;
引入变量θm(Ki):
Figure FDA0003470207150000032
聚合区域V(Cm)内所有点欧氏距离之和记为:
Figure FDA0003470207150000033
更新量化电平位置:
Figure FDA0003470207150000034
经过k次迭代不断更新聚合区域以及量化电平坐标点,并引入变量Δ来评估是否达到聚合要求,并停止迭代,Δ可根据性能要求自行设定;
Figure FDA0003470207150000035
5.2)二维均匀量化:
对于欧式距离D>R的信号点{U1,U2,U3,U4,…,UN-P|D>R},将区域Q={-1≤x≤1∩-1≤y≤1},也是将该正方形区域根据大小等分成MU个区域,即有MU个量化电平;然后求得每个区域的中心坐标
Figure FDA0003470207150000036
对D>R的每个信号点{U1,U2,U3,U4,…,UN-P|D>R}逐一计算其到
Figure FDA0003470207150000037
的欧氏距离记为d′(Ui,Bj),j∈[1,MU];对于每个信号点,可得其归属的区域S(Bm)表示为:
Figure FDA0003470207150000038
即在所有欧式距离中找出最小的,然后把该点归属于该区域;
之后将二维K-means聚合算法与二维均匀量化所得的量化电平以及区间进行整合,获得最终的量化电平记为:
Figure FDA0003470207150000041
对应的量化区间记为
Figure FDA0003470207150000042
Figure FDA0003470207150000043
然后对系统音频数据进行量化,即把归属于哪个区域的点都量化成该区域对应的值;
6)编码、发送
量化后的数据点在[0,R]以及[R,1]取值范围内仅有有限个可取的样值,且其正、负幅度分布的对称性使正、负采样值的个数相等,正、负向的量化级对称分布;将这有限个量化采样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码,在码前以“+”、“-”号为前缀,来区分采样值的正、负;在数据点量化之后,把公式(12)其中的量化电平按十进制进行排列并标号;然后将十进制数字代码变换成相应的二进制编码,根据十进制数字代码的总个数,确定所需二进制编码的位数,即字长,编码完成后,发送二进制码流;
7)解码、播放
设备端对接收到的二进制码流转换为相应的十进制码流,根据十进制码流找到其对应的量化电平,进行反量化,然后将二维信号降维回复为原来的一维信号,最后即可播放。
CN201810648279.2A 2018-06-22 2018-06-22 一种基于ip对讲系统中音频压缩的方法 Active CN108922549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810648279.2A CN108922549B (zh) 2018-06-22 2018-06-22 一种基于ip对讲系统中音频压缩的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810648279.2A CN108922549B (zh) 2018-06-22 2018-06-22 一种基于ip对讲系统中音频压缩的方法

Publications (2)

Publication Number Publication Date
CN108922549A CN108922549A (zh) 2018-11-30
CN108922549B true CN108922549B (zh) 2022-04-08

Family

ID=64421005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810648279.2A Active CN108922549B (zh) 2018-06-22 2018-06-22 一种基于ip对讲系统中音频压缩的方法

Country Status (1)

Country Link
CN (1) CN108922549B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115966206A (zh) * 2022-11-23 2023-04-14 中创科技(广州)有限公司 Ai语音识别的智能图片生成方法、装置、设备及介质
CN117153191B (zh) * 2023-11-01 2023-12-29 中瑞科技术有限公司 一种基于远程通信的对讲机音频采集控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650946A (zh) * 2009-09-07 2010-02-17 哈尔滨工程大学科技园发展有限公司 应用于航行数据记录仪的音频采集卡的音频压缩方法
CN101908341A (zh) * 2010-08-05 2010-12-08 浙江工业大学 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法
CN103428175A (zh) * 2012-05-18 2013-12-04 江苏真云计算科技有限公司 基于异构移动ip网络的实时语音对讲系统
US9135923B1 (en) * 2014-03-17 2015-09-15 Chengjun Julian Chen Pitch synchronous speech coding based on timbre vectors

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0907258B1 (en) * 1997-10-03 2007-01-03 Matsushita Electric Industrial Co., Ltd. Audio signal compression, speech signal compression and speech recognition
US20080221876A1 (en) * 2007-03-08 2008-09-11 Universitat Fur Musik Und Darstellende Kunst Method for processing audio data into a condensed version

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650946A (zh) * 2009-09-07 2010-02-17 哈尔滨工程大学科技园发展有限公司 应用于航行数据记录仪的音频采集卡的音频压缩方法
CN101908341A (zh) * 2010-08-05 2010-12-08 浙江工业大学 一种适用于嵌入式系统实现的基于g.729算法的语音编码优化方法
CN103428175A (zh) * 2012-05-18 2013-12-04 江苏真云计算科技有限公司 基于异构移动ip网络的实时语音对讲系统
US9135923B1 (en) * 2014-03-17 2015-09-15 Chengjun Julian Chen Pitch synchronous speech coding based on timbre vectors

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Android的语音编码算法研究与应用;魏枫等;《电声技术》;20160517(第05期);全文 *
基于Speex的音频压缩算法分析与优化;孙王等;《中国科技信息》;20150515(第10期);全文 *

Also Published As

Publication number Publication date
CN108922549A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN1121681C (zh) 语言处理
Cuperman et al. Vector predictive coding of speech at 16 kbits/s
Li et al. Steganalysis of QIM steganography in low-bit-rate speech signals
US20100174539A1 (en) Method and apparatus for vector quantization codebook search
US8909521B2 (en) Coding method, coding apparatus, coding program, and recording medium therefor
CN101421780B (zh) 用于编码和解码时变信号的方法和设备
CN101796579B (zh) 数字音频信号的分级编码
CN1377499A (zh) 采用可变时间/频率分辨率和时间/频率转换的有效频谱包络编码方法
CN108922549B (zh) 一种基于ip对讲系统中音频压缩的方法
CN1441947A (zh) 用于与说话者无关的话音识别系统的构造话音模板的方法和设备
CN101406064B (zh) 量化和反量化输入信号的方法和设备以及对输入信号编码和解码的方法和设备
Yang et al. Hierarchical representation network for steganalysis of qim steganography in low-bit-rate speech signals
CN100585700C (zh) 语音编码装置及其方法
CN1112674C (zh) 用于语音有效编码的谱参数预测分解矩阵量化
CN1240050C (zh) 一种用于语音编码的固定码本快速搜索方法
CN115295018A (zh) 基于贝叶斯网络的基音周期调制信息隐藏检测方法
Ren et al. Silk steganography scheme based on the distribution of lsf parameter
CN1139057C (zh) 用于传送低比特率语音的语音通信处理器及相关通信设备
CN1815894A (zh) 一种音频信号编码的方法和设备
CN109785848B (zh) 基于比例因子系数差值的aac双压缩音频检测方法
CN101377926B (zh) 加速量化循环程序功能的音频编码方法
CN1244903C (zh) 用于语音编码的线谱对加权量化矢量快速搜索方法
Li et al. SANet: A Compressed Speech Encoder and Steganography Algorithm Independent Steganalysis Deep Neural Network
CN100583240C (zh) Esm语音编码解码装置及其编码解码方法
Kamamoto et al. Low-complexity PARCOR coefficient quantizer and prediction order estimator for lossless speech coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant