CN113990335A - 一种基于压缩感知的音频编解码方法 - Google Patents
一种基于压缩感知的音频编解码方法 Download PDFInfo
- Publication number
- CN113990335A CN113990335A CN202111260920.3A CN202111260920A CN113990335A CN 113990335 A CN113990335 A CN 113990335A CN 202111260920 A CN202111260920 A CN 202111260920A CN 113990335 A CN113990335 A CN 113990335A
- Authority
- CN
- China
- Prior art keywords
- compressed sensing
- coding
- audio
- sparse
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims abstract description 70
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 22
- 230000009466 transformation Effects 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000013139 quantization Methods 0.000 claims description 21
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000005311 autocorrelation function Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012856 packing Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 description 11
- 238000011160 research Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000007906 compression Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013144 data compression Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于压缩感知的音频编解码方法,本发明音频编码中的待量化信号类型是压缩感知的稀疏分解后的降维信号,解码输出端需要进行稀疏分解的音频信号重构操作,编解码过程中采用区间能量方式进行自适应压缩感知编码。基于子带能量的自适应压缩感知能量加权,采用子带能量统计的方式对音频信号进行自适应压缩感知能量加权;自适应压缩感知稀疏分解,采用基于音频信号特征的稀疏变换矩阵和观测矩阵,本发明解决了实际音频通信系统中的低复杂度、低存储量的音频编码问题。
Description
技术领域
本发明涉及一种基于压缩感知的音频编解码方法,属于声音处理技术领域。
背景技术
数据压缩是信息论研究中的一个重要课题,在信息论中被称为信源编码。近年来,数据压缩已不仅限于编码方法的研究与探讨,已逐步形成较为独特的体系。它主要研究数据的表示、传输和转换方法,目的是减少数据所占据的存储空间和传输时所需用的时间。
近年研究表明,音频信号在一定的变换域上同样具有一定的稀疏性,所以可以将压缩传感与音频信号相结合来探求音频信号处理领域的各种新方法。传统的音频信号处理都基于奈奎斯特采样定理,采样频率至少8kHz,甚至更多。而在具体的音频信号处理过程还需进一步压缩,例如:进行音频识别首先进行高速采样然后再提取少量的特征参数,最后进行识别,浪费了很多采样和存储资源。如何对音频信号重新建模以获得更少的采样但又不影响音频的质量,是当前音频信号处理领域中的研究热点。目前国内外将压缩感知用于音频信号处理领域的研究还比较少,处于起步阶段,主要涉及近似稀疏的声音信号在不同的基下的重构性能研究、基于正弦编码框架的压缩感知应用、压缩感知在噪声环境下的语音识别性能改进和信息隐藏等理论研究,他们将感知压缩应用到不同的音频应用领域,很少针对音频信号的特殊性综合分析音频信号在不同正交变换域或原子字典中的稀疏特性及其压缩重构特性的性能影响。同时,这些前期的研究表明,音频信号(包括语音信号)在频域、KLT、小波和DCT等很多变换域中是具有稀疏特性的,这一点已经应用于各种音频编码或语音识别等相关音频信号处理算法中。本发明将压缩传感与音频信号相结合,发挥压缩传感测量采样值少,节约采样、存储和传输资源的特性,研究音频信号处理中音频压缩领域的新的研究方法以及新的应用领域。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于压缩感知的音频编解码方法,解决了实际音频通信系统中的低复杂度、低存储量的音频编码问题。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于压缩感知的音频编解码方法,编码方法包括以下步骤:
步骤1,获取输入音频信号。
步骤2,基于子带能量的自适应压缩感知能量加权,采用子带能量统计的方式对音频信号进行自适应压缩感知能量加权。
步骤3,自适应压缩感知稀疏分解,根据能量将音频信号划分到不同的能量区间,各区间按区间能量分配相应的观测数,根据所属能量区间观测数和能量自适应分配观测个数。然后当观测个数确定后,按非自适应压缩感知理论构造随机的完全观测,根据完全观测各分量能量自适应选取相应个数的观测及对应的观测矩阵来重构原信号。
步骤4,采用基于音频信号特征的稀疏变换矩阵和观测矩阵,采用数据分类统计训练的方式得到适用于音频信号特征的稀疏描述和观测矩阵,并采用两种方式进行音频信号的稀疏描述分解。首先根据不同的信号类别,获得MDCT变换的低频系数和高频系数对不同音频信号的稀疏描述程度,建立局部的音频信号稀疏描述模型。然后采用数据训练方式构造过完备的稀疏分解冗余字典,引入K奇异分解学习算法构造过完备冗余字典,从音频信号的MDCT变换展开出发,通过求解指数衰减型自相关函数的积分方程,构建音频信号的自适应冗余字典,并由字典的代数结构设计了基于非线性逼近的信号稀疏表示算法,建立音频信号的压缩感知的稀疏分解模型,进而得到编码量化参数。
步骤5,将音频信号输入自适应压缩感知心理声学模型得到心理声学参数。
步骤6,将心理声学参数和编码量化参数进行系数量化。
步骤7,将系数量化后的心理声学参数和编码量化参数进行熵编码。
步骤8,将熵编码后的心理声学参数和编码量化参数进行码流打包,形成编码数据流。
优选的:解码方法包括为编码方法的逆过程,首先获取编码数据流,进行数据反量化,多帧信号组合还原形成解码音频数据流。
优选的:对于解码端的音频信号重构,结合音频信号特点,仅仅采用l1重构、码本预测重构和l1联合码本重构方法进行音频信号的压缩感知重构特性,并在无编码量化误差情况下考察信号重构信噪比。
优选的:离散信号x0∈Rn在正交基Ψ={ψi|ψi∈Rn,i=1,2,...,n}上是k稀疏的,即:
x0=Ψ-1θ (1)
其中稀疏系数向量θ=Ψx0=(θ1,θ2,...,θn)T只有k个非零系数,即||θ||0=k。
将k稀疏信号x0通过投影产生m个观测值y=(y1,y2,...,ym)T即:
y=Φx0=ΦΨ-1θ=Tθ (2)
此时通过求解l1最优化问题由y重构x0或θ的解:
其中,m<n,Φ为观测矩阵,T为恢复矩阵。
优选的:公式(3)的求解采用正交匹配方法或匹配跟踪方法获取。
本发明相比现有技术,具有以下有益效果:
1、通过对音频信号稀疏性冗余字典描述,获得自适应字典训练算法并与压缩感知重建算法结合,提出压缩率较高的基于压缩感知的音频编解码技术框架。
2、自适应压缩感知方法在音频编解码器中的应用研究,并结合心理声学模型提升音频编解码器压缩率和音质。
附图说明
图1为本发明的结构示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于压缩感知的音频编解码方法,如图1所示,编码方法包括以下步骤:
获取输入音频信号。
本发明的压缩感知系统结构和传统的音频编解码框架类似,主要的区别在于音频编码中的待量化信号类型是压缩感知的稀疏分解后的降维信号,解码输出端需要进行稀疏分解的音频信号重构操作,编解码过程中采用区间能量方式进行自适应压缩感知编码,自适应压缩感知音频编解码分成两个部分:
基于子带能量的自适应压缩感知能量加权,由于人耳对于音频信号不同的频率成分有不同的敏感度,同时不同频带成分之间又存在相互掩蔽过程,根据人耳感知特性优化压缩感知采样过程,对于提高压缩感知采样效率具有重要意义。基于人耳听觉特性的压缩感知采样,要求根据心理声学模型在Bark域对不同频带信号进行加权采样,从而使得压缩感知采样过程更好的符合心理声学模型掩蔽特性。本发明采用子带能量统计的方式进行自适应压缩感知能量加权。
自适应压缩感知稀疏分解,根据能量将音频信号划分到不同的能量区间,各区间按区间能量分配相应的观测数,根据所属能量区间观测数和能量自适应分配观测个数。然后当观测个数确定后,按非自适应压缩感知理论构造随机的完全观测,根据完全观测各分量能量自适应选取相应个数的观测及对应的观测矩阵来重构原信号。
音频信号的压缩感知模型
压缩感知假设离散信号x0∈Rn在正交基Ψ={ψi|ψi∈Rn,i=1,2,...,n}上是k稀疏的,即:
x0=Ψ-1θ (1)
其中稀疏系数向量θ=Ψx0=(θ1,θ2,...,θn)T只有k个非零系数,即||θ0=k。压缩感知理论将k稀疏信号x0通过投影产生m(m<n)个观测值y=(y1,y2,...,ym)T即:
y=Φx0=ΦΨ-1θ=Tθ (2)
其中Φ为观测矩阵,T为恢复矩阵,此时可以通过求解l1最优化问题由y重构x0或θ的解:
而公式(3)的求解可以采用正交匹配和匹配跟踪等获取。
由上根据压缩感知理论,信号能够采用压缩感知理论的前提是信号在某种变换下可以稀疏表示,即将信号投影到变换基时,绝大部分变换系数的绝对值很小,因而得到的变换向量是稀疏或者近似稀疏的,可以将其看作原始信号的一种简洁表达,通常变换基可以根据信号本身的特点灵活选取,常用的有DCT变换基、FFT变换基、离散小波变换基、Curvelets基和Gabor基以及冗余字典,然而对于音频信号来说,上述变换基并不能作为不同音频类别的稀疏分解变换基,例如对于强周期性的音频信号,其DCT的变换基是近似系数的,而对于噪声类型的音频信号来说,DCT变换基并不能描述其系数特性,单一的正交变换基并不能很好的描述音频信号的稀疏特性,本发明采用基于音频信号特征的稀疏变换矩阵和观测矩阵,采用数据分类统计训练的方式得到适用于音频信号特征的稀疏描述和观测矩阵,并采用两种方式进行音频信号的稀疏描述分解。
首先采用局部音频信号稀疏描述方法进行音频信号的稀疏描述分解,在音频编码中,MDCT(修正MDCT变换)应用非常广泛,是一种近似DCT和K-L变换的正交变换基,且不存在类似于FFT变换的频谱泄露和块效应,而音频信号的DCT变换和K-L变换也是近似稀疏变换,已有研究表明,MDCT变换对于周期性的音频信号也存在稀疏变换特性,其重构信噪比的主观测试结果明显好于DCT变换,然而,MDCT变换对于噪声类信号稀疏特性不强,本发明根据不同的信号类别,获得MDCT变换的低频系数和高频系数对不同音频信号的稀疏描述程度,建立局部的音频信号稀疏描述模型。
其次,采用数据训练方式构造过完备的稀疏分解冗余字典,引入K奇异分解学习算法构造过完备冗余字典,从音频信号的MDCT变换展开出发,通过求解指数衰减型自相关函数的积分方程,构建音频信号的自适应冗余字典,并由字典的代数结构设计了基于非线性逼近的信号稀疏表示算法,建立音频信号的压缩感知的稀疏分解模型。
对于解码端的音频信号重构,结合音频信号特点,仅仅采用l1重构、码本预测重构和l1联合码本重构方法进行音频信号的压缩感知重构特性,并在无编码量化误差情况下考察信号重构信噪比。
将音频信号输入自适应压缩感知心理声学模型得到心理声学参数。将心理声学参数和编码量化参数进行系数量化。将系数量化后的心理声学参数和编码量化参数进行熵编码。将熵编码后的心理声学参数和编码量化参数进行码流打包,形成编码数据流。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (5)
1.一种基于压缩感知的音频编解码方法,其特征在于,编码方法包括以下步骤:
步骤1,获取输入音频信号;
步骤2,基于子带能量的自适应压缩感知能量加权,采用子带能量统计的方式对音频信号进行自适应压缩感知能量加权;
步骤3,自适应压缩感知稀疏分解,根据能量将音频信号划分到不同的能量区间,各区间按区间能量分配相应的观测数,根据所属能量区间观测数和能量自适应分配观测个数;然后当观测个数确定后,按非自适应压缩感知理论构造随机的完全观测,根据完全观测各分量能量自适应选取相应个数的观测及对应的观测矩阵来重构原信号;
步骤4,采用基于音频信号特征的稀疏变换矩阵和观测矩阵,采用数据分类统计训练的方式得到适用于音频信号特征的稀疏描述和观测矩阵,并采用两种方式进行音频信号的稀疏描述分解;首先根据不同的信号类别,获得MDCT变换的低频系数和高频系数对不同音频信号的稀疏描述程度,建立局部的音频信号稀疏描述模型;然后采用数据训练方式构造过完备的稀疏分解冗余字典,引入K奇异分解学习算法构造过完备冗余字典,从音频信号的MDCT变换展开出发,通过求解指数衰减型自相关函数的积分方程,构建音频信号的自适应冗余字典,并由字典的代数结构设计了基于非线性逼近的信号稀疏表示算法,建立音频信号的压缩感知的稀疏分解模型,进而得到编码量化参数;
步骤5,将音频信号输入自适应压缩感知心理声学模型得到心理声学参数;
步骤6,将心理声学参数和编码量化参数进行系数量化;
步骤7,将系数量化后的心理声学参数和编码量化参数进行熵编码;
步骤8,将熵编码后的心理声学参数和编码量化参数进行码流打包,形成编码数据流。
2.根据权利要求1所述基于压缩感知的音频编解码方法,其特征在于:解码方法包括为编码方法的逆过程,首先获取编码数据流,进行数据反量化,多帧信号组合还原形成解码音频数据流。
3.根据权利要求2所述基于压缩感知的音频编解码方法,其特征在于:对于解码端的音频信号重构,结合音频信号特点,仅仅采用l1重构、码本预测重构和l1联合码本重构方法进行音频信号的压缩感知重构特性,并在无编码量化误差情况下考察信号重构信噪比。
5.根据权利要求4所述基于压缩感知的音频编解码方法,其特征在于:公式(3)的求解采用正交匹配方法或匹配跟踪方法获取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111260920.3A CN113990335A (zh) | 2021-10-28 | 2021-10-28 | 一种基于压缩感知的音频编解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111260920.3A CN113990335A (zh) | 2021-10-28 | 2021-10-28 | 一种基于压缩感知的音频编解码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113990335A true CN113990335A (zh) | 2022-01-28 |
Family
ID=79743150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111260920.3A Pending CN113990335A (zh) | 2021-10-28 | 2021-10-28 | 一种基于压缩感知的音频编解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113990335A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351988A (zh) * | 2023-12-06 | 2024-01-05 | 方图智能(深圳)科技集团股份有限公司 | 一种基于数据分析的远程音频信息处理方法及系统 |
-
2021
- 2021-10-28 CN CN202111260920.3A patent/CN113990335A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351988A (zh) * | 2023-12-06 | 2024-01-05 | 方图智能(深圳)科技集团股份有限公司 | 一种基于数据分析的远程音频信息处理方法及系统 |
CN117351988B (zh) * | 2023-12-06 | 2024-02-13 | 方图智能(深圳)科技集团股份有限公司 | 一种基于数据分析的远程音频信息处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN100395817C (zh) | 编码设备、解码设备和解码方法 | |
CN109785847B (zh) | 基于动态残差网络的音频压缩算法 | |
CN102982805A (zh) | 一种基于张量分解的多声道音频信号压缩方法 | |
Haneche et al. | Compressed sensing-speech coding scheme for mobile communications | |
CN113990335A (zh) | 一种基于压缩感知的音频编解码方法 | |
Kumar et al. | The optimized wavelet filters for speech compression | |
CN110120228A (zh) | 基于声谱图及深度残差网络的音频通用隐写分析方法及系统 | |
CN102332268A (zh) | 基于自适应冗余字典的语音信号稀疏表示方法 | |
Joseph | Spoken digit compression using wavelet packet | |
CN102055974B (zh) | 数据压缩、解压缩方法、装置及系统 | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
WO2023241205A1 (zh) | 音频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
Zhao et al. | Speech Compression with Best Wavelet Packet Transform and SPIHT Algorithm | |
EP2309493A1 (en) | Coding and decoding of source signals using constrained relative entropy quantization | |
Xu et al. | Novel speech secure communication system based on information hiding and compressed sensing | |
CN115361556A (zh) | 一种基于自适应的高效视频压缩算法及其系统 | |
Muhsen et al. | Wavelet and optimal requantization methodology for lossy fingerprint compression. | |
Manohar et al. | Audio compression using daubechie wavelet | |
Souha et al. | Adaptive speech compression based on discrete wave atoms transform | |
James et al. | A comparative study of speech compression using different transform techniques | |
Mohammad et al. | Audio compression using multiple transformation techniques | |
Joseph et al. | Speech compression using wavelet transform | |
Aloui et al. | Optimized speech compression algorithm based on wavelets techniques and its real time implementation on DSP | |
Oo | Study on Speech Compression and Decompression by using Discrete Wavelet Transform [J] |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |