CN107705795A - 基于ksvd算法的多声道音频处理方法 - Google Patents
基于ksvd算法的多声道音频处理方法 Download PDFInfo
- Publication number
- CN107705795A CN107705795A CN201710889728.8A CN201710889728A CN107705795A CN 107705795 A CN107705795 A CN 107705795A CN 201710889728 A CN201710889728 A CN 201710889728A CN 107705795 A CN107705795 A CN 107705795A
- Authority
- CN
- China
- Prior art keywords
- dictionary
- signal
- row
- audio signal
- multichannel audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 7
- 230000005236 sound signal Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000011084 recovery Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 13
- 239000013604 expression vector Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于KSVD算法的多声道音频处理方法,步骤(101),组成样本数据集;步骤(102),设定初始字典D0∈Rn×K;步骤(103),对样本数据集进行稀疏编码;步骤(104),更新字典原子,每次更新一列dk;步骤(105),更新该列相应的表达系数,直到满足收敛条件,停止更新,得到训练好的K‑SVD字典;步骤(106),判断是否满足收敛条件?步骤(107),利用上述字典对需要处理的多音频信号进行降采样处理;步骤(108),将采样后的数据通过CoSaMP算法进行恢复重构;步骤(109),获得重构信号。本发明明在保证准确率的基础上一定程度上提高了重构的速度,实现了多声道音频信号的降采样处理以及高概率重构;实现了降低多声道音频存储空间的功能,具有简单、高效的特点。
Description
技术领域
本发明涉及压缩感知技术、多声道音频处理技术等多种领域,特别是涉及一种基于KSVD算法的多声道音频处理方法。
背景技术
随着信息时代进程的不断推进,压缩感知(Compressive Sensing,CS)理论于2006年正式被提出,为人们提供了一种处理信号的新思路。压缩感知作为一个新的采样理论,通过对信号稀疏特性的开发,使得能够在远小于Nyquist采样率的情况下进行离散采样,最终通过一系列非线性重建算法实现信号的完美重建。一经提出,引起了学术界和工业界的广泛关注,在图像处理、地球科学、微波成像、无线通信等多个领域中实现了广泛的应用。
寻求信号的稀疏表示是压缩感知原理的一个重要部分,也就是说,需要选取合适的稀疏基对原始信号进行降采样处理。因此,近年来,如何找到最适合各类信号稀疏表示的方法引起了学术界广泛的兴趣。一系列常见的稀疏基如正弦基、小波基、Curvelet基、DCT基被先后提出。然而,由于常见稀疏基具有不能够很好地适应各类信号的缺点,K-SVD字典算法应运而生。
在日常生活中,音频信号作为一种常见的重要信号,引起了人们的广泛关注。包含语音信号、音乐信号的诸多音频信号,因其由多个谐音(例如正弦波)组成,具有良好的稀疏性(或者在频域中具有可稀疏性),因此是一种非常适用于用压缩感知技术处理的信号。基于此,本发明提出了一种基于K-SVD算法的多声道音频处理方法。
发明内容
为了克服现有技术的不足,本发明提出了一种基于K-SVD算法的多声道音频处理方法,通过大量样本进行字典训练,得出性能较佳、更符合样本特点的K-SVD字典,利用该字典对待检测的信号进行降采样处理,通过重构算法进行恢复后得出音频信号处理结果。
本发明的一种基于压缩感知的语音信号重构方法,该方法通过以下步骤实现:
步骤101,收集杜比数字5.1环绕声音测试音频,组成样本数据集;对样本数据集中的音频信号进行筛选,将筛选得到的音频信号截取成长度相同的音频信号文件;
步骤102,设定初始字典D0∈Rn×K,设字典为Dj,其中j表示字典的更新次数;Rn×K表示字典属于一个n×K的向量空间,n和K分别表示字典的行数和列数;
步骤103,对样本数据集中各样本i进行稀疏编码:即利用匹配算法计算每个音频样本yi的表示向量xi,求解方程为i=1,2,…,n,||xi||0≤T0,该方程旨在找到一个最多有T0个非零项的信号,并且使得限制条件T0最小;其中T0是一个固定的预设数量的非零项;
步骤104,更新字典原子,每次更新一列dk;
步骤105,更新该列的表达系数,每一个表达系数分别与字典中的一列相对应,随着字典中的一列发生了改变,其对应的表达系数也会发生相应的变化,使其最大限度的减少均方误差,均方误差即为步骤103中)的值),直到满足收敛条件,收敛条件即为均方误差最小,停止更新,得到训练好的K-SVD字典;
步骤106,判断是否满足收敛条件?
步骤107,利用上述字典对需要处理的多音频信号进行降采样处理;
步骤108,将采样后的数据通过CoSaMP算法进行恢复重构;
步骤109,获得重构信号,即在已知y、Φ、D的情况下,通过CoSaMP算法求解公式y=ΦDa中α的值,再通过计算D、α的值得到重构信号
与现有技术相比,本发明在保证准确率的基础上一定程度上提高了重构的速度,实现了多声道音频信号的降采样处理以及高概率重构;实现了降低多声道音频存储空间的功能;具有简单、高效的特点。
附图说明
图1为本发明的一种基于K-SVD算法多声道音频处理方法的整体流程示意图。
具体实施方式
下面将结合附图对本发明的实施方式作进一步的详细描述。
本发明的整体思路是采用基于K-SVD字典算法的方法,。
如图1所示,本发明基于KSVD算法的多声道音频处理方法的整体流程包括以下步骤:
步骤101,收集具有代表性的杜比数字5.1环绕声音测试音频,组成本发明的样本数据集;对样本数据集中的音频信号进行筛选,利用专业软件进行截取,使其变成长度相同的音频信号文件,便于后期处理;
步骤102,设定初始字典D0∈Rn×K,以便后续对于X的求解和字典的不断更新,设字典为Dj,其中j表示字典的更新次数;Rn×K表示字典属于一个n×K的向量空间,n和K分别表示字典的行数和列数;
步骤103,对样本数据集中各样本i进行稀疏编码:即利用匹配算法计算每个音频样本yi的表示向量xi,求解方程为i=1,2,…,n,||xi||0≤T0,该方程旨在找到一个最多有T0个非零项的信号,并且使得限制条件T0最小);其中T0是一个固定的预设数量的非零项;
步骤104,更新字典原子,每次更新一列dk,目的是为了寻找一个更优化的字典;
步骤105,更新与该列相对应的表达系数,由于压缩感知的基本原理可以用公式y=ΦDa表示,其中y为经过压缩感知处理的信号,Φ为测量矩阵,D为字典,α为在该稀疏字典映射下的n×1维的稀疏信号,其中每一行的元素即为表达系数,每一个表达系数分别与字典中的一列相对应,随着字典中的一列发生了改变,其对应的表达系数也会发生相应的变化,使其最大限度的减少均方误差,均方误差即为步骤103中)的值),直到满足收敛条件,收敛条件即为均方误差最小,停止更新,得到训练好的K-SVD字典;
步骤106,判断是否满足收敛条件?
步骤107,利用上述字典对需要处理的多音频信号进行降采样处理;
步骤108,将采样后的数据通过CoSaMP算法进行恢复重构,压缩采样匹配追踪(CompressiveSampling MP)为压缩感知重构技术MP算法的改进算法,其每次迭代选择多个原子,并且每次迭代已经选择的原子会一直保留,是一种具有较高恢复质量且速度较快的恢复算法),CS理论的研究内容大致可分为三个方面:信号的稀疏表示、测量值获取和对原始信号重构。重构算法是CS理论的关键技术之一,直接决定了此理论能否在实际系统中得以应用。
国内外研究学者们提出了一系列求解次优解的算法,主要包括匹配追踪系列算法、最小l1范数法等。其中,正交匹配追踪算法OMP(Orthogonal Matching Pursuit)是应用最为广泛的算法之一。本发明中采用的CoSaMP算法建立在OMP算法的基础上,在重构精度上有了很大程度的提高,同时又具有匹配追踪类算法运算复杂度低的优点,是一种较为理想的重构算法。
步骤109,获得重构信号,即在已知y、Φ、D的情况下,通过CoSaMP算法求解公式y=ΦDa中α的值,再通过计算D、α的值得到重构信号
将重构信号与原始信号进行对比,分析实验结果。
Claims (1)
1.一种基于压缩感知的语音信号重构方法,其特征在于,该方法通过以下步骤实现:
步骤(101),收集杜比数字5.1环绕声音测试音频,组成样本数据集;对样本数据集中的音频信号进行筛选,将筛选得到的音频信号截取成长度相同的音频信号文件;
步骤(102),设定初始字典D0∈Rn×K,设字典为Dj,其中j表示字典的更新次数;Rn×K表示字典属于一个n×K的向量空间,n和K分别表示字典的行数和列数;
步骤(103),对样本数据集中各样本i进行稀疏编码:即利用匹配算法计算每个音频样本yi的表示向量xi,求解方程为该方程旨在找到一个最多有T0个非零项的信号,并且使得限制条件T0最小;其中T0是一个固定的预设数量的非零项;
步骤(104),更新字典原子,每次更新一列dk;
步骤(105),更新该列的表达系数,每一个表达系数分别与字典中的一列相对应,随着字典中的一列发生了改变,其对应的表达系数也会发生相应的变化,使其最大限度的减少均方误差,均方误差即为步骤(103)中的值,直到满足收敛条件,收敛条件即为均方误差最小,停止更新,得到训练好的K-SVD字典;
步骤(106),判断是否满足收敛条件?
步骤(107),利用上述字典对需要处理的多音频信号进行降采样处理;
步骤(108),将采样后的数据通过CoSaMP算法进行恢复重构;
步骤(109),获得重构信号,即在已知y、Φ、D的情况下,通过CoSaMP算法求解公式y=ΦDa中α的值,其中y为经过压缩感知处理的信号,Φ为测量矩阵,D为字典,再通过计算D、α的值得到重构信号
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710889728.8A CN107705795A (zh) | 2017-09-27 | 2017-09-27 | 基于ksvd算法的多声道音频处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710889728.8A CN107705795A (zh) | 2017-09-27 | 2017-09-27 | 基于ksvd算法的多声道音频处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107705795A true CN107705795A (zh) | 2018-02-16 |
Family
ID=61175032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710889728.8A Pending CN107705795A (zh) | 2017-09-27 | 2017-09-27 | 基于ksvd算法的多声道音频处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107705795A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600936A (zh) * | 2018-04-19 | 2018-09-28 | 北京微播视界科技有限公司 | 多声道音频处理方法、装置、计算机可读存储介质和终端 |
CN113239573A (zh) * | 2021-06-05 | 2021-08-10 | 西北工业大学 | 基于无网格波动建模的封闭空间声场重构方法 |
CN118398025A (zh) * | 2024-06-27 | 2024-07-26 | 浙江芯劢微电子股份有限公司 | 一种回声消除中的延迟估计方法、设备、存储介质及计算机程序产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081928A (zh) * | 2010-11-24 | 2011-06-01 | 南京邮电大学 | 基于压缩感知和k-svd的单通道混合语音分离方法 |
CN103345923A (zh) * | 2013-07-26 | 2013-10-09 | 电子科技大学 | 一种基于稀疏表示的短语音说话人识别方法 |
CN103778919A (zh) * | 2014-01-21 | 2014-05-07 | 南京邮电大学 | 基于压缩感知和稀疏表示的语音编码方法 |
WO2015195827A1 (en) * | 2014-06-17 | 2015-12-23 | Carnegie Mellon University | Methods and software for hallucinating facial features by prioritizing reconstruction errors |
-
2017
- 2017-09-27 CN CN201710889728.8A patent/CN107705795A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081928A (zh) * | 2010-11-24 | 2011-06-01 | 南京邮电大学 | 基于压缩感知和k-svd的单通道混合语音分离方法 |
CN103345923A (zh) * | 2013-07-26 | 2013-10-09 | 电子科技大学 | 一种基于稀疏表示的短语音说话人识别方法 |
CN103778919A (zh) * | 2014-01-21 | 2014-05-07 | 南京邮电大学 | 基于压缩感知和稀疏表示的语音编码方法 |
WO2015195827A1 (en) * | 2014-06-17 | 2015-12-23 | Carnegie Mellon University | Methods and software for hallucinating facial features by prioritizing reconstruction errors |
Non-Patent Citations (1)
Title |
---|
孙林慧: "《硕士学位论文》", 30 July 2014, 西安电子科技大学 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600936A (zh) * | 2018-04-19 | 2018-09-28 | 北京微播视界科技有限公司 | 多声道音频处理方法、装置、计算机可读存储介质和终端 |
CN108600936B (zh) * | 2018-04-19 | 2020-01-03 | 北京微播视界科技有限公司 | 多声道音频处理方法、装置、计算机可读存储介质和终端 |
CN113239573A (zh) * | 2021-06-05 | 2021-08-10 | 西北工业大学 | 基于无网格波动建模的封闭空间声场重构方法 |
CN113239573B (zh) * | 2021-06-05 | 2024-05-07 | 西北工业大学 | 基于无网格波动建模的封闭空间声场重构方法 |
CN118398025A (zh) * | 2024-06-27 | 2024-07-26 | 浙江芯劢微电子股份有限公司 | 一种回声消除中的延迟估计方法、设备、存储介质及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711383B (zh) | 基于时频域的卷积神经网络运动想象脑电信号识别方法 | |
CN103595414B (zh) | 一种稀疏采样与信号压缩感知重构方法 | |
Bonnefoy et al. | A dynamic screening principle for the lasso | |
CN107705795A (zh) | 基于ksvd算法的多声道音频处理方法 | |
CN101826161B (zh) | 一种基于局部近邻稀疏表示的目标识别方法 | |
CN107666322A (zh) | 一种基于字典学习的自适应微震数据压缩感知方法 | |
CN109490957A (zh) | 一种基于空间约束压缩感知的地震数据重建方法 | |
CN104538035A (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
Nashed et al. | Convolution sampling and reconstruction of signals in a reproducing kernel subspace | |
CN109586688A (zh) | 基于迭代计算的时变可分非下采样图滤波器组的设计方法 | |
CN105869126A (zh) | 高光谱图像的压缩感知去噪方法 | |
CN104485966A (zh) | 一种基于信号分解的压缩感知处理和信号重构方法 | |
CN104036519B (zh) | 基于图像块聚类和稀疏字典学习的分块压缩感知重构方法 | |
CN106295690A (zh) | 基于非负矩阵分解的时间序列数据聚类方法及系统 | |
CN106599903A (zh) | 基于相关性的加权最小二乘字典学习的信号重构方法 | |
CN114492500A (zh) | 基于一维卷积核的运动想象脑电信号分类方法 | |
CN109101462A (zh) | 可降低时间损耗的傅里叶变换算法 | |
CN103036576A (zh) | 基于压缩传感理论的一种二值稀疏信号重构算法 | |
CN105184833A (zh) | 一种带噪cs-mri图像重建方法 | |
CN113223032A (zh) | 基于双稀疏分解的复杂图像Canny边缘检测方法 | |
CN105551503B (zh) | 基于原子预选择的音频匹配追踪方法与系统 | |
Tong et al. | A robust time-frequency decomposition model for suppression of mixed Gaussian-impulse noise in audio signals | |
CN113420668A (zh) | 一种基于二维多尺度排列熵的水下目标识别方法 | |
Zhou et al. | Face Recognition Based on Multi-Wavelet and Sparse Representation. | |
CN107169410A (zh) | 用于人脸识别的基于lbp特征的结构型稀疏表示分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180216 |
|
WD01 | Invention patent application deemed withdrawn after publication |