CN107705795A - 基于ksvd算法的多声道音频处理方法 - Google Patents

基于ksvd算法的多声道音频处理方法 Download PDF

Info

Publication number
CN107705795A
CN107705795A CN201710889728.8A CN201710889728A CN107705795A CN 107705795 A CN107705795 A CN 107705795A CN 201710889728 A CN201710889728 A CN 201710889728A CN 107705795 A CN107705795 A CN 107705795A
Authority
CN
China
Prior art keywords
dictionary
signal
row
audio signal
multichannel audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710889728.8A
Other languages
English (en)
Inventor
刘昱
翟丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710889728.8A priority Critical patent/CN107705795A/zh
Publication of CN107705795A publication Critical patent/CN107705795A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于KSVD算法的多声道音频处理方法,步骤(101),组成样本数据集;步骤(102),设定初始字典D0∈Rn×K;步骤(103),对样本数据集进行稀疏编码;步骤(104),更新字典原子,每次更新一列dk;步骤(105),更新该列相应的表达系数,直到满足收敛条件,停止更新,得到训练好的K‑SVD字典;步骤(106),判断是否满足收敛条件?步骤(107),利用上述字典对需要处理的多音频信号进行降采样处理;步骤(108),将采样后的数据通过CoSaMP算法进行恢复重构;步骤(109),获得重构信号。本发明明在保证准确率的基础上一定程度上提高了重构的速度,实现了多声道音频信号的降采样处理以及高概率重构;实现了降低多声道音频存储空间的功能,具有简单、高效的特点。

Description

基于KSVD算法的多声道音频处理方法
技术领域
本发明涉及压缩感知技术、多声道音频处理技术等多种领域,特别是涉及一种基于KSVD算法的多声道音频处理方法。
背景技术
随着信息时代进程的不断推进,压缩感知(Compressive Sensing,CS)理论于2006年正式被提出,为人们提供了一种处理信号的新思路。压缩感知作为一个新的采样理论,通过对信号稀疏特性的开发,使得能够在远小于Nyquist采样率的情况下进行离散采样,最终通过一系列非线性重建算法实现信号的完美重建。一经提出,引起了学术界和工业界的广泛关注,在图像处理、地球科学、微波成像、无线通信等多个领域中实现了广泛的应用。
寻求信号的稀疏表示是压缩感知原理的一个重要部分,也就是说,需要选取合适的稀疏基对原始信号进行降采样处理。因此,近年来,如何找到最适合各类信号稀疏表示的方法引起了学术界广泛的兴趣。一系列常见的稀疏基如正弦基、小波基、Curvelet基、DCT基被先后提出。然而,由于常见稀疏基具有不能够很好地适应各类信号的缺点,K-SVD字典算法应运而生。
在日常生活中,音频信号作为一种常见的重要信号,引起了人们的广泛关注。包含语音信号、音乐信号的诸多音频信号,因其由多个谐音(例如正弦波)组成,具有良好的稀疏性(或者在频域中具有可稀疏性),因此是一种非常适用于用压缩感知技术处理的信号。基于此,本发明提出了一种基于K-SVD算法的多声道音频处理方法。
发明内容
为了克服现有技术的不足,本发明提出了一种基于K-SVD算法的多声道音频处理方法,通过大量样本进行字典训练,得出性能较佳、更符合样本特点的K-SVD字典,利用该字典对待检测的信号进行降采样处理,通过重构算法进行恢复后得出音频信号处理结果。
本发明的一种基于压缩感知的语音信号重构方法,该方法通过以下步骤实现:
步骤101,收集杜比数字5.1环绕声音测试音频,组成样本数据集;对样本数据集中的音频信号进行筛选,将筛选得到的音频信号截取成长度相同的音频信号文件;
步骤102,设定初始字典D0∈Rn×K,设字典为Dj,其中j表示字典的更新次数;Rn×K表示字典属于一个n×K的向量空间,n和K分别表示字典的行数和列数;
步骤103,对样本数据集中各样本i进行稀疏编码:即利用匹配算法计算每个音频样本yi的表示向量xi,求解方程为i=1,2,…,n,||xi||0≤T0,该方程旨在找到一个最多有T0个非零项的信号,并且使得限制条件T0最小;其中T0是一个固定的预设数量的非零项;
步骤104,更新字典原子,每次更新一列dk
步骤105,更新该列的表达系数,每一个表达系数分别与字典中的一列相对应,随着字典中的一列发生了改变,其对应的表达系数也会发生相应的变化,使其最大限度的减少均方误差,均方误差即为步骤103中)的值),直到满足收敛条件,收敛条件即为均方误差最小,停止更新,得到训练好的K-SVD字典;
步骤106,判断是否满足收敛条件?
步骤107,利用上述字典对需要处理的多音频信号进行降采样处理;
步骤108,将采样后的数据通过CoSaMP算法进行恢复重构;
步骤109,获得重构信号,即在已知y、Φ、D的情况下,通过CoSaMP算法求解公式y=ΦDa中α的值,再通过计算D、α的值得到重构信号
与现有技术相比,本发明在保证准确率的基础上一定程度上提高了重构的速度,实现了多声道音频信号的降采样处理以及高概率重构;实现了降低多声道音频存储空间的功能;具有简单、高效的特点。
附图说明
图1为本发明的一种基于K-SVD算法多声道音频处理方法的整体流程示意图。
具体实施方式
下面将结合附图对本发明的实施方式作进一步的详细描述。
本发明的整体思路是采用基于K-SVD字典算法的方法,。
如图1所示,本发明基于KSVD算法的多声道音频处理方法的整体流程包括以下步骤:
步骤101,收集具有代表性的杜比数字5.1环绕声音测试音频,组成本发明的样本数据集;对样本数据集中的音频信号进行筛选,利用专业软件进行截取,使其变成长度相同的音频信号文件,便于后期处理;
步骤102,设定初始字典D0∈Rn×K,以便后续对于X的求解和字典的不断更新,设字典为Dj,其中j表示字典的更新次数;Rn×K表示字典属于一个n×K的向量空间,n和K分别表示字典的行数和列数;
步骤103,对样本数据集中各样本i进行稀疏编码:即利用匹配算法计算每个音频样本yi的表示向量xi,求解方程为i=1,2,…,n,||xi||0≤T0,该方程旨在找到一个最多有T0个非零项的信号,并且使得限制条件T0最小);其中T0是一个固定的预设数量的非零项;
步骤104,更新字典原子,每次更新一列dk,目的是为了寻找一个更优化的字典;
步骤105,更新与该列相对应的表达系数,由于压缩感知的基本原理可以用公式y=ΦDa表示,其中y为经过压缩感知处理的信号,Φ为测量矩阵,D为字典,α为在该稀疏字典映射下的n×1维的稀疏信号,其中每一行的元素即为表达系数,每一个表达系数分别与字典中的一列相对应,随着字典中的一列发生了改变,其对应的表达系数也会发生相应的变化,使其最大限度的减少均方误差,均方误差即为步骤103中)的值),直到满足收敛条件,收敛条件即为均方误差最小,停止更新,得到训练好的K-SVD字典;
步骤106,判断是否满足收敛条件?
步骤107,利用上述字典对需要处理的多音频信号进行降采样处理;
步骤108,将采样后的数据通过CoSaMP算法进行恢复重构,压缩采样匹配追踪(CompressiveSampling MP)为压缩感知重构技术MP算法的改进算法,其每次迭代选择多个原子,并且每次迭代已经选择的原子会一直保留,是一种具有较高恢复质量且速度较快的恢复算法),CS理论的研究内容大致可分为三个方面:信号的稀疏表示、测量值获取和对原始信号重构。重构算法是CS理论的关键技术之一,直接决定了此理论能否在实际系统中得以应用。
国内外研究学者们提出了一系列求解次优解的算法,主要包括匹配追踪系列算法、最小l1范数法等。其中,正交匹配追踪算法OMP(Orthogonal Matching Pursuit)是应用最为广泛的算法之一。本发明中采用的CoSaMP算法建立在OMP算法的基础上,在重构精度上有了很大程度的提高,同时又具有匹配追踪类算法运算复杂度低的优点,是一种较为理想的重构算法。
步骤109,获得重构信号,即在已知y、Φ、D的情况下,通过CoSaMP算法求解公式y=ΦDa中α的值,再通过计算D、α的值得到重构信号
将重构信号与原始信号进行对比,分析实验结果。

Claims (1)

1.一种基于压缩感知的语音信号重构方法,其特征在于,该方法通过以下步骤实现:
步骤(101),收集杜比数字5.1环绕声音测试音频,组成样本数据集;对样本数据集中的音频信号进行筛选,将筛选得到的音频信号截取成长度相同的音频信号文件;
步骤(102),设定初始字典D0∈Rn×K,设字典为Dj,其中j表示字典的更新次数;Rn×K表示字典属于一个n×K的向量空间,n和K分别表示字典的行数和列数;
步骤(103),对样本数据集中各样本i进行稀疏编码:即利用匹配算法计算每个音频样本yi的表示向量xi,求解方程为该方程旨在找到一个最多有T0个非零项的信号,并且使得限制条件T0最小;其中T0是一个固定的预设数量的非零项;
步骤(104),更新字典原子,每次更新一列dk
步骤(105),更新该列的表达系数,每一个表达系数分别与字典中的一列相对应,随着字典中的一列发生了改变,其对应的表达系数也会发生相应的变化,使其最大限度的减少均方误差,均方误差即为步骤(103)中的值,直到满足收敛条件,收敛条件即为均方误差最小,停止更新,得到训练好的K-SVD字典;
步骤(106),判断是否满足收敛条件?
步骤(107),利用上述字典对需要处理的多音频信号进行降采样处理;
步骤(108),将采样后的数据通过CoSaMP算法进行恢复重构;
步骤(109),获得重构信号,即在已知y、Φ、D的情况下,通过CoSaMP算法求解公式y=ΦDa中α的值,其中y为经过压缩感知处理的信号,Φ为测量矩阵,D为字典,再通过计算D、α的值得到重构信号
CN201710889728.8A 2017-09-27 2017-09-27 基于ksvd算法的多声道音频处理方法 Pending CN107705795A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710889728.8A CN107705795A (zh) 2017-09-27 2017-09-27 基于ksvd算法的多声道音频处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710889728.8A CN107705795A (zh) 2017-09-27 2017-09-27 基于ksvd算法的多声道音频处理方法

Publications (1)

Publication Number Publication Date
CN107705795A true CN107705795A (zh) 2018-02-16

Family

ID=61175032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710889728.8A Pending CN107705795A (zh) 2017-09-27 2017-09-27 基于ksvd算法的多声道音频处理方法

Country Status (1)

Country Link
CN (1) CN107705795A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600936A (zh) * 2018-04-19 2018-09-28 北京微播视界科技有限公司 多声道音频处理方法、装置、计算机可读存储介质和终端
CN113239573A (zh) * 2021-06-05 2021-08-10 西北工业大学 基于无网格波动建模的封闭空间声场重构方法
CN118398025A (zh) * 2024-06-27 2024-07-26 浙江芯劢微电子股份有限公司 一种回声消除中的延迟估计方法、设备、存储介质及计算机程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081928A (zh) * 2010-11-24 2011-06-01 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN103778919A (zh) * 2014-01-21 2014-05-07 南京邮电大学 基于压缩感知和稀疏表示的语音编码方法
WO2015195827A1 (en) * 2014-06-17 2015-12-23 Carnegie Mellon University Methods and software for hallucinating facial features by prioritizing reconstruction errors

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081928A (zh) * 2010-11-24 2011-06-01 南京邮电大学 基于压缩感知和k-svd的单通道混合语音分离方法
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法
CN103778919A (zh) * 2014-01-21 2014-05-07 南京邮电大学 基于压缩感知和稀疏表示的语音编码方法
WO2015195827A1 (en) * 2014-06-17 2015-12-23 Carnegie Mellon University Methods and software for hallucinating facial features by prioritizing reconstruction errors

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙林慧: "《硕士学位论文》", 30 July 2014, 西安电子科技大学 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600936A (zh) * 2018-04-19 2018-09-28 北京微播视界科技有限公司 多声道音频处理方法、装置、计算机可读存储介质和终端
CN108600936B (zh) * 2018-04-19 2020-01-03 北京微播视界科技有限公司 多声道音频处理方法、装置、计算机可读存储介质和终端
CN113239573A (zh) * 2021-06-05 2021-08-10 西北工业大学 基于无网格波动建模的封闭空间声场重构方法
CN113239573B (zh) * 2021-06-05 2024-05-07 西北工业大学 基于无网格波动建模的封闭空间声场重构方法
CN118398025A (zh) * 2024-06-27 2024-07-26 浙江芯劢微电子股份有限公司 一种回声消除中的延迟估计方法、设备、存储介质及计算机程序产品

Similar Documents

Publication Publication Date Title
CN109711383B (zh) 基于时频域的卷积神经网络运动想象脑电信号识别方法
CN103595414B (zh) 一种稀疏采样与信号压缩感知重构方法
Bonnefoy et al. A dynamic screening principle for the lasso
CN107705795A (zh) 基于ksvd算法的多声道音频处理方法
CN101826161B (zh) 一种基于局部近邻稀疏表示的目标识别方法
CN107666322A (zh) 一种基于字典学习的自适应微震数据压缩感知方法
CN109490957A (zh) 一种基于空间约束压缩感知的地震数据重建方法
CN104538035A (zh) 一种基于Fisher超向量的说话人识别方法及系统
Nashed et al. Convolution sampling and reconstruction of signals in a reproducing kernel subspace
CN109586688A (zh) 基于迭代计算的时变可分非下采样图滤波器组的设计方法
CN105869126A (zh) 高光谱图像的压缩感知去噪方法
CN104485966A (zh) 一种基于信号分解的压缩感知处理和信号重构方法
CN104036519B (zh) 基于图像块聚类和稀疏字典学习的分块压缩感知重构方法
CN106295690A (zh) 基于非负矩阵分解的时间序列数据聚类方法及系统
CN106599903A (zh) 基于相关性的加权最小二乘字典学习的信号重构方法
CN114492500A (zh) 基于一维卷积核的运动想象脑电信号分类方法
CN109101462A (zh) 可降低时间损耗的傅里叶变换算法
CN103036576A (zh) 基于压缩传感理论的一种二值稀疏信号重构算法
CN105184833A (zh) 一种带噪cs-mri图像重建方法
CN113223032A (zh) 基于双稀疏分解的复杂图像Canny边缘检测方法
CN105551503B (zh) 基于原子预选择的音频匹配追踪方法与系统
Tong et al. A robust time-frequency decomposition model for suppression of mixed Gaussian-impulse noise in audio signals
CN113420668A (zh) 一种基于二维多尺度排列熵的水下目标识别方法
Zhou et al. Face Recognition Based on Multi-Wavelet and Sparse Representation.
CN107169410A (zh) 用于人脸识别的基于lbp特征的结构型稀疏表示分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180216

WD01 Invention patent application deemed withdrawn after publication