CN107705795A

CN107705795A - 基于ksvd算法的多声道音频处理方法

Info

Publication number: CN107705795A
Application number: CN201710889728.8A
Authority: CN
Inventors: 刘昱; 翟丽
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2018-02-16

Abstract

本发明公开了一种基于KSVD算法的多声道音频处理方法，步骤(101)，组成样本数据集；步骤(102)，设定初始字典D₀∈R^n×K；步骤(103)，对样本数据集进行稀疏编码；步骤(104)，更新字典原子，每次更新一列d_k；步骤(105)，更新该列相应的表达系数，直到满足收敛条件，停止更新，得到训练好的K‑SVD字典；步骤(106)，判断是否满足收敛条件？步骤(107)，利用上述字典对需要处理的多音频信号进行降采样处理；步骤(108)，将采样后的数据通过CoSaMP算法进行恢复重构；步骤(109)，获得重构信号。本发明明在保证准确率的基础上一定程度上提高了重构的速度，实现了多声道音频信号的降采样处理以及高概率重构；实现了降低多声道音频存储空间的功能，具有简单、高效的特点。

Description

基于KSVD算法的多声道音频处理方法

技术领域

本发明涉及压缩感知技术、多声道音频处理技术等多种领域，特别是涉及一种基于KSVD算法的多声道音频处理方法。

背景技术

随着信息时代进程的不断推进，压缩感知(Compressive Sensing，CS)理论于2006年正式被提出，为人们提供了一种处理信号的新思路。压缩感知作为一个新的采样理论，通过对信号稀疏特性的开发，使得能够在远小于Nyquist采样率的情况下进行离散采样，最终通过一系列非线性重建算法实现信号的完美重建。一经提出，引起了学术界和工业界的广泛关注，在图像处理、地球科学、微波成像、无线通信等多个领域中实现了广泛的应用。

寻求信号的稀疏表示是压缩感知原理的一个重要部分，也就是说，需要选取合适的稀疏基对原始信号进行降采样处理。因此，近年来，如何找到最适合各类信号稀疏表示的方法引起了学术界广泛的兴趣。一系列常见的稀疏基如正弦基、小波基、Curvelet基、DCT基被先后提出。然而，由于常见稀疏基具有不能够很好地适应各类信号的缺点，K-SVD字典算法应运而生。

在日常生活中，音频信号作为一种常见的重要信号，引起了人们的广泛关注。包含语音信号、音乐信号的诸多音频信号，因其由多个谐音(例如正弦波)组成，具有良好的稀疏性(或者在频域中具有可稀疏性)，因此是一种非常适用于用压缩感知技术处理的信号。基于此，本发明提出了一种基于K-SVD算法的多声道音频处理方法。

发明内容

为了克服现有技术的不足，本发明提出了一种基于K-SVD算法的多声道音频处理方法，通过大量样本进行字典训练，得出性能较佳、更符合样本特点的K-SVD字典，利用该字典对待检测的信号进行降采样处理，通过重构算法进行恢复后得出音频信号处理结果。

本发明的一种基于压缩感知的语音信号重构方法，该方法通过以下步骤实现：

步骤101，收集杜比数字5.1环绕声音测试音频，组成样本数据集；对样本数据集中的音频信号进行筛选，将筛选得到的音频信号截取成长度相同的音频信号文件；

步骤102，设定初始字典D₀∈R^n×K，设字典为D_j，其中j表示字典的更新次数；R^n×K表示字典属于一个n×K的向量空间，n和K分别表示字典的行数和列数；

步骤103，对样本数据集中各样本i进行稀疏编码：即利用匹配算法计算每个音频样本y_i的表示向量x_i，求解方程为i＝1,2,…,n,||x_i||₀≤T₀，该方程旨在找到一个最多有T₀个非零项的信号，并且使得限制条件T₀最小；其中T₀是一个固定的预设数量的非零项；

步骤104，更新字典原子，每次更新一列d_k；

步骤105，更新该列的表达系数，每一个表达系数分别与字典中的一列相对应，随着字典中的一列发生了改变，其对应的表达系数也会发生相应的变化，使其最大限度的减少均方误差，均方误差即为步骤103中)的值)，直到满足收敛条件，收敛条件即为均方误差最小，停止更新，得到训练好的K-SVD字典；

步骤106，判断是否满足收敛条件？

步骤107，利用上述字典对需要处理的多音频信号进行降采样处理；

步骤108，将采样后的数据通过CoSaMP算法进行恢复重构；

步骤109，获得重构信号，即在已知y、Φ、D的情况下，通过CoSaMP算法求解公式y＝ΦDa中α的值，再通过计算D、α的值得到重构信号

与现有技术相比，本发明在保证准确率的基础上一定程度上提高了重构的速度，实现了多声道音频信号的降采样处理以及高概率重构；实现了降低多声道音频存储空间的功能；具有简单、高效的特点。

附图说明

图1为本发明的一种基于K-SVD算法多声道音频处理方法的整体流程示意图。

具体实施方式

下面将结合附图对本发明的实施方式作进一步的详细描述。

本发明的整体思路是采用基于K-SVD字典算法的方法，。

如图1所示，本发明基于KSVD算法的多声道音频处理方法的整体流程包括以下步骤：

步骤101，收集具有代表性的杜比数字5.1环绕声音测试音频，组成本发明的样本数据集；对样本数据集中的音频信号进行筛选，利用专业软件进行截取，使其变成长度相同的音频信号文件，便于后期处理；

步骤102，设定初始字典D₀∈R^n×K，以便后续对于X的求解和字典的不断更新，设字典为D_j，其中j表示字典的更新次数；R^n×K表示字典属于一个n×K的向量空间，n和K分别表示字典的行数和列数；

步骤103，对样本数据集中各样本i进行稀疏编码：即利用匹配算法计算每个音频样本y_i的表示向量x_i，求解方程为i＝1,2,…,n,||x_i||₀≤T₀，该方程旨在找到一个最多有T₀个非零项的信号，并且使得限制条件T₀最小)；其中T₀是一个固定的预设数量的非零项；

步骤104，更新字典原子，每次更新一列d_k，目的是为了寻找一个更优化的字典；

步骤105，更新与该列相对应的表达系数，由于压缩感知的基本原理可以用公式y＝ΦDa表示，其中y为经过压缩感知处理的信号，Φ为测量矩阵，D为字典，α为在该稀疏字典映射下的n×1维的稀疏信号，其中每一行的元素即为表达系数，每一个表达系数分别与字典中的一列相对应，随着字典中的一列发生了改变，其对应的表达系数也会发生相应的变化，使其最大限度的减少均方误差，均方误差即为步骤103中)的值)，直到满足收敛条件，收敛条件即为均方误差最小，停止更新，得到训练好的K-SVD字典；

步骤106，判断是否满足收敛条件？

步骤108，将采样后的数据通过CoSaMP算法进行恢复重构，压缩采样匹配追踪(CompressiveSampling MP)为压缩感知重构技术MP算法的改进算法，其每次迭代选择多个原子，并且每次迭代已经选择的原子会一直保留，是一种具有较高恢复质量且速度较快的恢复算法)，CS理论的研究内容大致可分为三个方面：信号的稀疏表示、测量值获取和对原始信号重构。重构算法是CS理论的关键技术之一，直接决定了此理论能否在实际系统中得以应用。

国内外研究学者们提出了一系列求解次优解的算法，主要包括匹配追踪系列算法、最小l₁范数法等。其中，正交匹配追踪算法OMP(Orthogonal Matching Pursuit)是应用最为广泛的算法之一。本发明中采用的CoSaMP算法建立在OMP算法的基础上，在重构精度上有了很大程度的提高，同时又具有匹配追踪类算法运算复杂度低的优点，是一种较为理想的重构算法。

将重构信号与原始信号进行对比，分析实验结果。

Claims

1.一种基于压缩感知的语音信号重构方法，其特征在于，该方法通过以下步骤实现：

步骤(101)，收集杜比数字5.1环绕声音测试音频，组成样本数据集；对样本数据集中的音频信号进行筛选，将筛选得到的音频信号截取成长度相同的音频信号文件；

步骤(102)，设定初始字典D₀∈R^n×K，设字典为D_j，其中j表示字典的更新次数；R^n×K表示字典属于一个n×K的向量空间，n和K分别表示字典的行数和列数；

步骤(103)，对样本数据集中各样本i进行稀疏编码：即利用匹配算法计算每个音频样本y_i的表示向量x_i，求解方程为该方程旨在找到一个最多有T₀个非零项的信号，并且使得限制条件T₀最小；其中T₀是一个固定的预设数量的非零项；

步骤(104)，更新字典原子，每次更新一列d_k；

步骤(105)，更新该列的表达系数，每一个表达系数分别与字典中的一列相对应，随着字典中的一列发生了改变，其对应的表达系数也会发生相应的变化，使其最大限度的减少均方误差，均方误差即为步骤(103)中的值，直到满足收敛条件，收敛条件即为均方误差最小，停止更新，得到训练好的K-SVD字典；

步骤(106)，判断是否满足收敛条件？

步骤(107)，利用上述字典对需要处理的多音频信号进行降采样处理；

步骤(108)，将采样后的数据通过CoSaMP算法进行恢复重构；

步骤(109)，获得重构信号，即在已知y、Φ、D的情况下，通过CoSaMP算法求解公式y＝ΦDa中α的值，其中y为经过压缩感知处理的信号，Φ为测量矩阵，D为字典，再通过计算D、α的值得到重构信号