CN109545234A

CN109545234A - 一种基于压缩感知的语音线谱频率编码及自适应快速重构方法

Info

Publication number: CN109545234A
Application number: CN201811268384.XA
Authority: CN
Inventors: 李强; 王怡曼
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Jinan Lianken Information Technology Co ltd; Shenzhen Hongyue Enterprise Management Consulting Co ltd
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-03-29
Anticipated expiration: 2038-10-29
Also published as: CN109545234B

Abstract

本发明提出一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，具体实施方法包括：编码端对语音子帧进行话音激活检测后，n个子帧组成1个超帧，对不同类型超帧的线谱频率采用压缩感知方法得到观测序列，对观测序列进行矢量量化和编码；解码端通过解码和反量化得到观测序列，判断出超帧类型后，自适应地选择调整参数，调整感知矩阵的维度，根据观测序列和调整后的感知矩阵，计算出待重构超帧线谱频率的稀疏系数矩阵前一部分原子，后一部分原子用0代替，然后进行稀疏反变换快速重构出超帧的线谱频率。本发明提出的方法可用于语音信号单帧或多帧联合编码，具有线谱频率参数量化效率高，重构速度快的优点。

Description

一种基于压缩感知的语音线谱频率编码及自适应快速重构方法

技术领域

本发明属于语音编码领域，特别涉及一种基于压缩感知的语音线谱频率编解码方法。

背景技术

压缩感知理论自2004年提出至今，由于涉及到了泛函理论、最优化分析、统计学、矩阵等诸多学科领域，受到国内外信号处理领域及其他相关领域科研人员的广泛关注。压缩感知理论研究成果主要集中在信号的稀疏处理、感知矩阵的获得和信号重构三个方向。压缩感知理论应用的前提条件是信号的稀疏性，正交变换是最先被采用的信号稀疏表示的变换方式；有限等距约束特性(Restricted Isometry Property，RIP)是观测矩阵选择的标准，随机高斯矩阵常用于观测矩阵；信号重构算法是压缩感知理论的核心，需重点考虑以下几个方面：(1)收敛：当算法较快收敛到某一精度时，不能出现发散的情况，否则将无法确保精确重构；(2)初值的影响：迭代算法对初值较为敏感，在设计过程中，常将迭代初值置零；(3)计算复杂度：复杂度和准确率需权衡考虑；(4)抗噪性能：噪声主要影响信号的重构精确；(5)测量矩阵的约束：测量矩阵要满足RIP条件，其最大奇异值小于1。

传统的语音编码都是基于奈奎斯特采样定理，采样频率要大于或等于原模拟信号最高频率的两倍，这种先采样再压缩的数据处理模式，需要较多的处理时间和存储空间。由于采样得到的数据中包含了大量的冗余信息，因此浪费了大量的采样资源。如何根据语音信号的特点，对语音信号重新建模，只需较少的采样但又不影响语音的重构质量，是当前语音信号处理领域中的研究热点。如果将压缩感知理论用于语音信号的处理，用经过压缩感知后的观测值来替代传统语音采样值，就不再需要对语音波形进行高速采样，也不需要存储大量的冗余信息，这样就能极大的降低语音信号压缩处理中算法复杂程度，也减低了语音信号处理的实现成本。将压缩感知应用于语音信号处理，探求语音信号编码的新方法具有很好的研究价值和应用价值。

语音参数编码算法大都建立在人类发声器官的声学模型基础上，通过语音的特征参数来重建语音信号，并使其有尽可能高的可懂度，因此重构的语音质量取决模型参数估计的准确性和量化误差。在参数编码中，需分析和提取的语音参数主要有：声道模型、激励谱描述、能量、基音周期和清/浊音判决(U/V)等。这些参数对合成语音的可懂度和自然度有着不同的作用，如声道模型参数常用线谱频率(Linear Spectrum Frequency，LSF)来描述，主要反映了声道的形状，携带语意信息，具有慢时变特性，对于语音的可懂度贡献大，因此在语音参数编码中，该参数的提取要准确，为了减小量化误差，分配的量化比特数最多。因此，研究LSF参数高效量化和快速重构算法，对语音参数编码器的实现及应用有着重要的意义。

发明内容

针对上述问题，本发明提出一种基于压缩感知的语音线谱频率编码及自适应快速重构方法。针对用于描述声道模型的线谱频率参数，采用本发明方法在编码端能提高编码效率，在解码端，进行快速重构时失真最小。所述方法包括：

在编码端，把语音信号分为T毫秒长的子帧；对子帧进行话音激活检测(VAD)，判断出子帧的类型，是静音、清音还是浊音；连续n个子帧组成1个超帧，根据n个子帧的类型确定超帧类型；提取每个子帧p阶线谱频率LSF_1×p，得到超帧线谱频率LSF_n×p；采用观测矩阵Φ_M×N对稀疏变换后的LSF_n×p进行观测，得到观测序列Y_1×M；对Y_1×M进行多级或分裂矢量量化，对其索引号进行编码。

在解码端，根据解码出的量化码本索引号，查表得到观测序列判断出超帧类型，自适应地选择调整参数λ，根据F＝λ×N，确定调整感知矩阵A_CS的维度F，选择感知矩阵A_CS前F列，得到调整后的感知矩阵A_M×F；利用和A_M×F采取矩阵求解的方法，计算出待重构的超帧线谱频率稀疏系数矩阵前一部分原子，后一部分原子用0代替，稀疏反变换后快速重构出超帧的线谱频率。

本发明中对超帧线谱频率重构时，自适应选择调整参数λ对重构效果起着至关重要的作用。调整参数λ的确定方法为：首先根据超帧中子帧的个数n和子帧类型确定超帧类型的个数；然后在语料库中，选择男女若干条语音信号，判断语音信号每个子帧的类型，把具有相同类型的超帧保存到同一个语音文件中；最后对保存相同超帧类型的语音文件采用本发明方法进行编解码，对超帧线谱频率参数进行重构时，λ以步长为单位，在区间依次取值，分别对语音线谱频率参数进行重构，计算超帧线谱频率编码前与每次重构后的误差，误差最小所对应λ值即为该超帧类型的最佳调整参数值。

本发明的优点及有益效果如下：

采用本发明基于压缩感知的语音线谱频率编码和自适应快速重构方法，可以在较低的编码速率下，对单帧或多帧联合的语音信号线谱频率降维处理后进行编码，提高了编码效率。解码端针对不同类型语音子帧或超帧，自适应地选择调整参数并进行快速重构，相较于传统的压缩感知对语音参数的重构方法，具有运算量小，重构质量好，所需存储量小的优点。本发明可用于低码率或极低码率语音编码及传输等领域，具有良好的应用前景和实用价值。

附图说明

图1本发明基于压缩感知的语音线谱频率编码及重构过程示意图；

图2本发明语音线谱频率快速重构算法示意图；

图3本发明确定超帧线谱频率自适应调整参数λ的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

图1是本发明基于压缩感知的语音线谱频率编码及自适应快速重构方法示意图，包括编码端对语音线谱频率编码过程和解码端的重构过程，本发明所述方法包括以下步骤：

步骤101：编码端对待编码的语音信号进行分帧等预处理，分成T毫秒长度的子帧，T的取值一般为20～30ms；

步骤102：判断子帧的类型，先采用VAD算法判断子帧是有声音(Speech)子帧还是静音(Mute)子帧，再对有声音(Speech)子帧进行清音(Unvoice)和浊音(Voice)的判断；

步骤103：采用语音信号处理方法，提取每个子帧p阶线谱频率参数LSF_1×p；

步骤104：连续n个子帧组成一个超帧，n个子帧的类型即为超帧类型。比如连续2个子帧组成1个超帧，则超帧类型有：UU、UV、UM、VV、VU、VM、MM、MV和MU九种结构，其中，U表示清音帧，V表示浊音帧，M表示静音帧；

步骤105：首先对超帧的线谱频率LSF_n×p进行稀疏变换，然后采用观测矩阵Φ_M×N对其进行观测，得到观测序列Y_1×M，其中，N＝n×p，为观测前序列的维数，M为观测后序列的维数；

步骤106：对观测序列Y_1×M进行多级或分裂矢量量化，得到Y_1×M在矢量量化码本中的索引号，对索引号进行编码；

步骤107：解码端对收到的数据进行解码，得到量化码本索引号，查找矢量量化码本得到观测序列

步骤108：根据解码出的超帧类型标识符，判断出超帧类型；

步骤109：根据超帧类型，自适应地选择调整参数λ；

步骤110：利用观测序列调整参数λ和感知矩阵A_CS采用快速重构算法重构出超帧线谱频率的参数值

具体可以为：如图2所示；

步骤201：输入观测序列调整参数λ和感知矩阵A_CS感知矩阵，其中A_CS通过公式A_CS＝Φ_M×N×Ψ_N×N计算得到，公式中的Φ_M×N为观测矩阵，Ψ_N×N为稀疏变换基；

步骤202：根据调整参数λ，采用F＝λ×N计算公式，确定调整后感知矩阵A_CS的维度值F；

步骤203：选择感知矩阵A_CS前F列，得到调整后的感知矩阵A_M×F；

步骤204：判断A_M×F是否为方阵，如果λ＝M/N，F＝λ×N＝M，A_M×F为方阵；如果λ≠M/N，A_M×F为非方阵；

步骤205：如果A_M×F为方阵，求解线性方程如果A_M×F为非方阵，采用最小二乘法求解方程

步骤206：得到稀疏系数矩阵θ的前F维系数θ_1×F，对θ后N-F维补0，得到稀疏系数矩阵θ＝[θ_F|0...0]；

步骤207：对稀疏系数矩阵θ进行稀疏反变换重构出

超帧线谱频率快速重构要用到自适应选择调整参数λ。在语音编码器设计过程中，采取如下流程确定不同类型超帧的调整参数λ值：

步骤301：在中英文语料库中，选择男女若干条具有不同发音内容的语音信号作为编码对象；

步骤302：根据超帧中子帧的个数n和子帧类型数确定超帧类型的个数。依次读取语音信号，判断语音信号中每个子帧的类型，依据连续n个子帧类型，确定超帧类型，把具有相同类型的超帧保存到同一个语音文件中；

步骤303：采用图1所示的方法对语音超帧线谱频率进行编解码，读取保存相同类型超帧的语音文件，对超帧线谱频率参数进行编解码，在重构过程中，调整参数λ以步长为单位，在区间依次取值，分别对语音线谱频率参数进行重构，计算出超帧线谱频率编码前与每次重构后的误差；

步骤304：误差最小所对应λ值即为该超帧类型的最佳调整参数值；

步骤305：确定每种超帧类型的最佳调整参数λ值。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：编码端对语音子帧进行话音激活检测(VAD)，n个子帧组成1个超帧，对不同类型超帧的线谱频率采用压缩感知方法得到观测序列，对观测序列进行矢量量化和编码；解码端通过解码和反量化得到观测序列，判断出超帧类型后，自适应地选择调整参数，调整感知矩阵的维度，根据观测序列和调整后的感知矩阵，采取矩阵求解的方法，计算出待重构超帧线谱频率的稀疏系数矩阵前一部分原子，后一部分原子用0代替，进行稀疏反变换后快速重构出超帧的线谱频率。

2.根据权利要求书1所述一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：所述语音子帧是长度为T毫秒的语音帧，T取值20～30ms。

3.根据权利要求书1所述一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：所述不同类型超帧是指编码端先采用VAD算法判断子帧是有声音(Speech)子帧还是静音(Mute)子帧，再对有声音(Speech)子帧进行清音(Unvoice)和浊音(Voice)的判断，即判断出每个子帧类型是静音(Mute)、或清音(Unvoice)、还是浊音(Voice)子帧，连续n个子帧的类型即为超帧的类型。

4.根据权利要求书1所述一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：所述超帧的线谱频率是指提取每个子帧p阶线谱频率LSF_1×p后，连续n个子帧的LSF_1×p组成超帧的线谱频率LSF_n×p。

5.根据权利要求书1所述一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：所述对超帧线谱频率采用压缩感知得到观测序列，是指编码端先对超帧线谱频率LSF_n×p进行稀疏变换，然后采用观测矩阵Φ_M×N对其进行观测，得到观测序列Y_1×M，其中，N＝n×p，为观测前序列的维数，M为观测后序列的维数。

6.根据权利要求书1所述一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：所述对观测序列进行矢量量化和编码，是指对观测序列Y_1×M进行多级或分裂矢量量化，得到Y_1×M在矢量量化码本中的索引号，对索引号进行编码。

7.根据权利要求书1所述一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：所述通过解码和反量化后得到观测序列，是指解码端先解码得到量化码本索引号，查找矢量量化码本得到观测序列。

8.根据权利要求书1所述一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：所述判断出超帧类型后，自适应地选择调整参数，调整感知矩阵的维度，是指解码端确定连续n个子帧的类型，判断出超帧类型后，根据超帧类型自适应选择调整参数λ，采用F＝λ×N计算公式，确定调整后感知矩阵A_CS的维度值F，即选择感知矩阵A_CS前F列，得到调整后的感知矩阵A_M×F。

9.根据权利要求书8所述一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：所述的感知矩阵A_CS通过如下公式计算得到：

A_CS＝Φ_M×N×Ψ_N×N

其中，Φ_M×N为观测矩阵，Ψ_N×N为稀疏变换基。

10.根据权利要求书1所述一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：所述快速重构出超帧的线谱频率，其具体实现方法为：根据计算出稀疏系数矩阵θ的前F维系数θ_1×F。在具体的计算过程中，分如下两种情况：如果λ＝M/N，F＝λ×N＝M，A_M×F为方阵，则如果λ≠M/N，则A_M×F为非方阵，对稀疏系数θ后N-F维补0，得到θ＝[θ_F|0...0]，对θ进行稀疏反变换重构出

11.根据权利要求书8所述一种基于压缩感知的语音线谱频率编码及自适应快速重构方法，其特征在于：所述调整参数λ是通过对语料库大量语音某超帧类型的线谱频率参数进行编解码，取重构误差最小的一个参数值，其具体的选择方法为：(1)确定超帧类型个数。如果一个超帧中子帧的个数为n，子帧有静音(Mute)、浊音(Voice)和清音(Unvoice)三种类型，则超帧就有3n种类型；(2)选取语料库中男女若干条具有不同发音内容的语音信号，确定语音信号每个子帧的类型，根据n个连续子帧类型确定超帧的类型，把具有相同类型的超帧保存到同一个语音文件中；(3)对保存相同超帧类型的语音文件采用本发明方法对其超帧的线谱频率参数进行编解码，在对超帧线谱频率参数进行重构时，调整参数λ值以步长为单位，在区间依次取值，分别对语音线谱频率参数进行重构，计算超帧线谱频率编码前与每次重构后的误差，误差最小所对应λ值即为该超帧类型的最佳调整参数值。