CN104318927A

CN104318927A - 一种抗噪声的低速率语音编码方法及解码方法

Info

Publication number: CN104318927A
Application number: CN201410611986.6A
Authority: CN
Inventors: 陈世文
Original assignee: DONGGUAN BEIDOU SPACE TIME COMMUNICATION TECHNOLOGY Co Ltd
Current assignee: DONGGUAN BEIDOU SPACE TIME COMMUNICATION TECHNOLOGY Co Ltd
Priority date: 2014-11-04
Filing date: 2014-11-04
Publication date: 2015-01-28

Abstract

本发明提供了一种语音数据的编码方法和解码方法。该编码方法包括：获取原始音频，通过端点检测剔除原始音频中的非语音数据，获得语音段数据；对每帧语音数据进行预增强，剔除部分噪声的干扰后计算语音能量；对每帧语音数据通过分析各子带的周期特性和清浊状态计算基音周期，采用多层神经网络模型对谱参数进行增强；通过谱参数、基音周期和能量进行语音帧聚类，将特征相似的相邻帧组成一个语音段；计算每段语音谱参数、基音周期和能量的均值特征以及每段语音的帧数后分别进行量化；对量化后的各种语音参数进行编码，生成语音数据包。本发明可以在极低编码速率的情况下，保持较高的语音音质。

Description

一种抗噪声的低速率语音编码方法及解码方法

技术领域

本发明涉及智能信息处理领域，尤其涉及一种语音数据的编码方法及解码方法。

背景技术

语音作为人类交流信息的主要手段之一，语音编码一直在通信系统中占据重要的地位。语音的数据量非常庞大，不便于直接进行传输和存储处理，同时很多领域对语音的压缩传输率要求很高，因此必须对语音进行合理有效的处理，以减少语音信号的传输速率和存储量，即进行语音压缩编码，因此极低速率语音编码已经越来越受到关注，语音信号中有很大的信息冗余，压缩的每一个比特都意味着节省开支，低速率数字语音传输具有重大的实用价值，高质量的低速率语音编码技术在移动通信、卫星通信、多媒体技术以及IP电话通信中得到了普遍应用。

目前已有的极低速率语音编码大部分采用参数语音编码的方法实现极低速率下的语音传输。将多帧联合编码和内插等技术引入到经典的参数编码方法后，可以使语音在600bps速率下传输，接收端生成的语音仍具有可懂性。如果进一步降低语音传输速率，语音的音质将明显降低，这种方法将难以适用。通过传统的语音识别系统识别出对应的文本信息后进行传输，可以将传输速率降至200bps以下，但是采用这种方法识别出的文本难以保证较高的准确率，同时说话人的特征难以保留。

发明内容

(一)要解决的技术问题

为解决上述的一个或多个问题，本发明提供了一种语音数据的编码方法及解码方法，在不同噪声环境下以极低编码速率进行传输时，保持较高的语音音质。

(二)技术方案

根据本发明的一个方面，提供了一种语音数据的编码方法。该编码方法包括：获取原始音频，通过端点检测剔除原始音频中的非语音数据，获得语音段数据；对每帧语音数据进行预增强，剔除部分噪声的干扰后计算语音能量；对每帧语音数据通过分析各子带的周期特性和清浊状态计算基音周期，采用多层神经网络模型对谱参数进行增强；通过谱参数、基音周期和能量进行语音帧聚类，将特征相似的相邻帧组成一个语音段；计算每段语音谱参数、基音周期和能量的均值特征以及每段语音的帧数后分别进行量化；对量化后的各种语音参数进行编码，生成语音数据包。

根据本发明的另一个方面，还提供了一种语音数据的解码方法。该解码方法包括：对接收到的语音数据包进行解码，提取每段语音的谱参数、基音周期和能量均值特征以及语音帧数，通过上述参数和全局方差采用动态参数生成算法计算各帧语音参数，最后通过声码器合成语音。

(三)有益效果

从上述技术方案可以看出，本发明语音数据的编码方法及解码方法具有以下有益效果：

(1)发送端只需对特征相似的相邻语音帧的谱参数、基音周期和增益的均值特征以及语音帧数进行编码。通过定量的分析可以确定其编码速率可低于500bps，能够实现语音数据在极低码率下的有效传输。

(2)在低码率下传输的语音可以较好的保留说话人的特性。

(3)通过语音检测模块，可以有效剔除音频流中的非语音数据，进一步降低码率。

(4)通过语音预增强模块和谱参数增强模块，可以有效的抑制各种噪声的干扰，提高语音音质。

(5)传输的语音数据不受说话人、文本内容、声音采集环境的限制，因此系统具有高鲁棒性，便于实际应用。

附图说明

图1为根据本发明实施例的语音数据编码方法及解码方法的整体结构示意图；

图2为图1所示语音数据编码方法中端点检测模块的结构示意图；

图3为图1所示语音数据编码方法中语音预增强模块的结构示意图；

图4为图1所示语音数据编码方法中基音周期分析模块的结构示意图；

图5为图1所示语音数据编码方法中谱参数增强模块的结构示意图；

图6为图1所示语音数据编码方法中语音帧聚类模块的结构示意图；

图7为图1所示语音数据编码方法中参数编码模块的结构示意图；

图8为图1所示语音数据解码方法中参数解码模块的结构示意图；

图9为图1所示语音数据解码方法中语音生成模块的结构示意图；

图10为本发明实施例的语音数据的编码/解码方法系统中端点检测模块中高斯混合模型离线训练过程的示意图；

图11为本发明实施例的语音数据的编码/解码方法系统中音频聚类模块中隐马尔科夫模型离线训练过程的示意图；

图12为本发明实施例的语音数据的编码/解码方法系统中谱参数增强模块中多层神经网络模型离线训练过程的示意图；

图13为本发明实施例的语音数据的编码/解码方法系统中参数编码模块和参数解码模块中谱参数码本离线训练过程的示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。

本发明提出了一种基于参数的语音数据编解码机制。该机制分为编码方法和解码方法。编码方法将采集到的语音提取特征参数并对各种参数进行量化和编码组成语音数据包，通过信道进行传输。解码方法从信道中获取语音数据包，对语音数据包进行解析，重构语音参数，恢复原始的语音，实现了语音数据在极低码率下的传输。

本发明中提供了一种语音数据的编码方法。如图1所示，本编码方法包括：获取原始音频，通过端点检测剔除原始音频中的非语音数据，获得语音段数据；对每帧语音数据进行预增强，剔除部分噪声的干扰后计算语音能量；对每帧语音数据通过分析各子带的周期特性和清浊状态计算基音周期，采用多层神经网络模型对谱参数进行增强；通过谱参数、基音周期和能量进行语音帧聚类，将特征相似的相邻帧组成一个语音段；计算每段语音谱参数、基音周期和能量的均值特征以及每段语音的帧数后分别进行量化；对量化后的各种语音参数进行编码，生成语音数据包。该编码方法包括端点检测步骤、语音预增强步骤、基音周期分析步骤、谱参数增强步骤、语音帧聚类步骤和参数编码步骤。下面对各个功能步骤采用的方法进行详细介绍。

步骤S110，获取原始音频，利用时域和变换域上的不同参数进行端点检测，剔除原始音频中的非语音数据，获得语音段数据，后续只对语音段数据进行量化、编码和传输，可以进一步降低系统对数据的传输速率；

利用短时能量、短时过零率和各子带的能量比重可以有效的从原始音频中检测出静音段数据和宽带噪声；通过分析音频数据中子带谐波特性可以有效的从原始音频中检测出周期噪声和冲击性噪声；通过子带谱包络和子带熵，可以有效的从原始音频中检测出各种非平稳噪声；通过对比不同段音频数据的梅尔频率倒谱系数可以对语音信号和音乐信号进行区分。利用上述各参数可以有效的从原始音频中保留语音数据，拒绝非语音数据。如图2所示，端点检测步骤如下：

子步骤S111，将原始音频等间隔分成若干子段，计算每段原始音频的短时能量、短时过零率和各频带能量，通过各频带能量计算100Hz—2000Hz频段能量的比重；将上述三个参数分别与预先设定的取值范围进行比较；如果三个参数都在取值范围内，则判定为待甄别数据；如果三个参数都超出取值范围，则判定为非语音段数据；如果其中一个或两个参数在取值范围内并且相邻两段音频为待甄别数据，则判定为待甄别数据否则判定为非语音数据；通过上述判定可将采集的音频数据分为非语音段数据和待甄别段数据，后续步骤只对待甄别数据进行处理；

子步骤S112，对于子步骤S111中保留下来的音频数据在频域上进行分析，首先将音频信号分成若干子带，并分别在各子带的频率范围内进行带通滤波，得到各子带的音频信号；对各子带音频信号进行希尔伯特变换，得到各子带的谱包络，并分析谱包络信号的统计特性；在长跨度模式下，利用当前帧和相邻若干帧计算当前帧各频点的熵，并在特定子带范围内统计熵的均值和方差以确定当前语音帧的复杂度。融合短跨度模式下的子带谱包络特性和长跨度模式下的子带熵特性进一步剔除部分非语音数据。

子步骤S113，对于子步骤S112中保留下来的音频数据在频域上进行分析，对待甄别数据以帧为单位提取梅尔倒谱系数，先提取13阶静态参数，然后分别计算它们的一阶差分和二阶差分，最终提取的参数是39维，利用这39维属性进行语音检测。将参数分别输入到语音数据的高斯混合模型和各种非语音数据的高斯混合模型中，如果当前帧输入到语音数据的高斯混合模型时输出概率最大则判定为语音数据，否则判定为非语音数据；对于判定结果需要进行后处理，如果当前帧判为非语音数据但相邻两帧判为语音数据，则将当前帧改判成语音数据。

综上分析，端点检测模块首先通过短时能量、短时过零率和各频带能量分布将原始音频分为非语音数据和待甄别数据，然后对待甄别数据通过子带谐波、子带谱包络和子带熵剔除部分非语音数据，对于保留下来的待甄别数据通过语音数据的高斯混合模型和非语音数据的高斯混合模型判断是否为语音数据。

在端点检测过程中，需要对语音数据的高斯混合模型和非语音数据的高斯混合模型进行训练，以下对上述模型的训练步骤进行说明。

模型训练步骤需要选择各种类型的音频进行高斯混合模型的训练，这样可以保证模型的鲁棒性，提高语音检测的准确率。每个音频文件需要对其类别进行标注。模型训练过程如图10所示。

步骤S310，对全部训练音库进行音频过滤；依次采用子步骤S111和子步骤S112中的方法剔除部分非语音数据，后续步骤只对剩余的数据进行训练。

步骤S320，根据音频标注对过滤后的音频进行分类，将原始音频分为语音数据和非语音数据，对于非语音数据需要根据音频信号的特点对它们进行进一步分类。

步骤S330，对分类后的音频以帧为单位提取梅尔倒谱系数。先提取13阶静态参数，然后分别计算它们的一阶差分和二阶差分，最终提取的参数是39维，利用这39维属性进行高斯混合模型训练。

步骤S340，对语音数据和不同类别的非语音数据采用39阶的梅尔倒谱系数分别进行高斯混合模型的训练，通过EM迭代训练确定不同高斯混合模型中各个高斯成分的权重、均值和方差。即完成对高斯混合模型的训练。

至此，语音检测模块中使用的高斯混合模型训练结束。

步骤S120，采取对数最小均方误差方法降低语音段数据中的噪声干扰；

系统在实际应用时，采集的声音不可避免存在着各种噪声。可能包括由战斗机引起的周期性噪声、由于爆炸撞击引起的冲激噪声、由于室外气流引起的宽带噪声以及周边的语音干扰。相比其它去噪方法，对数最小均方误差方法在低信噪比情况下的去噪效果较好，去噪后的语音信号识别率较高，对时变信号和突变信号去噪效果尤其明显。

如图3所示，采取对数最小均方误差方法降低噪声干扰的步骤包括：

子步骤S121，对语音段数据逐帧进行傅里叶变换，将语音信号变换到频域进行分析；

子步骤S122，在频域上对语音信号进行分解，将其分为实部和虚部两个部分；

子步骤S123，在频域上对语音信号的实部和虚部分别采用对数最小均方误差方法进行语音去噪，进而得到增强后的实部语音信号和虚部语音信号；

子步骤S124，在频域上将语音信号的实部和虚部进行组合，进行反傅里叶变换，进而将增强后的语音信号变换到时域，实现对语音信号的去噪。

综上分析，语音预增强模块在频域上将语音信号分解为实部和虚部采用最小均方误差方法分别进行增强，这在一定程度上减弱了噪声相位的干扰。

步骤S130，对预增强语音的各个子带特征进行分析，计算各帧语音信号的基音周期，如图4所示，计算基音周期的步骤包括：

子步骤S131，将语音信号0-4k的频段划分成四个子带，包括：0-1k，1k-2k，2k-3k，3k-4k，通过带通滤波器得到各子带的语音信号，后续子步骤将对上述四个子带分别进行处理；

子步骤S132，对四个子带的语音信号分别进行希尔伯特变换，得到四个子带的谱包络信号，对0-1k子带进行逆滤波，得到该子带的残差信号；后续子步骤将对四个子带的谱包络信号和0-1k子带的残差信号进行分析；

子步骤S133，对子步骤S132得到的谱包络和残差信号进行多通道梳状滤波，语音信号通过不同梳状滤波器后其谐波成分将得到突显，子谐波成分将得到抑制；对于不同通道的梳状滤波器分别计算两者的能量比，并与阈值进行比较，保留高于指定阈值的通道；

子步骤S134，对1-2k、2-3k和3-4k三个子带利用子步骤S133中所选择的梳状滤波通道分别进行清浊度计算，并与阈值进行比较，保留高于指定阈值的子带；

子步骤S135，对所选择的子带根据清浊度进行加权，清浊度高的子带可能包含更重要的基音周期信息，因此将其权重设得更高一些；

子步骤S136，利用子步骤S135得到N个候选基频，然后对N个候选基频采用最大自相法确定最终的基音周期。

综上分析，基音周期计算模块首先将语音信号划分为多个子带，对子带的谱包络和残差信号进行多通道梳状滤波并进行通道选择，根据所选通道计算各子带清浊度，对浊音特性明显的子带进行加权计算基音周期。

步骤S140，采用多层神经网络模型对提取的线谱对参数进行增强处理，降低噪声对语音谱参数提取的干扰，如图5所示，线谱对参数增强的步骤包括；

子步骤S141，对采用步骤S120进行预增强后的语音提取线谱对参数；

子步骤S142，分别对各帧线谱对参数的每一维特征进行归一化，具体通过所有线谱对参数训练样本中各维特征的均值和方差对提取的各帧线谱对参数的每一维特征进行归一化；

子步骤S143，将归一化的线谱对参数输入到多层神经网络模型，模型的输出是增强的归一化线谱对参数。

子步骤S144，对增强的归一化线谱对参数进行后处理，利用全部线谱对参数训练样本中每一维特征的均值和方差计算增强的线谱对参数。

综上分析，通过多层神经网络模型确定噪声环境下线谱对参数和安静环境下线谱对参数之间的映射关系，实现对线谱对参数的增强处理。

在语音编码方法中需要用到多层神经网络模型，以下对多层神经网络模型的训练步骤进行说明。

多层神经网络模型的训练步骤需要选择覆盖不同说话人、不同主题的音库进行训练，这样可以保证模型的鲁棒性；对于每个音频样本，需要包括原始安静语音和叠加不同信噪比条件下各种噪声的带噪语音，训练过程如图12所示。

步骤S510，采用步骤S110中的端点检测方法对训练音库中的非语音数据进行剔除，保留语音段数据进行线谱对参数提取；具体为，首先利用端点检测模块对安静语音进行端点检测，剔除非语音数据，记录非语音段数据的区间，然后将相应的带噪语音中的非语音段剔除。

步骤S520，采用步骤S120对保留的带噪语音数据进行预增强处理，消除部分噪声的干扰；

步骤S530，分别计算安静语音和所对应的预增强带噪语音的线谱对参数，得到线谱对参数的映射对；

步骤S540，采用子步骤S142对线谱对参数的各维特征进行归一化，生成神经网络模型所需的训练数据；

步骤S550，多层神经网络模型预训练，逐层优化神经网络模型的权值参数和偏置参数，得到多层神经网络模型的初始参数；

步骤S560，神经网络模型参数的确定，对于多层神经网络采用后向传播的方式进行多次迭代，优化模型参数使重构误差最小，得到最终的模型。

步骤S150，对预增强的语音段数据提取特征参数，通过已训练的隐马尔科夫模型和Viterbi算法，对语音段数据进行音素识别，并确定识别出的各音素中每个状态的时长；

如图4所示，音素识别步骤具体实现方法如下：

子步骤S151，对于每帧语音数据，对其进行特征参数提取；需要提取的语音参数包括能量、基音周期和线谱对参数；具体根据步骤S120计算语音帧的能量，根据步骤S130计算语音帧的基音周期，根据步骤S140计算语音帧的线谱对参数；

子步骤S152，对于每帧语音数据，利用子步骤S151中提取的三种语音参数，通过训练好的隐马尔科夫模型和Viterbi算法进行音素识别，并确定音素中各个状态的持续时长；

本领域技术人员应当清楚，状态层是处于音素层和语音参数层之间的层次。

综上分析，采用音素识别器对语音信号进行音素识别，进而确定所识别音素中各状态的持续时长，将每个状态所包含的语音帧组成一段，实现语音帧的聚类，将特征相似的相邻语音帧组成语音段。

在语音编码方法中需要用到隐马尔科夫模型，以下对隐马尔科夫模型的训练步骤进行说明。

模型训练步骤选择覆盖不同说话人、不同主题的音库进行隐马尔科夫模型训练，这样可以保证模型的鲁棒性，同时音库应覆盖各种声韵现象。每个音频文件需要对应一个标注文件，每个标注文件需要包含相应音频所对应的音素信息。

对于训练语料首先需要剔除非音频数据并滤除噪声，然后进行隐马尔科夫模型训练；采用步骤S110中的端点检测方法剔除非音频数据，采用步骤S120中的语音增强方法滤除噪声。如图11所示，模型训练过程包括：

步骤S510，对剔除非音频数据并滤除噪声的训练语料提取能量、线谱对参数和基音周期。

每个音素对应一个隐马尔科夫模型，模型训练时每个音素分成5个状态，对于线谱对参数和能量，每个状态对应一个多高斯分布。对于基频需要分清音和浊音两种情况考虑，采用多空间分布进行训练，利用谱参数和基频建立隐马尔科夫模型。根据特征参数类型的不同采用多个流进行训练。模型中包含5个流，其中1个流对应于能量，1个流对应于线谱对参数，另外3个流分别对应于基频以及基频的一阶和二阶差分。

步骤S520，利用提取的语音参数进行模型的初始训练，确定模型的初始概率、观测概率和转移概率。每个音素对应一个隐马尔科夫模型，每个隐马尔科夫模型包含5个状态，不同状态对应于不同的分布。采用等分法确定不同状态和不同音素之间的初始边界，并训练得到模型的初始参数，然后通过Viterbi算法调整不同状态之间边界，并重新训练更新模型参数，经过多次迭代确定模型初始概率、观测概率和转移概率即完成模型的初始训练。

步骤S530，对状态进行聚类，根据能量、线谱对参数和基音周期的声学特征将相似的状态归为1类。

步骤S540，进行模型的优化训练，更新模型参数。根据状态聚类的结果，更新模型的初始概率、观测概率和转移概率，然后通过Viterbi算法重新调整不同状态之间边界，经过多次迭代优化模型参数后确定最终的隐马尔科夫模型。

至此，隐马尔科夫模型训练过程结束。

步骤S160，对各种语音参数进行量化和编码，生成语音数据包。

参数编码步骤如图7所示，具体实现方法如下：

子步骤S161，利用步骤S150所识别音素序列中各个状态的时长，确定各个状态的边界，进而可以确定每个状态所包含的语音帧；分别计算每个状态中所包含语音帧的能量均值、基音周期均值和线谱对参数均值；

子步骤S162，对子步骤S161中计算得到的线谱对参数均值进行矢量量化，在对谱参数进行矢量量化的过程中，计算输入的谱参数与全部矢量码本的计权距离，保留与输入谱参数距离最近的码本作为线谱对参数均值的量化结果；

子步骤S163，对基音周期均值和增益均值进行非线性量化。对基音周期均值进行非线性量化时，根据基音周期的取值范围将其等分成若干个区间，由于语音数据基音周期的统计分布不均匀，集中分布在部分区间内，因此可以对分布较稀疏的相邻区间进行合并，减少基音周期的量级，从而降低对基音周期编码的比特数。对增益均值进行非线性量化时，根据增益的取值范围将其分成若干个区间，利用语音数据增益的统计分布不均匀这一特性，对分布较稀疏的相邻区间进行合并，减少增益的量级，实现对数据的有效压缩。

子步骤S164，将量化后的线谱对参数均值、基音周期均值、增益均值和单个状态内的语音帧个数组成数据包，其中，数据包第一位作为同步头，语音参数按照线单个状态内的语音帧个数、谱对参数均值、基音周期均值、增益均值的顺序依次排列，数据包最后一位作为奇偶校验位。

综上分析，在进行语音参数量化的过程中，仅对包含若干帧的每个语音段中的各种语音参数均值特征进行量化；

采用上述方法进行语音编码，通过定量的分析可以确定传输速率可降到低于500bps。在发送端完成数据编码后，将数据包加载到信道中进行传输。

本发明中提供了一种语音数据的解码方法，如图1所示。该解码方法包括：对接收到的语音数据包进行解码，提取每段语音的谱参数、基音周期和能量均值特征以及语音帧数，通过上述参数和全局方差采用动态参数生成算法计算各帧语音参数，最后通过声码器合成语音。该解码方法还包括：参数解码步骤和语音生成步骤。

步骤S210，对接收到的语音数据包进行解码，对语音帧个数、线谱对参数均值、基音周期均值和能量均值进行解析。

如图5所示，数据解码步骤的具体实现方法如下：

子步骤S211，对语音数据包的校验信息进行检验，判断同步头和奇偶校验位的正确性。

子步骤S212，在确定数据包在通信系统中正确传输后，对语音帧个数进行解析，确定语音段的持续时间。

子步骤S213，对线谱对参数均值、基音周期均值和能量均值进行解析；选择相应的矢量码本对线谱对参数均值进行解析；根据相应的量级对语音段的基音周期均值和能量均值进行解析。

综上分析，在进行语音参数解码的过程中，仅对包含若干帧的每个语音段中的各种语音参数均值特征进行解码；然后利用各种语音参数的均值特征和全局方差采用动态参数生成算法计算每帧语音的最优参数。

无论在编码方法，还是在解码方法中，都需要用到矢量码本，以下对矢量码本的训练步骤进行说明。

矢量码本的训练步骤需要选择覆盖不同说话人、不同主题的音库进行训练，这样可以保证矢量码本的鲁棒性。矢量码本的训练过程如图8所示。

步骤S610，对每个训练音频采用步骤S110中的方法进行端点检测，剔除训练音库中的非语音数据，保留语音数据进行后续处理。

步骤S620，对训练音库中的语音数据提取线谱对参数，并计算各阶线谱对参数与其后一阶线谱对参数的差分。

步骤S630，利用线谱对参数的升序特性，剔除不稳定的数据，如果线谱对参数不满足升序特性或者相邻两阶谱参数的距离小于阈值，则将其从训练数据中剔除。

步骤S640，对训练码本进行初始训练，确定初始化码本；设定初始阈值T，设初选码本集中目标码本个数为N；从训练码本中随机选择一个码本加入到初选码本集，遍历其余训练码本计算各训练样本与初选码本集中各码本的计权距离，如果某训练样本与初选码本集中各码本的计权距离均大于T，则将该训练样本加入到初选码本集中；如果遍历训练样本结束时初选码本集的样本个数不等于N，则对阈值进行调整后重新进行码本初始训练直到遍历结束时初选码本集中的样本个数为N。

步骤S660，将步骤S640中得到的N个初选码本作为N个类别的初始质心，计算训练码本中各样本与N个质心的计权距离，将各样本分到与其距离最小的类别中，完成对训练样本的遍历后累计计算各训练样本与其类别质心的计权距离作为训练误差，然后利用各类别中包含的样本重新计算各类别的质心，根据更新后的质心重新对训练样本进行分类并计算训练误差，根据当前训练误差和上一次训练误差计算相对误差，如果大于0.0001则继续迭代，否则停止迭代并当前各类别的质心作为最终的矢量码本。

步骤S220，根据解码后重构的语音参数以帧为单位合成语音。

如图9所示，语音生成步骤具体实现方法如下：

子步骤S221，在已知各语音段的参数均值特征、全局方差以及包含语音帧个数的基础上，通过动态参数生成算法计算最优的参数序列。本子步骤中，需要同时考虑了谱参数和基频的静态特征以及一阶和二阶差分的动态特征，避免了生成的参数在状态模型衔接处的不连续现象，保证了生成参数的平滑性。

子步骤S222，为了使合成语音和原始语音在共振区有很好的匹配，引入了自适应谱增强技术，自适应谱增强模块通过突出激励谱中共振峰频率处的幅度谱，达到提高整个短时谱在共振峰处信噪比的目的，可以有效的弥补线性预测型滤波器只是极点滤波器的缺点，增强合成语音共振峰的结构，防止合成语音听起来发闷；

子步骤S223，采用参数合成法利用语音的激励参数和线性预测参数进行语音合成；将激励信号通过自适应谱增强后的滤波器输出合成后的语音，其中滤波器的系数是通过线谱对参数计算得到的线性预测系数。

子步骤S224，以每个基音同步周期为单元，对增益进行调节；

子步骤S225，通过脉冲扩散滤波器，将激励信号的能量在一个基音周期中进行扩散，减弱某些频带处周期性作用，从而减少在合成语音中的刺耳的成分，使合成语音的蜂鸣效果降低，变得更为连贯和自然；

子步骤S226，对编解码后的语音进行均衡处理，调整各频段的增益值，使低码率下合成的语音明亮透彻。分析人耳的听感特性，2-4kHz频段对声音的亮度影响很大，这段声音不宜衰减，适当的提升可以提高声音的明亮度和清晰度，因此对解码后合成的语音适当增加这一频段的强度。

综上所述，本发明提出了一种语音编码及解码方法，获取原始音频，通过端点检测剔除原始音频中的非语音数据，获得语音段数据；对每帧语音数据进行预增强，剔除部分噪声的干扰后计算语音能量；对每帧语音数据通过分析各子带的周期特性和清浊状态计算基音周期，采用多层神经网络模型对谱参数进行增强；通过谱参数、基音周期和能量进行语音帧聚类，将特征相似的相邻帧组成一个语音段；计算每段语音谱参数、基音周期和能量的均值特征以及每段语音的帧数后分别进行参数量化；对量化后的各种语音参数进行编码，生成语音数据包并发送；接收端对接收到的语音数据包进行解码，提取每段语音的谱参数、基音周期和能量均值特征以及语音帧数，通过上述参数和全局方差采用动态参数生成算法计算各帧语音参数，最后通过声码器合成语音。解码后的语音保持较高的可懂度，同时系统具有高鲁棒性，不受说话人、文本内容、声音采集环境的限制，便于实际应用。

需要说明的是，上述对各部件的实现方式并不仅限于实施方式中提到的各种实现方式，本领域的普通技术人员可对其进行简单地熟知地替换，例如：

(1)语音编码和解码中用到的谱参数是线谱对参数，可以用其它参数替代，如使用不同阶数的梅尔倒谱系数。

(2)基音周期分析时采用线性频率刻度等间隔划分子带，可以用其它频率刻度划分子带，如使用梅尔频率刻度。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音数据的编码方法，其特征在于，包括：端点检测模块首先通过短时能量、短时过零率和各频带能量分布将原始音频分为非语音数据和待甄别数据，然后对待甄别数据通过子带谐波、子带谱包络和子带熵剔除部分非语音数据，对于保留下来的待甄别数据通过语音数据的高斯混合模型和非语音数据的高斯混合模型判断是否为语音数据。

2.根据权利要求1所述的音数据的编码方法，其特征在于，包括：

基音周期计算模块首先将语音信号划分为多个子带，对子带的谱包络和残差信号进行多通道梳状滤波并进行通道选择，根据所选通道计算各子带清浊度，对浊音特性明显的子带进行加权计算基音周期。

3.根据权利要求1所述的音数据的编码方法，其特征在于，包括：

通过多层神经网络模型确定噪声环境下线谱对参数和安静环境下线谱对参数之间的映射关系，实现对线谱对参数的增强处理。

4.根据权利要求1所述的音数据的编码方法，其特征在于，语音数据还包括进一步处理：采用音素识别器对语音信号进行音素识别，进而确定所识别音素中各状态的持续时长，将每个状态所包含的语音帧组成一段，实现语音帧的聚类，将特征相似的相邻语音帧组成语音段。

5.根据权利要求4所述的音数据的编码方法，其特征在于，还包括：

在进行语音参数量化的过程中，仅对包含若干帧的每个语音段中的各种语音参数均值特征进行量化和传输。

6.根据权利要求5所述的音数据的编码方法，其特征在于，还包括：

在进行语音参数解码的过程中，仅对包含若干帧的每个语音段中的各种语音参数均值特征进行解码；然后利用各种语音参数的均值特征和全局方差采用动态参数生成算法确定每帧语音的最优参数。