CN103247293A - 一种语音数据的编码及解码方法 - Google Patents
一种语音数据的编码及解码方法 Download PDFInfo
- Publication number
- CN103247293A CN103247293A CN2013101767016A CN201310176701A CN103247293A CN 103247293 A CN103247293 A CN 103247293A CN 2013101767016 A CN2013101767016 A CN 2013101767016A CN 201310176701 A CN201310176701 A CN 201310176701A CN 103247293 A CN103247293 A CN 103247293A
- Authority
- CN
- China
- Prior art keywords
- parameter
- speech data
- speech
- data
- pitch period
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 238000001228 spectrum Methods 0.000 claims abstract description 88
- 230000005284 excitation Effects 0.000 claims abstract description 28
- 238000013139 quantization Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000011002 quantification Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 61
- 230000008859 change Effects 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 9
- 238000007906 compression Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 241001269238 Data Species 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims description 2
- 230000003407 synthetizing effect Effects 0.000 abstract 1
- 238000012546 transfer Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000001174 ascending effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000005086 pumping Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000695 excitation spectrum Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供了一种语音数据的编码方法和解码方法。该编码方法包括:获取原始音频,通过端点检测剔除原始音频中的非语音数据,获得语音段数据;对每帧语音数据提取谱参数、基音周期等参数,并计算连续多帧语音数据的增益均值,通过矢量码本对谱参数进行矢量量化,对基音周期和增益均值进行非线性量化;对量化后的各种语音参数进行编码,生成语音数据包。该解码方法包括:对接收到的语音数据包进行解码,提取谱参数、基音周期、增益均值等参数,通过上述参数对激励参数和能量变化轨迹进行预测,最后通过声码器合成语音。本发明可以在极低编码速率的情况下,保持较高的语音音质。
Description
技术领域
本发明涉及智能信息处理领域,尤其涉及一种语音数据的编码及解码方法。
背景技术
语音作为人类交流信息的主要手段之一,语音编码一直在通信系统中占据重要的地位。语音的数据量非常庞大,不便于直接进行传输和存储处理,同时很多领域对语音的压缩传输率要求很高,因此必须对语音进行合理有效的处理,以减少语音信号的传输速率和存储量,即进行语音压缩编码,因此极低速率语音编码已经越来越受到关注,语音信号中有很大的信息冗余,压缩的每一个比特都意味着节省开支,低速率数字语音传输具有重大的实用价值,高质量的低速率语音编码技术在移动通信、卫星通信、多媒体技术以及IP电话通信中得到了普遍应用。
目前已有的极低速率语音编码大部分采用参数语音编码的方法实现极低速率下的语音传输。将多帧联合编码和内插等技术引入到经典的参数编码方法后,可以使语音在600bps速率下传输,接收端生成的语音仍具有可懂性。如果进一步降低语音传输速率,语音的音质将明显降低,这种方法将难以适用。通过传统的语音识别系统识别出对应的文本信息后进行传输,可以将传输速率降至200bps以下,但是采用这种方法识别出的文本难以保证较高的准确率,同时说话人的特征难以保留。
发明内容
(一)要解决的技术问题
为解决上述的一个或多个问题,本发明提供了一种语音数据的编码方法及解码方法,以在极低编码速率的情况下,保持较高的语音音质。
(二)技术方案
根据本发明的一个方面,提出了一种语音数据的编码方法,该方法包括步骤:步骤S100,获取原始音频,剔除原始音频中的非语音数据,获得语音段数据,后续只对语音段数据进行量化、编码和传输;步骤S200,对输入的语音段数据进行特征参数提取,提取的特征参数包括线谱对、基音周期和增益均值,然后对上述参数进行参数变换,转成参数量化时所需要的格式;步骤S300,对各种语音参数进行量化和编码,生成语音数据包。
根据本发明的另一方面,还提出了一种语音数据的解码方法,该方法对接收到的语音数据包进行解码,提取谱参数、基音周期、增益均值和清浊状态参数,通过上述参数对激励参数和增益变化轨迹进行预测,然后通过声码器合成语音,其中采用高斯混合模型对增益变化轨迹进行预测,模型的输入参数是谱参数差分、基音周期差分和增益均值,模型的输出参数是增益变化轨迹。
(三)有益效果
从上述技术方案可以看出,本发明语音数据的编码方法及解码方法具有以下有益效果:
(1)发送端只需对谱参数、基音周期、清浊状态和多帧增益的均值进行编码。通过定量的分析可以确定其编码速率可低于500bps,能够实现语音数据在极低码率下的有效传输。
(2)发送端在对语音参数进行量化时,充分考虑了听觉感知特性,将有损压缩放到对人耳听感不敏感处,在实现对语音数据的有效压缩的同时尽可能保证语音的音质。
(3)接收端在完成对谱参数、基音周期、清浊状态和多帧增益的均值解码后,利用不同类别语音参数的相关性对激励参数和增益变化轨迹进行预测,最后通过声码器生成语音。
(4)传输的语音数据不受说话人、文本内容、声音采集环境的限制,因此系统具有高鲁棒性,便于实际应用。
附图说明
图1为根据本发明实施例的语音数据的编码方法及解码方法的整体结构示意图;
图2为图1所示语音数据的编码方法中端点检测模块的结构示意图;
图3为图1所示语音数据的编码方法中参数提取模块的结构示意图;
图4为图1所示语音数据的编码方法中参数编码模块的结构示意图;
图5为图1所示语音数据的解码方法中参数解码模块的结构示意图;
图6为图1所示语音数据的解码方法中参数预测模块的结构示意图;
图7为图1所示语音数据的解码方法中语音生成模块的结构示意图;
图8为本发明实施例的语音数据的编码/解码方法中谱参数矢量码本的离线训练过程的示意图;
图9为本发明实施例的语音数据的编码/解码方法中端点检测模块中高斯混合模型离线训练过程的示意图;
图10为本发明实施例的语音数据的编码/解码方法中参数预测模块中高斯混合模型/隐马尔科夫模型离线训练过程的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。
本发明提出了一种基于参数的语音数据编解码机制。该机制分为编码方法和解码方法。编码方法将采集到的语音提取特征参数并对各种参数进行量化和编码组成语音数据包,通过信道进行传输,具体包括:获取原始音频,通过端点检测剔除原始音频中的非语音数据,获得语音段数据;对每帧语音数据提取谱参数、基音周期、清浊状态等参数,并计算连续多帧语音数据的增益均值,通过矢量码本对谱参数进行联合矢量量化,对基音周期和增益均值进行非线性量化,在对语音参数进行量化的过程中,充分考虑听觉感知特性,将有损压缩尽可能放到对人耳听觉不敏感处;对量化后的参数进行编码,生成语音数据包。
解码方法从信道中获取语音数据包,对语音数据包进行解析,重构语音参数,恢复原始的语音,实现了语音数据在极低码率下的传输。具体包括:对接收到的语音数据包进行解码,重构谱参数、基音周期、增益均值和清浊状态,通过上述参数对激励参数和增益变化轨迹进行预测,然后通过声码器合成语音。
图1为本发明提出的语音数据的编码方法和解码方法的原理图。如图1所示,本编码方法包括:获取原始音频,通过端点检测模块剔除原始音频中的非语音数据,获得语音段数据;对每帧语音数据提取谱参数、基音周期、清浊状态等参数,并计算连续多帧语音数据的增益均值,通过矢量码本对谱参数进行矢量量化,对基音周期和增益均值进行非线性量化,在对语音参数进行量化的过程中,充分考虑听觉感知特性,将有损压缩尽可能放到对人耳听觉不敏感处;对量化后的谱参数、基音周期、增益均值和清浊状态进行编码,生成语音数据包并加载到通信系统中进行传输。该编码方法包括端点检测步骤、参数提取步骤、参数编码步骤。下面对各个功能步骤采用的方法进行详细介绍。
步骤S110,获取原始音频,利用时域和变换域上的不同参数进行端点检测,剔除原始音频中的非语音数据,获得语音段数据,后续只对语音段数据进行量化、编码和传输,可以进一步降低系统对数据的传输速率。
利用短时能量和短时过零率可以有效的从原始音频中检测出静音段数据和宽带噪声;通过分析音频数据中各频带能量的比重可以有效的从原始音频中检测出周期噪声和冲击性噪声;通过对比不同段音频数据的梅尔频率倒谱系数可以对语音信号和音乐信号进行区分。利用上述各参数可以有效的从原始音频中保留语音数据,拒绝非语音数据。如图2所示,端点检测步骤如下:
子步骤S111,将原始音频等间隔分成若干子段,计算每段原始音频的短时能量、短时过零率和各频带能量,通过各频带能量计算100Hz-2000Hz频段能量的比重;
子步骤S112,将每段原始音频的短时能量、短时过零率和100Hz-2000Hz频段能量的比重分别与预先设定的取值范围进行比较;如果三个参数都在取值范围内,则判定为待甄别数据;如果三个参数都超出取值范围,则判定为非语音段数据;如果其中一个或两个参数在取值范围内并且相邻两段音频为待甄别数据,则判定为待甄别数据否则判定为非语音数据;通过上述判定可将采集的音频数据分为非语音段数据和待甄别段数据,后续步骤只对待甄别数据进行处理;
子步骤S113,对待甄别数据以帧为单位提取梅尔倒谱系数,先提取13阶静态参数,然后分别计算它们的一阶差分和二阶差分,最终提取的参数是39维,利用这39维属性进行语音检测。将参数分别输入到语音数据的高斯混合模型和各种非语音数据的高斯混合模型中,如果当前帧输入到语音数据的高斯混合模型时输出概率最大则判定为语音数据,否则判定为非语音数据;对于判定结果需要进行后处理,如果当前帧判为非语音数据但相邻两帧判为语音数据,则将当前帧改判成语音数据。
综上分析,端点检测模块首先通过短时能量、短时过零率和各频带能量分布将原始音频分为非语音数据和待甄别数据,对于待甄别数据通过语音数据的高斯混合模型和非语音数据的高斯混合模型判断是否为语音数据。
在端点检测过程中,需要对语音数据的高斯混合模型和非语音数据的高斯混合模型进行训练,以下对上述模型的训练步骤进行说明。
模型训练步骤需要选择各种类型的音频进行高斯混合模型的训练,这样可以保证模型的鲁棒性,提高语音检测的准确率。每个音频文件需要对其类别进行标注。模型训练过程如图9所示。
步骤S310,对全部训练音库进行音频过滤;采用步骤S111中的方法计算各段音频的短时能量、短时过零率和各频带能量,然后采用步骤S112中的方法剔除部分非语音数据,后续步骤只对剩余的数据进行训练。
步骤S320,根据音频标注对过滤后的音频进行分类,将原始音频分为语音数据和非语音数据,对于非语音数据需要根据音频信号的特点对它们进行进一步分类。
步骤S330,对分类后的音频以帧为单位提取梅尔倒谱系数。先提取13阶静态参数,然后分别计算它们的一阶差分和二阶差分,最终提取的参数是39维,利用这39维属性进行高斯混合模型训练。
步骤S340,对语音数据和不同类别的非语音数据采用39阶的梅尔倒谱系数分别进行高斯混合模型的训练,通过EM迭代训练确定不同高斯混合模型中各个高斯成分的权重、均值和方差。即完成对高斯混合模型的训练。
至此,语音检测模块中使用的高斯混合模型训练结束。
步骤S130,对输入的语音段数据进行特征参数提取,提取的特征参数包括线谱对、基音周期和增益均值,然后对上述参数进行参数变换,转成参数量化时所需要的格式。
如图3所示,参数提取步骤的具体实现方法如下:
子步骤S131,对于每帧语音数据进行高通滤波,消除语音采集过程中带来的工频干扰;
子步骤S132,计算每帧语音数据的线谱对、基音周期和连续多帧语音数据的增益均值;
通过自相关法计算每帧语音参数的线性预测系数,然后对线性预测系数进行带宽扩展,最后将线性预测系数转换成线谱对参数。
采用自相关法计算每帧语音数据的基音周期,分别进行整数基音周期的粗估算、分数基音的提取、基音周期的倍频检测、基音周期的平滑,最后利用线性预测系数计算每帧语音的残差信号并通过残差信号进行基音周期的最终估计。
在计算每帧语音数据的增益时,需要根据基音周期确定参与计算的采样点;最后计算连续多帧语音数据的增益均值。
子步骤S133,对每帧语音的谱参数、基音周期和连续多帧语音的增益均值进行参数变换。在对谱参数进行矢量量化的过程中所使用的特征参数是线谱对参数和相邻阶线谱对参数的差分。对各阶线谱对参数,需要计算它与后一阶线谱对参数的差分。对于基音周期和增益均值需要将它们变换到对数域进行后续处理。
步骤S140,对各种语音参数进行量化和编码,生成语音数据包。
参数编码步骤如图5所示,具体实现方法如下:
子步骤S141,采用多帧联合的方式对谱参数进行矢量量化,在对谱参数进行矢量量化的过程中,计算输入的谱参数与全部矢量码本的计权距离,保留与输入谱参数距离最近的前N个码本作为次优码本进行后续处理。然后使用前几阶线谱对参数作为特征参数从次优码本中选择最佳码本对谱参数进行矢量量化。
对于连续多帧语音数据,只需对关键帧的基音周期进行量化和编码,由于清音帧不存在基音周期,因此只在浊音帧中确定关键帧;人耳对与清音帧相邻浊音帧的基音周期量化误差不敏感,对稳态浊音帧的基音周期量化误差比较敏感;因此从稳态浊音帧中选取关键帧进行量化和编码,由于稳态的浊音帧基音周期变化平缓,可以隔帧抽取语音帧作为关键帧。
子步骤S142,从N个次优码本中选择最佳码本对谱参数进行联合矢量量化,由于线谱对参数中的前几阶参数对人耳的听感影响较大,因此在从次优码本中搜索最佳码本时只考虑前几阶线谱对参数,次优码本中前几阶计权误差最小的码本为最优码本。
对基音周期和增益均值进行非线性量化。对基音周期进行非线性量化时,根据基音周期的取值范围将其等分成若干个区间,由于语音数据基音周期的统计分布不均匀,集中分布在部分区间内,因此可以对分布较稀疏的相邻区间进行合并,减少基音周期的量级,从而降低对基音周期编码的比特数。对增益均值进行非线性量化时,根据增益的取值范围将其分成若干个区间,利用语音数据增益的统计分布不均匀这一特性,对分布较稀疏的相邻区间进行合并,减少增益的量级,实现对数据的有效压缩。
子步骤S143,将量化后的谱参数、基音周期、增益均值和语音帧的清浊组合情况组成数据包,其中,数据包第一位作为同步头,语音参数按照清浊组合情况、谱参数、增益均值和基音周期的顺序依次排列,数据包最后一位作为奇偶校验位。
采用上述方法进行语音编码,通过定量的分析可以确定传输速率可降到低于500bps。在发送端完成数据编码后,将数据包加载到信道中进行传输。
本发明中提供了一种语音数据的解码方法,如图1所示。该解码方法包括:对接收到的语音数据包进行解码,提取谱参数、基音周期、增益均值和清浊状态等参数,通过上述参数对激励参数和增益变化轨迹进行预测,然后通过声码器合成语音。该解码方法还包括:数据解码步骤、参数预测步骤和语音生成步骤。
步骤S210,对接收到的语音数据包进行解码,对各语音帧的清浊状态、谱参数、基音周期和增益均值进行解析。
如图5所示,数据解码步骤的具体实现方法如下:
子步骤S211,对语音数据包的校验信息进行检验,判断同步头和奇偶校验位的正确性。
子步骤S212,在确定数据包在通信系统中正确传输后,对各语音帧的清浊状态进行解析,确定语音帧的清浊组合情况。
子步骤S213,对谱参数、基音周期和增益均值进行解析;根据语音帧的清浊组合情况,选择相应的矢量码本对谱参数进行解析;根据语音帧的清浊组合情况确定关键帧的位置并对关键帧的基音周期进行解析,然后通过内插、差分等方式计算其余浊音帧的基音周期;最后对多帧语音数据的增益均值进行解析。
无论在编码方法,还是在解码方法中,都需要用到矢量码本,以下对矢量码本的训练步骤进行说明。
矢量码本的训练步骤需要选择覆盖不同说话人、不同主题的音库进行训练,这样可以保证矢量码本的鲁棒性。矢量码本的训练过程如图8所示。
步骤S410,对每个训练音频采用步骤S110中的方法进行端点检测,剔除训练音库中的非语音数据,保留语音数据进行后续处理。
步骤S420,对训练音库中的语音数据提取线谱对参数,并计算各阶线谱对参数与其后一阶线谱对参数的差分。
步骤S430,利用线谱对参数的升序特性,剔除不稳定的数据,如果线谱对参数不满足升序特性或者相邻两阶谱参数的距离小于阈值,则将其从训练数据中剔除。
步骤S440,对每帧语音数据进行清浊判断,根据语音帧清浊组合的不同对训练数据进行分类,生成相应模式下的训练数据,分别进行码本训练。
步骤S450,对训练码本进行初始训练,确定初始化码本;设定初始阈值T,设初选码本集中目标码本个数为N;从训练码本中随机选择一个码本加入到初选码本集,遍历其余训练码本计算各训练样本与初选码本集中各码本的计权距离,如果某训练样本与初选码本集中各码本的计权距离均大于T,则将该训练样本加入到初选码本集中;如果遍历训练样本结束时初选码本集的样本个数不等于N,则对阈值进行调整后重新进行码本初始训练直到遍历结束时初选码本集中的样本个数为N。
步骤S460,将步骤S450中得到的N个初选码本作为N个类别的初始质心,计算训练码本中各样本与N个质心的计权距离,将各样本分到与其距离最小的类别中,完成对训练样本的遍历后累计计算各训练样本与其类别质心的计权距离作为训练误差,然后利用各类别中包含的样本重新计算各类别的质心,根据更新后的质心重新对训练样本进行分类并计算训练误差,根据当前训练误差和上一次训练误差计算相对误差,如果大于0.0001则继续迭代,否则停止迭代并当前各类别的质心作为最终的矢量码本。
步骤S220,通过重构的谱参数、基音周期和增益均值对增益变化轨迹和激励参数进行预测;
如图6所示,参数预测步骤具体实现方法如下:
对输入的连续多帧语音数据,提取重构的谱参数、基音周期和增益均值,计算多帧语音数据中相邻帧谱参数和基音周期的差值将其作为谱参数和基音周期的差分特征,将谱参数差分特征、基音周期差分特征和增益均值作为参数预测模型的输入参数,通过参数预测模型对连续多帧语音数据的增益变化轨迹和每帧语音数据的激励参数进行预测。
采用高斯混合模型对增益变化轨迹进行预测,模型的输入参数是谱参数差分、基音周期差分和增益均值,模型的输出参数是增益变化轨迹。将模型输入参数和模型输出参数组成联合矢量进行高斯混合模型训练,由此可以得到输入参数和输出参数的联合概率分布,然后在最小均方差原则下,通过联合概率分布可以计算在已知输入参数的条件下输出参数的条件概率分布。在已知谱参数差分特征、基音周期差分特征、增益均值的条件下通过条件概率分布公式对增益变化轨迹进行预测。
采用隐马尔科夫模型对激励参数进行预测。模型的输入参数是谱参数差分、基音周期差分和增益均值,模型的输出参数是各子带的清浊状态和浊音帧脉冲激励的形式。将每帧语音与相邻两帧谱参数的差分特征、与相邻两帧基音周期的差分特征和增益均值作为观测序列,将每帧语音数据各子带的清浊状态、浊音帧脉冲激励的形式等激励参数进行编码后作为状态序列,进行隐马尔科夫模型的训练。对于输入的连续多帧语音数据,通过隐马尔科夫模型可以对每帧语音数据各子带的清浊状态和浊音帧脉冲激励的形式等激励参数进行预测。
在进行参数预测时用到了高斯混合模型和隐马尔科夫模型,以下对它们的训练步骤进行说明。
模型训练步骤需要选择覆盖不同说话人、不同主题的音库进行训练,这样可以保证训练模型的鲁棒性。模型训练过程如图10所示。
步骤S510,对每个训练音频采用步骤S110中的方法进行端点检测,剔除训练音库中的非语音数据,保留语音数据进行后续处理。
步骤S520,提取每帧语音数据的线谱对参数、基音周期、增益、各子带的清浊状态、浊音帧脉冲激励的形式等语音参数。
步骤S530,利用线谱对参数的升序特性,剔除不稳定的数据,如果线谱对参数不满足升序特性或者相邻两阶谱参数的距离小于阈值,则将其从训练数据中剔除。
步骤S540,将提取的语音参数变换成训练高斯混合模型和隐马尔科夫模型所需要的形式,对于谱参数和基音周期需要计算相邻帧的差分特征,对于增益参数需要计算连续多帧的均值以及各帧增益与均值的差值,对于各子带的清浊状态和浊音帧脉冲激励的形式需要根据不同组合进行编码。
步骤S550,进行高斯混合模型训练和隐马尔科夫模型训练。
利用谱参数的差分特征、基音周期的差分特征、增益均值和增益变化轨迹进行高斯混合模型训练,通过EM迭代训练确定高斯混合模型中各个高斯成分的权重、均值和方差,得到多个参数的联合概率分布。即完成对高斯混合模型的训练。
将每帧语音与相邻两帧谱参数的差分特征、基音周期的差分特征和增益均值作为观测序列,将各子带的清浊状态和浊音帧脉冲激励的形式进行编码后作为状态序列,进行隐马尔科夫模型的训练。经过多次迭代确定模型的初始概率、观测概率和转移概率。即完成对隐马尔科夫模型的训练。
步骤S230,根据解码后重构的语音参数以帧为单位合成语音。
如图7所示,语音生成步骤具体实现方法如下:
子步骤S231,激励信号是由脉冲激励和噪声激励叠加而生成的,其中脉冲激励是周期脉冲或非周期脉冲,噪声激励是各种随机噪声模型;将语音信号分成若干个子带,每个子带对应一个脉冲激励或噪声激励,将各个子带的激励叠加作为合成语音的激励源。各个子带的激励形式通过步骤S220计算得到。
子步骤S232,为了使合成语音和原始语音在共振区有很好的匹配,引入了自适应谱增强技术,自适应谱增强模块通过突出激励谱中共振峰频率处的幅度谱,达到提高整个短时谱在共振峰处信噪比的目的,可以有效的弥补线性预测型滤波器只是极点滤波器的缺点,增强合成语音共振峰的结构,防止合成语音听起来发闷;
子步骤S233,采用参数合成法利用语音的激励参数和线性预测参数进行语音合成;将激励信号通过自适应谱增强后的滤波器输出合成后的语音,其中滤波器的系数是通过线谱对参数计算得到的线性预测系数。
子步骤S234,以每个基音同步周期为单元,对增益进行调节;
子步骤S235,通过脉冲扩散滤波器,将激励信号的能量在一个基音周期中进行扩散,减弱某些频带处周期性作用,从而减少在合成语音中的刺耳的成分,使合成语音的蜂鸣效果降低,变得更为连贯和自然;
子步骤S236,对编解码后的语音进行均衡处理,调整各频段的增益值,使低码率下合成的语音明亮透彻。分析人耳的听感特性,2-4kHz频段对声音的亮度影响很大,这段声音不宜衰减,适当的提升可以提高声音的明亮度和清晰度,因此对解码后合成的语音适当增加这一频段的强度。
综上所述,本发明提出了一种语音编码及解码方法,对每帧语音数据提取谱参数、基音周期、增益均值等参数,通过矢量码本对谱参数进行矢量量化,对基音周期和增益均值进行非线性量化;对量化后的参数进行编码,生成语音数据包。对接收到的语音数据包进行解码,提取谱参数、基音周期、增益均值等参数,通过上述参数对激励参数和增益变化轨迹进行预测,然后通过声码器合成语音。解码后的语音保持较高的可懂度,同时系统具有高鲁棒性,不受说话人、文本内容、声音采集环境的限制,便于实际应用。
需要说明的是,上述对各部件的实现方式并不仅限于实施方式中提到的各种实现方式,本领域的普通技术人员可对其进行简单地熟知地替换,例如:
(1)语音编码和解码中用到的谱参数是线谱对参数,可以用其它参数替代,如使用不同阶数的梅尔倒谱系数。
(2)对增益轨迹进行预测时输入参数进行调整,如通过线谱对参数、基音周期和增益均值对增益变化轨迹进行预测。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种语音数据的编码方法,其特征在于,包括:
步骤S100,获取原始音频,剔除原始音频中的非语音数据,获得语音段数据,后续只对语音段数据进行量化、编码和传输;
步骤S200,对输入的语音段数据进行特征参数提取,提取的特征参数包括线谱对、基音周期和增益均值,对上述参数进行参数变换,转成参数量化时所需要的格式;
步骤S300,对各种语音参数进行量化和编码,生成语音数据包。
2.根据权利要求1所述的方法,其特征在于,步骤S100进一步包括步骤:
步骤S111,将原始音频等间隔分成若干子段,计算每段原始音频的短时能量、短时过零率和各频带能量,通过各频带能量计算100Hz-2000Hz频段能量的比重;
步骤S112,将每段原始音频的短时能量、短时过零率和100Hz-2000Hz频段能量的比重分别与预先设定的取值范围进行比较,如果三个参数都在取值范围内,则判定为待甄别数据,如果三个参数都超出取值范围,则判定为非语音段数据,如果其中一个或两个参数在取值范围内并且相邻两段音频为待甄别数据,则判定为待甄别数据否则判定为非语音数据;通过上述判定可将采集的音频数据分为非语音段数据和待甄别段数据,后续步骤只对待甄别数据进行处理;
步骤S113,对待甄别数据以帧为单位提取梅尔倒谱系数,先提取13阶静态参数,然后分别计算它们的一阶差分和二阶差分,最终提取的参数是39维,利用这39维属性进行语音检测,将参数分别输入到语音数据的高斯混合模型和各种非语音数据的高斯混合模型中,如果当前帧输入到语音数据的高斯混合模型时输出概率最大则判定为语音数据,否则判定为非语音数据,对于判定结果需要进行后处理,如果当前帧判为非语音数据但相邻两帧判为语音数据,则将当前帧改判成语音数据。
3.根据权利要求2所述的方法,其特征在于,步骤S100进一步包括对高斯混合模型和非语音数据的高斯混合模型进行训练,选择各种类型的音频进行训练,该步骤进一步包括:
步骤a,对全部训练音库进行音频过滤,采用步骤S111中的方法计算各段音频的短时能量、短时过零率和各频带能量,然后采用步骤S112中的方法剔除部分非语音数据,后续步骤只对剩余的数据进行训练,
步骤b,根据音频标注对过滤后的音频进行分类,将原始音频分为语音数据和非语音数据,对于非语音数据需要根据音频信号的特点对它们进行进一步分类。
步骤c,对分类后的音频以帧为单位提取梅尔倒谱系数,先提取13阶静态参数,然后分别计算它们的一阶差分和二阶差分,最终提取的参数是39维,利用这39维属性进行高斯混合模型训练;
步骤d,对语音数据和不同类别的非语音数据采用39阶的梅尔倒谱系数分别进行高斯混合模型的训练,通过EM迭代训练确定不同高斯混合模型中各个高斯成分的权重、均值和方差,即完成对高斯混合模型的训练。
4.根据权利要求2所述的方法,其特征在于,步骤S200进一步包括:
步骤S211,对于每帧语音数据进行高通滤波,消除语音采集过程中带来的工频干扰;
步骤S212,计算每帧语音数据的线谱对、基音周期和连续多帧语音数据的增益均值;
子步骤S213,对每帧语音的谱参数、基音周期和连续多帧语音的增益均值进行参数变换。
5.根据权利要求4所述的方法,其特征在于,步骤S212进一步包括:通过自相关法计算每帧语音参数的线性预测系数,然后对线性预测系数进行带宽扩展,最后将线性预测系数转换成线谱对参数;采用自相关法计算每帧语音数据的基音周期,分别进行整数基音周期的粗估算、分数基音的提取、基音周期的倍频检测、基音周期的平滑,最后利用线性预测系数计算每帧语音的残差信号并通过残差信号进行基音周期的最终估计;在计算每帧语音数据的增益时,根据基音周期确定参与计算的采样点,最后计算连续多帧语音数据的增益均值。
6.根据权利要求4所述的方法,其特征在于,步骤S300进一步包括:在对谱参数进行矢量量化的过程中所使用的特征参数是线谱对参数和相邻阶线谱对参数的差分,对各阶线谱对参数,计算它与后一阶线谱对参数的差分,对于基音周期和增益均值则将它们变换到对数域进行后续处理。
7.根据权利要求6所述的方法,其特征在于,步骤S300进一步包括:
在对谱参数进行矢量量化的过程中,计算输入谱参数与全部矢量码本的距离,保留与输入谱参数距离最近的前N个码本作为次优码本进行后续处理,然后使用前几阶线谱对参数作为特征参数从次优码本中选择最佳码本对谱参数进行矢量量化。
8.根据权利要求7所述的方法,其特征在于,步骤S300进一步包括:对基音周期进行非线性量化时,根据基音周期的取值范围将其等分成若干个区间,对分布较稀疏的相邻区间进行合并,减少基音周期的量级,从而降低对基音周期编码的比特数。
9.根据权利要求8所述的方法,其特征在于,步骤S300进一步包括:对增益均值进行非线性量化时,根据增益的取值范围将其分成若干个区间,利用语音数据增益的统计分布不均匀这一特性,对分布较稀疏的相邻区间进行合并,减少增益的量级,实现对数据的有效压缩。
10.一种语音数据的解码方法,所述语音数据是根据权利要求1-9任一项所述的编码方法进行编码的语音数据,其特征在于,该解码方法包括:对接收到的语音数据包进行解码,提取谱参数、基音周期、增益均值和清浊状态参数,通过上述参数对激励参数和增益变化轨迹进行预测,然后通过声码器合成语音,其中采用高斯混合模型对增益变化轨迹进行预测,模型的输入参数是谱参数差分、基音周期差分和增益均值,模型的输出参数是增益变化轨迹。
11.根据权利要求10所述的解码方法,其特征在于,包括:
采用隐马尔科夫模型对激励参数进行预测,模型的输入参数是谱参数差分、基音周期差分和增益均值,模型的输出参数是各子带的清浊状态和浊音帧脉冲激励的形式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310176701.6A CN103247293B (zh) | 2013-05-14 | 2013-05-14 | 一种语音数据的编码及解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310176701.6A CN103247293B (zh) | 2013-05-14 | 2013-05-14 | 一种语音数据的编码及解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103247293A true CN103247293A (zh) | 2013-08-14 |
CN103247293B CN103247293B (zh) | 2015-04-08 |
Family
ID=48926779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310176701.6A Active CN103247293B (zh) | 2013-05-14 | 2013-05-14 | 一种语音数据的编码及解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103247293B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517614A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于各子带特征参数值的清浊音判决装置及其判决方法 |
CN106710606A (zh) * | 2016-12-29 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
WO2017215657A1 (zh) * | 2016-06-16 | 2017-12-21 | 广东欧珀移动通信有限公司 | 音效处理方法及终端设备 |
CN107622777A (zh) * | 2016-07-15 | 2018-01-23 | 公安部第三研究所 | 一种基于过完备字典对的高码率信号获取方法 |
CN109256143A (zh) * | 2018-09-21 | 2019-01-22 | 西安蜂语信息科技有限公司 | 语音参数量化方法、装置、计算机设备和存储介质 |
CN110299150A (zh) * | 2019-06-24 | 2019-10-01 | 中国科学院计算技术研究所 | 一种实时语音说话人分离方法及系统 |
CN110764422A (zh) * | 2018-07-27 | 2020-02-07 | 珠海格力电器股份有限公司 | 电器的控制方法和装置 |
CN111276156A (zh) * | 2020-01-20 | 2020-06-12 | 深圳市数字星河科技有限公司 | 一种实时语音流监控的方法 |
CN112002338A (zh) * | 2020-09-01 | 2020-11-27 | 北京百瑞互联技术有限公司 | 一种优化音频编码量化次数的方法及系统 |
CN112037803A (zh) * | 2020-05-08 | 2020-12-04 | 珠海市杰理科技股份有限公司 | 音频编码方法及装置、电子设备、存储介质 |
WO2021000724A1 (zh) * | 2019-06-29 | 2021-01-07 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
CN112270934A (zh) * | 2020-09-29 | 2021-01-26 | 天津联声软件开发有限公司 | 一种nvoc低速窄带声码器的语音数据处理方法 |
CN112802485A (zh) * | 2021-04-12 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113593599A (zh) * | 2021-09-02 | 2021-11-02 | 北京云蝶智学科技有限公司 | 一种去除语音信号中噪声信号的方法 |
CN114171034A (zh) * | 2021-12-02 | 2022-03-11 | 深圳市高速达科技有限公司 | 一种高清机顶盒语音数据编解码系统及方法 |
CN114495898A (zh) * | 2022-04-15 | 2022-05-13 | 中国科学院自动化研究所 | 一种统一的语音合成与语音转换的训练方法和系统 |
CN116781417A (zh) * | 2023-08-15 | 2023-09-19 | 北京中电慧声科技有限公司 | 一种基于语音识别的抗破译语音交互方法及系统 |
CN116959463A (zh) * | 2023-09-21 | 2023-10-27 | 中国海洋大学 | 一种应用于北斗三号rsmc的低码率语音传输方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021854A (zh) * | 2006-10-11 | 2007-08-22 | 鲍东山 | 基于内容的音频分析系统 |
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
US20120196552A1 (en) * | 2009-03-03 | 2012-08-02 | Yonghong Zeng | Methods for Determining Whether a Signal Includes a Wanted Signal and Apparatuses Configured to Determine Whether a Signal Includes a Wanted Signal |
CN103050122A (zh) * | 2012-12-18 | 2013-04-17 | 北京航空航天大学 | 一种基于melp的多帧联合量化低速率语音编解码方法 |
-
2013
- 2013-05-14 CN CN201310176701.6A patent/CN103247293B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021854A (zh) * | 2006-10-11 | 2007-08-22 | 鲍东山 | 基于内容的音频分析系统 |
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
US20120196552A1 (en) * | 2009-03-03 | 2012-08-02 | Yonghong Zeng | Methods for Determining Whether a Signal Includes a Wanted Signal and Apparatuses Configured to Determine Whether a Signal Includes a Wanted Signal |
CN103050122A (zh) * | 2012-12-18 | 2013-04-17 | 北京航空航天大学 | 一种基于melp的多帧联合量化低速率语音编解码方法 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517614A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于各子带特征参数值的清浊音判决装置及其判决方法 |
WO2017215657A1 (zh) * | 2016-06-16 | 2017-12-21 | 广东欧珀移动通信有限公司 | 音效处理方法及终端设备 |
CN107622777A (zh) * | 2016-07-15 | 2018-01-23 | 公安部第三研究所 | 一种基于过完备字典对的高码率信号获取方法 |
CN107622777B (zh) * | 2016-07-15 | 2020-04-14 | 公安部第三研究所 | 一种基于过完备字典对的高码率信号获取方法 |
US10706874B2 (en) | 2016-10-12 | 2020-07-07 | Alibaba Group Holding Limited | Voice signal detection method and apparatus |
CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
CN106710606A (zh) * | 2016-12-29 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN106710606B (zh) * | 2016-12-29 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
CN110764422A (zh) * | 2018-07-27 | 2020-02-07 | 珠海格力电器股份有限公司 | 电器的控制方法和装置 |
CN109256143A (zh) * | 2018-09-21 | 2019-01-22 | 西安蜂语信息科技有限公司 | 语音参数量化方法、装置、计算机设备和存储介质 |
CN110299150A (zh) * | 2019-06-24 | 2019-10-01 | 中国科学院计算技术研究所 | 一种实时语音说话人分离方法及系统 |
WO2021000724A1 (zh) * | 2019-06-29 | 2021-01-07 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
US11887607B2 (en) | 2019-06-29 | 2024-01-30 | Huawei Technologies Co., Ltd. | Stereo encoding method and apparatus, and stereo decoding method and apparatus |
CN111276156A (zh) * | 2020-01-20 | 2020-06-12 | 深圳市数字星河科技有限公司 | 一种实时语音流监控的方法 |
CN112037803B (zh) * | 2020-05-08 | 2023-09-29 | 珠海市杰理科技股份有限公司 | 音频编码方法及装置、电子设备、存储介质 |
CN112037803A (zh) * | 2020-05-08 | 2020-12-04 | 珠海市杰理科技股份有限公司 | 音频编码方法及装置、电子设备、存储介质 |
CN112002338A (zh) * | 2020-09-01 | 2020-11-27 | 北京百瑞互联技术有限公司 | 一种优化音频编码量化次数的方法及系统 |
CN112270934A (zh) * | 2020-09-29 | 2021-01-26 | 天津联声软件开发有限公司 | 一种nvoc低速窄带声码器的语音数据处理方法 |
CN112270934B (zh) * | 2020-09-29 | 2023-03-28 | 天津联声软件开发有限公司 | 一种nvoc低速窄带声码器的语音数据处理方法 |
CN112802485A (zh) * | 2021-04-12 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113593599A (zh) * | 2021-09-02 | 2021-11-02 | 北京云蝶智学科技有限公司 | 一种去除语音信号中噪声信号的方法 |
CN114171034A (zh) * | 2021-12-02 | 2022-03-11 | 深圳市高速达科技有限公司 | 一种高清机顶盒语音数据编解码系统及方法 |
CN114171034B (zh) * | 2021-12-02 | 2024-05-14 | 深圳市高速达科技有限公司 | 一种高清机顶盒语音数据编解码系统及方法 |
CN114495898B (zh) * | 2022-04-15 | 2022-07-01 | 中国科学院自动化研究所 | 一种统一的语音合成与语音转换的训练方法和系统 |
CN114495898A (zh) * | 2022-04-15 | 2022-05-13 | 中国科学院自动化研究所 | 一种统一的语音合成与语音转换的训练方法和系统 |
CN116781417B (zh) * | 2023-08-15 | 2023-11-17 | 北京中电慧声科技有限公司 | 一种基于语音识别的抗破译语音交互方法及系统 |
CN116781417A (zh) * | 2023-08-15 | 2023-09-19 | 北京中电慧声科技有限公司 | 一种基于语音识别的抗破译语音交互方法及系统 |
CN116959463A (zh) * | 2023-09-21 | 2023-10-27 | 中国海洋大学 | 一种应用于北斗三号rsmc的低码率语音传输方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103247293B (zh) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103247293B (zh) | 一种语音数据的编码及解码方法 | |
CN104318927A (zh) | 一种抗噪声的低速率语音编码方法及解码方法 | |
CN103035238B (zh) | 音频数据的编码方法及解码方法 | |
KR100883656B1 (ko) | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 | |
CN103325375B (zh) | 一种极低码率语音编解码设备及编解码方法 | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
CN103534754A (zh) | 在不活动阶段期间利用噪声合成的音频编解码器 | |
WO2008067719A1 (fr) | Procédé de détection d'activité sonore et dispositif de détection d'activité sonore | |
WO2022213787A1 (zh) | 音频编码方法、音频解码方法、装置、计算机设备、存储介质及计算机程序产品 | |
CN112767954A (zh) | 音频编解码方法、装置、介质及电子设备 | |
CN102237085A (zh) | 音频信号的分类方法及装置 | |
Crosmer et al. | A low bit rate segment vocoder based on line spectrum pairs | |
JPH08123484A (ja) | 信号合成方法および信号合成装置 | |
CN114338623A (zh) | 音频的处理方法、装置、设备、介质及计算机程序产品 | |
Jiang et al. | Latent-domain predictive neural speech coding | |
Yang et al. | A common method for detecting multiple steganographies in low-bit-rate compressed speech based on Bayesian inference | |
CN112767955A (zh) | 音频编码方法及装置、存储介质、电子设备 | |
EP3109861A1 (en) | Signal classifying method and device, and audio encoding method and device using same | |
Beritelli et al. | A pattern recognition system for environmental sound classification based on MFCCs and neural networks | |
CN105741853A (zh) | 一种基于共振峰频率的数字语音感知哈希方法 | |
CN102760441B (zh) | 一种背景噪声编码/解码装置、方法和通信设备 | |
Jang et al. | Personalized neural speech codec | |
Sankar et al. | Mel scale-based linear prediction approach to reduce the prediction filter order in CELP paradigm | |
Arun Sankar et al. | Design of MELPe-based variable-bit-rate speech coding with mel scale approach using low-order linear prediction filter and representing excitation signal using glottal closure instants | |
Li et al. | Optimization of EVS speech/music classifier based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210531 Address after: 100084 101-3, 1st floor, building 9, yard 1, Nongda South Road, Haidian District, Beijing Patentee after: Beijing Zhongke Ouke Technology Co.,Ltd. Address before: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES |