CN107123419A

CN107123419A - Sphinx语速识别中背景降噪的优化方法

Info

Publication number: CN107123419A
Application number: CN201710350222.XA
Authority: CN
Inventors: 沈卫忠; 陈靖
Original assignee: Beijing Dasheng On-Line Technology Co Ltd
Current assignee: Beijing Dasheng On-Line Technology Co Ltd
Priority date: 2017-05-18
Filing date: 2017-05-18
Publication date: 2017-09-01

Abstract

本发明涉及一种Sphinx语速识别中背景降噪的优化方法，音频输出装置连续不断的向sphinx输入PCM数据，sphinx通过背景噪声取样来提取背景噪声，计算出背景噪声频谱，用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱，利用后继音频中的静音，重复噪声频谱提取算法，利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。本发明Sphinx语速识别中背景降噪的优化方法，对使用的噪声频谱做及时修正，修正噪声频谱的方法是使用后继音频中的静音，重复噪声频谱提取算法，得到新的噪声频谱，并将之用于修正降噪所用的噪声频谱，可以从返回指定时间解析出的音素个数来实现语速识别的业务，提高降噪效果。

Description

Sphinx语速识别中背景降噪的优化方法

技术领域

本发明涉及一种音频噪音处理方法，具体的说，是涉及一种Sphinx语速识别中背景降噪的优化方法。

背景技术

语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。一般一个连续语音识别系统大致可分为四个部分：特征提取，声学模型训练，语言模型训练和解码器。

以下为连续语音识别步骤如下：

(1)预处理模块

对输入的原始语音信号进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的，将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。

(2)特征提取

去除语音信号中对于语音识别无用的冗余信息，保留能够反映语音本质特征的信息，并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列，以便用于后续处理。

目前的较常用的提取特征的方法还是比较多的，不过这些提取方法都是由频谱衍生出来的。Mel频率倒谱系数(MFCC:Mel Frequency Cepstral Coefficient)参数因其良好的抗噪性和鲁棒性而应用广泛。在sphinx中也是用MFCC特征的。MFCC的计算首先用快速傅里叶变换(FFT:Fast Fourier Transform)将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换(DCT:Discrete Cosine Transform)，取前N个系数。

在sphinx中，用帧(frames)去分割语音波形，每帧大概10ms，然后每帧提取可以代表该帧语音的39个数字，这39个数字也就是该帧语音的MFCC特征，用特征向量来表示。

(3)声学模型训练

根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数同声学模型进行匹配，得到识别结果。

目前的主流语音识别系统多采用隐马尔可夫模型(HMM:Hidden Markov Model)进行声学模型建模。声学模型的建模单元，可以是音素，音节，词等各个层次。对于小词汇量的语音识别系统，可以直接采用音节进行建模。而对于词汇量偏大的识别系统，一般选取音素，即声母，韵母进行建模。识别规模越大，识别单元选取的越小。

HMM是对语音信号的时间序列结构建立统计模型，将其看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含(马尔可夫模型的内部状态外界不可见)的随机过程，另一个是与Markov链的每一个状态相关联的外界可见的观测序列(通常就是从各个帧计算而得的声学特征)的随机过程。

人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流(发出的声音)。HMM合理地模仿了这一过程，是较为理想的一种语音模型。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态(或当前的状态转移)有关，这两个假设大大降低了模型的复杂度。

语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM

(4)语言模型训练

语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大，或者在出现了几个词的情况下,预测下一个即将出现的词语的内容。换一个说法，即语言模型是用来约束单词搜索的。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程)，这样就可以为匹配过程排除一些不可能的单词。

语言建模能够有效的结合汉语语法和语义的知识，描述词之间的内在关系，从而提高识别率，减少搜索范围。语言模型分为三个层次：字典知识，语法知识，句法知识。

对训练文本数据库进行语法、语义分析，经过基于统计模型训练得到语言模型。语言建模方法主要有基于规则模型和基于统计模型两种方法。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N元语法(N-Gram)模型简单有效，被广泛使用。它包含了单词序列的统计。

N-Gram模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

Sphinx中是采用二元语法和三元语法的统计语言概率模型，也就是通过前一个或两个单词来判定当前单词出现的概率P(w2|w1)，P(w3|w2,w1)。

(5)语音解码和搜索算法

解码器,即指语音技术中的识别过程。针对输入的语音信号，根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络，根据搜索算法在该网络中寻找最佳的一条路径，这个路径就是能够以最大概率输出该语音信号的词串，这样就确定这个语音样本所包含的文字了。所以解码操作即指搜索算法：是指在解码端通过搜索技术寻找最优词串的方法。

连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。当今的主流解码技术都是基于维特比(Viterbi)搜索算法的，Sphinx也是。

基于动态规划的Viterbi算法在每个时间点上的各个状态，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法本质上是一种动态规划算法，该算法遍历HMM状态网络并保留每一帧语音在某个状态的最优路径得分。

连续语音识别系统的识别结果是一个词序列。解码实际上是对词表的所有词反复搜索。词表中词的排列方式会影响搜索的速度，而词的排列方式就是字典的表示形式。Sphinx系统中采用音素作为声学训练单元，通常字典就用来记录每个单词由哪些个音素组成，也可以理解为对每个词的发音进行标注。

N-best搜索和多遍搜索：为在搜索中利用各种知识源，通常要进行多遍搜索，第一遍使用代价低的知识源(如声学模型、语言模型和音标词典)，产生一个候选列表或词候选网格，在此基础上进行使用代价高的知识源(如4阶或5阶的N-Gram、4阶或更高的上下文相关模型)的第二遍搜索得到最佳路径。

Sphinx是一套开源的语音识别解决方案，是针对大词汇量、非特定人、连续英语语音识别系统。

应用连续不断的向sphinx输入PCM数据，sphinx是先通过背景噪声取样来提取背景噪声，最终计算出背景噪声频谱。使用这一方法获取噪声频谱的前提是假设音频起始处的一小段语音是背景噪声。得到噪声的频谱后，背景降噪的过程，就是用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱，再使用傅里叶逆变换转回到时域中，从而得到降噪后的语音数据。

降噪后的语音数据，又经过端点检测(VAD:Voice Activity Detection)来从连续的语音流中检测出有效的语音段。它包括两个方面，检测出有效语音的起始点即前端点，检测出有效语音的结束点即后端点。

最后把有效的语音段的数据传给音素识别模块，识别并统计出有效的音素返回给应用程序。

(1)应用没办法精确知道，返回的音素个数是从多长的PCM数据中识别出来的。

(2)如果应用用固定时长的PCM数据调用sphinx的接口进行音素识别，则静音检测的假设前提：“音频起始处的一小段语音是背影噪声”是不恒成立的。会导致静音检测模块把有效的语音当作静音来处理，最终导致音素识别不准确。

发明内容

针对上述现有技术中的不足，本发明提供一种提高降噪效果的Sphinx语速识别中背景降噪的优化方法。

本发明所采取的技术方案是：

一种Sphinx语速识别中背景降噪的优化方法，音频输出装置连续不断的向sphinx输入PCM数据，sphinx通过背景噪声取样来提取背景噪声，计算出背景噪声频谱，用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱，利用后继音频中的静音，重复噪声频谱提取算法，得到修正后的噪声频谱，利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。

sphinx的接口传入的PCM音频数据所代表的时长是固定值。

第一次传给sphinx的PCM数据，背景降噪取样会把其提取PCM音频数据，直接计算出频谱数据，当作背景噪声的频谱数据加入保存，用于对后续sphinx输入PCM数据进行背景降噪。

背景降噪的过程是用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱，再使用傅里叶逆变换转回到时域中，从而得到降噪后的语音数据；有效的语音段的数据传给音素识别模块，识别并统计出有效的音素返回给音频输出装置。

提取的背景噪声频谱数据保存在sphinx模块中，在静音检测模块中，每次都会提取前一段的数据当作静音，然后与sphinx存储的背景噪声频谱数据进行比较，判断是否更新sphinx存储的背景噪声频谱数据。

本发明相对现有技术的有益效果：

本发明Sphinx语速识别中背景降噪的优化方法，是在实际降噪的过程中，对使用的噪声频谱做及时修正，以得到较好的降噪效果。修正噪声频谱的方法是使用后继音频中的静音，重复噪声频谱提取算法，得到新的噪声频谱，并将之用于修正降噪所用的噪声频谱，噪声频谱修正的方法使用新的噪声频谱完全替换使用中的噪声频谱。通过修正噪声频谱的方法，使得应用传输给sphinx的PCM数据可以进行指定时间间隔的切割，从而可以从返回指定时间解析出的音素个数来实现语速识别的业务；降噪使用的噪声频谱是随着降噪过程的进行被持续修正的，这将大大简化应用的逻辑，提高降噪效果。

附图说明

图1是现有技术sphinx进行语速识别的流程图；

图2是本发明Sphinx语速识别中背景降噪的优化方法的降噪流程图。

图3是本发明Sphinx语速识别中背景降噪的优化方法的sphinx进行语速识别的流程图；

图4是本发明Sphinx语速识别中背景降噪的优化方法的从背景噪声取样到计算背景噪声的频谱数据的流程图。

具体实施方式

以下参照附图及实施例对本发明进行详细的说明：

附图1-4可知，一种Sphinx语速识别中背景降噪的优化方法，音频输出装置连续不断的向sphinx输入PCM数据，sphinx通过背景噪声取样来提取背景噪声，计算出背景噪声频谱，用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱，利用后继音频中的静音，重复噪声频谱提取算法，得到修正后的噪声频谱，利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。

sphinx的接口传入的PCM音频数据所代表的时长是固定值(如2秒钟)。

本发明Sphinx语速识别中背景降噪的优化方法，降噪使用的噪声频谱是随着降噪过程的进行被持续修正的，即降噪的过程是自适应的，这样做的原因一方面是语音数据前部的静音长度有时不够长，背景噪声数据不足导致得到的噪声频谱往往不够准确，另一方面，背景噪声往往不是绝对稳定的，而是渐变的甚至会突变到另一种稳定的背景噪声。

具体降噪的实施例如下：

1.实施平台：

Windows操作系统

2.功能集成软件环境：

51talk上课终端应用程序

3.实现功能：

在外教上课过程中，通过单位时间内统计的检测出外教说话时的音素个数，实时提示外教此刻说话的语速是否过快，需要调整上课说话语速。

4.具体实现过程：

(1)获取PCM音频数据：51talk上课终端应用程序调用sphinx的接口，把固定时长的PCM语音数据(目前指定为采样为16kHz，样本深度为16位，单声道，时长为2秒的PCM数据)传送至sphinx模块。

(2)背景噪音取样：Sphinx会把收到的第一个2秒PCM数据中的前50帧，当作初始的静音帧(每一帧的长度为20毫秒)，即为此刻的背景噪音的参考样本。

(3)背景降噪：Sphinx根据此刻的背景噪音的样本，对2秒内剩余的PCM数据进行背景降噪。

(4)VAD检测：spinx通过VAD检测来决定需进行音素识别的数据，并把PCM数据送入音素识别模块。

(5)音素识别：sphinx对PCM数据进行音素识别，并把识别出的音素个数进行统计，最终把统计的音素总数通过回调函数返回到51talk上课终端应用程序。

(6)应用程序根据sphinx返回的2秒内识别的音素个数，做相就的业务逻辑。

应用程序连续的传入PCM数据至sphinx，sphinx会缓存够2秒的PCM数据才会进行背景噪音样本提取，背景降噪，VAD检测，音素识别这一系列流程。其中在背景噪音的提取过程中，会把每一段2秒的前50帧PCM数据当作这2秒的背景噪音，然后与之前的背景噪音样本进行比较后，才会决定是否需要更新现有的用于降噪的背景噪音样本。这就保证了背景噪音样本的有效性和准确性。

以上所述，仅是本发明的较佳实施例而已，并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明的技术方案范围内。

Claims

1.一种Sphinx语速识别中背景降噪的优化方法，音频输出装置连续不断的向sphinx输入PCM数据，sphinx通过背景噪声取样来提取背景噪声，计算出背景噪声频谱，用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱，其特征在于，利用后继音频中的静音，重复噪声频谱提取算法，得到修正后的噪声频谱，利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。

2.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法，其特征在于：sphinx的接口传入的PCM音频数据所代表的时长是固定值。

3.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法，其特征在于：第一次传给sphinx的PCM数据，背景降噪取样会把其提取PCM音频数据，直接计算出频谱数据，当作背景噪声的频谱数据加入保存，用于对后续sphinx输入PCM数据进行背景降噪。

4.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法，其特征在于：背景降噪的过程是用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱，再使用傅里叶逆变换转回到时域中，从而得到降噪后的语音数据；有效的语音段的数据传给音素识别模块，识别并统计出有效的音素返回给音频输出装置。

5.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法，其特征在于：提取的背景噪声频谱数据保存在sphinx模块中，在静音检测模块中，每次都会提取前一段的数据当作静音，然后与sphinx存储的背景噪声频谱数据进行比较，判断是否更新sphinx存储的背景噪声频谱数据。