CN107123419A - Sphinx语速识别中背景降噪的优化方法 - Google Patents
Sphinx语速识别中背景降噪的优化方法 Download PDFInfo
- Publication number
- CN107123419A CN107123419A CN201710350222.XA CN201710350222A CN107123419A CN 107123419 A CN107123419 A CN 107123419A CN 201710350222 A CN201710350222 A CN 201710350222A CN 107123419 A CN107123419 A CN 107123419A
- Authority
- CN
- China
- Prior art keywords
- noise
- sphinx
- noise reduction
- spectrum
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 69
- 241000252794 Sphinx Species 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000005457 optimization Methods 0.000 title claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 83
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 230000003252 repetitive effect Effects 0.000 claims abstract description 7
- 230000003595 spectral effect Effects 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000001514 detection method Methods 0.000 claims description 10
- 241001269238 Data Species 0.000 claims description 6
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000011946 reduction process Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 7
- 239000000523 sample Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种Sphinx语速识别中背景降噪的优化方法,音频输出装置连续不断的向sphinx输入PCM数据,sphinx通过背景噪声取样来提取背景噪声,计算出背景噪声频谱,用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,利用后继音频中的静音,重复噪声频谱提取算法,利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。本发明Sphinx语速识别中背景降噪的优化方法,对使用的噪声频谱做及时修正,修正噪声频谱的方法是使用后继音频中的静音,重复噪声频谱提取算法,得到新的噪声频谱,并将之用于修正降噪所用的噪声频谱,可以从返回指定时间解析出的音素个数来实现语速识别的业务,提高降噪效果。
Description
技术领域
本发明涉及一种音频噪音处理方法,具体的说,是涉及一种Sphinx语速识别中背景降噪的优化方法。
背景技术
语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。一般一个连续语音识别系统大致可分为四个部分:特征提取,声学模型训练,语言模型训练和解码器。
以下为连续语音识别步骤如下:
(1)预处理模块
对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。
(2)特征提取
去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。
目前的较常用的提取特征的方法还是比较多的,不过这些提取方法都是由频谱衍生出来的。Mel频率倒谱系数(MFCC:Mel Frequency Cepstral Coefficient)参数因其良好的抗噪性和鲁棒性而应用广泛。在sphinx中也是用MFCC特征的。MFCC的计算首先用快速傅里叶变换(FFT:Fast Fourier Transform)将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换(DCT:Discrete Cosine Transform),取前N个系数。
在sphinx中,用帧(frames)去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。
(3)声学模型训练
根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数同声学模型进行匹配,得到识别结果。
目前的主流语音识别系统多采用隐马尔可夫模型(HMM:Hidden Markov Model)进行声学模型建模。声学模型的建模单元,可以是音素,音节,词等各个层次。对于小词汇量的语音识别系统,可以直接采用音节进行建模。而对于词汇量偏大的识别系统,一般选取音素,即声母,韵母进行建模。识别规模越大,识别单元选取的越小。
HMM是对语音信号的时间序列结构建立统计模型,将其看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含(马尔可夫模型的内部状态外界不可见)的随机过程,另一个是与Markov链的每一个状态相关联的外界可见的观测序列(通常就是从各个帧计算而得的声学特征)的随机过程。
人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流(发出的声音)。HMM合理地模仿了这一过程,是较为理想的一种语音模型。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。
语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM
(4)语言模型训练
语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的情况下,预测下一个即将出现的词语的内容。换一个说法,即语言模型是用来约束单词搜索的。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程),这样就可以为匹配过程排除一些不可能的单词。
语言建模能够有效的结合汉语语法和语义的知识,描述词之间的内在关系,从而提高识别率,减少搜索范围。语言模型分为三个层次:字典知识,语法知识,句法知识。
对训练文本数据库进行语法、语义分析,经过基于统计模型训练得到语言模型。语言建模方法主要有基于规则模型和基于统计模型两种方法。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N元语法(N-Gram)模型简单有效,被广泛使用。它包含了单词序列的统计。
N-Gram模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
Sphinx中是采用二元语法和三元语法的统计语言概率模型,也就是通过前一个或两个单词来判定当前单词出现的概率P(w2|w1),P(w3|w2,w1)。
(5)语音解码和搜索算法
解码器,即指语音技术中的识别过程。针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络,根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串,这样就确定这个语音样本所包含的文字了。所以解码操作即指搜索算法:是指在解码端通过搜索技术寻找最优词串的方法。
连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。当今的主流解码技术都是基于维特比(Viterbi)搜索算法的,Sphinx也是。
基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法本质上是一种动态规划算法,该算法遍历HMM状态网络并保留每一帧语音在某个状态的最优路径得分。
连续语音识别系统的识别结果是一个词序列。解码实际上是对词表的所有词反复搜索。词表中词的排列方式会影响搜索的速度,而词的排列方式就是字典的表示形式。Sphinx系统中采用音素作为声学训练单元,通常字典就用来记录每个单词由哪些个音素组成,也可以理解为对每个词的发音进行标注。
N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源(如声学模型、语言模型和音标词典),产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源(如4阶或5阶的N-Gram、4阶或更高的上下文相关模型)的第二遍搜索得到最佳路径。
Sphinx是一套开源的语音识别解决方案,是针对大词汇量、非特定人、连续英语语音识别系统。
应用连续不断的向sphinx输入PCM数据,sphinx是先通过背景噪声取样来提取背景噪声,最终计算出背景噪声频谱。使用这一方法获取噪声频谱的前提是假设音频起始处的一小段语音是背景噪声。得到噪声的频谱后,背景降噪的过程,就是用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,再使用傅里叶逆变换转回到时域中,从而得到降噪后的语音数据。
降噪后的语音数据,又经过端点检测(VAD:Voice Activity Detection)来从连续的语音流中检测出有效的语音段。它包括两个方面,检测出有效语音的起始点即前端点,检测出有效语音的结束点即后端点。
最后把有效的语音段的数据传给音素识别模块,识别并统计出有效的音素返回给应用程序。
(1)应用没办法精确知道,返回的音素个数是从多长的PCM数据中识别出来的。
(2)如果应用用固定时长的PCM数据调用sphinx的接口进行音素识别,则静音检测的假设前提:“音频起始处的一小段语音是背影噪声”是不恒成立的。会导致静音检测模块把有效的语音当作静音来处理,最终导致音素识别不准确。
发明内容
针对上述现有技术中的不足,本发明提供一种提高降噪效果的Sphinx语速识别中背景降噪的优化方法。
本发明所采取的技术方案是:
一种Sphinx语速识别中背景降噪的优化方法,音频输出装置连续不断的向sphinx输入PCM数据,sphinx通过背景噪声取样来提取背景噪声,计算出背景噪声频谱,用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,利用后继音频中的静音,重复噪声频谱提取算法,得到修正后的噪声频谱,利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。
sphinx的接口传入的PCM音频数据所代表的时长是固定值。
第一次传给sphinx的PCM数据,背景降噪取样会把其提取PCM音频数据,直接计算出频谱数据,当作背景噪声的频谱数据加入保存,用于对后续sphinx输入PCM数据进行背景降噪。
背景降噪的过程是用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,再使用傅里叶逆变换转回到时域中,从而得到降噪后的语音数据;有效的语音段的数据传给音素识别模块,识别并统计出有效的音素返回给音频输出装置。
提取的背景噪声频谱数据保存在sphinx模块中,在静音检测模块中,每次都会提取前一段的数据当作静音,然后与sphinx存储的背景噪声频谱数据进行比较,判断是否更新sphinx存储的背景噪声频谱数据。
本发明相对现有技术的有益效果:
本发明Sphinx语速识别中背景降噪的优化方法,是在实际降噪的过程中,对使用的噪声频谱做及时修正,以得到较好的降噪效果。修正噪声频谱的方法是使用后继音频中的静音,重复噪声频谱提取算法,得到新的噪声频谱,并将之用于修正降噪所用的噪声频谱,噪声频谱修正的方法使用新的噪声频谱完全替换使用中的噪声频谱。通过修正噪声频谱的方法,使得应用传输给sphinx的PCM数据可以进行指定时间间隔的切割,从而可以从返回指定时间解析出的音素个数来实现语速识别的业务;降噪使用的噪声频谱是随着降噪过程的进行被持续修正的,这将大大简化应用的逻辑,提高降噪效果。
附图说明
图1是现有技术sphinx进行语速识别的流程图;
图2是本发明Sphinx语速识别中背景降噪的优化方法的降噪流程图。
图3是本发明Sphinx语速识别中背景降噪的优化方法的sphinx进行语速识别的流程图;
图4是本发明Sphinx语速识别中背景降噪的优化方法的从背景噪声取样到计算背景噪声的频谱数据的流程图。
具体实施方式
以下参照附图及实施例对本发明进行详细的说明:
附图1-4可知,一种Sphinx语速识别中背景降噪的优化方法,音频输出装置连续不断的向sphinx输入PCM数据,sphinx通过背景噪声取样来提取背景噪声,计算出背景噪声频谱,用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,利用后继音频中的静音,重复噪声频谱提取算法,得到修正后的噪声频谱,利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。
sphinx的接口传入的PCM音频数据所代表的时长是固定值(如2秒钟)。
第一次传给sphinx的PCM数据,背景降噪取样会把其提取PCM音频数据,直接计算出频谱数据,当作背景噪声的频谱数据加入保存,用于对后续sphinx输入PCM数据进行背景降噪。
背景降噪的过程是用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,再使用傅里叶逆变换转回到时域中,从而得到降噪后的语音数据;有效的语音段的数据传给音素识别模块,识别并统计出有效的音素返回给音频输出装置。
提取的背景噪声频谱数据保存在sphinx模块中,在静音检测模块中,每次都会提取前一段的数据当作静音,然后与sphinx存储的背景噪声频谱数据进行比较,判断是否更新sphinx存储的背景噪声频谱数据。
本发明Sphinx语速识别中背景降噪的优化方法,是在实际降噪的过程中,对使用的噪声频谱做及时修正,以得到较好的降噪效果。修正噪声频谱的方法是使用后继音频中的静音,重复噪声频谱提取算法,得到新的噪声频谱,并将之用于修正降噪所用的噪声频谱,噪声频谱修正的方法使用新的噪声频谱完全替换使用中的噪声频谱。通过修正噪声频谱的方法,使得应用传输给sphinx的PCM数据可以进行指定时间间隔的切割,从而可以从返回指定时间解析出的音素个数来实现语速识别的业务;降噪使用的噪声频谱是随着降噪过程的进行被持续修正的,这将大大简化应用的逻辑,提高降噪效果。
本发明Sphinx语速识别中背景降噪的优化方法,降噪使用的噪声频谱是随着降噪过程的进行被持续修正的,即降噪的过程是自适应的,这样做的原因一方面是语音数据前部的静音长度有时不够长,背景噪声数据不足导致得到的噪声频谱往往不够准确,另一方面,背景噪声往往不是绝对稳定的,而是渐变的甚至会突变到另一种稳定的背景噪声。
具体降噪的实施例如下:
1.实施平台:
Windows操作系统
2.功能集成软件环境:
51talk上课终端应用程序
3.实现功能:
在外教上课过程中,通过单位时间内统计的检测出外教说话时的音素个数,实时提示外教此刻说话的语速是否过快,需要调整上课说话语速。
4.具体实现过程:
(1)获取PCM音频数据:51talk上课终端应用程序调用sphinx的接口,把固定时长的PCM语音数据(目前指定为采样为16kHz,样本深度为16位,单声道,时长为2秒的PCM数据)传送至sphinx模块。
(2)背景噪音取样:Sphinx会把收到的第一个2秒PCM数据中的前50帧,当作初始的静音帧(每一帧的长度为20毫秒),即为此刻的背景噪音的参考样本。
(3)背景降噪:Sphinx根据此刻的背景噪音的样本,对2秒内剩余的PCM数据进行背景降噪。
(4)VAD检测:spinx通过VAD检测来决定需进行音素识别的数据,并把PCM数据送入音素识别模块。
(5)音素识别:sphinx对PCM数据进行音素识别,并把识别出的音素个数进行统计,最终把统计的音素总数通过回调函数返回到51talk上课终端应用程序。
(6)应用程序根据sphinx返回的2秒内识别的音素个数,做相就的业务逻辑。
应用程序连续的传入PCM数据至sphinx,sphinx会缓存够2秒的PCM数据才会进行背景噪音样本提取,背景降噪,VAD检测,音素识别这一系列流程。其中在背景噪音的提取过程中,会把每一段2秒的前50帧PCM数据当作这2秒的背景噪音,然后与之前的背景噪音样本进行比较后,才会决定是否需要更新现有的用于降噪的背景噪音样本。这就保证了背景噪音样本的有效性和准确性。
以上所述,仅是本发明的较佳实施例而已,并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明的技术方案范围内。
Claims (5)
1.一种Sphinx语速识别中背景降噪的优化方法,音频输出装置连续不断的向sphinx输入PCM数据,sphinx通过背景噪声取样来提取背景噪声,计算出背景噪声频谱,用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,其特征在于,利用后继音频中的静音,重复噪声频谱提取算法,得到修正后的噪声频谱,利用修正后的噪声频谱对包含噪声语音的频谱进行降噪。
2.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法,其特征在于:sphinx的接口传入的PCM音频数据所代表的时长是固定值。
3.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法,其特征在于:第一次传给sphinx的PCM数据,背景降噪取样会把其提取PCM音频数据,直接计算出频谱数据,当作背景噪声的频谱数据加入保存,用于对后续sphinx输入PCM数据进行背景降噪。
4.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法,其特征在于:背景降噪的过程是用包含噪声语音的频谱减去噪音频谱后得到降噪后语音的频谱,再使用傅里叶逆变换转回到时域中,从而得到降噪后的语音数据;有效的语音段的数据传给音素识别模块,识别并统计出有效的音素返回给音频输出装置。
5.根据权利要求1所述Sphinx语速识别中背景降噪的优化方法,其特征在于:提取的背景噪声频谱数据保存在sphinx模块中,在静音检测模块中,每次都会提取前一段的数据当作静音,然后与sphinx存储的背景噪声频谱数据进行比较,判断是否更新sphinx存储的背景噪声频谱数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710350222.XA CN107123419A (zh) | 2017-05-18 | 2017-05-18 | Sphinx语速识别中背景降噪的优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710350222.XA CN107123419A (zh) | 2017-05-18 | 2017-05-18 | Sphinx语速识别中背景降噪的优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107123419A true CN107123419A (zh) | 2017-09-01 |
Family
ID=59727299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710350222.XA Pending CN107123419A (zh) | 2017-05-18 | 2017-05-18 | Sphinx语速识别中背景降噪的优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107123419A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520749A (zh) * | 2018-03-06 | 2018-09-11 | 杭州孚立计算机软件有限公司 | 一种基于语音的网格化管理控制方法及控制装置 |
CN111383654A (zh) * | 2020-04-07 | 2020-07-07 | 东莞市凌毅电子商务有限公司 | 一种消除音频指示灯上环境噪音干扰的方法 |
CN111724824A (zh) * | 2020-06-11 | 2020-09-29 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
CN112652324A (zh) * | 2020-12-28 | 2021-04-13 | 深圳万兴软件有限公司 | 语音增强优化方法及语音增强优化系统、可读存储介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1300417A (zh) * | 1999-04-19 | 2001-06-20 | 摩托罗拉公司 | 使用外部语音活动检测的噪声抑制 |
CN1390349A (zh) * | 1999-11-15 | 2003-01-08 | 诺基亚有限公司 | 噪声抑制 |
CN1728237A (zh) * | 2004-07-27 | 2006-02-01 | 三星电子株式会社 | 从记录设备消除噪声的装置和方法 |
US20060058999A1 (en) * | 2004-09-10 | 2006-03-16 | Simon Barker | Voice model adaptation |
CN1841496A (zh) * | 2005-03-31 | 2006-10-04 | 株式会社东芝 | 测量语速的方法和装置以及录音设备 |
CN101042871A (zh) * | 2000-12-28 | 2007-09-26 | 日本电气株式会社 | 噪声抑制方法和设备 |
CN101197135A (zh) * | 2006-12-05 | 2008-06-11 | 华为技术有限公司 | 声音信号分类方法和装置 |
CN101271686A (zh) * | 2007-03-22 | 2008-09-24 | 三星电子株式会社 | 使用语音信号的谐波估计噪声的方法和设备 |
US20110208521A1 (en) * | 2008-08-14 | 2011-08-25 | 21Ct, Inc. | Hidden Markov Model for Speech Processing with Training Method |
WO2012076895A1 (en) * | 2010-12-08 | 2012-06-14 | The Queen's University Of Belfast | Pattern recognition |
CN102598128A (zh) * | 2009-11-06 | 2012-07-18 | 日本电气株式会社 | 信号处理方法、信息处理装置及用于存储信号处理程序的存储介质 |
CN102117618B (zh) * | 2009-12-30 | 2012-09-05 | 华为技术有限公司 | 一种消除音乐噪声的方法、装置及系统 |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
CN104867497A (zh) * | 2014-02-26 | 2015-08-26 | 北京信威通信技术股份有限公司 | 一种语音降噪方法 |
CN105359210A (zh) * | 2013-06-21 | 2016-02-24 | 弗朗霍夫应用科学研究促进协会 | Fdns应用前实现将mdct频谱衰落到白噪声的装置及方法 |
CN106328169A (zh) * | 2015-06-26 | 2017-01-11 | 中兴通讯股份有限公司 | 一种激活音修正帧数的获取方法、激活音检测方法和装置 |
CN106531159A (zh) * | 2016-12-09 | 2017-03-22 | 宁波大学 | 一种基于设备本底噪声频谱特征的手机来源识别方法 |
-
2017
- 2017-05-18 CN CN201710350222.XA patent/CN107123419A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1300417A (zh) * | 1999-04-19 | 2001-06-20 | 摩托罗拉公司 | 使用外部语音活动检测的噪声抑制 |
CN1390349A (zh) * | 1999-11-15 | 2003-01-08 | 诺基亚有限公司 | 噪声抑制 |
CN101042871A (zh) * | 2000-12-28 | 2007-09-26 | 日本电气株式会社 | 噪声抑制方法和设备 |
CN1728237A (zh) * | 2004-07-27 | 2006-02-01 | 三星电子株式会社 | 从记录设备消除噪声的装置和方法 |
US20060058999A1 (en) * | 2004-09-10 | 2006-03-16 | Simon Barker | Voice model adaptation |
CN1841496A (zh) * | 2005-03-31 | 2006-10-04 | 株式会社东芝 | 测量语速的方法和装置以及录音设备 |
CN101197135A (zh) * | 2006-12-05 | 2008-06-11 | 华为技术有限公司 | 声音信号分类方法和装置 |
CN101271686A (zh) * | 2007-03-22 | 2008-09-24 | 三星电子株式会社 | 使用语音信号的谐波估计噪声的方法和设备 |
US20110208521A1 (en) * | 2008-08-14 | 2011-08-25 | 21Ct, Inc. | Hidden Markov Model for Speech Processing with Training Method |
CN102598128A (zh) * | 2009-11-06 | 2012-07-18 | 日本电气株式会社 | 信号处理方法、信息处理装置及用于存储信号处理程序的存储介质 |
CN102117618B (zh) * | 2009-12-30 | 2012-09-05 | 华为技术有限公司 | 一种消除音乐噪声的方法、装置及系统 |
WO2012076895A1 (en) * | 2010-12-08 | 2012-06-14 | The Queen's University Of Belfast | Pattern recognition |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
CN105359210A (zh) * | 2013-06-21 | 2016-02-24 | 弗朗霍夫应用科学研究促进协会 | Fdns应用前实现将mdct频谱衰落到白噪声的装置及方法 |
CN104867497A (zh) * | 2014-02-26 | 2015-08-26 | 北京信威通信技术股份有限公司 | 一种语音降噪方法 |
CN106328169A (zh) * | 2015-06-26 | 2017-01-11 | 中兴通讯股份有限公司 | 一种激活音修正帧数的获取方法、激活音检测方法和装置 |
CN106531159A (zh) * | 2016-12-09 | 2017-03-22 | 宁波大学 | 一种基于设备本底噪声频谱特征的手机来源识别方法 |
Non-Patent Citations (2)
Title |
---|
袁翔: ""基于Sphinx的机器人语音识别系统的构建与研究"", 《电脑知识与技术》 * |
谭永波: ""基于Sphinx的语音识别框架及其性能优化"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520749A (zh) * | 2018-03-06 | 2018-09-11 | 杭州孚立计算机软件有限公司 | 一种基于语音的网格化管理控制方法及控制装置 |
CN111383654A (zh) * | 2020-04-07 | 2020-07-07 | 东莞市凌毅电子商务有限公司 | 一种消除音频指示灯上环境噪音干扰的方法 |
CN111724824A (zh) * | 2020-06-11 | 2020-09-29 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
CN111724824B (zh) * | 2020-06-11 | 2021-12-03 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
CN112652324A (zh) * | 2020-12-28 | 2021-04-13 | 深圳万兴软件有限公司 | 语音增强优化方法及语音增强优化系统、可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108492820B (zh) | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
US6067520A (en) | System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models | |
US10170107B1 (en) | Extendable label recognition of linguistic input | |
CN107123419A (zh) | Sphinx语速识别中背景降噪的优化方法 | |
AU2013251457A1 (en) | Negative example (anti-word) based performance improvement for speech recognition | |
US20150179169A1 (en) | Speech Recognition By Post Processing Using Phonetic and Semantic Information | |
CN113744722A (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
CN118471201B (zh) | 一种高效自适应面向语音识别引擎的热词纠错方法与系统 | |
Zhang et al. | Improved mandarin keyword spotting using confusion garbage model | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
Lyu et al. | Language diarization for conversational code-switch speech with pronunciation dictionary adaptation | |
CN115132178B (zh) | 一种基于深度学习的语义端点检测系统 | |
Tabibian | A survey on structured discriminative spoken keyword spotting | |
Vancha et al. | Word-level speech dataset creation for sourashtra and recognition system using kaldi | |
Fu et al. | A survey on Chinese speech recognition | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
KR20050101694A (ko) | 문법적 제약을 갖는 통계적인 음성 인식 시스템 및 그 방법 | |
Rahim et al. | Robust numeric recognition in spoken language dialogue | |
Shukla | Keywords Extraction and Sentiment Analysis using Automatic Speech Recognition | |
Abdullah et al. | Central Kurdish Automatic Speech Recognition using Deep Learning. | |
Singla et al. | Seq-2-seq based refinement of asr output for spoken name capture | |
CN115424616A (zh) | 一种音频数据筛选方法、装置、设备及计算机可读介质 | |
Kumar et al. | Spoken Language Translation using Conformer model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170901 |