CN109192200A - 一种语音识别方法 - Google Patents

一种语音识别方法 Download PDF

Info

Publication number
CN109192200A
CN109192200A CN201810514662.9A CN201810514662A CN109192200A CN 109192200 A CN109192200 A CN 109192200A CN 201810514662 A CN201810514662 A CN 201810514662A CN 109192200 A CN109192200 A CN 109192200A
Authority
CN
China
Prior art keywords
model
hidden markov
signal
speech signal
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810514662.9A
Other languages
English (en)
Other versions
CN109192200B (zh
Inventor
范文涛
杜吉祥
符江鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201810514662.9A priority Critical patent/CN109192200B/zh
Publication of CN109192200A publication Critical patent/CN109192200A/zh
Application granted granted Critical
Publication of CN109192200B publication Critical patent/CN109192200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种语音识别方法,其包括所述语音识别方法包括输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;将提取的MFCC特征向量输入到狄利克雷分布混合模型中计算观测概率,其中使用变分推断更新优化模型参数;将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM,使用隐马尔科夫模型对语音信号时间序列结构进行建模;根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。本发明在现有高斯混合隐马尔科夫模型的方法基础上,提出使用狄利克雷混合模型来对隐马尔科夫混合模型的观测概率来进行建模,同时使用变分推断实现模型参数的求解,谋求模型鲁棒性和提高准确率。

Description

一种语音识别方法
技术领域
本发明涉及一种语音识别技术领域,更具体地涉及一种基于狄利克雷分布 混合隐马尔科夫模型的语音识别方法。
背景技术
目前,语音识别成为一种重要的人机交互形式,语音识别技术渐渐地 改变着人们和生活和工作方式。自然语言是最方便、舒适和快捷的一种交 互方式,是人机通信和交互的重要领域之一,最终实现人机对话自由,自 动语音识别(Automatic SpeechRecognition,ASR)是实现人机交互尤为 关键的技术,其需要让计算机听懂人类的语言,从而使得计算机按照人类 的指示进行操作。
自动语音识别技术进过几十年的发展已经取得了显著的成效。上世纪 80年代,Jelinek等科学家在贝尔实验室发现隐马尔科夫模型(Hidden Markov Model-HMM)的特性适合语音信号建模,此后陆续有学者提出基 于HMM的参数估计和识别解码等配套的算法体系,其中高斯混合模型 (Gaussian Mixed Model-GMM)混合隐马尔科夫模型(HMM)应用尤为广泛。GMM-HMM的核心架构是通过使用隐马尔科夫模型对语音的时序 进行建模,而使用高斯混合模型(GMM)对语音的观测概率进行建模。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施例 部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出 所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定 所要求保护的技术方案的保护范围。
根据本发明的一个方面,提供了一种语音识别方法,本发明提出使用 狄利克雷分布混合模型(Dirichlet Mixed Model-DMM)对隐马尔科夫模型 (Hidden Markov Model,HMM)的观测概率进行建模,同时使用变分推断 (Variational Bayes inference)来实现模型参数的求解,以提高模型鲁棒性和 准确率。
同时,利用MFCC特征参数在基于变分推断的狄利克雷混合隐马尔科夫模 型的语音识别过程中,能过最大程度的降低运算并未得到准确的特征参数提供 保证,采用倒谱均值归一化技术,使得本方法能够适应不同的口音,进一步提 高特征提取的准确性。
所述语音识别方法包括步骤S100:输入语音信号,使用梅尔频率倒谱系 数MFCC提取语音信号的特征向量;
步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计 算观测概率,其中使用变分推断来更新优化模型参数;
步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模 型HMM以便对所述语音信号的时间序列结构进行建模;
步骤S400:根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率, 判断并提取词语。
可选地,所述步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC 提取语音信号的特征向量的步骤进一步包括:
步骤S101:预加重所述语音信号,以补偿所述语音信号中受到压抑的高频 部分;其具体包括;
s'n=sn-k*sn-1
其中,S表示语音信号,Sn={s0,…,sN-1},n=0,…,n-1;S'表示处理之后的信号,Sn'={s'0,…,s'N-1},n=0,…N-1;
k∈[0.9,1]。
可选地,步骤S102:使用汉明窗对所述语音信号进行加窗处理,用于平滑 所述语音信号:其具体包括:
步骤S103:将所述语音信号中的时域信号转换成频域信号,以进行频率分 析;其中,
幅度频:
其中i表示第i帧,k表示傅里叶点数;
功率谱:
步骤S104:使用梅尔克度滤波组过滤经过频域信号;
步骤S105:使用log非线性描述能量值;
步骤S106:通过离散余弦变换获取频率普的低频信息;其中,
步骤S107:通过差分增加语音信亏的特征的时域连续性,其中,
其中dt表示第t个一阶差分,ct表示第t个倒谱系数,θ表示一阶导数的时间 间隔。
步骤S108:倒谱均值归一化以获取语音信号的特征参数。
可选地,步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模 型中以计算观测概率,其中使用变分推断来更新优化模型参数的步骤进一步包 括:
狄利克雷混合模型模型式为:
其中表示混合系数, 是第j个混合分量的狄利克雷分布。
可选地,步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马 尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步 包括:
步骤S301:初始化分布参数,选择混合分量的数量,使用K-means算法初 始化超参数{ujl}和{vjl}的值,
其中,M为混合分量数,N为输入样本数量,表示伽马分布,Z表示M 维二元随机变量。
其中:
注:<·>表示期望,Γ表示伽马函数。
超参数更新迭代式如下:
其中Ψ和Ψ'分别表示digamma函数和trigamma函数。
可选地,步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马 尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步 包括:步骤S302:变分推断求解模型参数;
步骤S3进一步包括步骤S303:变分E步,更新Q(z)和计算其最大 似然估计值;
步骤S3进一步包括步骤S304:变分M步,最大化下界L(Q),求得的最大 似然值来计算参数的值;
步骤S3进一步包括步骤S305:重复上述步骤S202和步骤S203,直至算 法收敛。
由此可见,本发明实施例中,在现有GMM-HMM的方法基础上,本方法 提出使用狄利克雷混合模型(DMM)来对隐马尔科夫混合模型(HMM)的观测 概率来进行建模,同时使用变分推断(Variational Bayes inference)来实现模型参 数的求解,谋求模型鲁棒性和提高准确率。
本发明利用MFCC特征参数在基于变分推断的狄利克雷混合隐马尔科夫模 型的语音识别过程中,能够最大程度的降低运算并未得到准确的特征参数提供 保证,采用倒谱均值归一化技术,使得本方法能够适应不同的口音,进一步提 高特征提取的准确性。
本发明通过科学的算法及优化的训练条件,能够有效地训练而为后续进行 语音识别创造了基础,为准确识别语音特征提供了保证。
附图说明
以下将结合附图对本发明实施例进行更详细的描述,本发明的上述以及其 它目的、特征和优势将变得更加明显。附图用来对本发明实施例进行进一步的 解释,该附图构成说明书的一部分,且与本发明实施例一起用于解释本发明, 并不构成对本发明的限制。在附图中,相同的附图标记通常代表相同或相似的 部件或步骤。
图1是本发明实施例中狄利克雷混合模型混合隐马尔科夫模型处理语音识 别过程的流程图;
图2是图1所述语音识别过程中的语音信号采集示图;
图3是图1所述的语音识别过程中的梅尔倒谱系数提取语音特征的流程图;
图4是图1所述狄利克雷混合模型混合隐马尔科夫模型处理语音学习过程 示意图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细 描述本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施 例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例 的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造 性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
本发明实施例中的语音识别方法包括如下步骤,图1是本发明实施例中狄利 克雷混合模型混合隐马尔科夫模型处理语音识别过程的流程图,其包括将输入 的语音信号,使用梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients, MFCC)提取语音信号的特征向量;
将提取的MFCC特征向量输入到狄利克雷混合模型(Dirichlet Mixed Model,DMM)以中计算观测概率,其中使用变分推断(Variational Bayes inference)来更新优化模型参数;
将提取的MFCC特征向量和狄利克雷混合模型(DMM)计算得到的观测概 率输入隐马尔科夫模型(HMM)中对语音信号的时间序列结构进行建模;以 根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词 语。
具体地,请参照图3,语音识别方法包括步骤S100:输入语音信号,使用 梅尔频率倒谱系数MFCC提取语音信号的特征向量;
具体地,步骤S100进一步包括步骤S101:预加重所述语音信号,以补偿 所述语音信号中受到压抑的高频部分;其具体包括;
s'n=sn-k*sn-1
其中S表示语音信号,Sn={s0,…,sN-1},n=0,…,n-1;S'表示处理之后的信号,Sn'={s'0,…,s'N-1},n=0,…N-1;
k∈[0.9,1]。
通过所述步骤S101对所述语音信号进行消除发声过程中声带和嘴唇造成 的效应,补偿声音信号所受到发声系统所压抑的高频部分,并且高频的共振峰。
步骤S1进一步包括步骤S102:使用汉明窗对所述语音信号进行加窗处理, 用于平滑所述语音信号:其具体包括:
上述步骤S101到步骤S102为加强语音信号性能,例如信噪比、处理精度 等而对语音信号做的一些预处理工作,把音频信号中具有辨识性的成分进行提 取。
步骤S1进一步包括步骤S103:将所述语音信号中的时域信号转换成频域 信号,以进行频率分析;其中,
幅度频:
其中i表示第i帧,k表示傅里叶点数。
功率谱:
对每一个短时分析窗,通过快速傅立叶变换(Fast Fourier Transformation,FFT)得到对应的频谱,获得分布在时间轴上不同时间窗内的频谱。
步骤S1进一步包括步骤S104:使用梅尔克度滤波组过滤经过频域信号, 由于频率信号有很多冗余,滤波组可以对频域的幅值进行精简,每一个频段用 一个值来表示。
对于FFT得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到的 值即为该帧数据在该滤波器对应频段的能量值。
步骤S100进一步包括步骤S105:使用log非线性描述能量值,人耳对声音 的感知并不是线性的,用对数非线性关系能够更好地描述,取完log以后可以 进行倒谱分析。
将上面的频谱通过Mel滤波器组得到Mel频谱,通过Mel频谱,将线形的 自然频谱转换为体现人类听觉特性的Mel频谱,在Mel频谱上面进行倒谱分析。
步骤S100进一步包括步骤S106:通过离散余弦变换获取频率普的低频信 息;
上述公式是将对数能量进行离散余弦变换,求L阶MFCC参数,其中i表示 第i阶,mj表示第j个三角滤波器值。由于滤波器之间是有重叠的,前述获得 的能量值之间具有相关性,离散余弦变换可以对数据进行降维压缩和抽象,以 获得特征参数。
步骤S100进一步包括步骤S107:通过差分增加语音信号的特征的时域连续 性,由于语音信号是时域连续的,分帧提取的特征信息只反映了本帧语音的特 性,为了使特征更能体现时域连续性,在特征维度增加前后帧信息和维度。
具体地,
其中dt表示第t个一阶差分,ct表示第t个倒谱系数,θ表示一阶导数的时间 间隔。
取对数,做逆变换,实际逆变换一般是通过离散余弦变换(discrete cosinetransform,DCT)来实现,取DCT后的第2个到第13个系数作为MFCC系数, 在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。
步骤S1进一步包括步骤S108:倒谱均值归一化以获取语音信号的特征参 数。
采用倒谱均值归一化技术,以能够识别语音信号中的不同的口音,进一步提 高语音信号特征提取的准确性。
获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征,倒谱分 析,获得MFCC作为语音特征。
所述语音识别方法还包括步骤S200:将提取的MFCC特征向量输入到狄利 克雷分布混合模型中计算观测概率,其中使用变分推断(Variational Bayes inference)更新优化模型参数;
其中,狄利克雷混合模型模型式为
其中表示混合系数, 是第j个混合分量的 狄利克雷分布。
所述语音识别方法还包括步骤S300:在步骤2和步骤1的基础上,将所述 MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM,使用隐马尔 科夫模型对语音信号时间序列结构进行建模。
具体地,步骤S300进一步包括步骤S301:初始化分布参数,选择混合分 量的数量,使用K-means算法初始化超参数{ujl}和{vjl}的值,以进行数据聚类;
其中,M为混合分量数,N为输入样本数量,表示伽马分布,Z表示M 维二元随机变量。
其中:
注:<·>表示期望,Γ表示伽马函数。
超参数更新迭代式如下:
其中Ψ和Ψ'分别表示digamma函数和trigamma函数。
步骤S300进一步包括步骤S302:变分推断求解模型参数;
步骤S3进一步包括步骤S303:变分E步,更新Q(z)和计算其最大 似然估计值;
步骤S3进一步包括步骤S304:变分M步,最大化下界L(Q),求得的最大 似然值来计算参数的值。
通过(EM)算法在概率模型中寻找参数最大似然估计。
步骤S3进一步包括步骤S305:重复上述步骤S202和步骤S203,直至算 法收敛。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断 交替进行。
所述语音识别方法还包括步骤S400:根据所述语音信号中的隐马尔科夫模 型HMM的观测序列概率,判断并提取词语。即根据某个词的隐马尔科夫模型 (HMM)的观测序列概率最高,从而判断此段语音属于哪个词,即将具有辨识 性的成分提取出来。
本发明的语音识别过程可以应用于智能机器人上,例如无人机的语音控制指 令,家庭陪伴机器人的语音交互过程,自动清洁机器人的语音控制指令,智能 家电的语音交互过程等等。本发明的语音识别过程还可以应用到多种场景中, 比如无人银行,无人超市,自动驾驶等多种领域中,同时解决人们工作生活中 的繁琐的控制过程,通过简单的语音交互实现控制,实现快捷简便的人机交互。
本发明利用MFCC特征参数在基于变分推断的狄利克雷混合隐马尔科夫模 型的语音识别过程中,能够最大程度的降低运算并未得到准确的特征参数提供 保证,采用倒谱均值归一化技术,使得本方法能够适应不同的口音,进一步提 高特征提取的准确性。
本发明提出使用狄利克雷混合模型(DMM)来对隐马尔科夫混合模型 (HMM)的观测概率来进行建模,同时使用变分推断(Variational Bayes inference) 来实现模型参数的求解,谋求模型鲁棒性和提高准确率。
本发明通过科学的算法及优化的训练条件,能够有效地训练而为后续进行 语音识别创造了基础,为准确识别语音特征提供了保证。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是 示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在 其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修 改意在被包括在所附权利要求所要求的本发明的范围之内。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发 明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细 示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它 实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意 味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中, 所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明 的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技 术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发 明的保护范围应以权利要求的保护范围为准。

Claims (5)

1.一种语音识别方法,其特征在于,所述语音识别方法包括:
步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;
步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数;
步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模;
步骤S400:根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。
2.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量的步骤进一步包括:
步骤S101:预加重所述语音信号,以补偿所述语音信号中受到压抑的高频部分;其具体包括
s'n=sn-k*sn-1
其中:S表示语音信号,Sn={s0,…,sN-1},n=0,…,n-1;
S'表示处理之后的语音信号,Sn'={s'0,…,s'N-1},n=0,…N-1;
k∈[0.9,1];
步骤S102:使用汉明窗对所述语音信号进行加窗处理,用于平滑所述语音信号:其具体包括:
步骤S103:将所述语音信号中的时域信号转换成频域信号,以进行频率分析;其中,
幅度频:
其中i表示第i帧,k表示傅里叶点数;
功率谱:
步骤S104:使用梅尔克度滤波组过滤经过频域信号;
步骤S105:使用log非线性描述能量值;
步骤S106:通过离散余弦变换获取频率普的低频信息;其中,
步骤S107:通过差分增加语音信号的特征的时域连续性,其中,
其中dt表示第t个一阶差分,ct表示第t个倒谱系数,θ表示一阶导数的时间间隔。
步骤S108:倒谱均值归一化以获取语音信号的特征参数。
3.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数的步骤进一步包括:
狄利克雷混合模型模型式为:
其中表示混合系数, 是第j个混合分量的狄利克雷分布。
4.根据权利要求1所述语音识别方法,其特征在于,所述步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括:
步骤S301:初始化分布参数,选择混合分量的数量,使用K-means算法初始化超参数{ujl}和{vjl}的值,
其中,M为混合分量数,N为输入样本数量,表示伽马分布,Z表示M维二元随机变量。
其中:
注:<·>表示期望,Γ表示伽马函数。
超参数更新迭代式如下:
其中Ψ和Ψ'分别表示digamma函数和trigamma函数。
5.根据权利要求4所述的语音识别方法,其特征在于,所述步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括:
步骤S302:变分推断求解模型参数;
步骤S3进一步包括步骤S303:变分E步,更新Q(z)和计算其最大似然估计值;
步骤S3进一步包括步骤S304:变分M步,最大化下界L(Q),求得的最大似然值来计算参数的值;
步骤S3进一步包括步骤S305:重复上述步骤S202和步骤S203,直至算法收敛。
CN201810514662.9A 2018-05-25 2018-05-25 一种语音识别方法 Active CN109192200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810514662.9A CN109192200B (zh) 2018-05-25 2018-05-25 一种语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810514662.9A CN109192200B (zh) 2018-05-25 2018-05-25 一种语音识别方法

Publications (2)

Publication Number Publication Date
CN109192200A true CN109192200A (zh) 2019-01-11
CN109192200B CN109192200B (zh) 2023-06-13

Family

ID=64948534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810514662.9A Active CN109192200B (zh) 2018-05-25 2018-05-25 一种语音识别方法

Country Status (1)

Country Link
CN (1) CN109192200B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597342A (zh) * 2019-01-16 2019-04-09 郑州轻工业学院 一种动态组网智能辨识的采砂船监测装置及方法
CN109801621A (zh) * 2019-03-15 2019-05-24 三峡大学 一种基于残差门控循环单元的语音识别方法
CN110058689A (zh) * 2019-04-08 2019-07-26 深圳大学 一种基于脸部振动的智能设备输入方法
CN110289924A (zh) * 2019-06-05 2019-09-27 宁波大学 一种变分推断估计噪声功率的方法
CN110311743A (zh) * 2019-06-05 2019-10-08 宁波大学 一种变分推断估计主用户占空比的方法
CN110706712A (zh) * 2019-10-12 2020-01-17 四川虹微技术有限公司 家居环境下的录音重放检测方法
CN111968671A (zh) * 2020-08-24 2020-11-20 中国电子科技集团公司第三研究所 基于多维特征空间的低空声目标综合识别方法及装置
CN112466056A (zh) * 2020-12-01 2021-03-09 上海旷日网络科技有限公司 一种基于语音识别的自助柜取件系统及方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090076794A1 (en) * 2007-09-13 2009-03-19 Microsoft Corporation Adding prototype information into probabilistic models
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
KR101255468B1 (ko) * 2011-10-17 2013-04-16 포항공과대학교 산학협력단 대화 의도를 분류하는 방법
CN103578462A (zh) * 2012-07-18 2014-02-12 株式会社东芝 语音处理系统
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN104050972A (zh) * 2013-03-14 2014-09-17 雅马哈株式会社 声音信号分析设备以及声音信号分析方法和程序
CN104078039A (zh) * 2013-03-27 2014-10-01 广东工业大学 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN104424943A (zh) * 2013-08-23 2015-03-18 株式会社东芝 语音处理系统和方法
CN104737229A (zh) * 2012-10-22 2015-06-24 三菱电机株式会社 用于变换输入信号的方法
CN105282073A (zh) * 2015-09-23 2016-01-27 同济大学 一种基于认知无线电的车联网通信方法
CN105702250A (zh) * 2016-01-06 2016-06-22 福建天晴数码有限公司 语音识别方法和装置
CN106782516A (zh) * 2016-11-17 2017-05-31 北京云知声信息技术有限公司 语料分类方法及装置
CN107851434A (zh) * 2015-05-26 2018-03-27 鲁汶大学 使用自适应增量学习方法的语音识别系统和方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090076794A1 (en) * 2007-09-13 2009-03-19 Microsoft Corporation Adding prototype information into probabilistic models
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
KR101255468B1 (ko) * 2011-10-17 2013-04-16 포항공과대학교 산학협력단 대화 의도를 분류하는 방법
CN103578462A (zh) * 2012-07-18 2014-02-12 株式会社东芝 语音处理系统
CN104737229A (zh) * 2012-10-22 2015-06-24 三菱电机株式会社 用于变换输入信号的方法
CN104050972A (zh) * 2013-03-14 2014-09-17 雅马哈株式会社 声音信号分析设备以及声音信号分析方法和程序
CN104078039A (zh) * 2013-03-27 2014-10-01 广东工业大学 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN104424943A (zh) * 2013-08-23 2015-03-18 株式会社东芝 语音处理系统和方法
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN107851434A (zh) * 2015-05-26 2018-03-27 鲁汶大学 使用自适应增量学习方法的语音识别系统和方法
CN105282073A (zh) * 2015-09-23 2016-01-27 同济大学 一种基于认知无线电的车联网通信方法
CN105702250A (zh) * 2016-01-06 2016-06-22 福建天晴数码有限公司 语音识别方法和装置
CN106782516A (zh) * 2016-11-17 2017-05-31 北京云知声信息技术有限公司 语料分类方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597342A (zh) * 2019-01-16 2019-04-09 郑州轻工业学院 一种动态组网智能辨识的采砂船监测装置及方法
CN109597342B (zh) * 2019-01-16 2020-10-20 郑州轻工业学院 一种动态组网智能辨识的采砂船监测装置及方法
CN109801621A (zh) * 2019-03-15 2019-05-24 三峡大学 一种基于残差门控循环单元的语音识别方法
CN110058689A (zh) * 2019-04-08 2019-07-26 深圳大学 一种基于脸部振动的智能设备输入方法
CN110289924A (zh) * 2019-06-05 2019-09-27 宁波大学 一种变分推断估计噪声功率的方法
CN110311743A (zh) * 2019-06-05 2019-10-08 宁波大学 一种变分推断估计主用户占空比的方法
CN110311743B (zh) * 2019-06-05 2021-06-22 宁波大学 一种变分推断估计主用户占空比的方法
CN110289924B (zh) * 2019-06-05 2021-06-22 宁波大学 一种变分推断估计噪声功率的方法
CN110706712A (zh) * 2019-10-12 2020-01-17 四川虹微技术有限公司 家居环境下的录音重放检测方法
CN111968671A (zh) * 2020-08-24 2020-11-20 中国电子科技集团公司第三研究所 基于多维特征空间的低空声目标综合识别方法及装置
CN111968671B (zh) * 2020-08-24 2024-03-01 中国电子科技集团公司第三研究所 基于多维特征空间的低空声目标综合识别方法及装置
CN112466056A (zh) * 2020-12-01 2021-03-09 上海旷日网络科技有限公司 一种基于语音识别的自助柜取件系统及方法

Also Published As

Publication number Publication date
CN109192200B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN109192200B (zh) 一种语音识别方法
CN111276131B (zh) 一种基于深度神经网络的多类声学特征整合方法和系统
Sehr et al. Reverberation model-based decoding in the logmelspec domain for robust distant-talking speech recognition
CN109584896A (zh) 一种语音芯片及电子设备
Das et al. Recognition of isolated words using features based on LPC, MFCC, ZCR and STE, with neural network classifiers
US5621848A (en) Method of partitioning a sequence of data frames
CN103065629A (zh) 一种仿人机器人的语音识别系统
US5594834A (en) Method and system for recognizing a boundary between sounds in continuous speech
WO1995034035A1 (en) Method of training neural networks used for speech recognition
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
US6990447B2 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
CN107093422B (zh) 一种语音识别方法和语音识别系统
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
EP2903003A1 (en) Online maximum-likelihood mean and variance normalization for speech recognition
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
CN111798846A (zh) 语音命令词识别方法、装置、会议终端及会议终端系统
KR100897555B1 (ko) 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
AU2362495A (en) Speech-recognition system utilizing neural networks and method of using same
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
El-Henawy et al. Recognition of phonetic Arabic figures via wavelet based Mel Frequency Cepstrum using HMMs
Stouten et al. Joint removal of additive and convolutional noise with model-based feature enhancement
CN111627426B (zh) 消除语音交互中信道差异的方法及系统、电子设备及介质
US6275799B1 (en) Reference pattern learning system
CN113780408A (zh) 一种基于音频特征的生猪状态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant