CN106548775B - 一种语音识别方法和系统 - Google Patents

一种语音识别方法和系统 Download PDF

Info

Publication number
CN106548775B
CN106548775B CN201710015494.4A CN201710015494A CN106548775B CN 106548775 B CN106548775 B CN 106548775B CN 201710015494 A CN201710015494 A CN 201710015494A CN 106548775 B CN106548775 B CN 106548775B
Authority
CN
China
Prior art keywords
model
state
duration
level
hidden markov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710015494.4A
Other languages
English (en)
Other versions
CN106548775A (zh
Inventor
陈桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Youngtone Technology Co ltd
Original Assignee
Shanghai Youngtone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Youngtone Technology Co ltd filed Critical Shanghai Youngtone Technology Co ltd
Priority to CN201710015494.4A priority Critical patent/CN106548775B/zh
Publication of CN106548775A publication Critical patent/CN106548775A/zh
Application granted granted Critical
Publication of CN106548775B publication Critical patent/CN106548775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种语音识别方法和系统,该语音识别方法包括步骤:对采集到的语音信号进行预处理;对预处理后的语音信号进行特征参数提取;使用语言模型,以及包括状态级时长在内的声学模型进行自动识别语音;对自动识别得到的结果进行自然语言后处理。本发明能够提高语音识别精度。

Description

一种语音识别方法和系统
技术领域
本发明涉及一种语音识别技术领域,特别是涉及一种语音识别方法和系统。
背景技术
语音识别,也称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类语音转换为计算机可读的文字或指令,是模式识别的一个重要分支。一个完整的语音识别系统一般包括语音信号预处理、特征提取、模型训练、声学模型、语言模型以及自然语言后处理等几大模块。
其中,语音信号预处理阶段可对语音进行降噪、增强以处理原始语音信号,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。
特征参数提取是指从语音信号中提取出有关的特征参数,如语音识别建模中常用的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)或滤波器组系数(Filterbank Coefficient)等等。
声学模型的主要作用是用来辨识用户发什么样的音。目前占据主流地位的建模方法为深度神经网络模型(DNN/CNN/RNN)等。
语言模型的作用是帮助辨识用户发出的音对应于什么文字,利用前后词汇的搭配信息来选取更为准确的词汇序列。目前主要使用N-Gram统计语言模型。
识别器的主要作用是进行搜索,在搜索空间中确定跟用户语音吻合度最高的词序列。比较经典的搜索算法为时间同步的Viterbi搜索。
由上可知,该语音识别系统中考虑了说话人发出的音以及说话人发出的音所对应的文字,但是,其考虑的因素中并不考量音节或者音素的时长;而,人类语音中,除了故意加快或者减缓语速之外,不同说话人之间语速确实存在一定程度的差异,甚至跟特定的语言也有关系,如有的地方方言语速整体偏高或者偏低。若不考虑其影响,则必然在一定程度上降低语音识别精度。
应该注意,上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供能够提高识别精度的语音识别方法。
为实现上述目的,本发明提供了一种语音识别方法,包括步骤:
对采集到的语音信号进行预处理;
对预处理后的语音信号进行特征参数提取;
使用语言模型,以及包括状态级时长在内的声学模型进行自动识别语音;
对自动识别得到的结果进行自然语言后处理。
进一步的,所述状态级时长模型是预先建立的,建立过程包括:
训练谱参数声学模型;
利用训练出来的谱参数声学模型对训练语句进行切分,得到初步的状态时长;
利用处理后的状态时长除以音素时长或音节时长,得到归一化时长;
统计整个训练语料库中的相关语句,得到语音学上下文相关的状态级时长模型。本方案中,时长归一化措施,使得时长的分布更鲁棒,可以消除语速变化的影响,进一步提高识别精度。
进一步的,所述状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的;
所述隐马尔科夫模型被引入作为状态级模型的生成模型;
所述隐马尔科夫模型具有包括发射状态在内的若干个状态;语音信号由所述发射状态产生。本方案中,引入隐马尔科夫模型和高斯混合模型,用于在状态级别构建状态级时长模型,这使得得到的状态级时长模型更合理。
进一步的,所述隐马尔科夫模型包括静音段模型和非静音段模型;所述静音段模型具备的状态数目比非静音阶段多,涉及的状态转移比非静音阶段复杂。该静音段模型和非静音段模型主要使用在实际模型训练阶段,其中静音段的表现相对复杂,甚至某些声学事件(Acoustic Event)也通过静音段模型来吸收,静音段模型和非静音段模型的具体拓扑图见说明书附图。
进一步的,所述状态级时长模型包括若干个音素或音节,每个音素或音节包括若干个状态,每个状态的时长使用高斯模型N(μ,σ)表示,其中μ为均值,σ为方差。加入状态级时长模型的好处是排除包含过短或者过长音素的候选识别结果,进一步提升识别精度。
进一步的,所述状态时长在除以音素时长或音节时长,得到归一化时长之前,先进行了规整处理;
得到的规整状态时长除以音素时长或音节时长,即得到归一化时长。不同说话人之间的语速是不相一致的,规整后的时长有利于克服说话语速过快或者过慢对最终识别精度的影响。
进一步的,所述规整处理使用的公式如下:
Figure GDA0002418014850000031
ds为状态时长,dp为音素时长或音节时长,d's为规整以后的状态时长。不同说话人之间的语速是不相一致的,规整后的时长有利于克服说话语速过快或者过慢对最终识别精度的影响。
进一步的,所述使用声学模型和语言模型进行语音的自动识别的步骤包括解码阶段,所述解码阶段包括似然度的计算和比较过程;
所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。解码阶段主要采用Viterbi解码过程,而Viterbi解码过程主要依赖似然度的计算和比较,可以将谱参数声学模型和时长模型综合考虑,这将影响后续的搜索过程,从而提高最终的识别精度。
进一步的,所述统计整个训练语料库中的相关语句,得到语音学上下文相关的状态级时长模型的步骤包括过程:
统计整个训练语料库的相关语句作为训练集合;
在训练集合中根据语音学上下文采用最大方差下降原则进行决策树的分裂;
针对训练集合中的每个音素的每个状态,根据左右语音学环境进行挑选,挑选对方差下降较优的问题进行分裂。本方案中,参数估计得到优化,有利于优化音素时长,进而影响规整后的状态时长,从而进一步提高最终的识别精度。
本发明还公开了一种语音识别系统,使用了本发明任一公开的语音识别方法,包括:
预处理单元,用于对采集到的语音信号进行预处理;
特征参数提取单元,用于对预处理后的语音信号进行特征参数提取;
自动语音识别器,用于使用语言模型,以及包括状态级时长在内的声学模型进行自动识别语音;
其中,所述状态级时长模型是预先建立的,建立过程包括:训练谱参数声学模型;利用训练出来的谱参数声学模型对训练语句进行切分,得到初步的状态时长;对状态时长进行规整处理;利用规整处理后的状态时长除以音素时长或音节时长,得到归一化时长;统计整个训练语料库中的相关语句,得到语音学上下文相关的状态级时长模型;状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的,所述隐马尔科夫模型被引入作为状态级模型的生成模型,所述隐马尔科夫模型具有包括发射状态在内的若干个状态,所述语音信号由所述发射状态产生,所述隐马尔科夫模型包括静音段模型和非静音段模型;其中:所述状态级时长模型包括若干个音素或音节,每个音素或音节包括若干个状态,每个状态的时长使用高斯模型N(μ,σ)表示,其中μ为均值,σ为方差;
自然语言后处理单元,用于对自动识别得到的结果进行自然语言后处理,其中自动语音识别器功能包括解码过程,所述解码阶段包括似然度的计算和比较过程,所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。。
本发明的有益效果是:该声学模型主要用于辨识用户发什么样的音,但现有模型,无论谱参数声学模型还是基音声学模型,而不考虑音节或音素时长的影响,本发明由于引入状态级时长模型到声学模型之中,这使得采集得到的语音信号中故意加快或减缓语速、或者不同说话人之间存在的语速差异性能够被发现和考虑,如此在解码时,将能够排除那些在时长分布上明显不合理的识别结果,具体来说,便是能够排除包含果断或者过长音素的候选识别结果,从而提高识别精度。
参照后文的说明和附图,详细公开了本申请的特定实施方式,指明了本申请的原理可以被采用的方式。应该理解,本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本申请的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本申请实施例的进一步的理解,其构成了说明书的一部分,用于例示本申请的实施方式,并与文字描述一起来阐释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一种语音识别方法的流程图;
图2是静音段模型HMM拓扑结构示意图;
图3是非静音段模型HMM拓扑结构示意图;
图4是本发明一种语音识别系统的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都应当属于本申请保护的范围。
图1是本发明一种语音识别方法的流程图,参见图1,一种语音识别方法,包括步骤:
S1:对采集到的语音信号进行预处理;
S2:对预处理后的语音信号进行特征参数提取;
S3:使用语言模型,以及包括状态级时长在内的声学模型进行自动识别语音;
S4:对自动识别得到的结果进行自然语言后处理。
本发明的有益效果是:该声学模型主要用于辨识用户发什么样的音,但现有模型,无论谱参数声学模型还是基音声学模型,而不考虑音节或音素时长的影响,本发明由于引入状态级时长模型到声学模型之中,这使得采集得到的语音信号中故意加快或减缓语速、或者不同说话人之间存在的语速差异性能够被发现和考虑,如此在解码时,将能够排除那些在时长分布上明显不合理的识别结果,具体来说,便是能够排除包含果断或者过长音素的候选识别结果,从而提高识别精度。
本实施例优选的,在步骤S3中,该状态级时长模型是预先建立的,建立过程包括:
训练谱参数声学模型;
利用训练出来的谱参数声学模型对训练语句进行切分,得到初步的状态时长;
利用处理后的状态时长除以音素时长或音节时长,得到归一化时长;
统计整个训练语料库中的相关语句,得到语音学上下文相关的状态级时长模型。本方案中,时长归一化措施,使得时长的分布更鲁棒,可以消除语速变化的影响,进一步提高识别精度。
本实施例优选的,在该步骤S3中,状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的;
所述隐马尔科夫模型被引入作为状态级模型的生成模型;
所述隐马尔科夫模型具有包括发射状态(emittingstate)在内的若干个状态;语音信号由所述发射状态产生。本方案中,引入隐马尔科夫模型和高斯混合模型,用于在状态级别构建状态级时长模型,这使得得到的状态级时长模型更合理。
本实施例优选的,在该步骤S3中,隐马尔科夫模型(Hidden Markov Model,简称HMM)包括静音段模型和非静音段模型;所述静音段模型具备的状态数目比非静音阶段多,涉及的状态转移比非静音阶段复杂。该静音段模型和非静音段模型主要使用在实际模型训练阶段,其中静音段的表现相对复杂,甚至某些声学事件(AcousticEvent)也通过静音段模型来吸收,静音段模型和非静音段模型的具体拓扑图见说明书附图,其中,附图2是静音段模型HMM拓扑结构示意图,附图3是非静音段模型HMM拓扑结构示意图。
本实施例优选的,在该步骤S3中,状态级时长模型包括若干个音素或音节,每个音素或音节包括若干个状态,每个状态的时长使用高斯模型N(μ,σ)表示,其中μ为均值,σ为方差。加入状态级时长模型的好处是排除包含过短或者过长音素的候选识别结果,进一步提升识别精度。
本实施例优选的,在该步骤S3中,状态时长在除以音素时长或音节时长,得到归一化时长之前,先进行了规整处理;
得到的规整状态时长除以音素时长或音节时长,即得到归一化时长。不同说话人之间的语速是不相一致的,规整后的时长有利于克服说话语速过快或者过慢对最终识别精度的影响。
本实施例优选的,在该步骤S3中,规整处理使用的公式如下:
Figure GDA0002418014850000061
ds为状态时长,dp为音素时长或音节时长,d's为规整以后的状态时长。不同说话人之间的语速是不相一致的,规整后的时长有利于克服说话语速过快或者过慢对最终识别精度的影响。
本实施例优选的,在该步骤S3中,使用声学模型和语言模型进行语音的自动识别的步骤包括解码阶段,所述解码阶段包括似然度(likelihood)的计算和比较过程;
所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。解码阶段主要采用Viterbi解码过程,而Viterbi解码过程主要依赖似然度的计算和比较,可以将谱参数声学模型和时长模型综合考虑,这将影响后续的搜索过程,从而提高最终的识别精度。
本实施例优选的,在步骤S3中,统计整个训练语料库中的相关语句,得到语音学上下文相关的状态级时长模型的步骤包括过程:
统计整个训练语料库的相关语句作为训练集合;
在训练集合中根据语音学上下文采用最大方差下降原则进行决策树的分裂;
针对训练集合中的每个音素的每个状态,根据左右语音学环境进行挑选,挑选对方差下降较优的问题进行分裂。本方案中,参数估计得到优化,有利于优化音素时长,进而影响规整后的状态时长,从而进一步提高最终的识别精度。
图4是本发明一种语音识别系统的示意图,本发明还公开了一种语音识别系统,使用了本发明任一公开的语音识别方法,其组成包括:
预处理单元10,用于对采集到的语音信号进行预处理;
特征参数提取单元20,用于对预处理后的语音信号进行特征参数提取;
自动语音识别器30,用于使用语言模型,以及包括状态级时长在内的声学模型进行自动识别语音;
其中,所述状态级时长模型是预先建立的,建立过程包括:训练谱参数声学模型;利用训练出来的谱参数声学模型对训练语句进行切分,得到初步的状态时长;对状态时长进行规整处理;利用规整处理后的状态时长除以音素时长或音节时长,得到归一化时长;统计整个训练语料库中的相关语句,得到语音学上下文相关的状态级时长模型;状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的,所述隐马尔科夫模型被引入作为状态级模型的生成模型,所述隐马尔科夫模型具有包括发射状态在内的若干个状态,所述语音信号由所述发射状态产生,所述隐马尔科夫模型包括静音段模型和非静音段模型;其中:所述状态级时长模型包括若干个音素或音节,每个音素或音节包括若干个状态,每个状态的时长使用高斯模型N(μ,σ)表示,其中μ为均值,σ为方差;其中:所述状态时长在除以音素时长或音节时长,得到归一化时长之前,先进行了规整处理;得到的规整状态时长除以音素时长或音节时长,即得到归一化时长;
自然语言后处理单元40,用于对自动识别得到的结果进行自然语言后处理,其中自动语音识别器功能包括解码过程,所述解码阶段包括似然度的计算和比较过程,所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (4)

1.一种语音识别方法,其中,包括步骤:
对采集到的语音信号进行预处理;
对预处理后的语音信号进行特征参数提取;
使用语言模型,以及包括状态级时长在内的声学模型进行自动识别语音;
对自动识别得到的结果进行自然语言后处理;
其中:所述状态级时长模型是预先建立的,建立过程包括:
训练谱参数声学模型;
利用训练出来的谱参数声学模型对训练语句进行切分,得到初步的状态时长;
对状态时长进行规整处理;
利用规整处理后的状态时长除以音素时长或音节时长,得到归一化时长;
统计整个训练语料库中的相关语句,得到语音学上下文相关的状态级时长模型;
其中:所述状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的;
所述隐马尔科夫模型被引入作为状态级模型的生成模型;
所述隐马尔科夫模型具有包括发射状态在内的若干个状态;语音信号由所述发射状态产生;
其中:所述隐马尔科夫模型包括静音段模型和非静音段模型;所述静音段模型具备的状态数目比非静音阶段多,涉及的状态转移比非静音阶段复杂;
其中:所述状态级时长模型包括若干个音素或音节,每个音素或音节包括若干个状态,每个状态的时长使用高斯模型N(μ,σ)表示,其中μ为均值,σ为方差;
其中:所述使用声学模型和语言模型进行语音的自动识别的步骤包括解码阶段,所述解码阶段包括似然度的计算和比较过程;
所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。
2.如权利要求1所述的语音识别方法,其中:所述规整处理使用的公式如下:
Figure FDA0002418014840000011
ds为状态时长,dp为音素时长或音节时长,d's为规整以后的状态时长。
3.如权利要求1所述的语音识别方法,其中:所述统计整个训练语料库中的相关语句,得到语音学上下文相关的状态级时长模型的步骤包括过程:
统计整个训练语料库的相关语句作为训练集合;
在训练集合中根据语音学上下文采用最大方差下降原则进行决策树的分裂;
针对训练集合中的每个音素的每个状态,根据左右语音学环境进行挑选,挑选对方差下降较优的问题进行分裂。
4.一种语音识别系统,使用了如权利要求1至3任一所述的语音识别方法,其中,包括:
预处理单元,用于对采集到的语音信号进行预处理;
特征参数提取单元,用于对预处理后的语音信号进行特征参数提取;
自动语音识别器,用于使用语言模型,以及包括状态级时长在内的声学模型进行自动识别语音;
其中,所述状态级时长模型是预先建立的,建立过程包括:训练谱参数声学模型;利用训练出来的谱参数声学模型对训练语句进行切分,得到初步的状态时长;对状态时长进行规整处理;利用规整处理后的状态时长除以音素时长或音节时长,得到归一化时长;统计整个训练语料库中的相关语句,得到语音学上下文相关的状态级时长模型;状态级时长模型的建立基于隐马尔科夫模型和高斯混合模型在状态级建立而成的,所述隐马尔科夫模型被引入作为状态级模型的生成模型,所述隐马尔科夫模型具有包括发射状态在内的若干个状态,所述语音信号由所述发射状态产生,所述隐马尔科夫模型包括静音段模型和非静音段模型;其中:所述状态级时长模型包括若干个音素或音节,每个音素或音节包括若干个状态,每个状态的时长使用高斯模型N(μ,σ)表示,其中μ为均值,σ为方差;
自然语言后处理单元,用于对自动识别得到的结果进行自然语言后处理,其中自动语音识别器功能包括解码过程,所述解码阶段包括似然度的计算和比较过程,所述似然度的计算包括特征参数似然度计算和规整状态时长似然度计算。
CN201710015494.4A 2017-01-10 2017-01-10 一种语音识别方法和系统 Active CN106548775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710015494.4A CN106548775B (zh) 2017-01-10 2017-01-10 一种语音识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710015494.4A CN106548775B (zh) 2017-01-10 2017-01-10 一种语音识别方法和系统

Publications (2)

Publication Number Publication Date
CN106548775A CN106548775A (zh) 2017-03-29
CN106548775B true CN106548775B (zh) 2020-05-12

Family

ID=58396401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710015494.4A Active CN106548775B (zh) 2017-01-10 2017-01-10 一种语音识别方法和系统

Country Status (1)

Country Link
CN (1) CN106548775B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017216571B4 (de) * 2017-09-19 2022-10-06 Volkswagen Aktiengesellschaft Kraftfahrzeug
CN109961775A (zh) * 2017-12-15 2019-07-02 中国移动通信集团安徽有限公司 基于hmm模型的方言识别方法、装置、设备及介质
CN107945789A (zh) * 2017-12-28 2018-04-20 努比亚技术有限公司 语音识别方法、装置及计算机可读存储介质
CN109087630B (zh) * 2018-08-29 2020-09-15 深圳追一科技有限公司 语音识别的方法及相关装置
CN110211588A (zh) 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN110956859A (zh) * 2019-11-05 2020-04-03 合肥成方信息技术有限公司 基于深度学习的vr智能语音交互英语方法
CN113672209B (zh) * 2021-10-22 2021-12-21 环球数科集团有限公司 一种根据分销协议自动生成智能合约的系统
CN115878847B (zh) * 2023-02-21 2023-05-12 云启智慧科技有限公司 基于自然语言的视频引导方法、系统、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1221937C (zh) * 2002-12-31 2005-10-05 北京天朗语音科技有限公司 语速自适应的语音识别系统
JP5505896B2 (ja) * 2008-02-29 2014-05-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 発話区間検出システム、方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Duration Modeling Technique with Incremental Speech Rate Normalization;Hiroshi Fujimura等;《INTERSPEECH 2010》;20100926;第2962-2965页 *
SPEAKING RATE ADAPTATION USING CONTINUOUS;Stephen M. Chu等;《2010 IEEE International Conference on Acoustics, Speech and Signal Processing》;20100514;第1-4页 *

Also Published As

Publication number Publication date
CN106548775A (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
CN106548775B (zh) 一种语音识别方法和系统
KR102134201B1 (ko) 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체
US10157610B2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
Serizel et al. Vocal tract length normalisation approaches to DNN-based children's and adults' speech recognition
Arora et al. Automatic speech recognition: a review
US6470315B1 (en) Enrollment and modeling method and apparatus for robust speaker dependent speech models
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
CN111862954B (zh) 一种语音识别模型的获取方法及装置
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
Mouaz et al. Speech recognition of moroccan dialect using hidden Markov models
CN107093422B (zh) 一种语音识别方法和语音识别系统
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
US11929058B2 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Këpuska Wake-up-word speech recognition
CN114627896A (zh) 语音评测方法、装置、设备及存储介质
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
Lakshmi Sarada et al. Automatic transcription of continuous speech into syllable-like units for Indian languages
CN112216270A (zh) 语音音素的识别方法及系统、电子设备及存储介质
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Ljolje Speech recognition using fundamental frequency and voicing in acoustic modeling.
Khalifa et al. Statistical modeling for speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant