CN105845130A - 用于语音识别的声学模型训练方法及装置 - Google Patents

用于语音识别的声学模型训练方法及装置 Download PDF

Info

Publication number
CN105845130A
CN105845130A CN201610195612.XA CN201610195612A CN105845130A CN 105845130 A CN105845130 A CN 105845130A CN 201610195612 A CN201610195612 A CN 201610195612A CN 105845130 A CN105845130 A CN 105845130A
Authority
CN
China
Prior art keywords
acoustic
training
model
states
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610195612.XA
Other languages
English (en)
Inventor
张俊博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leshi Zhixin Electronic Technology Tianjin Co Ltd
LeTV Holding Beijing Co Ltd
Original Assignee
Leshi Zhixin Electronic Technology Tianjin Co Ltd
LeTV Holding Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leshi Zhixin Electronic Technology Tianjin Co Ltd, LeTV Holding Beijing Co Ltd filed Critical Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority to CN201610195612.XA priority Critical patent/CN105845130A/zh
Publication of CN105845130A publication Critical patent/CN105845130A/zh
Priority to PCT/CN2016/096672 priority patent/WO2017166625A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供一种用于语音识别的声学模型训练方法及装置,所述方法包括:获取训练样本;所述训练样本包括声学特征以及所述声学特征对应的训练文本;获取原始声学模型,并利用所述原始声学模型,确定每一训练文本对应的所述原始声学模型中的声学状态;根据每一训练文本对应的声学状态以及声学特征,确定每一声学状态对应的声学特征;利用每一声学状态对应的声学特征,重新训练获得所述声学状态的状态描述模型;利用重新训练获得的状态描述模型,更新所述原始声学模型中的原始状态描述模型,获得更新之后的声学模型,本发明实施例降低了模型训练复杂度,且通过对原始声学模型进行更新,未破坏原始声学模型的结构,也保证了语音识别的准确度。

Description

用于语音识别的声学模型训练方法及装置
技术领域
本发明实施例语音识别技术领域,尤其涉及一种用于语音识别的声学模型训练方法及装置。
背景技术
语音识别系统的一个目的,是把语音转换成文字,具体来说,是将一段语音信号,找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。
语音识别系统中最重要的部分之一即是声学模型(AcousticModeling),在进行语音识别时,将语音信号转换为声学特征,再利用声学模型确定出声学特征对应的各个声学状态,由各个声学状态组合即获得文字。
其中,声学状态是构成文字发音的基本单位,通常是指将音素进一步划分获得的更小单位。
声学特征对应的声学状态,是利用声学模型中的状态描述模型计算获得,在声学模型中,每一个声学状态对应一个状态描述模型,利用状态描述模型即可以识别与声学特征最匹配的声学状态。
现有技术中,声学模型的训练过程非常复杂,不仅包括状态描述模型的训练,还包括声学特征的提取、声学特征变换、决策树生成、状态定义模型的训练等。而在实际应用中,随着应用场景的变化或者生命周期的演进,原始的声学模型可能不在适用当前的应用场景,这就需要重新训练一个新的声学模型,但是重新训练一个新的声学模型不仅复杂度高,且发明人在研究中发现,原始的声学模型中某些结构可能并不需要进行改变,比如状态定义模型,如果重新训练,就会破坏状态定义模型定义的声学状态,反而会影响语音识别的准确度。
发明内容
本发明实施例提供一种用于语音识别的声学模型训练方法及装置,用以解决现有技术中如何在保证语音识别准确度的前提下,降低声学模型训练复杂度的技术问题。
本发明实施例提供一种用于语音识别的声学模型训练方法,包括:
获取训练样本;所述训练样本包括声学特征以及所述声学特征对应的训练文本;
获取原始声学模型,并利用所述原始声学模型,确定每一训练文本对应的所述原始声学模型中的声学状态;
根据每一训练文本对应的声学状态以及声学特征,确定每一声学状态对应的声学特征;
利用每一声学状态对应的声学特征,重新训练获得所述声学状态的状态描述模型;
利用重新训练获得的状态描述模型,更新所述原始声学模型中的原始状态描述模型,获得更新之后的声学模型。
本发明实施例提供一种用于语音识别的声学模型训练装置,包括:
样本获取模块,用于获取训练样本;所述训练样本包括声学特征以及所述声学特征对应的训练文本;
第一确定模块,用于获取原始声学模型,并利用所述原始声学模型,确定每一训练文本对应的所述原始声学模型中的声学状态;
第二确定模块,用于根据每一训练文本对应的声学状态以及声学特征,确定每一声学状态对应的声学特征;
训练模块,用于利用每一声学状态对应的声学特征,重新训练获得所述声学状态的状态描述模型;
更新模块,用于利用重新训练获得的状态描述模型,更新所述原始声学模型中的原始状态描述模型,获得更新之后的声学模型。
本发明实施例提供的用于语音识别的声学模型训练方法及装置,利用原始声学模型,确定训练样本中训练文本对应的声学状态,并根据每一训练文本对应的声学状态以及声学特征,可以确定每一声学状态对应的声学特征。从而直接利用声学状态对应的声学特征对声学状态的状态描述模型进行重新训练即可,重新训练获得的状态描述模型用于更新所述原始声学模型中的原始状态描述模型,从而即可以获得更新之后的声学模型。通过本发明实施例,仅对原始声学模型中的状态描述模型进行再训练即可,而无需训练一个全新的声学模型,既降低了训练复杂度,且通过对原始声学模型进行更新,未破坏原始声学模型的结构,同时保证了语音识别准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明用于语音识别的声学模型训练方法一个实施例流程图。
图2为本发明用于语音识别的声学模型训练装置一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明技术方案主要应用于语音识别领域中声学模型的训练。声学模型是语音识别系统中最重要的部分之一,用于在语音识别,利用声学模型确定出声学特征对应的各个声学状态,由各个声学状态组合即获得文字。其中,声学特征是通过对语音信号提取获得,声学特征例如可以是MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征。
声学模型是利用诸如隐马尔科夫模型等模型建模获得,需要使用大量的训练样本对建模模型进行训练,从而获得声学模型。
声学模型中包括多个声学状态对应的状态描述模型,这些状态描述模型用于计算声学特征在该声学状态上的概率,而从确定与声学特征最匹配的声学状态,从而将声学状态进行组合即可以获得文字。
由于声学模型训练,不仅包括状态描述模型的训练,还包括状态定义模型的训练,通过状态定义模型,可以得到在特定上下文环境下的一个文字或一个音素,其应该对应怎样的状态序列;通过状态描述模型,可以得到声学特征在某一声学状态上的概率,从而可以确定与声学特征最匹配的声学状态。
如果原始的声学模型不在适用当前的应用场景,这就需要重新训练一个新的声学模型,但是重新训练一个新的声学模型不仅复杂度高,且发明人在研究中发现。在一些应用场景中并不希望改变状态定义模型,仅希望改变状态描述模型,比如,如果改变状态定义模型,识别时使用的解码图就需要重新构建,但是并不希望重新构建这个解码图,并用于训练原始模型的原始训练数据由于种种原因无法获得(比如原始训练数据是保密的)。如果重新训练一个新的声学模型,重新训练获得的新的声学模型的识别准确度可能还要低于原始声学模型的识别准确度。
因此,本发明提出了一种通过对原始声学模型进行更新,在保证语音识别准确度的前提下,不破坏原始声学模型的结构的技术方案。
在本发明实施例中,获取训练样本以及原始声学模型,利用原始声学模型,确定训练样本中训练文本对应的声学状态,并根据每一训练文本对应的声学状态以及声学特征,可以确定每一声学状态对应的声学特征。从而直接利用声学状态对应的声学特征对声学状态的状态描述模型进行重新训练即可,重新训练获得的状态描述模型用于更新所述原始声学模型中的原始状态描述模型,从而即可以获得更新之后的声学模型。更新之后的声学模型即可以继续用于语音识别,通过本发明实施例,仅对原始声学模型中的状态描述模型进行再训练即可,而无需训练一个全新的声学模型,既降低了训练复杂度,且通过对原始声学模型进行更新,未破坏原始声学模型的结构,同时保证了语音识别准确度。
下面将结合附图对本发明技术方案进行详细描述。
图1是本发明实施例提供的一种用于语音识别的声学模型训练方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:获取训练样本。
其中,所述训练样本包括声学特征以及所述声学特征对应的训练文本。
其中,所述训练样本中的声学特征可以是从训练语音中提取获得的。
也即具体是通过获取训练语音以及所述训练语音对应的训练文本,并提取所述训练语音的声学特征,将所述声学特征以及其对应的训练文本作为训练样本。
本发明实施例中,由于无需重新训练新的声学模型,因此训练样本的数量可以大大减少。
该训练样本可以根据原始声学模型不再适用的应用场景确定,由于应用场景不再适用,导致声学模型识别不出对应应用场景的准确文字,因此需要再训练。
102:获取原始声学模型,并利用所述原始声学模型,确定每一训练文本对应的所述原始声学模型中的声学状态。
具体的,可以是利用原始声学模型的状态定义模型,确定每一训练文本对应的声学状态。每一个训练文本对应的声学状态包括多个,也即其对应的为声学状态序列。
其中,状态定义模型用于确定特定上下文环境下的一个单词或一个音素,其对应的声学状态训练。
而状态描述模型即是用于在给出声学特征时,确定该声学特征在某声学状态上的概率,从而确定与声学特征最匹配的声学状态序列。
其中,所述声学状态是构成文字发音的基本单位,可以是指将音素进一步划分获得的比音素更小的单元。将声学状态组合可以获得音素,将音素组合即可以获得文字。
训练文本由文字构成,因此可以获得每一个训练文本对应的原始声学模型中的声学状态序列。
103:根据每一训练文本对应的声学状态以及声学特征,确定每一声学状态对应的声学特征。
根据训练文本与声学特征的对应关系,可以获取训练文本对应的声学状态,即可以获得声学特征对应的声学状态。
作为又一个实施例,具体可以是根据每一训练文本对应的声学状态以及声学特征,将所述声学特征进行切分,获得分段数据;
确定每一声学状态对应的分段数据。
也即每一声学状态具体对应声学特征中的分段数据。
具体的,可以是通过原始声学模型对声学特征进行强制对齐(ForcedAlignment),具体的是利用训练文本构建线性解码网络,并利用维特比(Viterbi)算法,将所述训练文件对应的声学特征进行切分,获得分段数据,从而即可以确定每一个声学状态对应的分段数据。
104:利用每一声学状态对应的声学特征,重新训练获得所述声学状态的状态描述模型。
具体的,即是利用每一声学状态对应的分段数据,重新训练获得所述声学状态的状态描述模型。
105:利用重新训练获得的状态描述模型,更新所述原始声学模型中的原始状态描述模型,获得更新之后的声学模型。
重新训练获得的状态描述模型,即可以替换原始声学模型中的原始状态描述模型,原始声学模型的其他结构不变,从而获得更新之后的声学模型。更新之后的声学模型即是根据训练样本再训练获得声学模型,训练样本为适用应用场景的样本,从而使得再训练获得的声学模型即适用于该应用场景的语音识别。
本实施例中,仅对原始声学模型中的状态描述模型进行再训练即可,而无需训练一个全新的声学模型,既降低了训练复杂度,且通过对原始声学模型进行更新,未破坏原始声学模型的结构,可以继续使用原始声学模型的状态定义模型等结构,保证了语音识别准确度。
本发明实施例,在原始训练数据丢失以及不希望改变原始声学模型中的状态定义模型等结构的情况下,可以通过对原始声学模型中的状态描述模型进行再训练,重新训练获得声学模型,即可以降低训练复杂度,同时使得声学模型能够适用当前应用场景。
其中,状态描述模型可以通过对深度神经网络(DNN,Deep NeuralNetworks)训练获得,具体的可以采用反向传播(Back Propgation)算法实现,当然还可以采用其他的数学模型、比如混合高斯模型(GMM,Gaussian MixtureModel),则使用最大期望(EM,Expectation Maximization Algorithm)算法实现等,可以根据实际情况进行选择,本发明并不对此进行限定。
图2为本发明实施例提供的一种用于语音识别的声学模型训练装置一个实施例的结构示意图,该装置可以包括:
样本获取模块201,用于获取训练样本。
其中,所述训练样本包括声学特征以及所述声学特征对应的训练文本。
所述样本获取模块可以具体是获取训练语音以及训练文本,并提取所述训练语音的声学特征。
也即具体是通过获取训练语音以及所述训练语音对应的训练文本,并提取所述训练语音的声学特征,将所述声学特征以及其对应的训练文本作为训练样本。
本发明实施例中,由于无需重新训练新的声学模型,因此训练样本的数量可以大大减少。
该训练样本可以根据原始声学模型不再适用的应用场景确定,由于应用场景不再适用,导致声学模型识别不出对应应用场景的准确文字,因此需要再训练。
第一确定模块202,用于获取原始声学模型,并利用所述原始声学模型,确定每一训练文本对应的所述原始声学模型中的声学状态。
具体的,所述第一确定模块可以是利用原始声学模型的状态定义模型,确定每一训练文本对应的声学状态。每一个训练文本对应的声学状态包括多个,也即其对应的为声学状态序列。
其中,状态定义模型用于确定特定上下文环境下的一个单词或一个音素,其对应的声学状态训练。
而状态描述模型即是用于在给出声学特征时,确定该声学特征在某声学状态上的概率,从而确定与声学特征最匹配的声学状态序列。
其中,所述声学状态是构成文字发音的基本单位,可以是指将音素进一步划分获得的比音素更小的单元。将声学状态组合可以获得音素,将音素组合即可以获得文字。
训练文本由文字构成,因此可以获得每一个训练文本对应的原始声学模型中的声学状态序列。
第二确定模块203,用于根据每一训练文本对应的声学状态以及声学特征,确定每一声学状态对应的声学特征。
根据训练文本与声学特征的对应关系,可以获取训练文本对应的声学状态,即可以获得声学特征对应的声学状态。
作为又一个实施例,所述第二确定模块可以具体用于根据每一训练文本对应的声学状态以及声学特征,将所述声学特征进行切分,获得分段数据,并确定每一声学状态对应的分段数据。
也即每一声学状态具体对应声学特征中的分段数据。
具体的,可以是通过原始声学模型对声学特征进行强制对齐(ForcedAlignment),利用训练文本构建线性解码网络,并利用维特比(Viterbi)算法,,将所述训练文件对应的声学特征进行切分,获得分段数据,从而即可以确定每一个声学状态对应的分段数据。
因此,作为又一个实施例,所述第二确定模块是利用每一训练文本建立线性解码网络,利用维特比算法,将所述训练文件对应的声学特征进行切分,获得分段数据,并确定每一个声学状态对应的分段数据。
训练模块204,用于利用每一声学状态对应的声学特征,重新训练获得所述声学状态的状态描述模型。
具体是,即是利用每一声学状态对应的分段数据,重新训练获得所述声学状态的状态描述模型。
更新模块205,用于利用重新训练获得的状态描述模型,更新所述原始声学模型中的原始状态描述模型,获得更新之后的声学模型。
重新训练获得的状态描述模型,即可以替换原始声学模型中的原始状态描述模型,原始声学模型的其他结构不变,从而获得更新之后的声学模型。更新之后的声学模型即是根据训练样本再训练获得声学模型,训练样本为适用应用场景的样本,从而使得再训练获得的声学模型即适用于该应用场景的语音识别。
本实施例中,仅对原始声学模型中的状态描述模型进行再训练即可,而无需训练一个全新的声学模型,既降低了训练复杂度,且通过对原始声学模型进行更新,未破坏原始声学模型的结构,可以继续使用原始声学模型的状态定义模型等结构,保证了语音识别准确度。
本发明实施例,在原始训练数据丢失以及不希望改变原始声学模型中的状态定义模型等结构的情况下,可以通过对原始声学模型中的状态描述模型进行再训练,重新训练获得声学模型,即可以降低训练复杂度,同时使得声学模型能够适用当前应用场景。
其中,状态描述模型可以通过对深度神经网络(DNN,Deep NeuralNetworks)训练获得,具体的可以采用反向传播(Back Propgation)算法实现,当然还可以采用其他的数学模型、比如混合高斯模型(GMM,Gaussian MixtureModel),则使用最大期望(EM,Expectation Maximization Algorithm)算法实现等,可以根据实际情况进行选择。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于语音识别的声学模型训练方法,其特征在于,包括:
获取训练样本;所述训练样本包括声学特征以及所述声学特征对应的训练文本;
获取原始声学模型,并利用所述原始声学模型,确定每一训练文本对应的所述原始声学模型中的声学状态;
根据每一训练文本对应的声学状态以及声学特征,确定每一声学状态对应的声学特征;
利用每一声学状态对应的声学特征,重新训练获得所述声学状态的状态描述模型;
利用重新训练获得的状态描述模型,更新所述原始声学模型中的原始状态描述模型,获得更新之后的声学模型。
2.根据权利要求1所述的方法,其特征在于,所述根据每一训练文本对应的声学状态以及声学特征,确定每一声学状态对应的声学特征包括:
根据每一训练文本对应的声学状态以及声学特征,将所述声学特征进行切分,获得分段数据;
确定每一声学状态对应的分段数据;
所述利用每一声学状态对应的声学特征,重新训练获得每一声学状态的状态描述模型包括:
利用每一声学状态对应的分段数据,重新训练获得所述声学状态的状态描述模型。
3.根据权利要求1所述的方法,其特征在于,所述获取训练样本包括:
获取训练语音以及训练文本,并提取所述训练语音的声学特征。
4.根据权利要求1所述的方法,其特征在于,所述利用所述原始声学模型,确定每一训练文本对应的所述原始声学模型中的声学状态包括:
利用所述原始声学模型中的状态定义模型,确定每一训练文本对应的声学状态。
5.根据权利要求2所述的方法,其特征在于,所述根据每一训练文本对应的声学状态以及声学特征,将所述声学特征进行切分,获得分段数据;确定每一声学状态对应的分段数据包括:
利用每一训练文本建立线性解码网络,利用维特比算法,将所述训练文件对应的声学特征进行切分,获得分段数据,并确定每一个声学状态对应的分段数据。
6.一种用于语音识别的声学模型训练装置,其特征在于,包括:
样本获取模块,用于获取训练样本;所述训练样本包括声学特征以及所述声学特征对应的训练文本;
第一确定模块,用于获取原始声学模型,并利用所述原始声学模型,确定每一训练文本对应的所述原始声学模型中的声学状态;
第二确定模块,用于根据每一训练文本对应的声学状态以及声学特征,确定每一声学状态对应的声学特征;
训练模块,用于利用每一声学状态对应的声学特征,重新训练获得所述声学状态的状态描述模型;
更新模块,用于利用重新训练获得的状态描述模型,更新所述原始声学模型中的原始状态描述模型,获得更新之后的声学模型。
7.根据权利要求6所述的装置,其特征在于,所述第二确定模块具体用于:
根据每一训练文本对应的声学状态以及声学特征,将所述声学特征进行切分,获得分段数据,并确定每一声学状态对应的分段数据;
所述训练模块具体用于:
利用每一声学状态对应的分段数据,重新训练获得所述声学状态的状态描述模型。
8.根据权利要求6所述的装置,其特征在于,所述样本获取模块具体用于:
获取训练语音以及训练文本,并提取所述训练语音的声学特征。
9.根据权利要求6所述的装置,其特征在于,所述第一确定模块具体用于:
利用所述原始声学模型中的状态定义模型,确定每一训练文本对应的声学状态。
10.根据权利要求7所述的装置,其特征在于,所述第二确定模块具体用于:
利用每一训练文本建立线性解码网络,利用维特比算法,将所述训练文件对应的声学特征进行切分,获得分段数据,并确定每一个声学状态对应的分段数据。
CN201610195612.XA 2016-03-30 2016-03-30 用于语音识别的声学模型训练方法及装置 Pending CN105845130A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610195612.XA CN105845130A (zh) 2016-03-30 2016-03-30 用于语音识别的声学模型训练方法及装置
PCT/CN2016/096672 WO2017166625A1 (zh) 2016-03-30 2016-08-25 用于语音识别的声学模型训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610195612.XA CN105845130A (zh) 2016-03-30 2016-03-30 用于语音识别的声学模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN105845130A true CN105845130A (zh) 2016-08-10

Family

ID=56596355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610195612.XA Pending CN105845130A (zh) 2016-03-30 2016-03-30 用于语音识别的声学模型训练方法及装置

Country Status (2)

Country Link
CN (1) CN105845130A (zh)
WO (1) WO2017166625A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166625A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 用于语音识别的声学模型训练方法、装置和电子设备
CN109308895A (zh) * 2018-12-04 2019-02-05 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、设备及计算机可读介质
CN110827799A (zh) * 2019-11-21 2020-02-21 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质
CN112489637A (zh) * 2020-11-03 2021-03-12 北京百度网讯科技有限公司 语音识别方法和装置
WO2021136029A1 (zh) * 2019-12-31 2021-07-08 百果园技术(新加坡)有限公司 重打分模型训练方法及装置、语音识别方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466293B (zh) * 2020-11-13 2024-08-02 广州视源电子科技股份有限公司 解码图优化方法、装置及存储介质
CN115831089B (zh) * 2021-12-27 2023-12-01 北京百度网讯科技有限公司 声学特征的确定方法、装置、设备、介质及产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置
CN105244029A (zh) * 2015-08-28 2016-01-13 科大讯飞股份有限公司 语音识别后处理方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
CN103065626B (zh) * 2012-12-20 2015-03-11 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN105845130A (zh) * 2016-03-30 2016-08-10 乐视控股(北京)有限公司 用于语音识别的声学模型训练方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN105244029A (zh) * 2015-08-28 2016-01-13 科大讯飞股份有限公司 语音识别后处理方法及系统
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166625A1 (zh) * 2016-03-30 2017-10-05 乐视控股(北京)有限公司 用于语音识别的声学模型训练方法、装置和电子设备
CN109308895A (zh) * 2018-12-04 2019-02-05 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、设备及计算机可读介质
CN110827799A (zh) * 2019-11-21 2020-02-21 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质
CN110827799B (zh) * 2019-11-21 2022-06-10 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质
WO2021136029A1 (zh) * 2019-12-31 2021-07-08 百果园技术(新加坡)有限公司 重打分模型训练方法及装置、语音识别方法及装置
CN112489637A (zh) * 2020-11-03 2021-03-12 北京百度网讯科技有限公司 语音识别方法和装置
CN112489637B (zh) * 2020-11-03 2024-03-26 北京百度网讯科技有限公司 语音识别方法和装置

Also Published As

Publication number Publication date
WO2017166625A1 (zh) 2017-10-05

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
CN105845130A (zh) 用于语音识别的声学模型训练方法及装置
CN107680597B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
US10629185B2 (en) Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
KR102399535B1 (ko) 음성 인식을 위한 학습 방법 및 장치
Peng et al. A Study on Fine-Tuning wav2vec2. 0 Model for the Task of Mispronunciation Detection and Diagnosis.
Bear et al. Decoding visemes: Improving machine lip-reading
CN108417205A (zh) 语义理解训练方法和系统
CN105654940B (zh) 一种语音合成方法和装置
CN104538024A (zh) 语音合成方法、装置及设备
CN104143327A (zh) 一种声学模型训练方法和装置
CN106297773A (zh) 一种神经网络声学模型训练方法
CN111179917B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN108364634A (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN109065029A (zh) 一种小规模语料dnn-hmm声学模型
Kyriakopoulos et al. A deep learning approach to assessing non-native pronunciation of English using phone distances
CN109461447B (zh) 一种基于深度学习的端到端说话人分割方法及系统
Xiao et al. Scaling asr improves zero and few shot learning
Ronanki et al. Median-based generation of synthetic speech durations using a non-parametric approach
CN108805260A (zh) 一种图说生成方法及装置
US20220277149A1 (en) Statistical language models for simulating communication sessions
Wisesty et al. Feature extraction analysis on Indonesian speech recognition system
CN111128234B (zh) 一种拼接语音的识别检测方法和装置以及设备
Dong [Retracted] Modeling and Simulation of English Speech Rationality Optimization Recognition Based on Improved Particle Filter Algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160810