CN105161096A - 基于垃圾模型的语音识别处理方法及装置 - Google Patents

基于垃圾模型的语音识别处理方法及装置 Download PDF

Info

Publication number
CN105161096A
CN105161096A CN201510609522.6A CN201510609522A CN105161096A CN 105161096 A CN105161096 A CN 105161096A CN 201510609522 A CN201510609522 A CN 201510609522A CN 105161096 A CN105161096 A CN 105161096A
Authority
CN
China
Prior art keywords
syllable
model
filler model
network
recognition processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510609522.6A
Other languages
English (en)
Other versions
CN105161096B (zh
Inventor
穆向禹
彭守业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510609522.6A priority Critical patent/CN105161096B/zh
Publication of CN105161096A publication Critical patent/CN105161096A/zh
Application granted granted Critical
Publication of CN105161096B publication Critical patent/CN105161096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本申请提出一种基于垃圾模型的语音识别处理方法和装置,其中,该方法包括:获取待处理的音节列表中与每个音节对应的三音子模型;采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;应用所述多个建模音节生成对应数量的多个垃圾模型。实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,从而提高了建模组网的效率和灵活性,以及提高了语音识别处理的准确性。

Description

基于垃圾模型的语音识别处理方法及装置
技术领域
本申请涉及语音识别处理技术领域,尤其涉及一种基于垃圾模型的语音识别处理方法及装置。
背景技术
语音识别的关键词检测系统中,通常会预先设定一个集内词表,对于集内词表外的词,系统要求有拒绝识别的能力。
目前通用的做法是把所有训练数据用来训练一个通用的垃圾模型(Universalgarbagemodel),或者把训练的数据划分为元音(vowel)和辅音(consonant)两类,分别训练两个垃圾模型,用来模拟不同的集外词情况。
然而,采用一个或者两个垃圾模型进行语音识别,划分的颗粒度过粗,不能很好的模拟不同的集外词情况,导致识别错误的概率较高,降低了语音识别的准确性。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于垃圾模型的语音识别处理方法,该方法实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,从而提高了建模组网的效率和灵活性,以及提高了语音识别处理的准确性。
本申请的第二个目的在于提出一种基于垃圾模型的语音识别处理装置。
为达上述目的,本申请第一方面实施例提出了一种基于垃圾模型的语音识别处理方法,包括:获取待处理的音节列表中与每个音节对应的三音子模型;采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。
本申请实施例的基于垃圾模型的语音识别处理方法,首先获取待处理的音节列表中与每个音节对应的三音子模型;然后采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;进而根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;最后应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。由此,实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,从而提高了建模组网的效率和灵活性,以及提高了语音识别处理的准确性。
为达上述目的,本申请第二方面实施例提出了一种基于垃圾模型的语音识别处理装置,包括:第一获取模块,用于获取待处理的音节列表中与每个音节对应的三音子模型;第二获取模块,用于采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;处理模块,用于根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;第一生成模块,用于应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。
本申请实施例的基于垃圾模型的语音识别处理装置,通过第一获取模块获取待处理的音节列表中与每个音节对应的三音子模型;通过第二获取模块采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;通过处理模块根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;通过第一生成模块应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。由此,实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,从而提高了建模组网的效率和灵活性,以及提高了语音识别处理的准确性。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例的基于垃圾模型的语音识别处理方法的流程图;
图2是本申请另一个实施例的基于垃圾模型的语音识别处理方法的流程图;
图3是本申请另一个实施例的基于垃圾模型的语音识别处理方法的流程图;
图4是本申请一个实施例的基于垃圾模型的语音识别处理装置的结构示意图;
图5是本申请另一个实施例的基于垃圾模型的语音识别处理装置的结构示意图;
图6是本申请另一个实施例的基于垃圾模型的语音识别处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于垃圾模型的语音识别处理方法及装置。
图1是本申请一个实施例的基于垃圾模型的语音识别处理方法的流程图。
如图1所示,该基于垃圾模型的语音识别处理方法包括:
步骤101,获取待处理的音节列表中与每个音节对应的三音子模型。
具体地,根据待处理的音节列表,获取音节列表中与每个音节对应的三音子模型。其中,音节列表包括了待处理的音节集合,音节的数量根据实际应用需要和待建立的垃圾模型数量进行选择,本实施例对此不作限制,例如:四百个、二百个等等。
音节列表中的每个音节包括元音和辅音,元音即汉语拼音中的声母,辅音即汉语拼音中的韵母。所谓三音子模型是指元音和元音不能连续出现,或者辅音和辅音不能连续出现的音子模型,即在每个音节的元音之前加上静音,或者在每个音节的辅音之后加上静音。
需要注意的是,音节列表中的每个音节可以带音调,也可以不带音调,如果是携带音调的音节,则音调与辅音整体处理。由此可见,三音子模型的类型有很多,从左到右依次包括:静音、元音、辅音;或者,元音、辅音、静音;或者,静音、元音、携音调的辅音;或者,元音、携音调的辅音、静音。
因此,对于音节列表中的每个音节都能获取对应的两个三音子模型,为了更加清楚的说明从音节列表中获取与每个音节对应的三音子模型,举例说明如下:
音节列表中包括“zhong1”,“guo2”,“kai”三个不同的音节,其中,“zhong1”,“guo2”带音调,“kai”不带音调,与“zhong1”对应的两个三音子模型分别为:sil-zh+ong1,zh-ong1+sil,与“guo2”对应的两个三音子模型分别为:sil-g+uo2,g-uo2+sil;与“kai”对应的两个三音子模型分别为:sil-k+ai,k-ai+sil。其中sil表示静音。
步骤102,采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列。
根据与每个音节对应的两个三音子模型匹配预先训练的隐马尔可夫模型,其中,隐马尔可夫模型经过对每个三音子模型的状态训练,生成了每个三音子模型与多个状态信息的对应关系,多个状态信息是一个隐含的非显示的参数,用于描述每个三音子模型和语音信号之间的关系。多个状态的数量根据实际应用需要进行设定,例如:语音信号的速度较快,则设置的状态数量较少,语音信号的速度较慢,则设置的状态数量较多。以状态数量为3举例说明如下:
假设三音子模型a-b+c,对应到语音数据中的1秒到2秒之间的时间段,那么与该三音子模型对应的三个状态信息的s1,s2,s3,其中,s1对应的是1s到1.3s的状态,s2对应的是1.3s到1.7s的状态,s3对应的是1.7s到2.0s的状态。
针对每个音节而言,每个音节对应两个三音子模型,通过预先训练的隐马尔可夫模型,能够获取每个三音子模型对应的多个状态信息,从而能够获取与每个音节对应的三音子状态序列,三音子状态序列包括:与该音节对应的两个三音子模型对应的多个状态信息。举例说明,若与每个三音子模型对应的状态信息数量为3,则与每个音节对应的三音子状态序列包括:6个状态信息。
步骤103,根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同。
根据与每个音节对应的三音子状态序列从音节列表中筛选出多个建模音节。其中,根据三音子状态序列筛选出多个建模音节的方式很多,可以根据具体应用需要进行选择,例如:根据各个三音子状态序列之间的距离进行筛选,或者,根据预设的数学模型对各个三音子状态序列进行处理,获取各个音节之间的相似度,根据各个音节之间的相似度进行筛选。
需要强调的是,对音节列表中的音节进行筛选的原则是尽量删除相近的音节,保留差异较大的音节,以建立更加完备全面的垃圾模型,从而可以更好的模拟集外词情况。对音节列表中的音节进行筛选的数量是使得筛选出来的多个建模音节的数量与预先设置的垃圾模型数目相同。
步骤104,应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。
应用从音节列表中筛选出的多个建模音节生成对应数量的多个垃圾模型,从而采用多个垃圾模型生成拒识网络,并应用拒识网络和预先建立的识别网络建立语音识别网络,对待处理的语音指令进行语音识别。
相比于现有技术中的一个通用垃圾模型或者以元音和辅音分别建立的两个垃圾模型,本实施例可以根据实际应用需要,建立基于音节聚类的合适数量的垃圾模型,例如根据应用需要建立50个垃圾模型,从而可以更加精准全面的模拟集外词,提高识别效果。
本申请实施例的基于垃圾模型的语音识别处理方法,首先获取待处理的音节列表中与每个音节对应的三音子模型;然后采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;进而根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;最后应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。由此,实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,从而提高了建模组网的效率和灵活性,以及提高了语音识别处理的准确性。
针对图1所示实施例,根据三音子状态序列筛选出多个建模音节的方式很多,例如根据各个三音子状态序列之间的距离进行筛选,或者,根据各个三音子状态序列的相似度进行筛选,可以根据实际应用需要进行选择,为了更加清楚的描述如何根据三音子状态序列筛选出多个建模音节,通过图2所示实施例进行说明,具体如下:
图2是本申请另一个实施例的基于垃圾模型的语音识别处理方法的流程图。
如图2所示,本实施例是根据各个三音子状态序列之间的距离从音节列表中筛选多个建模音节,针对步骤103的实施过程,具体可以包括以下步骤:
步骤201,计算每两个三音子状态序列之间的距离。
具体地,根据与每个音节对应的三音子状态序列,计算每两个三音子状态序列之间的距离。需要注意的是,为了进一步地提高后续处理效率,可以直接对所获得的距离按照大小进行排序。
步骤202,将所述距离低于预设的门限值的音节从所述音节列表中删除。
将获取的每两个三音子状态序列之间的距离与预设的门限值进行比较,将低于预设的门限值的距离对应的音节从音节列表中删除,举例说明如下:
假设音节A对应的三音子状态序列与音节B对应的三音子状态序列之间的距离20,音节A对应的三音子状态序列与音节C对应的三音子状态序列之间的距离30,门限25,则删除音节B;假设音节A对应的三音子状态序列与音节B对应的三音子状态序列之间的距离20,音节B对应的三音子状态序列与音节C对应的三音子状态序列之间的距离10,门限15,则删除音节C。
步骤203,若判断获知剩余的音节数量与预先设置的垃圾模型数目相同,则停止删除,若判断获知剩余的音节数量大于预先设置的垃圾模型数目相同,则调整所述门限值,继续删除。
将距离低于门限值的音节从音节列表中删除后,判断音节列表中剩余的音节数量与预先设置的垃圾模型数目是否相同,根据判断结果采用不同的处理,具体如下:
若判断获知剩余的音节数量与预先设置的垃圾模型数目相同,则停止删除;若判断获知剩余的音节数量大于预先设置的垃圾模型数目,则调整预设的门限值,继续删除,直到剩余的音节数量与预先设置的垃圾模型数目是否相同。
需要注意的是,本实施例设置的门限值用于将小于该门限值的距离多对应的音节从音节列表中删除,直到剩余音节数量与预设的垃圾模型数量相同,因此,预设的门限值与上述过程匹配。
在另一个实施例中,也可以设置其他的门限值,根据该门限值用于将大于该门限值的距离多对应的音节在音节列表中保留,直到保留的音节数量与预设的垃圾模型数量相同,其实施过程类似,此处不再赘述。
本申请实施例的基于垃圾模型的语音识别处理方法,首先计算每两个三音子状态序列之间的距离,然后将所述距离低于预设的门限值的音节从所述音节列表中删除,最后若判断获知剩余的音节数量与预先设置的垃圾模型数目相同,则停止删除,否则,调整所述门限值,继续删除。由此,实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,大大提高了建模组网的效率和灵活性。
图3是本申请另一个实施例的基于垃圾模型的语音识别处理方法的流程图。
如图3所示,基于上述实施,在步骤104之后,还可以包括以下步骤:
步骤301,采用所述多个垃圾模型生成拒识网络。
步骤302,应用所述拒识网络和预先建立的识别网络建立语音识别网络。
具体地,采用上述实施例生成的多个垃圾模型生成拒识网络,并应用拒识网络和预先建立的识别网络建立语音识别网络。其中,拒识网络用于更加精准全面的模拟集外词,识别网络用于识别待处理的语音指令是否属于集内词表中的指令,其中,识别网络也预先通过隐马尔科夫模型或者其他模型生成,该过程不是本实施例的发明点,因此不再赘述,
步骤303,采用所述语音识别网络对输入的语音指令进行识别。
步骤304,若判断获知所述拒识网络的识别权重大于所述识别网络,则确定所述语音指令属于集外词,输出拒识响应;若判断获知所述拒识网络的识别权重小于所述识别网络,则确定所述语音指令属于预设的集内词表,输出识别结果。
具体地,接收输入的语音指令,采用语音识别网络对输入的语音指令进行识别,拒识网络和识别网络对该语音指令进行并行处理,分别输出对该语音指令识别后的权重值。
比较拒识网络和识别网络各自输出的识别权重值,若判断获知拒识网络的识别权重大于所述识别网络,则确定语音指令属于集外词,输出拒识响应;若判断获知拒识网络的识别权重小于识别网络,则确定语音指令属于预设的集内词表,输出识别结果。
本申请实施例的基于垃圾模型的语音识别处理方法,首先采用所述多个垃圾模型生成拒识网络,并应用所述拒识网络和预先建立的识别网络建立语音识别网络,进而采用所述语音识别网络对输入的语音指令进行识别,若判断获知所述拒识网络的识别权重大于所述识别网络,则确定所述语音指令属于集外词,输出拒识响应;若判断获知所述拒识网络的识别权重小于所述识别网络,则确定所述语音指令属于预设的集内词表,输出识别结果。由此,实现了采用与应用需要匹配数量的、基于音节聚类的垃圾模型进行语音识别,提高了语音识别的准确性。
为了实现上述实施例,本申请还提出一种基于垃圾模型的语音识别处理装置。
图4是本申请一个实施例的基于垃圾模型的语音识别处理装置的结构示意图。
如图4所示,该基于垃圾模型的语音识别处理装置包括:
第一获取模块11,用于获取待处理的音节列表中与每个音节对应的三音子模型;
第二获取模块12,用于采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;
其中,所述三音子模型的类型从左到右依次包括:
静音、元音、辅音;或者,
元音、辅音、静音;或者,
静音、元音、携音调的辅音;或者,
元音、携音调的辅音、静音。
处理模块13,用于根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;
第一生成模块14,用于应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。
需要说明的是,前述对基于垃圾模型的语音识别处理方法实施例的解释说明也适用于该实施例的基于垃圾模型的语音识别处理装置,此处不再赘述。
本申请实施例的基于垃圾模型的语音识别处理装置,首先获取待处理的音节列表中与每个音节对应的三音子模型;然后采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;进而根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;最后应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。由此,实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,从而提高了建模组网的效率和灵活性,以及提高了语音识别处理的准确性。
图5是本申请另一个实施例的基于垃圾模型的语音识别处理装置的结构示意图,如图5所示,基于图4所示实施例,所述处理模块13,包括:
计算单元131,用于计算每两个三音子状态序列之间的距离;
删除单元132,用于将所述距离低于预设的门限值的音节从所述音节列表中删除;
判断单元133,用于若判断获知剩余的音节数量与预先设置的垃圾模型数目相同,则停止删除,若判断获知剩余的音节数量大于预先设置的垃圾模型数目,则调整所述门限值,继续删除。
需要说明的是,前述对基于垃圾模型的语音识别处理方法实施例的解释说明也适用于该实施例的基于垃圾模型的语音识别处理装置,此处不再赘述。
本申请实施例的基于垃圾模型的语音识别处理装置,首先计算每两个三音子状态序列之间的距离,然后将所述距离低于预设的门限值的音节从所述音节列表中删除,最后若判断获知剩余的音节数量与预先设置的垃圾模型数目相同,则停止删除,否则,调整所述门限值,继续删除。由此,实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型,大大提高了建模组网的效率和灵活性。
图6是本申请另一个实施例的基于垃圾模型的语音识别处理装置的结构示意图,基于上述实施例,以图4所示实施例为例,如图6所示,还包括:
第二生成模块15,用于采用所述多个垃圾模型生成拒识网络;
组网模块16,用于应用所述拒识网络和预先建立的识别网络建立语音识别网络。
进一步地,还包括:
识别模块17,用于采用所述语音识别网络对输入的语音指令进行识别;
输出模块18,用于若判断获知所述拒识网络的识别权重大于所述识别网络,则确定所述语音指令属于集外词,输出拒识响应;若判断获知所述拒识网络的识别权重小于所述识别网络,则确定所述语音指令属于预设的集内词表,输出识别结果。
需要说明的是,前述对基于垃圾模型的语音识别处理方法实施例的解释说明也适用于该实施例的基于垃圾模型的语音识别处理装置,此处不再赘述。
本申请实施例的基于垃圾模型的语音识别处理装置,首先采用所述多个垃圾模型生成拒识网络,并应用所述拒识网络和预先建立的识别网络建立语音识别网络,进而采用所述语音识别网络对输入的语音指令进行识别,若判断获知所述拒识网络的识别权重大于所述识别网络,则确定所述语音指令属于集外词,输出拒识响应;若判断获知所述拒识网络的识别权重小于所述识别网络,则确定所述语音指令属于预设的集内词表,输出识别结果。由此,实现了采用与应用需要匹配数量的、基于音节聚类的垃圾模型进行语音识别,提高了语音识别的准确性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个第一处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于垃圾模型的语音识别处理方法,其特征在于,包括以下步骤:
获取待处理的音节列表中与每个音节对应的三音子模型;
采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;
根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;
应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。
2.如权利要求1所述的基于垃圾模型的语音识别处理方法,其特征在于,所述三音子模型的类型,从左到右依次包括:
静音、元音、辅音;或者,元音、辅音、静音;或者,
静音、元音、携音调的辅音;或者,元音、携音调的辅音、静音。
3.如权利要求1所述的基于垃圾模型的语音识别处理方法,其特征在于,所述根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,包括:
计算每两个三音子状态序列之间的距离;
将所述距离低于预设的门限值的音节从所述音节列表中删除;
若判断获知剩余的音节数量与预先设置的垃圾模型数目相同,则停止删除,若判断获知剩余的音节数量大于预先设置的垃圾模型数目,调整所述门限值,继续删除。
4.如权利要求1-3任一所述的基于垃圾模型的语音识别处理方法,其特征在于,所述应用所述多个建模音节生成对应数量的多个垃圾模型之后,所述方法还包括:
采用所述多个垃圾模型生成拒识网络;
应用所述拒识网络和预先建立的识别网络建立语音识别网络。
5.如权利要求4所述的基于垃圾模型的语音识别处理方法,其特征在于,还包括:
采用所述语音识别网络对输入的语音指令进行识别;
若判断获知所述拒识网络的识别权重大于所述识别网络,则确定所述语音指令属于集外词,输出拒识响应;
若判断获知所述拒识网络的识别权重小于所述识别网络,则确定所述语音指令属于预设的集内词表,输出识别结果。
6.一种基于垃圾模型的语音识别处理装置,其特征在于,包括:
第一获取模块,用于获取待处理的音节列表中与每个音节对应的三音子模型;
第二获取模块,用于采用预先训练的隐马尔可夫模型,根据所述三音子模型获取与每个音节对应的三音子状态序列;
处理模块,用于根据与每个音节对应的三音子状态序列,从所述音节列表中筛选出多个建模音节,其中,所述多个建模音节的数量与预先设置的垃圾模型数目相同;
第一生成模块,用于应用所述多个建模音节生成对应数量的多个垃圾模型,以采用所述多个垃圾模型进行语音识别处理。
7.如权利要求6所述的基于垃圾模型的语音识别处理装置,其特征在于,所述三音子模型的类型从左到右依次包括:
静音、元音、辅音;或者,
元音、辅音、静音;或者,
静音、元音、携音调的辅音;或者,
元音、携音调的辅音、静音。
8.如权利要求6所述的基于垃圾模型的语音识别处理装置,其特征在于,所述处理模块,包括:
计算单元,用于计算每两个三音子状态序列之间的距离;
删除单元,用于将所述距离低于预设的门限值的音节从所述音节列表中删除;
判断单元,用于若判断获知剩余的音节数量与预先设置的垃圾模型数目相同,则停止删除,若判断获知剩余的音节数量大于预先设置的垃圾模型数目,则调整所述门限值,继续删除。
9.如权利要求6-8任一所述的基于垃圾模型的语音识别处理装置,其特征在于,还包括:
第二生成模块,用于采用所述多个垃圾模型生成拒识网络;
组网模块,用于应用所述拒识网络和预先建立的识别网络建立语音识别网络。
10.如权利要求9所述的基于垃圾模型的语音识别处理装置,其特征在于,还包括:
识别模块,用于采用所述语音识别网络对输入的语音指令进行识别;
输出模块,用于若判断获知所述拒识网络的识别权重大于所述识别网络,则确定所述语音指令属于集外词,输出拒识响应;若判断获知所述拒识网络的识别权重小于所述识别网络,则确定所述语音指令属于预设的集内词表,输出识别结果。
CN201510609522.6A 2015-09-22 2015-09-22 基于垃圾模型的语音识别处理方法及装置 Active CN105161096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510609522.6A CN105161096B (zh) 2015-09-22 2015-09-22 基于垃圾模型的语音识别处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510609522.6A CN105161096B (zh) 2015-09-22 2015-09-22 基于垃圾模型的语音识别处理方法及装置

Publications (2)

Publication Number Publication Date
CN105161096A true CN105161096A (zh) 2015-12-16
CN105161096B CN105161096B (zh) 2017-05-10

Family

ID=54801929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510609522.6A Active CN105161096B (zh) 2015-09-22 2015-09-22 基于垃圾模型的语音识别处理方法及装置

Country Status (1)

Country Link
CN (1) CN105161096B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106067302A (zh) * 2016-05-27 2016-11-02 努比亚技术有限公司 降噪装置及方法
CN108847222A (zh) * 2018-06-19 2018-11-20 Oppo广东移动通信有限公司 语音识别模型生成方法、装置、存储介质及电子设备
CN111260761A (zh) * 2020-01-15 2020-06-09 北京猿力未来科技有限公司 一种生成动画人物口型的方法及装置
CN107871499B (zh) * 2017-10-27 2020-06-16 珠海市杰理科技股份有限公司 语音识别方法、系统、计算机设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
CN1639768A (zh) * 2002-08-01 2005-07-13 艾利森电话股份有限公司 自动语音识别方法
CN102915729A (zh) * 2011-08-01 2013-02-06 佳能株式会社 语音关键词检出系统、创建用于其的词典的系统和方法
WO2014014478A1 (en) * 2012-07-20 2014-01-23 Interactive Intelligence, Inc. Method and system for real-time keyword spotting for speech analytics
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
CN1639768A (zh) * 2002-08-01 2005-07-13 艾利森电话股份有限公司 自动语音识别方法
CN102915729A (zh) * 2011-08-01 2013-02-06 佳能株式会社 语音关键词检出系统、创建用于其的词典的系统和方法
WO2014014478A1 (en) * 2012-07-20 2014-01-23 Interactive Intelligence, Inc. Method and system for real-time keyword spotting for speech analytics
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106067302A (zh) * 2016-05-27 2016-11-02 努比亚技术有限公司 降噪装置及方法
CN106067302B (zh) * 2016-05-27 2019-06-25 努比亚技术有限公司 降噪装置及方法
CN107871499B (zh) * 2017-10-27 2020-06-16 珠海市杰理科技股份有限公司 语音识别方法、系统、计算机设备及计算机可读存储介质
CN108847222A (zh) * 2018-06-19 2018-11-20 Oppo广东移动通信有限公司 语音识别模型生成方法、装置、存储介质及电子设备
CN111260761A (zh) * 2020-01-15 2020-06-09 北京猿力未来科技有限公司 一种生成动画人物口型的方法及装置
CN111260761B (zh) * 2020-01-15 2023-05-09 北京猿力未来科技有限公司 一种生成动画人物口型的方法及装置

Also Published As

Publication number Publication date
CN105161096B (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN107680597B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
CN105185372A (zh) 个性化多声学模型的训练方法、语音合成方法及装置
CN106782501B (zh) 基于人工智能的语音特征提取方法和装置
CN106887225A (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
CN105096941A (zh) 语音识别方法以及装置
CN106997767A (zh) 基于人工智能的语音处理方法及装置
CN104934028A (zh) 用于语音合成的深度神经网络模型的训练方法及装置
CN110197658B (zh) 语音处理方法、装置以及电子设备
CN107195295A (zh) 基于中英文混合词典的语音识别方法及装置
CN105336322A (zh) 多音字模型训练方法、语音合成方法及装置
KR20170087390A (ko) 음성 웨이크업 방법 및 장치
CN107301860A (zh) 基于中英文混合词典的语音识别方法及装置
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN104538024A (zh) 语音合成方法、装置及设备
CN103400577A (zh) 多语种语音识别的声学模型建立方法和装置
CN105161096A (zh) 基于垃圾模型的语音识别处理方法及装置
CN109147799A (zh) 一种语音识别的方法、装置、设备及计算机存储介质
CN109036471A (zh) 语音端点检测方法及设备
CN111081280A (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN108010516A (zh) 一种语义独立的语音情绪特征识别方法及装置
CN108091323A (zh) 用于自语音中识别情感的方法与装置
CN106302987A (zh) 一种音频推荐方法及设备
CN103811000A (zh) 语音识别系统及方法
CN105206264A (zh) 语音合成方法和装置
CN107948730A (zh) 基于图片生成视频的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant