CN102479510A - 用于生成语音标签的方法和装置 - Google Patents

用于生成语音标签的方法和装置 Download PDF

Info

Publication number
CN102479510A
CN102479510A CN2010105617936A CN201010561793A CN102479510A CN 102479510 A CN102479510 A CN 102479510A CN 2010105617936 A CN2010105617936 A CN 2010105617936A CN 201010561793 A CN201010561793 A CN 201010561793A CN 102479510 A CN102479510 A CN 102479510A
Authority
CN
China
Prior art keywords
mentioned
voice
state
recognition result
gaussian component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105617936A
Other languages
English (en)
Inventor
赵蕤
何磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN2010105617936A priority Critical patent/CN102479510A/zh
Priority to US13/241,518 priority patent/US20120130715A1/en
Publication of CN102479510A publication Critical patent/CN102479510A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了用于生成语音标签的方法和装置。本发明的一种用于生成语音标签的装置,包括:输入单于,其输入注册语音;识别单元,其对上述注册语音进行识别,得到N个最优的识别结果,其中N是大于等于2的整数;以及合并单元,其将上述N个最优的识别结果合并为上述注册语音的语音标签。

Description

用于生成语音标签的方法和装置
技术领域
本发明涉及信息处理技术,具体地涉及语音识别技术,更具体地涉及语音识别领域中的语音标签技术。
背景技术
语音标签是语音识别技术的一个应用,特别是在嵌入式系统中比较广泛。涉及语音标签的过程如下:首先,用户向系统输入注册语音,系统将其转换成代表该注册语音的语音标签,并将该语音标签所表示的一个词条加入到识别网络中。此过程为注册过程。然后,基于含有语音标签词条的识别网络对测试语音进行识别,以确定其内容。此过程为识别过程。通常,识别过程中的识别网络不仅仅含有语音标签词条,还含有由词典或者字音转换模块提供发音的词条,称之为词典词条。
最初的语音标签方法通常基于模板匹配的方法。在注册过程中,对注册语音提取出一个或多个模板作为该注册语音的标签,识别过程中利用动态时间规整算法对测试语音和模板标签进行匹配。近年来,随着基于音素的隐马尔科夫模型在语音识别中的普遍应用,音素序列作为语音标签已成为主流的语音标签方法。该方法中,作为语音标签的音素序列是通过对注册语音进行音素识别而得到的。音素序列标签的优势在于:首先,音素序列标签比模板标签占用内存少。其次,音素序列标签词条更容易和词典词条结合构成新的识别网络。这都有助于提高语音标签系统所允许的词条数目。但是音素序列标签方法也有一定的不足:首先,音素识别错误不可避免,这会导致音素序列标签不能完全代表注册语音的发音,由此造成识别错误。此外,注册语音和测试语音之间存在着不匹配,也会导致识别错误。因此,减少由于上述原因而导致的识别错误即成为目前语音标签技术中的一个研究重点。
为了克服以上提出的音素序列标签方法的不足,研究者用多个发音标签表示一个标签词条(参见非专利文献1:“VOICE-TO-PHONEMECONVERSION ALGORITHMS FOR SPEAKER-INDEPENDENTVOICE-TAG APPLICATIONS IN EMBEDDED PLATFORMS”,YanMing Cheng,Changxue Ma and Lynette Melnar,Automatic SpeechRecognition and Understanding,2005IEEE Workshop on,pages 403-408,在此通过参考引入其整个内容)。具体方法是在对注册语音进行音素识别的时候,取前N个最优的识别结果作为该注册语音的标签。利用这种多发音标签可以很明显的减少音素识别错误所带来的负面影响,也可以降低注册语音和测试语音之间不匹配所造成的性能下降。
但是,一个标签词条由多个发音标签表示会提高识别网络的混淆度,尤其会明显降低系统中词典词条的识别性能。
发明内容
本发明正是鉴于上述现有技术中的问题而提出了用于生成语音标签的方法和装置,具体提供了以下技术方案。
[第1方案]
本发明的第1方案提供了一种用于生成语音标签的方法,包括以下步骤:输入注册语音;对上述注册语音进行识别,得到N个最优的识别结果,其中N是大于等于2的整数;以及将上述N个最优的识别结果合并为上述注册语音的语音标签。
本发明的用于生成语音标签的方法,通过将表示多个发音的多个识别结果合并为一个发音序列,作为注册语音的语音标签,可以减小包含语音标签的识别网络的混淆度,进而有助于提高语音标签系统的性能,特别是对词典词条的识别性能。另外,本发明的方法与传统的多发音语音标签方法相比,没有明显增加计算消耗及模型大小。
[第2方案]
根据上述第1方案的用于生成语音标签的方法,其中,上述对上述注册语音进行识别的步骤包括以下步骤:基于隐马尔科夫模型对上述注册语音进行识别,得到上述N个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。
[第3方案]
根据上述第2方案的用于生成语音标签的方法,其中,上述将上述N个最优的识别结果合并为上述注册语音的语音标签的步骤包括以下步骤:基于上述隐马尔科夫模型状态级时间分割信息,将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签。
[第4方案]
根据上述第3方案的用于生成语音标签的方法,其中,上述基于上述隐马尔科夫模型状态级时间分割信息,将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签的步骤包括以下步骤:确定上述N个最优的识别结果的状态级时间分割点的并集,作为新的时间分割点;以及,根据上述新的时间分割点,将上述N个最优的识别结果中位于同一时间分割段内的N个状态合并为一个状态,其中,将合并后的状态序列作为上述注册语音的语音标签。
[第5方案]
根据上述第4方案的用于生成语音标签的方法,其中,上述合并后的状态的输出概率分布为合并前的上述N个状态的高斯分量的并集。
本发明的用于生成语音标签的方法,由于合并后的状态序列包含多个识别结果的所有状态的高斯分量,因此可以很好的描述注册语音的差异,同时显著降低了给整个语音识别网络所带来的混淆度。
[第6方案]
根据上述第5方案的用于生成语音标签的方法,其中,上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以N。
[第7方案]
根据上述第5方案的用于生成语音标签的方法,其中,上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。
[第8方案]
根据上述第1-7方案的任一个用于生成语音标签的方法,其中,上述N个最优的识别结果包括N个最优的发音单位序列或发音单位格。
[第9方案]
根据上述第8方案的用于生成语音标签的方法,其中,上述发音单位包括音素、音节、词和/或短语。
[第10方案]
本发明的第10方案提供了一种用于生成语音标签的装置,包括:输入单元,其输入注册语音;识别单元,其对上述注册语音进行识别,得到N个最优的识别结果,其中N是大于等于2的整数;以及合并单元,其将上述N个最优的识别结果合并为上述注册语音的语音标签。
本发明的用于生成语音标签的装置,通过将表示多个发音的多个识别结果合并为一个发音序列,作为注册语音的语音标签,可以减小包含语音标签的识别网络的混淆度,进而有助于提高语音标签系统的性能,特别是对词典词条的识别性能。另外,本发明的装置与传统的多发音语音标签系统相比,没有明显增加计算消耗及模型大小。
[第11方案]
根据上述第10方案的用于生成语音标签的装置,其中,上述识别单元基于隐马尔科夫模型对上述注册语音进行识别,得到上述N个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。
[第12方案]
根据上述第11方案的用于生成语音标签的装置,其中,上述合并单元基于上述隐马尔科夫模型状态级时间分割信息,将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签。
[第13方案]
根据上述第12方案的用于生成语音标签的装置,其中,上述合并单元包括:时间分割点确定单元,其确定上述N个最优的识别结果的状态级时间分割点的并集,作为新的时间分割点;以及状态合并单元,其根据上述新的时间分割点,将上述N个最优的识别结果中位于同一时间分割段内的N个状态合并为一个状态,其中,将合并后的状态序列作为上述注册语音的语音标签。
[第14方案]
根据上述第13方案的用于生成语音标签的装置,其中,上述合并后的状态的输出概率分布为合并前的上述N个状态的高斯分量的并集。
本发明的用于生成语音标签的装置,由于合并后的状态序列包含多个识别结果的所有状态的高斯分量,因此可以很好的描述注册语音的差异,同时显著降低了给整个语音识别网络所带来的混淆度。
[第15方案]
根据上述第14方案的用于生成语音标签的装置,其中,上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以N。
[第16方案]
根据上述第14方案的用于生成语音标签的装置,其中,上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。
[第17方案]
根据上述第10-16方案的任一个用于生成语音标签的装置,其中,上述N个最优的识别结果包括N个最优的发音单位序列或发音单位格。
[第18方案]
根据上述第17方案的用于生成语音标签的装置,其中,上述发音单位包括音素、音节、词和/或短语。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的第一实施例的用于生成语音标签的方法的流程图。
图2是根据本发明的第一实施例的在隐马尔可夫状态级上将2个最优的识别结果合并为一个序列的示例图。
图3是根据本发明的第二实施例的用于生成语音标签的装置的框图。
图4是根据本发明的第二实施例的用于生成语音标签的装置的合并单元的具体结构的框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
用于生成语音标签的方法
图1是根据本发明的第一实施例的用于生成语音标签的方法的流程图。下面就结合该图,对本实施例进行描述。
如图1所示,首先,在步骤101,输入注册语音。在本实施例中,输入的注册语音可以是本领域的技术人员公知的任何类型的语音,本发明对此没有任何限制。
接着,在步骤105,对步骤101输入的注册语音进行识别,得到N个最优的识别结果,其中N是大于等于2的整数。在本实施例中,对注册语音进行识别的方法可以是本领域的技术人员公知的任何识别方法,本发明对此没有任何限制,只要能够从注册语音中识别出代表注册语音的发音的识别结果即可。
在本实施例中,代表注册语音的发音的识别结果可以是发音单位序列或发音单位格等,其中,发音单位可以是音素、音节、词、短语或其组合,也可以是本领域的技术人员公知的任何其它发音单位,本发明对此没有任何限制,只要能够代表注册语音的发音即可。下面仅以音素序列为例进行说明。
具体地,在步骤105,对输入的注册语音进行音素识别,得到多个候选的音素序列。在多个候选的音素序列中,选出N个最优的音素序列作为步骤105的识别结果。在本实施例中,从多个候选的音素序列中选择N个最优的音素序列的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。例如,可以首先计算得到的多个候选的音素序列的每一个的得分,接着以得分的高低进行排序,最后将排序后的前N个音素序列作为N个最优的音素序列。
在本实施例中,优选,在步骤105,基于隐马尔科夫模型对步骤101输入的注册语音进行识别,得到N个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息。基于隐马尔科夫模型对注册语音进行识别的方法可以是本领域的技术人员公知的任何方法,例如非专利文献2(“Fundamentals of speech recognition”,Rabiner R.,Juang B.H.,Englewood Cliffs,New Jersey,Prentice Hall,1993,在此通过参考引入其整个内容)中公开的具体方法,本发明对此没有任何限制,只要能够得到N个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息即可。
接着,在步骤110,将步骤105识别出的N个最优的识别结果合并,作为步骤101输入的注册语音的语音标签。
具体地,在步骤105基于隐马尔科夫模型对注册语音进行识别的情况下,在步骤110,基于上述隐马尔科夫模型状态级时间分割信息,将上述N个最优识别结果在状态级上合并,作为上述注册语音的语音标签。
在本实施例中,优选,在合并过程中,首先确定上述N个最优的识别结果的状态级时间分割点的并集,作为新的时间分割点,然后,基于新的时间分割点,将上述N个最优的识别结果中位于同一时间分割段内的N个状态合并为一个状态,其中,将合并后的状态序列作为上述注册语音的语音标签。
下面参考图2详细描述上述合并过程。图2是根据本发明的第一实施例的在隐马尔可夫状态级上将2个最优的音素序列合并为一个序列的示例图。在图2中,以N=2为例进行说明,即从步骤105识别出的多个候选的识别结果中选择出2个最优的音素序列。
如图2所示,音素序列1包括n个状态S1-1、S1-2、...、S1-n,音素序列2包括m个状态S2-1、S2-2、...、S2-m,其中,音素序列1包括n+1个时间分割点,音素序列2包括m+1个时间分割点。
在本实施例的合并过程中,首先,确定音素序列1的n+1个时间分割点和音素序列2的m+1个时间分割点的并集,作为新的时间分割点。如图2所示,新的时间分割点为t0、t1、...、tk,即k+1个。例如,在n和m都为3的情况下,音素序列1包括3个状态S1-1、S1-2和S1-3以及4个时间分割点t0、t1、t3和t4,音素序列2包括3个状态S2-1、S2-2和S2-3以及4个时间分割点t0、t2、t3和t4。此时,音素序列1的时间分割点和音素序列2的时间分割点的并集为{t0、t1、t2、t3、t4}。
接着,基于新的时间分割点t0、t1、...、tk,将每个时间分割段内音素序列1和2的状态合并为一个状态。具体地,将t0和t1之间的状态S1-1和S2-1合并为状态M-1,将t1和t2之间的状态S1-2和S2-1合并为状态M-2,将t2和t3之间的状态S1-2和S2-2合并为状态M-3,将t3和t4之间的状态S1-3和S2-3合并为状态M-4,...,将tk-1和tk之间的状态S1-n和S2-m合并为状态M-k。从而,得到合并后的状态序列,并将其作为上述注册语音的语音标签。
本发明的用于生成语音标签的方法,通过将表示多个发音的多个识别结果合并为一个发音序列,作为注册语音的语音标签,可以减小包含语音标签的识别网络的混淆度,进而有助于提高语音标签系统的性能,特别是对词典词条的识别性能。另外,本发明的方法与传统的多发音语音标签方法相比,没有明显增加计算消耗及模型大小。
在本实施例中,优选,上述合并后的状态的输出概率分布为合并前的上述N个状态的高斯分量的并集。例如,如图2所述,合并后的状态M-1的输出概率分布为合并前的状态S1-1和S2-1的高斯分量的并集,合并后的状态M-2的输出概率分布为合并前的状态S1-2和S2-1的高斯分量的并集。
在本实施例中,优选,上述合并后的状态中的每个高斯分量的权重是合并前的相同高斯分量的权重之和除以N。例如,如图2所示,合并后的状态M-1只有一个高斯分量,合并前的与其相同的高斯分量为状态S1-1的高斯分量(权重为1)和S2-1的高斯分量(权重为1),则合并后的权重为(1+1)除以2,即1。合并后的状态M-2具有2个高斯分量,其左边的高斯分量与合并前的状态S2-1的高斯分量(权重为1)相同,其右边的高斯分量与合并前的状态S1-2的高斯分量(权重为1)相同。合并后,其左边的高斯分量的权重为状态S2-1的高斯分量的权重除以2,即1/2,其右边的高斯分量的权重为状态S1-2的高斯分量的权重除以2,即1/2。
另外,可选地,上述合并后的状态中的每个高斯分量的权重可以根据合并前的相同高斯分量所属的状态的置信度来计算。根据置信度来计算权重的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
本发明的用于生成语音标签的方法,由于合并后的发音状态序列包含多个识别结果的所有状态的高斯分量,因此可以很好的描述注册语音的差异,同时显著降低了给整个语音识别网络所带来的混淆度。
用于生成语音标签的装置
在同一发明构思下,图3是根据本发明的第二实施例的用于生成语音标签的装置的框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,本实施例的用于生成语音标签的装置300,包括:输入单于301,其输入注册语音;识别单元305,其对上述注册语音进行识别,得到N个最优的识别结果,其中N是大于等于2的整数;以及合并单元310,其将上述N个最优的识别结果合并为上述注册语音的语音标签。
在本实施例中,输入单元301输入的注册语音可以是本领域的技术人员公知的任何类型的语音,本发明对此没有任何限制。
在本实施例中,对注册语音进行识别的识别单元305可以是本领域的技术人员公知的任何识别模块,本发明对此没有任何限制,只要能够从注册语音中识别出代表注册语音的发音的识别结果即可。
在本实施例中,代表注册语音的发音的识别结果可以是发音单位序列或发音单位格等,其中,发音单位可以是音素、音节、词、短语或其组合,也可以是本领域的技术人员公知的任何其它发音单位,本发明对此没有任何限制,只要能够代表注册语音的发音即可。下面仅以音素序列为例进行说明。
具体地,识别单元305对输入的注册语音进行音素识别,得到多个候选的音素序列。在多个候选的音素序列中,选出N个最优的音素序列作为识别单元305的识别结果。在本实施例中,从多个候选的音素序列中选择N个最优的音素序列的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。例如,可以首先计算得到的多个候选的音素序列的每一个的得分,接着以得分的高低进行排序,最后将排序后的前N个音素序列作为N个最优的音素序列。
在本实施例中,优选,识别单元305基于隐马尔科夫模型对输入单元301输入的注册语音进行识别,得到N个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息。基于隐马尔科夫模型对注册语音进行识别的方法可以是本领域的技术人员公知的任何方法,例如上述非专利文献2中公开的具体方法,本发明对此没有任何限制,只要能够得到N个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息即可。
在本实施例中,在识别单元305基于隐马尔科夫模型对注册语音进行识别的情况下,合并单元310基于上述隐马尔科夫模型状态级时间分割信息,将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签。
在本实施例中,优选,如图4所示,合并单元310包括:分割点确定单元3101,其确定上述N个最优的识别结果的状态级时间分割点的并集,作为新的时间分割点;以及状态合并单元3105,其根据上述新的时间分割点,将N个最优的识别结果中位于同一时间分割段内的N个状态合并为一个状态,其中,将合并后的状态序列作为上述注册语音的语音标签。
下面参考图2详细描述图4所示的合并单元310的合并过程。在图2中,以N=2为例进行说明,即从识别单元305识别出的多个候选的识别结果中选择出2个最优的音素序列。
如图2所示,音素序列1包括n个状态S1-1、S1-2、...、S1-n,音素序列2包括m个状态S2-1、S2-2、...、S2-m,其中,音素序列1包括n+1个时间分割点,音素序列2包括m+1个时间分割点。
在本实施例的合并过程中,首先,分割点确定单元3101确定音素序列1的n+1个时间分割点和音素序列2的m+1个时间分割点的并集,作为新的时间分割点。如图2所示,新的时间分割点为t0、t1、...、tk,即k+1个。例如,在n和m都为3的情况下,音素序列1包括3个状态S1-1、S1-2和S1-3以及4个时间分割点t0、t1、t3和t4,音素序列2包括3个状态S2-1、S2-2和S2-3以及4个时间分割点t0、t2、t3和t4。此时,音素序列1的时间分割点和音素序列2的时间分割点的并集为{t0、t1、t2、t3、t4}。
接着,状态合并单元3105根据新的时间分割点t0、t1、...、tk,将每个时间分割段内音素序列1和2的状态合并为一个状态。具体地,将t0和t1之间的状态S1-1和S2-1合并为状态M-1,将t1和t2之间的状态S1-2和S2-1合并为状态M-2,将t2和t3之间的状态S1-2和S2-2合并为状态M-3,将t3和t4之间的状态S1-3和S2-3合并为状态M-4,...,将tk-1和tk之间的状态S1-n和S2-m合并为状态M-k。从而,得到合并后的状态序列,并将其作为上述注册语音的语音标签。
本发明的用于生成语音标签的装置300,通过将表示多个发音的多个识别结果合并为一个发音序列,作为注册语音的语音标签,可以减小包含语音标签的识别网络的混淆度,进而有助于提高语音标签系统性能,特别是对词典词条的识别性能。另外,本发明的装置300与传统的多发音语音标签系统相比,没有明显增加计算消耗及模型大小。
在本实施例中,优选,上述合并单元310合并后的状态的输出概率分布为合并前的上述N个状态的高斯分量的并集。例如,如图2所述,合并后的状态M-1的输出概率分布为合并前的状态S1-1和S2-1的高斯分量的并集,合并后的状态M-2的输出概率分布为合并前的状态S1-2和S2-1的高斯分量的并集。
在本实施例中,优选,上述合并单元310合并后的状态中的每个高斯分量的权重是合并前的相同分量的权重之和除以N。例如,如图2所示,合并后的状态M-1只有一个高斯分量,合并前的与其相同的高斯分量是S1-1的高斯分量(权重为1)和S2-1的高斯分量(权重为1),因此合并后的权重为(1+1)除以2,即1。合并后的状态M-2具有2个高斯分量,其左边的高斯分量为合并前的状态S2-1的高斯分量,其右边的高斯分量为合并前的状态S1-2的高斯分量,其左边的高斯分量的权重为状态S2-1的高斯分量的权重(为1)除以2,即1/2,其右边的高斯分量的权重为状态S1-2的高斯分量的权重(为1)除以2,即1/2。
另外,可选地,上述合并单元310合并后的状态中的每个高斯分量的权重可以根据合并前的相同高斯分量所属的状态的置信度来计算。根据置信度来计算权重的方法可以是本领域的技术人员公知的任何方法,本发明对此没有任何限制。
本发明的用于生成语音标签的装置300,由于合并后的发音状态序列包含多个识别结果的所有状态的高斯分量,因此可以很好的描述注册语音的差异,同时显著降低了给整个语音识别网络所带来的混淆度。
以上虽然通过一些示例性的实施例对本发明的用于生成语音标签的方法和装置进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的发明思想和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

Claims (10)

1.一种用于生成语音标签的装置,包括:
输入单于,其输入注册语音;
识别单元,其对上述注册语音进行识别,得到N个最优的识别结果,其中N是大于等于2的整数;以及
合并单元,其将上述N个最优的识别结果合并为上述注册语音的语音标签。
2.根据权利要求1所述的用于生成语音标签的装置,其中,上述识别单元基于隐马尔科夫模型对上述注册语音进行识别,得到上述N个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。
3.根据权利要求2所述的用于生成语音标签的装置,其中,上述合并单元基于上述隐马尔科夫模型状态级时间分割信息,将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签。
4.根据权利要求3所述的用于生成语音标签的装置,其中,上述合并单元包括:
时间分割点确定单元,其确定上述N个最优的识别结果的状态级时间分割点的并集,作为新的时间分割点;以及
状态合并单元,其根据上述新的时间分割点,将上述N个最优的识别结果中位于同一时间分割段内的N个状态合并为一个状态,其中,将合并后的状态序列作为上述注册语音的语音标签。
5.根据权利要求4所述的用于生成语音标签的装置,其中,上述合并后的状态的输出概率分布为合并前的上述N个状态的高斯分量的并集。
6.根据权利要求5所述的用于生成语音标签的装置,其中,上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以N。
7.根据权利要求5所述的用于生成语音标签的装置,其中,上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。
8.根据权利要求1所述的用于生成语音标签的装置,其中,上述N个最优的识别结果包括N个最优的发音单位序列或发音单位格。
9.根据权利要求8所述的用于生成语音标签的装置,其中,上述发音单位包括音素、音节、词和/或短语。
10.一种用于生成语音标签的方法,包括以下步骤:
输入注册语音;
对上述注册语音进行识别,得到N个最优的识别结果,其中N是大于等于2的整数;以及
将上述N个最优的识别结果合并为上述注册语音的语音标签。
CN2010105617936A 2010-11-24 2010-11-24 用于生成语音标签的方法和装置 Pending CN102479510A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2010105617936A CN102479510A (zh) 2010-11-24 2010-11-24 用于生成语音标签的方法和装置
US13/241,518 US20120130715A1 (en) 2010-11-24 2011-09-23 Method and apparatus for generating a voice-tag

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105617936A CN102479510A (zh) 2010-11-24 2010-11-24 用于生成语音标签的方法和装置

Publications (1)

Publication Number Publication Date
CN102479510A true CN102479510A (zh) 2012-05-30

Family

ID=46065152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105617936A Pending CN102479510A (zh) 2010-11-24 2010-11-24 用于生成语音标签的方法和装置

Country Status (2)

Country Link
US (1) US20120130715A1 (zh)
CN (1) CN102479510A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341320A (zh) * 2020-02-28 2020-06-26 中国工商银行股份有限公司 短语语音的声纹识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110493A (ja) * 1992-09-29 1994-04-22 Ibm Japan Ltd 音声モデルの構成方法及び音声認識装置
CN1110789C (zh) * 1994-09-30 2003-06-04 苹果电脑公司 有集成化音调分类器的连续汉语普通话语音识别系统
CN101650886A (zh) * 2008-12-26 2010-02-17 中国科学院声学研究所 一种自动检测语言学习者朗读错误的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055502B2 (en) * 2006-11-28 2011-11-08 General Motors Llc Voice dialing using a rejection reference
US8600760B2 (en) * 2006-11-28 2013-12-03 General Motors Llc Correcting substitution errors during automatic speech recognition by accepting a second best when first best is confusable
US8423362B2 (en) * 2007-12-21 2013-04-16 General Motors Llc In-vehicle circumstantial speech recognition
JP5377430B2 (ja) * 2009-07-08 2013-12-25 本田技研工業株式会社 質問応答データベース拡張装置および質問応答データベース拡張方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110493A (ja) * 1992-09-29 1994-04-22 Ibm Japan Ltd 音声モデルの構成方法及び音声認識装置
CN1110789C (zh) * 1994-09-30 2003-06-04 苹果电脑公司 有集成化音调分类器的连续汉语普通话语音识别系统
CN101650886A (zh) * 2008-12-26 2010-02-17 中国科学院声学研究所 一种自动检测语言学习者朗读错误的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341320A (zh) * 2020-02-28 2020-06-26 中国工商银行股份有限公司 短语语音的声纹识别方法及装置
CN111341320B (zh) * 2020-02-28 2023-04-14 中国工商银行股份有限公司 短语语音的声纹识别方法及装置

Also Published As

Publication number Publication date
US20120130715A1 (en) 2012-05-24

Similar Documents

Publication Publication Date Title
US7603277B2 (en) Speech recognition device using statistical language model
CN101154380B (zh) 说话人认证的注册及验证的方法和装置
CN109036391A (zh) 语音识别方法、装置及系统
CN103761975A (zh) 一种口语评测方法及装置
JPH01167898A (ja) 音声認識装置
KR101664815B1 (ko) 스피치 모델 생성 방법
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN101515456A (zh) 语音识别接口装置及其语音识别方法
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
Droppo et al. Context dependent phonetic string edit distance for automatic speech recognition
EP1398758A2 (en) Method and apparatus for generating decision tree questions for speech processing
CN102970618A (zh) 基于音节识别的视频点播方法
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
CN102623008A (zh) 声纹识别方法
Mousa et al. Sub-lexical language models for German LVCSR
Chadha et al. Current Challenges and Application of Speech Recognition Process using Natural Language Processing: A Survey
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
CN102479510A (zh) 用于生成语音标签的方法和装置
Mandava et al. An investigation of LSTM-CTC based joint acoustic model for Indian language identification
Nimje et al. Automatic isolated digit recognition system: an approach using HMM
Li et al. English sentence recognition based on hmm and clustering
JPH07230294A (ja) 言語識別装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120530