CN102479510A

CN102479510A - 用于生成语音标签的方法和装置

Info

Publication number: CN102479510A
Application number: CN2010105617936A
Authority: CN
Inventors: 赵蕤; 何磊
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-11-24
Filing date: 2010-11-24
Publication date: 2012-05-30
Also published as: US20120130715A1

Abstract

本发明提供了用于生成语音标签的方法和装置。本发明的一种用于生成语音标签的装置，包括：输入单于，其输入注册语音；识别单元，其对上述注册语音进行识别，得到N个最优的识别结果，其中N是大于等于2的整数；以及合并单元，其将上述N个最优的识别结果合并为上述注册语音的语音标签。

Description

用于生成语音标签的方法和装置

技术领域

本发明涉及信息处理技术，具体地涉及语音识别技术，更具体地涉及语音识别领域中的语音标签技术。

背景技术

语音标签是语音识别技术的一个应用，特别是在嵌入式系统中比较广泛。涉及语音标签的过程如下：首先，用户向系统输入注册语音，系统将其转换成代表该注册语音的语音标签，并将该语音标签所表示的一个词条加入到识别网络中。此过程为注册过程。然后，基于含有语音标签词条的识别网络对测试语音进行识别，以确定其内容。此过程为识别过程。通常，识别过程中的识别网络不仅仅含有语音标签词条，还含有由词典或者字音转换模块提供发音的词条，称之为词典词条。

最初的语音标签方法通常基于模板匹配的方法。在注册过程中，对注册语音提取出一个或多个模板作为该注册语音的标签，识别过程中利用动态时间规整算法对测试语音和模板标签进行匹配。近年来，随着基于音素的隐马尔科夫模型在语音识别中的普遍应用，音素序列作为语音标签已成为主流的语音标签方法。该方法中，作为语音标签的音素序列是通过对注册语音进行音素识别而得到的。音素序列标签的优势在于：首先，音素序列标签比模板标签占用内存少。其次，音素序列标签词条更容易和词典词条结合构成新的识别网络。这都有助于提高语音标签系统所允许的词条数目。但是音素序列标签方法也有一定的不足：首先，音素识别错误不可避免，这会导致音素序列标签不能完全代表注册语音的发音，由此造成识别错误。此外，注册语音和测试语音之间存在着不匹配，也会导致识别错误。因此，减少由于上述原因而导致的识别错误即成为目前语音标签技术中的一个研究重点。

为了克服以上提出的音素序列标签方法的不足，研究者用多个发音标签表示一个标签词条(参见非专利文献1：“VOICE-TO-PHONEMECONVERSION ALGORITHMS FOR SPEAKER-INDEPENDENTVOICE-TAG APPLICATIONS IN EMBEDDED PLATFORMS”，YanMing Cheng，Changxue Ma and Lynette Melnar，Automatic SpeechRecognition and Understanding，2005IEEE Workshop on，pages 403-408，在此通过参考引入其整个内容)。具体方法是在对注册语音进行音素识别的时候，取前N个最优的识别结果作为该注册语音的标签。利用这种多发音标签可以很明显的减少音素识别错误所带来的负面影响，也可以降低注册语音和测试语音之间不匹配所造成的性能下降。

但是，一个标签词条由多个发音标签表示会提高识别网络的混淆度，尤其会明显降低系统中词典词条的识别性能。

发明内容

本发明正是鉴于上述现有技术中的问题而提出了用于生成语音标签的方法和装置，具体提供了以下技术方案。

[第1方案]

本发明的第1方案提供了一种用于生成语音标签的方法，包括以下步骤：输入注册语音；对上述注册语音进行识别，得到N个最优的识别结果，其中N是大于等于2的整数；以及将上述N个最优的识别结果合并为上述注册语音的语音标签。

本发明的用于生成语音标签的方法，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音标签的识别网络的混淆度，进而有助于提高语音标签系统的性能，特别是对词典词条的识别性能。另外，本发明的方法与传统的多发音语音标签方法相比，没有明显增加计算消耗及模型大小。

[第2方案]

根据上述第1方案的用于生成语音标签的方法，其中，上述对上述注册语音进行识别的步骤包括以下步骤：基于隐马尔科夫模型对上述注册语音进行识别，得到上述N个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。

[第3方案]

根据上述第2方案的用于生成语音标签的方法，其中，上述将上述N个最优的识别结果合并为上述注册语音的语音标签的步骤包括以下步骤：基于上述隐马尔科夫模型状态级时间分割信息，将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签。

[第4方案]

根据上述第3方案的用于生成语音标签的方法，其中，上述基于上述隐马尔科夫模型状态级时间分割信息，将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签的步骤包括以下步骤：确定上述N个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及，根据上述新的时间分割点，将上述N个最优的识别结果中位于同一时间分割段内的N个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。

[第5方案]

根据上述第4方案的用于生成语音标签的方法，其中，上述合并后的状态的输出概率分布为合并前的上述N个状态的高斯分量的并集。

本发明的用于生成语音标签的方法，由于合并后的状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。

[第6方案]

根据上述第5方案的用于生成语音标签的方法，其中，上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以N。

[第7方案]

根据上述第5方案的用于生成语音标签的方法，其中，上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。

[第8方案]

根据上述第1-7方案的任一个用于生成语音标签的方法，其中，上述N个最优的识别结果包括N个最优的发音单位序列或发音单位格。

[第9方案]

根据上述第8方案的用于生成语音标签的方法，其中，上述发音单位包括音素、音节、词和/或短语。

[第10方案]

本发明的第10方案提供了一种用于生成语音标签的装置，包括：输入单元，其输入注册语音；识别单元，其对上述注册语音进行识别，得到N个最优的识别结果，其中N是大于等于2的整数；以及合并单元，其将上述N个最优的识别结果合并为上述注册语音的语音标签。

本发明的用于生成语音标签的装置，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音标签的识别网络的混淆度，进而有助于提高语音标签系统的性能，特别是对词典词条的识别性能。另外，本发明的装置与传统的多发音语音标签系统相比，没有明显增加计算消耗及模型大小。

[第11方案]

根据上述第10方案的用于生成语音标签的装置，其中，上述识别单元基于隐马尔科夫模型对上述注册语音进行识别，得到上述N个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。

[第12方案]

根据上述第11方案的用于生成语音标签的装置，其中，上述合并单元基于上述隐马尔科夫模型状态级时间分割信息，将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签。

[第13方案]

根据上述第12方案的用于生成语音标签的装置，其中，上述合并单元包括：时间分割点确定单元，其确定上述N个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及状态合并单元，其根据上述新的时间分割点，将上述N个最优的识别结果中位于同一时间分割段内的N个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。

[第14方案]

根据上述第13方案的用于生成语音标签的装置，其中，上述合并后的状态的输出概率分布为合并前的上述N个状态的高斯分量的并集。

本发明的用于生成语音标签的装置，由于合并后的状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。

[第15方案]

根据上述第14方案的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以N。

[第16方案]

根据上述第14方案的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。

[第17方案]

根据上述第10-16方案的任一个用于生成语音标签的装置，其中，上述N个最优的识别结果包括N个最优的发音单位序列或发音单位格。

[第18方案]

根据上述第17方案的用于生成语音标签的装置，其中，上述发音单位包括音素、音节、词和/或短语。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明的第一实施例的用于生成语音标签的方法的流程图。

图2是根据本发明的第一实施例的在隐马尔可夫状态级上将2个最优的识别结果合并为一个序列的示例图。

图3是根据本发明的第二实施例的用于生成语音标签的装置的框图。

图4是根据本发明的第二实施例的用于生成语音标签的装置的合并单元的具体结构的框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

用于生成语音标签的方法

图1是根据本发明的第一实施例的用于生成语音标签的方法的流程图。下面就结合该图，对本实施例进行描述。

如图1所示，首先，在步骤101，输入注册语音。在本实施例中，输入的注册语音可以是本领域的技术人员公知的任何类型的语音，本发明对此没有任何限制。

接着，在步骤105，对步骤101输入的注册语音进行识别，得到N个最优的识别结果，其中N是大于等于2的整数。在本实施例中，对注册语音进行识别的方法可以是本领域的技术人员公知的任何识别方法，本发明对此没有任何限制，只要能够从注册语音中识别出代表注册语音的发音的识别结果即可。

在本实施例中，代表注册语音的发音的识别结果可以是发音单位序列或发音单位格等，其中，发音单位可以是音素、音节、词、短语或其组合，也可以是本领域的技术人员公知的任何其它发音单位，本发明对此没有任何限制，只要能够代表注册语音的发音即可。下面仅以音素序列为例进行说明。

具体地，在步骤105，对输入的注册语音进行音素识别，得到多个候选的音素序列。在多个候选的音素序列中，选出N个最优的音素序列作为步骤105的识别结果。在本实施例中，从多个候选的音素序列中选择N个最优的音素序列的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。例如，可以首先计算得到的多个候选的音素序列的每一个的得分，接着以得分的高低进行排序，最后将排序后的前N个音素序列作为N个最优的音素序列。

在本实施例中，优选，在步骤105，基于隐马尔科夫模型对步骤101输入的注册语音进行识别，得到N个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息。基于隐马尔科夫模型对注册语音进行识别的方法可以是本领域的技术人员公知的任何方法，例如非专利文献2(“Fundamentals of speech recognition”，Rabiner R.，Juang B.H.，Englewood Cliffs，New Jersey，Prentice Hall，1993，在此通过参考引入其整个内容)中公开的具体方法，本发明对此没有任何限制，只要能够得到N个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息即可。

接着，在步骤110，将步骤105识别出的N个最优的识别结果合并，作为步骤101输入的注册语音的语音标签。

具体地，在步骤105基于隐马尔科夫模型对注册语音进行识别的情况下，在步骤110，基于上述隐马尔科夫模型状态级时间分割信息，将上述N个最优识别结果在状态级上合并，作为上述注册语音的语音标签。

在本实施例中，优选，在合并过程中，首先确定上述N个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点，然后，基于新的时间分割点，将上述N个最优的识别结果中位于同一时间分割段内的N个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。

下面参考图2详细描述上述合并过程。图2是根据本发明的第一实施例的在隐马尔可夫状态级上将2个最优的音素序列合并为一个序列的示例图。在图2中，以N＝2为例进行说明，即从步骤105识别出的多个候选的识别结果中选择出2个最优的音素序列。

如图2所示，音素序列1包括n个状态S1-1、S1-2、...、S1-n，音素序列2包括m个状态S2-1、S2-2、...、S2-m，其中，音素序列1包括n+1个时间分割点，音素序列2包括m+1个时间分割点。

在本实施例的合并过程中，首先，确定音素序列1的n+1个时间分割点和音素序列2的m+1个时间分割点的并集，作为新的时间分割点。如图2所示，新的时间分割点为t0、t1、...、tk，即k+1个。例如，在n和m都为3的情况下，音素序列1包括3个状态S1-1、S1-2和S1-3以及4个时间分割点t0、t1、t3和t4，音素序列2包括3个状态S2-1、S2-2和S2-3以及4个时间分割点t0、t2、t3和t4。此时，音素序列1的时间分割点和音素序列2的时间分割点的并集为{t0、t1、t2、t3、t4}。

接着，基于新的时间分割点t0、t1、...、tk，将每个时间分割段内音素序列1和2的状态合并为一个状态。具体地，将t0和t1之间的状态S1-1和S2-1合并为状态M-1，将t1和t2之间的状态S1-2和S2-1合并为状态M-2，将t2和t3之间的状态S1-2和S2-2合并为状态M-3，将t3和t4之间的状态S1-3和S2-3合并为状态M-4，...，将tk-1和tk之间的状态S1-n和S2-m合并为状态M-k。从而，得到合并后的状态序列，并将其作为上述注册语音的语音标签。

在本实施例中，优选，上述合并后的状态的输出概率分布为合并前的上述N个状态的高斯分量的并集。例如，如图2所述，合并后的状态M-1的输出概率分布为合并前的状态S1-1和S2-1的高斯分量的并集，合并后的状态M-2的输出概率分布为合并前的状态S1-2和S2-1的高斯分量的并集。

在本实施例中，优选，上述合并后的状态中的每个高斯分量的权重是合并前的相同高斯分量的权重之和除以N。例如，如图2所示，合并后的状态M-1只有一个高斯分量，合并前的与其相同的高斯分量为状态S1-1的高斯分量(权重为1)和S2-1的高斯分量(权重为1)，则合并后的权重为(1+1)除以2，即1。合并后的状态M-2具有2个高斯分量，其左边的高斯分量与合并前的状态S2-1的高斯分量(权重为1)相同，其右边的高斯分量与合并前的状态S1-2的高斯分量(权重为1)相同。合并后，其左边的高斯分量的权重为状态S2-1的高斯分量的权重除以2，即1/2，其右边的高斯分量的权重为状态S1-2的高斯分量的权重除以2，即1/2。

另外，可选地，上述合并后的状态中的每个高斯分量的权重可以根据合并前的相同高斯分量所属的状态的置信度来计算。根据置信度来计算权重的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。

本发明的用于生成语音标签的方法，由于合并后的发音状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。

用于生成语音标签的装置

在同一发明构思下，图3是根据本发明的第二实施例的用于生成语音标签的装置的框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图3所示，本实施例的用于生成语音标签的装置300，包括：输入单于301，其输入注册语音；识别单元305，其对上述注册语音进行识别，得到N个最优的识别结果，其中N是大于等于2的整数；以及合并单元310，其将上述N个最优的识别结果合并为上述注册语音的语音标签。

在本实施例中，输入单元301输入的注册语音可以是本领域的技术人员公知的任何类型的语音，本发明对此没有任何限制。

在本实施例中，对注册语音进行识别的识别单元305可以是本领域的技术人员公知的任何识别模块，本发明对此没有任何限制，只要能够从注册语音中识别出代表注册语音的发音的识别结果即可。

具体地，识别单元305对输入的注册语音进行音素识别，得到多个候选的音素序列。在多个候选的音素序列中，选出N个最优的音素序列作为识别单元305的识别结果。在本实施例中，从多个候选的音素序列中选择N个最优的音素序列的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。例如，可以首先计算得到的多个候选的音素序列的每一个的得分，接着以得分的高低进行排序，最后将排序后的前N个音素序列作为N个最优的音素序列。

在本实施例中，优选，识别单元305基于隐马尔科夫模型对输入单元301输入的注册语音进行识别，得到N个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息。基于隐马尔科夫模型对注册语音进行识别的方法可以是本领域的技术人员公知的任何方法，例如上述非专利文献2中公开的具体方法，本发明对此没有任何限制，只要能够得到N个最优的音素序列和对应的隐马尔科夫模型状态级时间分割信息即可。

在本实施例中，在识别单元305基于隐马尔科夫模型对注册语音进行识别的情况下，合并单元310基于上述隐马尔科夫模型状态级时间分割信息，将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签。

在本实施例中，优选，如图4所示，合并单元310包括：分割点确定单元3101，其确定上述N个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及状态合并单元3105，其根据上述新的时间分割点，将N个最优的识别结果中位于同一时间分割段内的N个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。

下面参考图2详细描述图4所示的合并单元310的合并过程。在图2中，以N＝2为例进行说明，即从识别单元305识别出的多个候选的识别结果中选择出2个最优的音素序列。

在本实施例的合并过程中，首先，分割点确定单元3101确定音素序列1的n+1个时间分割点和音素序列2的m+1个时间分割点的并集，作为新的时间分割点。如图2所示，新的时间分割点为t0、t1、...、tk，即k+1个。例如，在n和m都为3的情况下，音素序列1包括3个状态S1-1、S1-2和S1-3以及4个时间分割点t0、t1、t3和t4，音素序列2包括3个状态S2-1、S2-2和S2-3以及4个时间分割点t0、t2、t3和t4。此时，音素序列1的时间分割点和音素序列2的时间分割点的并集为{t0、t1、t2、t3、t4}。

接着，状态合并单元3105根据新的时间分割点t0、t1、...、tk，将每个时间分割段内音素序列1和2的状态合并为一个状态。具体地，将t0和t1之间的状态S1-1和S2-1合并为状态M-1，将t1和t2之间的状态S1-2和S2-1合并为状态M-2，将t2和t3之间的状态S1-2和S2-2合并为状态M-3，将t3和t4之间的状态S1-3和S2-3合并为状态M-4，...，将tk-1和tk之间的状态S1-n和S2-m合并为状态M-k。从而，得到合并后的状态序列，并将其作为上述注册语音的语音标签。

本发明的用于生成语音标签的装置300，通过将表示多个发音的多个识别结果合并为一个发音序列，作为注册语音的语音标签，可以减小包含语音标签的识别网络的混淆度，进而有助于提高语音标签系统性能，特别是对词典词条的识别性能。另外，本发明的装置300与传统的多发音语音标签系统相比，没有明显增加计算消耗及模型大小。

在本实施例中，优选，上述合并单元310合并后的状态的输出概率分布为合并前的上述N个状态的高斯分量的并集。例如，如图2所述，合并后的状态M-1的输出概率分布为合并前的状态S1-1和S2-1的高斯分量的并集，合并后的状态M-2的输出概率分布为合并前的状态S1-2和S2-1的高斯分量的并集。

在本实施例中，优选，上述合并单元310合并后的状态中的每个高斯分量的权重是合并前的相同分量的权重之和除以N。例如，如图2所示，合并后的状态M-1只有一个高斯分量，合并前的与其相同的高斯分量是S1-1的高斯分量(权重为1)和S2-1的高斯分量(权重为1)，因此合并后的权重为(1+1)除以2，即1。合并后的状态M-2具有2个高斯分量，其左边的高斯分量为合并前的状态S2-1的高斯分量，其右边的高斯分量为合并前的状态S1-2的高斯分量，其左边的高斯分量的权重为状态S2-1的高斯分量的权重(为1)除以2，即1/2，其右边的高斯分量的权重为状态S1-2的高斯分量的权重(为1)除以2，即1/2。

另外，可选地，上述合并单元310合并后的状态中的每个高斯分量的权重可以根据合并前的相同高斯分量所属的状态的置信度来计算。根据置信度来计算权重的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。

本发明的用于生成语音标签的装置300，由于合并后的发音状态序列包含多个识别结果的所有状态的高斯分量，因此可以很好的描述注册语音的差异，同时显著降低了给整个语音识别网络所带来的混淆度。

以上虽然通过一些示例性的实施例对本发明的用于生成语音标签的方法和装置进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的发明思想和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

Claims

1.一种用于生成语音标签的装置，包括：

输入单于，其输入注册语音；

识别单元，其对上述注册语音进行识别，得到N个最优的识别结果，其中N是大于等于2的整数；以及

合并单元，其将上述N个最优的识别结果合并为上述注册语音的语音标签。

2.根据权利要求1所述的用于生成语音标签的装置，其中，上述识别单元基于隐马尔科夫模型对上述注册语音进行识别，得到上述N个最优的识别结果和对应的隐马尔科夫模型状态级时间分割信息。

3.根据权利要求2所述的用于生成语音标签的装置，其中，上述合并单元基于上述隐马尔科夫模型状态级时间分割信息，将上述N个最优的识别结果在状态级上合并为上述注册语音的语音标签。

4.根据权利要求3所述的用于生成语音标签的装置，其中，上述合并单元包括：

时间分割点确定单元，其确定上述N个最优的识别结果的状态级时间分割点的并集，作为新的时间分割点；以及

状态合并单元，其根据上述新的时间分割点，将上述N个最优的识别结果中位于同一时间分割段内的N个状态合并为一个状态，其中，将合并后的状态序列作为上述注册语音的语音标签。

5.根据权利要求4所述的用于生成语音标签的装置，其中，上述合并后的状态的输出概率分布为合并前的上述N个状态的高斯分量的并集。

6.根据权利要求5所述的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重是合并前的与上述每个高斯分量相同的高斯分量的权重之和除以N。

7.根据权利要求5所述的用于生成语音标签的装置，其中，上述合并后的状态中的每个高斯分量的权重根据合并前的与上述每个高斯分量相同的高斯分量所属的状态的置信度来计算。

8.根据权利要求1所述的用于生成语音标签的装置，其中，上述N个最优的识别结果包括N个最优的发音单位序列或发音单位格。

9.根据权利要求8所述的用于生成语音标签的装置，其中，上述发音单位包括音素、音节、词和/或短语。

10.一种用于生成语音标签的方法，包括以下步骤：

输入注册语音；

对上述注册语音进行识别，得到N个最优的识别结果，其中N是大于等于2的整数；以及

将上述N个最优的识别结果合并为上述注册语音的语音标签。