CN101452702A

CN101452702A - 语音模型的调整方法及其调整模块

Info

Publication number: CN101452702A
Application number: CNA2007101971385A
Authority: CN
Inventors: 涂家章; 廖元甫
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2007-12-05
Filing date: 2007-12-05
Publication date: 2009-06-10
Anticipated expiration: 2027-12-05
Also published as: CN101452702B

Abstract

一种语音模型的调整方法，包括依据正解序列产生法与语音模型产生语音的正解序列。另外，依据选取顺序从多个候选序列产生法中选取其一，并依据上述选取的候选序列产生法与语音模型藉以产生语音的候选序列。再者，依据语音的正解序列与候选序列，藉以调整语音模型。如此一来可提升语音模型的鉴别度。

Description

语音模型的调整方法及其调整模块

技术领域

本发明是有关于一种语音识别技术，且特别是有关于一种语音模型的调整技术。

背景技术

随着语音识别技术的精进，使用者可通过语音藉以操作各式各样的电子设备器材，例如电视、音响...等等。使用者只要根据语音识别系统所设定可识别的语音指令，就可以通过语音操作这些设备。除了运用在电气设备外，语音识别技术亦已广泛地运用在相关的领域中，例如语音输入、身份识别等等的运用。

语音识别系统所发生的错误可区分为三种，分别为混淆错误(Substitution)、删除错误(Deletion)以及插入错误(Insertion)。请配合参照表一，若使用者所说的语音为「A、B、C」，但语音识别系统所得到的识别结果为「D、B、C」时，此类错误则称作混淆错误。若使用者所说的语音为「A、B、C」，但语音识别系统所得到的识别结果为「A、、C」时，此类错误则称作删除错误。若使用者所说的语音为「A、B、C」，但语音识别系统所得到的识别结果为「A、B、C、D」时，此类错误则称作删除错误。

表一识别错误的种类

为了改善上述识别正确率的问题，语音识别系统必须利用具有代表性的语音模型来与使用者所说的语音进行比对，藉以正确识别使用者所说的语音。要得到具有代表性的语音模型，则必须利用语音数据库提供大量的语音给语音识别系统进行语音模型的调整(或称训练)，而且这些大量的语音是收集了许多人的语音集合而成，藉以提升语音模型的最大相似度(MaximumLikelihood)。接着，再利用鉴别式训练来调整语音模型，藉以提升鉴别度。由于语音模型的鉴别度与语音识别的识别率有很大的关系，若能提升语音模型的鉴别度，则可提升语音识别的识别率。

目前最佳且常见的语音模型的调整方法，是利用单一固定的序列产生器来产生序列，藉以来调整语音模型。例如美国专利US 5,606,644、US 5,579,436即是采用此作法来调整语音模型。然而，单一固定的序列产生器，容易造成其所产生的序列的错误种类分布不均。因此已知的作法训练得到的语音模型并不佳。以下配合图式作进一步地说明。

图1是已知利用固定的序列产生器来产生具有插入错误的序列，藉以调整语音模型的曲线图。表二是已知利用固定的序列产生器来产生具有插入错误的序列，藉以调整语音模型的实验数据。请合并参照图1与表二，曲线101、102、103分别代表插入错误、混淆错误与删除错误的错误率曲线。当语音模型的调整次数达到20次时，可看出曲线101、102、103已收敛。由表二可明显看出已知技术能有效地减少插入错误的发生率。但是已知技术非但无法改善混淆错误的发生率，更会使删除错误的发生率上升。

表二已知利用固定的序列产生器来产生具有插入错误的序列，藉以调整语音模型的实验数据

	插入错误发生率	删除错误发生率	混淆错误发生率	数字正确率	句子正确率
	插入错误发生率	删除错误发生率	混淆错误发生率	数字正确率	句子正确率	基本系统	4.06	1.52	1.64	92.79	74.67
已知技术	1.33	1.70	1.64	95.33	79.67	基本系统	4.06	1.52	1.64	92.79	74.67
已知技术	1.33	1.70	1.64	95.33	79.67	错误减少率	67.24	-11.84	0.00	35.23	19.74

综合上述，已知利用单一固定的序列产生器来产生序列，藉以调整语音模型。由于序列的错误种类分布不均，因此仅能降低部分错误种类的错误发生率，而且甚至会提升部分错误种类的错误发生率。

发明内容

本发明提供一种语音模型的调整方法，藉以提升语音模型的鉴别度。

本发明提供一种语音模型的调整模块，藉以提升语音识别的识别率。

本发明提出一种语音模型的调整方法，包括依据正解序列产生法与语音模型藉以产生语音的正解序列。另外，依据选取顺序从多个候选序列产生法中选取其一，并依据上述选取的候选序列产生法与语音模型藉以产生语音的候选序列。再者，依据语音的正解序列与候选序列，藉以调整语音模型。

从另一观点来看，本发明提供一种语音模型的调整模块，包括语音数据库、正解序列产生器、候选序列模块与语音模型调整器。语音数据库用以提供语音。正解序列产生器耦接语音数据库，可依据语音模型产生语音的正解序列。候选序列模块耦接语音数据库，具有多个候选序列产生器。候选序列模块可依据选取顺序，而从上述候选序列产生器中选取第一候选序列产生器，此第一候选序列产生器则依据语音模型藉以产生语音的候选序列。语音模型调整器耦接正解序列产生器与候选序列模块，可依据语音的正解序列与候选序列，藉以调整语音模型。

本发明依据正解序列产生法与语音模型藉以产生语音的正解序列。另外，依据选取顺序从多个候选序列产生法中选取其一，并依据上述选取的候选序列产生法与语音模型藉以产生语音的候选序列。再者，依据语音的正解序列与候选序列，藉以调整语音模型。如此一来可提升语音模型的鉴别度。

为让本发明的上述特征和优点能更明显易懂，下文特举几个实施例，并配合所附图式，作详细说明如下。

附图说明

图1是已知利用固定的序列产生器来产生具有插入错误的序列，藉以调整语音模型的曲线图。

图2是依照本发明的一实施例的一种语音模型的调整模块的示意图。

图3是依照本发明的一实施例的一种语音模型的调整方法的流程图。

图4是依照本发明的一实施例的一种选择候选序列产生器的流程图。

图5是图3中依据语音的正解序列与候选序列，藉以调整语音模型的步骤流程图。

图6是本发明的实施例调整语音模型的曲线图。

[主要元件标号说明]

101、111：插入错误的错误曲线

102、112：混淆错误的错误曲线

103、113：删除错误的错误率曲线

10：语音模型的调整模块

20：语音数据库

30：正解序列产生器

40：候选序列模块

41：易产生插入错误的候选序列产生器

42：易产生混淆错误的候选序列产生器

43：易产生删除错误的候选序列产生器

50：语音模型调整器

60：语音模型

S301～S304：语音模型的调整方法的各步骤

S401～S408：选取候选序列产生器的各步骤

S501～S503：调整语音模型的各步骤

具体实施方式

已知利用固定的序列产生器来产生具有特定错误种类的序列来调整语音模型，仅能降低特定错误种类的错误发生率，并无法改善其它错误种类的错误发生率。

有鉴于此，本发明的实施例利用多个候选序列产生器，分别以不同的候选序列产生方式，来产生具有不同错误种类的候选序列，藉以取代已知所采用的固定的候选序列产生器。本发明的实施例通过交替使用多个候选序列产生器，可利用相异错误种类的候选序列来调整语音模型。因此可改善已知的候选序列所具有的错误种类分布不均，而导致语音模型的调整偏差。

图2是依照本发明实施例的语音模型的调整模块示意图。请参照图2，语音模型的调整模块10包括语音数据库20、正解序列产生器30、候选序列模块40与语音模型调整器50。语音数据库20用以提供语音。正解序列产生器30耦接语音数据库20，可依据语音模型60产生语音的正解序列。候选序列模块40耦接语音数据库20，具有多个候选序列产生器。

候选序列模块40可依据选取顺序SS，而从多个候选序列产生器中选取一个候选序列产生器。候选序列模块40所选择的候选序列产生器则可依据语音模型60藉以产生语音的候选序列。语音模型调整器50耦接正解序列产生器30与候选序列模块40，可依据语音的正解序列与候选序列，藉以调整语音模型60。

本实施例中多个候选序列产生器以候选序列产生器41、42、43为例进行说明。其中候选序列产生器41具有易产生插入错误的候选序列产生法，因此候选序列产生器41易产生具有插入错误的候选序列。候选序列产生器42具有易产生混淆错误的候选序列产生法，因此候选序列产生器42易产生具有混淆错误的候选序列。候选序列产生器43具有易产生删除错误的候选序列产生法，因此候选序列产生器43易产生具有删除错误的候选序列。候选序列产生器41、42、43，及其候选序列产生法的详细说明如下。

一般而言，语音识别器可以使用固定长度与不固定长度两种识别网络来进行识别。以中文数字符串的识别为例，一般的员工号码或是证号都是固定的长度，所以可以利用固定长度的识别网络来进行识别。但是若待识别的内容是不定长度，则需利用不固定长度的识别网络来进行识别。而在本实施例中，语音数据库20的语音都是已知内容，所以可知道语音的长度。因此，通过这项信息，可以利用固定长度与不固定长度两种识别网络来设计具有相异候选模型序列产生方式的候选模型序列产生器。

更详细地说，候选序列产生器41采用易产生插入错误的语音识别器，利用不固定长度识别网络进行识别，挑选长度大于正确答案长度的候选模型序列，如此可以产生较多的插入错误。候选序列产生器42采用易产生混淆错误的语音识别器，利用固定长度识别网络进行识别，可以得到与正确答案相同长度的候选模型序列，如此可以产生较多的混淆错误。候选序列产生器43采用易产生删除错误的语音识别器，利用不固定长度识别网络进行识别，挑选长度小于正确答案长度的候选模型序列，如此可以产生较多的删除错误。

另一方面，本实施例中的选取顺序SS可以是候选序列产生器41、42、43的交错组合。以下列表三为例进行说明。

表三选取顺序表

顺序	候选序列模块40所选取的候选序列产生器
顺序	候选序列模块40所选取的候选序列产生器	1	候选序列产生器41
2	候选序列产生器42	1	候选序列产生器41
2	候选序列产生器42	3	候选序列产生器41

4	候选序列产生器42
4	候选序列产生器42	5	候选序列产生器43

图3是依照本发明的一实施例的一种语音模型的调整方法的流程图。请合并参照图2与图3，先以语音数据库20提供第一语音为例，以供语音模型调整器50进行第一次调整语音模型60。首先由步骤S301，正解序列产生器30依据正解序列产生法与语音模型60藉以产生第一语音的正解序列。接着由步骤S302，候选序列模块40依据选择顺序SS而从多个候选序列产生器中选择一个候选序列产生器。从表三中可知，在本实施例中候选序列模块40会选择顺序为“1”的候选序列产生器41。接着步骤S303，由候选序列产生器41依据易产生插入错误的候选序列产生法藉以产生第一语音的候选序列。接着步骤S304，由语音模型调整器50依据第一语音的正解序列与候选序列，藉以调整语音模型60。

当语音数据库20提供第二语音，以供语音模型调整器50进行第二次调整语音模型60时。正解序列产生器30则会提供第二语音的正解序列给语音模型调整器50(步骤S301)。候选序列模块40则会依据选取顺序SS而选择顺序为“2”的候选序列产生器42(步骤S302)，藉以第二语音的候选序列给语音模型调整器50(步骤S303)。语音模型调整器50再依据第二语音的正解序列与候选序列，藉以调整语音模型60。

以此类推，当语音数据库20提供第三语音，以供语音模型调整器50进行第三次调整语音模型60时，候选序列模块40会依据选取顺序SS而选择顺序为“3”的候选序列产生器41。当语音数据库20提供第四语音，以供语音模型调整器50进行第四次调整语音模型60时，候选序列模块40会依据选取顺序SS而选择顺序为“4”的候选序列产生器42。

当语音数据库20提供第五语音，以供语音模型调整器50进行第五次调整语音模型60时，候选序列模块40会依据选取顺序SS而选择顺序为“5”的候选序列产生器43。当语音数据库20提供第六语音，以供语音模型调整器50进行第六次调整语音模型60时，候选序列模块40会依据选取顺序SS而重新选择顺序为“1”的候选序列产生器41。以下举一种实施方式，来说明候选序列模块40如何从多个候选序列产生器中选择其一(步骤S302)。

首先可在候选序列模块40中配置一个计数器(未绘示)，此计数器可用以计数候选序列模块40选择候选序列产生器的次数。假设计数器的计数值以“1”作为初始值，每当候选序列模块40从多个候选序列产生器中选择其一时，计数值则会增加1。如此一来，候选序列模块40则可依据上述计数值来实现表三的选择顺序SS。

举例来说，图4是依照本发明的一实施例的一种选择候选序列产生器的流程图。请合并参照图2与图4，首先由步骤S401，候选序列模块40可设定控制参数，在本实施例中控制参数以5为例进行说明。接着由步骤S402，判别计数值是否等于控制参数，若计数值不等于控制参数则执行步骤S403；反之，若计数值等于控制参数则执行步骤S407。在第一次调整语音模型60，计数值为初始值“1”不等于控制参数“5”，因此执行步骤S403，判别计数值是否为奇数，若计数值为奇数，则执行步骤S404；反之，若计数值不为奇数，则执行步骤S405。由于计数值为“1”为奇数，因此执行步骤S404选择候选序列产生器41。接着再将计数值加1(步骤S406)，并回到步骤S402。

承上述，在第二次调整语音模型60，计数值为“2”，因此依序执行步骤S402、S403、S405选择候选序列产生器42。接着再将计数值加1(步骤S406)，并回到步骤S402。在第三次调整语音模型60，计数值为“3”，因此依序执行步骤S402、S403、S404选择候选序列产生器41。接着再将计数值加1(步骤S406)，并回到步骤S402。在第四次调整语音模型60，计数值为“4”，因此依序执行步骤S402、S403、S404选择候选序列产生器42。接着再将计数值加1(步骤S406)，并回到步骤S402。

承上述，在第五次调整语音模型60，计数值为“5”，因此依序执行步骤S402、S407选择候选序列产生器43。接着重设计数值为初始值“1”(步骤S408)，并回到步骤S402。在第六次调整语音模型60，计数值为“1”，因此依序执行步骤S402、S403、S404选择候选序列产生器41。接着再将计数值加1(步骤S406)，并回到步骤S402。以此类推，在此不再赘述。接着再针对步骤S304作更详细地说明。

图5是图3中依据语音的正解序列与候选序列，藉以调整语音模型的步骤流程图。请合并参照图2与图5。首先可由步骤S501，由语音模型调整器50依据正解序列、候选序列与语音模型60计算错误识别量度(Misrecognition Measure)。接着由步骤S502，将错误识别量度代入耗损函数(Loss Function)中。接着，语音模型调整器50再利用模型微调的方式来调整语音模型60，藉以最小化耗损函数，进而达到提升语音模型60的鉴别度的目的。

为了凸显本发明的实施例的优点，在此提供部分的实验数据供本领域技术人员参详。本实施例以中文数字符串识别实验结果来说明这个现象，中文数字数据库训练语料总共有5080句，测试语料有四组，分别为MAT_TS、ITRI_ID、NTUT_CARD与NTUT_CONFUSION，其中MAT_ST有757句、ITRI_ID有1243句、NTUT_CARD有475句而NTUT_CONFUSION有3253句。语音模型60是使用19个前后音不相关音素模型(Context Independent Phone Model)，每一个模型共有3个状态(State)，每个状态的混合数为16个，另外还训练了包含3个状态的静音模型与一个状态的短静音模型。

图6是本发明的实施例调整语音模型的曲线图。表四是本发明的实施例与已知的实验数据比较表。请合并参照图6与表四，曲线111、112、113分别代表插入错误、混淆错误与删除错误的错误率曲线。当语音模型60的调整次数达到62次时，可看出曲线111、112、113已收敛。与已知的图1来比较，可以很清楚发现，图6中插入错误的曲线111有明显的震荡现象，这是由于交替使用不同特性的候选序列来产生不同错误的影响，使得不同的错误可以交替被调整，因此三种错误的发生率之间的差异明显变小。

由表四的结果可以更清楚地看到，在不同的测试语料中，本发明的方法不仅可以明显减少插入、删除与混淆三种错误，对于语音识别率也有很显著的改善效果，相较于基本系统，已知技术的句子错误率可以减少20％～36.6％，而数字错误率可以减少16.96％～39.85％，而本实施例的方法，句子错误率可以减少27.69％～41.74％，而数字错误率可以减少30.94％～49.81％。本实施例明显比已知技术更能减少错误的发生率。

表四本发明的实施例与已知的实验数据比较表

综合上述，由于本实施例中，候选序列模块40是依据选取顺序SS来选择候选序列产生器，藉以产生不同错误种类的候选序列。因此可改善已知的候选序列仅能提供固定错误种类的候选序列，进而导致语音模型的调整偏差。如此一来，可大幅提升语音模型60的鉴别度，进而提升语音识别的识别率。

值得一提的是，虽然上述实施例中已经对语音模型的调整方法与模块描绘出了一个可能的型态，但本领域技术人员应当知道，各厂商对于语音模型的调整方法与模块的设计都不一样，因此本发明的应用当不限制于此种可能的型态。换言之，只要是语音模型的调整方法与模块是依据选取顺序，藉以产生不同错误种类的候选序列，就已经是符合了本发明的精神所在。以下再针对上述各步骤，作更详细的说明以便本领域技术人员能够更进一步的了解本发明的精神，并实施本发明。

请再参照图2，上述实施例中，表三所列举的选取顺序SS仅是一种选择实施例，本发明并不以此为限。换言之，本领域技术人员可依据其需求自行设定选取顺序SS，藉以提供具有各种不同的错误种类的候选序列。举例来说，表三也可以用表五来取代之。此外，选取顺序SS也可以是候选序列产生器41、42的互相交错排列，例如表六。

表五另一种选取顺序表

顺序	候选序列模块40所选取的候选序列产生器
顺序	候选序列模块40所选取的候选序列产生器	1	候选序列产生器42
2	候选序列产生器41	1	候选序列产生器42
2	候选序列产生器41	3	候选序列产生器42
4	候选序列产生器41	3	候选序列产生器42
4	候选序列产生器41	5	候选序列产生器43

表六再一种选取顺序表

顺序	候选序列模块40所选取的候选序列产生器
顺序	候选序列模块40所选取的候选序列产生器	1	候选序列产生器41
2	候选序列产生器42	1	候选序列产生器41

再者，图2中，候选序列模块40的多个候选序列产生器虽仅以候选序列产生器41～43为例进行说明，但在其它实施例中，本领域技术人员亦可采用不同数量的候选序列产生器，甚至可采用其它型态的候选序列产生器。

另一方面，上述实施例中图4的控制参数虽以“5”为例进行说明，但本发明并不限于此。本领域技术人员亦可配合选取顺序自行设定控制参数或是更改图4的步骤。

综上所述，本发明的语音模型的调整方法是依据选取顺序，选用不同的候选序列产生法，藉以产生不同错误种类的候选序列，因此可改善已知采取固定错误种类的候选序列所导致的语音模型调整偏差。可大幅提升语音模型的鉴别度以及语音识别的识别率。

虽然本发明已以几个实施例揭露如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，因此本发明的保护范围当视所附的权利要求范围所界定者为准。

Claims

1.一种语音模型的调整方法，包括：

依据正解序列产生法与该语音模型藉以产生第一语音的正解序列；

依据选取顺序从多个候选序列产生法中选取第一候选序列产生法；

依据该第一候选序列产生法与该语音模型藉以产生该第一语音的候选序列；以及

依据该第一语音的正解序列与候选序列，藉以调整该语音模型。

2.根据权利要求1所述的语音模型的调整方法，还包括：

接收第二语音；

依据该正解序列产生法与该语音模型藉以产生该第二语音的正解序列；

依据该选取顺序从该些候选序列产生法中选取第二候选序列产生法；

依据该第二候选序列产生法与该语音模型藉以产生该第二语音的候选序列；以及

依据该第二语音的正解序列与候选序列，藉以调整该语音模型。

3.根据权利要求1所述的语音模型的调整方法，其中依据该选取顺序从该些候选序列产生法中选取第一候选序列产生法的步骤，还包括：

设定控制参数；以及

依据该控制参数从该些候选序列产生法中选取该第一候选序列产生法，并修正该控制参数。

4.根据权利要求1所述的语音模型的调整方法，其中依据该第一语音的正解序列与候选序列，藉以调整该语音模型的步骤，还包括：

依据该语音模型与该第一语音的正解序列、候选序列计算错误识别量度；

将该错误识别量度代入损耗函数；以及

利用模型微调的方式调整该语音模型，藉以最小化该损耗函数。

5.根据权利要求1所述的语音模型的调整方法，其中该选取顺序为该第一候选序列产生法与第二候选序列产生法互相交错排列。

6.根据权利要求1所述的语音模型的调整方法，其中该选取顺序为该第一候选序列产生法、第二候选序列产生法与第三候选序列产生法的交错组合。

7.根据权利要求1所述的语音模型的调整方法，其中该些候选序列产生法包括易产生插入错误的候选序列产生法、易产生混淆错误的候选序列产生法与易产生删除错误的候选序列产生法。

8.一种语音模型的调整模块，包括：

语音数据库，用以提供语音；

正解序列产生器，耦接该语音数据库，依据该语音模型产生该语音的正解序列；

候选序列模块，耦接该语音数据库，具有多个候选序列产生器，该候选序列模块依据选取顺序，而从该些候选序列产生器中选取第一候选序列产生器，该第一候选序列产生器依据该语音模型藉以产生该语音的候选序列；以及

语音模型调整器，耦接该正解序列产生器与该候选序列模块，依据该语音的正解序列与候选序列，藉以调整该语音模型。

9.根据权利要求8所述的语音模型的调整模块，其中该些候选序列产生器包括该第一候选序列产生器、第二候选序列产生器与第三候选序列产生器，其中该第一候选序列产生器易产生具有插入错误的候选序列，该第二候选序列产生器易产生具有混淆错误的候选序列，该第三候选序列产生器易产生具有删除错误的候选序列。

10.根据权利要求8所述的语音模型的调整模块，其中该些候选序列产生器包括该第一候选序列产生器、第二候选序列产生器，其中该选取顺序为该第一候选序列产生器与该第二候选序列产生器互相交错排列。

11.根据权利要求8所述的语音模型的调整方法，其中该些候选序列产生器包括该第一候选序列产生器、第二候选序列产生器与第三候选序列产生器，且该选取顺序为该第一候选序列产生器、该第二候选序列产生器与该第三候选序列产生器的交错组合。