CN103426428B

CN103426428B - 语音识别方法及系统

Info

Publication number: CN103426428B
Application number: CN201210157341.0A
Authority: CN
Inventors: N.C.巴达文; 庞台铭; 叶柏园; V.K.巴帕那帕利亚代
Original assignee: Asustek Computer Inc
Current assignee: Asustek Computer Inc
Priority date: 2012-05-18
Filing date: 2012-05-18
Publication date: 2016-05-25
Anticipated expiration: 2032-05-18
Also published as: CN103426428A

Abstract

一种语音识别方法及系统。此方法撷取语音数据中的语音特征，据以辨识此语音数据的语者身份，接着使用第一声学模型来辨识语音数据中的语句，而根据所辨识的语句及语音数据，计算所辨识语句的信心分数，并判断此信心分数是否超过门槛值。其中，当信心分数超过门槛值时，即收集所辨识的语句及语音数据，以使用此语音数据进行与语者身份相对应的第二声学模型的语者调适。

Description

语音识别方法及系统

技术领域

本发明是有关于一种语音识别系统及方法，且特别是有关于一种可针对不同语者调适的语音识别系统及方法。

背景技术

自动语音识别系统是利用不特定语者(speakerindependent)声学模型来辨识语者所说的单字。此不特定语者模型是利用由大量语音素材(corpus)中取得的多个语者的语音数据以及已知转译(transcription)数据所建立。此种方法虽可产生较为均衡(average)的不特定语者模型，但针对使用特定方式说话的不同语者，仍不一定能够提供准确的辨识结果，且若使用上述系统的使用者并非本国语者(nativespeaker)或是为幼童，系统的辨识准确度将大幅下降。

特定语者(speakerdependent)声学模型则是针对特定语者所建立，其将每个语者的语音特性模块化为语音模型，因此可提供相当高的辨识准确度。然而，要产生这样的特定语者声学模型需要取得大量的语音数据，才得以进行语者调适(speakeradaptation)。

常见的声学模型训练方式为离线监督式语者调适(off-linesupervisedspeakeradaptation)，其要求使用者重复念出预先定义的语句并录制为语音数据，而当收集足够数量语句的语音数据后，系统再根据已知语句及所收集的语音数据进行语者调适，从而建立该语者的声学模型。然而，在许多系统、应用或装置中，使用者多不愿意进行上述的训练过程，因此要从单一语者上收集足够的语音数据，并用以产生特定语者声学模型，是相当困难且不实际的。

另一种方式则为在线非监督式语者调适(on-lineunsupervisedspeakeradaptation)，其先辨识语者的语音数据，然后根据辨识结果(transcript)在系统运行(runtime)期间进行不特定语者声学模型的调适。此种方式虽可提供在线实时的语者调适，但却需要先辨识语音数据才能进行调适，相对于已知语句的离线调适方式而言，辨识结果不太可能完全正确。

发明内容

有鉴于此，本发明提出一种语音识别方法及系统，藉由辨识语音数据的语者身份，据以进行声学模型的语者调适(speakeradaptation)，可增加语音识别的准确性。

本发明提出一种语音识别方法，其撷取一语音数据中的至少一个语音特征，据以辨识此语音数据的语者身份，接着使用第一声学模型来辨识语音数据中的语句，而根据所辨识的语句及语音数据，计算所辨识语句的信心分数(confidencescore)，并判断此信心分数是否超过第一门槛值。其中，当信心分数超过第一门槛值时，即收集所辨识的语句及语音数据，以使用此语音数据进行与语者身份相对应的第二声学模型的语者调适。

本发明提出一种语音识别系统，其包括语者识别模块、语音辨识模块、词语确认模块、数据收集模块及语者调适模块。其中，语者识别模块用以撷取语音数据中的至少一个语音特征，据以辨识语音数据的语者身份。语音辨识模块使用第一声学模型辨识语音数据中的语句。词语确认模块根据语音辨识模块所辨识的语句及语音数据，计算所辨识语句的信心分数，并判断此信心分数是否超过第一门槛值。数据收集模块在词语确认模块判断信心分数超过第一门槛值时，收集语音辨识模块所辨识的语句及语音数据。语者调适模块使用数据收集模块所收集的语音数据进行与语者身份相对应的第二声学模型的语者调适。

基于上述，本发明的语音识别方法及系统针对不同语者建立专属的声学模型，并在接收到语音数据时，计算辨识该语音数据的信心分数及发音分数，据以决定是否以此语音数据来进行相对应语者的声学模型的语者调适，藉此可增加语音识别的准确性。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图式作详细说明如下。

附图说明

图1是依照本发明一实施例所示的语音识别系统的方块图。

图2是依照本发明一实施例所示的语音识别方法的流程图。

图3是依照本发明一实施例所示的根据语者身份选择声学模型以辨识语音数据的方法流程图。

图4是依照本发明一实施例所示的新增声学模型的方法流程图。

图5是依照本发明一实施例所示的语音识别系统的方块图。

图6是依照本发明一实施例所示的语音识别方法的流程图。

具体实施方式

本发明收集不同语者输入的语音数据，辨识语音数据中的语句，并确认所辨识语句的正确性，据以决定是否将此语音数据用来进行语者调适(speakeradaptation)以产生语者的声学模型。随着所收集语音数据的递增，可将声学模型调适为愈来愈接近语者的语音特性，而针对不同语者自动切换使用专属的声学模型来辨识语句，则可增加辨识的准确度。上述语音数据的收集及声学模型的调适均是在背景中执行，因此可在使用者不知情或不干扰使用者的情况下自动进行，提供使用便利性。

图1是依照本发明一实施例所示的语音识别系统的方块图。图2是依照本发明一实施例所示的语音识别方法的流程图。请同时参照图1及图2，本实施例的语音识别系统10包括语者识别模块11、语音辨识模块12、词语确认模块13、数据收集模块14及语者调适模块15，以下即搭配图1中语音识别系统10的各项元件说明本实施例语音识别方法的详细步骤：

首先，由语者识别模块11接收语者输入的语音数据，而撷取此语音数据中的至少一个语音特征，据以辨识语音数据的语者身份(步骤S202)。其中，语者识别模块11例如分别利用已建立在语音识别系统10的声学模型数据库(未绘示)中的多个语者的声学模型来辨识上述语音数据中的语音特征，而根据各个声学模型取得语音数据的辨识结果，语者识别模块11即可判断出语音数据的语者身份。

接着，由语音辨识模块12使用第一声学模型辨识语音数据中的语句(步骤S204)。其中，语音辨识模块12例如会应用自动语音辨识(automaticspeechrecognition，ASR)技术，而使用一个不特定语者(speakerindependent)声学模型来辨识语音数据中的语句。此不特定语者声学模型例如是内建在语音识别系统10中，而可用以辨识不特定语者输入的语音数据。

需说明的是，本实施例的语音识别系统10还可针对不同的语者建立各自专属的声学模型，并给予此语者或其声学模型一个特定的语者身份。藉此，每当语者识别模块11接收到由已建立有声学模型的语者输入的语音数据时，即可立即识别出该语者的身份，从而选用其对应的声学模型来辨识语音数据。

举例来说，图3是依照本发明一实施例所示的根据语者身份选择声学模型以辨识语音数据的方法流程图。请参照图3，在语者识别模块11撷取语音数据中的至少一个语音特征，并据以辨识语音数据的语者身份(步骤S302)。之后，语音辨识模块12会进一步判断语者识别模块11是否辨识出语音数据的语者身份(步骤S304)。其中，若语者识别模块11可辨识语者身份，语音辨识模块12即可从语者识别模块11接收语者身份，并使用与此语者身份相对应的声学模型来辨识语音数据中的语句(步骤S306)；反之，若语者识别模块11无法辨识该语者身份，则可额外建立一个新的语者身份，而语音辨识模块12在从语者识别模块11接收到新的语者身份时，则会使用不特定语者(speakerindependent)声学模型来辨识语音数据中的语句(步骤S308)。藉此，即便是在没有可与语音数据相对应的语者声学模型的情况下，语音识别系统10仍然能够藉由使用不特定语者声学模型来辨识语音数据，进而建立此语者专属的声学模型。

回到图2的流程，在语音辨识模块12辨识语音数据中的语句之后，词语确认模块13即根据语音辨识模块12所辨识的语句及语音数据，计算所辨识语句的信心分数(步骤S206)。其中，词语确认模块13例如是利用词语确认(utteranceverification)技术来量测所辨识语句的信心分数，藉此判断所辨识语句的正确性(correctness)。

接着，词语确认模块13会判断所计算的信心分数是否超过第一门槛值(步骤S208)，并在此信心分数超过第一门槛值时，输出语音辨识模块12所辨识的语句及语音数据，而由数据收集模块14收集，语者调适模块15则使用数据收集模块14收集的语音数据进行与语者身份相对应的第二声学模型的语者调适(步骤S210)。反之，在词语确认模块13判断信心分数不超过第一门槛值时，数据收集模块14则不会收集此语音数据，语者调适模块15也不会使用此语音数据进行语者调适(步骤S212)。

详言之，数据收集模块14例如会将具有高信心分数的语音数据及其语句储存在语音识别系统10的语音数据库(未绘示)中，以准备做为声学模型的语者调适之用。语者调适模块15则会根据语者识别模块11所辨识的语者身份，判断语音识别系统10中是否已建立有此语者对应的声学模型。而若系统中已有对应的声学模型，则语者调适模块15即会使用数据收集模块14所收集的语句及语音数据直接对该声学模型进而语者调适，从而将该声学模型调适得愈来愈接近该语者的语音特性。其中，上述的声学模型例如是一个采用隐藏式马可夫模型(Hidden-MarkovModel，HMM)的统计模型，其例如会记录先前数据的平均值(mean)和变异数(variacne)等统计值，而每当有新的语音数据进入后，这些统计值也将会对应此语音数据做小幅变动，最终获得一个更强健(robust)的统计模型。

另一方面，若系统中没有对应的声学模型，则语者调适模块15还会根据数据收集模块14所收集的语音数据的数目，而决定是否进行语者调适以新增新的声学模型。

详言之，图4是依照本发明一实施例所示的新增声学模型的方法流程图。请参照图4，本实施例由数据收集模块14收集语句及语音数据(步骤S402)，而语者调适模块15则会在数据收集模块14每次收集到新的语音数据时，判断其所收集的语音数据数目是否超过第三门槛值(步骤S404)。其中，当判断数目超过第三门槛值时，即代表所收集的数据已足以建立声学模型，此时语者调适模块15即会利用数据收集模块14所收集的语音数据，将一个不特定语者(speakerindependent)声学模型转换为特定语者(speakerdependent)声学模型，并用以作为与语者身份相对应的声学模型(步骤S406)。反之，当判断数目不超过第三门槛值时，则回到步骤S402，由数据收集模块14继续收集语句及语音数据。

藉由上述方法，当使用者将配备本案语音识别系统的装置买回家时，即可由家中成员分别输入语音数据，藉以建立各自的声学模型。而随着各个成员使用次数的增加，各个声学模型也将调适得愈来愈接近成员的语音特性。此外，在每次接收到语音数据时，语音识别系统也会自动辨识成员身分，并选用相对应的声学模型来进行语音辨识，因此可增加语音辨识的正确性。

除了上述辨识语句正确性的评分机制外，本发明还针对语音数据中多个词语(utterance)，设计一个发音的评分机制，并用以筛选语音数据，从而去除语意正确但发音不正确的语音数据。以下则再举一实施例详细说明。

图5是依照本发明一实施例所示的语音识别系统的方块图。图6是依照本发明一实施例所示的语音识别方法的流程图。请同时参照图5及图6，本实施例的语音识别系统50包括语者识别模块51、语音辨识模块52、词语确认模块53、数据收集模块54、语音评分模块55及语者调适模块56，以下即搭配图5中语音识别系统50的各项元件说明本实施例语音识别方法的详细步骤：

首先，由语者识别模块51接收语者输入的语音数据，而撷取此语音数据中的至少一个语音特征，据以辨识语音数据的语者身份(步骤S602)。接着，由语音辨识模块52使用第一声学模型辨识语音数据中的语句(步骤S604)。之后，由词语确认模块53根据语音辨识模块52所辨识的语句及语音数据，计算所辨识语句的信心分数(步骤S606)，并判断此信心分数是否超过第一门槛值(步骤S608)。其中，当信心分数不超过第一门槛值时，词语确认模块53即不会输出所辨识的语句及语音数据，而此语音数据也不会用来进行语者调适(步骤S610)。

反之，在判断信心分数超过第一门槛值时，词语确认模块53即会输出所辨识的语句及语音数据，而由语音评分模块55进一步利用语音评分(speechevaluation)技术评价此语音数据中多个词语(utterance)的发音分数(pronunciationscore)(步骤S612)。其中，语音评分模块55例如会评价语音数据中的音素(phoneme)、单字(word)、词组(phrase)、语句(sentence)等词语，藉此提供每一个词语的详细信息。

接着，语者调适模块56会判断语音评分模块55所计算的发音分数是否超过第二门槛值，从而使用发音分数超过第二门槛值的全部或部分语音数据来进行与语者身份相对应的第二声学模型的语者调适(步骤S614)。

藉由上述方法，即可进一步筛选出发音不正确的语音数据，因此可避免将此语音数据用在声学模型的调适，而造成声学模型的偏差。

综上所述，本发明的语音识别方法及系统藉由辨识语音数据的语者身份，选用对应的声学模型来进行语音识别，因此可大幅增加语音识别的准确性。本发明还进一步计算语音识别结果的信心分数及发音分数，从而去除语意不正确及发音不正确的语音数据，并仅使用分数较高、具有参考价值的语音数据来对声学模型进行语者调适，因此可使得声学模型接近语者的语音特性，从而增加语音辨识的正确性。

虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种语音识别方法，其特征是，包括：

撷取语音数据中的至少一语音特征，据以辨识上述语音数据的语者身份；

使用第一声学模型辨识上述语音数据中的语句；

根据所辨识的上述语句及上述语音数据，计算所辨识上述语句的信心分数，并判断上述信心分数是否超过第一门槛值；以及

当上述信心分数超过上述第一门槛值时，收集所辨识的上述语句及上述语音数据，以使用上述语音数据进行与上述语者身份相对应的第二声学模型的语者调适。

2.根据权利要求1所述的语音识别方法，其特征是，其中撷取上述语音数据中的上述至少一语音特征，据以辨识上述语音数据的上述语者身份的步骤包括：

分别利用已建立的多个语者的第二声学模型辨识上述至少一语音特征，以根据各上述这些第二声学模型的辨识结果，判断上述语音数据的上述语者身份。

3.根据权利要求2所述的语音识别方法，其特征是，其中使用上述第一声学模型辨识上述语音数据中的上述语句的步骤包括：

判断是否可辨识上述语音数据的上述语者身份；

若无法辨识上述语者身份，建立新语者身份，并使用不特定语者声学模型辨识上述语音数据中的上述语句；以及

若可辨识上述语者身份，使用与上述语者身份相对应的上述第二声学模型辨识上述语音数据中的上述语句。

4.根据权利要求1所述的语音识别方法，其特征是，其中根据所辨识的上述语句及上述语音数据，计算所辨识上述语句的上述信心分数的步骤包括：

利用词语确认技术，量测所辨识上述语句的上述信心分数。

5.根据权利要求1所述的语音识别方法，其特征是，其中收集所辨识的上述语句及上述语音数据，以使用上述语音数据进行与上述语者身份相对应的上述第二声学模型的上述语者调适的步骤包括：

利用语音评分技术评价上述语音数据中多个词语的发音分数，并判断上述发音分数是否超过第二门槛值；以及

使用上述发音分数超过上述第二门槛值的全部或部分上述语音数据进行与上述语者身份相对应的上述第二声学模型的上述语者调适。

6.根据权利要求5所述的语音识别方法，其特征是，其中上述这些词语包括音素、单字、词组及语句其中之一或其组合。

7.根据权利要求1所述的语音识别方法，其特征是，其中使用上述第一声学模型辨识上述语音数据中的上述语句的步骤包括：

使用自动语音辨识技术辨识上述语音数据中的上述语句。

8.根据权利要求1所述的语音识别方法，其特征是，其中收集所辨识的上述语句及上述语音数据，使用上述语音数据进行与上述语者身份相对应的上述第二声学模型的上述语者调适的步骤包括：

判断所收集的语音数据的数目是否超过第三门槛值；以及

当上述数目超过上述第三门槛值时，利用所收集的语音数据，转换不特定语者声学模型为特定语者声学模型，以作为与上述语者身份相对应的上述第二声学模型。

9.根据权利要求1所述的语音识别方法，其特征是，其中上述第一声学模型及上述第二声学模型为隐藏式马可夫模型。

10.一种语音识别系统，其特征是，包括：

语者识别模块，撷取语音数据中的至少语音特征，据以辨识上述语音数据的语者身份；

语音辨识模块，使用第一声学模型辨识上述语音数据中的语句；

词语确认模块，根据上述语音辨识模块所辨识的上述语句及上述语音数据，计算所辨识上述语句的信心分数，并判断上述信心分数是否超过第一门槛值；

数据收集模块，当上述词语确认模块判断上述信心分数超过上述第一门槛值时，收集上述语音辨识模块所辨识的上述语句及上述语音数据；以及

语者调适模块，使用上述数据收集模块所收集的上述语音数据进行与上述语者身份相对应的第二声学模型的语者调适。

11.根据权利要求10所述的语音识别系统，其特征是，还包括：

声学模型数据库，记录已建立的多个语者的第二声学模型。

12.根据权利要求11所述的语音识别系统，其特征是，其中上述语者识别模块包括分别利用上述声学模型数据库中上述这些语者的第二声学模型辨识上述至少一语音特征，以根据各上述这些第二声学模型的辨识结果，判断上述语音数据的上述语者身份。

13.根据权利要求12所述的语音识别系统，其特征是，其中上述语者识别模块包括判断是否可辨识上述语音数据的上述语者身份，其中

若无法辨识上述语者身份，建立新语者身份，并由上述语音辨识模块使用不特定语者声学模型辨识上述语音数据中的上述语句；以及

若可辨识上述语者身份，由上述语音辨识模块使用与上述语者身份相对应的上述第二声学模型辨识上述语音数据中的上述语句。

14.根据权利要求10所述的语音识别系统，其特征是，其中上述词语确认模块是利用词语确认技术，量测所辨识上述语句的上述信心分数。

15.根据权利要求10所述的语音识别系统，其特征是，还包括：

语音评分模块，利用语音评分技术评价上述语音数据中多个词语的发音分数。

16.根据权利要求15所述的语音识别系统，其特征是，其中上述语者调适模块还包括判断上述语音评分模块所评价的上述发音分数是否超过第二门槛值，而使用上述发音分数超过上述第二门槛值的全部或部分上述语音数据进行与上述语者身份相对应的上述第二声学模型的上述语者调适。

17.根据权利要求16所述的语音识别系统，其特征是，其中上述这些词语包括音素、单字、词组及语句其中之一或其组合。

18.根据权利要求10所述的语音识别系统，其特征是，其中上述语音辨识模块是使用自动语音辨识技术辨识上述语音数据中的上述语句。

19.根据权利要求10所述的语音识别系统，其特征是，其中上述语者调适模块还包括判断上述数据收集模块所收集的语音数据的数目是否超过第三门槛值，而当上述数目超过上述第三门槛值时，利用上述数据收集模块所收集的语音数据，转换不特定语者声学模型为特定语者声学模型，以作为与上述语者身份相对应的上述第二声学模型。

20.根据权利要求10所述的语音识别系统，其特征是，其中上述第一声学模型及上述第二声学模型为隐藏式马可夫模型。