CN102301419B

CN102301419B - 声音识别装置

Info

Publication number: CN102301419B
Application number: CN2009801560332A
Authority: CN
Inventors: 山崎道弘; 石井纯; 坂下博纪; 野木和行
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-01-30
Filing date: 2009-10-08
Publication date: 2013-06-12
Anticipated expiration: 2029-10-08
Also published as: CN102301419A; DE112009004357T5; WO2010086925A1; US8977547B2; JP5172973B2; JPWO2010086925A1; DE112009004357B4; US20110276331A1

Abstract

本发明提供一种声音识别装置，包括：声音输入部(11)，该声音输入部(11)输入多次发声的声音；登记声音数据存储部(12)，该登记声音数据存储部(12)对声音输入部(11)输入的多次发声的声音数据进行存储；发声稳定性检验部(13)，该发声稳定性检验部(13)求出从登记声音数据存储部(12)读取的多次发声的声音数据之间的相似度，在相似度大于阈值T1的情况下，判定声音数据能够登记；以及标准模式生成部(14)，该标准模式生成部(14)使用由发声稳定性检验部(13)判定为能够登记的声音数据来生成标准模式。

Description

声音识别装置

技术领域

本发明涉及声音登记型的声音识别装置。

背景技术

作为现有的登记型的声音识别装置，有如下装置：进行一次登记用发声，并将该发声与已登记的标准模式相比较，在判断为是不同于标准模式(已登记词汇)的发声(不易被混淆的发声)的情况下，进行登记处理(例如，参照专利文献1)。

现有技术文献

专利文献

专利文献1：

日本专利特开2002-297181号公报

发明内容

在现有的登记型的声音识别装置中，受理只进行一次的登记发声，并将该发声与已登记的标准模式进行比较，基于比较结果判定能否登记，因此，无法确认登记发声的稳定性。例如，在噪音环境下声音区间有一部分缺失的情况下、或在将非稳定噪音误检测为声音区间的情况下，若是不同于已登记的标准模式的内容，则可能会判断为能够登记，从而可能将错误的声音登记为标准模式。若像上述那样将错误的输入登记为标准模式，则会导致将不同于发声人实际想要登记的发声内容的声音加以登记，因此，会在进行作为识别对象的发声时发生误识别。

本发明是为了解决上述问题而完成的，其目的在于提供一种声音识别装置，该声音识别装置能够减少因非稳定噪音或声音区间的误检测等而引起的误登记，能够提高声音的识别性能，还能够提高便利性，减少对存储器的不必要的使用。

本发明的声音识别装置包括：声音输入部，该声音输入部输入多次发声的声音；存储部，该存储部对声音输入部所输入的多次发声的声音数据进行存储；稳定性检验部，该稳定性检验部求出从存储部读取的多次发声的声音数据之间的相似度，在相似度大于第一阈值的情况下，判定声音数据能够登记；标准模式生成部，该标准模式生成部使用由稳定性检验部判定为能够登记的声音数据来生成标准模式；以及再次发声请求部，该再次发声请求部执行再进行一次发声的再次发声请求，声音输入部输入预定的多次发声的声音，稳定性检验部在从存储部读出的预定的多次声音数据中不存在能够登记的声音数据的情况下，使再次发声请求部执行再次发声请求，求出对应于该再次发声请求的一次发声的声音数据、与已经存储在存储部中的多次声音数据之间的声音数据间相似度，在声音数据间相似度中的最大值大于第二阈值的情况下，将具有该最大相似度的声音数据判定为能够登记。

根据本发明，求出多次发声的声音数据之间的相似度，在相似度大于第一阈值的情况下，判定声音数据能够登记，使用判定为能够登记的声音数据来生成标准模式，执行再进行一次发声的再次发声请求，输入预定的多次发声的声音，在不存在能够登记的声音数据的情况下，执行再次发声请求，求出对应于该再次发声请求的一次发声的声音数据、与已经存储的多次声音数据之间的声音数据间相似度，在声音数据间相似度中的最大值大于第二阈值的情况下，将具有该最大相似度的声音数据判定为能够登记，因此能够减少由非稳定噪音或声音区间的误检测等引起的误登记，从而提高声音的识别性能，还能通过防止增加不必要的发声次数，提高便利性，减少对存储器的不必要的使用。

附图说明

图1是表示本发明的实施方式1的登记型的声音识别装置的结构的框图。

图2是示出图1中的登记处理部的动作流程的流程图。

图3是表示本发明的实施方式2的登记型的声音识别装置的结构的框图。

图4是示出图3中的登记处理部的动作流程的流程图。

图5是示出图3中的登记处理部的其他动作例的流程图。

图6是示出图3中的登记处理部的其他动作例的流程图。

具体实施方式

下面，为了更详细地说明本发明，参照附图，对用于实施本发明的方式进行说明。

实施方式1.

图1是表示本发明的实施方式1的登记型的声音识别装置的结构的框图。在图1中，实施方式1的声音识别装置1包括登记处理部1、标准模式存储部2、及识别处理部3。登记处理部1是输入由想要将发声登记为标准模式的发声人(以下称为登记发声人)进行的作为登记对象的发声，生成标准模式的单元，包括声音输入部11、登记声音数据存储部(存储部)12、发声稳定性检验部(稳定性检验部)13、及标准模式生成部14。

声音输入部11是受理多次登记发声，生成对应于这些多次登记发声的多个登记声音数据的单元。登记声音数据存储部12是对由声音输入部11生成的登记声音数据进行存储的存储部。发声稳定性检验部13是计算出存储在登记声音数据存储部12中的多个登记声音数据的相似度，若相似度在预定的阈值以上，则判定上述多个登记声音数据能够登记，若在小于该阈值的情况下，则判定为不能登记的单元。标准模式生成部14是使用由发声稳定性检验部13判定为能够登记的登记发声数据来生成标准模式的单元。

标准模式存储部2是对登记处理部1生成的标准模式进行存储的存储部。识别处理部3是使用存储在标准模式存储部2中的标准模式，对由发声人进行的成为声音识别对象的发声(以下，称为识别对象发声)进行声音识别的单元。

此外，声音输入部11、发声稳定性检验部13、标准模式生成部14、及识别处理部3可通过将与本发明要点对应的声音登记/识别用程序读入计算机，并使其CPU加以执行，从而作为硬件和软件协同工作的具体单元，在该计算机上得以实现。另外，登记声音数据存储部12及标准模式存储部2能够构建在上述计算机所具有的存储装置(例如，硬盘装置或外部存储介质等)的存储区域上。

接下来，对动作进行说明。

图2是表示图1中的登记处理部的动作流程的流程图，根据该图详细说明登记处理部1的各构成部的动作。

当根据来自装置外部的操作等开始登记处理时，声音输入部11对存储在登记声音数据存储部12中的登记声音数据进行初始化(删除登记声音数据)(步骤ST1)，将对发声次数N进行计数的计数器(在图1中未图示)的计数值设为0(步骤ST2)。

在该状态下，登记发声人对登记处理部1进行发声(登记发声)。在声音输入部11中，将对发声次数N进行计数的上述计数器的计数值加1(步骤ST3)，依次输入登记发声人所进行的登记发声(步骤ST4)。接着，声音输入部11将所输入的登记发声作为登记声音数据存储到登记声音数据存储部12中(步骤ST5)。

每次在输入登记发声时，声音输入部11对由上述计算器计数而得的发声次数N与规定的阈值M进行比较，判定发声次数N是否在阈值M以上(步骤ST6)。所谓阈值M，是指发出相同内容的发声次数，由2以上的整数值来规定。在发声次数N小于阈值M的情况下(步骤ST6：否)，声音输入部11返回步骤ST3的处理，并重复步骤ST3～步骤ST5的处理，直至发声次数N为阈值M以上。

另一方面，若发声次数N在阈值M以上(步骤ST6：是)，则发声稳定性检验部13计算出存储在登记声音数据存储部12中的登记声音数据的相似度(步骤ST7)。在计算多个登记声音数据的相似度时，例如有以下方法。

(1)计算方法1

在登记声音数据存储部12中存储有表示M次发声次数为相同内容的登记声音数据的情况下，发声稳定性检验部13求出M次发声次数的登记声音数据中所有两次发声的组合。接着，发声稳定性检验部13提取出两次发声的两个登记声音数据的特征量，通过使用该特征量的动态规划算法，来计算这两次发声之间的登记声音数据的相似度。从所有两次发声的组合求出该相似度，将所获得的相似度的平均值设为M次发声次数的登记声音数据的相似度。

(2)计算方法2

在计算方法1中，用所有两次发声的组合的相似度中最小的相似度(最不相似的发声之间的相似度)代替相似度的平均值，来作为M次发声次数的登记声音数据的相似度。

(3)计算方法3

在计算两次发声的组合中的登记声音数据之间的相似度时，发声稳定性检验部13、标准模式生成部14、及识别处理部13相互协调，将上述组合中的一次发声作为暂时的标准模式进行登记，将另一次发声作为输入而进行声音识别，将作为识别结果而获得的分数(匹配度)用作为两次发声之间的登记声音数据的相似度。从所有两次发声的组合求出该相似度，将所获得的相似度的平均值或最小相似度设为M次发声次数的登记声音数据的相似度。

接着，发声稳定性检验部13对由步骤ST7计算出的M次以上发声次数的登记声音数据的相似度是否为规定的阈值T1(第一阈值)以上进行判定(步骤ST8)。此处，若相似度小于阈值T1(步骤ST8：否)，则发声稳定性检验部13判断为所输入的发声欠缺稳定性，对存储在登记声音数据存储部12中的登记声音数据不生成标准模式，即作为登记失败而结束登记判定。

若相似度为阈值T1以上(步骤ST8：是)，则发声稳定性检验部13将该情况通知给标准模式生成部14。若接收到该通知，则标准模式生成部14基于存储在登记声音数据存储部12中的登记声音数据来生成标准模式，并登记到标准模式存储部2中(步骤ST9，登记处理)。

作为标准模式，例如对于登记声音数据(输入发声声音)，每隔单位时间就提取出声音的特征量，列出这些特征量的时间序列数据(特征向量时间序列)。另外，也可预先对声音的声音片段(音节、音素等)分别生成表示各声音片段的特征的模型，将声音片段的模型的时间序列(标签序列)作为标准模型进行登记。

在步骤ST9中，标准模式生成部14基于存储在登记声音数据存储部12中的登记声音数据中的K(K为1以上且M以下的整数)个登记声音数据，分别生成标准模式，将上述K个标准模式登记到标准模式存储部2。作为选择K个登记声音数据的选择方法，可列举出例如：按照由发声稳定性检验部13计算出的各组合的相似度由大到小的顺序，选择K个登记声音数据的方法；求出重心作为登记声音数据的特征量，按照距离重心由近到远的顺序选择K个登记声音数据的方法。

此外，也可对K个登记声音数据分别提取出声音的特征量，生成具有这些特征量的平均特征量的登记用数据，来作为标准模式进行登记，以代替生成K个标准模式。

如上所述，根据本实施方式1，包括：声音输入部11，该声音输入部11输入多次发声的声音；登记声音数据存储部12，该登记声音数据存储部12对声音输入部11输入的多次发声的声音数据进行存储；发声稳定性检验部13，该发声稳定性检验部13求出从登记声音数据存储部12读取的多次发声的声音数据之间的相似度，在相似度大于阈值T1的情况下，判定声音数据能够登记；以及标准模式生成部14，该标准模式生成部14使用由发声稳定性检验部13判定为能够登记的声音数据来生成标准模式。根据上述结构，输入多次登记发声，仅在该发声之间的相似度为规定的阈值以上的情况下进行登记处理，仅在多次输入的发声相近(相似)的情况下进行登记。因而，仅在相同内容的多次发声相近的情况下，即仅在所输入的发声稳定的情况下，完成登记，因此，能够减少由非稳定噪音或声音区间的误检测等所引起的误登记，能够提高声音识别的性能(识别率)。

另外，根据本实施方式1，在登记时基于多次发声生成标准模式，因此，能够生成与发声的变化相对应的标准模式，并能够用其提高声音识别的性能。

实施方式2.

图3是表示本发明的实施方式2的登记型的声音识别装置的结构的框图。在图3中，实施方式2的声音识别装置包括登记处理部1A、标准模式存储部2、及识别处理部3。登记处理部1A包括声音输入部11、登记声音数据存储部12、发声稳定性检验部13a、标准模式生成部14、及再次发声请求部15。

发声稳定性检验部13a是算出存储在登记声音数据存储部12中的多个登记声音数据中以相同内容发声的规定次数(M次发声)的登记声音数据的各组合的相似度，求出相似度最大的M次发声的组合及其相似度，若相似度为预定的阈值以上，则判定为能够登记，若在小于该阈值的情况下，则判定为不能登记的单元。再次发声请求部15是在发声稳定性检验部13a判定为不能登记的情况下，向登记发声人进行再次发声请求的单元。此外，除了发声稳定性检验部13a及再次发声请求部15以外的结构要素，都与上述实施方式1相同，因此省略说明。

接下来，对动作进行说明。

图4是表示图3中的登记处理部的动作流程的流程图，根据该图详细说明登记处理部1A的各构成部的动作。在图4中，步骤ST1～步骤ST6的处理都与上述实施方式1的图2所示的内容相同，因此，省略说明。

若发声次数N为阈值M以上(步骤ST6：是)，则发声稳定性检验部13a分别算出存储在登记声音数据存储部12中的登记声音数据中以相同内容发声的M次发声的登记声音数据的各组合的相似度，求出相似度最大的M次发声的组合及其相似度(步骤ST7a)。此外，对多次发声(M次发声)的登记声音数据的组合的相似度的计算，与上述实施方式1相同。

当求出相似度最大的M次发声的组合及其相似度时，发声稳定性检验部13a判定所求出的最大相似度是否为预先设定的阈值T1以上(步骤ST8)。若最大相似度为阈值T1以上(步骤ST8：是)，则发声稳定性检验部13a将该情况通知给标准模式生成部14。若接收到该通知，则标准模式生成部14基于该M次发声的登记声音数据生成标准模式，并登记到标准模式存储部2(步骤ST9，登记处理)。

另一方面，若最大相似度小于阈值T1(步骤ST8：否)，则发声稳定性检验部13a将该情况通知给再次发声请求部15。若接收到该通知，则再次发声请求部15使用未图示的显示装置或扬声器等进行文字显示或声音输出，从而向登记发声人请求再进行一次发声(步骤ST8-1)。

在该状态下，若登记发声人发声一次，则声音输入部11将用于对发声次数N进行计数的计数器的计数值加1(步骤ST3)，并反复执行步骤ST4～步骤ST8的处理，直至最大相似度为阈值T1以上(步骤ST8：是)。

在这种情况下，由于不包括再次发声的那一次发声在内的M次发声的登记声音数据的组合的相似度已经算出，因此，只需算出包括因再次发声而新增的一次发声在内的M次发声的登记声音数据的组合的相似度即可。例如，求出对新增的一次发声的声音数据、与已登记在登记声音数据存储部12中的M-1次的声音数据进行组合而获得的M次发声的声音数据之间的相似度，确定相似度最大的发声组合，在该最大相似度为阈值以上的情况下，登记该组合的声音数据。

如上所述，根据本实施方式2，包括请求再进行一次发声的再次发声请求部15，声音输入部11输入预定的多次发声的声音，发声稳定性检验部13a在从登记声音数据存储部12中读出的预定的多次声音数据中不存在能够登记的声音数据的情况下，使再次发声请求部15执行再次发声请求，求出对应于该再次发声请求的一次发声的声音数据、与已经存储在登记声音数据存储部12中的多次声音数据之间的声音数据间相似度，在声音数据间相似度中的最大值大于阈值T1的情况下，将具有该最大相似度的声音数据判定为能够登记。通过采用上述结构，能够获得与实施方式1相同的效果，与登记失败时再进行M次登记发声的情况相比，能够减少登记所需要的发声次数，能够减轻登记发声人的负担。

另外，在上述实施方式2中，如图5所示，也可增加步骤ST10，该步骤ST10是在最大相似度小于阈值T1的情况下(步骤ST8：否)，声音输入部11对由上述计数器所计数的发声次数N(N为M以上的状态)、与示出发声次数上限的规定的阈值Tn进行比较，对发声次数N是否为阈值Tn以上进行判定。

此处，若发声次数N小于阈值Tn(步骤ST10：否)，则声音输入部11通过发声稳定性检验部13a将该情况通知给再次发声请求部15。若再次发声请求部15接收到上述情况，则向登记发声人请求再进行一次发声(步骤ST10-1)。

另外，若发声次数N为阈值Tn以上(步骤ST10：是)，则发声稳定性检验部13a判断为登记失败。由此，在发声次数N为阈值Tn以上时，无需再输入登记发声，而是以登记失败而结束登记判定。

而且，在上述实施方式2中，如图6所示，还可增加步骤ST11，该步骤ST11是在发声次数N小于阈值Tn的情况下(步骤ST10：否)，发声稳定性检验部13a从存储在登记声音数据存储部12中的登记声音数据中选择最新的L(L为M以上的整数值)次发声的登记声音数据，而删除剩余的登记声音数据。在步骤ST11的处理结束时，再次发声请求部15向登记发声人请求再进行一次发声(步骤ST11-1)。使用组合了由此新获得的一次发声的声音数据、和已存储在登记声音数据存储部12中的K(K为M-1以上)次发声的登记声音数据而获得的K＋1(＝L)次发声的声音数据，来进行相似度的确认和登记处理。

另外，作为保留L次发声的登记声音数据的基准，也可选择能够获得最大相似度的登记声音数据的组合。最大相似度的计算方法与计算M次发声的登记声音数据的组合的相似度的步骤ST7a相同。

此外，在L=M的情况下，L次发声的登记声音数据的组合是由步骤ST7a求出的相似度最大的M次发声的登记声音数据的组合。

如上所述，在登记发声不满足登记条件的情况下，并不是登记失败，而通过逐次增加发声来输入登记发声，从而与在每次登记失败时都重新进行M次发声的情况相比，能够减少输入发声次数，因此，能够获得一种对于登记发声人而言便利性高的登记型的声音识别装置。

另外，通过对登记失败时的再次发声的输入次数设定上限(阈值Tn)，从而能够消除即使持续进行登记发声也无法进行登记的状态。而这作为登记失败的原因，很有可能导致登记(发声)环境很差。因此，在发声次数为阈值Tn以上的情况下，以登记失败而结束，能够发出通知改变登记的发声环境等指导，是易于用户使用的系统。

而且，通过设定记录登记声音数据的数量的上限(L次发声)，能够节约登记声音数据存储部12的存储区域，还能减少运算最大相似度时所需的运算量。

工业上的实用性

本发明的声音识别装置能够减少因非稳定噪音或声音区间的误检测等引起的误登记，能够提高声音的识别性能，还通过防止增加不必要的发声次数，从而提高便利性，减少对存储器的不必要的使用，因此适用于声音登记型的声音识别装置等。

Claims

1.一种声音识别装置，使用标准模式来对识别对象的发声进行声音识别，其特征在于，包括：

声音输入部，该声音输入部输入发声次数在规定数量以上的多次发声的声音；

存储部，该存储部对所述声音输入部输入的所述多次发声的声音数据进行存储；

稳定性检验部，该稳定性检验部求出从所述存储部读取的所述多次发声的声音数据之间的相似度，在所述相似度大于第一阈值的情况下，判定所述声音数据能够登记；

标准模式生成部，该标准模式生成部使用由所述稳定性检验部判定为能够登记的所述声音数据来生成所述标准模式；以及

再次发声请求部，该再次发声请求部执行再进行一次发声的再次发声请求，

所述稳定性检验部在从所述存储部读出的所述预定的多次声音数据中不存在能够登记的声音数据的情况下，使所述再次发声请求部执行再次发声请求，求出对应于该再次发声请求的一次发声的声音数据、与已经存储在所述存储部中的所述多次声音数据之间的声音数据间相似度，在所述声音数据间相似度中的最大值大于第二阈值的情况下，将具有该最大相似度的声音数据判定为能够登记。

2.如权利要求1所述的声音识别装置，其特征在于，

稳定性检验部在从存储部中读出的多次声音数据中不存在能够登记的声音数据，且声音输入部输入的声音的发声次数达到第三阈值时，以发声声音的登记失败而结束登记判定，来代替使再次发声请求部执行再次发声请求。

3.如权利要求1所述的声音识别装置，其特征在于，

稳定性检验部在从存储部中读出的多次声音数据中不存在能够登记的声音数据的情况下，删除所述存储部中的声音数据但保留所述规定数量以上的声音数据，求出对应于再次发声请求的一次发声的声音数据、与保留在所述存储部中的所述规定数量的声音数据之间的声音数据间相似度，在所述声音数据间相似度中的最大值大于第二阈值的情况下，将具有该最大相似度的声音数据判定为能够登记。

4.如权利要求3所述的声音识别装置，其特征在于，

稳定性检验部基于已经存储在存储部中的多次声音数据、与新输入的一次发声的声音数据中声音数据之间的相似度为最大的声音数据的组合，来确定规定数量的声音数据，并将其保留在所述存储部中。