CN101111885A

CN101111885A - 使用抽出的声音数据生成应答声音的声音识别系统

Info

Publication number: CN101111885A
Application number: CNA2006800036948A
Authority: CN
Inventors: 鲸井俊宏; 友田孝久; 富樫实; 大野健
Original assignee: CHANAWEI INFORMATION Co Ltd
Current assignee: CHANAWEI INFORMATION Co Ltd
Priority date: 2005-02-04
Filing date: 2006-02-03
Publication date: 2008-01-23
Also published as: US20080154591A1; DE112006000322T5; JPWO2006083020A1; WO2006083020A1

Abstract

提供使用声音识别技术、进行基于通过用户的声音输入的应答的声音识别系统、声音识别装置以及声音生成程序。本发明是根据用户发出的声音的输入进行应答的声音识别系统，具有：把用户发出的声音变换为声音数据的声音输入部；识别构成声音数据的单词的组合、计算每一单词的识别的可信度的声音识别部；生成应答声音的应答生成部；和使用应答声音向用户传达信息的声音输出部；应答生成部，对于计算出来的可信度满足规定条件的单词，生成该单词的合成声音，而对于计算出来的可信度不满足规定条件的单词，从声音数据抽出与该单词对应的部分，通过合成声音和/或抽出的声音数据的组合生成应答声音。

Description

使用抽出的声音数据生成应答声音的声音识别系统

技术领域

本发明涉及使用声音识别技术进行基于通过用户的声音的输入的应答的声音识别系统、声音识别装置以及声音生成程序。

背景技术

现在的声音识别技术，学习关于由大量的声音数据构成发音的单位标准模式的音响模型，与作为识别对象的词汇组的辞典对照，连接单位标准模式的音响模型，由此，制作对照用的模式。

该单位标准模式，使用使用音节的方法、或者元音的恒定部、辅音的恒定部、进而由它们的转移状态组成的音素片等。另外，作为其表现方法，使用HMM(Hidden Markov Models(隐式马尔科夫模型))技术。

这样的方式，换言之，是由大量的数据制成的标准模式和输入信号的模式匹配技术。

另外，例如在把“放大音量”“减小音量”这样的两个句子作为识别对象的场合，公知把各个句子全体作为识别对象的方法、和将构成句子的部分在辞典上作为词汇登记，把词汇的组合作为识别对象的方法。

另外，声音识别的结果，用在画面上显示识别结果字符串的方法、使用声音合成把识别结果字符串变换为合成声音再生的方法、或者根据识别结果再生预先录音的声音的方法等通知用户。

另外，还公知这样的方法：不是单纯地通知声音识别的结果，而是用在识别结果的单词或者句子后包含敦促“可以吗？”这样的确认的句子的文字显示或者合成声音，进行和用户的对话。

另外，现在的声音识别技术，一般是从作为识别对象词汇登记的词汇中选择最类似用户的发音的词汇作为识别结果，同时输出该识别结果的可靠性尺度的可信度。

作为计算识别结果的可信度的方法，例如在特开平4-255900号公报中，公开了用比较对照部2计算输入声音的特征矢量V和预先登记的多个标准模式的类似度的技术。此时，把给出类似度最大值S的标准模式作为识别结果求出。并行地，用参照类似度计算部4比较对照特征矢量V和结合单位标准模式存储部3的单位标准模式的标准模式。这里，把类似度的最大值作为参照类似度R输出。接着在类似度修正部5中，有使用参照类似度R修正类似度S的声音识别装置。通过该类似度能够算出可信度。

作为可信度的利用方法，公知在识别结果的可信度低的场合，向用户通知不能正常识别的方法。

另外，在特开平6-110650号公报中，公开了这样的方法：在人名等关键词的数目多、登记全部关键词模式困难的场合，通过登记不能成为关键词的模式，抽出关键词部分，组合录音了用户发音的声音的语音中的关键词部分和系统预先准备的声音，生成应答声音。

发明内容

如上所述，在基于辞典和模式匹配技术的现在的声音识别系统中，不能完全防止将用户的发音弄错为辞典中的其他的词汇的误识别的发生。另外，在把词汇的组合作为识别对象的方式中，因为也需要包含用户发音的哪个部分和哪个词汇对应进行正确识别，所以由于对于一个词汇与弄错的部分对应来进行了识别，由于对应的偏离的波及有时其他的单词也会产生误识别。另外，在发音未在辞典上登记的词汇的场合，原理上不能正确进行识别。

为有效利用这样的不完全的识别技术，需要向用户正确地传达能够正确识别用户发音的哪个部分、不能够正确识别哪个部分。但是，现有技术向用户用画面或者声音通知识别结果字符串的方法、或者在可信度低的场合仅向用户通知不能正常进行识别，不能充分满足该要求。

本发明是鉴于上述问题提出的，其特征在于，根据构成声音识别结果的各词汇的可信度，可信度高的词汇使用合成声音，可信度低的词汇使用与该词汇对应的用户发音的片断，生成向用户通知的反馈声音。

本发明是根据用户发出的声音的输入进行应答的声音识别系统，其特征在于，具有：把用户发出的声音变换为声音数据的声音输入部；识别构成声音数据的单词的组合、计算每一单词的识别的可信度的声音识别部；生成应答声音的应答生成部；和使用应答声音向用户传达信息的声音输出部；应答生成部，对于计算出来的可信度满足规定条件的单词，生成该单词的合成声音，对于计算出来的可信度不满足规定条件的单词，从声音数据抽出与该单词对应的部分，通过合成声音和/或抽出的声音数据的组合生成应答声音。

能够提供一种声音识别系统，其直觉上可理解用户发言的哪个部分能够识别、哪个部分不能够识别。另外，能够提供一种声音识别系统，其在声音识别系统进行错误地确认的场合，因为通知用户的片断的用户自身的发音，在发音的中途被切断等、直觉上认为不正常的形态下被再生，所以能够理解未正常进行声音识别。

附图说明

图1是本发明的实施形态的声音识别系统的结构框图。

图2是表示本发明的实施形态的应答生成部的动作的流程图。

图3是本发明的实施形态的应答声音的一例。

图4是本发明的实施形态的应答声音的多例。

具体实施方式

下面参照附图说明本发明的实施形态的声音识别系统。

图1是本发明的实施形态的声音识别系统的结构框图。

本发明的声音识别系统，由声音输入部101、声音识别部102、应答生成部103、声音输出部104、音响模型存储部105、辞典·识别语法存储部106构成。

声音输入部101，接收用户发出的声音，变换为数字信号形式的声音数据。声音输入部101，例如由麦克风和A/D变换器构成，把通过麦克风输入的声音信号通过A/D变换器变换为数字信号。变换后的数字信号(声音数据)向声音识别部102或者应答生成部103传送。

音响模型存储部105，作为数据库存储音响模型。音响模型存储部105，例如由硬盘或者ROM构成。

所谓音响模型，是用统计模型表现用户的发音作为什么样的声音数据得到的数据。该音响模型，模型化为音节(例如“あ”、“い”等的每个单位)。模型化的单位，除音节单位外，也可以使用音素片单位。所谓音素片单位，是把元音、辅音、静音作为恒定部、把从元音到辅音、从辅音到元音那样在不同的恒定部之间移动的部分作为转移部模型化了的数据。例如，“あき”这样的单词，被分割为“静音”“静音a”“a”“ak”“k”“ki”“i”“i静音”“静音”。另外，作为统计模型化的方法，可以使用HMM等。

辞典·识别语法存储部106，存储辞典数据以及识别语法数据。辞典·识别语法存储部106例如通过硬盘或者ROM等构成。

该辞典数据以及识别语法数据是关于多个单词以及句子的组合的信息。具体说，是为将上述音响模型化了的单位做成为有效的单词或者句子指定怎样进行组合的数据。辞典数据是指定像上述例子的“あき”那样的音节的组合的数据。识别语法数据是指定系统接受的单词的组合的集合的数据。例如，为系统接受“東京駅へ行く(去东京站)”这样的发音，需要在识别语法数据中包含“東京駅”“へ”“行く”这样的3个单词的组合。另外，事先给识别语法数据赋予各单词的分类信息。例如，可以把“東京駅”这样的单词进行为“场所”这样的分类，把“行く”这样的单词进行“命令”这样的分类。另外，给“へ”这样的单词赋予“非关键词”这样的分类。“非关键词”这样分类的单词赋予即使该单词被识别也不影响系统动作的单词。反之，通过识别“非关键词”以外的分类的单词，就成为给与系统某种影响的关键词。例如，在识别了分类为“命令”的单词的场合，进行与所识别的单词相当的功能的调用，作为“场所”被识别的单词可以作为调用功能时的参数使用。

声音识别部102，根据通过声音输入部变换后的声音数据取得识别结果，计算类似度。声音识别部102，根据声音数据，使用辞典·识别语法存储部106的辞典数据或者识别语法数据、和音响模型存储部105的音响模型，取得音响模型的组合指定的单词或者句子。计算该取得的单词或者句子和该声音数据的类似度。然后，输出类似度高的单词或者句子的识别结果。

此外，在句子中包含构成该句子的多个单词。于是，给构成识别结果的各个单词赋予可信度。合并成识别结果输出。

该类似度可以通过在特开平4-255900号公报中记载的方法计算。另外，在计算类似度时，可以使用Viterbi算法来求构成识别结果的各个单词和声音数据的哪一部分对应时类似度成为最高。使用这点，把表示各个单词对应的声音数据的部分的区间信息与识别结果合并输出。具体说，输出就其在每一规定区间(例如10ms)输入的声音数据(称为帧)和构成单词的音素片的对应而言能够使类似度最高时的信息。

应答生成部103，根据从声音识别部102输出的赋予了可信度的识别结果生成应答声音数据。该应答生成部103的处理后述。

声音输出部104，把应答生成部103生成的数字信号形式的应答声音数据变换为人可听到的声音。声音输出部104例如用D/A变换器和扬声器构成。输入的声音数据通过D/A变换器变换为模拟信号，变换后的模拟信号(声音信号)通过扬声器向用户输出。

下面说明应答生成部103的动作。

图2是表示应答生成部103的处理的流程图。

当从声音识别部102输出赋予了可信度的识别结果时，执行该处理。

首先，选择在输入的识别结果中包含的关于最初的关键词的信息(S1001)。识别结果，因为成为根据区间信息区分开来的原来的声音数据的时序顺序的单词单位，所以首先选择时序开头的关键词。分类为非关键词的单词，因为也是对应答声音无影响的单词，所以忽略。另外，在识别结果中，因为给每一单词赋予可信度以及区间信息，所以选择赋予该单词的可信度以及区间信息。

接着，判定所选择的关键词的可信度是否在规定的阈值以上(S1002)。在判定可信度在阈值以上的场合，转移到步骤S1004，在判定不到阈值的场合，转移到步骤S1003。

在判定所选择的关键词的可信度在规定的阈值以上的场合，通过辞典数据或者识别语法数据指定的音响模型的组合不差于输入的声音数据的发音，是充分识别了该关键词的情况。在这一场合，合成识别结果的关键词的合成声音，变换为声音数据(S1003)。这里，用本步骤进行实际的声音合成处理，但是也可以用步骤S1008的应答声音生成处理汇总成系统准备的应答句子来进行声音合成处理。不管哪种方法，都通过使用相同的声音合成引擎，以高可信度识别的关键词，能够以和系统准备的应答句子相同的音质没有不谐调感地进行合成。

另一方面，在判定所选择的关键词的可信度比规定的阈值低的场合，通过辞典数据或者识别语法数据指定的音响模型数据的组合和输入的声音数据的发音相差甚远，是不能充分识别该关键词的场合。在该场合，不生成合成声音，把用户的发音原样不变作为声音数据。具体说，使用赋予识别结果的单词的区间信息，抽出与声音数据的单词对应的部分。把该抽出的声音数据作为输出的声音数据(S1004)。由此，可信度低的部分，因为成为和系统准备的应答句子、或者可信度高的部分不同的音质，所以用户能够容易地理解哪一部分是可信度低的部分。

通过步骤S1003以及步骤S1004，可以得到与识别结果的关键词对应的声音数据。然后，把该声音数据作为与识别结果的单词关联的数据保存(S1005)。

接着，判定在输入的识别结果中是否有下一关键词(S1006)。因为识别结果成为原来的声音数据的时序顺序，所以判定是否有通过步骤S1002到步骤S1005的处理的下一顺序的关键词。在判定为有下一关键词的场合，选择该关键词(S1007)。然后执行上述步骤S1002到步骤S1006的处理。

另一方面，在判定不再有下一关键词的场合，对于在识别结果中包含的所有的关键词，结束对应的声音数据的赋予。因此，使用赋予该声音数据的识别结果，执行应答声音生成处理(S1008)。

该应答声音生成处理，使用与在识别结果中包含的全部关键词对应的声音数据，生成为向用户通知的应答声音数据。

在应答声音生成处理中，例如，或者组合与关键词对应的声音数据，或者和另外准备的声音数据组合，生成向用户表示声音识别的结果或者不能良好进行声音识别的地方(可信度不到规定的阈值的关键词)的应答声音。

声音数据的组合方法，因为根据系统和用户进行怎样的对话、是什么样的状况而变化，所以需要对应状况使用为变更声音数据的组合的程序或者对话场景。

在本实施例中，使用下面的例子说明声音应答生成处理。

(1)用户的发音是“琦玉の大宫公園(琦玉的大宫公园)”。

(2)构成识别结果的单词是“琦玉”“の”“大宫公園”三个，关键词是“琦玉”“大宫公園”两个。

(3)比规定的阈值可信度高的单词仅是“琦玉”。

首先说明第一方法。第一方法是对于用户表示用户发出的声音的识别结果的方法。具体说，生成联系与识别结果的关键词对应的声音数据和“の”或者“でいいですか？(可以吗？)”这样的系统准备的确认的话语的声音数据的应答声音数据(参照图3)。

在第一方法中，通过用声音合成制成的声音数据“琦玉”(图3中用下划线表示)、从用户的发音的声音数据中抽出的声音数据“おおみやこ(大宫)”(在图3中用斜体表示)、以及用声音合成制成的声音数据“の”“でいいですか？”(图3中用下划线表示)的组合制作应答声音，向用户应答。亦即，把可信度比规定的阈值小的、有误识别的可能性的“おおみやこ”的部分，以用户发出的声音原样不变应答。

通过这样做，例如声音识别部102，即使在把“大宫公園”误识别为“大和田公園”的场合，用户作为应答声音会听到自己发出的“大宫公園”这样的声音。因此，在识别结果中，能够确认通过声音合成生成的单词，亦即可信度在规定的阈值以上的单词(“琦玉”)的识别结果是否正确，而且，能够确认可信度比规定的阈值小的单词(“大宫公園”)是否已由系统正确录音。例如，在未正确录音用户发音的后面的部分的场合，用户就听到“琦玉”“の”“おおみやこ”“でいいですか？”那样的询问。因此，用户能够理解是否正确判断系统判断的各单词的区间信息后进行了录音，可以尝试再输入。

该方法例如适合于用声音识别系统进行按县汇总关于喜欢的公园的口头的民意调查的作业的场合。在这种场合，声音识别系统，能够根据声音识别结果自动汇总按不同县的件数。另外，识别结果的可信度低的“大宫公園”的部分，通过后来使用操作员听后输入等的方法来应对。

因此，在第一方法中，用户能够确认用户的声音被正确识别的部分，而且不能被正确识别的声音，用户能够确认在系统中已被正确地录音了。

下面说明第二方法。第二方法是在怀疑识别结果的场合对于用户仅询问那一部分的方法。具体说，是在识别结果的可信度低的“大宫公園”上组合“の部分がうまく闻き取れませんでした(的部分未清楚地听到)”这样的确认的话语声音数据的方法(参照图4)。

在该第二方法中，通过从用户发音的声音数据中抽出的声音数据“大宫公園”(图4中用斜体表示)、以及用声音合成制作的声音数据“の部分がうまく闻き取れませんでした”(图4中用下划线表示)的组合制作应答声音，向用户应答。亦即，对可信度比规定的阈值小的、有误识别的可能性的“大宫公園”的部分，用用户发出的声音原样不变应答。并且，对用户应答该声音的未很好的进行识别。此后，向用户应答再次输入声音等的指示。

此外，“大宫公園”的部分的识别结果作为“大宫”、“公園”两个单词被识别，进而在仅“公園”的部分的可信度在规定的阈值以上的场合，有下面那样的应答方法。亦即，如上述，在应答成用户发音的声音数据“大宫公園”以及声音合成的声音数据“が分かりません(不明白)”后，通过生成“どちらの公園ですか(哪个公园)？”“天沼公園のように发声して下きい(请像天沼公园那样发音)”等的声音进行应答，催促用户再发音。此外，在后者的场合，因为当把识别结果的可信度低的单词“大宫公園”作为例子用于应答时有给用户造成混乱的可能性，所以希望避免。

因此，在第二方法中，能够向用户明确地传达：用户发音中的哪个部分能被识别、哪个部分不能被识别。另外，在用户发音成“琦玉の大宫公園”时，在“大宫公園”的部分由于周围的杂音变大而可信度降低的场合，因为在应答声音的“大宫公園”的部分周围的杂音也变大，所以用户容易理解周围杂音是不能识别的原因。在这种场合，用户通过或者在周围杂音小的时刻尝试发音，或者向周围杂音低的场所移动，在乘车的场合或者停车，可以想方设法降低周围杂音的影响。

另外，在“大宫公園”的部分的发音过小、不能接收声音数据的场合，与用户听到的应答声音的“大宫公園”对应的部分成为无声，容易理解：系统不能接收“大宫公園”的部分。在这一场合，用户通过或者尝试用大的声音发音，或者把嘴靠近麦克风发音，能够设法确实接收声音。

进而，在识别结果的单词像“琦玉”“の大”“宫公園”那样误分割单词的场合，因为用户听到的应答声音成为“宫公園”，用户容易理解为：系统对应失败了。用户，即使在声音识别的结果错误的场合，因为在弄错为非常相似的单词出的场合，即使在人们彼此的会话中也有可能出现，所以可能允许误识别，但是在误识别为完全不同的发音的单词的场合，对于声音识别系统，就有可能会产生大的不信任感。

如上述，通过让用户知道对应的失败，用户就能够推定误识别的理由，可以期待得到某种程度的理解。

另外，在上述的例子中，至少“琦玉”的部分的单词可信度在规定值以上，能够正确地识别。因此，把声音识别部102使用的辞典·识别语法存储部106的数据限定为关于琦玉县的公园的内容。通过这样做，在下次的声音输入(例如下次用户的发音)中，“大宫公園”的部分的识别率会提高。

作为使用用户的发音的声音数据中、可信度高的被识别的部分，来提高多个部分的识别率的方法，有以下说明的方法。

具体说，在不仅公园的名字，而且关于所有的设施的民意调查中，当对应用户发音的“xx县的yy”这样的发音时，该组合的数目庞大，声音识别的识别率降低。进而，系统的处理量或者需要的存储器量是不实用的。因此，最初，不正确识别“yy”的部分，而识别“xx”的部分。然后，使用被识别的“xx县”，使用该xx县限定的辞典数据以及识别语法数据，识别“yy”的部分。

当使用“xx县”限定的辞典数据以及识别语法数据时，“yy”的部分的识别率提高。在这一场合，在用户发音的声音数据的全部单词被正确识别、可信度在规定的阈值以上的场合，成为全部通过声音合成的应答声音。因此，用户能够感觉到系统关于所有县的所有设施能够识别“xx县的yy”这样的发音。

另一方面，在使用“xx县”限定的辞典数据以及识别语法数据的“yy”的部分的识别结果的可信度比阈值低的场合，如上述，通过抽出用户发音的声音数据生成“yy”“の部分が上手く闻き取れませんでした(的部分未清楚地听到)”等的应答声音，能够催促用户再发音。

作为仅识别该“xx”的部分的方法，有让辞典·识别语法存储部106的辞典数据的一个具有表现所有音节的组合的记述(无用信息)的方法。亦即，作为识别语法数据的组合使用<都道府县名><の><ガベツジ>这样的组合。ガベツジ的部分，假定代替未在辞典中登记的各设施的名字。

另外，在构成在日本存在的设施名的音节的组合中有某种特征。例如，“えき”这样的组合，比“れひゆ”这样的组合出现频度高。利用这点，从设施名的统计求邻接的音节的出现频度，通过提高出现频度高的音节的组合的类似度，能够提高作为设施名的替代的精度。

如上说明，本发明的实施形态的声音识别系统，能够生成用户直觉上可理解能够识别由用户输入的声音的哪个部分、不能够识别哪个部分的应答声音，向用户应答。另外，因为未被正确进行声音识别的部分，包含通知用户的用户自身片断的发音，所以在发音中途被切断等，直觉上认为不正常的形态下被再生，所以就能够理解未正常进行声音识别的情况。

Claims

1.一种声音识别系统，其根据用户发出的声音的输入进行应答，其特征在于，

具有：

把用户发出的声音变换为声音数据的声音输入部；

识别构成所述声音数据的单词的组合，计算每一单词的识别的可信度的声音识别部；

生成应答声音的应答生成部；和

使用所述应答声音向用户传达信息的声音输出部；

所述应答生成部，

对于计算出来的可信度满足规定条件的单词，生成该单词的合成声音，

对于计算出来的可信度不满足规定条件的单词，从所述声音数据抽出与该单词对应的部分，

通过所述合成声音和/或所述抽出的声音数据的组合生成所述应答声音。

2.根据权利要求1所述的声音识别系统，其特征在于，

所述应答生成部，进一步生成催促用户发出的声音的确认的合成声音，生成在所述声音数据的组合上附加了所述生成的合成声音的所述应答声音。

3.根据权利要求1所述的声音识别系统，其特征在于，

所述应答生成部，

生成催促该单词的确认的合成声音，

在所述抽出的声音数据上附加该应答声音，生成所述应答声音。

4.根据权利要求1到3中任何一项所述的声音识别系统，其特征在于，

具有：保存为识别声音数据的辞典数据以及识别语法数据的辞典识别语法保存部，

所述声音识别部，优先识别构成所述声音数据的单词中的至少一个，

其后，从所述辞典识别语法保存部中，取得关于该单词的辞典数据以及识别语法数据，

使用所述取得的辞典数据以及识别语法数据，识别其他的单词。

5.一种声音识别装置，其生成基于声音的输入的应答声音，其特征在于，

具有：

把用户发出的声音变换为声音数据的声音输入部；

识别构成所述声音数据的单词的组合，计算每一单词的识别的可信度的声音识别部；和

生成应答声音的应答生成部；

所述应答生成部，

6.一种声音生成程序，其具有：把用户发出的声音变换为声音数据的声音输入部；识别构成所述声音数据的单词的组合，计算每一单词的识别的可信度的声音识别部；生成应答声音的应答生成部；和使用所述应答声音向用户传达信息的声音输出部；根据用户发出的声音的输入进行应答，其特征在于，包含下述步骤：

计算出来的可信度满足规定条件的单词，生成该单词的合成声音的第一步骤；

计算出来的可信度不满足规定条件的单词，从所述声音数据抽出与该单词对应的部分的第二步骤；和

通过所述合成声音和/或所述抽出的声音数据的组合生成所述应答声音的第三步骤。