JP3695168B2

JP3695168B2 - 音声認識装置、音声入力ゲイン設定方法及び入力ゲイン設定処理プログラムを記録した記憶媒体

Info

Publication number: JP3695168B2
Application number: JP25442198A
Authority: JP
Inventors: 康永宮沢; 満広稲積; 浩長谷川; 昌久池尻
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1998-09-08
Filing date: 1998-09-08
Publication date: 2005-09-14
Anticipated expiration: 2018-09-08
Also published as: JP2000089798A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置、音声入力ゲイン設定方法及び入力ゲイン設定処理プログラムを記録した記憶媒体に関する。
【０００２】
【従来の技術】
近年、音声認識技術を利用した電子機器が様々な分野で用いられ、その一つとして、音声時計と呼ばれる時計がある。この音声時計は、音声によって現在時刻の設定やアラーム時刻の設定が可能であり、また、装置側からは現在時刻を音声によって知らせることができるようになっている。
【０００３】
このような音声時計は、実用品としてだけではなく、子供向けの玩具として用いられることも多く、装置自体のコストをできるだけ低く押さえることが望まれる。このため、使用するＣＰＵの処理能力やメモリの容量などには大きな制約があり、その制約のもとで如何に高性能な機能を持たせるかが重要な課題の一つとなっている。
【０００４】
このような音声時計にあって、現在時刻やアラーム時刻などの時刻設定は話者の発話する音声によって行うことができるとともに、簡単な会話ができるようになっているものがある。たとえば、現在時刻として、午前１時２０分を設定しようとする際、「午前」、「１時」、「２０分」と発話することにより、それを認識させ、その認識結果に基づいた時刻設定を行う。また、簡単な会話としては、話者が「おはよう」と問いかけると、装置側からはそれに対応した何らかの応答が音声によって発せられる。
【０００５】
【発明が解決しようとする課題】
しかし、このように様々な音声の認識が可能な装置にあっては、認識可能な音声の中で、音声の特徴量が複数の単語間で相互に類似していて、誤認識されやすい単語が存在する。たとえば、時刻情報を例にとれば、「１時」と「７時」などは誤認識されやすい例の１つである。しかも、これらの単語は、装置が音声時計であることを考えれば、現在時刻やアラーム時刻の設定上、正しく認識されることが要求される。
【０００６】
したがって、このような誤認識される可能性のある音声が入力される場面にあっては、その音声の入力の仕方も重要となってくる。つまり、誤認識される可能性のある音声を入力する際は、話者に対し、はっきりとした口調での発話を行わせ、しかも、マイクロホンに対して適正な距離で発話させることが重要となってくる。このように、はっきりとした口調での発話を行わせ、しかも、マイクロホンに対して適正な距離で発話させる必要の状況は、誤認識される可能性のある音声が入力される状況だけではなく、その他に、登録単語を登録する際、登録すべき単語に対する音声を入力する状況や、話者学習を行う状況なども同様である。
【０００７】
しかし、全ての音声に対してもこのような一定の枠にはめた発話を行わせる必要もない。たとえば、前述したような「おはよう」といった装置に対して呼びかけるような場面について考えたとき、この場面において、入力される単語の種類が「おはよう」を含めて数種類と少なく、しかも、これらの単語間で誤認識される可能性が低いとすれば、話者の発話した「おはよう」は高い認識率で認識される可能性が高いといえる。
【０００８】
したがって、このような音声については、装置からある程度離れた位置からでも、話者が気軽に装置に対して呼びかけられるようにして使い勝手を高めることも必要である。
【０００９】
このように、使い勝手を高めるために、装置から離れた位置からでも音声入力を可能とするには、音声入力部を構成する音声入力用アンプの音声入力ゲインを大きく設定しておけばよいが、音声入力ゲインを大きく固定的に設定されていると、Ｓ／Ｎ比が悪くなって、前述の誤認識される可能性の高い音声などに対しての認識率に悪影響を及ぼす問題が生じる。
【００１０】
そこで本発明は、認識可能な様々な音声が発話される際、装置に対してその時点でどのような種類の音声が入力される場面であるかを判断し、その場面に応じてゲインを切り替えて音声入力を行うようにし、誤認識される可能性の高い音声や登録単語入力や話者学習を行う際の音声については、その認識率を高めるような音声入力ゲインに設定し、ある単語に対する音声は装置から離れたところからも入力できるような音声入力ゲインに設定することで、認識性能の向上と使い勝手の良さを兼ね備えることを可能とすることを目的としている。
【００１１】
【課題を解決するための手段】
本発明の音声認識装置は、登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置であって、前記モード切替スイッチによって登録モードに切り替えられた場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知することを特徴とする。
【００１２】
本発明の音声認識装置において、前記通知は、発話の仕方や前記音声入力部に対する音声入力の仕方についての通知であることが好ましい。
【００１３】
本発明の音声入力ゲイン設定方法は、登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置における音声入力ゲイン設定方法であって、前記モード切替スイッチによって登録モードに切り替えられた場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知することを特徴とする。
【００１４】
本発明の音声入力ゲイン設定処理プログラムを記録した記憶媒体は、登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置における音声入力ゲイン設定処理プログラムを記録した記憶媒体であって、前記モード切替スイッチによって登録モードと認識モードとのうちいずれのモードに切り替えられているかを判断する手順と、前記モード切替スイッチによって登録モードに切り替えられていると判断した場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知する手順とを含むことを特徴とする。
【００２６】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。なお、この実施の形態では、音声認識装置の１つの例として、音声時計装置を例にして説明する。この音声時計装置（以下では単に装置と表現する場合もある）は、現在時刻やアラーム時刻の設定を話者の発話する音声によって行うことが可能で、かつ、装置側からの時刻の告知も音声によって行うことができ、さらに、話者との間で簡単な内容の会話をも可能とする玩具的な要素の強い装置であるとする。
【００２７】
図１は本発明の実施の形態である音声時計装置を構成するに必要な各構成要素を示すブロック図である。まず、図１に示される構成を概略的に説明し、そのあとで、本発明の実施の形態を説明する上で特に必要な部分について詳細に説明する。
【００２８】
この音声時計装置は、大きく分けると、音声入力部としてのマイクロホン１と音声入力用アンプ（マイクアンプという）２、Ａ／Ｄ変換部３、音声分析部４、各種処理を行う制御部（ＣＰＵ）５、Ｄ／Ａ変換部６、音声出力部としての音声出力用アンプ７とスピーカ８、第１の記憶手段としてのＲＯＭ９、第２の記憶手段としてのＲＡＭ１０、ユーザが装置に対して各種の設定を行うための操作部１１、時刻信号を発生する計時手段１２などから構成されている。
【００２９】
音声分析部４は、Ａ／Ｄ変換された音声信号を演算機を用いて短時間ごとに分析し、ピッチ周期などを得るとともに、音声の特徴を表す特徴データ（ＬＰＣケプストラム係数が一般的）を時系列データとして出力する。
【００３０】
制御部５は、音声認識、学習、登録、音声出力など以下に説明する各種の処理を行うもので、これらの処理については、のちに行う動作説明のなかで順次説明する。
【００３１】
ＲＯＭ９は、出力音声データ９１、特定話者群音声モデルデータ９２、この特定話者群音声モデルデータ９２を基にして作成されたコードブック（特定話者群コードブックという）９３、さらにはユニバーサルコードブック９４などを格納する。
【００３２】
前記出力音声データ９１は装置側から話者に対しての応答や問いかけを行うための発話内容に対する音声データであり、この具体的な内容についても後述する動作例のなかで説明する。
【００３３】
また、特定話者群音声モデルデータ９２は、ある範囲に絞られた認識対象話者に対する標準話者音声モデルデータである。たとえば、認識対象話者を子供に絞った場合は、不特定多数の子供の音声データから作成された標準話者音声モデルデータである。
【００３４】
ただし、この実施の形態では、成人男性、成人女性、子供の３つの話者群を設定し、成人男性を話者群Ａ、成人女性を話者群Ｂ、子供を話者群Ｃというように区分する。そして、話者群Ａに属する不特定多数の成人男性の音声データから作成した第１の特定話者群音声モデルデータＭＤ１、話者群Ｂに属する不特定多数の成人女性の音声データから作成した第２の特定話者群音声モデルデータＭＤ２、話者群Ｃに属する不特定多数の子供の音声データから作成した第３の特定話者群音声モデルデータＭＤ３を有しているものとする。
【００３５】
そして、これら第１〜第３の特定話者群音声モデルデータＭＤ１，ＭＤ２，ＭＤ３は、予め定められた認識可能単語からなる幾つかの単語セットｗ１，ｗ２，ｗ３，・・・からなっており、単語セットｗ１に格納されている特定話者群音声モデルデータは、装置との間で交わされる会話のなかで、特に使用される頻度の高いと思われる単語（この場合、「おはよう」、「ただいま」、「こんにちは」、「おやすみ」、「何時」、「アラーム」といった単語であるとする）に対する特定話者群音声モデルデータである。この単語セットｗ１内のそれぞれの単語に対する特定話者群音声モデルデータは、のちに説明する話者学習処理を行うためとしても用いられる。
【００３６】
単語セットｗ２に格納されている特定話者群音声モデルデータは、ここでは、「１時」、「２時」、「３時」、・・・、「１２時」といった時間の単位を表す単語に対する特定話者群音声モデルデータでり、また、単語セットｗ３に格納されている特定話者群音声モデルデータは、ここでは、「１分」、「２分」、「３分」、・・・、「５９分」といった分の単位を表す単語に対する特定話者群音声モデルデータであるとする。
【００３７】
この他、「はい」や「いいえ」といった肯定・否定を表す単語や、話者と装置との間で会話を行うに必要な単語に対する特定話者群音声モデルデータなどもここでは図示されていない単語セットとして設けられている。
【００３８】
また、特定話者群コードブック９３は、第１の特定話者群音声モデルデータＭＤ１に基づいて作成された第１の特定話者群コードブックＣＢ１、第２の特定話者群音声モデルデータＭＤ２に基づいて作成された第２の特定話者群コードブックＣＢ２、第３の特定話者群音声モデルデータＭＤ３に基づいて作成された第３の特定話者群コードブックＣＢ３を有している。
【００３９】
ところで、前述の単語セットｗ１に属する「おはよう」、「ただいま」、「こんにちは」、「おやすみ」、「何時」、「アラーム」といった単語は、ここでは、登録単語としても用いられ、認識対象話者、つまり、この装置を使用するそれぞれの話者（ここでは、話者＃１、話者＃２、話者＃３の３人の話者とする）が、上述の登録単語を発話することによって、それぞれの特徴データを登録単語データ１０１としてＲＡＭ１０に保存することができるようになっている。
【００４０】
この登録単語データ１０１は、話者＃１用の登録単語データＲＤ１、話者＃２用の登録単語データＲＤ２、話者＃３用の登録単語データＲＤ３というように、その装置を使用すると思われる各話者ごとに保存される。
【００４１】
なお、このように、装置を使用すると思われる各話者ごとに、幾つかの単語について登録単語データを作成する機能は、ユーザによって任意に行うことができる。したがって、その機能を用いて登録単語データを作成して保存することも可能であるが、必ずしも、その機能を用いる必要はない。この機能を実行するには操作部１１によって所定のモード設定を行って登録するが、その登録方法などについてはのちに説明する。
【００４２】
ＲＡＭ１０にはこの他に、話者＃１用として作成された量子化後の入力話者コードブックＶＱ１、話者＃２用として作成された量子化後の入力話者コードブックＶＱ２、話者＃３用として作成された量子化後の入力話者コードブックＶＱ３が格納されるが、これらの各コードブックについてはのちに説明する。
【００４３】
本発明の実施の形態における装置の特徴の一つとして、装置を使用する使用者をある範囲に絞り、その範囲内に属する不特定多数の話者の音声データから作った特定話者群音声モデルデータを作成し、その特定話者群音声モデルデータを用いて装置の使用者の発する音声を認識処理するということが挙げられる。
【００４４】
これを実現するために、この実施の形態では、使用者を話者群Ａ（成人男性）、話者群Ｂ（成人女性）、話者群Ｃ（子供）に分けて、それぞれの話者群に属する不特定多数の話者の音声データから作った第１〜第３の特定話者群音声モデルデータＭＤ１，ＭＤ２，ＭＤ３を有している。
【００４５】
このように、装置を使用する使用者をある範囲に絞って、その範囲に属する不特定多数の話者の音声データから作った標準話者音声モデルデータ（この実施の形態では第１〜第３の特定話者群音声モデルデータＭＤ１，ＭＤ２，ＭＤ３）を用いることにより、あらゆる話者を想定した不特定話者用の標準話者音声モデルデータを持つ場合に比べて標準話者音声モデルデータの規模を大幅に小さくすることができ、ＲＯＭ９のメモリサイズを小さくすることができ、また、制御部（ＣＰＵ）５の処理負担を小さくすることができる。
【００４６】
しかも、それぞれの話者群に対応した特定話者群音声モデルデータ（第１〜第３の特定話者群音声モデルデータＭＤ１，ＭＤ２，ＭＤ３）を用いての音声認識を行うので、あらゆる話者を想定した不特定話者用の標準話者音声モデルデータを用いた場合に比べて高い認識率が得られる。
【００４７】
なお、その時点で発話する話者に対してどの特定話者群音声モデルデータを選択するかは、たとえば、操作部１１に話者群を指定するためのボタンを用意し、装置の使用者がたとえば子供であれば、話者群Ｃを指定するためのボタンを操作してから音声の入力を行うようにすることもできる。
【００４８】
このように、話者群の指定操作がなされると、制御部５がそれを判断して、対応する特定話者群音声モデルデータを用いて音声認識を行うようにする。たとえば、話者群Ｃを指定するためのボタンが操作された場合には、制御部５がそれを判断して、特定話者群音声モデルデータＭＤ３を用いて音声認識を行うようにする。
【００４９】
また、これとは別に、装置の使用者が話者群の設定操作を行うことなく、入力された音声のピッチ周期情報（音声分析部４が音声分析する際に得られるピッチ周期情報）を基に、制御部５が入力音声の話者群を判定して、その判定結果に基づいて対応する特定話者群音声モデルデータを用いて音声認識を行うようにすることも可能である。
【００５０】
図２はこのように話者に応じた音声モデルデータを用いて音声認識処理を行うフローチャートを示すもので、話者の発話した音声の入力を行い（ステップｓ１）、音声入力があるか否かを判断し（ステップｓ２）、音声入力があれば、音声分析部４によって、入力音声に対して音声分析を行う（ステップｓ３）。そして、その分析結果に基づき制御部５によって、その音声がどの話者群に属するかを判定し（ステップｓ４）、判定された話者群に対応する音声モデルデータを選択して（ステップｓ５）、音声認識処理を行う（ステップｓ６）。そして、その認識結果に基づく所定の処理を行う（ステップｓ７）。この所定の処理というのは、時刻設定やアラーム設定などその装置の行うべき様々な処理である。
【００５１】
また、この実施の形態では、ある特定の単語については、その装置を使用する使用者がその特定の単語を発話してその音声データを登録し、この登録データと前述の特定話者群音声モデルデータを用いて話者学習処理を行うことも可能としている。以下、これについて説明する。
【００５２】
この話者学習処理を行うために、この実施の形態では、特定の単語として、「おはよう」、「ただいま」、「こんにちは」、「おやすみ」、「何時」、「アラーム」といった前述の単語セットｗ１に属する単語（これらの単語を登録単語という）を、使用者（話者）に発話してもらい、話者の発話して得られた各登録単語に対する音声データによって登録単語データを作成しそれをＲＡＭ１０に登録する。このとき、たとえば、その装置を１つの家族で使用するような場合は、その家族（たとえば、父親、母親、その子供）が一人ずつ複数の登録単語について順次発話して得られたそれぞれの音声データによって登録単語データを作成してそれぞれ登録する。
【００５３】
具体的には、たとえば、父親（話者＃１とする）が発話して得られた各登録単語に対するそれぞれの音声データによって作成された各登録単語対応の登録単語データは、話者＃１用の登録単語データＲＤ１として保存され、母親（話者＃２とする）が発話して得られた各登録単語に対する音声データによって作成された各登録単語対応の登録単語データは、話者＃２用の登録単語データＲＤ２として保存され、子供（話者＃３とする）が発話して得られた各登録単語に対するそれぞれの音声データによって作成された各登録単語対応の登録単語データは、話者＃３用の登録単語データＲＤ３として保存される。この登録は次のようにして行う。
【００５４】
まず、操作部１１によって登録単語を登録するためのモード設定を行う。そして、話者＃１の指定を行い、話者＃１が前述したそれぞれの登録単語を順次発話する。そして、この話者＃１が発話して得られた各登録単語に対する音声データによって各登録単語対応の登録単語データＲＤ１を作成する。そして、この登録単語データＲＤ１と特定話者群音声モデルデータ（この場合は、特定話者群音声モデルデータＭＤ１）に基づいて、話者＃１に対する写像関数を作成する。
【００５５】
続いて、話者＃２の指定を行い、話者＃２が前述したそれぞれの登録単語を順次発話する。そして、この話者＃２が発話して得られた各登録単語に対する音声データによって、各登録単語対応の登録単語データＲＤ２を作成する。そして、この登録単語データＲＤ２と特定話者群音声モデルデータ（この場合は、特定話者群音声モデルデータＭＤ２）に基づいて、話者＃２に対する写像関数を作成する。
【００５６】
さらに、続いて、話者＃３の指定を行い、話者＃３が前述したそれぞれの登録単語を順次発話する。そして、この話者＃３が発話して得られた各登録単語に対する音声データによって各登録単語対応の登録単語データＲＤ１を作成する。そして、この登録単語データＲＤ３と特定話者群音声モデルデータ（この場合は、特定話者群音声モデルデータＭＤ３）に基づいて、話者＃３に対する写像関数を作成する。
【００５７】
このようにして、登録すべき話者の音声データの登録が終了する。そして、それぞれの写像関数と第１〜第３の特定話者群コードブックＣＢ１，ＣＢ２，ＣＢ３（コードブックサイズはそれぞれ２５６サイズとする）を用いて、話者＃１、話者＃２、話者＃３それぞれの入力話者コードブックを作成する。このようにして入力話者コードブックを作成する方法をコードブックマッピングと呼ぶ。
【００５８】
この場合、話者＃１は父親、話者＃２は母親、話者＃３はその子供であるので、父親用の入力話者コードブック、母親用の入力話者コードブック、子供用の入力話者コードブックが作成されることになる。なお、この実施の形態では、さらにこれら入力話者コードブックのデータ量を少なくするために、予め用意されたユニバーサルコードブック９４を使用してベクトル量子化を行う。
【００５９】
このユニバーサルコードブック９４は、大人から子供まで全ての話者を含むような幅広い層の話者から得られたコードブックであり、たとえば、１０２４あるいは２０４８といった大きなサイズを有しており、このユニバーサルコードブック９４でベクトル量子化し、そのユニバーサルコードブック９４のコード番号のみによるコードブック（２５６サイズ）を作成する。
【００６０】
このように、ユニバーサルコードブック９４のコード番号のみによるコードブックとすることにより、大幅にデータ量の削減が図れる。
【００６１】
ちなみに、装置に使用されるＲＡＭ１０として３２キロバイト程度のＲＡＭを使うとすると、前述の入力話者コードブックでは、１つのコードブックについて、２５６×１０（この１０はＬＰＣケプストラム係数の次元数であって、ここでは１０次元とした場合である）で、２５６０個の係数を保存する必要があり、１つの係数をショート型で保存した場合、2バイト×２５６０の合計約５キロバイトが必要となる。
【００６２】
したがって、このコードブックを仮りに４つ作るとなると、それだけで約２０キロバイトの容量を必要とすることになり、ＲＡＭ１０の多くを占有してしまい、その他の処理に支障をきたすことになる。
【００６３】
これに対処するために、前述したように、ユニバーサルコードブック９４でベクトル量子化して、そのユニバーサルコードブック９４のコード番号のみによるベクトル量子化された入力話者コードブックを作成する。なお、以下では、このベクトル量子化された入力話者コードブックを量子化コードブックと呼び、話者＃１に対応する量子化されたコードブックを量子化コードブックＶＱ１、話者＃２に対応する量子化された入力話者コードブックを量子化コードブックＶＱ２、話者＃３に対応する量子化された入力話者コードブックを量子化コードブックＶＱ３と呼ぶことにする。
【００６４】
これによって、ある一人の話者に対する量子化入力話者コードブック（たとえば、量子化入力話者コードブックＶＱ１）は、２５６個のコード番号を保存すればよく、各コード番号をショート型で保存させたばあい、２バイト×２５６の合計約0.5キロバイトの容量で済むため、コードブックとして必要なメモリ容量は、前述した量子化前の入力話者コードブックに比べて１／１０となる。
【００６５】
なお、このユニバーサルコードブック９４は、前述した各入力話者ごとの登録単語データＲＤ１，ＲＤ２，ＲＤ３の量子化にも用いることができる。
【００６６】
図３はこの実施の形態である音声時計装置の外観構成を示すものである。前述したようにこの実施の形態における音声時計装置は、玩具的な要素の強いものであり、実際には、その外観は人気アニメーションのキャラクタなどが用いられるが、その外観は本発明とは直接関係しないので、ここでは、単純な形状のもので説明を行う。
【００６７】
図３において、音声時計装置の筺体５０には、図１で示されたマイクロホン１、スピーカ８、装置に対して様々な設定を行ったり、何らかの動作を行うためにその都度操作される各種操作ボタン（詳細は後述する）を有する操作部１１が設けられる。
【００６８】
この操作部１１は、たとえば、電源スイッチＳＷ、話者群指定ボタンＢＴ１，ＢＴ２，ＢＴ３、話者指定ボタンＢＴ１１，ＢＴ１２，ＢＴ１３、認識モードか登録モードかを切り替えるモード切替スイッチ（機能については後述する）ＭＳＷ、装置側からの問いかけに対して話者がボタンの操作で肯定（「はい」）または否定（「いいえ」）の入力が可能な肯定ボタンＢＴ２１と否定ボタンＢＴ２２（これの具体的な動作例についてはのちに説明する）、音量調節スイッチＶＳＷなどが設けられている。
【００６９】
なお、話者群指定ボタンＢＴ１，ＢＴ２，ＢＴ３は、その装置を使用する使用者の話者群を指定するもので、話者群指定ボタンＢＴ１は話者群として成人男性（話者群Ａ）を指定し、話者群指定ボタンＢＴ２は話者群として成人女性（話者群Ｂ）を指定し、話者群指定ボタンＢＴ３は話者群として子供（話者群Ｃ）を指定するものである。
【００７０】
また、話者指定ボタンＢＴ１１，ＢＴ１２，ＢＴ１３は、その装置を使用する使用者を話者として指定するもので、ここでは、３人の使用者（話者＃１、話者＃２、話者＃３）を指定できるようになっている。
【００７１】
なお、図３で示される操作部１１には上述したような各種スイッチや、各種操作ボタンが設けられるが、これは、この実施の形態を説明する上で必要なスイッチ類や操作ボタンをすべて設けた例であるが、これらは全て設ける必要はなく、装置の有する機能などに応じて適宜必要なスイッチや操作ボタンのみを設ければよい。また、電源スイッチｓｗなどのスイッチ類は、操作部１１内ではなく、操作ボタン類とは別にして設けるようにしてもよい。
【００７２】
また、この図３で示される構成は説明を行う上での一例であって、マイクロホン１やスピーカ８、操作部１１の配置、さらには、操作部１１内の各種スイッチ類や操作ボタンなどの配置もこれに限られるものではない。
【００７３】
ここで、登録モードと認識モードについての説明を行う。この登録モードと認識モードのいずれかのモード設定は、モード切替スイッチＭＳＷによって行う。
【００７４】
登録モードは、その装置を使用する各話者（この場合、話者＃１，＃２，＃３）が予め決められた複数の登録単語を発話し、それぞれの音声データから作成した登録単語データを登録単語データＲＤ１，ＲＤ２，ＲＤ３として登録するとともに、この登録単語データＲＤ１，ＲＤ２，ＲＤ３を用いて話者学習処理を行い、最終的に話者＃１用の量子化コードブックＶＱ１、話者＃２用の量子化コードブックＶＱ２、話者＃３用の量子化コードブックＶＱ３の作成を行う。
【００７５】
登録モードとした場合の具体的な処理について説明する。ここでは、前述したように、父親（話者＃１）、母親（話者＃２）、その子供（話者＃３）がそれぞれの登録単語を発話して得られた登録単語データを登録するものとする。
【００７６】
まず、操作部１１の話者指定ボタンＢＴ１１を操作し、話者＃１の登録モードとして、話者＃１（父親）が前述した登録単語を順次発話する。これにより、話者＃１に対する登録単語の登録データＲＤ１が作成されるとともに、写像関数が作成され、さらに、ユニバーサルコードブック９４でベクトル量子化され、そのユニバーサルコードブック９４のコード番号による話者＃１の量子化入力話者コードブックＶＱ１が作成される。
【００７７】
続いて、操作部１１の話者指定ボタンＢＴ１２を操作し、話者＃２の登録モードとして、話者＃２（母親）が前述した登録単語を順次発話する。これにより、話者＃２に対する登録単語の登録データＲＤ２が作成されるとともに、写像関数が作成され、さらに、ユニバーサルコードブック９４でベクトル量子化され、そのユニバーサルコードブック９４のコード番号による話者＃２の量子化入力話者コードブックＶＱ２が作成される。
【００７８】
さらに続いて、話者指定ボタンＢＴ１３を操作し、話者＃３の登録モードとして、話者＃３（子供）が前述した登録単語を順次発話する。これにより、話者＃３に対する登録単語の登録データＲＤ３が作成されるとともに、写像関数が作成され、さらに、ユニバーサルコードブック９４でベクトル量子化され、そのユニバーサルコードブック９４のコード番号による話者＃３の量子化入力話者コードブックＶＱ３が作成される。
【００７９】
なお、このとき、登録単語データＲＤ１，ＲＤ２，ＲＤ３もこのユニバーサルコードブック９４を用いてベクトル量子化され、以下では、登録単語データＲＤ１，ＲＤ２，ＲＤ３も量子化されたデータであるとする。
【００８０】
次に認識モードについて説明する。この認識モードは、この場合、第１〜第３の特定話者群音声モデルデータＭＤ１，ＭＤ２，ＭＤ３、話者＃１〜話者＃３用の登録単語データＲＤ１，ＲＤ２，ＲＤ３、話者＃１〜話者＃３用の量子化コードブックＶＱ１，ＶＱ２，ＶＱ３のいずれかを、状況に応じて用いて音声認識するモードである。
【００８１】
たとえば、モード切替スイッチＭＳＷを認識モードとした場合、まず、使用する話者がどの話者群であるかの設定を行う。たとえば、使用する話者がたとえば話者＃３（子供）であれば、話者群Ｃを指定するための話者群指定ボタンＢＴ３を操作してから音声の入力を行う。これにより、制御部５では第３の特定話者群音声モデルデータＭＤ３を用いて音声認識を行う。
【００８２】
このように、使用する話者によって話者群の指定操作がなされると、制御部５がそれを判断して、対応する特定話者群音声モデルデータを用いて音声認識を行うことができる。
【００８３】
このように、使用者をある特定の話者群に絞り、その話者群に属する話者の音声データから作った特定話者群音声モデルデータを用いて音声認識することにより、あらゆる話者を想定した大規模な標準話者音声モデルデータを用いて音声認識を行う場合に比べて、高い認識率での音声認識が可能となる。また、幾つかの話者群だけの特定話者群音声モデルデータを持てばよいので、音声モデルデータそのものの規模を大幅に小さくすることができ、ＲＯＭ９のメモリサイズを小さくすることができ、また、制御部（ＣＰＵ）５にかかる処理負担を小さくすることができる。
【００８４】
また、話者がどの話者群であるかの判定は、入力音声を音声分析して得られるピッチ周期情報により装置側で自動的に知ることが可能であり、さらに、入力された音声データと登録単語データとのマッチングをとることにより得られる類似度を用いて話者がどの話者群であるかの判定を行う方法もある。なお、ここでは、ピッチ周期情報のみにより話者群を判定する場合について述べる。
【００８５】
つまり、父親、母親、子供の３人の話者で考えたとき、子供のピッチ周期が最も短く、次に母親が短く、父親のピッチ周期はこの３人の中では最も長くなるのが普通であり、そのピッチ周期情報から、その入力話者が話者＃１、話者＃２、話者＃３のうちのどの話者であるかを特定することができる。
【００８６】
このようにして、たとえば、入力話者が話者＃１であると判定された場合には、その話者＃１に対応する登録単語データＲＤ１や、話者学習処理によって作成された量子化入力話者コードブックＶＱ１を用いて音声認識を行う。つまり、話者＃１の発話した単語が登録単語である場合には、話者＃１に対応する登録単語データＲＤ１によって音声認識され、それ以外の単語については、量子化入力話者コードブックＶＱ１を用いて音声認識される。また、登録単語データが作成されてなく、話者学習処理がなされていない場合には、特定話者群音声モデルデータ９２を用いて音声認識する。
【００８７】
なお、本発明では、装置と話者の間で行われる会話の手順として、最初に、話者が前述した登録単語のうちいずれかの登録単語を発話するようにしている。つまり、装置側では、最初に、単語セットｗ１に属する登録単語を認識するような会話手順が設定されている。このように、本発明では、装置側はその時点の動作場面に応じ、現時点ではどの単語セットの単語を入力する場面かを把握している。そして、そのときの場面にて入力された単語の認識処理を行う。
【００８８】
したがって、会話の始まりとして、装置に対し、たとえば、話者＃１がまず登録単語の一つとしての「アラーム」と発話したとすると、その「アラーム」についての音声分析を行い、それによって得られるピッチ周期情報により装置側では話者の特定を行う。この場合は、入力話者は話者＃１であると判定し、入力音声に対し話者＃１用の登録単語データＲＤ１を用いて音声認識処理することにより、発話された音声が「アラーム」であったことが認識される。
【００８９】
このようにして、入力話者が登録単語を入力することにより、装置側では、その入力話者がどの話者であるかを判定し、その登録単語についての認識を行う。そして、それ以降に入力される音声が登録単語以外の単語（単語セットｗ１以外の単語）である場合は、話者判定を行うことなく音声認識動作を行う。
【００９０】
たとえば、現在の装置側の動作場面が登録単語を認識する場面であって、この場面において登録単語の認識処理が終了したあと、次の場面として、単語セットｗ２やｗ３などを（単語セットｗ２とする）認識する場面に移るというように設定されていたとすれば、その単語セットｗ２の認識は、話者適応による音声認識処理として、話者＃１用の量子化コードブックＶＱ１と第１の特定話者群コードブックＣＢ１と第１の特定話者群音声モデルデータＭＤ１（単語セットｗ２に対応する音声モデルデータ）を用いて行いての音声認識処理を行う。
【００９１】
図４はこれまで説明した話者学習処理を可能とした音声認識処理の全体的な処理手順を説明するフローチャートである。なお、この図４で示されるフローチャートは、話者をある一人の話者に限定した場合の処理手順を示すものである。
【００９２】
図４において、まず、認識モードか登録モードかを判定し（ステップｓ１１）、登録モードである場合には、話者の発話した登録単語に対する音声入力を行い（ステップｓ１２）、音声入力があるか否かを判断し（ステップｓ１３）、音声入力があれば、入力された音声の音声分析を行い（ステップｓ１４）、入力音声データを登録単語データとして登録する（ステップｓ１５）。
【００９３】
そして、登録すべき単語についての音声データの入力が終了したか否かを判断し（ステップｓ１６）、終了していれば、入力された音声に対する音声データがどの話者群に属するかを判断し（ステップｓ１７）、前述したような話者学習処理（入力話者コードブックを作成し、最終的には量子化コードブックの作成）を行う（ステップｓ１８）。
【００９４】
一方、ステップｓ１１において認識モードであると判定した場合には、話者の発話した音声入力を行い（ステップｓ１９）、音声入力があるか否かを判断し（ステップｓ２０）、音声入力があれば、入力された音声の音声区間を検出して音声分析を行う（ステップｓ２１）。
【００９５】
そして、話者学習処理が行われているか否かを判定し（ステップｓ２２）、話者学習処理が行われていなければ不特定話者音声認識（この実施の形態では特定話者群音声モデルデータ９２、このときの入力話者に対応して用意された特定話者群音声モデルデータであり、入力話者が話者＃１であれば第１の特定話者群音声モデルデータ）よる音声認識処理を行い（ステップｓ２３）、話者学習処理が行われていればステップｓ２４以降の処理を行う。
【００９６】
ステップｓ２４では入力された音声に対する音声データが登録単語データであるか否かを判定し、登録単語データである場合には登録型の音声認識処理としてここでは登録単語データ１０１（このときの入力話者の音声により作成された登録単語データであり、入力話者が話者＃１であれば話者＃１用の登録単語データＲＤ１）を使用しての音声認識処理を行う（ステップｓ２５）。
【００９７】
また、登録単語データでない場合には話者適応型の音声認識処理として、ここでは当該入力話者の音声に基づいて作成された量子化コードブック（入力話者が話者＃１であれば話者＃１用の量子化コードブックＶＱ１）と特定話者群コードブック（入力話者が話者＃１であれば第１の特定話者群コードブックＣＢ１）と特定話者群音声モデルデータ（入力話者が話者＃１であれば第１の特定話者群音声モデルデータＭＤ１）を使用しての音声認識処理を行う（ステップｓ２６）。
【００９８】
ところで、この装置の場合、認識可能な単語は、前述したように、単語セットｗ１，ｗ２，ｗ３というように複数の単語セットからなり、前述したように、装置側では、現在、どの単語セットが入力される場面であるかを把握している。たとえば、単語セットｗ１（登録単語）を入力する場面が終わって、現在は、単語セットｗ２（「１時」、「２時」など時の単位）を入力する場面であるというように、現在、どのような場面であるかを把握している。
【００９９】
したがって、前述のステップｓ２４において、入力された音声に対する音声データが登録単語データであるか否かの判定は、現在、どのような場面であるかにより、登録単語が入力される場面であれば、入力される単語データは登録単語データであるとして、それに対応した処理を行う。
【０１００】
そして、このように音声認識処理が終了するとその認識結果に基づく所定の処理を行う（ステップｓ２７）。
【０１０１】
なお、図４で示した処理はある特定の一人の話者についての処理であったが、たとえば、前述したように話者＃１、話者＃２、話者＃３というように複数の話者が存在する場合には、図５のフローチャートで示されるように、登録モード時においては、音声入力のステップｓ１の前段に話者指定（たとえば、話者＃１、話者＃２、話者＃３の指定）を行うステップｓ２８を追加する。したがって、この場合は、登録単語データは、図１に示されるように、話者＃１〜＃３用の登録単語データＲＤ１，ＲＤ２，ＲＤ３が作成され、量子化コードブックも話者＃１〜＃３用の量子化コードブックＶＱ１，ＶＱ２，ＶＱ３が作成される。
【０１０２】
一方、認識モード時においては、ステップｓ２１の音声分析処理の後段に、入力話者がたとえば、話者＃１、話者＃２、話者＃３のどの話者であるかを判定する話者判定処理（ステップｓ２９）を追加する。
【０１０３】
そして、このときの音声認識処理は、登録単語の場合には、話者＃１、話者＃２、話者＃３の音声データを基に作成された話者＃１、話者＃２、話者＃３用の登録単語データＲＤ１，ＲＤ２，ＲＤ３のいずれかを用いて音声認識し、登録単語でない場合には、話者＃１用の量子化コードブックＶＱ１と第１の特定話者群コードブックＣＢ１と第１の特定話者群音声モデルデータＭＤ１、話者＃２用の量子化コードブックＶＱ２と第２の特定話者群コードブックＣＢ２と第２の特定話者群音声モデルデータＭＤ２、話者＃３用の量子化コードブックＶＱ３と第３の特定話者群コードブックＣＢ３と第３の特定話者群音声モデルデータＭＤ３のいずれかの組を用いて音声認識する。
【０１０４】
なお、以上説明した認識モードにおける処理は、登録単語を登録した場合の処理であるが、登録単語の登録を行わない状態でも同様に認識処理が可能となる。この場合は、登録単語データＲＤ１０１が作成されないので、特定話者群音声モデルデータ９２を使用しての音声認識となる。
【０１０５】
次に、アラーム時刻の設定を行う際の装置と話者との会話例を、図６の状態遷移図を参照しながら説明する。なお、図６において、括弧内の発話内容は装置を使用する話者の発話する内容である。まず、装置側からは、「アラーム時刻を、午前、７時、３０分というように発話して下さい」というように、発話する内容の一例を挙げて話者に発話を促す（ステップｓ３１）。これにより、話者（ここでは話者＃１）が、設定したい時刻として「午前」、「１時」、「２０分」と発話したとする（ステップｓ３２）。
【０１０６】
ここでの発話内容は、「午前」、「１時」、「２０分」というように、３つの単語を１つのセットとして、各単語間にわずかな間をおいて連続的な発話がなされる。そして、装置側では、それぞれの単語について連続的に音声認識を行う。その認識結果として、装置側から、「午前、１時、２０分ですか？ハイかイイエで答えて下さい」というように応答する（ステップｓ３３）。
【０１０７】
この認識結果が正しければ、話者＃１は「はい」と応答し（ステップｓ３４）、装置側からは、「アラーム時刻を午前１時２０分にセットしました」というような発話内容を発する（ステップｓ３５）。一方、認識結果が間違っていれば、話者＃１は「いいえ」と応答し（ステップｓ３６）、装置側からは、「それでは順番に聞きます」というような内容の発話を行う（ステップｓ３７）。
【０１０８】
そして、まず、「午前ですか？」というように「午前」か「午後」かを確かめる内容を発話する（ステップｓ３８）。
【０１０９】
それに対して、話者＃１は、午前でよければ、「はい」と応答し（ステップｓ３９）、間違っていれば（午前でなければ）、「いいえ」と応答する（ステップｓ４０）。この「午前」と「午後」の場合は、二者択一であるので、もし、話者＃１側の応答が「いいえ」であった場合には、もう一方の単語で確定することができる。つまり、装置側による最初の問いかけが「午前」であって、話者側が「いいえ」と応答した場合には、「午後」が確定される。
【０１１０】
なお、「午前」と「午後」の他に、たとえば、「正午」が加わって、「午前」、「午後」、「正午」の３つのうち、いずれかを確定する場合に、たとえば、装置側「午前ですか」、話者側「いいえ」、装置側「午後ですか」、話者側「いいえ」となって、「正午」が確定されることになる。このように、３単語程度であれば、話者側からの「はい」または「いいえ」の応答を２〜３回繰り返すことで、短時間に所望の単語の確定を行うことができる。
【０１１１】
このようにして、「午前」か「午後」かの確定が行われると、次に、「時」の単位の確定を行う。この場合、話者＃１の入力した単語は「１時」である。これに対して、装置側から、たとえば、「１時」に対する認識候補の第１位から第ｎ位までのうち、ステップｓ４１にて第１位候補として「１時ですか」が発話されたとすれば、話者＃１は「はい」と応答し（ステップｓ４２）、「１時」が確定し、分の単位の確認処理（ステップｓ５１）に入る。
【０１１２】
しかし、ステップｓ４１にて装置側から第１位候補として、たとえば、「７時」が出力されたとすれば、話者＃１は「いいえ」と応答する（ステップｓ４３）。これにより、装置側から、第２位候補が出力され（ステップｓ４４）、その第２位候補として、たとえば、「８時」が出力されたとすると、それが正しければ、話者＃１は「はい」と応答し（ステップｓ４５）、間違っていれば、「いいえ」と応答する（ステップｓ４６）。
【０１１３】
ここでは、「いいえ」であるので、さらに、装置側からは第３位候補として、たとえば、「１時」が出力されたとする（ステップｓ４７）。それが正しければ、話者＃１は「はい」と応答し（ステップｓ４８）、間違っていれば、「いいえ」と応答する（ステップｓ４９）。ここでは、話者＃１は「はい」と応答するので、その時点で「１時」が確定し、分の単位の確認処理（ステップｓ５１）に入る。
【０１１４】
また、もし、第３位候補でも、「いいえ」であった場合には、装置側から話者＃１に対して、たとえば、「もう一度、何時か言ってください」というように、再度、「時」の単位の音声入力を促すようにする（ステップｓ５０）。これによって、話者＃１は再度、時の単位の発話（この場合「１時」）を行い、ステップ４１に戻る。
【０１１５】
なお、再度、「時」の単位について音声入力を行ってそれを認識するとき、すでに、「いいえ」で否定された単語（前述の場合、「７時」、「８時」など）は、認識候補から外すようにする。
【０１１６】
また、「分」の単位についても「時」の単位で説明したステップｓ３１〜ｓ５０と同様の処理にて行うことができる。そして、最終的に確定したら、装置側からは「アラーム時刻を午前１時２０分にセットしました」というような発話がなされる（ステップｓ３５）。
【０１１７】
このような処理は、アラーム設定だけではなく、現在時刻の設定も同様の処理で行える。
【０１１８】
なお、前述の処理のなかで第１候補が話者によって否定された場合、装置側からは、第２候補、第３候補、・・・というように認識候補順に発話するのではなく、たとえば、「１時」が否定された場合には、「２時」、「３時」、・・・というように認識候補順とは無関係に時刻を表す数字の順番に従って発話することもできる。
【０１１９】
このような処理を行うことにより、時刻設定などを行う際、話者は「午前」、「何時」、「何分」を１まとまりの音声として連続的に発話することができ、これにより、時刻設定のための音声入力操作が簡単なものとなる。しかも、これらの一連の音声が正しく音声認識されれば、その時点で時刻設定が終了し、もし、間違っていた場合は、一つ一つの単語ごとに正否を確かめながら、正しく認識されるまで、認識動作が行われるので、最終的には確実に正しい時刻の設定が行え、利便性と確実性の両方を兼ね備えた時刻設定が行える。
【０１２０】
このような連続した単語を認識する処理は、時刻だけではなく、複数の単語から構成されていてそれぞれの単語間にわずかな間をおいて連続的に発話されるような音声を認識する場合に広く適用できる。
【０１２１】
図７は、複数の単語として第１番目〜第ｎ番目までのｎ個の単語から構成され、それぞれの単語間にわずかな間をおいて連続的に発話されるような音声を認識（ここでは連続単語認識という）する際の処理手順を説明するフローチャートである。この図７に示す処理手順について簡単に説明する。なお、ここでは、ｎ個からなる連続単語として、３つの単語（第１番目の単語、第２番目の単語、第３番目の単語という）から構成されているものとする。また、これら第１番目の単語、第２番目の単語、第３番目の単語それぞれの認識を行う際、認識候補は第ｍ位までの認識候補を出力するが、ここでは、ｍは１から３までの値をとるものとする。
【０１２２】
図７において、まず、話者の発話した複数の単語からなる連続単語について認識を行う（ステップｓ６１）。そして、認識結果を出力し（ステップｓ６２）、その認識結果に対する話者からの「はい」または「いいえ」の認識を行う（ステップｓ６３）。ここで、話者の応答が「はい」であれば（ステップｓ６４）、その認識結果を連続単語全体として確定し（ステップｓ６５）、その時点で認識処理は終了する。
【０１２３】
一方、話者の応答が「いいえ」であれば、第１番目の単語の認識処理に入る。この第１番目の単語の認識処理は、まず、第ｍ位候補（ここではｍ＝１）を出力し（ステップｓ６６）、それに対する話者の「はい」または「いいえ」を認識する（ステップｓ６７）。ここで、話者の応答が「はい」であれば（ステップｓ６８）、その第１位候補を第１番目の単語として確定し（ステップｓ６９）、第２番目の単語についての処理に入る（ステップｓ７０）。
【０１２４】
一方、話者の応答が「いいえ」であれば、ｍが設定値（この場合は、設定値はｍ＝３）であるか否かを判断する（ステップｓ７１）。ここでは、まだ、設定値でないので、ステップｓ６６に処理が戻り、今度は、ｍ＝２として第２位の候補を出力する。
【０１２５】
そして、それに対する話者の「はい」または「いいえ」を認識する（ステップｓ６７）。ここで、話者の応答が「はい」であれば（ステップｓ６８）、第２位候補を第１番目の単語として確定し（ステップｓ６９）、第２番目の単語についての処理に入る（ステップｓ７０）。また、話者の応答が「いいえ」であれば、ステップｓ７１の判断を行う。
【０１２６】
このように、話者の応答が「はい」であればその時点における認識候補によって第１番目の単語が確定されるが、話者の応答が「いいえ」であれば、次の認識候補について同様の処理を行う。そして、この場合、第３位の候補でも正しく認識されなかった場合は、その第１番目の単語をもう一度発話してもらうように話者に対して要求する（ステップｓ７２）。そして、話者が、再度、その第１番目の単語を発話した内容について、同様の動作を繰り返す。
【０１２７】
なお、前述の図６の例で説明したように、話者が再度、第１番目の単語を発話してその音声入力を行い、それを認識するとき、すでに、「いいえ」で否定された単語は、認識候補から外すようにする。
【０１２８】
このようにして、第１番目の単語についての認識処理が終了すると、次は、第２番目の単語についての認識処理（ステップｓ７０）に入り、この第２番目の単語についての認識処理が終了すると、次は、第３番目の単語についての認識処理（ステップｓ７３）に入る。なお、これら、第２番目と第３番目の単語についての認識処理は、第１番目の単語の認識処理と同様であるので、その説明は省略する。
【０１２９】
ところで、以上のような音声入力操作を行う際、話者と装置側の音声入力部（マイクロホン）との距離は、認識性能という面から考えると重要な要素となる。そこで、この実施の形態では、話者の音声入力操作の状況に応じて、音声入力部の音声入力ゲイン、つまり、マイクアンプ２の音声入力ゲインを切り替える制御を行う。この制御は、前述した各種処理の制御とともに制御部５で行う。以下、これについて説明する。
【０１３０】
このマイクアンプ２の音声入力ゲイン（以下では、単にゲインという）制御は、音声入力を行う場面がどのような場面であるかを判断して、その場面に応じてゲインを大きくしたり小さくしたりする制御である。
【０１３１】
たとえば、装置が動作をなす上で特に高い認識率を要求される音声が入力される場面か、それ以外の音声の入力される場面かを判断して、装置が動作をなす上で特に高い認識率を要求される音声が入力される場面である場合には、それ以外の音声が入力される場面に比べて、音声入力ゲインを小さくするというような制御を行う。
【０１３２】
具体的には、音声の特徴量が複数の単語間で相互に類似していて誤認識されやすい単語に対する音声が入力される場面、単語登録を行う場面、話者学習を行う場面などが考えられ、このような場面では、音声入力ゲインを小さくするような制御を行う。
【０１３３】
誤認識されやすい単語に対する音声が入力される場面というのは、この装置の場合、アラーム時刻や現在時刻の設定時において、時刻入力（午前、何時、何分）を行う場面が考えられる。このような時刻設定は、たとえば、「１時」と「７時」などのように、音声の特徴量が類似していて誤認識され易い音声が多く、しかも、時刻設定は正確になされることが要求される。
【０１３４】
したがって、このような音声入力を行う際は、マイクアンプ２のゲインを小さくして、話者にマイクに近づいて発話してもらう。
【０１３５】
一方、装置に対して呼びかけを行ったりする場面では、ゲインを大きくして、話者が装置から離れたところから音声の入力を可能とする。これは、装置に対して少し距離を置いた状態で、装置との会話を行うような場合に便利なものとするためである。
【０１３６】
このゲインを大きくする場面は、たとえば、「おはよう」、「ただいま」、「おやすみ」、「何時」、「アラーム」といった登録されている単語（単語セットｗ１に属する単語）などを入力するような場面であり、このような場面において入力されるこの種の単語は、前述の時刻情報（単語セットｗ２やｗ１）に比べると、同じ単語セットｗ１に属する他の単語間で誤認識されにくく、認識対象単語数も、この場合、数単語であるためそれほど多くはない。また、装置に対して気軽に呼びかけるような内容であることから、ゲインを高くして装置から離れた位置からでも入力できる法が好ましいものとなる。
【０１３７】
このように、どのような単語が入力される場面であるかによって、それに適した音声入力ゲインを設定する。
【０１３８】
前述したように、誤認識されやすい単語に対する音声が入力される場面、単語登録を行う場面、話者学習を行う場面などでは、マイクアンプ２のゲインを小さくし、話者にマイクロホン１の近くで発話させることによって、話者の口元とマイクロホン１の距離は、話者によってあまり大きくは変化しないで、ほぼ同じような距離となることが多い。これにより、Ｓ／Ｎ比がよくなるとともに、ダイナミックレンジが小さくなり、この状況での発話内容は高い認識率で認識される。
【０１３９】
このように、音声入力を行うときの状況によって、マイクアンプ２のゲインを制御し、それに応じた音声入力を行うようにするために、装置側から何らかの通知を行う。その通知内容としては、たとえば、「もう少しマイクロホンに近づいて話して下さい」とか「もう少し大きな声で話して下さい」、あるいは、「もう少し小さな声で話して下さい」といった内容であり、これらの内容を装置側から出力するようにする。
【０１４０】
制御部５は、現在の音声入力がどのような状況での音声入力であるか（たとえば、話者が単に装置に呼びかけを行っているのか、登録単語を入力しているのか、時刻設定を行っているのかなど）を把握することができるので、それに応じて、マイクアンプ２のゲインを切り替え制御するとともに、話者に対してマイクアンプ２のゲインに応じた発話を行わせるような内容を出力することが可能となる。
【０１４１】
たとえば、誤認識されやすい単語に対する音声が入力される場面、単語登録を行う場面、話者学習を行う場面などでは、マイクアンプ２のゲインを小さくするとともに、装置側から、「もう少しマイクロホンに近づいて話して下さい」といった内容を出力する。これにより、話者は自然にマイクロホンに近づいて発話するようになり、これによってＳ／Ｎ比が良くなるとともに、ダイナミックレンジが小さくなるので、認識性能を高めることができる。
【０１４２】
図８は以上説明した話者の音声入力操作の状況に応じてマイクアンプ２のゲインを切り替える制御を行う例を説明するフローチャートであり、ここでは、前述の図４の処理を行う際にゲインを切り替える例について説明する。
【０１４３】
図８において、認識モードであるか登録モードであるかの判定を行う（ステップｓ８１）。この判定において、登録モードである場合、マイクアンプ２のゲインを小さくするようにゲイン切り替えを行い（ステップｓ８２）、切り替えられたゲインによって音声入力を行う（ステップｓ８３）。この音声入力を行うステップｓ８３から話者学習処理までのステップｓ８９は、図４の音声入力を行うステップｓ１２から話者学習処理までのステップｓ１８と同じであるので、ここではその説明は省略する。
【０１４４】
一方、認識モードである場合には、場面に応じてマイクアンプ２のゲインを切り替える。その切り替えは、音声入力を行う場面がゲインを大きくする場面であるか否かを判定し（ステップｓ９０）、ゲインを大きくする場面であれば、マイクアンプ２のゲインを大きくするようにゲイン切り替えを行い（ステップｓ９１）、ゲインを小さくする場面であれば、マイクアンプ２のゲインを小さくするようにゲイン切り替えを行う（ステップｓ９２）。
【０１４５】
なお、ステップｓ９０におけるゲインを大きくする場面というのは、前述したように、呼びかけを行うような音声入力を行う場面であり、これに対して、ゲインを小さくする場面というのは、登録単語を入力する際や、アラーム時刻や現在時刻の設定時において、時刻入力（午前、何時、何分）を行うような誤認識される可能性が高かったり、特に高い認識率を得ようとする場合などである。
【０１４６】
そして、このように、そのときの場面に応じてゲインの設定を行って音声入力を行う（ステップｓ９３）。この音声入力（ステップｓ９３）から所定の処理（ステップｓ１０１）までは、図４の音声入力（ステップｓ１９）から所定の処理（ステップ２７）までと同じであるので、ここではその説明は省略する。
【０１４７】
また、このような音声によるコマンドを装置が受け付けて、そのコマンドに応じた動作を行うものにあって、個々の話者の声質や話し方の特徴によって良好に認識される話者と認識率が低い話者が存在することが多い。
【０１４８】
このように、特に認識率の悪い話者のために、装置側からは質問形式の発話内容を出力し、話者はそれを聞いて、肯定する場合は肯定を意味するボタンを操作し、否定する場合は否定を意味するボタンを操作することにより、「はい」または「いいえ」を認識させるのと同等の動作を行うことを可能とする。
【０１４９】
すなわち、話者が装置に対して設定したい情報（設定情報という）に対し、装置側から質問形式でその設定情報としての候補を１つ１つ順番に出力し、１つの候補が出力される都度、出力された候補について肯定を意味するボタンまたは否定を意味するボタンのいずれかのボタン入力を受け付け、肯定を意味するボタン入力を受け付けたときは、当該候補を前記設定情報として確定し、否定を意味するボタン入力を受け付けたときは、次の候補を出力する。
【０１５０】
このボタン操作による肯定または否定の入力を可能とするのは、認識率の悪い話者に対しての助けとするためであり、これをここではヘルプモードという。以下、このヘルプモードについて説明する。
【０１５１】
装置側の操作部１１には、肯定を意味する肯定ボタンＢＴ２１と否定を意味する否定ボタンＢＴ２２を設ける。つまり、話者によって肯定ボタンＢＴ２１が押されると、制御部５では肯定であると判断し、否定ボタンＢＴ２２が押されると制御部５では否定であると判断する。
【０１５２】
そして、ヘルプモードとするには、これまで説明してきた通常の認識モードにおいて、たとえば、肯定ボタンＢＴ２１と否定ボタンＢＴ２２が同時に数秒（２秒程度）以上押されることにより、制御部５がそれを検出してヘルプモードの設定がなされたと判定し、ヘルプモードへの移行を行う。なお、このヘルプモードへの移行は、肯定ボタンＢＴ２１と否定ボタンＢＴ２２が同時に数秒以上押されるという条件に限られるものではなく、他の方法でもよい。
【０１５３】
このようにして、ヘルプモードに入ると、装置側では音声認識動作は行わず、話者によって、肯定ボタンＢＴ２１か否定ボタンＢＴ２２のいずれかが押されたことを検知して、それに応じて処理を進行して行く。
【０１５４】
図９はこのヘルプモードを備えた場合の認識処理を説明するフローチャートである。図９において、Ｍ１は通常の認識モード時における処理手順、Ｍ２はヘルプモード時における処理手順であり、通常の認識モードＭ１からヘルプモードＭ２への移行は肯定ボタンＢＴ２１と否定ボタンＢＴ２２が同時に数秒（２秒程度）以上押されるボタン割り込み（ステップｓ１１０）によって移行する。なお、この図９に示される通常の認識モードＭ１における音声入力（ステップｓ１２１）から所定の処理（ステップｓ１２７）まで処理は、図２で示したステップｓ１〜ｓ７までの処理と同様であるのでここではその説明は省略する。
【０１５５】
今、通常の認識モードにより認識を行っているとし、この通常の認識モードにおいて、肯定ボタンＢＴ２１と否定ボタンＢＴ２２による割り込みが発生したとする（ステップｓ１１０）。
【０１５６】
これにより、ヘルプモードの設定がなされたか否かを判断し（ステップｓ１１１）、ヘルプモードの設定であれば、ヘルプモードであることを話者に通知する（ステップｓ１１２）。なお、ステップｓ１１２によるヘルプモードの設定か否かは、ここでは、肯定ボタンＢＴ２１と否定ボタンＢＴ２２が同時に数秒（２秒程度）以上押されたか否かによって判断する。
【０１５７】
このようにして、ヘルプモードＭ２への移行がなされると、肯定ボタンＢＴ２１または否定ボタンＢＴ２２の入力待ち状態となり（ステップｓ１１３）、肯定ボタンＢＴ２１または否定ボタンＢＴ２２のいずれかが押されたか否かを判断し（ステップｓ１１４）、押されたボタンが肯定ボタンＢＴ２１または否定ボタンＢＴ２２のいずれかであるか、あるいは、押された状態がどの程度継続しているかなどの判断を行い（ステップｓ１１５）、それに対する所定の処理を行う（ステップｓ１１６）。
【０１５８】
たとえば、話者が装置に対して設定したい情報としての候補を、それでよいかどうかを話者に問いかける質問形式で装置側から１つ１つ出力し、１つの候補が出力される都度、出力された候補について肯定ボタンＢＴ２１または否定ボタンＢＴ２２のいずれかのボタン入力を受け付け、肯定ボタンＢＴ２１の入力を受け付けたときは、当該候補を前記設定情報として確定し、否定ボタンＢＴ２２の入力を受け付けたときは、次の候補を出力する。なお、この具体的な処理内容についてはのちに説明する。
【０１５９】
そして、ヘルプモードが終了かどうかを判断し（ステップｓ１１７）、終了していなければステップｓ１１３に戻り、終了していれば、通常の認識モードＭ１に戻る。
【０１６０】
以下に具体的な操作例について図１０の状態遷移図を参照しながら説明する。なお、図１０において、括弧内の操作は話者の行う操作である。
【０１６１】
装置側からは、まず、「ヘルプモードとなりました」というように、ヘルプモードとなったことを話者に知らせる（ステップｓ１３１）。つづいて、装置側からは、「現在時刻の設定ですか」というように、話者が装置に対して設定したい情報を発話する（ステップｓ１３２）。この発話内容を話者が肯定する場合は、肯定ボタンＢＴ２１を押し（ステップｓ１３３）、それによって、現在時刻設定モードに入る（ステップｓ１３４）。
【０１６２】
また、現在時刻設定でなければ、否定ボタンＢＴ２２を押す（ステップｓ１３５）。これにより、装置側からは、「アラーム時刻の設定ですか」というような内容を発話する（ステップｓ１３６）。この発話内容を話者が肯定する場合は、肯定ボタンＢＴ２１を押し（ステップｓ１３７）、それによって、アラーム時刻設定モードに入る（ステップｓ１３８）。また、アラーム時刻設定でなければ、否定ボタンＢＴ２２を押す（ステップｓ１３９）。
【０１６３】
このように、装置側からの１つ１つの質問について、話者は「はい」または「いいえ」と応答する代わりに、肯定ボタンＢＴ２１または否定ボタンＢＴ２２を押す。これにより、装置側では、そのボタン操作に応じて処理を進めて行く。質問内容は、以上の２つだけではなく、その他にも、たとえば、「登録単語入力を行いますか」などがあるが、この図１０ではこれらの処理についての図示は省略されている。
【０１６４】
また、肯定ボタンＢＴ２１と否定ボタンＢＴ２２を誤って操作したときは、肯定ボタンＢＴ２１と否定ボタンＢＴ２２を瞬間的に同時操作することによって、１つ前の質問に戻れるようにする。
【０１６５】
前述した現在時刻設定モード（ステップｓ１３４）について簡単に説明する。肯定ボタンＢＴ２１または否定ボタンＢＴ２２を用いての現在時刻設定は、まず、装置側から、「午前」か否かを質問する。これに対して、話者が肯定ボタンＢＴ２１を押せば午前が確定し、否定ボタンＢＴ２２を押せば「午後」が確定する。
【０１６６】
午前または午後が確定した後は、装置側からは、まず、「１時ですか」と質問し、話者の設定したい時刻の時間の単位が「１時」であれば、肯定ボタンＢＴ２１を押し、これにより、１時が確定する。また、１時でなければ否定ボタンＢＴ２２を押す。これにより、装置側から「２時ですか」と質問し、話者の設定したい時刻の時間の単位が「２時」であれば、肯定ボタンＢＴ２１を押し、これにより、２時が確定する。また、２時でなければ否定ボタンＢＴ２２を押す。
【０１６７】
このような手順は時間の単位が確定するまで行われる。そして、時間の単位が確定すると、次に、分の単位の処理に入る。
【０１６８】
分の単位の動作も基本的には、前述した時の単位の動作と同じであるのでここではその説明は省略する。ただし、分の単位は、１分から始まって１分刻みに５９分まですべて発話するのは操作が面倒であるし、多くの時間がかかる。特に、話者の設定したい分単位に時刻が分台の終わりの方（たとえば、５９分）であると、多くの時間がかかる。
【０１６９】
そこで、分の単位の設定モード時おいては、否定ボタンＢＴ２２が押され続けた場合には、装置側からは、たとえば、「１０分」、（１秒おいて）、「２０分」、（１秒おいて）、「３０分」、・・・というように、１秒ごとに、１０分単位で音声出力し、装置側から「５０分」と発話したところで、話者が否定ボタンＢＴ２２の操作をやめると５０分を基点に、通常の動作に戻り、装置側が「５１分」と発話すると、否定ボタンＢＴ２２を押して、次に「５２分」と発話すると、否定ボタンＢＴ２２を押すという動作を行って、「５９分」で肯定ボタンＢＴ２１を押して、５９分を設定するというような設定方法としてもよい。
【０１７０】
以上のように、時刻設定は、設定に多くの時間を要する場合もあり、少しでも設定に要する時間を短縮するために、装置側から音声の出力中にも肯定ボタンＢＴ２１、否定ボタンＢＴ２２の入力を受け付けるようにする。その他、使い勝手をよくするために、肯定ボタンＢＴ２１、否定ボタンＢＴ２２の押し方（連続押し、同時押しなど）でそれに対応した機能をなすような設定としておき、装置側から、音声による使い方の説明などを行うようにすることもできる。
【０１７１】
このように、話者が装置に対して設定したい情報（設定情報）を発話したときその設定情報が装置側で正しく認識されない場合には、ヘルプモードの設定を可能とすることによって、装置側から質問形式で前記設定情報としての候補を１つ１つ順番に出力し、１つの候補が出力される都度、肯定ボタンＢＴ２１の入力を受け付けたときは、当該候補を前記設定情報として確定し、否定ボタンＢＴ２２の入力を受け付けたときは、次の候補を出力することで、話者が装置に対して設定したい情報をボタン操作で設定することができる。
【０１７２】
これにより、個々の話者の声質や話し方の特徴によって良好に認識されない場合でも、時刻設定などある程度の情報設定は十分可能となる。また、話すことが不自由な人でも時刻設定などを容易に行うことができる。
【０１７３】
ところで、これまで説明したこの実施の形態における音声時計装置は、現在時刻が話者の設定したアラーム時刻になったとき、話者が鳴り止めを行うまで、装置側からは現在時刻を出力し続けるようにする。たとえば、設定されたアラームが、午前１時２０分であるとし、その時刻に到達すると、装置側からは、「午前１時２０分です」と発話し、その１分経過後に、「午前１時２１分です」と発話し、さらに、１分経過後に、「午前１時２２分です」というように、１分刻みで現在時刻を発話する。これを話者が鳴り止め操作を行うまで続ける。なお、１分刻みでなくてもよく、たとえば１０秒ごとに現在時刻を発話するようにしてもよい。
【０１７４】
さらに、このアラームを発するとき、時刻だけではなく「早くおきなさい」といった言葉や、言葉と音楽を合成して出力することも可能である。
【０１７５】
また、話者からの鳴り止め操作としては、装置から前述したような時刻の発話があったあと、話者が何らかの音声を発することにより行う方法や、ボタンを操作する方法などがある。
【０１７６】
話者が何らかの音声を発することにより鳴り止めさせるには、話者の入力した音声のレベルが一定以上あり、しかも、その一定以上のレベルが一定の長さの場合に鳴り止めとする。なお、このときは、音声認識は行わない。また、これとは別に、話者が予め決めたある特定の単語を発話し、それを装置側で認識した場合にのみ鳴り止めとするということもできる。また、音声を入力する代わりにボタン操作で鳴り止めを行う際は、専用のボタンを設けることも可能であるが、前述した肯定ボタンＢＴ２１や否定ボタンＢＴ２２で代用することもできる。
【０１７７】
さらに、音量調節スイッチＶＳＷが設けられている場合には、その音量調節スイッチＶＳＷをオフとすることによって鳴り止めとすることもできる。
【０１７８】
この音量調節スイッチＶＳＷは、装置側からの出力音声の音量を調整するスイッチであり、操作部１１によってこの音量調節スイッチＶＳＷを調節することにより音声出力用アンプ７が制御され、出力音声の大きさを設定できる。この音量調節の具体例としては、たとえば、出力音声を「大」、「中」、「小」というように切替設定することが可能であり、さらに、音声の全く出ない状態とする「オフ」とすることもできるようになっている。
【０１７９】
このような音声認識機能を有した装置を家庭内で使用する場合、テレビジョンから発せられる音声、家庭内の人間の会話などにより、音声時計がいちいち反応して、不用意に音声を発するのを防止する役目を果たしている。なお、音量調節スイッチＶＳＷをオフした場合、消費電力を少なくするために、アンプなど周辺回路への電源供給を停止して、制御部（ＣＰＵ）５をスリープ状態とする。そして、音量調節スイッチＶＳＷがオンとなると、ＣＰＵ割り込みでＣＰＵを動作させ、周辺回路への電力供給を行う。
【０１８０】
さらに、本発明の実施の形態では、話者の入力する音声に対する応答内容は、複数用意し、それをランダムに変えて出力することも可能としている。これは、ユーザを飽きさせないための配慮であり、たとえば、、話者が「おはよう」と入力したときの装置側からの応答内容を複数用意しておき、「おはよう」に対する複数の応答内容のなかからランダムに応答内容を選択して出力するようにする。
【０１８１】
これにより、ユーザはその装置を長期間使用していても飽きることが少なくなる。
【０１８２】
なお、本発明は以上説明した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。
【０１８３】
その１つとして、認識可能な複数の単語のうち、幾つかの単語を登録単語として選び、それぞれの登録単語を認識対象話者が発話し、その音声データから各登録単語ごとの登録単語データを作成して保存し、前記認識対象話者から当該登録単語が発話された場合には、当該登録単語データを用いて音声認識し、それ以外の認識可能な単語が発話された場合には、前記標準話者音声モデルデータを用いて音声認識する処理を実現する際、前述の実施の形態では、図１に示すように、前記認識対象話者を、年齢や性別などに基づいて予め設定した範囲に絞り込み、当該範囲に属する不特定多数話者の音声データから特定話者群音声モデルデータ９２（第１〜第３の特定話者群音声モデルデータＭＤ１，ＭＣ２，ＭＤ３からなっている）を作成して、それを前記標準話者音声モデルデータとして保存した場合の例で説明したが、これに限られることなく、図１１に示すように、従来から用いられているあらゆる範囲の話者に対応できる標準話者音声モデルデータそのものを用いた場合にも適用できる。
【０１８４】
この図１１の例で示される標準話者音声モデルデータ９５は、前述したように、特定話者群に対応した音声モデルデータではなく、あらゆる範囲の話者に対応できる標準話者音声モデルデータである。これに伴い、図１で示された第１〜第３の特定話者群コードブックＣＢ１，ＣＢ２，ＣＢ３も、この場合は、標準話者音声モデルデータ９５に基づいて作成された標準話者コードブック９６となる。
【０１８５】
その他の処理手順については図１の場合と同じであるので、ここではその説明は省略する。
【０１８６】
このような構成であっても、本発明が行おうとする基本的な処理は可能となる。すなわち、認識可能な複数の単語のうち、幾つかの単語を登録単語として選び、それぞれの登録単語を認識対象話者が発話し、その音声データから各登録単語ごとの登録単語データＲＤ１，ＲＤ２，ＲＤ３を作成してＲＡＭ１０に保存し、前記認識対象話者から当該登録単語が発話された場合には、当該登録単語データＲＤ１，ＲＤ２，ＲＤ３を用いて音声認識し、それ以外の認識可能な単語が発話された場合には、前記標準話者音声モデルデータ９５を用いて音声認識する。
【０１８７】
また、前述の実施の形態で示した音声時計は、前述の実施の形態で説明したような様々な機能を有したものとすることも勿論可能であるが、これらの機能は、すべて必要なものではない。したがって、操作部１１に設けられる各種のスイッチや操作用のボタンなども、その機能を働かせるに必要なボタンのみを設ければよい。また、前述の実施の形態で説明した各種処理内容は、実施の形態で説明された内容に限られるものではない。たとえば、話者学習処理としては、前述の実施の形態では、ユニバーサルコードブック９４を用いて量子化コードブックＶＱ１，ＶＱ２，ＶＱ３を作成し、認識時にはこの量子化コードブックを用いて話者適応するようにしたが、これに限らず、登録単語データＲＤ１，ＲＤ２，ＲＤ３と第１〜第３の特定話者群者音声モデルデータＭＤ１，ＭＤ２．ＭＤ３から作成した写像関数を用いて話者適応することもでき、また、この写像関数と第１〜第３の特定話者群コードブックＣＢ１，ＣＢ２，ＣＢ３により作成された入力話者コードブック（ユニバーサルコードブック９４を用いてベクトル量子化する前のコードブック）を用いて話者適応することも可能である。
【０１８８】
さらに、前述の実施の形態では、複数の話者群に属する話者（話者＃１、＃２、＃３）が１つの装置を使用することを想定した例であるため、特定話者群音声モデルデータもそれに対応して第１〜第３の特定話者群音声モデルデータＭＤ１，ＭＤ２．ＭＤ３を設けたが、装置の種類によっては、使用者をある１つの話者群に属する話者（たとえば子供）のみを対象とできる場合もあり、このような場合には、特定話者群音声モデルデータもそれに対応して１つの特定話者群音声モデルデータのみを持てばよく、これによれば、ＲＯＭ９の容量をより一層小さくすることができ、制御部５の処理能力も小さいもので済み、その他、ＲＡＭ１０の容量も小さいもの出よく、装置全体のコストを大幅に小さく押さえることが可能となる。
【０１８９】
さらに、前述の実施に形態では、各種のモード設定などを操作部に設けられた各種ボタンによって行う例を示したが、ボタンは全く設けずに、全て音声によって設定可能とすることもできる。
【０１９０】
また、以上説明した本発明の処理を行う処理プログラムは、フロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくことができ、本発明はその記録媒体をも含むものである。また、ネットワークから処理プログラムを得るようにしてもよい。
【０１９１】
【発明の効果】
以上説明したように本発明は、装置に対してその時点でどのような種類の音声が入力される場面であるかによって、音声入力部の音声入力ゲインを切り替えるようにしたので、そのときの場面に応じた適切な音声入力ゲインでの音声入力が可能となる。
【０１９２】
ここでいうその時点の場面とは、装置が動作をなす上で特に高い認識率を要求される音声が入力される場面か、それ以外の音声の入力される場面かであって、前記装置が動作をなす上で特に高い認識率を要求される音声が入力される場面とは、具体的には、音声の特徴量が複数の単語間で相互に類似していて誤認識されやすい単語に対する音声が入力される場面、単語登録を行う場面、話者学習を行う場面の少なくとも１つであり、このような場面である場合には、音声入力ゲインを小さくするようにしている。
【０１９３】
このように、誤認識されやすい単語に対する音声が入力される場面や、単語登録を行う際の登録すべき単語に対する音声が入力される場面、さらには、話者学習を行う場面においては、音声入力ゲインを小さくすることで、Ｓ／Ｎ比を良くすることができ、高い認識率を得ることができる。
【０１９４】
これに対して、それ以外の音声が入力される場面として、たとえば、誤認識される可能性の低い音声が入力される場面では、音声入力ゲインをある程度大きくしておくことにより、装置から離れた位置からでも音声入力が可能となる。具体例として、装置に対しての呼びかけを行うような音声の場合には、遠いところから音声入力が行えた方が使い勝手という面から好ましいものとなるので、音声入力ゲインはある程度大きくしておいた方がよい結果が得られる。
【０１９５】
これらの点を考慮して、音声入力の状況に基づいて音声入力部の音声入力ゲインを切り替えることで、認識性能と使い勝手の両方を兼ね備えたものとすることができる。
【０１９６】
そして、音声入力ゲインを小さくする場合には、装置側から話者に対して通知するようにし、その内容としては、たとえば、装置側から、「もう少し大きな声で発話して下さい」といった内容や「マイクに近づいて発話して下さい」というような内容である。これにより話者の発話する音声が適切な状態で入力され、認識率の向上につながる。特に、話者の口元がマイクロホンに近づくことにより、話者の口元とマイクロホンとの間の距離が話者間でバラツキが少なくなり、ダイナミックレンジが小さくなって認識率のより一層の向上が期待できる。
【図面の簡単な説明】
【図１】本発明の音声認識装置の実施の形態を説明するブロック図。
【図２】話者に対応した音声モデルデータ（特定話者群音声モデルデータ）を用いて音声認識処理を行う例を説明するフローチャート。
【図３】本発明の実施の形態である音声時計装置の外観を概略的に示す図。
【図４】話者学習処理を可能とした音声認識処理の全体的な処理手順を説明するフローチャートであり、特定の一人の話者に対する処理手順を説明するフローチャートである。
【図５】話者学習処理を可能とした音声認識処理の全体的な処理手順を説明するフローチャートであり、複数の話者に対する処理手順を説明するフローチャートである。
【図６】本発明の実施の形態における連続した３単語（「午前」、「１時」、「２０分」）の認識処理を説明する状態遷移図。
【図７】図７で示した３単語の認識処理を一般的な連続単語認識処理として適用する場合の処理手順を説明するフローチャート。
【図８】話者の音声入力操作の状況に応じてマイクアンプのゲイン切り替えを含む処理手順を説明するフローチャート。
【図９】ヘルプモードを備えた音声認識処理手順を説明するフローチャート。
【図１０】音声認識処理について本発明の実施の形態におけるヘルプモード（肯定ボタンと否定ボタンによる「はい」または「いいえ」の入力モード）を説明する状態遷移図。
【図１１】本発明の音声認識装置の他の実施の形態の構成を説明するブロック図である。
【符号の説明】
１マイクロホン
２音声入力用アンプ（マイクアンプ）
３Ａ／Ｄ変換部
４音声分析部
５制御部（ＣＰＵ）
６Ｄ／Ａ変換部
７音声出力用アンプ
８スピーカ
９ＲＯＭ
１０ＲＡＭ
１１操作部
１２計時手段
９１出力音声データ
９２特定話者群者音声モデルデータ
９３特定話者群コードブック
９４ユニバーサルコードブック
９５標準話者音声モデルデータ
９３標準話者コードブック
１０１登録単語データ
ＭＤ１，ＭＤ２，ＭＤ３第１〜第３の特定話者群音声モデルデータ
ＣＢ１，ＣＢ２，ＣＢ３第１〜第３の特定話者群コードブック
ＲＤ１，ＲＤ２，ＲＤ３話者＃１〜話者＃３用の登録単語データ
ＶＱ１，ＶＱ２，ＶＱ３話者＃１〜話者＃３用の量子化コードブック

Claims

登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置であって、
前記モード切替スイッチによって登録モードに切り替えられた場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記通知は、発話の仕方や前記音声入力部に対する音声入力の仕方についての通知であることを特徴とする音声認識装置。
登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置における音声入力ゲイン設定方法であって、
前記モード切替スイッチによって登録モードに切り替えられた場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知することを特徴とする音声入力ゲイン設定方法。
登録モードと認識モードとの切り替えが可能なモード切替スイッチと、前記モード切替スイッチによって切り替えられたモードに応じた音声入力ゲインの設定が可能な音声入力部とを備えた音声認識装置における音声入力ゲイン設定処理プログラムを記録した記憶媒体であって、
前記モード切替スイッチによって登録モードと認識モードとのうちいずれのモードに切り替えられているかを判断する手順と、
前記モード切替スイッチによって登録モードに切り替えられていると判断した場合には、前記音声入力部における音声入力ゲインを小さく設定するとともに、音声入力ゲインを小さく設定したことに応じた音声入力を行うように話者に対して通知する手順とを含む音声入力ゲイン設定処理プログラムを記録した記憶媒体。