JP2005331882A

JP2005331882A - 音声認識装置、音声認識方法、および音声認識プログラム

Info

Publication number: JP2005331882A
Application number: JP2004152434A
Authority: JP
Inventors: Yoshihiro Kawazoe; 佳洋川添; Kenichiro Yano; 健一郎矢野
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2004-05-21
Filing date: 2004-05-21
Publication date: 2005-12-02
Also published as: US20050261903A1

Abstract

【課題】ユーザからの入力音声を認識して、当該音声に対応する処理を実行する機器において、未知語の登録を容易化することで利便性の向上をはかる。
【解決手段】入力音声の認識に成功した場合は、そのまま認識結果に対応する処理を実行する一方（ステップＳ４０４〜Ｓ４０６）、認識に失敗した場合は未知語である入力音声の登録処理へと移行し（ステップＳ４０４、ステップＳ４０７〜Ｓ４０９）、ユーザに目的の処理を選択させた上で、当該処理を実行する（ステップＳ４０６）。
【選択図】図４

Description

この発明は音声認識装置、音声認識方法、および音声認識プログラムに関する。

キーボードやマウスなどから所望の処理を指定させるのでなく、ユーザが発話した音声を認識して、当該音声に対応する処理を実行する機器がすでに実用化されている。その種類は様々であるが、特に目や手による操作が危険を伴う機器、たとえばカーナビゲーションシステムやカーオーディオなどの車載機器に多い。

そして上記機器では、通常、たとえば自車の現在位置を画面表示させる音声として「現在地」が一律に用意されるほか、個々のユーザが任意の音声を任意の処理に対応づけられるようになっている。すなわち、もとからある「現在地」のほか、たとえば「ここはどこ」を上記処理に対応づけて登録することで、以後は「現在地」と発話しても「ここはどこ」と発話しても、同様に自車位置を表示させられるようになる。こうした未知語の登録機能とを備えた機器としては、たとえば下記特許文献１に記載のものが挙げられる。

この特許文献１に記載の従来技術では、音声入力部に音声を入力すると、音声認識部では入力された音声を周波数分析して言葉の特徴パターンを作成し、認識辞書に登録されている言葉の特徴パターンと照合し、一致或いは近似する言葉の特徴パターンに対応する操作情報を操作部へ出力し、操作部を動作させる。操作部の操作が発声者の意図に反しているとき、或いは音声認識部で音声が認識不能と判定されたときは、再度同一の音声を音声入力部に入力すると共に、操作部を手動により操作して発声者の意図する操作内容を選択する。すると、音声認識部では、操作部の操作内容に対応する操作情報を読込み、認識辞書の追加登録部に読込んだ操作情報に対応する言葉の特徴パターンとして、今回作成した言葉の特徴パターンを追加登録する。

特開２０００−２７６１８７号公報

しかしながら、たとえば上記特許文献１に記載の従来技術では、未知語を登録するには同じ言葉をユーザがもう一度言い直さなければならなかった。このほか、たとえば機器のモードを「操作モード」から「登録モード」に切り替えなければならないなど、登録にさきだって煩雑・冗長な操作が必要であった。このため特に初心者は、未知語の登録機能を利用しない傾向があり、よく使う機能に覚えやすい言葉を割り当てるなどのカスタマイズをしない結果、機器に使いづらい印象を持ってしまうといった問題点があった。なお、上記は従来技術の問題点の一例に過ぎず、必ずしも従来技術の問題点が上記に限定されるとの趣旨ではない。

上述した課題を解決し、目的を達成するため、請求項１の発明にかかる音声認識装置は、ユーザからの入力音声を認識する音声認識手段と、前記音声認識手段により得られた認識結果の正誤を判定する正誤判定手段と、前記正誤判定手段により前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択手段と、前記入力音声を前記処理選択手段によりユーザが選択した処理の実行を指示するための音声として登録する音声登録手段と、前記処理選択手段によりユーザが選択した処理の実行を指示する実行指示手段と、を備えることを特徴とする。

また、請求項５の発明にかかる音声認識方法は、ユーザからの入力音声を認識する音声認識工程と、前記音声認識工程で得られた認識結果の正誤を判定する正誤判定工程と、前記正誤判定工程で前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択工程と、前記入力音声を前記処理選択工程でユーザが選択した処理の実行を指示するための音声として登録する音声登録工程と、前記処理選択工程でユーザが選択した処理の実行を指示する実行指示工程と、を含むことを特徴とする。

また、請求項９の発明にかかる音声認識プログラムは、ユーザからの入力音声を認識する音声認識工程と、前記音声認識工程で得られた認識結果の正誤を判定する正誤判定工程と、前記正誤判定工程で前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択工程と、前記入力音声を前記処理選択工程でユーザが選択した処理の実行を指示するための音声として登録する音声登録工程と、前記処理選択工程でユーザが選択した処理の実行を指示する実行指示工程と、をコンピュータに実行させることを特徴とする。

以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識方法、および音声認識プログラムの好適な実施の形態を詳細に説明する。

（実施の形態）
図１は、この発明の実施の形態にかかる音声認識装置のハードウエア構成の一例を示す説明図である。ここでは本発明にかかる音声認識装置の具体例として、たとえば音声による各種処理の実行指示が可能なカーナビゲーションシステムを考えるものとする。図示するように本装置は、少なくともプロセッサ１００、メモリ１０１、マイク１０２、スピーカ１０３およびディスプレイ１０４を備えている。

また、図２はこの発明の実施の形態にかかる音声認識装置の構成を機能的に示す説明図である。図示するように本装置は、入出力部２００、音響分析部２０１、音声記憶部２０２、音声認識部２０３、正誤判定部２０４、話者適応処理部２０５、音声登録部２０６および実行部２０７を備えている。

まず、入出力部２００はユーザからの音声の入力を受け付けたり、ユーザへの通知や問い合わせなどを音や画面の形で出力したりする機能部であり、具体的には図１に示したマイク１０２、スピーカ１０３、ディスプレイ１０４、およびそれらを制御するプロセッサ１００により実現される。また、入出力部２００は入力音声を一時的に保存しておく入力音声記憶部２００ａを備えており、これはメモリ１０１により実現される。

音響分析部２０１は、入出力部２００から入力した音声について、当該音声を特徴づける各種音響パラメータの算出などを行う機能部であり、具体的にはプロセッサ１００により実現される。

音声記憶部２０２は、処理とその実行を指示するための音声（のテンプレート）との対応表を保持する機能部であり、具体的にはメモリ１０１により実現される。図３は上記対応表の内容を模式的に示す説明図である。図示するように、一つの処理には少なくとも一つの音声が対応づけられている。

音声認識部２０３は、音響分析部２０１による分析結果にもとづいて、上記対応表中の音声のうち入力音声に一致するものを特定する機能部であり、具体的にはプロセッサ１００により実現される。なお、音声認識の手法としては動的計画法（ＤＰマッチング）、ニューラルネットワークなどもあるが、ここでは現在一般的となっているＨＭＭ（隠れマルコフモデル）を採用する。すなわち音声認識部２０３は、入力音声の音響パラメータをあらかじめ用意されたテンプレート（図３に示した対応表中の各音声）とマッチングし、各テンプレートの尤度（スコア）を算出する。そして認識結果として、尤度が最大となったテンプレートを後述する正誤判定部２０４に通知する。

正誤判定部２０４は、音声認識部２０３から入力した認識結果の正誤を判定するとともに、ユーザが意図する処理の実行指示を後述する実行部２０７に出力する機能部であり、具体的にはプロセッサ１００により実現される。ここでは認識結果の尤度が所定の閾値以上であれば正解とし、当該正解を後述する話者適応処理部２０５へ、当該正解に対応する処理の実行指示を実行部２０７へ、それぞれ出力する。一方、尤度が閾値未満であれば不正解とし、後述する音声登録部２０６に指示して、入力音声を図３の対応表に登録させるとともに、登録時に対応づけられた処理の実行指示を実行部２０７へ出力する。

話者適応処理部２０５は、正誤判定部２０４で認識結果が正解と判定された場合に、上記ユーザの音声の認識率が向上するようテンプレートを適応する処理（話者適応処理）を行う機能部であり、具体的にはプロセッサ１００により実現される。なお、上記処理の手法としてはたとえばＭＬＬＲ、ＭＡＰ推定法など既知の手法を採用する。

音声登録部２０６は、正誤判定部２０４で認識結果が不正解と判定された場合に、入力音声を図３の対応表中のいずれかの処理に対応づける機能部であり、具体的にはプロセッサ１００により実現される。実行部２０７は、正誤判定部２０４から実行指示のあった処理を実際に実行する機能部であり、具体的にはプロセッサ１００のほか、処理に必要な各種ハードウエア（図示せず）により実現される。

次に、図４はこの発明の実施の形態にかかる音声認識装置の動作手順を示すフローチャートである。本装置は、その入出力部２００によりユーザからの音声入力を受け付けると（ステップＳ４０１）、上記音声について音響分析部２０１により音響分析を行い（ステップＳ４０２）、さらに音声認識部２０３によりその認識を行う（ステップＳ４０３）。

そして、正誤判定部２０４により認識結果が正解とされた場合（ステップＳ４０４：Ｙｅｓ）、正誤判定部２０４は上記正解を話者適応処理部２０５に出力し、これを受けた話者適応処理部２０５が話者適応処理を行う（ステップＳ４０５）。また、音声認識部２０３は上記正解に対応する処理の実行指示を実行部２０７に出力し、これを受けた実行部２０７が当該処理を実行する（ステップＳ４０６）。

一方、認識結果が不正解とされた場合（ステップＳ４０４：Ｎｏ）、正誤判定部２０４は音声登録部２０６に指示して、図３に示した対応表へ入力音声を登録させる。すなわち、これを受けた音声登録部２０６はまず音響分析部２０１に指示して、入力音声記憶部２００ａ内の入力音声を対象に、当該音声を図３の対応表に追加するのに必要な音響分析（テンプレートを作成するための音響分析）を行わせる（ステップＳ４０７）。なお、たとえば音響分析部２０１内に分析結果記憶部を設け、ステップＳ４０２の分析結果を一時的に保存しておくようにすれば、これを使い回すことでステップＳ４０７の処理を省略することができる。

次に、音声登録部２０６は入出力部２００に指示して、エラー発生を意味する所定の報知音をスピーカ１０３に出力させるとともに、図５に示すような処理選択画面をディスプレイ１０４に表示させる（ステップＳ４０８）。そして、図示する画面でユーザが選択した処理を入出力部２００から通知されると、図３の対応表中の当該処理のエントリに入力音声のテンプレートを追加する（ステップＳ４０９）。その後、音声登録部２０６は上記テンプレートが対応づけられた処理を正誤判定部２０４に通知し、これを受けた正誤判定部２０４から実行部２０７へ当該処理の実行指示が出力されて、実行部２０７により実際に実行される（ステップＳ４０６）。

たとえばカーナビゲーションシステムである本装置のディスプレイ１０４に、現在の自車位置を表示させる場合、ユーザは「現在地」と発話することで上記処理を実行させることができる（ステップＳ４０１〜Ｓ４０６）。この左側の流れは従来技術と同様であるが、ユーザが上記処理を意図して図３の対応表にない「ここはどこ」を発話した場合、図３中の各音声の尤度はいずれも閾値未満となる結果、処理はステップＳ４０４からステップＳ４０７〜Ｓ４０９へと分岐する。そしてこの右側の流れで、未知語である「ここはどこ」が、現在の自車位置を表示させるための音声として図３の対応表に追加される。図６は、未知語登録後の上記対応表の内容を模式的に示す説明図である。

以上説明した実施の形態によれば、当初は「現在地」と発話しなければ実行できなかった処理も、「ここはどこ」と発話していったん認識に失敗させ、図５の画面から目的の処理を選択しておくだけで、以後は「現在地」「ここはどこ」のいずれによっても現在の自車位置を画面表示できるようになる。従来必要であった、同じ発話を繰り返したりモードを切り替えたりといった煩雑・冗長な操作が必要なく、操作の中で自然に未知語の登録ができるので、初心者でもよく使う処理に覚えやすい言葉を割り当てるなどして、本装置をより使いやすい形にカスタマイズしてゆくことができる。

また、従来の話者適応処理は発話内容が既知であることを条件とするので、認識が失敗した場合入力音声は単に破棄されていた（発話内容を特定できないため）が、上述した実施の形態では従来破棄されていた情報を、未知語登録機能の利用を促進する目的に有効活用することができる。

なお、上述した実施の形態では認識に失敗すると、そのまま入力音声を所望の処理に登録できる状態になるが、ユーザが発話した音声の登録を望まないこともあるので、たとえばステップＳ４０８の後に「今回の音声を登録しますか？」などの問い合わせを発し、ユーザが望んだ場合にのみステップＳ４０９の登録を行うようにしてもよい。

また、上述した実施の形態では入力音声に対応する処理を図５の画面から選択させたが、たとえば認識失敗の直後に、ユーザが音声以外の方法（たとえばボタン操作など）で実行を指示した処理に入力音声を対応づけるようにしてもよい。上述した実施の形態では、図３の対応表に存在する処理について新たな音声を追加できるのみであるが、このようにすることで新たな処理と、それに対応する新たな音声とをあわせて追加することが可能となる。

また、上述した実施の形態では一つの処理に音声をいくつでも対応づけることができるが、たとえば処理ごとに５個までというように登録できる音声に制限を設けるようにしてもよい。

また、上述した実施の形態ではたとえば「現在地」が既にあるのに気付かずに、わずかに異なる「現在位置」を登録してしまうといった無駄が生じやすいので、たとえば図５の画面で選択された処理について、初期登録では対応する音声は「現在地」であることをユーザに教示するようにしてもよい。この教示は音声あるいは画面のいずれでも行うことができる。

また、上述した実施の形態では尤度と閾値との大小関係により機械的に認識結果の正誤を判定するので、実際には誤ったテンプレートを正解とし、誤った処理を実行してしまうおそれがある。そこで尤度の高低にかかわらず、認識結果の正誤を逐一ユーザに問い合わせるようにしてもよい。

また、請求項１・請求項５あるいは請求項９に記載の発明によれば、入力音声の認識に失敗した場合はそのまま（特段の操作等は必要なく）当該音声の登録モードへと移行するとともに、当該音声に対応づけられた処理が実行される。一方、請求項２・請求項６あるいは請求項１０に記載の発明によれば、入力音声の認識が成功した場合は、そのまま当該音声に対応づけられた処理が実行される。また、請求項３・請求項７あるいは請求項１１に記載の発明によれば、認識成功時には話者適応処理もあわせて実行される。また、請求項４・請求項８あるいは請求項１２に記載の発明によれば、どの音声が登録されるかをユーザが事前に確認できる。

なお、本実施の形態で説明した音声認識方法は、あらかじめ用意されたプログラムをプロセッサやマイクロコンピュータ等の演算処理装置で実行することにより実現することができる。このプログラムは、ＲＯＭ、ＨＤ、ＦＤ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＭＯ、ＤＶＤ等の演算処理装置で読み取り可能な記録媒体に記録され、演算処理装置によって記録媒体から読み出されて実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

この発明の実施の形態にかかる音声認識装置のハードウエア構成の一例を示す説明図である。この発明の実施の形態にかかる音声認識装置の構成を機能的に示す説明図である。処理とその実行を指示するための音声との対応表の内容を模式的に示す説明図である。この発明の実施の形態にかかる音声認識装置の動作手順を示すフローチャートである。認識失敗の場合に表示される処理選択画面の一例を示す説明図である。未知語登録後の図３の対応表の内容を模式的に示す説明図である。

符号の説明

１００プロセッサ
１０１メモリ
１０２マイク
１０３スピーカ
１０４ディスプレイ
２００入出力部
２０１音響分析部
２０２音声記憶部
２０３音声認識部
２０４正誤判定部
２０５話者適応処理部
２０６音声登録部
２０７実行部

Claims

ユーザからの入力音声を認識する音声認識手段と、
前記音声認識手段により得られた認識結果の正誤を判定する正誤判定手段と、
前記正誤判定手段により前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択手段と、
前記入力音声を前記処理選択手段によりユーザが選択した処理の実行を指示するための音声として登録する音声登録手段と、
前記処理選択手段によりユーザが選択した処理の実行を指示する実行指示手段と、
を備えることを特徴とする音声認識装置。
前記実行指示手段は、前記正誤判定手段により前記認識結果が正しいと判定された場合は前記認識結果に対応づけられた処理の実行を指示することを特徴とする前記請求項１に記載の音声認識装置。
さらに、前記正誤判定手段により前記認識結果が正しいと判定された場合に、前記ユーザからの入力音声の認識率を向上させるための処理を行う話者適応処理手段を備えることを特徴とする前記請求項２に記載の音声認識装置。
前記音声登録手段は、前記入力音声を登録する前に登録内容を提示する提示手段を備えることを特徴とする前記請求項１〜請求項３のいずれか一つに記載の音声認識装置。
ユーザからの入力音声を認識する音声認識工程と、
前記音声認識工程で得られた認識結果の正誤を判定する正誤判定工程と、
前記正誤判定工程で前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択工程と、
前記入力音声を前記処理選択工程でユーザが選択した処理の実行を指示するための音声として登録する音声登録工程と、
前記処理選択工程でユーザが選択した処理の実行を指示する実行指示工程と、
を含むことを特徴とする音声認識方法。
前記実行指示工程では、前記正誤判定工程で前記認識結果が正しいと判定された場合は前記認識結果に対応づけられた処理の実行を指示することを特徴とする前記請求項５に記載の音声認識方法。
さらに、前記正誤判定工程で前記認識結果が正しいと判定された場合に、前記ユーザからの入力音声の認識率を向上させるための処理を行う話者適応処理工程を含むことを特徴とする前記請求項６に記載の音声認識方法。
前記音声登録工程では、前記入力音声を登録する前に登録内容を提示することを特徴とする前記請求項５〜請求項７のいずれか一つに記載の音声認識方法。
ユーザからの入力音声を認識する音声認識工程と、
前記音声認識工程で得られた認識結果の正誤を判定する正誤判定工程と、
前記正誤判定工程で前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択工程と、
前記入力音声を前記処理選択工程でユーザが選択した処理の実行を指示するための音声として登録する音声登録工程と、
前記処理選択工程でユーザが選択した処理の実行を指示する実行指示工程と、
をコンピュータに実行させることを特徴とする音声認識プログラム。
前記実行指示工程では、前記正誤判定工程で前記認識結果が正しいと判定された場合は前記認識結果に対応づけられた処理の実行を指示することを特徴とする前記請求項９に記載の音声認識プログラム。
さらに、前記正誤判定工程で前記認識結果が正しいと判定された場合に、前記ユーザからの入力音声の認識率を向上させるための処理を行う話者適応処理工程を含むことを特徴とする前記請求項１０に記載の音声認識プログラム。
前記音声登録工程では、前記入力音声を登録する前に登録内容を提示することを特徴とする前記請求項９〜請求項１１のいずれか一つに記載の音声認識プログラム。