JP2008051950A

JP2008051950A - 情報処理装置

Info

Publication number: JP2008051950A
Application number: JP2006226635A
Authority: JP
Inventors: Makoto Hirota; 誠廣田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-08-23
Filing date: 2006-08-23
Publication date: 2008-03-06

Abstract

【課題】音声認識において、プッシュ・トゥー・トークなど、音声入力のためのトリガ入力を行う必要をなくし、かつ、周囲雑音など無関係な入力音声を誤って音声認識して不適当な振る舞いをする確率を低減する。
【解決手段】ユーザからの入力音声を認識する音声認識部、音声認識結果に基づいてユーザとの対話制御する対話制御部、表示を行う表示部、音声認識結果の確信度が閾値以上か否かを判定する判定部、閾値の値を制御する閾値制御部を備える。
【選択図】図１

Description

本発明は、音声対話を含んだユーザインタフェースを提供する情報処理装置に関する。

音声認識や音声合成を含んだユーザインタフェースが、カーナビをはじめとする機器操作に適用されるようになってきた。音声認識は、一般に、周囲雑音の影響を受けるという問題があり、そのために、さまざまな工夫がなされてきた。例えば、ユーザが音声入力を行う時、所定のボタン(＝トリガボタン)を押してから、あるいは押しながら発声するようにすることが多い。トリガボタンをきっかけに音声取り込みを開始することにより、無関係な音を取り込んで不適切な音声認識を行ってしまうという問題が軽減される。ただ、ユーザは、トリガボタンを押すことをしばしば忘れることがある。また、トリガボタンを押さなければならないというのは、トリガボタンを備えた機器やリモコンが手元にないといけないという、操作上の大きな制約になる。これに対して、トリガボタンをなくすための工夫がなされてきた。特許文献１では、ユーザの操作開始に対応する特定の言葉のみを認識することができる音声操作開始判定手段を常時働かせておき、この特定の言葉を認識すれば、そのとき初めて音声認識をアクティブな状態にする、という提案をしている。
特開２００２−３２０７８号公報

特許文献１では、音声操作開始判定手段自体が、雑音や無関係な会話を特定の言葉と認識してしまうと、誤って音声認識がアクティブになってしまう、という問題があった。

上記問題を解決するために、本発明のユーザインタフェース方式は、ユーザからの入力音声を認識する音声認識部、音声認識結果に基づいてユーザとの対話を制御する対話制御部、表示を行う表示部を備え、前記対話制御部は、前記音声認識部がユーザからのN回目の発声を認識し、それが特定の第一のキーワードである確信度が所定の閾値以上である場合にのみ所定の第一の出力を行い、閾値以下の場合は、続いてユーザから発声されたN+1回目の音声を認識し、それが特定の第一のキーワードである確信度が、N回目よりも低い所定の閾値以上である場合にのみ所定の第一の出力を行い、さらに、前記第一の出力後、一定時間内に、前記音声認識部がユーザからの第二の発声を認識し、それが特定の第二のキーワードであると認識した場合にのみ、ユーザとの対話を開始し、特定の第二のキーワードであると認識しなかった場合は、前記第一の出力を取り止めてユーザとの対話を開始しないことを特徴ととし、
さらに、前記所定時間内に、前記音声認識部が前記第二の発声を認識し、それが前記第二のキーワードであると認識した場合、前記第一のキーワードであると認識された入力音声を前記第一のキーワードとしてより認識しやすくなるよう学習し、前記第二の発声を前記第二のキーワードであると認識しなかった場合、前記第一のキーワードであると認識された入力音声を前記第一のキーワードであると認識しにくくなるよう学習することを特徴とする。

本発明によれば、プッシュ・トゥー・トークなど、音声入力のためのトリガ入力を行う必要がなくなり、かつ、周囲雑音など無関係な入力音声を誤って音声認識して不適当な振る舞いをする確率を低減することができる、という効果が生まれる。

以下、図面を参照しながら本発明の好適な実施例について説明していく。

本実施例では、図４の４０１のようなデジタルテレビを音声で操作するケースを説明する。図１は、本実施例に係るデジタルテレビのユーザインタフェースのブロック図である。同図において、１０１は音声入力部である。１０２は音声認識部である。１０３は判定部であり、音声認識結果の確信度が閾値を超えるか否かを判定する。１０４は閾値制御部である。１０５は対話制御部であり、本実施例の音声対話の流れを制御する。１０６は音声出力部である。１０７は表示部である。

図２は、本実施例に係るデジタルテレビのハードウエア構成を示す構成図である。同図において、２０１はCPUであり、後述するブラウザ３０２の動作手順を実現するプログラムに従って動作する。２０２はRAMであり、上記プログラムの動作に必要な記憶領域を提供する。２０３はROMであり、上記プログラムの動作手順を実現するプログラムなどを保持する。２０４はD/Aコンバータである。２０５はA/Dコンバータである。２０６は液晶表示画面である。２０７はスピーカである。２０８はマイクである。２０９はバスである。

図３のフローチャートに沿って、本実施例の動作を説明する。デジタルテレビのユーザインタフェースは、マイク２０８を通じて音声入力があるか否かを常時監視し(S301)、音声入力があれば、その音声を音声認識する(S302)。この音声認識で用いる音声認識文法は、少なくとも、所定の第一のキーワード、ここでは、音声対話を行うデジタルテレビ上の仮想のキャラクタの名前(ここでは、"タロー"とする)を含んでいる。音声認識結果は、その結果に対する確信度データとともに音声認識部１０２から出力される。音声認識結果が、所定の第一のキーワード"タロー"であり、かつ、その確信度の値が所定の閾値より大きいかどうかをチェックし(S303)、大きくなければ、閾値の値を所定の値だけ減らして(S304)、S301へ戻り、再び音声入力待ち状態になる。確信度の値が所定の閾値より大きい場合は、図4の４０２のように、画面の一部にキャラクターを表示する。これが、キャラクターが自分の名前が呼ばれたと認識した状態である。閾値の設定により、例えば、デジタルテレビが、周囲雑音や無関係な音声を、誤って"タロー"と認識し、ユーザの意図に反してキャラクターが画面上に登場することを防ぐことができる。逆に、ユーザが意図して"タロー"と発声しても、認識結果の確信度が閾値に満たない場合は、キャラクターが登場せず、発声が無視されてしまうこともある。しかし、S304で閾値を下げていくため、ユーザが何度か"タロー"と繰り返し発声すれば、認識されやすくなっていく。

画面の一部にキャラクターが画面上に登場した後は、まず、エージェントが登場してから現在まで、所定の時間が経過したかをチェックする(S306)。所定時間内の場合は、入力音声をチェックし(S307)、入力音声があれば音声認識する(S308)。この音声認識は、所定の第二のキーワードを認識語彙に持つ。例えば、"ごくろう"というキーワードである。認識結果がこの所定の第二のキーワードであれば(S309)、ユーザとキャラクターの間で対話が可能な状態になり、その後、ユーザは、音声入力を用いてデジタルテレビの操作が可能になる。一方、入力音声がなかったり、認識結果が所定の第二のキーワードでなければ、S306に戻る。S306の経過時間チェックで、所定の時間が経過していたら、キャラクターを非表示にし(S310)、 S301に戻る。これは、キャラクターとの対話が成立しなかったケースである。

以上のようにすることで、周囲雑音など無関係な音声によってキャラクターがユーザの意図に反して画面に登場することを防ぐことができる。またそれと同時に、ユーザは正しい単語を繰り返し発声すれば、それが正しく認識される確率が高まり、意図した通りに、キャラクターを画面上に呼び出して、対話を開始することができる。

上記実施例１の図３S309において、ユーザの発声、例えば"ごくろう"が、所定の第二のキーワードとして正しく認識され、対話が成立した場合、S301で入力された第一の音声は、"タロー"と認識して正しかったことがわかる。そこで、上記第一の音声が、"タロー"と認識される確信度がより高くなるように音声認識部１０２を学習するようにする。こうすることにより、今後、S301において、上記第一の音声に近い音声が入力された場合、これが"タロー"と認識される確率が高まる。

逆に、S306においてタイムアウトして対話が成立しなかった場合、上記第一の音声は、"タロー"ではなかったことがわかるので、上記第一の音声が、"タロー"と認識される確信度がより低くなるように音声認識部１０２を学習するようにする。こうすることにより、今後、S301において、上記第一の音声に近い音声が入力された場合、これが"タロー"と認識される確率が低くなる。学習の方法は、公知の技術で実現可能である。

上記実施例１では、S305においてキャラクターを表示するようにしていたが、代わりに、あるいは、表示と同時に、所定の音声出力を行うようにしてもかまわない。例えば、"いかがなさいましたか？"という音声を出力してもよい。

なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。

本発明の実施例１に係るデジタルテレビのブロック図である。本発明の実施例１に係るデジタルテレビのハードウエア構成図ある。本発明の実施例１に係るユーザインタフェースの動作を説明するフローチャートである。本発明の実施例１に係るデジタルテレビの画面表示の例である。

Claims

ユーザからの入力音声を認識する音声認識部、
音声認識結果に基づいてユーザとの対話を制御する対話制御部、
表示を行う表示部を備え、
前記対話制御部は、前記音声認識部がユーザからのN回目の発声を認識し、それが特定の第一のキーワードである確信度が所定の閾値以上である場合にのみ第一の出力を行い、閾値以下の場合は、続いてユーザから発声されたN+1回目の音声を認識し、それが特定の第一のキーワードである確信度が、N回目よりも低い所定の閾値以上である場合にのみ第一の出力を行い、さらに、前記第一の出力後、一定時間内に、前記音声認識部がユーザからの第二の発声を認識し、それが特定の第二のキーワードであると認識した場合にのみ、ユーザとの対話を開始し、特定の第二のキーワードであると認識しなかった場合は、前記第一の出力を取り止めてユーザとの対話を開始しないことを特徴とする情報処理装置。
前記第一の出力は、画面上の表示であることを特徴とする請求項１に記載の情報処理装置。
前記第一の出力は、音声出力であることを特徴とする請求項１に記載の情報処理装置。
前記所定時間内に、前記音声認識部が前記第二の発声を認識し、それが前記第二のキーワードであると認識した場合、前記第一のキーワードであると認識された入力音声を前記第一のキーワードとしてより認識しやすくなるよう学習し、前記第二の発声を前記第二のキーワードであると認識しなかった場合、前記第一のキーワードであると認識された入力音声を前記第一のキーワードであると認識しにくくなるよう学習することを特徴とする請求項１乃至３に記載の情報処理装置。