JP2008051950A - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP2008051950A JP2008051950A JP2006226635A JP2006226635A JP2008051950A JP 2008051950 A JP2008051950 A JP 2008051950A JP 2006226635 A JP2006226635 A JP 2006226635A JP 2006226635 A JP2006226635 A JP 2006226635A JP 2008051950 A JP2008051950 A JP 2008051950A
- Authority
- JP
- Japan
- Prior art keywords
- user
- keyword
- voice
- voice recognition
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】 音声認識において、プッシュ・トゥー・トークなど、音声入力のためのトリガ入力を行う必要をなくし、かつ、周囲雑音など無関係な入力音声を誤って音声認識して不適当な振る舞いをする確率を低減する。
【解決手段】 ユーザからの入力音声を認識する音声認識部、音声認識結果に基づいてユーザとの対話制御する対話制御部、表示を行う表示部、音声認識結果の確信度が閾値以上か否かを判定する判定部、閾値の値を制御する閾値制御部を備える。
【選択図】 図1
【解決手段】 ユーザからの入力音声を認識する音声認識部、音声認識結果に基づいてユーザとの対話制御する対話制御部、表示を行う表示部、音声認識結果の確信度が閾値以上か否かを判定する判定部、閾値の値を制御する閾値制御部を備える。
【選択図】 図1
Description
本発明は、音声対話を含んだユーザインタフェースを提供する情報処理装置に関する。
音声認識や音声合成を含んだユーザインタフェースが、カーナビをはじめとする機器操作に適用されるようになってきた。音声認識は、一般に、周囲雑音の影響を受けるという問題があり、そのために、さまざまな工夫がなされてきた。例えば、ユーザが音声入力を行う時、所定のボタン(=トリガボタン)を押してから、あるいは押しながら発声するようにすることが多い。トリガボタンをきっかけに音声取り込みを開始することにより、無関係な音を取り込んで不適切な音声認識を行ってしまうという問題が軽減される。ただ、ユーザは、トリガボタンを押すことをしばしば忘れることがある。また、トリガボタンを押さなければならないというのは、トリガボタンを備えた機器やリモコンが手元にないといけないという、操作上の大きな制約になる。これに対して、トリガボタンをなくすための工夫がなされてきた。特許文献1では、ユーザの操作開始に対応する特定の言葉のみを認識することができる音声操作開始判定手段を常時働かせておき、この特定の言葉を認識すれば、そのとき初めて音声認識をアクティブな状態にする、という提案をしている。
特開2002−32078号公報
特許文献1では、音声操作開始判定手段自体が、雑音や無関係な会話を特定の言葉と認識してしまうと、誤って音声認識がアクティブになってしまう、という問題があった。
上記問題を解決するために、本発明のユーザインタフェース方式は、ユーザからの入力音声を認識する音声認識部、音声認識結果に基づいてユーザとの対話を制御する対話制御部、表示を行う表示部を備え、前記対話制御部は、前記音声認識部がユーザからのN回目の発声を認識し、それが特定の第一のキーワードである確信度が所定の閾値以上である場合にのみ所定の第一の出力を行い、閾値以下の場合は、続いてユーザから発声されたN+1回目の音声を認識し、それが特定の第一のキーワードである確信度が、N回目よりも低い所定の閾値以上である場合にのみ所定の第一の出力を行い、さらに、前記第一の出力後、一定時間内に、前記音声認識部がユーザからの第二の発声を認識し、それが特定の第二のキーワードであると認識した場合にのみ、ユーザとの対話を開始し、特定の第二のキーワードであると認識しなかった場合は、前記第一の出力を取り止めてユーザとの対話を開始しないことを特徴ととし、
さらに、前記所定時間内に、前記音声認識部が前記第二の発声を認識し、それが前記第二のキーワードであると認識した場合、前記第一のキーワードであると認識された入力音声を前記第一のキーワードとしてより認識しやすくなるよう学習し、前記第二の発声を前記第二のキーワードであると認識しなかった場合、前記第一のキーワードであると認識された入力音声を前記第一のキーワードであると認識しにくくなるよう学習することを特徴とする。
さらに、前記所定時間内に、前記音声認識部が前記第二の発声を認識し、それが前記第二のキーワードであると認識した場合、前記第一のキーワードであると認識された入力音声を前記第一のキーワードとしてより認識しやすくなるよう学習し、前記第二の発声を前記第二のキーワードであると認識しなかった場合、前記第一のキーワードであると認識された入力音声を前記第一のキーワードであると認識しにくくなるよう学習することを特徴とする。
本発明によれば、プッシュ・トゥー・トークなど、音声入力のためのトリガ入力を行う必要がなくなり、かつ、周囲雑音など無関係な入力音声を誤って音声認識して不適当な振る舞いをする確率を低減することができる、という効果が生まれる。
以下、図面を参照しながら本発明の好適な実施例について説明していく。
本実施例では、図4の401のようなデジタルテレビを音声で操作するケースを説明する。図1は、本実施例に係るデジタルテレビのユーザインタフェースのブロック図である。同図において、101は音声入力部である。102は音声認識部である。 103は判定部であり、音声認識結果の確信度が閾値を超えるか否かを判定する。104は閾値制御部である。105は対話制御部であり、本実施例の音声対話の流れを制御する。106は音声出力部である。107は表示部である。
図2は、本実施例に係るデジタルテレビのハードウエア構成を示す構成図である。同図において、201はCPUであり、後述するブラウザ302の動作手順を実現するプログラムに従って動作する。202はRAMであり、上記プログラムの動作に必要な記憶領域を提供する。203はROMであり、上記プログラムの動作手順を実現するプログラムなどを保持する。204はD/Aコンバータである。205はA/Dコンバータである。206は液晶表示画面である。207はスピーカである。208はマイクである。209はバスである。
図3のフローチャートに沿って、本実施例の動作を説明する。デジタルテレビのユーザインタフェースは、マイク208を通じて音声入力があるか否かを常時監視し(S301)、音声入力があれば、その音声を音声認識する(S302)。この音声認識で用いる音声認識文法は、少なくとも、所定の第一のキーワード、ここでは、音声対話を行うデジタルテレビ上の仮想のキャラクタの名前(ここでは、"タロー"とする)を含んでいる。音声認識結果は、その結果に対する確信度データとともに音声認識部102から出力される。音声認識結果が、所定の第一のキーワード"タロー"であり、かつ、その確信度の値が所定の閾値より大きいかどうかをチェックし(S303)、大きくなければ、閾値の値を所定の値だけ減らして(S304)、S301へ戻り、再び音声入力待ち状態になる。確信度の値が所定の閾値より大きい場合は、図4の402のように、画面の一部にキャラクターを表示する。これが、キャラクターが自分の名前が呼ばれたと認識した状態である。閾値の設定により、例えば、デジタルテレビが、周囲雑音や無関係な音声を、誤って"タロー"と認識し、ユーザの意図に反してキャラクターが画面上に登場することを防ぐことができる。逆に、ユーザが意図して"タロー"と発声しても、認識結果の確信度が閾値に満たない場合は、キャラクターが登場せず、発声が無視されてしまうこともある。しかし、S304で閾値を下げていくため、ユーザが何度か"タロー"と繰り返し発声すれば、認識されやすくなっていく。
画面の一部にキャラクターが画面上に登場した後は、まず、エージェントが登場してから現在まで、所定の時間が経過したかをチェックする(S306)。所定時間内の場合は、入力音声をチェックし(S307)、入力音声があれば音声認識する(S308)。この音声認識は、所定の第二のキーワードを認識語彙に持つ。例えば、"ごくろう"というキーワードである。認識結果がこの所定の第二のキーワードであれば(S309)、ユーザとキャラクターの間で対話が可能な状態になり、その後、ユーザは、音声入力を用いてデジタルテレビの操作が可能になる。一方、入力音声がなかったり、認識結果が所定の第二のキーワードでなければ、S306に戻る。S306の経過時間チェックで、所定の時間が経過していたら、キャラクターを非表示にし(S310)、 S301に戻る。これは、キャラクターとの対話が成立しなかったケースである。
以上のようにすることで、周囲雑音など無関係な音声によってキャラクターがユーザの意図に反して画面に登場することを防ぐことができる。またそれと同時に、ユーザは正しい単語を繰り返し発声すれば、それが正しく認識される確率が高まり、意図した通りに、キャラクターを画面上に呼び出して、対話を開始することができる。
上記実施例1の図3S309において、ユーザの発声、例えば"ごくろう"が、所定の第二のキーワードとして正しく認識され、対話が成立した場合、S301で入力された第一の音声は、"タロー"と認識して正しかったことがわかる。そこで、上記第一の音声が、"タロー"と認識される確信度がより高くなるように音声認識部102を学習するようにする。こうすることにより、今後、S301において、上記第一の音声に近い音声が入力された場合、これが"タロー"と認識される確率が高まる。
逆に、S306においてタイムアウトして対話が成立しなかった場合、上記第一の音声は、"タロー"ではなかったことがわかるので、上記第一の音声が、"タロー"と認識される確信度がより低くなるように音声認識部102を学習するようにする。こうすることにより、今後、S301において、上記第一の音声に近い音声が入力された場合、これが"タロー"と認識される確率が低くなる。学習の方法は、公知の技術で実現可能である。
上記実施例1では、S305においてキャラクターを表示するようにしていたが、代わりに、あるいは、表示と同時に、所定の音声出力を行うようにしてもかまわない。例えば、"いかがなさいましたか?"という音声を出力してもよい。
なお、本発明の目的は次のようにしても達成される。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給する。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。このようにしても目的が達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、本発明に係る実施の形態は、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現される場合に限られない。例えば、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、本発明に係る実施形態の機能は次のようにしても実現される。即ち、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。そして、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行う。この処理により前述した実施形態の機能が実現されることは言うまでもない。
Claims (4)
- ユーザからの入力音声を認識する音声認識部、
音声認識結果に基づいてユーザとの対話を制御する対話制御部、
表示を行う表示部を備え、
前記対話制御部は、前記音声認識部がユーザからのN回目の発声を認識し、それが特定の第一のキーワードである確信度が所定の閾値以上である場合にのみ第一の出力を行い、閾値以下の場合は、続いてユーザから発声されたN+1回目の音声を認識し、それが特定の第一のキーワードである確信度が、N回目よりも低い所定の閾値以上である場合にのみ第一の出力を行い、さらに、前記第一の出力後、一定時間内に、前記音声認識部がユーザからの第二の発声を認識し、それが特定の第二のキーワードであると認識した場合にのみ、ユーザとの対話を開始し、特定の第二のキーワードであると認識しなかった場合は、前記第一の出力を取り止めてユーザとの対話を開始しないことを特徴とする情報処理装置。 - 前記第一の出力は、画面上の表示であることを特徴とする請求項1に記載の情報処理装置。
- 前記第一の出力は、音声出力であることを特徴とする請求項1に記載の情報処理装置。
- 前記所定時間内に、前記音声認識部が前記第二の発声を認識し、それが前記第二のキーワードであると認識した場合、前記第一のキーワードであると認識された入力音声を前記第一のキーワードとしてより認識しやすくなるよう学習し、前記第二の発声を前記第二のキーワードであると認識しなかった場合、前記第一のキーワードであると認識された入力音声を前記第一のキーワードであると認識しにくくなるよう学習することを特徴とする請求項1乃至3に記載の情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006226635A JP2008051950A (ja) | 2006-08-23 | 2006-08-23 | 情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006226635A JP2008051950A (ja) | 2006-08-23 | 2006-08-23 | 情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008051950A true JP2008051950A (ja) | 2008-03-06 |
Family
ID=39236079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006226635A Withdrawn JP2008051950A (ja) | 2006-08-23 | 2006-08-23 | 情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008051950A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8400392B2 (en) | 2006-12-01 | 2013-03-19 | Sony Corporation | Apparatus and method for controlling backlight and liquid crystal display |
CN104345649A (zh) * | 2013-08-09 | 2015-02-11 | 晨星半导体股份有限公司 | 应用于声控装置的控制器与相关方法 |
JP2019091472A (ja) * | 2014-09-12 | 2019-06-13 | アップル インコーポレイテッドApple Inc. | 発語トリガを常時リッスンするための動的閾値 |
-
2006
- 2006-08-23 JP JP2006226635A patent/JP2008051950A/ja not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8400392B2 (en) | 2006-12-01 | 2013-03-19 | Sony Corporation | Apparatus and method for controlling backlight and liquid crystal display |
CN104345649A (zh) * | 2013-08-09 | 2015-02-11 | 晨星半导体股份有限公司 | 应用于声控装置的控制器与相关方法 |
JP2019091472A (ja) * | 2014-09-12 | 2019-06-13 | アップル インコーポレイテッドApple Inc. | 発語トリガを常時リッスンするための動的閾値 |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1920321B1 (en) | Selective confirmation for execution of a voice activated user interface | |
US9070363B2 (en) | Speech translation with back-channeling cues | |
US8532995B2 (en) | System and method for isolating and processing common dialog cues | |
US20100063820A1 (en) | Correlating video images of lip movements with audio signals to improve speech recognition | |
JP2006201749A (ja) | 音声による選択装置、及び選択方法 | |
JP2006154724A (ja) | 対話システム、対話方法、及びコンピュータプログラム | |
US6185537B1 (en) | Hands-free audio memo system and method | |
JP4667085B2 (ja) | 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法 | |
JP2006251147A (ja) | 音声認識方法 | |
US20100248786A1 (en) | Mechanism for Providing User Guidance and Latency Concealment for Automatic Speech Recognition Systems | |
JP5127201B2 (ja) | 情報処理装置及び方法並びにプログラム | |
JP7023823B2 (ja) | 車載装置及び音声認識方法 | |
JP5189858B2 (ja) | 音声認識装置 | |
JP2008051950A (ja) | 情報処理装置 | |
JP2006208486A (ja) | 音声入力装置 | |
WO2019142418A1 (ja) | 情報処理装置および情報処理方法 | |
JPH10326176A (ja) | 音声対話制御方法 | |
JP2001042891A (ja) | 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体 | |
JP2009104047A (ja) | 情報処理方法及び情報処理装置 | |
JP2004258233A (ja) | 適応型音声対話システム及び方法 | |
JP2007041302A (ja) | 音声再生装置および音声再生処理プログラム | |
JP2008051883A (ja) | 音声合成制御方法および装置 | |
JP4810343B2 (ja) | 音声処理装置およびその制御方法 | |
JP4951422B2 (ja) | 音声認識装置、および音声認識方法 | |
JP2019020475A (ja) | 音声認識装置、音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20091110 |