JP2008217444A

JP2008217444A - 利用者と対話する装置、方法およびプログラム

Info

Publication number: JP2008217444A
Application number: JP2007054231A
Authority: JP
Inventors: Kazuo Sumita; 一男住田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-05
Filing date: 2007-03-05
Publication date: 2008-09-18
Anticipated expiration: 2027-03-05
Also published as: US8738371B2; US20080221877A1; JP4728982B2

Abstract

【課題】自然な対話を実現することができる対話装置を提供する。
【解決手段】応答と、表示部１３６に対する注視度と、スピーカ１３４および表示部１３６に対する応答の出力方法とを対応づけて記憶する応答記憶部１５４と、音声を受付ける音声受付部１０３と、受付けた音声を認識する認識部１０４と、認識結果から要求を抽出する抽出部１０６と、抽出された要求に基づいて応答を決定する応答決定部１０７と、利用者の視線方向を検出する方向検出部１０１ａと、検出した視線方向に基づいて注視度を決定する注視度決定部１０２と、決定された応答と決定された注視度とに対応する出力方法を応答記憶部１５４から取得し、取得した出力方法で、スピーカ１３４および表示部１３６に応答を出力する出力制御部１２０と、を備えた。
【選択図】図１

Description

この発明は、組み合わせて利用可能な複数の入出力手段によって利用者と対話する装置、方法およびプログラムに関するものである。

近年、ハードディクレコーダーやマルチメディアパソコンなどのビデオ録画再生機器の普及と、このようなビデオ録画再生機器の記憶容量の増大に伴い、放送された多くの番組を録画し、番組終了後に利用者の好みに応じて必要な番組を視聴するというテレビの視聴スタイルが広まりつつある。

また、テレビ放送のデジタル化は、利用者が視聴できる番組数の増大につながり、録画機器の記憶容量の大規模化とあいまって、録画機器に録画された大量のテレビ番組の中から、視聴する番組のみを検索する際に手間が発生しかねない状況になりつつある。

現在、テレビやビデオ録画再生機器のヒューマン・マシンインタフェースとしては、数字キーやカーソルキーを操作するリモートコントロール装置（リモコン）を用いたインタフェースが一般的である。このようなリモコンを用いて、例えば、テレビ番組を録画予約したり、録画された番組を検索したりする場合、テレビ画面上に表示されるメニューや文字の一覧の中から一つずつ項目を指定して選択する必要がある。例えば、番組検索のためのキーワードを入力するような場合、表示された文字一覧から一文字ずつ文字を選択してキーワードを入力する必要があり、非常に手間のかかる操作となっていた。

また、インターネットへのアクセス機能が搭載されたテレビも商品化されており、このようなテレビでは、インターネット上のホームページにテレビを介してアクセスしブラウズできるようになっている。そして、このようなテレビも、一般にリモコンをインタフェースとして利用している。この場合、ホームページのリンクをクリック等することによりブラウズするだけであれば、操作が容易であるため特段の問題は発生しない。しかし、所望のホームページを検索するためにキーワードを入力する場合には、テレビ番組の検索と同様の問題が生じる。

また、リモコンを用いてテレビ画面を介して行う操作インタフェースでは、テレビ画面にメニュー等が表示されることを前提としているため、テレビ画面が直接見えないような離れた場所から操作することや、手が離せない状況で操作することができなかった。

例えば、録画された料理番組を再生しつつ、その内容にしたがって料理するような状況での利用を仮定した場合、必要に応じて見逃したシーンまで巻き戻すということが頻繁に発生しうる。しかし、料理中であるため手が離せなかったり、手が食材で汚れていたりするため、その手でリモコン操作することは難しく、また、衛生上の問題も発生する可能性があった。

一方、現在表示している番組を一定時間録画しておき、利用者のリモコンによる指示にしたがって、表示している番組を一時停止する機能や、必要なシーンまで巻き戻す機能などを備えたテレビも商品化されている。このようなテレビの利用者が、例えば、朝の忙しい時間帯に天気予報を視聴している場合、リモコンの操作ができないことにより、関心のあった地方についての天気予報のシーンを見逃したり聞き逃したりする場合があった。また、例えば、着替え中など手が離せないような状況では、リモコンを手に持ち、巻き戻しを指示するのは手間がかかるため、視聴を断念する場合があった。

以上のような問題を解決するには、一般的なリモコンによるインタフェースではなく、音声入力を基本としたヒューマン・マシンインタフェースが望ましい。このため、音声入力を基本としたマルチモーダルインタフェース技術が研究されている。これは、テレビなどの電子情報機器が音声認識機能を有し、手が離せない場合でも音声によって電子情報機器を操作可能とする技術である。

固定的に表示されるメニュー等からリモコンにより操作を指示する場合と比較して、音声入力を用いたインタフェースでは、利用者ごとに異なる多様な指示が入力されることが想定される。このため、入力音声を正しく認識して適切な応答を返すことにより、自然な対話を実現することが求められる。

特許文献１では、マルチモーダル対話装置において、出力メディアを対話プランの状況に応じて切り替える技術が提案されている。例えば、特許文献１では、利用者の思い違いによる発話の誤りや未登録語などに起因して音声認識に失敗する場合、マルチモーダル対話装置がその問題を検知して、音声以外のペン入力などの別のメディアに切り替えて、利用者に入力を促す技術が提案されている。これにより、対話の中断を回避し、円滑な対話を実現可能となる。

また、特許文献２では、利用者とシステムとの間の距離に応じて、対話をより円滑にする技術が開示されている。具体的には、特許文献２では、ロボットと利用者との距離が離れている場合は、ロボットが発話する音声が利用者に聞こえない可能性が高いため、ロボットの音声の音量を上げることにより対話を円滑化する技術が提案されている。

特許第３７２９９１８号公報特開２００５−２０２０７６号公報

しかしながら、特許文献１および特許文献２の方法では、利用者が操作対象となる装置を注視しているか否かを考慮していないため、利用者に対して適切な応答を返すことができない場合があるという問題があった。

例えば、利用者がビデオ録画機器に巻き戻しを指示した場合、テレビ画面を注視しているのであれば、巻き戻し完了後、そのまま再生すれば、利用者は映像や音声を含む番組内容を理解することができる。ところが、テレビ番組はテレビ画面を見ている視聴者を対象にして作られているため、テレビ画面が見えない場所に利用者が存在する場合、番組内容をそのままで提示するだけでは理解できない状況が発生する。

例えば、料理番組のあるシーンでジャガイモを切るシーンが存在し、そのシーンを利用者が見逃したため、「ジャガイモはどのように切るのか」という質問をシステムに問い掛ける場合を仮定する。そのシーンは映像のみが映されており、特に音声では説明がされておらず、テロップによって「サイコロ大に切ります」と提示されているような場合も想定される。この場合、利用者がテレビ画面を注視している状況であれば、映像によるジャガイモを切るシーンを提示するだけで十分である。しかし、音声で説明されていないため、利用者がテレビ画面を注視していない状況であれば、単に当該シーンを再生するだけでは応答として十分ではない。

特に、音声入力をインタフェースとして利用する場合は、利用者がテレビ画面を注視せずに操作指示を入力することがより頻繁に発生すると考えられるため、上記のような問題が発生する可能性が高い。

本発明は、上記に鑑みてなされたものであって、利用者の注視状況で応答を変更することにより、自然な対話を実現することができる装置、方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、利用者と対話する対話装置であって、利用者が発話した音声を認識する認識部と、前記認識部による認識結果から、要求を抽出する抽出部と、抽出された前記要求に基づいて利用者に対する応答を決定する応答決定部と、前記要求に対する前記応答を表示可能な表示部と、前記応答を音声により出力可能な音声出力部と、前記応答と、前記表示部を利用者が注視する度合いを表す注視度と、前記音声出力部および前記表示部の少なくとも一方に対する前記応答の出力方法とを対応づけて記憶する応答記憶部と、利用者の視線方向を検出する方向検出部と、検出した前記視線方向に基づいて前記注視度を決定する注視度決定部と、決定された前記応答と決定された前記注視度とに対応する前記出力方法を前記応答記憶部から取得し、取得した前記出力方法で、前記音声出力部および前記表示部の少なくとも一方に前記応答を出力する出力制御部と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる方法およびプログラムである。

本発明によれば、利用者の注視状況で応答を変更することにより、自然な対話を実現することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる利用者と対話する装置、方法およびプログラムの最良な実施の形態を詳細に説明する。

本実施の形態にかかる対話装置は、利用者の視線方向および利用者までの距離で判断される注視状況に応じて、応答の内容や種類を変更して利用者に提示するものである。なお、以下では、対話装置として、ハードディクレコーダーやマルチメディアパソコンなどの、録画した放送番組等を録画再生可能なビデオ録画再生装置として対話装置を実現した例について説明する。

図１は、本実施の形態にかかるビデオ録画再生装置１００の構成を示すブロック図である。図１に示すように、ビデオ録画再生装置１００は、主なハードウェア構成として、発信部１３１と、受信部１３２と、マイク１３３と、スピーカ１３４と、ポインティング受信部１３５と、表示部１３６と、指示表現記憶部１５１と、質問表現記憶部１５２と、状態遷移記憶部１５３と、応答記憶部１５４と、映像記憶部１５５と、を備えている。

また、ビデオ録画再生装置１００は、主なソフトウェア構成として、方向検出部１０１ａと、距離検出部１０１ｂと、注視度決定部１０２と、音声受付部１０３と、認識部１０４と、要求受付部１０５と、抽出部１０６と、応答決定部１０７と、出力制御部１２０とを備えている。

発信部１３１は、利用者の視聴方向または／および利用者までの距離を検出するためのセンシング情報を発信するものである。センシング情報とは、例えば、赤外線などの電磁波、または音波などの所定の検知部によって検出されうる情報をいう。本実施の形態では、発信部１３１は、赤外線発信部１３１ａと、超音波発信部１３１ｂとを備えている。

赤外線発信部１３１ａは、利用者の視線方向を検出するため、指向性を有する赤外線を発光するものである。赤外線発信部１３１ａは、利用者の視線方向に向けて赤外線を発光するように、例えば利用者が装着するヘッドセットの上部に備えられる。ヘッドセットの構成の詳細については後述する。

超音波発信部１３１ｂは、距離計測のための超音波を発信するものである。超音波による距離測定は、市販されている距離測定機器などで一般的に利用されている技術である。超音波における距離測定では、超音波振動子によって超音波パルスを送出し、超音波センサーによってその超音波パルスを受信する。超音波は空気中を音速で伝播するため、超音波パルスが伝達してくるまで時間がかかるが、この時間を計測することによって距離を測定する。通常、超音波による距離測定では、測定機器に超音波振動子と超音波センサーを共に組み込んでおき、距離を測定する対象（壁など）に向けて超音波を放射し、その反射波を受信して距離を測定する。

本実施の形態では、超音波振動子を超音波発信部１３１ｂに、超音波センサーは後述する超音波受信部１３２ｂにそれぞれ利用する。すなわち、超音波発信部１３１ｂによって超音波パルスを送出し、超音波受信部１３２ｂによって超音波パルスを受信する。超音波は空気中を音速で伝播するため、超音波パルスを伝達する時間差によって、距離を測定することができる。

受信部１３２は、発信部１３１により発信されたセンシング情報を受信するものであり、赤外線受信部１３２ａと、超音波受信部１３２ｂと、を備えている。

赤外線受信部１３２ａは、赤外線発信部１３１ａが発信した赤外線を受信するものであり、例えば、後述する表示部１３６の下部に備えられる。なお、赤外線発信部１３１ａおよび赤外線受信部１３２ａは、各種電子機器のリモートコントロール装置とその読み込み装置として一般的に利用されているものと同様の構成により実現できる。

超音波受信部１３２ｂは、超音波発信部１３１ｂが発信した超音波を受信するものであり、赤外線受信部１３２ａと同様に、例えば、表示部１３６の下部に備えられる。

なお、視線方向や距離を検出する方法は、赤外線および超音波を用いた方法に限られず、赤外線によって距離を測定する方法、撮像部によって撮像した顔画像を認識する画像認識処理を利用して、利用者と表示部１３６との間の距離や対面しているかどうかを判定する方法など、従来から用いられているあらゆる方法を適用できる。

マイク１３３は、利用者の発話した音声を入力するものである。また、スピーカ１３４は、応答を合成した合成音声などのデジタル形式の音声信号をアナログ形式の音声信号に変換（ＤＡ変換）して出力するものである。本実施の形態では、マイク１３３とスピーカ１３４を一体化したヘッドセットを利用する。

図２および図３は、ヘッドセットの構成例を示す説明図である。図２は、利用者により装着されたヘッドセットを利用者の正面から見た場合を表している。また、図３は、ヘッドセットを利用者の側面から見た場合を表している。

図２および図３に示すように、ヘッドセット２０１は、マイク１３３とスピーカ１３４とを備えている。また、スピーカ１３４の上方には発信部１３１が備えられている。音声入出力の信号等は、Ｂｌｕｅｔｏｏｔｈ無線や有線などの接続手段を利用することによってビデオ録画再生装置１００との間で送受信することができる。また、図３に示すように、赤外線や超音波などのセンシング情報は、利用者の正面方向２０２に発信するように構成されている。

ここで、受信部１３２の構成例について説明する。図４は、受信部１３２の構成例を示す説明図である。図４に示すように、受信部１３２は、表示部１３６の下方に、表示部１３６の正面方向から発信されたセンシング情報を受信可能に組み込まれている。

赤外線発光機能をヘッドセット２０１の発信部１３１に、赤外線受信機能を表示部１３６下方の受信部１３２に組み込み、発信部１３１から発信された赤外線を受信部１３２で受信するか否かを判定することにより、少なくとも利用者が表示部１３６と相対しているのか、表示部１３６が見えない別の方向を向いているのかを検知することが可能となる。

なお、ヘッドセット２０１に備えられたマイク１３３の代わりに、ピンマイクなどの一般的に用いられているあらゆる形態のマイクを用いることができる。

ポインティング受信部１３５は、赤外線などを利用したリモートコントロールなどのポインティング機能を持つポインティングデバイスによって送信されるポイント指示を受信するものである。これにより、利用者は表示部１３６に表示されたメニューから所望のメニューを指示するなどが可能となる。

表示部１３６は、メニュー、再生した映像情報、および応答などを提示するものであり、液晶ディスプレイ、ブラウン管、およびプラズマディスプレイなどの従来から用いられているあらゆる表示装置によって実現できる。

指示表現記憶部１５１は、利用者が入力した音声の認識結果または入力文字からコマンドなどの操作指示に相当する表現である指示表現を抽出するための指示表現テーブルを格納するものである。図５は、指示表現記憶部１５１に格納された指示表現テーブルのデータ構造の一例を示す説明図である。

図５に示すように、指示表現テーブルは、認識部１０４が出力する音声認識結果の文字列や要求受付部１０５が出力する文字列から抽出すべき指示表現と、その指示表現に対応する入力コマンドとを対応付けて表形式で記憶している。同図では、巻き戻しを指示する巻き戻しコマンドに相当する指示表現として、「巻き戻せ」および「巻き戻し」が記憶された例が示されている。

質問表現記憶部１５２は、利用者が入力した音声の認識結果から質問に相当する表現である質問表現を抽出するための質問表現テーブルを格納するものである。図６は、質問表現記憶部１５２に格納された質問表現テーブルのデータ構造の一例を示す説明図である。

図６に示すように、質問表現テーブルは、抽出すべき質問表現と、質問の種類を表す質問タイプとを対応づけて記憶している。同図では、「何グラム」という表現が質問を表す質問表現であり、その質問タイプは、量を問合せる質問であることを表す「＜ｑｕａｎｔｉｔｙ＞」であることが記憶された例が示されている。

状態遷移記憶部１５３は、対話で発生する状態と、その状態間の遷移関係を規定した状態遷移テーブルを格納するものである。状態遷移記憶部１５３は、後述する応答決定部１０７が対話の状態を管理して状態遷移を行い、適切な応答を決定するために参照される。

ここで、状態間の遷移関係の一例について説明する。図７は、本実施の形態のビデオ録画再生装置１００による対話処理で生じる状態遷移の一例を示す説明図である。図７では、楕円が各状態を表し、楕円間を結ぶアークが状態間の遷移関係を表している。また、各アークに付与されている文字列は、対応するコマンドを表しており、それらのコマンドが入力されることにより対応する状態に遷移することを表している。

例えば、同図では、初期状態で再生コマンドが入力されると再生状態に状態が移行することが示されている。また、再生状態で停止コマンドが入力されると初期状態に状態が移行することが示されている。なお、「φ」は一定時間が経過すると自動的に状態が推移することを表す。すなわち、例えば、巻き戻し後再生状態からは、一定時間が経過すると再生状態に状態が移ることを表している。

この巻き戻し後再生コマンドは、例えば、リモートコントロール上のボタンとして、一定時間巻き戻しを行った後、再生を行うボタンが設けられている場合、このボタンを押下することにより入力される。また、音声入力でコマンドが入力される場合は、例えば、「○○秒巻き戻し」のような発話を、指定された秒数だけ巻き戻し処理を行った後再生を行う巻き戻し後再生コマンドと解釈することも可能である。つまり、再生を行っている際に、「○○秒巻き戻し」と発話された場合、巻き戻し後再生コマンドと解釈し、停止中に「○○秒巻き戻し」と発話された場合に、巻き戻しコマンドと解釈するというように、現在の状態に応じて解釈を行うということである。この場合、指示表現記憶部１５１は、図５で示した表の指示表現と入力コマンドを、現在の状態ごとに対応付ける情報を記憶しておくようにすることで実現できる。

図８は、状態遷移記憶部１５３に記憶された状態遷移テーブルのデータ構造の一例を示す説明図である。図８に示すように、状態遷移テーブルは、状態と、当該状態に遷移したときに実行すべき処理の名称を表すアクション名と、当該状態で入力が許容される入力コマンドと、入力コマンドに対応して遷移する状態を表す次状態とを対応づけて記憶している。図７の状態遷移図に対しては、「入力コマンド」が各アークに付与されたコマンドに対応し、「次状態」が各アークの先に存在する遷移すべき状態に対応する。

応答記憶部１５４は、実行すべき各応答について、注視度に応じて実際に実行する処理内容を表す応答アクションを格納した応答対応テーブルを記憶するものである。なお、注視度とは、利用者が表示部１３６を注視している度合いを表す情報であり、後述する注視度決定部１０２により決定される。

図９は、応答記憶部１５４に記憶された応答対応テーブルのデータ構造の一例を示す説明図である。図９に示すように、応答対応テーブルは、アクション名と、注視度と、応答アクションとを対応づけて格納している。本実施の形態では、注視している度合いが高い順に、「近・対面」、「近・異方向」、「遠・対面」、および「遠・異方向」の４段階の注視度を用いる。注視度の決定方法の詳細と、応答アクションの詳細については後述する。

なお、指示表現記憶部１５１、質問表現記憶部１５２、状態遷移記憶部１５３、および応答記憶部１５４は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

映像記憶部１５５は、再生対象となる映像コンテンツを記憶するものである。例えば、ビデオ録画再生装置１００をハードディクレコーダーとして実現する場合は、映像記憶部１５５は、ＨＤＤにより構成することができる。なお、映像記憶部１５５はＨＤＤに限られるものではなく、ＤＶＤ（Digital Versatile Disk）などのあらゆる記憶媒体により構成することができる。

方向検出部１０１ａは、赤外線受信部１３２ａが受信した赤外線によって利用者の視線方向を検出するものである。具体的には、方向検出部１０１ａは、赤外線受信部１３２ａによって赤外線を受信した場合は、視線方向は表示部１３６の方向に向いていることを検出する。

距離検出部１０１ｂは、超音波受信部１３２ｂが受信した超音波によって利用者との距離を検出するものである。具体的には、距離検出部１０１ｂは、超音波発信部１３１ｂによって超音波パルスを送出してから、超音波受信部１３２ｂによって超音波パルスを受信するまでの時間を測定することによって、利用者までの距離を検出する。

注視度決定部１０２は、方向検出部１０１ａおよび距離検出部１０１ｂの検出結果を参照して、利用者の表示部１３６に対する注視度を決定するものである。本実施の形態では、注視度決定部１０２は、方向検出部１０１ａが検出した視聴方向、および距離検出部１０１ｂが検出した距離に応じて、上述の４段階の注視度を決定する。

具体的には、注視度決定部１０２は、注視度の高い順に、距離が近く視聴方向が表示部１３６方向である「近・対面」、距離が近いが視聴方向が表示部１３６に向いていない「近・異方向」、距離が遠く視聴方向が表示部１３６方向である「遠・対面」、距離が遠く視聴方向が表示部１３６に向いていない「遠・異方向」の４つの注視度のいずれかを決定する。

なお、注視度決定部１０２は、距離検出部１０１ｂが検出した距離が予め定められた閾値より小さい場合に距離が「近い」と決定し、大きい場合に距離が「遠い」と決定する。また、注視度決定部１０２は、方向検出部１０１ａが、視線方向が表示部１３６の方向に向いていることを検出した場合に、視線方向は「対面」であると決定し、視線方向が表示部１３６の方向に向いていることを検出しない場合に、視線方向は「異方向」であると決定する。

なお、注視度の決定方法は上記に限られず、利用者が表示部１３６を注視する度合いを表すものであればあらゆる方法を用いることができる。例えば、利用者との距離を「近い」、「遠い」の２段階ではなく、２以上の所定の閾値を基準とした３段階以上の距離の大小に応じて注視度を決定してもよい。また、画像認識処理を用いた方法などにより、視聴方向と表示部１３６に対する方向との間の角度などを詳細に検出できる場合は、その角度に応じて注視度を詳細に分類する方法を用いてもよい。

音声受付部１０３は、マイク１３３から入力された音声を電気信号（音声データ）に変換した後、音声データをＡ／Ｄ（アナログデジタル）変換し、ＰＣＭ（パルスコードモジュレーション）形式などによるデジタルデータに変換して出力するものである。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。

認識部１０４は、音声受付部１０３が出力した音声信号を、文字列に変換する音声認識処理を実行するものであり、連続音声認識処理や孤立単語音声認識処理の２種類が想定可能である。認識部１０４による音声認識処理では、ＬＰＣ分析、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）などを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。

要求受付部１０５は、表示部１３６に表示されたメニュー、コマンドなどの選択可能な要求から、ポインティング受信部１３５が受信したポイント指示に対応する要求を、利用者が選択した要求として受付けるものである。また、要求受付部１０５は、表示部１３６に表示された文字一覧から文字を選択して入力された文字列を要求として受付けることもできる。

抽出部１０６は、認識部１０４による音声認識結果である文字列、または要求受付部１０５が受け付けた文字列から、コマンドまたは質問などの要求を抽出するものである。例えば、利用者の発話から「１分前から再生」という音声認識結果が得られた場合、抽出部１０６は、巻き戻し後再生コマンドであること、および巻き戻し時間が１分であることを抽出する。

応答決定部１０７は、抽出部１０６が抽出したコマンドや質問、および要求受付部１０５が受付けたメニュー、コマンドなどに従って、対話の状態遷移等を行う対話の制御処理を行うとともに、遷移した状態に応じた応答を決定するものである。具体的には、応答決定部１０７は、状態遷移テーブルを参照して遷移する状態（次状態）を決定するとともに、次状態で実行する処理（アクション名）を決定する。

出力制御部１２０は、応答決定部１０７によって決定されたアクション名に対して、注視度決定部１０２が決定した注視度に応じた応答アクションを決定するものである。具体的には、出力制御部１２０は、応答決定部１０７が決定したアクション名と、注視度決定部１０２が決定した注視度とに対応する応答アクションを、応答対応テーブルを参照して取得する。

また、出力制御部１２０は、決定した応答アクションにしたがって応答を出力する処理を制御するものである。本実施の形態は、ビデオ録画再生装置１００として対話装置を実現した例であるため、出力制御部１２０は、再生する映像コンテンツを生成するための処理を含む各種処理を実行する。

なお、例えば、対話装置をカーナビゲーションシステムとして実現する場合は、出力制御部１２０は、応答として画面に表示する地図の画像データの生成処理など、カーナビゲーションで必要な各種処理を実行する。

図１０は、出力制御部１２０の詳細な構成を示すブロック図である。図１０に示すように、出力制御部１２０は、インデックス記憶部１６１と、連続音声認識部１２１と、テロップ認識部１２２と、インデックス生成部１２３と、検索部１２４と、位置決定部１２５と、回答生成部１２６と、要約生成部１２７と、合成部１２８と、を備えている。

インデックス記憶部１６１は、後述するインデックス生成部１２３が生成したインデックスを記憶するものである。インデックスの詳細については後述する。

連続音声認識部１２１は、映像コンテンツに含まれる音声を認識して文字列を得る連続音声認識処理を行うものである。連続音声認識部１２１による連続音声認識処理は、上述の認識部１０４と同様、従来技術によって実現できる。

テロップ認識部１２２は、映像コンテンツに含まれるテロップを文字として認識し文字列を得るものである。テロップ認識部１２２によるテロップ認識処理は、文字認識技術を利用した方法など従来から用いられているあらゆる方法を適用できる。

図１１は、連続音声認識部１２１およびテロップ認識部１２２による認識結果の一例を示す説明図である。図１１に示すように、連続音声認識部１２１により、映像コンテンツの再生時刻と、その時刻に発話された音声を認識した結果とが対応づけられた音声認識結果が得られる。また、テロップ認識部１２２により、再生時刻と、その時刻に表示されていたテロップを認識した結果とが対応づけられたテロップ認識結果が得られる。

インデックス生成部１２３は、連続音声認識部１２１およびテロップ認識部１２２の認識結果である各文字列を、映像中の対応する時間と関連付けて記憶しておくためのインデックスを生成するものである。生成したインデックスは、後述する検索部１２４や回答生成部１２６によって参照される。

インデックス生成部１２３は、入力される文字列に含まれる人名や地名、会社名、料理、量などの固有表現を抽出し、他の文字列とは区別できるようにインデックスを作成する。インデックス生成部１２３による固有表現抽出処理は、固有表現辞書と照合して抽出する方法など、従来から用いられているあらゆる方法により実現できる。

具体的には、まず固有表現の対象となる語句をあらかじめ固有表現辞書（図示せず）に格納しておく。そして、インデックス生成部１２３は、抽出対象となる対象文を形態素解析した後、各語句が固有表現辞書に存在するか否かを判断し、存在するものを固有表現として抽出する。また、同時に、例えば、「会社名であれば、固有名詞の前後に“（株）”や“株式会社”という表現が出現する」などのように、固有表現の前後の表現をルール化しておき、そのルールと照合する単語系列が存在した場合に、対応する語を固有表現として抽出してもよい。

そして、インデックス生成部１２３は、抽出した固有表現を検索可能とするために、固有表現にインデックスであることを示すタグを付与する。インデックスは、固有表現の意味属性を表すものであり、固有表現辞書に事前に格納した値を付与する。例えば、固有表現として「新ジャガ」が抽出された場合、食物であることを表すタグ「＜ｆｏｏｄ＞」およびタグ「＜／ｆｏｏｄ＞」を「新ジャガ」の前後にそれぞれ付与する。

図１２は、図１１のような認識結果から、インデックス生成部１２３が抽出して付与したインデックスの一例を示す説明図である。図１２では、主に人名（ｐｅｒｓｏｎ）、食物（ｆｏｏｄ）、量（ｑｕａｎｔｉｔｙ）を固有表現として抽出してインデックスとした例が示されている。

なお、連続音声認識部１２１、テロップ認識部１２２、およびインデックス生成部１２３による各処理は、例えば、放送された番組を映像記憶部１５５に記憶（録画）するときなどに実行され、録画された番組を再生するときには生成されたインデックスが事前にインデックス記憶部１６１に記憶されているものとする。

検索部１２４は、抽出部１０６によって抽出された要求が質問文である場合に、当該質問文に関連する音声認識結果やテロップ認識結果を、インデックス記憶部１６１を参照して検索するものである。

位置決定部１２５は、抽出部１０６によって抽出された要求が巻き戻しを要求するものであった場合の巻き戻す位置を決定するものである。また、位置決定部１２５は、抽出された要求が質問文であり、検索部１２４によって関連する認識結果が検索された場合に、検索された認識結果に対応する映像コンテンツを再生するために、再生する位置を決定するものである。

回答生成部１２６は、検索部１２４の検索結果にしたがって回答文を生成するものである。具体的には、回答生成部１２６は、検索された検索文の前後の所定時間内に存在する文をインデックス記憶部１６１からさらに抽出し、検索文と抽出した文との文体の統一や、重複部分の削除を行った結果を回答文として生成する。

要約生成部１２７は、再生する映像の要約情報を生成するものである。要約生成方法としては、映像コンテンツを対象にして要約映像やダイジェスト映像を生成する既存技術を流用できる。例えば、要約を作成すべき範囲の映像に関して、カット（画像が急激に変化する点）や音声の切れ目を抽出し、ショット（一連の映像のつながり）を検出し、そのショットのうちで重要なショットを選択して、ダイジェストを作成する方法などを利用できる。

重要なショットを選択するには、各ショット中の音声やクローズドキャプション、テロップを認識し、テキスト要約で利用されている要約手法を適用して各文の重要度を求め、その重要度にしたがって各ショットを順位付ける方法などが適用できる。

また、野球やサッカーなど一定のルールにしたがって進行する番組については、モデルベースの要約手法を適用してもよい。モデルベースの要約手法とは、例えば、野球であればヒット、三振などのイベントや、バッターやピッチャーの名前や得点は必ず番組中で音声やテロップの形で映像中に出現するので、それを音声認識やテロップ認識によって認識し、競技モデルにしたがって情報を抽出し、抽出された情報にしたがって要約を生成する手法である。

合成部１２８は、決定された応答アクションに、音声を合成して出力する指定が含まれる場合に、指定された文字列を音声合成した音声信号を生成するものである。合成部１２８により行われる音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成などの一般的に利用されているあらゆる方法を適用することができる。

次に、このように構成された本実施の形態にかかるビデオ録画再生装置１００による対話処理について図１３を用いて説明する。図１３は、本実施の形態における対話処理の全体の流れを示すフローチャートである。

まず、応答決定部１０７は、対話処理の状態を初期状態に設定する（ステップＳ１３０１）。次に、音声受付部１０３または要求受付部１０５が、それぞれ音声入力または文字入力を受付ける（ステップＳ１３０２）。

音声が入力された場合は、認識部１０４が入力された音声を音声認識する（ステップＳ１３０３）。このように、本実施の形態では、コマンドなどの入力は、音声で行われる場合とリモートコントロール装置を用いて行われる場合を想定している。そして、いずれかの入力を受付けた場合に、対話処理が実行される。

次に、抽出部１０６が、入力音声または入力文字がコマンドまたは質問文であるか否かを判定し、コマンドまたは質問文を抽出する入力判定処理を実行する（ステップＳ１３０４）。入力判定処理の詳細については後述する。

次に、抽出部１０６が、入力コマンドが抽出されたか否かを判断する（ステップＳ１３０５）。抽出された場合（ステップＳ１３０５：ＹＥＳ）、応答決定部１０７は、対話処理の状態を、入力コマンドに対応する次状態に遷移する（ステップＳ１３０６）。具体的には、応答決定部１０７は、状態遷移記憶部１５３の状態遷移テーブルを参照し、現在の状態と入力コマンドとに対応する次状態を取得し、取得した次状態に状態を遷移する。例えば、初期状態で番組一覧コマンドが入力された場合は、次状態として番組一覧表示状態を状態遷移テーブルから取得し、番組一覧表示状態に状態を遷移する。

次に、応答決定部１０７は、遷移した状態のアクション名を状態遷移テーブルから取得する（ステップＳ１３０７）。上述の例では、応答決定部１０７は、番組一覧表示状態に対応するアクション名として、番組一覧表示を取得する。

次に、注視度決定部１０２が注視度決定処理を実行する（ステップＳ１３０８）。注視度決定処理とは、ヘッドセット２０１から発信されている赤外線および超音波によって、利用者の視線方向および利用者との距離を検出し、検出した視線方向および距離から注視度を決定する処理をいう。注視度決定処理の詳細については後述する。

次に、出力制御部１２０は、ステップＳ１３０７で取得したアクション名と、ステップＳ１３０８で決定された注視度とに対応する応答アクションを応答記憶部１５４の応答対応テーブルから取得する（ステップＳ１３０９）。上述の例（アクション名＝番組一覧表示）で、決定された注視度が「近・対面」であったとすると、応答アクションとして「１０件を通常表示」が取得される。

次に、出力制御部１２０が、取得された応答アクションに従い応答を出力する（ステップＳ１３１０）。

例えば、アクション名が「番組一覧表示」の場合、利用者の注視度である「近・対面」、「近・異方向」、「遠・対面」、および「遠・異方向」に対し、「１０件を通常表示」、「１０件を通常表示＆１件を音声出力」、「５件を拡大表示」、および「５件を拡大表示＆１件を音声出力」という応答アクションがそれぞれ記載されている。

ここで、「通常表示」および「拡大表示」は表示部１３６に文字を出力することを表しており、「拡大表示」では「通常表示」と比較して文字の大きさが拡大して表示される。図１４および図１５は、それぞれ通常表示および拡大表示の場合の番組一覧表示画面の一例を示す説明図である。図１４では、通常の大きさの文字により、上位１０件の番組の一覧が表示された例が示されている。図１５では、拡大した文字により、上位５件の番組の一覧が表示された例が示されている。

また、「１件を音声出力」は、番組一覧の先頭１件の情報を音声出力することを意味している。また、例えば、一覧表示される対象の番組が１６件であった場合、先頭の番組タイトルと番組件数についての情報を音声によって出力するように構成してもよい。この場合、出力制御部１２０は、「８チャンネル８月１０日の１５時からの午後のワイド、他１５件です。」という文字列を合成部１２８に送出し、合成部１２８によってデジタル形式の音声信号を生成する。生成された音声信号はスピーカ１３４から出力される。

また、「指示箇所まで巻き戻しの後−再生」は、指示箇所まで巻き戻しを行った後、その箇所から再生を行うことを意味している。また、「指示箇所まで巻き戻しの後−再生＆要約音声出力」は、指定箇所まで巻き戻しを行った後、その箇所から再生を行うとともに、巻き戻された部分についての要約を生成し、生成した要約を音声出力することを意味している。要約の生成は、上述の要約生成部１２７によって実行される。

なお、応答の内容や出力態様を変更する方法としては、応答を表示部１３６に表示するかスピーカ１３４に出力するかといった出力メディアを変更する方法、表示する場合の文字の大きさ、文字数、文字色、背景、点滅有無などの表示態様を変更する方法が含まれる。

この他、上記のような要約を生成するときの情報量を変更するように構成してもよい。例えば、「遠・対面」であれば、要約の結果として出力する映像コンテンツは長時間でよいが、「遠・異方向」であれば、ポイントを絞った最も短い要約を生成する。なお、要約結果の長さ調整は、要約処理でショットを選択する際の重要度の大きさで、いずれのレベルの重要度までを要約結果として残すかを制御することによって行うことができる。また、文中の修飾語を省略することによって生成する文を短くするように構成してもよい。

なお、上記のような応答の出力方法は一例であり、一般的なビデオ録画再生装置１００で実行されうるあらゆる応答に対応した処理が、ステップＳ１３１０の応答出力処理で実行される。

ステップＳ１３０５で、入力コマンドが抽出されていないと判断された場合（ステップＳ１３０５：ＮＯ）、抽出部１０６は、さらに質問文が抽出されたか否かを判断する（ステップＳ１３１１）。質問文が抽出された場合は（ステップＳ１３１１：ＹＥＳ）、注視度決定部１０２が注視度決定処理を実行する（ステップＳ１３１２）。注視度決定処理はステップＳ１３０８と同様の処理である（詳細は後述）。

次に、出力制御部１２０が、アクション名と、ステップＳ１３１２で決定された注視度とに対応する応答アクションを応答対応テーブルから取得する（ステップＳ１３１３）。なお、この場合、アクション名は「質問応答出力」として対応する応答アクションを取得する。また、アクション名を質問内容に応じてさらに詳細化するように構成してもよい。

次に、出力制御部１２０が、質問文に関連する文を映像コンテンツから検索する検索処理を実行する（ステップＳ１３１４）。また、出力制御部１２０が、検索結果を参照して質問文に対する回答を生成する回答生成処理を実行する（ステップＳ１３１５）。検索処理および回答生成処理の詳細については後述する。

ステップＳ１３１５で質問文に対応する回答を生成した後、出力制御部１２０が、生成した回答を表示部１３６または／およびスピーカ１３４に出力する（ステップＳ１３１６）。

ステップＳ１３１６で応答出力後、ステップＳ１３１０で応答出力後、またはステップＳ１３１１で質問文が抽出されなかったと判断された場合は（ステップＳ１３１１：ＮＯ）、次の要求受付処理に戻って処理を繰り返す（ステップＳ１３０２）。

このような処理により、利用者の要求（コマンドまたは質問）に対応する応答を出力して対話を行うときに、利用者の注視度に応じて応答の内容や出力態様を変更して提示することが可能となる。すなわち、利用者の注視度に応じた適切かつ自然な対話処理が実現できる。

次に、ステップＳ１３０４の入力判定処理の詳細について図１６を用いて説明する。図１６は、本実施の形態における入力判定処理の全体の流れを示すフローチャートである。

まず、抽出部１０６は、入力音声の認識結果または入力文字に、指示表現テーブルの指示表現が含まれるか否かを判断する（ステップＳ１６０１）。例えば、認識結果が「３０秒巻き戻せ」であり、図５に示すような指示表現テーブルが指示表現記憶部１５１に記憶されている場合、抽出部１０６は、認識結果に指示表現「巻き戻せ」が含まれると判断する。

指示表現が含まれる場合は（ステップＳ１６０１：ＹＥＳ）、抽出部１０６は、入力コマンドが存在すると判定する（ステップＳ１６０２）。なお、抽出部１０６は、指示表現に対応する入力コマンドを、図５に示すような指示表現部１５１の指示表現テーブルにしたがって決定する。例えば、指示表現「巻き戻せ」は巻き戻しコマンドであることを決定する。

次に、抽出部１０６は、入力コマンドに対応する応答アクションの実行に必要なキーワードを認識結果または入力文字から抽出する（ステップＳ１６０３）。例えば、「３０秒巻き戻せ」という認識結果から、巻き戻す時間として時間表現「３０秒」を抽出する。同様に、例えば、「１分前から再生」という認識結果から、巻き戻す時間として時間表現「１分前」を抽出する。

また、「５回の表まで巻き戻し」という認識結果が得られた場合は、当該認識結果からキーワードとして「５回」や「表」という単語が抽出される。後述するように、このようにして時間表現以外で巻き戻し位置が指定された場合であっても、抽出されたキーワードを用いて位置決定部１２５によって巻き戻し位置を決定することができる。

ステップＳ１６０１で、指示表現が含まれないと判断された場合（ステップＳ１６０１：ＮＯ）、抽出部１０６は、さらに認識結果または入力文字に、質問表現テーブルの質問表現が含まれるか否かを判断する（ステップＳ１６０４）。

質問表現が含まれない場合は（ステップＳ１６０４：ＮＯ）、入力判定処理を終了する。質問表現が含まれる場合は（ステップＳ１６０４：ＹＥＳ）、抽出部１０６は、質問文が存在すると判定する（ステップＳ１６０５）。そして、抽出部１０６は、質問表現テーブルを参照して、質問文の質問タイプを決定する（ステップＳ１６０６）。例えば、「砂糖を何グラム入れるのか。」という認識結果が得られた場合、質問表現テーブルの「何グラム」という質問表現に対応する「＜ｑｕａｎｔｉｔｙ＞」が質問タイプとして決定される。

次に、抽出部１０６は、認識結果または入力文字から質問に関連するキーワードを抽出する（ステップＳ１６０７）。上述の例（砂糖を何グラム入れるのか。）の場合は、抽出部１０６は、キーワードとして「砂糖」や「入れ」という単語を抽出する。

同様に、例えば、「今日の天気はどうか。」、「誰が出演しているのか。」、および「ジャガイモはどう切るのか。」という認識結果に対しては、質問タイプおよびキーワードとして、それぞれ、「＜ｈｏｗ＞、今日、天気」、「＜ｐｅｒｓｏｎ＞、出演」、および「＜ｈｏｗ＞、ジャガイモ、切」が抽出される。

次に、ステップＳ１３０８およびステップＳ１３１２の注視度決定処理の詳細について図１７を用いて説明する。図１７は、本実施の形態における注視度決定処理の全体の流れを示すフローチャートである。

まず、方向検出部１０１ａが、赤外線受信部１３２ａが赤外線を受信したか否かを判断する（ステップＳ１７０１）。受信した場合（ステップＳ１７０１：ＹＥＳ）、方向検出部１０１ａは、利用者の視線方向は表示部１３６に向かっていると判断する（ステップＳ１７０２）。受信しない場合（ステップＳ１７０１：ＮＯ）、方向検出部１０１ａは、利用者の視線方向は表示部１３６に向かっていないと判断する（ステップＳ１７０３）。

次に、距離検出部１０１ｂが、超音波発信部１３１ｂによる超音波の送信から、超音波受信部１３２ｂによる超音波の受信までの時間を元に表示部１３６と利用者との距離（以下、距離Ｄとする）を検出する（ステップＳ１７０４）。

次に、注視度決定部１０２は、検出された距離Ｄが予め定められた距離の閾値より小さいか否かを判断し（ステップＳ１７０５）、小さい場合は（ステップＳ１７０５：ＹＥＳ）、さらに検出された視線方向が表示部１３６に向いているか否かを判断する（ステップＳ１７０６）。

視線方向が表示部１３６に向いている場合（ステップＳ１７０６：ＹＥＳ）、注視度決定部１０２は、注視度を「近・対面」に決定する（ステップＳ１７０７）。視線方向が表示部１３６に向いていない場合（ステップＳ１７０６：ＮＯ）、注視度決定部１０２は、注視度を「近・異方向」に決定する（ステップＳ１７０８）。

ステップＳ１７０５で、距離Ｄが距離の閾値より小さくないと判断された場合は（ステップＳ１７０５：ＮＯ）、注視度決定部１０２は、方向検出部１０１ａが検出した視線方向が表示部１３６に向いているか否かを判断する（ステップＳ１７０９）。

視線方向が表示部１３６に向いている場合（ステップＳ１７０９：ＹＥＳ）、注視度決定部１０２は、注視度を「遠・対面」に決定する（ステップＳ１７１０）。視線方向が表示部１３６に向いていない場合（ステップＳ１７０９：ＮＯ）、注視度決定部１０２は、注視度を「遠・異方向」に決定する（ステップＳ１７１１）。

次に、ステップＳ１３１４の検索処理の詳細について図１８を用いて説明する。図１８は、本実施の形態における検索処理の全体の流れを示すフローチャートである。

まず、検索部１２４は、ステップＳ１３０４の入力判定処理で抽出された質問文の質問タイプと、質問に関連するキーワードを取得する（ステップＳ１８０１）。次に、検索部１２４は、現在時刻から過去の時刻に向けて、取得した質問タイプおよびキーワードを含む音声認識結果またはテロップ認識結果をインデックス記憶部１６１から検索する（ステップＳ１８０２）。

例えば、「ジャガイモはどう切るのか」から質問タイプとして「＜ｈｏｗ＞」、キーワードとして「ジャガイモ」および「切」が検索されたとする。この場合、図１２に示すような情報を含むインデックスがインデックス記憶部１６１に記憶されていたとすると、時刻「０３：１５．０４１」の音声認識結果である「まず、ジャガイモはこんな感じで切って下さい。」が検索される。検索部１２４は、このようにして質問文に関連する文を映像コンテンツから検索する。

次に、ステップＳ１３１５の回答生成処理の詳細について図１９を用いて説明する。図１９は、本実施の形態における回答生成処理の全体の流れを示すフローチャートである。

まず、回答生成部１２６は、検索処理で検索された文を取得する（ステップＳ１９０１）。次に、回答生成部１２６は、検索された文の近傍の文を抽出する（ステップＳ１９０２）。なお、回答生成部１２６は、音声認識結果およびテロップ認識結果の双方を対象として近傍の文を抽出する。近傍の文としては、検索された文の直前または直後の文を抽出するように構成してもよいし、検索された文の前後の予め定められた時間内の文を抽出するように構成してもよい。

例えば、上述の例と同様に、「ジャガイモはどう切るのか」という質問文に対して「まず、ジャガイモはこんな感じで切って下さい。」という文が検索されたとする。そして、検索された文の前後の５秒以内の文を抽出対象とする場合、図１２のようなインデックスからは、時刻「０３：１６．０００」に表示されたテロップの認識結果「サイコロ大に切る」が近傍の文として抽出される。

次に、回答生成部１２６は、抽出された文の文体の修正や、重複した文の削除を行う（ステップＳ１９０３）。例えば、回答生成部１２６は、「である調」の文体の文「サイコロ大に切る」を、「ですます調」の文体の文「サイコロ大に切ります」に修正する。

また、例えば、「砂糖は何グラム？」という質問文が入力され、時刻「０４：２０．５００」の音声認識結果である「砂糖を大さじ一杯加えます。」と、時刻「０４：２１．０００」のテロップ認識結果である「砂糖大さじ一杯」とが抽出されたとする。この場合、両者は重複した単語から構成されるため、回答生成部１２６は、一方の文を削除し、例えば「砂糖を大さじ一杯加えます。」のみを回答とする。

次に、回答生成部１２６は、検索された文と、ステップＳ１９０３で修正された、検索された文の近傍の文とを回答文として出力し（ステップＳ１９０４）、回答生成処理を終了する。

次に、ステップＳ１３１０で実行される応答アクションの一例として、巻き戻しコマンドなどが入力されたことにより実行される巻き戻し処理について図２０を用いて説明する。なお、巻き戻し処理は、巻き戻しコマンドが入力されることによりステップＳ１３１０で実行されるほか、質問文が入力されて関連する文が回答として出力されるときに、対応する位置まで巻き戻して映像を再生するときなどにも実行される。すなわち、例えば、ステップＳ１３１６で回答を出力する処理には、ステップＳ１３１５で生成された回答を音声出力する処理に加えて、検索された文が存在する時刻まで巻き戻して映像を再生する処理が含まれ、この場合にも巻き戻し処理が実行される。

図２０は、本実施の形態における巻き戻し処理の全体の流れを示すフローチャートである。まず、位置決定部１２５は、巻き戻しコマンドに関連するキーワードを取得する（ステップＳ２００１）。具体的には、位置決定部１２５は、入力判定処理（ステップＳ１３０４）内で、入力コマンドに対応する応答アクションの実行に必要なキーワードとして抽出されたキーワードを取得する。この処理では、上述のように、例えば、「３０秒」のような時間表現によるキーワード、「５回」や「表」のような時間表現でないキーワードが取得されうる。

次に、位置決定部１２５は、キーワードが時間表現であるか否かを判断する（ステップＳ２００２）。時間表現である場合は（ステップＳ２００２：ＹＥＳ）、位置決定部１２５は、現在の再生時刻と時間表現とから巻き戻し位置を決定する（ステップＳ２００３）。

キーワードが時間表現でない場合（ステップＳ２００２：ＮＯ）、ステップＳ１３１４と同様の検索処理が実行される（ステップＳ２００４）。なお、この場合は、巻き戻しコマンドに関連するキーワードを検索キーとして、検索キーを含む文を映像コンテンツから検索する。そして、位置決定部１２５は、検索処理で検索された文に対応付けられている再生時刻を巻き戻し位置として決定する（ステップＳ２００５）。

次に、位置決定部１２５は、決定した巻き戻し位置まで巻き戻す処理を行い、巻き戻し処理を終了する（ステップＳ２００６）。

このように、本実施の形態にかかる対話装置は、利用者の視線方向および利用者までの距離で判断される注視状況に応じて、応答の出力方法を変更して利用者に提示することができる。例えば、利用者が表示部を注視している場合には、音声による指示や質問が入力されると映像コンテンツそのものを表示するが、利用者が注視していない場合は要約文を音声で出力し、利用者が表示部から離れている場合は表示の文字を拡大することなどを可能としている。これにより、利用者の注視状況で応答を変更して自然な対話を実現することが可能となる。

なお、以上では、テレビおよびビデオレコーダーを用いたビデオ録画再生装置として実現したマルチモーダル対話装置について述べたが、他の形態のマルチモーダル対話装置への応用も可能である。例えば、画面から離れて操作される場合があるゲーム機器に適用し、利用者が画面を注視しているか、および利用者までの距離が離れているかなどによって、操作に対する応答を変更するゲーム機を実現することができる。その他、プラントシステムや交通管理システム等における中央情報管理制御システムでも、マルチモーダル対話手段を利用する場合は、本実施の形態の手法を適用可能である。

次に、本実施の形態にかかる対話装置のハードウェア構成について説明する。図２１は、本実施の形態にかかる対話装置のハードウェア構成を示す説明図である。

本実施の形態にかかる対話装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

本実施の形態にかかる対話装置で実行される対話プログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

本実施の形態にかかる対話装置で実行される対話プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、本実施の形態にかかる対話装置で実行される対話プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる対話装置で実行される対話プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施の形態にかかる対話装置で実行される対話プログラムは、上述した各部（方向検出部、距離検出部と、注視度決定部、音声受付部、認識部、要求受付部、抽出部、応答決定部、出力制御部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１が上記ＲＯＭ５２から対話プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる利用者と対話する装置、方法およびプログラムは、複数の入出力手段を有し、マルチモーダル対話が可能なビデオ録画再生装置、カーナビゲーションシステム、ゲーム機器などに適している。

本実施の形態にかかるビデオ録画再生装置の構成を示すブロック図である。ヘッドセットの構成例を示す説明図である。ヘッドセットの構成例を示す説明図である。受信部の構成例を示す説明図である。指示表現記憶部に格納された指示表現テーブルのデータ構造の一例を示す説明図である。質問表現記憶部に格納された質問表現テーブルのデータ構造の一例を示す説明図である。本実施の形態のビデオ録画再生装置による対話処理で生じる状態遷移の一例を示す説明図である。状態遷移記憶部に記憶された状態遷移テーブルのデータ構造の一例を示す説明図である。応答記憶部に記憶された応答対応テーブルのデータ構造の一例を示す説明図である。出力制御部の詳細な構成を示すブロック図である。連続音声認識部およびテロップ認識部による認識結果の一例を示す説明図である。インデックスの一例を示す説明図である。本実施の形態における対話処理の全体の流れを示すフローチャートである。通常表示の場合の番組一覧表示画面の一例を示す説明図である。拡大表示の場合の番組一覧表示画面の一例を示す説明図である。本実施の形態における入力判定処理の全体の流れを示すフローチャートである。本実施の形態における注視度決定処理の全体の流れを示すフローチャートである。本実施の形態における検索処理の全体の流れを示すフローチャートである。本実施の形態における回答生成処理の全体の流れを示すフローチャートである。本実施の形態における巻き戻し処理の全体の流れを示すフローチャートである。本実施の形態にかかる対話装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００ビデオ録画再生装置
１０１ａ方向検出部
１０１ｂ距離検出部
１０２注視度決定部
１０３音声受付部
１０４認識部
１０５要求受付部
１０６抽出部
１０７応答決定部
１２０出力制御部
１２１連続音声認識部
１２２テロップ認識部
１２３インデックス生成部
１２４検索部
１２５位置決定部
１２６回答生成部
１２７要約生成部
１２８合成部
１３１発信部
１３１ａ赤外線発信部
１３１ｂ超音波発信部
１３２受信部
１３２ａ赤外線受信部
１３２ｂ超音波受信部
１３３マイク
１３４スピーカ
１３５ポインティング受信部
１３６表示部
１５１指示表現記憶部
１５２質問表現記憶部
１５３状態遷移記憶部
１５４応答記憶部
１５５映像記憶部
１６１インデックス記憶部
２０１ヘッドセット
２０２正面方向

Claims

利用者と対話する対話装置であって、
利用者が発話した音声を認識する認識部と、
前記認識部による認識結果から、要求を抽出する抽出部と、
抽出された前記要求に基づいて利用者に対する応答を決定する応答決定部と、
前記要求に対する前記応答を表示可能な表示部と、
前記応答を音声により出力可能な音声出力部と、
前記応答と、前記表示部を利用者が注視する度合いを表す注視度と、前記音声出力部および前記表示部の少なくとも一方に対する前記応答の出力方法とを対応づけて記憶する応答記憶部と、
利用者の視線方向を検出する方向検出部と、
検出した前記視線方向に基づいて前記注視度を決定する注視度決定部と、
決定された前記応答と決定された前記注視度とに対応する前記出力方法を前記応答記憶部から取得し、取得した前記出力方法で、前記音声出力部および前記表示部の少なくとも一方に前記応答を出力する出力制御部と、
を備えたことを特徴とする対話装置。
前記方向検出部は、利用者から前記視線方向に発信される電磁波および音波を含む波動信号を受信したか否かによって、前記視線方向が前記表示部に向いているか否かを検出し、
前記注視度決定部は、前記視線方向が前記表示部に向いている場合に、前記視線方向が前記表示部に向いていない場合より高い前記注視度を決定すること、
を特徴とする請求項１に記載の対話装置。
利用者と前記表示部との距離を検出する距離検出部をさらに備え、
前記注視度決定部は、さらに、検出された前記距離に基づいて前記注視度を決定すること、
を特徴とする請求項１に記載の対話装置。
前記注視度決定部は、検出された前記距離が予め定められた第１閾値より小さい場合に、検出された前記距離が前記第１閾値より大きい場合より高い前記注視度を決定すること、
を特徴とする請求項３に記載の対話装置。
前記応答記憶部は、前記応答と、前記注視度と、前記出力方法として前記表示部に表示する大きさ、色彩を含む前記応答の表示態様とを対応づけて記憶し、
前記出力制御部は、取得した前記表示態様で前記応答を前記表示部に表示すること、
を特徴とする請求項１に記載の対話装置。
前記出力制御部は、前記音声出力部に前記応答を出力する前記出力方法が取得された場合に、前記応答を音声に合成し、合成した前記音声を前記音声出力部に出力すること、
を特徴とする請求項１に記載の対話装置。
前記応答記憶部は、前記応答と、前記注視度と、出力すべき情報と前記情報を要約した要約情報とを前記応答として出力する前記出力方法とを対応づけて記憶し、
前記出力制御部は、さらに、前記情報から前記要約情報を生成し、生成した前記要約情報と前記情報とを前記応答として出力すること、
を特徴とする請求項１に記載の対話装置。
前記応答記憶部は、前記応答と、前記注視度と、前記情報を前記表示部に表示するとともに前記要約情報を前記音声出力部に出力する前記出力方法とを対応づけて記憶し、
前記出力制御部は、前記要約情報を音声に合成し、合成した前記音声を前記音声出力部に出力し、前記情報を前記表示部に表示すること、
を特徴とする請求項７に記載の対話装置。
前記要求の入力を受付ける要求受付部をさらに備え、
前記応答決定部は、さらに受付けた前記要求に基づいて前記応答を決定すること、
を特徴とする請求項１に記載の対話装置。
利用者と対話する対話装置における対話方法であって、
認識部によって、利用者が発話した音声を認識する認識ステップと、
抽出部によって、前記認識ステップによる認識結果から、要求を抽出する抽出ステップと、
応答決定部によって、抽出された前記要求に基づいて利用者に対する応答を決定する応答決定ステップと、
方向検出部によって、利用者の視線方向を検出する方向検出ステップと、
注視度決定部によって、検出した前記視線方向に基づいて、前記要求に対する前記応答を表示可能な表示部を利用者が注視する度合いを表す注視度を決定する注視度決定ステップと、
出力制御部によって、前記応答と、前記注視度と、前記応答を音声により出力可能な音声出力部および前記表示部の少なくとも一方に対する前記応答の出力方法とを対応づけて記憶する応答記憶部から、決定された前記応答と決定された前記注視度とに対応する前記出力方法を取得し、取得した前記出力方法で、前記音声出力部および前記表示部の少なくとも一方に前記応答を出力する出力制御ステップと、
を備えたことを特徴とする対話方法。
利用者と対話する対話装置における対話プログラムであって、
利用者が発話した音声を認識する認識手順と、
前記認識手順による認識結果から、要求を抽出する抽出手順と、
抽出された前記要求に基づいて利用者に対する応答を決定する応答決定手順と、
利用者の視線方向を検出する方向検出手順と、
検出した前記視線方向に基づいて、前記要求に対する前記応答を表示可能な表示部を利用者が注視する度合いを表す注視度を決定する注視度決定手順と、
前記応答と、前記注視度と、前記応答を音声により出力可能な音声出力部および前記表示部の少なくとも一方に対する前記応答の出力方法とを対応づけて記憶する応答記憶部から、決定された前記応答と決定された前記注視度とに対応する前記出力方法を取得し、取得した前記出力方法で、前記音声出力部および前記表示部の少なくとも一方に前記応答を出力する出力制御手順と、
をコンピュータに実行させる対話プログラム。