JP4728982B2 - 利用者と対話する装置、方法およびプログラム - Google Patents

利用者と対話する装置、方法およびプログラム Download PDF

Info

Publication number
JP4728982B2
JP4728982B2 JP2007054231A JP2007054231A JP4728982B2 JP 4728982 B2 JP4728982 B2 JP 4728982B2 JP 2007054231 A JP2007054231 A JP 2007054231A JP 2007054231 A JP2007054231 A JP 2007054231A JP 4728982 B2 JP4728982 B2 JP 4728982B2
Authority
JP
Japan
Prior art keywords
unit
response
output
gaze
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007054231A
Other languages
English (en)
Other versions
JP2008217444A (ja
Inventor
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007054231A priority Critical patent/JP4728982B2/ja
Priority to US11/898,606 priority patent/US8738371B2/en
Publication of JP2008217444A publication Critical patent/JP2008217444A/ja
Application granted granted Critical
Publication of JP4728982B2 publication Critical patent/JP4728982B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B62LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
    • B62DMOTOR VEHICLES; TRAILERS
    • B62D57/00Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
    • B62D57/02Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
    • B62D57/032Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members with alternately or sequentially lifted supporting base and legs; with alternately or sequentially lifted feet or skid
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Description

この発明は、組み合わせて利用可能な複数の入出力手段によって利用者と対話する装置、方法およびプログラムに関するものである。
近年、ハードディクレコーダーやマルチメディアパソコンなどのビデオ録画再生機器の普及と、このようなビデオ録画再生機器の記憶容量の増大に伴い、放送された多くの番組を録画し、番組終了後に利用者の好みに応じて必要な番組を視聴するというテレビの視聴スタイルが広まりつつある。
また、テレビ放送のデジタル化は、利用者が視聴できる番組数の増大につながり、録画機器の記憶容量の大規模化とあいまって、録画機器に録画された大量のテレビ番組の中から、視聴する番組のみを検索する際に手間が発生しかねない状況になりつつある。
現在、テレビやビデオ録画再生機器のヒューマン・マシンインタフェースとしては、数字キーやカーソルキーを操作するリモートコントロール装置(リモコン)を用いたインタフェースが一般的である。このようなリモコンを用いて、例えば、テレビ番組を録画予約したり、録画された番組を検索したりする場合、テレビ画面上に表示されるメニューや文字の一覧の中から一つずつ項目を指定して選択する必要がある。例えば、番組検索のためのキーワードを入力するような場合、表示された文字一覧から一文字ずつ文字を選択してキーワードを入力する必要があり、非常に手間のかかる操作となっていた。
また、インターネットへのアクセス機能が搭載されたテレビも商品化されており、このようなテレビでは、インターネット上のホームページにテレビを介してアクセスしブラウズできるようになっている。そして、このようなテレビも、一般にリモコンをインタフェースとして利用している。この場合、ホームページのリンクをクリック等することによりブラウズするだけであれば、操作が容易であるため特段の問題は発生しない。しかし、所望のホームページを検索するためにキーワードを入力する場合には、テレビ番組の検索と同様の問題が生じる。
また、リモコンを用いてテレビ画面を介して行う操作インタフェースでは、テレビ画面にメニュー等が表示されることを前提としているため、テレビ画面が直接見えないような離れた場所から操作することや、手が離せない状況で操作することができなかった。
例えば、録画された料理番組を再生しつつ、その内容にしたがって料理するような状況での利用を仮定した場合、必要に応じて見逃したシーンまで巻き戻すということが頻繁に発生しうる。しかし、料理中であるため手が離せなかったり、手が食材で汚れていたりするため、その手でリモコン操作することは難しく、また、衛生上の問題も発生する可能性があった。
一方、現在表示している番組を一定時間録画しておき、利用者のリモコンによる指示にしたがって、表示している番組を一時停止する機能や、必要なシーンまで巻き戻す機能などを備えたテレビも商品化されている。このようなテレビの利用者が、例えば、朝の忙しい時間帯に天気予報を視聴している場合、リモコンの操作ができないことにより、関心のあった地方についての天気予報のシーンを見逃したり聞き逃したりする場合があった。また、例えば、着替え中など手が離せないような状況では、リモコンを手に持ち、巻き戻しを指示するのは手間がかかるため、視聴を断念する場合があった。
以上のような問題を解決するには、一般的なリモコンによるインタフェースではなく、音声入力を基本としたヒューマン・マシンインタフェースが望ましい。このため、音声入力を基本としたマルチモーダルインタフェース技術が研究されている。これは、テレビなどの電子情報機器が音声認識機能を有し、手が離せない場合でも音声によって電子情報機器を操作可能とする技術である。
固定的に表示されるメニュー等からリモコンにより操作を指示する場合と比較して、音声入力を用いたインタフェースでは、利用者ごとに異なる多様な指示が入力されることが想定される。このため、入力音声を正しく認識して適切な応答を返すことにより、自然な対話を実現することが求められる。
特許文献1では、マルチモーダル対話装置において、出力メディアを対話プランの状況に応じて切り替える技術が提案されている。例えば、特許文献1では、利用者の思い違いによる発話の誤りや未登録語などに起因して音声認識に失敗する場合、マルチモーダル対話装置がその問題を検知して、音声以外のペン入力などの別のメディアに切り替えて、利用者に入力を促す技術が提案されている。これにより、対話の中断を回避し、円滑な対話を実現可能となる。
また、特許文献2では、利用者とシステムとの間の距離に応じて、対話をより円滑にする技術が開示されている。具体的には、特許文献2では、ロボットと利用者との距離が離れている場合は、ロボットが発話する音声が利用者に聞こえない可能性が高いため、ロボットの音声の音量を上げることにより対話を円滑化する技術が提案されている。
特許第3729918号公報 特開2005−202076号公報
しかしながら、特許文献1および特許文献2の方法では、利用者が操作対象となる装置を注視しているか否かを考慮していないため、利用者に対して適切な応答を返すことができない場合があるという問題があった。
例えば、利用者がビデオ録画機器に巻き戻しを指示した場合、テレビ画面を注視しているのであれば、巻き戻し完了後、そのまま再生すれば、利用者は映像や音声を含む番組内容を理解することができる。ところが、テレビ番組はテレビ画面を見ている視聴者を対象にして作られているため、テレビ画面が見えない場所に利用者が存在する場合、番組内容をそのままで提示するだけでは理解できない状況が発生する。
例えば、料理番組のあるシーンでジャガイモを切るシーンが存在し、そのシーンを利用者が見逃したため、「ジャガイモはどのように切るのか」という質問をシステムに問い掛ける場合を仮定する。そのシーンは映像のみが映されており、特に音声では説明がされておらず、テロップによって「サイコロ大に切ります」と提示されているような場合も想定される。この場合、利用者がテレビ画面を注視している状況であれば、映像によるジャガイモを切るシーンを提示するだけで十分である。しかし、音声で説明されていないため、利用者がテレビ画面を注視していない状況であれば、単に当該シーンを再生するだけでは応答として十分ではない。
特に、音声入力をインタフェースとして利用する場合は、利用者がテレビ画面を注視せずに操作指示を入力することがより頻繁に発生すると考えられるため、上記のような問題が発生する可能性が高い。
本発明は、上記に鑑みてなされたものであって、利用者の注視状況で応答を変更することにより、自然な対話を実現することができる装置、方法およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、利用者と対話する対話装置であって、利用者が発話した音声を認識する認識部と、前記認識部による認識結果から、要求を抽出する抽出部と、抽出された前記要求に基づいて利用者に対する応答を決定する応答決定部と、前記要求に対する前記応答を表示可能な表示部と、前記応答を音声により出力可能な音声出力部と、前記応答と、前記表示部を利用者が注視する度合いを表す注視度と、前記音声出力部および前記表示部の少なくとも一方に対する前記応答の出力方法とを対応づけて記憶する応答記憶部と、利用者の視線方向を検出する方向検出部と、検出した前記視線方向に基づいて前記注視度を決定する注視度決定部と、決定された前記応答と決定された前記注視度とに対応する前記出力方法を前記応答記憶部から取得し、取得した前記出力方法で、前記音声出力部および前記表示部の少なくとも一方に前記応答を出力する出力制御部と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる方法およびプログラムである。
本発明によれば、利用者の注視状況で応答を変更することにより、自然な対話を実現することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる利用者と対話する装置、方法およびプログラムの最良な実施の形態を詳細に説明する。
本実施の形態にかかる対話装置は、利用者の視線方向および利用者までの距離で判断される注視状況に応じて、応答の内容や種類を変更して利用者に提示するものである。なお、以下では、対話装置として、ハードディクレコーダーやマルチメディアパソコンなどの、録画した放送番組等を録画再生可能なビデオ録画再生装置として対話装置を実現した例について説明する。
図1は、本実施の形態にかかるビデオ録画再生装置100の構成を示すブロック図である。図1に示すように、ビデオ録画再生装置100は、主なハードウェア構成として、発信部131と、受信部132と、マイク133と、スピーカ134と、ポインティング受信部135と、表示部136と、指示表現記憶部151と、質問表現記憶部152と、状態遷移記憶部153と、応答記憶部154と、映像記憶部155と、を備えている。
また、ビデオ録画再生装置100は、主なソフトウェア構成として、方向検出部101aと、距離検出部101bと、注視度決定部102と、音声受付部103と、認識部104と、要求受付部105と、抽出部106と、応答決定部107と、出力制御部120とを備えている。
発信部131は、利用者の視聴方向または/および利用者までの距離を検出するためのセンシング情報を発信するものである。センシング情報とは、例えば、赤外線などの電磁波、または音波などの所定の検知部によって検出されうる情報をいう。本実施の形態では、発信部131は、赤外線発信部131aと、超音波発信部131bとを備えている。
赤外線発信部131aは、利用者の視線方向を検出するため、指向性を有する赤外線を発光するものである。赤外線発信部131aは、利用者の視線方向に向けて赤外線を発光するように、例えば利用者が装着するヘッドセットの上部に備えられる。ヘッドセットの構成の詳細については後述する。
超音波発信部131bは、距離計測のための超音波を発信するものである。超音波による距離測定は、市販されている距離測定機器などで一般的に利用されている技術である。超音波における距離測定では、超音波振動子によって超音波パルスを送出し、超音波センサーによってその超音波パルスを受信する。超音波は空気中を音速で伝播するため、超音波パルスが伝達してくるまで時間がかかるが、この時間を計測することによって距離を測定する。通常、超音波による距離測定では、測定機器に超音波振動子と超音波センサーを共に組み込んでおき、距離を測定する対象(壁など)に向けて超音波を放射し、その反射波を受信して距離を測定する。
本実施の形態では、超音波振動子を超音波発信部131bに、超音波センサーは後述する超音波受信部132bにそれぞれ利用する。すなわち、超音波発信部131bによって超音波パルスを送出し、超音波受信部132bによって超音波パルスを受信する。超音波は空気中を音速で伝播するため、超音波パルスを伝達する時間差によって、距離を測定することができる。
受信部132は、発信部131により発信されたセンシング情報を受信するものであり、赤外線受信部132aと、超音波受信部132bと、を備えている。
赤外線受信部132aは、赤外線発信部131aが発信した赤外線を受信するものであり、例えば、後述する表示部136の下部に備えられる。なお、赤外線発信部131aおよび赤外線受信部132aは、各種電子機器のリモートコントロール装置とその読み込み装置として一般的に利用されているものと同様の構成により実現できる。
超音波受信部132bは、超音波発信部131bが発信した超音波を受信するものであり、赤外線受信部132aと同様に、例えば、表示部136の下部に備えられる。
なお、視線方向や距離を検出する方法は、赤外線および超音波を用いた方法に限られず、赤外線によって距離を測定する方法、撮像部によって撮像した顔画像を認識する画像認識処理を利用して、利用者と表示部136との間の距離や対面しているかどうかを判定する方法など、従来から用いられているあらゆる方法を適用できる。
マイク133は、利用者の発話した音声を入力するものである。また、スピーカ134は、応答を合成した合成音声などのデジタル形式の音声信号をアナログ形式の音声信号に変換(DA変換)して出力するものである。本実施の形態では、マイク133とスピーカ134を一体化したヘッドセットを利用する。
図2および図3は、ヘッドセットの構成例を示す説明図である。図2は、利用者により装着されたヘッドセットを利用者の正面から見た場合を表している。また、図3は、ヘッドセットを利用者の側面から見た場合を表している。
図2および図3に示すように、ヘッドセット201は、マイク133とスピーカ134とを備えている。また、スピーカ134の上方には発信部131が備えられている。音声入出力の信号等は、Bluetooth無線や有線などの接続手段を利用することによってビデオ録画再生装置100との間で送受信することができる。また、図3に示すように、赤外線や超音波などのセンシング情報は、利用者の正面方向202に発信するように構成されている。
ここで、受信部132の構成例について説明する。図4は、受信部132の構成例を示す説明図である。図4に示すように、受信部132は、表示部136の下方に、表示部136の正面方向から発信されたセンシング情報を受信可能に組み込まれている。
赤外線発光機能をヘッドセット201の発信部131に、赤外線受信機能を表示部136下方の受信部132に組み込み、発信部131から発信された赤外線を受信部132で受信するか否かを判定することにより、少なくとも利用者が表示部136と相対しているのか、表示部136が見えない別の方向を向いているのかを検知することが可能となる。
なお、ヘッドセット201に備えられたマイク133の代わりに、ピンマイクなどの一般的に用いられているあらゆる形態のマイクを用いることができる。
ポインティング受信部135は、赤外線などを利用したリモートコントロールなどのポインティング機能を持つポインティングデバイスによって送信されるポイント指示を受信するものである。これにより、利用者は表示部136に表示されたメニューから所望のメニューを指示するなどが可能となる。
表示部136は、メニュー、再生した映像情報、および応答などを提示するものであり、液晶ディスプレイ、ブラウン管、およびプラズマディスプレイなどの従来から用いられているあらゆる表示装置によって実現できる。
指示表現記憶部151は、利用者が入力した音声の認識結果または入力文字からコマンドなどの操作指示に相当する表現である指示表現を抽出するための指示表現テーブルを格納するものである。図5は、指示表現記憶部151に格納された指示表現テーブルのデータ構造の一例を示す説明図である。
図5に示すように、指示表現テーブルは、認識部104が出力する音声認識結果の文字列や要求受付部105が出力する文字列から抽出すべき指示表現と、その指示表現に対応する入力コマンドとを対応付けて表形式で記憶している。同図では、巻き戻しを指示する巻き戻しコマンドに相当する指示表現として、「巻き戻せ」および「巻き戻し」が記憶された例が示されている。
質問表現記憶部152は、利用者が入力した音声の認識結果から質問に相当する表現である質問表現を抽出するための質問表現テーブルを格納するものである。図6は、質問表現記憶部152に格納された質問表現テーブルのデータ構造の一例を示す説明図である。
図6に示すように、質問表現テーブルは、抽出すべき質問表現と、質問の種類を表す質問タイプとを対応づけて記憶している。同図では、「何グラム」という表現が質問を表す質問表現であり、その質問タイプは、量を問合せる質問であることを表す「<quantity>」であることが記憶された例が示されている。
状態遷移記憶部153は、対話で発生する状態と、その状態間の遷移関係を規定した状態遷移テーブルを格納するものである。状態遷移記憶部153は、後述する応答決定部107が対話の状態を管理して状態遷移を行い、適切な応答を決定するために参照される。
ここで、状態間の遷移関係の一例について説明する。図7は、本実施の形態のビデオ録画再生装置100による対話処理で生じる状態遷移の一例を示す説明図である。図7では、楕円が各状態を表し、楕円間を結ぶアークが状態間の遷移関係を表している。また、各アークに付与されている文字列は、対応するコマンドを表しており、それらのコマンドが入力されることにより対応する状態に遷移することを表している。
例えば、同図では、初期状態で再生コマンドが入力されると再生状態に状態が移行することが示されている。また、再生状態で停止コマンドが入力されると初期状態に状態が移行することが示されている。なお、「φ」は一定時間が経過すると自動的に状態が推移することを表す。すなわち、例えば、巻き戻し後再生状態からは、一定時間が経過すると再生状態に状態が移ることを表している。
この巻き戻し後再生コマンドは、例えば、リモートコントロール上のボタンとして、一定時間巻き戻しを行った後、再生を行うボタンが設けられている場合、このボタンを押下することにより入力される。また、音声入力でコマンドが入力される場合は、例えば、「○○秒巻き戻し」のような発話を、指定された秒数だけ巻き戻し処理を行った後再生を行う巻き戻し後再生コマンドと解釈することも可能である。つまり、再生を行っている際に、「○○秒巻き戻し」と発話された場合、巻き戻し後再生コマンドと解釈し、停止中に「○○秒巻き戻し」と発話された場合に、巻き戻しコマンドと解釈するというように、現在の状態に応じて解釈を行うということである。この場合、指示表現記憶部151は、図5で示した表の指示表現と入力コマンドを、現在の状態ごとに対応付ける情報を記憶しておくようにすることで実現できる。
図8は、状態遷移記憶部153に記憶された状態遷移テーブルのデータ構造の一例を示す説明図である。図8に示すように、状態遷移テーブルは、状態と、当該状態に遷移したときに実行すべき処理の名称を表すアクション名と、当該状態で入力が許容される入力コマンドと、入力コマンドに対応して遷移する状態を表す次状態とを対応づけて記憶している。図7の状態遷移図に対しては、「入力コマンド」が各アークに付与されたコマンドに対応し、「次状態」が各アークの先に存在する遷移すべき状態に対応する。
応答記憶部154は、実行すべき各応答について、注視度に応じて実際に実行する処理内容を表す応答アクションを格納した応答対応テーブルを記憶するものである。なお、注視度とは、利用者が表示部136を注視している度合いを表す情報であり、後述する注視度決定部102により決定される。
図9は、応答記憶部154に記憶された応答対応テーブルのデータ構造の一例を示す説明図である。図9に示すように、応答対応テーブルは、アクション名と、注視度と、応答アクションとを対応づけて格納している。本実施の形態では、注視している度合いが高い順に、「近・対面」、「近・異方向」、「遠・対面」、および「遠・異方向」の4段階の注視度を用いる。注視度の決定方法の詳細と、応答アクションの詳細については後述する。
なお、指示表現記憶部151、質問表現記憶部152、状態遷移記憶部153、および応答記憶部154は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
映像記憶部155は、再生対象となる映像コンテンツを記憶するものである。例えば、ビデオ録画再生装置100をハードディクレコーダーとして実現する場合は、映像記憶部155は、HDDにより構成することができる。なお、映像記憶部155はHDDに限られるものではなく、DVD(Digital Versatile Disk)などのあらゆる記憶媒体により構成することができる。
方向検出部101aは、赤外線受信部132aが受信した赤外線によって利用者の視線方向を検出するものである。具体的には、方向検出部101aは、赤外線受信部132aによって赤外線を受信した場合は、視線方向は表示部136の方向に向いていることを検出する。
距離検出部101bは、超音波受信部132bが受信した超音波によって利用者との距離を検出するものである。具体的には、距離検出部101bは、超音波発信部131bによって超音波パルスを送出してから、超音波受信部132bによって超音波パルスを受信するまでの時間を測定することによって、利用者までの距離を検出する。
注視度決定部102は、方向検出部101aおよび距離検出部101bの検出結果を参照して、利用者の表示部136に対する注視度を決定するものである。本実施の形態では、注視度決定部102は、方向検出部101aが検出した視聴方向、および距離検出部101bが検出した距離に応じて、上述の4段階の注視度を決定する。
具体的には、注視度決定部102は、注視度の高い順に、距離が近く視聴方向が表示部136方向である「近・対面」、距離が近いが視聴方向が表示部136に向いていない「近・異方向」、距離が遠く視聴方向が表示部136方向である「遠・対面」、距離が遠く視聴方向が表示部136に向いていない「遠・異方向」の4つの注視度のいずれかを決定する。
なお、注視度決定部102は、距離検出部101bが検出した距離が予め定められた閾値より小さい場合に距離が「近い」と決定し、大きい場合に距離が「遠い」と決定する。また、注視度決定部102は、方向検出部101aが、視線方向が表示部136の方向に向いていることを検出した場合に、視線方向は「対面」であると決定し、視線方向が表示部136の方向に向いていることを検出しない場合に、視線方向は「異方向」であると決定する。
なお、注視度の決定方法は上記に限られず、利用者が表示部136を注視する度合いを表すものであればあらゆる方法を用いることができる。例えば、利用者との距離を「近い」、「遠い」の2段階ではなく、2以上の所定の閾値を基準とした3段階以上の距離の大小に応じて注視度を決定してもよい。また、画像認識処理を用いた方法などにより、視聴方向と表示部136に対する方向との間の角度などを詳細に検出できる場合は、その角度に応じて注視度を詳細に分類する方法を用いてもよい。
音声受付部103は、マイク133から入力された音声を電気信号(音声データ)に変換した後、音声データをA/D(アナログデジタル)変換し、PCM(パルスコードモジュレーション)形式などによるデジタルデータに変換して出力するものである。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。
認識部104は、音声受付部103が出力した音声信号を、文字列に変換する音声認識処理を実行するものであり、連続音声認識処理や孤立単語音声認識処理の2種類が想定可能である。認識部104による音声認識処理では、LPC分析、隠れマルコフモデル(HMM:Hidden Markov Model)などを用いた、一般的に利用されているあらゆる音声認識方法を適用することができる。
要求受付部105は、表示部136に表示されたメニュー、コマンドなどの選択可能な要求から、ポインティング受信部135が受信したポイント指示に対応する要求を、利用者が選択した要求として受付けるものである。また、要求受付部105は、表示部136に表示された文字一覧から文字を選択して入力された文字列を要求として受付けることもできる。
抽出部106は、認識部104による音声認識結果である文字列、または要求受付部105が受け付けた文字列から、コマンドまたは質問などの要求を抽出するものである。例えば、利用者の発話から「1分前から再生」という音声認識結果が得られた場合、抽出部106は、巻き戻し後再生コマンドであること、および巻き戻し時間が1分であることを抽出する。
応答決定部107は、抽出部106が抽出したコマンドや質問、および要求受付部105が受付けたメニュー、コマンドなどに従って、対話の状態遷移等を行う対話の制御処理を行うとともに、遷移した状態に応じた応答を決定するものである。具体的には、応答決定部107は、状態遷移テーブルを参照して遷移する状態(次状態)を決定するとともに、次状態で実行する処理(アクション名)を決定する。
出力制御部120は、応答決定部107によって決定されたアクション名に対して、注視度決定部102が決定した注視度に応じた応答アクションを決定するものである。具体的には、出力制御部120は、応答決定部107が決定したアクション名と、注視度決定部102が決定した注視度とに対応する応答アクションを、応答対応テーブルを参照して取得する。
また、出力制御部120は、決定した応答アクションにしたがって応答を出力する処理を制御するものである。本実施の形態は、ビデオ録画再生装置100として対話装置を実現した例であるため、出力制御部120は、再生する映像コンテンツを生成するための処理を含む各種処理を実行する。
なお、例えば、対話装置をカーナビゲーションシステムとして実現する場合は、出力制御部120は、応答として画面に表示する地図の画像データの生成処理など、カーナビゲーションで必要な各種処理を実行する。
図10は、出力制御部120の詳細な構成を示すブロック図である。図10に示すように、出力制御部120は、インデックス記憶部161と、連続音声認識部121と、テロップ認識部122と、インデックス生成部123と、検索部124と、位置決定部125と、回答生成部126と、要約生成部127と、合成部128と、を備えている。
インデックス記憶部161は、後述するインデックス生成部123が生成したインデックスを記憶するものである。インデックスの詳細については後述する。
連続音声認識部121は、映像コンテンツに含まれる音声を認識して文字列を得る連続音声認識処理を行うものである。連続音声認識部121による連続音声認識処理は、上述の認識部104と同様、従来技術によって実現できる。
テロップ認識部122は、映像コンテンツに含まれるテロップを文字として認識し文字列を得るものである。テロップ認識部122によるテロップ認識処理は、文字認識技術を利用した方法など従来から用いられているあらゆる方法を適用できる。
図11は、連続音声認識部121およびテロップ認識部122による認識結果の一例を示す説明図である。図11に示すように、連続音声認識部121により、映像コンテンツの再生時刻と、その時刻に発話された音声を認識した結果とが対応づけられた音声認識結果が得られる。また、テロップ認識部122により、再生時刻と、その時刻に表示されていたテロップを認識した結果とが対応づけられたテロップ認識結果が得られる。
インデックス生成部123は、連続音声認識部121およびテロップ認識部122の認識結果である各文字列を、映像中の対応する時間と関連付けて記憶しておくためのインデックスを生成するものである。生成したインデックスは、後述する検索部124や回答生成部126によって参照される。
インデックス生成部123は、入力される文字列に含まれる人名や地名、会社名、料理、量などの固有表現を抽出し、他の文字列とは区別できるようにインデックスを作成する。インデックス生成部123による固有表現抽出処理は、固有表現辞書と照合して抽出する方法など、従来から用いられているあらゆる方法により実現できる。
具体的には、まず固有表現の対象となる語句をあらかじめ固有表現辞書(図示せず)に格納しておく。そして、インデックス生成部123は、抽出対象となる対象文を形態素解析した後、各語句が固有表現辞書に存在するか否かを判断し、存在するものを固有表現として抽出する。また、同時に、例えば、「会社名であれば、固有名詞の前後に“(株)”や“株式会社”という表現が出現する」などのように、固有表現の前後の表現をルール化しておき、そのルールと照合する単語系列が存在した場合に、対応する語を固有表現として抽出してもよい。
そして、インデックス生成部123は、抽出した固有表現を検索可能とするために、固有表現にインデックスであることを示すタグを付与する。インデックスは、固有表現の意味属性を表すものであり、固有表現辞書に事前に格納した値を付与する。例えば、固有表現として「新ジャガ」が抽出された場合、食物であることを表すタグ「<food>」およびタグ「</food>」を「新ジャガ」の前後にそれぞれ付与する。
図12は、図11のような認識結果から、インデックス生成部123が抽出して付与したインデックスの一例を示す説明図である。図12では、主に人名(person)、食物(food)、量(quantity)を固有表現として抽出してインデックスとした例が示されている。
なお、連続音声認識部121、テロップ認識部122、およびインデックス生成部123による各処理は、例えば、放送された番組を映像記憶部155に記憶(録画)するときなどに実行され、録画された番組を再生するときには生成されたインデックスが事前にインデックス記憶部161に記憶されているものとする。
検索部124は、抽出部106によって抽出された要求が質問文である場合に、当該質問文に関連する音声認識結果やテロップ認識結果を、インデックス記憶部161を参照して検索するものである。
位置決定部125は、抽出部106によって抽出された要求が巻き戻しを要求するものであった場合の巻き戻す位置を決定するものである。また、位置決定部125は、抽出された要求が質問文であり、検索部124によって関連する認識結果が検索された場合に、検索された認識結果に対応する映像コンテンツを再生するために、再生する位置を決定するものである。
回答生成部126は、検索部124の検索結果にしたがって回答文を生成するものである。具体的には、回答生成部126は、検索された検索文の前後の所定時間内に存在する文をインデックス記憶部161からさらに抽出し、検索文と抽出した文との文体の統一や、重複部分の削除を行った結果を回答文として生成する。
要約生成部127は、再生する映像の要約情報を生成するものである。要約生成方法としては、映像コンテンツを対象にして要約映像やダイジェスト映像を生成する既存技術を流用できる。例えば、要約を作成すべき範囲の映像に関して、カット(画像が急激に変化する点)や音声の切れ目を抽出し、ショット(一連の映像のつながり)を検出し、そのショットのうちで重要なショットを選択して、ダイジェストを作成する方法などを利用できる。
重要なショットを選択するには、各ショット中の音声やクローズドキャプション、テロップを認識し、テキスト要約で利用されている要約手法を適用して各文の重要度を求め、その重要度にしたがって各ショットを順位付ける方法などが適用できる。
また、野球やサッカーなど一定のルールにしたがって進行する番組については、モデルベースの要約手法を適用してもよい。モデルベースの要約手法とは、例えば、野球であればヒット、三振などのイベントや、バッターやピッチャーの名前や得点は必ず番組中で音声やテロップの形で映像中に出現するので、それを音声認識やテロップ認識によって認識し、競技モデルにしたがって情報を抽出し、抽出された情報にしたがって要約を生成する手法である。
合成部128は、決定された応答アクションに、音声を合成して出力する指定が含まれる場合に、指定された文字列を音声合成した音声信号を生成するものである。合成部128により行われる音声合成処理は、音声素片編集音声合成、フォルマント音声合成、音声コーパスベースの音声合成などの一般的に利用されているあらゆる方法を適用することができる。
次に、このように構成された本実施の形態にかかるビデオ録画再生装置100による対話処理について図13を用いて説明する。図13は、本実施の形態における対話処理の全体の流れを示すフローチャートである。
まず、応答決定部107は、対話処理の状態を初期状態に設定する(ステップS1301)。次に、音声受付部103または要求受付部105が、それぞれ音声入力または文字入力を受付ける(ステップS1302)。
音声が入力された場合は、認識部104が入力された音声を音声認識する(ステップS1303)。このように、本実施の形態では、コマンドなどの入力は、音声で行われる場合とリモートコントロール装置を用いて行われる場合を想定している。そして、いずれかの入力を受付けた場合に、対話処理が実行される。
次に、抽出部106が、入力音声または入力文字がコマンドまたは質問文であるか否かを判定し、コマンドまたは質問文を抽出する入力判定処理を実行する(ステップS1304)。入力判定処理の詳細については後述する。
次に、抽出部106が、入力コマンドが抽出されたか否かを判断する(ステップS1305)。抽出された場合(ステップS1305:YES)、応答決定部107は、対話処理の状態を、入力コマンドに対応する次状態に遷移する(ステップS1306)。具体的には、応答決定部107は、状態遷移記憶部153の状態遷移テーブルを参照し、現在の状態と入力コマンドとに対応する次状態を取得し、取得した次状態に状態を遷移する。例えば、初期状態で番組一覧コマンドが入力された場合は、次状態として番組一覧表示状態を状態遷移テーブルから取得し、番組一覧表示状態に状態を遷移する。
次に、応答決定部107は、遷移した状態のアクション名を状態遷移テーブルから取得する(ステップS1307)。上述の例では、応答決定部107は、番組一覧表示状態に対応するアクション名として、番組一覧表示を取得する。
次に、注視度決定部102が注視度決定処理を実行する(ステップS1308)。注視度決定処理とは、ヘッドセット201から発信されている赤外線および超音波によって、利用者の視線方向および利用者との距離を検出し、検出した視線方向および距離から注視度を決定する処理をいう。注視度決定処理の詳細については後述する。
次に、出力制御部120は、ステップS1307で取得したアクション名と、ステップS1308で決定された注視度とに対応する応答アクションを応答記憶部154の応答対応テーブルから取得する(ステップS1309)。上述の例(アクション名=番組一覧表示)で、決定された注視度が「近・対面」であったとすると、応答アクションとして「10件を通常表示」が取得される。
次に、出力制御部120が、取得された応答アクションに従い応答を出力する(ステップS1310)。
例えば、アクション名が「番組一覧表示」の場合、利用者の注視度である「近・対面」、「近・異方向」、「遠・対面」、および「遠・異方向」に対し、「10件を通常表示」、「10件を通常表示&1件を音声出力」、「5件を拡大表示」、および「5件を拡大表示&1件を音声出力」という応答アクションがそれぞれ記載されている。
ここで、「通常表示」および「拡大表示」は表示部136に文字を出力することを表しており、「拡大表示」では「通常表示」と比較して文字の大きさが拡大して表示される。図14および図15は、それぞれ通常表示および拡大表示の場合の番組一覧表示画面の一例を示す説明図である。図14では、通常の大きさの文字により、上位10件の番組の一覧が表示された例が示されている。図15では、拡大した文字により、上位5件の番組の一覧が表示された例が示されている。
また、「1件を音声出力」は、番組一覧の先頭1件の情報を音声出力することを意味している。また、例えば、一覧表示される対象の番組が16件であった場合、先頭の番組タイトルと番組件数についての情報を音声によって出力するように構成してもよい。この場合、出力制御部120は、「8チャンネル8月10日の15時からの午後のワイド、他15件です。」という文字列を合成部128に送出し、合成部128によってデジタル形式の音声信号を生成する。生成された音声信号はスピーカ134から出力される。
また、「指示箇所まで巻き戻しの後−再生」は、指示箇所まで巻き戻しを行った後、その箇所から再生を行うことを意味している。また、「指示箇所まで巻き戻しの後−再生&要約音声出力」は、指定箇所まで巻き戻しを行った後、その箇所から再生を行うとともに、巻き戻された部分についての要約を生成し、生成した要約を音声出力することを意味している。要約の生成は、上述の要約生成部127によって実行される。
なお、応答の内容や出力態様を変更する方法としては、応答を表示部136に表示するかスピーカ134に出力するかといった出力メディアを変更する方法、表示する場合の文字の大きさ、文字数、文字色、背景、点滅有無などの表示態様を変更する方法が含まれる。
この他、上記のような要約を生成するときの情報量を変更するように構成してもよい。例えば、「遠・対面」であれば、要約の結果として出力する映像コンテンツは長時間でよいが、「遠・異方向」であれば、ポイントを絞った最も短い要約を生成する。なお、要約結果の長さ調整は、要約処理でショットを選択する際の重要度の大きさで、いずれのレベルの重要度までを要約結果として残すかを制御することによって行うことができる。また、文中の修飾語を省略することによって生成する文を短くするように構成してもよい。
なお、上記のような応答の出力方法は一例であり、一般的なビデオ録画再生装置100で実行されうるあらゆる応答に対応した処理が、ステップS1310の応答出力処理で実行される。
ステップS1305で、入力コマンドが抽出されていないと判断された場合(ステップS1305:NO)、抽出部106は、さらに質問文が抽出されたか否かを判断する(ステップS1311)。質問文が抽出された場合は(ステップS1311:YES)、注視度決定部102が注視度決定処理を実行する(ステップS1312)。注視度決定処理はステップS1308と同様の処理である(詳細は後述)。
次に、出力制御部120が、アクション名と、ステップS1312で決定された注視度とに対応する応答アクションを応答対応テーブルから取得する(ステップS1313)。なお、この場合、アクション名は「質問応答出力」として対応する応答アクションを取得する。また、アクション名を質問内容に応じてさらに詳細化するように構成してもよい。
次に、出力制御部120が、質問文に関連する文を映像コンテンツから検索する検索処理を実行する(ステップS1314)。また、出力制御部120が、検索結果を参照して質問文に対する回答を生成する回答生成処理を実行する(ステップS1315)。検索処理および回答生成処理の詳細については後述する。
ステップS1315で質問文に対応する回答を生成した後、出力制御部120が、生成した回答を表示部136または/およびスピーカ134に出力する(ステップS1316)。
ステップS1316で応答出力後、ステップS1310で応答出力後、またはステップS1311で質問文が抽出されなかったと判断された場合は(ステップS1311:NO)、次の要求受付処理に戻って処理を繰り返す(ステップS1302)。
このような処理により、利用者の要求(コマンドまたは質問)に対応する応答を出力して対話を行うときに、利用者の注視度に応じて応答の内容や出力態様を変更して提示することが可能となる。すなわち、利用者の注視度に応じた適切かつ自然な対話処理が実現できる。
次に、ステップS1304の入力判定処理の詳細について図16を用いて説明する。図16は、本実施の形態における入力判定処理の全体の流れを示すフローチャートである。
まず、抽出部106は、入力音声の認識結果または入力文字に、指示表現テーブルの指示表現が含まれるか否かを判断する(ステップS1601)。例えば、認識結果が「30秒巻き戻せ」であり、図5に示すような指示表現テーブルが指示表現記憶部151に記憶されている場合、抽出部106は、認識結果に指示表現「巻き戻せ」が含まれると判断する。
指示表現が含まれる場合は(ステップS1601:YES)、抽出部106は、入力コマンドが存在すると判定する(ステップS1602)。なお、抽出部106は、指示表現に対応する入力コマンドを、図5に示すような指示表現部151の指示表現テーブルにしたがって決定する。例えば、指示表現「巻き戻せ」は巻き戻しコマンドであることを決定する。
次に、抽出部106は、入力コマンドに対応する応答アクションの実行に必要なキーワードを認識結果または入力文字から抽出する(ステップS1603)。例えば、「30秒巻き戻せ」という認識結果から、巻き戻す時間として時間表現「30秒」を抽出する。同様に、例えば、「1分前から再生」という認識結果から、巻き戻す時間として時間表現「1分前」を抽出する。
また、「5回の表まで巻き戻し」という認識結果が得られた場合は、当該認識結果からキーワードとして「5回」や「表」という単語が抽出される。後述するように、このようにして時間表現以外で巻き戻し位置が指定された場合であっても、抽出されたキーワードを用いて位置決定部125によって巻き戻し位置を決定することができる。
ステップS1601で、指示表現が含まれないと判断された場合(ステップS1601:NO)、抽出部106は、さらに認識結果または入力文字に、質問表現テーブルの質問表現が含まれるか否かを判断する(ステップS1604)。
質問表現が含まれない場合は(ステップS1604:NO)、入力判定処理を終了する。質問表現が含まれる場合は(ステップS1604:YES)、抽出部106は、質問文が存在すると判定する(ステップS1605)。そして、抽出部106は、質問表現テーブルを参照して、質問文の質問タイプを決定する(ステップS1606)。例えば、「砂糖を何グラム入れるのか。」という認識結果が得られた場合、質問表現テーブルの「何グラム」という質問表現に対応する「<quantity>」が質問タイプとして決定される。
次に、抽出部106は、認識結果または入力文字から質問に関連するキーワードを抽出する(ステップS1607)。上述の例(砂糖を何グラム入れるのか。)の場合は、抽出部106は、キーワードとして「砂糖」や「入れ」という単語を抽出する。
同様に、例えば、「今日の天気はどうか。」、「誰が出演しているのか。」、および「ジャガイモはどう切るのか。」という認識結果に対しては、質問タイプおよびキーワードとして、それぞれ、「<how>、今日、天気」、「<person>、出演」、および「<how>、ジャガイモ、切」が抽出される。
次に、ステップS1308およびステップS1312の注視度決定処理の詳細について図17を用いて説明する。図17は、本実施の形態における注視度決定処理の全体の流れを示すフローチャートである。
まず、方向検出部101aが、赤外線受信部132aが赤外線を受信したか否かを判断する(ステップS1701)。受信した場合(ステップS1701:YES)、方向検出部101aは、利用者の視線方向は表示部136に向かっていると判断する(ステップS1702)。受信しない場合(ステップS1701:NO)、方向検出部101aは、利用者の視線方向は表示部136に向かっていないと判断する(ステップS1703)。
次に、距離検出部101bが、超音波発信部131bによる超音波の送信から、超音波受信部132bによる超音波の受信までの時間を元に表示部136と利用者との距離(以下、距離Dとする)を検出する(ステップS1704)。
次に、注視度決定部102は、検出された距離Dが予め定められた距離の閾値より小さいか否かを判断し(ステップS1705)、小さい場合は(ステップS1705:YES)、さらに検出された視線方向が表示部136に向いているか否かを判断する(ステップS1706)。
視線方向が表示部136に向いている場合(ステップS1706:YES)、注視度決定部102は、注視度を「近・対面」に決定する(ステップS1707)。視線方向が表示部136に向いていない場合(ステップS1706:NO)、注視度決定部102は、注視度を「近・異方向」に決定する(ステップS1708)。
ステップS1705で、距離Dが距離の閾値より小さくないと判断された場合は(ステップS1705:NO)、注視度決定部102は、方向検出部101aが検出した視線方向が表示部136に向いているか否かを判断する(ステップS1709)。
視線方向が表示部136に向いている場合(ステップS1709:YES)、注視度決定部102は、注視度を「遠・対面」に決定する(ステップS1710)。視線方向が表示部136に向いていない場合(ステップS1709:NO)、注視度決定部102は、注視度を「遠・異方向」に決定する(ステップS1711)。
次に、ステップS1314の検索処理の詳細について図18を用いて説明する。図18は、本実施の形態における検索処理の全体の流れを示すフローチャートである。
まず、検索部124は、ステップS1304の入力判定処理で抽出された質問文の質問タイプと、質問に関連するキーワードを取得する(ステップS1801)。次に、検索部124は、現在時刻から過去の時刻に向けて、取得した質問タイプおよびキーワードを含む音声認識結果またはテロップ認識結果をインデックス記憶部161から検索する(ステップS1802)。
例えば、「ジャガイモはどう切るのか」から質問タイプとして「<how>」、キーワードとして「ジャガイモ」および「切」が検索されたとする。この場合、図12に示すような情報を含むインデックスがインデックス記憶部161に記憶されていたとすると、時刻「03:15.041」の音声認識結果である「まず、ジャガイモはこんな感じで切って下さい。」が検索される。検索部124は、このようにして質問文に関連する文を映像コンテンツから検索する。
次に、ステップS1315の回答生成処理の詳細について図19を用いて説明する。図19は、本実施の形態における回答生成処理の全体の流れを示すフローチャートである。
まず、回答生成部126は、検索処理で検索された文を取得する(ステップS1901)。次に、回答生成部126は、検索された文の近傍の文を抽出する(ステップS1902)。なお、回答生成部126は、音声認識結果およびテロップ認識結果の双方を対象として近傍の文を抽出する。近傍の文としては、検索された文の直前または直後の文を抽出するように構成してもよいし、検索された文の前後の予め定められた時間内の文を抽出するように構成してもよい。
例えば、上述の例と同様に、「ジャガイモはどう切るのか」という質問文に対して「まず、ジャガイモはこんな感じで切って下さい。」という文が検索されたとする。そして、検索された文の前後の5秒以内の文を抽出対象とする場合、図12のようなインデックスからは、時刻「03:16.000」に表示されたテロップの認識結果「サイコロ大に切る」が近傍の文として抽出される。
次に、回答生成部126は、抽出された文の文体の修正や、重複した文の削除を行う(ステップS1903)。例えば、回答生成部126は、「である調」の文体の文「サイコロ大に切る」を、「ですます調」の文体の文「サイコロ大に切ります」に修正する。
また、例えば、「砂糖は何グラム?」という質問文が入力され、時刻「04:20.500」の音声認識結果である「砂糖を大さじ一杯加えます。」と、時刻「04:21.000」のテロップ認識結果である「砂糖大さじ一杯」とが抽出されたとする。この場合、両者は重複した単語から構成されるため、回答生成部126は、一方の文を削除し、例えば「砂糖を大さじ一杯加えます。」のみを回答とする。
次に、回答生成部126は、検索された文と、ステップS1903で修正された、検索された文の近傍の文とを回答文として出力し(ステップS1904)、回答生成処理を終了する。
次に、ステップS1310で実行される応答アクションの一例として、巻き戻しコマンドなどが入力されたことにより実行される巻き戻し処理について図20を用いて説明する。なお、巻き戻し処理は、巻き戻しコマンドが入力されることによりステップS1310で実行されるほか、質問文が入力されて関連する文が回答として出力されるときに、対応する位置まで巻き戻して映像を再生するときなどにも実行される。すなわち、例えば、ステップS1316で回答を出力する処理には、ステップS1315で生成された回答を音声出力する処理に加えて、検索された文が存在する時刻まで巻き戻して映像を再生する処理が含まれ、この場合にも巻き戻し処理が実行される。
図20は、本実施の形態における巻き戻し処理の全体の流れを示すフローチャートである。まず、位置決定部125は、巻き戻しコマンドに関連するキーワードを取得する(ステップS2001)。具体的には、位置決定部125は、入力判定処理(ステップS1304)内で、入力コマンドに対応する応答アクションの実行に必要なキーワードとして抽出されたキーワードを取得する。この処理では、上述のように、例えば、「30秒」のような時間表現によるキーワード、「5回」や「表」のような時間表現でないキーワードが取得されうる。
次に、位置決定部125は、キーワードが時間表現であるか否かを判断する(ステップS2002)。時間表現である場合は(ステップS2002:YES)、位置決定部125は、現在の再生時刻と時間表現とから巻き戻し位置を決定する(ステップS2003)。
キーワードが時間表現でない場合(ステップS2002:NO)、ステップS1314と同様の検索処理が実行される(ステップS2004)。なお、この場合は、巻き戻しコマンドに関連するキーワードを検索キーとして、検索キーを含む文を映像コンテンツから検索する。そして、位置決定部125は、検索処理で検索された文に対応付けられている再生時刻を巻き戻し位置として決定する(ステップS2005)。
次に、位置決定部125は、決定した巻き戻し位置まで巻き戻す処理を行い、巻き戻し処理を終了する(ステップS2006)。
このように、本実施の形態にかかる対話装置は、利用者の視線方向および利用者までの距離で判断される注視状況に応じて、応答の出力方法を変更して利用者に提示することができる。例えば、利用者が表示部を注視している場合には、音声による指示や質問が入力されると映像コンテンツそのものを表示するが、利用者が注視していない場合は要約文を音声で出力し、利用者が表示部から離れている場合は表示の文字を拡大することなどを可能としている。これにより、利用者の注視状況で応答を変更して自然な対話を実現することが可能となる。
なお、以上では、テレビおよびビデオレコーダーを用いたビデオ録画再生装置として実現したマルチモーダル対話装置について述べたが、他の形態のマルチモーダル対話装置への応用も可能である。例えば、画面から離れて操作される場合があるゲーム機器に適用し、利用者が画面を注視しているか、および利用者までの距離が離れているかなどによって、操作に対する応答を変更するゲーム機を実現することができる。その他、プラントシステムや交通管理システム等における中央情報管理制御システムでも、マルチモーダル対話手段を利用する場合は、本実施の形態の手法を適用可能である。
次に、本実施の形態にかかる対話装置のハードウェア構成について説明する。図21は、本実施の形態にかかる対話装置のハードウェア構成を示す説明図である。
本実施の形態にかかる対話装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
本実施の形態にかかる対話装置で実行される対話プログラムは、ROM52等に予め組み込まれて提供される。
本実施の形態にかかる対話装置で実行される対話プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、本実施の形態にかかる対話装置で実行される対話プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる対話装置で実行される対話プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
本実施の形態にかかる対話装置で実行される対話プログラムは、上述した各部(方向検出部、距離検出部と、注視度決定部、音声受付部、認識部、要求受付部、抽出部、応答決定部、出力制御部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から対話プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる利用者と対話する装置、方法およびプログラムは、複数の入出力手段を有し、マルチモーダル対話が可能なビデオ録画再生装置、カーナビゲーションシステム、ゲーム機器などに適している。
本実施の形態にかかるビデオ録画再生装置の構成を示すブロック図である。 ヘッドセットの構成例を示す説明図である。 ヘッドセットの構成例を示す説明図である。 受信部の構成例を示す説明図である。 指示表現記憶部に格納された指示表現テーブルのデータ構造の一例を示す説明図である。 質問表現記憶部に格納された質問表現テーブルのデータ構造の一例を示す説明図である。 本実施の形態のビデオ録画再生装置による対話処理で生じる状態遷移の一例を示す説明図である。 状態遷移記憶部に記憶された状態遷移テーブルのデータ構造の一例を示す説明図である。 応答記憶部に記憶された応答対応テーブルのデータ構造の一例を示す説明図である。 出力制御部の詳細な構成を示すブロック図である。 連続音声認識部およびテロップ認識部による認識結果の一例を示す説明図である。 インデックスの一例を示す説明図である。 本実施の形態における対話処理の全体の流れを示すフローチャートである。 通常表示の場合の番組一覧表示画面の一例を示す説明図である。 拡大表示の場合の番組一覧表示画面の一例を示す説明図である。 本実施の形態における入力判定処理の全体の流れを示すフローチャートである。 本実施の形態における注視度決定処理の全体の流れを示すフローチャートである。 本実施の形態における検索処理の全体の流れを示すフローチャートである。 本実施の形態における回答生成処理の全体の流れを示すフローチャートである。 本実施の形態における巻き戻し処理の全体の流れを示すフローチャートである。 本実施の形態にかかる対話装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 ビデオ録画再生装置
101a 方向検出部
101b 距離検出部
102 注視度決定部
103 音声受付部
104 認識部
105 要求受付部
106 抽出部
107 応答決定部
120 出力制御部
121 連続音声認識部
122 テロップ認識部
123 インデックス生成部
124 検索部
125 位置決定部
126 回答生成部
127 要約生成部
128 合成部
131 発信部
131a 赤外線発信部
131b 超音波発信部
132 受信部
132a 赤外線受信部
132b 超音波受信部
133 マイク
134 スピーカ
135 ポインティング受信部
136 表示部
151 指示表現記憶部
152 質問表現記憶部
153 状態遷移記憶部
154 応答記憶部
155 映像記憶部
161 インデックス記憶部
201 ヘッドセット
202 正面方向

Claims (11)

  1. 利用者と対話する対話装置であって、
    利用者が発話した音声を認識する認識部と、
    前記認識部による認識結果から、要求を抽出する抽出部と、
    抽出された前記要求に基づいて利用者に対する応答を決定する応答決定部と、
    前記要求に対する前記応答を表示可能な表示部と、
    前記応答を音声により出力可能な音声出力部と、
    前記応答と、前記表示部を利用者が注視する度合いを表す注視度と、前記音声出力部および前記表示部の少なくとも一方に対する前記応答の出力方法とを対応づけて記憶する応答記憶部と、
    利用者の視線方向を検出する方向検出部と、
    検出した前記視線方向に基づいて前記注視度を決定する注視度決定部と、
    決定された前記応答と決定された前記注視度とに対応する前記出力方法を前記応答記憶部から取得し、取得した前記出力方法で、前記音声出力部および前記表示部の少なくとも一方に前記応答を出力する出力制御部と、
    を備えたことを特徴とする対話装置。
  2. 前記方向検出部は、利用者から前記視線方向に発信される電磁波および音波を含む波動信号を受信したか否かによって、前記視線方向が前記表示部に向いているか否かを検出し、
    前記注視度決定部は、前記視線方向が前記表示部に向いている場合に、前記視線方向が前記表示部に向いていない場合より高い前記注視度を決定すること、
    を特徴とする請求項1に記載の対話装置。
  3. 利用者と前記表示部との距離を検出する距離検出部をさらに備え、
    前記注視度決定部は、さらに、検出された前記距離に基づいて前記注視度を決定すること、
    を特徴とする請求項1に記載の対話装置。
  4. 前記注視度決定部は、検出された前記距離が予め定められた第1閾値より小さい場合に、検出された前記距離が前記第1閾値より大きい場合より高い前記注視度を決定すること、
    を特徴とする請求項3に記載の対話装置。
  5. 前記応答記憶部は、前記応答と、前記注視度と、前記出力方法として前記表示部に表示する大きさ、色彩を含む前記応答の表示態様とを対応づけて記憶し、
    前記出力制御部は、取得した前記表示態様で前記応答を前記表示部に表示すること、
    を特徴とする請求項1に記載の対話装置。
  6. 前記出力制御部は、前記音声出力部に前記応答を出力する前記出力方法が取得された場合に、前記応答を音声に合成し、合成した前記音声を前記音声出力部に出力すること、
    を特徴とする請求項1に記載の対話装置。
  7. 前記応答記憶部は、前記応答と、前記注視度と、出力すべき情報と前記情報を要約した要約情報とを前記応答として出力する前記出力方法とを対応づけて記憶し、
    前記出力制御部は、さらに、前記情報から前記要約情報を生成し、生成した前記要約情報と前記情報とを前記応答として出力すること、
    を特徴とする請求項1に記載の対話装置。
  8. 前記応答記憶部は、前記応答と、前記注視度と、前記情報を前記表示部に表示するとともに前記要約情報を前記音声出力部に出力する前記出力方法とを対応づけて記憶し、
    前記出力制御部は、前記要約情報を音声に合成し、合成した前記音声を前記音声出力部に出力し、前記情報を前記表示部に表示すること、
    を特徴とする請求項7に記載の対話装置。
  9. 前記要求の入力を受付ける要求受付部をさらに備え、
    前記応答決定部は、さらに受付けた前記要求に基づいて前記応答を決定すること、
    を特徴とする請求項1に記載の対話装置。
  10. 利用者と対話する対話装置における対話方法であって、
    認識部によって、利用者が発話した音声を認識する認識ステップと、
    抽出部によって、前記認識ステップによる認識結果から、要求を抽出する抽出ステップと、
    応答決定部によって、抽出された前記要求に基づいて利用者に対する応答を決定する応答決定ステップと、
    方向検出部によって、利用者の視線方向を検出する方向検出ステップと、
    注視度決定部によって、検出した前記視線方向に基づいて、前記要求に対する前記応答を表示可能な表示部を利用者が注視する度合いを表す注視度を決定する注視度決定ステップと、
    出力制御部によって、前記応答と、前記注視度と、前記応答を音声により出力可能な音声出力部および前記表示部の少なくとも一方に対する前記応答の出力方法とを対応づけて記憶する応答記憶部から、決定された前記応答と決定された前記注視度とに対応する前記出力方法を取得し、取得した前記出力方法で、前記音声出力部および前記表示部の少なくとも一方に前記応答を出力する出力制御ステップと、
    を備えたことを特徴とする対話方法。
  11. 利用者と対話する対話装置における対話プログラムであって、
    利用者が発話した音声を認識する認識手順と、
    前記認識手順による認識結果から、要求を抽出する抽出手順と、
    抽出された前記要求に基づいて利用者に対する応答を決定する応答決定手順と、
    利用者の視線方向を検出する方向検出手順と、
    検出した前記視線方向に基づいて、前記要求に対する前記応答を表示可能な表示部を利用者が注視する度合いを表す注視度を決定する注視度決定手順と、
    前記応答と、前記注視度と、前記応答を音声により出力可能な音声出力部および前記表示部の少なくとも一方に対する前記応答の出力方法とを対応づけて記憶する応答記憶部から、決定された前記応答と決定された前記注視度とに対応する前記出力方法を取得し、取得した前記出力方法で、前記音声出力部および前記表示部の少なくとも一方に前記応答を出力する出力制御手順と、
    をコンピュータに実行させる対話プログラム。
JP2007054231A 2007-03-05 2007-03-05 利用者と対話する装置、方法およびプログラム Expired - Fee Related JP4728982B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007054231A JP4728982B2 (ja) 2007-03-05 2007-03-05 利用者と対話する装置、方法およびプログラム
US11/898,606 US8738371B2 (en) 2007-03-05 2007-09-13 User interactive apparatus and method, and computer program utilizing a direction detector with an electromagnetic transmitter for detecting viewing direction of a user wearing the transmitter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007054231A JP4728982B2 (ja) 2007-03-05 2007-03-05 利用者と対話する装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2008217444A JP2008217444A (ja) 2008-09-18
JP4728982B2 true JP4728982B2 (ja) 2011-07-20

Family

ID=39742535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007054231A Expired - Fee Related JP4728982B2 (ja) 2007-03-05 2007-03-05 利用者と対話する装置、方法およびプログラム

Country Status (2)

Country Link
US (1) US8738371B2 (ja)
JP (1) JP4728982B2 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101430455B1 (ko) * 2007-11-05 2014-08-14 엘지전자 주식회사 액정디스플레이의 눈부심 방지 장치 및 방법
US8363098B2 (en) * 2008-09-16 2013-01-29 Plantronics, Inc. Infrared derived user presence and associated remote control
US20100088097A1 (en) * 2008-10-03 2010-04-08 Nokia Corporation User friendly speaker adaptation for speech recognition
JP2011253375A (ja) 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8438029B1 (en) * 2012-08-22 2013-05-07 Google Inc. Confidence tying for unsupervised synthetic speech adaptation
EP2954431B1 (en) * 2012-12-14 2019-07-31 Robert Bosch GmbH System and method for event summarization using observer social media messages
KR102129786B1 (ko) * 2013-04-03 2020-07-03 엘지전자 주식회사 단말기 및 이의 제어방법
US9491515B2 (en) * 2013-05-17 2016-11-08 Panasonic Intellectual Property Corporation Of America Program recording method, program recording device, destination setting method, and destination setting device
JP2016539434A (ja) 2013-09-17 2016-12-15 ノキア テクノロジーズ オサケユイチア 操作の決定
KR102214178B1 (ko) * 2013-12-13 2021-02-10 한국전자통신연구원 자동 통역 장치 및 방법
JP6459684B2 (ja) * 2015-03-23 2019-01-30 カシオ計算機株式会社 情報出力装置、情報出力方法及びプログラム
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10743101B2 (en) 2016-02-22 2020-08-11 Sonos, Inc. Content mixing
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
EP3588494B1 (en) * 2017-02-27 2024-04-03 Sony Group Corporation Information processing device, information processing method, and program
KR101925034B1 (ko) 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
JP6572943B2 (ja) * 2017-06-23 2019-09-11 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN111443794A (zh) * 2019-01-16 2020-07-24 北京字节跳动网络技术有限公司 一种阅读互动方法、装置、设备、服务器及存储介质
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US10586540B1 (en) * 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
CN110430562B (zh) * 2019-08-30 2022-06-07 RealMe重庆移动通信有限公司 蓝牙通信方法及相关装置
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08339446A (ja) * 1995-06-09 1996-12-24 Sharp Corp 対話装置
JP3729918B2 (ja) 1995-07-19 2005-12-21 株式会社東芝 マルチモーダル対話装置及び対話方法
JP3753882B2 (ja) * 1999-03-02 2006-03-08 株式会社東芝 マルチモーダルインターフェース装置及びマルチモーダルインターフェース方法
JP2001100878A (ja) * 1999-09-29 2001-04-13 Toshiba Corp マルチモーダル入出力装置
JP4442016B2 (ja) * 2000-10-06 2010-03-31 ソニー株式会社 席順決定装置、グループ判定表作成方法、グループ判定表作成装置
JP3594016B2 (ja) * 2001-01-30 2004-11-24 日本電気株式会社 ロボットのプログラム実行方法、ロボットシステムおよびプログラム処理装置
EP1375084A4 (en) * 2001-03-09 2009-10-21 Japan Science & Tech Agency AUDIOVISUAL ROBOT SYSTEM
US8098844B2 (en) * 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
KR100754384B1 (ko) * 2003-10-13 2007-08-31 삼성전자주식회사 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템
JP2005202076A (ja) 2004-01-14 2005-07-28 Sony Corp 発話制御装置及び方並びにロボット装置
JP4380541B2 (ja) * 2005-01-07 2009-12-09 トヨタ自動車株式会社 車両用エージェント装置
JP4481187B2 (ja) * 2005-02-10 2010-06-16 本田技研工業株式会社 車両用操作装置

Also Published As

Publication number Publication date
US8738371B2 (en) 2014-05-27
JP2008217444A (ja) 2008-09-18
US20080221877A1 (en) 2008-09-11

Similar Documents

Publication Publication Date Title
JP4728982B2 (ja) 利用者と対話する装置、方法およびプログラム
AU2017204359B2 (en) Intelligent automated assistant in a media environment
JP6542983B2 (ja) メディア検索及び再生のためのインテリジェント自動アシスタント
US9720644B2 (en) Information processing apparatus, information processing method, and computer program
JP6229287B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
US20140303975A1 (en) Information processing apparatus, information processing method and computer program
JPWO2013118387A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5330005B2 (ja) デジタルフォトフレーム、情報処理システム及び制御方法
JP4080965B2 (ja) 情報提示装置及び情報提示方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110415

R151 Written notification of patent or utility model registration

Ref document number: 4728982

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees