JP2013122695A

JP2013122695A - 情報提示装置、情報提示方法、情報提示プログラム、及び情報伝達システム

Info

Publication number: JP2013122695A
Application number: JP2011271160A
Authority: JP
Inventors: Kazuhiro Nakadai; 一博中臺; Michita Imai; 倫太今井; Toshisuke Ueda; 俊輔植田; Keisuke Nakamura; 圭佑中村
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2011-12-12
Filing date: 2011-12-12
Publication date: 2013-06-20
Anticipated expiration: 2031-12-12
Also published as: JP5685177B2; US8990078B2; US20130151249A1

Abstract

【課題】使用者に対して発話内容の把握を容易にする。
【解決手段】音声信号入力部は音声信号を入力し、画像信号入力部は画像信号を入力し、画像表示部は前記画像信号が表す画像を表示し、音源定位部は前記音声信号に基づき音源毎の方向情報を推定し、音源分離部は前記音声信号から前記音源毎の音源別音声信号に分離し、操作入力部は操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成し、音源選択部は前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する。
【選択図】図３

Description

本発明は、情報提示装置、情報提示方法、情報提示プログラム、及び情報伝達システムに関する。

従来から、遠隔地で収録された環境情報を利用者に提示し、利用者に収録した地点における環境を知覚させる技術が提案されてきた。例えば、ロボットに装備された撮影装置や収音装置で収録した音声情報や画像情報を受信し、受信した情報を利用者に提示する端末装置がある。このような端末装置を利用することで、ロボットの周囲における環境情報を利用者に把握させ、利用者に当該ロボットを操作させる試みがなされている。

例えば、特許文献１に記載のロボット装置は、カメラとステレオマイクと表情を表示するディスプレイとスピーカとＣＰＵ本体と通信ユニットと伸縮機構と走行装置とを有するロボット本体及びディスプレイと頭部操作部と伸縮操作部と音声調整部と通信ユニットと撮像部とを備えたステレオヘッドフォンマイクとを有する操作端末で構成される。これにより、当該ロボット装置は、操作者が遠隔地の会議場に出席させたロボットを介して、会議の状況を見て、聞き、表情を見せ、資料を提示し、握手をする等、臨場感のある会議を可能にしている。

特開２００２−４６０８８号公報

しかしながら、当該ロボット装置の周囲に複数の音源が所在する場合、当該ステレオマイクは、各音源の音声信号が重畳された音声情報を収録する。使用者は、当該ステレオヘッドフォンマイクを用いて、重畳された音声情報を受聴することになる。そのため、使用者は、音源毎の音声情報が表す内容を聞き分けることができず発話内容を把握することが困難なことがあった。

本発明は上記の点に鑑みてなされたものであり、使用者に対して発話内容の把握を容易にする情報提示装置、情報提示方法、情報提示プログラム、及び情報伝達システムを提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、音声信号を入力する音声信号入力部と、画像信号を入力する画像信号入力部と、前記画像信号が表す画像を表示する画像表示部と、前記音声信号に基づき音源毎の方向情報を推定する音源定位部と、前記音声信号から前記音源毎の音源別音声信号に分離する音源分離部と、操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する操作入力部と、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する音源選択部と、を備えることを特徴とする情報提示装置である。

（２）本発明のその他の態様は、上述の情報提示装置であって、前記音源別音声信号に対応する音源が発話状態であるか否かを検出する音声検出部と、発話状態が検出された音源の方向情報に対応する座標に、発話状態であることを表す表示情報を生成する表示情報生成部を備え、前記表示情報が表す画像を前記画像に重畳して表示すること
を特徴とする。

（３）本発明のその他の態様は、上述の情報提示装置であって、前記音源別音声信号に基づき発話内容を認識する音声認識部と、前記音源別音声信号に対応する音源の方向情報に対応する座標に、前記発話内容を表す表示情報を生成する表示情報生成部と、前記表示情報が表す画像を前記画像に重畳して表示することを特徴とする。

（４）本発明のその他の態様は、画像信号を入力する画像信号入力部と、音源毎の方向情報を入力する方向情報入力部と、音源毎の音源別音声信号を受信する音源別音声信号入力部と、操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する操作入力部と、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する音源選択部と、を備えることを特徴とする情報提示装置である。

（５）本発明のその他の態様は、情報取得装置と情報提示装置とを備える情報伝達システムであって、前記情報提示装置は、音声信号を入力する音声信号入力部と、画像信号を入力する画像信号入力部と、前記画像信号が表す画像を表示する画像表示部と、前記音声信号に基づき音源毎の方向情報を推定する音源定位部と、前記音声信号から前記音源毎の音源別音声信号に分離する音源分離部と、操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する操作入力部と、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する音源選択部と、を備えることを特徴とする情報伝達システムである。

（６）本発明のその他の態様は、上述の情報伝達システムであって、前記情報取得装置は、ロボットに備えられ、撮影した画像の画像信号を取得する撮影部と、前記撮影部の位置情報を取得する位置情報取得部と、前記位置情報に基づいて前記取得した画像信号を補正する画像補正部とを備え、前記画像信号を前記画像信号入力部に出力する。

（７）本発明のその他の態様は、上述の情報伝達システムであって、前記情報提示装置は、前記音源別音声信号に対応する音源の方向情報に係る座標が、前記入力された画像信号が表す画像の表示範囲外であるとき、表示範囲外であることを表す表示情報を生成する表示情報生成部と、前記音源別音声信号に対応する音源の方向に、前記入力された画像信号が表す画像を撮影する撮影部の方向を変更することを指示する制御情報を生成する制御情報生成部と、前記情報取得装置は、ロボットに備えられ、前記撮影部と、前記制御情報に基づいて前記撮影部の方向を制御する動作制御部を備え、前記画像信号を前記音声信号入力部に出力する。

（８）本発明のその他の態様は、情報提示装置における情報提示方法において、前記情報提示装置は、音声信号を入力する過程と、前記情報提示装置は、画像信号を入力する過程と、前記情報提示装置は、前記画像信号が表す画像を表示する過程と、前記情報提示装置は、前記音声信号に基づき音源毎の方向情報を推定する過程と、前記情報提示装置は、前記音声信号から前記音源毎の音源別音声信号に分離する過程と、前記情報提示装置は、操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する過程と、前記情報提示装置は、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する過程を有することを特徴とする情報提示方法である。

（９）本発明のその他の態様は、情報提示装置における情報提示方法において、前記情報提示装置は、画像信号を入力する過程と、前記情報提示装置は、音源毎の方向情報を入力する過程と、前記情報提示装置は、音源毎の音源別音声信号を受信する過程と、前記情報提示装置は、操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する過程と、前記情報提示装置は、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する過程を有することを特徴とする情報提示方法である。

（１０）本発明のその他の態様は、情報提示装置のコンピュータに、音声信号を入力する手順、画像信号を入力する手順、前記画像信号が表す画像を表示する手順、前記音声信号に基づき音源毎の方向情報を推定する手順、前記音声信号から前記音源毎の音源別音声信号に分離する手順、操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する手順、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する手順を実行させるための情報提示プログラムである。

（１１）本発明のその他の態様は、情報提示装置のコンピュータに、画像信号を入力する手順、音源毎の方向情報を入力する手順、音源毎の音源別音声信号を受信する手順、操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する手順、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する手順を実行させるための情報提示プログラムである。

上述の態様（１）、（４）、（５）、（８）−（１１）によれば、発話内容の把握が容易になる。
上述の態様（２）によれば、発話状態である音源の選択が容易になる。
上述の態様（３）によれば、発話内容を、利用者が視覚を通じて把握することができる。
上述の態様（６）によれば、表示される画質の劣化が低減する。
上述の態様（７）によれば、画面に表示されていなかった音源の方向の画像を、利用者が視覚を通じて把握することができる。

本発明の第１の実施形態に係るロボットの構成を表す概略図である。本実施形態に係る撮影部及び収音部の配置例を表す表面図である。本実施形態に係る情報提示装置の構成を表す概略図である。画像座標系の一例を表す概念図である。本実施形態に係る情報提示処理を表すフローチャートである。発話パターン画像を含む表示画像の一例を表す概念図である。指示パターン画像を含む表示画像の一例を表す概念図である。楕円パターン画像及び再生パターン画像を含む表示画像の一例を表す概念図である。曲線パターン画像を含む表示画像の一例を表す概念図である。テキストパターン画像を含む表示画像の一例を表す概念図である。本実施形態に係る音源方向推定処理を表すフローチャートである。本実施形態に係る音源分離処理を表すフローチャートである。本実施形態に係る動作制御処理の一例を表すフローチャートである。表示画像の他の例を表す概念図である。本実施形態に係る動作制御処理の他の例を表すフローチャートである。本発明の第２の実施形態に係るロボットの構成を表す概略図である。本実施形態に係る情報提示装置の構成を表す概略図である。発話区間の一例を表す図である。利用者毎の正答率の一例を表す図である。

（第１の実施形態）
以下、図面を参照しながら本発明の実施形態について説明する。
情報伝達システム１は、ロボット１０、情報提示装置２０及びネットワーク３０を含んで構成される。
ロボット１０は、自己の位置や姿勢を変化させるロボット、例えば頭部を水平方向に回転させ、２足歩行で移動する人型ロボットである。なお、ロボット１０は、２足歩行する人型ロボットに限らず、回転する車輪を備え自律的に移動する車輪型ロボットや、人間が搭乗して移動を支援する人搭乗型ロボットであってもよい。
ロボット１０は、情報取得部１１を備える。情報取得部１１は、その周囲の環境を表す音声情報と画像情報を取得し、取得した音声情報と画像情報を情報提示装置２０に送信する。ロボット１０は、情報提示装置２０から受信した制御情報に基づいて、動作を制御する。

情報提示装置２０は、ロボット１０から音声情報と画像情報を受信する。情報提示装置２０は、受信した音声情報から音源毎の音声信号に分離し、音源毎の方向情報を推定する。情報提示装置２０は、分離した音声信号に基づく音声を再生する。情報提示装置２０は、受信した画像情報に基づく画像を表示する。
情報提示装置２０は、使用者による操作入力を検知し、ロボット１０の動作に係る制御情報を生成する。生成した制御情報をロボット１０に送信する。

ネットワーク３０は、ロボット１０と情報提示装置２０の間の信号を送受信するネットワークである。ネットワーク３０は、例えば、構内ネットワーク（ＬＡＮ、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、広域ネットワーク（ＷＡＮ、ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットの何れでもよいし、これらには限られない。また、ネットワーク３０を構成する伝送媒体は、有線であってもよいし、無線であってもよい。

次に、ロボット１０の構成について説明する。
図１は、本実施形態に係るロボット１０の構成を表す概略図である。
ロボット１０は、情報取得部１１、通信部１０４、位置情報取得部１０５、動作制御部１０６及び動作機構部１０７を含んで構成される。
情報取得部１１は、音声情報入力部１０１及び画像情報入力部１０２を含んで構成される。

音声情報入力部１０１は、Ｎ個（Ｎは、２又は２よりも大きい整数、例えば８）の収音部１０１１−１〜１０１１−Ｎと音声符号化部１０１２を備える。
収音部１０１１−１〜１０１１−Ｎは、それぞれ空気の振動である音波を電気信号に変換する電気音響変換器、例えば、マイクロホンである。収音部１０１１−１〜１０１１−Ｎは、それぞれ変換した電気信号を、チャネル毎のアナログ音声信号として音声符号化部１０１２に出力する。

音声符号化部１０１２は、収音部１０１１−１〜１０１１−Ｎから、それぞれチャネル毎のアナログ音声信号を入力される。音声符号化部１０１２は、入力されたアナログ音声信号を、それぞれＡ／Ｄ変換（Ａｎａｌｏｇ−ｔｏ−ＤｉｇｉｔａｌＴｒａｎｓｆｏｒｍ）してチャネル毎のディジタル音声信号を生成する。音声符号化部１０１２は、生成したディジタル音声信号を予め定めた符号化方式（例えば、ＩＴＵ−Ｔ勧告Ｇ．７２２）を用いて符号化し、チャネル毎の音声符号を生成する。音声符号化部１０１２は、生成したチャネル毎の音声符号を、多重化して全チャネルに対して１個の音声情報を生成する。音声符号化部１０１２は、生成した音声情報を通信部１０４に送信信号として出力する。

画像情報入力部１０２は、撮影部１０２１、画像補正部１０２２及び画像符号化部１０２３を備える。
撮影部１０２１は、被写体を表す画像を撮影し、撮影した画像を表す画像信号を生成する。撮影部１０２１は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）カメラ、又はＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）カメラである。撮影部１０２１は、例えば、ロボット１０の頭部正面に配置されている。撮影部１０２１が生成した画像信号は、平面上に配置された予め定めた数の画素毎の信号値を含む。この画像信号は、例えば、画素毎に３色（赤色（Ｒ）、緑色（Ｇ）、青色（Ｂ））の色信号値を含むＲＧＢ色モデルに基づく画像信号である。撮影部１０２１は、生成した画像信号を画像補正部１０２２に出力する。

画像補正部１０２２は、動作制御部１０６から入力された画像補正信号に基づいて撮影部１０２１から入力された画像信号を補正する。画像補正信号は、例えば、撮影部１０２１の位置や撮影方向の急激な変化によって生じた画質の劣化（例えば、ぶれ）を低減させることを表す信号である。
画像補正部１０２２は、変換した画像信号に含まれる信号値の座標を、画像補正信号が表す座標補正量だけ移動させて、移動を相殺又は低減するように画像を補正し、補正した画像信号を生成する。
ここで、画像補正部１０２２は、画像信号を補正する前に、入力された画像信号に含まれる信号値を画素間で補間し、より解像度が高い画像信号に変換（オーバーサンプリング；ｏｖｅｒｓａｍｐｌｉｎｇ）してもよい。その場合、画像補正部１０２２は、補正した画像信号の解像度を、入力された画像信号と同一の解像度に低減した画像信号を出力する。これにより、補正の精度を向上させることができる。
なお、画像補正部１０２２は、撮影部１０２１が備える撮像素子を画像補正信号に基づいて画像の移動が相殺又は低減するように駆動させることで画像信号を補正してもよい。
画像補正信号が入力されなかった場合には、画像補正部１０２２は、入力された画像信号を補正せずに画像符号化部１０２３に出力してもよい。

画像符号化部１０２３は、画像補正部１０２２から入力された画像信号を予め定めた符号化方式（例えば、ＩＴＵ−Ｔ勧告Ｈ．２６４）を用いてフレーム毎に符号化し画像符号を生成する。画像符号化部１０２３は、生成した画像符号を通信部１０４に送信信号として出力する。
なお、符号化方式が可変ビットレート（ｖａｒｉａｂｌｅｂｉｔｒａｔｅ）である場合には、画像符号化部１０２３は、動作制御部１０６から入力されたレート補正信号が表すビットレートに、符号化を行う際のビットレートを変更する。ここで、レート補正信号は、符号化された画像符号のビットレートを変更することを表す信号である。画像のビットレートは、１秒間当たりのフレーム数であるフレームレートと１フレーム当たりの画素数である解像度によって定められる。例えば、符号化方式Ｈ．２６４では、１５通り（ｌｅｖｅｌ）のフレームレートと解像度の組み合わせのうち、何れかを用いることが規定されている。この符号化方式では、ビットレートが高いほど、大きいレベル数が定められている。レート補正信号は、符号化方式で定められているフレームレート、解像度、又はこれらの組み合わせを表す信号であってもよい。レート補正信号が入力されない場合には、画像符号化部１０２３は、予め定めたビットレート、又は直前に設定されたビットレートで画像符号化を行う。

通信部１０４は、音声符号化部１０１２又は画像符号化部１０２３から入力された送信信号を、予め定めたメッセージ形式に変換し、変換した送信信号を情報提示装置２０に送信する。変換するメッセージ形式は、例えば、ロボットを動作させるオペレーティングシステムの１つであるＲＯＳ（ＲｏｂｏｔＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）で用いられている形式である。通信部１０４は、通信部１０４は、情報提示装置２０から受信した受信信号から制御信号を抽出し、抽出した制御信号を動作制御部１０６に出力する。通信部１０４は、例えば通信インタフェースである。

位置情報取得部１０５は、動作機構部１０７の変位を検知する位置センサを備え、検知した変位に基づいて予め定めた時間間隔（例えば、２０ｍｓ）で位置情報を生成する。この位置情報は、ロボット１０の位置や姿勢、例えば、頭部の方向を表す。
位置情報取得部１０５は、生成した位置情報を動作制御部１０６に出力する。

動作制御部１０６は、電力値の時系列パターン情報と制御情報を対応づけた電力モデル情報を記憶する記憶部を備える。電力値の時系列パターン情報は、動作機構部１０７を構成する部品毎の電力値であって、位置情報に応じた電力値の時系列パターンを表す情報である。電力モデル情報と対応付けられている制御情報には、例えば、ロボット１０の姿勢や位置を変化することを命令する情報がある。その制御情報に対応付けられている部品とは、例えば、頭部を回転させるモータである。
動作制御部１０６は、通信部１０４から入力された制御情報に対応する電力モデル情報を記憶部から読み出す。動作制御部１０６は、読み出した電力モデル情報を参照して位置情報取得部１０５から入力された位置情報に対応する部品毎の電力値を定める。動作制御部１０６は、定めた電力値をもつ電力を、動作機構部１０７の該当する部品に出力する。

動作制御部１０６は、現在入力された位置情報（例えば、頭部の方向）と、予め定めた時間だけ過去に入力された位置情報からの変位を算出し、算出した変位が予め定めた閾値を超えた場合、画像補正信号又はレート補正信号を生成する。ここで、動作制御部１０６は、その変位から画素毎の移動速度を算出し、算出した移動速度に基づいて画素毎の画像の移動量を算出する。この移動量は、撮影部１０２１が1つの信号値をサンプリングする時間内に、画像が画面上を移動する量であり、水平（Ｘ）方向成分と垂直（Ｙ）方向成分を含む２次元のベクトルで表される。動作制御部１０６は、算出した移動量の正負を逆転した値を座標補正量とし、その座標補正量を表す画像補正信号を生成する。
動作制御部１０６は、画像符号化部１０２３が用いる符号化方式に応じたビットレートの段階を表し、算出した変位が大きいほど、より低いビットレート（フレームレート、解像度）を表すレート補正信号を生成する。
動作制御部１０６は、生成した画像補正信号を画像補正部１０２２に出力し、レート補正信号を画像符号化部１０２３に出力する。

動作機構部１０７は、複数の部品（例えば、ロボット１０の頭部を駆動するモータ等）から構成されている。各部品は動作制御部１０６から供給された電力によって駆動される。電力が供給されない部品は、動作を静止する。

次に、撮影部１０２１及び収音部１０１１−１〜１０１１−Ｎの配置例について説明する。
図２は、本実施形態に係る撮影部１０２１及び収音部１０１１−１〜１０１１−Ｎの配置例を表す表面図である。
図２の中央部にロボット１０を表す。ロボット１０の中央に位置する、塗りつぶした円はロボット１０の頭部３１を表す。図２において左上の方向が、ロボット１０の正面方向である。ロボット１０の頭部３１から正面方向に延びる一点鎖線は撮影部１０２１の光軸３２の方向を表す。図３は、撮影部１０２１は、ロボット１０の頭部３１の正面に光軸３２が向くように設置されていることを表す。
横縞で塗りつぶした矩形は、ロボット１０の胴体部３３を表す。収音部１０１１−１〜１０１１−Ｎが、ロボット１０の胴体部正面に等間隔で水平方向に配置されていることを表す。収音部１０１１−１〜１０１１−Ｎの方向は、各々ロボット１０の正面方向である。

次に、情報提示装置２０の構成について説明する。
図４は、本実施形態に係る情報提示装置の構成を表す概略図である。
情報提示装置２０は、通信部２０１、音声復号（ａｕｄｉｏｄｅｃｏｄｉｎｇ）部２０２、音源定位（ｓｏｕｎｄｓｏｕｒｃｅｌｏｃａｌｉｚａｔｉｏｎ）部２０３、音源分離（ｓｏｕｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ）部２０４、音声検出（ｓｐｅｅｃｈｄｅｔｅｃｔｉｏｎ）部２０５、音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）部２０６、表示情報生成部２０７、画像復号（ｖｉｄｅｏｄｅｃｏｄｉｎｇ）部２０８、表示画像合成部２０９、画像表示部２１０、操作入力部２１１、音源選択部２１２、音声出力部２１３、及び制御情報生成部２１４を含んで構成される。

通信部２０１は、ロボット１０（図２）から受信した受信信号から音声情報と画像符号を抽出する。通信部２０１は、抽出した音声情報を音声復号部２０２に出力し、画像符号を画像復号部２０８に出力する。通信部２０１は、制御情報生成部２１４から入力された制御情報を、上述のメッセージ形式に変換してロボット１０に送信する。通信部２０１は、例えば通信インタフェースである。

音声復号部２０２は、通信部２０１から入力された音声情報をチャネル毎の音声符号に分離する。音声復号部２０２は、分離した音声符号を復号して音声信号をチャネル毎に生成する。音声復号部２０２が用いる復号方式は、ロボット１０の音声符号化部１０１２が用いる音声符号化方式に対応する復号方式である。音声復号部２０２は、生成したチャネル毎の音声信号を音源定位部２０３に出力する。ここで、音声復号部２０２が出力する音声信号のチャネル数はＮ（Ｎは、１よりも大きい整数）である。

音源定位部２０３は、音声復号部２０２から入力されたチャネル毎の音声信号に基づいて、音源毎の方向を推定する。音源の方向を推定するために、音源定位部２０３は、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）法を用いてもよい。ＭＵＳＩＣ法を用いた音源方向推定処理については後述する。本実施形態では、音源定位部２０３は、通常のＭＵＳＩＣ法の代わりに、例えば、ＧＥＶＤ（ＧｅｎｅｒａｌｉｚａｅｄＥｉｇｅｎｖａｌｕｅＤｅｃｏｎｐｏｓｉｔｉｏｎ；一般化固有値展開）−ＭＵＳＩＣ法、ＧＳＶＤ（ＧｅｎｅｒａｌｉｚａｅｄＳｉｎｇｕｌａｒＶａｌｕｅＤｅｃｏｍｐｏｓｉｔｉｏｎ；一般化特異値展開）−ＭＵＳＩＣ法、等の方式を用いてもよい。
音源定位部２０３は、推定した音源毎の方向を表す音源方向情報を音源分離部２０４、表示情報生成部２０７及び制御情報生成部２１４に出力する。音源定位部２０３は、音声復号部２０２から入力されたチャネル毎の音声信号を音源分離部２０４に出力する。

音源分離部２０４は、音源定位部２０３から音源方向情報及びチャネル毎の音声信号が入力される。音源分離部２０４は、入力された音源方向情報に基づいて、音声信号から音源毎に音声信号を分離する。音声信号を分離するために、音源分離部２０４は、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ−ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ−ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いてもよい。ＧＨＤＳＳ法を用いた音源分離に係る処理については、後述する。
音源分離部２０４は、分離した音声信号を音源別音声信号として音声検出部２０５及び音声出力部２１３に出力する。

音声検出部２０５は、音源分離部２０４から入力された音源別音声信号に対して音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ；ＶＡＤ）を行う。音声検出部２０５は、例えば、予め定めた時間間隔（例えば、１０ｍｓ）毎のパワー値が、予め定めたパワー閾値を越え、かつ、その時間間隔毎の零交差数（ｎｕｍｂｅｒｏｆｚｅｒｏｃｒｏｓｓｉｎｇｓ）が、予め定めた数を越えたとき、音声区間であると判断する。零交差数とは、音声信号の振幅値が零を跨ぐ回数、即ち、負値から正値、又は正値から負値に変化する回数である。音声検出部２０５は、その時間間隔毎の音声区間であるか否かを表す音声検出情報を生成する。音声検出部２０５は、入力された音源別音声信号と、その信号に対応する音声検出情報を音声認識部２０６に出力する。音声検出部２０５は、音声検出情報を表示情報生成部２０７に出力する。

音声認識部２０６は、音声検出部２０５から音源別音声信号と、これに対応する音声検出情報が入力される。音声認識部２０６は、入力された音源別音声信号のうち、音声検出情報が音声区間を表している区間について音声認識処理を行い、音源毎のテキスト情報を生成する。
音声認識部２０６は、例えば、音源別音声信号に基づいて音響特徴量を算出し、音響モデルを用いて算出した音響特徴量に対応した音韻情報の候補を定める。音声認識部２０６は、音響特徴量として、例えばメル尺度ケプストラム（Ｍｅｌ−ｓｃａｌｅｃｅｐｓｔｒｕｍ）を用いてもよい。音声認識部２０６は、言語モデルを用いて、定めた音韻情報の候補に対応する単語情報の候補を定める。音声認識部２０６は、定めた単語情報の候補の中で最も尤度が高い単語情報を表すテキスト情報を定める。音声認識部２０６は、音響モデルや言語モデルとして、例えば、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；ＨＭＭ）を用いてもよい。
音声認識部２０６は、生成した音源毎のテキスト情報を表示情報生成部２０７に出力する。

表示情報生成部２０７は、音源定位部２０３から入力された音源方向情報が表す音源毎の方向を、画像座標系で表される表示座標に変換する。画像座標系とは、ロボット１０の撮影部１０２１の焦点を通る光軸に直交する撮像素子（撮影面）に表示される画像の位置を表す座標系である。

ここで、画像座標系について説明する。
図４は、画像座標系の一例を表す概念図である。
図４の右下に表示されている点Ｏは、焦点である。焦点Ｏから左上に向かう一点鎖線は、撮影部１０２１の光軸、つまりＺ軸を示す。Ｚ軸と中心点Ｃで交わる破線で表す矩形は、撮影面を表す。撮影面はＺ軸と直交している。点Ｃから右に向かう実線は、撮影面の水平方向に向かうＸ軸を表し、点Ｃから右下に向かう実線は、撮影面の垂直方向に向かうＹ軸を表す。また、図５では、Ｘ軸上における撮像面の左端をＸ_Ｌ、右端をＸ_Ｒと表す。
ここで、左端Ｘ_Ｌと焦点Ｏを結ぶ線分と右端Ｘ_Ｒと焦点Ｏを結ぶ線分のなす角が視野角（ｖｉｅｗｉｎｇａｎｇｌｅ；画角とも呼ばれる）Φである。つまり、撮影部１０２１の視野角Φの範囲内の方向φの物体の画像が撮影される。例えば、図５において、人物Ａの方向と人物Ｂの方向は、視野角Φの範囲内にあるため、それらの画像が撮影される。人物Ｄは、視野角Φの範囲外にあるため、その画像は撮影されない。人物Ａ、Ｂ、Ｄは、発話すれば、各々音源となる。
表示情報生成部２０７は、音源方向φに対応する表示座標のＸ軸方向の座標値Ｘを、例えば、式（１）を用いて算出する。

式（１）において、Ｗ_ｘは、水平方向の画像の幅を表す。１フレームの画像情報のフレームサイズが、例えば、水平方向６４０画素、垂直方向４８０画素の場合には、Ｗ_ｘは６４０である。
表示情報生成部２０７は、表示座標のＹ軸成分として予め定めた座標値、例えば０（垂直方向の中心）を定める。

図３に戻り、表示情報生成部２０７は、予めパターン画像情報が記憶されている記憶部（図示せず）を備える。パターン画像情報とは、予め定型化された画像を表す情報である。パターン画像情報は、例えば、発話状態であることを表す発話パターン画像情報、発話状態であって音声再生中であることを表す再生パターン画像情報、発話内容を表すテキストを表示する領域を表すテキストパターン画像情報（吹き出し）、楕円パターン画像情報（楕円）、曲線パターン画像情報（曲線）、指示パターン画像情報（矢印）である。発話パターン画像情報が表す画像の表示形態と、再生パターン画像情報が表す画像の表示形態は互いに異なる。ここで、表示形態とは、例えば、色彩、輝度、形状、模様、等、である。パターン画像情報を含めた表示情報の例については後述する。

表示情報生成部２０７は、音声検出部２０５から入力された音声検出情報が音声区間であることを表す場合、記憶部から発話パターン画像情報を読み出す。表示情報生成部２０７は、読み出した発話パターン画像情報が表す画像が、表示座標に含まれる画像を表す表示情報を生成する。表示情報生成部２０７は、この表示情報に、利用者に対して、その音源を選択することを促すテキスト（例えば、「聞きたい音を選んで下さい。」）を含めてもよい。

但し、音源方向情報が表す音源方向φが、視野角Φの範囲外である場合には、表示情報生成部２０７は、読み出した発話パターン画像情報が表す画像を、予め定めた表示座標に配置した画像を表す表示情報を生成する。この表示座標は、例えば、画面の上端又は下端のように視聴を妨げない位置であってもよい。以下、この表示座標を、範囲外音源表示座標と呼ぶ。表示情報生成部２０７は、この表示情報に、利用者に対して、視野角の範囲外に音源があることを表すテキスト（例えば、「範囲外に音源があります。」）を含めてもよい。表示情報生成部２０７は、生成した表示情報を表示画像合成部２０９に出力する。

表示情報生成部２０７は、操作入力部２１１から入力された座標指定情報が、楕円形の領域を表す場合、記憶部から楕円パターン画像情報を読み出す。表示情報生成部２０７は、読み出した楕円パターン画像情報が表す画像を座標指定情報が示す領域に配置した画像を表わす表示情報を生成する。表示情報生成部２０７は、生成した表示情報を表示画像合成部２０９、音源選択部２１２及び制御情報生成部２１４に出力する。楕円パターン画像を含む表示画像の例については、後述する。

表示情報生成部２０７は、操作入力部２１１から入力された座標指定情報が、曲線で表される軌跡を表す場合、記憶部から曲線パターン画像情報を読み出す。表示情報生成部２０７は、読み出した曲線パターン画像情報が表す画像を座標指定情報が示す領域に配置した画像を表わす表示情報を生成する。表示情報生成部２０７は、生成した表示情報を表示画像合成部２０９、音源選択部２１２及び制御情報生成部２１４に出力する。曲線パターン画像を含む表示画像の例については、後述する。

表示情報生成部２０７は、操作入力部２１１から入力された座標指定情報が、１個の座標を表す場合、記憶部から指示パターン画像情報を読み出す。表示情報生成部２０７は、読み出した指示パターン画像情報が表す画像を座標指定情報が示す領域に配置した画像を表わす表示情報を生成する。表示情報生成部２０７は、生成した表示情報を表示画像合成部２０９、音源選択部２１２及び制御情報生成部２１４に出力する。指示パターン画像を含む表示画像の例については、後述する。

表示情報生成部２０７は、音源選択部２１２から選択音源情報が入力された場合、記憶部から再生パターン画像情報を読み出す。表示情報生成部２０７は、生成した表示情報において選択音源情報が表す音源に対応する発話パターン画像情報を、読み出した再生パターン画像情報に入れ替える。表示情報生成部２０７は、再生パターン画像情報に入れ替えて更新した表示情報を表示画像合成部２０９に出力する。再生パターン画像を含む表示画像の例については、後述する。

表示情報生成部２０７は、音声認識部２０６からテキスト情報が入力された場合、記憶部からテキストパターン画像情報を読み出す。表示情報生成部２０７は、再生パターン画像情報又は発話パターン画像情報の代わりに、テキストパターン画像情報が表す画像が、対応する音源の表示座標に配置した画像を表す表示情報を生成するようにしてもよい。テキストパターン画像を含む表示画像の例については、後述する。

ここで、表示情報生成部２０７は、テキストパターン画像情報が表す画像の表示領域に、入力されたテキストを表す画像を含める。但し、表示情報生成部２０７は、テキストパターン画像情報が表す画像の表示領域に含まれるテキストの文字数が、予め設定した数（例えば、日本語の３０文字）よりも少なくなるように表示情報を更新する。これにより、一度に表示されるテキストの文字数が過大になることを回避する。
表示情報生成部２０７は、生成又は更新した表示情報を表示画像合成部２０９に出力する。

表示情報生成部２０７は、音声検出情報が音声区間外であることを表す場合、その音源のパターン画像情報を、生成した表示情報から消去する。但し、音声区間と非音声区間が頻繁に切り替わることがある。そこで、表示情報生成部２０７は、音声検出情報が音声区間から非音声区間に変化した時点から予め定めた時間（例えば、３秒）、非音声区間である状態が継続しない場合に、パターン画像情報を、生成した表示情報から消去してもよい。表示情報生成部２０７は、パターン画像情報が消去された表示情報を表示画像合成部２０９、及び音源選択部２１２に出力する。消去されたパターン画像情報の表示座標が範囲外音源表示座標である場合、表示情報生成部２０７は、パターン画像情報が消去された表示情報を制御情報生成部２１４に出力する。

画像復号部２０８は、通信部２０１から入力された画像符号を復号して画像信号を生成する。画像復号部２０８が用いる復号方式は、画像符号化部１０２３が用いる画像符号化方式に対応する復号方式である。画像復号部２０８は、生成した画像信号を表示画像合成部２０９に出力する。

表示画像合成部２０９は、画像復号部２０８から入力された画像信号が表す画像と表示情報生成部２０７から入力された表示情報が表す画像を合成し、合成した画像が表す表示画像信号を生成する。表示画像信号を生成する際、表示画像合成部２０９は、表示情報が表す画像を優先してもよい。即ち、ある画素が、表示情報が表す画像の領域に含まれる場合、表示画像合成部２０９は、その画素についての信号値を表示画像信号の信号値として採用する。ある画素が、表示情報が表す画素の領域に含まない場合、表示画像合成部２０９は、その画素について、画像復号部２０８から入力された画像信号に含まれる信号値を表示画像信号の信号値として採用する。
表示画像合成部２０９は、生成した表示画像信号を画像表示部２１０に出力する。

画像表示部２１０は、表示画像合成部２０９から入力された表示画像信号が表す画像を表示する。画像表示部２１０は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｈｒｙｓｔａｌＤｉｓｐｌａｙ）ディスプレイである。

操作入力部２１１は、利用者による操作入力を検知して、画像表示部２１０が表示するする画像の一部の領域を表す座標指定情報を生成する。座標指定情報は、上述のように、1個の座標を表す情報、楕円形の領域を表す情報、曲線の領域を表す情報の何れでもよいし、これらには限られない。操作入力部２１１は、生成した座標指定情報を表示情報生成部２０７に出力する。操作入力部２１１は、例えば、マウス、タブレット、等のポインティングデバイスである。

音源選択部２１２は、表示情報生成部２０７から入力された表示情報から楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報と、発話パターン画像情報を抽出する。
音源選択部２１２は、抽出した表示楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報が表す水平方向の座標値、もしくは、その座標値の最大値と最小値の間に表示領域が含まれる発話パターン画像情報が少なくとも１つあるか否か判断する。その発話パターン画像情報がある場合、音源選択部２１２は、その発話パターン画像情報に対応する音源を選択する。その音源が複数ある場合には、音源選択部２１２は、その複数の音源を全て選択する。音源選択部２１２は、選択した音源を表す選択音源情報を音声出力部２１３と表示情報生成部２０７に出力する。
パターン画像情報の全部又は一部が消去された場合、音源選択部２１２は、消去されたパターン画像情報に対応する音源を選択された音源から除外する。その音源が複数ある場合には、音源選択部２１２は、その複数の音源をすべて除外する。音源選択部２１２は、除外した音源を表す選択音源情報を音声出力部２１３に出力する。

音声出力部２１３は、音源分離部２０４から入力された音源別音声信号のうち、音源選択部２１２から入力された選択音源情報が表す選択した音源に対応する音声信号をミキシングし、ミキシングした音声信号が表す音声を再生する。音声出力部２１３は、音源選択部２１２から入力された選択音源情報が表す除外した音源に対応する音声信号をミキシングの対象から除外する。これにより、除外された音声信号が表す音声は再生されなくなる。

制御情報生成部２１４は、音源定位部２０３から音源方向情報が入力される。制御情報生成部２１４は、表示情報生成部２０７から入力された表示情報から楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報と、発話パターン画像情報又は再生パターン画像情報を抽出する。制御情報生成部２１４は、抽出した表示楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報が表す水平方向の座標値、もしくは、その座標値の最大値と最小値を抽出する。
制御情報生成部２１４は、抽出した水平方向の座標値、もしくは、その座標値の最大値と最小値の間に、範囲外音源表示座標に表示された発話パターン画像情報又は再生パターン画像情報があるか否かを判断する。その発話パターン画像情報又は再生パターン画像情報がある場合、制御情報生成部２１４は、その発話パターン画像情報又は再生パターン画像情報に対応する音源を選択する。その音源が複数ある場合には、制御情報生成部２１４は、例えば、正面方向からの角度が最も小さい方向に対応する１つの音源を選択する。
制御情報生成部２１４は、選択した音源の方向にロボット１０が頭部を向けることを表す制御信号を生成する。制御情報生成部２１４は、生成した制御信号を通信部２０１に出力する。

次に、本実施形態に係る情報提示処理について説明する。
図５は、本実施形態に係る情報提示処理を表すフローチャートである。
（ステップＳ１０１）ロボット１０の音声符号化部１０１２は、収音部１０１１−１〜１０１１−Ｎから入力されたチャネル毎のアナログ音声信号を、それぞれＡ／Ｄ変換しチャネル毎のディジタル音声信号を生成する。音声符号化部１０１２は、生成したディジタル音声信号を予め定めた符号化方式を用いて符号化し、チャネル毎の音声符号を生成する。音声符号化部１０１２は、生成したチャネル毎の音声符号を多重化した音声情報を、情報提示装置２０の音声復号部２０２に送信する。
音声復号部２０２は、ロボット１０の音声符号化部１０１２から受信した音声情報をチャネル毎の音声符号に分離する。音声復号部２０２は、分離した音声符号を復号して音声信号をチャネル毎に生成する。音声復号部２０２は、生成したチャネル毎の音声信号を音源定位部２０３に出力する。その後、ステップＳ１０２に進む。

（ステップＳ１０２）ロボット１０の画像符号化部１０２３は、画像補正部１０２２から入力された画像信号を予め定めた符号化方式を用いてフレーム毎に符号化し画像符号を生成する。画像符号化部１０２３は、生成した画像符号を情報提示装置２０の画像復号部２０８に送信する。
画像復号部２０８は、ロボット１０の画像符号化部１０２３から受信した画像符号を復号して画像信号を生成する。画像復号部２０８は、生成した画像信号を表示画像合成部２０９に出力する。その後、ステップＳ１０３に進む。

（ステップＳ１０３）音源定位部２０３は、音声復号部２０２から入力されたチャネル毎の音声信号に基づいて、音源毎の方向を推定する。音源の方向を推定するためには、音源定位部２０３は、例えば、ＭＵＳＩＣ法を用いる。音源定位部２０３は、推定した音源毎の方向を表す音源方向情報を音源分離部２０４、表示情報生成部２０７及び制御情報生成部２１４に出力する。音源定位部２０３は、音声復号部２０２から入力されたチャネル毎の音声信号を音源分離部２０４に出力する。その後、ステップＳ１０４に進む。

（ステップＳ１０４）音源分離部２０４は、音源定位部２０３から音源方向情報及びチャネル毎の音声信号が入力される。音源分離部２０４は、例えば、ＧＨＤＳＳ法を用いて、音源方向情報に基づいて、入力された音声信号から音源毎に音声信号を分離する。音源分離部２０４は、音源ごとに分離した音声信号を音源別音声信号として音声検出部２０５及び音声出力部２１３に出力する。その後、ステップＳ１０５に進む。

（ステップＳ１０５）音声検出部２０５は、音源分離部２０４から入力された音源別音声信号に対して音声区間検出を行い、音声区間であるか否かを表す音声検出情報を生成する。音声検出部２０５は、入力された音源別音声信号と、その信号に対応する音声検出情報を音声認識部２０６に出力する。音声検出部２０５は、音声検出情報を表示情報生成部２０７に出力する。その後、ステップＳ１０６に進む。

（ステップＳ１０６）表示情報生成部２０７は、音源定位部２０３から入力された音源方向情報が表す音源毎の方向を画像座標系で表される表示座標に変換する。
表示情報生成部２０７は、音声検出部２０５から入力された音声検出情報が音声区間であることを表す場合、記憶部から発話パターン画像情報を読み出す。表示情報生成部２０７は、読み出した発話パターン画像情報が表す画像が、変換した表示座標に含まれる画像を表す表示情報を生成する。
音源方向情報が表す音源方向φが、視野角Φの範囲外である場合には、表示情報生成部２０７は、読み出した発話パターン画像情報が表す画像が、範囲外音源表示座標に含まれる画像を表す表示情報を生成する。表示情報生成部２０７は、生成した表示情報を表示画像合成部２０９に出力する。その後、ステップＳ１０７に進む。

（ステップＳ１０７）表示画像合成部２０９は、画像復号部２０８から入力された画像信号が表す画像と表示情報生成部２０７から入力された表示情報が表す画像を合成し、合成した画像が表す表示画像信号を生成する。表示画像合成部２０９は、生成した表示画像信号を画像表示部２１０に出力する。
画像表示部２１０は、表示画像合成部２０９から入力された表示画像信号が表す画像を表示する。その後、ステップＳ１０８に進む。

（ステップＳ１０８）操作入力部２１１は、利用者による操作入力を検知して座標指定情報を生成し、生成した座標指定情報を表示情報生成部２０７に出力する。表示情報生成部２０７は、操作入力部２１１から入力された座標指定情報に応じて、楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報を読み出す。表示情報生成部２０７は、読み出した画像情報が表す画像を座標指定情報が表す領域に配置した画像を含むように表示情報を更新する。表示情報生成部２０７は、生成した表示情報を表示画像合成部２０９、音源選択部２１２に出力する。その後、ステップＳ１０９に進む。

（ステップＳ１０９）音源選択部２１２は、表示情報生成部２０７から入力された表示情報から楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報と、発話パターン画像情報を抽出する。
音源選択部２１２は、抽出した表示楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報が表す水平方向の座標値、もしくは、その座標値の最大値と最小値の間に表示領域が含まれる発話パターン画像情報があるか否か判断する。その発話パターン画像情報がある場合、音源選択部２１２は、その発話パターン画像情報に対応する音源を選択する。音源選択部２１２は、選択した音源を表す選択音源情報を音声出力部２１３と表示情報生成部２０７に出力する。その後、ステップＳ１１０に進む。

（ステップＳ１１０）音声出力部２１３は、音源分離部２０４から入力された音源別音声信号のうち、音源選択部２１２から入力された選択音源情報が表す選択した音源に対応する音声信号をミキシングし、ミキシングした音声信号が表す音声を再生する。
その後、ステップＳ１１１に進む。

（ステップＳ１１１）表示情報生成部２０７は、音源選択部２１２から選択音源情報が入力される。表示情報生成部２０７は、記憶部から再生パターン画像情報を読み出す。表示情報生成部２０７は、選択音源情報が表す音源に対応する発話パターン画像情報であって、既に生成した表示情報に含まれる発話パターン画像情報を、読み出した再生パターン画像情報に入れ替える。表示情報生成部２０７は、再生パターン画像情報に入れ替えて更新した表示情報を表示画像合成部２０９に出力する。その後、ステップＳ１１２に進む。

（ステップＳ１１２）表示画像合成部２０９は、画像復号部２０８から入力された画像信号が表す画像と表示情報生成部２０７から入力された表示情報が表す画像を合成し、合成した画像が表す表示画像信号を生成する。表示画像合成部２０９は、生成した表示画像信号を画像表示部２１０に出力する。
画像表示部２１０は、表示画像合成部２０９から入力された表示画像信号が表す画像を表示する。その後、処理を終了する。

次に、情報提示装置２０が表示する発話パターン画像情報が表す画像（発話パターン画像）を含む表示画像の例について説明する。
図６は、発話パターン画像を含む表示画像の一例を表す概念図である。
図６に示す表示画像６１は、左下部に人物Ａの画像６３と中央右寄りに人物Ｂの画像６４を表す。図６７の中央左側に、格子模様が付され、中心にスピーカの図案を含む矩形は、発話パターン画像２０５１である。画像２０５１の中心点における水平方向の座標は、人物Ａの水平方向の座標と同一である。これにより、人物Ａが発話していることを利用者は認識することができる。また、図６の下端に利用者に対して音源選択を促すテキスト６２「聞きたい音を選んで下さい」が表されている。

次に、指示パターン画像情報が表す画像（指示パターン画像）を含む表示画像の例について説明する。
図７は、指示パターン画像を含む表示画像の一例を表す概念図である。
図７に示す表示画像７１は、左下部に人物Ａの画像７３と中央右寄りに人物Ｂの画像７４を表す。人物Ｂの頭部に、発話パターン画像２０５２が配置されている。
図７の左上端に、発話パターン画像２０５３が配置されている。この位置は、上述の範囲外音源表示座標に相当する。言い換えれば、画像２０５３は、対応する音源の音源方向φが視野角Φの範囲外であることを示す。画像２０５３に終点が向いている矢印２０５４は、指示パターン画像２０５４である。画像２０５４の右側には、利用者に画像の表示範囲外に音源が存在することを表すテキスト７５「範囲外に音源があります」が表示されている。これにより、人物Ｂ以外に、表示範囲外に発話している音源があることを利用者は認識することができる。そして、利用者は、表示範囲外にある音源を選択しようとしていることを表す。

次に、楕円パターン画像情報が表す画像（楕円パターン画像）と再生パターン画像情報が表す画像（再生パターン画像）を含む表示画像の例について説明する。
図８は、楕円パターン画像及び再生パターン画像を含む表示画像の一例を表す概念図である。
図８に示す表示画像８１は、左下部に人物Ａの画像８３と中央右寄りに人物Ｂの画像８４を表す。
人物Ａの真上に配置され、左上から右下に向いた縞模様が付され、中央にスピーカの図案を含む矩形は、再生パターン画像２０５５である。画像２０５５を横切る楕円は、楕円パターン画像２０５６である。画像２０５６の水平方向の両端の間に、推定された音源（人物Ａ）の方向φに対応する画像２０５５の水平方向の座標値の中心値Ｘ_Ａが含まれる。即ち、図８に表される表示画像は、人物Ａの音声が選択され、選択された人物Ａの音声が再生されていることを表す。

次に、曲線パターン画像情報が表す画像（曲線パターン画像）を含む表示画像の例について説明する。
図９は、曲線パターン画像を含む表示画像の一例を表す概念図である。
図９に示す表示画像９１は、左下部に人物Ａの画像９３と中央右寄りに人物Ｂの画像９４を表す。人物Ａの真上に表されている画像は、発話パターン画像２０５１である。人物Ｂの頭部に配置され、左上から右下に向いた縞模様が付され、中央にスピーカの図案を含む矩形は、再生パターン画像２０５７である。画像２０５７の真上を通る曲線は、曲線パターン画像２０５８である。画像２０５８の水平方向の両端の間に、音源定位部２０３によって推定された音源（人物Ｂ）の方向φに対応する画像２０５７の水平方向の座標値の中心値Ｘ_Ｂが含まれる。即ち、図９に表される表示画像は、人物Ｂの音声が選択され、選択された人物Ｂの音声が再生されていることを表す。これに対し、図９に示される表示画像は、人物Ａは発話しているが、その音声を再生する対象として選択されていないことを表す。

次に、テキストパターン画像情報が表す画像（テキストパターン画像）を含む表示画像の例について説明する。
図１０は、テキストパターン画像を含む表示画像の一例を表す概念図である。
図１０に示す表示画像１００１は、左下部に人物Ａの画像１００３と中央右寄りに人物Ｂの画像１００４を表す。人物Ａの真上に表されている画像は、テキストパターン画像２０５９である。画像２０５９の領域に含まれるテキスト「認識した音声をテキストで表示します」は、音声認識部２０６が人物Ａの音声信号に基づいて生成したテキストである。これにより、利用者は人物Ａが発話した内容を把握することができる。
なお、図６−９に示した例と同様に、本実施形態では、利用者が画像２０５９の表示領域の全部又は一部（例えば、代表点である頂点）の座標を指示する操作入力を受け付けるようにしてもよい。その場合、本実施形態では、音源選択部２１２は、人物Ａが発話した音声信号を選択し、音声出力部２１３は、選択された音声信号に基づく人物Ａの音声を再生する。

次に、音源定位部２０３がＭＵＳＩＣ法を用いて音源の方向を推定する処理の一例について説明する。
音源定位部２０３は、予め音源方向φ毎に音源から各チャネルｉ（ｉは、１≦ｉ≦Ｎとなる整数）に対応する収音部１０１１−ｉまでの伝達関数ａ_φｉ（ω）が記憶されている記憶部（図示せず）を備える。伝達関数ａ_φｉ（ω）を要素とするＮ次元のベクトル［ａ_φ１（ω），ａ_φ２（ω），…，ａ_φＮ（ω）］を伝達関数ベクトルｖａ_φ（ω）と呼ぶ。

図１１は、本実施形態に係る音源方向推定処理を表すフローチャートである。
（ステップＳ２０１）音源定位部２０３は、チャネルｉ毎の音声信号ｘ_ｉ（ｋ）（ｋは、サンプル時刻を表す整数）に対して離散フーリエ変換（ＤＦＴ；ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を行って、周波数領域信号ｘ_ｉ（ω）（ωは、周波数）を生成する。その後、ステップＳ２０２に進む。

（ステップＳ２０２）音源定位部２０３は、周波数ω毎にチャネル間の周波数領域信号ｘ_ｉ（ω）の相互相関（ｃｒｏｓｓｃｏｒｒｅｌａｔｉｏｎ）を要素とするＮ行Ｎ列の相関行列（ｃｏｒｒｅｌａｔｉｏｎｍａｔｒｉｘ）Ｒ（ω）を算出する。音源定位部２０３は、相関行列Ｒ（ω）を算出する際、例えば、式（２）を用いる。

式（２）において、Ｅ［…］は、…の期待値を表す。ｖｘ（ω）は、周波数領域信号ｘ_ｉ（ω）を要素とするＮ次元のベクトル［ｘ_１（ω），ｘ_２（ω），…，ｘ_Ｎ（ω）］である。Ｈは、ベクトル又は行列の共役転置（ｃｏｎｊｕｇａｔｅｔｒａｎｓｐｏｓｅ）を表す。その後、ステップＳ２０３に進む。

（ステップＳ２０３）音源定位部２０３は、相関行列Ｒ（ω）を固有値展開して、Ｎ個の固有値λ_ｉ（ω）及び固有ベクトルｅ_ｉ（ω）を算出する。相関行列Ｒ（ω）と固有値λ_ｉ（ω）ならびに固有ベクトルｅ_ｉ（ω）は、式（３）に示される関係を満たす。

式（３）において、Ｅ（ω）は、固有ベクトルｅ_ｉ（ω）を要素とするＮ行Ｎ列の行列［ｅ_１（ω），ｅ_２（ω），…，ｅ_Ｎ（ω）］である。Λ（ω）は、対角要素としてＮ個の固有値λ_１（ω），λ_２（ω），…，λ_Ｎ（ω）を含むＮ行Ｎ列の対角行列である。ここで、インデックスｉは、行列Ｅ（ω）における固有ベクトルｅ_ｉ（ω）の順序、行列Λ（ω）における固有値λ_ｉ（ω）の順序を表す。音源定位部２０３は、インデックスｉを、最大の固有値λ_ｉ（ω）に対して１であり、最小の固有値λ_ｉ（ω）に対してＮとなるように、固有値λ_ｉ（ω）の降順に定める。その後、ステップＳ２０４に進む。

（ステップＳ２０４）音源定位部２０３は、記憶部から音源方向φ毎の伝達関数ベクトルｖａ_φ（ω）を読み出し、読み出した伝達関数ベクトルｖａ_φ（ω）と算出した固有ベクトルｅ_ｉ（ω）に基づいて、周波数毎に指標値としてＭＵＳＩＣ評価値（ＭＵＳＩＣｅｓｔｉｍａｔｏｒ）Ｐ（ω，φ）を算出する。ＭＵＳＩＣ評価値Ｐ（ω，φ）を算出するために、音源定位部２０３は、例えば、式（４）を用いる。

式（４）において、Ｌは、予め定めた音源の数であって、１又は１よりも大きく、Ｎよりも小さい整数である。式（４）において、ＭＵＳＩＣ評価値Ｐ（ω，φ）は、伝達関数ベクトルｖａ_φ（ω）とＮ−Ｌ個の音源に寄与しない固有ベクトルｅ_ｉ（ω）との内積の総和（分母）に対する、方向φからの伝達関数ベクトルｖａ_φ（ω）のパワー（分子）を表す。即ち、ＭＵＳＩＣ評価値Ｐ（ω，φ）は、周波数ω毎の方向φから到来する音波の強度を表す指標である。その後、ステップＳ２０５に進む。

（ステップＳ２０５）音源定位部２０３は、ＭＵＳＩＣ評価値Ｐ（ω，φ）と最大固有値λ_１（ω）を用いて、検出した音源方向φ毎に、予め定めた音声の周波数帯域における空間スペクトルＰ（φ）を算出する。空間スペクトルＰ（φ）を算出する際、音源定位部２０３は、例えば式（５）を用いる。

式（５）において、ω_ｍｉｎは、当該周波数帯域の最低周波数を表し、ω_ｍａｘは、最高周波数を表す。即ち、式（５）は、ＭＵＳＩＣ評価値Ｐ（ω，φ）と最大固有値λ_１（ω）の平方根の乗算値を、当該周波数成分にわたって加算して空間スペクトルＰ（φ）を算出することを表す。これにより、ＭＵＳＩＣ評価値Ｐ（ω，φ）が高い周波数成分が空間スペクトルＰ（φ）に強く反映される。その後、ステップＳ２０６に進む

（ステップＳ２０６）音源定位部２０３は、空間スペクトルＰ（φ）のピーク値（極大値）を抽出し、そのうち最大値（１番目）からＬ番目に大きいピーク値（極大値）を選択する。但し、音源定位部２０３は、予め定めた閾値よりも小さいピーク値については棄却してもよい。その場合、音源定位部２０３は、予め定めた音源数Ｌから棄却したピーク値の数を減じて、音源数Ｌを更新する。
音源定位部２０３は、選択したピーク値にそれぞれ対応する音源方向φを表す音源方向情報を生成する。その後、処理を終了する。

次に、音源分離部２０４がＧＤＨＳＳ法を用いて音源毎に音声信号を分離する処理の一例について説明する。
音源分離部２０４は、予め音源方向φ毎に音源から各チャネルｉに対応する収音部１０１１−ｉまでの伝達関数ａ_φｉ（ω）が記憶されている記憶部（図示せず）を備える。但し、音源定位部２０３がＭＵＳＩＣ法を採用している場合には、音源定位部２０３又は音源分離部２０４のうち、いずれか一方が当該記憶部を備え、他方が省略してもよい。その場合、音源定位部２０３及び音源分離部２０４は当該記憶部を共用してもよい。

図１２は、本実施形態に係る音源分離処理を表すフローチャートである。
（ステップＳ３０１）音源分離部２０４は、音源定位部２０３から入力された音源方向情報が表す音源方向に各々対応する伝達関数ベクトルｖａ_φ（ω）を記憶部から読み出す。音源分離部２０４は、読み出したＬ個の伝達関数ベクトルｖａ_φ（ω）を統合してＮ行Ｌ列の伝達関数行列Ａを構成する。初期分離行列（ｉｎｉｔｉａｌｓｅｐａｒａｔｉｏｎｍａｔｒｉｘ）Ｗ_ｉｎｉｔは、例えば、伝達関数行列Ａの擬似逆行列である。音源分離部２０４は、構成した伝達関数行列Ａに基づいて初期分離行列Ｗ_ｉｎｉｔを算出する。初期分離行列Ｗ_ｉｎｉｔは、分離行列Ｗの初期値である。その後、ステップＳ３０２に進む。

（ステップＳ３０２）音源分離部２０４は、音源定位部２０３から入力されたチャネルｉ毎の音声信号ｘ_ｉ（ｋ）に対してフレーム毎にＤＦＴを行い、チャネルｉ毎の周波数領域信号ｘ_ｉ（ω）を生成する。音源分離部２０４は、チャネルｉ毎の周波数領域信号ｘ_ｉ（ω）を要素とするＮ列の周波数領域信号ベクトルｖｘ（ω）を構成する。音源分離部２０４は、周波数ω毎にチャネル間の周波数領域信号ｘ_ｉ（ω）の相互相関を要素とするＮ行Ｎ列の入力相関行列Ｒ_ｘｘ（ω）を、例えば式（２）を用いて算出する。その後、ステップＳ３０３に進む。

（ステップＳ３０３）音源分離部２０４は、周波数領域信号ベクトルｖｘ（ω）に分離行列Ｗを乗算して周波数領域音源ベクトルｖｙ（ω）を算出する。周波数領域音源ベクトルｖｙ（ω）は、音源ｌ毎の周波数領域音源信号ｙ_ｌ（ω）を要素とするベクトルである。音源分離部２０４は、周波数ω毎に周波数領域音源ベクトルｖｙ（ω）から、Ｎ行Ｎ列の出力相関行列Ｒ_ｙｙ（ω）を、例えば式（２）を用いて算出する。その後、ステップＳ３０４に進む。

（ステップＳ３０４）音源分離部２０４は、出力相関行列Ｒ_ｙｙ（ω）から、その対角行列ｄｉａｇ［Ｒ_ｙｙ（ω）］を減算して行列Ｅ_ＳＳ（ω）を算出する。即ち、行列Ｅ_ＳＳ（ω）は、出力相関行列Ｒ_ｙｙ（ω）の非対角成分を表す行列である。音源分離部２０４は式（６）に示されるように、入力相関行列Ｒ_ｘｘ（ω）に分離行列Ｗと行列Ｅ_ＳＳ（ω）に定数２を乗算して、分離誤差行列Ｊ’_ＳＳ（ω）を算出する。

分離誤差行列Ｊ’_ＳＳ（ω）は、分離尖鋭度（ｓｅｐａｒａｔｉｏｎｓｈａｒｐｎｅｓｓ）Ｊ_ＳＳ（ω）を、入力相関行列Ｒ_ｘｘ（ω）の各要素値で微分して導出される行列である。分離尖鋭度Ｊ_ＳＳ（ω）は、１つの音源が他の音源として誤って分離される度合いを表す指標値である。その後、ステップＳ３０５に進む。

（ステップＳ３０５）音源分離部２０４は、分離行列Ｗと伝達関数行列Ａの積から単位行列Ｉを減算して、行列Ｅ_ＧＣ（ω）を算出する。即ち、行列Ｅ_ＧＣ（ω）は、分離行列Ｗの誤差を表す行列である。音源分離部２０４は、式（７）に示されるように、伝達関数行列Ａの共役転置行列に行列Ｅ_ＧＣ（ω）を乗じて幾何誤差行列Ｊ’_ＧＣ（ω）を算出する。

幾何誤差行列Ｊ’_ＧＣ（ω）、幾何制約度（ｇｅｏｍｅｔｒｉｃｃｏｎｓｔｒａｉｎｔ）Ｊ_ＧＣ（ω）を、入力相関行列Ｒ_ｘｘ（ω）の各要素値で微分して導出される行列である。幾何制約度Ｊ_ＧＣ（ω）は、周波数領域音源ベクトルｖｙ（ω）の誤差の度合いを表す指標値である。その後、ステップＳ３０６に進む。

（ステップＳ３０６）音源分離部２０４は、行列Ｅ_ＧＣ（ω）と幾何誤差行列Ｊ’_ＧＣ（ω）に基づいて、例えば式（８）を用いてステップサイズμ_ＧＣを算出する。

式（８）において、｜…｜^２は、フロベニウスノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）を表す。フロベニウスノルムは、行列…を構成する要素値の絶対値の二乗についての全要素にわたる総和である。
また、音源分離部２０４は、行列Ｅ_ＳＳ（ω）と分離誤差行列Ｊ’_ＳＳ（ω）に基づいて、例えば式（９）を用いてステップサイズμ_ＳＳを算出する。

その後、ステップＳ３０７に進む。
（ステップＳ３０７）音源分離部２０４は、分離誤差行列Ｊ’_ＳＳ（ω）と幾何誤差行列Ｊ’_ＧＣ（ω）を、それぞれステップサイズμ_ＳＳとμ_ＧＣで重み付け加算して分離行列の更新行列ΔＷを算出する。音源分離部２０４は、分離行列Ｗから更新行列ΔＷを減算して、分離行列Ｗを更新する。その後、ステップＳ３０８に進む。

（ステップＳ３０８）音源分離部２０４は、分離行列Ｗの変化が収束したか否か判断する。音源分離部２０４は、例えば、指標値として更新行列ΔＷのノルムについて分離行列Ｗのノルムとの比率を算出し、指標値が予め設定した値よりも小さくなったときに収束したと判断する。分離行列Ｗの変化が収束したと判断された場合（ステップＳ３０８Ｙ）、処理を終了する。音源分離部２０４は、収束したときの分離行列Ｗを用いて算出した音源ｌ毎の周波数領域音源信号ｙ_ｌ（ω）を逆離散フーリエ変換（ＩｎｖｅｒｓｅＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ，ＩＤＦＴ）して音源ｌ毎に分離した音声信号ｙ_ｌ（ｋ）を生成する。分離行列Ｗの変化が収束していないと判断された場合（ステップＳ３０８Ｎ）、ステップＳ３０２に戻る。

次に、本実施形態に係る動作制御処理の一例について説明する。
この処理は、ステップＳ１０６（図５参照）において、音源方向φが視野角Φの範囲外であると判断された音源が、音声を再生する対象として選択された場合、ステップＳ１１２の後で行われる処理である。但し、ステップＳ１１１において情報提示装置２０の表示情報生成部２０７は、更新した表示情報を制御情報生成部２１４に出力する。

図１３は、本実施形態に係る動作制御処理の一例を表すフローチャートである。
（ステップＳ４０１）制御情報生成部２１４は、音源定位部２０３から音源方向情報が入力される。表示情報生成部２０７から入力された表示情報から楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報と、発話パターン画像情報又は再生パターン画像情報を抽出する。制御情報生成部２１４は、抽出した表示楕円パターン画像情報、曲線パターン画像情報又は指示パターン画像情報が表す水平方向の座標値、もしくは、その座標値の最大値と最小値を抽出する。

制御情報生成部２１４は、抽出した水平方向の座標値、もしくは、その座標値の最大値と最小値の間に、範囲外音源表示座標に表示された発話パターン画像情報又は再生パターン画像情報があるか否かを判断する。その発話パターン画像情報又は再生パターン画像情報がある場合、制御情報生成部２１４は、その発話パターン画像情報又は再生パターン画像情報に対応する音源を選択する。
制御情報生成部２１４は、選択した音源の方向に頭部を向けることを表す制御信号を生成する。制御情報生成部２１４は、生成した制御信号をロボット１０の動作制御部１０６に出力する。その後、ステップＳ４０２に進む。

（ステップＳ４０２）動作制御部１０６は、通信部１０４から入力された制御情報に対応する電力モデル情報を記憶部から読み出す。動作制御部１０６は、読み出した電力モデル情報を参照して位置情報取得部１０５から入力された位置情報に対応する部品毎の電力値を定める。動作制御部１０６は、定めた電力値をもつ電力を、動作機構部１０７の該当する部品に出力する。その後、ステップＳ４０３に進む。
（ステップＳ４０３）動作機構部１０７を構成する各部品は動作制御部１０６から供給された電力によって駆動される。その後、処理を終了する。

図１３に示す処理によって、ロボット１０の頭部が指示された音源（例えば、人物Ｄ（図４参照））の方向に向く。このときに表示される表示画像の例について説明する。
図１４は、表示画像の他の例を表す概念図である。
図１４に示す表示画像１４１は、中心部に人物Ｄの画像１４６を表す。
人物Ｄの頭部と胴体部の間に表されている画像は、再生パターン画像２０６０である。即ち、表示画像１４１は、人物Ｄの方向にロボット１０が正面を向き、撮影部１０２１の光軸が向いていることを表す。また、表示画像１４１は、発話している人物Ｄの音声が再生する対象として選択されていることを表す。

次に、本実施形態に係る動作制御処理の他の例について説明する。
この例は、動作制御部１０６が検出した動作に基づいて画像を補正する処理の一例である。
図１５は、本実施形態に係る動作制御処理の他の例を表すフローチャートである。
（ステップＳ５０１）位置情報取得部１０５は、自己が備える位置センサが検知した変位に基づいて位置情報を生成する。位置情報取得部１０５は、生成した位置情報を動作制御部１０６に出力する。その後、ステップＳ５０２に進む。
（ステップＳ５０２）動作制御部１０６は、位置情報取得部１０５から入力された位置情報の現在値と予め定めた時間だけ過去の値との変位を算出し、算出した変位が予め定めた閾値よりも大きいか否か判断する。変位が閾値よりも大きいと判断された場合（ステップＳ５０２Ｙ）、ステップＳ５０３に進む。変位が閾値と等しいか、又は閾値よりも小さいと判断された場合（ステップＳ５０２Ｎ）、処理を終了する。

（ステップＳ５０３）動作制御部１０６は、算出した変位から画素毎の移動速度を算出し、算出した移動速度に基づいて画素毎の移動量を算出する。動作制御部１０６は、算出した移動量の正負を逆転した値を座標補正量として表す画像補正信号を生成する。動作制御部１０６は、生成した画像補正信号を画像補正部１０２２に出力する。その後、ステップＳ５０４に進む。
（ステップＳ５０４）画像補正部１０２２は、動作制御部１０６から入力された画像補正信号に基づいて撮影部１０２１から入力された画像信号を補正する。ここで、画像補正部１０２２は、変換した画像信号に含まれる信号値の座標を、画像補正信号が表す座標補正量だけ移動させて、補正した画像信号を生成する。画像補正部１０２２は、補正した画像信号を画像符号化部１０２３に出力する。その後、ステップＳ５０５に進む。

（ステップＳ５０５）動作制御部１０６は、画像符号化部１０２３が用いる符号化方式に応じたビットレートの段階を表し、算出した変位が大きいほど、より低いビットレートを表すレート補正信号を生成する。動作制御部１０６は、生成したレート補正信号を画像符号化部１０２３に出力する。その後、ステップＳ５０６に進む。
（ステップＳ５０６）画像符号化部１０２３は、動作制御部１０６から入力されたレート補正信号が表すビットレートに、符号化する際のビットレートを変更する。その後、処理を終了する。

これにより、撮影部１０２１の光軸が移動して生じた画像の移動が補償され、移動した画像の解像度又はフレームが間引かれる。そのため、画質の劣化が低減する。

このように、本実施形態は、音声信号を入力し、画像信号を入力し、画像信号が表す画像を表示する。そして、本実施形態は、音声信号に基づき音源毎の方向情報を推定し、音声信号から音源毎の音源別音声信号に分離し、操作入力を受け付け、画像の一部の領域を表す座標指定情報を生成する。また、本実施形態は、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する。これにより、発話内容の把握が容易になる。

（第２の実施形態）
次に、図面を参照しながら本発明の第２の実施形態について説明する。
第１の実施形態と同一の構成については、同一の符号を付す。
本実施形態に係る情報伝達システム２は、ロボット４０、情報提示装置５０及びネットワーク３０を含んで構成される。

図１６は、本実施形態に係るロボット４０の構成を表す概略図である。
ロボット４０は、情報取得部４１、通信部１０４、位置情報取得部１０５、動作制御部１０６及び動作機構部１０７を含んで構成される。
情報取得部４１は、音声情報入力部４０１、音声符号化部１０１２、画像情報入力部１０２、音源定位部２０３、音源分離部２０４、音声検出部２０５、及び音声認識部２０６を含んで構成される。音声情報入力部４０１は、収音部１０１１−１〜１０１１−Ｎを含んで構成される。
即ち、ロボット４０は、ロボット１０（図１参照）が備える構成部と情報提示装置２０（図３参照）が備える音源定位部２０３、音源分離部２０４、音声検出部２０５、及び音声認識部２０６を含んで構成される。

図１７は、本実施形態に係る情報提示装置５０の構成を表す概略図である。
情報提示装置５０は、通信部２０１、音声復号部２０２、表示情報生成部２０７、画像復号部２０８、表示画像合成部２０９、画像表示部２１０、操作入力部２１１、音源選択部２１２、音声出力部２１３、及び制御情報生成部２１４を含んで構成される。
即ち、情報提示装置５０は、情報提示装置２０（図４参照）が備える音源定位部２０３、音源分離部２０４、音声検出部２０５、及び音声認識部２０６を省略した構成である。
従って、本実施形態と第１の実施形態では、音源定位部２０３、音源分離部２０４、音声検出部２０５、及び音声認識部２０６の配置が異なるが、同様な処理が行われ、同様な作用及び効果が得られる。

ここで、ロボット４０において、音声符号化部１０１２は、音源分離部２０４が分離した音源毎の音声信号を情報提示装置５０の音声復号部２０２に送信する。音源定位部２０３は、生成した音源方向情報を、情報提示装置５０の表示情報生成部２０７及び制御情報生成部２１４に送信する。音声検出部２０５は、生成した音声検出情報を情報提示装置５０の表示情報生成部２０７に送信する。音声認識部２０６は、生成したテキスト情報を情報提示装置５０の表示情報生成部２０７に送信する。

他方、情報提示装置５０において、音声復号部２０２は、ロボット４０の音声符号化部１０１２から通信部２０１を介して受信した音源毎の音声符号を復号して音声信号を生成し、生成した音声信号を音声出力部２１３に出力する。表示情報生成部２０７は、ロボット４０の音源定位部２０３から通信部２０１を介して受信した音源方向情報、音声検出部２０５から受信した音声検出情報及び音声認識部２０６から受信したテキスト情報に基づいて表示情報を生成する。制御情報生成部２１４は、ロボット４０の音源定位部２０３から通信部２０１を介して受信した音源方向情報と表示情報生成部２０７から入力された表示情報に基づいて制御情報を生成する。

次に、情報伝達システム１（図１参照）を用いて行った検証について説明する。
実験設定において、ロボット１０の左前方３０°及び右前方３０°において、各２名（計４名）の発話者が、雑音環境下でそれぞれ対話を行っている映像と音声を収録した。収録したシーンが２種類準備された。一方のシーンにおける発話区間の一例を図１９に示す。

図１８は、発話区間の一例を表す図である。
縦軸は、上から下へ順に、発話者Ａ１、Ａ２、Ｂ１、Ｂ２を表す。横軸は、時刻を表す。
発話者Ａ１、Ａ２は、ロボットの左前方３０°で相互に対話を行った発話者である。発話者Ｂ１、Ｂ２は、ロボットの右前方３０°で相互に対話を行った発話者である。図１９によれば、発話者Ａ１、Ａ２相互間、ならびに発話者Ｂ１、Ｂ２相互間、ほぼ交互に発話されている。しかし、発話者Ａ１、Ａ２の対と発話者Ｂ１、Ｂ２の対を比較すると、発話区間は重複している。

この実験設定の下で、８名の利用者に対して検証が行われた。８名のうち４名には、事前に本システムの利用方法を教示され、残りの４名には、その使用方法を教示されなかった。検証では、各利用者は、２種類のシーンの何れかをランダムな順序で視聴した。ここで、各利用者は、情報提示装置２０を用いて視聴した場合と、情報提示装置２０を用いずに通常の映像再生装置を用いて、対話の内容を正しく理解できたか否かを回答した。

次に、検証結果について説明する。
図１９は、利用者毎の正答率の一例を表す図である。
図１９において、縦軸は正答率を示し、横軸は利用者又は利用者の集合を示す。
横軸は、左から右へ順に、ＮＰ１、ＮＰ２、ＮＰ３、ＮＰ４、Ｐ１、Ｐ２、Ｐ３、Ｐ４、ＮＰ平均、Ｐ平均、全体平均、を表す。ＮＰは、情報提示装置２０の使用方法を教示されていない利用者を表す。Ｐは、情報提示装置２０の使用方法を教示された利用者を表す。ＮＰ平均は、ＮＰ１〜ＮＰ４間の平均値を表す。Ｐ平均は、Ｐ１〜Ｐ４間の平均値を表す。全員平均は、利用者全員の平均値を表す。但し、
また、横縞が付された棒グラフは、通常の映像再生装置を用いて得られた結果（不使用）を表す。塗りつぶしの棒グラフは、本実施形態に係る情報提示装置２０を用いて得られた結果（使用）を表す。
これによれば、ＮＰ平均では、正答率は、不使用の場合４３％、使用の場合６７％である。Ｐ平均では、正答率は、不使用の場合２７％、使用の場合８５％である。全員平均では、不使用の場合３５％、使用の場合７６％である。

この結果は、情報提示装置２０を用いることで使用方法を教示されたか否かに関わらず正答率が向上することを示す。つまり、本実施形態により利用者は、同時に発話された方向の異なる音源同士を選択して受聴することで、発話内容の把握が容易になる。

このように、上述した実施形態は、音声信号を入力し、画像信号を入力し、画像信号が表す画像を表示する。そして、上述した実施形態は、音声信号に基づき音源毎の方向情報を推定し、音声信号から音源毎の音源別音声信号に分離し、操作入力を受け付け、画像の一部の領域を表す座標指定情報を生成する。また、上述した実施形態は、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する。これにより、発話内容の把握が容易になる。

上述した実施形態では、音源定位部２０３が生成した音源方向情報が音源毎の水平方向の方位であり、音源選択部２１２は、音源方向情報に対応する水平方向の座標値に基づいて音源を選択する場合をとって説明したが、本実施形態ではこれには限らない。
本実施形態では、音源定位部２０３は、音源毎の垂直方向の方位、又は水平方向の方位と垂直方向の方位を表す音源方向情報を生成してもよい。その場合、表示情報生成部２０７は、音源方向情報に対応する垂直方向の座標値を考慮してパターン画像情報を含んだ表示情報を生成してもよい。音源選択部２１２は、音源方向情報に対応する垂直方向の座標を考慮して音源を選択する。

上述した実施形態では、表示情報生成部２０７は、音源毎に再生パターン画像情報、発話パターン画像情報又はテキストパターン画像情報を含んだ表示情報を生成する場合を例にとって説明した。ここで、画像表示部２１０は、再生パターン画像情報、発話パターン画像情報又はテキストパターン画像情報が表す画像を表示する。しかし、本実施形態ではこれには限られない。
本実施形態では、表示情報生成部２０７は、表示情報を生成する際、再生パターン画像情報、発話パターン画像情報又はテキストパターン画像情報のいずれかを含めることを省略してもよい。画像表示部２１０は、再生パターン画像情報、発話パターン画像情報又はテキストパターン画像情報のいずれかを表示することを省略してもよい。

なお、上述した実施形態におけるロボット１０、４０及び情報提示装置２０、５０の一部、例えば、音声符号化部１０１２、画像補正部１０２２、画像符号化部１０２３、動作制御部１０６、音声復号部２０２、音源定位部２０３、音源分離部２０４、音声検出部２０５、音声認識部２０６、表示情報生成部２０７、画像復号部２０８、表示画像合成部２０９、音源選択部２１２、及び制御情報生成部２１４をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、ロボット１０、４０又は情報提示装置２０、５０に内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態におけるロボット１０、４０及び情報提示装置２０、５０の一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現しても良い。ロボット１０、４０及び情報提示装置２０、５０の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１…情報伝達システム、１０、４０…ロボット、１１、４１…情報取得部、
１０１、４０１…音声情報入力部、１０１１−１〜１０１１−Ｎ…収音部、
１０１２…音声符号化部、
１０２…画像情報入力部、１０２１…撮影部、１０２２…画像補正部、
１０２３…画像符号化部、
１０４、２０１…通信部、１０５…位置情報取得部、１０６…動作制御部、
１０７…動作機構部、
２０、５０…情報提示装置、２０１…通信部（方向情報入力部、音源別音声信号入力部）、２０２…音声復号部、２０３…音源定位部、
２０４…音源分離部、２０５…音声検出部、２０６…音声認識部、
２０７…表示情報生成部、２０８…画像復号部、２０９…表示画像合成部、
２１０…画像表示部、２１１…操作入力部、２１２…音源選択部、
２１４…制御信号生成部
３０…ネットワーク

Claims

音声信号を入力する音声信号入力部と、
画像信号を入力する画像信号入力部と、
前記画像信号が表す画像を表示する画像表示部と、
前記音声信号に基づき音源毎の方向情報を推定する音源定位部と、
前記音声信号から前記音源毎の音源別音声信号に分離する音源分離部と、
操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する操作入力部と、
前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する音源選択部と、を備えることを特徴とする情報提示装置。
前記音源別音声信号に対応する音源が発話状態であるか否かを検出する音声検出部と、
発話状態が検出された音源の方向情報に対応する座標に、発話状態であることを表す表示情報を生成する表示情報生成部を備え、
前記表示情報が表す画像を前記画像に重畳して表示すること
を特徴とする請求項１に記載の情報提示装置。
前記音源別音声信号に基づき発話内容を認識する音声認識部と、
前記音源別音声信号に対応する音源の方向情報に対応する座標に、前記発話内容を表す表示情報を生成する表示情報生成部と、
前記表示情報が表す画像を前記画像に重畳して表示すること
を特徴とする請求項１に記載の情報提示装置。
画像信号を入力する画像信号入力部と、
音源毎の方向情報を入力する方向情報入力部と、
音源毎の音源別音声信号を受信する音源別音声信号入力部と、
操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する操作入力部と、
前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する音源選択部と、を備えることを特徴とする情報提示装置。
情報取得装置と情報提示装置とを備える情報伝達システムであって、
前記情報提示装置は、
音声信号を入力する音声信号入力部と、
画像信号を入力する画像信号入力部と、
前記画像信号が表す画像を表示する画像表示部と、
前記音声信号に基づき音源毎の方向情報を推定する音源定位部と、
前記音声信号から前記音源毎の音源別音声信号に分離する音源分離部と、
操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する操作入力部と、
前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する音源選択部と、を備えることを特徴とする情報伝達システム。
前記情報取得装置は、ロボットに備えられ、
撮影した画像の画像信号を取得する撮影部と、
前記撮影部の位置情報を取得する位置情報取得部と、
前記位置情報に基づいて前記取得した画像信号を補正する画像補正部と、を備え、
前記画像信号を前記画像信号入力部に出力すること
を特徴とする請求項５に記載の情報伝達システム。
前記情報提示装置は、
前記音源別音声信号に対応する音源の方向情報に係る座標が、前記入力された画像信号が表す画像の表示範囲外であるとき、表示範囲外であることを表す表示情報を生成する表示情報生成部と、
前記音源別音声信号に対応する音源の方向に、前記入力された画像信号が表す画像を撮影する撮影部の方向を変更することを指示する制御情報を生成する制御情報生成部と、
前記情報取得装置は、ロボットに備えられ、
前記撮影部と、
前記制御情報に基づいて前記撮影部の方向を制御する動作制御部を備え、
前記画像信号を前記音声信号入力部に出力すること
を特徴とする請求項５に記載の情報伝達システム。
情報提示装置における情報提示方法において、
前記情報提示装置は、音声信号を入力する過程と、
前記情報提示装置は、画像信号を入力する過程と、
前記情報提示装置は、前記画像信号が表す画像を表示する過程と、
前記情報提示装置は、前記音声信号に基づき音源毎の方向情報を推定する過程と、
前記情報提示装置は、前記音声信号から前記音源毎の音源別音声信号に分離する過程と、
前記情報提示装置は、操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する過程と、
前記情報提示装置は、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する過程を有する
ことを特徴とする情報提示方法。
情報提示装置における情報提示方法において、
前記情報提示装置は、画像信号を入力する過程と、
前記情報提示装置は、音源毎の方向情報を入力する過程と、
前記情報提示装置は、音源毎の音源別音声信号を受信する過程と、
前記情報提示装置は、操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する過程と、
前記情報提示装置は、前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する過程を有する
ことを特徴とする情報提示方法。
情報提示装置のコンピュータに、
音声信号を入力する手順、
画像信号を入力する手順、
前記画像信号が表す画像を表示する手順、
前記音声信号に基づき音源毎の方向情報を推定する手順、
前記音声信号から前記音源毎の音源別音声信号に分離する手順、
操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する手順、
前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する手順
を実行させるための情報提示プログラム。
情報提示装置のコンピュータに、
画像信号を入力する手順、
音源毎の方向情報を入力する手順、
音源毎の音源別音声信号を受信する手順、
操作入力を受け付け、前記画像の一部の領域を表す座標指定情報を生成する手順、
前記座標指定情報が表す領域に含まれる座標であって、前記方向情報に対応する座標に係る音源の音源別音声信号を選択する手順
を実行させるための情報提示プログラム。