JP6017854B2

JP6017854B2 - 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム

Info

Publication number: JP6017854B2
Application number: JP2012139780A
Authority: JP
Inventors: 一博中臺
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2011-06-24
Filing date: 2012-06-21
Publication date: 2016-11-02
Anticipated expiration: 2032-06-21
Also published as: JP2013008031A; US20120330659A1; US8886530B2

Description

本発明は、情報処理装置、情報処理システム、情報処理方法及び情報処理プログラムに関する。

音声処理技術の発達により、発話内容とともに音環境を記録又は遠隔地に伝達することが試みられている。一般に、ある発話者の音声には、他人の音声や機器の動作音等、複数の音源から到来した音が混在している。視聴者はこれらを識別したうえで発話内容等を把握する。そこで、音源毎の音データを分離し、分離した音データが示す情報を受聴者に表示する技術が提案されていた。
例えば、特許文献１に記載の音データ記録再生装置では、音データを取得し、音源が存在する方向を特定し、音源毎の音データを分離し、音源毎の時系列の音データを格納し、所定の時間において所定の音源の方向を示す音に関するストリームデータを作成し、ストリームデータを視聴者に表示する。表示されたストリームデータが視聴者により選択されると、当該音データ記録再生装置は、選択されたストリームデータに関する音データを再生する。

特開２００８−１９７６５０号公報

しかしながら、特許文献１に記載の音データ記録再生装置は、音声を再生する際に、その音声に係る音源の方向と、音データの内容を別個に表示する。例えば複数人の発話者が発話した音声が再生される場合、視聴者はどの音声がどのような発話内容を示すか、などの発話状況を直感的に把握することが困難であった。

本発明は上記の点に鑑みてなされたものであり、視聴者が発話状況を容易に把握できる情報処理装置、情報処理システム、情報処理方法又は情報処理プログラムを提供する。

（１）本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、第１の収音部からの複数チャネルの音響信号に基づいて音源の方向を推定する音源方向推定部と、第２の収音部からの複数チャネルの音響信号を用いて得られる前記音源のパワーの指向性の度合いに基づいて前記音源が音波を放射する放射方向を推定できるか否かを判定し、推定できた放射方向を定める放射方向推定部と、前記音源の発話の内容を認識する音声認識部と、前記放射方向推定部が前記放射方向を推定できると判定するとき、発話の内容を表す文字と、前記文字を囲んで前記放射方向を示す方向指示標識を前記放射方向に向けて表す表示データを生成し、前記放射方向推定部が前記放射方向を推定できないと判定するとき、前記文字と、前記文字を囲んで特定の方向を示さない方向非指示標識を表す表示データを生成する表示データ生成部と、前記発話に係る音源を表す画像の表示位置に基づいて、前記表示データを合成する画像合成部と、を備えることを特徴とする情報処理装置である。

（２）本発明の他の態様は、上述の情報処理装置であって、前記音源を表す画像を取得する画像取得部と、前記画像を観察する位置である視点を入力するデータ入力部と、を備え、前記画像合成部は、前記表示データ生成部が生成した表示データに対して、前記データ入力部から入力された視点に基づいて視点を変換し、視点が変換された表示データを前記画像取得部が取得した画像に合成することを特徴とする。

（３）本発明の他の態様は、上述の情報処理装置であって、自部の位置を検出する位置検出部を備え、前記データ入力部は、前記位置検出部が検出前記データ入力部は、自部の位置を検出し、前記検出した位置を前記視点として入力することを特徴とする。

（４）本発明の他の態様は、上述の情報処理装置であって、前記発話内容に係る音声を発声した話者の感情を推定する感情推定部を備え、前記表示データ生成部は、前記感情推定部が推定した感情に基づいて、前記方向指示標識または前記方向非指示標識の表示態様を変化させることを特徴とする。

（５）本発明の他の態様は、上述の情報処理装置であって、前記表示データ生成部は、前記発話の内容を表す文字の大きさを、前記視点から前記音源の位置までの間の距離に基づいて定めることを特徴とする。

（６）本発明の他の態様は、上述の情報処理装置であって、前記表示データ生成部は、
前記表示データに含まれる文字数に基づいて前記文字を表示する時間を定めることを特徴とする。

（７）本発明の他の態様は、上述の情報処理装置と、前記発話に係る音源を表す画像を撮影する撮影部、を備えることを特徴とする情報処理システムである。

（８）本発明の他の態様は、情報処理装置における情報表示方法であって、第１の収音部からの複数チャネルの音響信号に基づいて音源の方向を推定する音源方向推定過程と、第２の収音部からの複数チャネルの音響信号を用いて得られる前記音源のパワーの指向性の度合いに基づいて前記音源が音波を放射する放射方向を推定できるか否かを判定し、推定できた放射方向を定める放射方向推定過程と、前記音源の発話の内容を認識する音声認識過程と、前記放射方向推定過程において前記放射方向を推定できると判定されるとき、発話の内容を表す文字と、前記文字を囲んで前記放射方向を示す方向指示標識を前記放射方向に向けて表す表示データを生成し、前記放射方向推定過程において前記放射方向を推定できないと判定されるとき、前記文字と、前記文字を囲んで特定の方向を示さない方向非指示標識を前記放射方向に向けて表す表示データを生成する表示データ生成過程と、
前記発話に係る音源を表す画像の表示位置に基づいて、前記表示データを合成する画像合成過程と、を有することを特徴とする情報処理方法である。

（９）本発明の他の態様は、情報処理装置のコンピュータに、第１の収音部からの複数チャネルの音響信号に基づいて音源の方向を推定する音源方向推定手順、第２の収音部からの複数チャネルの音響信号を用いて得られる前記音源のパワーの指向性の度合いに基づいて前記音源が音波を放射する放射方向を推定できるか否かを判定し、推定できた放射方向を定める放射方向推定手順、前記音源の発話の内容を認識する音声認識手順、前記放射方向推定手順において前記放射方向を推定できると判定されるとき、発話の内容を表す文字と、前記文字を囲んで前記放射方向を示す方向指示標識を前記放射方向に向けて表す表示データを生成し、前記放射方向推定手順において前記放射方向を推定できないと判定されるとき、前記文字と、前記文字を囲んで特定の方向を示さない方向非指示標識を表す表示データを生成する表示データ生成手順、前記発話に係る音源を表す画像の表示位置に基づいて、前記表示データを合成する画像合成手順、を実行させるための情報処理プログラムである。

上述の態様（１）、（８）、及び（９）によれば、視聴者が発話状況を容易に把握することができる。
上述の態様（２）によれば、視聴者は、さらに、取得された画像が表す物体である音源の発話状況を直感的に把握することができる。
上述の態様（３）によれば、視聴者は、さらに、検出した視点に応じた音源の位置及び音声の放射方向を把握することができる。
上述の態様（４）によれば、視聴者は、さらに、音源である話者の感情を視認して把握することができる。
上述の態様（５）によれば、視聴者は、さらに、視点からの音源までの距離を直感的に把握することができる。
上述の態様（６）によれば、視聴者には、さらに、発話内容を表す文字の数に応じて発話内容を理解するために十分な時間が与えられる。
上述の態様（７）によれば、視聴者は、さらに、音源である話者の画像を視聴して、その状況をより容易に把握することができる。

本発明の第1の実施形態に係る情報表示システムの概略図である。本実施形態に係る収音部及び撮影部の配置例を示す概念図である。本実施形態に係る矢印の画像の一例を示す図である。本実施形態に係る吹き出しの画像の一例を示す図である。本実施形態に係る情報表示処理を表すフローチャートである。画像表示部に表示される画像の一例を示す。本実施形態の一変形例に係る情報表示システムの構成を表す概略図である。本実施形態の他の変形例に係る情報表示システムの構成を表す概略図である。本実施形態の他の変形例に係る情報表示システムの構成を表す概略図である。本変形例における矢印の画像における形状の一例を示す図である。本変形例における矢印の画像における形状の他の例を示す図である。本実施形態の他の変形例に係る情報表示システムの構成を表す概略図である。本発明の第２の実施形態に係る情報表示システムの構成を表す概念図である。画像表示部に表示される画像の一例を示す。本実施形態の一変形例に係る情報表示システムの構成を表す概略図である。

（第１の実施形態）
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図１は、本発明の第１の実施形態に係る情報表示システム（情報処理システム）１の概略図である。
情報表示システム１は、収音部１１、１２、撮影部（画像取得部）１３及び情報表示装置１４を含んで構成される。

収音部１１、１２は、それぞれｍ、ｎチャネルの音響信号を情報表示装置１４に出力する。ｍ、ｎは、それぞれ１よりも大きい整数である。収音部１１、１２は、チャネル毎に到達した音波の振動を示す電気信号である音響信号に変換するマイクロホンを備える。各マイクロホンは、例えば、無指向性（ｏｍｎｉｄｉｒｅｃｔｉｏｎａｌ）のマイクロホンである。収音部１１は、例えば、ロボットの頭部に設置されたマイクロホンアレイであってもよい。当該マイクロホンアレイにおいて、各マイクロホンは、隣接するマイクロホンとの間隔が等しくなるようにロボットの頭頂部を中心とする円周上に配列されている。収音部１２は、例えば、ある部屋の内壁の表面に設置されたマイクロホンアレイである。当該マイクロホンアレイにおいて、各マイクロホンが隣接するマイクロホンとの間隔が等しく、かつ床面からの高さが等しくなるように、その部屋の水平面を覆うように配列されている。マイクロホンの配置例については後述する。

撮影部１３は、撮影した画像を表す画像信号をフレーム毎に生成し、生成した画像信号を情報表示装置１４に出力する。撮影部１３は、例えば、ＣＣＤ（Ｃｈａｒｇｅ−ＣｏｕｐｌｅｄＤｅｖｉｃｅ、電荷結合素子）カメラ、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ、相補性金属酸化膜半導体）カメラである。撮影部１３は、複数（例えば、２個）の光学系を備えるステレオカメラ装置であってもよい。このステレオカメラ装置は、各光学系が一定の間隔だけ離れた位置に設置され、各光学系の光軸が互いに平行である。各光学系は、それぞれの視点の画像を表す画像信号、例えば左画像信号又は右画像信号を生成する。撮影部１３は、生成した左画像信号及び右画像信号を情報表示装置１４に出力する。

情報表示装置１４は、音源推定部１４０、音声認識部１４３、情報処理部１４４、データ入力部１５１、画像表示部１５２及び音響再生部１５３を含んで構成される。

音源推定部１４０は、入力された複数のチャネルの音響信号に基づいて音源毎の方向、該音源が音を放射方向、及び当該音響信号のうち該音源が寄与する成分を推定する。音源が寄与する成分とは、その音源のみから到来した音波が示す音響信号、つまり、その他の音源から到来した音波がないと仮定したときに観測される音響信号である。
図１に示す例では、音源推定部１４０は、音源方向推定部１４１及び放射方向推定部１４２を備える。
音源方向推定部１４１は、収音部１１から入力されたｍチャネルの音響信号に基づいて各音源の方向（音源方向）を推定する。音源方向推定部１４１が推定する音源方向は、例えば、収音部１１が備えるｍ個のマイクロホンの位置の重心点から、当該ｍ個のマイクロホンのうち予め定めた１個のマイクロホンへの方向を基準とした、水平面内の方向である。
また、音源方向推定部１４１は、ｍチャネルの音響信号から各音源が寄与する成分を示す音響信号を分離する。以下では、音源毎に分離された音響信号、つまり各音源が寄与する成分を示す音響信号を、音源別信号と呼ぶ。
音源方向推定部１４１は、音源方向を推定する際、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；多信号分類）法、ＷＤＳ−ＢＦ（ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ；重み付け遅延和ビームフォーミング）法、等の音源方向推定方式を用いる。
音源方向推定部１４１は、音源別信号を分離する際、例えば、特開２０１２−４２９５３号公報に記載の音源分離方法等、既知の音源分離方法を用いる。
音源方向推定部１４１は、各音源の方向を示す音源方向情報を生成し、生成した音源方向情報を情報処理部１４４に出力する。音源方向推定部１４１は、各音源の音源別信号を音声認識部１４３及び情報処理部１４４に出力する。音源方向情報が表す方向は、予め定めた基準位置、例えば、収音部１１が備えるｍ個のマイクロホンの位置の重心点を基準とした方向である。

放射方向推定部１４２は、収音部１２から入力されたｎチャネルの音響信号に基づいて各音源の放射方向（ｏｒｉｅｎｔａｔｉｏｎ）と位置を推定する。放射方向とは、音源から放射される音波のパワーが最も大きい方向である。即ち、放射方向は、音源の指向性（ｄｉｒｅｃｔｉｖｉｔｙ）の１つの指標である。放射方向推定部１４２は、各音源の放射方向と位置を推定する際、例えば、国際公開２００７／０１３５２５号公報に記載の音源特性推定装置が実行する放射方向（当該公報では、「音源の方向」と記載されている）及び音源位置の推定方法等、既知の推定方法を用いる。
放射方向推定部１４２は、例えば、ｎチャネルの音響信号をチャネル毎の重み付け関数を用いて重み付け加算した信号を出力するビームフォーマを複数備える。ビームフォーマは、それぞれ空間内のある位置からある１方向に対応する単位指向特性（放射特性）を有する重みづけ関数を用い、その方向への出力値を算出する。放射方向推定部１４２は、複数のビームフォーマのうち出力値が極大となるビームフォーマに対応する放射方向及び位置を定める。

放射方向推定部１４２は、また、音源の放射方向の推定の可否を判断する。推定に失敗する（推定不可）場合とは、例えば、予め定めた度合いよりも音源の指向性が少ない場合である。推定不可とは、具体的には、その音源について音波のパワー（方向別パワー）を方向毎に検知し、方向別パワーの最大値の、方向別パワーの平均値に対する比（最大パワー比）が、予め定めた値（例えば、３ｄＢ）より小さい場合である。これに対して、放射方向推定部１４２は、最大パワー比が、予め定めた値と等しい場合か、その値よりも大きい場合には、推定に成功した（推定可）と判断する。
放射方向推定部１４２は、各音源について放射方向の推定の可否及び推定された放射方向を表す放射方向情報を生成し、各音源について推定した位置を表す位置情報を生成する。放射方向推定部１４２は、生成した放射方向情報と位置情報を情報処理部１４４に出力する。生成された位置情報が表す位置は、予め定めた基準位置、例えば、収音部１２が備えるｎ個のマイクロホンが配置された部屋（以下、収音室と呼ぶ）の一端を基準とした座標系で示される。

音声認識部１４３は、音源方向推定部１４１から入力された音源毎の音源別信号が表す発話内容を既知の音声認識方式を用いて認識する。
ここで、音声認識部１４３は、予め設定された時間（例えば、１秒）よりも長い時間、予め定めた値よりも音響信号の強度（例えば、パワー）が小さい場合、無音状態であると検出する。音声認識部１４３は、前後が無音状態で挟まれる区間を発話区間と判断する。音声認識部１４３は、各発話区間について音源別信号に基づいて発話内容を示す音声認識情報を生成する。
音声認識部１４３は、音響モデル（例えば、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ））と言語モデル（例えば、単語辞書及び記述文法）が予め記憶されている記憶部を備える。音声認識部１４３は、入力された音源別信号に対して音響特徴量を算出し、算出した音響特徴量に対して記憶部に記憶された音響モデルを用いて音素からなる音素列を定める。音声認識部１４３は、定めた音素列に対して記憶部に記憶された言語モデルを用いて単語列を定める。定めた単語列は、発話内容を表す音声認識情報の全部又は一部である。音声認識部１４３は、この音声認識情報を情報処理部１４４に出力する。

情報処理部１４４は、データ対応部１４５、表示データ生成部１４６、画像合成部１４７及び音響合成部１４８を含んで構成される。

データ対応部１４５は、音源方向推定部１４１から入力された音源毎の音源方向情報と、放射方向推定部１４２から入力された音源毎の放射方向情報及び位置情報を、音源毎に対応付ける。ここで、データ対応部１４５は、予め設定された上述の基準位置の何れか一方（例えば、収音室の一端）を基準座標として、入力された位置情報が表す音源方向と、入力された音源方向情報が表す音源方向が等しいか否か、近似しているか否か判断する。データ対応部１４５は、これらの音源方向の差分の絶対値が予め定めた方向誤差よりも小さい場合、両者が近似していると判断する。両者が等しい又は近似していると判断された場合、データ対応部１４５は、入力された位置情報に係る音源と、入力された音源方向情報が表す音源が同一であると判断する。
データ対応部１４５は、同一と判断された音源について、入力された音源方向情報と放射方向情報を対応付け、表示データ生成部１４６、画像合成部１４７に出力する。

表示データ生成部１４６は、データ対応部１４５から入力された放射方向情報に基づいて自部が備える記憶部から標識データを読み出す。次に、表示データ生成部１４６は、音声認識部１４３から入力された音声認識情報が表す文字列を標識データの文字表示領域に配置して、その文字列が配置された標識を表す表示データを生成する。
表示データ生成部１４６は、データ対応部から入力された位置情報に基づき音源毎に、表示データを配置する位置を示す配置位置情報を生成する。表示データ生成部１４６は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部１４７に出力する
表示データ生成部１４６の構成、標識データ、表示データ及び配置位置情報については後述する。

画像合成部１４７は、表示データ生成部１４６から入力された表示データと配置位置情報に基づいて表示データ配置情報を生成する。例えば、表示データが表す標識が矢印である場合には、画像合成部１４７は、その矢印の方向が、データ対応部１４５から入力された放射方向情報に基づく放射方向に向くように配置する。画像合成部１４７は、生成された表示データ配置情報に基づいて、撮影部１３の視点から観測される標識の画像を表す表示データ画像信号を生成する。画像合成部１４７は、生成した表示データ画像信号と、撮影部１３から入力された画像信号とを合成して、表示画像信号を生成する。
次に、画像合成部１４７は、生成した表示画像信号を座標変換して、データ入力部１５１から入力された視点情報が表す視点から観測される表示画像信号を生成する。画像合成部１４７は、生成した表示画像信号を画像表示部１５２に出力する。
画像合成部１４７の構成、表示データ配置情報及び表示画像信号については後述する。

音響合成部１４８は、音源方向推定部１４１から音源毎に音源方向情報と音源別信号が入力される。音響合成部１４８は、音源方向推定部１４１から入力された音源毎の音源別信号を、音源間で加算することによって１チャネルの音響信号を合成し、合成した１チャネルの音響信号を音響再生部１５３に出力してもよい。

また、音響合成部１４８は、２チャネルのステレオ音響信号を合成し、合成した２チャネルの音響信号を音響再生部１５３に出力してもよい。
ここで、音響合成部１４８は、ある受聴点（視点）から予め定めた距離ｄだけ離れた音源方向毎に頭部伝達関数（ＨｅａｄＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎｓ，ＨＲＴＦ）が予め記憶された記憶部を備える。頭部伝達関数とは、音源からある受聴点（視点）に位置する視聴者の左右各耳（チャネル）までの音波の伝達特性をそれぞれ表すフィルタ係数である。音響合成部１４８は、上述の基準位置から距離ｄだけ離れ、入力された音源方向情報が表す音源方向が示す音源位置を算出し、受聴点である予め定めた視点（例えば、撮影部１３が備える光学系の焦点）からの方向を算出する。音響合成部１４８は、算出した方向に対応した頭部伝達関数を自部が備える記憶部から読み出し、読み出した左右各耳の頭部伝達関数を対応する音源別信号にそれぞれ畳み込み演算（ｃｏｎｖｏｌｕｔｉｏｎ）を行い、左右各チャネルの音源別信号を生成する。音響合成部１４８は、チャネル毎に、音源間で生成した音源別信号を加算することによって、左右各チャネルの音響信号を合成する。これによって、受聴点に位置する視聴者の左右各耳において、各音源から到来した音が再現される。そのため、視聴者は、受聴点を基準としたそれぞれの音源方向に各音源に係る音を知覚する。

音響合成部１４８は、上述の撮影部１３が備える光学系の視点に係る２チャネルの音響信号の代わりに、データ入力部１５１から入力された視点情報に係る２チャネルの音響信号を生成してもよい（視点変換）。ここで、音響合成部１４８は、上述の基準位置から距離ｄだけ離れ、入力された音源方向情報が表す音源方向が示す音源位置を算出し、算出した音源位置に対する受聴点、つまりデータ入力部１５１から入力された視点からの方向を算出する。音響合成部１４８は、算出した方向に対応する頭部伝達関数を、上述の頭部伝達関数の代わりに用いることによって、左右各チャネルの音響信号を合成する。

データ入力部１５１は、利用者の操作入力を受けつけ、視点（ｖｉｅｗｐｏｉｎｔ）と注視方向を表す視点情報が入力される。視点とは、音源又は物体を視聴する仮想的な位置である。注視方向とは、視点から音源又は物体を注視する仮想的な方向である。データ入力部１５１は、例えば、マウスやジョイスティックのように、操作に伴って位置情報を入力することができるポインティングデバイスを含んで構成される。データ入力部１５１は、入力された視点情報を画像合成部１４７及び音響合成部１４８に出力する。

画像表示部１５２は、画像合成部１４７から入力された画像信号が表す画像を表示する。入力された画像信号が１視点の画像を示す平面画像信号である場合には、画像表示部１５２は、平面画像を表す液晶ディスプレイであってもよい。入力された画像信号が複数の視点、例えば２視点の画像を含む立体画像である場合には、画像表示部１５２は、立体画像を表す３次元ディスプレイであってもよい。画像表示部１５２は、例えば、ヘッドマウンテッドディスプレイ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ；ＨＭＤ）であってもよい。画像表示部１５２は、各視点の画像を、それぞれ対応する眼に表示するディスプレイであれば、据置式であってもよいし、利用者に眼鏡の装着が必要な方式であっても、眼鏡の装着が不要な方式であってもよい。

音響再生部１５３は、音響合成部１４８から入力された音響信号が表す音を再生する。入力された音響信号が１チャネルの音を示すモノラル音響信号である場合には、音響再生部１５３は、１チャネルの音を再生するスピーカであってもよい。入力された音響信号が複数のチャネル、例えば２チャネルの音を示すステレオ音響信号である場合には、音響再生部１５３は、例えば、ヘッドホンであってもよい。当該ヘッドホンは、上述のヘッドマウンテッドディスプレイに内蔵されていてもよい。

（表示データ生成部の構成）
表示データ生成部１４６には、音声認識部１４３から音声認識情報が、データ対応部１４５から放射方向情報と音源方向情報が入力される。表示データ生成部１４６は、標識（ｓｙｍｂｏｌ）を示す標識データが記憶された記憶部を備える。この標識は、文字を画像の一部として表示させる領域（文字表示領域）を囲む図形である。文字表示領域を囲む図形には、例えば、矢印（ａｒｒｏｗ）、吹き出し（ｓｐｅｅｃｈｂａｌｌｏｏｎ）があり、その外縁（輪郭、ｏｕｔｌｉｎｅ）が線分で示される線画として構成されている。ここで、その外縁に相当する座標毎に予め定められた第１信号値が設定され、その他の領域における座標毎に予め定められた第２信号値が設定されている。第１信号値は、例えば、８ビットのＲＧＢ表色系において、赤色の信号値が２５５、その他の色の信号値が０である。なお、外縁に囲まれる背景部分については、予め定められた第３信号値が設定されている。第３信号値は、例えば、第１信号値と同一の色彩に係る信号値であって、第１信号値よりも小さい信号値である。第３信号値は、例えば、８ビットのＲＧＢ表色系において、赤色の信号値が６４、その他の色の信号値が０である。なお、表示データ生成部１４６は、音源によって異なる色彩を表す信号値を定めてもよい。例えば、表示データ生成部１４６は、他の音源については、その外縁に相当する座標毎に赤色以外の色彩、例えば、緑色に対応した信号値を定める。

当該記憶部には、特定の一方向（例えば、音源の放射方向）を示す標識に係る標識データ（方向指示標識データ）と、特定の方向を示さない標識に係る標識データ（方向非指示標識データ）が記憶されている。以下の説明では、方向指示標識データとして矢印の画像を、方向非指示標識データとして吹き出しの画像を表す場合を例にとって説明する。また、矢印の画像を表す標識データを矢印データ、吹き出しの画像を表す標識データを吹き出しデータと呼ぶ。なお、矢印の画像、吹き出しの画像の例については後述する。

表示データ生成部１４６は、入力された放射方向情報が推定可を示す場合、自部が備える記憶部から矢印データを読み出す。表示データ生成部１４６は、入力された放射方向情報が推定不可を示す場合、自部が備える記憶部から吹き出しデータを読み出す。

表示データ生成部１４６は、文字表示領域の大きさを、予め定めた一定の大きさにしてもよいが、表示する文字の大きさに応じて文字表示領域の大きさを定めてもよい。文字表示領域は、後述するように予め定めた幅の余白部分を介して指標の外縁に囲まれているため、表示データ生成部１４６は、文字表示領域の大きさが定めることで指標全体の大きさが定めてもよい。

まず、表示データ生成部１４６は、その音源に係る相対位置に応じて文字の大きさを定める。具体的には、表示データ生成部１４６は、その音源に係る方向情報に対応する位置の座標値ｐ^ｓから、視点情報が示す視点の座標値ｐ^ｒを差し引いて、その音源に係る相対位置の座標値ｐ^ｓ’を算出する。この視点情報が示す視点の位置は、例えば、撮影部１３が備える光学系の視点の位置である。また、座標値ｐ^ｓを算出する際、音源が上述の基準位置から予め定めた距離にあることを仮定する。
表示データ生成部１４６は、算出した座標値に基づき視点からその音源までの奥行値（ｄｅｐｔｈ）ｄ_ｈを算出する。表示データ生成部１４６は、算出した奥行値が大きいほど、小さくなるように、文字の大きさを算出する。表示データ生成部１４６は、例えば、式（１）を用いて文字の大きさ（フォントサイズ、ｆｏｎｔｓｉｚｅ）ｓを算出する。

式（１）において、ｓ_ｂ、ｓ_ｆは、それぞれ文字の大きさの最大値、最小値を示す予め定められた実数である。これらの単位は、画素数である。ｄ_ｂ、ｄ_ｆは、それぞれ奥行値の閾値を示す予め定められた実数である。ここで、ｄ_ｂは、ｄ_ｆよりも小さい値である。即ち、式（１）は、奥行値ｄ_ｈに対応した文字の大きさｓを、奥行値の最大値ｄ_ｂに対応する文字の大きさｓ_ｂと奥行値の最小値ｄ_ｆに対応する文字の大きさｓ_ｆとの間で補間して算出することを示す。但し、表示データ生成部１４６は、ｄ_ｈがｄ_ｂと等しいか、ｄ_ｂよりも小さい場合、ｓ＝ｓ_ｂと定め、ｄ_ｈがｄ_ｆと等しいか、ｄ_ｆよりも大きい場合、ｓ＝ｓ_ｆと定める。
これにより、視点からの奥行値が大きい（即ち、遠い）ほど、小さくなるように文字の大きさが定められる。この奥行値は視点からの距離の目安となる値である。

表示データ生成部１４６は、定めた文字の大きさに対応した、１文字当たりの高さ、幅、及び予め定めた１行あたりの文字数、行数に応じて文字表示領域を定める。なお、表示データ生成部１４６は、一度に入力された音声認識情報が表す文字列に含まれる文字数を計数し、計数した文字数を表示文字数と定めることによって文字表示領域を定めてもよい。但し、計数した文字数が予め定めた文字数の最大値（最大表示文字数）を越える場合には、その最大表示文字数を表示文字数と定める。

表示データ生成部１４６は、音声認識情報が表す文字列を標識データの文字表示領域に配置して、その文字列が配置された標識を表す表示データを生成する。ここで、表示データ生成部１４６は、音声認識情報が表す文字列に含まれる文字を、表示データ生成部１４６に入力された順序で最大表示文字数に達するまで、行毎に左端から右端に向けて文字表示領域に配置する。
表示データ生成部１４６は、所定時間経過した後、文字表示領域に配置した文字を消去し、次に入力された音声認識情報が表す文字列に含まれる文字を配置する。ここで、表示データ生成部１４６は、文字が配置された領域の信号値を、例えば、外縁と同一の値（信号値１）と定める。

音声認識情報が表す文字列が、最大表示文字数を越える場合には、表示データ生成部１４６は、その文字列を文字表示領域の右側から挿入され左側から消去されるように配置してもよい。行数が１の場合であれば、表示データ生成部１４６は、新たに配列する文字を、文字表示領域の右端に配置し、予め定めた時間間隔で既に配置された文字列を一文字ずつ左側に移動させ、最左端の文字を消去する。

表示データ生成部１４６は、音声認識部１４３から新たに音声認識情報が入力されない限り、既に配置した文字を配置したままでもよいが、文字の配置が完了してから、ある時間（表示時間）が経過した後に配置した文字を消去してもよい。ここで、表示データ生成部１４６は、音声認識情報が示す文字列に含まれる文字数又は単語数が多いほど、表示時間が長くなるように表示時間を定める。例えば、日本語の場合には、表示時間を３＋０．２×ｌ秒（ｌ（エル）は、文字数を表す整数値）とする。

表示データ生成部１４６は、生成した表示データが示す標識の基準点を、その表示データに係る配置位置として、その音源に係る位置情報が示す位置から予め定めた方向（例えば、上方又は下方）に、予め定めた距離ｈだけ偏位した位置と定める。標識の基準点とは、その標識の位置を代表する点、例えば、矢印の起点、吹き出しの頂点である。表示データ生成部１４６は、音源毎に定めた配置位置を表す配置位置情報を生成する。これにより、標識が当該音源に係る画像であることを示すとともに、当該音源に係る画像が隠れてしまうこと回避する。なお、表示データ生成部１４６は、音源数が複数である場合には、音源毎の表示データが表示される領域が重複せず、かつ、音源毎の基準点と位置情報が示す位置との距離が最小となるように、音源毎の距離ｈを変更する。

表示データ生成部１４６は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部１４７に出力する。
表示データが示す標識が矢印の画像である場合、表示データ生成部１４６は、生成した表示データ、配置位置情報及び放射方向情報を音源毎に対応付けて画像合成部１４７に出力する。表示データが示す標識が吹き出しの画像である場合、表示データ生成部１４６は、生成した表示データ及び配置位置情報を対応付けて画像合成部１４７に出力する。この場合、表示データ生成部１４６は、放射方向情報を出力しなくてもよい。

（画像合成部の構成）
画像合成部１４７は、表示データ生成部１４６から表示データ、配置位置情報及び放射方向情報が入力され、撮影部１３から画像信号が入力される。但し、上述したように放射方向情報は入力されないことがある。
画像合成部１４７は、入力された表示データが表す標識が、配置位置情報が表す配置位置に配置された表示データ配置情報を生成する。表示データが表す標識が矢印である場合には、画像合成部１４７は、その矢印の方向が、放射方向情報に基づく放射方向に向くように配置する。画像合成部１４７は、この表示データ配置情報に基づいて、ある視点の位置（例えば、撮影部１３の光学系の視点の位置）から観測される、標識の画像を表す表示データ画像信号を生成する。

入力される配置位置情報及び放射方向情報が、上述の基準座標を基準とする３次元座標系で表されている場合、画像合成部１４７は、生成した表示データ配置情報が表す要素毎の座標値について、上述の視点の位置を基準とする座標系に座標変換する。例えば、画像合成部１４７は、基準座標で表された世界座標系による座標値（Ｘ_ｏ，Ｙ_ｏ，Ｚ_ｏ）を、式（２）の関係を満たすように、視点の位置を基準とするカメラ座標系による座標値（Ｘ_ｃ，Ｙ_ｃ，Ｚ_ｃ）に変換する。

式（２）において、Ｒは世界座標系における座標軸をカメラ座標系の座標軸に回転させることを示す回転行列、Ｔは、撮影部１３の視点の位置（原点）の基準座標からの位置のずれを表す並進ベクトルである。画像合成部１４７は、座標変換した表示データ配置情報を、例えば式（３）を用いて、２次元の画像座標系に変換することで表示データ画像信号を生成する。

式（３）は、世界座標系における座標値のうち、水平方向の座標値Ｘ_ｏと垂直方向の座標値Ｙ_ｏを、それぞれ奥行方向の座標値Ｚ_ｏの焦点距離ｆに対する比Ｚ_ｏ／ｆで規格化してカメラ座標系における座標値（ｕ_ｃ，ｖ_ｃ）を算出することを示す。焦点距離ｆは、撮影部１３が備える光学系の焦点距離である。
なお、配置位置情報が示す配置位置に係る奥行方向の座標値が負値となる場合には、表示データを生成した時点における左右方向から、座標変換後の左右方向が反転する。この場合には、画像合成部１４７は、座標変換前に入力された表示データが表す文字表示領域又は文字列について、左右方向を反転させる。左右方向を反転させる際、例えば、文字表示領域の左右方向の中心点を通る上下方向の対称軸の周りを１８０°回転させる。これにより、座標変換後に表示データ上に表される文字列を構成する各文字が右から左に配列されることが防止される。

画像合成部１４７は、撮影部１３から入力された画像信号と、生成した表示データ画像情報とを合成し、表示画像信号を生成する。ここで、画像合成部１４７は、表示データ画像情報が優先されるように合成する。即ち、画像合成部１４７は、ある画素において、表示データ画像情報の信号値が信号値１である場合、その信号値１を、当該画素における表示画像信号の信号値と定める。画像合成部１４７は、ある画素において、表示データ画像情報の信号値が信号値２である場合、当該画素における入力された画像信号の信号値を、当該画素における表示画像信号の信号値と定める。
このようにして、表示データにおける外縁や文字の部分が優先して表示され、それ以外の部分については撮影された画像が表示される。よって、標識の内部が透明に表示される。
これにより、文字が表示される部分を除いて、標識の内部が透明に表示される。

画像合成部１４７は、ある画素において、表示データ画像情報の信号値が信号値２である場合、その信号値と当該画素にかかる入力された画像信号の信号値との間のいずれかの信号値（例えば、平均値）を、当該画素における表示画像信号の信号値と定める。これにより、文字が表示される部分を除いて、標識の内部が半透明に表示される。
画像合成部１４７は、生成した表示データ画像信号（平面画像信号）を画像表示部１５２に出力してもよい。

画像合成部１４７は、２視点の表示画像データ画像信号を生成し、画像表示部１５２に出力してもよい。画像合成部１４７が、左画像信号と右画像信号を含む２視点の画像信号が撮影部１３から入力された場合、何れかの視点の画像信号、例えば左画像信号に対して、上述の処理を行って表示データ画像信号を生成する。
画像合成部１４７は、生成した表示データ画像信号について画素毎に、対応する表示データ配置情報についての奥行成分の座標値Ｚ_ｃに基づいて視差値Ｄを算出する。ここで、視差値Ｄと座標値Ｚ_ｃには、Ｄ＝Ｂ・ｆ／（ｐ・Ｚ_ｃ）という関係がある。Ｂは、基線長である。基線長Ｂとは、撮影部１３における２視点間の距離である。ｐは、画素間間隔である。
画像合成部１４７は、生成した表示データ画像信号について画素毎の信号値を、算出した視差値だけ水平方向（右側）に、それぞれずれた位置に配置して右側の表示データ画像信号(以下、右表示データ画像信号と呼ぶ)を生成する。
画像合成部１４７は、生成した右表示データ画像信号と入力された右画像信号を合成して右表示画像信号を生成する。この右表示画像信号を生成する処理は、上述の表示画像信号を生成する処理と同様である。
画像合成部１４７は、入力された左画像信号に対する上述の表示画像信号を左画像信号として、生成した右表示画像信号を右画像信号として画像表示部１５２に出力してもよい。

画像合成部１４７は、上述の撮影部１３が備える光学系の視点に係る表示画像信号（２視点）を、データ入力部１５１から入力された視点情報に係る表示画像信号（２視点）に変換するようにしてもよい（視点変換）。
ここで、画像合成部１４７は、生成した左表示画像信号と右表示画像信号との間で、例えばブロックマッチングを行うことによって、画素毎に視差値を算出する。ブロックマッチングとは、一方の画像信号の注目画素を含む予め定めた領域（ブロック）内の信号値が類似する信号値を有するブロックを他方の画像信号から抽出する処理である。画像合成部１４７は、算出した視差値に基づいて各画素に対応したカメラ座標系における座標値を算出する。画像合成部１４７は、算出した座標値を、式（２）に示す関係を用いて、入力された視点情報が表す視点の座標を原点とするように並進移動させ、視点情報が表す注視方向が奥行方向となるように座標軸を回転させることで座標変換を行う。画像合成部１４７は、式（３）に示す関係を用いて、入力された視点情報に係る座標値を算出する。これにより座標変換された左表示画像信号が生成される。また、画像合成部１４７は、算出された奥行成分の座標値を用いて視差値を画素毎に算出し、算出した視差値を用いて対応する画素を水平方向にそれぞれずれた位置に配置することで座標変換された右表示画像信号が生成される。画像合成部１４７は、生成した左表示画像信号と右表示画像信号を、それぞれ左画像信号と右画像信号として画像表示部１５２に出力する。

（収音部、撮影部の配置例）
次に、本実施形態に係る収音部１１、１２及び撮影部１３の配置例について説明する。
図２は、本実施形態に係る収音部及び撮影部の配置例を示す概念図である。
図２に示す横長の長方形は、収音室３１の内壁面を表す。図２において、長方形の左上方に音源３２の位置を星印で示し、この長方形の左下端に基準位置３３を×印で示す。この基準位置３３は、放射方向推定部１４２が音源位置を推定する際の基準位置である。
収音室の内壁面には、全周を囲むように一定の間隔でｎ個のマイクロホン１２１−１〜１２１−ｎが、それぞれ同一の高さに配置されている。これらのマイクロホンは、収音部１２が備えるｎ個のマイクロホンである。収音室３１の中央付近には、撮影部１３が示されている。撮影部１３を起点とする破線の矢印３４は、撮影部１３が備える光学系の光軸の向きを表す。撮影部１３の近傍にはｍ個のマイクロホン１１１−１〜１１１−ｍが、それらの重心点が撮影部１３の光学系の焦点（視点）に近似するように一定の間隔で、配置されている。これらのマイクロホンは、収音部１１が備えるｍ個のマイクロホンである。
音源をそれぞれ中心とする円弧とその法線方向を示す矢印３５は、その音源による放射レベルが著しい方向である放射方向を示す。

（表示データが表す矢印の画像の例）
次に、本実施形態に係る矢印の画像の例について説明する。
図３は、本実施形態に係る矢印の画像の一例を示す図である。
図３に示す矢印の画像は、左端に三角形の頂点ｂが向けられ、その三角形の底辺に長方形が接するように構成されている。長方形に囲まれる領域が文字表示領域である。図３の例では、日本語で「友達」を意味する語を示す文字列「ｔｏｍｏｄａｃｈｉ」が表示されている。長方形の右辺の中点に示される×印は基準点（ａｎｃｈｏｒｐｏｉｎｔ）ａである。頂点ｂのなす角度は直角である。また、矢印全体の形状は、基準点ａと頂点ｂを通る線分に対して上下対称である。なお、図３に示す画像は、特定の一方向を示す標識の一例であって、形状はこれには限られない。

（表示データが表す吹き出しの画像の例）
図４は、本実施形態に係る吹き出しの画像の一例を示す図である。
図４に示す吹き出しの画像は、各頂点が丸みを帯びた長方形とその左下端から、さらに下方に離れた位置に頂点ｂ’を有する三角形とで構成される。長方形に囲まれる領域が文字表示領域である。図４が示す文字列は、図３が示す文字列と同一である。長方形の右辺の中点に示される×印が基準点ａ’を示す。なお、長方形の底辺から頂点ｂ’までの距離をｈ_ｂ’で示す。なお、図４に示す画像は、特定の一方向を示さない標識の一例であって、形状はこれには限られない。

（情報表示処理）
次に、本実施形態に係る情報表示装置１４が行う情報表示処理について説明する。
図５は、本実施形態に係る情報表示処理を表すフローチャートである。
（ステップＳ１０１）音源方向推定部１４１は、収音部１１から入力された音響信号に基づいて各音源の音源方向を推定し、各音源が寄与する成分を示す音源別信号を生成する。音源方向推定部１４１は、推定した音源方向を表す音源方向情報を音源毎にデータ対応部１４５に出力する。音源方向推定部１４１は、生成した音源別信号を音源毎に音声認識部１４３及び音響合成部１４８に出力する。その後、ステップＳ１０２に進む。
（ステップＳ１０２）放射方向推定部１４２は、収音部１２から入力された音響信号に基づいて、各音源の放射方向と位置を推定する。放射方向推定部１４２は、推定した放射方向を表す放射方向情報と位置を表す位置情報とを対応づけてデータ対応部１４５に出力する。その後、ステップＳ１０３に進む。
（ステップＳ１０３）音声認識部１４３は、音源方向推定部１４１から入力された音源毎の音源別信号が表す発話内容を発話区間毎に認識する。音声認識部１４３は、発話内容を表す音声認識情報を表示データ生成部１４６に出力する。その後、ステップＳ１０４に進む。

（ステップＳ１０４）データ対応部１４５は、音源方向推定部１４１から入力された音源方向情報に係る音源と、放射方向推定部１４２から入力された放射方向情報及び位置情報に係る音源とを対応付ける。次に、データ対応部１４５は、同一と判断された音源毎に音源方向情報と放射方向情報を対応付けて、表示データ生成部１４６及び画像合成部１４７に出力する。その後、ステップＳ１０５に進む。

（ステップＳ１０５）表示データ生成部１４６は、データ対応部１４５から入力された放射方向情報が推定可を示す場合、自部が備える記憶部から標識データとして矢印データを読み出す。表示データ生成部１４６は、放射方向情報が推定不可を示す場合、標識データとして吹き出しデータを読み出す。
次に、表示データ生成部１４６は、音声認識部１４３から入力された音声認識情報が表す文字列を標識データの文字表示領域に配置して、その文字列が配置された標識を表す表示データを生成する。
次に、表示データ生成部１４６は、データ対応部１４５から入力された位置情報に基づき音源毎に、表示データを配置する位置を示す配置位置情報を生成する。そして、表示データ生成部１４６は、生成した表示データと配置位置情報を音源毎に対応付けて画像合成部１４７に出力する。
なお、表示データが示す標識が矢印である場合、表示データ生成部１４６は、データ対応部１４５から入力された当該音源の放射方向情報を画像合成部１４７に出力する。その後、ステップＳ１０６に進む。

（ステップＳ１０６）データ入力部１５１は、利用者の操作により入力された視点情報を画像合成部１４７及び音響合成部１４８に出力する。その後、ステップＳ１０７に進む。
（ステップＳ１０７）画像合成部１４７は、表示データ生成部１４６から入力された表示データが表す標識が、配置位置情報が表す配置位置に配置された表示データ配置情報を生成する。表示データが表す標識が矢印である場合には、画像合成部１４７は、その矢印の方向が、データ対応部１４５から入力された放射方向情報に基づく放射方向に向くように配置する。次に、画像合成部１４７は、生成された表示データ配置情報に基づいて、撮影部１３の視点から観測される標識の画像を表す表示データ画像信号を生成する。そして、画像合成部１４７は、生成した表示データ画像信号が優先されるように、この表示データ画像信号と撮影部１３から入力された画像信号を合成して表示画像信号を合成する。表示データ画像信号が優先されることで、表示データが表す画像が撮影された画像に隠されずに表示される。
次に、画像合成部１４７は、合成した表示画像信号を座標変換して、データ入力部１５１から入力された視点情報が表す視点から観測される表示画像信号を生成する。そして、画像合成部１４７は、生成した表示画像信号を画像表示部１５２に出力する。その後、ステップＳ１０８に進む。

（ステップＳ１０８）画像表示部１５２は、画像合成部１４７から入力された表示画像信号が表す画像を表示する。その後、ステップＳ１０９に進む。
（ステップＳ１０９）音響合成部１４８は、データ入力部１５１から入力された視点情報が示す視点から、音源方向推定部１４１から入力された音源方向が示す音源位置への音源方向を算出する。次に、音響合成部１４８は、算出した音源方向に対応する左右各チャネルの頭部伝達関数を記憶部から読み出す。そして、音響合成部１４８は、読み出した左右各チャネルの頭部伝達関数を、音源方向推定部１４１から入力された当該音源に係る音源別信号にそれぞれ畳み込み演算する。次に、音響合成部１４８は、チャネル毎に、音源間で生成した音源別信号を加算することによって、左右各チャネルの音響信号を合成する。そして、音響合成部１４８は、合成した左右各チャネルの音響信号を音響再生部１５３に出力する。その後、ステップＳ１１０に進む。
（ステップＳ１１０）音響再生部１５３は、音響合成部１４８から入力された左右各チャネルの音響信号が表す音をチャネル毎に並列して再生する。その後、処理を終了する。

（表示画像の例）
次に、画像表示部１５２に表示される画像の一例を示す。
図６は、画像表示部１５２に表示される画像の一例を示す。
図６において、左右方向は撮影部１３の光学系が有する光軸を基準とした左右方向を示し、上下方向は高さの高低を示す。
図６が示す画像４１は、表示データ生成部１４６が生成した表示データが示す矢印の画像４２Ａ、４２Ｂと、それ以外の部分である撮影部１３が撮影した画像信号が合成された表示画像である。画像４１の中央部を挟んで左右両側にそれぞれ人物４３Ａ、４３Ｂが示されている。これらの人物４３Ａ、４３Ｂがそれぞれ音源に相当する。矢印４２Ａ、４２Ｂの基準点の位置が各人物４３Ａ、４３Ｂの頭部の真上又は真下となるように、それぞれ矢印４２Ａ、４２Ｂが配置されている。また、画像４１の中央部には、収音部１１と撮影部１３が頭部に内蔵された人型ロボット４３Ｒが示されている。

右側の人物４３Ａの真上を起点とする矢印４２Ａは、人物４３Ａに対して左側に向けられている。この矢印４２Ａは、人物４３Ａが左側の人物４３Ｂに向けて発話していることを示す。この矢印４２Ａに囲まれている文字列「ＴｏｍｏｒｒｏｗＩｗｉｌｌｇｏｔｏＨａｗａｉｉｆｏｒｗｅｅｋ」は、人物４３Ａが発話した音声に対する音声認識情報を表す文字列である。従って、この矢印は、人物４３Ａから人物４３Ｂに対して、「ＴｏｍｏｒｒｏｗＩｗｉｌｌｇｏｔｏＨａｗａｉｉｆｏｒｗｅｅｋ」と音声で話しかけていることを示す。

左側の人物４３Ｂの真下を起点とする矢印４２Ｂは、人物４３Ｂに対して右側に向けられている。この矢印４２Ｂは、人物４３Ｂが右側の人物４３Ａに向けて発話していることを示す。この矢印４２Ｂに囲まれている文字列「Ｈａｗａｉｉ？ｎｉｃｅ」は、人物４３Ｂが発声した音声に対する音声認識情報を表す文字列である。従って、この矢印４２Ｂは、人物４３Ｂから人物４３Ａに対して、「Ｈａｗａｉｉ？ｎｉｃｅ」と音声で応答していることを示す。
従って、本実施形態によれば、視聴者は音源として人物４３Ａ、４３Ｂの発話内容を表す文字列と、その向けられた方向を視認することにより、話者、発話内容及び話し相手を一括して直感的に把握することができる。また、視聴者は発話内容毎に発話者を容易に識別することができる。また、例えば、聴覚障害者は、図６が表す画像を視聴することにより意思疎通を促進することができる。
なお、人物４３Ａが人物４３Ｂに対して発話している場合、図６において矢印４２Ａの代わりに前述の吹き出しの画像を表示するようにしてもよい。この場合、発話内容を示す文字列の他に、発話者と発話方向を示す情報（例えば、人物４３Ａ⇒人物４３Ｂ等）、を表示するようにしてもよい。

（変形例１−１）
次に本実施形態に係る変形例１−１について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図７は、本実施形態の一変形例に係る情報表示システム１ａの構成を表す概略図である。

情報表示システム１ａは、情報表示システム１（図１）に対して記憶部１５ａを更に備える。情報表示装置１４ａは、情報表示装置１４（図１）に対して音源方向推定部１４１、放射方向推定部１４２、及び音声認識部１４３が省略された構成である。
記憶部１５ａは、音源方向推定部１４１から入力された音源方向情報、音源別信号、放射方向推定部１４２から入力された放射方向情報及び位置情報、音声認識部１４３から入力された音声認識情報、撮影部１３から入力された画像信号を記憶する。記憶部１５ａは、これらの入力された信号及び情報を入力された時刻毎に対応付けて記憶する。

データ対応部１４５は、音源方向推定部１４１又は放射方向推定部１４２から入力される代わりに、記憶部１５ａから音源方向情報、放射方向情報及び位置情報を読み出す。表示データ生成部１４６は、音声認識部１４３から入力される代わりに、記憶部１５ａから音声認識情報を読み出す。
音響合成部１４８は、音源方向推定部１４１から入力される代わりに、記憶部１５ａから音源方向情報と音源別信号を読み出す。

（変形例１−２）
次に本実施形態に係る変形例１−２について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図８は、本実施形態の他の変形例に係る情報表示システム１ｂの構成を表す概略図である。
情報表示システム１ｂは、情報表示システム１（図１）に対して記憶部１５ｂを更に備え、情報表示装置１４の代わりに情報表示装置１４ａ(図７)を備える。
記憶部１５ｂは、収音部１１、１２から入力された音響信号、撮影部１３から入力された画像信号を、入力された時刻毎に対応付けて記憶する。
音源方向推定部１４１及び放射方向推定部１４２は、収音部１１から入力される代わりに、記憶部１５ｂから収音部１１、１２から入力された音響信号をそれぞれ読み出す。
画像合成部１４７は、撮影部１３から入力される代わりに、記憶部１５ｂから画像信号を読み出す。

上述の変形例１−１、１−２では、収音部１１、１２から入力された音響信号又は撮影部１３から入力された画像信号を逐次に処理しなくとも、処理した画像信号を画像表示部１５２に出力し、処理した音響信号を音響再生部１５３に出力することができる。従って、本実施例では、既に録音された音声信号や録画された画像信号を用いることができ、処理量が過大になることを回避することができる。
また、上述の変形例１−１、１−２では、収音部１１、１２から入力された音響信号又は撮影部１３から入力された画像信号に対して情報量を圧縮し、情報量を圧縮した音響信号又は画像信号を記憶部１５ａ、１５ｂに記憶させるようにしてもよい。記憶部１５ａ、１５ｂから、記憶した音声信号又は画像信号を読み出す際には、情報量を圧縮前の情報量に伸長する。上述の変形例１−１、１−２において、情報量を伸長した音声信号又は画像信号に基づいて表示画像信号を再構成することで、記憶部１５ａ、１５ｂの記憶容量を低減することができる。

（変形例１−３）
次に本実施形態に係る変形例１−３について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図９は、本実施形態の他の変形例に係る情報表示システム１ｃの構成を表す概略図である。
情報表示システム１ｃは、情報表示システム１（図１）に対して感情推定部１４９を更に備え、表示データ生成部１４６の代わりに表示データ生成部１４６ｃを備える。
即ち、情報表示システム１ｃにおいて、情報表示装置１４ｃ、情報処理部１４４ｃは、それぞれ情報表示装置１４、情報処理部１４４（図１）に対して、感情推定部１４９及び表示データ生成部１４６ｃが備えられている。

感情推定部１４９は、音響特徴量の組からなる音響特徴量ベクトルと感情情報が予め対応付けて記憶されている記憶部を備える。記憶部に記憶された感情情報が示す感情には、例えば、興奮、安静、中立がある。
感情推定部１４９は、音源方向推定部１４１から入力された音源別信号に対して音響特徴量を算出し、算出した音響特徴量に対応する感情情報を自部が備える記憶部から読み出す。感情推定部１４９が算出する音響特徴量は、例えば、平均ピッチ（予め定めた区間毎に含まれるピッチの平均値）、平均レベル（予め定めた区間毎に含まれるレベルの平均値）、平均ピッチ変化率（予め定めた区間毎に含まれる複数の小区間に含まれるピッチの平均値に対する小区間を跨いだ変化率）、平均レベル変化率（予め定めた区間毎に含まれる複数の小区間に含まれるレベルの平均値に対する小区間を跨いだ変化率）、ピッチ指数（予め定めた平均ピッチの入力された全区間内のピッチの平均値）、レベル指数（予め定めた平均レベルの入力された全区間内のレベルの平均値）等の全部又は一部の組である。感情推定部１４９は、この組からなる音響特徴量を要素とした音響特徴量ベクトルを構成する。
感情推定部１４９は、構成した音響特徴量ベクトル、記憶部に記憶された各音響特徴量ベクトルとの類似度を表す指標値、例えばユークリッド距離を算出する。感情推定部１４９は、算出した指標値が最小となる音響特徴量ベクトルに対応した感情情報を記憶部から読み出し、読み出した感情情報を表示データ生成部１４６ｃに出力する。

なお、感情推定部１４９は、撮影部１３から入力された画像信号から音源である人物の顔面の各部位を既知の画像処理方法を用いて検出し、部位間の位置関係に対応した感情情報を推定してもよい。また、感情推定部１４９は、音源である人物の筋電位信号を入力し、入力された筋電位信号に基づいて既知の感情推定方法を用いて、感情情報を推定してもよい。

表示データ生成部１４６ｃは、表示データ生成部１４６と同様な構成を備える。以下、主に表示データ生成部１４６との差異点について説明する。
表示データ生成部１４６ｃが備える記憶部には、感情情報毎に、標識データ（方向指示標識データ、方向非指示標識データ）が予め記憶されている。標識データの表示態様は、感情情報毎に異なる。表示態様とは、例えば、外縁の形状、線幅、その輝度、その色彩等がある。

例えば、感情情報が興奮を示す場合の表示態様では、標識は、外縁の少なくとも一部がギザギザの形状を有し、感情情報が中立を示す場合より線幅が太くもしくは輝度が高く示される。例えば、感情情報が安静を示す場合の表示態様では、標識は、外縁の少なくとも一部において雲形が繰り返される形状を有し、感情情報が中立を示す場合より線幅が太くもしくは輝度が高く示される。表示される色彩は、例えば、感情情報が興奮、安静、中立それぞれの場合に対して、赤色、水色、黄色である。

表示データ生成部１４６ｃは、感情推定部１４９から入力された感情情報、かつ入力された放射方向情報が示す放射方向の推定の可否に対応した標識データを当該記憶部から読み出す。表示データ生成部１４６ｃは、読み出した標識データの文字表示領域に、入力された音声認識情報が表す文字列を配置する。感情情報毎の表示態様に、線幅、輝度、色彩の差異がある場合、表示データ生成部１４６ｃは、感情情報に対応した表示態様でその文字列を配置してもよい。
これにより、本変形例では、視聴者は、標識の表示態様を視認することによって音源である話者の感情を把握することができる。また、本変形例では特定の感情、例えば興奮について、上述のような視聴者の注意を引く表示態様で標識を表示することで、話者の感情に応じて視聴者の注意の度合いを変えることができる。

（標識データが表す矢印の画像の例）
ここで、標識の表示態様として矢印の画像に係る形状の例について述べる。
図１０は、本変形例における矢印の画像における形状の一例を示す図である。
図１０に示す矢印では、左側に頂点が向いている三角形と外縁がギザギザの線画で構成されている。かかる形状の矢印を表すことで、音源方向、つまり話者が発声する方向とともに話者の感情（興奮）が視覚的に表現される。
図１１は、本変形例における矢印の画像における形状の他の例を示す図である。
図１１に示す矢印では、左側に頂点が向いている三角形と外縁において雲形が繰り返される線画で構成されている。かかる形状の矢印を表すことで、話者が発声する方向とともに、話者の感情（安静）が視覚的に表現される。

（変形例１−４）
次に本実施形態に係る変形例１−４について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図１２は、本実施形態の他の変形例に係る情報表示システム１ｄの構成を表す概略図である。
情報表示システム１ｄは、情報表示システム１（図１）に対して音源方向推定部１４１、音声認識部１４３、表示データ生成部１４６、音響合成部１４８の代わりに、音源方向推定部１４１ｄ、音声認識部１４３ｄ、表示データ生成部１４６ｄ、音響合成部１４８ｄをそれぞれ備える。情報表示システム１ｄにおいて、情報表示装置１４ｄは、音源方向推定部１４１ｄ、音声認識部１４３ｄ及び情報処理部１４４ｄを備える。情報処理部１４４ｄは、表示データ生成部１４６ｄ、音響合成部１４８ｄを備える。

音源方向推定部１４１ｄ、音声認識部１４３ｄ、表示データ生成部１４６ｄ、音響合成部１４８ｄは、それぞれ、音源方向推定部１４１、音声認識部１４３、表示データ生成部１４６、音響合成部１４８と同様な構成を備える。以下、主に音源方向推定部１４１、音声認識部１４３、表示データ生成部１４６、音響合成部１４８との差異点について説明する。
表示データ生成部１４６ｄは、音源毎の音源別信号のうち音響再生部１５３に出力する区間に係る音素と対応した文字もしくは単語を、その他の文字もしくは単語とは異なる態様で表示する。異なる態様とは、例えば、色彩、文字の大きさ、文字の太さ、装飾、背景色もしくは背景の模様（ｔｅｘｔｕｒｅ）の有無、又は差異である。
ここで、音源方向推定部１４１ｄは、音源別信号を生成した時刻を表す時刻情報を予め定めた時間（例えば、５０ｍｓ）毎に生成し、生成した時刻情報を音源別信号と対応付けて音声認識部１４３ｄ及び音響合成部１４８ｄに出力する。音声認識部１４３ｄは、音源方向推定部１４１ｄから入力された時刻情報を、音声認識情報を表す各文字と対応付けて表示データ生成部１４６ｄに出力する。音響合成部１４８ｄは、音源方向推定部１４１ｄから音源別信号と時刻情報が対応付けられて入力され、入力された音源別信号を予め定めた遅延時間（例えば、５秒間）遅延させる。音響合成部１４８ｄは、遅延させた音源別信号を音響再生部１５３に出力する際、当該音源別信号と対応付けられた時刻情報を表示データ生成部１４６ｄに出力する。表示データ生成部１４６ｄは、音響合成部１４８ｄから入力された時刻情報に対応する文字を異なる態様で表示する文字と定める。

このように、本実施形態では、発話内容を表す文字と、当該文字を囲んで１方向を示す標識を、当該標識が囲む文字が示す発話内容に係る音源に対応した位置に、前記１方向を当該音源が音波を放射する放射方向に向けて表示する表示画像データを生成する。これにより、視聴者は発話者の位置、発話内容と発話方向を一括して直感的に把握することができる。
なお、本実施形態では標識の例を図３、４、１０、１１に示したが、これには限られない。例えば、標識内に表示する文字数が予め定めた文字数よりも多い場合、本実施形態では、それらの文字列を複数の標識を用いて表示してもよい。この場合、表示される複数の標識において、認識結果として得られた時期が新しいものほど、その文を大きく表示し、古いほど小さく表示するようにしてもよい。また、文字列に含まれる全ての文字を、そのそれらの文字の大きさを小さくして１つの標識上に表示するようにしてもよい。

（第２の実施形態）
以下、図面を参照しながら本発明の第２の実施形態について、上述と同一の構成又は処理については同一の符号を付して説明する。
図１３は、本実施形態に係る情報表示システム２の構成を表す概念図である。
情報表示システム２は、情報表示システム１（図１）において情報表示装置１４の代わりに情報表示装置２４を備え、さらに位置検出部２５を備える。

位置検出部２５は、自部の位置を検出する位置センサ、例えば、磁気センサ、を備える。位置検出部２５は、検出した位置を表す検出位置情報を生成し、生成した検出位置情報を情報表示装置２４の情報処理部２４４に出力する。
位置検出部２５は、収音部１１、撮影部１３、画像表示部１５２及び音響再生部１５３と同一の筐体に一体化されていてもよい。例えば、位置検出部２５は、これらが一体化したヘッドマウンテッドディスプレイに内蔵されていてもよい。これにより、位置検出部２５は当該ヘッドマウンテッドディスプレイを装着した視聴者自身の位置を検出することができる。また、音源方向推定部１４１は、視聴者の位置を基準とした音源方向を推定することができる。

情報表示装置２４は、情報表示装置１４（図１）において情報処理部１４４（図１）の代わりに情報処理部２４４を備える。情報処理部２４４は、情報処理部１４４（図１）において画像合成部１４７及び音響合成部１４８の代わりに画像合成部２４７及び音響合成部２４８を備える。画像合成部２４７及び音響合成部２４８は、画像合成部１４７及び音響合成部１４８と同様な構成を備える。

但し、画像合成部２４７は、データ入力部１５１（図１）から視点情報が入力される代わりに、位置検出部２５から検出位置情報が入力され、２視点の表示画像信号を生成する。画像合成部２４７は、入力された検出位置情報を、データ入力部１５１から入力された視点情報の代わりに用いて、視点変換を行う。これにより、その検出位置を視点とする２視点の表示画像信号を生成することができる。

音響合成部２４８は、データ入力部１５１（図１）から視点情報が入力される代わりに、位置検出部２５から検出位置情報が入力され、２チャネルの音響信号を生成する。音響合成部２４８は、入力された検出位置情報が示す検出位置を、データ入力部１５１から入力された視点情報の代わりに用いて、視点変換を行う。これにより、その検出位置を受聴点とする２チャネルの音響信号を生成することができる。

（表示画像の例）
次に、画像表示部１５２に表示される画像の一例を示す。
図１４は、画像表示部１５２に表示される画像の一例を示す。
但し、図１４に示す表示画像は、２視点の表示画像信号のうち一方の視点（左）の表示画像信号が表す画像である。
図１４において、左右方向は位置検出部２５を装着している視聴者を基準とした左右方向を示し、上下方向は当該視聴者を基準とした高低を示す。
図１４が示す画像５１は、表示データ生成部１４６が生成した矢印５２を表す表示データと、その残りの部分である撮影部１３が撮影した画像信号とが合成された表示画像である。この画像の中央部を挟んで左右両側にそれぞれ人物が５３Ａ、５３Ｂが示されている。左側の人物５３Ａが音源に相当する。矢印５２の基準点の位置が人物５３Ａの頭部の真上となるように、矢印５２が配置されている。また、中央よりも下には撮影部１３が撮影された時点における時刻（ＣｕｒｒｅｎｔＴｉｍｅ０２：２３）を示す文字が示されている。

人物５３Ａの真上を起点とする矢印５２は、人物５３Ａに対して右側に向けられている。この矢印５２は、人物５３Ａが右側の人物５３Ｂに向けて発話していることを示す。この矢印に囲まれている文字列「Ｋｏｎｏａｉｄａ」は、人物５３Ａが発話した音声に対する音声認識情報を表す文字列である。従って、この矢印５２は、人物５３Ａから人物５３Ｂに対して、「Ｋｏｎｏａｉｄａ」と話しかけていることを示す。
従って、本実施形態によれば、検知された視聴者自身の位置を中心として、視聴者は音源として人物が発声した発話内容を表す文字列とその向けられた方向を視認することにより、話者、発話内容及び話し相手を一括して直感的に把握することができる。
なお、画像表示部１５２が、画像を表示する表示面が、外部からの光線を透過する半透明のディスプレイである場合には、画像合成部２４７は撮影部１３から入力された画像を合成する処理を省略してもよい。即ち、画像合成部２４７は、表示データが検知された自己の位置が中心とあるように視点変換された画像を表す表示画像信号を生成し、画像表示部１５２は、その表示画像信号に係る矢印を表示する。

（変形例２−１）
次に本実施形態に係る変形例２−１について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図１５は、本実施形態の一変形例に係る情報表示システム２ａの構成を表す概略図である。
次に本実施形態に係る変形例２−１について、上述の実施形態と同一の構成、処理について同一の符号を付して説明する。
図１５は、本実施形態の一変形例に係る情報表示システム２ａの構成を表す概略図である。

情報表示システム２ａにおいて情報表示装置２４ａは、情報表示システム２（図１３）に対して音源推定部１４０の代わりに音源推定部２４０を備える。音源推定部２４０は、音源方向推定部１４１及び放射方向推定部２４２を含んで構成される。
放射方向推定部２４２は、撮影部１３から入力された画像信号が表す画像に表された人物の顔面の方向を検出し、検出した方向を放射方向とし推定する。放射方向推定部２４２は、画像に表された顔の方向を検出するために既知の方法を用いることができる。
放射方向推定部２４２は、例えば、人間の顔面を構成する部位、例えば顔面の左半分及び右半分の特徴を表すｈａａｒ−ｌｉｋｅ特徴からなる顔モデルデータを予め記憶させておいた記憶部を備える。放射方向推定部２４２は、撮影部１３から入力された画像信号が表す画像の含まれる領域毎に、記憶部に記憶された各部位の顔モデルデータとの間の指標値としてｈａａｒ−ｌｉｋｅ特徴量を算出する。放射方向推定部２４２は、部位毎に算出したｈａａｒ−ｌｉｋｅ特徴量が予め定めた閾値よりも大きいと判断された領域を、その部位に含まれる領域と判断する。
放射方向推定部２４２は、左目を表す領域の面積と、右目を表す領域の面積に対する比を算出し、算出した比に対応する顔の方向を算出する。放射方向推定部２４２は、算出した方向を放射方向として、放射方向を表す放射方向情報をデータ対応部１４５に出力する。
なお、放射方向推定部２４２は、入力された画像信号から検出した左右各目が向いている方向（視線方向）を公知の方法を用いて検出し、検出した方向を放射方向と定めてもよい。これにより、本変形例では、多数のマイクロホンを用いることなく、撮影部１３の視点から観察された人間の顔の方向に基づいて、音源の放射方向として推定することができる。

上述した各実施形態では、画像合成部１４７、２４７は、撮影部１３から入力された画像信号と表示データ生成部１４６等が生成した表示データとを合成する場合を例にとって説明したが、本実施形態ではこれには限られない。本実施形態では、画像合成部１４７、２４７は、撮影部１３から入力された画像信号の代わりに、コンピュータグラフィクス等、別個の手段によって生成された画像信号を用いてもよい。生成された画像信号は、例えば、音源推定部１４０が推定した音源位置に配置され、推定された放射方向に音を放射する音源を表す画像であってもよい。

上述では、音源推定部１４０において音源方向推定部１４１及び放射方向推定部１４２を備え、音源推定部２４０において音源方向推定部１４１及び放射方向推定部２４２を備える構成を例として説明したが、上述した実施形態ではこれには限られない。上述した実施形態では、音源推定部１４０は、入力された複数の音源信号に基づき、音源毎の音源方向、放射方向及び音源別信号を推定することができれば、一体化して構成されたものであってもよい。その場合には、データ対応部１４５を省略し、音源推定部１４０は、推定した音源方向を表す音源方向情報及び推定した放射方向情報を表示データ生成部１４６、１４６ｃ、１４６ｄ、画像合成部１４７、２４７及び音響合成部１４８、１４８ｄ、２４８に出力する。
なお、上述した実施形態において、各変形例その他の代替例を任意に組み合わせて構成してもよい。

なお、上述した実施形態における情報表示装置１４、１４ａ、１４ｃ、１４ｄ、２４、２４ａの一部、例えば、音源方向推定部１４１、１４１ｄ、放射方向推定部１４２、２４２、音声認識部１４３、１４３ｄ、データ対応部１４５、表示データ生成部１４６、１４６ｃ、１４６ｄ、画像合成部１４７、２４７、及び音響合成部１４８、１４８ｄ、２４８をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、情報表示装置１４、１４ａ、１４ｃ、１４ｄ、２４、２４ａに内蔵されたコンピュータシステムであって、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における情報表示装置１４、１４ａ、１４ｃ、１４ｄ、２４、２４ａの一部、または全部を、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）等の集積回路として実現しても良い。情報表示装置１４、１４ａ、１４ｃ、１４ｄ、２４、２４ａの各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。

以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１、１ａ、１ｂ、１ｃ、１ｂ、１ｄ、２、２ａ…情報表示システム、
１１、１２…収音部、１３…撮影部、
１４、１４ａ、１４ｃ、１４ｄ、２４、２４ａ…情報表示装置、
１４０、２４０…音源推定部、１４１、１４１ｄ…音源方向推定部、
１４２、２４２…放射方向推定部、
１４３、１４３ｄ…音声認識部、１４４、１４４ｃ、１４４ｄ…情報処理部、
１４５…データ対応部、１４６、１４６ｃ、１４６ｄ…表示データ生成部、
１４７、２４７…画像合成部、１４８、１４８ｄ、２４８…音響合成部、
１４９…感情推定部、
１５ａ、１５ｂ…記録部
１５１…データ入力部、１５２…画像表示部、１５３…音響再生部、
２５…位置検出部

Claims

第１の収音部からの複数チャネルの音響信号に基づいて音源の方向を推定する音源方向推定部と、
第２の収音部からの複数チャネルの音響信号を用いて得られる前記音源のパワーの指向性の度合いに基づいて前記音源が音波を放射する放射方向を推定できるか否かを判定し、推定できた放射方向を定める放射方向推定部と、
前記音源の発話の内容を認識する音声認識部と、
前記放射方向推定部が前記放射方向を推定できると判定するとき、発話の内容を表す文字と、前記文字を囲んで前記放射方向を示す方向指示標識を前記放射方向に向けて表す表示データを生成し、
前記放射方向推定部が前記放射方向を推定できないと判定するとき、前記文字と、前記文字を囲んで特定の方向を示さない方向非指示標識を表す表示データを生成する表示データ生成部と、
前記発話に係る音源を表す画像の表示位置に基づいて、前記表示データを合成する画像合成部と、を備えること
を特徴とする情報処理装置。
前記音源を表す画像を取得する画像取得部と、
前記画像を観察する位置である視点を入力するデータ入力部と、を備え、
前記画像合成部は、前記表示データ生成部が生成した表示データに対して、前記データ入力部から入力された視点に基づいて視点を変換し、視点が変換された表示データを前記画像取得部が取得した画像に合成することを特徴とする請求項１に記載の情報処理装置。
自部の位置を検出する位置検出部を備え、
前記データ入力部は、前記位置検出部が検出した位置を前記視点として入力することを特徴とする請求項２に記載の情報処理装置。
前記発話に係る音声を発声した話者の感情を推定する感情推定部を備え、
前記表示データ生成部は、前記感情推定部が推定した感情に基づいて、前記方向指示標識または前記方向非指示標識の表示態様を変化させることを特徴とする請求項１ないし３のいずれかに記載の情報処理装置。
前記表示データ生成部は、前記発話の内容を表す文字の大きさを、前記視点から前記音源の位置までの間の距離に基づいて定めることを特徴とする請求項２又は３に記載の情報処理装置。
前記表示データ生成部は、
前記表示データに含まれる文字数に基づいて前記文字を表示する時間を定めることを特徴とする請求項１から請求項５のいずれかに記載の情報処理装置。
請求項１から請求項６のいずれか一項に記載の情報処理装置と、
前記発話に係る音源を表す画像を撮影する撮影部、を備えること
を特徴とする情報処理システム。
情報処理装置における情報表示方法であって、
第１の収音部からの複数チャネルの音響信号に基づいて音源の方向を推定する音源方向推定過程と、
第２の収音部からの複数チャネルの音響信号を用いて得られる前記音源のパワーの指向性の度合いに基づいて前記音源が音波を放射する放射方向を推定できるか否かを判定し、推定できた放射方向を定める放射方向推定過程と、
前記音源の発話の内容を認識する音声認識過程と、
前記放射方向推定過程において前記放射方向を推定できると判定されるとき、発話の内容を表す文字と、前記文字を囲んで前記放射方向を示す方向指示標識を前記放射方向に向けて表す表示データを生成し、
前記放射方向推定過程において前記放射方向を推定できないと判定されるとき、前記文字と、前記文字を囲んで特定の方向を示さない方向非指示標識を表す表示データを生成する表示データ生成過程と、
前記発話に係る音源を表す画像の表示位置に基づいて、前記表示データを合成する画像合成過程と、を有すること
を特徴とする情報処理方法。
情報処理装置のコンピュータに、
第１の収音部からの複数チャネルの音響信号に基づいて音源の方向を推定する音源方向推定手順、
第２の収音部からの複数チャネルの音響信号を用いて得られる前記音源のパワーの指向性の度合いに基づいて前記音源が音波を放射する放射方向を推定できるか否かを判定し、推定できた放射方向を定める放射方向推定手順、
前記音源の発話の内容を認識する音声認識手順、
前記放射方向推定手順において前記放射方向を推定できると判定されるとき、発話の内容を表す文字と、前記文字を囲んで前記放射方向を示す方向指示標識を前記放射方向に向けて表す表示データを生成し、
前記放射方向推定手順において前記放射方向を推定できないと判定されるとき、前記文字と、前記文字を囲んで特定の方向を示さない方向非指示標識を表す表示データを生成する表示データ生成手順、
前記発話に係る音源を表す画像の表示位置に基づいて、前記表示データを合成する画像合成手順、
を実行させるための情報処理プログラム。