JP2018036690A

JP2018036690A - 一対多コミュニケーションシステムおよびプログラム

Info

Publication number: JP2018036690A
Application number: JP2016166571A
Authority: JP
Inventors: 米澤　朋子; Tomoko Yonezawa; 朋子米澤; 佑樹北岸; Yuki Kitagishi
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2018-03-08

Abstract

【構成】講演システムでは、聴取者を撮影した入力映像において、参加者のグループ毎に、連続した５フレームのオプティカルフローを計算し、それに基づいて、活発度および参加度ないし集中度を出力する。各グループの参加度（活発度、参加度ないし集中度）に応じて、カラーマッピングし、そのカラーマッピングに応じて、特定の参加状態のグループに局所的に音場を設定して、音声コンテンツを出力する。【効果】参加者のグループ毎の状態をカラーマッピング表示することによって、参加者の全体的な参加状態を容易に把握することができる。【選択図】図６

Description

この発明は、一対多コミュニケーションシステムおよびプログラムに関し、特にたとえば、大学の講義室でのように講演者の講演を多数の聴取者が聴取したり、ライブ会場でのように歌手やグループの歌唱や演奏を多数の聴衆が聴取するような、一対多コミュニケーションシステムおよびプログラムに関する。

背景技術の一例が特許文献１に開示される。この特許文献１では、教室に入室してきた聴講者の動体オブジェクトの特徴点を追跡し、監視領域内に特徴点が存在する間の監視領域の画像を解析することによって、各聴講者の受講状態情報に基づいて、好ましくない受講状態の聴講者に対して注意喚起を行う。

特開2013-29954号公報［G06Q 50/20, G06B 19/00, G06F 13/00］

上記の特許文献１では個々の受講者の受講状態だけを見るようにしているため、受講者全体の様子、特に教室全体でどのような受講状態にあるかを容易に把握することができない。

それゆえに、この発明の主たる目的は、新規な、一対多コミュニケーションシステムおよびプログラムを提供することである。

この発明の他の目的は、多数の参加者の全体的な参加状態を把握でき、それに応じた処置が可能な、一対多コミュニケーションシステムおよびプログラムを提供することである。

第１の発明は、発信者と、その発信者からの発信を受ける参加者を含む会場における一対多コミュニケーションシステムであって、参加者のグループ毎の参加状態を推定する状態推定手段、および参加者の映像にグループの参加状態に応じてた色情報を重畳して表示するカラーマッピング手段を備える、一対多コミュニケーションシステムである。

第１の発明では、一対多コミュニケーションシステム（１０：実施例において相当する部分を示す参照符号。以下、同じ。）では、会場に、たとえば講演者（ＳＰ）のような発信者とその講演者の講演を聴取しようとする聴取者（ＡＵ）のような参加者が存在する。たとえば、そのような聴取者を撮影する聴取者カメラ（２０）が設けられ、状態推定手段（３０、５０）は、たとえばその映像に基づいて、聴取者の状態を推定する。たとえば、参加者のグループ毎に、連続する数フレームのオプティカルフローを計算し、そのオプティカルフローから複数のパラメータを取得し、それを学習器にかけてそのグループの参加状態を推定する。そして、カラーマッピング手段（３０、２２）は、参加者の映像にグループの参加状態に応じた色情報を重畳して表示する。

第１の発明によれば、カラーマッピングされた参加者映像を見ることによって、参加者の全体的な状態を容易に把握することができる。

第２の発明は、第１の発明に従属し、特定の参加状態のグループに対して局所的に刺激を付与する刺激付与手段をさらに備える、一対多コミュニケーションシステムである。

第２の発明では、刺激付与手段（３０、５２、５４）は、特定の参加状態、たとえば参加状態があまりよくないグループに対して、刺激を与える。その刺激としては、音声、振動や映像による刺激、さらにはマルチモーダルな刺激が考えられる。

第２の発明によれば、特定の参加状態のグループに刺激を与えることができるので、その刺激によってグループの参加状態を改善することが期待できる。

第３の発明は、第２の発明に従属し、刺激付与手段は局所的に音場を生成する音場生成手段を含む、一対多コミュニケーションシステムである。

第３の発明では、音場生成手段（３０、５２、５４、６４）は、たとえばパラメトリックスピーカ（２４）を用いて、あるいはたとえばスマートデバイス（端末）（６６）を用いるマルチスピーカシステムを用いて、特定の参加状態のグループに対して、音場を生成することによって、音声による刺激を与える。

第３の発明によれば、局在化した音場によって刺激を与えるので、刺激を与える必要のない他の参加者に影響しないか影響が小さくてすむ。

第４の発明は、第３の発明に従属し、音場生成手段は、音声コンテンツを変化することによって音響的効果を遷移させる、一対多コミュニケーションシステムである。

第４の発明では、局所的に生成される音場の音声コンテンツを変えて音響的効果を遷移させることによって、そのグループを参加状態が改善するように、誘導する。たとえば、活発度は高いが集中度（参加度）が低いグループに対しては、ＢＧＭとして、まず活発度を低下させるために、たとえば環境音を出力して活発度を一旦下げた後に、今度は講演に関心を持たせるよう、つまり、集中度（参加度）を改善するためにたとえば長調のクラシック音楽や集中力を高めるヒーリング音楽を聞かせ、今度は集中状態での活発度を高めるため、たとえばロック音楽を出力する。

第４の発明によれば、局所的な音場生成において、たとえば音楽のような音声コンテンツを変化させて参加状態が改善するよう、グループを誘導することができる。

第５の発明は、第２ないし第４の発明のいずれかに従属し、発信者の興味の対象を推定する推定手段をさらに備え、刺激付与手段は推定手段が推定した発信者の興味の対象に向けられる、一対多コミュニケーションシステムである。

第５の発明では、推定手段（３０、５６）は、たとえば講演者カメラ（１８）からの講演者映像やピンマイク（１２）およびハンドマイク（１４）からの音声のボリュームなどに基づいて、講演者（ＳＰ）の顔や視線方向さらにはマイクの保持状態を検出し、講演者すなわち発信者の興味のある聴取者グループや方向を推定する。そして、刺激付与手段は、その発信者の興味の対象に従って、たとえばそのグループに刺激を付与する。

第５の発明によれば、発信者の興味の対象を推定し、その対象に音声、振動、映像、による刺激、さらにはマルチモーダルな刺激を与えることができる。

第６の発明は、発信者と、その発信者からの発信を受ける参加者を含む会場における一対多コミュニケーションシステムにおけるコンピュータが実行するプログラムであって、コンピュータを、参加者のグループ毎の参加状態を推定する状態推定手段、および参加者の映像にグループの参加状態に応じた色情報を重畳して表示するカラーマッピング手段として機能させる、一対多コミュニケーションシステム用プログラムである。

第６の発明によれば、第１の発明と同様の効果が期待できる。

この発明によれば、参加者のグループ毎の状態を観察することによって、参加者の全体的な参加状態を容易に把握することができる。

この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１はこの発明の一対多コミュニケーションシステムの一実施例である講演システムの一例を概略的に示す図解図である。図２は図１実施例の講演システムの電気的構成の一例を示すブロック図である。図３は図２に示すメモリのメモリマップの一例を示す図解図である。図４は聴取者の状態推定処理の一例を示すフロー図である。図５は聴取者の状態パラメータの一例を示す図解図である。図６は聴取者のグループの状態に応じてカラーマッピング表示を重畳した表示の一例を示す図解図である。図７は特定の場所または方向に音場を設定して生成することができる、聴取者の保有するスマートデバイス（端末）を用いてマルチスピーカシステムを構築することを示す図解図である。図８は振幅パンニングの一例を示す図解図である。図９は２地点間同期通信における時間計算を示す図解図である。図１０は推定した相対位置と実際の相対位置のずれを示す図解図である。図１１は同期信号の送受信モデルと整合フィルタの一例を示すブロック図である。図１２はチャープ信号の一例を示す波形図である。図１３はバーカー符号系列の一例を示す波形図である。図１４はネットワーク上でのトークンバッシングの一例を示す図解図である。図１５はマルチスピーカシステム全体のネットワーク構成の一例を示す図解図である。図１６はマルチスピーカシステムの動作シーケンスの一例を示す図解図である。図１７は仮想音源制御端末での音場設定の一例を示す図解図である。図１８は図１実施例において講演者の興味の対象に応じて音場を設定して生成する興味対象推定処理の一例を示すフロー図である。

この発明は、次に図１等を参照して説明する、大学の教室での一対多コミュニケーションのほか、歌手（グループを含む）、お笑いその他のエンターテインメントのライブ会場での一対多コミュニケーションなどにも適用可能であることを予め指摘しておく。この場合、大学での講演者やライブ会場での演奏者または演者はまとめて、「発信者」と呼び、聴講者または聴取者あるいは聴衆はまとめて、その発信者からの発信を受ける「参加者」と呼ぶことがある。

図１を参照して、この発明の一対多コミュニケーションシステムの一実施例である講演システム１０では、たとえば大学の教室のような会場に並べられた机に従って、多数の学生のような聴取者ＡＵが着席し、他方、教壇の、先生のような講演者ＳＰが、ピンマイク１２および／またはハンドマイク１４を使って講義をする。講演者ＳＰの話す言葉は、後述のように、教室全体に行き渡る音量のラウドスピーカ１６から音声として出力され、それによって各聴取者ＡＵが講演者ＳＰの講演を聴取することができる。

この実施例では、さらに、講演者ＳＰの映像を撮影する講演者カメラ１８および聴取者ＡＵの全体映像を撮影する聴取者カメラ２０を教室内の、講演の邪魔にならず、所期の目的を達成できる適宜の場所に、１台もしくは２台以上設置する。

講演者ＳＰに、聴取者ＡＵの全体状態を認識または把握させるために、映像モニタであるディスプレイ２２が、講演者ＳＰの斜め前のように、講演の邪魔にならず、講演者ＳＰが確実に見える場所に設置する。

さらに、この実施例では、後述するような講演者ＳＰの意思や聴取者の聴取状態に応じて必要な場所に音源（音場）を生成する（音像を定位する）ためのパラメトリックスピーカ２４を設置する。パラメトリックスピーカ２４は、よく知られているように、一般的な超音波トランスデューサを平面に複数個並べ、パラメトリックアレイを構成することによって、非常に鋭い指向性を持たせた音響システムであり、超指向性により照射された媒体から音が聞こえてくるという特性を持つ。このようなパラメトリックスピーカ２４の指向性は、平面の正面に形成されるので、パラメトリックスピーカ２４を用いて所要の場所に音場を生成するために、実施例では、パラメトリックスピーカ２４を、カメラの雲台のように俯仰および旋回可能な載置台（図示せず）上に載せ、その載置台を少なくとも２つのサーボモータ２６（図２）で少なくとも俯仰方向および旋回方向の２軸の方向に変位制御する。

図１では図示しないが、この実施例の講演システム１０では、図２に示すようなコンピュータ２８が用いられる。コンピュータ２８は、図２に示すように、ＣＰＵ３０を含み、ＣＰＵ３０はバス３２を介して、メモリ３４にアクセスできる。

ＣＰＵ３０は、さらに、音声インタフェース（Ｉ／Ｆ）３６を介して、ピンマイク１２およびハンドマイク１４からの、講演者ＳＰ（図１）の音声をたとえばＡ／Ｄ変換することによって、音声データとして取り込み、メモリ３４に記憶する。このマイク１２および１４からの音声データは、ＣＰＵ３０の指示に応じて、音声Ｉ／Ｆ３６によってたとえばＤ／Ａ変換されて、ラウドスピーカ１６から出力される。つまり、ピンマイク１２およびハンドマイク１４からの、音声データは、一旦メモリ３４に記憶された後、ラウドスピーカ１６から出力される。

講演者カメラ１８および受講者カメラ２０からのそれぞれの映像信号は、カメラインタフェース（Ｉ／Ｆ）３８を介して、たとえばＡ／Ｄ変換されて、映像データとしてＣＰＵ３０によって取り込まれ、この映像データは、メモリ３４に一旦記憶される。

上述のパラメトリックスピーカ２２およびそれのためのサーボモータ２６を制御するために、パラメトリックスピーカインタフェース（Ｉ／Ｆ）４０が設けられる。このパラメトリックスピーカＩ／Ｆ４０は、ＣＰＵ３０がメモリ３４から読み出した音声コンテンツデータを、音声データとしてパラメトリックスピーカ２４に与える。それとともに、ＣＰＵ３０が指示した俯仰角および旋回角に応じてサーボモータ２６を制御し、パラメトリックスピーカ２０の指向性（放音方向）をＣＰＵ３０が指示した方向に向ける。

ＣＰＵ３０は、ディスプレイインタフェース（Ｉ／Ｆ）４２を介して、ディスプレイ２２に、映像データを与える。この映像データとしては、聴取者カメラ２０が撮影した聴取者ＡＵの映像や、その聴取者映像の上に重畳して表示される、聴講状態に応じたカラーマッピング画像（後述）などがある。

なお、コンピュータ２８は、通信モジュール４４を有し、通信モジュール４４は、ＣＰＵ３０がたとえばインタネットのようなネット接続を実行するときに利用される。

コンピュータ２８はさらに、タッチディスプレイ４６を含み、このタッチディスプレイ４６は、タッチディスプレイインタフェース（Ｉ／Ｆ）４８を通して、バス３２に接続される。このタッチディスプレイ４６には、ディスプレイ２２と同様に聴取者ＡＵの全体映像が表示され、ユーザたとえば講演者ＳＰは、その映像を見ながらタッチパネルにタッチして、後述の音場設定（音像定位）すべき場所や方向を手動で設定することができる。

メモリ３４には、図３に示すように、プログラム記憶領域３４ａおよびデータ記憶領域３４ｂを含み、プログラム記憶領域３４ａには、ＯＳ等の基本的プログラムの他、この実施例に特有の、聴取者状態推定プログラム５０、音場設定プログラム５２、音場生成プログラム５４および講演者興味対象推定プログラム５６等を含む。

聴取者状態推定プログラム５０は、聴取者カメラ２０からの聴取者映像を主として利用して、聴取者の聴取状態を推定する。この実施例では、聴取状態は、聴取者が講演に集中して前方を見たりメモを取ったりする動きにおける縦方向の動き特徴や、非集中時の雑談等の横方向の動き特徴に着目して、それらの動き特徴から聴講者の局所的なもしくは全体の傾向としての講演に対する集中度ないし参加度を推定するためのプログラムである。

音場設定プログラム５２は、聴取者状態推定プログラム５０に従って推定した聴取者状態および／または後述の講演者興味対象推定プログラム５６に従って推定した講演者の興味の対象に基づいて、音場を生成するための場所や方向を決定するためのプログラムである。

音場生成プログラム５４は、音場設定プログラム５２に従って設定した音場において実際に音場を生成するためのプログラムである。この音場生成のためには、講演者のマイクから入力した音声だけでなく、後述のコンテンツデータ領域６４に予め準備してある音声コンテンツを利用することもある。

講演者興味対象推定プログラム５６は、講演者カメラ１８からの講演者映像やピンマイク１２およびハンドマイク１４からの音声のボリューム（入力レベル）などに基づいて、講演者（図１）の顔や視線方向さらにはマイクの保持状態を検出し、講演者ＳＰの興味のある聴取者グループや方向を推定するためのプログラムである。

データ記憶領域３４ｂには、オプティカルフローデータを一時的に記憶しておくためのオプティカルフローデータ領域５８、マイク１２および１４からの音声データを記憶するための音声データ領域６０、カメラ１８および２０からの映像データを記憶するための映像データ領域６２、ＣＰＵ３０の指示に従って出力するべき音声コンテンツおよび映像コンテンツを予め設定しているコンテンツデータ領域６４等を含む。

図４は、聴取者状態推定プログラム５０に従って聴取者の状態を推定するための処理方法の一例を示すフロー図である。なお、この図４に示す状態推定処理は、一例として、フレーム周期で繰り返し実行される。

ＣＰＵ３０は、まず、ステップＳ１において、多人数の聴取者ＡＵが映っている、聴取者カメラ２０からの映像データに対して顔検出を行う。顔検出は、たとえば一定以上の広がりを持つ肌色領域を顔として検出するなどの公知の方法で検出される得る。このステップＳ１では、また、ＣＰＵ３０は、顔領域の面積を正規化する。たとえば、聴講者カメラ２０からの距離が近い聴講者の顔領域の面積は、遠い聴講者の顔領域の面積に対して、相対的に大きくなる。したがって、聴講者カメラ２０からの距離に応じて、各聴講者の顔領域の面積を正規化する。

このようにして検出された顔座標（顔領域の重心の座標）や面積に応じて、一定の人数、たとえばおよそ８人の聴取者が入る枠を自動生成し、その枠（グループ）毎に以下のステップＳ３‐Ｓ１７を実行して聴取者の参加度を推定する。ただし、１つの枠内においても、枠内の顔面積に応じて画像サイズの正規化を行った上で、ステップＳ３において、各聴取者の顔の動きの角度を計測する。

詳しく言えば、ステップＳ５において、５フレーム期間において、各顔画像のオプティカルフローを計算する。具体的には、１フレーム目ではハリスのコーナー特徴点を抽出（Corner detection using Harris Operator）し、２‐５フレーム目では新規特徴点の取得を行わず、１フレーム目の特徴点の追跡をオプティカルフロー計算により行う。この間、ステップＳ７におけるように、動きが途切れたものや５フレーム経過後の長すぎたり短すぎる動きはエラーとして削除する。

次のステップＳ９において、残った特徴点の始点と終点の座標を基に動き特徴を作成する。そして、それぞれの座標から動きの角度を計算する。この角度が４５°‐１３５°および２２５°‐３１５°の動きを縦方向、それ以外の動きを横方向の動きとして分類する。

つまり、ステップＳ１１において、動き角度が、４５°‐１３５°または２２５°‐３１５°の範囲内かどうか判断する。“ＹＥＳ”の場合、対象の顔領域の動きは縦方向であると判断する。“ＮＯ”の場合、対象の顔領域の動きは横方向であると判断する。

その後、ステップＳ１３またはＳ１５において、各動き方向毎にパラメータを積算する。つまり、動きの数、動きの距離合計、動きが多かったフレーム数を累積し、これらを枠内人数に応じて正規化する。そして、正規化したそれらの数値から動きの数の割合と、１回の動き当たりの距離を算出する。これら縦方向および横方向合計１０次元の特徴（パラメータ）をその後、ステップＳ１７においてＳＶＭ（Support Vector machine）のような学習データが設定されている学習器ないし分類器に入れる。

学習器では、動き量に応じて活発度を出力し、集中の有無に応じて集中度ないし参加度を出力する。

上記のような学習器の結果、次のことがわかった。横方向の動きの数が多いとき聴取者どうしの雑談の傾向が強く、縦方向の動きの数が多いときは聴取者は板書をしている傾向が強い。横方向（または縦方向）の動きの合計距離が大きいときは雑談の傾向が強く、動きの合計距離が小さいときは板書の傾向が強い。横方向の動きが多かったフレーム数が多いときは雑談やよそ見の傾向が強く、縦方向の動きが多かったフレーム数が多いときは板書の傾向が強い。

このような結果において、雑談の傾向が強いということは参加度は小さく、板書の傾向が強いということは参加度が大きいと考えることができる。横方向（または縦方向）の動き１つ当たりの距離が大きいときは、雑談やよそ見もしくは板書の傾向において、それぞれ動きの大きい移動があるといえる。動きが大きいということは活発度が大きく、小さいということは活発度が小さいと考えることができる。

なお、学習器によらず、上記の連続した５フレームのオプティカルフローから、動き量を求め、その動き量に応じた活発度を出力することもできる。ただし、動き量は、オプティカルフローの絶対値を総計して求めることができ、それを上述の聴講者カメラ２０からの距離に応じて正規化する。そして、その動き量が大きい場合、活発度を出力する。

以上のように、この実施例での聴取者状態推定方法では、聴取者カメラ２０が撮影した聴取者映像において、枠内人数を同じ（またはほぼ同じ）になるように複数の領域（枠）に分割し、各聴取者の顔検出による距離推定の上、正規化し、枠内のオプティカルフローを取得する。そして、たとえば５秒間の累積移動量とフレーム移動量度数の枠内集計を行い、予め学習した縦方向、横方向への移動量に基づく集中レベルに基づき参加度（または集中度）を認識し、動き量度数集計で最も動き量が多いのを活性度１００として活性度の算出するようにした。

上述のようにして推定した聴取者ＡＵの状態を講演者ＳＰが直観的に把握するためには、色情報による聴取者の参加状態（参加度または集中度および活発度または活性度で表現される）の表現が有効だと考えた。この色情報での表現の前提として、ここでは、ラッセルの円環図（Circumplex Model of Russell）における快‐不快軸を参加度（集中度）、活性‐不活性軸を活発度として検討した。

ここでは、参加度のパラメータを聴取者の講演への取り組み姿勢として定義した。参加度が高ければ講演を聴講し理解に努め記録するなど講演への興味が高い状態を指し、低ければ他所見をしていたり他者との雑談に興じてしまうといったような講演内容に関係のないことへ興味が向いている状態を指す。また、活発度として聴取者の参加姿勢の活発さを定義した。活発度が高ければ活発な動きを見せていて、低ければあまり動きが見られないということになる。

つまり、参加度と活発度の双方が高いとメモを取りながら聴講し講演に積極的に参加している第１の状態であり、参加度が高く活発度が低いと講演を静かに聴講するのみという第２の状態、参加度が低く活発度が高いと雑談や他所事に夢中になっている第３の状態、参加度と活発度の双方が低いとぼんやりと他のことをしているというような第４の状態がそれぞれ当てはまる。図５に、参加度を横軸、活発度を縦軸として表し、ラッセルの円環図のように聴取者の参加状態（活発度および参加度または集中度を含む）を表せると考えた。

そして、この参加度および活発度のパラメータによって聴取者の状態を表す上で、それらの参加状態を講演者が直観的に理解できるように視覚化するために、聴取者の状況を表す動画像上に各領域に対応したカラーマッピングを重畳表示し、講演者に提示する。

発明者等の実験では、図５に示すラッセルの円環図において、参加度が大きくなるに従って緑色の純色に近づき、参加度が小さくなるに従って赤色の純色に近づき、それらの緑色と赤色との中間は黄色および青色とし、活発度が大きくなるに従って明度が大きくなり、活発度が小さくなるに従って明度が小さくなるように、グラデーションを用いることを考えた。

まず、参加度の横軸に対して、参加度の最も低い状態に赤色を、そして最も高い状態に緑色を当てはめて、グラデーションによる色相推移を適用する。これは、赤の注意喚起や注目性といった心理的イメージや緑の理性的という心理イメージに基づいたものである。次に、活発度の縦軸に対して活発度が低くなるほど明度および彩度が比例して低下する色相推移を当てはめる。これは、低明度の陰気な重いという心理イメージや低彩度の落ち着いた、大人しいという心理イメージに基づいたものである。

この考えに従って、一例として、上記の第１の状態は緑色、第２の状態は青色、第３の状態は黄色、第４の状態を赤色とした。このような定義に従って表示したカラーマッピングの一例が図６に示される。発明者等の実験によれば、赤色は「注意すべき対象」、「騒いでいるというイメージ」であり、緑色は「真面目そうなイメージ」、黄色は「赤と緑のどちらに転んでもおかしくない注意すべきイメージ」、青色は「落ち着いている」、「眠っているようなイメージ」という評価があった。

なお、図６では表現しきれていないが、これら色つきの台形ラベルは、実際には半透明であって、聴取者カメラ２０が撮影した聴取者ＡＵの映像の上に重畳して表示される。このような聴取者映像が、図１に示すディスプレイ２２に表示されるので、講演者ＳＰはそのようなカラーマッピング映像を見ることによって、教室全体の状態を直感的に把握することができる。

図６のカラーマッピング映像において、特に赤色ラベルを付されたグループは騒いでいて注意すべき対象であると考えられる。したがって、ディスプレイ２２に表示されるカラーマッピング映像を見た講演者ＳＰは、そのグループに対して、何らかの注意を与えたいと考えるかもしれない。その場合、講演の音声を出力しているラウドスピーカ１６から、そのグループを注意するための音声を出力する訳にはいかない。なぜなら、ラウドスピーカ１６は教室のような空間全体に音声を出力するので、講演が中断されるだけではなく、騒いだりしていないグループの聴取者に対しては迷惑である。

そこで、この実施例では、図１に示すパラメトリックスピーカ２４の超指向性を利用して、該当するグループにのみ向けて、注意や警告の音声を出力する（局所的に刺激を与える）。

具体的には、図３に示す音場設定プログラム５２に従って、パラメトリックスピーカ２４からの音の出力方向、この場合は注意すべきグループの方向を音場として設定する。パラメトリックスピーカ２４の出力方向を設定する方法は任意でよいが一例として次のような方法が考えられる。

先の図４のステップＳ１で、聴取者カメラ２０からの映像データに基づいて特定した各聴取者ＡＵの顔領域を特定しているので、それを用いる。詳しくいうと、当該グループを形成するたとえば８人の聴取者の各顔領域の中心（重心）の座標位置に基づいて、グループの中心（重心）の位置座標を計算する。そして、ＣＰＵ３０は、パラメトリックスピーカ２４の座標位置（既知）とそのグループの座標位置に基づいて、パラメトリックスピーカ２４の音の放出方向すなわちパラメトリックスピーカ２４の前面の俯仰角および旋回角を計算する。ＣＰＵ３０は、パラメトリックスピーカＩ／Ｆ４０を通してサーボモータ２６を駆動し、パラメトリックスピーカ２４がそのその俯仰角および旋回角になるように制御する。

他方、図３に示すコンテンツデータ領域６４に、注意や警告（刺激）の音声のための音声データを予め設定しておき、それをＣＰＵ３０が読み出してパラメトリックスピーカＩ／Ｆ４０を通してパラメトリックスピーカ２４に与える。

したがって、パラメトリックスピーカ２４から、前記のグループだけに向けて、注意や警告の音声を出力する。つまり、グループの場所に音場を生成して刺激する。

なお、図１の実施例ではパラメトリックスピーカ２４は１台だけ設けているが、必要に応じて２台以上のパラメトリックスピーカを用いることももちろん可能である。この場合、１つまたは２以上のグループをターゲットとして、パラメトリックスピーカ毎に上述の俯仰角および旋回角を個別に計算して、サーボモータを制御するようにすればよい。

この実施例の利用パターンＡとして、聴取者のグループ毎の参加度や活発度に応じてパラメトリックスピーカ２４の放音方向を制御して、特定の場所（方向）に、注意や警告の音声で音場を生成した。このような特定の場所での音場生成は次のような別の利用方法もある。

利用パターンＢでは、複数のパラメトリックスピーカ２４を用いる。複数のパラメトリックスピーカの内の１つまた２つ以上のパラメトリックスピーカを用いて、参加度（集中度）の高いグループ以外は落ち着かせる効果が期待できるＢＧＭや講演者の講演対する集中のきっかけになるキーワードを強調した音声を聞かせる。一方で、活発度が低いが集中しているグループには、別の１または２以上のパラメトリックスピーカを用いて、活発度を向上させるリズミカルなＢＧＭと組み合わせた音声を提供する。ただし、これらの音声やＢＧＭもまた、図３のコンテンツデータ領域６４に予め設定しておくことができ、ＣＰＵ３０はそれらを読み出して、別々のパラメトリックスピーカまたはパラメトリックスピーカ群に与える。

パターンＢにおいて、活発度は高い（活発度がプラス）が集中度（参加度）が低い（集中度ないし参加度がマイナス）グループに対しては、具体的には、ＢＧＭとして、まず活発度を低下させるために、つまり、図５における第２象限から第３象限（左上から左下）へ移行させるために、環境音、たとえば鳥のさえずり、波の音、川のせせらぎ、鈴虫の鳴く音等を、ターゲットのグループに向けてパラメトリックスピーカで出力する。ただし、このときの環境音には１／ｆゆらぎが含まれているものを使用する。１／ｆゆらぎとは、自然界に多く見られる周期性の微妙な変動のことであり、環境音や多くのクラシック音楽には１／ｆゆらぎ周波数が多量に含まれている。人は一定不変や完璧なリズムにはなじめず、むしろ小さな変動やわずかなリズム間隔のずれが心地よいと感じるが、そのリズムのずれを感じさせる要因が１／ｆゆらぎである。それを踏まえた上で環境音を選定する。

このようにして、ターゲットグループ内の聴取者の活発度を一旦下げた後に、今度は講演に関心を持たせるよう、つまり、図５における第３象限から第４象限（左下から右下）へ移行させるために、長調のクラシック音楽（演奏、歌唱）や集中力を高めるヒーリング音楽を聞かせる。１／ｆゆらぎを含むことでリラックスさせるだけでなく、何らかの作業中または施術中に聞くことがある音楽を用いることで、聴取者の関心を近辺にある集中すべきコンテンツに向ける。

最後に、ターゲットグループ内の聴取者の集中状態を導入した後に、今度は集中状態での活発度を高めるため、つまり、図５における第４象限から第１象限（右下から右上）へ移行させるために、アドレナリンの分泌を誘発できる、たとえばロック音楽をターゲットグループに向けてパラメトリックスピーカで出力する。ロック音楽は、慣れを防止するために、１曲ずつ大きめの音でランダムに流し、その後徐々に音量を下げ小さめの音量で流し続けることによって、聴取者の講演に対する集中度を高揚させることができる。

このようにして、局所的な音場生成において、たとえば音楽のように音声コンテンツを変化させて聴取者すなわち参加者の参加度（活発度や参加度で表わされる）を高揚するように誘導することができる。ただし、この参加度の誘導のための音響効果の遷移においては、環境音からクラシック音楽、クラシック音楽からロック音楽に突然切り替えるのではなく、クロスフェードさせて流す。ロック音楽は、慣れを防止するために、１曲ずつ大きめの音でランダムに流し、その後徐々に音量を下げ小さめの音量で流し続けることによって、聴取者の活発度を高揚させることができる。

さらに、このような参加状態の誘導のための音響的効果の遷移は、一定時間ごとに自動的に行うものとするが、カラーマッピング映像の変化に応じて自動的にまたは手段同的に遷移させるようにしてもよい。

さらに、このようなもしくは後述の音場生成（音像定位）の方法を利用して、ＴＡを教室内に設定することができる。ただし、ＴＡとは、ティーチングアシスタント（Teaching Assistant）のことであり、大学などにおいて、担当教員の指示のもと、たとえば大学院生が授業の補助や運用支援を行う制度のことである。

上述のように音場を局在化できるので、たとえばディスプレイ２２に表示されている聴取者映像を見て、手を上げたり疑問を生じていそうなエリア（グループ）に音像を定位させることによって、すなわち特定の場所や方向に音場を生成することよって、音響的ＴＡエージェントを生成して教室内を移動させ、そこで、たとえば「何か質問がありますか？」などの音声を出力することができる。このようなＴＡのために必要な音声の音声データはコンテンツデータ領域６４（図３）に予め設定しておくことがきるので、必要に応じてＣＰＵ３０がそれを選択して読み出せばよい。

また、講演者が一対一でやり取りを求めるときは、対象のグループの中の１人の場所まで音響的ＴＡエージェントを移動させるように制御をして、発話させることもできる。

集中度（参加度）が低く活発度も低い特定グループへ音響的ＴＡを移動させるべくたとえば足音のような音声を当該グループの方向に向けて出力した後、講演者への呼びかけ音声を、そのグループの場所を音源定位にして発信し、教室全体の各聴取者が「わからない」ということを共有するように制御することもできる。つまり、音響的ＴＡを特定グループの方へ移動させる制御をした後、そのグループの場所でたとえば「ここがわかりません」のような音源を定位することによって、その発言が教室全体に共有されることになる。

上述の実施例では、集中音場（特定の場所または方向に向けて生成する音場のこと）を生成するために、サーボモータ２６で方向調整可能に制御されるパラメトリックスピーカ２４を用いた。しかしながら、集中音場を生成するためには、教室やライブハウスのような閉空間に予め設置している多数のスピーカを利用する方法もある。

たとえば、波面合成法（ＷＦＳ:wave field synthesis）、高次アンビソニックス法（ＨＯＡ：higher order Ambisonics）、境界音場制御法など、公知のマルチチャンネルスピーカによる音場再現手法を利用することができる。しかしながら、これらの手法はどれも特殊な機器と特別な設備が必要であり、公共空間への導入が難しいという問題がある。

さらに、最近ではほとんどの人がスマートフォンのようなスマートデバイスを保有し、携帯しているので、それら各人のスマートデバイスを利用して集中音場を生成することも可能である。

そのような手法の一例が、たとえば、論文伊納洋佑、石川佑樹、中祐介、米澤朋子「複数の携帯端末の同期・位置推定手法による閉鎖空間の音響環境構築」信学技報１１５（４２４）,１９‐２６,２０１６‐０１‐２８電子情報通信学会で既に提案されている。

次の実施例では、教室などの閉鎖空間において、多数の聴取者ＡＵが所有する多数のスマートデバイスすなわち端末６６の音声出力をネットワークを介し同期させて制御することで、マルチスピーカを構築し(図７)、そのマルチスピーカシステムを用いて、先のパラメトリックスピーカ２４と同様に、特定の場所に向けて音場を生成する。

この実施例では、講演者ＳＰのために、コンピュータ２８（図２）とは別に、音源制御用のノードとして、タブレットＰＣのようなスマートデバイス６８を用いる。端末６６は、スマートフォンのようなスマートデバイスであり、図１に示す聴講者ＡＵがそれぞれ保持しているものである。端末６６は図示しないが各々がスピーカおよびマイクを持っていて、それらの端末６６は、たとえば、スピーカ（図示せず）の放音孔を上に向けて図１に示す机の上に置かれる。

そして、たとえば図７のように空間内に配置した端末６６の位置に基づき、その音源位置を囲む最寄りの３つの端末（ノード）を設定し、振幅パンニングすることで、現実世界における想定位置で音源を鳴らして定位する。概略をまず説明すると、まず互いの端末６６の距離を、各端末のスピーカから出したパルス音の到達時間計測することによって、計測し、それらの相対距離の関係に基づいて空間配置し、各端末６６位置に応じて音量ボリュームを変えるＤＢＡＰ法によって、各端末６６のスピーカを用いて、特定の場所または方向に音場を生成する。

そのため、このようなマルチスピーカシステムを構築するにあたり、実空間に分布する複数の端末６６の相対位置を推定するとともに、端末６６間での時刻同期が必要不可欠である。

そこで、以下では、まず、この実施例のシステムで用いる相対位置に基づく音像定位手法について説明し、次に、端末間の音声パルスの到達時間差による時刻同期手法および相対距離計測手法、相対位置推定手法を説明する。さらに、パルス圧縮によるパルス検出手法を示し、最後に、マルチスピーカ全体の制御手法について説明する。

音像定位とは、聴覚を通じて知覚する音の性質の一つである。人間は、音の大きさ、高さ、音色といった音の性質に加え、どこからどのように音がするかといった主観的な音の空間的特性として、方向、距離、広がりなどをとらえる。周辺の音の発生源を知覚する際、両耳間の音圧勾配（ＩＬＤ：interaural level difference）および両耳間の時間差（ＩＴＤ：interaural time differenve）により、音像定位する。上下、前後などの、左右差では推測できない音像に対し、人間は、各受聴者固有の頭部や耳殻の形状による影響を含めた頭部伝達関数（ＨＲＴF：Head Related Transfer Function）の振幅スペクトルを手掛かりとして利用しており、これをスペクトルキュー（spectrum que）という。ヘッドフォンなどによる音像定位では、ＨＲＴＦに基づく上下前後の振幅特性に関する計算が必要であるが、実環境内における音源の再現をする場合は、個人差によるＨＲＴＦを考慮する必要はない。

３Ｄの立体音響を再現する手法として、左右のスピーカの音量比により音像定位を行う振幅パニング(ＡＰ:Amplitude Panning) 法を応用した立体的配置のスピーカにより音像を生成するＶＢＡＰ：Vector Based Amplitude Panning（ＶＢＡＰ）法や、平面配置のスピーカを用いたＤＢＡＰ：Distance Based Amplitude Panning 法がある。

実施例では、水平の地面を持つ空間内にいる複数ユーザを想定し、図８に示すＤＢＡＰ法を用いて平面配置の端末６６のスピーカを使った仮想音源の音像定位を行う。このＤＢＡＰ法は、よく知られているように、任意の数のスピーカ（端末６６）の位置が既知であり、端末間のスピーカの出力特性が等しいときに、仮想音源と各スピーカとの距離から距離減衰を計算することで、各スピーカの振幅を制御して音像を合成して音像を定位する手法である。つまり、実施例の複数端末によるマルチスピーカシステムにおける音像定位の基本的な考え方は、仮想音源に近いノードから音を出せば仮想音源に近い方向への音像定位ができるであろうというものである。基本的には、仮想音源位置に近いノードから発音する。これにより、想定した音源位置に比較的近い実空間内での音像定位が実現する。さらに、平面上の任意の位置を定位するため最低必要な３つのノードを決定し、各端末で適切な振幅パニングを設定した後、同期して音を発生する。これにより、この３つのノードの形成する三角形の外部にいる受聴者には、その三角形の内部に音像が定位される。

音声パルスで同期する場合、音声信号のサンプリング周波数４４１００［Ｈｚ］と仮定すると、１サンプルあたりの時間解像度は約２２．６秒、距離解像度は７．７ｍｍ（音速を３４０［ｍ／ｓ］と仮定）となる。他方で、人間の聴覚特性として、同一信号を同時に同レベルで放射すれば音像は正面に生じるが、ＩＴＤが１ｍ秒を超えるずれが生ずる場合は、先に聞こえた方の音源位置に定位されるという先行音効果と呼ばれる現象が知られている。この効果を考慮すると、端末間同期には、ＩＴＤが１ｍ秒以内になるように、つまり、同期誤差を１ｍ秒以下になるような高精度な同期が必要になる。

ここで、実施例のシステムで適用した音声パルスによる端末間同期手法について述べる。二次レーダー（ＳＳＲ：Secondary Surveillance Radar）の仕組みを用いて、質問信号と応答信号の時間差により、距離を求めると同時に同期も行う。

図９に２地点間の同期通信の時間軸を示す。まず地点Ａから時刻ｔ０に音声パルスを発生し、地点Ｂで受信する時刻をｔ１とする。この信号受信を受けて次に地点Ｂから時刻ｔ２に音声パルスを発信し、地点Ａで受信する時刻をｔ３とする。このとき、地点Ｂにおける実際の地点Ａの音声パルス発信時間は数１で求められる。音速をｃとすると、地点Ａと地点Ｂの距離ｄ_ＡＢが数２によって求められる。

各端末の相対距離計測の結果に基づき、非線形最小二乗法を用いて相対位置推定を行う。推定位置に基づく相対距離と実際の計測相対距離の誤差を最小二乗法で最適化することで相対位置の推定を実現する。目的関数ε(ｘ^１，…，ｘ^Ｎ)は数３で定義される。

ここで、Ｎ∈Ｎは端末の数、Ｍ⊂(i)｛１，…，Ｎ｝は端末ｉと相対距離が計測できた端末の集合、ｄ_ｉｊ∈Ｒは実際に計測された端末の距離とし、ｘ_ｉ^∈Ｒ^２はｎ番目の端末の位置推定値で、初期値は乱数を置く。この目的関数をε最小化する変数ｘ_ｉ^を求めるという最適化問題（数４）とする。

この問題の最急降下法の更新式は数５に定義される。

実際の端末６６の位置を○で示し、推定結果の位置を×で示したときのシミュレーション結果の一例を図１０に示す。この図１０からわかるように、実施例で採用した音声パルスで端末を同期させる場合、所要の精度が得られた。

ここまでに測距、同期パルス（信号）の送受信による同期と測距および相対位置推定の手法について述べた。ここでは、測距、同期精度を高くするための、信号検出手法について説明する。

信号検出においてＳＮ比を最大化するフィルタを整合フィルタと呼び（図１１）、それは元信号との自己相関に等しい。理想的には整合フィルタを通した結果がディラック（Paul Adrien Maurice Dirac）のデルタ関数に近いことが望ましい。しかしながら、そのような信号は短時間に大電力のパルスとなるため、送信機器の送信電力や回路の容量に物理的な制約があり、そのような信号の送信は不可能である。そこで、パルス圧縮と呼ばれる手法が使われている。パルス圧縮は、送信パルスを時間周波数方向へエネルギを拡散させ、受信時にフィルタと高ＳＮ比で鋭いピークを持つようにする手法である。

音声パルスで同期する場合、音声信号のサンプリング周波数４４１００［Ｈｚ］と仮定すると、１サンプルあたりの時間解像度は約２２．６秒、距離解像度は７．７ｍｍ（音速３４０［ｍ／ｓ］を仮定）となる。

人間の聴覚特性として１ｍ秒の誤差で別音源として聴こえることが知られている。戦術の先行音効果により、必要な同期精度を１ｍ秒とすると、同期はおよそ５サンプル以内の誤差に留める必要がある。このような高精度のパルス検出のため、複数のパルス圧縮方式を組み合わせる。

ここで、実施例においては、本手法に適用したパルス信号であるチャープ信号（Chirp signal）について述べる。波形を図１２に示す。チャープ信号は、方形パルスを周波数方向へ掃引することで、通常パルスと同じ電力で時間方向の精度をより向上させることができることで知られている。バーカー符号（Barker Code）（図１３）はパルス圧縮の一種で、同期点以外での自己相関関数の絶対値の最大が１＝Ｎとなる長さＮの有限長系列で、長さ１３まで存在し、相関特性が長さ１３の場合、ピークが１３倍、レンジサイドローブが１／１３倍となるような、ディラックの関数に近い理想的な相関特性を持つことで知られている。

さらに、狭い時間範囲にエネルギを集中させることで、上記の２つのパルス圧縮技術を組み合わせて、チャープ信号をバーカー符号を用いてＢＰＳＫで変調した。ＢＰＳＫは位相０を０、位相πを１とする位相偏移変調で、位相変化を２値とする。

ただし、チャープ信号をバーカー符号で変調した場合、系列長に制限があるため複数のピークが現れてしまうという問題があったので、発明者等は、系列長に制限のないＭ系列符号（m-sequence;maximal length sequence：ガロア体における線形漸化式が生成する数列(sequence)のうち最長の周期(maximal length)を持つもの）による直接スペクトル拡散方式によるパルス圧縮を用いた。これはチャープ信号よりも非定常雑音に強いし、信号検出にはフェイズオンリを利用した。フェイズオンリー整合フィルタは、整合フィルタに信号の周波数成分のみを利用することでサイドローブを抑えピークを尖らせることができるフィルタである。この手法により、通常のパルスやチャープ信号、バーカー符号化チャープよりも鋭くＳＮ比の高いピークが得られるようになった。

これまでに端末６６によるマルチスピーカによる音像定位手法およびマルチスピーカのための相対位置の推定方法と同期手法、そしてそのためのパルス検出手法について述べた。ここでは上記の手法を具体的に多端末で制御する方法について述べる。

相対距離推定のための測距パルスの送信には、ｎ台すべての端末が最低でも１回はパルスを送信する必要がある。しかしながら、今回の実装では前述の通り搬送波として全帯域のチャープ信号を使っているため、複数の端末でパルスの同時送信をしようとすると帯域が競合して混線してしまう。

複数の無線局が、同じ帯域を共有して通信することを多元接続という。今回の実装のように１つの端末が帯域を専有する場合、時分割多元接続（ＴＤＭＡ：Time Division Multiple Access）で多元接続が可能になる。本来のＴＤＭＡ方式では各端末に帯域利用時間を割り当てるため、バースト信号とよばれる同期信号が利用される。しかしながら、実施例のシステムでは、各スピーカすなわち各端末６６は、音声通信以外にインタネットを利用した通信が可能なので、同期信号をインタネット経由で通信できる。ＴＤＭＡでは、１つの帯域という資源を多端末で共有するための分散排他制御の問題とみなせる。

そこで、実施例では図１４に示すように、多端末のインタネットＰ２Ｐ通信によるオーバレイネットワークを用いてリングネットワークを構築し、分散排他制御手法のひとつであるトークンパッシングを用いることで、トークンをバースト信号、つまり同期信号として利用することでＴＤＭＡを実現する（図１４）。Ｐ２Ｐによるオーバレイネットワーク上でのリングネットワークの構築には、分散ハッシュテーブル（ＤＨＴ：Distributed Hash Table）として有名なChordアルゴリズムを用いた。

発明者等の実験では、複数のスマートデバイスすなわち端末６６を用いて構成したマルチスピーカシステムにおいて、端末間距離測定の評価を行った．端末３台Ａ、ＢおよびＣを、１辺２ｍの正三角形に配置し、上述のアルゴリズムにより各端末間距離を１０回計測した。

その結果，最大２７ｃｍ（Ａ‐Ｃ間）、最小６ｃｍ（Ｂ‐Ｃ間）の誤差にとどまった。実験で使用した端末は、１３インチのMacBookAir（商品名）であり、それの幅は３０ｃｍ程度あるため、推定距離の誤差を考慮しても高精度に測距、同期できたと言える。この同期、測距の後、被験者１名に対して音源を３台の各端末とも同一のボリュームで再生したところ、同一の音源として聴こえ、端末の三角形の内部に音像が定位された。また、三角形の一辺が大きいと、被験者がその三角形の外側のときには、みかけ音源の幅（ＡＳＷ）が大きくなり、被験者が三角形の内側の時に音に包まれた感じを体験した。

同期のためには複数の端末６６がパルスを出し合わなければならないが、いつどの端末がパルスを出すのか、といったスケジューリングをどうするかについて、図１５、図１６を参照して説明する。

このマルチスピーカシステムは、図１５に示すように、基本的には端末間の通信を中継する中継サーバを中心としたスター型ネットワークである。また、スピーカアレイに参加しない特別なノードとして、計算用ノードと仮想音源を設定する制御用ノードがある。ただし、図１５において、中継サーバは３台の端末６６の内の１台であり、仮想音源コントローラはタブレット端末６８である。計算サーバは別のコンピュータであってもよいが、コンピュータ２８やそのタブレット端末６８がその機能を果たすこともできる。このタブレット端末６８は、前述のようにタッチディスプレイ４６を有するコンピュータ２８であってよい。

実験での実装では中継サーバが同期アルゴリズムを制御している。すべてのコマンドはリクエスト‐レスポンスで成り立っており、リクエストを受けた端末は必ずレスポンスを返さねばならない。まず、中継サーバはスピーカアレイを構成する端末に対してping コマンドを送信し、アレイに参加できる端末を確認する。

次に、全端末に対して録音をするようにbeginRec コマンドを送信する。そして、各端末の放つパルスが排他的になるように、パルスを放つ端末ごとにstartPulse、beepPulse、stopPulseコマンドを繰り返し送信する。startPulse とstopPulse コマンドは、この時間区間内にいずれかの端末からパルスが発信されることを示すもので、後にパルス位置を検出するときの計算量を減らすためのコマンドである。

beepPulse は任意の１台の端末に対して、パルスを送信するように促すコマンドである。すべての端末が互いに排他的にパルス発生し終えると、最後にstopRec という録音終了コマンドを送信する。その後、collect コマンドで各端末が録音したデータを集計し、計算用サーバへ送信する。

計算用サーバは、講演者用コンピュータ２８であってよいが、それぞれの端末間のパルスの受信時刻を上述の手法で検出し、相対信号伝達時間と相対距離計測、空間配置推定する。その後、それらの情報を中継サーバを介してコンピュータ２８へ送信する。

仮想音源を配置し制御するための端末のユーザインターフェースを図１７に示す。図１７のように推定した端末の分布図と、仮想音源を表示する。ただし、端末６８が仮想音源ＶＳとして機能する。仮想音源ＶＳをドラッグすることで、ＤＢＡＰ法によって出力する振幅を計算し、各端末へ振幅を配信することで音像定位する。また、音を鳴らしながら音源を移動させることも可能である。

なお、上述の実施例では中継サーバを別途用いる集中型として説明したが、それぞれの端末６６が互いにそのタイミングを把握する分散型のシステムであってもよい。

このように、教室のような閉鎖空間においては、複数のスマートデバイス（端末）を用いて、特定の場所に音場を設定して、生成することができる。したがって、先の実施例において、この音像定位システムを使って講演者ＳＰが聴取者ＡＵの特定のグループに対してのみ、注意、警告音声を出力することができる。

以上説明したように、上述の実施例では、聴取者ＡＵすなわち参加者の状態を、グループ毎に、各参加者の動きに基づいて推定し、推定したグループの状態をカラーマッピングする。そして、グループの状態に応じて、グループを指向する特定の場所または方向に音場を設定して生成し、音場の局在化（localization）を実行する。この音場の局在化に関しては、パラメトリックスピーカ２４の放音方向をたとえばサーボモータ２６で制御する方法と、参加者の保持する端末６６で編成したマルチスピーカシステムにおいて仮想音源を制御する方法を説明した。

このような特定の場所や方向への音場設定、音場生成（音場の局在化）、すなわち局所的な刺激付与は、必ずしも、聴取者すなわち参加者の状態推定に基づいて行う必要はなく、講演者すなわち発信者の興味の対象に従って実行するようにしてもよい。

まず、図１における講演者カメラ１８によって撮影している講演者ＳＰの顔の向き、あるいは視線の向きを周知の方法で検出する。そして、その検出した講演者ＳＰの顔の向きおよび／または視線の向きが指すグループが講演者（発信者）の興味の対象であると推定し、そのグループに向けて、先に説明したいずれかの方法に従って、局所的な音場生成を実行する。たとえば、講演者ＳＰの顔の向きおよび／または視線の向きが非集中度および活発度の高い聴取者ＡＵの領域（グループ）を見たとき、そのグループに対し注意、警告音声を出力する。

あるいは、図１で説明したように、実施例では講演者ＳＰは２つのマイク１２および１４を使っているので、講演者ＳＰがどのマイクを使うか、あるいはマイクをどのように保持しているかなど、マイク１２および／または１４の状態に応じて講演者（発信者）の興味の対象のグループを推定し、そのグループに向けて、先に説明したいずれかの方法に従って、局所的な音場生成を実行する。

図１８は講演者興味対象推定プログラム５６（図３）に従って講演者の興味の対象を推定するための処理方法の一例を示すフロー図である。なお、この図１８に示す興味対象推定処理は、一例として、フレーム周期で繰り返し実行される。

図１８を参照して、ＣＰＵ３０（図２）は、図３に示す音声データ領域６０に取り込んでいるピンマイク１２およびハンドマイク１４のそれぞれのマイク入力レベルを取込む（ステップＳ２１）。続くステップＳ２３においてＣＰＵ３０は、ピンマイク１２の入力レベルとハンドマイク１４の入力レベルとを比較して、ハンドマイク１４の入力レベルがピンマイク１２の入力レベルより大きいか判断する。これは、講演者ＳＰがどのマイクを使用しているかの判断であるので、マイクの入力感度の設定等に応じて、正規化したり重みづけして比較することが必要かもしれない。

ステップＳ２３で“ＹＥＳ”を判断したとき、すなわちハンドマイク１４の入力レベルがピンマイク１２の入力レベルより大きいときには、ＣＰＵ３０は音場の局在化をすることなく、ステップＳ２５において、ラウドスピーカ１６（図１）から、ハンドマイク１４の入力に従って、音声を出力する。

一方、ステップＳ２３で“ＮＯ”を判断したとき、つまり、ハンドマイク１４の入力レベルがピンマイク１２の入力レベルより大きくないときには、ＣＰＵ３０は、次に、講演者カメラ１８が撮影した、図３に示す映像データ領域６２に取り込んでいる講演者ＳＰの顔画像を抽出して、その顔の向き、あるいは視線の方向を検出する（ステップＳ２７）。ただし、画像から顔の向きや視線方向を検出する方法は既によく知られたところであり、ここでは詳細な説明は省略する。

そして、次のステップＳ２９において、ステップＳ２７で特定した、講演者ＳＰの顔の向きあるいは視線の方向が指しているグループを、講演者ＳＰのそのときの興味の対象であると判断して、当該グループに向けて音場の生成すなわち音場の局在化を実行する。つまり、講演者ＳＰがハンドマイク１４を下げて一定方向を見て話したとき、講演者のピンマイク１２の音声（たとえば、注意や警告の音声）をそのグループに対し音源定位して出力する。ただし、ステップＳ２９での音場を局在化したときの音声コンテンツとしては、講演者ＳＰからのピンマイク１２の入力音声だけでなく、それとともに、またはそれとは別に、図３に示すコンテンツデータ領域６４に予め設定している音声データを用いることができる。

たとえば、ピンマイク１２の入力レベルとハンドマイク１４の入力レベルに応じて、ラウドスピーカ１６での講演発話とピンマイク１２による局所的音響での発話を切り替えることも考えられる。つまり、図１８の実施例では、講演者ＳＰがハンドマイク１４の入力レベルがピンマイク１２の入力レベルのより大きいくないとき、音場を特定の場所や方向に生成したが、ハンドマイク１４の入力レベルとピンマイク１２の入力レベルの比に応じて、ラウドスピーカ１６からの音声出力および音場の局在化による音声出力の比率を変更するなどの方法も考えられる。

たとえば、ピンマイク１２の入力レベル＜ハンドマイク１４の入力レベルのときにはステップＳ２５の通り、１００％の音声をラウドスピーカ１６が出力する。つまり、ラウドスピーカ１６だけで講演音声を出力する。

これに対して、ピンマイク１２の入力レベル＝（≒）ハンドマイク１４の入力レベルのときには、ラウドスピーカ９０％とし、残りの１０％は音場の局在化によって音声出力する。さらに、ピンマイク１２の入力レベル＝ハンドマイク１４の入力レベル×０．５のときにはラウドスピーカ１６を５０％出力とし、残りの５０％は音場の局在化によって音声出力する。さらに、ピンマイク１２の入力レベル＝ハンドマイクの入力レベル×０．１のとき、ラウドスピーカを１０％の音声出力とし、残りの９０％は音場の局在化によって音声出力する。

なお、図１８のステップＳ２５やステップＳ２９を含めて、音量を安定化する必要がある（音量の頻繁な上下は聴取を阻害する可能性があるので）ため、音量は短くても０．２秒は一定化するものとする。

さらに、上述の実施例では、ピンマイク１２の入力レベルおよびハンドマイク１４の入力レベルに基づいて、講演者ＳＰのマイク使用意図（ピンマイク１２を使おうとしているのか、ハンドマイク１４を使おうとしているのか、あるいは両方を使おうとしているのか）を推定した。しかしながら、講演者カメラ１８の映像に基づいてハンドマイク１４の講演者の口からの距離を推定することによって、講演者ＳＰのマイク使用意図を推定することもできる。たとえば、ハンドマイク１４が講演者の口から３０ｃｍ以上離れたときは、講演者はハンドマイク１４を使う意図はないなどと推定することができ、それに基づいて上述のように、ラウドスピーカ１６からの音声出力および音場の局在化による音声出力の比率を変更することもできる。

図１の実施例では、たとえば大学における大教室での講義を想定した講演システム１０について説明した。しかしながら、この発明の一対多コミュニケーションシステムは、たとえば音楽のライブ会場のような場所を想定した場合にも適用できる。ただし、参加者の参加状態などの推定方法は、図１実施例の場合と多少異なる。

詳しく言うと、大学の教室を想定した一対多コミュニケーションシステムであれば、会場が明るいために聴取者カメラ２０のようなカメラ映像を画像処理することによって、参加者たる聴取者の状態を推定することができるが、ライブ会場やおよびコンサート会場は全体に薄暗く、鮮明なカメラ映像が得られにくい。

そこでライブ会場では、聴衆（参加者）がペンライトを持つことに着目し、ペンライトの動きを検出することによって、参加者の参加度を推定するとこができる。ただし、ペンライトの場合、先の実施例の場合とは異なり、動きの方向（縦か横か）で参加度を判断することはできない。コンサートなどでは横の動きも存在するため、コンテンツ集中度（参加度）は、音楽コンテンツとの動き同期度合いや、ＭＣ（Master of Ceremony：司会）中の対話的タイミング（ＭＣの合間）における動き量により、コンテンツ参加度を決定する。また、活発度はそのペンライトの動きの大きさ（１回の移動距離）に基づいて推定することができる。

たとえば、演奏中の音楽コンテンツから抽出したリズムと、ペンライトなどの明度特徴点追跡によって得られた動きを比較して、動きがリズムに対してどの程度ずれているのかを定量化し、それに基づいて参加度を推定することができる。十分な参加度を持った参加者ならリズムとのずれはさほど大きくなく、そうでない場合は、ペンライトをいい加減に動かしている可能性がある。ＭＣ中にはあまりペンライトを動かさないという前提で、ＮＣ中にペンライトを動かす参加者は集中していないということになる。

そして、参加者をグループ分けし、そのグループ毎に、このような参加度や活発度の推定に基づいて、たとえば図６に示したようなカラーマッピングを聴衆画像（図１の聴取者カメラ２０のようなカメラで撮影して、図１のディスプレイ２２のようなモニタに表示した聴衆映像）に重畳して表示する。それによって、演奏者（発信者）はライブ会場全体としてどのような状態にあるかを一目で把握することができる。

その状態推定に基づいて、既に説明したパラメトリックスピーカ２４などによる音場の局在化（音像定位）の手法を利用して、次のような、ＶＡ（Virtual Agent）によるコンサートを実現できる。ただし、ＶＡを映出するために必要な映像コンテンツは、図３に示すコンテンツデータ領域６４に予め設定しておくこともできる。

パターンＡ：演奏者（ＶＡ）を提示する位置を、内容集中度（参加度）と活発度の高いグループの場所に移動させるとともに、演奏する音場をそのグループの場所に生成する。ただし、ＶＡを特定の場所に映出するためには、たとえば、１枚の透明なスクリーンに、２０台以上のプロジェクタを用いて特殊加工を施したＣＧを投影し、重なり合った映像により立体映像を見せる方法や、いわゆる３Ｄホログラムを用いる方法などが考えられる。

パターンＢ：活発度が低く演奏集中度（参加度）の高いグループの場所にバックミュージック演奏音の音場を分散して生成する。

パターンＣ：ウェーブなどの伝搬的傾向に応じて効果音演奏の音場を拡張したり、音量を拡大する。

パターンＤ：聴衆の参加傾向を表す音響、たとえば効果音を各グループの場所に生成する。

ただし、複数の音場を生成し複数の音楽が流れることで、相乗的な効果を生じるのは基本的にはコンサートシーンであり、教室などでは同時に多くの音声が出力されると混乱を生むこともあるので、音楽的な音、たとえばＢＧＭで混乱を防ぐ手法も導入した方がよいかもしれない。

なお、ここで説明したＶＡコンサートにおいてＶＡを特定の場所へ移動させる手法は、先に述べたアシスタントティーチャ（ＴＡ）にも取り入れることができる。つまり、先に述べた方法では音像だけが対象のグループに移動したが、音像とともにＶＡ映像を移動させることによって、よりリアリティのあるＴＡを実現できる。

さらに、図１の実施例での説明では、聴取者映像において各聴取者の顔画像を検出し、顔検出による距離推定（またはＦＯＶ（視野）と実測）により、顔画像が一定数たとえば８人分入るグループに分けて、グループ毎のオプティカルフローを取得し、たとえば５秒のような一定時間内の累積移動量とフレーム移動量度数をグループないで集計し、予め学習した縦方向または縦方向への移動量に基づく集中レベルに基づき認識した。この集中度ないしは参加度の数値化においては、パターン認識での識別時の事後確率に基づくものとする。そして、動き量度数集計で最も動き量が多いのを活性度１００として活性度（活発度）を算出した。

これに対して、オプティカルフローを画像としてグループ毎に分割する方法も考えられる。

すなわち、全体に対しかけたオプティカルフロー結果を極小領域（１人分程度）毎に積算し、その極小領域を１ピクセルとした動き量画像を生成する。この時のパラメータは、縦横の動き量積算、動き量変化積算、連続静止フレーム数、，動き量度数分布などである。そして、隣接領域とのグループ化のため、各パラメータで膨張、縮小によるグレースケール画像分析を実行し、パラメータ間の共通傾向を算出するため、平均画像を計算し、平均画像に対するグループ（エリア）抽出を同様の手法で行い、グループ化する方法である。この場合も、参加者全体の状態がグループ毎に表示されるので、講演者や演奏者すなわち参加者による全体の状態把握が容易である。

なお、図４のステップＳ１３およびＳ１５でのパラメータに加速度を加味することができる。加速度は速度の差分なので、速度だと２フレームあれば移動量（単位時間あたり）が出るのに対して、加速度だと３フレームあれば速度データの差分で取り出すことができる。したがって、５フレーム内では４個分の速度データと３個分の加速度データも出る。この加速度の最大値または最小値をパラメータとして採用する。

加速度を考慮することで、きびきびした動きかどうか判定することができる。つまり、加速度が大きいということはフレーム間での動きの差が大きいということであり、短時間に大きく動いたことを意味し、加速度が小さいということは逆に動きが小さいことを意味する。

さらに、分析フレーム数を増やし、たとえば３０フレームなどとした場合、その間の加速度、速度などのヒストグラムを取得することで、図４のような単なる総和より詳しいデータが作成できる。

さらに、上述の実施例では、たとえば聴取者の参加状態および講演者の興味の対象に従って、特定の場所や方向に音場を設定して生成することによって、参加者やそのグループに刺激を与えるようにした。しかしながら、このような刺激は、音場生成に限らず、振動や映像による刺激、さらにはマルチモーダルな刺激であってよい。振動の場合には、図７に示した各聴取者の端末６６のバイブレーション機能を使うことが考えられる。映像であれば、先に説明したＶＡコンサートの手法が利用可能である。つまり、音場生成の実施例も含めて、刺激付与手段ということができる。

たとえば特開２０１０‐１８６３７３号などに、笑顔度を数値化する技術が知られている。このような笑顔度を採り入れることによって、聴取者（参加者）の集中、非集中を判定することができる。たとえば、大学講義のような場合には、グループの笑顔度が大きい場合、雑談などで笑顔になっていることが考えられ、そのグループは集中度が小さいと判断できる。笑顔度が小さいと逆に集中度が大きいと判断できる。しかしながら、たとえばお笑いの演芸会のような場合、笑顔度が大きいと参加度が高いということにもなる。したがって、笑顔度によって図５の参加度を変更する場合、その一対多コミュニケーションの種類に応じて、加減する必要があるかもしれない。

上述の実施例で挙げた具体的な数値等は一例であり、特に限定を意味するものではない。

１０ …講演システム
１２ …ピンマイク
１４ …ハンドマイク
１６ …ラウドスピーカ
１８ …講演者カメラ
２０ …聴取者カメラ
２２ …ディスプレイ
２４ …パラメトリックスピーカ
２６ …サーボモータ
２８ …コンピュータ
３０ …ＣＰＵ

Claims

発信者と、その発信者からの発信を受ける参加者を含む会場における一対多コミュニケーションシステムであって、
前記参加者のグループ毎の参加状態を推定する状態推定手段、および
前記参加者の映像に前記グループの参加状態に応じた色情報を重畳して表示するカラーマッピング手段を備える、一対多コミュニケーションシステム。
特定の参加状態のグループに対して局所的に刺激を付与する刺激付与手段をさらに備える、請求項１記載の一対多コミュニケーションシステム。
前記刺激付与手段は局所的に音場を生成する音場生成手段を含む、請求項２記載の一対多コミュニケーションシステム。
前記音場生成手段は、音声コンテンツを変化することによって音響的効果を遷移させる、請求項３記載の一対多コミュニケーションシステム。
発信者の興味の対象を推定する推定手段をさらに備え、
前記刺激付与手段は前記推定手段が推定した前記発信者の興味の対象に向けられる、請求項２ないし４のいずれかに記載の一対多コミュニケーションシステム。
発信者と、その発信者からの発信を受ける参加者を含む会場における一対多コミュニケーションシステムにおけるコンピュータが実行するプログラムであって、前記コンピュータを
前記参加者のグループ毎の参加状態を推定する状態推定手段、および
前記参加者の映像に前記グループの参加状態に応じた色情報を重畳して表示するカラーマッピング手段
として機能させる、一対多コミュニケーションシステム用プログラム。