JP2018036690A - 一対多コミュニケーションシステムおよびプログラム - Google Patents

一対多コミュニケーションシステムおよびプログラム Download PDF

Info

Publication number
JP2018036690A
JP2018036690A JP2016166571A JP2016166571A JP2018036690A JP 2018036690 A JP2018036690 A JP 2018036690A JP 2016166571 A JP2016166571 A JP 2016166571A JP 2016166571 A JP2016166571 A JP 2016166571A JP 2018036690 A JP2018036690 A JP 2018036690A
Authority
JP
Japan
Prior art keywords
sound
group
speaker
participation
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016166571A
Other languages
English (en)
Inventor
米澤 朋子
Tomoko Yonezawa
朋子 米澤
佑樹 北岸
Yuki Kitagishi
佑樹 北岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2016166571A priority Critical patent/JP2018036690A/ja
Publication of JP2018036690A publication Critical patent/JP2018036690A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

【構成】 講演システムでは、聴取者を撮影した入力映像において、参加者のグループ毎に、連続した5フレームのオプティカルフローを計算し、それに基づいて、活発度および参加度ないし集中度を出力する。各グループの参加度(活発度、参加度ないし集中度)に応じて、カラーマッピングし、そのカラーマッピングに応じて、特定の参加状態のグループに局所的に音場を設定して、音声コンテンツを出力する。【効果】 参加者のグループ毎の状態をカラーマッピング表示することによって、参加者の全体的な参加状態を容易に把握することができる。【選択図】 図6

Description

この発明は、一対多コミュニケーションシステムおよびプログラムに関し、特にたとえば、大学の講義室でのように講演者の講演を多数の聴取者が聴取したり、ライブ会場でのように歌手やグループの歌唱や演奏を多数の聴衆が聴取するような、一対多コミュニケーションシステムおよびプログラムに関する。
背景技術の一例が特許文献1に開示される。この特許文献1では、教室に入室してきた聴講者の動体オブジェクトの特徴点を追跡し、監視領域内に特徴点が存在する間の監視領域の画像を解析することによって、各聴講者の受講状態情報に基づいて、好ましくない受講状態の聴講者に対して注意喚起を行う。
特開2013-29954号公報[G06Q 50/20, G06B 19/00, G06F 13/00]
上記の特許文献1では個々の受講者の受講状態だけを見るようにしているため、受講者全体の様子、特に教室全体でどのような受講状態にあるかを容易に把握することができない。
それゆえに、この発明の主たる目的は、新規な、一対多コミュニケーションシステムおよびプログラムを提供することである。
この発明の他の目的は、多数の参加者の全体的な参加状態を把握でき、それに応じた処置が可能な、一対多コミュニケーションシステムおよびプログラムを提供することである。
第1の発明は、発信者と、その発信者からの発信を受ける参加者を含む会場における一対多コミュニケーションシステムであって、参加者のグループ毎の参加状態を推定する状態推定手段、および参加者の映像にグループの参加状態に応じてた色情報を重畳して表示するカラーマッピング手段を備える、一対多コミュニケーションシステムである。
第1の発明では、一対多コミュニケーションシステム(10:実施例において相当する部分を示す参照符号。以下、同じ。)では、会場に、たとえば講演者(SP)のような発信者とその講演者の講演を聴取しようとする聴取者(AU)のような参加者が存在する。たとえば、そのような聴取者を撮影する聴取者カメラ(20)が設けられ、状態推定手段(30、50)は、たとえばその映像に基づいて、聴取者の状態を推定する。たとえば、参加者のグループ毎に、連続する数フレームのオプティカルフローを計算し、そのオプティカルフローから複数のパラメータを取得し、それを学習器にかけてそのグループの参加状態を推定する。そして、カラーマッピング手段(30、22)は、参加者の映像にグループの参加状態に応じた色情報を重畳して表示する。
第1の発明によれば、カラーマッピングされた参加者映像を見ることによって、参加者の全体的な状態を容易に把握することができる。
第2の発明は、第1の発明に従属し、特定の参加状態のグループに対して局所的に刺激を付与する刺激付与手段をさらに備える、一対多コミュニケーションシステムである。
第2の発明では、刺激付与手段(30、52、54)は、特定の参加状態、たとえば参加状態があまりよくないグループに対して、刺激を与える。その刺激としては、音声、振動や映像による刺激、さらにはマルチモーダルな刺激が考えられる。
第2の発明によれば、特定の参加状態のグループに刺激を与えることができるので、その刺激によってグループの参加状態を改善することが期待できる。
第3の発明は、第2の発明に従属し、刺激付与手段は局所的に音場を生成する音場生成手段を含む、一対多コミュニケーションシステムである。
第3の発明では、音場生成手段(30、52、54、64)は、たとえばパラメトリックスピーカ(24)を用いて、あるいはたとえばスマートデバイス(端末)(66)を用いるマルチスピーカシステムを用いて、特定の参加状態のグループに対して、音場を生成することによって、音声による刺激を与える。
第3の発明によれば、局在化した音場によって刺激を与えるので、刺激を与える必要のない他の参加者に影響しないか影響が小さくてすむ。
第4の発明は、第3の発明に従属し、音場生成手段は、音声コンテンツを変化することによって音響的効果を遷移させる、一対多コミュニケーションシステムである。
第4の発明では、局所的に生成される音場の音声コンテンツを変えて音響的効果を遷移させることによって、そのグループを参加状態が改善するように、誘導する。たとえば、活発度は高いが集中度(参加度)が低いグループに対しては、BGMとして、まず活発度を低下させるために、たとえば環境音を出力して活発度を一旦下げた後に、今度は講演に関心を持たせるよう、つまり、集中度(参加度)を改善するためにたとえば長調のクラシック音楽や集中力を高めるヒーリング音楽を聞かせ、今度は集中状態での活発度を高めるため、たとえばロック音楽を出力する。
第4の発明によれば、局所的な音場生成において、たとえば音楽のような音声コンテンツを変化させて参加状態が改善するよう、グループを誘導することができる。
第5の発明は、第2ないし第4の発明のいずれかに従属し、発信者の興味の対象を推定する推定手段をさらに備え、刺激付与手段は推定手段が推定した発信者の興味の対象に向けられる、一対多コミュニケーションシステムである。
第5の発明では、推定手段(30、56)は、たとえば講演者カメラ(18)からの講演者映像やピンマイク(12)およびハンドマイク(14)からの音声のボリュームなどに基づいて、講演者(SP)の顔や視線方向さらにはマイクの保持状態を検出し、講演者すなわち発信者の興味のある聴取者グループや方向を推定する。そして、刺激付与手段は、その発信者の興味の対象に従って、たとえばそのグループに刺激を付与する。
第5の発明によれば、発信者の興味の対象を推定し、その対象に音声、振動、映像、による刺激、さらにはマルチモーダルな刺激を与えることができる。
第6の発明は、発信者と、その発信者からの発信を受ける参加者を含む会場における一対多コミュニケーションシステムにおけるコンピュータが実行するプログラムであって、コンピュータを、参加者のグループ毎の参加状態を推定する状態推定手段、および参加者の映像にグループの参加状態に応じた色情報を重畳して表示するカラーマッピング手段として機能させる、一対多コミュニケーションシステム用プログラムである。
第6の発明によれば、第1の発明と同様の効果が期待できる。
この発明によれば、参加者のグループ毎の状態を観察することによって、参加者の全体的な参加状態を容易に把握することができる。
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
図1はこの発明の一対多コミュニケーションシステムの一実施例である講演システムの一例を概略的に示す図解図である。 図2は図1実施例の講演システムの電気的構成の一例を示すブロック図である。 図3は図2に示すメモリのメモリマップの一例を示す図解図である。 図4は聴取者の状態推定処理の一例を示すフロー図である。 図5は聴取者の状態パラメータの一例を示す図解図である。 図6は聴取者のグループの状態に応じてカラーマッピング表示を重畳した表示の一例を示す図解図である。 図7は特定の場所または方向に音場を設定して生成することができる、聴取者の保有するスマートデバイス(端末)を用いてマルチスピーカシステムを構築することを示す図解図である。 図8は振幅パンニングの一例を示す図解図である。 図9は2地点間同期通信における時間計算を示す図解図である。 図10は推定した相対位置と実際の相対位置のずれを示す図解図である。 図11は同期信号の送受信モデルと整合フィルタの一例を示すブロック図である。 図12はチャープ信号の一例を示す波形図である。 図13はバーカー符号系列の一例を示す波形図である。 図14はネットワーク上でのトークンバッシングの一例を示す図解図である。 図15はマルチスピーカシステム全体のネットワーク構成の一例を示す図解図である。 図16はマルチスピーカシステムの動作シーケンスの一例を示す図解図である。 図17は仮想音源制御端末での音場設定の一例を示す図解図である。 図18は図1実施例において講演者の興味の対象に応じて音場を設定して生成する興味対象推定処理の一例を示すフロー図である。
この発明は、次に図1等を参照して説明する、大学の教室での一対多コミュニケーションのほか、歌手(グループを含む)、お笑いその他のエンターテインメントのライブ会場での一対多コミュニケーションなどにも適用可能であることを予め指摘しておく。この場合、大学での講演者やライブ会場での演奏者または演者はまとめて、「発信者」と呼び、聴講者または聴取者あるいは聴衆はまとめて、その発信者からの発信を受ける「参加者」と呼ぶことがある。
図1を参照して、この発明の一対多コミュニケーションシステムの一実施例である講演システム10では、たとえば大学の教室のような会場に並べられた机に従って、多数の学生のような聴取者AUが着席し、他方、教壇の、先生のような講演者SPが、ピンマイク12および/またはハンドマイク14を使って講義をする。講演者SPの話す言葉は、後述のように、教室全体に行き渡る音量のラウドスピーカ16から音声として出力され、それによって各聴取者AUが講演者SPの講演を聴取することができる。
この実施例では、さらに、講演者SPの映像を撮影する講演者カメラ18および聴取者AUの全体映像を撮影する聴取者カメラ20を教室内の、講演の邪魔にならず、所期の目的を達成できる適宜の場所に、1台もしくは2台以上設置する。
講演者SPに、聴取者AUの全体状態を認識または把握させるために、映像モニタであるディスプレイ22が、講演者SPの斜め前のように、講演の邪魔にならず、講演者SPが確実に見える場所に設置する。
さらに、この実施例では、後述するような講演者SPの意思や聴取者の聴取状態に応じて必要な場所に音源(音場)を生成する(音像を定位する)ためのパラメトリックスピーカ24を設置する。パラメトリックスピーカ24は、よく知られているように、一般的な超音波トランスデューサを平面に複数個並べ、パラメトリックアレイを構成することによって、非常に鋭い指向性を持たせた音響システムであり、超指向性により照射された媒体から音が聞こえてくるという特性を持つ。このようなパラメトリックスピーカ24の指向性は、平面の正面に形成されるので、パラメトリックスピーカ24を用いて所要の場所に音場を生成するために、実施例では、パラメトリックスピーカ24を、カメラの雲台のように俯仰および旋回可能な載置台(図示せず)上に載せ、その載置台を少なくとも2つのサーボモータ26(図2)で少なくとも俯仰方向および旋回方向の2軸の方向に変位制御する。
図1では図示しないが、この実施例の講演システム10では、図2に示すようなコンピュータ28が用いられる。コンピュータ28は、図2に示すように、CPU30を含み、CPU30はバス32を介して、メモリ34にアクセスできる。
CPU30は、さらに、音声インタフェース(I/F)36を介して、ピンマイク12およびハンドマイク14からの、講演者SP(図1)の音声をたとえばA/D変換することによって、音声データとして取り込み、メモリ34に記憶する。このマイク12および14からの音声データは、CPU30の指示に応じて、音声I/F36によってたとえばD/A変換されて、ラウドスピーカ16から出力される。つまり、ピンマイク12およびハンドマイク14からの、音声データは、一旦メモリ34に記憶された後、ラウドスピーカ16から出力される。
講演者カメラ18および受講者カメラ20からのそれぞれの映像信号は、カメラインタフェース(I/F)38を介して、たとえばA/D変換されて、映像データとしてCPU30によって取り込まれ、この映像データは、メモリ34に一旦記憶される。
上述のパラメトリックスピーカ22およびそれのためのサーボモータ26を制御するために、パラメトリックスピーカインタフェース(I/F)40が設けられる。このパラメトリックスピーカI/F40は、CPU30がメモリ34から読み出した音声コンテンツデータを、音声データとしてパラメトリックスピーカ24に与える。それとともに、CPU30が指示した俯仰角および旋回角に応じてサーボモータ26を制御し、パラメトリックスピーカ20の指向性(放音方向)をCPU30が指示した方向に向ける。
CPU30は、ディスプレイインタフェース(I/F)42を介して、ディスプレイ22に、映像データを与える。この映像データとしては、聴取者カメラ20が撮影した聴取者AUの映像や、その聴取者映像の上に重畳して表示される、聴講状態に応じたカラーマッピング画像(後述)などがある。
なお、コンピュータ28は、通信モジュール44を有し、通信モジュール44は、CPU30がたとえばインタネットのようなネット接続を実行するときに利用される。
コンピュータ28はさらに、タッチディスプレイ46を含み、このタッチディスプレイ46は、タッチディスプレイインタフェース(I/F)48を通して、バス32に接続される。このタッチディスプレイ46には、ディスプレイ22と同様に聴取者AUの全体映像が表示され、ユーザたとえば講演者SPは、その映像を見ながらタッチパネルにタッチして、後述の音場設定(音像定位)すべき場所や方向を手動で設定することができる。
メモリ34には、図3に示すように、プログラム記憶領域34aおよびデータ記憶領域34bを含み、プログラム記憶領域34aには、OS等の基本的プログラムの他、この実施例に特有の、聴取者状態推定プログラム50、音場設定プログラム52、音場生成プログラム54および講演者興味対象推定プログラム56等を含む。
聴取者状態推定プログラム50は、聴取者カメラ20からの聴取者映像を主として利用して、聴取者の聴取状態を推定する。この実施例では、聴取状態は、聴取者が講演に集中して前方を見たりメモを取ったりする動きにおける縦方向の動き特徴や、非集中時の雑談等の横方向の動き特徴に着目して、それらの動き特徴から聴講者の局所的なもしくは全体の傾向としての講演に対する集中度ないし参加度を推定するためのプログラムである。
音場設定プログラム52は、聴取者状態推定プログラム50に従って推定した聴取者状態および/または後述の講演者興味対象推定プログラム56に従って推定した講演者の興味の対象に基づいて、音場を生成するための場所や方向を決定するためのプログラムである。
音場生成プログラム54は、音場設定プログラム52に従って設定した音場において実際に音場を生成するためのプログラムである。この音場生成のためには、講演者のマイクから入力した音声だけでなく、後述のコンテンツデータ領域64に予め準備してある音声コンテンツを利用することもある。
講演者興味対象推定プログラム56は、講演者カメラ18からの講演者映像やピンマイク12およびハンドマイク14からの音声のボリューム(入力レベル)などに基づいて、講演者(図1)の顔や視線方向さらにはマイクの保持状態を検出し、講演者SPの興味のある聴取者グループや方向を推定するためのプログラムである。
データ記憶領域34bには、オプティカルフローデータを一時的に記憶しておくためのオプティカルフローデータ領域58、マイク12および14からの音声データを記憶するための音声データ領域60、カメラ18および20からの映像データを記憶するための映像データ領域62、CPU30の指示に従って出力するべき音声コンテンツおよび映像コンテンツを予め設定しているコンテンツデータ領域64等を含む。
図4は、聴取者状態推定プログラム50に従って聴取者の状態を推定するための処理方法の一例を示すフロー図である。なお、この図4に示す状態推定処理は、一例として、フレーム周期で繰り返し実行される。
CPU30は、まず、ステップS1において、多人数の聴取者AUが映っている、聴取者カメラ20からの映像データに対して顔検出を行う。顔検出は、たとえば一定以上の広がりを持つ肌色領域を顔として検出するなどの公知の方法で検出される得る。このステップS1では、また、CPU30は、顔領域の面積を正規化する。たとえば、聴講者カメラ20からの距離が近い聴講者の顔領域の面積は、遠い聴講者の顔領域の面積に対して、相対的に大きくなる。したがって、聴講者カメラ20からの距離に応じて、各聴講者の顔領域の面積を正規化する。
このようにして検出された顔座標(顔領域の重心の座標)や面積に応じて、一定の人数、たとえばおよそ8人の聴取者が入る枠を自動生成し、その枠(グループ)毎に以下のステップS3‐S17を実行して聴取者の参加度を推定する。ただし、1つの枠内においても、枠内の顔面積に応じて画像サイズの正規化を行った上で、ステップS3において、各聴取者の顔の動きの角度を計測する。
詳しく言えば、ステップS5において、5フレーム期間において、各顔画像のオプティカルフローを計算する。具体的には、1フレーム目ではハリスのコーナー特徴点を抽出(Corner detection using Harris Operator)し、2‐5フレーム目では新規特徴点の取得を行わず、1フレーム目の特徴点の追跡をオプティカルフロー計算により行う。この間、ステップS7におけるように、動きが途切れたものや5フレーム経過後の長すぎたり短すぎる動きはエラーとして削除する。
次のステップS9において、残った特徴点の始点と終点の座標を基に動き特徴を作成する。そして、それぞれの座標から動きの角度を計算する。この角度が45°‐135°および225°‐315°の動きを縦方向、それ以外の動きを横方向の動きとして分類する。
つまり、ステップS11において、動き角度が、45°‐135°または225°‐315°の範囲内かどうか判断する。“YES”の場合、対象の顔領域の動きは縦方向であると判断する。“NO”の場合、対象の顔領域の動きは横方向であると判断する。
その後、ステップS13またはS15において、各動き方向毎にパラメータを積算する。つまり、動きの数、動きの距離合計、動きが多かったフレーム数を累積し、これらを枠内人数に応じて正規化する。そして、正規化したそれらの数値から動きの数の割合と、1回の動き当たりの距離を算出する。これら縦方向および横方向合計10次元の特徴(パラメータ)をその後、ステップS17においてSVM(Support Vector machine)のような学習データが設定されている学習器ないし分類器に入れる。
学習器では、動き量に応じて活発度を出力し、集中の有無に応じて集中度ないし参加度を出力する。
上記のような学習器の結果、次のことがわかった。横方向の動きの数が多いとき聴取者どうしの雑談の傾向が強く、縦方向の動きの数が多いときは聴取者は板書をしている傾向が強い。横方向(または縦方向)の動きの合計距離が大きいときは雑談の傾向が強く、動きの合計距離が小さいときは板書の傾向が強い。横方向の動きが多かったフレーム数が多いときは雑談やよそ見の傾向が強く、縦方向の動きが多かったフレーム数が多いときは板書の傾向が強い。
このような結果において、雑談の傾向が強いということは参加度は小さく、板書の傾向が強いということは参加度が大きいと考えることができる。横方向(または縦方向)の動き1つ当たりの距離が大きいときは、雑談やよそ見もしくは板書の傾向において、それぞれ動きの大きい移動があるといえる。動きが大きいということは活発度が大きく、小さいということは活発度が小さいと考えることができる。
なお、学習器によらず、上記の連続した5フレームのオプティカルフローから、動き量を求め、その動き量に応じた活発度を出力することもできる。ただし、動き量は、オプティカルフローの絶対値を総計して求めることができ、それを上述の聴講者カメラ20からの距離に応じて正規化する。そして、その動き量が大きい場合、活発度を出力する。
以上のように、この実施例での聴取者状態推定方法では、聴取者カメラ20が撮影した聴取者映像において、枠内人数を同じ(またはほぼ同じ)になるように複数の領域(枠)に分割し、各聴取者の顔検出による距離推定の上、正規化し、枠内のオプティカルフローを取得する。そして、たとえば5秒間の累積移動量とフレーム移動量度数の枠内集計を行い、予め学習した縦方向、横方向への移動量に基づく集中レベルに基づき参加度(または集中度)を認識し、動き量度数集計で最も動き量が多いのを活性度100として活性度の算出するようにした。
上述のようにして推定した聴取者AUの状態を講演者SPが直観的に把握するためには、色情報による聴取者の参加状態(参加度または集中度および活発度または活性度で表現される)の表現が有効だと考えた。この色情報での表現の前提として、ここでは、ラッセルの円環図(Circumplex Model of Russell)における快‐不快軸を参加度(集中度)、活性‐不活性軸を活発度として検討した。
ここでは、参加度のパラメータを聴取者の講演への取り組み姿勢として定義した。参加度が高ければ講演を聴講し理解に努め記録するなど講演への興味が高い状態を指し、低ければ他所見をしていたり他者との雑談に興じてしまうといったような講演内容に関係のないことへ興味が向いている状態を指す。また、活発度として聴取者の参加姿勢の活発さを定義した。活発度が高ければ活発な動きを見せていて、低ければあまり動きが見られないということになる。
つまり、参加度と活発度の双方が高いとメモを取りながら聴講し講演に積極的に参加している第1の状態であり、参加度が高く活発度が低いと講演を静かに聴講するのみという第2の状態、参加度が低く活発度が高いと雑談や他所事に夢中になっている第3の状態、参加度と活発度の双方が低いとぼんやりと他のことをしているというような第4の状態がそれぞれ当てはまる。図5に、参加度を横軸、活発度を縦軸として表し、ラッセルの円環図のように聴取者の参加状態(活発度および参加度または集中度を含む)を表せると考えた。
そして、この参加度および活発度のパラメータによって聴取者の状態を表す上で、それらの参加状態を講演者が直観的に理解できるように視覚化するために、聴取者の状況を表す動画像上に各領域に対応したカラーマッピングを重畳表示し、講演者に提示する。
発明者等の実験では、図5に示すラッセルの円環図において、参加度が大きくなるに従って緑色の純色に近づき、参加度が小さくなるに従って赤色の純色に近づき、それらの緑色と赤色との中間は黄色および青色とし、活発度が大きくなるに従って明度が大きくなり、活発度が小さくなるに従って明度が小さくなるように、グラデーションを用いることを考えた。
まず、参加度の横軸に対して、参加度の最も低い状態に赤色を、そして最も高い状態に緑色を当てはめて、グラデーションによる色相推移を適用する。これは、赤の注意喚起や注目性といった心理的イメージや緑の理性的という心理イメージに基づいたものである。次に、活発度の縦軸に対して活発度が低くなるほど明度および彩度が比例して低下する色相推移を当てはめる。これは、低明度の陰気な重いという心理イメージや低彩度の落ち着いた、大人しいという心理イメージに基づいたものである。
この考えに従って、一例として、上記の第1の状態は緑色、第2の状態は青色、第3の状態は黄色、第4の状態を赤色とした。このような定義に従って表示したカラーマッピングの一例が図6に示される。発明者等の実験によれば、赤色は「注意すべき対象」、「騒いでいるというイメージ」であり、緑色は「真面目そうなイメージ」、黄色は「赤と緑のどちらに転んでもおかしくない注意すべきイメージ」、青色は「落ち着いている」、「眠っているようなイメージ」という評価があった。
なお、図6では表現しきれていないが、これら色つきの台形ラベルは、実際には半透明であって、聴取者カメラ20が撮影した聴取者AUの映像の上に重畳して表示される。このような聴取者映像が、図1に示すディスプレイ22に表示されるので、講演者SPはそのようなカラーマッピング映像を見ることによって、教室全体の状態を直感的に把握することができる。
図6のカラーマッピング映像において、特に赤色ラベルを付されたグループは騒いでいて注意すべき対象であると考えられる。したがって、ディスプレイ22に表示されるカラーマッピング映像を見た講演者SPは、そのグループに対して、何らかの注意を与えたいと考えるかもしれない。その場合、講演の音声を出力しているラウドスピーカ16から、そのグループを注意するための音声を出力する訳にはいかない。なぜなら、ラウドスピーカ16は教室のような空間全体に音声を出力するので、講演が中断されるだけではなく、騒いだりしていないグループの聴取者に対しては迷惑である。
そこで、この実施例では、図1に示すパラメトリックスピーカ24の超指向性を利用して、該当するグループにのみ向けて、注意や警告の音声を出力する(局所的に刺激を与える)。
具体的には、図3に示す音場設定プログラム52に従って、パラメトリックスピーカ24からの音の出力方向、この場合は注意すべきグループの方向を音場として設定する。パラメトリックスピーカ24の出力方向を設定する方法は任意でよいが一例として次のような方法が考えられる。
先の図4のステップS1で、聴取者カメラ20からの映像データに基づいて特定した各聴取者AUの顔領域を特定しているので、それを用いる。詳しくいうと、当該グループを形成するたとえば8人の聴取者の各顔領域の中心(重心)の座標位置に基づいて、グループの中心(重心)の位置座標を計算する。そして、CPU30は、パラメトリックスピーカ24の座標位置(既知)とそのグループの座標位置に基づいて、パラメトリックスピーカ24の音の放出方向すなわちパラメトリックスピーカ24の前面の俯仰角および旋回角を計算する。CPU30は、パラメトリックスピーカI/F40を通してサーボモータ26を駆動し、パラメトリックスピーカ24がそのその俯仰角および旋回角になるように制御する。
他方、図3に示すコンテンツデータ領域64に、注意や警告(刺激)の音声のための音声データを予め設定しておき、それをCPU30が読み出してパラメトリックスピーカI/F40を通してパラメトリックスピーカ24に与える。
したがって、パラメトリックスピーカ24から、前記のグループだけに向けて、注意や警告の音声を出力する。つまり、グループの場所に音場を生成して刺激する。
なお、図1の実施例ではパラメトリックスピーカ24は1台だけ設けているが、必要に応じて2台以上のパラメトリックスピーカを用いることももちろん可能である。この場合、1つまたは2以上のグループをターゲットとして、パラメトリックスピーカ毎に上述の俯仰角および旋回角を個別に計算して、サーボモータを制御するようにすればよい。
この実施例の利用パターンAとして、聴取者のグループ毎の参加度や活発度に応じてパラメトリックスピーカ24の放音方向を制御して、特定の場所(方向)に、注意や警告の音声で音場を生成した。このような特定の場所での音場生成は次のような別の利用方法もある。
利用パターンBでは、複数のパラメトリックスピーカ24を用いる。複数のパラメトリックスピーカの内の1つまた2つ以上のパラメトリックスピーカを用いて、参加度(集中度)の高いグループ以外は落ち着かせる効果が期待できるBGMや講演者の講演対する集中のきっかけになるキーワードを強調した音声を聞かせる。一方で、活発度が低いが集中しているグループには、別の1または2以上のパラメトリックスピーカを用いて、活発度を向上させるリズミカルなBGMと組み合わせた音声を提供する。ただし、これらの音声やBGMもまた、図3のコンテンツデータ領域64に予め設定しておくことができ、CPU30はそれらを読み出して、別々のパラメトリックスピーカまたはパラメトリックスピーカ群に与える。
パターンBにおいて、活発度は高い(活発度がプラス)が集中度(参加度)が低い(集中度ないし参加度がマイナス)グループに対しては、具体的には、BGMとして、まず活発度を低下させるために、つまり、図5における第2象限から第3象限(左上から左下)へ移行させるために、環境音、たとえば鳥のさえずり、波の音、川のせせらぎ、鈴虫の鳴く音等を、ターゲットのグループに向けてパラメトリックスピーカで出力する。ただし、このときの環境音には1/fゆらぎが含まれているものを使用する。1/fゆらぎとは、自然界に多く見られる周期性の微妙な変動のことであり、環境音や多くのクラシック音楽には1/fゆらぎ周波数が多量に含まれている。人は一定不変や完璧なリズムにはなじめず、むしろ小さな変動やわずかなリズム間隔のずれが心地よいと感じるが、そのリズムのずれを感じさせる要因が1/fゆらぎである。それを踏まえた上で環境音を選定する。
このようにして、ターゲットグループ内の聴取者の活発度を一旦下げた後に、今度は講演に関心を持たせるよう、つまり、図5における第3象限から第4象限(左下から右下)へ移行させるために、長調のクラシック音楽(演奏、歌唱)や集中力を高めるヒーリング音楽を聞かせる。1/fゆらぎを含むことでリラックスさせるだけでなく、何らかの作業中または施術中に聞くことがある音楽を用いることで、聴取者の関心を近辺にある集中すべきコンテンツに向ける。
最後に、ターゲットグループ内の聴取者の集中状態を導入した後に、今度は集中状態での活発度を高めるため、つまり、図5における第4象限から第1象限(右下から右上)へ移行させるために、アドレナリンの分泌を誘発できる、たとえばロック音楽をターゲットグループに向けてパラメトリックスピーカで出力する。ロック音楽は、慣れを防止するために、1曲ずつ大きめの音でランダムに流し、その後徐々に音量を下げ小さめの音量で流し続けることによって、聴取者の講演に対する集中度を高揚させることができる。
このようにして、局所的な音場生成において、たとえば音楽のように音声コンテンツを変化させて聴取者すなわち参加者の参加度(活発度や参加度で表わされる)を高揚するように誘導することができる。ただし、この参加度の誘導のための音響効果の遷移においては、環境音からクラシック音楽、クラシック音楽からロック音楽に突然切り替えるのではなく、クロスフェードさせて流す。ロック音楽は、慣れを防止するために、1曲ずつ大きめの音でランダムに流し、その後徐々に音量を下げ小さめの音量で流し続けることによって、聴取者の活発度を高揚させることができる。
さらに、このような参加状態の誘導のための音響的効果の遷移は、一定時間ごとに自動的に行うものとするが、カラーマッピング映像の変化に応じて自動的にまたは手段同的に遷移させるようにしてもよい。
さらに、このようなもしくは後述の音場生成(音像定位)の方法を利用して、TAを教室内に設定することができる。ただし、TAとは、ティーチングアシスタント(Teaching Assistant)のことであり、大学などにおいて、担当教員の指示のもと、たとえば大学院生が授業の補助や運用支援を行う制度のことである。
上述のように音場を局在化できるので、たとえばディスプレイ22に表示されている聴取者映像を見て、手を上げたり疑問を生じていそうなエリア(グループ)に音像を定位させることによって、すなわち特定の場所や方向に音場を生成することよって、音響的TAエージェントを生成して教室内を移動させ、そこで、たとえば「何か質問がありますか?」などの音声を出力することができる。このようなTAのために必要な音声の音声データはコンテンツデータ領域64(図3)に予め設定しておくことがきるので、必要に応じてCPU30がそれを選択して読み出せばよい。
また、講演者が一対一でやり取りを求めるときは、対象のグループの中の1人の場所まで音響的TAエージェントを移動させるように制御をして、発話させることもできる。
集中度(参加度)が低く活発度も低い特定グループへ音響的TAを移動させるべくたとえば足音のような音声を当該グループの方向に向けて出力した後、講演者への呼びかけ音声を、そのグループの場所を音源定位にして発信し、教室全体の各聴取者が「わからない」ということを共有するように制御することもできる。つまり、音響的TAを特定グループの方へ移動させる制御をした後、そのグループの場所でたとえば「ここがわかりません」のような音源を定位することによって、その発言が教室全体に共有されることになる。
上述の実施例では、集中音場(特定の場所または方向に向けて生成する音場のこと)を生成するために、サーボモータ26で方向調整可能に制御されるパラメトリックスピーカ24を用いた。しかしながら、集中音場を生成するためには、教室やライブハウスのような閉空間に予め設置している多数のスピーカを利用する方法もある。
たとえば、波面合成法(WFS:wave field synthesis)、高次アンビソニックス法(HOA:higher order Ambisonics)、境界音場制御法など、公知のマルチチャンネルスピーカによる音場再現手法を利用することができる。しかしながら、これらの手法はどれも特殊な機器と特別な設備が必要であり、公共空間への導入が難しいという問題がある。
さらに、最近ではほとんどの人がスマートフォンのようなスマートデバイスを保有し、携帯しているので、それら各人のスマートデバイスを利用して集中音場を生成することも可能である。
そのような手法の一例が、たとえば、論文 伊納洋佑、石川佑樹、中祐介、米澤朋子「複数の携帯端末の同期・位置推定手法による閉鎖空間の音響環境構築」信学技報115(424),19‐26,2016‐01‐28電子情報通信学会で既に提案されている。
次の実施例では、教室などの閉鎖空間において、多数の聴取者AUが所有する多数のスマートデバイスすなわち端末66の音声出力をネットワークを介し同期させて制御することで、マルチスピーカを構築し(図7)、そのマルチスピーカシステムを用いて、先のパラメトリックスピーカ24と同様に、特定の場所に向けて音場を生成する。
この実施例では、講演者SPのために、コンピュータ28(図2)とは別に、音源制御用のノードとして、タブレットPCのようなスマートデバイス68を用いる。端末66は、スマートフォンのようなスマートデバイスであり、図1に示す聴講者AUがそれぞれ保持しているものである。端末66は図示しないが各々がスピーカおよびマイクを持っていて、それらの端末66は、たとえば、スピーカ(図示せず)の放音孔を上に向けて図1に示す机の上に置かれる。
そして、たとえば図7のように空間内に配置した端末66の位置に基づき、その音源位置を囲む最寄りの3つの端末(ノード)を設定し、振幅パンニングすることで、現実世界における想定位置で音源を鳴らして定位する。概略をまず説明すると、まず互いの端末66の距離を、各端末のスピーカから出したパルス音の到達時間計測することによって、計測し、それらの相対距離の関係に基づいて空間配置し、各端末66位置に応じて音量ボリュームを変えるDBAP法によって、各端末66のスピーカを用いて、特定の場所または方向に音場を生成する。
そのため、このようなマルチスピーカシステムを構築するにあたり、実空間に分布する複数の端末66の相対位置を推定するとともに、端末66間での時刻同期が必要不可欠である。
そこで、以下では、まず、この実施例のシステムで用いる相対位置に基づく音像定位手法について説明し、次に、端末間の音声パルスの到達時間差による時刻同期手法および相対距離計測手法、相対位置推定手法を説明する。さらに、パルス圧縮によるパルス検出手法を示し、最後に、マルチスピーカ全体の制御手法について説明する。
音像定位とは、聴覚を通じて知覚する音の性質の一つである。人間は、音の大きさ、高さ、音色といった音の性質に加え、どこからどのように音がするかといった主観的な音の空間的特性として、方向、距離、広がりなどをとらえる。周辺の音の発生源を知覚する際、両耳間の音圧勾配(ILD:interaural level difference)および両耳間の時間差(ITD:interaural time differenve)により、音像定位する。上下、前後などの、左右差では推測できない音像に対し、人間は、各受聴者固有の頭部や耳殻の形状による影響を含めた頭部伝達関数(HRTF:Head Related Transfer Function)の振幅スペクトルを手掛かりとして利用しており、これをスペクトルキュー(spectrum que)という。ヘッドフォンなどによる音像定位では、HRTFに基づく上下前後の振幅特性に関する計算が必要であるが、実環境内における音源の再現をする場合は、個人差によるHRTFを考慮する必要はない。
3Dの立体音響を再現する手法として、左右のスピーカの音量比により音像定位を行う振幅パニング(AP:Amplitude Panning) 法を応用した立体的配置のスピーカにより音像を生成するVBAP:Vector Based Amplitude Panning(VBAP)法や、平面配置のスピーカを用いたDBAP:Distance Based Amplitude Panning 法がある。
実施例では、水平の地面を持つ空間内にいる複数ユーザを想定し、図8に示すDBAP法を用いて平面配置の端末66のスピーカを使った仮想音源の音像定位を行う。このDBAP法は、よく知られているように、任意の数のスピーカ(端末66)の位置が既知であり、端末間のスピーカの出力特性が等しいときに、仮想音源と各スピーカとの距離から距離減衰を計算することで、各スピーカの振幅を制御して音像を合成して音像を定位する手法である。つまり、実施例の複数端末によるマルチスピーカシステムにおける音像定位の基本的な考え方は、仮想音源に近いノードから音を出せば仮想音源に近い方向への音像定位ができるであろうというものである。基本的には、仮想音源位置に近いノードから発音する。これにより、想定した音源位置に比較的近い実空間内での音像定位が実現する。さらに、平面上の任意の位置を定位するため最低必要な3つのノードを決定し、各端末で適切な振幅パニングを設定した後、同期して音を発生する。これにより、この3つのノードの形成する三角形の外部にいる受聴者には、その三角形の内部に音像が定位される。
音声パルスで同期する場合、音声信号のサンプリング周波数44100[Hz]と仮定すると、1サンプルあたりの時間解像度は約22.6秒、距離解像度は7.7mm(音速を340[m/s]と仮定)となる。他方で、人間の聴覚特性として、同一信号を同時に同レベルで放射すれば音像は正面に生じるが、ITDが1m秒を超えるずれが生ずる場合は、先に聞こえた方の音源位置に定位されるという先行音効果と呼ばれる現象が知られている。この効果を考慮すると、端末間同期には、ITDが1m秒以内になるように、つまり、同期誤差を1m秒以下になるような高精度な同期が必要になる。
ここで、実施例のシステムで適用した音声パルスによる端末間同期手法について述べる。二次レーダー(SSR:Secondary Surveillance Radar)の仕組みを用いて、質問信号と応答信号の時間差により、距離を求めると同時に同期も行う。
図9に2地点間の同期通信の時間軸を示す。まず地点Aから時刻t0に音声パルスを発生し、地点Bで受信する時刻をt1とする。この信号受信を受けて次に地点Bから時刻t2に音声パルスを発信し、地点Aで受信する時刻をt3とする。このとき、地点Bにおける実際の地点Aの音声パルス発信時間は数1で求められる。音速をcとすると、地点Aと地点Bの距離dABが数2によって求められる。
Figure 2018036690
Figure 2018036690
各端末の相対距離計測の結果に基づき、非線形最小二乗法を用いて相対位置推定を行う。推定位置に基づく相対距離と実際の計測相対距離の誤差を最小二乗法で最適化することで相対位置の推定を実現する。目的関数ε(x^1,…,x^N)は数3で定義される。
Figure 2018036690
ここで、N∈Nは端末の数、M⊂(i){1,…,N}は端末iと相対距離が計測できた端末の集合、dij∈Rは実際に計測された端末の距離とし、x^∈Rはn番目の端末の位置推定値で、初期値は乱数を置く。この目的関数をε最小化する変数x^を求めるという最適化問題(数4)とする。
Figure 2018036690
この問題の最急降下法の更新式は数5に定義される。
Figure 2018036690
実際の端末66の位置を○で示し、推定結果の位置を×で示したときのシミュレーション結果の一例を図10に示す。この図10からわかるように、実施例で採用した音声パルスで端末を同期させる場合、所要の精度が得られた。
ここまでに測距、同期パルス(信号)の送受信による同期と測距および相対位置推定の手法について述べた。ここでは、測距、同期精度を高くするための、信号検出手法について説明する。
信号検出においてSN比を最大化するフィルタを整合フィルタと呼び(図11)、それは元信号との自己相関に等しい。理想的には整合フィルタを通した結果がディラック(Paul Adrien Maurice Dirac)のデルタ関数に近いことが望ましい。しかしながら、そのような信号は短時間に大電力のパルスとなるため、送信機器の送信電力や回路の容量に物理的な制約があり、そのような信号の送信は不可能である。そこで、パルス圧縮と呼ばれる手法が使われている。パルス圧縮は、送信パルスを時間周波数方向へエネルギを拡散させ、受信時にフィルタと高SN比で鋭いピークを持つようにする手法である。
音声パルスで同期する場合、音声信号のサンプリング周波数44100[Hz]と仮定すると、1サンプルあたりの時間解像度は約22.6秒、距離解像度は7.7mm(音速340[m/s]を仮定)となる。
人間の聴覚特性として1m秒の誤差で別音源として聴こえることが知られている。戦術の先行音効果により、必要な同期精度を1m秒とすると、同期はおよそ5サンプル以内の誤差に留める必要がある。このような高精度のパルス検出のため、複数のパルス圧縮方式を組み合わせる。
ここで、実施例においては、本手法に適用したパルス信号であるチャープ信号(Chirp signal)について述べる。波形を図12に示す。チャープ信号は、方形パルスを周波数方向へ掃引することで、通常パルスと同じ電力で時間方向の精度をより向上させることができることで知られている。バーカー符号(Barker Code)(図13)はパルス圧縮の一種で、同期点以外での自己相関関数の絶対値の最大が1=Nとなる長さNの有限長系列で、長さ13まで存在し、相関特性が長さ13の場合、ピークが13倍、レンジサイドローブが1/13倍となるような、ディラックの関数に近い理想的な相関特性を持つことで知られている。
さらに、狭い時間範囲にエネルギを集中させることで、上記の2つのパルス圧縮技術を組み合わせて、チャープ信号をバーカー符号を用いてBPSKで変調した。BPSKは位相0を0、位相πを1とする位相偏移変調で、位相変化を2値とする。
ただし、チャープ信号をバーカー符号で変調した場合、系列長に制限があるため複数のピークが現れてしまうという問題があったので、発明者等は、系列長に制限のないM系列符号(m-sequence;maximal length sequence:ガロア体における線形漸化式が生成する数列(sequence)のうち最長の周期(maximal length)を持つもの)による直接スペクトル拡散方式によるパルス圧縮を用いた。これはチャープ信号よりも非定常雑音に強いし、信号検出にはフェイズオンリを利用した。フェイズオンリー整合フィルタは、整合フィルタに信号の周波数成分のみを利用することでサイドローブを抑えピークを尖らせることができるフィルタである。この手法により、通常のパルスやチャープ信号、バーカー符号化チャープよりも鋭くSN比の高いピークが得られるようになった。
これまでに端末66によるマルチスピーカによる音像定位手法およびマルチスピーカのための相対位置の推定方法と同期手法、そしてそのためのパルス検出手法について述べた。ここでは上記の手法を具体的に多端末で制御する方法について述べる。
相対距離推定のための測距パルスの送信には、n台すべての端末が最低でも1回はパルスを送信する必要がある。しかしながら、今回の実装では前述の通り搬送波として全帯域のチャープ信号を使っているため、複数の端末でパルスの同時送信をしようとすると帯域が競合して混線してしまう。
複数の無線局が、同じ帯域を共有して通信することを多元接続という。今回の実装のように1つの端末が帯域を専有する場合、時分割多元接続(TDMA:Time Division Multiple Access)で多元接続が可能になる。本来のTDMA方式では各端末に帯域利用時間を割り当てるため、バースト信号とよばれる同期信号が利用される。しかしながら、実施例のシステムでは、各スピーカすなわち各端末66は、音声通信以外にインタネットを利用した通信が可能なので、同期信号をインタネット経由で通信できる。TDMAでは、1つの帯域という資源を多端末で共有するための分散排他制御の問題とみなせる。
そこで、実施例では図14に示すように、多端末のインタネットP2P通信によるオーバレイネットワークを用いてリングネットワークを構築し、分散排他制御手法のひとつであるトークンパッシングを用いることで、トークンをバースト信号、つまり同期信号として利用することでTDMAを実現する(図14)。P2Pによるオーバレイネットワーク上でのリングネットワークの構築には、分散ハッシュテーブル(DHT:Distributed Hash Table)として有名なChordアルゴリズムを用いた。
発明者等の実験では、複数のスマートデバイスすなわち端末66を用いて構成したマルチスピーカシステムにおいて、端末間距離測定の評価を行った.端末3台A、BおよびCを、1辺2mの正三角形に配置し、上述のアルゴリズムにより各端末間距離を10回計測した。
その結果,最大27cm(A‐C間)、最小6cm(B‐C間)の誤差にとどまった。実験で使用した端末は、13インチのMacBookAir(商品名)であり、それの幅は30cm程度あるため、推定距離の誤差を考慮しても高精度に測距、同期できたと言える。この同期、測距の後、被験者1名に対して音源を3台の各端末とも同一のボリュームで再生したところ、同一の音源として聴こえ、端末の三角形の内部に音像が定位された。また、三角形の一辺が大きいと、被験者がその三角形の外側のときには、みかけ音源の幅(ASW)が大きくなり、被験者が三角形の内側の時に音に包まれた感じを体験した。
同期のためには複数の端末66がパルスを出し合わなければならないが、いつどの端末がパルスを出すのか、といったスケジューリングをどうするかについて、図15、図16を参照して説明する。
このマルチスピーカシステムは、図15に示すように、基本的には端末間の通信を中継する中継サーバを中心としたスター型ネットワークである。また、スピーカアレイに参加しない特別なノードとして、計算用ノードと仮想音源を設定する制御用ノードがある。ただし、図15において、中継サーバは3台の端末66の内の1台であり、仮想音源コントローラはタブレット端末68である。計算サーバは別のコンピュータであってもよいが、コンピュータ28やそのタブレット端末68がその機能を果たすこともできる。このタブレット端末68は、前述のようにタッチディスプレイ46を有するコンピュータ28であってよい。
実験での実装では中継サーバが同期アルゴリズムを制御している。すべてのコマンドはリクエスト‐レスポンスで成り立っており、リクエストを受けた端末は必ずレスポンスを返さねばならない。まず、中継サーバはスピーカアレイを構成する端末に対してping コマンドを送信し、アレイに参加できる端末を確認する。
次に、全端末に対して録音をするようにbeginRec コマンドを送信する。そして、各端末の放つパルスが排他的になるように、パルスを放つ端末ごとにstartPulse、beepPulse、stopPulseコマンドを繰り返し送信する。startPulse とstopPulse コマンドは、この時間区間内にいずれかの端末からパルスが発信されることを示すもので、後にパルス位置を検出するときの計算量を減らすためのコマンドである。
beepPulse は任意の1台の端末に対して、パルスを送信するように促すコマンドである。すべての端末が互いに排他的にパルス発生し終えると、最後にstopRec という録音終了コマンドを送信する。その後、collect コマンドで各端末が録音したデータを集計し、計算用サーバへ送信する。
計算用サーバは、講演者用コンピュータ28であってよいが、それぞれの端末間のパルスの受信時刻を上述の手法で検出し、相対信号伝達時間と相対距離計測、空間配置推定する。その後、それらの情報を中継サーバを介してコンピュータ28へ送信する。
仮想音源を配置し制御するための端末のユーザインターフェースを図17に示す。図17のように推定した端末の分布図と、仮想音源を表示する。ただし、端末68が仮想音源VSとして機能する。仮想音源VSをドラッグすることで、DBAP法によって出力する振幅を計算し、各端末へ振幅を配信することで音像定位する。また、音を鳴らしながら音源を移動させることも可能である。
なお、上述の実施例では中継サーバを別途用いる集中型として説明したが、それぞれの端末66が互いにそのタイミングを把握する分散型のシステムであってもよい。
このように、教室のような閉鎖空間においては、複数のスマートデバイス(端末)を用いて、特定の場所に音場を設定して、生成することができる。したがって、先の実施例において、この音像定位システムを使って講演者SPが聴取者AUの特定のグループに対してのみ、注意、警告音声を出力することができる。
以上説明したように、上述の実施例では、聴取者AUすなわち参加者の状態を、グループ毎に、各参加者の動きに基づいて推定し、推定したグループの状態をカラーマッピングする。そして、グループの状態に応じて、グループを指向する特定の場所または方向に音場を設定して生成し、音場の局在化(localization)を実行する。この音場の局在化に関しては、パラメトリックスピーカ24の放音方向をたとえばサーボモータ26で制御する方法と、参加者の保持する端末66で編成したマルチスピーカシステムにおいて仮想音源を制御する方法を説明した。
このような特定の場所や方向への音場設定、音場生成(音場の局在化)、すなわち局所的な刺激付与は、必ずしも、聴取者すなわち参加者の状態推定に基づいて行う必要はなく、講演者すなわち発信者の興味の対象に従って実行するようにしてもよい。
まず、図1における講演者カメラ18によって撮影している講演者SPの顔の向き、あるいは視線の向きを周知の方法で検出する。そして、その検出した講演者SPの顔の向きおよび/または視線の向きが指すグループが講演者(発信者)の興味の対象であると推定し、そのグループに向けて、先に説明したいずれかの方法に従って、局所的な音場生成を実行する。たとえば、講演者SPの顔の向きおよび/または視線の向きが非集中度および活発度の高い聴取者AUの領域(グループ)を見たとき、そのグループに対し注意、警告音声を出力する。
あるいは、図1で説明したように、実施例では講演者SPは2つのマイク12および14を使っているので、講演者SPがどのマイクを使うか、あるいはマイクをどのように保持しているかなど、マイク12および/または14の状態に応じて講演者(発信者)の興味の対象のグループを推定し、そのグループに向けて、先に説明したいずれかの方法に従って、局所的な音場生成を実行する。
図18は講演者興味対象推定プログラム56(図3)に従って講演者の興味の対象を推定するための処理方法の一例を示すフロー図である。なお、この図18に示す興味対象推定処理は、一例として、フレーム周期で繰り返し実行される。
図18を参照して、CPU30(図2)は、図3に示す音声データ領域60に取り込んでいるピンマイク12およびハンドマイク14のそれぞれのマイク入力レベルを取込む(ステップS21)。続くステップS23においてCPU30は、ピンマイク12の入力レベルとハンドマイク14の入力レベルとを比較して、ハンドマイク14の入力レベルがピンマイク12の入力レベルより大きいか判断する。これは、講演者SPがどのマイクを使用しているかの判断であるので、マイクの入力感度の設定等に応じて、正規化したり重みづけして比較することが必要かもしれない。
ステップS23で“YES”を判断したとき、すなわちハンドマイク14の入力レベルがピンマイク12の入力レベルより大きいときには、CPU30は音場の局在化をすることなく、ステップS25において、ラウドスピーカ16(図1)から、ハンドマイク14の入力に従って、音声を出力する。
一方、ステップS23で“NO”を判断したとき、つまり、ハンドマイク14の入力レベルがピンマイク12の入力レベルより大きくないときには、CPU30は、次に、講演者カメラ18が撮影した、図3に示す映像データ領域62に取り込んでいる講演者SPの顔画像を抽出して、その顔の向き、あるいは視線の方向を検出する(ステップS27)。ただし、画像から顔の向きや視線方向を検出する方法は既によく知られたところであり、ここでは詳細な説明は省略する。
そして、次のステップS29において、ステップS27で特定した、講演者SPの顔の向きあるいは視線の方向が指しているグループを、講演者SPのそのときの興味の対象であると判断して、当該グループに向けて音場の生成すなわち音場の局在化を実行する。つまり、講演者SPがハンドマイク14を下げて一定方向を見て話したとき、講演者のピンマイク12の音声(たとえば、注意や警告の音声)をそのグループに対し音源定位して出力する。ただし、ステップS29での音場を局在化したときの音声コンテンツとしては、講演者SPからのピンマイク12の入力音声だけでなく、それとともに、またはそれとは別に、図3に示すコンテンツデータ領域64に予め設定している音声データを用いることができる。
たとえば、ピンマイク12の入力レベルとハンドマイク14の入力レベルに応じて、ラウドスピーカ16での講演発話とピンマイク12による局所的音響での発話を切り替えることも考えられる。つまり、図18の実施例では、講演者SPがハンドマイク14の入力レベルがピンマイク12の入力レベルのより大きいくないとき、音場を特定の場所や方向に生成したが、ハンドマイク14の入力レベルとピンマイク12の入力レベルの比に応じて、ラウドスピーカ16からの音声出力および音場の局在化による音声出力の比率を変更するなどの方法も考えられる。
たとえば、ピンマイク12の入力レベル<ハンドマイク14の入力レベルのときにはステップS25の通り、100%の音声をラウドスピーカ16が出力する。つまり、ラウドスピーカ16だけで講演音声を出力する。
これに対して、ピンマイク12の入力レベル=(≒)ハンドマイク14の入力レベルのときには、ラウドスピーカ90%とし、残りの10%は音場の局在化によって音声出力する。さらに、ピンマイク12の入力レベル=ハンドマイク14の入力レベル×0.5のときにはラウドスピーカ16を50%出力とし、残りの50%は音場の局在化によって音声出力する。さらに、ピンマイク12の入力レベル=ハンドマイクの入力レベル×0.1のとき、ラウドスピーカを10%の音声出力とし、残りの90%は音場の局在化によって音声出力する。
なお、図18のステップS25やステップS29を含めて、音量を安定化する必要がある(音量の頻繁な上下は聴取を阻害する可能性があるので)ため、音量は短くても0.2秒は一定化するものとする。
さらに、上述の実施例では、ピンマイク12の入力レベルおよびハンドマイク14の入力レベルに基づいて、講演者SPのマイク使用意図(ピンマイク12を使おうとしているのか、ハンドマイク14を使おうとしているのか、あるいは両方を使おうとしているのか)を推定した。しかしながら、講演者カメラ18の映像に基づいてハンドマイク14の講演者の口からの距離を推定することによって、講演者SPのマイク使用意図を推定することもできる。たとえば、ハンドマイク14が講演者の口から30cm以上離れたときは、講演者はハンドマイク14を使う意図はないなどと推定することができ、それに基づいて上述のように、ラウドスピーカ16からの音声出力および音場の局在化による音声出力の比率を変更することもできる。
図1の実施例では、たとえば大学における大教室での講義を想定した講演システム10について説明した。しかしながら、この発明の一対多コミュニケーションシステムは、たとえば音楽のライブ会場のような場所を想定した場合にも適用できる。ただし、参加者の参加状態などの推定方法は、図1実施例の場合と多少異なる。
詳しく言うと、大学の教室を想定した一対多コミュニケーションシステムであれば、会場が明るいために聴取者カメラ20のようなカメラ映像を画像処理することによって、参加者たる聴取者の状態を推定することができるが、ライブ会場やおよびコンサート会場は全体に薄暗く、鮮明なカメラ映像が得られにくい。
そこでライブ会場では、聴衆(参加者)がペンライトを持つことに着目し、ペンライトの動きを検出することによって、参加者の参加度を推定するとこができる。ただし、ペンライトの場合、先の実施例の場合とは異なり、動きの方向(縦か横か)で参加度を判断することはできない。コンサートなどでは横の動きも存在するため、コンテンツ集中度(参加度)は、音楽コンテンツとの動き同期度合いや、MC(Master of Ceremony:司会)中の対話的タイミング(MCの合間)における動き量により、コンテンツ参加度を決定する。また、活発度はそのペンライトの動きの大きさ(1回の移動距離)に基づいて推定することができる。
たとえば、演奏中の音楽コンテンツから抽出したリズムと、ペンライトなどの明度特徴点追跡によって得られた動きを比較して、動きがリズムに対してどの程度ずれているのかを定量化し、それに基づいて参加度を推定することができる。十分な参加度を持った参加者ならリズムとのずれはさほど大きくなく、そうでない場合は、ペンライトをいい加減に動かしている可能性がある。MC中にはあまりペンライトを動かさないという前提で、NC中にペンライトを動かす参加者は集中していないということになる。
そして、参加者をグループ分けし、そのグループ毎に、このような参加度や活発度の推定に基づいて、たとえば図6に示したようなカラーマッピングを聴衆画像(図1の聴取者カメラ20のようなカメラで撮影して、図1のディスプレイ22のようなモニタに表示した聴衆映像)に重畳して表示する。それによって、演奏者(発信者)はライブ会場全体としてどのような状態にあるかを一目で把握することができる。
その状態推定に基づいて、既に説明したパラメトリックスピーカ24などによる音場の局在化(音像定位)の手法を利用して、次のような、VA(Virtual Agent)によるコンサートを実現できる。ただし、VAを映出するために必要な映像コンテンツは、図3に示すコンテンツデータ領域64に予め設定しておくこともできる。
パターンA:演奏者(VA)を提示する位置を、内容集中度(参加度)と活発度の高いグループの場所に移動させるとともに、演奏する音場をそのグループの場所に生成する。ただし、VAを特定の場所に映出するためには、たとえば、1枚の透明なスクリーンに、20台以上のプロジェクタを用いて特殊加工を施したCGを投影し、重なり合った映像により立体映像を見せる方法や、いわゆる3Dホログラムを用いる方法などが考えられる。
パターンB:活発度が低く演奏集中度(参加度)の高いグループの場所にバックミュージック演奏音の音場を分散して生成する。
パターンC:ウェーブなどの伝搬的傾向に応じて効果音演奏の音場を拡張したり、音量を拡大する。
パターンD:聴衆の参加傾向を表す音響、たとえば効果音を各グループの場所に生成する。
ただし、複数の音場を生成し複数の音楽が流れることで、相乗的な効果を生じるのは基本的にはコンサートシーンであり、教室などでは同時に多くの音声が出力されると混乱を生むこともあるので、音楽的な音、たとえばBGMで混乱を防ぐ手法も導入した方がよいかもしれない。
なお、ここで説明したVAコンサートにおいてVAを特定の場所へ移動させる手法は、先に述べたアシスタントティーチャ(TA)にも取り入れることができる。つまり、先に述べた方法では音像だけが対象のグループに移動したが、音像とともにVA映像を移動させることによって、よりリアリティのあるTAを実現できる。
さらに、図1の実施例での説明では、聴取者映像において各聴取者の顔画像を検出し、顔検出による距離推定(またはFOV(視野)と実測)により、顔画像が一定数たとえば8人分入るグループに分けて、グループ毎のオプティカルフローを取得し、たとえば5秒のような一定時間内の累積移動量とフレーム移動量度数をグループないで集計し、予め学習した縦方向または縦方向への移動量に基づく集中レベルに基づき認識した。この集中度ないしは参加度の数値化においては、パターン認識での識別時の事後確率に基づくものとする。そして、動き量度数集計で最も動き量が多いのを活性度100として活性度(活発度)を算出した。
これに対して、オプティカルフローを画像としてグループ毎に分割する方法も考えられる。
すなわち、全体に対しかけたオプティカルフロー結果を極小領域(1人分程度)毎に積算し、その極小領域を1ピクセルとした動き量画像を生成する。この時のパラメータは、縦横の動き量積算、動き量変化積算、連続静止フレーム数、,動き量度数分布などである。そして、隣接領域とのグループ化のため、各パラメータで膨張、縮小によるグレースケール画像分析を実行し、パラメータ間の共通傾向を算出するため、平均画像を計算し、平均画像に対するグループ(エリア)抽出を同様の手法で行い、グループ化する方法である。この場合も、参加者全体の状態がグループ毎に表示されるので、講演者や演奏者すなわち参加者による全体の状態把握が容易である。
なお、図4のステップS13およびS15でのパラメータに加速度を加味することができる。加速度は速度の差分なので、速度だと2フレームあれば移動量(単位時間あたり)が出るのに対して、加速度だと3フレームあれば速度データの差分で取り出すことができる。したがって、5フレーム内では4個分の速度データと3個分の加速度データも出る。この加速度の最大値または最小値をパラメータとして採用する。
加速度を考慮することで、きびきびした動きかどうか判定することができる。つまり、加速度が大きいということはフレーム間での動きの差が大きいということであり、短時間に大きく動いたことを意味し、加速度が小さいということは逆に動きが小さいことを意味する。
さらに、分析フレーム数を増やし、たとえば30フレームなどとした場合、その間の加速度、速度などのヒストグラムを取得することで、図4のような単なる総和より詳しいデータが作成できる。
さらに、上述の実施例では、たとえば聴取者の参加状態および講演者の興味の対象に従って、特定の場所や方向に音場を設定して生成することによって、参加者やそのグループに刺激を与えるようにした。しかしながら、このような刺激は、音場生成に限らず、振動や映像による刺激、さらにはマルチモーダルな刺激であってよい。振動の場合には、図7に示した各聴取者の端末66のバイブレーション機能を使うことが考えられる。映像であれば、先に説明したVAコンサートの手法が利用可能である。つまり、音場生成の実施例も含めて、刺激付与手段ということができる。
たとえば特開2010‐186373号などに、笑顔度を数値化する技術が知られている。このような笑顔度を採り入れることによって、聴取者(参加者)の集中、非集中を判定することができる。たとえば、大学講義のような場合には、グループの笑顔度が大きい場合、雑談などで笑顔になっていることが考えられ、そのグループは集中度が小さいと判断できる。笑顔度が小さいと逆に集中度が大きいと判断できる。しかしながら、たとえばお笑いの演芸会のような場合、笑顔度が大きいと参加度が高いということにもなる。したがって、笑顔度によって図5の参加度を変更する場合、その一対多コミュニケーションの種類に応じて、加減する必要があるかもしれない。
上述の実施例で挙げた具体的な数値等は一例であり、特に限定を意味するものではない。
10 …講演システム
12 …ピンマイク
14 …ハンドマイク
16 …ラウドスピーカ
18 …講演者カメラ
20 …聴取者カメラ
22 …ディスプレイ
24 …パラメトリックスピーカ
26 …サーボモータ
28 …コンピュータ
30 …CPU

Claims (6)

  1. 発信者と、その発信者からの発信を受ける参加者を含む会場における一対多コミュニケーションシステムであって、
    前記参加者のグループ毎の参加状態を推定する状態推定手段、および
    前記参加者の映像に前記グループの参加状態に応じた色情報を重畳して表示するカラーマッピング手段を備える、一対多コミュニケーションシステム。
  2. 特定の参加状態のグループに対して局所的に刺激を付与する刺激付与手段をさらに備える、請求項1記載の一対多コミュニケーションシステム。
  3. 前記刺激付与手段は局所的に音場を生成する音場生成手段を含む、請求項2記載の一対多コミュニケーションシステム。
  4. 前記音場生成手段は、音声コンテンツを変化することによって音響的効果を遷移させる、請求項3記載の一対多コミュニケーションシステム。
  5. 発信者の興味の対象を推定する推定手段をさらに備え、
    前記刺激付与手段は前記推定手段が推定した前記発信者の興味の対象に向けられる、請求項2ないし4のいずれかに記載の一対多コミュニケーションシステム。
  6. 発信者と、その発信者からの発信を受ける参加者を含む会場における一対多コミュニケーションシステムにおけるコンピュータが実行するプログラムであって、前記コンピュータを
    前記参加者のグループ毎の参加状態を推定する状態推定手段、および
    前記参加者の映像に前記グループの参加状態に応じた色情報を重畳して表示するカラーマッピング手段
    として機能させる、一対多コミュニケーションシステム用プログラム。
JP2016166571A 2016-08-29 2016-08-29 一対多コミュニケーションシステムおよびプログラム Pending JP2018036690A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016166571A JP2018036690A (ja) 2016-08-29 2016-08-29 一対多コミュニケーションシステムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016166571A JP2018036690A (ja) 2016-08-29 2016-08-29 一対多コミュニケーションシステムおよびプログラム

Publications (1)

Publication Number Publication Date
JP2018036690A true JP2018036690A (ja) 2018-03-08

Family

ID=61567512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016166571A Pending JP2018036690A (ja) 2016-08-29 2016-08-29 一対多コミュニケーションシステムおよびプログラム

Country Status (1)

Country Link
JP (1) JP2018036690A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020016968A (ja) * 2018-07-24 2020-01-30 トヨタ自動車株式会社 情報処理システム、プログラム、及び制御方法
JPWO2020183630A1 (ja) * 2019-03-13 2021-12-02 バルス株式会社 ライブ配信システムおよびライブ配信方法
WO2022168178A1 (ja) * 2021-02-02 2022-08-11 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022168180A1 (ja) * 2021-02-02 2022-08-11 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
KR20230009099A (ko) * 2021-07-08 2023-01-17 주식회사 유비온 실시간 화상 교육 시스템에서의 학습자 그루핑 방법
WO2023032058A1 (ja) * 2021-08-31 2023-03-09 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
CN116193681A (zh) * 2023-04-24 2023-05-30 聊城市敏锐信息科技有限公司 电照明光源的光照调节电路装置及鱼缸照明系统
WO2023100671A1 (ja) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 リアクション検知システムおよびリアクション検知結果表示方法
WO2023210052A1 (ja) * 2022-04-27 2023-11-02 ハイラブル株式会社 音声分析装置、音声分析方法及び音声分析プログラム
JP7465019B2 (ja) 2019-11-13 2024-04-10 グリー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007068060A (ja) * 2005-09-01 2007-03-15 Yamaha Corp 音響再生システム
JP2013017722A (ja) * 2011-07-13 2013-01-31 Hitachi Ltd 複数脳賦活観測システム
JP2013029954A (ja) * 2011-07-28 2013-02-07 Ricoh Co Ltd 受講状態改善支援システム、装置、方法、プログラム並びに記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007068060A (ja) * 2005-09-01 2007-03-15 Yamaha Corp 音響再生システム
JP2013017722A (ja) * 2011-07-13 2013-01-31 Hitachi Ltd 複数脳賦活観測システム
JP2013029954A (ja) * 2011-07-28 2013-02-07 Ricoh Co Ltd 受講状態改善支援システム、装置、方法、プログラム並びに記録媒体

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852984A (zh) * 2018-07-24 2020-02-28 丰田自动车株式会社 信息处理系统、存储程序的存储介质以及信息处理装置控制方法
JP7143661B2 (ja) 2018-07-24 2022-09-29 トヨタ自動車株式会社 情報処理システム、プログラム、及び制御方法
JP2020016968A (ja) * 2018-07-24 2020-01-30 トヨタ自動車株式会社 情報処理システム、プログラム、及び制御方法
JPWO2020183630A1 (ja) * 2019-03-13 2021-12-02 バルス株式会社 ライブ配信システムおよびライブ配信方法
JP7465019B2 (ja) 2019-11-13 2024-04-10 グリー株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2022168178A1 (ja) * 2021-02-02 2022-08-11 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2022168180A1 (ja) * 2021-02-02 2022-08-11 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
KR20230009099A (ko) * 2021-07-08 2023-01-17 주식회사 유비온 실시간 화상 교육 시스템에서의 학습자 그루핑 방법
KR102622115B1 (ko) * 2021-07-08 2024-01-09 주식회사 유비온 실시간 화상 교육 시스템에서의 학습자 그루핑 방법
WO2023032058A1 (ja) * 2021-08-31 2023-03-09 株式会社I’mbesideyou ビデオセッション評価端末、ビデオセッション評価システム及びビデオセッション評価プログラム
WO2023100671A1 (ja) * 2021-12-03 2023-06-08 パナソニックIpマネジメント株式会社 リアクション検知システムおよびリアクション検知結果表示方法
WO2023210052A1 (ja) * 2022-04-27 2023-11-02 ハイラブル株式会社 音声分析装置、音声分析方法及び音声分析プログラム
CN116193681A (zh) * 2023-04-24 2023-05-30 聊城市敏锐信息科技有限公司 电照明光源的光照调节电路装置及鱼缸照明系统
CN116193681B (zh) * 2023-04-24 2023-06-27 聊城市敏锐信息科技有限公司 电照明光源的光照调节电路装置及鱼缸照明系统

Similar Documents

Publication Publication Date Title
JP2018036690A (ja) 一対多コミュニケーションシステムおよびプログラム
US10798509B1 (en) Wearable electronic device displays a 3D zone from where binaural sound emanates
US10595147B2 (en) Method of providing to user 3D sound in virtual environment
US6882971B2 (en) Method and apparatus for improving listener differentiation of talkers during a conference call
KR20220054602A (ko) 선택적 청취를 지원하는 시스템 및 방법
CN108141696A (zh) 用于空间音频调节的系统和方法
JP2001503165A (ja) 音声会議システム中に空間音声環境を作る装置と方法
CN107360494A (zh) 一种3d音效处理方法、装置、系统及音响系统
TW201820315A (zh) 改良型音訊耳機裝置及其聲音播放方法、電腦程式
Geronazzo et al. Applying a single-notch metric to image-guided head-related transfer function selection for improved vertical localization
Hendrickx et al. Ventriloquism effect with sound stimuli varying in both azimuth and elevation
WO2022256585A2 (en) Spatial audio in video conference calls based on content type or participant role
Brandenburg et al. Creating auditory illusions with binaural technology
Cohen et al. Spatial soundscape superposition and multimodal interaction
WO2023109862A1 (zh) 视频播放中协同播放音频的方法及通信系统
US20230362571A1 (en) Information processing device, information processing terminal, information processing method, and program
US20230370801A1 (en) Information processing device, information processing terminal, information processing method, and program
Davat et al. Integrating Socio-Affective Information in Physical Perception aimed to Telepresence Robots
Chabot et al. Using a multimodal immersive environment to investigate perceptions in augmented virtual reality systems
US11696088B1 (en) Method and apparatus to generate a six dimensional audio dataset
US20240031758A1 (en) Information processing apparatus, information processing terminal, information processing method, and program
Yadav et al. Detection of headtracking in room acoustic simulations for one’s own voice
Filimowicz An audiovisual colocation display system
Corah A framework for site-specific spatial audio applications
Zotkin Algorithms for acquisition and rendering of sounds in perceptual user interfaces

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20160901

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210316