JP2012146072A

JP2012146072A - 次発話者誘導装置、次発話者誘導方法および次発話者誘導プログラム

Info

Publication number: JP2012146072A
Application number: JP2011003155A
Authority: JP
Inventors: Mutsuhiro Nakashige; 睦裕中茂; Hidekazu Tamaki; 秀和玉木; Takeshi Tono; 豪東野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-01-11
Filing date: 2011-01-11
Publication date: 2012-08-02
Anticipated expiration: 2031-01-11
Also published as: JP5458027B2

Abstract

【課題】適切な次発話者を決定し、決定した次発話者を確実に会議参加者に通知する。
【解決手段】次発話者誘導装置２であって、次発話者を会議参加者に通知するための通知音声を会議参加者毎に記憶する通知音声記憶手段と、会議参加者が使用する各端末１から入力される、当該会議参加者の映像データ、音声データなどの入力データを取得するデータ取得手段と、入力データを分析し、次発話を会議参加者の中から決定する次発話者決定手段と、入力データを分析して会話の切れ目を検出し、次発話者を通知するタイミングを決定するタイミング決定手段と、通知音声記憶手段から次発話者決定手段が決定した次発話者に対応する通知音声を取得し、タイミング決定手段が決定したタイミングで通知音声を会議参加者の各端末１に送信し、出力させる次発話者通知手段とを有する。
【選択図】図１

Description

本発明は、ネットワークを介した遠隔会議において、会議参加者の発話開始を誘導する次発話者誘導装置、次発話者誘導方法および次発話者誘導プログラムに関する。

ネットワークを介した遠隔会議においては、映像品質の低さ、伝送遅延の影響などにより、しばしば、2者以上の会議参加者が同時に発話（発言）を開始し、発話音声が衝突することがある。このような状況が多発すると、会議参加者の発話意欲が低下したり、会議の能率が低下して議論が長時間に及んだり、議論が単調になって会議自体の品質が低下する恐れがある。

遠隔会議における複数の会議参加者による発話の衝突を防止する技術については、例えば、特許文献１に記載されている。特許文献１では、発話意欲の高い会議参加者を特定して、次に発言権を持つことを明示する。

特開2006-338493号公報

特許文献１では、視線を多く集めた会議参加者が次に発言権を持つと決定し、その会議参加者をモニタの映像中に視覚エフェクトで提示するものである。この方法では、カメラで各会議参加者の視線方向を検出して、どの会議参加者が多くの視線を集めているかを判断するが、カメラ情報のみからモニタの映像中のどの会議参加者を注視しているかを判断するのは困難である。さらに、次に発言権を持つ会議参加者を示す視覚エフェクトはモニタの映像中に重畳されるが、これに全ての会議参加者が必ず気付き、明示された会議参加者に発言を譲るとは考えにくい。

すなわち、特許文献１は、ユーザの視線方向を検出して注視している会議参加者を検出し、より多くの注目を集めている会議参加者を発話意欲が高いと断定して次に発言権を持たせることの不確実さと、次に発言権を持つ会議参加者を示す視覚エフェクトをモニタの映像中に重畳することで全ての会議参加者へ認知させようとすることの不確実さを有している。

本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、適切な次発話者を決定し、決定した次発話者を確実に会議参加者に通知する次発話者誘導装置、次発話者誘導方法および次発話者誘導プログラムを提供することにある。

上記目的を達成するため、本発明は、ネットワークを介した遠隔会議における次発話者誘導装置であって、次に発言する次発話者を会議参加者に通知するための通知音声を、会議参加者毎に記憶する通知音声記憶手段と、会議参加者が使用する各端末から入力される、当該会議参加者の映像データ、音声データおよびキー入力データの少なくとも１つの入力データを取得するデータ取得手段と、前記データ取得手段が取得した入力データを分析し、次発話を会議参加者の中から決定する次発話者決定手段と、前記データ取得手段が取得した入力データを分析して会話の切れ目を検出し、次発話者を通知するタイミングを決定するタイミング決定手段と、前記通知音声記憶手段から、次発話者決定手段が決定した次発話者に対応する通知音声を取得し、前記タイミング決定手段が決定したタイミングで前記通知音声を会議参加者の各端末に送信し、出力させる次発話者通知手段と、を有する。

本発明は、ネットワークを介した遠隔会議における、コンピュータが行う次発話者誘導方法であって、前記コンピュータは、次に発言する次発話者を会議参加者に通知するための通知音声を、会議参加者毎に記憶する通知音声記憶部を有し、会議参加者が使用する各端末から入力される、当該会議参加者の映像データ、音声データおよびキー入力データの少なくとも１つの入力データを取得するデータ取得ステップと、前記データ取得ステップで取得した入力データを分析し、次発話を会議参加者の中から決定する次発話者決定ステップと、前記データ取得ステップで取得した入力データを分析して会話の切れ目を検出し、次発話者を通知するタイミングを決定するタイミング決定ステップと、前記通知音声記憶部から、次発話者決定ステップで決定した次発話者に対応する通知音声を取得し、前記タイミング決定ステップで決定したタイミングで前記通知音声を会議参加者の各端末に送信し、出力させる次発話者通知ステップと、を行う。

本発明は、前記次発話者誘導方法をコンピュータに実行させるための次発話者誘導プログラムである。

本発明によれば、適切な次発話者を決定し、決定した次発話者を確実に会議参加者に通知する次発話者誘導装置、次発話者誘導方法および次発話者誘導プログラムを提供することができる。

本発明の実施形態に係る会議システムの全体構成図である。次発話者誘導サーバ２の構成を示すブロック図である。第１の次発話者検出の方法の動作を示すフローチャートである。第２の次発話者検出の方法の動作を示すフローチャートである。第３の次発話者検出の方法の動作を示すフローチャートである。タイミング決定部の動作を示すフローチャートである。

以下、本発明の実施の形態について、図面を参照して説明する。

図１は、本発明の実施形態に係る会議システムの全体構成図である。本実施形態の会議システムは、ネットワークに接続された複数の端末を用いて、遠隔地にいる会議参加者が遠隔会議を行うためのシステムである。図示する会議システムは、複数の会議参加者の各々が使用する複数の端末１と、これらの端末１とネットワーク９を介して接続された次発話者誘導サーバ２とを備える。

各端末１は、例えばＰＣであって、ディスプレイ１２、当該端末１を使用する会議参加者の映像を撮影するカメラ１３と、当該端末１を使用する会議参加者が発言した音声を取得するマイク１４と、次発話者誘導サーバ２から送信された他の会議参加者の音声、後述する通知音声などを出力するスピーカ１５と、当該端末１を使用する会議参加者の各種操作を受け付ける入力装置（キーボード１６、マウスなど）を備える。

各端末１は、カメラ１３が撮像した映像データ、マイク１４が取得した音声データ、キーボード１６に入力されたキー入力データなどを、ネットワーク９を介して次発話者誘導サーバ２に送信する。

また、各端末１は、他の会議参加者が発言した音声データ、通知音声などを、ネットワーク９を介して次発話者誘導サーバ２から受信し、スピーカ１５から出力・再生する。各端末１は、他の会議参加者の映像データを、ネットワーク９を介して次発話者誘導サーバ２から受信し、ディスプレイ１２に表示することとしてもよい。

図２は、本実施形態の次発話者誘導サーバ２の構成を示す構成図である。図示する次発話者誘導サーバ２は、データ取得部２１と、次発話者決定部２２と、タイミング決定部２３と、次発話者通知部２４と、通知音声記憶部２５とを備える。

データ取得部２１は、会議参加者が使用する各端末１から入力される、当該会議参加者の映像データ、音声データおよびキー入力データの少なくとも１つの入力データを取得する。次発話者決定部２２は、データ取得部２１が取得した入力データを分析し、次に発言する次発話者を会議参加者の中から決定する。タイミング決定部２３は、データ取得部２１が取得した入力データを分析して、会話の切れ目を検出し、全ての会議参加者に次発話者を通知（提示）するタイミングを決定する。次発話者通知部２４は、通知音声記憶部２５から次発話者決定部２２が決定した次発話者に対応する通知音声を取得し、前記タイミング決定部２３が決定したタイミングで取得した通知音声を会議参加者の各端末に送信し、出力させる。

通知音声記憶部２５には、次発話者を会議参加者に通知するための通知音声（音声片）が、会議参加者毎に記憶される。通知音声は、例えば、「あのー」、「えーと」、「うーん」などのような発話の前に発する意味を有しない音声、咳払いのような生理現象に関する音声、他の会議参加者と発話が衝突したために言い掛けて中断した音声などである。会議を行う前に各会議参加者の通知音声をあらかじめ通知音声記憶部２５に格納しておくか、あるいは会議中に会議参加者がマイクに発声した音声の最初の部分を切り出した音声片を取得し、通知音声として通知音声記憶部２５に格納することが考えられる。なお、会議中に取得した音声片をそのまま通知音声として通知音声記憶部２５に格納してもよく、あるいは、取得した音声片にピッチ増減や音量増減などの加工したものを通知音声として通知音声記憶部２５に格納してもよい。

次発話者誘導サーバ２および各端末１は、例えば、ＣＰＵと、メモリと、ＨＤＤ等の外部記憶装置と、入力装置と、出力装置とを備えた汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、ＣＰＵがメモリ上にロードされた所定のプログラムを実行することにより、各装置の各機能が実現される。例えば、次発話者誘導サーバ２および端末１の各機能は、次発話者誘導サーバ２用のプログラムの場合は次発話者誘導サーバ２のＣＰＵが、そして、端末１用のプログラムの場合は端末１のＣＰＵがそれぞれ実行することにより実現される。

また、次発話者誘導サーバ２用のプログラムおよび端末１用のプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ−ＲＯＭなどのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。

次に、本実施形態の動作について説明する。

まず、次に発言する次発話者を決定する方法について説明する。次発話者検出の方法はは、３つある。

図３は、第１の次発話者検出の方法の動作を示すフローチャートである。第１の方法は、会議中に発話意欲が高まった会議参加者が、自ら発言する意思を能動的に合図する方法である。

まず、発言しようとする会議参加者は、端末１に備えられたキーボード１６、マウスなどの入力装置を用いて次発話者となることを要求するための操作指示を入力し、端末１は、当該操作指示を受け付けて次発話者要求を次発話者誘導サーバ２に送信する。なお、端末１は、次発話者要求を送信する際に、当該会議参加者の話者ＩＤ（ユーザＩＤ）も、併せて送信するものとする。

次発話者誘導サーバ２の次発話者決定部２２は、端末１から次発話者要求を受信すると（Ｓ１１：ＹＥＳ）、当該次発話者要求に付加された話者ＩＤを取得し、当該話者ＩＤの会議参加者を次発話者として決定する（Ｓ１２）。そして、次発話者通知部２４は、通知音声記憶部２５から、次発話者決定部２２が決定した次発話者に対応する通知音声を取得し（Ｓ１３）、タイミング決定部２３が決定したタイミングで取得した通知音声を会議参加者の全ての端末１に送信する（Ｓ１４）。各端末１は、通知音声を受信し、受信した通知音声をスピーカ１５から出力・再生する（Ｓ１５）。なお、タイミング決定部２３のタイミングを決定する処理については後述する。

各会議参加者は、スピーカ１５から出力される通知音声を聞くことで、発話意欲の高い会議参加者（自ら次発話者要求を入力した会議参加者）が次の発話者となることを認識することができる。

図４は、第２の次発話者検出の方法の動作を示すフローチャートである。第２の方法は、自分以外の他の会議参加者の発話を誘導したい場合に、当該他の会議参加者を次発話者として推薦する方法である。

まず、会議参加者は、端末１に備えられたキーボード１６、マウスなどの入力装置を用いて、他の会議参加者が次発話者となることを推薦するための操作指示を入力し、端末１は、当該操作指示を受け付けて推薦要求を次発話者誘導サーバ２に送信する。なお、会議参加者は、推薦する他の会議参加者の話者ＩＤ（ユーザＩＤ）を推薦要求とともに入力するものとする。

次発話者誘導サーバ２の次発話者決定部２２は、端末１から推薦要求を受信すると（Ｓ２１：ＹＥＳ）、当該推薦要求に付加された話者ＩＤを取得し、当該話者ＩＤの会議参加者を次発話者として決定する（Ｓ２２）。そして、次発話者通知部２４は、通知音声記憶部２５から、次発話者決定部２２が決定した次発話者に対応する通知音声を取得し（Ｓ２３）、タイミング決定部２３が決定したタイミングで取得した通知音声を会議参加者の全ての端末１に送信する（Ｓ２４）。各端末１は、通知音声を受信し、受信した通知音声をスピーカ１５から出力・再生する（Ｓ２５）。なお、タイミング決定部２３のタイミングを決定する処理については後述する。

各会議参加者は、スピーカ１５から出力される通知音声を聞くことで、推薦された会議参加者が次の発話者となることを認識することができる。

図５は、第３の次発話者検出の方法の動作を示すフローチャートである。第３の方法は、次発話者誘導サーバ２が各会議参加者に発話の機会を与えるために次発話者を決定する方法である。具体的には、次発話者誘導サーバ２の次発話者決定部２２は、会議参加者毎に、当該会議参加者に発生した所定のイベントを検出し、イベントが発生するたびに所定のポイント（重み）を加算し、ポイントが所定の閾値を超えた会議参加者を、次発話者として決定する。なお、次発話者誘導サーバ２は、各会議参加者のポイントを記憶するポイント記憶部（不図示）を備えるものとする。

図５では、所定のイベントとして、他の会議参加者と発話が衝突したなどの理由により発話を中断した場合（Ｓ３１）と、発話意欲の高まりを検知した場合（Ｓ３３）と、他の会議参加者から次発話者として推薦された場合（Ｓ３３）とを具体例として挙げている。しなしながら、所定のイベントはこれに限定されるものではない。

発話意欲の高まりについては（Ｓ３３）、所定の表情変化、身体動作、発声などを検知した場合、発話意欲が高まったと判別する。具体的には、次発話者誘導サーバ２のデータ取得部２１は、各端末１からカメラおよびマイクを用いて取得された会議参加者の映像データおよび音声データを受信する。そして、次発話者決定部２２は、データ取得部２１が受信した各会議参加者の音声データを分析し、現在発話（発言）している現在発話者を特定する。そして、次発話者決定部２２は、現在発話者以外の各会議参加者の映像データおよび／または音声データと、現在発話者の発話音声データとを比較し、各会議参加者毎に当該会議参加者の身体動作や音声（相槌など）のタイミングが、現在発話者の発話音声データから取得される発話リズムとどの程度リズム同調しているかを分析し、所定の値以上の相関（相関係数）を有する会議参加者については、発話意欲が高まったと判別する。

リズム同調については、例えば、任意の規定時間ごとに、現在発話者の音声データを量子化し、他の各会議参加者の音声データを量子化したものおよび会議参加者の身体動作の有無を量子化したものの少なくとも１つとの相関を演算し、その結果が任意の所定の値を越える会議参加者については、発話意欲が高まったと判別する。

また、各会議参加者の映像データを分析し、会議参加者の頭がカメラに近付いた場合や、会議参加者が口元へ手を持っていった場合に、発話意欲が高まったと判別することも考えられる。

図５では、次発話者誘導サーバ２のデータ取得部２１は、各端末１からカメラ、マイク、キーボードなどを用いて取得・入力された会議参加者の映像データ、音声データおよびキー入力データを受信し、次発話者決定部２２は、これらのデータを用いて所定のイベントの発生を、会議参加者毎に検出する。具体的には、次発話者決定部２２は、各会議参加者の音声データを分析し、複数の発話者の衝突による発話の中断を検出した場合（Ｓ３１：ＹＥＳ）、発話を中断した会議参加者に所定のポイントを付与する（Ｓ３２）。すなわち、当該会議参加者のポイント記憶部に記憶されている値（ポイント数）に付与したポイントを加算して更新する。

また、次発話者決定部２２は、各会議参加者の映像データおよび／または音声データを分析し、発話意欲の高まりを検出した場合（Ｓ３３：ＹＥＳ）、当該会議参加者に所定のポイントを付与する（Ｓ３４）。すなわち、当該会議参加者のポイント記憶部に記憶されている値（ポイント数）に付与したポイントを加算して更新する。

また、次発話者決定部２２は、次発話者としてある会議参加者を推薦するキー入力データ（推薦要求）を受信した場合（Ｓ３５：ＹＥＳ）、推薦された会議参加者に所定のポイントを付与する（Ｓ３６）。すなわち、当該会議参加者のポイント記憶部に記憶されている値（ポイント数）に付与したポイントを加算して更新する。

なお、Ｓ３２、Ｓ３４、Ｓ３６で付加されるポイントは、検出されたイベント毎に当該ポイントの有効期限（所定の期間・時間）があらかじめ設定されており、過去に加算された各ポイントは、対応する有効期限が経過した後に、効力を失うものとする。すなわち、Ｓ３２、Ｓ３４、Ｓ３６でポイントが加算されてから、対応する所定の有効期限が経過すると、次発話者決定部２２は、各会議参加者のポイント記憶部の値(ポイント数)から有効期限を経過したポイントを減算する。

そして、次発話者決定部２２は、ポイント記憶部を参照し、所定の閾値（ポイント数）を超える会議参加者が存在するか否かを判別し（Ｓ３７）、所定の閾値を超える会議参加者が存在しない場合（Ｓ３７：ＮＯ）、Ｓ３１に戻り以降の処理を行う。一方、所定の閾値を超える会議参加者が存在する場合（Ｓ３７：ＹＥＳ）、次発話者決定部２２は、閾値を超えた会議参加者を次発話者として決定する（Ｓ３８）。

そして、次発話者通知部２４は、通知音声記憶部２５から、次発話者決定部２２が決定した次発話者に対応する通知音声を取得し（Ｓ３９）、タイミング決定部２３が決定したタイミングで取得した通知音声を会議参加者の全ての端末１に送信する（Ｓ４０）。

各端末１は、通知音声を受信し、受信した通知音声をスピーカ１５から出力・再生する（Ｓ４１）。なお、タイミング決定部２３のタイミングを決定する処理については後述する。各会議参加者は、スピーカ１５から出力される通知音声を聞くことで、次発話者を認識することができる。

なお、図５では、発話意欲が高い会議参加者、推薦された会議参加者を次発話者として決定することとしたが、発話回数や発話時間が少ない会議参加者を、次発話者として決定することとしてもよい。この場合、全ての会議参加者からまんべんなく意見を聴取することができる。

具体的には、次発話者決定部２２は、単位時間当たりの発話回数を会議参加者毎に算出し、または単位時間当たりの発話時間を会議参加者毎に算出し、算出した数値が所定の閾値よりも低い会議参加者を次発話者として決定する。

また、所定の閾値を設けることなく、他の会議参加者の発話回数または発話時間と比較し、著しく発話回数が低い場合、または著しく発話時間が下回る会議参加者を次発話者として決定することも考えられる。

また、図５のＳ３３では、現在発話者の発話リズムと、他の会議参加者の音声・身体動作とがどの程度リズム同調しているかを分析し、所定の値以上の相関を有する会議参加者については、発話意欲が高まったとしてポイントを付与することとしたが、逆にこの相関が所定の値よりも小さい会議参加者を、次発話者として決定することも考えられる。すなわち、現在発話者の発話音声と、他の会議参加者の言動のリズムが合う場合（つまり発話に対して、他の会議参加者がタイミング良く反応している場合）、それらの間の相関を演算すると１または−１に近付き、相関があるといえる（演算結果の絶対値が大きいほど相関がある）。反対の場合、つまり他の会議参加者が無反応だったり、あるいは発話とは別の言動をしている場合、発話音声と他の会議参加者の言動の相関を演算すると０に近付き、相関が無いといえる。したがって、相関が所定の値よりも小さい会議参加者を次発話者として決定することにより、それまで会話のやり取りに積極的に加わっていなかった会議参加者に、会議に積極的に加わってもらうよう誘導することができる。

次に、タイミング決定部２３が、会議参加者に次発話者を通知（提示）するタイミングを決定する方法について説明する。

図６は、タイミング決定部２３の動作を示すフローチャートである。タイミング決定部２３は、データ取得部２１が各端末から取得した音声データを分析し、全ての会議参加者に次発話者を通知（提示）するタイミングを決定する。図６に示す例では、会議中に無音区間を検出した場合、すなわち会話の切れ目を検出した場合（Ｓ５１：ＹＥＳ）、または、発話の完了を推定した場合（Ｓ５２：ＹＥＳ）に、次発話者の通知音声を各端末１に送信し、各端末１で再生させるタイミングとして決定する（Ｓ５３）。

発話の完了を推定する方法（Ｓ５２）としては、各会議参加者の過去の複数の発話音声を時系列で量子化し、その発話終了時刻を量子化したものとで各会議参加者ごとの発話終了を推定するための線形予測モデルを構築しておき、リアルタイムに発話音声を時系列で量子化したものを入力として、出力が任意の規定値を越えた時を発話の完了タイミングとして推定する。

以上説明した本実施形態では、会議参加者の発話意欲が高い場合、または、特定の会議参加者に発話させたい場合などを判定して、次発話者を決定し、決定した次発話者の通知音声を各端末で出力・再生することで、全ての会議議参加者が次に発言権を持つ次発話者が誰であるかを認識させ、当該次発話者へ発話の開始を誘導することができる。

発話意欲がある会議参加者が次発話者となることを要求し、または、次に発話させたい会議参加者を会議参加者または次発話者誘導サーバ２が指定・決定することで、次に発話する会議参加者の確実性を高めることができる。また、視覚情報を用いて次発話者を提示するのではなく、聴覚情報を用いて次発話者の発話権を持つ会議参加者を提示することにより、全ての会議参加者が次発話者が誰であるかを（視覚情報を使うよりも）容易に認識できるため、発話の衝突を低減することができる。

すなわち、本実施形態では、会議参加者の間でスムーズに話者交代しながら会議を進めることができる。

特に、各自のデスクトップ上でおこなうWeb会議のような利用環境では、常に全ての会議参加者を注視しているわけではない。別の処理をデスクトップ上で行っていたり、デスク近くの人と会話しているかもしれない。そのような環境では視覚情報によって次に発言権を持つ人を他の会議参加者へ通知することは難しい。本実施形態では、音で合図することによって、画面を注視していない状態でも、次に発言権を持つ人（次発話者）を認識でき、会話の衝突を回避し、会議を進行できる。

また、本実施形態では、次に発話権を取得する次発話者を提示するために音声（通知音声）を用いるため、場合によっては会話の流れを中断して、会議に悪影響を及ぼす恐れがある。このため、本実施形態では、無音区間（会話の切れ目）を検出し、あるいは現在の発話者の発話が終了するタイミングを推定し、このタイミングで次発話者の通知音声を端末１に送信し、再生させることで全ての会議参加者に次発話者を音声で通知（合図）する。このようなタイミングで、合いの手などの通知音声を入れることで、スムーズな話者交替を実現することができる。すなわち、会話の流れを阻害せず、会議の空気を壊さないようにすることができる。

また、本実施形態では、発話意欲の高い会議参加者、または、発話させたい会議参加者を次発話者として決定し、決定した会議参加者が次に発言権を持つことを通知音声の再生によって全ての会議参会議に認識させることによって、次発話者として決定された会議参加者の発話の開始を誘導することができる。

また、本実施形態で、通知音声を用いて全ての会議参加者に次発話者を通知するため、次発話者が誰であるかを認識させることができる。すなわち、通知音声は、それぞれの会議参加者の肉声であるため、会話中に通知音声が流れたとしても違和感が少なく、さらに、誰が次に発言権を持つのかを特定しやすい。

なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。例えば、上記実施形態では、タイミング決定部２３が各端末１からの音声データを分析して、会話の切れ目を検出し、全ての会議参加者に次発話者の通知音声を送信するタイミングを決定することとしたが、次発話者決定部２２が次発話者を決定したタイミングで次発話者の通知音声を各端末１に送信することとしてもよい。

１：端末
１２：ディスプレイ
１３：カメラ
１４：マイク
１５：スピーカ
１６：キーボード
２：次発話者誘導サーバ
２１：データ取得部
２２：次発話者決定部
２３：タイミング決定部
２４：次発話者通知部
２５：通知音声記憶部

Claims

ネットワークを介した遠隔会議における次発話者誘導装置であって、
次に発言する次発話者を会議参加者に通知するための通知音声を、会議参加者毎に記憶する通知音声記憶手段と、
会議参加者が使用する各端末から入力される、当該会議参加者の映像データ、音声データおよびキー入力データの少なくとも１つの入力データを取得するデータ取得手段と、
前記データ取得手段が取得した入力データを分析し、次発話を会議参加者の中から決定する次発話者決定手段と、
前記データ取得手段が取得した入力データを分析して会話の切れ目を検出し、次発話者を通知するタイミングを決定するタイミング決定手段と、
前記通知音声記憶手段から、次発話者決定手段が決定した次発話者に対応する通知音声を取得し、前記タイミング決定手段が決定したタイミングで前記通知音声を会議参加者の各端末に送信し、出力させる次発話者通知手段と、を有すること
を特徴とする次発話者誘導装置。
請求項１記載の次発話者誘導装置であって、
前記次発話者決定手段は、前記入力データを分析し、会議参加者毎に、当該会議参加者に発生した所定のイベントを検出し、前記イベントが検出されると所定のポイントを加算し、ポイントが閾値を超えた会議参加者を次発話者として決定すること
を特徴とする次発話者誘導装置。
請求項２記載の次発話者誘導装置であって、
前記所定のイベントには、他の会議参加者との発話の衝突により発話を中断した場合、話者の発話音声と身体動作のタイミングが所定の相関関係で同調している場合、および次発話者として推薦された場合の少なくとも１つが含まれること
を特徴とする次発話者誘導装置。
請求項１記載の次発話者誘導装置であって、
前記次発話者決定手段は、会議参加者自らが次発話者となることを要求する次発話者要求を端末から受信した場合、または、他の会議参加者を次発話者として推薦する推薦要求を端末から受信した場合、前記次発話者要求の会議参加者または前記推薦要求の他の会議参加者を次発話者として決定すること
を特徴とする次発話者誘導装置。
ネットワークを介した遠隔会議における、コンピュータが行う次発話者誘導方法であって、
前記コンピュータは、
次に発言する次発話者を会議参加者に通知するための通知音声を、会議参加者毎に記憶する通知音声記憶部を有し、
会議参加者が使用する各端末から入力される、当該会議参加者の映像データ、音声データおよびキー入力データの少なくとも１つの入力データを取得するデータ取得ステップと、
前記データ取得ステップで取得した入力データを分析し、次発話を会議参加者の中から決定する次発話者決定ステップと、
前記データ取得ステップで取得した入力データを分析して会話の切れ目を検出し、次発話者を通知するタイミングを決定するタイミング決定ステップと、
前記通知音声記憶部から、次発話者決定ステップで決定した次発話者に対応する通知音声を取得し、前記タイミング決定ステップで決定したタイミングで前記通知音声を会議参加者の各端末に送信し、出力させる次発話者通知ステップと、を行うこと
を特徴とする次発話者誘導方法。
請求項５記載の次発話者誘導方法であって、
前記次発話者決定ステップは、前記入力データを分析し、会議参加者毎に、当該会議参加者に発生した所定のイベントを検出し、前記イベントが検出されると所定のポイントを加算し、ポイントが閾値を超えた会議参加者を次発話者として決定すること
を特徴とする次発話者誘導方法。
請求項６記載の次発話者誘導方法であって、
前記所定のイベントには、他の会議参加者との発話の衝突により発話を中断した場合、話者の発話音声と身体動作のタイミングが所定の相関関係で同調している場合、および次発話者として推薦された場合の少なくとも１つが含まれること
を特徴とする次発話者誘導方法。
請求項５記載の次発話者誘導方法であって、
前記次発話者決定ステップは、会議参加者自らが次発話者となることを要求する次発話者要求を端末から受信した場合、または、他の会議参加者を次発話者として推薦する推薦要求を端末から受信した場合、前記次発話者要求の会議参加者または前記推薦要求の他の会議参加者を次発話者として決定すること
を特徴とする次発話者誘導方法。
請求項５から請求項８のいずれか一項に記載の次発話者誘導方法をコンピュータに実行させるための次発話者誘導プログラム。