JP2013183183A - 会議装置、会議方法および会議プログラム - Google Patents
会議装置、会議方法および会議プログラム Download PDFInfo
- Publication number
- JP2013183183A JP2013183183A JP2012043614A JP2012043614A JP2013183183A JP 2013183183 A JP2013183183 A JP 2013183183A JP 2012043614 A JP2012043614 A JP 2012043614A JP 2012043614 A JP2012043614 A JP 2012043614A JP 2013183183 A JP2013183183 A JP 2013183183A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- desire
- score
- conference
- participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】特別な操作を行うことなく発話できるとともに、発話欲求の現れ方の個人差を加味して各参加者の発話欲求の度合いを表示可能とする。
【解決手段】会議装置1であって、自参加者の映像データから発話欲求があると推定される所定の動作を検出する動作検出手段22と、検出した動作に基づいて自参加者の発話欲求スコアを算出するとともに、当該発話欲求スコアを減衰させる発話欲求スコア算出手段23と、自参加者の音声データから発話を検出する発話検出手段26と、発話欲求スコアが所定の閾値を超えている状態で発話が検出されなかった場合に、発話欲求スコアが減少または早く減衰させるように制御する修正手段29と、他の会議装置から他参加者の発話欲求スコアを受信する受信手段32と、各参加者の発話欲求スコアに応じた発話欲求の度合いを示す情報が設定された会議映像を編集し、表示する映像編集手段31と、を有する。
【選択図】図1
【解決手段】会議装置1であって、自参加者の映像データから発話欲求があると推定される所定の動作を検出する動作検出手段22と、検出した動作に基づいて自参加者の発話欲求スコアを算出するとともに、当該発話欲求スコアを減衰させる発話欲求スコア算出手段23と、自参加者の音声データから発話を検出する発話検出手段26と、発話欲求スコアが所定の閾値を超えている状態で発話が検出されなかった場合に、発話欲求スコアが減少または早く減衰させるように制御する修正手段29と、他の会議装置から他参加者の発話欲求スコアを受信する受信手段32と、各参加者の発話欲求スコアに応じた発話欲求の度合いを示す情報が設定された会議映像を編集し、表示する映像編集手段31と、を有する。
【選択図】図1
Description
本発明は、ネットワークを介した遠隔会議を行う会議装置、会議方法および会議プログラムに関する。
エコや、経費削減の観点から、遠隔会議システムの需要が増加している。遠隔会議システムを利用すると、離れた場所から複数人で会議を実施できるため便利である。特に、Web会議のように、インターネットに接続できればノートPCからでも参加できるシステムは、使用場所の制限が少ない。
特許文献1には、遠隔会議での発言権をコントロールするためにトークンという概念を導入し、発言したい会議参加者がトークンを獲得することで、発言権を得ることができる多地点通信システムが記載されている。
このような遠隔会議システムの欠点として、映像や音声の質が低いことが挙げられる。すなわち、映像の解像度は低く、映像表示サイズはある程度小型のものに制限され、また1つのディスプレイに並べられた複数の参加者映像から参加者の表情や仕草などの情報を読み取ることは困難であり、誰が次に発話しそうなのかが分からない。さらに、音声遅延の影響により、実際に誰が発話を開始したのかを、他の参加者が認知するまでに遅れが生じる。
以上の理由から、遠隔会議における問題として、誰が次に発話しそうなのかがわからず、同時に複数の参加者が発話を開始する発話の衝突が挙げられる。このように発話の衝突が頻繁に発生し、そこからの再開も困難な会議では、参加者に精神的なストレスが蓄積するとともに、会議の進行を停滞させてしまう。
特許文献1では、発話したいという欲求が生じた際に、まずトークンを獲得する操作をしなくてはならない。このため、参加者は、発言する際には、普段の会話では行われないトークンを獲得するという意識的な行動が必要となり、会議の円滑な進行が妨げられる可能性がある。
また、参加者の発話欲求を、参加者の動作から判定することも考えられるが、各参加者の発話欲求の現れ方(例えば、発話欲求のあるときに行う動作や頻度など)には個人差があり、共通の判定基準で判定することは困難である。
本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、参加者に発話したいという欲求が生じた際に、特別な操作を行うことなく発話できるとともに、発話欲求の現れ方の個人差を加味して各参加者の発話欲求の度合いを表示可能な会議装置、会議方法および会議プログラムを提供することにある。
上記目的を達成するため、本発明は、ネットワークを介して遠隔会議を行う会議装置であって、当該会議装置を使用する自参加者の映像データから発話欲求があると推定される所定の動作を検出する動作検出手段と、前記動作検出手段が検出した動作に基づいて自参加者の発話欲求スコアを算出するとともに、当該発話欲求スコアを時間に応じて減衰させる発話欲求スコア算出手段と、前記自参加者の音声データから発話を検出する発話検出手段と、前記発話欲求スコアが所定の閾値を超えている状態で、発話が検出されなかった場合に、前記発話欲求スコアが減少または早く減衰させるように制御する修正手段と、ネットワークを介して他の会議装置から他参加者の発話欲求スコアを受信する受信手段と、自参加者および他参加者の発話欲求スコアに応じた発話欲求の度合いを示す情報が設定された会議映像を編集し、表示する映像編集手段と、を有する。
本発明は、ネットワークを介して遠隔会議を行う会議方法であって、会議装置は、当該会議装置を使用する自参加者の映像データから発話欲求があると推定される所定の動作を検出するとともに、自参加者の音声データから発話を検出する検出ステップと、前記検出ステップで検出した動作に基づいて自参加者の発話欲求スコアを算出するとともに、当該発話欲求スコアを時間に応じて減衰させる算出ステップと、前記発話欲求スコアが所定の閾値を超えている状態で、発話が検出されなかった場合に、前記発話欲求スコアが減少または早く減衰させるように制御する修正ステップと、ネットワークを介して他の会議装置から他参加者の発話欲求スコアを受信する受信ステップと、自参加者および他参加者の発話欲求スコアに応じた発話欲求の度合いを示す情報が設定された会議映像を編集し、表示する映像編集ステップと、を行う。
本発明は、前記会議装置としてコンピュータを機能させるための会議プログラムである。
本発明によれば、参加者に発話したいという欲求が生じた際に、特別な操作を行うことなく発話できるとともに、発話欲求の現れ方の個人差を加味して各参加者の発話欲求の度合いを表示可能な会議装置、会議方法および会議プログラムを提供することができる。
以下、本発明の実施の形態について、図面を参照して説明する。
図1は、本発明の実施形態に係る会議システムの全体構成図である。本実施形態の会議システムは、ネットワーク9に接続された複数のクライアント1を用いて、遠隔地にいる複数の会議参加者(以下、「参加者」という)が遠隔会議を行うためのシステムである。図示する会議システムは、複数の参加者の各々が使用する複数のクライアント1と、これらのクライアント1とネットワーク9を介して接続されたサーバ3とを備える。
クライアント1(会議装置)は、例えばPCなどであって、当該クライアント1を使用する自参加者の映像を撮影するビデオカメラ11と、自参加者が発言した音声を集音するマイク12と、会議映像を表示する表示装置(ディスプレイ)13と、サーバ3から送信された他の参加者の音声を出力するスピーカ14とを備える。
また、クライアント1は、映像取得部21と、動作検出部22と、発話欲求スコア計算部23と、発話欲求フラグ設定部24と、音声取得部25と、発話フラグ設定部26と、メモリ27と、他者発話欲求値計算部28と、修正値計算部29と、映像生成部30と、映像編集部31と、通信部32とを備える。
映像取得部21は、ビデオカメラ11が撮像した映像データを取り込む。動作検出部22は、自参加者の映像データから発話欲求があると推定・想定される所定の動作を検出する。本実施形態では、動作検出部22は、自参加者の映像データから発話欲求があると推定される複数の種類の動作を検出する。
発話欲求スコア計算部23は、動作検出部22が検出した動作に基づいて自参加者の発話欲求スコアを算出するとともに、当該発話欲求スコアを時間に応じて減衰させる。また、本実施形態の発話欲求スコア計算部23は、動作検出部22が検出した動作の種類に応じた発話欲求スコアを算出するとともに、当該発話欲求スコアを動作の種類に応じて減衰させる。また、発話欲求スコア計算部23は、算出および減衰した発話欲求スコアをメモリ27に記憶する。
発話欲求フラグ設定部24は、発話欲求スコア計算部23が算出した発話欲求スコアが所定の閾値を越えた場合、メモリ27に記憶される発話欲求フラグに1を設定する。
音声取得部25は、マイク12から集音された音声データを取り込む。発話フラグ設定部26(発話検出手段)は、自参加者の音声データから発話を検出する。そして、発話フラグ設定部26は、発話を検出すると、メモリ27の発話フラグを1に設定する。
他者発話欲求値計算部28は、ネットワーク9およびサーバ3を介して、他の各クライアント1から他参加者の発話欲求フラグを受信し、これらを加算した合計値を他者発話欲求値とする。
修正値計算部29(修正手段)は、発話欲求スコア計算部23が算出した自参加者の発話欲求スコアが所定の閾値を超えている状態で、自参加者の発話が検出されなかった場合に、発話欲求スコアが減少または早く減衰させるように制御する。また、修正値計算部29は、自参加者の発話が検出された場合であって、発話欲求スコアが所定の閾値を超えていない場合に、発話欲求スコアが増加または遅く減衰させるように制御する。
映像生成部30は、映像取得部21が取り込んだ自参加者の映像データと、通信部32が受信した他参加者の映像データとを配置した会議映像を生成する。映像編集部31は、自参加者および他参加者の発話欲求スコアに応じた発話欲求の度合いを示す情報を、映像生成部30が生成した会議映像に設定・編集し、表示装置13に表示する。
通信部32(受信手段)は、映像取得部21により取り込まれた映像データを、ネットワーク9およびサーバ3を介して、他のクライアント1に送信するとともに、映像生成部30に送出する。また、通信部32は、他の参加者の映像データをネットワーク9およびサーバ3を介して他のクライアント1から受信し、映像生成部30に送出する。また、通信部32は、音声取得部25により取り込まれた音声データをネットワーク9およびサーバ3を介して他のクライアント1に送信するとともに、他の参加者の音声データを、ネットワーク9およびサーバ3を介して他のクライアント1から受信し、スピーカ14に出力・再生する。また、通信部32は、メモリ27に記憶された各種情報(発話欲求スコア、発話欲求フラグ、発話フラグなど)を、ネットワーク9およびサーバ3を介して、他のクライアント1と送受信する。
サーバ3は、各参加者が使用する各クライアント1から入力される、当該参加者の映像データ、音声データおよびメモリ27の情報をそれぞれ受信し、他のクライアント1に送信する。
クライアント1およびサーバ3は、例えば、CPUと、メモリと、HDD等の外部記憶装置と、入力装置と、出力装置とを備えた汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、CPUがメモリ上にロードされた所定のプログラムを実行することにより、各装置の各機能が実現される。例えば、クライアント1およびサーバ3およびの各機能は、クライアント1用のプログラムの場合はクライアント1のCPUが、そして、サーバ3用のプログラムの場合はサーバ3のCPUが、それぞれ実行することにより実現される。
また、クライアント1用のプログラムおよびサーバ3用のプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD−ROMなどのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
次に、本実施形態のクライアント1の動作について説明する。
各参加者は、それぞれ、クライアント1の前に座り、ネットワークを介した遠隔会議を行う。クライアント1の映像取得部21は、ビデオカメラ11で撮像された自参加者の映像データを取り込み、動作検出部22に送出する。
動作検出部22は、ビデオカメラ11の映像データから自参加者の所定の動作を検出する。ここで検出される所定の動作は、例えば、「頷き」、「挙手」、「手を顔に近づける」などの発話欲求があると想定される少なくとも1つの種類の動作である。
動作検出部22は、画像認識技術を用いて映像データに対し画像処理を行うことで、このような動作を検出する。例えば、「頷き」動作は、顔向き検出を行い、顔の向きが上下に動いた場合に、「頷き」と判別する。
「挙手」動作は、例えば、顔領域と隣接していない肌色の領域を手の領域であると識別し、この手の領域の重心が画像(映像データ)の縦軸(y軸)方向に、あらかじめ定めた所定の高さ(閾値)を超えた場合、「挙手」と判別する。もしくは、例えば手と肘関節の位置座標を求め、肘関節よりも手の方が高い位置にあるときに「挙手」と判別することなどが考えられる。
「手を顔に近づける」動作は、例えば、顔領域と隣接していない肌色の領域を手の領域であると識別し、この手の領域が顔領域と重なった場合、「手を顔へ近づける」と判別する。もしくは、例えば、顔の位置座標を求め、手の領域が顔の位置座標に一定距離以内に近づいた場合に「手を顔に近づける」と判別することなどが考えられる。なお、各動作の検知方法は、どのような方法を用いてもよく、上記記載した方法に限定されるものではない。
そして、動作検出部22で検出された動作の情報(種類)は、発話欲求スコア計算部23に送出される。
図2は、発話欲求スコア計算部23の処理を示すフローチャートである。発話欲求スコア計算部23は、繰り返し図2に示す処理を行う。
発話欲求スコア計算部23は、頷きのスコアを算出し(S11)、挙手のスコアを算出し(S12)、顔に手を近づける動作のスコアを算出し(S13)、S11〜S13でそれぞれ算出したスコアを合計し、発話欲求スコアとしてメモリ27に記憶する(S14)。
そして、発話欲求スコア計算部23は、後述する頷きの効果持続時間、挙手の効果持続時間および顔に手を近づける動作の効果持続時間から、当該フローチャートの一回分の処理時間をそれぞれ減算する(S15)。なお、各効果持続時間の最小値は0である。また、発話欲求スコア計算部23は、フローチャートの処理に要する時間を計測しているものとする。
図3は、図2のS11の処理(頷きのスコアの算出処理)を示すフローチャートである。発話欲求スコア計算部23は、動作検出部22が頷きを検出した場合(S21:YES)、頷きの効果持続時間をあらかじめ定めた所定の時間(At)とし(S22)、メモリ27に記憶された現時点の頷きのスコアにあらかじめ定めた所定の値(加算スコアA)を加算する(S23)。動作検出部22が頷き動作を検出していない場合(S21:NO)、S24に進む。
そして、発話欲求スコア計算部23は、頷きの効果持続時間が0でない場合(S24:NO)、処理を終了する。また、発話欲求スコア計算部23は、頷きの効果持続時間が0で(S24:YES)、頷きのスコアが0の場合(S25:YES)、処理を終了する。また、発話欲求スコア計算部23は、24:YESの場合であって、頷きのスコアが0でない場合(S25:NO)、頷きのスコアを時間に応じて減衰させるように制御する。本実施形態では、頷きの効果持続時間At経過後に、時間とともに頷きの減衰傾き(1/Ad)に従って減衰・減少させる(S26)。なお、Adは、Ad>0の所定の値である。
図4は、図2のS12の処理(挙手のスコアの算出処理)を示すフローチャートであり、図5は、図2のS13の処理(顔に手を近づける動作のスコアの算出処理)を示すフローチャートである。図4のS31からS26の処理、および、図5のS41からS46の処理は、図3のS21からS26の処理と同様であるため、ここでは説明を省略する。
なお、挙手用の効果持続時間Btおよび顔に手を近づける動作用の効果持続時間Ctは、あらかじめ定めた所定の値であって、挙手用の効果持続時間Atと異なる値であっても、同じ値であってもよい。また、挙手用の加算スコアBおよび顔に手を近づける動作用の加算スコアCは、あらかじめ定めた所定の値であって、頷き用の加算スコアAと異なる値であっても、同じ値であってもよい。また、減衰傾きに使用する挙手用のBdおよび顔に手を近づける動作用のCdは、あらかじめ定めた所定の値であって、頷き用のAdと異なる値であっても、同じ値であってもよい。
図12は、頷き、挙手および顔に手を近づける動作の効果持続時間と加算スコアと減衰とを説明するための説明図である。
図12(a)の頷きのスコアの場合、頷きが検出されると、頷き用の効果持続時間Atの間、現時点の頷きのスコアに頷き用の加算スコアAを加算した値が頷きのスコアとして維持される。効果持続時間Atが経過すると、図示するように1/Adの傾きで頷きのスコアが徐々に減衰(減少)するように、頷きのスコアが制御される。
図示する頷きのスコアは、頷きのスコアが0の時点で頷きが検出され、効果持続時間Atの間、頷きのスコアとして加算スコアAが維持され、効果持続時間Atが経過後、スコアAが減衰し、減衰の途中で次の頷きが検出され、減衰途中の頷きのスコアに加算スコアAが加算され、効果持続時間Atの間、加算後の値が頷きのスコアとして維持されることを示している。
また、挙手のスコアの場合、挙手が検出されると、挙手用の効果持続時間Btの間、現時点の挙手のスコアに挙手用の加算スコアBを加算した値が挙手のスコアとして維持される。効果持続時間Btが経過すると、図示するように1/Bdの傾きで挙手のスコアを減衰(減少)するように制御する。
また、手を顔に近づける動作のスコアの場合、手を顔に近づける動作が検出されると、当該動作用の効果持続時間Ctの間、現時点の当該動作のスコアに当該動作用の加算スコアCを加算した値が当該動作のスコアとして維持される。効果持続時間Ctが経過すると、図示するように1/Cdの傾きで当該動作のスコアを減衰(減少)するよう制御する。
発話欲求スコア計算部23は、図3から図5でそれぞれ算出した頷きのスコア、挙手のスコアおよび手を顔に近づける動作のスコアをメモリ27に記憶する。また、発話欲求スコア計算部23は、図2のS14でこれらのスコアを合計した発話欲求スコアをメモリ27に記憶するとともに、発話欲求フラグ設定部24に送出する。図12(b)は、図12(a)の各スコアを合計した発話欲求スコアの一例を示すものである。
発話欲求フラグ設定部24は、発話欲求スコア計算部23が算出し、メモリ27に記憶された発話欲求スコアに基づいて、図6に示す処理を行うことで発話欲求フラグを設定し、設定した発話欲求フラグをメモリ27に記憶する。
図6は、発話欲求フラグ設定部24の処理を示すフローチャートである。発話欲求フラグ設定部24は、メモリ27に記憶された発話欲求スコアを監視し、繰り返し図6の処理を行う。
発話欲求フラグ設定部24は、発話欲求スコアが所定の閾値(図示する例では、「100」)以上の場合で(S51:YES)、メモリ27に記憶された発話欲求フラグに1が設定されている場合は(S52:YES)、メモリ27のフラグを更新することなく、S51に戻る。また、発話欲求フラグ設定部24は、S51:YESで、メモリ27に記憶された発話欲求フラグに0が設定されている場合は(S52:NO)、メモリ27の発話欲求フラグを0に設定(更新)し(S53)、S51に戻る。
発話欲求フラグ設定部24は、発話欲求スコアが所定の閾値(図示する例では、「100」)以上の場合で(S51:YES)、メモリ27に記憶された発話欲求フラグに1が設定されている場合は(S52:YES)、メモリ27のフラグを更新することなく、S51に戻る。また、発話欲求フラグ設定部24は、S51:YESで、メモリ27に記憶された発話欲求フラグに0が設定されている場合は(S52:NO)、メモリ27の発話欲求フラグを0に設定(更新)し(S53)、S51に戻る。
また、発話欲求フラグ設定部24は、発話欲求スコアが所定の閾値(例えば「100」)より小さい場合(S51:NO)、メモリ27に記憶される発話欲求フラグを0に設定し(S54)、S51に戻る。なお、メモリ27に記憶された発話欲求フラグに0が設定されている場合は、メモリ27のフラグを更新することなく、S51に戻る。
メモリ27に記憶された自参加者の発話欲求フラグおよび発話欲求スコアは、通信部32によりネットワーク9およびサーバ1を介して他の全てのクライアント1に送信される。また、他の全てのクライアント1からネットワーク9を介して送信された他参加者の発話欲求フラグおよび発話欲求スコアは通信部32より受信され、メモリ27に記憶される。このように、各参加者の発話欲求フラグおよび発話欲求スコアは、全てのクライアント1で共有される。
そして、他者発話欲求値計算部28は、通信部32を介して受信した全ての他参加者の発話欲求フラグを合計し、他者発話欲求値としてメモリ27に記憶するとともに、修正値計算部29に送出する。
一方、音声取得部25は、マイク12から入力された自参加者の音声を集音し、発話フラグ設定部26に送出する。発話フラグ設定部26は、マイク12から入力された自参加者の音声に基づいて、図7に示す処理を行うことで発話フラグを設定し、設定した発話フラグをメモリ27に記憶する。
図7は、発話フラグ設定部26の処理を示すフローチャートである。発話フラグ設定部26は、図6の処理を繰り返し行う。発話フラグ設定部26は、マイク12から入力された自参加者の音声(音量、大きさ)が所定の閾値以上の場合で(S61:YES)、メモリ27に記憶された発話フラグに1が設定されている場合は(S62:YES)、メモリ27のフラグを更新することなく、S61に戻る。また、発話フラグ設定部26は、S61:YESで、メモリ27に記憶された発話フラグに0が設定されている場合は(S62:NO)、メモリ27の発話フラグを0に設定(更新)し(S63)、S61に戻る。また、発話フラグ設定部26は、音声が所定の閾値より小さい場合(S61:NO)、メモリ27に記憶される発話フラグを0に設定し(S64)、S61に戻る。なお、メモリ27に記憶された発話フラグに0が設定されている場合は、メモリ27のフラグを更新することなく、S61に戻る。
修正値計算部29は、メモリ27に記憶された自参加者の発話欲求フラグおよび発話フラグをモニタし、また、他者発話欲求値計算部28が算出した他者発話欲求値に基づいて、図8から図11に示す処理を行うことで発話欲求スコア(動作の影響)を修正する。すなわち、各参加者の発話欲求の現れ方(例えば、発話欲求のあるときに行う動作の種類や頻度など)の個人差を加味して、発話欲求スコアの算出方法を修正する。
図8は、修正値計算部29の動作(発話欲求スコアを増加させる動作)を示すフローチャートである。修正値計算部29は、メモリ27の発話フラグが0から1に変化した場合であって(S71:YES)、発話欲求フラグが1の場合(S72:YES)、S71に戻り以降の処理を繰り返し行う。
また、修正値計算部29は、S71:YESであって、発話欲求フラグが0の場合(S72:NO)、図9で説明する動作の影響を増加させる処理を行い(S73)、メモリ27に記憶される表示用発話欲求スコアを所定の定数(例えば、100)に設定し(S74)、S71に戻り以降の処理を繰り返し行う。
なお、S74で所定の定数を設定する表示用発話欲求スコアは、後述する会議映像(図13参照)で発話欲求の度合いを示す情報(例えば、発話欲求インジケータ)を生成する際に用いられる発話欲求スコアであって、メモリ27の頷きのスコア、挙手のスコアおよび手を顔に近づける動作のスコアを加算した発話欲求スコアとは別のスコアである。映像編集部31は、表示用発話欲求スコアに前記定数が設定されている場合は、表示用発話欲求スコアの定数を用いて発話欲求の度合いを示す情報を生成する。また、表示用発話欲求スコアに0が設定されている場合は、頷きのスコア、挙手のスコアおよび手を顔に近づける動作のスコアを加算した発話欲求スコアを用いて発話欲求の度合いを示す情報を生成する。これにより、発話フラグが1の発話中の参加者の発話欲求インジケータを、最大の状態(発話欲求フラグが1の状態)にすることができる。
S71:YESであってS72:NOの場合は、発話欲求スコアが閾値を超えた発話欲求状態でないにもかかわらず、自参加者が発話した場合である。この場合、自参加者の発話欲求を示す動作は控えめであると判断し、当該自参加者の発話欲求スコアが増加して算出されるように、S74(図9の処理)で、発話欲求スコアが増加または遅く減衰するように、加算スコア(A、B、C)、効果持続時間(At、Bt、Ct)、減衰傾きに用いる値(Ad、Bd、Cd)を調整する。
一方、修正値計算部29は、S71:NOであって、メモリ27の発話フラグが1から0に変化した場合(S75:YES)、メモリ27の発話欲求スコアを0に設定し(S76)、S71に戻り以降の処理を繰り返し行う。また、修正値計算部29は、S71:NOであって、S75:NOの場合、S71に戻り以降の処理を繰り返し行う。なお、S76で発話欲求スコアを0に設定する場合、修正値計算部29は、S74で定数が設定される表示用発話欲求スコアと、頷きのスコア、挙手のスコアおよび手を顔に近づける動作のスコアとを全て0にする。また、修正値計算部29は、頷きの効果持続時間、挙手の効果持続時間および手を顔に近づける動作の効果持続時間を0にする。
図9は、図8のS73の動作の影響を増加させる処理を示すフローチャートである。修正値計算部29は、メモリ27に記憶された頷きのスコアが0より大きい場合(S81:YES)、頷き用の加算スコアA、頷き用の効果持続時間At、頷き用の減衰傾き1/AdのAdの少なくとも1つを、あらかじめ定めた所定の値(a)で乗算する(S82)。なお、aは1より大きい値である。そして、乗算後(a倍後)の各値を、それぞれ新たな頷き用の加算スコアA、効果持続時間At、減衰傾き1/AdのAdとして設定し、頷きのスコアを算出する際(図3)に使用する。また、修正値計算部29は、メモリ27の頷きのスコアが0の場合(S81:NO)、S83に進む。
そして、修正値計算部29は、メモリ27に記憶された挙手のスコアが0より大きい場合(S83:YES)、挙手用の加算スコアB、挙手用の効果持続時間Bt、挙手用の減衰傾き1/BdのBdの少なくとも1つを、あらかじめ定めた所定の値(b)で乗算する(S84)。なお、bは1より大きい値である。そして、乗算後(b倍後)の各値を、それぞれ新たな挙手用の加算スコアB、効果持続時間Bt、減衰傾き1/BdのBdとして設定し、挙手のスコアを算出する際(図4)に使用する。また、修正値計算部29は、メモリ27の挙手のスコアが0の場合(S83:NO)、S85に進む。
そして、修正値計算部29は、メモリ27に記憶された手を顔に近づける動作のスコアが0より大きい場合(S85:YES)、手を顔に近づける動作用の加算スコアC、手を顔に近づける動作用の効果持続時間Ct、手を顔に近づける動作用の減衰傾き1/CdのCdの少なくとも1つを、あらかじめ定めた所定の値(c)で乗算する(S86)。なお、cは1より大きい値である。そして、乗算後(c倍後)の各値を、それぞれ新たな手を顔に近づける動作用の加算スコアC、効果持続時間Ct、減衰傾き1/CdのCdとして設定し、手を顔に近づける動作のスコアを算出する際(図5)に使用する。また、修正値計算部29は、メモリ27の手を顔に近づける動作のスコアが0の場合(S85:NO)、処理を終了する。
図9の処理を行うことで、自参加者の発話欲求スコアが増加して算出されるようになり、自参加者の発話欲求の動作に現れる個人差を吸収することができる。
図10は、修正値計算部29の動作(発話欲求スコアを減衰させる動作)を示すフローチャートである。修正値計算部29は、メモリ27の発話欲求フラグおよび発話フラグをモニタし、メモリ27の発話欲求フラグが1の間に、発話フラグが0から1への変化が発生した場合(S91:YES)、S91に戻り以降の処理を繰り返し行う。
また、修正値計算部29は、S91:NOであって、メモリ27の発話欲求フラグが1の間に、他者発話欲求値が1以上の場合(S92:YES)、すなわち、いずれかの他参加者が発話したそうにしている場合、S91に戻り以降の処理を繰り返し行う。
また、修正値計算部29は、S91:NOであって、S92:NOの場合は、図11で説明する動作の影響を減衰させる処理を行い(S93)、S91に戻り以降の処理を繰り返し行う。この場合、発話欲求スコアが閾値を越えた発話欲求状態であるにもかかわらず、発話していない場合であって、また、全ての他参加者の他発話欲求スコアが所定の閾値を超えていない場合(すなわち、発話欲求フラグが全て0の場合でいずれの他参加者も発話したそうにしていない場合)である。このとき、当該自参加者の発話欲求を示す動作は表に出やすいと判別し、当該自参加者の発話欲求スコアが減衰して算出されるように、S93(図11の処理)で発話欲求スコアが減少または早く減衰するように、加算スコア(A、B、C)、効果持続時間(At、Bt、Ct)、減衰傾きに用いる値(Ad、Bd、Cd)を調整する。
図11は、図10のS93の動作の影響を減衰させる処理を示すフローチャートである。修正値計算部29は、メモリ27に記憶された頷きのスコアが0より大きい場合(S101:YES)、頷き用の加算スコアA、効果持続時間At、減衰傾き1/AdのAdの少なくとも1つを、あらかじめ定めた所定の値(a’)で乗算する(S82)。なお、a’は1より小さい値である。そして、乗算後(a’倍後)の各値を、それぞれ新たな頷き用の加算スコアA、効果持続時間At、減衰傾き1/AdのAdとして設定し、頷きのスコアを算出する際(図3)に使用する。また、修正値計算部29は、メモリ27の頷きのスコアが0の場合(S101:NO)、S103に進む。
そして、修正値計算部29は、メモリ27に記憶された挙手のスコアが0より大きい場合(S103:YES)、挙手用の加算スコアB、効果持続時間Bt、減衰傾き1/BdのBdの少なくとも1つを、あらかじめ定めた所定の値(b’)で乗算する(S104)。なお、b’は1より小さい値である。そして、乗算後(b’倍後)の各値を、それぞれ新たな挙手用の加算スコアB、効果持続時間Bt、減衰傾き1/BdのBdとして設定し、挙手のスコアを算出する際(図4)に使用する。また、修正値計算部29は、メモリ27の挙手のスコアが0の場合(S103:NO)、S105に進む。
そして、修正値計算部29は、メモリ27に記憶された手を顔に近づける動作のスコアが0より大きい場合(S105:YES)、手を顔に近づける動作用の加算スコアC、効果持続時間Ct、減衰傾き1/CdのCdの少なくとも1つを、あらかじめ定めた所定の値(c’)で乗算する(S106)。なお、c’は1より小さい値である。そして、乗算後(c’倍後)の各値を、それぞれ新たな手を顔に近づける動作用の加算スコアC、効果持続時間Ct、減衰傾き1/CdのCdとして設定し、手を顔に近づける動作のスコアを算出する際(図5)に使用する。また、修正値計算部29は、メモリ27の手を顔に近づける動作のスコアが0の場合(S105:NO)、処理を終了する。
図11の処理を行うことで、自参加者の発話欲求スコアが減少して算出されるようになり、自参加者の発話欲求の動作に現れる個人差を吸収することができる。
映像生成部30および映像編集部31は、ビデオカメラ11が撮像した自参加者の映像データと、ネットワーク9およびサーバ3を介して他のクライアント1から受信した他参加者の映像データと、メモリ27に記憶され送受される各参加者の発話欲求スコア、発話欲求フラグおよび発話フラグを用いて会議映像を生成・編集する。表示装置13は、映像編集部31が編集した会議映像を表示する。
図13は、会議映像の一例を示す図である。映像生成部30は、図示するように、各参加者の映像データをタイル状(升目状)に所定の位置に配置する。図示する例では、4人の参加者が会議に参加している。
そして、映像編集部31は、メモリ27に記憶された自参加者の発話欲求スコアおよび発話欲求フラグと、ネットワーク9を介して他のクライアント1から受信した他参加者の発話欲求スコアおよび発話欲求フラグを用いて、映像生成部30が生成した会議映像を編集する。具体的には、発話欲求スコアに応じた発話欲求の度合いを示す情報(図示する例では、発話欲求インジケータ)を、対応する参加者の映像データの近傍に設定する。
なお、映像編集部31は、表示用発話欲求スコアに定数が設定されている場合は、表示用発話欲求スコアの定数を用いて発話欲求の度合いを示す情報を生成し、表示用発話欲求スコアに0が設定されている場合は、頷きのスコア、挙手のスコアおよび手を顔に近づける動作のスコアを加算した発話欲求スコアを用いて発話欲求の度合いを示す情報を生成する。
図示する発話欲求インジケータは、左端を0、右端を100とし、この間を100等分し、発話欲求スコアの値に応じた割合分だけ、左端から所定の色を設定(点灯)することとする。なお、発話欲求インジケータの最大値は100とする。
また、映像編集部31は、各参加者の発話欲求フラグを参照して、発話欲求フラグが1になっている(すなわち、発話欲求スコアが閾値を越えている)参加者の映像データを所定の色(例えば、黄色)の枠で囲む、または、当該参加者の映像データの近傍に所定のマーク(例えば、挙手マーク)など設定するなどし、当該参加者を目立たせ、強調するように会議映像を編集する。なお、強調する方法は、これらに限定されるものではない。
また、映像編集部31は、各参加者の発話フラグを参照して、発話フラグが1になっている参加者(すなわち、発話している参加者)の映像データを所定の色(例えば、赤)の枠で囲む、または、当該参加者の映像データの近傍に所定のマーク(例えば、話者マーク)など設定するなどし、当該参加者を目立たせ、強調するように会議映像を編集してもよい。
以上説明した本実施形態では、ネットワークを介した遠隔会議において、発話欲求の現れ方の個人差を加味した各参加者の発話欲求の度合いを示す情報を表示することで、各参加者の発話欲求を容易に(自然に)認識することができる。そのため、参加者は、発話意思を他の参加者に示すためにマウスやキーボードなどの入力デバイスを操作することなく、各参加者の発話欲求を汲み取りながら、円滑な会議を進行することができる。例えば、発話の衝突を防止し、スムーズな話者交代を実現することができる
このように、本実施形態では、遠隔会議を行う際に、各参加者が普段どおりに会話・発言し、自然な動作をしている状態で、参加者毎の発話欲求の個人差を吸収しつつ判定し、その度合いを表示することで、相手の表情や仕草がディスプレイに表示される小さな映像から読み取れない場合であっても、円滑に会議を進行させ、また円滑な話者交代を実現することができる。
このように、本実施形態では、遠隔会議を行う際に、各参加者が普段どおりに会話・発言し、自然な動作をしている状態で、参加者毎の発話欲求の個人差を吸収しつつ判定し、その度合いを表示することで、相手の表情や仕草がディスプレイに表示される小さな映像から読み取れない場合であっても、円滑に会議を進行させ、また円滑な話者交代を実現することができる。
また、本実施形態では、発話欲求インジケータを用いて各参加者の発話欲求の度合いを表示することで、発話欲求の高い参加者を一目で容易に認識させることができる。
なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。例えば、本実施形態では各参加者の音声と映像とを送受信し、会議映像を生成・編集することとしたが、各参加者の映像データについては送受信することなく、音声と、メモリ27に記憶される発話欲求スコア、発話欲求フラグおよび発話フラグのみを他のクライアント1に送受信することとしてもよい。このような音声会議の場合、映像生成部30および映像編集部31は、各参加者の名前を所定の位置に配置し、各参加者の名前の横に、発話欲求インジケータや挙手マークなどを表示することが考えられる。
1 :クライアント
11:ビデオカメラ
12:マイク
13:表示装置
14:スピーカ
21:映像取得部
22:動作検出部
23:発話欲求スコア計算部
24:発話欲求フラグ設定部
25:音声取得部
26:発話フラグ設定部
27:メモリ
28:他者発話欲求計算部
29:修正値計算部
30:映像生成部
31:映像編集部
32:通信部
3 :サーバ
9 :ネットワーク
11:ビデオカメラ
12:マイク
13:表示装置
14:スピーカ
21:映像取得部
22:動作検出部
23:発話欲求スコア計算部
24:発話欲求フラグ設定部
25:音声取得部
26:発話フラグ設定部
27:メモリ
28:他者発話欲求計算部
29:修正値計算部
30:映像生成部
31:映像編集部
32:通信部
3 :サーバ
9 :ネットワーク
Claims (8)
- ネットワークを介して遠隔会議を行う会議装置であって、
当該会議装置を使用する自参加者の映像データから発話欲求があると推定される所定の動作を検出する動作検出手段と、
前記動作検出手段が検出した動作に基づいて自参加者の発話欲求スコアを算出するとともに、当該発話欲求スコアを時間に応じて減衰させる発話欲求スコア算出手段と、
前記自参加者の音声データから発話を検出する発話検出手段と、
前記発話欲求スコアが所定の閾値を超えている状態で、発話が検出されなかった場合に、前記発話欲求スコアが減少または早く減衰させるように制御する修正手段と、
ネットワークを介して他の会議装置から他参加者の発話欲求スコアを受信する受信手段と、
自参加者および他参加者の発話欲求スコアに応じた発話欲求の度合いを示す情報が設定された会議映像を編集し、表示する映像編集手段と、を有すること
を特徴とする会議装置。 - 請求項1記載の会議装置であって、
前記修正手段は、発話が検出された場合であって、前記発話欲求スコアが所定の閾値を超えていない場合に、前記発話欲求スコアが増加または遅く減衰させるように制御すること
を特徴とする会議装置。 - 請求項1または請求項2記載の会議装置であって、
前記修正手段は、前記発話欲求スコアが所定の閾値を超えている状態で、発話が検出されなかった場合であって、全ての他参加者の他発話欲求スコアが所定の閾値を超えていない場合、前記発話欲求スコアが減少または早く減衰させるように制御すること
を特徴とする会議装置。 - 請求項1から3のいずれか一項に記載の会議装置であって、
前記動作検出手段は、自参加者の映像データから発話欲求があると推定される複数の種類の動作を検出し、
前記発話欲求スコア算出手段は、前記動作検出手段が検出した動作の種類に応じた発話欲求スコアを算出するとともに、当該発話欲求スコアを動作の種類に応じて減衰させること
を特徴とする会議装置。 - 請求項1から4のいずれか一項に記載の会議装置であって、
前記受信手段は、ネットワークを介して他の会議装置から他参加者の映像データを受信し、
前記映像編集手段は、自参加者および他参加者の映像データが配置された会議映像に、自参加者および他参加者の前記発話欲求の度合いを示す情報を設定し、表示すること
を特徴とする会議装置。 - ネットワークを介して遠隔会議を行う会議方法であって、
会議装置は、
当該会議装置を使用する自参加者の映像データから発話欲求があると推定される所定の動作を検出するとともに、自参加者の音声データから発話を検出する検出ステップと、
前記検出ステップで検出した動作に基づいて自参加者の発話欲求スコアを算出するとともに、当該発話欲求スコアを時間に応じて減衰させる算出ステップと、
前記発話欲求スコアが所定の閾値を超えている状態で、発話が検出されなかった場合に、前記発話欲求スコアが減少または早く減衰させるように制御する修正ステップと、
ネットワークを介して他の会議装置から他参加者の発話欲求スコアを受信する受信ステップと、
自参加者および他参加者の発話欲求スコアに応じた発話欲求の度合いを示す情報が設定された会議映像を編集し、表示する映像編集ステップと、を行うこと
を特徴とする会議方法。 - 請求項6記載の会議方法であって、
前記修正ステップは、発話が検出された場合であって、前記発話欲求スコアが所定の閾値を超えていない場合に、前記発話欲求スコアが増加または遅く減衰させるように制御すること
を特徴とする会議方法。 - 請求項1から請求項5のいずれか1項に記載の会議装置としてコンピュータを機能させるための会議プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012043614A JP2013183183A (ja) | 2012-02-29 | 2012-02-29 | 会議装置、会議方法および会議プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012043614A JP2013183183A (ja) | 2012-02-29 | 2012-02-29 | 会議装置、会議方法および会議プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013183183A true JP2013183183A (ja) | 2013-09-12 |
Family
ID=49273589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012043614A Pending JP2013183183A (ja) | 2012-02-29 | 2012-02-29 | 会議装置、会議方法および会議プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013183183A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023089662A1 (ja) * | 2021-11-16 | 2023-05-25 | 日本電信電話株式会社 | 発話欲求推定装置、発話欲求推定方法、及びプログラム |
JP2023097551A (ja) * | 2021-12-28 | 2023-07-10 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
EP4262194A1 (en) * | 2020-12-11 | 2023-10-18 | NEC Platforms, Ltd. | Teleconference system, communication terminal, teleconference method, and program |
CN117577115A (zh) * | 2024-01-15 | 2024-02-20 | 杭州讯意迪科技有限公司 | 一种智慧型无纸化会议系统 |
-
2012
- 2012-02-29 JP JP2012043614A patent/JP2013183183A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4262194A1 (en) * | 2020-12-11 | 2023-10-18 | NEC Platforms, Ltd. | Teleconference system, communication terminal, teleconference method, and program |
EP4262194A4 (en) * | 2020-12-11 | 2024-05-29 | Nec Platforms Ltd | TELECONFERENCE SYSTEM, COMMUNICATIONS TERMINAL, TELECONFERENCE METHOD AND PROGRAM |
WO2023089662A1 (ja) * | 2021-11-16 | 2023-05-25 | 日本電信電話株式会社 | 発話欲求推定装置、発話欲求推定方法、及びプログラム |
JP2023097551A (ja) * | 2021-12-28 | 2023-07-10 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
JP7464853B2 (ja) | 2021-12-28 | 2024-04-10 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、情報処理方法、プログラム |
CN117577115A (zh) * | 2024-01-15 | 2024-02-20 | 杭州讯意迪科技有限公司 | 一种智慧型无纸化会议系统 |
CN117577115B (zh) * | 2024-01-15 | 2024-03-29 | 杭州讯意迪科技有限公司 | 一种智慧型无纸化会议系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10586534B1 (en) | Voice-controlled device control using acoustic echo cancellation statistics | |
US20130211826A1 (en) | Audio Signals as Buffered Streams of Audio Signals and Metadata | |
JP5458027B2 (ja) | 次発話者誘導装置、次発話者誘導方法および次発話者誘導プログラム | |
JPWO2016103988A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP6548045B2 (ja) | 会議システム、会議システム制御方法、およびプログラム | |
JP2008242318A (ja) | 対話を検出する装置、方法およびプログラム | |
JP2013183183A (ja) | 会議装置、会議方法および会議プログラム | |
KR20150128386A (ko) | 디스플레이 장치 및 그의 화상 통화 수행 방법 | |
KR20220140599A (ko) | 대화의 사람 참가자를 대신하여 생성된 합성 스피치 오디오 데이터 | |
JP2024507916A (ja) | オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム | |
JP6524674B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
WO2018105373A1 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
JPWO2018079294A1 (ja) | 情報処理装置及び情報処理方法 | |
JP2015061194A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
WO2018135304A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP5143114B2 (ja) | 発話の予備動作検出及び伝達方法及び装置及びプログラム | |
JP6950708B2 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
JP2021076715A (ja) | 音声取得装置、音声認識システム、情報処理方法、及び情報処理プログラム | |
JP5613102B2 (ja) | 会議装置、会議方法および会議プログラム | |
Panek et al. | Challenges in adopting speech control for assistive robots | |
JP2013110508A (ja) | 会議装置、会議方法および会議プログラム | |
Takagi et al. | Evaluation of real-time captioning by machine recognition with human support | |
EP3288035B1 (en) | Personal audio analytics and behavior modification feedback | |
Moriya et al. | Estimation of conversational activation level during video chat using turn-taking information. | |
WO2024084855A1 (ja) | 遠隔会話支援方法、遠隔会話支援装置、遠隔会話システム、及び、プログラム |