JP2011066467A - テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム - Google Patents
テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム Download PDFInfo
- Publication number
- JP2011066467A JP2011066467A JP2009212603A JP2009212603A JP2011066467A JP 2011066467 A JP2011066467 A JP 2011066467A JP 2009212603 A JP2009212603 A JP 2009212603A JP 2009212603 A JP2009212603 A JP 2009212603A JP 2011066467 A JP2011066467 A JP 2011066467A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- microphone
- face
- conference
- conference participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】会議参加者の顔の向きに依らず、会議参加者の音声を高品質に集音できるテレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラムを提供する。
【解決手段】テレビ会議端末ではメインマイクの他に、会議参加者の音声を取得するための第1サブマイク及び第2サブマイクを備えている。会議参加者の顔の向きはカメラ画像の画像解析によって推定される(S25)。推定された顔の向きがメインマイクに向けられているか否か判断され(S26)、メインマイクに向けられていない場合(S26:NO)、会議参加者に対応付けられた第1サブマイク又は第2サブマイクをONにする(S27,S28)。よって、会議参加者の顔の向きに依らず、会議参加者の音声を明瞭に取得できる。
【選択図】図8
【解決手段】テレビ会議端末ではメインマイクの他に、会議参加者の音声を取得するための第1サブマイク及び第2サブマイクを備えている。会議参加者の顔の向きはカメラ画像の画像解析によって推定される(S25)。推定された顔の向きがメインマイクに向けられているか否か判断され(S26)、メインマイクに向けられていない場合(S26:NO)、会議参加者に対応付けられた第1サブマイク又は第2サブマイクをONにする(S27,S28)。よって、会議参加者の顔の向きに依らず、会議参加者の音声を明瞭に取得できる。
【選択図】図8
Description
本発明は、テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラムに関し、詳細には、ネットワークに接続され、画像と音声を介して相手側の端末と通信を行うテレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラムに関する。
従来、多地点間をネットワークで結んで画像データ及び音声データを送受信することによって、遠隔地においても会議を開催できるテレビ会議システムが知られている。例えば、参加者とカメラ及びマイクとの距離によらず、参加者の顔や声の大きさを揃えることができる対話システム用中継装置が提案されている(例えば、特許文献1参照)。
この装置では、ビデオカメラによって得られた入力画像に含まれる参加者の顔の輪郭を検出し、この輪郭が所定の表示枠に一致するように、入力画像の表示倍率を変倍して顔画像を生成する。そして、顔画像生成時の変倍率を大きくした場合は、入力音声の出力レベルを大きくし、変倍率を小さくした場合は、入力音声の出力レベルを小さくする。つまり、画像の変倍率に合わせて音声の出力レベルを変化させている。
ところで、テレビ会議においては、遠隔地にいる人との会話だけでなく、同じ拠点にいる人との会話も多く、その会話は遠隔地にいる人にも重要である。しかし、同じ拠点の人に向かって話す場合、マイクが設置されている方向ではない向きに話をするケースがある。この場合、話者の声をマイクが確実に拾えず、遠隔地にいる人が話者の発言内容を確認できないという問題点があった。そこで、特許文献1に記載の対話システム用中継装置を用いることが考えられるが、話者の特定を口元の動きで検出しているので、顔を認識できない場合は、話者の音声の出力レベルを調節できない。
この他に、複数のマイクを設置する方法もあるが、マイクの設置場所の方向に向かって話す必要があり、話者がマイクの位置を意識しながら話をする必要があった。話者がマイクの位置を意識しなくてもよい程度にマイクをできるだけ多く設置することもできるが、その分、周囲の雑音も拾ってしまい、却って話者の声が聞きにくかったり、テレビ会議を利用しないときは邪魔になったり、セッティングに時間がかかるという問題点もあった。また、参加者全員に無線マイクをつけることも考えられるが、この場合、利用可能な周波数帯域が限定されている中で同時に利用できるチャンネル数に限界があった。
本発明は、上記課題を解決するためになされたものであり、会議参加者の顔の向きに依らず、会議参加者の音声を高品質に集音できるテレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラムを提供することを目的とする。
上記目的を達成するために、本発明の第1態様に係るテレビ会議端末装置は、ネットワークに接続され、画像と音声を介して相手側の端末と通信を行うテレビ会議端末装置であって、拠点全体の音声を取得する第1音声取得手段と、会議参加者に対応して設けられ、前記会議参加者の音声を取得する第2音声取得手段と、前記会議参加者の顔が前記第1音声取得手段に向いているか否かを判断する顔向き判断手段と、前記第1音声取得手段で取得した第1音声信号に前記第2音声取得手段で取得する第2音声信号を合成する音声合成手段と、前記顔向き判断手段の判断結果に基づき、前記音声合成手段における前記第2音声信号の合成の割合を制御する制御手段と、前記音声合成手段によって合成された合成音声を相手側端末へ送信する送信手段とを備えている。
第1態様に係るテレビ会議端末装置では、画像と音声を介して相手側の端末とネットワークを介して通信が行われる。第1音声取得手段は拠点全体の音声を取得する。会議参加者に対応して設けられた第2音声取得手段は会議参加者の音声を取得する。顔向き判断手段は、会議参加者の顔が第1音声取得手段に向いているか否かを判断する。音声合成手段は、第1音声取得手段で取得した第1音声信号に第2音声取得手段で取得する第2音声信号を合成する。制御手段は、顔向き判断手段の判断結果に基づき、音声合成手段における第2音声信号の合成の割合を制御する。そして、その制御手段によって合成の割合が制御された合成音声が送信手段によって相手側端末に送信される。つまり、音声合成手段によって第1音声信号に第2音声信号が合成されるが、会議参加者が第1音声取得手段に顔を向けているか向けていないかによって、第1音声取得手段によって取得される会議参加者の音声の量は変化する。そこで、顔向き判断手段の判断結果に基づいて、音声合成の割合を制御手段で制御することによって、顔の向きに適した音声取得を実現できる。
また、第1態様において、前記顔向き判断手段が、前記会議参加者が前記第1音声取得手段に顔を向けていると判断した場合に、前記音声合成手段によって前記第1音声信号に合成される前記第2音声信号の割合を基準割合とした場合に、前記制御手段は、前記顔向き判断手段が、前記会議参加者が前記第1音声取得手段に顔を向けていないと判断した場合に、前記第2音声信号の合成の割合を前記基準割合よりも上げるようにしてもよい。第1音声取得手段に顔を向けていない場合は、その会議参加者の音声を第1音声取得手段で取得するのは困難である。そこで、第2音声信号の割合を、第1音声取得手段に顔を向けているときの基準割合よりも上げることで、第1音声取得手段に顔を向けていない会議参加者の音声も確実に拾うことができる。
また、第1態様において、前記第2音声取得手段と前記会議参加者との対応関係を記憶する対応関係記憶手段と、前記顔向き判断手段が前記第1音声取得手段に顔を向けていないと判断した場合、当該対応関係記憶手段に記憶された前記対応関係を参照して、前記会議参加者に対応する前記第2音声取得手段を特定する特定手段とを備え、前記制御手段は、前記特定手段によって特定された前記第2音声取得手段が取得する前記第2音声信号の合成の割合を上げるようにしてもよい。つまり、第2音声取得手段と会議参加者との対応関係を対応関係記憶手段に記憶しているので、その対応関係記憶手段の記憶内容を参照することで、特定手段が、顔を第1音声取得手段に向けていない会議参加者の第2音声取得手段を特定できる。
また、第1態様において、前記会議参加者を撮像する撮像手段を備え、前記第1音声取得手段は、前記会議参加者から見て前記撮像手段と同方向に設けられ、前記制御手段は、前記顔向き判断手段が、前記会議参加者の顔が前記撮像手段に向いていないと判断した場合に、前記第2音声取得手段が取得する第2音声信号の合成の割合を上げるようにしてもよい。つまり、第1音声取得手段が、会議参加者から見て撮像手段と同方向に設けられているので、会議参加者の顔が撮像手段に向いているか否かを判断すれば、会議参加者の顔が第1音声取得手段に向いているか否かがわかる。これにより、撮像手段の撮像画像から、会議参加者の顔が第1音声取得手段に向いているか否かを容易に判断できる。
また、第1態様において、前記第2音声取得手段は、前記会議参加者が携帯可能なマイクであってもよい。これにより、会議参加者が会議中に移動した場合でも、第2音声取得手段と会議参加者との関係を維持することができる。
また、第1態様において、第2音声取得手段は、無線マイクであってもよい。これにより、配線を気にせずに第2音声取得手段を設置できる。
本発明の第2態様に係るテレビ会議端末装置の音声制御方法は、ネットワークに接続され、画像と音声を介して相手側の端末と通信を行うテレビ会議端末装置の音声制御方法であって、会議参加者の顔が拠点全体の音声を取得する第1音声取得手段に向いているか否かを判断する顔向き判断ステップと、前記第1音声取得手段で取得した第1音声信号に、前記会議参加者に対応して設けられ、前記会議参加者の音声を取得する第2音声取得手段で取得する第2音声信号を合成する音声合成ステップと、前記顔向き判断ステップにおける判断結果に基づき、前記音声合成ステップにおける前記第2音声信号の合成の割合を制御する制御ステップと、当該制御ステップにおいて前記第2音声信号の合成の割合が制御された合成信号を相手側端末へ送信する送信ステップとを備えている。
第2態様に係るテレビ会議端末装置の音声制御方法では、まず、顔向き判断ステップにおいて、会議参加者の顔が拠点全体の音声を取得する第1音声取得手段に向いているか否かを判断する。次いで、音声合成ステップにおいて、第1音声取得手段で取得した第1音声信号に、会議参加者に対応して設けられ、会議参加者の音声を取得する第2音声取得手段で取得する第2音声信号を合成する。さらに、制御ステップにおいて、顔向き判断ステップにおける判断結果に基づき、音声合成ステップにおける第2音声信号の合成の割合を制御する。そして、送信ステップにおいて、制御ステップにて合成の割合が制御された合成音声を相手側端末へ送信する。つまり、音声合成ステップにおいて第1音声信号に第2音声信号が合成されるが、会議参加者が第1音声取得手段に顔を向けているか向けていないかによって、第1音声取得手段によって取得される会議参加者の音声の量は変化する。そこで、顔向き判断手段の判断結果に基づいて、音声合成の割合を制御ステップで制御することによって、顔の向きに適した音声取得を実現できる。
本発明の第3態様に係る音声制御プログラムでは、請求項1乃至6の何れかに記載のテレビ会議端末装置の各種処理手段としてコンピュータを機能させることを特徴とする。
第3態様に係る音声制御プログラムでは、請求項1乃至6の何れかに記載のテレビ会議端末装置の各種処理手段としてコンピュータを機能させるので、請求項1乃至6に記載の効果を得ることができる。
以下、本発明の一実施形態であるテレビ会議端末3について、図面を参照して説明する。はじめに、テレビ会議端末3を構成とするテレビ会議システム1について、図1を参照して説明する。なお、テレビ会議端末3は、その拠点において、会議参加者の顔の向きがメインマイク35(図2参照)に向けられていなくても、第1サブマイク36及び第2サブマイク37(図2参照)のON/OFFをそれぞれ制御することで、会議参加者の音声を確実に拾うことができるものである。
図1に示すように、テレビ会議システム1は、ネットワーク2を介して相互に接続され、かつ各拠点に設けられた複数のテレビ会議端末3,4,5を備えている。このシステムでは、ネットワーク2を介して、テレビ会議端末3,4,5の間で、画像、音声が互いに送受信されることで遠隔会議を実施することができる。
次に、テレビ会議システム1の各拠点の会議環境の一例について、図2,図3を参照して説明する。図2に示す例では、テレビ会議端末3が設置されている拠点において、会議テーブル5を3人(Aさん、Bさん、Cさん)の会議参加者が囲んで席に座っている。AさんとCさんは、会議テーブル5を間に挟んで向かい合って座っている。Bさんは、カメラ34に対して正面に位置しており、カメラ34から見てAさんとBさんとの間に座っている。
会議テーブル5の前側にはカメラ34が設置されている。メインマイク35は、拠点全体の音声をバランスよく取得するために、会議テーブル5の最前方の略中央に設置されている。会議参加者は、カメラ34の下方に設置されたディスプレイ28(図4参照)を見ながらカメラ34に顔を向けて、他拠点に向けて喋るので、その音声はメインマイク35によって取得される。
さらに、会議テーブル5の上には、第1サブマイク36と、第2サブマイク37とが各々設置されている。第1サブマイク36はカメラ34から見て左側に、第2サブマイク37はカメラ34から見て右側に設置されている。ここで、各会議参加者と各サブマイクとの距離関係について見ると、Aさんに対しては、第1サブマイク36が最も近い位置にある。Bさんに対しては、第1サブマイク36及び第2サブマイク37の何れも近い位置にある。Cさんに対しては、第2サブマイク37が最も近い位置にある。このような会議場の全体がカメラ34によって撮影され、図3に示すカメラ画像50として他端末に送信される。
本実施形態では、このような会議環境下で、会議参加者達は他端末との間で遠隔会議を実施する。ここで、会議参加者は、会議中に同じ拠点にいる会議参加者と会話をすることがある。例えば、AさんがBさんに話しかける場合、Aさんの顔は自然とBさんに向けられる。このとき、Aさんの顔はメインマイク35には向けられていないため、Aさんの音声を明瞭に拾うことができない。この場合、Aさんに対応付けられた第1サブマイク36がONされる。これにより、Aさんの音声は、第1サブマイク36によって取得され、メインマイク35によって取得された音声に合成されて他端末に送信される。このような機能を有するテレビ会議端末3について、以下詳細に説明する。
次に、テレビ会議端末3の電気的構成について、図4を参照して説明する。なお、テレビ会議端末3,4,5は全て同じ構成であるので、ここではテレビ会議端末3の構成についてのみ説明し、他のテレビ会議端末4,5については説明を省略する。
テレビ会議端末3には、テレビ会議端末3の制御を司るコントローラとしてのCPU20が設けられている。CPU20には、BIOS等を記憶したROM21と、各種データを一時的に記憶するRAM22と、データの受け渡しの仲介を行うI/Oインタフェイス30とが接続されている。I/Oインタフェイス30には、各種記憶エリアを有するハードディスクドライブ31(以下、HDD31)が接続されている。
I/Oインタフェイス30には、ネットワーク2と通信するための通信装置25と、マウス27と、ビデオコントローラ23と、キーコントローラ24と、カードリーダ制御部32と、拠点全体を撮影するためのカメラ34と、拠点全体の音声を取り込むためのメインマイク35と、会議参加者の顔の向きに合わせてON/OFF制御される第1サブマイク36及び第2サブマイク37と、CD−ROMドライブ26とが各々接続されている。ビデオコントローラ23には、ディスプレイ28が接続されている。キーコントローラ24には、キーボード29が接続されている。カードリーダ制御部32には、各ユーザが所有する識別カード(図示外)に記憶されたユーザを識別するためのユーザIDを読み込むためのカードリーダ33が接続されている。
なお、CD−ROMドライブ26に挿入されるCD−ROM114には、テレビ会議端末3のメインプログラムや、本発明の音声制御プログラム等が記憶されている。CD−ROM114の導入時には、これら各種プログラムが、CD−ROM114からHDD31にセットアップされて、後述するプログラム記憶エリア316(図5参照)に記憶される。
次に、HDD31の各種記憶エリアについて、図5を参照して説明する。HDD31には、カメラ34によって撮影された画像が記憶されるカメラ画像記憶エリア311と、メインマイク35、第1サブマイク36、第2サブマイク37の各位置を記憶するマイク位置記憶エリア312と、会議参加者とサブマイクとの対応関係を記憶するサブマイク対応テーブル3131(図6参照)を記憶するサブマイク対応テーブル記憶エリア313と、会議参加者の顔の向きの判定結果に基づき、第1サブマイク36及び第2サブマイクのON/OFFを決定するためのサブマイク制御テーブル3141(図7参照)を記憶するサブマイク制御テーブル記憶エリア314と、カメラ画像50で検出された人物の位置を記憶するための人物位置記憶エリア315と、各種プログラムを記憶するプログラム記憶エリア316と、その他の情報記憶エリア317と、が少なくとも設けられている。
次に、サブマイク対応テーブル3131について、図6を参照して説明する。サブマイク対応テーブル3131は、会議参加者にそれぞれ割り当てられた参加者IDに対し、第1サブマイク36及び第2サブマイク37の何れかが対応付けられて記憶されている。図6に示す例では、Aさんに対しては、参加者ID=001が割り当てられ、Bさんに対しては、参加者ID=002が割り当てられ、Cさんに対しては、参加者ID=003が割り当てられている。そして、参加者ID=001には、第1サブマイク36が対応付けられ、参加者ID=002には、何れのサブマイクも対応付けられておらず、参加者ID=003には、第2サブマイク37が対応付けられて記憶されている。
なお、後述するが、会議参加者に対する第1サブマイク36及び第2サブマイク37の対応付けは、会議参加者と各サブマイクとの距離に基づいて行われる。即ち、第1サブマイク36及び第2サブマイク37のうち会議参加者から見て近い方のサブマイクが対応付けられる。図6に示すサブマイク対応テーブル3131は、図2,図3に示す会議環境で対応付けられた場合を示している。ここで、Bさんは、カメラ34に対して正面に体を向けて座っているので、Bさんが、Aさん、Cさんの何れに話しかけてもBさんの顔の向きは、メインマイク35に対して外れることはない。そこで、本実施形態では、Bさんに対してはサブマイクを対応づけないことで、第1サブマイク36及び第2サブマイク37の消費電力を節約することができる。なお、これに限らず、Bさんに対して、サブマイクを対応付けてもよい。
次に、サブマイク制御テーブル3141について、図7を参照して説明する。サブマイク制御テーブル3141は、顔の向きの判定結果に基づいて作成されるものである。サブマイク制御テーブル3141には、会議参加者にそれぞれ割り当てられた参加者IDに対し、その会議参加者の顔の向きがメインマイク35に向いている場合、向いていない場合における第1サブマイク36及び第2サブマイク37のON/OFFが記憶されている。
例えば、どの参加者IDに対しても、顔の向きがメインマイク35に向けられている場合は、メインマイク35で会議参加者の音声を明瞭に取得できるので、第1サブマイク36及び第2サブマイク37は何れもOFFにする。参加者ID=001に割り当てられたAさんに対しては、最も近い第1サブマイク36が対応づけられているので、顔の向きがメインマイク35に向いていない場合は、第1サブマイク36=「ON」、第2サブマイク37=「OFF」が記憶されている。参加者ID=002に割り当てられたBさんに対しては、上述した通り、何れのサブマイクも対応付けられていないので、顔の向きがメインマイク35に向いていない場合には、第1サブマイク36=「OFF」、第2サブマイク37=「OFF」が記憶されている。参加者ID=003に割り当てられたCさんに対しては、最も近い第2サブマイク37が対応づけられているので、顔の向きがメインマイク35に向いていない場合には、第1サブマイク36=「OFF」、第2サブマイク37=「ON」が記憶されている。
次に、CPU20によるマイク制御処理について、図8のフローチャートを参照して説明する。まず、メインマイク35がONされる(S11)。そして、そのメインマイク35で取得された音声が他端末に送信する音声送信処理が開始される(S12)。次いで、その会議テーブル5にいる会議参加者の人物を検出するための人物検出処理が実行される(S13)。人物検出処理では、例えば、「背景差分法」を用いて、HDD31のカメラ画像記憶エリア311に記憶されたカメラ画像から人物が検出される。
人物検出処理では、HDD31に記憶された予め会議参加者のいない状態の基礎フレーム画像を元に、カメラ34によって撮像されるフレーム毎に、基礎フレームとの差分が取られる。その差分値が規定値以上の領域があれば、そこに人物がいるとして検出される。その検出された人物のカメラ画像50における位置が、HDD31の人物位置記憶エリア315に記憶される。さらに、検出された会議参加者には参加者IDが検出された順に、「001、002、003、・・・」と付される。そして、これら参加者IDは、図6に示すサブマイク対応テーブル3131と、図7に示すサブマイク制御テーブル3141に各々登録される。
次いで、カメラ34によって撮像されたカメラ画像50において、メインマイク35を認識したか否かが判断される(S14)。例えば、図3に示すカメラ画像50では、メインマイク35が映し出されている。このメインマイク35を認識した場合(S14:YES)、会議参加者から見て、メインマイク35の方向はカメラ34と同一方向にないので、RAM22に同一方向フラグ=「0」が記憶される(S15)。さらに、画像解析で認識されたメインマイク35の位置が、HDD31のマイク位置記憶エリア312に記憶される(S16)。なお、カメラ画像50からメインマイク35を検出するために、メインマイク35には検出用の目印を付してある。
一方、メインマイク35が認識されなかった場合(S14:NO)、メインマイク35はカメラ34の直下に設置され、カメラ34の撮像範囲に含まれなかったものと推測される。この場合は、会議参加者から見て、メインマイク35の方向はカメラ34と同一方向と見なし、RAM22に同一方向フラグ=「1」が記憶される(S17)。
次に、カメラ画像50から、第1サブマイク36及び第2サブマイク37がそれぞれ認識できるか否か判断される(S18)。何れのサブマイクも認識できなかった場合(S18:NO)、第1サブマイク36及び第2サブマイク37の制御はできないので、そのまま処理を終了する。
一方、第1サブマイク36及び第2サブマイク37の何れもが認識された場合(S18:YES)、第1サブマイク36及び第2サブマイク37の各位置がHDD31のマイク位置記憶エリア312(図5参照)に各々記憶される(S19)。
そして、会議参加者に対して、第1サブマイク36又は第2サブマイク37を対応付けるサブマイク対応付け処理が実行される(S20)。サブマイク対応付け処理では、まず、HDD31に記憶された会議参加者の位置と、マイク位置記憶エリア312に記憶された第1サブマイク36及び第2サブマイク37の各位置との距離が各々算出される。算出された各距離はRAM22に記憶される。そして、各会議参加者に対して距離が短い方のサブマイクが選択され、サブマイク対応テーブル3131のサブマイクの種類欄に、選択されたサブマイクが記憶される。
図6に示すサブマイク対応テーブル3131では、Aさん(参加者ID=001)には第1サブマイク36が記憶され、Cさん(参加者ID=002)には第2サブマイク37が記憶されている。なお、Bさん(参加者ID=003)には、上述した理由から対応付けされない。
次いで、サブマイク対応テーブル3131の記憶内容に基づき、サブマイク制御テーブル3141が作成される(S21)。例えば、HDD31のサブマイク制御テーブル記憶エリア314に記憶されたサブマイク制御テーブル3141には、3人の参加者IDが先に登録されている。これら参加者IDに対して、会議参加者の顔の向きがメインマイクに向いている場合と、向いていない場合とで、第1サブマイク36及び第2サブマイク37のON/OFFがそれぞれ設定される。顔の向きがメインマイクに向いている場合は、第1サブマイク36及び第2サブマイク37の何れもOFFとなるように登録される。
一方、会議参加者の顔の向きがメインマイク35に向いていない場合は、サブマイク対応テーブル3131の記憶内容を参照して、その会議参加者に対応付けられたサブマイクがON、他方のサブマイクがOFFとなるように登録される。例えば、Aさん(参加者ID=001)には、第1サブマイク36が対応付けられているので、「第1サブマイク ON、第2サブマイク OFF」が記憶される。こうして、サブマイク制御テーブル3141が作成され、HDD31のサブマイク制御テーブル記憶エリア314に記憶される。
次いで、RAM22に同一方向フラグ=「1」が記憶されているか否か判断される(S22)。同一方向フラグ=「0」の場合(S22:NO)、会議参加者から見て、メインマイク35は、カメラ34と同一方向にはないので、会議参加者の顔の向きを推定しなければならない。従って、まず、会議参加者の顔領域が抽出される(S23)。顔領域の抽出は、「肌色領域検出処理」が用いられる。肌色領域検出処理では、まず、色相と、彩度とが、所定の閾値内にある画素を肌色画素として抽出される。次いで、顔領域を分離するために、肌色画素と非肌色画素とに2値化される。さらに、得られた2値化画像において、所定範囲内の面積を有する肌色画素部分を顔領域として抽出される。
次いで、顔の特徴点として、カメラ画像50から抽出された顔領域から、各会議参加者の右目、左目、口の位置が各々検出され(S24)、これら3点を頂点とする三角形の形状から会議参加者の顔の向きが推定される(S25)。さらに、その推定された顔の向きが、カメラ画像50において、HDD31のマイク位置記憶エリア312に記憶されたメインマイク35の位置に向いているか否か判断される(S26)。会議参加者の顔の向きがメインマイク35の方向に向いている場合(S26:YES)、続いて、第1サブマイク36、第2サブマイク37がONされているか否かが判断される(S30)。
メインマイク35に顔を向けている会議参加者がいる場合は、メインマイク35でその会議参加者の音声を拾うことができるので、第1サブマイク36、第2サブマイク37をONする必要がない。そこで、第1サブマイク36、第2サブマイク37の何れかがONされている場合は(S30:YES)、ONされている第1サブマイク36又は第2サブマイク37がOFFされる(S31)。なお、第1サブマイク36、第2サブマイク37の何れもOFFされている場合は(S30:NO)、S22に戻って、処理が繰り返される。
一方、メインマイク35に顔を向けていない会議参加者がいる場合は(S26:NO)、HDD31に記憶されたサブマイク制御テーブル3141の記憶内容が参照され、メインマイク35に顔を向けていない会議参加者の参加者IDに対応付けられた第1サブマイク36、又は第2サブマイク37が検出され(S27)、その検出された第1サブマイク36、又は第2サブマイク37がONされる(S28)。これにより、メインマイク35に顔を向けていない会議参加者の音声を、その会議参加者に一番近い第1サブマイク36、又は第2サブマイク37で拾うことができる。
そして、第1サブマイク36、又は第2サブマイク37で取得された音声は、メインマイク35によって取得された音声に合成され(S29)、音声送信処理によって他端末に送信される。これにより、会議参加者の顔の向きに依らず、会議参加者の音声を明瞭に取得することができる。その後、S22に戻って、会議が終了するまで処理が繰り返される。
ところで、RAM22に同一フラグ=「1」が記憶されている場合(S22:YES)、メインマイク35がカメラ34と同一位置に設置されていることから、会議参加者の顔がカメラ34に向いていれば、メインマイク35に向けているのと同じ状況である。この場合、カメラ34によって撮影されたカメラ画像50において、会議参加者の顔の向きを推定せず、会議参加者の顔が認識できるか否かで、顔をメインマイク35に向けているか否かの判断が行われる。
具体的には、上述した顔の向きを推定する前処理と同様に、顔領域が検出され、その検出された顔領域から顔の特徴点として、右目、左目、口の位置が各々検出される。そして、その三角形の形状が形成できる場合は、顔認識可能と判断され、三角形の形状が形成できない場合は、顔認識不可となる。つまり、顔認識可能な場合は、顔の向きがメインマイク35の方向であると判断され(S26:YES)、上述と同様に、第1サブマイク36、及び第2サブマイク37は何れもOFFになる(S30、S31)。
一方、顔認識不可の場合は、顔の向きがメインマイク35に向いていないと判断され(S26:NO)、対応する第1サブマイク36、又は第2サブマイク37がONとなる(S27、S28)。そして、第1サブマイク36、又は第2サブマイク37で取得された音声は、メインマイク35によって取得された音声に合成され(S29)、音声送信処理によって他端末に送信される。その後、S22に戻って、会議が終了するまで処理が繰り返される。
以上説明したように、本実施形態であるテレビ会議端末3では、拠点全体の音声を取得するメインマイク35の他に、会議参加者の音声を取得するための第1サブマイク36及び第2サブマイク37を備えている。会議参加者の顔の向きは、カメラ34によって撮像されたカメラ画像50の画像解析によって推定される。カメラ画像50からメインマイク35が認識できた場合は、推定された顔の向きがメインマイク35に向けられているか否か判断される。メインマイク35に顔が向けられている場合は、第1サブマイク36及び第2サブマイク37の何れもOFFにする。一方、メインマイク35に顔が向けられていない場合は、その会議参加者に対応付けられた第1サブマイク36又は第2サブマイク37が検出されてONされる。第1サブマイク36又は第2サブマイク37によって取得された音声は、メインマイク35によって取得された音声に合成されて、他端末に送信される。こうして、会議参加者の顔の向きに依らず、会議参加者の音声を明瞭に取得できる。また、顔の向きがメインマイク35に向いている場合は、第1サブマイク36及び第2サブマイク37をOFFさせるので、第1サブマイク36及び第2サブマイク37の消費電力を節約できる。
なお、本発明のテレビ会議端末は、上記実施形態に限らず、各種の変形が可能なことはいうまでもない。例えば、上記実施形態では、サブマイクが2つの例を示したが、これ以上であってもよく、又は1つでもよい。
サブマイクが1つの場合は、図9に示すように、会議テーブル5上の中央には、サブマイク38が設置されている。サブマイク38は、どの会議参加者からも近い位置に設置され、会議参加者の音声をより明瞭に拾うことができる。このような実施形態では、図10に示すようなサブマイク制御テーブル3142が作成され、HDD31に記憶される。
つまり、サブマイク制御テーブル3142では、1つのサブマイク38しかないので、顔をメインマイク35に向けていない会議参加者がいた場合、共通のサブマイク38をONすればよい。これにより、上記実施形態と同様の効果を得ることができる。サブマイクの設置が少ない上に、制御方法も簡単である。
また、上記実施形態では、サブマイクと会議参加者との対応付けを、各サブマイクの位置と会議参加者との距離に基づいて行ったが、例えば、会議参加者がさらに多人数であって、サブマイクの本数をさらに多くした場合は、サブマイクとの距離に加え、会議参加者の顔がどのサブマイクに向けられているかによって、サブマイクと会議参加者との対応付けを行ってもよい。例えば、ある会議参加者に対して、複数のサブマイクが同一の距離関係で配置されている場合、カメラ画像からどのサブマイクに顔を向けているかを判断することで、会議参加者とサブマイクとの対応付けを適切に行うことができる。
さらに、上記実施形態では、メインマイク35に顔を向けていない会議参加者がいた場合、その会議参加者に対応付けられた第1サブマイク36又は第2サブマイク37をON、OFFさせ、メインマイク35によって取得された音声信号(「第1音声」とする)に対して、第1サブマイク36又は第2サブマイク37によって取得された音声信号(「第2音声」とする)を合成したが、例えば、第1サブマイク36又は第2サブマイク37をON、OFFするのではなく、第1サブマイク36及び第2サブマイク37をONにし、第1サブマイク36又は第2サブマイク37によって取得された第2音声信号の第1音声信号に対する合成割合を変化させてもよい。
上記実施形態でいえば、会議参加者がメインマイク35を向いている通常時は、第1音声信号と第2音声信号との合成割合は例えば10:0(基準割合)である。このとき、第1サブマイク36又は第2サブマイク37はOFF状態としてもよいしON状態でもよい。メインマイク35についても同様である。
そして、通常時の合成割合を10:0(基準割合)とした場合、メインマイク35に向いてない時は、例えば8:2のように、第2音声信号の合成割合を通常時よりも上げればよい。なお、第2音声信号の合成割合は、例えば5:5のように第1音声信号と同じにしてもよく、3:7のように第1音声信号よりも高くしてもよい。また、合成割合を第1音声信号と第2音声信号とで分け合うように(例えば、合計10に対して、5:5、3:7等)する他に、第1音声信号に対して第2音声信号を上乗せする方法で合成割合を決定してもよい。例えば、第1音声信号を10としたときに、第2音声信号の割合として5を上乗せし、結果として2:1の合成割合としてもよい。
また、第1サブマイク36及び第2サブマイク37は、会議参加者が携帯可能なマイクであってもよい。これにより、会議参加者が会議中に移動した場合でも、第1サブマイク36又は第2サブマイク37と、会議参加者との関係を維持することができる。
また、第1サブマイク36又は第2サブマイク37は、無線マイクであってもよい。これにより、配線を気にせずに第1サブマイク36又は第2サブマイク37を設置できる。
1 テレビ会議システム
3 テレビ会議端末
20 CPU
25 通信装置
26 CD−ROMドライブ
28 ディスプレイ
31 ハードディスクドライブ
34 カメラ
35 メインマイク
36 第1サブマイク
37 第2サブマイク
38 サブマイク
3 テレビ会議端末
20 CPU
25 通信装置
26 CD−ROMドライブ
28 ディスプレイ
31 ハードディスクドライブ
34 カメラ
35 メインマイク
36 第1サブマイク
37 第2サブマイク
38 サブマイク
Claims (8)
- ネットワークに接続され、画像と音声を介して相手側の端末と通信を行うテレビ会議端末装置であって、
拠点全体の音声を取得する第1音声取得手段と、
会議参加者に対応して設けられ、前記会議参加者の音声を取得する第2音声取得手段と、
前記会議参加者の顔が前記第1音声取得手段に向いているか否かを判断する顔向き判断手段と、
前記第1音声取得手段で取得した第1音声信号に前記第2音声取得手段で取得する第2音声信号を合成する音声合成手段と、
前記顔向き判断手段の判断結果に基づき、前記音声合成手段における前記第2音声信号の合成の割合を制御する制御手段と、
前記音声合成手段によって合成された合成音声を相手側端末へ送信する送信手段と
を備えたことを特徴とするテレビ会議端末装置。 - 前記顔向き判断手段が、前記会議参加者が前記第1音声取得手段に顔を向けていると判断した場合に、前記音声合成手段によって前記第1音声信号に合成される前記第2音声信号の割合を基準割合とした場合に、
前記制御手段は、
前記顔向き判断手段が、前記会議参加者が前記第1音声取得手段に顔を向けていないと判断した場合に、前記第2音声信号の合成の割合を前記基準割合よりも上げることを特徴とする請求項1に記載のテレビ会議端末装置。 - 前記第2音声取得手段と前記会議参加者との対応関係を記憶する対応関係記憶手段と、
前記顔向き判断手段が前記第1音声取得手段に顔を向けていないと判断した場合、当該対応関係記憶手段に記憶された前記対応関係を参照して、前記会議参加者に対応する前記第2音声取得手段を特定する特定手段と
を備え、
前記制御手段は、
前記特定手段によって特定された前記第2音声取得手段が取得する前記第2音声信号の合成の割合を上げることを特徴とする請求項2に記載のテレビ会議端末装置。 - 前記会議参加者を撮像する撮像手段を備え、
前記第1音声取得手段は、前記会議参加者から見て前記撮像手段と同方向に設けられ、
前記制御手段は、
前記顔向き判断手段が、前記会議参加者の顔が前記撮像手段に向いていないと判断した場合に、前記第2音声取得手段が取得する第2音声信号の合成の割合を上げることを特徴とする請求項2又は3に記載のテレビ会議端末装置。 - 前記第2音声取得手段は、前記会議参加者が携帯可能なマイクであることを特徴とする請求項1乃至4の何れかに記載のテレビ会議端末装置。
- 前記第2音声取得手段は、無線マイクであることを特徴とする請求項1乃至5の何れかに記載のテレビ会議端末装置。
- ネットワークに接続され、画像と音声を介して相手側の端末と通信を行うテレビ会議端末装置の音声制御方法であって、
会議参加者の顔が拠点全体の音声を取得する第1音声取得手段に向いているか否かを判断する顔向き判断ステップと、
前記第1音声取得手段で取得した第1音声信号に、前記会議参加者に対応して設けられ、前記会議参加者の音声を取得する第2音声取得手段で取得する第2音声信号を合成する音声合成ステップと、
前記顔向き判断ステップにおける判断結果に基づき、前記音声合成ステップにおける前記第2音声信号の合成の割合を制御する制御ステップと、
前記音声合成ステップにおいて合成された合成音声を相手側端末へ送信する送信ステップと
を備えたことを特徴とするテレビ会議端末装置の音声制御方法。 - 請求項1乃至6の何れかに記載のテレビ会議端末装置の各種処理手段としてコンピュータを機能させることを特徴とする音声制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009212603A JP2011066467A (ja) | 2009-09-15 | 2009-09-15 | テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009212603A JP2011066467A (ja) | 2009-09-15 | 2009-09-15 | テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011066467A true JP2011066467A (ja) | 2011-03-31 |
Family
ID=43952292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009212603A Pending JP2011066467A (ja) | 2009-09-15 | 2009-09-15 | テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011066467A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015043507A (ja) * | 2013-08-26 | 2015-03-05 | 株式会社リコー | 情報処理装置、通信システムおよびプログラム |
JP2016048534A (ja) * | 2013-12-25 | 2016-04-07 | キヤノンマーケティングジャパン株式会社 | 情報処理システム、その制御方法、及びプログラム、並びに情報処理装置、その制御方法、及びプログラム |
CN111833876A (zh) * | 2020-07-14 | 2020-10-27 | 科大讯飞股份有限公司 | 会议发言控制方法、系统、电子设备及存储介质 |
US11900013B2 (en) | 2021-01-12 | 2024-02-13 | Fujifilm Business Innovation Corp. | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09275533A (ja) * | 1996-04-08 | 1997-10-21 | Sony Corp | 信号処理装置 |
JPH10191290A (ja) * | 1996-12-27 | 1998-07-21 | Kyocera Corp | マイクロホン内蔵型ビデオカメラ |
JP2005274707A (ja) * | 2004-03-23 | 2005-10-06 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP2006211156A (ja) * | 2005-01-26 | 2006-08-10 | Yamaha Corp | 音響装置 |
JP2006211504A (ja) * | 2005-01-31 | 2006-08-10 | Pioneer Electronic Corp | 会議用端末装置、会議システム及びコンピュータプログラム |
JP2009141812A (ja) * | 2007-12-07 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 遠隔テレビ会議システム |
-
2009
- 2009-09-15 JP JP2009212603A patent/JP2011066467A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09275533A (ja) * | 1996-04-08 | 1997-10-21 | Sony Corp | 信号処理装置 |
JPH10191290A (ja) * | 1996-12-27 | 1998-07-21 | Kyocera Corp | マイクロホン内蔵型ビデオカメラ |
JP2005274707A (ja) * | 2004-03-23 | 2005-10-06 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
JP2006211156A (ja) * | 2005-01-26 | 2006-08-10 | Yamaha Corp | 音響装置 |
JP2006211504A (ja) * | 2005-01-31 | 2006-08-10 | Pioneer Electronic Corp | 会議用端末装置、会議システム及びコンピュータプログラム |
JP2009141812A (ja) * | 2007-12-07 | 2009-06-25 | Nippon Telegr & Teleph Corp <Ntt> | 遠隔テレビ会議システム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015043507A (ja) * | 2013-08-26 | 2015-03-05 | 株式会社リコー | 情報処理装置、通信システムおよびプログラム |
JP2016048534A (ja) * | 2013-12-25 | 2016-04-07 | キヤノンマーケティングジャパン株式会社 | 情報処理システム、その制御方法、及びプログラム、並びに情報処理装置、その制御方法、及びプログラム |
CN111833876A (zh) * | 2020-07-14 | 2020-10-27 | 科大讯飞股份有限公司 | 会议发言控制方法、系统、电子设备及存储介质 |
US11900013B2 (en) | 2021-01-12 | 2024-02-13 | Fujifilm Business Innovation Corp. | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110944143B (zh) | 视频会议装置以及视频会议方法 | |
US8581700B2 (en) | Wearable device | |
EP3319344B1 (en) | Method and apparatus for generating audio signal information | |
KR101636716B1 (ko) | 발언자를 구별하는 영상 회의 장치 및 방법 | |
US10771694B1 (en) | Conference terminal and conference system | |
JP7347597B2 (ja) | 動画編集装置、動画編集方法及びプログラム | |
JP2009194857A (ja) | 通信会議システム、通信装置、通信会議方法、コンピュータプログラム | |
JP2011066467A (ja) | テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム | |
TW200804852A (en) | Method for tracking vocal target | |
JP2016213674A (ja) | 表示制御システム、表示制御装置、表示制御方法、及びプログラム | |
KR20150066883A (ko) | 이미지 처리 방법 및 장치 | |
JP6149433B2 (ja) | テレビ会議装置、テレビ会議装置の制御方法、及びプログラム | |
JP2022054192A (ja) | リモート会議システム、サーバ、写真撮影装置、音声出力方法、及びプログラム | |
JP4244416B2 (ja) | 情報処理装置および方法、並びに記録媒体 | |
KR20100041061A (ko) | 화자의 얼굴을 확대하는 영상 통화 방법 및 이를 위한 단말 | |
US11184184B2 (en) | Computer system, method for assisting in web conference speech, and program | |
CN113448432B (zh) | 管理虚拟会议方法、头戴式显示器、计算机可读存储介质 | |
JP2000132693A (ja) | 画像処理装置および方法、並びに提供媒体 | |
JP2004023180A (ja) | 音声伝送装置、音声伝送方法及びプログラム | |
JP5353854B2 (ja) | 遠隔会議装置 | |
JP2006339869A (ja) | 映像信号と音響信号の統合装置 | |
JP2004112511A (ja) | 表示制御装置および方法 | |
US20120300126A1 (en) | Electronic apparatus and tv phone method | |
JP2019080134A (ja) | ドアホン親機および通知方法 | |
JP7111202B2 (ja) | 収音制御システム及び収音制御システムの制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130430 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130903 |