JP2011066467A

JP2011066467A - テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラム

Info

Publication number: JP2011066467A
Application number: JP2009212603A
Authority: JP
Inventors: Hiroaki Fujino; 裕章藤野
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2009-09-15
Filing date: 2009-09-15
Publication date: 2011-03-31

Abstract

【課題】会議参加者の顔の向きに依らず、会議参加者の音声を高品質に集音できるテレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラムを提供する。
【解決手段】テレビ会議端末ではメインマイクの他に、会議参加者の音声を取得するための第１サブマイク及び第２サブマイクを備えている。会議参加者の顔の向きはカメラ画像の画像解析によって推定される（Ｓ２５）。推定された顔の向きがメインマイクに向けられているか否か判断され（Ｓ２６）、メインマイクに向けられていない場合（Ｓ２６：ＮＯ）、会議参加者に対応付けられた第１サブマイク又は第２サブマイクをＯＮにする（Ｓ２７，Ｓ２８）。よって、会議参加者の顔の向きに依らず、会議参加者の音声を明瞭に取得できる。
【選択図】図８

Description

本発明は、テレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラムに関し、詳細には、ネットワークに接続され、画像と音声を介して相手側の端末と通信を行うテレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラムに関する。

従来、多地点間をネットワークで結んで画像データ及び音声データを送受信することによって、遠隔地においても会議を開催できるテレビ会議システムが知られている。例えば、参加者とカメラ及びマイクとの距離によらず、参加者の顔や声の大きさを揃えることができる対話システム用中継装置が提案されている（例えば、特許文献１参照）。

この装置では、ビデオカメラによって得られた入力画像に含まれる参加者の顔の輪郭を検出し、この輪郭が所定の表示枠に一致するように、入力画像の表示倍率を変倍して顔画像を生成する。そして、顔画像生成時の変倍率を大きくした場合は、入力音声の出力レベルを大きくし、変倍率を小さくした場合は、入力音声の出力レベルを小さくする。つまり、画像の変倍率に合わせて音声の出力レベルを変化させている。

特開２００７−２５１３５５号公報

ところで、テレビ会議においては、遠隔地にいる人との会話だけでなく、同じ拠点にいる人との会話も多く、その会話は遠隔地にいる人にも重要である。しかし、同じ拠点の人に向かって話す場合、マイクが設置されている方向ではない向きに話をするケースがある。この場合、話者の声をマイクが確実に拾えず、遠隔地にいる人が話者の発言内容を確認できないという問題点があった。そこで、特許文献１に記載の対話システム用中継装置を用いることが考えられるが、話者の特定を口元の動きで検出しているので、顔を認識できない場合は、話者の音声の出力レベルを調節できない。

この他に、複数のマイクを設置する方法もあるが、マイクの設置場所の方向に向かって話す必要があり、話者がマイクの位置を意識しながら話をする必要があった。話者がマイクの位置を意識しなくてもよい程度にマイクをできるだけ多く設置することもできるが、その分、周囲の雑音も拾ってしまい、却って話者の声が聞きにくかったり、テレビ会議を利用しないときは邪魔になったり、セッティングに時間がかかるという問題点もあった。また、参加者全員に無線マイクをつけることも考えられるが、この場合、利用可能な周波数帯域が限定されている中で同時に利用できるチャンネル数に限界があった。

本発明は、上記課題を解決するためになされたものであり、会議参加者の顔の向きに依らず、会議参加者の音声を高品質に集音できるテレビ会議端末装置、テレビ会議端末装置の音声制御方法、音声制御プログラムを提供することを目的とする。

上記目的を達成するために、本発明の第１態様に係るテレビ会議端末装置は、ネットワークに接続され、画像と音声を介して相手側の端末と通信を行うテレビ会議端末装置であって、拠点全体の音声を取得する第１音声取得手段と、会議参加者に対応して設けられ、前記会議参加者の音声を取得する第２音声取得手段と、前記会議参加者の顔が前記第１音声取得手段に向いているか否かを判断する顔向き判断手段と、前記第１音声取得手段で取得した第１音声信号に前記第２音声取得手段で取得する第２音声信号を合成する音声合成手段と、前記顔向き判断手段の判断結果に基づき、前記音声合成手段における前記第２音声信号の合成の割合を制御する制御手段と、前記音声合成手段によって合成された合成音声を相手側端末へ送信する送信手段とを備えている。

第１態様に係るテレビ会議端末装置では、画像と音声を介して相手側の端末とネットワークを介して通信が行われる。第１音声取得手段は拠点全体の音声を取得する。会議参加者に対応して設けられた第２音声取得手段は会議参加者の音声を取得する。顔向き判断手段は、会議参加者の顔が第１音声取得手段に向いているか否かを判断する。音声合成手段は、第１音声取得手段で取得した第１音声信号に第２音声取得手段で取得する第２音声信号を合成する。制御手段は、顔向き判断手段の判断結果に基づき、音声合成手段における第２音声信号の合成の割合を制御する。そして、その制御手段によって合成の割合が制御された合成音声が送信手段によって相手側端末に送信される。つまり、音声合成手段によって第１音声信号に第２音声信号が合成されるが、会議参加者が第１音声取得手段に顔を向けているか向けていないかによって、第１音声取得手段によって取得される会議参加者の音声の量は変化する。そこで、顔向き判断手段の判断結果に基づいて、音声合成の割合を制御手段で制御することによって、顔の向きに適した音声取得を実現できる。

また、第１態様において、前記顔向き判断手段が、前記会議参加者が前記第１音声取得手段に顔を向けていると判断した場合に、前記音声合成手段によって前記第１音声信号に合成される前記第２音声信号の割合を基準割合とした場合に、前記制御手段は、前記顔向き判断手段が、前記会議参加者が前記第１音声取得手段に顔を向けていないと判断した場合に、前記第２音声信号の合成の割合を前記基準割合よりも上げるようにしてもよい。第１音声取得手段に顔を向けていない場合は、その会議参加者の音声を第１音声取得手段で取得するのは困難である。そこで、第２音声信号の割合を、第１音声取得手段に顔を向けているときの基準割合よりも上げることで、第１音声取得手段に顔を向けていない会議参加者の音声も確実に拾うことができる。

また、第１態様において、前記第２音声取得手段と前記会議参加者との対応関係を記憶する対応関係記憶手段と、前記顔向き判断手段が前記第１音声取得手段に顔を向けていないと判断した場合、当該対応関係記憶手段に記憶された前記対応関係を参照して、前記会議参加者に対応する前記第２音声取得手段を特定する特定手段とを備え、前記制御手段は、前記特定手段によって特定された前記第２音声取得手段が取得する前記第２音声信号の合成の割合を上げるようにしてもよい。つまり、第２音声取得手段と会議参加者との対応関係を対応関係記憶手段に記憶しているので、その対応関係記憶手段の記憶内容を参照することで、特定手段が、顔を第１音声取得手段に向けていない会議参加者の第２音声取得手段を特定できる。

また、第１態様において、前記会議参加者を撮像する撮像手段を備え、前記第１音声取得手段は、前記会議参加者から見て前記撮像手段と同方向に設けられ、前記制御手段は、前記顔向き判断手段が、前記会議参加者の顔が前記撮像手段に向いていないと判断した場合に、前記第２音声取得手段が取得する第２音声信号の合成の割合を上げるようにしてもよい。つまり、第１音声取得手段が、会議参加者から見て撮像手段と同方向に設けられているので、会議参加者の顔が撮像手段に向いているか否かを判断すれば、会議参加者の顔が第１音声取得手段に向いているか否かがわかる。これにより、撮像手段の撮像画像から、会議参加者の顔が第１音声取得手段に向いているか否かを容易に判断できる。

また、第１態様において、前記第２音声取得手段は、前記会議参加者が携帯可能なマイクであってもよい。これにより、会議参加者が会議中に移動した場合でも、第２音声取得手段と会議参加者との関係を維持することができる。

また、第１態様において、第２音声取得手段は、無線マイクであってもよい。これにより、配線を気にせずに第２音声取得手段を設置できる。

本発明の第２態様に係るテレビ会議端末装置の音声制御方法は、ネットワークに接続され、画像と音声を介して相手側の端末と通信を行うテレビ会議端末装置の音声制御方法であって、会議参加者の顔が拠点全体の音声を取得する第１音声取得手段に向いているか否かを判断する顔向き判断ステップと、前記第１音声取得手段で取得した第１音声信号に、前記会議参加者に対応して設けられ、前記会議参加者の音声を取得する第２音声取得手段で取得する第２音声信号を合成する音声合成ステップと、前記顔向き判断ステップにおける判断結果に基づき、前記音声合成ステップにおける前記第２音声信号の合成の割合を制御する制御ステップと、当該制御ステップにおいて前記第２音声信号の合成の割合が制御された合成信号を相手側端末へ送信する送信ステップとを備えている。

第２態様に係るテレビ会議端末装置の音声制御方法では、まず、顔向き判断ステップにおいて、会議参加者の顔が拠点全体の音声を取得する第１音声取得手段に向いているか否かを判断する。次いで、音声合成ステップにおいて、第１音声取得手段で取得した第１音声信号に、会議参加者に対応して設けられ、会議参加者の音声を取得する第２音声取得手段で取得する第２音声信号を合成する。さらに、制御ステップにおいて、顔向き判断ステップにおける判断結果に基づき、音声合成ステップにおける第２音声信号の合成の割合を制御する。そして、送信ステップにおいて、制御ステップにて合成の割合が制御された合成音声を相手側端末へ送信する。つまり、音声合成ステップにおいて第１音声信号に第２音声信号が合成されるが、会議参加者が第１音声取得手段に顔を向けているか向けていないかによって、第１音声取得手段によって取得される会議参加者の音声の量は変化する。そこで、顔向き判断手段の判断結果に基づいて、音声合成の割合を制御ステップで制御することによって、顔の向きに適した音声取得を実現できる。

本発明の第３態様に係る音声制御プログラムでは、請求項１乃至６の何れかに記載のテレビ会議端末装置の各種処理手段としてコンピュータを機能させることを特徴とする。

第３態様に係る音声制御プログラムでは、請求項１乃至６の何れかに記載のテレビ会議端末装置の各種処理手段としてコンピュータを機能させるので、請求項１乃至６に記載の効果を得ることができる。

テレビ会議システム１のブロック図である。テレビ会議端末３の拠点における会議参加者の配置図である。テレビ会議端末３の拠点で映し出されたカメラ画像５０の図である。テレビ会議端末３の電気的構成を示すブロック図である。ＨＤＤ３１の各記憶エリアを示す概念図である。サブマイク対応テーブル３１３１の概念図である。サブマイク制御テーブル３１４１の概念図である。ＣＰＵ２０による音声制御処理のフローチャートである。テレビ会議端末３の変形例の拠点で映し出されたカメラ画像５０の図である。サブマイク制御テーブル３１４２の概念図である。

以下、本発明の一実施形態であるテレビ会議端末３について、図面を参照して説明する。はじめに、テレビ会議端末３を構成とするテレビ会議システム１について、図１を参照して説明する。なお、テレビ会議端末３は、その拠点において、会議参加者の顔の向きがメインマイク３５（図２参照）に向けられていなくても、第１サブマイク３６及び第２サブマイク３７（図２参照）のＯＮ／ＯＦＦをそれぞれ制御することで、会議参加者の音声を確実に拾うことができるものである。

図１に示すように、テレビ会議システム１は、ネットワーク２を介して相互に接続され、かつ各拠点に設けられた複数のテレビ会議端末３，４，５を備えている。このシステムでは、ネットワーク２を介して、テレビ会議端末３，４，５の間で、画像、音声が互いに送受信されることで遠隔会議を実施することができる。

次に、テレビ会議システム１の各拠点の会議環境の一例について、図２，図３を参照して説明する。図２に示す例では、テレビ会議端末３が設置されている拠点において、会議テーブル５を３人（Ａさん、Ｂさん、Ｃさん）の会議参加者が囲んで席に座っている。ＡさんとＣさんは、会議テーブル５を間に挟んで向かい合って座っている。Ｂさんは、カメラ３４に対して正面に位置しており、カメラ３４から見てＡさんとＢさんとの間に座っている。

会議テーブル５の前側にはカメラ３４が設置されている。メインマイク３５は、拠点全体の音声をバランスよく取得するために、会議テーブル５の最前方の略中央に設置されている。会議参加者は、カメラ３４の下方に設置されたディスプレイ２８（図４参照）を見ながらカメラ３４に顔を向けて、他拠点に向けて喋るので、その音声はメインマイク３５によって取得される。

さらに、会議テーブル５の上には、第１サブマイク３６と、第２サブマイク３７とが各々設置されている。第１サブマイク３６はカメラ３４から見て左側に、第２サブマイク３７はカメラ３４から見て右側に設置されている。ここで、各会議参加者と各サブマイクとの距離関係について見ると、Ａさんに対しては、第１サブマイク３６が最も近い位置にある。Ｂさんに対しては、第１サブマイク３６及び第２サブマイク３７の何れも近い位置にある。Ｃさんに対しては、第２サブマイク３７が最も近い位置にある。このような会議場の全体がカメラ３４によって撮影され、図３に示すカメラ画像５０として他端末に送信される。

本実施形態では、このような会議環境下で、会議参加者達は他端末との間で遠隔会議を実施する。ここで、会議参加者は、会議中に同じ拠点にいる会議参加者と会話をすることがある。例えば、ＡさんがＢさんに話しかける場合、Ａさんの顔は自然とＢさんに向けられる。このとき、Ａさんの顔はメインマイク３５には向けられていないため、Ａさんの音声を明瞭に拾うことができない。この場合、Ａさんに対応付けられた第１サブマイク３６がＯＮされる。これにより、Ａさんの音声は、第１サブマイク３６によって取得され、メインマイク３５によって取得された音声に合成されて他端末に送信される。このような機能を有するテレビ会議端末３について、以下詳細に説明する。

次に、テレビ会議端末３の電気的構成について、図４を参照して説明する。なお、テレビ会議端末３，４，５は全て同じ構成であるので、ここではテレビ会議端末３の構成についてのみ説明し、他のテレビ会議端末４，５については説明を省略する。

テレビ会議端末３には、テレビ会議端末３の制御を司るコントローラとしてのＣＰＵ２０が設けられている。ＣＰＵ２０には、ＢＩＯＳ等を記憶したＲＯＭ２１と、各種データを一時的に記憶するＲＡＭ２２と、データの受け渡しの仲介を行うＩ／Ｏインタフェイス３０とが接続されている。Ｉ／Ｏインタフェイス３０には、各種記憶エリアを有するハードディスクドライブ３１（以下、ＨＤＤ３１）が接続されている。

Ｉ／Ｏインタフェイス３０には、ネットワーク２と通信するための通信装置２５と、マウス２７と、ビデオコントローラ２３と、キーコントローラ２４と、カードリーダ制御部３２と、拠点全体を撮影するためのカメラ３４と、拠点全体の音声を取り込むためのメインマイク３５と、会議参加者の顔の向きに合わせてＯＮ／ＯＦＦ制御される第１サブマイク３６及び第２サブマイク３７と、ＣＤ−ＲＯＭドライブ２６とが各々接続されている。ビデオコントローラ２３には、ディスプレイ２８が接続されている。キーコントローラ２４には、キーボード２９が接続されている。カードリーダ制御部３２には、各ユーザが所有する識別カード（図示外）に記憶されたユーザを識別するためのユーザＩＤを読み込むためのカードリーダ３３が接続されている。

なお、ＣＤ−ＲＯＭドライブ２６に挿入されるＣＤ−ＲＯＭ１１４には、テレビ会議端末３のメインプログラムや、本発明の音声制御プログラム等が記憶されている。ＣＤ−ＲＯＭ１１４の導入時には、これら各種プログラムが、ＣＤ−ＲＯＭ１１４からＨＤＤ３１にセットアップされて、後述するプログラム記憶エリア３１６（図５参照）に記憶される。

次に、ＨＤＤ３１の各種記憶エリアについて、図５を参照して説明する。ＨＤＤ３１には、カメラ３４によって撮影された画像が記憶されるカメラ画像記憶エリア３１１と、メインマイク３５、第１サブマイク３６、第２サブマイク３７の各位置を記憶するマイク位置記憶エリア３１２と、会議参加者とサブマイクとの対応関係を記憶するサブマイク対応テーブル３１３１（図６参照）を記憶するサブマイク対応テーブル記憶エリア３１３と、会議参加者の顔の向きの判定結果に基づき、第１サブマイク３６及び第２サブマイクのＯＮ／ＯＦＦを決定するためのサブマイク制御テーブル３１４１（図７参照）を記憶するサブマイク制御テーブル記憶エリア３１４と、カメラ画像５０で検出された人物の位置を記憶するための人物位置記憶エリア３１５と、各種プログラムを記憶するプログラム記憶エリア３１６と、その他の情報記憶エリア３１７と、が少なくとも設けられている。

次に、サブマイク対応テーブル３１３１について、図６を参照して説明する。サブマイク対応テーブル３１３１は、会議参加者にそれぞれ割り当てられた参加者ＩＤに対し、第１サブマイク３６及び第２サブマイク３７の何れかが対応付けられて記憶されている。図６に示す例では、Ａさんに対しては、参加者ＩＤ＝００１が割り当てられ、Ｂさんに対しては、参加者ＩＤ＝００２が割り当てられ、Ｃさんに対しては、参加者ＩＤ＝００３が割り当てられている。そして、参加者ＩＤ＝００１には、第１サブマイク３６が対応付けられ、参加者ＩＤ＝００２には、何れのサブマイクも対応付けられておらず、参加者ＩＤ＝００３には、第２サブマイク３７が対応付けられて記憶されている。

なお、後述するが、会議参加者に対する第１サブマイク３６及び第２サブマイク３７の対応付けは、会議参加者と各サブマイクとの距離に基づいて行われる。即ち、第１サブマイク３６及び第２サブマイク３７のうち会議参加者から見て近い方のサブマイクが対応付けられる。図６に示すサブマイク対応テーブル３１３１は、図２，図３に示す会議環境で対応付けられた場合を示している。ここで、Ｂさんは、カメラ３４に対して正面に体を向けて座っているので、Ｂさんが、Ａさん、Ｃさんの何れに話しかけてもＢさんの顔の向きは、メインマイク３５に対して外れることはない。そこで、本実施形態では、Ｂさんに対してはサブマイクを対応づけないことで、第１サブマイク３６及び第２サブマイク３７の消費電力を節約することができる。なお、これに限らず、Ｂさんに対して、サブマイクを対応付けてもよい。

次に、サブマイク制御テーブル３１４１について、図７を参照して説明する。サブマイク制御テーブル３１４１は、顔の向きの判定結果に基づいて作成されるものである。サブマイク制御テーブル３１４１には、会議参加者にそれぞれ割り当てられた参加者ＩＤに対し、その会議参加者の顔の向きがメインマイク３５に向いている場合、向いていない場合における第１サブマイク３６及び第２サブマイク３７のＯＮ／ＯＦＦが記憶されている。

例えば、どの参加者ＩＤに対しても、顔の向きがメインマイク３５に向けられている場合は、メインマイク３５で会議参加者の音声を明瞭に取得できるので、第１サブマイク３６及び第２サブマイク３７は何れもＯＦＦにする。参加者ＩＤ＝００１に割り当てられたＡさんに対しては、最も近い第１サブマイク３６が対応づけられているので、顔の向きがメインマイク３５に向いていない場合は、第１サブマイク３６＝「ＯＮ」、第２サブマイク３７＝「ＯＦＦ」が記憶されている。参加者ＩＤ＝００２に割り当てられたＢさんに対しては、上述した通り、何れのサブマイクも対応付けられていないので、顔の向きがメインマイク３５に向いていない場合には、第１サブマイク３６＝「ＯＦＦ」、第２サブマイク３７＝「ＯＦＦ」が記憶されている。参加者ＩＤ＝００３に割り当てられたＣさんに対しては、最も近い第２サブマイク３７が対応づけられているので、顔の向きがメインマイク３５に向いていない場合には、第１サブマイク３６＝「ＯＦＦ」、第２サブマイク３７＝「ＯＮ」が記憶されている。

次に、ＣＰＵ２０によるマイク制御処理について、図８のフローチャートを参照して説明する。まず、メインマイク３５がＯＮされる（Ｓ１１）。そして、そのメインマイク３５で取得された音声が他端末に送信する音声送信処理が開始される（Ｓ１２）。次いで、その会議テーブル５にいる会議参加者の人物を検出するための人物検出処理が実行される（Ｓ１３）。人物検出処理では、例えば、「背景差分法」を用いて、ＨＤＤ３１のカメラ画像記憶エリア３１１に記憶されたカメラ画像から人物が検出される。

人物検出処理では、ＨＤＤ３１に記憶された予め会議参加者のいない状態の基礎フレーム画像を元に、カメラ３４によって撮像されるフレーム毎に、基礎フレームとの差分が取られる。その差分値が規定値以上の領域があれば、そこに人物がいるとして検出される。その検出された人物のカメラ画像５０における位置が、ＨＤＤ３１の人物位置記憶エリア３１５に記憶される。さらに、検出された会議参加者には参加者ＩＤが検出された順に、「００１、００２、００３、・・・」と付される。そして、これら参加者ＩＤは、図６に示すサブマイク対応テーブル３１３１と、図７に示すサブマイク制御テーブル３１４１に各々登録される。

次いで、カメラ３４によって撮像されたカメラ画像５０において、メインマイク３５を認識したか否かが判断される（Ｓ１４）。例えば、図３に示すカメラ画像５０では、メインマイク３５が映し出されている。このメインマイク３５を認識した場合（Ｓ１４：ＹＥＳ）、会議参加者から見て、メインマイク３５の方向はカメラ３４と同一方向にないので、ＲＡＭ２２に同一方向フラグ＝「０」が記憶される（Ｓ１５）。さらに、画像解析で認識されたメインマイク３５の位置が、ＨＤＤ３１のマイク位置記憶エリア３１２に記憶される（Ｓ１６）。なお、カメラ画像５０からメインマイク３５を検出するために、メインマイク３５には検出用の目印を付してある。

一方、メインマイク３５が認識されなかった場合（Ｓ１４：ＮＯ）、メインマイク３５はカメラ３４の直下に設置され、カメラ３４の撮像範囲に含まれなかったものと推測される。この場合は、会議参加者から見て、メインマイク３５の方向はカメラ３４と同一方向と見なし、ＲＡＭ２２に同一方向フラグ＝「１」が記憶される（Ｓ１７）。

次に、カメラ画像５０から、第１サブマイク３６及び第２サブマイク３７がそれぞれ認識できるか否か判断される（Ｓ１８）。何れのサブマイクも認識できなかった場合（Ｓ１８：ＮＯ）、第１サブマイク３６及び第２サブマイク３７の制御はできないので、そのまま処理を終了する。

一方、第１サブマイク３６及び第２サブマイク３７の何れもが認識された場合（Ｓ１８：ＹＥＳ）、第１サブマイク３６及び第２サブマイク３７の各位置がＨＤＤ３１のマイク位置記憶エリア３１２（図５参照）に各々記憶される（Ｓ１９）。

そして、会議参加者に対して、第１サブマイク３６又は第２サブマイク３７を対応付けるサブマイク対応付け処理が実行される（Ｓ２０）。サブマイク対応付け処理では、まず、ＨＤＤ３１に記憶された会議参加者の位置と、マイク位置記憶エリア３１２に記憶された第１サブマイク３６及び第２サブマイク３７の各位置との距離が各々算出される。算出された各距離はＲＡＭ２２に記憶される。そして、各会議参加者に対して距離が短い方のサブマイクが選択され、サブマイク対応テーブル３１３１のサブマイクの種類欄に、選択されたサブマイクが記憶される。

図６に示すサブマイク対応テーブル３１３１では、Ａさん（参加者ＩＤ＝００１）には第１サブマイク３６が記憶され、Ｃさん（参加者ＩＤ＝００２）には第２サブマイク３７が記憶されている。なお、Ｂさん（参加者ＩＤ＝００３）には、上述した理由から対応付けされない。

次いで、サブマイク対応テーブル３１３１の記憶内容に基づき、サブマイク制御テーブル３１４１が作成される（Ｓ２１）。例えば、ＨＤＤ３１のサブマイク制御テーブル記憶エリア３１４に記憶されたサブマイク制御テーブル３１４１には、３人の参加者ＩＤが先に登録されている。これら参加者ＩＤに対して、会議参加者の顔の向きがメインマイクに向いている場合と、向いていない場合とで、第１サブマイク３６及び第２サブマイク３７のＯＮ／ＯＦＦがそれぞれ設定される。顔の向きがメインマイクに向いている場合は、第１サブマイク３６及び第２サブマイク３７の何れもＯＦＦとなるように登録される。

一方、会議参加者の顔の向きがメインマイク３５に向いていない場合は、サブマイク対応テーブル３１３１の記憶内容を参照して、その会議参加者に対応付けられたサブマイクがＯＮ、他方のサブマイクがＯＦＦとなるように登録される。例えば、Ａさん（参加者ＩＤ＝００１）には、第１サブマイク３６が対応付けられているので、「第１サブマイクＯＮ、第２サブマイクＯＦＦ」が記憶される。こうして、サブマイク制御テーブル３１４１が作成され、ＨＤＤ３１のサブマイク制御テーブル記憶エリア３１４に記憶される。

次いで、ＲＡＭ２２に同一方向フラグ＝「１」が記憶されているか否か判断される（Ｓ２２）。同一方向フラグ＝「０」の場合（Ｓ２２：ＮＯ）、会議参加者から見て、メインマイク３５は、カメラ３４と同一方向にはないので、会議参加者の顔の向きを推定しなければならない。従って、まず、会議参加者の顔領域が抽出される（Ｓ２３）。顔領域の抽出は、「肌色領域検出処理」が用いられる。肌色領域検出処理では、まず、色相と、彩度とが、所定の閾値内にある画素を肌色画素として抽出される。次いで、顔領域を分離するために、肌色画素と非肌色画素とに２値化される。さらに、得られた２値化画像において、所定範囲内の面積を有する肌色画素部分を顔領域として抽出される。

次いで、顔の特徴点として、カメラ画像５０から抽出された顔領域から、各会議参加者の右目、左目、口の位置が各々検出され（Ｓ２４）、これら３点を頂点とする三角形の形状から会議参加者の顔の向きが推定される（Ｓ２５）。さらに、その推定された顔の向きが、カメラ画像５０において、ＨＤＤ３１のマイク位置記憶エリア３１２に記憶されたメインマイク３５の位置に向いているか否か判断される（Ｓ２６）。会議参加者の顔の向きがメインマイク３５の方向に向いている場合（Ｓ２６：ＹＥＳ）、続いて、第１サブマイク３６、第２サブマイク３７がＯＮされているか否かが判断される（Ｓ３０）。

メインマイク３５に顔を向けている会議参加者がいる場合は、メインマイク３５でその会議参加者の音声を拾うことができるので、第１サブマイク３６、第２サブマイク３７をＯＮする必要がない。そこで、第１サブマイク３６、第２サブマイク３７の何れかがＯＮされている場合は（Ｓ３０：ＹＥＳ）、ＯＮされている第１サブマイク３６又は第２サブマイク３７がＯＦＦされる（Ｓ３１）。なお、第１サブマイク３６、第２サブマイク３７の何れもＯＦＦされている場合は（Ｓ３０：ＮＯ）、Ｓ２２に戻って、処理が繰り返される。

一方、メインマイク３５に顔を向けていない会議参加者がいる場合は（Ｓ２６：ＮＯ）、ＨＤＤ３１に記憶されたサブマイク制御テーブル３１４１の記憶内容が参照され、メインマイク３５に顔を向けていない会議参加者の参加者ＩＤに対応付けられた第１サブマイク３６、又は第２サブマイク３７が検出され（Ｓ２７）、その検出された第１サブマイク３６、又は第２サブマイク３７がＯＮされる（Ｓ２８）。これにより、メインマイク３５に顔を向けていない会議参加者の音声を、その会議参加者に一番近い第１サブマイク３６、又は第２サブマイク３７で拾うことができる。

そして、第１サブマイク３６、又は第２サブマイク３７で取得された音声は、メインマイク３５によって取得された音声に合成され（Ｓ２９）、音声送信処理によって他端末に送信される。これにより、会議参加者の顔の向きに依らず、会議参加者の音声を明瞭に取得することができる。その後、Ｓ２２に戻って、会議が終了するまで処理が繰り返される。

ところで、ＲＡＭ２２に同一フラグ＝「１」が記憶されている場合（Ｓ２２：ＹＥＳ）、メインマイク３５がカメラ３４と同一位置に設置されていることから、会議参加者の顔がカメラ３４に向いていれば、メインマイク３５に向けているのと同じ状況である。この場合、カメラ３４によって撮影されたカメラ画像５０において、会議参加者の顔の向きを推定せず、会議参加者の顔が認識できるか否かで、顔をメインマイク３５に向けているか否かの判断が行われる。

具体的には、上述した顔の向きを推定する前処理と同様に、顔領域が検出され、その検出された顔領域から顔の特徴点として、右目、左目、口の位置が各々検出される。そして、その三角形の形状が形成できる場合は、顔認識可能と判断され、三角形の形状が形成できない場合は、顔認識不可となる。つまり、顔認識可能な場合は、顔の向きがメインマイク３５の方向であると判断され（Ｓ２６：ＹＥＳ）、上述と同様に、第１サブマイク３６、及び第２サブマイク３７は何れもＯＦＦになる（Ｓ３０、Ｓ３１）。

一方、顔認識不可の場合は、顔の向きがメインマイク３５に向いていないと判断され（Ｓ２６：ＮＯ）、対応する第１サブマイク３６、又は第２サブマイク３７がＯＮとなる（Ｓ２７、Ｓ２８）。そして、第１サブマイク３６、又は第２サブマイク３７で取得された音声は、メインマイク３５によって取得された音声に合成され（Ｓ２９）、音声送信処理によって他端末に送信される。その後、Ｓ２２に戻って、会議が終了するまで処理が繰り返される。

以上説明したように、本実施形態であるテレビ会議端末３では、拠点全体の音声を取得するメインマイク３５の他に、会議参加者の音声を取得するための第１サブマイク３６及び第２サブマイク３７を備えている。会議参加者の顔の向きは、カメラ３４によって撮像されたカメラ画像５０の画像解析によって推定される。カメラ画像５０からメインマイク３５が認識できた場合は、推定された顔の向きがメインマイク３５に向けられているか否か判断される。メインマイク３５に顔が向けられている場合は、第１サブマイク３６及び第２サブマイク３７の何れもＯＦＦにする。一方、メインマイク３５に顔が向けられていない場合は、その会議参加者に対応付けられた第１サブマイク３６又は第２サブマイク３７が検出されてＯＮされる。第１サブマイク３６又は第２サブマイク３７によって取得された音声は、メインマイク３５によって取得された音声に合成されて、他端末に送信される。こうして、会議参加者の顔の向きに依らず、会議参加者の音声を明瞭に取得できる。また、顔の向きがメインマイク３５に向いている場合は、第１サブマイク３６及び第２サブマイク３７をＯＦＦさせるので、第１サブマイク３６及び第２サブマイク３７の消費電力を節約できる。

なお、本発明のテレビ会議端末は、上記実施形態に限らず、各種の変形が可能なことはいうまでもない。例えば、上記実施形態では、サブマイクが２つの例を示したが、これ以上であってもよく、又は１つでもよい。

サブマイクが１つの場合は、図９に示すように、会議テーブル５上の中央には、サブマイク３８が設置されている。サブマイク３８は、どの会議参加者からも近い位置に設置され、会議参加者の音声をより明瞭に拾うことができる。このような実施形態では、図１０に示すようなサブマイク制御テーブル３１４２が作成され、ＨＤＤ３１に記憶される。

つまり、サブマイク制御テーブル３１４２では、１つのサブマイク３８しかないので、顔をメインマイク３５に向けていない会議参加者がいた場合、共通のサブマイク３８をＯＮすればよい。これにより、上記実施形態と同様の効果を得ることができる。サブマイクの設置が少ない上に、制御方法も簡単である。

また、上記実施形態では、サブマイクと会議参加者との対応付けを、各サブマイクの位置と会議参加者との距離に基づいて行ったが、例えば、会議参加者がさらに多人数であって、サブマイクの本数をさらに多くした場合は、サブマイクとの距離に加え、会議参加者の顔がどのサブマイクに向けられているかによって、サブマイクと会議参加者との対応付けを行ってもよい。例えば、ある会議参加者に対して、複数のサブマイクが同一の距離関係で配置されている場合、カメラ画像からどのサブマイクに顔を向けているかを判断することで、会議参加者とサブマイクとの対応付けを適切に行うことができる。

さらに、上記実施形態では、メインマイク３５に顔を向けていない会議参加者がいた場合、その会議参加者に対応付けられた第１サブマイク３６又は第２サブマイク３７をＯＮ、ＯＦＦさせ、メインマイク３５によって取得された音声信号（「第１音声」とする）に対して、第１サブマイク３６又は第２サブマイク３７によって取得された音声信号（「第２音声」とする）を合成したが、例えば、第１サブマイク３６又は第２サブマイク３７をＯＮ、ＯＦＦするのではなく、第１サブマイク３６及び第２サブマイク３７をＯＮにし、第１サブマイク３６又は第２サブマイク３７によって取得された第２音声信号の第１音声信号に対する合成割合を変化させてもよい。

上記実施形態でいえば、会議参加者がメインマイク３５を向いている通常時は、第１音声信号と第２音声信号との合成割合は例えば１０：０（基準割合）である。このとき、第１サブマイク３６又は第２サブマイク３７はＯＦＦ状態としてもよいしＯＮ状態でもよい。メインマイク３５についても同様である。

そして、通常時の合成割合を１０：０（基準割合）とした場合、メインマイク３５に向いてない時は、例えば８：２のように、第２音声信号の合成割合を通常時よりも上げればよい。なお、第２音声信号の合成割合は、例えば５：５のように第１音声信号と同じにしてもよく、３：７のように第１音声信号よりも高くしてもよい。また、合成割合を第１音声信号と第２音声信号とで分け合うように（例えば、合計１０に対して、５：５、３：７等）する他に、第１音声信号に対して第２音声信号を上乗せする方法で合成割合を決定してもよい。例えば、第１音声信号を１０としたときに、第２音声信号の割合として５を上乗せし、結果として２：１の合成割合としてもよい。

また、第１サブマイク３６及び第２サブマイク３７は、会議参加者が携帯可能なマイクであってもよい。これにより、会議参加者が会議中に移動した場合でも、第１サブマイク３６又は第２サブマイク３７と、会議参加者との関係を維持することができる。

また、第１サブマイク３６又は第２サブマイク３７は、無線マイクであってもよい。これにより、配線を気にせずに第１サブマイク３６又は第２サブマイク３７を設置できる。

１テレビ会議システム
３テレビ会議端末
２０ＣＰＵ
２５通信装置
２６ＣＤ−ＲＯＭドライブ
２８ディスプレイ
３１ハードディスクドライブ
３４カメラ
３５メインマイク
３６第１サブマイク
３７第２サブマイク
３８サブマイク

Claims

ネットワークに接続され、画像と音声を介して相手側の端末と通信を行うテレビ会議端末装置であって、
拠点全体の音声を取得する第１音声取得手段と、
会議参加者に対応して設けられ、前記会議参加者の音声を取得する第２音声取得手段と、
前記会議参加者の顔が前記第１音声取得手段に向いているか否かを判断する顔向き判断手段と、
前記第１音声取得手段で取得した第１音声信号に前記第２音声取得手段で取得する第２音声信号を合成する音声合成手段と、
前記顔向き判断手段の判断結果に基づき、前記音声合成手段における前記第２音声信号の合成の割合を制御する制御手段と、
前記音声合成手段によって合成された合成音声を相手側端末へ送信する送信手段と
を備えたことを特徴とするテレビ会議端末装置。
前記顔向き判断手段が、前記会議参加者が前記第１音声取得手段に顔を向けていると判断した場合に、前記音声合成手段によって前記第１音声信号に合成される前記第２音声信号の割合を基準割合とした場合に、
前記制御手段は、
前記顔向き判断手段が、前記会議参加者が前記第１音声取得手段に顔を向けていないと判断した場合に、前記第２音声信号の合成の割合を前記基準割合よりも上げることを特徴とする請求項１に記載のテレビ会議端末装置。
前記第２音声取得手段と前記会議参加者との対応関係を記憶する対応関係記憶手段と、
前記顔向き判断手段が前記第１音声取得手段に顔を向けていないと判断した場合、当該対応関係記憶手段に記憶された前記対応関係を参照して、前記会議参加者に対応する前記第２音声取得手段を特定する特定手段と
を備え、
前記制御手段は、
前記特定手段によって特定された前記第２音声取得手段が取得する前記第２音声信号の合成の割合を上げることを特徴とする請求項２に記載のテレビ会議端末装置。
前記会議参加者を撮像する撮像手段を備え、
前記第１音声取得手段は、前記会議参加者から見て前記撮像手段と同方向に設けられ、
前記制御手段は、
前記顔向き判断手段が、前記会議参加者の顔が前記撮像手段に向いていないと判断した場合に、前記第２音声取得手段が取得する第２音声信号の合成の割合を上げることを特徴とする請求項２又は３に記載のテレビ会議端末装置。
前記第２音声取得手段は、前記会議参加者が携帯可能なマイクであることを特徴とする請求項１乃至４の何れかに記載のテレビ会議端末装置。
前記第２音声取得手段は、無線マイクであることを特徴とする請求項１乃至５の何れかに記載のテレビ会議端末装置。
ネットワークに接続され、画像と音声を介して相手側の端末と通信を行うテレビ会議端末装置の音声制御方法であって、
会議参加者の顔が拠点全体の音声を取得する第１音声取得手段に向いているか否かを判断する顔向き判断ステップと、
前記第１音声取得手段で取得した第１音声信号に、前記会議参加者に対応して設けられ、前記会議参加者の音声を取得する第２音声取得手段で取得する第２音声信号を合成する音声合成ステップと、
前記顔向き判断ステップにおける判断結果に基づき、前記音声合成ステップにおける前記第２音声信号の合成の割合を制御する制御ステップと、
前記音声合成ステップにおいて合成された合成音声を相手側端末へ送信する送信ステップと
を備えたことを特徴とするテレビ会議端末装置の音声制御方法。
請求項１乃至６の何れかに記載のテレビ会議端末装置の各種処理手段としてコンピュータを機能させることを特徴とする音声制御プログラム。