JP2005151471A

JP2005151471A - 音声集音・映像撮像装置および撮像条件決定方法

Info

Publication number: JP2005151471A
Application number: JP2003389892A
Authority: JP
Inventors: Ryuichi Tanaka; 竜一田中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-11-19
Filing date: 2003-11-19
Publication date: 2005-06-09
Anticipated expiration: 2023-11-19
Also published as: JP4479227B2

Abstract

【課題】ＴＶ会議システムにおいて、発言者を自動的かつ正確に特定し、特定したて発言者を撮像可能にする音声集音・映像撮像装置を提供する。
【解決手段】第１のディジタルシグナルプロセッサ（ＤＳＰ）２５は、発言者の選択を正確に行う。声紋認証部３２は声紋登録された会議参加者か否かを認証する。発言者の選択が一致したとき、撮像調整部３６はテレビカメラ装置４０Ａ１、４０Ａ２を話者を最適に撮影する条件で撮像させる。好ましくは、声紋が一致したとき上記撮影を行う。
【選択図】図２６

Description

本発明は、たとえば、２つの会議室にいる複数の会議参加者同士が、テレビジョン会議を行うときに使用するのに好適な音声集音・映像撮像装置と撮像条件決定方法に関する。
特に、本発明は、発言者が使用しているマイクロフォンを正確に選択し、好ましくは、さらに声紋認証を行い、その結果に基づいて選択され、声紋認証されたマイクロフォン設置領域を撮像可能にした、音声集音・映像撮像装置と撮像条件決定方法に関する。

離れた位置にある２つの会議室にいる会議参加者同士が会議を行うため、テレビ会議システムが用いられている。テレビ会議システムは、それぞの会議室にいる会議参加者の姿を撮像手段で撮像し、音声をマイクロフォンで集音して、撮像手段で撮像した画像およびマイクロフォンで集音した音声を通信経路を介して伝送し、相手側の会議室のテレビジョン受像機の表示部に撮像した画像を表示し、スピーカから集音した音声を出力する。

このようなテレビ会議システムにおいては、それぞれの会議室において、撮像手段およびマイクロフォンから離れた位置にいる発言者の音声が集音しにくいという問題に遭遇しており、その改善策として、会議参加者ごとにマイクロフォンを設けている場合がある。またテレビジョン受像機のスピーカから出力される音声が、スピーカから離れた位置にいる会議参加者には聞きにくいという問題もある。

特開２００３−８７８８７号公報および特開２００３−８７８９０号公報は、互いに離れた位置の会議室相互においてテレビ会議を行うときに、映像および音声を提供する通常のテレビ会議システムに加えて、相手側の会議室にいる会議出席者の音声がスピーカから明瞭に聴こえ、こちら側の会議室内の雑音の影響を受けにくいまたはエコーキャンセラーの負担が少ない、マイクロフォンとスピーカとが一体構成された音声入出力装置を開示している。

たとえば、特開２００３−８７８８７号公報に開示されている音声入出力装置は、特開２００３−８７８８７号公報の図５〜図８、図９、図２３を参照して記述されているように、下から上に向かって、スピーカ６が内蔵されたスピーカボックス５と、上に向かって放射状に開いている音を拡散する円錐状反射板４と、音遮蔽板３と、支柱８に支持された単一指向性の複数のマイクロフォン（図６、図７においては４本、図２３においては６本）を水平面に放射状に等角度で配置した構造をしている。音遮蔽板３は、下部のスピーカ５からの音が複数のマイクロフォンに入らないように遮蔽するためのものである。
特開２００３−８７８８７号公報特開２００３−８７８９０号公報

特開２００３−８７８８７号公報および特開２００３−８７８９０号公報に開示された音声入出力装置は、映像および音声を提供するテレビ会議システムを補完する手段として活用されている。

本発明の目的は、双方向通話に使用する手段としての性能面、価格面、寸法的な面、使用環境への適合性、使い勝手などの面から、さらに改善した音声集音・映像撮像装置と撮像条件決定方法を提供することにある。
特に本発明は、発言者のマイクロフォンを正確に選択し、さらに、正確に声紋認証を行い、その結果に基づいて、選択されたマイクロフォンの設置領域を撮像可能にした、音声集音・映像撮像装置と撮像条件決定方法を提供することにある。

本発明の第１の観点によれば、第１所定配置条件に基づいて配置された、指向性を持つ、複数のマイクロフォンと、前記複数のマイクロフォンを使用する話者を撮像するため、第２所定配置条件に基づいて配置され、パン、チルト、ズーム可能な撮像手段と、前記複数のマイクロフォンの集音信号を検出し、該検出した集音信号と前記第１および第２所定配置条件に基づいて前記マイクロフォンを使用した話者の方向および話者と前記撮像手段との距離を算出し、該算出したデータに基づいて前記撮像手段の撮影条件を制御する撮像調整手段とを具備する音声集音・映像撮像装置が提供される。

好ましくは、前記複数のマイクロフォンを使用する複数の話者の声紋を認証する声紋認証手段をさらに具備し、前記撮像調整手段は、前記声紋認証手段で声紋認証されたとき、前記マイクロフォン信号選択手段で選択したマイクロフォンに対応する撮像条件情報に基づいて撮像手段の撮像条件を制御する。

さらに好ましくは、前記撮像調整手段は、前記撮像手段で撮像した画像の輪郭を検出し、検出した輪郭が画枠内に一杯になるように、前記撮像手段をズームさせる。

好ましくは、前記撮像調整手段は、前記声紋認証手段で声紋認証されないとき、前記撮像手段をデフォルト状態にする。
たとえば、前記撮像調整手段は、前記デフォルト状態として、前記撮像手段の条件を変化させない、あるいは、前記撮像調整手段は、前記デフォルト状態として、前記撮像手段を初期撮像条件にする。

好ましくは、前記複数のマイクロフォンは等角度で放射状に配置されており、前記複数のマイクロフォンの近傍に、前記複数のマイクロフォンに対して等距離に配置された音声出力手段をさらに有する。

本発明の第２の観点によれば、複数のマイクロフォンの集音信号のうち１つを選択するマイクロフォン信号選択工程と、前記選択されたマイクロフォンに対応する撮像条件情報に基づいて撮像手段の撮像条件を決定し撮像条件を調整する工程とを具備する撮像条件決定方法が提供される。

好ましくは、前記選択されたマイクロフォン集音信号について事前に登録された声紋と一致するか否かを声紋認証を行う声紋認証工程をさらに具備し、前記撮像調整工程において、前記声紋認証工程において声紋認証されたとき、前記マイクロフォン信号選択工程で選択したマイクロフォンに対応する撮像条件情報に基づいて前記撮像手段の撮像条件を制御する。

本発明によれば、発言者が使用しているマイクロフォンを選択し、その結果に基づいて、事前に設定された撮像条件情報に基づいて撮像手段の撮像条件を調整し、発言者を撮像できる。
好ましくは、声紋認証を行い、さらに声紋認証された場合に、その結果に基づいて、撮像条件情報に基づいて撮像手段の撮像条件を調整し、発言者を撮像できる。

本発明の実施の形態の音声集音・映像撮像装置について述べる。
図１（Ａ）〜（Ｃ）は本発明の実施の形態の音声集音・映像撮像装置が適用される１例を示す構成図である。
図１（Ａ）に図解したように、２つの会議室９０１、９０２にそれぞれに第１および第２の音声集音・映像撮像装置１Ａ、１Ｂが設置されており、これらの音声集音・映像撮像装置１Ａ、１Ｂが通信回線９２０、たとえば、電話回線で接続されている。

〔音声集音・映像撮像装置の概要〕
図２は本発明の実施の形態の音声集音・映像撮像装置１Ａの平面配置図である。第１および第２の音声集音・映像撮像装置１Ａ、１Ｂは同じ構成をしている。
第１の音声集音・映像撮像装置１Ａを代表して述べると、第１の音声集音・映像撮像装置１Ａは、本発明の音声集音手段に相当する第１の通話装置１０Ａと、本発明の撮像手段に相当する２台の第１のテレビジョンカメラ（テレビカメラ）装置４０Ａ１、４０Ａ２とを有する。通話装置は会議者の発言を検出し、発言者を決定して決定して発言者の音声をその会議室内の他の会議出席者および相手方の会議室の会議出席者に通報する。さらに通話装置は、発言者の特定に基づいてテレビカメラ装置４０Ａ１、４０Ａ２の撮像条件を提供する。
テレビカメラ装置４０Ａ１、４０Ａ２は提供された撮像条件に基づき自動的に最適な画像を撮像する。

第１の音声集音・映像撮像装置１Ａに、テレビジョン受像機５０Ａ、および／または、第１のプロジェクタ装置６０Ａを含めることもできる。
プロジェクタ装置６０Ａは、たとえば、変調手段として液晶を用いたプロジェクタ装置であり、会議に用いる各種資料をパーソナルコンピュータからの提供された場合、スクリーンＳに映像として投射して会議者Ａ１〜Ａ８に視認可能とする。
テレビジョン受像機５０Ａは、テレビカメラ装置４０Ａ１、４０Ａ２で撮像した映像、または、相手方会議室のテレビカメラ装置４０Ｂ１、４０Ｂ２で撮像した映像をスクリーンＳに投射して会議者Ａ１〜Ａ８に表示する。なお、テレビジョン受像機５０Ａを削除して、テレビカメラ装置４０Ａ１、４０Ａ２で撮像した映像、または、相手方会議室のテレビカメラ装置４０Ｂ１、４０Ｂ２で撮像した映像を、パーソナルコンピュータからの提供された映像と切り換えて、プロジェクタ装置６０Ａを介してスクリーンＳに投射して会議者Ａ１〜Ａ８に表示することもできる。以下、テレビジョン受像機５０Ａを用いず、プロジェクタ装置６０Ａでテレビカメラ装置４０Ａ１、４０Ａ２で撮像した画像を表示する場合について述べる。

好ましくは、通話装置１０Ａと、プロジェクタ装置６０Ａとはテーブル９１１の上に載置されている。図１（Ｂ）はテレビジョン９１１に載置された通話装置１０Ａを示す。
図１（Ｃ）、図２に図解したように、通話装置１０Ａの周囲に複数（図１（Ｃ）では６名、図２においては８名）の会議参加者Ａ１〜Ａ６（Ａ１〜Ａ８）が位置している。

図解を省略した第２の音声集音・映像撮像装置１Ｂも、第２の通話装置１０Ｂと、第２の２台のテレビジョンカメラ（テレビカメラ）装置４０Ｂ１、４０Ｂ２とを有する。
音声集音・映像撮像装置１Ｂに、第２のプロジェクタ装置６０Ｂおよびテレビジョン受像機５０Ｂを含めることもできる。
好ましくは、通話装置１０Ｂとプロジェクタ装置６０Ｂとは会議室９０２のテーブル９１２に載置されている。

〔通話装置〕
第１通話装置１０Ａと第２の通話装置１０Ｂとの間で、通信回線９２０を介して音声による応答を行う。
通常、通信回線９２０を介しての会話は、一人の話者と一人の話者同士、すなわち、１対１で通話を行うが、本発明の実施の形態の通話装置は１つの通信回線９２０を用いて、会議室９０１、９０２内の複数の会議参加者同士が通話できる。ただし、本実施の形態においては、音声の混雑を回避し、テレビカメラ装置での話者の撮像を可能にするため、同時刻（同じ時間帯）の話者は、相互に一人に限定する。
通話装置の詳細は後述する。

〔テレビカメラ装置とテレビジョン受像機〕
たとえば、第１の音声集音・映像撮像装置１Ａにおけるテレビカメラ装置４０Ａ１、４０Ａ２は、第１通話装置１０Ａで特定した通話者を撮像する。そのため、テレビカメラ装置４０Ａ１、４０Ａ２は、パン、チルト、ズーム機能などを有する。
テレビカメラ装置４０Ａ１、４０Ａ２で撮像した映像は、通信回線９２０を介して相手側の会議室のプロジェクタ装置６０Ａ（またはテレビジョン受像機５０Ｂ）に表示される。
必要に応じて、自分の側の会議室のプロジェクタ装置６０Ａ（またはテレビジョン受像機５０Ａ）にテレビカメラ装置４０Ａ１、４０Ａ２が撮像した映像を表示することもできる。

〔撮像対象の特定方法〕
テレビカメラ装置４０Ａ１、４０Ａ２で撮像する撮像対象の特定方法は、第１通話装置１０Ａにおける話者の方向の特定、および、事前に登録してある話者の声紋認識結果を用いる。その詳細は撮像調整部３６において行うが、後述する。

第２の音声集音・映像撮像装置１Ｂも第１の音声集音・映像撮像装置１Ａと同じ処理を行う。
このように、音声集音・映像撮像装置１Ａ、１Ｂは、通話装置１０Ａ、１０Ｂにおいて、通話者を選択（特定）し、選択した通話者の音声を集音する。さらに、テレビカメラ装置４０Ａ１、４０Ａ２は、撮像調整部３６の指令に基づいて、選択（特定）された通話者の映像を撮像する。
集音した音声と撮像した映像は相手側に会議室に転送され、相手側の音声集音・映像撮像装置における通話装置で音声を再生し、プロジェクタ装置（またはテレビジョン受像機）で映像を表示する。

通話装置の詳細
図３〜図５を参照して本発明の実施の形態の音声集音・映像撮像装置における通話装置の構成について述べる。通話装置１０Ａも第２の通話装置１０Ｂも同様である。
図３は本発明の１実施の形態としての通話装置の斜視図である。
図４は図３に図解した通話装置の断面図である。
図５は図３、図４に図解した通話装置のマイクロフォン・電子回路収容部の平面図であり、図４の線Ｘ−Ｘにおける平面図である。

図３に図解したように、通話装置は、上部カバー１１と、音反射板１２と、連結部材１３と、スピーカ収容部１４と、操作部１５とを有する。
図４に図解したように、スピーカ収容部１４は、音反射面１４ａと、底面１４ｂと、上部音出力開口部１４ｃとを有する。音反射面１４ａと底面１４ｂで包囲された空間である内腔１４ｄに受話再生スピーカ１６が収容されている。スピーカ収容部１４の上部に音反射板１２が位置し、スピーカ収容部１４と音反射板１２とが連結部材１３によって連結されている。

連結部材１３内には拘束部材１７が貫通しており、拘束部材１７は、スピーカ収容部１４の底面１４ｂの拘束部材下部固定部１４ｅと、音反射板１２の拘束部材固定部１２ｂとの間を拘束している。ただし、拘束部材１７はスピーカ収容部１４の拘束部材貫通部１４ｆは貫通しているだけである。拘束部材１７が拘束部材貫通部１４ｆを貫通してここで拘束していないのはスピーカ１６の動作によってスピーカ収容部１４が振動するが、その振動を上部音出力開口部１４ｃの周囲においては拘束させないためである。

相手会議室の話者が話した音声は、受話再生スピーカ１６を介して上部音出力開口部１４ｃから抜け、音反射板１２の音反射面１２ａとスピーカ収容部１４の音反射面１４ａとで規定される空間に沿って軸Ｃ−Ｃを中心として３６０度の全方位に拡散する。
音反射板１２の音反射面１２ａの断面は図解したように、ゆるやかなラッパ型の弧を描いている。音反射面１２ａの断面は軸Ｃ−Ｃを中心として３６０度にわたり（全方位にわたり）、図解した断面形状をしている。
同様にスピーカ収容部１４の音反射面１４ａの断面も図解したように、ゆるやかな凸面を描いている。音反射面１４ａの断面も軸Ｃ−Ｃを中心として３６０度にわたり（全方位）、図解した断面形状をしている。

受話再生スピーカ１６から出た音Ｓは、上部音出力開口部１４ｃを抜け、音反射面１２ａと音反射面１４ａとで規定される断面がラッパ状の音出力空間を経て、通話装置が載置されているテーブル９１１の面に沿って、軸Ｃ−Ｃを中心として３６０度全方位に拡散していき、全ての会議参加者Ａ１〜Ａ６に等しい音量で聞き取られる。本実施の形態においては、テーブル９１１の面も音伝播手段の一部として利用している。
受話再生スピーカ１６から出力された音Ｓの拡散状態を矢印で図示した。

音反射板１２は、プリント基板２１を支持している。
プリント基板２１には、図５に平面を図解したように、マイクロフォン・電子回路収容部２のマイクロフォンＭＣ１〜ＭＣ６、発光ダイオードＬＥＤ１〜６、マイクロプロセッサ２３、コーデック（ＣＯＤＥＣ）２４、第１のディジタルシグナルプロセッサ（ＤＳＰ１）ＤＳＰ２５、第２のディジタルシグナルプロセッサ（ＤＳＰ２）ＤＳＰ２６、Ａ／Ｄ変換器ブロック２７、Ｄ／Ａ変換器ブロック２８、増幅器ブロック２９などの各種電子回路が搭載されており、音反射板１２はマイクロフォン・電子回路収容部２を支持する部材としても機能している。

プリント基板２１には、受話再生スピーカ１６からの振動が音反射板１２を伝達してマイクロフォンＭＣ１〜ＭＣ６などに進入して騒音とならないように、受話再生スピーカ１６からの振動を吸収するダンパー１８が取り付けられている。ダンパー１８は、ネジと、このネジとプリント基板２１との間に挿入された防振ゴムなどの緩衝材とからなり、緩衝材をネジでプリント基板２１にネジ止めしている。すなわち、緩衝材によって受話再生スピーカ１６からプリント基板２１に伝達される振動が吸収される。これにより、マイクロフォンＭＣ１〜ＭＣ６は、スピーカ１６からの音の影響を受けない。

マイクロフォンの配置
図５に図解したように、プリント基板２１の中心軸Ｃから等角度で放射状にかつ等間隔（本実施の形態では６０度の等角度で）で６本のマイクロフォンＭＣ１〜ＭＣ６が位置している。各マイクロフォンは単一指向性を持つマイクロフォンである。その特性については後述する。
各マイクロフォンＭＣ１〜ＭＣ６は、共に柔軟性または弾力性のある第１のマイク支持部材２２ａと第２のマイク支持部材２２ｂとで、揺動自在に支持されており（図解を簡単にするため、マイクロフォンＭＣ１の部分の第１のマイク支持部材２２ａと第２のマイク支持部材２２ｂとについてのみ図解している）、上述した緩衝材を用いたダンパー１８による受話再生スピーカ１６からの振動の影響を受けない対策に加えて、柔軟性または弾力性のある第１のマイク支持部材２２ａと第２のマイク支持部材２２ｂとで受話再生スピーカ１６からの振動で振動するプリント基板２１の振動を吸収して受話再生スピーカ１６の振動の影響を受けないようにして、受話再生スピーカ１６の騒音を回避している。

図４に図解したように、受話再生スピーカ１６はマイクロフォンＭＣ１〜ＭＣ６が位置する平面の中心軸Ｃ−Ｃに対して垂直に指向しており（本実施の形態においては上方向に向いている（指向している））、このような受話再生スピーカ１６と６本のマイクロフォンＭＣ１〜ＭＣ６の配置により、受話再生スピーカ１６と各マイクロフォンＭＣ１〜ＭＣ６との距離は等距離となり、受話再生スピーカ１６からの音声は、各マイクロフォンＭＣ１〜ＭＣ６に対しほとんど同音量、同位相で届く。ただし、上述した音反射板１２の音反射面１２ａおよびスピーカ収容部１４の音反射面１４ａの構成により、受話再生スピーカ１６の音がマイクロフォンＭＣ１〜ＭＣ６には直接入力されないようにしている。加えて、上述したように、緩衝材を用いたダンパー１８と、柔軟性または弾力性のある第１のマイク支持部材２２ａと第２のマイク支持部材２２ｂとを用いることにより、受話再生スピーカ１６の振動の影響を低減している。
会議参加者Ａ１〜Ａ６は、通常、たとえば、図１（Ｃ）に例示したように、通話装置の周囲３６０度方向に、６０度間隔で配設されているマイクロフォンＭＣ１〜ＭＣ６の近傍にほぼ等間隔で位置している。なお、図２に図解した例示では、通話装置の周囲に８名の会議参加者が位置している。

話者を決定したことを通報する手段（マイクロフォン選択結果表示手段）として発光ダイオードＬＥＤ１〜６がマイクロフォンＭＣ１〜ＭＣ６の近傍に配置されている。
発光ダイオードＬＥＤ１〜６は上部カバー１１を装着した状態でも、全ての会議参加者Ａ１〜Ａ６から視認可能に設けられている。したがって、上部カバー１１は発光ダイオードＬＥＤ１〜６の発光状態が視認可能なように透明窓が設けられている。もちろん、上部カバー１１に発光ダイオードＬＥＤ１〜６の部分に開口が設けられていてもよいが、マイクロフォン・電子回路収容部２への防塵の観点からは透光窓が好ましい。

プリント基板２１には、後述する各種の信号処理を行うために、第１のディジタルシグナルプロセッサ（ＤＳＰ１）２５、第２のディジタルシグナルプロセッサ（ＤＳＰ２）２６、各種電子回路２７〜２９が、マイクロフォンＭＣ１〜ＭＣ６が位置する部分以外の空間に配置されている。
本実施の形態においては、ＤＳＰ２５を各種電子回路２７〜２９とともにフィルタ処理、マイクロフォン選択処理などの処理を行う信号処理手段として用い、ＤＳＰ２６をエコーキャンセラーとして用いている。

図６は、マイクロプロセッサ２３、コーデック２４、ＤＳＰ２５、ＤＳＰ２６、Ａ／Ｄ変換器ブロック２７、Ｄ／Ａ変換器ブロック２８、増幅器ブロック２９、その他各種電子回路の概略構成図である。
マイクロプロセッサ２３はマイクロフォン・電子回路収容部２の全体制御処理を行う。コーデック２４は相手方会議室に送信する音声を圧縮符号化する。
ＤＳＰ２５が下記に述べる各種の信号処理、たとえば、フィルタ処理、マイクロフォン選択処理などを行う。
ＤＳＰ２６はエコーキャンセラーとして機能する。
図６においては、Ａ／Ｄ変換器ブロック２７の１例として、４個のＡ／Ｄ変換器２７１〜２７４を例示し、Ｄ／Ａ変換器ブロック２８の１例として、２個のＤ／Ａ変換器２８１〜２８２を例示し、増幅器ブロック２９の１例として、２個の増幅器２９１〜２９２を例示している。
その他、マイクロフォン・電子回路収容部２としては電源回路など各種の回路がプリント基板２１に搭載されている。

図５においてプリント基板２１の中心軸Ｃに対してそれぞれ対称（または対向する）位置に一直線上に配設された１対のマイクロフォンＭＣ１−ＭＣ４：ＭＣ２−ＭＣ５：ＭＣ３−Ｍ６が、それぞれ２チャネルのアナログ信号をディジタル信号に変換するＡ／Ｄ変換器２７１〜２７３に入力されている。本実施の形態においては、１個のＡ／Ｄ変換器が２チャネルのアナログ入力信号をディジタル信号に変換する。そこで、中心軸Ｃを挟んで一直線上に位置する２個（１対）のマイクロフォン、たとえば、マイクロフォンＭＣ１とＭＣ４の検出信号を１個のＡ／Ｄ変換器に入力してディジタル信号に変換している。また、本実施の形態においては、相手の会議室に送出する音声の話者を特定するため、一直線上に位置する２個のマイクロフォンの音声の差、音声の大きさなどを参照するから、一直線上に位置する２個のマイクロフォンの信号を同じＡ／Ｄ変換器に入力すると、変換タイミングもほぼ同じになり、２個のマイクロフォンの音声出力の差をとるときにタイミング誤差が少ない、信号処理が容易になるなどの利点がある。
なお、Ａ／Ｄ変換器２７１〜２７４は可変利得型増幅機能付きのＡ／Ｄ変換器２７１〜２７４として構成することもできる。
Ａ／Ｄ変換器２７１〜２７４で変換したマイクロフォンＭＣ１〜ＭＣ６の集音信号はＤＳＰ２５に入力されて、後述する各種の信号処理が行われる。
ＤＳＰ２５の処理結果の１つとして、マイクロフォンＭＣ１〜ＭＣ６のうちの１つを選択した結果が、マイクロフォン選択結果表示手段の１例である発光ダイオードＬＥＤ１〜６に出力される。

ＤＳＰ２５の処理結果が、ＤＳＰ２６に出力されてエコーキャンセル処理が行われる。ＤＳＰ２６は、たとえば、エコーキャンセル送話処理部とエコーキャンセル受話部とを有する。
ＤＳＰ２６の処理結果が、Ｄ／Ａ変換器２８１〜２８２でアナログ信号に変換される。Ｄ／Ａ変換器２８１からの出力が、必要に応じて、コーデック２４で符号化されて、増幅器２９１を介して通信回線９２０（図１（Ａ））のラインアウトに出力され、相手方会議室に設置された通話装置の受話再生スピーカ１６を介して音として出力される。
相手方の会議室に設置された通話装置からの音声が通信回線９２０（図１（Ａ））のラインインを介して入力され、Ａ／Ｄ変換器２７４においてディジタル信号に変換されて、ＤＳＰ２６に入力されてエコーキャンセル処理に使用される。また、相手方の会議室に設置された通話装置からの音声は図示しない経路でスピーカ１６に印加されて音として出力される。
Ｄ／Ａ変換器２８２からの出力が増幅器２９２を介してこの通話装置の受話再生スピーカ１６から音として出力される。すなわち、会議参加者Ａ１〜Ａ６は、上述した受話再生スピーカ１６から相手会議室の選択された話者の音声に加えて、その会議室にいる発言者が発した音声をも受話再生スピーカ１６を介して聞くことが出来る。

マイクロフォンＭＣ１〜ＭＣ６
図７は各マイクロフォンＭＣ１〜ＭＣ６の指向性を示すグラフである。
各単一指向特性マイクフォンは発言者からマイクロフォンへの音声の到達角度により図７に図解のように周波数特性、レベル特性が変化する。複数の曲線は、集音信号の周波数が、１００Ｈｚ、１５０Ｈｚ、２００Ｈｚ、３００Ｈｚ、４００Ｈｚ、５００Ｈｚ、７００Ｈｚ、１０００Ｈｚ、１５００Ｈｚ、２０００Ｈｚ、３０００Ｈｚ、４０００Ｈｚ、５０００Ｈｚ、７０００Ｈｚの時の指向性を示している。ただし、図解を簡単にするため、図７は代表的に、１５０Ｈｚ、５００Ｈｚ、１５００Ｈｚ、３０００Ｈｚ、７０００Ｈｚについての指向性を図解している。

図８（Ａ）〜（Ｄ）は音源の位置とマイクロフォンの集音レベルの分析結果を示すグラフであり、通話装置と所定距離、たとえば、１．５メートルの距離にスピーカを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換（ＦＦＴ）した結果を示している。Ｘ軸が周波数を、Ｙ軸が信号レベルを、Ｚ軸が時間を表している。
図７の指向性を持つマイクロフォンを用いた場合、マイクロフォンの正面に強い指向性を示す。本実施の形態においては、このような特性を活用して、ＤＳＰ２５においてマイクロフォンの選定処理を行う。

本発明の実施の形態のように指向性を持つマイクロフォンではなく無指向性のマイクロフォンを用いた場合、マイクロフォン周辺の全ての音を集音（収音）するので発言者の音声と周辺ノイズとのＳ／Ｎが混同してあまり良い音が集音できない。これを避けるため、本発明においては、指向性マイクロフォン１本で集音することによって周辺のノイズとのＳ／Ｎを改善している。
さらに、マイクロフォンの指向性を得る方法として、複数の無指向性マイクロフォンを使用したマイクロフォンアレイを用いることができるが、このような方法では、複数の信号の時間軸（位相）の一致のため複雑な処理を要するため、時間がかかり応答性が低いし、装置構成を複雑になる。すなわち、ＤＳＰの信号処理系にも複雑な信号処理を必要とする。本発明は図６に例示した指向性のあるマイクロフォンを用いてそのような問題を解決している。
また、マイクロフォンアレイ信号を合成して指向性収音（集音）マイクロフォンとして利用するためには外形形状が通過周波数特性によって規制され外形形状が大きくなるという不利益がある。本発明はこの問題も解決している。

上述した構成の通話装置は下記の利点を示す。
（１）等角度で放射状かつ等間隔に配設された偶数個のマイクロフォンＭＣ１〜ＭＣ６と受話再生スピーカ１６との位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカ１６から出た音が会議室（部屋）環境を経てマイクロフォンＭＣ１〜ＭＣ６に戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、スピーカ１６からマイクロフォンＭＣ１〜ＭＣ６に音が到達する特性（信号レベル（強度）、周波数特性（ｆ特、位相）がいつも同じである。つまり、本発明の実施の形態における通話装置においてはいつも伝達関数が同じという利点がある。
（２）それ故、話者が異なった時に相手方会議室に送出するマイクロフォンの出力を切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、通話装置の製造時に一度調整をすると調整をやり直す必要がないという利点がある。
（３）上記と同じ理由で話者が異なった時にマイクロフォンを切り替えても、エコーキャンセラー（ＤＳＰ２６）が一つでよい。ＤＳＰは高価であり、種々の部材が搭載されて空きが少ないプリント基板２１に複数のＤＳＰを配置する必要がなく、プリント基板２１におけるＤＳＰを配置するスペースも少なくてよい。その結果、プリント基板２１、ひいては、本発明の通話装置を小型にできる。
（４）上述したように、受話再生スピーカ１６とマイクロフォンＭＣ１〜ＭＣ６間の伝達関数が一定であるため、たとえば、±３ｄＢもあるマイクロフォン自体の感度差調整を通話装置のマイクロフォンユニット単独で出来るという利点がある。感度差調整の詳細は後述する。
（５）通話装置が搭載されるテーブルは、通常、円いテーブル（円卓）または多角テーブルを用いることで、通話装置内の一つの受話再生スピーカ１６で均等な品質の音声を軸Ｃを中心として３６０度全方位に均等に分散（拡散）するスピーカシステムが可能になった。
（６）受話再生スピーカ１６から出た音は円卓のテーブル面を伝達して（バウンダリ効果）会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音と位相がキャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。
（７）受話再生スピーカ１６から出た音は等角度で放射状かつ等間隔に配設された全てのマイクロフォンＭＣ１〜ＭＣ６に同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。その詳細は後述する。
（８）偶数個、たとえば、６本のマイクロフォンを等角度で放射状かつ等間隔で、対向する１対のマイクロフォンを一直線上に配置したことで方向検出の為のレベル比較が容易に出来る。
（９）ダンパー１８、マイクロフォン支持部材２２などにより、受話再生スピーカ１６の音による振動が、マイクロフォンＭＣ１〜ＭＣ６の集音に与える影響を低減することができる。
（１０）図４に図解したように、構造的に、受話再生スピーカ１６の音が直接、マイクロフォンＭＣ１〜ＭＣ６には伝搬しない。したがって、この通話装置においては受話再生スピーカ１６からのノイズの影響が少ない。

変形例
図３〜図４を参照して述べた通話装置は、下部に受話再生スピーカ１６を配置させ、上部にマイクロフォンＭＣ１〜ＭＣ６（および関連する電子回路）を配置させたが、受話再生スピーカ１６とマイクロフォンＭＣ１〜ＭＣ６（および関連する電子回路）の位置を、図９に図解したように、上下逆にすることもできる。このような場合でも上述した効果を奏する。

マイクロフォンの本数は６本には限定されず、４本、８本などと任意の偶数本のマイクロフォンを等角度で放射状かつ等間隔で軸Ｃを中心に複数対それぞれを一直線に（同方向に）、たとえば、マイクロフォンＭＣ１とＭＣ４のように一直線に配置する。好ましい形態として、２本のマイクロフォンＭＣ１、ＭＣ４を対向させて一直線に配置する理由は、マイクロフォンを選定して話者を特定するためである。

信号処理内容
以下、主として第１のディジタルシグナルプロセッサ（ＤＳＰ）２５で行う処理内容について述べる。
図１０はＤＳＰ２５が行う通話装置における処理の概要を図解した図である。以下、その概要を述べる。

（１）周囲のノイズの測定
初期動作として、好ましくは、通話装置１０Ａが設置される周囲のノイズを測定する。
通話装置は種々の環境（会議室）で使用されうる。マイクロフォンの選択の正確さを期し、通話装置の性能を高めるために、本発明においては、初期段階において、通話装置が設置される周囲環境のノイズを測定し、そのノイズの影響をマイクロフォンで集音した信号から排除することを可能とする。
もちろん、通話装置を同じ会議室で反復して使用するような場合、事前にノイズ測定が行われており、ノイズ状態が変化しないような場合にはこの処理は割愛できる。
なお、ノイズ測定は通常状態においても行うことができる。

（２）議長の選定
たとえば、通話装置を双方向会議に使用する場合、それぞれの会議室における議事運営を取りまとめる議長がいることが有益である。したがって、本発明の１態様としては、通話装置を使用する初期段階において、通話装置の操作部１５から議長を設定する。議長の設定方法としては、たとえば、操作部１５の近傍に位置する第１マイクロフォンＭＣ１を議長用マイクロフォンとする。もちろん、議長用マイクロフォンを任意のものにすることもできる。
なお、通話装置を反復して使用する議長が同じ場合はこの処理は割愛できる。あるいは、事前に議長が座る位置のマイクロフォンを決めておいてもよい。その場合はその都度、議長の選定動作は不要である。
もちろん、議長の選定は初期状態に限らず、任意のタイミングで行うことができる。

（３）マイクロフォンの感度差調整
初期動作として、好ましくは、受話再生スピーカ１６とマイクロフォンＭＣ１〜ＭＣ６との音響結合が等しくなるように、マイクロフォンＭＣ１〜ＭＣ６の信号を増幅する増幅部の利得または減衰部の減衰値を自動的に調整する。

通常処理として下記に例示する各種の処理を行う。
（１）マイクロフォン選択、切り替え処理
１つの会議室において同時に複数の会議参加者が通話すると、音声が入り交じり相手側会議室内の会議参加者Ａ１〜Ａ６にとって聞きにくい。そこで、本発明においては、原則として、ある時間帯には１人ずつ通話させる。そのため、ＤＳＰ２５においてマイクロフォンの選択・切り替え処理を行う。
その結果、選択されたマイクロフォンからの通話のみが、通信回線９２０を介して相手方会議室の通話装置に伝送されてスピーカから出力される。もちろん、図６を参照して述べたように、選択された話者のマイクロフォンの近傍のＬＥＤが点灯し、さらに、その部屋の通話装置のスピーカからも選択された話者の音声を聞くことができ、誰が許可された話者かを認識することができる。
この処理により、発言者に対向した単一指向性マイクの信号を選択し、送話信号として相手方にＳ／Ｎの良い信号を送ることを目的としている。
（２）選択したマイクロフォンの表示
話者のマイクロフォンが選択され、話すことが許可された会議参加者のマイクロフォンがどれであるかを、会議参加者Ａ１〜Ａ６全員に容易に認識できるように、マイクロフォン選択結果表示手段、たとえば、発光ダイオードＬＥＤ１〜６の該当するもの点灯させる。
（３）撮像条件の決定（第３実施の形態）
第３実施の形態として述べる撮像調整部３６において、通話装置による上述したマイクロフォンの選択（特定）結果を用いて、テレビカメラ装置４０Ａ１、４０Ａ２の撮像条件を決定することができる。
（４）上述したマイクロフォン選択処理の背景技術として、または、マイクロフォン選択処理を正確に遂行するため下記に例示する各種の信号処理を行う。
（ａ）マイクロフォンの集音信号の帯域分離と、レベル変換処理
（ｂ）発言の開始、終了の判定処理
発言者方向に対向したマイク信号の選択判定開始トリガとして使用するため。
（ｃ）発言者方向マイクロフォンの検出処理
各マイクロフォンの集音信号を分析し、発言者の使用しているマイクロフォンを判定するため。
（ｄ）発言者方向マイクロフォンの切り換えタイミング判定処理、および、検出された発言者に対向したマイク信号の選択切り替え処理
上述した処理結果から選択したマイクロフォンへ切り換えの指示をする。（ｅ）通常動作時のフロアノイズの測定

フロア（環境）ノイズの測定
この処理は通話装置の電源投入直後の初期処理と通常処理に分かれる。
なお、この処理は下記の例示的な前提条件の下に行う。

〔表１〕
（１）条件：測定時間及び閾値暫定値：
１．テストトーン音圧：マイク信号レベルで−４０ｄＢ
２．ノイズ測定単位時間：１０秒
３．通常状態でのノイズ測定：１０秒間の測定結果で平均値計算し、さらにこれを１０回繰り返して平均値を求めノイズレベルとする。

〔表２〕
（２）フロアノイズと発言開始基準レベルとの差による有効距離の目安と閾値
１．２６ｄＢ以上：３メートル以上
発言開始の検出レベル閾値：フロアノイズレベル＋９ｄＢ
発言終了の検出レベル閾値：フロアノイズレベル＋６ｄＢ
２．２０〜２６ｄＢ：３メートル以内
発言開始の検出レベル閾値：フロアノイズレベル＋９ｄＢ
発言終了の検出レベル閾値：フロアノイズレベル＋６ｄＢ
３．１４〜２０ｄＢ：１．５メートル以内
発言開始の検出レベル閾値：フロアノイズレベル＋９ｄＢ
発言終了の検出レベル閾値：フロアノイズレベル＋６ｄＢ
４．９〜１４ｄＢ：1 メートル以内
発言開始の検出レベル閾値：
フロアノイズレベルと発言開始基準レベルとの差÷２＋２ｄＢ
発言終了の検出レベル閾値：発言開始閾値−３ｄＢ
５．９ｄＢ以下：数１０センチメートル
発言開始の検出レベル閾値：−３ｄＢ
６．フロアノイズレベルと発言開始基準レベルとの差÷２
発言終了の検出レベル閾値：−３ｄＢ
７．同じかマイナス：判定できず選択禁止

〔表３〕
（３）通常処理のノイズ測定開始閾値は電源投入時のフロアノイズ＋３ｄＢ以下のレベルになった時から開始する。

フィルタ処理による各種周波数成分信号の生成
図１１はマイクロフォンで集音した音信号を前処理として、ＤＳＰ２５で行うフィルタリング処理を示す構成図である。図１１は１マイクロフォン（チャネル（１集音信号））分の処理について示す。
各マイクロフォンの集音信号は、たとえば、１００Ｈｚのカットオフ周波数を持つアナログ・ローカットフィルタ１０１で処理され、１００Ｈｚ以下の周波数が除去されたフィルタ処理された音声信号がＡ／Ｄ変換器１０２に出力され、Ａ／Ｄ変換器１０２でディジタル信号に変換された集音信号が、それぞれ７．５ＫＨｚ、４ＫＨｚ、１．５ＫＨｚ、６００Ｈｚ、２５０Ｈｚのカットオフ周波数を持つ、ディジタル・ハイカットフィルタ１０３ａ〜１０３ｅ（総称して１０３）で高周波成分が除去される（ハイカット処理）。ディジタル・ハイカットフィルタ１０３ａ〜１０３ｅの結果はさらに、減算器１０４ａ〜１０４ｄ（総称して１０４）において隣接するディジタル・ハイカットフィルタ１０３ａ〜１０３ｅのフィルタ信号ごとの減算が行われる。
本発明の実施の形態において、ディジタル・ハイカットフィルタ１０３ａ〜１０３ｅおよび減算器１０４ａ〜１０４ｄは、実際はＤＳＰ２５において処理している。Ａ／Ｄ変換器１０２はＡ／Ｄ変換器ブロック２７の１つとして実現できる。

図１２は、図１１を参照して述べたフィルタ処理結果を示す周波数特性図である。このように１つの指向性を持つマイクロフォンで集音した信号から、各種の周波数成分をもつ複数の信号が生成される。

バンドパス・フィルタ処理およびマイク信号レベル変換処理
マイクロフォン選択処理の開始のトリガの１つに発言の開始、終了の判定を行う。そのために使用する信号が、ＤＳＰ２５で行う図１３に図解したバンドパス・フィルタ処理およびレベル変換処理によって得られる。図１３はマイクロフォンＭＣ１〜ＭＣ６で集音した６チャネル（ＣＨ）の入力信号処理中の１ＣＨのみを示す。
ＤＳＰ２５内のバンドパス・フィルタ処理およびレベル変換処理部は、各チャネルのマイクロフォンの集音信号を、それぞれ１００〜６００Ｈｚ、２００〜２５０Ｈｚ、２５０〜６００Ｈｚ、６００〜１５００Ｈｚ、１５００〜４０００Ｈｚ、４０００〜７５００Ｈｚの帯域通過特性を持つバンドパス・フィルタ２０１ａ〜２０１ｆ（総称してバンドパス・フィルタ・ブロック２０１）と、元のマイクロフォン集音信号および上記帯域通過集音信号をレベル変換するレベル変換器２０２ａ〜２０２ｇ（総称して、レベル変換ブロック２０２）を有する。

各レベル変換部２０２ａ〜２０２ｇは、信号絶対値処理部２０３とピークホールド処理部２０４を有する。したがって、波形図を例示したように、信号絶対値処理部２０３は破線で示した負の信号が入力されたとき符号を反転して正の信号に変換する。ピークホールド処理部２０４は、信号絶対値処理部２０３の出力信号の最大値を保持する。ただし、本実施の形態では、時間の経過により、保持した最大値は幾分低下していく。もちろん、ピークホールド処理部２０４を改良して、低下分を少なくして長時間最大値を保持可能にすることもできる。

バンドパス・フィルタについて述べる。音声集音・映像撮像装置の通話装置に使用するバンドパス・フィルタは、たとえば、２次ＩＩＲハイカット・フィルタと、マイク信号入力段のローカット・フィルタのみでバンドパス・フィルタを構成している。
本実施の形態においては周波数特性がフラットな信号からハイカットフィルタを通した信号を引き算すれば残りはローカットフィルタを通した信号とほぼ同等になることを利用する。
周波数−レベル特性を合わせる為に、１バンド余分に全体帯域通過のバンドパス・フィルタが必要となるが、必要とするバンドパス・フィルタのバンド数＋１のフィルタ段数とフィルタ係数により必要とされるバンドパスが得られる。今回必要とされるハンドパス・フィルタの帯域周波数はマイク信号１チャネル（ＣＨ）当りで下記６バンドのバンドパス・フィルタとなる。

〔表４〕
ＢＰ特性バンドパスフィルタ
BPF1=[100Hz-250Hz] ・・２０１ｂ
BPF2=[250Hz-600Hz] ・・２０１ｃ
BPF3=[600Hz-1.5KHz] ・・２０１ｄ
BPF4=[1.5KHz-4KHz] ・・２０１ｅ
BPF5=[4KHz-7.5KHz] ・・２０１ｆ
BPF6=[100Hz-600Hz] ・・２０１ａ

この方法でＤＳＰ２５における上記のＩＩＲ・フィルタの計算プログラムは、６ＣＨ（チャネル）×５（ＩＩＲ・フィルタ) ＝３０のみである。
従来のバンドパス・フィルタの構成と対比する。バンドパス・フィルタの構成は２次ＩＩＲフィルタを使用するとして、本発明のように６本のマイク信号にそれぞれ６バンドのバンドパス・フィルタを用意すると、従来方法では、６×６×２＝７２回路のＩＩＲ・フィルタ処理が必要になる。この処理には、最新の優秀なＤＳＰでもかなりのプログラム処理を要し他の処理への影響が出る。
本発明の実施の形態においては、100Hzのローカット・フィルタは入力段のアナログフィルタで処理する。用意する２次ＩＩＲハイカット・フィルタのカットオフ周波数は、250Hz,600Hz,1.5KHz,4KHz,7.5KHzの５種類である。このうちのカットオフ周波数7.5KHzのハイカット・フィルタは、実はサンプリング周波数が 16KHzなので必要が無いが、減算処理の過程で、ＩＩＲフィルタの位相回りの影響で、バンドパス・フィルタの出力レベルが減少する現象を軽減する為に意図的に被減数の位相を回す。

図１４は図１３に図解した構成による処理をＤＳＰ２５で処理したときのフローチャートである。

図１４に図解したＤＳＰ２５におけるフィルタ処理は１段目の処理としてハイパス・フィルタ処理、２段目の処理として１段目のハイパス・フィルタ処理結果からの減算処理を行う。図１４はその信号処理結果のイメージ周波数特性図である。下記、〔ｘ〕は図１２における各処理ケースを示す。

第一段階
〔１〕全体帯域通過フィルタ用として、入力信号を7.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカット合わせにより [100Hz-7.5KHz] のバンドパス・フィルタ出力となる。

〔２〕入力信号を4KHzのハイカットフィルタに通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-4KHz] のバンドパス・フィルタ出力となる。

〔３〕入力信号を1.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] のバンドパス・フィルタ出力となる。

〔４〕入力信号を600Hz のハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-600Hz] のバンドパス・フィルタ出力となる。

〔５〕入力信号を250Hz のハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-250Hz] のバンドパス・フィルタ出力となる。

第二段階
〔１〕バンドパス・フィルタ(BPF5=[4KHz〜7.5KHz])は、フィルタ出力[1]-[2]([100Hz〜7.5KHz] - [100Hz〜4KHz])の処理を実行すると上記信号出力[4KHz〜7.5KHz]となる。
〔２〕バンドパス・フィルタ(BPF4=[1.5KHz〜4KHz])は、フィルタ出力[2]-[3]([100Hz〜4KHz] - [100Hz〜1.5KHz])の処理を実行すると、上記信号出力[1.5KHz〜4KHz]となる。
〔３〕バンドパス・フィルタ(BPF3=[600Hz〜1.5KHz])は、フィルタ出力[3]-[4]([100Hz〜1.5KHz] - [100Hz〜600Hz])の処理を実行すると、上記信号出力[600Hz〜1.5KHz]となる。
〔４〕バンドパス・フィルタ(BPF2=[250Hz〜600Hz])は、フィルタ出力[4]-[5]([100Hz〜600Hz] - [100Hz〜250Hz]) の処理を実行すると上記信号出力[250Hz〜600Hz]となる。〔５〕バンドパス・フィルタ(BPF1=[100Hz〜250Hz])は上記[5]の信号をそのままで出力信号[5]とする。
〔６〕バンドパス・フィルタ(BPF6=[100Hz〜600Hz])は[4]の信号をそのままで上記（４）の出力信号とする。
ＤＳＰ２５における以上の処理で必要とされるバンドパス・フィルタ出力が得られる。

入力されたマイクロフォンの集音信号ＭＩＣ１〜ＭＩＣ６は、ＤＳＰ２５において、全帯域の音圧レベル、バンドパス・フィルタを通過した６帯域の音圧レベルとして表５のように常時更新される。

表５において、たとえば、L1-1はマイクロフォンＭＣ１の集音信号が第１バンドパス・フィルタ２０１ａを通過したときのピークレベルを示す。
発言の開始、終了判定は、図１３に図示した100Hz〜600Hzのバンドパス・フィルタ２０１ａを通過し、レベル変換部２０２ｂで音圧レベル変換されたマイクロフォン集音信号を用いる。

従来のバンドパス・フィルタの構成は、バンドパス・フィルタ１段当りにハイ・パスフィルタとロー・パスフィルタの組み合わせで行うので、本実施の形態で使用する仕様の３６回路のバンドパス・フィルタを構築すると７２回路のフィルタ処理が必要となる。これに対して本発明の実施の形態のフィルタ構成は上述したように簡単になる。

発言の開始・終了判定処理
第１のディジタルシグナルプロセッサ（ＤＳＰ１）２５は、音圧レベル検出部から出力される値を元に、図１５に図解したように、マイクロフォン集音信号レベルがフロアノイズより上昇し、発言開始レベルの閾値を越した場合発言開始と判定し、その後開始レベルの閾値よりも高いレベルが継続した場合発言中、発言終了の閾値よりレベルが下がった場合をフロアノイズと判定し、発言終了判定時間、たとえば、フロアノイズが０．５秒間継続した場合発言終了と判定する。
発言の開始、終了判定は、図１３に図解したマイク信号変換処理部２０２ｂで音圧レベル変換された１００Ｈｚ〜６００Ｈｚのバンドパス・フィルタを通過した音圧レベルデータ（マイク信号レベル（１））が図１５に例示した閾値レベル以上になった時から発言開始と判定する。
ＤＳＰ２５は、頻繁なマイクロフォン切り替えに伴う動作不良を回避するため、発言開始を検出してから、発言終了判定時間を、たとえば、０．５秒間経過するまでは次の発言開始を検出しないようにしている。

マイクロフォン選択
ＤＳＰ２５は、相互通話システムにおける発言者方向検出および発言者に対向したマイク信号の自動選択を、いわゆる、「星取表方式」に基づいて行う。
図１６は音声集音・映像撮像装置の通話装置の動作形態を図解したグラフである。
図１７は通話装置の通常処理を示すフローチャートである。

通話装置は図１６に図解したように、マイクロフォンＭＣ１〜ＭＣ６からの集音信号に応じて音声信号監視処理を行い、発言開始・終了判定を行い、発言方向判定を行い、マイクロフォン選択を行い、その結果をマイクロフォン選択結果表示手段、たとえば、発光ダイオードＬＥＤ１〜６に表示する。
以下、図１７のフローチャートを参照して通話装置１におけるＤＳＰ２５を主体として動作を述べる。なお、マイクロフォン・電子回路収容部２の全体制御はマイクロプロセッサ２３によって行われるが、ＤＳＰ２５の処理を中心に述べる。

ステップ１：レベル変換信号の監視
マイクロフォンＭＣ１〜ＭＣ６で集音した信号はそれぞれ、図１２〜図１４、特に、図１３を参照して述べた、バンドパス・フィルタ・ブロック２０１、レベル変換ブロック２０２において、７種類のレベルデータとして変換されているから、ＤＳＰ２５は各マイクロフォン集音信号についての７種類の信号を常時監視する。
その監視結果に基づいて、ＤＳＰ２５は、発言者方向検出処理、発言者方向検出処理、発言開始・終了判定処理のいずれかの処理に移行する。

ステップ２：発言開始・終了判定処理
ＤＳＰ２５は図１４を参照して、さらに下記に詳述する方法に従って、発言の開始、終了の判定を行う。ＤＳＰ２５の処理が発言開始を検出した場合、ステップ４の発言者方向の判定処理へ発言開始検出を知らせる。
なお、ステップ２における発言の開始、終了の判定処理において、発言レベルが発言終了レベルより低くなった時、発言終了判定時間（たとえば、0.5秒）のタイマを起動し発言終了判定時間、発言レベルが発言終了レベルより小さい時、発言終了と判定する。
発言終了判定時間以内に発言終了レベルより大きくなったら再び発言終了レベルより小さくなるまで待ちの処理に入る。

ステップ３：発言者方向の検出処理
ＤＳＰ２５における発言者方向の検出処理は、常時発言者方向をサーチし続けて行う。その後、ステップ４の発言者方向の判定処理へデータを供給する。

ステップ４：発言者方向マイクの切り換え処理
ＤＳＰ２５に発言者方向マイクの切り換え処理におけるタイミング判定処理はステップ２の処理とステップ３の処理の結果から、その時の発言者検出方向と今まで選択していた発言者方向が違う場合に、新たな発言者方向のマイク選択をステップ４のマイク信号切り換え処理へ指示する。
ただし、議長のマイクロフォンが操作部１５から設定されていて、議長のマイクロフォンと他の会議参加者とが同時的に発言がある場合、議長の発言を優先する。
この時に、選択されたマイク情報をマイクロフォン選択結果表示手段、たとえば、発光ダイオードＬＥＤ１〜６に表示する。

ステップ５：マイクロフォン集音信号の伝送
マイク信号切り換え処理は６本のマイク信号の中からステップ４処理により選択されたマイク信号のみを送話信号として、たとえば、第１の音声集音・映像撮像装置１Ａの第１の通話装置１０Ａから通信回線９２０を介して相手側の第２の音声集音・映像撮像装置１Ｂの第２の通話装置１０Ｂに伝送するため、図６に図解した通信回線９２０のラインアウトへ出力する。

ステップＳ６：撮像条件の決定
以上の方法で、発言者が決定できると、複数のマイクロフォンの配置条件、および、会議参加者の位置から、テレビカメラ装置４０Ａ１、４０Ａ２による撮像条件も決定できる。
なお、好ましくは、第２実施の形態で述べる会議出席者の声紋認識結果を用いる。
この処理の詳細は第３実施の形態として詳述する。

発言開始レベル閾値、発言終了閾値の設定
処理１：電源を投入直後に各マイクロフォンそれぞれの所定時間、たとえば、１秒間分のフロアノイズを測定する。
ＤＳＰ２５は、音圧レベル検出部のピークホールドされたレベル値を一定時間間隔、本実施の形態では、たとえば、10mSec間隔で読み出し、所定時間、たとえば、１分間の値の平均値を算出しフロアノイズとする。
ＤＳＰ２５は測定されたフロアノイズレベルを元に発言開始の検出レベル（フロアノイズ +9dB)、発言終了の検出レベルの閾値（フロアノイズ＋６ｄＢ）を決定する。ＤＳＰ２５は、以後も、音圧レベル検出器のピークホールドされたレベル値を一定時間間隔で読み出す。
発言終了と判定された時は、ＤＳＰ２５は、フロアノイズの測定として働き、発言開始の検出し、発言終了の検出レベルの閾値を更新する。

この方法によれば、この閾値設定はマイクロフォンの置かれた位置のフロアノイズレベルがそれぞれ違うので各マイクロフォンにそれぞれ閾値が設定でき、ノイズ音源によるマイクロフォンの選択における誤判定を防げる。

処理２：周辺ノイズ（フロアノイズの大きい）部屋への対応
処理２は処理１ではフロアノイズが大きく自動で閾値レベルを更新されると、発言開始、終了検出がしにくい時の対策として下記を行う。
ＤＳＰ２５は、予測されるフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。
ＤＳＰ２５は、発言開始閾値レベルは発言終了閾値レベルより大きく（たとえば、３dB以上の差）に設定する。
ＤＳＰ２５は、音圧レベル検出器でピークホールドされたレベル値を一定時間間隔で読み出す。

この方法によれば、この閾値設定は閾値が全てのマイクロフォンに対して同じ値なので、ノイズ源を背にした人と、そうでない人とで声の大きさが同程度でも発言開始が認識できる。

発言開始判定
処理１、６個のマイクロフォンに対応した音圧レベル検出器の出力レベルと、発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
ＤＳＰ２５は、全てのマイクロフォンに対応した音圧レベル検出器の出力レベルが、発言開始レベルの閾値を越した場合は、受話再生スピーカ１６からの信号であると判定し、発言開始とは判定しない。なぜなら、受話再生スピーカ１６と全てのマイクロフォンＭＣ１〜ＭＣ６との距離は同じであるから、受話再生スピーカ１６からの音は全てのマイクロフォンＭＣ１〜ＭＣ６にほぼ均等に到達するからである。

処理２、図５に図解した６個のマイクロフォンについての６０度の等角度で放射状かつ等間隔の配置で、指向性軸を反対方向に１８０度ずらした単一指向性マイク２本（マイクロフォンＭＣ１とＭＣ４、マイクロフォンＭＣ２とＭＣ５、マイクロフォンＭＣ３とＭＣ６）の３組構成しマイク信号のレベル差を利用する。すなわち下記の演算を実行する。

〔表６〕
（マイク１の信号レベル−マイク４の信号レベル）の絶対値・・・[１]
（マイク２の信号レベル−マイク５の信号レベル）の絶対値・・・[２]
（マイク３の信号レベル−マイク６の信号レベル）の絶対値・・・[３]

ＤＳＰ２５は上記絶対値[１],[２],[３]と発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
この処理の場合、処理１のように全ての絶対値が発言開始レベルの閾値より大きくなることは無いので（受話再生スピーカ１６からの音が全てのマイクロフォンに等しく到達するから）、受話再生スピーカ１６からの音か話者からの音声かの判定は不要になる。

発言者方向の検出処理
発言者方向の検出には図７に例示した単一指向性マイクロフォンの特性を利用する。単一指向特性マイクロフォンは発言者からマイクロフォンへの音声の到達角度により図７に例示したように、周波数特性、レベル特性が変化する。その結果を図８（Ａ）〜（Ｃ）に例示した。図８（Ａ）〜（Ｃ）は、通話装置１０Ａから所定距離、たとえば、１．５メートルの距離にスピーカーを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換（ＦＦＴ）した結果を示す。Ｘ軸が周波数を、Ｙ軸が信号レベルを、Ｚ軸が時間を表している。横線は、バンドパス・フィルタのカットオフ周波数を表し、この線にはさまれた周波数帯域のレベルが、図１１〜図１４を参照して述べたマイク信号レベル変換処理からの５バンドのバンドパス・フィルタを通した音圧レベルに変換されたデータとなる。

本発明の実施の形態の音声集音・映像撮像装置における通話装置における発言者方向の検出のために実際の処理として適用した判定方法を述べる。
各帯域バンドパス・フィルタの出力レベルに対しそれぞれ適切な重み付け処理（１ｄＢフルスパン（1dBFs）ステップなら0dBFsの時０、-3dBFsなら３というように、又はこの逆に）を行う。この重み付けのステップで処理の分解能が決まる。
１サンプルクロック毎に上記の重み付け処理を実行し、各マイクの重み付けされた得点を加算して一定サンプル数で平均値化して合計点の小さい（大きい）マイク信号を発言者に対向したマイクロフォンと判定する。この結果をイメージ化したものが下記表７である。

表７に例示したこの例では一番合計点が小さいのは第１マイクロフォンＭＣ１なので、ＤＳＰ２５は第１マイクロフォンＭＣ１の方向に音源が有る（話者がいる）と判定する。ＤＳＰ２５はその結果を音源方向マイク番号という形で保持する。
上述したように、ＤＳＰ２５は各マイクロフォン毎の周波数帯域のバンドパス・フィルタの出力レベルに重み付けを付けを実行し、各帯域バンドパス・フィルタの出力の、得点の小さい（または大きい）マイク信号順に順位をつけ、１位の順位が３つの帯域以上に有るマイク信号を発言者に対向したマイクロフォンと判定する。そして、ＤＳＰ２５は第１マイクロフォンＭＣ１の方向に音源が有る（話者がいる）として、下記表８のような成績表を作成する。

実際には部屋の特性により音の反射や定在波の影響で、必ずしも第１マイクロフォンＭＣ１の成績が全てのバンドパス・フィルタの出力で一番となるとは限らないが、５バンド中の過半数が１位であれば第１マイクロフォンＭＣ１の方向に音源が有る（話者がいる）と判定することができる。ＤＳＰ２５はその結果を音源方向マイク番号という形で保持する。

ＤＳＰ２５は各マイクロフォンの各帯域バンドパス・フィルタの出力レベルデータを下記表９に示した形態で合計し、レベルの大きいマイク信号を発言者に対向したマイクロフォンと判定し、その結果を音源方向マイク番号という形で保持する。

〔表９〕
MIC1 Level = L1-1 + L1-2 + L1-3 + L1-4 + L1-5
MIC2 Level = L2-1 + L2-2 + L2-3 + L2-4 + L2-5
MIC3 Level = L3-1 + L3-2 + L3-3 + L3-4 + L3-5
MIC4 Level = L4-1 + L4-2 + L4-3 + L4-4 + L4-5
MIC5 Level = L5-1 + L5-2 + L5-3 + L5-4 + L5-5
MIC6 Level = L6-1 + L6-2 + L6-3 + L6-4 + L6-5

発言者方向マイクの切り換えタイミング判定処理
図１７のステップ２の発言開始判定結果により起動し、ステップ３の発言者方向の検出処理結果と過去の選択情報から新しい発言者のマイクロフォンが検出された時、ＤＳＰ２５は、ステップ５のマイク信号の選択切り替え処理へマイク信号の切り換えコマンドを発効すると共に、マイクロフォン選択結果表示手段（発光ダイオードＬＥＤ１〜６）へ発言者マイクが切り替わったことを通知し、発言者に自分の発言に対し音声集音・映像撮像装置の通話装置が応答したことを知らせる。

反響の大きい部屋で、反射音や定在波の影響を除くため、ＤＳＰ２５は、マイクロフォンを切り換えてから発言終了判定時間（たとえば、0.5 秒)経過しないと、新しいマイク選択コマンドの発効は禁止する。
図１７のステップ１のマイク信号レベル変換処理結果、および、ステップ３の発言者方向の検出処理結果から、本実施の形態においては、マイク選択切り替えタイミングは２通りを準備する。

第１の方法：発言開始が明らかに判定できる時
選択されていたマイクロフォンの方向からの発言が終了し新たに別の方向から発言があった場合。
この場合は、ＤＳＰ２５は、全てのマイク信号レベル(１)とマイク信号レベル(２)が発言終了閾値レベル以下になってから発言終了判定時間（たとえば、0.5 秒)以上経過してから発言が開始され、どれかのマイク信号レベル(１)が発言開始閾値レベル以上になった時発言が開始されたと判断し、音源方向マイク番号の情報を元に発言者方向に対向したマイクロフォンを正当な集音マイクロフォンと決定し、ステップ５のマイク信号選択切り替え処理を開始する。

第２の方法：発言継続中に新たに別の方向からより大きな声の発言があった場合
この場合はＤＳＰ２５は発言開始（マイク信号レベル(１)が閾値レベル以上になった時）から発言終了判定時間（たとえば、0.5 秒)以上経過してから判定処理を開始する。
発言終了検出前に、３の処理からの音源方向マイク番号が変更になり、安定していると判定された場合、ＤＳＰ２５は音源方向マイク番号に相当するマイクロフォンに現在選択されている発言者よりも大声で発言している話者がいると判断し、その音源方向マイクロフォンを正当な集音マイクロフォンと決定し、ステップ５のマイク信号選択切り替え処理を起動する。

検出された発言者に対向したマイク信号の選択切り替え処理
ＤＳＰ２５は図１７のステップ４の発言者方向マイクの切り換えタイミング判定処理からのコマンドで選択判定されたコマンドにより起動する。
ＤＳＰ２５のマイク信号の選択切り替え処理は、図１８に図解したように、６回路の乗算器と６入力の加算器で構成する。マイク信号を選択する為には、ＤＳＰ２５は選択したいマイク信号が接続されている乗算器のチャネルゲイン（チャネル利得：CH Gain）を〔１〕に、その他の乗算器のCH Gainを〔０〕とする事で、加算器には選択された（マイク信号×〔１])の信号と（マイク信号×〔０])の処理結果が加算されて希望のマイク選択信号が出力に得られる。

上記の様にチャネルゲインを[１]か[０]に切り換えると切り換えるマイク信号のレベル差によりクリック音が発生する可能性が有る。そこで、通話装置１では、図１９に図解したように、CH Gainの変化を[１]から[０]へ、[０]から[１]へ変化するのに、切替遷移時間、たとえば、１０ｍ秒の時間で連続的に変化させてクロスするようにして、マイク信号のレベル差によるクリック音の発生を避けている。

また、チャネルゲインの最大を[1]以外、たとえば[0.5]の様にセットする事で後段のＤＳＰ２５におけるエコーキャンセル処理動作の調整を行うこともできる。

上述したように、本発明の第１実施の形態の音声集音・映像撮像装置における通話装置は、ノイズの影響を受けず、有効に会議などの通話装置に適用できる。

本発明の第１実施の形態の音声集音・映像撮像装置における通話装置は構造面から下記の利点を有する。
（１）複数の単一指向性を持つマイクロフォンと受話再生スピーカとの位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカから出た音が会議室（部屋）環境を経て複数のマイクロフォンに戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、受話再生スピーカから複数のマイクロフォンに音が到達する特性（信号レベル（強度）、周波数特性（ｆ特）、位相）がいつも同じである。つまり、通話装置においてはいつも伝達関数が同じという利点がある。

（２）それ故、マイクロフォンを切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、通話装置の製造時に一度調整をするとやり直す必要がないという利点がある。

（３）上記と同じ理由でマイクロフォンを切り替えても、ディジタルシグナルプロセッサ（ＤＳＰ）で構成するエコーキャンセラが一つでよい。ＤＳＰは高価であり、種々の部材が搭載されて空きが少ないプリント基板にＤＳＰを配置するスペースも少なくてよい。

（４）受話再生スピーカと複数のマイクロフォン間の伝達関数が一定であるため、±３ｄＢもあるマイクロフォン自体の感度差調整をユニット単独で出来るという利点がある。

（５）音声集音・映像撮像装置の通話装置が搭載されるテーブルは、通話装置内の一つの受話再生スピーカで均等な品質の音声を全方位に均等に分散（拡散）するスピーカシステムが可能になった。

（６）受話再生スピーカから出た音はテーブル面を伝達して（バウンダリ効果）会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音と位相キャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。

（７）受話再生スピーカから出た音は複数の全てのマイクロフォンに同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。

（８）偶数個のマイクロフォンを等間隔で配置したことで方向検出の為のレベル比較が容易に出来る。

（９）緩衝材を用いたダンパー、柔軟性または弾力性を持つマイクロフォン支持部材などにより、マイクロフォンが搭載されているプリント基板を介して伝達され得る受話再生スピーカの音による振動が、マイクロフォンの集音に対する影響を低減することができる。

（１０）受話再生スピーカの音が直接、マイクロフォンには進入しない。したがって、この通話装置においては受話再生スピーカからのノイズの影響が少ない。

本発明の第１実施の形態の音声集音・映像撮像装置における通話装置は信号処理面から下記の利点を有する。
（ａ）複数の単一指向性マイクを等間隔で放射状に配置して音源方向を検知可能とし、マイク信号を切り換えてＳ／Ｎの良い音、クリアな音を集音（収音）して、相手方に送信することができる。
（ｂ）周辺の発言者からの音声をＳ／Ｎ良く集音して、発言者に対向したマイクを自動選択できる。
（ｃ）本発明においては、マイク選択処理の方法として通過音声周波数帯域を分割し、それぞれの分割された周波数帯域事ごとのレベルを比較する事で、信号分析を簡略化している。
（ｄ）本発明のマイク信号切り換え処理をＤＳＰの信号処理として実現し、複数の信号をすべてにクロス・フェード処理する事で切り換え時のクリック音を出さないようにしている。
（ｅ）マイク選択結果を、発光ダイオードなどのマイクロフォン選択結果表示手段、または、外部への通知処理することができる。したがって、たとえば、図２に図解したテレビカメラ装置４０Ａ１、４０Ａ２を用いた会議システムへの発言者位置情報として活用することもできる。

第２実施の形態
図２０〜図２５を参照して本発明の音声集音・映像撮像装置の通話装置の第２実施の形態を述べる。
従来、会議や個人の音声を離れた相手に伝送するのに、電話、インターフォン、テレビ電話などがあった。しかしこの場合、周囲の人の声やテレビジョン装置からの音などがうるさいため話者の声が相手に良く伝わらないことが多い。そのためわざわざ話者がマイクロフォンの近くまで行ったり、大声を上げたり、テレビジョン装置の出力音をそのつど下げたりと面倒であった。
第１実施の形態の音声集音・映像撮像装置における通話装置を用いれば、通話装置の周囲の雑音を排除でき、話者の識別も正確にできるが、さらに改善することが希望されている。
本発明の第２実施の形態は、第１実施の形態の通話装置をさらに向上させるため、声紋識別を行って事前に声紋を登録した話者の音声のみを明瞭に選別し、その他のノイズとなる音はレベルを下げることにより、より良いコミュニケーションを可能にする。

図２０は本発明の第２実施の形態の通話装置の装置構成を示す。
図２０に図解した通話装置は、図６に図解した通話装置と類似する構成をしており、図６に図解した通話装置における構成要素は同じ符号を付している。ただし、下記の部分が異なる。
第２実施の形態の通話装置においては、マイクロフォンＭＣ１〜ＭＣ６とＡ／Ｄ変換器２７１〜２７３との間に利得可変型増幅器３０１〜３０６が配置され、声紋認証部３２が追加され、増幅器利得調整部３４が追加され、増幅器２９１からＬＩＮＥＯＵＴ端子への出力に加えて増幅器２９１から声紋認証部３２に出力信号が印加されている。なお、利得可変型増幅器３０１〜３０６は第１実施の形態においても述べたように、Ａ／Ｄ変換器２７１〜２７３を利得調整付増幅機能型Ａ／Ｄ変換器２７１〜２７３として構成することもでき、その場合は、利得可変型増幅器３０１〜３０６の機能をＡ／Ｄ変換器２７１〜２７３に含めることもできる。なお、本実施の形態においては、Ａ／Ｄ変換器２７１〜２７３とは別個に利得可変型増幅器３０１〜３０６を設けた場合について述べる。
なお、第２実施の形態においては、第３の増幅器２９３が付加されて，録音出力端子ＲＥＣＯＵＴに、ＬＩＮＥＩＮからの入力信号または増幅器２９３からの信号を出力可能に構成されている。

６本のマイクロフォンＭＣ１〜ＭＣ６は、図７に例示した指向性を持ち、図３〜図５を参照して述べたように、等角度かつ等間隔で配置されている。
Ａ／Ｄ変換器２７１〜２７３は第２実施の形態においても、２チャネル用Ａ／Ｄ変換器であり、１個のＡ／Ｄ変換器で２入力信号（２チャネルの入力信号）が取り込める。
ＤＳＰ２５は第１実施の形態において述べた、図１０に列挙した種々の処理、たとえば、マイクロフォン選択・切り替え処理などを行う。
第２のディジタルシグナルプロセッサ（ＤＳＰ）２６は第１実施の形態で述べたとおり、エコーキャンセル処理を行う。

声紋認証部３２は、声紋認証処理を行う声紋認証処理プロセッサＰと、声紋処理のための辞書メモリＭ１と、声紋を登録する声紋登録メモリＭ２とを有する。声紋登録メモリＭ２には、声紋登録装置３２Ａにより事前に話者認証を行う人の声紋が登録されている。話者認証の対象者は、本実施の形態の通話装置を使用する会議出席者などである。声紋認証部３２の処理の詳細は後述する。

ＤＳＰ２５は第１実施の形態と同様、マイクロフォンＭＣ１〜ＭＣ６のうちの１つを選択し、選択したマイクロフォンの番号を示すマイクロフォン選択信号Ｓ２５１をマイクロプロセッサ２３に出力する。マイクロプロセッサ２３はマイクロフォン選択信号Ｓ２５１を増幅器利得調整部３４に出力する。
ＤＳＰ２５で選択したマイクロフォンの信号がＤＳＰ２６に印加され、ＤＳＰ２６においてエコーキャンセル処理されて、Ｄ／Ａ変換器２８２に出力され、増幅器２９２で増幅されて受話再生スピーカ１６から出力されるので、通話装置を使用している会議者は受話再生スピーカ１６から選択されたマイクロフォンを使用した話者の音声を聞くことができる。

ＤＳＰ２６からＤ／Ａ変換器２８２に出力された選択音声信号Ｓ２６は増幅器２９１を介してＬＩＮＥＯＵＴ端子に出力され、相手方の通話装置に送出することができる。
またＤＳＰ２６からＤ／Ａ変換器２８２に出力された選択音声信号Ｓ２６は増幅器２９３を介してＲＥＣＯＵＴ端子に出力されるので、録音することもできる。
さらにＤＳＰ２６からＤ／Ａ変換器２８２に出力された選択音声信号Ｓ２６は増幅器２９１を介して声紋認証部３２に出力されるので、声紋認証部３２において選択音声信号Ｓ２６について声紋認証を行う。声紋認証の詳細は後述するが、声紋認証部３２は選択音声信号Ｓ２６を声紋認証した結果、声紋登録メモリＭ２に登録されたものであるとき、認証合格信号Ｓ３２（認証合格のとき「１」、認証不合格のとき「０」）を増幅器利得調整部３４に出力する。

増幅器利得調整部３４にはマイクロプロセッサ２３を介してＤＳＰ２５からマイクロフォン選択信号Ｓ２５１が入力されている。この状態において、声紋認証部３２から認証合格を示す認証合格信号Ｓ３２が増幅器利得調整部３４に入力されると、増幅器利得調整部３４はマイクロフォン選択信号Ｓ２５１で示されたマイクロフォンの出力信号が入力されている該当する利得可変型増幅器の利得を大きくし（すでに大きく設定されているときはその値に維持する、または、ある大きな値に設定する）、その他の利得可変型増幅器の利得を低下させる（すでに低く設定されているときはその値に維持する、または、ある低い値に設定する）。

具体的には、増幅器利得調整部３４はマイクロコンピュータを内蔵しており、増幅器利得調整部３４内のマイクロコンピュータは、マイクロフォン選択信号Ｓ２５１で示されたマイクロフォンの出力信号が入力されている該当する利得可変型増幅器の利得設定値を大きな値に設定してその利得可変型増幅器に出力し、その他の利得可変型増幅器の利得設定値を低い値に設定してそれらの利得可変型増幅器に出力する。その結果、利得可変型増幅器３０１〜３０６は設定された利得に変更される。

たとえば、第１マイクロフォンＭＣ１がテレビジョン装置からの音だけを集音した場合、その音が大きければ、ＤＳＰ２５によって選択される。その結果、ＤＳＰ２５は第１マイクロフォンＭＣ１が選択されたことを示すマイクロフォン選択信号Ｓ２５１をマイクロプロセッサ２３を介して増幅器利得調整部３４に出力する。
ＤＳＰ２５で選択されたテレビジョン装置からの音信号がＤＳＰ２６から選択音声信号Ｓ２６として、増幅器２９１を経由して声紋認証部３２に入力される。声紋認証部３２の声紋登録メモリＭ２にはテレビジョン装置の音を登録していないから、その選択音声信号Ｓ２６は認証不合格とされ、「０」の認証合格信号Ｓ３２が増幅器利得調整部３４に出力される。
増幅器利得調整部３４にはすでに、第１マイクロフォンＭＣ１が選択されたことを示すマイクロフォン選択信号Ｓ２５１が入力されているが、「０」の認証合格信号Ｓ３２が入力されるので、増幅器利得調整部３４は、マイクロフォン選択信号Ｓ２５１に示された第１マイクロフォンＭＣ１の出力信号が接続されている利得可変型増幅器３０１の利得を低く設定して利得可変型増幅器３０１に出力し、利得可変型増幅器３０１の利得を下げる。その結果、第１マイクロフォンＭＣ１の集音信号は、利得可変型増幅器３０１で低下されて、Ａ／Ｄ変換器２７１に入力されるから、その後、マイクロフォン選択の対象から外れる可能性が高い。

他方、第３マイクロフォンＭＣ３を使用する話者の声紋が事前に声紋認証部３２の声紋登録メモリＭ２に登録されており、ＤＳＰ２５により第３マイクロフォンＭＣ３が選択されたとき、ＤＳＰ２５からマイクロプロセッサ２３を経由して第３マイクロフォンＭＣ３が選択されたことを示すマイクロフォン選択信号Ｓ２５１が増幅器利得調整部３４に出力され、第３マイクロフォンＭＣ３の音声が選択音声信号Ｓ２６として声紋認証部３２に入力されて声紋認証される。この場合、その声紋は声紋登録メモリＭ２に登録されているから、認証は合格し、「１」の認証合格信号Ｓ３２が出力される。
増幅器利得調整部３４は「１」の認証合格信号Ｓ３２を入力すると、第３マイクロフォンＭＣ３が選択されたことを示すマイクロフォン選択信号Ｓ２５１を参照して、第３マイクロフォンＭＣ３の出力信号が接続されている利得可変型増幅器３０５の利得を高く設定して利得可変型増幅器３０５に出力し、利得可変型増幅器３０５の利得をある高い値に設定する。その結果、第３マイクロフォンＭＣ３の集音信号は、利得可変型増幅器３０５で高められてＡ／Ｄ変換器２７３に入力され、高い音声出力がＤＳＰ２６から選択音声信号Ｓ２６として出力される。その選択音声信号Ｓ２６はもちろん、Ｄ／Ａ変換器２８２でアナログ信号に変換された後、増幅器２９２で増幅された受話再生スピーカ１６に出力され、増幅器２９１で増幅されてＬＩＮＥＯＵＴを経由して相手方の通話装置に送出され、再び声紋認証部３２に入力されて声紋認証の対象となる。

第１マイクロフォンＭＣ１で採取したテレビジョン装置からの音と、第３マイクロフォンＭＣ３からの音声とが同時に存在したときは、ＤＳＰ２５において、まず、音の高いほうが選択されて、選択音声信号Ｓ２６として声紋認証部３２に入力される。
たとえば、第１マイクロフォンＭＣ１で集音したテレビジョン装置の音が第３マイクロフォンＭＣ３からの音声より高いときは第１マイクロフォンＭＣ１からのテレビジョン装置の音がＤＳＰ２５において選択されＤＳＰ２６から選択音声信号Ｓ２６として出力されている場合は、上述したように、声紋認証部３２においては認証されない。よって、上述したように、第１マイクロフォンＭＣ１の出力信号が接続されている利得可変型増幅器３０１の利得が低くされる。その結果、ＤＳＰ２５における次のマイクロフォン選択処理においては第１マイクロフォンＭＣ１の集音信号は選択されず、第３マイクロフォンＭＣ３の集音信号が選択されることになる。第３マイクロフォンＭＣ３の集音信号が選択音声信号Ｓ２６としてＤＳＰ２６から声紋認証部３２に出力されると、声紋認証処理は合格となる。その結果、増幅器利得調整部３４により、第３マイクロフォンＭＣ３が接続された利得可変型増幅器３０５の利得が高い値に設定されて、第３マイクロフォンＭＣ３の集音信号が高くなり、明瞭な音声として受話再生スピーカ１６から出力され、ＬＩＮＥＯＵＴから出力され、再び声紋認証部３２に入力される。

このように、声紋認証部３２の声紋登録メモリＭ２に登録した声紋の話者が話した音声が最終的に選択され、明瞭な信号として、受話再生スピーカ１６から、ＬＩＮＥＯＵＴに、声紋認証部３２に、出力される。
したがって、第２実施の形態の通話装置を用いれば、図１に例示したように、離れたところにいる人との間で明瞭な音声の会話を容易に行うことができる。
また、周囲のノイズとしてのテレビジョン装置の音など騒音環境で通話装置を使用する場合でも、話者が話す位置を移動する必要もなく、あるいは、ことさら大きい声を出す必要も無い。
さらに、ノイズとしてのテレビジョン装置の音声レベルをその都度下げる煩わしさもなく相手と話をすることができる。特に、ノイズとしてのテレビジョン装置の音を低く抑えて送られるので相手は明瞭な会話音だけが聞こえ、会話が円滑に行われる。その意味では、第２実施の形態の通話装置は不要な雑音を除去する装置としての機能をも持つ。
もちろん、声紋認証部３２の声紋登録メモリＭ２に声紋登録されてない人が通話装置の周囲で話していても、そのような音声は最終的には選択されず、声紋登録された話者の音声のみで、明瞭に選択出力される。

選択されたマイクロフォンの終了は、図１５に図解したように、マイクロフォン出力信号のレベルが低下し、所定時間継続したとき、ＤＳＰ２５により判断される。
このとき、好ましくは、増幅器利得調整部３４は、発言が終了したマイクロフォンに対応する利得可変型増幅器の利得を通常の利得に設定しなおす。もちろん、ＤＳＰ２５からマイクロプロセッサ２３を経由して選択が終了したことを、マイクロフォン選択信号Ｓ２５１に含めて増幅器利得調整部３４に通報することができる。
このように、選択が終了したマイクロフォンに対応する利得可変型増幅器の利得を他の利得可変型増幅器と同じ利得にすることにより、次のマイクロフォン選択が平等の条件となる。

以上の実施の形態においては、本発明の利得可変型増幅手段として、利得可変型増幅器３０１〜３０６を用いた場合について述べたが、上述したように、Ａ／Ｄ変換器２７１〜２７３として利得可変型Ａ／Ｄ変換器２７１〜２７３を用いることもでき、その場合、利得可変型増幅器３０１〜３０６を固定利得の増幅器に代え、増幅器利得調整部３４は利得可変型Ａ／Ｄ変換器２７１〜２７３の利得を調整（設定）することもできる。

本発明の通話装置の好適な例示として、第１実施の形態として述べた、マイクロフォンＭＣ１〜ＭＣ６が等角度で放射状に配置された場合について述べたが、第２実施の形態としては、マイクロフォンＭＣ１〜ＭＣ６が第１実施の形態のように、各対のマイクロフォン、たとえば、ＭＣ１とＭＣ４とが一直線上に対向して配置されている場合に限らず、所定の配置でもよい。その場合、ＤＳＰ２５は、たとえば、最大振幅の集音信号を出力したマイクロフォンをマイクロフォン選択信号Ｓ２５１として選択する。その後、声紋認証部３２において上述した声紋認証を行う。

図２１〜図２５を参照して声紋認証部３２の処理内容の詳細な例について述べる。
本実施の形態においては、各会議出席者がマイクロフォンＭＣ１〜ＭＣ６から順に音声を声紋登録装置３２Ａに入力し、声紋登録装置３２Ａからマイクロフォンの番号とともに、声紋認証部３２に出力する。本例では、各会議出席者の音声は、図２１に例示したように、たとえば、『ＯｐｅｎＦｉｌｅ』，『Ｎｅｘｔ』等の２〜３秒程度の音声によるコマンドを想定している。
声紋認証部３２内の声紋認証処理プロセッサＰは、声紋登録装置３２Ａから入力された音声信号をディジタル信号に変換した後、辞書メモリＭ１に記録された辞書を参照して音声認識処理を施し、文字列データに変換してマイクロフォン番号とともに声紋登録メモリＭ２に記録する。すなわち、声紋認証処理プロセッサＰはあらかじめ入力する音声コマンドに対応する文字列データが格納されている辞書メモリＭ１の音声コマンドに対応する文字列データを照合し、合致するものを選択する。

図２１（Ａ）〜（Ｄ）は、音声認識処理部３２で行われる制御の動作について図解したタイミングチャートである。
図２１（Ａ）は、マイク切替え信号ＭＣ＿ＳＥＬのタイミングチャートであり、例えば＃４と記載されている場合は、第４マイクロフォンＭＣ４が現在選択されていることを示している。
図２１（Ｂ）は、マイクロフォン出力信号のタイミングチャートである。マイクロフォン出力信号は、図２１（Ａ）のマイク切替え信号ＭＣ＿ＳＥＬで示すマイク番号に対応した音声信号であり、声紋認証処理プロセッサＰ内のＡ／Ｄ変換器でディジタルに変換されて入力される。この例では、マイクロフォン出力信号”ＯｐｅｎＦｉｌｅ”，”Ｎｅｘｔ”といったコマンドの音声信号である。
図２１（Ｃ）は、図２１（Ａ）〜（Ｂ）で得られた情報をもとに声紋認証処理プロセッサＰで行われる処理プロセスを示すタイミングチャートである。各音声データのバッファリングとバッファリング後の音声認識処理から構成される。
図２１（Ｄ）は、図２１（Ｃ）で示した音声認識処理の結果として順次出力される文字列データのタイミングチャートである。

図２１（Ａ）に図解のように、最初に選択されたマイクロフォンの番号が＃４であり、第４マイクロフォンから”ＯｐｅｎＦｉｌｅ”というマイクロフォン出力信号が声紋認証処理プロセッサＰに入力されている。声紋認証処理プロセッサＰはＡ／Ｄ変換器を介してディジタル変換されたマイクロフォン出力信号を入力し、図２１（Ｃ）に図解のごとくバッファリングを開始し、その音声データはバッファのマイク番号＃４に応じたバッファで保持される。

その後、マイクロフォンの番号が＃４から＃１になると、マイク切替え信号ＭＣ＿ＳＥＬ＝１となる。図２１（Ｂ）に示すとおり、マイク番号＃１の音声データは”Ｎｅｘｔ”に相当する音声データであり、声紋認証処理プロセッサＰはマイク番号＃４のバッファリングを終了し、新たにマイク番号＃１のバッファリングを開始するとともに、バッファに保持されたマイク番号＃４の音声データに基づいて、声紋認証処理プロセッサＰで音声認識処理を並行して行う。
音声認識処理では、マイク番号＃４の音声データが音声認識処理され、辞書メモリＭ１に格納されている文字列データのコマンド群と照合され、合致するものが選択され、文字列データとしての”ＯｐｅｎＦｉｌｅ”を、図２１（Ｄ）のとおり出力される。
その後さらに、マイク番号が＃１から＃２へ変化しても同様である。
以上、概略説明した制御動作をフローチャートを参照してさらに説明する。

図２２は声紋認証処理プロセッサＰで行われる制御のメインフローを示す図である。
たとえば、２ｋＨｚのＴ１タイマがスタートし、５０μｓ毎に図２３に示すＴ１タイマ割込みに移行する。そして、一定レベル以上の音声入力があれば（ステップＳＴ１１）、ステップＳＴ１２に移行する。この一定レベルの閾値は、アプリケーションに応じて適宜設定することができることは言うまでもない。
声紋認証処理プロセッサＰはマイク切替え信号ＭＣ＿ＳＥＬが供給されているので、ステップＳＴ１１において一定レベル以上の音声入力があれば、その音声のマイク番号（１〜６）を把握している。従って、ステップＳＴ１２では、その入力音声データのサンプリングを開始し、その音声のマイク番号（１〜６）に応じたバッファに音声データを保持する。
一定レベル以上の音声入力がなければ、ステップＳＴ１２では何もしない。

図２５は、図２２に示したメインフローの制御においてマイク選択情報が変化した場合の割込みフローを示した図である。すなわち、通常制御動作であるメインフローにおいて、通話装置で選択されるマイク番号が変化して、その情報がマイク切替え信号ＭＣ＿ＳＥＬを通して通知された場合に発生する割込みフローであり、図２１の例で言えば、本割込み以前にマイク番号４（マイク切替え信号ＭＣ＿ＳＥＬ＝４）の音声データをマイク番号４のバッファにサンプリングをして格納していたとき、マイク切替え信号ＭＣ＿ＳＥＬが４から１へ変化した場合である。
図２５のステップＳＴ４０において、声紋認証処理プロセッサＰは音声サンプリングを行っていた場合は、それ以上バッファには音声データを格納しない。
この場合は、現在行っているマイク番号４からの発話入力は終了したものとみなし、サンプリングを終了する（ステップＳＴ４１）。
さらに、サンプリングが終了したマイク番号４の音声データは、声紋認証処理プロセッサＰにおいて音声認識処理が行われる（ステップＳＴ４２）。図２１の例では、声紋認証処理プロセッサＰにおいて、マイク番号４の音声データは”ＯｐｅｎＦｉｌｅ”と認識され、その文字列データが通話装置１Ａの外部に出力される。

図２２のステップＳＴ１０において、Ｔ１タイマが開始され、例えば５０μｓ（２０ｋＨｚ）毎に図２２に示すＴ１タイマ割込みフローが開始される。Ｔ１タイマ割込みでは、５μｓ毎に音声入力があるか、および、一定レベル以上の音声入力があるか監視を行い、適切な処置を施す。まず、ステップＳＴ２０で音声サンプリングを行っていたか否かチェックされる。
音声サンプリングを行っていた場合は、声紋認証処理プロセッサＰはさらに一定レベルの音声入力があるか否かチェックし（ステップＳＴ２１）、一定レベルの音声入力がある場合には後述するＴ２タイマは停止する。Ｔ２タイマは発話がない状態を監視し、一定時間発話がない場合には自動的に次のフェーズである音声認識に移行するためのものである。
発話、すなわち、音声入力が一定レベル以上ある場合は、発話が継続していると考えられ、ステップＳＴ２２において、Ｔ２タイマはリセットされる。
また、ステップＳＴ２０で音声サンプリングを行っているが、一定レベル以上の音声入力がない場合には、現在の発話が終了した可能性があるため、発話がない状態の継続時間を監視するため、Ｔ２タイマをスタートさせる（ステップＳＴ２３）。
ステップＳＴ２１で一定レベル以上の音声入力がない場合でも、発話を再開する可能性があるため、音声サンプリングは継続する（ステップＳＴ２４）。

ステップＳＴ２０で音声サンプリングを行っていない場合は、声紋認証処理プロセッサＰはステップＳＴ２５で一定レベル以上の音声入力があるか否かがチェックする。これにより、発話が開始された否かがチェックされ、一定レベル以上の音声入力がある場合は、声紋認証処理プロセッサＰは発話が開始されたものとし、新しく選択されたマイクに対応したバッファに音声サンプリングが開始される（ステップＳＴ２６）。
ステップＳＴ２５で一定レベル以上の音声入力がない場合には、声紋認証処理プロセッサＰは何もせず次の有効な発話を待つことになる。

図２３のステップＳＴ２３で、例えば２ＨｚのＴ２タイマが開始され、一定時間経過した場合、すなわち、声紋認証処理プロセッサＰは音声サンプリングは実施しているが（ステップＳＴ２０）、一定レベル以上の音声入力がない場合が一定時間継続した場合は、音声サンプリングを継続することは無駄であるため、図２４に示すＴ２タイマ割込みフローに移行する。
すなわち、その時行っていた音声のサンプリングを終了し（ステップＳＴ３０）、音声認識処理に移行する（ステップＳＴ３１）。
音声認識処理に移行した後、ステップＳＴ３２において、次の発話の処理のため、Ｔ２タイマはリセットされる。

声紋認証部３２によれば、複数の会議出席者のそれぞれが使用するマイクロフォンを通して、複数人が重なって通話装置に対して音声によりコマンドを発している場合でも、各音声の帯域毎の音圧レベルを分析して、主の話者を特定してその音声信号を引き渡す。したがって、声紋認証部３２において、複数の音声コマンドが同時に入力された場合でも誤認識処理を起こす可能性を極力回避することができ、主に発話している音声コマンドを適切に判断・処理を行うことが可能である。
声紋認証部３２の声紋認証処理プロセッサＰは、引き渡された音声コマンド信号をバッファリングし、バッファリングした音声信号を音声認識処理し、辞書メモリＭ１に格納されるコマンド文字列データと照合し、合致する文字列データを選択して処理される。
また、声紋認証部３２の声紋認証処理プロセッサＰは、声紋登録装置３２Ａから選択されたマイク番号を逐次通知されている。したがって、その選択されたマイク番号が切り替わった場合には、バッファリングを中止し、それまでバッファリングしていた音声信号を音声認識処理し、更新されたマイク番号からの音声コマンド信号のバッファリングを開始するので、音声認識の精度が向上する。

第３実施の形態
図２、図２６〜図３１を参照して本発明の音声集音・映像撮像装置の第３実施の形態について述べる。
本発明の第３実施の形態は、上述した通話装置を用い、これらに、撮像手段を付加して、テレビジョン会議（ＴＶ会議）システムを構成した場合について述べる。
図２は音声集音・映像撮像装置のテレビカメラ装置４０Ａ１、４０Ａ２の初期状態を示し、図３１は通話装置および撮像調整部３６による撮像条件の決定に基づきテレビカメラ装置４０Ａ１、４０Ａ２が撮像する状態を示す図である。

従来のカメラ付き会議システムでは、各発言者個別のマイクロフォンの番号や、ＴＶ会議システムの管理者（議長）による制御によりカメラの向きを制御していた。このような方法だと発言者ごとに個別のマイクロフォンが必要なため高価なシステムが必要であったり、ＴＶ会議システムの管理者が発言者が変わるたびに撮像領域を変更するためのカメラ撮像方向の変更制御をしなければいけないという面倒さがあった。
また発言者の名前表示等については通常、マイクロフォンと発言者名が連動しており参加者が座る座席を途中変更すると、再設定が必要になり、手続きが複雑であった。
なお、単に音が出ている方向にカメラの向きを向けるという簡便なシステムも存在するが、カメラの向きが撮像に適しない人の方向に向いたり、周囲のノイズ、たとえば、会議に使用しているプロジェクタ装置のファンの音に感応してプロジェクタ装置の方向にカメラの撮像方向が向くという不具合が起こる。

上述した音声集音・映像撮像装置の通話装置を用いれば、話者の選択が正確になる、会議出席者の近傍にマイクロフォンを設置する必要がないなど、種々の利点があり、上述した不具合を改善できる。
すなわち、図５に図解した、全方位に複数のマイクロフォンＭＣ１〜ＭＣ６を配置し、第１のディジタルシグナルプロセッサ（ＤＳＰ）２５により現在主に発話している方向のマイクロフォンの集音信号を選択する機能を持った図６に図解した通話装置を用いると、正確に発言者のマイクロフォンを選択できる。マイクロフォンは、たとえば、均等の角度で配置されているから、たとえば、ＤＳＰ２５においてマイクロフォンを選択できれば、ＤＳＰ２５におていマイクロフォンの配置方向が決定でき、さらにＤＳＰ２５において話者の方向を特定できる。
さらに好ましくは、図２０を参照して第２実施の形態として述べた、図６に図解した通話装置に声紋認証部３２を付加した通話装置によって、声紋認証部３２から出力される認証合格信号Ｓ３２と、ＤＳＰ２５からマイクロプロセッサ２３に出力されるマイクロフォン選択信号Ｓ２５１を用いると、正確に発言者を特定できる。
図１（Ｂ）、図２、図３１に例示したように、発言者は対応するマイクロフォンの前に座っているから、事前にＤＳＰ２５に各マイクロフォンの位置に対応する発言者の位置を登録しておく。さらに、ＤＳＰ２５には、各テレビカメラ装置４０Ａ１、４０Ａ２と発言者の位置および方向を登録しておく。
以上の話者の方向と位置を用いれば、各テレビカメラ装置４０Ａ１、４０Ａ２が撮像すべき発言者の撮像領域を決定できる。

そこで、第３実施の形態においては、図２６、図２７に図解したように、本発明の撮像手段としてのテレビカメラ装置４０Ａ１、４０Ａ２（代表して、テレビカメラ装置４０）と、このテレビカメラ装置４０の撮像条件を調整する撮像調整手段としての撮像調整部３６とを、図２０を参照して述べた通話装置に付加している。
図２６、図２７は本発明の第３実施の形態としての音声集音・映像撮像装置の構成図である。図２７は、図２０に図解した通話装置に、撮像調整部３６とテレビカメラ装置４０（テレビカメラ装置４０Ａ１、４０Ａ２）とを付加した音声集音・映像撮像装置の構成図であり、図２７は、図２６に図解した音声集音・映像撮像装置から利得可変型増幅器３０１〜３０６と増幅器利得調整部３４とを削除した音声集音・映像撮像装置の構成図である。

（１）本発明の第３実施の形態としては、第１実施の形態として述べたＤＳＰ２５によるマイクロフォン選択処理が必須となり、ＤＳＰ２５におけるマイクロフォン選択処理結果に基づいて撮像調整部３６がテレビカメラ装置４０の撮像条件を制御する。
（２）本発明の第３実施の形態の好ましい形態としては、図２６に図解した構成において、図２０を参照して述べた第２実施の形態のように、第１実施の形態として述べたＤＳＰ２５によるマイクロフォン選択処理に加えて、声紋認証部３２における声紋認証を行って、マイクロフォン選択処理結果と声紋認証との両者が一致した場合のみ、撮像調整部３６によってテレビカメラ装置４０（テレビカメラ装置４０Ａ１、４０Ａ２）の撮像条件を制御する。
（３）本発明の第３実施の形態のさらに好ましい形態としては、図２７に図解した構成において、図２０を参照して述べた第２実施の形態のように、第１実施の形態として述べたＤＳＰ２５によるマイクロフォン選択処理に加えて、声紋認証部３２における声紋認証を行って、マイクロフォン選択処理結果と声紋認証との両者が一致した場合のみ、撮像調整部３６によってテレビカメラ装置４０（テレビカメラ装置４０Ａ１、４０Ａ２）の撮像条件を制御するともに、第２実施の形態として述べた、増幅器利得調整部３４による利得可変型増幅器３０１〜３０６の利得制御をも行う。
以下、図２６および図２７を参照して、第３実施の形態の基本事項について述べる。

撮像調整部３６は、コンピュータを内蔵しており、図２および図３１に図解したように、各テレビカメラ装置４０Ａ１、４０Ａ２の上下左右方向（上下左右向きまたはチルト）、パン、ズーム、照明条件などを調整できる。
なお、撮像調整部３６には、事前に、各テレビカメラ装置４０Ａ１、４０Ａ２について、たとえば、第１マイクロフォンの方向および領域ＭＩＣ１ＡＲＥＡを撮像するための第１の撮像条件情報、第２マイクロフォンの方向および領域ＭＩＣ２ＡＲＥＡを撮像するための第２の撮像条件情報などがコンピュータのメモリ部分に設定されている。好ましくは、これら撮像条件情報には、会議参加者の氏名、職名または役職などを含めてもよい。
図２に図解した例示においては、撮像調整部３６は、初期状態として、各テレビカメラ装置４０Ａ１、４０Ａ２が会議室内の通話装置１０Ａを中心として会議室の左右を分担し、かつ、合わせて出席者全員を撮像可能にしている。

各テレビカメラ装置４０Ａ１、４０Ａ２は、撮像調整部３６から与えられる撮像条件、たとえば、、撮像方向（上下、左右方向）、ズームするか否か、ズームする場合はどの程度ズームするかの撮像条件が与えられると、その撮像条件で撮像可能な構成になっている。テレビカメラ装置４０Ａ１、４０Ａ２で撮像した画像信号は、プロジェクタ装置６０Ａ（またはテレビジョン受像機５０Ａ）に表示される他、遠隔の音声集音・映像撮像装置のプロジェクタ装置６０Ｂ（またはテレビジョン受像機５０Ｂ）に表示される。

増幅器利得調整部３４および撮像調整部３６は、ＤＳＰ２５で選択したマイクロフォンの番号を示すマイクロフォン選択信号Ｓ２５１をマイクロプロセッサ２３を介して入力する。
増幅器利得調整部３４および撮像調整部３６は、ＤＳＰ２５で選択した集音信号がＤＳＰ２６でエコーキャンセル処理されて出力された選択音声信号Ｓ２６が、声紋認証部３２において声紋認証されて事前に登録した声紋と一致したとき、「１」として出力される認証合格信号Ｓ３２を入力する。

増幅器利得調整部３４は第２実施の形態として述べた方法により、マイクロフォン選択信号Ｓ２５１で示されたマイクロフォンに対応する利得可変型増幅器の利得を大きな第１の利得に設定する。その結果は第２実施の形態において述べたと同様である。

撮像調整部３６は、マイクロフォン選択信号Ｓ２５１で示されたマイクロフォンに該当する、撮像調整部３６に事前に設定された撮像条件情報をメモリから読みだして、その撮像条件情報に基づいてテレビカメラ装置４０Ａ１、４０Ａ２の撮像条件を調整する。
たとえば、マイクロフォン選択信号Ｓ２５１が第１マイクロフォンを示している場合、、第１マイクロフォンの方向および領域ＭＩＣ１ＡＲＥＡ（図２６、たとえば、図２の左方向）を撮像するための第１の撮像条件情報に基づいて、第１マイクロフォンの方向および領域ＭＩＣ１ＡＲＥＡを撮像するように、各テレビカメラ装置４０Ａ１、４０Ａ２の方向または向き（上下、左右）を制御する。第１の撮像条件情報がズーム情報を含んでいる場合は、撮像調整部３６はさらにテレビカメラ装置４０Ａ１、４０Ａ２にズーム処理を指示する。
テレビカメラ装置４０Ａ１、４０Ａ２は撮像調整部３６で指示された条件で撮像を行い、その結果を図示しない回線を用いて遠隔の相手方の音声集音・映像撮像装置のプロジェクタ装置に送出する。また、テレビカメラ装置４０Ａ１、４０Ａ２の撮像結果を、その音声集音・映像撮像装置のプロジェクタ装置に表示することもできる。
このように、遠隔の相手方の音声集音・映像撮像装置が設置されている室内のモニタ装置としてのプロジェクタ装置に、ＤＳＰ２５でマイクロフォンが選択され、さらに、声紋認証部３２において声紋認証されたマイクロフォンを用いて発言した会議出席者の映像が選択表示される。

撮像調整部３６は、テレビカメラ装置４０Ａ１、４０Ａ２が撮像した映像信号に、撮像条件情報に含まれる、氏名、役職などの情報を重畳することができる。その結果、通話装置が設置されている室内のモニタ装置としてのプロジェクタ装置、および、遠隔の相手方のプロジェクタ装置には、テレビカメラ装置４０Ａ１、４０Ａ２で撮像した映像だけでなく、氏名、役職などの情報が重畳されて表示される。

動作形態
図２８〜図２９を参照して第３実施の形態の音声集音・映像撮像装置の動作形態を述べる。
１．初期状態として、撮像調整部３６はテレビカメラ装置４０Ａ１、４０Ａ２を図２に図解したように、広角にしておく。
２．図２８、ステップＳ５１：会議が始まり発言者があると、通話装置は上述した方法で発言者の音声を検出する。
３．ステップＳ５２〜５３：好ましくは、通話装置の声紋認証部３２において発言者の声紋を抽出して声紋認識処理を行う。声紋登録装置３２Ａに登録されていない声紋の場合、ステップＳ６０の処理に移行する。
４．ステップＳ６０〜６４：新しい声紋の場合の処理を行う。この処理の詳細は後述する。
５．ステップＳ５４：声紋認証部３２は前回と同じ声紋か、または、音を検出したマイクロフォンが前回と同じか否かをチェックし、前回と同じ声紋または前回と同じマイクロフォンが選択されている場合は、ステップＳ５１の処理に戻る。
前回と異なる声紋または前回と異なるマイクロフォンが選択されている場合は、ステップＳ５５の処理に移行する。
６．ステップＳ５５〜５９：ステップＳ６０〜６４：
これらの処理を述べる前に、図２９に示したサブルーチン１および図３０に示したサブルーチン２の処理を述べる。

図２９、サブルーチン１
ステップＳ７０：音声集音・映像撮像装置を設置したとき、通話装置の各マイクロフォン、テレビカメラ装置４０Ａ１、４０Ａ２の座標位置を、撮像調整部３６に入力しておく。これらの情報は、通話装置において発言者の音の方向（マイクロフォン位置）を特定し、たとえば、さらに声紋認識で発言者を特定したとき、各テレビカメラ装置４０Ａ１、４０Ａ２からその発言者の方向および距離を算出する情報となる。

ステップＳ７１：撮像調整部３６はＤＳＰ２５の結果である選択された２つのマイクロフォンから算出した音源方向検出データを入手する。
上述した実施の形態において、話者がどのマイクの近くにいるのかを検出し、そのマイク付近を撮影するのにふさわしいテレビカメラ装置４０Ａ１、４０Ａ２が選択される。

なお、第１実施の形態においては、対向して配置された１対のマイクロフォンを用いて、最も音の高い音を検出したマイクロフォンを選択する場合を好適実施の形態として述べたが、本実施の形態においては、図２および図３１に図解したように、たとえば、６個のマイクロフォンに対して８名の会議出席者がいる場合をも想定している。
このような場合、マイクロフォンの数と会議出席者の数とが１対１に対応していないから、隣接する２つのマイクロフォンの間に位置する会議出席者がいることになる。このような場合、第１実施の形態のように１つのマイクロフォンのみを選択するのではなく、最大の音を検出した第１マイクロフォンと次に高い音を検出した第２マイクロフォンとを選択し、これら２つのマイクロフォンから音源方向を検出する。したがって、音源方向データは、２つの隣接するマイクロフォンの向き（配置、第１の配置条件）から規定できる。

音源方向の特定と、テレビカメラ装置４０Ａ１、４０Ａ２の撮影条件との関係は、たとえば、図３１に図解したように、会議出席者Ａ１の顔の正面が撮像できるテレビカメラ装置４０Ａ２で会議出席者Ａ１の顔を撮影し、他方のテレビカメラ装置４０Ａ１で会議室の右側全体、または、議長（たとえば、会議出席者Ａ４）、または、会議出席者全員を撮影する。

ステップＳ７２：撮像調整部３６は音源方向検出データに変化があるか否かをチェックし、変化がなければステップＳ７１の処理に戻り、変化があれば、ステップＳ７３の処理に移行する。

ステップＳ７３：撮像調整部３６は、隣接する２つのマイクロフォンの向き（方向）から、交点を算出する。なお、交点の算出に使用するデータは、ステップＳ７０で設定したデータを用いる。
これにより、通話装置１０Ａの中心から、発言者の位置が推定できる。

ステップＳ７４：撮像調整部３６は、算出した交点までの各テレビカメラ装置４０Ａ１、４０Ａ２の距離、上下左右方向（または上下左右向き）を算出する。なお、この距離および方向の算出に使用するデータは、ステップＳ７０で設定したデータを用いる。
ステップＳ７５、７６：撮像調整部３６は、算出した向き（方向）に各テレビカメラ装置４０Ａ１、４０Ａ２をパンさせる。その後、撮像調整部３６の処理は、呼び出された図２８のステップに次に戻る。

図３０、サブルーチン２
ステップＳ８０、８１：図２８に図解したメインルーチンのサブルーチン２の結果（テレビカメラ装置４０Ａ１、４０Ａ２の撮像結果）を見る。その結果、出力がなければステップＳ８０の処理に戻り、出力があればステップＳ８２に移行する。

ステップＳ８２〜８４：撮像調整部３６はテレビカメラ装置４０Ａ１、４０Ａ２の撮像結果（画像）の輪郭、すなわち、会議出席者の輪郭を探し（ステップＳ８２）、その輪郭が画像の枠（フレーム）一杯になるように、テレビカメラ装置４０Ａ１、４０Ａ２に対してズーム制御を行う。上述したように、たとえば、図３１に図解したように、会議出席者Ａ１を撮影する場合は、会議出席者Ａ１の顔の正面が撮像できるテレビカメラ装置４０Ａ２で会議出席者Ａ１の顔を撮影し、ズーム処理を行う。ズーム処理後、呼び出されたメインルーチンに次のステップＳに戻る。
すなわち、テレビカメラ装置４０Ａ１、４０Ａ２の撮像結果から撮像調整部３６が話者の発言している状態を画像認識し、話者の顔の輪郭が画枠の中心になるよう、テレビカメラ装置４０Ａ１、４０Ａ２の向きをパン、チルトにて変化させ、ズームを行う。また、同時に話者の声紋を登録する。

この時、撮像調整部３６がもし２人以上の画像を認識してしまった場合には、モニタ装置としてのプロジェクタ装置６０Ａにその旨を表示する。たとえば、認識した全員の顔を表示するので、話者はその中からどれが自分であるかを選択し、必要があれば、手動でパン、チルト、ズーム操作を行い、出来る限り話者一人だけが画枠に入るようにする。

ステップＳ５５〜５９：ステップＳ６０〜６４：
図２９に示したサブルーチン１および図３０に示したサブルーチン２の処理を参照して、これらの処理を述べる。
ステップＳ５５〜５６、６０〜６１：音源方向検出データをサブルーチン１に渡してテレビカメラ装置４０Ａ１、４０Ａ２のうち該当するものをパンさせる。
ステップＳ５７〜５８、６２〜６３：画像認識処理を行うサブルーチン２の処理を行う。
ステップＳ５９、６４：声紋認証部３２による声紋データと、テレビカメラ装置４０Ａ１、４０Ａ２のパン、チルト、ズームのデータを１対として、たとえば、撮像調整部３６のデータベースに保存し、次回の処理に用いる。
すなわち、話者の声紋と、その話者を明瞭に映し出すためのカメラのパン、チルト、ズームのデータを一対一で対応させ、データとして登録する。その結果、以後、話者が変わっても、話者の声紋を登録データと照合することにより、話者を明瞭に映し出すためのカメラのパン、チルト、ズーム動作が自動的に行われる。

なお、マイクロフォンの選択が適正に行われない場合、あるいは、マイクロフォンの選択が行われたが声紋認証が合格されない、デフォルト状態のときは、撮像調整部３６は、デフォルト処理を行う。そのようなデフォルト処理としては、撮像調整部３６は、図２に図解した初期状態、すなわち、各テレビカメラ装置４０Ａ１、４０Ａ２が会議室の左右を分担して撮像する撮像条件をテレビカメラ装置４０Ａ１、４０Ａ２に与える。その結果、テレビカメラ装置４０Ａ１、４０Ａ２は初期状態の映像を撮像する。

なお、デフォルトのとき、増幅器利得調整部３４は利得可変型増幅器３０１〜３０６の利得調整を行わない。

以下、発言者の撮影例を述べる。
第１マイクロフォンの方向および領域ＭＩＣ１ＡＲＥＡにいる会議参加者Ａ１が第１マイクロフォンＭＣ１を用いて発言したとする。第１マイクロフォンＭＣ１の集音信号は、Ａ／Ｄ変換器２７１でディジタル信号に変換されてＤＳＰ２５に入力され、第１実施の形態において述べた方法により選択される。このとき、ＤＳＰ２５はマイクロプロセッサ２３に第１マイクロフォンＭＣ１を選択したことを示すマイクロフォン選択信号Ｓ２５１を出力する。マイクロフォン選択信号Ｓ２５１はマイクロプロセッサ２３から撮像方向調整部３６に出力される。
また、ＤＳＰ２５で選択された第１マイクロフォンの集音信号はＤＳＰ２６に出力され、ＤＳＰ２６でエコーキャンセルされ、選択音声信号Ｓ２６としてＤ／Ａ変換器２８２、増幅器２９１を経由して声紋認証部３２に入力される。
声紋認証部３２は、選択音声信号Ｓ２６が声紋認証部３２内の声紋登録メモリＭ２に事前に登録されている声紋に一致するか否かを認証する。会議参加者Ａ１の声紋が声紋認証部３２の声紋登録メモリＭ２に事前に登録されていれば、声紋認証部３２から合格を示す「１」の認証合格信号Ｓ３２が増幅器利得調整部３４と撮像調整部３６に出力される。
他方、会議参加者Ａ１の声紋が声紋認証部３２の声紋登録メモリＭ２に事前に登録されていなければ、声紋認証部３２から不合格を示す「０」の認証合格信号Ｓ３２が撮像調整部３６に出力される。

撮像調整部３６は、「１」の認証合格信号Ｓ３２が入力されたとき、マイクロフォン選択信号Ｓ２５１で示された第１マイクロフォンＭＣ１についての第１撮像条件情報に基づいて、テレビカメラ装置４０Ａ１、４０Ａ２を制御する。その結果、第１マイクロフォンの方向および領域ＭＩＣ１ＡＲＥＡが撮像されて、会議参加者Ａ１が撮像される。
撮像調整部３６は会議参加者Ａ１が発言をしている間、第１撮像条件情報に基づいてテレビカメラ４０で第１マイクロフォンの方向および領域ＭＩＣ１ＡＲＥＡを撮像を継続させる。

次に、声紋認証部３２には声紋が登録されていない、第３のマイクロフォンＭＣ３を用いた会議参加者Ａ３が発言し、ＤＳＰ２５においてその発言が選択されたとする。
ＤＳＰ２５からは、第３のマイクロフォンＭＣ３を示すマイクロフォン選択信号Ｓ２５１がマイクロプロセッサ２３を経由して撮像調整部３６に出力される。もちろん、第３のマイクロフォンＭＣ３の集音信号はＤＳＰ２６に入力されてエコーキャンセル処理され、ＤＳＰ２６として声紋認証部３２に出力される。
会議参加者Ａ３の声紋は声紋認証部３２に登録されていないから、声紋認証部３２からは、不合格を示す「０」の認証合格信号Ｓ３２が撮像調整部３６に出力される。
撮像調整部３６は、「０」の認証合格信号Ｓ３２に入力されたとき、デフォルトと判断する。デフォルトの場合の処理としては、撮像調整部３６は、たとえば、テレビカメラ装置４０Ａ１、４０Ａ２の撮像条件を継続するか、初期状態として会議室の左右かつ会議者全体が撮像されるようにする。

複数の会議参加者が同時に発言した時は、ＤＳＰ２５において音のレベルの高い方が選択され、その後は、上記の声紋認証の結果により撮像調整部３６を介してテレビカメラ装置４０Ａ１、４０Ａ２の撮像条件が制御される。

以上の処理は遠隔会議の先方の音声集音・映像撮像装置でも全く同様に行われる。
また声紋登録、認証が遠隔の先方で使えない場合、先方の会議参加者の声紋登録や会議中の声紋認証を通話装置が設置されているこちら側で行い、先方の音声集音・映像撮像装置のテレビカメラ装置の撮像条件を制御することもできる。

第３実施の形態の音声集音・映像撮像装置を用いることにより、明瞭な音声および映像による遠隔会議の相手側に伝わるのは勿論であるが、会議参加者が発言するとその声紋が認証され、テレビカメラ装置がその声紋認証された発言者の方を向いて映すことができる。

第３実施の形態によれば、会議参加者ごとに個別のマイクロフォンを設けることも不要であるし、システム管理者、たとえば、議長によるテレビカメラ装置４０Ａ１、４０Ａ２の撮像条件の制御も不要である。

さらに会議中に会議参加者が場所を移動しても、ＤＳＰ２５におけるマイクロフォン選択処理により有効なマイクロフォンが選択されかつ声紋認証部３２における声紋の認証により、テレビカメラ装置４０Ａ１、４０Ａ２をその会議参加者のいる方向および領域に向かわせることができる。

また会議中はシステム管理者（たとえば、議長）がなにもしなくても、テレビジョン受像機またはテレビジョン受像機に発言者の名前とかが自動的に表示される。

以上、第３実施の形態の好適な例示として、図２６および図２７を参照して、ＤＳＰ２５におけるマイクロフォン選択を行い、さらに、声紋認証部３２における声紋認証をした結果、撮像調整部３６がテレビカメラ装置４０Ａ１、４０Ａ２を撮像条件に従って制御する場合について述べたが、基本的には、ＤＳＰ２５によるマイクロフォン選択結果のみについて、撮像調整部３６によるテレビカメラ装置４０Ａ１、４０Ａ２の撮像制御を行うこともできる。

第３実施の形態に実施に際しては、第１実施の形態におい述べたように、マイクロフォンが等角度で放射状に配置されている場合には限定されない。マイクロフォンが等角度で放射状に配置されていない場合でも、ＤＳＰ２５は、たとえば、最大振幅を示すマイクロフォンを選択することができ、声紋認証部３２は事前に登録された声紋と一致しているか否かを認証することができる。
この場合でも、撮像調整部３６は事前に設定された撮像条件情報に基づいて、テレビカメラ装置４０Ａ１、４０Ａ２の撮像条件を制御する。

本発明の第３実施の形態によれば、会議中に話者が変わっても、話者を映し出すカメラの選択、及び選択されたカメラのパン、チルト、ズームが自動的に変わるため、従来のように手動でセッティングを変更する必要がなく、常に話者の明瞭な映像を映し出し続けることができる。
また、話者方向検出技術と画像認識技術を用いることで、話者を映し出すカメラのパン、チルト、ズーム動作が自動的に行われ、話者の明瞭な映像を映し出すことができる。特に、話者の声紋照合を行うことで、話者が変わる度に自動的にカメラのパン、チルト、ズーム動作が行われ、新しい話者を明瞭に撮影することが可能である。
また本発明の第３実施の形態によれば、マイクロフォンとテレビカメラ装置４０Ａ１、４０Ａ２の相対位置が厳密でなくても、上述した画像認識処理などにより実用的な画像及び音声が収録できる。

本発明の実施に際しては、上述した複数の実施の形態を適宜組み合わせることができる。

図１（Ａ）は本発明の音声集音・映像撮像装置が適用される１例しての会議システムの概要を示す図であり、図１（Ｂ）は図１（Ａ）における音声集音・映像撮像装置の通話装置が載置される状態を示す図であり、図１（Ｃ）はテーブルに載置された通話装置と会議参加者との配置を示す図である。図２は本発明の実施の形態の音声集音・映像撮像装置の平面構成図である。図３は本発明の実施の形態の通話装置の斜視図である。図４は図３に図解した通話装置の内部断面図である。図５は図３に図解した通話装置の上部カバーを取り外したマイクロフォン・電子回路収容部の平面図である。図６は第１実施の形態のマイクロフォン・電子回路収容部の主要回路の構成および接続状態を示す図であり、第１のディジタルシグナルプロセッサ（ＤＳＰ１）および第２のディジタルシグナルプロセッサ（ＤＳＰ２）の接続の接続状態を示している。図７は図５に図解したマイクロフォンの特性図である。図８（Ａ）〜（Ｄ）は、図６に図解した特性を持つマイクロフォンの指向性を分析した結果を示すグラフである。図９は本発明の通話装置の変形態様の部分構成図である。図１０は第１のディジタルシグナルプロセッサ（ＤＳＰ１）における全体処理内容の概要を示すグラフである。図１１は本発明の通話装置内のフィルタリング処理を示す図である。図１２は図１１の処理結果を示す周波数特性図である。図１３は本発明のバンドパス・フィルタリング処理とレベル変換処理を示すブロック図である。図１４は図１３の処理を示すフローチャートである。図１５は本発明の通話装置における発言開始、終了を判定する処理を示すグラフである。図１６は本発明の通話装置における通常処理の流れを示すグラフである。図１７は本発明の通話装置における通常処理の流れを示すフローチャートである。図１８は本発明の通話装置におけるマイクロフォン切り替え処理を図解したブロック図である。図１９は本発明の通話装置におけるマイクロフォン切り替え処理の方法を図解したブロック図である。図２０は第２実施の形態のマイクロフォン・電子回路収容部の主要回路の構成および接続状態を示す図である。図２１は図２０に図解した声紋認証部の処理を示すグラフである。図２２は図２０に図解した声紋認証部の処理を示す第１のフローチャートである。図２３は図２０に図解した声紋認証部の処理を示す第２のフローチャートである。図２４は図２０に図解した声紋認証部の処理を示す第３のフローチャートである。図２５は図２０に図解した声紋認証部の処理を示す第４のフローチャートである。図２６は第３実施の形態の会議装置の構成図である。図２７は第３実施の形態の会議装置の他の構成図である。図２８は第３実施の形態の動作を示すフローチャートである。図２９は第３実施の形態の緒と検出から撮影までの処理の流れ（その１）を示すフローチャートである。図３０は第３実施の形態の緒と検出から撮影までの処理の流れ（その２）を示すフローチャートである。図３１は第３実施の形態のテレビカメラ装置の撮像状態を示す図である。

符号の説明

１Ａ、１Ｂ・・音声集音・映像撮像装置
１０Ａ、１０Ｂ・・通話装置（音声集音手段）
１１・・上部カバー、１２・・音反射板、１３・・連結部材
１４・・スピーカ収容部、１５・・操作部、１６・・受話再生スピーカ
１７・・拘束部材、１８・・ダンパ
２・・マイクロフォン・電子回路収容部
ＭＣ１〜ＭＣ・・マイクロフォン
２１・・プリント基板、２２・・マイクロフォン支持部材
２３・・マイクロプロセッサ、２４・・コーデック
２５・・第１のＤＳＰ、２６・・第２のＤＳＰ
２７・・Ａ／Ｄ変換器ブロック、２７１〜２７４・・Ａ／Ｄ変換器
２８・・Ｄ／Ａ変換器ブロック、２９・・増幅器ブロック
３０・・マイクロフォン選択結果表示手段
３０１〜３０６・・可変利得型増幅器
３２・・声紋認証部
３４・・増幅器利得調整部
３６・・撮像調整部
４０（４０Ａ、４０Ｂ）・・テレビカメラ装置（撮像手段）

Claims

第１所定配置条件に基づいて配置された、指向性を持つ、複数のマイクロフォンと、
前記複数のマイクロフォンを使用する話者を撮像するため、第２所定配置条件に基づいて配置され、パン、チルト、ズーム可能な撮像手段と、
前記複数のマイクロフォンの集音信号を検出し、該検出した集音信号と前記第１および第２所定配置条件に基づいて前記マイクロフォンを使用した話者の方向および話者と前記撮像手段との距離を算出し、該算出したデータに基づいて前記撮像手段の撮影条件を制御する撮像調整手段と
を具備する音声集音・映像撮像装置。
前記複数のマイクロフォンを使用する複数の話者の声紋を認証する声紋認証手段をさらに具備し、
前記撮像調整手段は、前記声紋認証手段で声紋認証されたとき、前記マイクロフォン信号選択手段で選択したマイクロフォンに対応する撮像条件情報に基づいて撮像手段の撮像条件を制御する、
請求項１記載の音声集音・映像撮像装置。
前記撮像調整手段は、前記撮像手段で撮像した画像の輪郭を検出し、検出した輪郭が画枠内に一杯になるように、前記撮像手段をズームさせる、
請求項１または２記載の音声集音・映像撮像装置。
前記撮像調整手段は、前記声紋認証手段で声紋認証されないとき、前記撮像手段をデフォルト状態にする、
請求項１または２記載の音声集音・映像撮像装置。
前記撮像調整手段は、前記デフォルト状態として、前記撮像手段の条件を変化させない、
請求項４記載の音声集音・映像撮像装置。
前記撮像調整手段は、前記デフォルト状態として、前記撮像手段を初期撮像条件にする、
請求項４記載の音声集音・映像撮像装置。
前記マイクロフォンの集音信号を増幅する、利得調整可能な利得可変型増幅手段と、
増幅器利得調整手段と
をさらに具備し、
前記増幅器利得調整手段は、前記声紋認証手段が声紋認証したときマイクロフォン選択信号で示されるマイクロフォンに対応する前記利得可変型増幅手段の利得を大きな第１の利得に設定する、
請求項２〜６いずれか記載の音声集音・映像撮像装置。
前記増幅器利得調整手段は、前記声紋認証手段が声紋認証されないとき、マイクロフォン選択信号で示されるマイクロフォンに対応する前記利得可変型増幅手段の利得を低い第２の利得に設定する、
請求項７記載の音声集音・映像撮像装置。
前記複数のマイクロフォンは等角度で放射状に配置されており、
前記複数のマイクロフォンの近傍に、前記複数のマイクロフォンに対して等距離に配置された音声出力手段をさらに有する、
請求項１〜８いずれか記載の音声集音・映像撮像装置。
複数のマイクロフォンの集音信号のうち１つを選択するマイクロフォン信号選択工程と、
前記選択されたマイクロフォンに対応する撮像条件情報に基づいて撮像手段の撮像条件を決定し撮像条件を調整する工程と
を具備する撮像条件決定方法。
前記選択されたマイクロフォン集音信号について事前に登録された声紋と一致するか否かを声紋認証を行う声紋認証工程をさらに具備し、
前記撮像調整工程において、前記声紋認証工程において声紋認証されたとき、前記マイクロフォン信号選択工程で選択したマイクロフォンに対応する撮像条件情報に基づいて前記撮像手段の撮像条件を制御する、
請求項１０記載の撮像条件決定方法。