JP2005151471A - 音声集音・映像撮像装置および撮像条件決定方法 - Google Patents

音声集音・映像撮像装置および撮像条件決定方法 Download PDF

Info

Publication number
JP2005151471A
JP2005151471A JP2003389892A JP2003389892A JP2005151471A JP 2005151471 A JP2005151471 A JP 2005151471A JP 2003389892 A JP2003389892 A JP 2003389892A JP 2003389892 A JP2003389892 A JP 2003389892A JP 2005151471 A JP2005151471 A JP 2005151471A
Authority
JP
Japan
Prior art keywords
microphone
imaging
speaker
sound
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003389892A
Other languages
English (en)
Other versions
JP4479227B2 (ja
Inventor
Ryuichi Tanaka
竜一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003389892A priority Critical patent/JP4479227B2/ja
Publication of JP2005151471A publication Critical patent/JP2005151471A/ja
Application granted granted Critical
Publication of JP4479227B2 publication Critical patent/JP4479227B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】 TV会議システムにおいて、発言者を自動的かつ正確に特定し、特定したて発言者を撮像可能にする音声集音・映像撮像装置を提供する。
【解決手段】 第1のディジタルシグナルプロセッサ(DSP)25は、発言者の選択を正確に行う。声紋認証部32は声紋登録された会議参加者か否かを認証する。発言者の選択が一致したとき、撮像調整部36はテレビカメラ装置40A1、40A2を話者を最適に撮影する条件で撮像させる。好ましくは、声紋が一致したとき上記撮影を行う。
【選択図】 図26

Description

本発明は、たとえば、2つの会議室にいる複数の会議参加者同士が、テレビジョン会議を行うときに使用するのに好適な音声集音・映像撮像装置と撮像条件決定方法に関する。
特に、本発明は、発言者が使用しているマイクロフォンを正確に選択し、好ましくは、さらに声紋認証を行い、その結果に基づいて選択され、声紋認証されたマイクロフォン設置領域を撮像可能にした、音声集音・映像撮像装置と撮像条件決定方法に関する。
離れた位置にある2つの会議室にいる会議参加者同士が会議を行うため、テレビ会議システムが用いられている。テレビ会議システムは、それぞの会議室にいる会議参加者の姿を撮像手段で撮像し、音声をマイクロフォンで集音して、撮像手段で撮像した画像およびマイクロフォンで集音した音声を通信経路を介して伝送し、相手側の会議室のテレビジョン受像機の表示部に撮像した画像を表示し、スピーカから集音した音声を出力する。
このようなテレビ会議システムにおいては、それぞれの会議室において、撮像手段およびマイクロフォンから離れた位置にいる発言者の音声が集音しにくいという問題に遭遇しており、その改善策として、会議参加者ごとにマイクロフォンを設けている場合がある。 またテレビジョン受像機のスピーカから出力される音声が、スピーカから離れた位置にいる会議参加者には聞きにくいという問題もある。
特開2003−87887号公報および特開2003−87890号公報は、互いに離れた位置の会議室相互においてテレビ会議を行うときに、映像および音声を提供する通常のテレビ会議システムに加えて、相手側の会議室にいる会議出席者の音声がスピーカから明瞭に聴こえ、こちら側の会議室内の雑音の影響を受けにくいまたはエコーキャンセラーの負担が少ない、マイクロフォンとスピーカとが一体構成された音声入出力装置を開示している。
たとえば、特開2003−87887号公報に開示されている音声入出力装置は、特開2003−87887号公報の図5〜図8、図9、図23を参照して記述されているように、下から上に向かって、スピーカ6が内蔵されたスピーカボックス5と、上に向かって放射状に開いている音を拡散する円錐状反射板4と、音遮蔽板3と、支柱8に支持された単一指向性の複数のマイクロフォン(図6、図7においては4本、図23においては6本)を水平面に放射状に等角度で配置した構造をしている。音遮蔽板3は、下部のスピーカ5からの音が複数のマイクロフォンに入らないように遮蔽するためのものである。
特開2003−87887号公報 特開2003−87890号公報
特開2003−87887号公報および特開2003−87890号公報に開示された音声入出力装置は、映像および音声を提供するテレビ会議システムを補完する手段として活用されている。
本発明の目的は、双方向通話に使用する手段としての性能面、価格面、寸法的な面、使用環境への適合性、使い勝手などの面から、さらに改善した音声集音・映像撮像装置と撮像条件決定方法を提供することにある。
特に本発明は、発言者のマイクロフォンを正確に選択し、さらに、正確に声紋認証を行い、その結果に基づいて、選択されたマイクロフォンの設置領域を撮像可能にした、音声集音・映像撮像装置と撮像条件決定方法を提供することにある。
本発明の第1の観点によれば、第1所定配置条件に基づいて配置された、指向性を持つ、複数のマイクロフォンと、前記複数のマイクロフォンを使用する話者を撮像するため、第2所定配置条件に基づいて配置され、パン、チルト、ズーム可能な撮像手段と、前記複数のマイクロフォンの集音信号を検出し、該検出した集音信号と前記第1および第2所定配置条件に基づいて前記マイクロフォンを使用した話者の方向および話者と前記撮像手段との距離を算出し、該算出したデータに基づいて前記撮像手段の撮影条件を制御する撮像調整手段とを具備する音声集音・映像撮像装置が提供される。
好ましくは、前記複数のマイクロフォンを使用する複数の話者の声紋を認証する声紋認証手段をさらに具備し、前記撮像調整手段は、前記声紋認証手段で声紋認証されたとき、前記マイクロフォン信号選択手段で選択したマイクロフォンに対応する撮像条件情報に基づいて撮像手段の撮像条件を制御する。
さらに好ましくは、前記撮像調整手段は、前記撮像手段で撮像した画像の輪郭を検出し、検出した輪郭が画枠内に一杯になるように、前記撮像手段をズームさせる。
好ましくは、前記撮像調整手段は、前記声紋認証手段で声紋認証されないとき、前記撮像手段をデフォルト状態にする。
たとえば、前記撮像調整手段は、前記デフォルト状態として、前記撮像手段の条件を変化させない、あるいは、前記撮像調整手段は、前記デフォルト状態として、前記撮像手段を初期撮像条件にする。
好ましくは、前記複数のマイクロフォンは等角度で放射状に配置されており、前記複数のマイクロフォンの近傍に、前記複数のマイクロフォンに対して等距離に配置された音声出力手段をさらに有する。
本発明の第2の観点によれば、複数のマイクロフォンの集音信号のうち1つを選択するマイクロフォン信号選択工程と、前記選択されたマイクロフォンに対応する撮像条件情報に基づいて撮像手段の撮像条件を決定し撮像条件を調整する工程とを具備する撮像条件決定方法が提供される。
好ましくは、前記選択されたマイクロフォン集音信号について事前に登録された声紋と一致するか否かを声紋認証を行う声紋認証工程をさらに具備し、前記撮像調整工程において、前記声紋認証工程において声紋認証されたとき、前記マイクロフォン信号選択工程で選択したマイクロフォンに対応する撮像条件情報に基づいて前記撮像手段の撮像条件を制御する。
本発明によれば、発言者が使用しているマイクロフォンを選択し、その結果に基づいて、事前に設定された撮像条件情報に基づいて撮像手段の撮像条件を調整し、発言者を撮像できる。
好ましくは、声紋認証を行い、さらに声紋認証された場合に、その結果に基づいて、撮像条件情報に基づいて撮像手段の撮像条件を調整し、発言者を撮像できる。
本発明の実施の形態の音声集音・映像撮像装置について述べる。
図1(A)〜(C)は本発明の実施の形態の音声集音・映像撮像装置が適用される1例を示す構成図である。
図1(A)に図解したように、2つの会議室901、902にそれぞれに第1および第2の音声集音・映像撮像装置1A、1Bが設置されており、これらの音声集音・映像撮像装置1A、1Bが通信回線920、たとえば、電話回線で接続されている。
〔音声集音・映像撮像装置の概要〕
図2は本発明の実施の形態の音声集音・映像撮像装置1Aの平面配置図である。第1および第2の音声集音・映像撮像装置1A、1Bは同じ構成をしている。
第1の音声集音・映像撮像装置1Aを代表して述べると、第1の音声集音・映像撮像装置1Aは、本発明の音声集音手段に相当する第1の通話装置10Aと、本発明の撮像手段に相当する2台の第1のテレビジョンカメラ(テレビカメラ)装置40A1、40A2とを有する。通話装置は会議者の発言を検出し、発言者を決定して決定して発言者の音声をその会議室内の他の会議出席者および相手方の会議室の会議出席者に通報する。さらに通話装置は、発言者の特定に基づいてテレビカメラ装置40A1、40A2の撮像条件を提供する。
テレビカメラ装置40A1、40A2は提供された撮像条件に基づき自動的に最適な画像を撮像する。
第1の音声集音・映像撮像装置1Aに、テレビジョン受像機50A、および/または、第1のプロジェクタ装置60Aを含めることもできる。
プロジェクタ装置60Aは、たとえば、変調手段として液晶を用いたプロジェクタ装置であり、会議に用いる各種資料をパーソナルコンピュータからの提供された場合、スクリーンSに映像として投射して会議者A1〜A8に視認可能とする。
テレビジョン受像機50Aは、テレビカメラ装置40A1、40A2で撮像した映像、または、相手方会議室のテレビカメラ装置40B1、40B2で撮像した映像をスクリーンSに投射して会議者A1〜A8に表示する。なお、テレビジョン受像機50Aを削除して、テレビカメラ装置40A1、40A2で撮像した映像、または、相手方会議室のテレビカメラ装置40B1、40B2で撮像した映像を、パーソナルコンピュータからの提供された映像と切り換えて、プロジェクタ装置60Aを介してスクリーンSに投射して会議者A1〜A8に表示することもできる。以下、テレビジョン受像機50Aを用いず、プロジェクタ装置60Aでテレビカメラ装置40A1、40A2で撮像した画像を表示する場合について述べる。
好ましくは、通話装置10Aと、プロジェクタ装置60Aとはテーブル911の上に載置されている。図1(B)はテレビジョン911に載置された通話装置10Aを示す。
図1(C)、図2に図解したように、通話装置10Aの周囲に複数(図1(C)では6名、図2においては8名)の会議参加者A1〜A6(A1〜A8)が位置している。
図解を省略した第2の音声集音・映像撮像装置1Bも、第2の通話装置10Bと、第2の2台のテレビジョンカメラ(テレビカメラ)装置40B1、40B2とを有する。
音声集音・映像撮像装置1Bに、第2のプロジェクタ装置60Bおよびテレビジョン受像機50Bを含めることもできる。
好ましくは、通話装置10Bとプロジェクタ装置60Bとは会議室902のテーブル912に載置されている。
〔通話装置〕
第1通話装置10Aと第2の通話装置10Bとの間で、通信回線920を介して音声による応答を行う。
通常、通信回線920を介しての会話は、一人の話者と一人の話者同士、すなわち、1対1で通話を行うが、本発明の実施の形態の通話装置は1つの通信回線920を用いて、会議室901、902内の複数の会議参加者同士が通話できる。ただし、本実施の形態においては、音声の混雑を回避し、テレビカメラ装置での話者の撮像を可能にするため、同時刻(同じ時間帯)の話者は、相互に一人に限定する。
通話装置の詳細は後述する。
〔テレビカメラ装置とテレビジョン受像機〕
たとえば、第1の音声集音・映像撮像装置1Aにおけるテレビカメラ装置40A1、40A2は、第1通話装置10Aで特定した通話者を撮像する。そのため、テレビカメラ装置40A1、40A2は、パン、チルト、ズーム機能などを有する。
テレビカメラ装置40A1、40A2で撮像した映像は、通信回線920を介して相手側の会議室のプロジェクタ装置60A(またはテレビジョン受像機50B)に表示される。
必要に応じて、自分の側の会議室のプロジェクタ装置60A(またはテレビジョン受像機50A)にテレビカメラ装置40A1、40A2が撮像した映像を表示することもできる。
〔撮像対象の特定方法〕
テレビカメラ装置40A1、40A2で撮像する撮像対象の特定方法は、第1通話装置10Aにおける話者の方向の特定、および、事前に登録してある話者の声紋認識結果を用いる。その詳細は撮像調整部36において行うが、後述する。
第2の音声集音・映像撮像装置1Bも第1の音声集音・映像撮像装置1Aと同じ処理を行う。
このように、音声集音・映像撮像装置1A、1Bは、通話装置10A、10Bにおいて、通話者を選択(特定)し、選択した通話者の音声を集音する。さらに、テレビカメラ装置40A1、40A2は、撮像調整部36の指令に基づいて、選択(特定)された通話者の映像を撮像する。
集音した音声と撮像した映像は相手側に会議室に転送され、相手側の音声集音・映像撮像装置における通話装置で音声を再生し、プロジェクタ装置(またはテレビジョン受像機)で映像を表示する。
通話装置の詳細
図3〜図5を参照して本発明の実施の形態の音声集音・映像撮像装置における通話装置の構成について述べる。通話装置10Aも第2の通話装置10Bも同様である。
図3は本発明の1実施の形態としての通話装置の斜視図である。
図4は図3に図解した通話装置の断面図である。
図5は図3、図4に図解した通話装置のマイクロフォン・電子回路収容部の平面図であり、図4の線X−Xにおける平面図である。
図3に図解したように、通話装置は、上部カバー11と、音反射板12と、連結部材13と、スピーカ収容部14と、操作部15とを有する。
図4に図解したように、スピーカ収容部14は、音反射面14aと、底面14bと、上部音出力開口部14cとを有する。音反射面14aと底面14bで包囲された空間である内腔14dに受話再生スピーカ16が収容されている。スピーカ収容部14の上部に音反射板12が位置し、スピーカ収容部14と音反射板12とが連結部材13によって連結されている。
連結部材13内には拘束部材17が貫通しており、拘束部材17は、スピーカ収容部14の底面14bの拘束部材下部固定部14eと、音反射板12の拘束部材固定部12bとの間を拘束している。ただし、拘束部材17はスピーカ収容部14の拘束部材貫通部14fは貫通しているだけである。拘束部材17が拘束部材貫通部14fを貫通してここで拘束していないのはスピーカ16の動作によってスピーカ収容部14が振動するが、その振動を上部音出力開口部14cの周囲においては拘束させないためである。
相手会議室の話者が話した音声は、受話再生スピーカ16を介して上部音出力開口部14cから抜け、音反射板12の音反射面12aとスピーカ収容部14の音反射面14aとで規定される空間に沿って軸C−Cを中心として360度の全方位に拡散する。
音反射板12の音反射面12aの断面は図解したように、ゆるやかなラッパ型の弧を描いている。音反射面12aの断面は軸C−Cを中心として360度にわたり(全方位にわたり)、図解した断面形状をしている。
同様にスピーカ収容部14の音反射面14aの断面も図解したように、ゆるやかな凸面を描いている。音反射面14aの断面も軸C−Cを中心として360度にわたり(全方位)、図解した断面形状をしている。
受話再生スピーカ16から出た音Sは、上部音出力開口部14cを抜け、音反射面12aと音反射面14aとで規定される断面がラッパ状の音出力空間を経て、通話装置が載置されているテーブル911の面に沿って、軸C−Cを中心として360度全方位に拡散していき、全ての会議参加者A1〜A6に等しい音量で聞き取られる。本実施の形態においては、テーブル911の面も音伝播手段の一部として利用している。
受話再生スピーカ16から出力された音Sの拡散状態を矢印で図示した。
音反射板12は、プリント基板21を支持している。
プリント基板21には、図5に平面を図解したように、マイクロフォン・電子回路収容部2のマイクロフォンMC1〜MC6、発光ダイオードLED1〜6、マイクロプロセッサ23、コーデック(CODEC)24、第1のディジタルシグナルプロセッサ(DSP1)DSP25、第2のディジタルシグナルプロセッサ(DSP2)DSP26、A/D変換器ブロック27、D/A変換器ブロック28、増幅器ブロック29などの各種電子回路が搭載されており、音反射板12はマイクロフォン・電子回路収容部2を支持する部材としても機能している。
プリント基板21には、受話再生スピーカ16からの振動が音反射板12を伝達してマイクロフォンMC1〜MC6などに進入して騒音とならないように、受話再生スピーカ16からの振動を吸収するダンパー18が取り付けられている。ダンパー18は、ネジと、このネジとプリント基板21との間に挿入された防振ゴムなどの緩衝材とからなり、緩衝材をネジでプリント基板21にネジ止めしている。すなわち、緩衝材によって受話再生スピーカ16からプリント基板21に伝達される振動が吸収される。これにより、マイクロフォンMC1〜MC6は、スピーカ16からの音の影響を受けない。
マイクロフォンの配置
図5に図解したように、プリント基板21の中心軸Cから等角度で放射状にかつ等間隔(本実施の形態では60度の等角度で)で6本のマイクロフォンMC1〜MC6が位置している。各マイクロフォンは単一指向性を持つマイクロフォンである。その特性については後述する。
各マイクロフォンMC1〜MC6は、共に柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとで、揺動自在に支持されており(図解を簡単にするため、マイクロフォンMC1の部分の第1のマイク支持部材22aと第2のマイク支持部材22bとについてのみ図解している)、上述した緩衝材を用いたダンパー18による受話再生スピーカ16からの振動の影響を受けない対策に加えて、柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとで受話再生スピーカ16からの振動で振動するプリント基板21の振動を吸収して受話再生スピーカ16の振動の影響を受けないようにして、受話再生スピーカ16の騒音を回避している。
図4に図解したように、受話再生スピーカ16はマイクロフォンMC1〜MC6が位置する平面の中心軸C−Cに対して垂直に指向しており(本実施の形態においては上方向に向いている(指向している))、このような受話再生スピーカ16と6本のマイクロフォンMC1〜MC6の配置により、受話再生スピーカ16と各マイクロフォンMC1〜MC6との距離は等距離となり、受話再生スピーカ16からの音声は、各マイクロフォンMC1〜MC6に対しほとんど同音量、同位相で届く。ただし、上述した音反射板12の音反射面12aおよびスピーカ収容部14の音反射面14aの構成により、受話再生スピーカ16の音がマイクロフォンMC1〜MC6には直接入力されないようにしている。加えて、上述したように、緩衝材を用いたダンパー18と、柔軟性または弾力性のある第1のマイク支持部材22aと第2のマイク支持部材22bとを用いることにより、受話再生スピーカ16の振動の影響を低減している。
会議参加者A1〜A6は、通常、たとえば、図1(C)に例示したように、通話装置の周囲360度方向に、60度間隔で配設されているマイクロフォンMC1〜MC6の近傍にほぼ等間隔で位置している。なお、図2に図解した例示では、通話装置の周囲に8名の会議参加者が位置している。
話者を決定したことを通報する手段(マイクロフォン選択結果表示手段)として発光ダイオードLED1〜6がマイクロフォンMC1〜MC6の近傍に配置されている。
発光ダイオードLED1〜6は上部カバー11を装着した状態でも、全ての会議参加者A1〜A6から視認可能に設けられている。したがって、上部カバー11は発光ダイオードLED1〜6の発光状態が視認可能なように透明窓が設けられている。もちろん、上部カバー11に発光ダイオードLED1〜6の部分に開口が設けられていてもよいが、マイクロフォン・電子回路収容部2への防塵の観点からは透光窓が好ましい。
プリント基板21には、後述する各種の信号処理を行うために、第1のディジタルシグナルプロセッサ(DSP1)25、第2のディジタルシグナルプロセッサ(DSP2)26、各種電子回路27〜29が、マイクロフォンMC1〜MC6が位置する部分以外の空間に配置されている。
本実施の形態においては、DSP25を各種電子回路27〜29とともにフィルタ処理、マイクロフォン選択処理などの処理を行う信号処理手段として用い、DSP26をエコーキャンセラーとして用いている。
図6は、マイクロプロセッサ23、コーデック24、DSP25、DSP26、A/D変換器ブロック27、D/A変換器ブロック28、増幅器ブロック29、その他各種電子回路の概略構成図である。
マイクロプロセッサ23はマイクロフォン・電子回路収容部2の全体制御処理を行う。 コーデック24は相手方会議室に送信する音声を圧縮符号化する。
DSP25が下記に述べる各種の信号処理、たとえば、フィルタ処理、マイクロフォン選択処理などを行う。
DSP26はエコーキャンセラーとして機能する。
図6においては、A/D変換器ブロック27の1例として、4個のA/D変換器271〜274を例示し、D/A変換器ブロック28の1例として、2個のD/A変換器281〜282を例示し、増幅器ブロック29の1例として、2個の増幅器291〜292を例示している。
その他、マイクロフォン・電子回路収容部2としては電源回路など各種の回路がプリント基板21に搭載されている。
図5においてプリント基板21の中心軸Cに対してそれぞれ対称(または対向する)位置に一直線上に配設された1対のマイクロフォンMC1−MC4:MC2−MC5:MC3−M6が、それぞれ2チャネルのアナログ信号をディジタル信号に変換するA/D変換器271〜273に入力されている。本実施の形態においては、1個のA/D変換器が2チャネルのアナログ入力信号をディジタル信号に変換する。そこで、中心軸Cを挟んで一直線上に位置する2個(1対)のマイクロフォン、たとえば、マイクロフォンMC1とMC4の検出信号を1個のA/D変換器に入力してディジタル信号に変換している。また、本実施の形態においては、相手の会議室に送出する音声の話者を特定するため、一直線上に位置する2個のマイクロフォンの音声の差、音声の大きさなどを参照するから、一直線上に位置する2個のマイクロフォンの信号を同じA/D変換器に入力すると、変換タイミングもほぼ同じになり、2個のマイクロフォンの音声出力の差をとるときにタイミング誤差が少ない、信号処理が容易になるなどの利点がある。
なお、A/D変換器271〜274は可変利得型増幅機能付きのA/D変換器271〜274として構成することもできる。
A/D変換器271〜274で変換したマイクロフォンMC1〜MC6の集音信号はDSP25に入力されて、後述する各種の信号処理が行われる。
DSP25の処理結果の1つとして、マイクロフォンMC1〜MC6のうちの1つを選択した結果が、マイクロフォン選択結果表示手段の1例である発光ダイオードLED1〜6に出力される。
DSP25の処理結果が、DSP26に出力されてエコーキャンセル処理が行われる。DSP26は、たとえば、エコーキャンセル送話処理部とエコーキャンセル受話部とを有する。
DSP26の処理結果が、D/A変換器281〜282でアナログ信号に変換される。D/A変換器281からの出力が、必要に応じて、コーデック24で符号化されて、増幅器291を介して通信回線920(図1(A))のラインアウトに出力され、相手方会議室に設置された通話装置の受話再生スピーカ16を介して音として出力される。
相手方の会議室に設置された通話装置からの音声が通信回線920(図1(A))のラインインを介して入力され、A/D変換器274においてディジタル信号に変換されて、DSP26に入力されてエコーキャンセル処理に使用される。また、相手方の会議室に設置された通話装置からの音声は図示しない経路でスピーカ16に印加されて音として出力される。
D/A変換器282からの出力が増幅器292を介してこの通話装置の受話再生スピーカ16から音として出力される。すなわち、会議参加者A1〜A6は、上述した受話再生スピーカ16から相手会議室の選択された話者の音声に加えて、その会議室にいる発言者が発した音声をも受話再生スピーカ16を介して聞くことが出来る。
マイクロフォンMC1〜MC6
図7は各マイクロフォンMC1〜MC6の指向性を示すグラフである。
各単一指向特性マイクフォンは発言者からマイクロフォンへの音声の到達角度により図7に図解のように周波数特性、レベル特性が変化する。複数の曲線は、集音信号の周波数が、100Hz、150Hz、200Hz、300Hz、400Hz、500Hz、700Hz、1000Hz、1500Hz、2000Hz、3000Hz、4000Hz、5000Hz、7000Hzの時の指向性を示している。ただし、図解を簡単にするため、図7は代表的に、150Hz、500Hz、1500Hz、3000Hz、7000Hzについての指向性を図解している。
図8(A)〜(D)は音源の位置とマイクロフォンの集音レベルの分析結果を示すグラフであり、通話装置と所定距離、たとえば、1.5メートルの距離にスピーカを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換(FFT)した結果を示している。X軸が周波数を、Y軸が信号レベルを、Z軸が時間を表している。
図7の指向性を持つマイクロフォンを用いた場合、マイクロフォンの正面に強い指向性を示す。本実施の形態においては、このような特性を活用して、DSP25においてマイクロフォンの選定処理を行う。
本発明の実施の形態のように指向性を持つマイクロフォンではなく無指向性のマイクロフォンを用いた場合、マイクロフォン周辺の全ての音を集音(収音)するので発言者の音声と周辺ノイズとのS/Nが混同してあまり良い音が集音できない。これを避けるため、本発明においては、指向性マイクロフォン1本で集音することによって周辺のノイズとのS/Nを改善している。
さらに、マイクロフォンの指向性を得る方法として、複数の無指向性マイクロフォンを使用したマイクロフォンアレイを用いることができるが、このような方法では、複数の信号の時間軸(位相)の一致のため複雑な処理を要するため、時間がかかり応答性が低いし、装置構成を複雑になる。すなわち、DSPの信号処理系にも複雑な信号処理を必要とする。本発明は図6に例示した指向性のあるマイクロフォンを用いてそのような問題を解決している。
また、マイクロフォンアレイ信号を合成して指向性収音(集音)マイクロフォンとして利用するためには外形形状が通過周波数特性によって規制され外形形状が大きくなるという不利益がある。本発明はこの問題も解決している。
上述した構成の通話装置は下記の利点を示す。
(1)等角度で放射状かつ等間隔に配設された偶数個のマイクロフォンMC1〜MC6と受話再生スピーカ16との位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカ16から出た音が会議室(部屋)環境を経てマイクロフォンMC1〜MC6に戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、スピーカ16からマイクロフォンMC1〜MC6に音が到達する特性(信号レベル(強度)、周波数特性(f特、位相)がいつも同じである。つまり、本発明の実施の形態における通話装置においてはいつも伝達関数が同じという利点がある。
(2)それ故、話者が異なった時に相手方会議室に送出するマイクロフォンの出力を切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、通話装置の製造時に一度調整をすると調整をやり直す必要がないという利点がある。
(3)上記と同じ理由で話者が異なった時にマイクロフォンを切り替えても、エコーキャンセラー(DSP26)が一つでよい。DSPは高価であり、種々の部材が搭載されて空きが少ないプリント基板21に複数のDSPを配置する必要がなく、プリント基板21におけるDSPを配置するスペースも少なくてよい。その結果、プリント基板21、ひいては、本発明の通話装置を小型にできる。
(4)上述したように、受話再生スピーカ16とマイクロフォンMC1〜MC6間の伝達関数が一定であるため、たとえば、±3dBもあるマイクロフォン自体の感度差調整を通話装置のマイクロフォンユニット単独で出来るという利点がある。感度差調整の詳細は後述する。
(5)通話装置が搭載されるテーブルは、通常、円いテーブル(円卓)または多角テーブルを用いることで、通話装置内の一つの受話再生スピーカ16で均等な品質の音声を軸Cを中心として360度全方位に均等に分散(拡散)するスピーカシステムが可能になった。
(6)受話再生スピーカ16から出た音は円卓のテーブル面を伝達して(バウンダリ効果)会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音と位相がキャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。
(7)受話再生スピーカ16から出た音は等角度で放射状かつ等間隔に配設された全てのマイクロフォンMC1〜MC6に同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。その詳細は後述する。
(8)偶数個、たとえば、6本のマイクロフォンを等角度で放射状かつ等間隔で、対向する1対のマイクロフォンを一直線上に配置したことで方向検出の為のレベル比較が容易に出来る。
(9)ダンパー18、マイクロフォン支持部材22などにより、受話再生スピーカ16の音による振動が、マイクロフォンMC1〜MC6の集音に与える影響を低減することができる。
(10)図4に図解したように、構造的に、受話再生スピーカ16の音が直接、マイクロフォンMC1〜MC6には伝搬しない。したがって、この通話装置においては受話再生スピーカ16からのノイズの影響が少ない。
変形例
図3〜図4を参照して述べた通話装置は、下部に受話再生スピーカ16を配置させ、上部にマイクロフォンMC1〜MC6(および関連する電子回路)を配置させたが、受話再生スピーカ16とマイクロフォンMC1〜MC6(および関連する電子回路)の位置を、図9に図解したように、上下逆にすることもできる。このような場合でも上述した効果を奏する。
マイクロフォンの本数は6本には限定されず、4本、8本などと任意の偶数本のマイクロフォンを等角度で放射状かつ等間隔で軸Cを中心に複数対それぞれを一直線に(同方向に)、たとえば、マイクロフォンMC1とMC4のように一直線に配置する。好ましい形態として、2本のマイクロフォンMC1、MC4を対向させて一直線に配置する理由は、マイクロフォンを選定して話者を特定するためである。
信号処理内容
以下、主として第1のディジタルシグナルプロセッサ(DSP)25で行う処理内容について述べる。
図10はDSP25が行う通話装置における処理の概要を図解した図である。以下、その概要を述べる。
(1)周囲のノイズの測定
初期動作として、好ましくは、通話装置10Aが設置される周囲のノイズを測定する。
通話装置は種々の環境(会議室)で使用されうる。マイクロフォンの選択の正確さを期し、通話装置の性能を高めるために、本発明においては、初期段階において、通話装置が設置される周囲環境のノイズを測定し、そのノイズの影響をマイクロフォンで集音した信号から排除することを可能とする。
もちろん、通話装置を同じ会議室で反復して使用するような場合、事前にノイズ測定が行われており、ノイズ状態が変化しないような場合にはこの処理は割愛できる。
なお、ノイズ測定は通常状態においても行うことができる。
(2)議長の選定
たとえば、通話装置を双方向会議に使用する場合、それぞれの会議室における議事運営を取りまとめる議長がいることが有益である。したがって、本発明の1態様としては、通話装置を使用する初期段階において、通話装置の操作部15から議長を設定する。議長の設定方法としては、たとえば、操作部15の近傍に位置する第1マイクロフォンMC1を議長用マイクロフォンとする。もちろん、議長用マイクロフォンを任意のものにすることもできる。
なお、通話装置を反復して使用する議長が同じ場合はこの処理は割愛できる。あるいは、事前に議長が座る位置のマイクロフォンを決めておいてもよい。その場合はその都度、議長の選定動作は不要である。
もちろん、議長の選定は初期状態に限らず、任意のタイミングで行うことができる。
(3)マイクロフォンの感度差調整
初期動作として、好ましくは、受話再生スピーカ16とマイクロフォンMC1〜MC6との音響結合が等しくなるように、マイクロフォンMC1〜MC6の信号を増幅する増幅部の利得または減衰部の減衰値を自動的に調整する。
通常処理として下記に例示する各種の処理を行う。
(1)マイクロフォン選択、切り替え処理
1つの会議室において同時に複数の会議参加者が通話すると、音声が入り交じり相手側会議室内の会議参加者A1〜A6にとって聞きにくい。そこで、本発明においては、原則として、ある時間帯には1人ずつ通話させる。そのため、DSP25においてマイクロフォンの選択・切り替え処理を行う。
その結果、選択されたマイクロフォンからの通話のみが、通信回線920を介して相手方会議室の通話装置に伝送されてスピーカから出力される。もちろん、図6を参照して述べたように、選択された話者のマイクロフォンの近傍のLEDが点灯し、さらに、その部屋の通話装置のスピーカからも選択された話者の音声を聞くことができ、誰が許可された話者かを認識することができる。
この処理により、発言者に対向した単一指向性マイクの信号を選択し、送話信号として相手方にS/Nの良い信号を送ることを目的としている。
(2)選択したマイクロフォンの表示
話者のマイクロフォンが選択され、話すことが許可された会議参加者のマイクロフォンがどれであるかを、会議参加者A1〜A6全員に容易に認識できるように、マイクロフォン選択結果表示手段、たとえば、発光ダイオードLED1〜6の該当するもの点灯させる。
(3)撮像条件の決定(第3実施の形態)
第3実施の形態として述べる撮像調整部36において、通話装置による上述したマイクロフォンの選択(特定)結果を用いて、テレビカメラ装置40A1、40A2の撮像条件を決定することができる。
(4)上述したマイクロフォン選択処理の背景技術として、または、マイクロフォン選択処理を正確に遂行するため下記に例示する各種の信号処理を行う。
(a)マイクロフォンの集音信号の帯域分離と、レベル変換処理
(b)発言の開始、終了の判定処理
発言者方向に対向したマイク信号の選択判定開始トリガとして使用するた め。
(c)発言者方向マイクロフォンの検出処理
各マイクロフォンの集音信号を分析し、発言者の使用しているマイクロフ ォンを判定するため。
(d)発言者方向マイクロフォンの切り換えタイミング判定処理、および、検出 された発言者に対向したマイク信号の選択切り替え処理
上述した処理結果から選択したマイクロフォンへ切り換えの指示をする。 (e)通常動作時のフロアノイズの測定
フロア(環境)ノイズの測定
この処理は通話装置の電源投入直後の初期処理と通常処理に分かれる。
なお、この処理は下記の例示的な前提条件の下に行う。
〔表1〕
(1)条件:測定時間及び閾値暫定値:
1.テストトーン音圧 :マイク信号レベルで−40dB
2.ノイズ測定単位時間:10秒
3.通常状態でのノイズ測定:10秒間の測定結果で平均値計算し、さらにこれを10回繰り返して平均値を求めノイズレベルとする。
〔表2〕
(2)フロアノイズと発言開始基準レベルとの差による有効距離の目安と閾値
1.26dB以上:3メートル以上
発言開始の検出レベル閾値:フロアノイズレベル+9dB
発言終了の検出レベル閾値:フロアノイズレベル+6dB
2.20〜26dB:3メートル以内
発言開始の検出レベル閾値:フロアノイズレベル+9dB
発言終了の検出レベル閾値:フロアノイズレベル+6dB
3.14〜20dB:1.5メートル以内
発言開始の検出レベル閾値:フロアノイズレベル+9dB
発言終了の検出レベル閾値:フロアノイズレベル+6dB
4.9〜14dB:1 メートル以内
発言開始の検出レベル閾値:
フロアノイズレベルと発言開始基準レベルとの差÷2+2dB
発言終了の検出レベル閾値:発言開始閾値−3dB
5.9dB以下:数10センチメートル
発言開始の検出レベル閾値:−3dB
6.フロアノイズレベルと発言開始基準レベルとの差÷2
発言終了の検出レベル閾値:−3dB
7.同じかマイナス:判定できず選択禁止
〔表3〕
(3)通常処理のノイズ測定開始閾値は電源投入時のフロアノイズ+3dB以下のレベルになった時から開始する。
フィルタ処理による各種周波数成分信号の生成
図11はマイクロフォンで集音した音信号を前処理として、DSP25で行うフィルタリング処理を示す構成図である。図11は1マイクロフォン(チャネル(1集音信号))分の処理について示す。
各マイクロフォンの集音信号は、たとえば、100Hzのカットオフ周波数を持つアナログ・ローカットフィルタ101で処理され、100Hz以下の周波数が除去されたフィルタ処理された音声信号がA/D変換器102に出力され、A/D変換器102でディジタル信号に変換された集音信号が、それぞれ7.5KHz、4KHz、1.5KHz、600Hz、250Hzのカットオフ周波数を持つ、ディジタル・ハイカットフィルタ103a〜103e(総称して103)で高周波成分が除去される(ハイカット処理)。ディジタル・ハイカットフィルタ103a〜103eの結果はさらに、減算器104a〜104d(総称して104)において隣接するディジタル・ハイカットフィルタ103a〜103eのフィルタ信号ごとの減算が行われる。
本発明の実施の形態において、ディジタル・ハイカットフィルタ103a〜103eおよび減算器104a〜104dは、実際はDSP25において処理している。A/D変換器102はA/D変換器ブロック27の1つとして実現できる。
図12は、図11を参照して述べたフィルタ処理結果を示す周波数特性図である。このように1つの指向性を持つマイクロフォンで集音した信号から、各種の周波数成分をもつ複数の信号が生成される。
バンドパス・フィルタ処理およびマイク信号レベル変換処理
マイクロフォン選択処理の開始のトリガの1つに発言の開始、終了の判定を行う。そのために使用する信号が、DSP25で行う図13に図解したバンドパス・フィルタ処理およびレベル変換処理によって得られる。図13はマイクロフォンMC1〜MC6で集音した6チャネル(CH)の入力信号処理中の1CHのみを示す。
DSP25内のバンドパス・フィルタ処理およびレベル変換処理部は、各チャネルのマイクロフォンの集音信号を、それぞれ100〜600Hz、200〜250Hz、250〜600Hz、600〜1500Hz、1500〜4000Hz、4000〜7500Hzの帯域通過特性を持つバンドパス・フィルタ201a〜201f(総称してバンドパス・フィルタ・ブロック201)と、元のマイクロフォン集音信号および上記帯域通過集音信号をレベル変換するレベル変換器202a〜202g(総称して、レベル変換ブロック202)を有する。
各レベル変換部202a〜202gは、信号絶対値処理部203とピークホールド処理部204を有する。したがって、波形図を例示したように、信号絶対値処理部203は破線で示した負の信号が入力されたとき符号を反転して正の信号に変換する。ピークホールド処理部204は、信号絶対値処理部203の出力信号の最大値を保持する。ただし、本実施の形態では、時間の経過により、保持した最大値は幾分低下していく。もちろん、ピークホールド処理部204を改良して、低下分を少なくして長時間最大値を保持可能にすることもできる。
バンドパス・フィルタについて述べる。音声集音・映像撮像装置の通話装置に使用するバンドパス・フィルタは、たとえば、2次IIRハイカット・フィルタと、マイク信号入力段のローカット・フィルタのみでバンドパス・フィルタを構成している。
本実施の形態においては周波数特性がフラットな信号からハイカットフィルタを通した信号を引き算すれば残りはローカットフィルタを通した信号とほぼ同等になることを利用する。
周波数−レベル特性を合わせる為に、1バンド余分に全体帯域通過のバンドパス・フィルタが必要となるが、必要とするバンドパス・フィルタのバンド数+1のフィルタ段数とフィルタ係数により必要とされるバンドパスが得られる。今回必要とされるハンドパス・フィルタの帯域周波数はマイク信号1チャネル(CH)当りで下記6バンドのバンドパス・フィルタとなる。
〔表4〕
BP特性 バンドパスフィルタ
BPF1=[100Hz-250Hz] ・・201b
BPF2=[250Hz-600Hz] ・・201c
BPF3=[600Hz-1.5KHz] ・・201d
BPF4=[1.5KHz-4KHz] ・・201e
BPF5=[4KHz-7.5KHz] ・・201f
BPF6=[100Hz-600Hz] ・・201a
この方法でDSP25における上記のIIR・フィルタの計算プログラムは、6CH(チャネル)×5(IIR・フィルタ) =30のみである。
従来のバンドパス・フィルタの構成と対比する。バンドパス・フィルタの構成は2次IIRフィルタを使用するとして、本発明のように6本のマイク信号にそれぞれ6バンドのバンドパス・フィルタを用意すると、従来方法では、6×6×2=72回路のIIR・フィルタ処理が必要になる。この処理には、最新の優秀なDSPでもかなりのプログラム処理を要し他の処理への影響が出る。
本発明の実施の形態においては、100Hzのローカット・フィルタは入力段のアナログフィルタで処理する。用意する2次IIRハイカット・フィルタのカットオフ周波数は、250Hz,600Hz,1.5KHz,4KHz,7.5KHzの5種類である。このうちのカットオフ周波数7.5KHzのハイカット・フィルタは、実はサンプリング周波数が 16KHzなので必要が無いが、減算処理の過程で、IIRフィルタの位相回りの影響で、バンドパス・フィルタの出力レベルが減少する現象を軽減する為に意図的に被減数の位相を回す。
図14は図13に図解した構成による処理をDSP25で処理したときのフローチャートである。
図14に図解したDSP25におけるフィルタ処理は1段目の処理としてハイパス・フィルタ処理、2段目の処理として1段目のハイパス・フィルタ処理結果からの減算処理を行う。図14はその信号処理結果のイメージ周波数特性図である。下記、〔x〕は図12における各処理ケースを示す。
第一段階
〔1〕全体帯域通過フィルタ用として、入力信号を7.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカット合わせにより [100Hz-7.5KHz] のバンドパス・フィルタ出力となる。
〔2〕入力信号を4KHzのハイカットフィルタに通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-4KHz] のバンドパス・フィルタ出力となる。
〔3〕入力信号を1.5KHzのハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-1.5KHz] のバンドパス・フィルタ出力となる。
〔4〕入力信号を600Hz のハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-600Hz] のバンドパス・フィルタ出力となる。
〔5〕入力信号を250Hz のハイカットフィルタを通す。このフィルタ出力信号は入力のアナログのローカットフィルタとの組み合わせにより [100Hz-250Hz] のバンドパス・フィルタ出力となる。
第二段階
〔1〕バンドパス・フィルタ(BPF5=[4KHz〜7.5KHz])は、フィルタ出力[1]-[2]([100Hz〜7.5KHz] - [100Hz〜4KHz])の処理を実行すると上記信号出力[4KHz〜7.5KHz]となる。
〔2〕バンドパス・フィルタ(BPF4=[1.5KHz〜4KHz])は、フィルタ出力[2]-[3]([100Hz〜4KHz] - [100Hz〜1.5KHz])の処理を実行すると、上記信号出力[1.5KHz〜4KHz]となる。
〔3〕バンドパス・フィルタ(BPF3=[600Hz〜1.5KHz])は、フィルタ出力[3]-[4]([100Hz〜1.5KHz] - [100Hz〜600Hz])の処理を実行すると、上記信号出力[600Hz〜1.5KHz]となる。
〔4〕バンドパス・フィルタ(BPF2=[250Hz〜600Hz])は、フィルタ出力[4]-[5]([100Hz〜600Hz] - [100Hz〜250Hz]) の処理を実行すると上記信号出力[250Hz〜600Hz]となる。 〔5〕バンドパス・フィルタ(BPF1=[100Hz〜250Hz])は上記[5]の信号をそのままで出力信号[5]とする。
〔6〕バンドパス・フィルタ(BPF6=[100Hz〜600Hz])は[4]の信号をそのままで上記(4)の出力信号とする。
DSP25における以上の処理で必要とされるバンドパス・フィルタ出力が得られる。
入力されたマイクロフォンの集音信号MIC1〜MIC6は、DSP25において、全帯域の音圧レベル、バンドパス・フィルタを通過した6帯域の音圧レベルとして表5のように常時更新される。
Figure 2005151471
表5において、たとえば、L1-1はマイクロフォンMC1の集音信号が第1バンドパス・フィルタ201aを通過したときのピークレベルを示す。
発言の開始、終了判定は、図13に図示した100Hz〜600Hzのバンドパス・フィルタ201aを通過し、レベル変換部202bで音圧レベル変換されたマイクロフォン集音信号を用いる。
従来のバンドパス・フィルタの構成は、バンドパス・フィルタ1段当りにハイ・パスフィルタとロー・パスフィルタの組み合わせで行うので、本実施の形態で使用する仕様の36回路のバンドパス・フィルタを構築すると72回路のフィルタ処理が必要となる。これに対して本発明の実施の形態のフィルタ構成は上述したように簡単になる。
発言の開始・終了判定処理
第1のディジタルシグナルプロセッサ(DSP1)25は、音圧レベル検出部から出力される値を元に、図15に図解したように、マイクロフォン集音信号レベルがフロアノイズより上昇し、発言開始レベルの閾値を越した場合発言開始と判定し、その後開始レベルの閾値よりも高いレベルが継続した場合発言中、発言終了の閾値よりレベルが下がった場合をフロアノイズと判定し、発言終了判定時間、たとえば、フロアノイズが0.5秒間継続した場合発言終了と判定する。
発言の開始、終了判定は、図13に図解したマイク信号変換処理部202bで音圧レベル変換された100Hz〜600Hzのバンドパス・フィルタを通過した音圧レベルデータ(マイク信号レベル(1))が図15に例示した閾値レベル以上になった時から発言開始と判定する。
DSP25は、頻繁なマイクロフォン切り替えに伴う動作不良を回避するため、発言開始を検出してから、発言終了判定時間を、たとえば、0.5秒間経過するまでは次の発言開始を検出しないようにしている。
マイクロフォン選択
DSP25は、相互通話システムにおける発言者方向検出および発言者に対向したマイク信号の自動選択を、いわゆる、「星取表方式」に基づいて行う。
図16は音声集音・映像撮像装置の通話装置の動作形態を図解したグラフである。
図17は通話装置の通常処理を示すフローチャートである。
通話装置は図16に図解したように、マイクロフォンMC1〜MC6からの集音信号に応じて音声信号監視処理を行い、発言開始・終了判定を行い、発言方向判定を行い、マイクロフォン選択を行い、その結果をマイクロフォン選択結果表示手段、たとえば、発光ダイオードLED1〜6に表示する。
以下、図17のフローチャートを参照して通話装置1におけるDSP25を主体として動作を述べる。なお、マイクロフォン・電子回路収容部2の全体制御はマイクロプロセッサ23によって行われるが、DSP25の処理を中心に述べる。
ステップ1:レベル変換信号の監視
マイクロフォンMC1〜MC6で集音した信号はそれぞれ、図12〜図14、特に、図13を参照して述べた、バンドパス・フィルタ・ブロック201、レベル変換ブロック202において、7種類のレベルデータとして変換されているから、DSP25は各マイクロフォン集音信号についての7種類の信号を常時監視する。
その監視結果に基づいて、DSP25は、発言者方向検出処理、発言者方向検出処理、発言開始・終了判定処理のいずれかの処理に移行する。
ステップ2:発言開始・終了判定処理
DSP25は図14を参照して、さらに下記に詳述する方法に従って、発言の開始、終了の判定を行う。DSP25の処理が発言開始を検出した場合、ステップ4の発言者方向の判定処理へ発言開始検出を知らせる。
なお、ステップ2における発言の開始、終了の判定処理において、発言レベルが発言終了レベルより低くなった時、発言終了判定時間(たとえば、0.5秒)のタイマを起動し発言終了判定時間、発言レベルが発言終了レベルより小さい時、発言終了と判定する。
発言終了判定時間以内に発言終了レベルより大きくなったら再び発言終了レベルより小さくなるまで待ちの処理に入る。
ステップ3:発言者方向の検出処理
DSP25における発言者方向の検出処理は、常時発言者方向をサーチし続けて行う。その後、ステップ4の発言者方向の判定処理へデータを供給する。
ステップ4:発言者方向マイクの切り換え処理
DSP25に発言者方向マイクの切り換え処理におけるタイミング判定処理はステップ2の処理とステップ3の処理の結果から、その時の発言者検出方向と今まで選択していた発言者方向が違う場合に、新たな発言者方向のマイク選択をステップ4のマイク信号切り換え処理へ指示する。
ただし、議長のマイクロフォンが操作部15から設定されていて、議長のマイクロフォンと他の会議参加者とが同時的に発言がある場合、議長の発言を優先する。
この時に、選択されたマイク情報をマイクロフォン選択結果表示手段、たとえば、発光ダイオードLED1〜6に表示する。
ステップ5:マイクロフォン集音信号の伝送
マイク信号切り換え処理は6本のマイク信号の中からステップ4処理により選択されたマイク信号のみを送話信号として、たとえば、第1の音声集音・映像撮像装置1Aの第1の通話装置10Aから通信回線920を介して相手側の第2の音声集音・映像撮像装置1Bの第2の通話装置10Bに伝送するため、図6に図解した通信回線920のラインアウトへ出力する。
ステップS6:撮像条件の決定
以上の方法で、発言者が決定できると、複数のマイクロフォンの配置条件、および、会議参加者の位置から、テレビカメラ装置40A1、40A2による撮像条件も決定できる。
なお、好ましくは、第2実施の形態で述べる会議出席者の声紋認識結果を用いる。
この処理の詳細は第3実施の形態として詳述する。
発言開始レベル閾値、発言終了閾値の設定
処理1:電源を投入直後に各マイクロフォンそれぞれの所定時間、たとえば、1秒間分のフロアノイズを測定する。
DSP25は、音圧レベル検出部のピークホールドされたレベル値を一定時間間隔、本実施の形態では、たとえば、10mSec間隔で読み出し、所定時間、たとえば、1分間の値の平均値を算出しフロアノイズとする。
DSP25は測定されたフロアノイズレベルを元に発言開始の検出レベル(フロアノイズ +9dB)、発言終了の検出レベルの閾値(フロアノイズ+6dB)を決定する。DSP25は、以後も、音圧レベル検出器のピークホールドされたレベル値を一定時間間隔で読み出す。
発言終了と判定された時は、DSP25は、フロアノイズの測定として働き、発言開始の検出し、発言終了の検出レベルの閾値を更新する。
この方法によれば、この閾値設定はマイクロフォンの置かれた位置のフロアノイズレベルがそれぞれ違うので各マイクロフォンにそれぞれ閾値が設定でき、ノイズ音源によるマイクロフォンの選択における誤判定を防げる。
処理2:周辺ノイズ(フロアノイズの大きい)部屋への対応
処理2は処理1ではフロアノイズが大きく自動で閾値レベルを更新されると、発言開始、終了検出がしにくい時の対策として下記を行う。
DSP25は、予測されるフロアノイズレベルを元に発言開始の検出レベル、発言終了の検出レベルの閾値を決定する。
DSP25は、発言開始閾値レベルは発言終了閾値レベルより大きく(たとえば、3dB以上の差)に設定する。
DSP25は、音圧レベル検出器でピークホールドされたレベル値を一定時間間隔で読み出す。
この方法によれば、この閾値設定は閾値が全てのマイクロフォンに対して同じ値なので、ノイズ源を背にした人と、そうでない人とで声の大きさが同程度でも発言開始が認識できる。
発言開始判定
処理1、6個のマイクロフォンに対応した音圧レベル検出器の出力レベルと、発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
DSP25は、全てのマイクロフォンに対応した音圧レベル検出器の出力レベルが、発言開始レベルの閾値を越した場合は、受話再生スピーカ16からの信号であると判定し、発言開始とは判定しない。なぜなら、受話再生スピーカ16と全てのマイクロフォンMC1〜MC6との距離は同じであるから、受話再生スピーカ16からの音は全てのマイクロフォンMC1〜MC6にほぼ均等に到達するからである。
処理2、図5に図解した6個のマイクロフォンについての60度の等角度で放射状かつ等間隔の配置で、指向性軸を反対方向に180度ずらした単一指向性マイク2本(マイクロフォンMC1とMC4、マイクロフォンMC2とMC5、マイクロフォンMC3とMC6)の3組構成しマイク信号のレベル差を利用する。すなわち下記の演算を実行する。
〔表6〕
(マイク1の信号レベル−マイク4の信号レベル)の絶対値・・・[1]
(マイク2の信号レベル−マイク5の信号レベル)の絶対値・・・[2]
(マイク3の信号レベル−マイク6の信号レベル)の絶対値・・・[3]
DSP25は上記絶対値[1],[2],[3]と発言開始レベルの閾値を比較し発言開始レベルの閾値を越した場合発言開始と判定する。
この処理の場合、処理1のように全ての絶対値が発言開始レベルの閾値より大きくなることは無いので(受話再生スピーカ16からの音が全てのマイクロフォンに等しく到達するから)、受話再生スピーカ16からの音か話者からの音声かの判定は不要になる。
発言者方向の検出処理
発言者方向の検出には図7に例示した単一指向性マイクロフォンの特性を利用する。単一指向特性マイクロフォンは発言者からマイクロフォンへの音声の到達角度により図7に例示したように、周波数特性、レベル特性が変化する。その結果を図8(A)〜(C)に例示した。図8(A)〜(C)は、通話装置10Aから所定距離、たとえば、1.5メートルの距離にスピーカーを置いて各マイクロフォンが集音した音声を一定時間間隔で高速フーリエ変換(FFT)した結果を示す。X軸が周波数を、Y軸が信号レベルを、Z軸が時間を表している。横線は、バンドパス・フィルタのカットオフ周波数を表し、この線にはさまれた周波数帯域のレベルが、図11〜図14を参照して述べたマイク信号レベル変換処理からの5バンドのバンドパス・フィルタを通した音圧レベルに変換されたデータとなる。
本発明の実施の形態の音声集音・映像撮像装置における通話装置における発言者方向の検出のために実際の処理として適用した判定方法を述べる。
各帯域バンドパス・フィルタの出力レベルに対しそれぞれ適切な重み付け処理(1dBフルスパン(1dBFs)ステップなら0dBFsの時0、-3dBFsなら3というように、又はこの逆に)を行う。この重み付けのステップで処理の分解能が決まる。
1サンプルクロック毎に上記の重み付け処理を実行し、各マイクの重み付けされた得点を加算して一定サンプル数で平均値化して合計点の小さい(大きい)マイク信号を発言者に対向したマイクロフォンと判定する。この結果をイメージ化したものが下記表7である。
Figure 2005151471
表7に例示したこの例では一番合計点が小さいのは第1マイクロフォンMC1なので、DSP25は第1マイクロフォンMC1の方向に音源が有る(話者がいる)と判定する。DSP25はその結果を音源方向マイク番号という形で保持する。
上述したように、DSP25は各マイクロフォン毎の周波数帯域のバンドパス・フィルタの出力レベルに重み付けを付けを実行し、各帯域バンドパス・フィルタの出力の、得点の小さい(または大きい)マイク信号順に順位をつけ、1位の順位が3つの帯域以上に有るマイク信号を発言者に対向したマイクロフォンと判定する。そして、DSP25は第1マイクロフォンMC1の方向に音源が有る(話者がいる)として、下記表8のような成績表を作成する。
Figure 2005151471
実際には部屋の特性により音の反射や定在波の影響で、必ずしも第1マイクロフォンMC1の成績が全てのバンドパス・フィルタの出力で一番となるとは限らないが、5バンド中の過半数が1位であれば第1マイクロフォンMC1の方向に音源が有る(話者がいる)と判定することができる。DSP25はその結果を音源方向マイク番号という形で保持する。
DSP25は各マイクロフォンの各帯域バンドパス・フィルタの出力レベルデータを下記表9に示した形態で合計し、レベルの大きいマイク信号を発言者に対向したマイクロフォンと判定し、その結果を音源方向マイク番号という形で保持する。
〔表9〕
MIC1 Level = L1-1 + L1-2 + L1-3 + L1-4 + L1-5
MIC2 Level = L2-1 + L2-2 + L2-3 + L2-4 + L2-5
MIC3 Level = L3-1 + L3-2 + L3-3 + L3-4 + L3-5
MIC4 Level = L4-1 + L4-2 + L4-3 + L4-4 + L4-5
MIC5 Level = L5-1 + L5-2 + L5-3 + L5-4 + L5-5
MIC6 Level = L6-1 + L6-2 + L6-3 + L6-4 + L6-5
発言者方向マイクの切り換えタイミング判定処理
図17のステップ2の発言開始判定結果により起動し、ステップ3の発言者方向の検出処理結果と過去の選択情報から新しい発言者のマイクロフォンが検出された時、DSP25は、ステップ5のマイク信号の選択切り替え処理へマイク信号の切り換えコマンドを発効すると共に、マイクロフォン選択結果表示手段(発光ダイオードLED1〜6)へ発言者マイクが切り替わったことを通知し、発言者に自分の発言に対し音声集音・映像撮像装置の通話装置が応答したことを知らせる。
反響の大きい部屋で、反射音や定在波の影響を除くため、DSP25は、マイクロフォンを切り換えてから発言終了判定時間(たとえば、0.5 秒)経過しないと、新しいマイク選択コマンドの発効は禁止する。
図17のステップ1のマイク信号レベル変換処理結果、および、ステップ3の発言者方向の検出処理結果から、本実施の形態においては、マイク選択切り替えタイミングは2通りを準備する。
第1の方法:発言開始が明らかに判定できる時
選択されていたマイクロフォンの方向からの発言が終了し新たに別の方向から発言があった場合。
この場合は、DSP25は、全てのマイク信号レベル(1)とマイク信号レベル(2)が発言終了閾値レベル以下になってから発言終了判定時間(たとえば、0.5 秒)以上経過してから発言が開始され、どれかのマイク信号レベル(1)が発言開始閾値レベル以上になった時発言が開始されたと判断し、音源方向マイク番号の情報を元に発言者方向に対向したマイクロフォンを正当な集音マイクロフォンと決定し、ステップ5のマイク信号選択切り替え処理を開始する。
第2の方法:発言継続中に新たに別の方向からより大きな声の発言があった場合
この場合はDSP25は発言開始(マイク信号レベル(1)が閾値レベル以上になった時)から発言終了判定時間(たとえば、0.5 秒)以上経過してから判定処理を開始する。
発言終了検出前に、3の処理からの音源方向マイク番号が変更になり、安定していると判定された場合、DSP25は音源方向マイク番号に相当するマイクロフォンに現在選択されている発言者よりも大声で発言している話者がいると判断し、その音源方向マイクロフォンを正当な集音マイクロフォンと決定し、ステップ5のマイク信号選択切り替え処理を起動する。
検出された発言者に対向したマイク信号の選択切り替え処理
DSP25は図17のステップ4の発言者方向マイクの切り換えタイミング判定処理からのコマンドで選択判定されたコマンドにより起動する。
DSP25のマイク信号の選択切り替え処理は、図18に図解したように、6回路の乗算器と6入力の加算器で構成する。マイク信号を選択する為には、DSP25は選択したいマイク信号が接続されている乗算器のチャネルゲイン(チャネル利得:CH Gain)を〔1〕に、その他の乗算器のCH Gainを〔0〕とする事で、加算器には選択された(マイク信号×〔1])の信号と(マイク信号×〔0])の処理結果が加算されて希望のマイク選択信号が出力に得られる。
上記の様にチャネルゲインを[1]か[0]に切り換えると切り換えるマイク信号のレベル差によりクリック音が発生する可能性が有る。そこで、通話装置1では、図19に図解したように、CH Gainの変化を[1]から[0]へ、[0]から[1]へ変化するのに、切替遷移時間、たとえば、10m秒の時間で連続的に変化させてクロスするようにして、マイク信号のレベル差によるクリック音の発生を避けている。
また、チャネルゲインの最大を[1]以外、たとえば[0.5]の様にセットする事で後段のDSP25におけるエコーキャンセル処理動作の調整を行うこともできる。
上述したように、本発明の第1実施の形態の音声集音・映像撮像装置における通話装置は、ノイズの影響を受けず、有効に会議などの通話装置に適用できる。
本発明の第1実施の形態の音声集音・映像撮像装置における通話装置は構造面から下記の利点を有する。
(1)複数の単一指向性を持つマイクロフォンと受話再生スピーカとの位置関係が一定であり、さらにその距離が非常に近いことで受話再生スピーカから出た音が会議室(部屋)環境を経て複数のマイクロフォンに戻ってくるレベルより直接戻ってくるレベルが圧倒的に大きく支配的である。そのために、受話再生スピーカから複数のマイクロフォンに音が到達する特性(信号レベル(強度)、周波数特性(f特)、位相)がいつも同じである。つまり、通話装置においてはいつも伝達関数が同じという利点がある。
(2)それ故、マイクロフォンを切り替えた時の伝達関数の変化がなく、マイクロフォンを切り替える都度、マイクロフォン系の利得を調整をする必要がないという利点を有する。換言すれば、通話装置の製造時に一度調整をするとやり直す必要がないという利点がある。
(3)上記と同じ理由でマイクロフォンを切り替えても、ディジタルシグナルプロセッサ(DSP)で構成するエコーキャンセラが一つでよい。DSPは高価であり、種々の部材が搭載されて空きが少ないプリント基板にDSPを配置するスペースも少なくてよい。
(4)受話再生スピーカと複数のマイクロフォン間の伝達関数が一定であるため、±3dBもあるマイクロフォン自体の感度差調整をユニット単独で出来るという利点がある。
(5)音声集音・映像撮像装置の通話装置が搭載されるテーブルは、通話装置内の一つの受話再生スピーカで均等な品質の音声を全方位に均等に分散(拡散)するスピーカシステムが可能になった。
(6)受話再生スピーカから出た音はテーブル面を伝達して(バウンダリ効果)会議参加者まで有効に能率良く均等に上質な音が届き、会議室の天井方向に対しては対向側の音と位相キャンセルされて小さな音になり、会議参加者に対して天井方向からの反射音が少なく、結果として参加者に明瞭な音が配給されるという利点がある。
(7)受話再生スピーカから出た音は複数の全てのマイクロフォンに同時に同じ音量で届くので発言者の音声なのか受話音声なのかの判断が容易になる。その結果、マイクロフォン選択処理の誤判別が減る。
(8)偶数個のマイクロフォンを等間隔で配置したことで方向検出の為のレベル比較が容易に出来る。
(9)緩衝材を用いたダンパー、柔軟性または弾力性を持つマイクロフォン支持部材などにより、マイクロフォンが搭載されているプリント基板を介して伝達され得る受話再生スピーカの音による振動が、マイクロフォンの集音に対する影響を低減することができる。
(10)受話再生スピーカの音が直接、マイクロフォンには進入しない。したがって、この通話装置においては受話再生スピーカからのノイズの影響が少ない。
本発明の第1実施の形態の音声集音・映像撮像装置における通話装置は信号処理面から下記の利点を有する。
(a)複数の単一指向性マイクを等間隔で放射状に配置して音源方向を検知可能とし、マイク信号を切り換えてS/Nの良い音、クリアな音を集音(収音)して、相手方に送信することができる。
(b)周辺の発言者からの音声をS/N良く集音して、発言者に対向したマイクを自動選択できる。
(c)本発明においては、マイク選択処理の方法として通過音声周波数帯域を分割し、それぞれの分割された周波数帯域事ごとのレベルを比較する事で、信号分析を簡略化している。
(d)本発明のマイク信号切り換え処理をDSPの信号処理として実現し、複数の信号をすべてにクロス・フェード処理する事で切り換え時のクリック音を出さないようにしている。
(e)マイク選択結果を、発光ダイオードなどのマイクロフォン選択結果表示手段、または、外部への通知処理することができる。したがって、たとえば、図2に図解したテレビカメラ装置40A1、40A2を用いた会議システムへの発言者位置情報として活用することもできる。
第2実施の形態
図20〜図25を参照して本発明の音声集音・映像撮像装置の通話装置の第2実施の形態を述べる。
従来、会議や個人の音声を離れた相手に伝送するのに、電話、インターフォン、テレビ電話などがあった。しかしこの場合、周囲の人の声やテレビジョン装置からの音などがうるさいため話者の声が相手に良く伝わらないことが多い。そのためわざわざ話者がマイクロフォンの近くまで行ったり、大声を上げたり、テレビジョン装置の出力音をそのつど下げたりと面倒であった。
第1実施の形態の音声集音・映像撮像装置における通話装置を用いれば、通話装置の周囲の雑音を排除でき、話者の識別も正確にできるが、さらに改善することが希望されている。
本発明の第2実施の形態は、第1実施の形態の通話装置をさらに向上させるため、声紋識別を行って事前に声紋を登録した話者の音声のみを明瞭に選別し、その他のノイズとなる音はレベルを下げることにより、より良いコミュニケーションを可能にする。
図20は本発明の第2実施の形態の通話装置の装置構成を示す。
図20に図解した通話装置は、図6に図解した通話装置と類似する構成をしており、図6に図解した通話装置における構成要素は同じ符号を付している。ただし、下記の部分が異なる。
第2実施の形態の通話装置においては、マイクロフォンMC1〜MC6とA/D変換器271〜273との間に利得可変型増幅器301〜306が配置され、声紋認証部32が追加され、増幅器利得調整部34が追加され、増幅器291からLINEOUT端子への出力に加えて増幅器291から声紋認証部32に出力信号が印加されている。なお、利得可変型増幅器301〜306は第1実施の形態においても述べたように、A/D変換器271〜273を利得調整付増幅機能型A/D変換器271〜273として構成することもでき、その場合は、利得可変型増幅器301〜306の機能をA/D変換器271〜273に含めることもできる。なお、本実施の形態においては、A/D変換器271〜273とは別個に利得可変型増幅器301〜306を設けた場合について述べる。
なお、第2実施の形態においては、第3の増幅器293が付加されて,録音出力端子REC OUTに、LINE INからの入力信号または増幅器293からの信号を出力可能に構成されている。
6本のマイクロフォンMC1〜MC6は、図7に例示した指向性を持ち、図3〜図5を参照して述べたように、等角度かつ等間隔で配置されている。
A/D変換器271〜273は第2実施の形態においても、2チャネル用A/D変換器であり、1個のA/D変換器で2入力信号(2チャネルの入力信号)が取り込める。
DSP25は第1実施の形態において述べた、図10に列挙した種々の処理、たとえば、マイクロフォン選択・切り替え処理などを行う。
第2のディジタルシグナルプロセッサ(DSP)26は第1実施の形態で述べたとおり、エコーキャンセル処理を行う。
声紋認証部32は、声紋認証処理を行う声紋認証処理プロセッサPと、声紋処理のための辞書メモリM1と、声紋を登録する声紋登録メモリM2とを有する。声紋登録メモリM2には、声紋登録装置32Aにより事前に話者認証を行う人の声紋が登録されている。話者認証の対象者は、本実施の形態の通話装置を使用する会議出席者などである。声紋認証部32の処理の詳細は後述する。
DSP25は第1実施の形態と同様、マイクロフォンMC1〜MC6のうちの1つを選択し、選択したマイクロフォンの番号を示すマイクロフォン選択信号S251をマイクロプロセッサ23に出力する。マイクロプロセッサ23はマイクロフォン選択信号S251を増幅器利得調整部34に出力する。
DSP25で選択したマイクロフォンの信号がDSP26に印加され、DSP26においてエコーキャンセル処理されて、D/A変換器282に出力され、増幅器292で増幅されて受話再生スピーカ16から出力されるので、通話装置を使用している会議者は受話再生スピーカ16から選択されたマイクロフォンを使用した話者の音声を聞くことができる。
DSP26からD/A変換器282に出力された選択音声信号S26は増幅器291を介してLINE OUT端子に出力され、相手方の通話装置に送出することができる。
またDSP26からD/A変換器282に出力された選択音声信号S26は増幅器293を介してREC OUT端子に出力されるので、録音することもできる。
さらにDSP26からD/A変換器282に出力された選択音声信号S26は増幅器291を介して声紋認証部32に出力されるので、声紋認証部32において選択音声信号S26について声紋認証を行う。声紋認証の詳細は後述するが、声紋認証部32は選択音声信号S26を声紋認証した結果、声紋登録メモリM2に登録されたものであるとき、認証合格信号S32(認証合格のとき「1」、認証不合格のとき「0」)を増幅器利得調整部34に出力する。
増幅器利得調整部34にはマイクロプロセッサ23を介してDSP25からマイクロフォン選択信号S251が入力されている。この状態において、声紋認証部32から認証合格を示す認証合格信号S32が増幅器利得調整部34に入力されると、増幅器利得調整部34はマイクロフォン選択信号S251で示されたマイクロフォンの出力信号が入力されている該当する利得可変型増幅器の利得を大きくし(すでに大きく設定されているときはその値に維持する、または、ある大きな値に設定する)、その他の利得可変型増幅器の利得を低下させる(すでに低く設定されているときはその値に維持する、または、ある低い値に設定する)。
具体的には、増幅器利得調整部34はマイクロコンピュータを内蔵しており、増幅器利得調整部34内のマイクロコンピュータは、マイクロフォン選択信号S251で示されたマイクロフォンの出力信号が入力されている該当する利得可変型増幅器の利得設定値を大きな値に設定してその利得可変型増幅器に出力し、その他の利得可変型増幅器の利得設定値を低い値に設定してそれらの利得可変型増幅器に出力する。その結果、利得可変型増幅器301〜306は設定された利得に変更される。
たとえば、第1マイクロフォンMC1がテレビジョン装置からの音だけを集音した場合、その音が大きければ、DSP25によって選択される。その結果、DSP25は第1マイクロフォンMC1が選択されたことを示すマイクロフォン選択信号S251をマイクロプロセッサ23を介して増幅器利得調整部34に出力する。
DSP25で選択されたテレビジョン装置からの音信号がDSP26から選択音声信号S26として、増幅器291を経由して声紋認証部32に入力される。声紋認証部32の声紋登録メモリM2にはテレビジョン装置の音を登録していないから、その選択音声信号S26は認証不合格とされ、「0」の認証合格信号S32が増幅器利得調整部34に出力される。
増幅器利得調整部34にはすでに、第1マイクロフォンMC1が選択されたことを示すマイクロフォン選択信号S251が入力されているが、「0」の認証合格信号S32が入力されるので、増幅器利得調整部34は、マイクロフォン選択信号S251に示された第1マイクロフォンMC1の出力信号が接続されている利得可変型増幅器301の利得を低く設定して利得可変型増幅器301に出力し、利得可変型増幅器301の利得を下げる。その結果、第1マイクロフォンMC1の集音信号は、利得可変型増幅器301で低下されて、A/D変換器271に入力されるから、その後、マイクロフォン選択の対象から外れる可能性が高い。
他方、第3マイクロフォンMC3を使用する話者の声紋が事前に声紋認証部32の声紋登録メモリM2に登録されており、DSP25により第3マイクロフォンMC3が選択されたとき、DSP25からマイクロプロセッサ23を経由して第3マイクロフォンMC3が選択されたことを示すマイクロフォン選択信号S251が増幅器利得調整部34に出力され、第3マイクロフォンMC3の音声が選択音声信号S26として声紋認証部32に入力されて声紋認証される。この場合、その声紋は声紋登録メモリM2に登録されているから、認証は合格し、「1」の認証合格信号S32が出力される。
増幅器利得調整部34は「1」の認証合格信号S32を入力すると、第3マイクロフォンMC3が選択されたことを示すマイクロフォン選択信号S251を参照して、第3マイクロフォンMC3の出力信号が接続されている利得可変型増幅器305の利得を高く設定して利得可変型増幅器305に出力し、利得可変型増幅器305の利得をある高い値に設定する。その結果、第3マイクロフォンMC3の集音信号は、利得可変型増幅器305で高められてA/D変換器273に入力され、高い音声出力がDSP26から選択音声信号S26として出力される。その選択音声信号S26はもちろん、D/A変換器282でアナログ信号に変換された後、増幅器292で増幅された受話再生スピーカ16に出力され、増幅器291で増幅されてLINE OUTを経由して相手方の通話装置に送出され、再び声紋認証部32に入力されて声紋認証の対象となる。
第1マイクロフォンMC1で採取したテレビジョン装置からの音と、第3マイクロフォンMC3からの音声とが同時に存在したときは、DSP25において、まず、音の高いほうが選択されて、選択音声信号S26として声紋認証部32に入力される。
たとえば、第1マイクロフォンMC1で集音したテレビジョン装置の音が第3マイクロフォンMC3からの音声より高いときは第1マイクロフォンMC1からのテレビジョン装置の音がDSP25において選択されDSP26から選択音声信号S26として出力されている場合は、上述したように、声紋認証部32においては認証されない。よって、上述したように、第1マイクロフォンMC1の出力信号が接続されている利得可変型増幅器301の利得が低くされる。その結果、DSP25における次のマイクロフォン選択処理においては第1マイクロフォンMC1の集音信号は選択されず、第3マイクロフォンMC3の集音信号が選択されることになる。第3マイクロフォンMC3の集音信号が選択音声信号S26としてDSP26から声紋認証部32に出力されると、声紋認証処理は合格となる。その結果、増幅器利得調整部34により、第3マイクロフォンMC3が接続された利得可変型増幅器305の利得が高い値に設定されて、第3マイクロフォンMC3の集音信号が高くなり、明瞭な音声として受話再生スピーカ16から出力され、LINEOUTから出力され、再び声紋認証部32に入力される。
このように、声紋認証部32の声紋登録メモリM2に登録した声紋の話者が話した音声が最終的に選択され、明瞭な信号として、受話再生スピーカ16から、LINE OUTに、声紋認証部32に、出力される。
したがって、第2実施の形態の通話装置を用いれば、図1に例示したように、離れたところにいる人との間で明瞭な音声の会話を容易に行うことができる。
また、周囲のノイズとしてのテレビジョン装置の音など騒音環境で通話装置を使用する場合でも、話者が話す位置を移動する必要もなく、あるいは、ことさら大きい声を出す必要も無い。
さらに、ノイズとしてのテレビジョン装置の音声レベルをその都度下げる煩わしさもなく相手と話をすることができる。特に、ノイズとしてのテレビジョン装置の音を低く抑えて送られるので相手は明瞭な会話音だけが聞こえ、会話が円滑に行われる。その意味では、第2実施の形態の通話装置は不要な雑音を除去する装置としての機能をも持つ。
もちろん、声紋認証部32の声紋登録メモリM2に声紋登録されてない人が通話装置の周囲で話していても、そのような音声は最終的には選択されず、声紋登録された話者の音声のみで、明瞭に選択出力される。
選択されたマイクロフォンの終了は、図15に図解したように、マイクロフォン出力信号のレベルが低下し、所定時間継続したとき、DSP25により判断される。
このとき、好ましくは、増幅器利得調整部34は、発言が終了したマイクロフォンに対応する利得可変型増幅器の利得を通常の利得に設定しなおす。もちろん、DSP25からマイクロプロセッサ23を経由して選択が終了したことを、マイクロフォン選択信号S251に含めて増幅器利得調整部34に通報することができる。
このように、選択が終了したマイクロフォンに対応する利得可変型増幅器の利得を他の利得可変型増幅器と同じ利得にすることにより、次のマイクロフォン選択が平等の条件となる。
以上の実施の形態においては、本発明の利得可変型増幅手段として、利得可変型増幅器301〜306を用いた場合について述べたが、上述したように、A/D変換器271〜273として利得可変型A/D変換器271〜273を用いることもでき、その場合、利得可変型増幅器301〜306を固定利得の増幅器に代え、増幅器利得調整部34は利得可変型A/D変換器271〜273の利得を調整(設定)することもできる。
本発明の通話装置の好適な例示として、第1実施の形態として述べた、マイクロフォンMC1〜MC6が等角度で放射状に配置された場合について述べたが、第2実施の形態としては、マイクロフォンMC1〜MC6が第1実施の形態のように、各対のマイクロフォン、たとえば、MC1とMC4とが一直線上に対向して配置されている場合に限らず、所定の配置でもよい。その場合、DSP25は、たとえば、最大振幅の集音信号を出力したマイクロフォンをマイクロフォン選択信号S251として選択する。その後、声紋認証部32において上述した声紋認証を行う。
図21〜図25を参照して声紋認証部32の処理内容の詳細な例について述べる。
本実施の形態においては、各会議出席者がマイクロフォンMC1〜MC6から順に音声を声紋登録装置32Aに入力し、声紋登録装置32Aからマイクロフォンの番号とともに、声紋認証部32に出力する。本例では、各会議出席者の音声は、図21に例示したように、たとえば、『Open File』,『Next』等の2〜3秒程度の音声によるコマンドを想定している。
声紋認証部32内の声紋認証処理プロセッサPは、声紋登録装置32Aから入力された音声信号をディジタル信号に変換した後、辞書メモリM1に記録された辞書を参照して音声認識処理を施し、文字列データに変換してマイクロフォン番号とともに声紋登録メモリM2に記録する。すなわち、声紋認証処理プロセッサPはあらかじめ入力する音声コマンドに対応する文字列データが格納されている辞書メモリM1の音声コマンドに対応する文字列データを照合し、合致するものを選択する。
図21(A)〜(D)は、音声認識処理部32で行われる制御の動作について図解したタイミングチャートである。
図21(A)は、マイク切替え信号MC_SELのタイミングチャートであり、例えば#4と記載されている場合は、第4マイクロフォンMC4が現在選択されていることを示している。
図21(B)は、マイクロフォン出力信号のタイミングチャートである。マイクロフォン出力信号は、図21(A)のマイク切替え信号MC_SELで示すマイク番号に対応した音声信号であり、声紋認証処理プロセッサP内のA/D変換器でディジタルに変換されて入力される。この例では、マイクロフォン出力信号”OpenFile”,”Next”といったコマンドの音声信号である。
図21(C)は、図21(A)〜(B)で得られた情報をもとに声紋認証処理プロセッサPで行われる処理プロセスを示すタイミングチャートである。各音声データのバッファリングとバッファリング後の音声認識処理から構成される。
図21(D)は、図21(C)で示した音声認識処理の結果として順次出力される文字列データのタイミングチャートである。
図21(A)に図解のように、最初に選択されたマイクロフォンの番号が#4であり、第4マイクロフォンから”Open File”というマイクロフォン出力信号が声紋認証処理プロセッサPに入力されている。声紋認証処理プロセッサPはA/D変換器を介してディジタル変換されたマイクロフォン出力信号を入力し、図21(C)に図解のごとくバッファリングを開始し、その音声データはバッファのマイク番号#4に応じたバッファで保持される。
その後、マイクロフォンの番号が#4から#1になると、マイク切替え信号MC_SEL=1となる。図21(B)に示すとおり、マイク番号#1の音声データは”Next”に相当する音声データであり、声紋認証処理プロセッサPはマイク番号#4のバッファリングを終了し、新たにマイク番号#1のバッファリングを開始するとともに、バッファに保持されたマイク番号#4の音声データに基づいて、声紋認証処理プロセッサPで音声認識処理を並行して行う。
音声認識処理では、マイク番号#4の音声データが音声認識処理され、辞書メモリM1に格納されている文字列データのコマンド群と照合され、合致するものが選択され、文字列データとしての”Open File”を、図21(D)のとおり出力される。
その後さらに、マイク番号が#1から#2へ変化しても同様である。
以上、概略説明した制御動作をフローチャートを参照してさらに説明する。
図22は声紋認証処理プロセッサPで行われる制御のメインフローを示す図である。
たとえば、2kHzのT1タイマがスタートし、50μs毎に図23に示すT1タイマ割込みに移行する。そして、一定レベル以上の音声入力があれば(ステップST11)、ステップST12に移行する。この一定レベルの閾値は、アプリケーションに応じて適宜設定することができることは言うまでもない。
声紋認証処理プロセッサPはマイク切替え信号MC_SELが供給されているので、ステップST11において一定レベル以上の音声入力があれば、その音声のマイク番号(1〜6)を把握している。従って、ステップST12では、その入力音声データのサンプリングを開始し、その音声のマイク番号(1〜6)に応じたバッファに音声データを保持する。
一定レベル以上の音声入力がなければ、ステップST12では何もしない。
図25は、図22に示したメインフローの制御においてマイク選択情報が変化した場合の割込みフローを示した図である。すなわち、通常制御動作であるメインフローにおいて、通話装置で選択されるマイク番号が変化して、その情報がマイク切替え信号MC_SELを通して通知された場合に発生する割込みフローであり、図21の例で言えば、本割込み以前にマイク番号4(マイク切替え信号MC_SEL=4)の音声データをマイク番号4のバッファにサンプリングをして格納していたとき、マイク切替え信号MC_SELが4から1へ変化した場合である。
図25のステップST40において、声紋認証処理プロセッサPは音声サンプリングを行っていた場合は、それ以上バッファには音声データを格納しない。
この場合は、現在行っているマイク番号4からの発話入力は終了したものとみなし、サンプリングを終了する(ステップST41)。
さらに、サンプリングが終了したマイク番号4の音声データは、声紋認証処理プロセッサPにおいて音声認識処理が行われる(ステップST42)。図21の例では、声紋認証処理プロセッサPにおいて、マイク番号4の音声データは”Open File”と認識され、その文字列データが通話装置1Aの外部に出力される。
図22のステップST10において、T1タイマが開始され、例えば50μs(20kHz)毎に図22に示すT1タイマ割込みフローが開始される。T1タイマ割込みでは、5μs毎に音声入力があるか、および、一定レベル以上の音声入力があるか監視を行い、適切な処置を施す。まず、ステップST20で音声サンプリングを行っていたか否かチェックされる。
音声サンプリングを行っていた場合は、声紋認証処理プロセッサPはさらに一定レベルの音声入力があるか否かチェックし(ステップST21)、一定レベルの音声入力がある場合には後述するT2タイマは停止する。T2タイマは発話がない状態を監視し、一定時間発話がない場合には自動的に次のフェーズである音声認識に移行するためのものである。
発話、すなわち、音声入力が一定レベル以上ある場合は、発話が継続していると考えられ、ステップST22において、T2タイマはリセットされる。
また、ステップST20で音声サンプリングを行っているが、一定レベル以上の音声入力がない場合には、現在の発話が終了した可能性があるため、発話がない状態の継続時間を監視するため、T2タイマをスタートさせる(ステップST23)。
ステップST21で一定レベル以上の音声入力がない場合でも、発話を再開する可能性があるため、音声サンプリングは継続する(ステップST24)。
ステップST20で音声サンプリングを行っていない場合は、声紋認証処理プロセッサPはステップST25で一定レベル以上の音声入力があるか否かがチェックする。これにより、発話が開始された否かがチェックされ、一定レベル以上の音声入力がある場合は、声紋認証処理プロセッサPは発話が開始されたものとし、新しく選択されたマイクに対応したバッファに音声サンプリングが開始される(ステップST26)。
ステップST25で一定レベル以上の音声入力がない場合には、声紋認証処理プロセッサPは何もせず次の有効な発話を待つことになる。
図23のステップST23で、例えば2HzのT2タイマが開始され、一定時間経過した場合、すなわち、声紋認証処理プロセッサPは音声サンプリングは実施しているが(ステップST20)、一定レベル以上の音声入力がない場合が一定時間継続した場合は、音声サンプリングを継続することは無駄であるため、図24に示すT2タイマ割込みフローに移行する。
すなわち、その時行っていた音声のサンプリングを終了し(ステップST30)、音声認識処理に移行する(ステップST31)。
音声認識処理に移行した後、ステップST32において、次の発話の処理のため、T2タイマはリセットされる。
声紋認証部32によれば、複数の会議出席者のそれぞれが使用するマイクロフォンを通して、複数人が重なって通話装置に対して音声によりコマンドを発している場合でも、各音声の帯域毎の音圧レベルを分析して、主の話者を特定してその音声信号を引き渡す。したがって、声紋認証部32において、複数の音声コマンドが同時に入力された場合でも誤認識処理を起こす可能性を極力回避することができ、主に発話している音声コマンドを適切に判断・処理を行うことが可能である。
声紋認証部32の声紋認証処理プロセッサPは、引き渡された音声コマンド信号をバッファリングし、バッファリングした音声信号を音声認識処理し、辞書メモリM1に格納されるコマンド文字列データと照合し、合致する文字列データを選択して処理される。
また、声紋認証部32の声紋認証処理プロセッサPは、声紋登録装置32Aから選択されたマイク番号を逐次通知されている。したがって、その選択されたマイク番号が切り替わった場合には、バッファリングを中止し、それまでバッファリングしていた音声信号を音声認識処理し、更新されたマイク番号からの音声コマンド信号のバッファリングを開始するので、音声認識の精度が向上する。
第3実施の形態
図2、図26〜図31を参照して本発明の音声集音・映像撮像装置の第3実施の形態について述べる。
本発明の第3実施の形態は、上述した通話装置を用い、これらに、撮像手段を付加して、テレビジョン会議(TV会議)システムを構成した場合について述べる。
図2は音声集音・映像撮像装置のテレビカメラ装置40A1、40A2の初期状態を示し、図31は通話装置および撮像調整部36による撮像条件の決定に基づきテレビカメラ装置40A1、40A2が撮像する状態を示す図である。
従来のカメラ付き会議システムでは、各発言者個別のマイクロフォンの番号や、TV会議システムの管理者(議長)による制御によりカメラの向きを制御していた。このような方法だと発言者ごとに個別のマイクロフォンが必要なため高価なシステムが必要であったり、TV会議システムの管理者が発言者が変わるたびに撮像領域を変更するためのカメラ撮像方向の変更制御をしなければいけないという面倒さがあった。
また発言者の名前表示等については通常、マイクロフォンと発言者名が連動しており参加者が座る座席を途中変更すると、再設定が必要になり、手続きが複雑であった。
なお、単に音が出ている方向にカメラの向きを向けるという簡便なシステムも存在するが、カメラの向きが撮像に適しない人の方向に向いたり、周囲のノイズ、たとえば、会議に使用しているプロジェクタ装置のファンの音に感応してプロジェクタ装置の方向にカメラの撮像方向が向くという不具合が起こる。
上述した音声集音・映像撮像装置の通話装置を用いれば、話者の選択が正確になる、会議出席者の近傍にマイクロフォンを設置する必要がないなど、種々の利点があり、上述した不具合を改善できる。
すなわち、図5に図解した、全方位に複数のマイクロフォンMC1〜MC6を配置し、第1のディジタルシグナルプロセッサ(DSP)25により現在主に発話している方向のマイクロフォンの集音信号を選択する機能を持った図6に図解した通話装置を用いると、正確に発言者のマイクロフォンを選択できる。マイクロフォンは、たとえば、均等の角度で配置されているから、たとえば、DSP25においてマイクロフォンを選択できれば、DSP25におていマイクロフォンの配置方向が決定でき、さらにDSP25において話者の方向を特定できる。
さらに好ましくは、図20を参照して第2実施の形態として述べた、図6に図解した通話装置に声紋認証部32を付加した通話装置によって、声紋認証部32から出力される認証合格信号S32と、DSP25からマイクロプロセッサ23に出力されるマイクロフォン選択信号S251を用いると、正確に発言者を特定できる。
図1(B)、図2、図31に例示したように、発言者は対応するマイクロフォンの前に座っているから、事前にDSP25に各マイクロフォンの位置に対応する発言者の位置を登録しておく。さらに、DSP25には、各テレビカメラ装置40A1、40A2と発言者の位置および方向を登録しておく。
以上の話者の方向と位置を用いれば、各テレビカメラ装置40A1、40A2が撮像すべき発言者の撮像領域を決定できる。
そこで、第3実施の形態においては、図26、図27に図解したように、本発明の撮像手段としてのテレビカメラ装置40A1、40A2(代表して、テレビカメラ装置40)と、このテレビカメラ装置40の撮像条件を調整する撮像調整手段としての撮像調整部36とを、図20を参照して述べた通話装置に付加している。
図26、図27は本発明の第3実施の形態としての音声集音・映像撮像装置の構成図である。図27は、図20に図解した通話装置に、撮像調整部36とテレビカメラ装置40(テレビカメラ装置40A1、40A2)とを付加した音声集音・映像撮像装置の構成図であり、図27は、図26に図解した音声集音・映像撮像装置から利得可変型増幅器301〜306と増幅器利得調整部34とを削除した音声集音・映像撮像装置の構成図である。
(1)本発明の第3実施の形態としては、第1実施の形態として述べたDSP25によるマイクロフォン選択処理が必須となり、DSP25におけるマイクロフォン選択処理結果に基づいて撮像調整部36がテレビカメラ装置40の撮像条件を制御する。
(2)本発明の第3実施の形態の好ましい形態としては、図26に図解した構成において、図20を参照して述べた第2実施の形態のように、第1実施の形態として述べたDSP25によるマイクロフォン選択処理に加えて、声紋認証部32における声紋認証を行って、マイクロフォン選択処理結果と声紋認証との両者が一致した場合のみ、撮像調整部36によってテレビカメラ装置40(テレビカメラ装置40A1、40A2)の撮像条件を制御する。
(3)本発明の第3実施の形態のさらに好ましい形態としては、図27に図解した構成において、図20を参照して述べた第2実施の形態のように、第1実施の形態として述べたDSP25によるマイクロフォン選択処理に加えて、声紋認証部32における声紋認証を行って、マイクロフォン選択処理結果と声紋認証との両者が一致した場合のみ、撮像調整部36によってテレビカメラ装置40(テレビカメラ装置40A1、40A2)の撮像条件を制御するともに、第2実施の形態として述べた、増幅器利得調整部34による利得可変型増幅器301〜306の利得制御をも行う。
以下、図26および図27を参照して、第3実施の形態の基本事項について述べる。
撮像調整部36は、コンピュータを内蔵しており、図2および図31に図解したように、各テレビカメラ装置40A1、40A2の上下左右方向(上下左右向きまたはチルト)、パン、ズーム、照明条件などを調整できる。
なお、撮像調整部36には、事前に、各テレビカメラ装置40A1、40A2について、たとえば、第1マイクロフォンの方向および領域MIC1AREAを撮像するための第1の撮像条件情報、第2マイクロフォンの方向および領域MIC2AREAを撮像するための第2の撮像条件情報などがコンピュータのメモリ部分に設定されている。好ましくは、これら撮像条件情報には、会議参加者の氏名、職名または役職などを含めてもよい。
図2に図解した例示においては、撮像調整部36は、初期状態として、各テレビカメラ装置40A1、40A2が会議室内の通話装置10Aを中心として会議室の左右を分担し、かつ、合わせて出席者全員を撮像可能にしている。
各テレビカメラ装置40A1、40A2は、撮像調整部36から与えられる撮像条件、たとえば、、撮像方向(上下、左右方向)、ズームするか否か、ズームする場合はどの程度ズームするかの撮像条件が与えられると、その撮像条件で撮像可能な構成になっている。テレビカメラ装置40A1、40A2で撮像した画像信号は、プロジェクタ装置60A(またはテレビジョン受像機50A)に表示される他、遠隔の音声集音・映像撮像装置のプロジェクタ装置60B(またはテレビジョン受像機50B)に表示される。
増幅器利得調整部34および撮像調整部36は、DSP25で選択したマイクロフォンの番号を示すマイクロフォン選択信号S251をマイクロプロセッサ23を介して入力する。
増幅器利得調整部34および撮像調整部36は、DSP25で選択した集音信号がDSP26でエコーキャンセル処理されて出力された選択音声信号S26が、声紋認証部32において声紋認証されて事前に登録した声紋と一致したとき、「1」として出力される認証合格信号S32を入力する。
増幅器利得調整部34は第2実施の形態として述べた方法により、マイクロフォン選択信号S251で示されたマイクロフォンに対応する利得可変型増幅器の利得を大きな第1の利得に設定する。その結果は第2実施の形態において述べたと同様である。
撮像調整部36は、マイクロフォン選択信号S251で示されたマイクロフォンに該当する、撮像調整部36に事前に設定された撮像条件情報をメモリから読みだして、その撮像条件情報に基づいてテレビカメラ装置40A1、40A2の撮像条件を調整する。
たとえば、マイクロフォン選択信号S251が第1マイクロフォンを示している場合、、第1マイクロフォンの方向および領域MIC1 AREA(図26、たとえば、図2の左方向)を撮像するための第1の撮像条件情報に基づいて、第1マイクロフォンの方向および領域MIC1AREAを撮像するように、各テレビカメラ装置40A1、40A2の方向または向き(上下、左右)を制御する。第1の撮像条件情報がズーム情報を含んでいる場合は、撮像調整部36はさらにテレビカメラ装置40A1、40A2にズーム処理を指示する。
テレビカメラ装置40A1、40A2は撮像調整部36で指示された条件で撮像を行い、その結果を図示しない回線を用いて遠隔の相手方の音声集音・映像撮像装置のプロジェクタ装置に送出する。また、テレビカメラ装置40A1、40A2の撮像結果を、その音声集音・映像撮像装置のプロジェクタ装置に表示することもできる。
このように、遠隔の相手方の音声集音・映像撮像装置が設置されている室内のモニタ装置としてのプロジェクタ装置に、DSP25でマイクロフォンが選択され、さらに、声紋認証部32において声紋認証されたマイクロフォンを用いて発言した会議出席者の映像が選択表示される。
撮像調整部36は、テレビカメラ装置40A1、40A2が撮像した映像信号に、撮像条件情報に含まれる、氏名、役職などの情報を重畳することができる。その結果、通話装置が設置されている室内のモニタ装置としてのプロジェクタ装置、および、遠隔の相手方のプロジェクタ装置には、テレビカメラ装置40A1、40A2で撮像した映像だけでなく、氏名、役職などの情報が重畳されて表示される。
動作形態
図28〜図29を参照して第3実施の形態の音声集音・映像撮像装置の動作形態を述べる。
1.初期状態として、撮像調整部36はテレビカメラ装置40A1、40A2を図2に図解したように、広角にしておく。
2.図28、ステップS51:会議が始まり発言者があると、通話装置は上述した方法で発言者の音声を検出する。
3.ステップS52〜53:好ましくは、通話装置の声紋認証部32において発言者の声紋を抽出して声紋認識処理を行う。声紋登録装置32Aに登録されていない声紋の場合、ステップS60の処理に移行する。
4.ステップS60〜64:新しい声紋の場合の処理を行う。この処理の詳細は後述する。
5.ステップS54:声紋認証部32は前回と同じ声紋か、または、音を検出したマイクロフォンが前回と同じか否かをチェックし、前回と同じ声紋または前回と同じマイクロフォンが選択されている場合は、ステップS51の処理に戻る。
前回と異なる声紋または前回と異なるマイクロフォンが選択されている場合は、ステップS55の処理に移行する。
6.ステップS55〜59:ステップS60〜64:
これらの処理を述べる前に、図29に示したサブルーチン1および図30に示したサブルーチン2の処理を述べる。
図29、サブルーチン1
ステップS70:音声集音・映像撮像装置を設置したとき、通話装置の各マイクロフォン、テレビカメラ装置40A1、40A2の座標位置を、撮像調整部36に入力しておく。これらの情報は、通話装置において発言者の音の方向(マイクロフォン位置)を特定し、たとえば、さらに声紋認識で発言者を特定したとき、各テレビカメラ装置40A1、40A2からその発言者の方向および距離を算出する情報となる。
ステップS71:撮像調整部36はDSP25の結果である選択された2つのマイクロフォンから算出した音源方向検出データを入手する。
上述した実施の形態において、話者がどのマイクの近くにいるのかを検出し、そのマイク付近を撮影するのにふさわしいテレビカメラ装置40A1、40A2が選択される。
なお、第1実施の形態においては、対向して配置された1対のマイクロフォンを用いて、最も音の高い音を検出したマイクロフォンを選択する場合を好適実施の形態として述べたが、本実施の形態においては、図2および図31に図解したように、たとえば、6個のマイクロフォンに対して8名の会議出席者がいる場合をも想定している。
このような場合、マイクロフォンの数と会議出席者の数とが1対1に対応していないから、隣接する2つのマイクロフォンの間に位置する会議出席者がいることになる。このような場合、第1実施の形態のように1つのマイクロフォンのみを選択するのではなく、最大の音を検出した第1マイクロフォンと次に高い音を検出した第2マイクロフォンとを選択し、これら2つのマイクロフォンから音源方向を検出する。したがって、音源方向データは、2つの隣接するマイクロフォンの向き(配置、第1の配置条件)から規定できる。
音源方向の特定と、テレビカメラ装置40A1、40A2の撮影条件との関係は、たとえば、図31に図解したように、会議出席者A1の顔の正面が撮像できるテレビカメラ装置40A2で会議出席者A1の顔を撮影し、他方のテレビカメラ装置40A1で会議室の右側全体、または、議長(たとえば、会議出席者A4)、または、会議出席者全員を撮影する。
ステップS72:撮像調整部36は音源方向検出データに変化があるか否かをチェックし、変化がなければステップS71の処理に戻り、変化があれば、ステップS73の処理に移行する。
ステップS73:撮像調整部36は、隣接する2つのマイクロフォンの向き(方向)から、交点を算出する。なお、交点の算出に使用するデータは、ステップS70で設定したデータを用いる。
これにより、通話装置10Aの中心から、発言者の位置が推定できる。
ステップS74:撮像調整部36は、算出した交点までの各テレビカメラ装置40A1、40A2の距離、上下左右方向(または上下左右向き)を算出する。なお、この距離および方向の算出に使用するデータは、ステップS70で設定したデータを用いる。
ステップS75、76:撮像調整部36は、算出した向き(方向)に各テレビカメラ装置40A1、40A2をパンさせる。その後、撮像調整部36の処理は、呼び出された図28のステップに次に戻る。
図30、サブルーチン2
ステップS80、81:図28に図解したメインルーチンのサブルーチン2の結果(テレビカメラ装置40A1、40A2の撮像結果)を見る。その結果、出力がなければステップS80の処理に戻り、出力があればステップS82に移行する。
ステップS82〜84:撮像調整部36はテレビカメラ装置40A1、40A2の撮像結果(画像)の輪郭、すなわち、会議出席者の輪郭を探し(ステップS82)、その輪郭が画像の枠(フレーム)一杯になるように、テレビカメラ装置40A1、40A2に対してズーム制御を行う。上述したように、たとえば、図31に図解したように、会議出席者A1を撮影する場合は、会議出席者A1の顔の正面が撮像できるテレビカメラ装置40A2で会議出席者A1の顔を撮影し、ズーム処理を行う。ズーム処理後、呼び出されたメインルーチンに次のステップSに戻る。
すなわち、テレビカメラ装置40A1、40A2の撮像結果から撮像調整部36が話者の発言している状態を画像認識し、話者の顔の輪郭が画枠の中心になるよう、テレビカメラ装置40A1、40A2の向きをパン、チルトにて変化させ、ズームを行う。また、同時に話者の声紋を登録する。
この時、撮像調整部36がもし2人以上の画像を認識してしまった場合には、モニタ装置としてのプロジェクタ装置60Aにその旨を表示する。たとえば、認識した全員の顔を表示するので、話者はその中からどれが自分であるかを選択し、必要があれば、手動でパン、チルト、ズーム操作を行い、出来る限り話者一人だけが画枠に入るようにする。
ステップS55〜59:ステップS60〜64:
図29に示したサブルーチン1および図30に示したサブルーチン2の処理を参照して、これらの処理を述べる。
ステップS55〜56、60〜61:音源方向検出データをサブルーチン1に渡してテレビカメラ装置40A1、40A2のうち該当するものをパンさせる。
ステップS57〜58、62〜63:画像認識処理を行うサブルーチン2の処理を行う。
ステップS59、64:声紋認証部32による声紋データと、テレビカメラ装置40A1、40A2のパン、チルト、ズームのデータを1対として、たとえば、撮像調整部36のデータベースに保存し、次回の処理に用いる。
すなわち、話者の声紋と、その話者を明瞭に映し出すためのカメラのパン、チルト、ズームのデータを一対一で対応させ、データとして登録する。その結果、以後、話者が変わっても、話者の声紋を登録データと照合することにより、話者を明瞭に映し出すためのカメラのパン、チルト、ズーム動作が自動的に行われる。
なお、マイクロフォンの選択が適正に行われない場合、あるいは、マイクロフォンの選択が行われたが声紋認証が合格されない、デフォルト状態のときは、撮像調整部36は、デフォルト処理を行う。そのようなデフォルト処理としては、撮像調整部36は、図2に図解した初期状態、すなわち、各テレビカメラ装置40A1、40A2が会議室の左右を分担して撮像する撮像条件をテレビカメラ装置40A1、40A2に与える。その結果、テレビカメラ装置40A1、40A2は初期状態の映像を撮像する。
なお、デフォルトのとき、増幅器利得調整部34は利得可変型増幅器301〜306の利得調整を行わない。
以下、発言者の撮影例を述べる。
第1マイクロフォンの方向および領域MIC1 AREAにいる会議参加者A1が第1マイクロフォンMC1を用いて発言したとする。第1マイクロフォンMC1の集音信号は、A/D変換器271でディジタル信号に変換されてDSP25に入力され、第1実施の形態において述べた方法により選択される。このとき、DSP25はマイクロプロセッサ23に第1マイクロフォンMC1を選択したことを示すマイクロフォン選択信号S251を出力する。マイクロフォン選択信号S251はマイクロプロセッサ23から撮像方向調整部36に出力される。
また、DSP25で選択された第1マイクロフォンの集音信号はDSP26に出力され、DSP26でエコーキャンセルされ、選択音声信号S26としてD/A変換器282、増幅器291を経由して声紋認証部32に入力される。
声紋認証部32は、選択音声信号S26が声紋認証部32内の声紋登録メモリM2に事前に登録されている声紋に一致するか否かを認証する。会議参加者A1の声紋が声紋認証部32の声紋登録メモリM2に事前に登録されていれば、声紋認証部32から合格を示す「1」の認証合格信号S32が増幅器利得調整部34と撮像調整部36に出力される。
他方、会議参加者A1の声紋が声紋認証部32の声紋登録メモリM2に事前に登録されていなければ、声紋認証部32から不合格を示す「0」の認証合格信号S32が撮像調整部36に出力される。
撮像調整部36は、「1」の認証合格信号S32が入力されたとき、マイクロフォン選択信号S251で示された第1マイクロフォンMC1についての第1撮像条件情報に基づいて、テレビカメラ装置40A1、40A2を制御する。その結果、第1マイクロフォンの方向および領域MIC1 AREAが撮像されて、会議参加者A1が撮像される。
撮像調整部36は会議参加者A1が発言をしている間、第1撮像条件情報に基づいてテレビカメラ40で第1マイクロフォンの方向および領域MIC1 AREAを撮像を継続させる。
次に、声紋認証部32には声紋が登録されていない、第3のマイクロフォンMC3を用いた会議参加者A3が発言し、DSP25においてその発言が選択されたとする。
DSP25からは、第3のマイクロフォンMC3を示すマイクロフォン選択信号S251がマイクロプロセッサ23を経由して撮像調整部36に出力される。もちろん、第3のマイクロフォンMC3の集音信号はDSP26に入力されてエコーキャンセル処理され、DSP26として声紋認証部32に出力される。
会議参加者A3の声紋は声紋認証部32に登録されていないから、声紋認証部32からは、不合格を示す「0」の認証合格信号S32が撮像調整部36に出力される。
撮像調整部36は、「0」の認証合格信号S32に入力されたとき、デフォルトと判断する。デフォルトの場合の処理としては、撮像調整部36は、たとえば、テレビカメラ装置40A1、40A2の撮像条件を継続するか、初期状態として会議室の左右かつ会議者全体が撮像されるようにする。
複数の会議参加者が同時に発言した時は、DSP25において音のレベルの高い方が選択され、その後は、上記の声紋認証の結果により撮像調整部36を介してテレビカメラ装置40A1、40A2の撮像条件が制御される。
以上の処理は遠隔会議の先方の音声集音・映像撮像装置でも全く同様に行われる。
また声紋登録、認証が遠隔の先方で使えない場合、先方の会議参加者の声紋登録や会議中の声紋認証を通話装置が設置されているこちら側で行い、先方の音声集音・映像撮像装置のテレビカメラ装置の撮像条件を制御することもできる。
第3実施の形態の音声集音・映像撮像装置を用いることにより、明瞭な音声および映像による遠隔会議の相手側に伝わるのは勿論であるが、会議参加者が発言するとその声紋が認証され、テレビカメラ装置がその声紋認証された発言者の方を向いて映すことができる。
第3実施の形態によれば、会議参加者ごとに個別のマイクロフォンを設けることも不要であるし、システム管理者、たとえば、議長によるテレビカメラ装置40A1、40A2の撮像条件の制御も不要である。
さらに会議中に会議参加者が場所を移動しても、DSP25におけるマイクロフォン選択処理により有効なマイクロフォンが選択されかつ声紋認証部32における声紋の認証により、テレビカメラ装置40A1、40A2をその会議参加者のいる方向および領域に向かわせることができる。
また会議中はシステム管理者(たとえば、議長)がなにもしなくても、テレビジョン受像機またはテレビジョン受像機に発言者の名前とかが自動的に表示される。
以上、第3実施の形態の好適な例示として、図26および図27を参照して、DSP25におけるマイクロフォン選択を行い、さらに、声紋認証部32における声紋認証をした結果、撮像調整部36がテレビカメラ装置40A1、40A2を撮像条件に従って制御する場合について述べたが、基本的には、DSP25によるマイクロフォン選択結果のみについて、撮像調整部36によるテレビカメラ装置40A1、40A2の撮像制御を行うこともできる。
第3実施の形態に実施に際しては、第1実施の形態におい述べたように、マイクロフォンが等角度で放射状に配置されている場合には限定されない。マイクロフォンが等角度で放射状に配置されていない場合でも、DSP25は、たとえば、最大振幅を示すマイクロフォンを選択することができ、声紋認証部32は事前に登録された声紋と一致しているか否かを認証することができる。
この場合でも、撮像調整部36は事前に設定された撮像条件情報に基づいて、テレビカメラ装置40A1、40A2の撮像条件を制御する。
本発明の第3実施の形態によれば、会議中に話者が変わっても、話者を映し出すカメラの選択、及び選択されたカメラのパン、チルト、ズームが自動的に変わるため、従来のように手動でセッティングを変更する必要がなく、常に話者の明瞭な映像を映し出し続けることができる。
また、話者方向検出技術と画像認識技術を用いることで、話者を映し出すカメラのパン、チルト、ズーム動作が自動的に行われ、話者の明瞭な映像を映し出すことができる。特に、話者の声紋照合を行うことで、話者が変わる度に自動的にカメラのパン、チルト、ズーム動作が行われ、新しい話者を明瞭に撮影することが可能である。
また本発明の第3実施の形態によれば、マイクロフォンとテレビカメラ装置40A1、40A2の相対位置が厳密でなくても、上述した画像認識処理などにより実用的な画像及び音声が収録できる。
本発明の実施に際しては、上述した複数の実施の形態を適宜組み合わせることができる。
図1(A)は本発明の音声集音・映像撮像装置が適用される1例しての会議システムの概要を示す図であり、図1(B)は図1(A)における音声集音・映像撮像装置の通話装置が載置される状態を示す図であり、図1(C)はテーブルに載置された通話装置と会議参加者との配置を示す図である。 図2は本発明の実施の形態の音声集音・映像撮像装置の平面構成図である。 図3は本発明の実施の形態の通話装置の斜視図である。 図4は図3に図解した通話装置の内部断面図である。 図5は図3に図解した通話装置の上部カバーを取り外したマイクロフォン・電子回路収容部の平面図である。 図6は第1実施の形態のマイクロフォン・電子回路収容部の主要回路の構成および接続状態を示す図であり、第1のディジタルシグナルプロセッサ(DSP1)および第2のディジタルシグナルプロセッサ(DSP2)の接続の接続状態を示している。 図7は図5に図解したマイクロフォンの特性図である。 図8(A)〜(D)は、図6に図解した特性を持つマイクロフォンの指向性を分析した結果を示すグラフである。 図9は本発明の通話装置の変形態様の部分構成図である。 図10は第1のディジタルシグナルプロセッサ(DSP1)における全体処理内容の概要を示すグラフである。 図11は本発明の通話装置内のフィルタリング処理を示す図である。 図12は図11の処理結果を示す周波数特性図である。 図13は本発明のバンドパス・フィルタリング処理とレベル変換処理を示すブロック図である。 図14は図13の処理を示すフローチャートである。 図15は本発明の通話装置における発言開始、終了を判定する処理を示すグラフである。 図16は本発明の通話装置における通常処理の流れを示すグラフである。 図17は本発明の通話装置における通常処理の流れを示すフローチャートである。 図18は本発明の通話装置におけるマイクロフォン切り替え処理を図解したブロック図である。 図19は本発明の通話装置におけるマイクロフォン切り替え処理の方法を図解したブロック図である。 図20は第2実施の形態のマイクロフォン・電子回路収容部の主要回路の構成および接続状態を示す図である。 図21は図20に図解した声紋認証部の処理を示すグラフである。 図22は図20に図解した声紋認証部の処理を示す第1のフローチャートである。 図23は図20に図解した声紋認証部の処理を示す第2のフローチャートである。 図24は図20に図解した声紋認証部の処理を示す第3のフローチャートである。 図25は図20に図解した声紋認証部の処理を示す第4のフローチャートである。 図26は第3実施の形態の会議装置の構成図である。 図27は第3実施の形態の会議装置の他の構成図である。 図28は第3実施の形態の動作を示すフローチャートである。 図29は第3実施の形態の緒と検出から撮影までの処理の流れ(その1)を示すフローチャートである。 図30は第3実施の形態の緒と検出から撮影までの処理の流れ(その2)を示すフローチャートである。 図31は第3実施の形態のテレビカメラ装置の撮像状態を示す図である。
符号の説明
1A、1B・・音声集音・映像撮像装置
10A、10B・・通話装置(音声集音手段)
11・・上部カバー、12・・音反射板、13・・連結部材
14・・スピーカ収容部、15・・操作部、16・・受話再生スピーカ
17・・拘束部材、18・・ダンパ
2・・マイクロフォン・電子回路収容部
MC1〜MC・・マイクロフォン
21・・プリント基板、22・・マイクロフォン支持部材
23・・マイクロプロセッサ、24・・コーデック
25・・第1のDSP、26・・第2のDSP
27・・A/D変換器ブロック、271〜274・・A/D変換器
28・・D/A変換器ブロック、29・・増幅器ブロック
30・・マイクロフォン選択結果表示手段
301〜306・・可変利得型増幅器
32・・声紋認証部
34・・増幅器利得調整部
36・・撮像調整部
40(40A、40B)・・テレビカメラ装置(撮像手段)

Claims (11)

  1. 第1所定配置条件に基づいて配置された、指向性を持つ、複数のマイクロフォンと、
    前記複数のマイクロフォンを使用する話者を撮像するため、第2所定配置条件に基づいて配置され、パン、チルト、ズーム可能な撮像手段と、
    前記複数のマイクロフォンの集音信号を検出し、該検出した集音信号と前記第1および第2所定配置条件に基づいて前記マイクロフォンを使用した話者の方向および話者と前記撮像手段との距離を算出し、該算出したデータに基づいて前記撮像手段の撮影条件を制御する撮像調整手段と
    を具備する音声集音・映像撮像装置。
  2. 前記複数のマイクロフォンを使用する複数の話者の声紋を認証する声紋認証手段をさらに具備し、
    前記撮像調整手段は、前記声紋認証手段で声紋認証されたとき、前記マイクロフォン信号選択手段で選択したマイクロフォンに対応する撮像条件情報に基づいて撮像手段の撮像条件を制御する、
    請求項1記載の音声集音・映像撮像装置。
  3. 前記撮像調整手段は、前記撮像手段で撮像した画像の輪郭を検出し、検出した輪郭が画枠内に一杯になるように、前記撮像手段をズームさせる、
    請求項1または2記載の音声集音・映像撮像装置。
  4. 前記撮像調整手段は、前記声紋認証手段で声紋認証されないとき、前記撮像手段をデフォルト状態にする、
    請求項1または2記載の音声集音・映像撮像装置。
  5. 前記撮像調整手段は、前記デフォルト状態として、前記撮像手段の条件を変化させない、
    請求項4記載の音声集音・映像撮像装置。
  6. 前記撮像調整手段は、前記デフォルト状態として、前記撮像手段を初期撮像条件にする、
    請求項4記載の音声集音・映像撮像装置。
  7. 前記マイクロフォンの集音信号を増幅する、利得調整可能な利得可変型増幅手段と、
    増幅器利得調整手段と
    をさらに具備し、
    前記増幅器利得調整手段は、前記声紋認証手段が声紋認証したときマイクロフォン選択信号で示されるマイクロフォンに対応する前記利得可変型増幅手段の利得を大きな第1の利得に設定する、
    請求項2〜6いずれか記載の音声集音・映像撮像装置。
  8. 前記増幅器利得調整手段は、前記声紋認証手段が声紋認証されないとき、マイクロフォン選択信号で示されるマイクロフォンに対応する前記利得可変型増幅手段の利得を低い第2の利得に設定する、
    請求項7記載の音声集音・映像撮像装置。
  9. 前記複数のマイクロフォンは等角度で放射状に配置されており、
    前記複数のマイクロフォンの近傍に、前記複数のマイクロフォンに対して等距離に配置された音声出力手段をさらに有する、
    請求項1〜8いずれか記載の音声集音・映像撮像装置。
  10. 複数のマイクロフォンの集音信号のうち1つを選択するマイクロフォン信号選択工程と、
    前記選択されたマイクロフォンに対応する撮像条件情報に基づいて撮像手段の撮像条件を決定し撮像条件を調整する工程と
    を具備する撮像条件決定方法。
  11. 前記選択されたマイクロフォン集音信号について事前に登録された声紋と一致するか否かを声紋認証を行う声紋認証工程をさらに具備し、
    前記撮像調整工程において、前記声紋認証工程において声紋認証されたとき、前記マイクロフォン信号選択工程で選択したマイクロフォンに対応する撮像条件情報に基づいて前記撮像手段の撮像条件を制御する、
    請求項10記載の撮像条件決定方法。
JP2003389892A 2003-11-19 2003-11-19 音声集音・映像撮像装置および撮像条件決定方法 Expired - Lifetime JP4479227B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003389892A JP4479227B2 (ja) 2003-11-19 2003-11-19 音声集音・映像撮像装置および撮像条件決定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003389892A JP4479227B2 (ja) 2003-11-19 2003-11-19 音声集音・映像撮像装置および撮像条件決定方法

Publications (2)

Publication Number Publication Date
JP2005151471A true JP2005151471A (ja) 2005-06-09
JP4479227B2 JP4479227B2 (ja) 2010-06-09

Family

ID=34696485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003389892A Expired - Lifetime JP4479227B2 (ja) 2003-11-19 2003-11-19 音声集音・映像撮像装置および撮像条件決定方法

Country Status (1)

Country Link
JP (1) JP4479227B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007139040A1 (ja) * 2006-05-25 2007-12-06 Yamaha Corporation 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
KR100874470B1 (ko) 2007-04-24 2008-12-18 주식회사 비에스이 아날로그 시그널 프로세서를 이용한 가변 지향성마이크로폰
JP2009508560A (ja) * 2005-09-21 2009-03-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 遠隔に位置するマイクロフォンを使用して音声起動される制御を有する超音波イメージングシステム
JP2013005451A (ja) * 2011-06-20 2013-01-07 Polycom Inc ビデオ会議のための自動カメラ選択
WO2015146179A1 (ja) * 2014-03-28 2015-10-01 パナソニックIpマネジメント株式会社 音声コマンド入力装置および音声コマンド入力方法
CN105162611A (zh) * 2015-10-21 2015-12-16 深圳市达威思智能科技有限公司 一种数字会议系统及管理控制方法
JP2021016044A (ja) * 2019-07-10 2021-02-12 株式会社リコー 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
WO2021217897A1 (zh) * 2020-04-28 2021-11-04 深圳市鸿合创新信息技术有限责任公司 定位方法、终端设备及会议系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508560A (ja) * 2005-09-21 2009-03-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 遠隔に位置するマイクロフォンを使用して音声起動される制御を有する超音波イメージングシステム
WO2007139040A1 (ja) * 2006-05-25 2007-12-06 Yamaha Corporation 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
KR100874470B1 (ko) 2007-04-24 2008-12-18 주식회사 비에스이 아날로그 시그널 프로세서를 이용한 가변 지향성마이크로폰
JP2013005451A (ja) * 2011-06-20 2013-01-07 Polycom Inc ビデオ会議のための自動カメラ選択
US9030520B2 (en) 2011-06-20 2015-05-12 Polycom, Inc. Automatic camera selection for videoconferencing
US10304456B2 (en) 2014-03-28 2019-05-28 Panasonic Intellectual Property Management Co., Ltd. Voice command input device and voice command input method
WO2015146179A1 (ja) * 2014-03-28 2015-10-01 パナソニックIpマネジメント株式会社 音声コマンド入力装置および音声コマンド入力方法
JPWO2015146179A1 (ja) * 2014-03-28 2017-04-13 パナソニックIpマネジメント株式会社 音声コマンド入力装置および音声コマンド入力方法
US10074367B2 (en) 2014-03-28 2018-09-11 Panasonic Intellectual Property Management Co., Ltd. Voice command input device and voice command input method
CN105162611A (zh) * 2015-10-21 2015-12-16 深圳市达威思智能科技有限公司 一种数字会议系统及管理控制方法
CN105162611B (zh) * 2015-10-21 2019-03-15 方图智能(深圳)科技集团股份有限公司 一种数字会议系统及管理控制方法
JP2021016044A (ja) * 2019-07-10 2021-02-12 株式会社リコー 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
JP7310388B2 (ja) 2019-07-10 2023-07-19 株式会社リコー 情報処理装置、情報処理システム、情報処理方法及び情報処理プログラム
WO2021217897A1 (zh) * 2020-04-28 2021-11-04 深圳市鸿合创新信息技术有限责任公司 定位方法、终端设备及会议系统

Also Published As

Publication number Publication date
JP4479227B2 (ja) 2010-06-09

Similar Documents

Publication Publication Date Title
JP2005086365A (ja) 通話装置、会議装置および撮像条件調整方法
JP3972921B2 (ja) 音声集音装置とエコーキャンセル処理方法
JP3891153B2 (ja) 通話装置
JP4411959B2 (ja) 音声集音・映像撮像装置
JP4192800B2 (ja) 音声集音装置と方法
US7519175B2 (en) Integral microphone and speaker configuration type two-way communication apparatus
JP2008103824A (ja) 音声会議装置及び音声会議システム
JP4479227B2 (ja) 音声集音・映像撮像装置および撮像条件決定方法
JP4639639B2 (ja) マイクロフォン信号生成方法および通話装置
JP4281568B2 (ja) 通話装置
JP4225129B2 (ja) マイクロフォン・スピーカ一体構成型・双方向通話装置
JP4269854B2 (ja) 通話装置
JP4453294B2 (ja) マイクロフォン・スピーカ一体構成型・通話装置
JP2005181391A (ja) 音声処理装置および音声処理方法
JP4403370B2 (ja) マイクロフォン・スピーカ一体構成型・通話装置
JP4379105B2 (ja) 飲食店における受注装置
JP4470413B2 (ja) マイクロフォン・スピーカ一体構成型・通話装置
JP2005151042A (ja) 音源位置特定装置および撮像装置並びに撮像方法
JP2005148301A (ja) 音声処理装置と音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100223

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100308

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3