JP2004118314A

JP2004118314A - 発話者検出システムおよびそれを用いたテレビ会議システム

Info

Publication number: JP2004118314A
Application number: JP2002277469A
Authority: JP
Inventors: Kazumasa Murai; 村井　和昌
Original assignee: Fuji Xerox Co Ltd; ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International; Fujifilm Business Innovation Corp
Priority date: 2002-09-24
Filing date: 2002-09-24
Publication date: 2004-04-15

Abstract

【課題】撮影中の画像情報に基づいて、発言者を特定して選択的に画像を撮影することが可能なテレビ会議システムを提供する。
【解決手段】テレビ会議システム１０００においては、２つの会議室１００と会議室２００との間で、公衆回線網３００により、通信を行っている。会議室１００には、参加者２，４の各々に対応して設けられ、対応する参加者の顔画像を撮影する複数の小型カメラ１０２と、小型カメラ１０２からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発言者特定システム１１０とが設けられる。
【選択図】　　　　図１

Description

【０００１】
【発明の属する技術分野】
この発明は、ビデオ映像中の人物顔を検出して、検出された人物顔の画像に基づいて発話者を特定するための発話者検出システムおよびそれを用いたテレビ会議システムの構成に関する。
【０００２】
【従来の技術】
近年、通信回線の高速化・大容量化に伴い、遠隔地の２地点、あるいはそれ以上の複数の地点間を結んで、画像信号および音声信号を授受することにより、会議を開催することが可能な、いわゆる「テレビ会議システム」の重要性が増加している。このようなシステムは、遠隔地点間の人間の移動を伴わないため、コストから見て有利な上に、単なる音声による交信に比べて、授受できる情報量が各段に増加するために、コミュニケーション手段として利用価値が高い。
【０００３】
一方で、非特許文献１には、画像中からの実時間での顔検出に関連する技術が開示されているもののテレビ会議システムへの具体的応用については開示がない。
【０００４】
【非特許文献１】
村井和昌、中村哲著「マルチモーダル音声認識のための顔検出」、情報処理学会　音声言語情報処理研究会　Ｖｏｌ．２００２，　Ｎｏ．１０．ｐｐ．３９−４４，　２００２　２００２年２月１日
【０００５】
【発明が解決しようとする課題】
一般には、上述したような「テレビ会議システム」は、その名の示すとおり、交信相手方の会議室内の風景のうち限定された領域が、交信の受け手側のテレビ画面に表示されるに過ぎない。
【０００６】
言いかえると、テレビ会議の開催される複数の会議室のうちの一方に複数の参加者がいる場合には、通常は、この一方の会議室内で、発言中の参加者の画像や音声を選択的に他方の会議室側に送信することが必要である。従来、このように一方の会議室内での発言者を特定し、この発言者の画像および音声を選択的に送信する作業を行うためには、この一方側の会議室において、発言者を撮影するカメラの撮影方向やカメラの切換え、音声を集音するマイクの切換え等を行うためのオペレータが必要であった。
【０００７】
同様に、他方側にも複数の参加者がいる場合は、この他方側の会議室においても同様の操作を行うオペレータが必要になる。
【０００８】
つまり、円滑にテレビ会議を実行するために、このように別途オペレータが必要であるとすると、上述したテレビ会議のコスト上の優位性がそがれてしまうという問題点がある。
【０００９】
また、このオペレータ自身もある程度習熟していないと、発言者の音声を拾うのが遅れて、通信の受け手の側で音声が聞き取りにくくなったり、カメラの切換えが間に合わなくなるなど、会議が円滑に行われなくなるという問題がある。
【００１０】
さらに、このように、複数の参加者がいる場合に、発言者を特定して、その発言者に対して選択的にカメラを向けたり、あるいは、複数のカメラで同時に撮影中の画像から、発言者を撮影しているカメラに切換えたり、あるいは、音声を拾うマイクを切換えるという作業自体は、このようなテレビ会議の場合に限定されるものではなく、たとえば、１つの会場で開催され、複数の発言者が参加する会議の画像を収録する場合にも、同様に必要となる処理である。
【００１１】
本発明は、上記のような問題点を解決するためになされたものであった、その目的は、撮影中の画像情報に基づいて、発言者を特定して選択的に画像を撮影したり、あるいは、選択的に音声を集音することが可能な発話者検出システムおよびそれを用いたテレビ会議システムを提供することである。
【００１２】
【課題を解決するための手段】
この発明の１つの局面に従うと、発話者検出システムであって、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対応する画像を選択的に獲得する制御手段とを備える。
【００１３】
好ましくは、複数の参加者の各々に対応して設けられ、対応する参加者の音声を集音するための複数の集音手段をさらに備え、制御手段は、特定された発話者に対応する集音手段からの信号を選択する。
【００１４】
この発明の他の局面に従うと、発話者検出システムであって、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の参加者に共通して設けられ、指定された指向性により対応する参加者の音声を集音するための指向性集音手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対して指向性集音手段の指向性を制御するための制御手段とを備える。
【００１５】
好ましくは、制御手段は、発話者特定手段により特定された発話者に対応する画像を選択的に獲得する。
【００１６】
この発明のさらに他の局面にしたがうと、テレビ会議システムであって、複数の会議室にそれぞれ対応して設けられる画像音声伝送手段と、複数の会議室の間をつないで通信を行うための回線とを備え、各画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対応する画像を獲得し、伝送する画像音声信号を発話者を特定可能なように加工する制御手段とを含む。
【００１７】
好ましくは、各画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の音声を集音するための複数の集音手段をさらに含み、制御手段は、特定された発話者に対応する集音手段からの信号を選択する。
【００１８】
この発明のさらに他の局面にしたがうと、テレビ会議システムであって、複数の会議室にそれぞれ対応して設けられる画像音声伝送手段と、複数の会議室の間をつないで通信を行うための回線とを備え、各画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の参加者に共通して設けられ、指定された指向性により対応する参加者の音声を集音するための指向性集音手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対して指向性集音手段の指向性を制御し、伝送する画像音声信号を生成するための制御手段とを含む。
【００１９】
好ましくは、制御手段は、発話者特定手段により特定された発話者に対応する画像を獲得し、伝送する画像音声信号を発話者を特定可能なように加工する。
【００２０】
【発明の実施の形態】
以下、図面を参照しつつ本発明の実施の形態について詳細に説明する。以下の説明では、同一の構成部分には同一の符号を付してあり、それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
【００２１】
［実施の形態１］
［テレビ会議システム１０００の構成］
図１は、本発明に係るテレビ会議システム１０００の構成を説明するための概念図である。
【００２２】
図１に示したテレビ会議システム１０００においては、２つの会議室１００と会議室２００との間で、インターネットなどの公衆回線網３００により、通信を行っているものとする。ここで、会議を開催する会議室の数は、より多くてもよいが、以下の説明では、説明を簡略化するために、２つの会議室を結んで、「テレビ会議」が行われているものとする。また、２つの会議室をつないで通信を行う回線は、公衆回線網３０での通信をそのまま用いてもよいし、必要に応じて、公衆回線網３０上で実現される仮想プライベートネットワーク（ＶＰＮ：Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）のような通信の秘密を保護可能なシステムを用いてもよい。さらには、公衆回線網３００の代わりに専用回線を用いてもよい。
【００２３】
一方の会議室１００には、特に限定されないが、たとえば、２人の会議参加者２および４がいるものとする。参加者２および４の各々に対応して、小型カメラ１０２とマイク１０４とが設けられている。また、会議室１００内の風景を撮影するために、撮影方向等を制御信号に応じて可変とできるカメラ１０６が設けられてもよい。
【００２４】
さらに、会議室１００には、他方の会議室２００内の参加者６および８の画像を表示し、かつ、参加者６および８の音声を出力するためのテレビ１２０と、後に説明するように小型カメラ１０２により撮影される画像に基づいて、参加者のうちの発言者を特定して、参加者を撮影するカメラ１０２や音声を集音するマイク１０４について、発言者に対応するものを選択する制御を行う発言者特定システム１１０とが設けられる。発言者特定システム１１０は、特定した発言者が、相手方の会議室２００内のテレビにおいて表示される画像上でも特定可能なように伝送する画像を加工する。
【００２５】
なお、会議室２００にも、特に人数は限定されないが、上述したとおり、たとえば、２人の参加者６および８がおり、かつ、会議室１００と同様のシステムが設けられているものとする。
【００２６】
本発明においては、会議室１００において、参加者２と４のいずれが発言を行っているかを、マイク１０４からの音声によるのではなく、小型カメラ１０２により撮影された画像に基づいて行う。すなわち、会議の期間中、常時、各参加者の顔を撮影された画像中で捕捉し、口の動きが検出された時点で、画像の切換えやマイク１０４の切換えを行う。通常、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すため、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。このように、実際に声が出るのよりも先に動き出す、これから発言しようとする人間の口の動きを、「発話の前駆動作」と呼ぶことにする。
【００２７】
また、単に、発声を伴うことなく口を動かす場合に比べて、発声を伴って口を動かす場合では、発声に先立つ前駆的な動きの期間において、動きの継続する時間が、一般により長い。したがって、動きを検出してから、所定の時間が経過した場合に、上記画像や音声の切換えを行うこととすれば、誤認識による切換えの頻度を低減することが可能である。
【００２８】
図２は、本発明の発言者特定システム１１０の構成を説明するための概略ブロック図である。なお、図２においては、図１に示した構成のうち、参加者２に対応する部分を抜き出して示す。
【００２９】
図２を参照して、発言者特定システム１１０は、参加者２の画像を撮影するための小型カメラ１０２からの画像信号と、参加者２に対応して設けられるマイク１０４からの音声信号を受取る。また、発言者特定システム１１０は、公衆回線３００を介して会議室２００から伝送される画像信号および音声信号を受取り、テレビ１２０により、対応する画像を表示し、対応する音声を出力する。また、発言者特定システム１１０は、参加者２および４を撮影した画像と参加者２および４の音声を受取り、後に説明するように、会議室２００の参加者６および８が、発言者の画像および音声を特定できるように加工した上で、公衆回線３００を介して会議室２００に伝送する。
【００３０】
発言者特定システム１１０は、小型カメラ１０２、マイク１０４およびテレビ１２０との間でデータの授受を行うためのデータ入出力部１１０２と、小型カメラ１０２からのデータに基づいて、発言者を特定するための演算を行う発言者抽出部１１２０と、発言者特定システム１１０の行う処理を特定するためのプログラムや上記参加者２および４の顔画像から目、眉、口などの位置を特定するためのテンプレートのデータ等を格納するためのデータ記憶部１１３０と、データ記憶部１１３０に格納されたプログラムに従って、発言者特定システム１１０の動作を制御し、かつ、伝送する画像等を発言者の画像および音声を特定できるように加工するための制御部１１４０と、加工された画像および音声データを公衆回線３００に伝送し、かつ公衆回線３００を介して会議室２００から伝送される画像信号および音声信号を受取るためのデータ通信部１１５０とを備える。
【００３１】
発言者抽出部１１２０は、参加者２および４を撮影した画像の各々おいて、色情報に基づいて、顔画像部分を検出する顔検出部１１２２と、検出された顔部分に対して、目の領域および眉の領域の各々についてテンプレートマッチングを行なって、顔の正確な位置および必要に応じて顔の向きを判定するテンプレートマッチング部１１２４と、顔検出部１１２２およびテンプレートマッチング部１１２４の処理により特定された顔画像において、口唇を特定してその動きを検出する口領域動き検出部１１２６とを備える。
【００３２】
上述したとおり、公衆回線３００を介して会議室２００に伝送される画像は、会議室２００の参加者６および８が、会議室１００の参加者２および４のうち、発言者の画像および音声を特定できるように加工される。そのような加工方法としては、第１には、画面上に発言中の参加者のみが表示されるように、伝送される画像信号は、少なくとも発言期間中は、小型カメラ１０２で撮影された画像信号のうち、一方の参加者に対応する画像信号に完全に切換えることも可能である。この場合、会議室２００に対して伝送される音声信号は、参加者２の発言中は、参加者２に対応するマイク１０４からの信号に基づいて生成される。誰も発言をしていないときには、たとえば、会議室１００の全体の音声を集音しているマイク（図示せず）からの音声信号を伝送することとしてもよい。また、画像については、一度発言を開始した発言者、たとえば参加者２の画像が、会議室２００のテレビの画面一杯に表示され、参加者２の発言が終了後も、次に、他の参加者４のが発言を開始するまでは、参加者２の画像が表示されつづける、という制御を行うことも可能である。
【００３３】
図３は、制御部１１４０が、会議室２００へ伝送する画像に対して行う第２の加工方法を説明するための概念図である。図３においては、会議室２００に伝送される画像信号に対応する画像表示を示している。
【００３４】
このような第２の加工方法としては、参加者２および４の画像は、常に、会議室２００に対して伝送されるものの、１つの画面中において、発言中の参加者、たとえば、参加者２の画像が、発言をしていない他の参加者４の画像よりも大きく表示されるように加工する。ここで、音声信号の切換えについては、第１の加工方法と同様とすることができる。
【００３５】
この場合、伝送される画像については、一度発言を開始した参加者２の画像は、その発言中は、会議室２００のテレビの画面において相対的に大きく表示され、参加者２の発言が終了後は、他の参加者４と同じ大きさで表示される。
【００３６】
なお、会議室１００の参加者２および４のうち、発言者の画像を特定できるのであれば、上述した第１および第２の加工方法に限定されるものではない。たとえば、表示される画面中に発言者表示領域が予め規定されており、会議室１００の参加者全員の画像が、常に、他の会議室２００のテレビの画面の上記発言者表示領域以外の領域に表示されていて、参加者うちのいずれかかが発言を開始すると、この発言者の画像は、上記発言者表示領域に移動して表示されることとしてもよい。
【００３７】
［顔検出の処理］
以下、顔検出部１１２２およびテンプレートマッチング部１１２４の処理について、さらに詳しく説明する。
【００３８】
なお、このような顔検出部１１２２およびテンプレートマッチング部１１２４の処理は、たとえば、上述した非特許文献１に開示されているので、以下では、その概略について説明する。
【００３９】
顔の位置や向き、顔の器官の検出、顔の同定など、顔検出に関しては、すでに多数の研究者が研究を進めている。ただし、上述したように、撮影された人間の顔画像に基づいて、発話の開始時点を検出するための要件には、ｉ）音声情報と画像情報との同期、ｉｉ）実時間での検出、ｉｉｉ）顔向きの検出と顔中の口唇の検出などの情報の獲得、等がある。
【００４０】
（色と空間的な特林を併用した顔検出）
以下に説明するとおり、画像中からの実時間での顔検出のために、色と空間的な特徴を併用することが有効である。
【００４１】
（顔検出問題の設定）
実際の動画像中の顔の属性には、位置や大きさ、回転などが想定される。また、以下では、実時間で検出することを勘案して、画像中に正立した正面顔が高々１つ存在する状況を想定する。したがって、画面中の位置と大きさ、さらに必要に応じて垂直軸方向の回転を考慮し、正面顔面像を検出する。顔向きまで考慮する場合は、画像中から顔を探索し、得られた探索結果に対し、正面顔と回転した顔とのマッチングを行い、顔向きを堆定する。
【００４２】
顔の探索は、正面顔関数ｆ（ｘ，ｙ，ｓｉｚｅ）を定義し、この関数の最大値を与えるｘ，ｙ，ｓｉｚｅを求める。ここで、（ｘ，ｙ）は左右の黒目の中点の画像中の位置、ｓｉｚｅは左右の黒目の間の距離とする。
【００４３】
位置と大きさの張る空間から正面顔関数ｆの最大債を与える点を探索すれば、顔を検出することができる。さらに検出された顔の位置および大きさに基づいて、口唇の検出が行われる。
【００４４】
図４は、このような顔検出の手続きを説明するためのフローチャートである。
以下、図４に示した各ステップの処理について、説明する。
【００４５】
（両限中点の色による杖刈）
肌色は色空間内に広範囲に分布しているが、画像中には肌色ではない色が占める割合が多い場合もある。
【００４６】
肌色ではないことが明らかな部分には顔があることは想定されないため、発言者特定システム１１０は、入力画像を受け取ると（ステップＳ１００）、まず、その入力画像について探索範囲を枝刈することができる（ステップＳ１０２）。
【００４７】
正面顔では、両限の中点が肌色であると想定できる。実用上は眼鏡のブリッジ部分となることもあるため、両眼の中点と、上下方向にそれぞれ両眼距離の５％づつの画素を調べ、肌色の画素が存在しない場合には枝刈りをする。これにより、少ない数の画素を確認するだけで、探索空間の大きな部分を杖刈できる。
【００４８】
実装上の速度を向上するため、肌色の判定は、実測したＲＧＢ値（各色０〜２５５）に基づき、次の範囲とする。
【００４９】
｛（ｒ，ｇ，ｂ）：
１５０＜ｒ∧０．３ｒ＜ｇ＜０．９ｒ∧０．３ｒ＜ｂ＜０．８ｒ∧ｂ＜ｇ｝
以下では、「肌色」はこの範囲の色とする。枝刈の対象となった場合、正面顛関数を一∞とする。
【００５０】
（眼・眉毛・口領域の色による判定）
肌色の部位は上述した両眼の中点に加えて、正面の顔面に分布する。
【００５１】
図５は、このように正面顔において、肌色が多く分布する領域を示す概念図である。
【００５２】
図５に示した眼・眉毛・口の領域の７０％以上が肌色である。したがって、この領域中の肌色が少ない場合には顔ではないと判定する（ステップＳ１０４）。両目・両眉毛・口の領域中、肌色の画素の割合により判定するが、高速化と過度の枝刈を防ぐため、以下の基準としている：
・テスト画素：縦横とも４画素おきに１画素
・杖刈の基準：テスト画素の５０％以下が肌色
これにより探索空間を杖刈すると同時に、誤検出も削減できる。
【００５３】
（テンプレートマッチング）
肌色の色域は広く、対応する部位も、着衣や頭髪の状況により変動する。
そこで、空間的な特徴のテンプレートマッチングにより目と眉毛を同定する（ステップＳ１０６，Ｓ１０８）。テンプレートは、特に限定されないが、複数の被験者をディジタルスチルカメラで撮影した高解像度の静止画から作成することができる。
【００５４】
（空間フィルターによる特徴抽出）
入力画像は照明などにより明度が大幅に変動するため、明度の影響を受けにくいフィルターを用いて画像の空間的な特徴を得る。
【００５５】
図６は、このようなフィルターを示す概念図である。
すなわち、本発明では、眉毛・日・口など水平方向の成分が多いことに着目し、図６に示す２つの矩形からなるフィルターを構成することにより水平成分を検出する。対象とする領域を領域１と領域２に分け、それぞれに属する画素のグレースケール値に基づき、次式により着目画素のフィルター値を定める。
【００５６】
η＝σｂ^２／σＴ^２
σｂ^２＝ｎ１（Ｐ１−Ｐｍ）^２＋ｎ２（Ｐ２−Ｐｍ）^２
【００５７】
【数１】

【００５８】
ここで、ｎ１：領域１内の画素数、ｎ２：領域２内の画素数、Ｐ１，Ｐ２，Ｐｍはそれぞれ、領域１内のグレースケール平均値、領域２内のグレースケール平均値、（領域１∪領域２）内のグレースケール平均値、ｐｉは各画素のグレースケール値である。各領域は矩形であるため、各領域の和や平方和を求める際には、隣接した短形の結果との差分のみの計第により高速に計算できる。このフィルターは分散の比により定まるため、以下「分散フィルター」と呼ぶこととする。
【００５９】
テンプレートは、両黒目中心の位置を、距離が１２８画素（ｓｉｚｅ＝１２８）となるように日視で合わせた複数名分の静止画顔面像に基づいて作成する。それぞれの画像に分散フィルターを適用し、眼領域、眉毛領域ごとに相関が最大となるように位置を合わせた上で、それらの画像の画素ごとの平均値を求める。
【００６０】
正面顔のほか、顔向きを検出するのであれば、水平方向の所定の角度（たとえば、１０°、２０°、４５°）から撮影した静止画顔画俊のテンプレートも作成すればよい。
【００６１】
さらに、異なる大きさの画像を認識するテンプレートとして、たとえば、１５≦ｓｉｚｅ≦１２８となるように画像を縮小した上で、それぞれの大きさに対応する複数個のテンプレートを作成しておく。
【００６２】
（テンプレートの適用と顔の検出）
テンプレートを適用するために、認識対象の画像に前述の分散フィルターを適用する。次に、両眼領域のテンプレートとの相関係数を算出する（ステップＳ１０６）。相関係数が所定の値（たとえば、０．３）以下の場合には、眼ではないと判定し枝刈する。
【００６３】
両眼の相関が所定の値を超える場合、眉毛領域の相関係数を求め、両眼と眉毛領域の相関係数の平均値を正面顔関数値（ステップＳ１１０）とする。
以上の手続きにより、正面顔関数値が最大値を与える（ｘ，ｙ，ｓｉｚｅ）を探索することにより顔を検出する。
【００６４】
さらに、検出された眼領域について、正面顔、左右１０°，２０°，４５°のテンプレートとの相関係数を算出し、相関係数が最大となる角度を求めれば、顔向きを堆定することもできる。
【００６５】
また、一般的に、動画像では連続するフレーム間の相駆は高く、画像中での話者の顔の位置や大きさがフレーム間で大幅に動くことが想定されないため、顔の検出に成功した場合、それ以降の検出は、全フレームの位置と大きさを元に、その近傍のみを探索する等の処理を行うことにより検索時間を短縮することができる。
【００６６】
以上のようにして、検出された顔の位置（ｘ，ｙ）、大きさｓｉｚｅに基づけば、口唇の位置を検出することが可能である（ステップＳ１１２）。特に限定されないが、口唇についても、眼や眉毛と同様にテンプレートマッチングにより、その位置を特定可能である。このとき、眼や眉毛のテンプレートマッチングで顔の向きを検出していれば、口唇のテンプレートマッチングもこの顔の向きを考慮して、対応する顔の向きの口唇のテンプレートを用いることもできる。
【００６７】
時間的に連続するフレームにわたって、以上のような口唇の検出処理を行うことで、口の動きを検出することができる。
【００６８】
上述したとおり、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すため、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。
【００６９】
［実施の形態２］
図１に示した実施の形態１のテレビ会議システム１０００では、各参加者を撮影する小型カメラ１０２の画像に基づいて、発言者を特定できるように伝送される画像を加工するとともに、集音するマイク１０４を発言者に対応するものに切り替える。
【００７０】
図７は、本発明の実施の形態２のテレビ会議システム２０００の構成を説明するための概念図である。
【００７１】
実施の形態２のテレビ会議システム２０００の構成が、実施の形態１のテレビ会議システム１０００の構成と異なる点は、各参加者にそれぞれ対応してマイク１０４が設けられるのではなく、複数の参加者２および４に共通に、マイクロホンアレー１０８が設けられる構成となっていることである。
【００７２】
マイクロホンアレー１０８は、複数のマイクをアレー状に配置し、各マイクからの信号の位相を調節することにより、所望の指向性を実現するものである。
【００７３】
したがって、テレビ会議システム２０００では、各参加者を撮影する小型カメラ１０２の画像に基づいて、発言者を特定できるように伝送される画像を加工するとともに、マイクロホンアレー１０８を用いることで、集音する指向性を発言者に向かうように切り替えることができる。
【００７４】
なお、マイクロホンアレーについては、たとえば、特開２００２−０９１４６９号公報（特願２０００−２８３５１５）に開示されているので、ここでは、その説明は省略する。
【００７５】
以上のような構成により、実施の形態１と同様に、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すことを利用して、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。
【００７６】
また、以上の実施の形態１および２の説明では、一方の会議室内の複数の参加者のうち、これから発言しようとする参加者を特定して、他の会議室へ伝送する画像および音声の切換えを行うテレビ会議システムとして、本発明を説明した。しかしながら、本発明の発言者特定システム１１０はこのような場合に限定されることなく、１つの会場で開催され、複数の発言者が参加する会議の画像を収録する場合に、音声や画像を発言者に応じて切換える際にも適用可能なものである。
【００７７】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【００７８】
【発明の効果】
以上説明したとおり、本発明によれば、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すことを利用することにより、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。
【図面の簡単な説明】
【図１】本発明に係るテレビ会議システム１０００の構成を説明するための概念図である。
【図２】本発明の発言者特定システム１１０の構成を説明するための概略ブロック図である。
【図３】制御部１１４０が、会議室２００へ伝送する画像に対して行う第２の加工方法を説明するための概念図である。
【図４】顔検出の手続きを説明するためのフローチャートである。
【図５】正面顔において、肌色が多く分布する領域を示す概念図である。
【図６】フィルターを示す概念図である。
【図７】本発明の実施の形態２のテレビ会議システム２０００の構成を説明するための概念図である。
【符号の説明】
２，４，６，８　会議参加者、１００，２００　会議室、１０２　小型カメラ、１０４　マイク、１０６　カメラ、１１０　発言者特定システム、１２０　テレビ、３００　公衆回線網、１０００，２０００　テレビ会議システム、１１０２　データ入出力部、１１２０　発言者抽出部、１１２２　顔検出部、１１２４テンプレートマッチング部、１１２６　口領域動き検出部、１１３０　データ記憶部、１１４０　制御部、１１５０　データ通信部。

Claims

複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、
前記複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする前記参加者を発話者として特定する発話者特定手段と、
前記発話者特定手段により特定された前記発話者に対応する画像を選択的に獲得する制御手段とを備える、発話者検出システム。
複数の参加者の各々に対応して設けられ、対応する参加者の音声を集音するための複数の集音手段をさらに備え、
前記制御手段は、前記特定された発話者に対応する前記集音手段からの信号を選択する、請求項１記載の発話者検出システム。
複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、
複数の参加者に共通して設けられ、指定された指向性により対応する参加者の音声を集音するための指向性集音手段と、
前記複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする前記参加者を発話者として特定する発話者特定手段と、
前記発話者特定手段により特定された前記発話者に対して前記指向性集音手段の指向性を制御するための制御手段とを備える、発話者検出システム。
前記制御手段は、前記発話者特定手段により特定された前記発話者に対応する画像を選択的に獲得する、請求項３記載の発話者検出システム。
複数の会議室にそれぞれ対応して設けられる画像音声伝送手段と、
前記複数の会議室の間をつないで通信を行うための回線とを備え、
各前記画像音声伝送手段は、
複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、
前記複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする前記参加者を発話者として特定する発話者特定手段と、
前記発話者特定手段により特定された前記発話者に対応する画像を獲得し、伝送する画像音声信号を前記発話者を特定可能なように加工する制御手段とを含む、テレビ会議システム。
各前記画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の音声を集音するための複数の集音手段をさらに含み、
前記制御手段は、前記特定された発話者に対応する前記集音手段からの信号を選択する、請求項５記載のテレビ会議システム。
複数の会議室にそれぞれ対応して設けられる画像音声伝送手段と、
前記複数の会議室の間をつないで通信を行うための回線とを備え、
各前記画像音声伝送手段は、
複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、
複数の参加者に共通して設けられ、指定された指向性により対応する参加者の音声を集音するための指向性集音手段と、
前記複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする前記参加者を発話者として特定する発話者特定手段と、
前記発話者特定手段により特定された前記発話者に対して前記指向性集音手段の指向性を制御し、伝送する画像音声信号を生成するための制御手段とを含む、テレビ会議システム。
前記制御手段は、前記発話者特定手段により特定された前記発話者に対応する画像を獲得し、伝送する前記画像音声信号を前記発話者を特定可能なように加工する、請求項７記載のテレビ会議システム。