JP2004118314A - 発話者検出システムおよびそれを用いたテレビ会議システム - Google Patents
発話者検出システムおよびそれを用いたテレビ会議システム Download PDFInfo
- Publication number
- JP2004118314A JP2004118314A JP2002277469A JP2002277469A JP2004118314A JP 2004118314 A JP2004118314 A JP 2004118314A JP 2002277469 A JP2002277469 A JP 2002277469A JP 2002277469 A JP2002277469 A JP 2002277469A JP 2004118314 A JP2004118314 A JP 2004118314A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- image
- participant
- participants
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Image Analysis (AREA)
Abstract
【課題】撮影中の画像情報に基づいて、発言者を特定して選択的に画像を撮影することが可能なテレビ会議システムを提供する。
【解決手段】テレビ会議システム1000においては、2つの会議室100と会議室200との間で、公衆回線網300により、通信を行っている。会議室100には、参加者2,4の各々に対応して設けられ、対応する参加者の顔画像を撮影する複数の小型カメラ102と、小型カメラ102からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発言者特定システム110とが設けられる。
【選択図】 図1
【解決手段】テレビ会議システム1000においては、2つの会議室100と会議室200との間で、公衆回線網300により、通信を行っている。会議室100には、参加者2,4の各々に対応して設けられ、対応する参加者の顔画像を撮影する複数の小型カメラ102と、小型カメラ102からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発言者特定システム110とが設けられる。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、ビデオ映像中の人物顔を検出して、検出された人物顔の画像に基づいて発話者を特定するための発話者検出システムおよびそれを用いたテレビ会議システムの構成に関する。
【0002】
【従来の技術】
近年、通信回線の高速化・大容量化に伴い、遠隔地の2地点、あるいはそれ以上の複数の地点間を結んで、画像信号および音声信号を授受することにより、会議を開催することが可能な、いわゆる「テレビ会議システム」の重要性が増加している。このようなシステムは、遠隔地点間の人間の移動を伴わないため、コストから見て有利な上に、単なる音声による交信に比べて、授受できる情報量が各段に増加するために、コミュニケーション手段として利用価値が高い。
【0003】
一方で、非特許文献1には、画像中からの実時間での顔検出に関連する技術が開示されているもののテレビ会議システムへの具体的応用については開示がない。
【0004】
【非特許文献1】
村井和昌、中村哲著「マルチモーダル音声認識のための顔検出」、情報処理学会 音声言語情報処理研究会 Vol.2002, No.10.pp.39−44, 2002 2002年2月1日
【0005】
【発明が解決しようとする課題】
一般には、上述したような「テレビ会議システム」は、その名の示すとおり、交信相手方の会議室内の風景のうち限定された領域が、交信の受け手側のテレビ画面に表示されるに過ぎない。
【0006】
言いかえると、テレビ会議の開催される複数の会議室のうちの一方に複数の参加者がいる場合には、通常は、この一方の会議室内で、発言中の参加者の画像や音声を選択的に他方の会議室側に送信することが必要である。従来、このように一方の会議室内での発言者を特定し、この発言者の画像および音声を選択的に送信する作業を行うためには、この一方側の会議室において、発言者を撮影するカメラの撮影方向やカメラの切換え、音声を集音するマイクの切換え等を行うためのオペレータが必要であった。
【0007】
同様に、他方側にも複数の参加者がいる場合は、この他方側の会議室においても同様の操作を行うオペレータが必要になる。
【0008】
つまり、円滑にテレビ会議を実行するために、このように別途オペレータが必要であるとすると、上述したテレビ会議のコスト上の優位性がそがれてしまうという問題点がある。
【0009】
また、このオペレータ自身もある程度習熟していないと、発言者の音声を拾うのが遅れて、通信の受け手の側で音声が聞き取りにくくなったり、カメラの切換えが間に合わなくなるなど、会議が円滑に行われなくなるという問題がある。
【0010】
さらに、このように、複数の参加者がいる場合に、発言者を特定して、その発言者に対して選択的にカメラを向けたり、あるいは、複数のカメラで同時に撮影中の画像から、発言者を撮影しているカメラに切換えたり、あるいは、音声を拾うマイクを切換えるという作業自体は、このようなテレビ会議の場合に限定されるものではなく、たとえば、1つの会場で開催され、複数の発言者が参加する会議の画像を収録する場合にも、同様に必要となる処理である。
【0011】
本発明は、上記のような問題点を解決するためになされたものであった、その目的は、撮影中の画像情報に基づいて、発言者を特定して選択的に画像を撮影したり、あるいは、選択的に音声を集音することが可能な発話者検出システムおよびそれを用いたテレビ会議システムを提供することである。
【0012】
【課題を解決するための手段】
この発明の1つの局面に従うと、発話者検出システムであって、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対応する画像を選択的に獲得する制御手段とを備える。
【0013】
好ましくは、複数の参加者の各々に対応して設けられ、対応する参加者の音声を集音するための複数の集音手段をさらに備え、制御手段は、特定された発話者に対応する集音手段からの信号を選択する。
【0014】
この発明の他の局面に従うと、発話者検出システムであって、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の参加者に共通して設けられ、指定された指向性により対応する参加者の音声を集音するための指向性集音手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対して指向性集音手段の指向性を制御するための制御手段とを備える。
【0015】
好ましくは、制御手段は、発話者特定手段により特定された発話者に対応する画像を選択的に獲得する。
【0016】
この発明のさらに他の局面にしたがうと、テレビ会議システムであって、複数の会議室にそれぞれ対応して設けられる画像音声伝送手段と、複数の会議室の間をつないで通信を行うための回線とを備え、各画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対応する画像を獲得し、伝送する画像音声信号を発話者を特定可能なように加工する制御手段とを含む。
【0017】
好ましくは、各画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の音声を集音するための複数の集音手段をさらに含み、制御手段は、特定された発話者に対応する集音手段からの信号を選択する。
【0018】
この発明のさらに他の局面にしたがうと、テレビ会議システムであって、複数の会議室にそれぞれ対応して設けられる画像音声伝送手段と、複数の会議室の間をつないで通信を行うための回線とを備え、各画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の参加者に共通して設けられ、指定された指向性により対応する参加者の音声を集音するための指向性集音手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対して指向性集音手段の指向性を制御し、伝送する画像音声信号を生成するための制御手段とを含む。
【0019】
好ましくは、制御手段は、発話者特定手段により特定された発話者に対応する画像を獲得し、伝送する画像音声信号を発話者を特定可能なように加工する。
【0020】
【発明の実施の形態】
以下、図面を参照しつつ本発明の実施の形態について詳細に説明する。以下の説明では、同一の構成部分には同一の符号を付してあり、それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
【0021】
[実施の形態1]
[テレビ会議システム1000の構成]
図1は、本発明に係るテレビ会議システム1000の構成を説明するための概念図である。
【0022】
図1に示したテレビ会議システム1000においては、2つの会議室100と会議室200との間で、インターネットなどの公衆回線網300により、通信を行っているものとする。ここで、会議を開催する会議室の数は、より多くてもよいが、以下の説明では、説明を簡略化するために、2つの会議室を結んで、「テレビ会議」が行われているものとする。また、2つの会議室をつないで通信を行う回線は、公衆回線網30での通信をそのまま用いてもよいし、必要に応じて、公衆回線網30上で実現される仮想プライベートネットワーク(VPN:Virtual Private Network)のような通信の秘密を保護可能なシステムを用いてもよい。さらには、公衆回線網300の代わりに専用回線を用いてもよい。
【0023】
一方の会議室100には、特に限定されないが、たとえば、2人の会議参加者2および4がいるものとする。参加者2および4の各々に対応して、小型カメラ102とマイク104とが設けられている。また、会議室100内の風景を撮影するために、撮影方向等を制御信号に応じて可変とできるカメラ106が設けられてもよい。
【0024】
さらに、会議室100には、他方の会議室200内の参加者6および8の画像を表示し、かつ、参加者6および8の音声を出力するためのテレビ120と、後に説明するように小型カメラ102により撮影される画像に基づいて、参加者のうちの発言者を特定して、参加者を撮影するカメラ102や音声を集音するマイク104について、発言者に対応するものを選択する制御を行う発言者特定システム110とが設けられる。発言者特定システム110は、特定した発言者が、相手方の会議室200内のテレビにおいて表示される画像上でも特定可能なように伝送する画像を加工する。
【0025】
なお、会議室200にも、特に人数は限定されないが、上述したとおり、たとえば、2人の参加者6および8がおり、かつ、会議室100と同様のシステムが設けられているものとする。
【0026】
本発明においては、会議室100において、参加者2と4のいずれが発言を行っているかを、マイク104からの音声によるのではなく、小型カメラ102により撮影された画像に基づいて行う。すなわち、会議の期間中、常時、各参加者の顔を撮影された画像中で捕捉し、口の動きが検出された時点で、画像の切換えやマイク104の切換えを行う。通常、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すため、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。このように、実際に声が出るのよりも先に動き出す、これから発言しようとする人間の口の動きを、「発話の前駆動作」と呼ぶことにする。
【0027】
また、単に、発声を伴うことなく口を動かす場合に比べて、発声を伴って口を動かす場合では、発声に先立つ前駆的な動きの期間において、動きの継続する時間が、一般により長い。したがって、動きを検出してから、所定の時間が経過した場合に、上記画像や音声の切換えを行うこととすれば、誤認識による切換えの頻度を低減することが可能である。
【0028】
図2は、本発明の発言者特定システム110の構成を説明するための概略ブロック図である。なお、図2においては、図1に示した構成のうち、参加者2に対応する部分を抜き出して示す。
【0029】
図2を参照して、発言者特定システム110は、参加者2の画像を撮影するための小型カメラ102からの画像信号と、参加者2に対応して設けられるマイク104からの音声信号を受取る。また、発言者特定システム110は、公衆回線300を介して会議室200から伝送される画像信号および音声信号を受取り、テレビ120により、対応する画像を表示し、対応する音声を出力する。また、発言者特定システム110は、参加者2および4を撮影した画像と参加者2および4の音声を受取り、後に説明するように、会議室200の参加者6および8が、発言者の画像および音声を特定できるように加工した上で、公衆回線300を介して会議室200に伝送する。
【0030】
発言者特定システム110は、小型カメラ102、マイク104およびテレビ120との間でデータの授受を行うためのデータ入出力部1102と、小型カメラ102からのデータに基づいて、発言者を特定するための演算を行う発言者抽出部1120と、発言者特定システム110の行う処理を特定するためのプログラムや上記参加者2および4の顔画像から目、眉、口などの位置を特定するためのテンプレートのデータ等を格納するためのデータ記憶部1130と、データ記憶部1130に格納されたプログラムに従って、発言者特定システム110の動作を制御し、かつ、伝送する画像等を発言者の画像および音声を特定できるように加工するための制御部1140と、加工された画像および音声データを公衆回線300に伝送し、かつ公衆回線300を介して会議室200から伝送される画像信号および音声信号を受取るためのデータ通信部1150とを備える。
【0031】
発言者抽出部1120は、参加者2および4を撮影した画像の各々おいて、色情報に基づいて、顔画像部分を検出する顔検出部1122と、検出された顔部分に対して、目の領域および眉の領域の各々についてテンプレートマッチングを行なって、顔の正確な位置および必要に応じて顔の向きを判定するテンプレートマッチング部1124と、顔検出部1122およびテンプレートマッチング部1124の処理により特定された顔画像において、口唇を特定してその動きを検出する口領域動き検出部1126とを備える。
【0032】
上述したとおり、公衆回線300を介して会議室200に伝送される画像は、会議室200の参加者6および8が、会議室100の参加者2および4のうち、発言者の画像および音声を特定できるように加工される。そのような加工方法としては、第1には、画面上に発言中の参加者のみが表示されるように、伝送される画像信号は、少なくとも発言期間中は、小型カメラ102で撮影された画像信号のうち、一方の参加者に対応する画像信号に完全に切換えることも可能である。この場合、会議室200に対して伝送される音声信号は、参加者2の発言中は、参加者2に対応するマイク104からの信号に基づいて生成される。誰も発言をしていないときには、たとえば、会議室100の全体の音声を集音しているマイク(図示せず)からの音声信号を伝送することとしてもよい。また、画像については、一度発言を開始した発言者、たとえば参加者2の画像が、会議室200のテレビの画面一杯に表示され、参加者2の発言が終了後も、次に、他の参加者4のが発言を開始するまでは、参加者2の画像が表示されつづける、という制御を行うことも可能である。
【0033】
図3は、制御部1140が、会議室200へ伝送する画像に対して行う第2の加工方法を説明するための概念図である。図3においては、会議室200に伝送される画像信号に対応する画像表示を示している。
【0034】
このような第2の加工方法としては、参加者2および4の画像は、常に、会議室200に対して伝送されるものの、1つの画面中において、発言中の参加者、たとえば、参加者2の画像が、発言をしていない他の参加者4の画像よりも大きく表示されるように加工する。ここで、音声信号の切換えについては、第1の加工方法と同様とすることができる。
【0035】
この場合、伝送される画像については、一度発言を開始した参加者2の画像は、その発言中は、会議室200のテレビの画面において相対的に大きく表示され、参加者2の発言が終了後は、他の参加者4と同じ大きさで表示される。
【0036】
なお、会議室100の参加者2および4のうち、発言者の画像を特定できるのであれば、上述した第1および第2の加工方法に限定されるものではない。たとえば、表示される画面中に発言者表示領域が予め規定されており、会議室100の参加者全員の画像が、常に、他の会議室200のテレビの画面の上記発言者表示領域以外の領域に表示されていて、参加者うちのいずれかかが発言を開始すると、この発言者の画像は、上記発言者表示領域に移動して表示されることとしてもよい。
【0037】
[顔検出の処理]
以下、顔検出部1122およびテンプレートマッチング部1124の処理について、さらに詳しく説明する。
【0038】
なお、このような顔検出部1122およびテンプレートマッチング部1124の処理は、たとえば、上述した非特許文献1に開示されているので、以下では、その概略について説明する。
【0039】
顔の位置や向き、顔の器官の検出、顔の同定など、顔検出に関しては、すでに多数の研究者が研究を進めている。ただし、上述したように、撮影された人間の顔画像に基づいて、発話の開始時点を検出するための要件には、i)音声情報と画像情報との同期、ii)実時間での検出、iii)顔向きの検出と顔中の口唇の検出などの情報の獲得、等がある。
【0040】
(色と空間的な特林を併用した顔検出)
以下に説明するとおり、画像中からの実時間での顔検出のために、色と空間的な特徴を併用することが有効である。
【0041】
(顔検出問題の設定)
実際の動画像中の顔の属性には、位置や大きさ、回転などが想定される。また、以下では、実時間で検出することを勘案して、画像中に正立した正面顔が高々1つ存在する状況を想定する。したがって、画面中の位置と大きさ、さらに必要に応じて垂直軸方向の回転を考慮し、正面顔面像を検出する。顔向きまで考慮する場合は、画像中から顔を探索し、得られた探索結果に対し、正面顔と回転した顔とのマッチングを行い、顔向きを堆定する。
【0042】
顔の探索は、正面顔関数f(x,y,size)を定義し、この関数の最大値を与えるx,y,sizeを求める。ここで、(x,y)は左右の黒目の中点の画像中の位置、sizeは左右の黒目の間の距離とする。
【0043】
位置と大きさの張る空間から正面顔関数fの最大債を与える点を探索すれば、顔を検出することができる。さらに検出された顔の位置および大きさに基づいて、口唇の検出が行われる。
【0044】
図4は、このような顔検出の手続きを説明するためのフローチャートである。
以下、図4に示した各ステップの処理について、説明する。
【0045】
(両限中点の色による杖刈)
肌色は色空間内に広範囲に分布しているが、画像中には肌色ではない色が占める割合が多い場合もある。
【0046】
肌色ではないことが明らかな部分には顔があることは想定されないため、発言者特定システム110は、入力画像を受け取ると(ステップS100)、まず、その入力画像について探索範囲を枝刈することができる(ステップS102)。
【0047】
正面顔では、両限の中点が肌色であると想定できる。実用上は眼鏡のブリッジ部分となることもあるため、両眼の中点と、上下方向にそれぞれ両眼距離の5%づつの画素を調べ、肌色の画素が存在しない場合には枝刈りをする。これにより、少ない数の画素を確認するだけで、探索空間の大きな部分を杖刈できる。
【0048】
実装上の速度を向上するため、肌色の判定は、実測したRGB値(各色0〜255)に基づき、次の範囲とする。
【0049】
{(r,g,b):
150<r∧0.3r<g<0.9r∧0.3r<b<0.8r∧b<g}
以下では、「肌色」はこの範囲の色とする。枝刈の対象となった場合、正面顛関数を一∞とする。
【0050】
(眼・眉毛・口領域の色による判定)
肌色の部位は上述した両眼の中点に加えて、正面の顔面に分布する。
【0051】
図5は、このように正面顔において、肌色が多く分布する領域を示す概念図である。
【0052】
図5に示した眼・眉毛・口の領域の70%以上が肌色である。したがって、この領域中の肌色が少ない場合には顔ではないと判定する(ステップS104)。両目・両眉毛・口の領域中、肌色の画素の割合により判定するが、高速化と過度の枝刈を防ぐため、以下の基準としている:
・テスト画素:縦横とも4画素おきに1画素
・杖刈の基準:テスト画素の50%以下が肌色
これにより探索空間を杖刈すると同時に、誤検出も削減できる。
【0053】
(テンプレートマッチング)
肌色の色域は広く、対応する部位も、着衣や頭髪の状況により変動する。
そこで、空間的な特徴のテンプレートマッチングにより目と眉毛を同定する(ステップS106,S108)。テンプレートは、特に限定されないが、複数の被験者をディジタルスチルカメラで撮影した高解像度の静止画から作成することができる。
【0054】
(空間フィルターによる特徴抽出)
入力画像は照明などにより明度が大幅に変動するため、明度の影響を受けにくいフィルターを用いて画像の空間的な特徴を得る。
【0055】
図6は、このようなフィルターを示す概念図である。
すなわち、本発明では、眉毛・日・口など水平方向の成分が多いことに着目し、図6に示す2つの矩形からなるフィルターを構成することにより水平成分を検出する。対象とする領域を領域1と領域2に分け、それぞれに属する画素のグレースケール値に基づき、次式により着目画素のフィルター値を定める。
【0056】
η=σb2/σT2
σb2=n1(P1−Pm)2+n2(P2−Pm)2
【0057】
【数1】
【0058】
ここで、n1:領域1内の画素数、n2:領域2内の画素数、P1,P2,Pmはそれぞれ、領域1内のグレースケール平均値、領域2内のグレースケール平均値、(領域1∪領域2)内のグレースケール平均値、piは各画素のグレースケール値である。各領域は矩形であるため、各領域の和や平方和を求める際には、隣接した短形の結果との差分のみの計第により高速に計算できる。このフィルターは分散の比により定まるため、以下「分散フィルター」と呼ぶこととする。
【0059】
テンプレートは、両黒目中心の位置を、距離が128画素(size=128)となるように日視で合わせた複数名分の静止画顔面像に基づいて作成する。それぞれの画像に分散フィルターを適用し、眼領域、眉毛領域ごとに相関が最大となるように位置を合わせた上で、それらの画像の画素ごとの平均値を求める。
【0060】
正面顔のほか、顔向きを検出するのであれば、水平方向の所定の角度(たとえば、10°、20°、45°)から撮影した静止画顔画俊のテンプレートも作成すればよい。
【0061】
さらに、異なる大きさの画像を認識するテンプレートとして、たとえば、15≦size≦128となるように画像を縮小した上で、それぞれの大きさに対応する複数個のテンプレートを作成しておく。
【0062】
(テンプレートの適用と顔の検出)
テンプレートを適用するために、認識対象の画像に前述の分散フィルターを適用する。次に、両眼領域のテンプレートとの相関係数を算出する(ステップS106)。相関係数が所定の値(たとえば、0.3)以下の場合には、眼ではないと判定し枝刈する。
【0063】
両眼の相関が所定の値を超える場合、眉毛領域の相関係数を求め、両眼と眉毛領域の相関係数の平均値を正面顔関数値(ステップS110)とする。
以上の手続きにより、正面顔関数値が最大値を与える(x,y,size)を探索することにより顔を検出する。
【0064】
さらに、検出された眼領域について、正面顔、左右10°,20°,45°のテンプレートとの相関係数を算出し、相関係数が最大となる角度を求めれば、顔向きを堆定することもできる。
【0065】
また、一般的に、動画像では連続するフレーム間の相駆は高く、画像中での話者の顔の位置や大きさがフレーム間で大幅に動くことが想定されないため、顔の検出に成功した場合、それ以降の検出は、全フレームの位置と大きさを元に、その近傍のみを探索する等の処理を行うことにより検索時間を短縮することができる。
【0066】
以上のようにして、検出された顔の位置(x,y)、大きさsizeに基づけば、口唇の位置を検出することが可能である(ステップS112)。特に限定されないが、口唇についても、眼や眉毛と同様にテンプレートマッチングにより、その位置を特定可能である。このとき、眼や眉毛のテンプレートマッチングで顔の向きを検出していれば、口唇のテンプレートマッチングもこの顔の向きを考慮して、対応する顔の向きの口唇のテンプレートを用いることもできる。
【0067】
時間的に連続するフレームにわたって、以上のような口唇の検出処理を行うことで、口の動きを検出することができる。
【0068】
上述したとおり、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すため、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。
【0069】
[実施の形態2]
図1に示した実施の形態1のテレビ会議システム1000では、各参加者を撮影する小型カメラ102の画像に基づいて、発言者を特定できるように伝送される画像を加工するとともに、集音するマイク104を発言者に対応するものに切り替える。
【0070】
図7は、本発明の実施の形態2のテレビ会議システム2000の構成を説明するための概念図である。
【0071】
実施の形態2のテレビ会議システム2000の構成が、実施の形態1のテレビ会議システム1000の構成と異なる点は、各参加者にそれぞれ対応してマイク104が設けられるのではなく、複数の参加者2および4に共通に、マイクロホンアレー108が設けられる構成となっていることである。
【0072】
マイクロホンアレー108は、複数のマイクをアレー状に配置し、各マイクからの信号の位相を調節することにより、所望の指向性を実現するものである。
【0073】
したがって、テレビ会議システム2000では、各参加者を撮影する小型カメラ102の画像に基づいて、発言者を特定できるように伝送される画像を加工するとともに、マイクロホンアレー108を用いることで、集音する指向性を発言者に向かうように切り替えることができる。
【0074】
なお、マイクロホンアレーについては、たとえば、特開2002−091469号公報(特願2000−283515)に開示されているので、ここでは、その説明は省略する。
【0075】
以上のような構成により、実施の形態1と同様に、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すことを利用して、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。
【0076】
また、以上の実施の形態1および2の説明では、一方の会議室内の複数の参加者のうち、これから発言しようとする参加者を特定して、他の会議室へ伝送する画像および音声の切換えを行うテレビ会議システムとして、本発明を説明した。しかしながら、本発明の発言者特定システム110はこのような場合に限定されることなく、1つの会場で開催され、複数の発言者が参加する会議の画像を収録する場合に、音声や画像を発言者に応じて切換える際にも適用可能なものである。
【0077】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0078】
【発明の効果】
以上説明したとおり、本発明によれば、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すことを利用することにより、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。
【図面の簡単な説明】
【図1】本発明に係るテレビ会議システム1000の構成を説明するための概念図である。
【図2】本発明の発言者特定システム110の構成を説明するための概略ブロック図である。
【図3】制御部1140が、会議室200へ伝送する画像に対して行う第2の加工方法を説明するための概念図である。
【図4】顔検出の手続きを説明するためのフローチャートである。
【図5】正面顔において、肌色が多く分布する領域を示す概念図である。
【図6】フィルターを示す概念図である。
【図7】本発明の実施の形態2のテレビ会議システム2000の構成を説明するための概念図である。
【符号の説明】
2,4,6,8 会議参加者、100,200 会議室、102 小型カメラ、104 マイク、106 カメラ、110 発言者特定システム、120 テレビ、300 公衆回線網、1000,2000 テレビ会議システム、1102 データ入出力部、1120 発言者抽出部、1122 顔検出部、1124テンプレートマッチング部、1126 口領域動き検出部、1130 データ記憶部、1140 制御部、1150 データ通信部。
【発明の属する技術分野】
この発明は、ビデオ映像中の人物顔を検出して、検出された人物顔の画像に基づいて発話者を特定するための発話者検出システムおよびそれを用いたテレビ会議システムの構成に関する。
【0002】
【従来の技術】
近年、通信回線の高速化・大容量化に伴い、遠隔地の2地点、あるいはそれ以上の複数の地点間を結んで、画像信号および音声信号を授受することにより、会議を開催することが可能な、いわゆる「テレビ会議システム」の重要性が増加している。このようなシステムは、遠隔地点間の人間の移動を伴わないため、コストから見て有利な上に、単なる音声による交信に比べて、授受できる情報量が各段に増加するために、コミュニケーション手段として利用価値が高い。
【0003】
一方で、非特許文献1には、画像中からの実時間での顔検出に関連する技術が開示されているもののテレビ会議システムへの具体的応用については開示がない。
【0004】
【非特許文献1】
村井和昌、中村哲著「マルチモーダル音声認識のための顔検出」、情報処理学会 音声言語情報処理研究会 Vol.2002, No.10.pp.39−44, 2002 2002年2月1日
【0005】
【発明が解決しようとする課題】
一般には、上述したような「テレビ会議システム」は、その名の示すとおり、交信相手方の会議室内の風景のうち限定された領域が、交信の受け手側のテレビ画面に表示されるに過ぎない。
【0006】
言いかえると、テレビ会議の開催される複数の会議室のうちの一方に複数の参加者がいる場合には、通常は、この一方の会議室内で、発言中の参加者の画像や音声を選択的に他方の会議室側に送信することが必要である。従来、このように一方の会議室内での発言者を特定し、この発言者の画像および音声を選択的に送信する作業を行うためには、この一方側の会議室において、発言者を撮影するカメラの撮影方向やカメラの切換え、音声を集音するマイクの切換え等を行うためのオペレータが必要であった。
【0007】
同様に、他方側にも複数の参加者がいる場合は、この他方側の会議室においても同様の操作を行うオペレータが必要になる。
【0008】
つまり、円滑にテレビ会議を実行するために、このように別途オペレータが必要であるとすると、上述したテレビ会議のコスト上の優位性がそがれてしまうという問題点がある。
【0009】
また、このオペレータ自身もある程度習熟していないと、発言者の音声を拾うのが遅れて、通信の受け手の側で音声が聞き取りにくくなったり、カメラの切換えが間に合わなくなるなど、会議が円滑に行われなくなるという問題がある。
【0010】
さらに、このように、複数の参加者がいる場合に、発言者を特定して、その発言者に対して選択的にカメラを向けたり、あるいは、複数のカメラで同時に撮影中の画像から、発言者を撮影しているカメラに切換えたり、あるいは、音声を拾うマイクを切換えるという作業自体は、このようなテレビ会議の場合に限定されるものではなく、たとえば、1つの会場で開催され、複数の発言者が参加する会議の画像を収録する場合にも、同様に必要となる処理である。
【0011】
本発明は、上記のような問題点を解決するためになされたものであった、その目的は、撮影中の画像情報に基づいて、発言者を特定して選択的に画像を撮影したり、あるいは、選択的に音声を集音することが可能な発話者検出システムおよびそれを用いたテレビ会議システムを提供することである。
【0012】
【課題を解決するための手段】
この発明の1つの局面に従うと、発話者検出システムであって、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対応する画像を選択的に獲得する制御手段とを備える。
【0013】
好ましくは、複数の参加者の各々に対応して設けられ、対応する参加者の音声を集音するための複数の集音手段をさらに備え、制御手段は、特定された発話者に対応する集音手段からの信号を選択する。
【0014】
この発明の他の局面に従うと、発話者検出システムであって、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の参加者に共通して設けられ、指定された指向性により対応する参加者の音声を集音するための指向性集音手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対して指向性集音手段の指向性を制御するための制御手段とを備える。
【0015】
好ましくは、制御手段は、発話者特定手段により特定された発話者に対応する画像を選択的に獲得する。
【0016】
この発明のさらに他の局面にしたがうと、テレビ会議システムであって、複数の会議室にそれぞれ対応して設けられる画像音声伝送手段と、複数の会議室の間をつないで通信を行うための回線とを備え、各画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対応する画像を獲得し、伝送する画像音声信号を発話者を特定可能なように加工する制御手段とを含む。
【0017】
好ましくは、各画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の音声を集音するための複数の集音手段をさらに含み、制御手段は、特定された発話者に対応する集音手段からの信号を選択する。
【0018】
この発明のさらに他の局面にしたがうと、テレビ会議システムであって、複数の会議室にそれぞれ対応して設けられる画像音声伝送手段と、複数の会議室の間をつないで通信を行うための回線とを備え、各画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、複数の参加者に共通して設けられ、指定された指向性により対応する参加者の音声を集音するための指向性集音手段と、複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする参加者を発話者として特定する発話者特定手段と、発話者特定手段により特定された発話者に対して指向性集音手段の指向性を制御し、伝送する画像音声信号を生成するための制御手段とを含む。
【0019】
好ましくは、制御手段は、発話者特定手段により特定された発話者に対応する画像を獲得し、伝送する画像音声信号を発話者を特定可能なように加工する。
【0020】
【発明の実施の形態】
以下、図面を参照しつつ本発明の実施の形態について詳細に説明する。以下の説明では、同一の構成部分には同一の符号を付してあり、それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
【0021】
[実施の形態1]
[テレビ会議システム1000の構成]
図1は、本発明に係るテレビ会議システム1000の構成を説明するための概念図である。
【0022】
図1に示したテレビ会議システム1000においては、2つの会議室100と会議室200との間で、インターネットなどの公衆回線網300により、通信を行っているものとする。ここで、会議を開催する会議室の数は、より多くてもよいが、以下の説明では、説明を簡略化するために、2つの会議室を結んで、「テレビ会議」が行われているものとする。また、2つの会議室をつないで通信を行う回線は、公衆回線網30での通信をそのまま用いてもよいし、必要に応じて、公衆回線網30上で実現される仮想プライベートネットワーク(VPN:Virtual Private Network)のような通信の秘密を保護可能なシステムを用いてもよい。さらには、公衆回線網300の代わりに専用回線を用いてもよい。
【0023】
一方の会議室100には、特に限定されないが、たとえば、2人の会議参加者2および4がいるものとする。参加者2および4の各々に対応して、小型カメラ102とマイク104とが設けられている。また、会議室100内の風景を撮影するために、撮影方向等を制御信号に応じて可変とできるカメラ106が設けられてもよい。
【0024】
さらに、会議室100には、他方の会議室200内の参加者6および8の画像を表示し、かつ、参加者6および8の音声を出力するためのテレビ120と、後に説明するように小型カメラ102により撮影される画像に基づいて、参加者のうちの発言者を特定して、参加者を撮影するカメラ102や音声を集音するマイク104について、発言者に対応するものを選択する制御を行う発言者特定システム110とが設けられる。発言者特定システム110は、特定した発言者が、相手方の会議室200内のテレビにおいて表示される画像上でも特定可能なように伝送する画像を加工する。
【0025】
なお、会議室200にも、特に人数は限定されないが、上述したとおり、たとえば、2人の参加者6および8がおり、かつ、会議室100と同様のシステムが設けられているものとする。
【0026】
本発明においては、会議室100において、参加者2と4のいずれが発言を行っているかを、マイク104からの音声によるのではなく、小型カメラ102により撮影された画像に基づいて行う。すなわち、会議の期間中、常時、各参加者の顔を撮影された画像中で捕捉し、口の動きが検出された時点で、画像の切換えやマイク104の切換えを行う。通常、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すため、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。このように、実際に声が出るのよりも先に動き出す、これから発言しようとする人間の口の動きを、「発話の前駆動作」と呼ぶことにする。
【0027】
また、単に、発声を伴うことなく口を動かす場合に比べて、発声を伴って口を動かす場合では、発声に先立つ前駆的な動きの期間において、動きの継続する時間が、一般により長い。したがって、動きを検出してから、所定の時間が経過した場合に、上記画像や音声の切換えを行うこととすれば、誤認識による切換えの頻度を低減することが可能である。
【0028】
図2は、本発明の発言者特定システム110の構成を説明するための概略ブロック図である。なお、図2においては、図1に示した構成のうち、参加者2に対応する部分を抜き出して示す。
【0029】
図2を参照して、発言者特定システム110は、参加者2の画像を撮影するための小型カメラ102からの画像信号と、参加者2に対応して設けられるマイク104からの音声信号を受取る。また、発言者特定システム110は、公衆回線300を介して会議室200から伝送される画像信号および音声信号を受取り、テレビ120により、対応する画像を表示し、対応する音声を出力する。また、発言者特定システム110は、参加者2および4を撮影した画像と参加者2および4の音声を受取り、後に説明するように、会議室200の参加者6および8が、発言者の画像および音声を特定できるように加工した上で、公衆回線300を介して会議室200に伝送する。
【0030】
発言者特定システム110は、小型カメラ102、マイク104およびテレビ120との間でデータの授受を行うためのデータ入出力部1102と、小型カメラ102からのデータに基づいて、発言者を特定するための演算を行う発言者抽出部1120と、発言者特定システム110の行う処理を特定するためのプログラムや上記参加者2および4の顔画像から目、眉、口などの位置を特定するためのテンプレートのデータ等を格納するためのデータ記憶部1130と、データ記憶部1130に格納されたプログラムに従って、発言者特定システム110の動作を制御し、かつ、伝送する画像等を発言者の画像および音声を特定できるように加工するための制御部1140と、加工された画像および音声データを公衆回線300に伝送し、かつ公衆回線300を介して会議室200から伝送される画像信号および音声信号を受取るためのデータ通信部1150とを備える。
【0031】
発言者抽出部1120は、参加者2および4を撮影した画像の各々おいて、色情報に基づいて、顔画像部分を検出する顔検出部1122と、検出された顔部分に対して、目の領域および眉の領域の各々についてテンプレートマッチングを行なって、顔の正確な位置および必要に応じて顔の向きを判定するテンプレートマッチング部1124と、顔検出部1122およびテンプレートマッチング部1124の処理により特定された顔画像において、口唇を特定してその動きを検出する口領域動き検出部1126とを備える。
【0032】
上述したとおり、公衆回線300を介して会議室200に伝送される画像は、会議室200の参加者6および8が、会議室100の参加者2および4のうち、発言者の画像および音声を特定できるように加工される。そのような加工方法としては、第1には、画面上に発言中の参加者のみが表示されるように、伝送される画像信号は、少なくとも発言期間中は、小型カメラ102で撮影された画像信号のうち、一方の参加者に対応する画像信号に完全に切換えることも可能である。この場合、会議室200に対して伝送される音声信号は、参加者2の発言中は、参加者2に対応するマイク104からの信号に基づいて生成される。誰も発言をしていないときには、たとえば、会議室100の全体の音声を集音しているマイク(図示せず)からの音声信号を伝送することとしてもよい。また、画像については、一度発言を開始した発言者、たとえば参加者2の画像が、会議室200のテレビの画面一杯に表示され、参加者2の発言が終了後も、次に、他の参加者4のが発言を開始するまでは、参加者2の画像が表示されつづける、という制御を行うことも可能である。
【0033】
図3は、制御部1140が、会議室200へ伝送する画像に対して行う第2の加工方法を説明するための概念図である。図3においては、会議室200に伝送される画像信号に対応する画像表示を示している。
【0034】
このような第2の加工方法としては、参加者2および4の画像は、常に、会議室200に対して伝送されるものの、1つの画面中において、発言中の参加者、たとえば、参加者2の画像が、発言をしていない他の参加者4の画像よりも大きく表示されるように加工する。ここで、音声信号の切換えについては、第1の加工方法と同様とすることができる。
【0035】
この場合、伝送される画像については、一度発言を開始した参加者2の画像は、その発言中は、会議室200のテレビの画面において相対的に大きく表示され、参加者2の発言が終了後は、他の参加者4と同じ大きさで表示される。
【0036】
なお、会議室100の参加者2および4のうち、発言者の画像を特定できるのであれば、上述した第1および第2の加工方法に限定されるものではない。たとえば、表示される画面中に発言者表示領域が予め規定されており、会議室100の参加者全員の画像が、常に、他の会議室200のテレビの画面の上記発言者表示領域以外の領域に表示されていて、参加者うちのいずれかかが発言を開始すると、この発言者の画像は、上記発言者表示領域に移動して表示されることとしてもよい。
【0037】
[顔検出の処理]
以下、顔検出部1122およびテンプレートマッチング部1124の処理について、さらに詳しく説明する。
【0038】
なお、このような顔検出部1122およびテンプレートマッチング部1124の処理は、たとえば、上述した非特許文献1に開示されているので、以下では、その概略について説明する。
【0039】
顔の位置や向き、顔の器官の検出、顔の同定など、顔検出に関しては、すでに多数の研究者が研究を進めている。ただし、上述したように、撮影された人間の顔画像に基づいて、発話の開始時点を検出するための要件には、i)音声情報と画像情報との同期、ii)実時間での検出、iii)顔向きの検出と顔中の口唇の検出などの情報の獲得、等がある。
【0040】
(色と空間的な特林を併用した顔検出)
以下に説明するとおり、画像中からの実時間での顔検出のために、色と空間的な特徴を併用することが有効である。
【0041】
(顔検出問題の設定)
実際の動画像中の顔の属性には、位置や大きさ、回転などが想定される。また、以下では、実時間で検出することを勘案して、画像中に正立した正面顔が高々1つ存在する状況を想定する。したがって、画面中の位置と大きさ、さらに必要に応じて垂直軸方向の回転を考慮し、正面顔面像を検出する。顔向きまで考慮する場合は、画像中から顔を探索し、得られた探索結果に対し、正面顔と回転した顔とのマッチングを行い、顔向きを堆定する。
【0042】
顔の探索は、正面顔関数f(x,y,size)を定義し、この関数の最大値を与えるx,y,sizeを求める。ここで、(x,y)は左右の黒目の中点の画像中の位置、sizeは左右の黒目の間の距離とする。
【0043】
位置と大きさの張る空間から正面顔関数fの最大債を与える点を探索すれば、顔を検出することができる。さらに検出された顔の位置および大きさに基づいて、口唇の検出が行われる。
【0044】
図4は、このような顔検出の手続きを説明するためのフローチャートである。
以下、図4に示した各ステップの処理について、説明する。
【0045】
(両限中点の色による杖刈)
肌色は色空間内に広範囲に分布しているが、画像中には肌色ではない色が占める割合が多い場合もある。
【0046】
肌色ではないことが明らかな部分には顔があることは想定されないため、発言者特定システム110は、入力画像を受け取ると(ステップS100)、まず、その入力画像について探索範囲を枝刈することができる(ステップS102)。
【0047】
正面顔では、両限の中点が肌色であると想定できる。実用上は眼鏡のブリッジ部分となることもあるため、両眼の中点と、上下方向にそれぞれ両眼距離の5%づつの画素を調べ、肌色の画素が存在しない場合には枝刈りをする。これにより、少ない数の画素を確認するだけで、探索空間の大きな部分を杖刈できる。
【0048】
実装上の速度を向上するため、肌色の判定は、実測したRGB値(各色0〜255)に基づき、次の範囲とする。
【0049】
{(r,g,b):
150<r∧0.3r<g<0.9r∧0.3r<b<0.8r∧b<g}
以下では、「肌色」はこの範囲の色とする。枝刈の対象となった場合、正面顛関数を一∞とする。
【0050】
(眼・眉毛・口領域の色による判定)
肌色の部位は上述した両眼の中点に加えて、正面の顔面に分布する。
【0051】
図5は、このように正面顔において、肌色が多く分布する領域を示す概念図である。
【0052】
図5に示した眼・眉毛・口の領域の70%以上が肌色である。したがって、この領域中の肌色が少ない場合には顔ではないと判定する(ステップS104)。両目・両眉毛・口の領域中、肌色の画素の割合により判定するが、高速化と過度の枝刈を防ぐため、以下の基準としている:
・テスト画素:縦横とも4画素おきに1画素
・杖刈の基準:テスト画素の50%以下が肌色
これにより探索空間を杖刈すると同時に、誤検出も削減できる。
【0053】
(テンプレートマッチング)
肌色の色域は広く、対応する部位も、着衣や頭髪の状況により変動する。
そこで、空間的な特徴のテンプレートマッチングにより目と眉毛を同定する(ステップS106,S108)。テンプレートは、特に限定されないが、複数の被験者をディジタルスチルカメラで撮影した高解像度の静止画から作成することができる。
【0054】
(空間フィルターによる特徴抽出)
入力画像は照明などにより明度が大幅に変動するため、明度の影響を受けにくいフィルターを用いて画像の空間的な特徴を得る。
【0055】
図6は、このようなフィルターを示す概念図である。
すなわち、本発明では、眉毛・日・口など水平方向の成分が多いことに着目し、図6に示す2つの矩形からなるフィルターを構成することにより水平成分を検出する。対象とする領域を領域1と領域2に分け、それぞれに属する画素のグレースケール値に基づき、次式により着目画素のフィルター値を定める。
【0056】
η=σb2/σT2
σb2=n1(P1−Pm)2+n2(P2−Pm)2
【0057】
【数1】
【0058】
ここで、n1:領域1内の画素数、n2:領域2内の画素数、P1,P2,Pmはそれぞれ、領域1内のグレースケール平均値、領域2内のグレースケール平均値、(領域1∪領域2)内のグレースケール平均値、piは各画素のグレースケール値である。各領域は矩形であるため、各領域の和や平方和を求める際には、隣接した短形の結果との差分のみの計第により高速に計算できる。このフィルターは分散の比により定まるため、以下「分散フィルター」と呼ぶこととする。
【0059】
テンプレートは、両黒目中心の位置を、距離が128画素(size=128)となるように日視で合わせた複数名分の静止画顔面像に基づいて作成する。それぞれの画像に分散フィルターを適用し、眼領域、眉毛領域ごとに相関が最大となるように位置を合わせた上で、それらの画像の画素ごとの平均値を求める。
【0060】
正面顔のほか、顔向きを検出するのであれば、水平方向の所定の角度(たとえば、10°、20°、45°)から撮影した静止画顔画俊のテンプレートも作成すればよい。
【0061】
さらに、異なる大きさの画像を認識するテンプレートとして、たとえば、15≦size≦128となるように画像を縮小した上で、それぞれの大きさに対応する複数個のテンプレートを作成しておく。
【0062】
(テンプレートの適用と顔の検出)
テンプレートを適用するために、認識対象の画像に前述の分散フィルターを適用する。次に、両眼領域のテンプレートとの相関係数を算出する(ステップS106)。相関係数が所定の値(たとえば、0.3)以下の場合には、眼ではないと判定し枝刈する。
【0063】
両眼の相関が所定の値を超える場合、眉毛領域の相関係数を求め、両眼と眉毛領域の相関係数の平均値を正面顔関数値(ステップS110)とする。
以上の手続きにより、正面顔関数値が最大値を与える(x,y,size)を探索することにより顔を検出する。
【0064】
さらに、検出された眼領域について、正面顔、左右10°,20°,45°のテンプレートとの相関係数を算出し、相関係数が最大となる角度を求めれば、顔向きを堆定することもできる。
【0065】
また、一般的に、動画像では連続するフレーム間の相駆は高く、画像中での話者の顔の位置や大きさがフレーム間で大幅に動くことが想定されないため、顔の検出に成功した場合、それ以降の検出は、全フレームの位置と大きさを元に、その近傍のみを探索する等の処理を行うことにより検索時間を短縮することができる。
【0066】
以上のようにして、検出された顔の位置(x,y)、大きさsizeに基づけば、口唇の位置を検出することが可能である(ステップS112)。特に限定されないが、口唇についても、眼や眉毛と同様にテンプレートマッチングにより、その位置を特定可能である。このとき、眼や眉毛のテンプレートマッチングで顔の向きを検出していれば、口唇のテンプレートマッチングもこの顔の向きを考慮して、対応する顔の向きの口唇のテンプレートを用いることもできる。
【0067】
時間的に連続するフレームにわたって、以上のような口唇の検出処理を行うことで、口の動きを検出することができる。
【0068】
上述したとおり、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すため、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。
【0069】
[実施の形態2]
図1に示した実施の形態1のテレビ会議システム1000では、各参加者を撮影する小型カメラ102の画像に基づいて、発言者を特定できるように伝送される画像を加工するとともに、集音するマイク104を発言者に対応するものに切り替える。
【0070】
図7は、本発明の実施の形態2のテレビ会議システム2000の構成を説明するための概念図である。
【0071】
実施の形態2のテレビ会議システム2000の構成が、実施の形態1のテレビ会議システム1000の構成と異なる点は、各参加者にそれぞれ対応してマイク104が設けられるのではなく、複数の参加者2および4に共通に、マイクロホンアレー108が設けられる構成となっていることである。
【0072】
マイクロホンアレー108は、複数のマイクをアレー状に配置し、各マイクからの信号の位相を調節することにより、所望の指向性を実現するものである。
【0073】
したがって、テレビ会議システム2000では、各参加者を撮影する小型カメラ102の画像に基づいて、発言者を特定できるように伝送される画像を加工するとともに、マイクロホンアレー108を用いることで、集音する指向性を発言者に向かうように切り替えることができる。
【0074】
なお、マイクロホンアレーについては、たとえば、特開2002−091469号公報(特願2000−283515)に開示されているので、ここでは、その説明は省略する。
【0075】
以上のような構成により、実施の形態1と同様に、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すことを利用して、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。
【0076】
また、以上の実施の形態1および2の説明では、一方の会議室内の複数の参加者のうち、これから発言しようとする参加者を特定して、他の会議室へ伝送する画像および音声の切換えを行うテレビ会議システムとして、本発明を説明した。しかしながら、本発明の発言者特定システム110はこのような場合に限定されることなく、1つの会場で開催され、複数の発言者が参加する会議の画像を収録する場合に、音声や画像を発言者に応じて切換える際にも適用可能なものである。
【0077】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0078】
【発明の効果】
以上説明したとおり、本発明によれば、これから発言しようとする人間の口は、実際に声が出るのよりも先に動き出すことを利用することにより、音声によって発言者を特定して切換えるのよりも、より早いタイミングで発言者の特定と、画像、音声の切換えを行うことが可能である。
【図面の簡単な説明】
【図1】本発明に係るテレビ会議システム1000の構成を説明するための概念図である。
【図2】本発明の発言者特定システム110の構成を説明するための概略ブロック図である。
【図3】制御部1140が、会議室200へ伝送する画像に対して行う第2の加工方法を説明するための概念図である。
【図4】顔検出の手続きを説明するためのフローチャートである。
【図5】正面顔において、肌色が多く分布する領域を示す概念図である。
【図6】フィルターを示す概念図である。
【図7】本発明の実施の形態2のテレビ会議システム2000の構成を説明するための概念図である。
【符号の説明】
2,4,6,8 会議参加者、100,200 会議室、102 小型カメラ、104 マイク、106 カメラ、110 発言者特定システム、120 テレビ、300 公衆回線網、1000,2000 テレビ会議システム、1102 データ入出力部、1120 発言者抽出部、1122 顔検出部、1124テンプレートマッチング部、1126 口領域動き検出部、1130 データ記憶部、1140 制御部、1150 データ通信部。
Claims (8)
- 複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、
前記複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする前記参加者を発話者として特定する発話者特定手段と、
前記発話者特定手段により特定された前記発話者に対応する画像を選択的に獲得する制御手段とを備える、発話者検出システム。 - 複数の参加者の各々に対応して設けられ、対応する参加者の音声を集音するための複数の集音手段をさらに備え、
前記制御手段は、前記特定された発話者に対応する前記集音手段からの信号を選択する、請求項1記載の発話者検出システム。 - 複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、
複数の参加者に共通して設けられ、指定された指向性により対応する参加者の音声を集音するための指向性集音手段と、
前記複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする前記参加者を発話者として特定する発話者特定手段と、
前記発話者特定手段により特定された前記発話者に対して前記指向性集音手段の指向性を制御するための制御手段とを備える、発話者検出システム。 - 前記制御手段は、前記発話者特定手段により特定された前記発話者に対応する画像を選択的に獲得する、請求項3記載の発話者検出システム。
- 複数の会議室にそれぞれ対応して設けられる画像音声伝送手段と、
前記複数の会議室の間をつないで通信を行うための回線とを備え、
各前記画像音声伝送手段は、
複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、
前記複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする前記参加者を発話者として特定する発話者特定手段と、
前記発話者特定手段により特定された前記発話者に対応する画像を獲得し、伝送する画像音声信号を前記発話者を特定可能なように加工する制御手段とを含む、テレビ会議システム。 - 各前記画像音声伝送手段は、複数の参加者の各々に対応して設けられ、対応する参加者の音声を集音するための複数の集音手段をさらに含み、
前記制御手段は、前記特定された発話者に対応する前記集音手段からの信号を選択する、請求項5記載のテレビ会議システム。 - 複数の会議室にそれぞれ対応して設けられる画像音声伝送手段と、
前記複数の会議室の間をつないで通信を行うための回線とを備え、
各前記画像音声伝送手段は、
複数の参加者の各々に対応して設けられ、対応する参加者の少なくとも顔画像を撮影する複数の撮像手段と、
複数の参加者に共通して設けられ、指定された指向性により対応する参加者の音声を集音するための指向性集音手段と、
前記複数の撮影手段からの撮像信号から、それぞれ対応する参加者の顔画像を抽出し、当該顔画像中の口唇部分の動きを捕捉して発話の前駆動作を検出することにより、発話を開始しようとする前記参加者を発話者として特定する発話者特定手段と、
前記発話者特定手段により特定された前記発話者に対して前記指向性集音手段の指向性を制御し、伝送する画像音声信号を生成するための制御手段とを含む、テレビ会議システム。 - 前記制御手段は、前記発話者特定手段により特定された前記発話者に対応する画像を獲得し、伝送する前記画像音声信号を前記発話者を特定可能なように加工する、請求項7記載のテレビ会議システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002277469A JP2004118314A (ja) | 2002-09-24 | 2002-09-24 | 発話者検出システムおよびそれを用いたテレビ会議システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002277469A JP2004118314A (ja) | 2002-09-24 | 2002-09-24 | 発話者検出システムおよびそれを用いたテレビ会議システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004118314A true JP2004118314A (ja) | 2004-04-15 |
Family
ID=32273060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002277469A Pending JP2004118314A (ja) | 2002-09-24 | 2002-09-24 | 発話者検出システムおよびそれを用いたテレビ会議システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004118314A (ja) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005323139A (ja) * | 2004-05-10 | 2005-11-17 | Fuji Xerox Co Ltd | 会議記録装置、会議記録方法、設計方法およびプログラム |
WO2005124302A1 (ja) * | 2004-06-17 | 2005-12-29 | Digital Fashion Ltd. | 画像処理プログラム、画像処理装置、及び画像処理方法 |
JP2006074386A (ja) * | 2004-09-01 | 2006-03-16 | Fujitsu Ltd | 立体音響再生方法、通信装置及びプログラム |
DE102005038717A1 (de) * | 2005-08-15 | 2007-03-01 | Micronas Gmbh | Verfahren zum Verarbeiten audio-visueller Daten und audio-visuelles Kommunikationssystem |
JP2010239499A (ja) * | 2009-03-31 | 2010-10-21 | Brother Ind Ltd | 通信端末装置、通信制御装置、通信端末装置の通信制御方法、通信制御プログラム |
WO2011013605A1 (ja) * | 2009-07-27 | 2011-02-03 | 三洋電機株式会社 | プレゼンテーションシステム |
US7907165B2 (en) | 2005-11-24 | 2011-03-15 | Fuji Xerox Co., Ltd. | Speaker predicting apparatus, speaker predicting method, and program product for predicting speaker |
JP2011087074A (ja) * | 2009-10-14 | 2011-04-28 | Lenovo Singapore Pte Ltd | 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム |
JP2011193392A (ja) * | 2010-03-16 | 2011-09-29 | Ricoh Co Ltd | ビデオ会議装置 |
GB2486793A (en) * | 2010-12-23 | 2012-06-27 | Samsung Electronics Co Ltd | Identifying a speaker via mouth movement and generating a still image |
CN102843543A (zh) * | 2012-09-17 | 2012-12-26 | 华为技术有限公司 | 视频会议提醒方法、装置和视频会议系统 |
JP2017092675A (ja) * | 2015-11-09 | 2017-05-25 | 株式会社リコー | 情報処理装置、会議システム、情報処理方法およびプログラム |
JP2018513991A (ja) * | 2015-03-23 | 2018-05-31 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム |
WO2019234877A1 (ja) * | 2018-06-07 | 2019-12-12 | マクセル株式会社 | 携帯情報端末 |
KR20200053459A (ko) * | 2011-07-28 | 2020-05-18 | 애플 인크. | 향상된 오디오를 갖는 디바이스 |
JP2022105601A (ja) * | 2018-06-07 | 2022-07-14 | マクセル株式会社 | 携帯情報端末 |
US12081352B2 (en) | 2023-02-27 | 2024-09-03 | Maxell, Ltd. | Mobile information terminal |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01206765A (ja) * | 1988-02-12 | 1989-08-18 | Fujitsu Ltd | テレビ会議システム |
JPH10145763A (ja) * | 1996-11-15 | 1998-05-29 | Mitsubishi Electric Corp | 会議システム |
JPH10304329A (ja) * | 1997-04-30 | 1998-11-13 | Matsushita Electric Works Ltd | 会議撮像装置 |
JP2000083229A (ja) * | 1998-09-07 | 2000-03-21 | Ntt Data Corp | 会議システム、話者表示方法及び記録媒体 |
-
2002
- 2002-09-24 JP JP2002277469A patent/JP2004118314A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01206765A (ja) * | 1988-02-12 | 1989-08-18 | Fujitsu Ltd | テレビ会議システム |
JPH10145763A (ja) * | 1996-11-15 | 1998-05-29 | Mitsubishi Electric Corp | 会議システム |
JPH10304329A (ja) * | 1997-04-30 | 1998-11-13 | Matsushita Electric Works Ltd | 会議撮像装置 |
JP2000083229A (ja) * | 1998-09-07 | 2000-03-21 | Ntt Data Corp | 会議システム、話者表示方法及び記録媒体 |
Non-Patent Citations (3)
Title |
---|
寺田賢治 外2名: "ステレオ濃淡画像を用いた顔の識別", 画像電子学会誌 第29巻 第5号, CSNG200300047008, 25 September 2000 (2000-09-25), JP, pages 488 - 496, ISSN: 0000786243 * |
熊谷建一 外2名: "バイモーダル音声認識のためのモデル合成に基づく統合法と適応化", 情報処理学会研究報告 VOL.2000 NO.119 2000−SLP−34, vol. 第2000巻 第119号, CSNG200200027009, 22 December 2000 (2000-12-22), JP, pages 67 - 72, ISSN: 0000759283 * |
菅原一孔 外3名: "画像情報を取り入れた単語認識システムの実時間実現", 電子情報通信学会技術研究報告 VOL.99 NO.708 NLC99−78〜93 言語理解とコミュニ, vol. 第99巻 第708号, CSNG200201388009, 17 March 2000 (2000-03-17), JP, pages 57 - 63, ISSN: 0000759282 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4517716B2 (ja) * | 2004-05-10 | 2010-08-04 | 富士ゼロックス株式会社 | 会議記録装置、会議記録方法、設計方法およびプログラム |
JP2005323139A (ja) * | 2004-05-10 | 2005-11-17 | Fuji Xerox Co Ltd | 会議記録装置、会議記録方法、設計方法およびプログラム |
WO2005124302A1 (ja) * | 2004-06-17 | 2005-12-29 | Digital Fashion Ltd. | 画像処理プログラム、画像処理装置、及び画像処理方法 |
JP2006074386A (ja) * | 2004-09-01 | 2006-03-16 | Fujitsu Ltd | 立体音響再生方法、通信装置及びプログラム |
DE102005038717A1 (de) * | 2005-08-15 | 2007-03-01 | Micronas Gmbh | Verfahren zum Verarbeiten audio-visueller Daten und audio-visuelles Kommunikationssystem |
US7907165B2 (en) | 2005-11-24 | 2011-03-15 | Fuji Xerox Co., Ltd. | Speaker predicting apparatus, speaker predicting method, and program product for predicting speaker |
JP2010239499A (ja) * | 2009-03-31 | 2010-10-21 | Brother Ind Ltd | 通信端末装置、通信制御装置、通信端末装置の通信制御方法、通信制御プログラム |
WO2011013605A1 (ja) * | 2009-07-27 | 2011-02-03 | 三洋電機株式会社 | プレゼンテーションシステム |
US20120077172A1 (en) * | 2009-07-27 | 2012-03-29 | Sanyo Electric Co., Ltd. | Presentation system |
JP2011087074A (ja) * | 2009-10-14 | 2011-04-28 | Lenovo Singapore Pte Ltd | 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム |
JP2011193392A (ja) * | 2010-03-16 | 2011-09-29 | Ricoh Co Ltd | ビデオ会議装置 |
GB2486793A (en) * | 2010-12-23 | 2012-06-27 | Samsung Electronics Co Ltd | Identifying a speaker via mouth movement and generating a still image |
GB2486793B (en) * | 2010-12-23 | 2017-12-20 | Samsung Electronics Co Ltd | Moving image photographing method and moving image photographing apparatus |
US8687076B2 (en) | 2010-12-23 | 2014-04-01 | Samsung Electronics Co., Ltd. | Moving image photographing method and moving image photographing apparatus |
KR20200053459A (ko) * | 2011-07-28 | 2020-05-18 | 애플 인크. | 향상된 오디오를 갖는 디바이스 |
US10771742B1 (en) | 2011-07-28 | 2020-09-08 | Apple Inc. | Devices with enhanced audio |
KR102312124B1 (ko) * | 2011-07-28 | 2021-10-14 | 애플 인크. | 향상된 오디오를 갖는 디바이스 |
CN102843543A (zh) * | 2012-09-17 | 2012-12-26 | 华为技术有限公司 | 视频会议提醒方法、装置和视频会议系统 |
JP2018513991A (ja) * | 2015-03-23 | 2018-05-31 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声を要約するための方法、コンピュータ・プログラムおよびコンピュータ・システム |
JP2017092675A (ja) * | 2015-11-09 | 2017-05-25 | 株式会社リコー | 情報処理装置、会議システム、情報処理方法およびプログラム |
WO2019234877A1 (ja) * | 2018-06-07 | 2019-12-12 | マクセル株式会社 | 携帯情報端末 |
JPWO2019234877A1 (ja) * | 2018-06-07 | 2021-06-03 | マクセル株式会社 | 携帯情報端末 |
JP7075995B2 (ja) | 2018-06-07 | 2022-05-26 | マクセル株式会社 | 携帯情報端末 |
JP2022105601A (ja) * | 2018-06-07 | 2022-07-14 | マクセル株式会社 | 携帯情報端末 |
US11627007B2 (en) | 2018-06-07 | 2023-04-11 | Maxell, Ltd. | Mobile information terminal |
JP7286838B2 (ja) | 2018-06-07 | 2023-06-05 | マクセル株式会社 | 携帯情報端末 |
US12081352B2 (en) | 2023-02-27 | 2024-09-03 | Maxell, Ltd. | Mobile information terminal |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7907165B2 (en) | Speaker predicting apparatus, speaker predicting method, and program product for predicting speaker | |
JP2004118314A (ja) | 発話者検出システムおよびそれを用いたテレビ会議システム | |
EP3855731A1 (en) | Context based target framing in a teleconferencing environment | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
US8379074B2 (en) | Method and system of tracking and stabilizing an image transmitted using video telephony | |
US20080235724A1 (en) | Face Annotation In Streaming Video | |
CN108076307B (zh) | 基于ar的视频会议系统和基于ar的视频会议方法 | |
CN108470169A (zh) | 人脸识别系统及方法 | |
JP2003506927A (ja) | ビデオ会議の参加者がカメラに焦点を合わせた状態で相手方ユーザの前に出現できるようにする方法と装置 | |
US11076127B1 (en) | System and method for automatically framing conversations in a meeting or a video conference | |
KR20090113289A (ko) | 화상 처리 장치, 화상 처리 방법 | |
CN107333090A (zh) | 视频会议数据处理方法和平台 | |
CN112507829A (zh) | 一种多人视频手语翻译方法及系统 | |
JP7219049B2 (ja) | 情報取得装置及び情報取得方法 | |
CN108718402A (zh) | 视频会议管理方法及装置 | |
CN113676693A (zh) | 画面呈现方法、视频会议系统及可读存储介质 | |
JPH11234640A (ja) | 通信制御システム | |
CN115315939A (zh) | 信息处理装置、信息处理方法和程序 | |
US11665391B2 (en) | Signal processing device and signal processing system | |
JP2010004480A (ja) | 撮像装置、その制御方法及びプログラム | |
JP2004248125A (ja) | 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体 | |
CN112804455A (zh) | 远程交互方法、装置、视频设备和计算机可读存储介质 | |
CN113923339A (zh) | 拍摄控制方法、移动终端和计算机可读存储介质 | |
JP2021197658A (ja) | 収音装置、収音システム及び収音方法 | |
JP2001092990A (ja) | 3次元仮想空間参加者表示方法、3次元仮想空間表示装置、および3次元仮想空間参加者表示プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060929 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061031 |