JP2015019162A

JP2015019162A - 会議支援システム

Info

Publication number: JP2015019162A
Application number: JP2013143898A
Authority: JP
Inventors: 卓山王; Taku Sanno
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2013-07-09
Filing date: 2013-07-09
Publication date: 2015-01-29

Abstract

【課題】単純な構成で各参加者の発話状態を正確に認識する。
【解決手段】魚眼レンズを用いた広角撮影装置１００により、会議の各参加者の顔を含む歪曲円形画像Ｓを撮影し、格納部２１０に格納する。ユーザが各人物の初期切出条件を設定すると、画像切出変換部２２０が各人物画像を切り出し、平面正則画像Ｔに変換して格納部２３０に格納する。顔領域認識部２５０は各平面正則画像Ｔから顔領域を認識し、唇近傍領域設定部２６０は顔領域上に唇近傍領域を設定する。特徴量算出部２７０は唇近傍領域内の輝度もしくは色を示す特徴量を算出し、発話状態認識部２８０は当該特徴量の時間変化に基づいて、個々の参加者の発話時間を決定する。会議画像提示部２９０は各人物画像とともに発話時間をディスプレイ装置３００上に提示する。切出条件設定部２４０は、顔領域認識部２５０の認識結果に基づき、唇を中心とした切出条件の再設定を逐次行う。
【選択図】図１

Description

本発明は、会議支援システムに関し、特に、広範囲な画角をもった撮影を行うことにより、会議の各参加者の画像とともに各参加者の発話情報を提示するシステムに関する。

会議の各参加者の画像を撮影して、これをディスプレイ装置上に表示する会議支援システムは、古くから様々なタイプのものが提案されている。たとえば、下記の特許文献１には、会議の各参加者の画像を撮影するとともに、可変指向性マイクを用いて話者を特定し、発話中の人物画像を切り出して表示するテレビカメラ装置が開示されている。

一方、音声ではなく、撮影画像から参加者の唇の動きを読み取ることにより話者を特定する技術も提案されている。たとえば、特許文献２には、参加者の撮影画像から顔の輪郭を抽出し、更に唇の動きを検出することにより発話者を特定するテレビ会議システムが開示されており、特許文献３には、参加者の顔画像から口唇部分の動きを捕捉して、発話者の前駆動作を検出することにより発話者を特定する技術が開示されている。

また、特許文献４には、魚眼レンズによって会議の各参加者を撮影し、得られた歪曲円形画像上でユーザに所望の位置を指定させ、当該指定位置を中心とした切出処理により各参加者の平面正則画像を歪みなく表示する技術が開示されている。

特開平１１−３３１８２７号公報特開２００３−１８９２７３号公報特開２００４−１１８３１４号公報特開２０１２−０８９９５４号公報

ディスプレイ上に会議の様子を提示する会議支援システムでは、各参加者の画像を表示するだけでなく、各参加者の発話状態に関する情報を提示できると便利である。たとえば、現在、どの参加者が発言中であるのか、個々の参加者の発言時間はどの程度なのか、といった情報がディスプレイ上に提示されれば、視聴者や司会者は、会議を傍聴したり進行したりする上で、有用な情報を得ることができる。

会議中に発話者を特定する方法としては、前掲の特許文献１に開示されているように、音声を利用した方法が古くから利用されている。ただ、音声を利用した方法を採用するには、個々の参加者の近傍に配置された指向性マイクなど、音声情報の収集のための専用機器が必要になり、システム全体が複雑化することは否めない。そこで近年は、特許文献２，３に示す例のように、撮影画像上で各参加者の唇の動きを解析して発話者を特定する方法が提案されている。一方、各参加者の画像を撮影するための撮影系を単純化するためには、特許文献４に示す例のように、魚眼レンズなどの広角撮影装置を用いて各参加者の画像を取得する会議支援システムも提案されている。

このように、広角撮影装置で撮影した画像を解析することにより発話者を特定する方法を採れば、発話者の特定にマイクは不要であり、また、撮影装置も１台で済むため、装置構成を単純化し小型化を図ることができる。しかしながら、広角撮影装置によって得られる画像には、光学的要因に基づく歪みが存在するため、各参加者の発話状態を正確に認識することが困難であるという問題がある。

そこで本発明は、装置構成の単純化を図りつつ、各参加者の発話状態を正確に認識することが可能な会議支援システムを提供することを目的とする。

(1) 本発明の第１の態様は、広範囲な画角をもった撮影により、会議の各参加者の顔を含む歪曲円形画像を取り込む広角撮影装置と、
歪曲円形画像に基づいて、各参加者の人物画像および発話情報を作成する撮影画像処理装置と、
各参加者の人物画像および発話情報を表示するディスプレイ装置と、
を備える会議支援システムにおいて、
撮影画像処理装置に、
広角撮影装置によって時間軸に沿って撮影された複数の歪曲円形画像を順次格納する歪曲円形画像格納部と、
各参加者について、切出中心点、切出方向、切出倍率を定める所定の切出条件をそれぞれ設定する切出条件設定部と、
ディスプレイ装置の画面上に歪曲円形画像を表示させ、表示中の歪曲円形画像上で切出中心点の位置を指定するユーザの操作入力に基づいて、切出条件設定部に対して、各参加者についての初期切出条件を設定する初期切出条件設定部と、
切出条件設定部に設定されている切出条件に基づいて、歪曲円形画像の一部分を切り出して変換し、各参加者についての平面正則画像を生成する画像切出変換部と、
平面正則画像を格納する平面正則画像格納部と、
平面正則画像について顔領域を認識する顔領域認識部と、
顔領域上に唇近傍領域を設定する唇近傍領域設定部と、
各参加者の平面正則画像について、唇近傍領域内の輝度もしくは色を示す特徴量を算出する特徴量算出部と、
特徴量の時間変化に基づいて、個々の参加者ごとの発話状態を認識する発話状態認識部と、
平面正則画像と発話状態に関連した発話情報とを含んだ会議画像を、時間軸に沿って順次生成し、これをディスプレイ装置に与えて動画として表示させる会議画像提示部と、
を設け、
切出条件設定部に、顔領域認識部の認識結果に基づいて、切出条件の再設定を行う機能をもたせるようにしたものである。

(2) 本発明の第２の態様は、上述した第１の態様に係る会議支援システムにおいて、
切出条件設定部が、顔領域の輪郭枠を基準として予め定められた所定位置にある点を再設定基準点と定め、平面正則画像上の再設定基準点を歪曲円形画像上に逆変換して得られる点を切出中心点とする再設定を行うようにしたものである。

(3) 本発明の第３の態様は、上述した第２の態様に係る会議支援システムにおいて、
切出条件設定部が、唇の中心が位置すると予想される点を再設定基準点に定めるようにしたものである。

(4) 本発明の第４の態様は、上述した第１の態様に係る会議支援システムにおいて、
切出条件設定部が、唇近傍領域設定部が設定した唇近傍領域の中心点を再設定基準点と定め、平面正則画像上の再設定基準点を歪曲円形画像上に逆変換して得られる点を切出中心点とする再設定を行うようにしたものである。

(5) 本発明の第５の態様は、上述した第１〜第４の態様に係る会議支援システムにおいて、
切出条件設定部が、顔領域の面積に応じた切出倍率をもった切出条件を再設定するようにしたものである。

(6) 本発明の第６の態様は、上述した第１〜第５の態様に係る会議支援システムにおいて、
切出条件設定部が、切出中心点を通る歪曲円形画像の同心円を求め、当該同心円の接線方向が平面正則画像の水平方向となるような切出方向をもつ切出条件を再設定するようにしたものである。

(7) 本発明の第７の態様は、上述した第１〜第６の態様に係る会議支援システムにおいて、
広角撮影装置が、一定の時間周期で撮影されたフレーム単位の静止画からなる歪曲円形画像を連続して取り込み、
切出条件設定部が、１フレーム周期、もしくは、複数フレーム周期で切出条件の再設定を行うようにしたものである。

(8) 本発明の第８の態様は、上述した第１〜第７の態様に係る会議支援システムにおいて、
唇近傍領域設定部が、顔領域の輪郭枠を基準として予め定められた所定枠内の領域を唇近傍領域に設定するようにしたものである。

(9) 本発明の第９の態様は、上述した第８の態様に係る会議支援システムにおいて、
顔領域認識部が、矩形状の輪郭枠をもった顔領域を認識し、
唇近傍領域設定部が、この輪郭枠の左辺の横方向に関する位置を０％、右辺の横方向に関する位置を１００％とし、上辺の縦方向に関する位置を０％、下辺の縦方向に関する位置を１００％としたときに、予め設定された所定の定数ａ１，ａ２，ｂ１，ｂ２（但し、０＜ａ１＜ａ２＜１００、０＜ｂ１＜ｂ２＜１００）に基づいて、左辺の横方向に関する位置がａ１％、右辺の横方向に関する位置がａ２％の位置にあり、上辺の縦方向に関する位置がｂ１％、下辺の縦方向に関する位置がｂ２％の位置にある矩形状の輪郭枠をもつ領域を唇近傍領域に設定するようにしたものである。

(10) 本発明の第１０の態様は、上述した第１〜第７の態様に係る会議支援システムにおいて、
唇近傍領域設定部が、個々の平面正則画像について、それぞれ顔領域内を所定の唇探索アルゴリズムを用いて探索し、探索された唇の周辺を含む領域を、当該平面正則画像についての唇近傍領域に設定するようにしたものである。

(11) 本発明の第１１の態様は、上述した第１〜第１０の態様に係る会議支援システムにおいて、
平面正則画像が、３原色ＲＧＢの各画素値をもった画素の集合体によって構成され、
特徴量算出部が、唇近傍領域内の第ｉ番目（１≦ｉ≦ｎ、但し、ｎは唇近傍領域内の画素の総数）の画素の３原色の画素値をそれぞれＲ（ｉ），Ｇ（ｉ），Ｂ（ｉ）としたときに、
ξ＝Σ_{ｉ＝１〜ｎ}（Ｒ（ｉ）＋Ｇ（ｉ）＋Ｂ（ｉ））／ｎ
なる演算式に基づく演算により当該唇近傍領域内の輝度を示す特徴量ξを算出するようにしたものである。

(12) 本発明の第１２の態様は、上述した第１〜第１０の態様に係る会議支援システムにおいて、
平面正則画像が、３原色ＲＧＢの各画素値をもった画素の集合体によって構成され、
特徴量算出部が、唇近傍領域内の第ｉ番目（１≦ｉ≦ｎ、但し、ｎは唇近傍領域内の画素の総数）の画素の原色Ｒの画素値をＲ（ｉ）としたときに、
ξ＝Σ_{ｉ＝１〜ｎ}（Ｒ（ｉ））／ｎ
なる演算式に基づく演算により当該唇近傍領域内の色を示す特徴量ξを算出するようにしたものである。

(13) 本発明の第１３の態様は、上述した第１〜第１０の態様に係る会議支援システムにおいて、
平面正則画像が、３原色ＲＧＢの各画素値をもった画素の集合体によって構成され、
特徴量算出部が、唇近傍領域内の第ｉ番目（１≦ｉ≦ｎ、但し、ｎは唇近傍領域内の画素の総数）の画素の、３原色ＲＧＢの各画素値から求めた色相値をＨ（ｉ）としたときに、
ξ＝Σ_{ｉ＝１〜ｎ}（Ｈ（ｉ））／ｎ
なる演算式に基づく演算により当該唇近傍領域内の色を示す特徴量ξを算出するようにしたものである。

(14) 本発明の第１４の態様は、上述した第１〜第１３の態様に係る会議支援システムにおいて、
発話状態認識部が、各参加者について、特徴量の変動幅が所定のしきい値以下となる期間を非発話期間、当該しきい値を超える期間を発話期間と認識するようにしたものである。

(15) 本発明の第１５の態様は、上述した第１４の態様に係る会議支援システムにおいて、
発話状態認識部が、特徴量の時間的変動グラフの極大点と極小点とを変極点として逐次検出し、個々の変極点について、当該変極点の特徴量と直前の変極点の特徴量との偏差を求め、当該偏差が所定のしきい値以下の状態から当該しきい値を超える状態に転じた時点を非発話期間から発話期間への転換時点と認識し、当該偏差が当該しきい値を超えた状態から当該しきい値以下の状態に転じた時点を発話期間から非発話期間への転換時点と認識するようにしたものである。

(16) 本発明の第１６の態様は、上述した第１〜第１５の態様に係る会議支援システムにおいて、
会議画像提示部が、個々の参加者について、当該参加者の人物画像を含む平面正則画像を表示する参加者表示領域と、この参加者表示領域に紐づけて当該参加者の発話情報を表示する発話情報表示領域と、を有する会議画像を生成するようにしたものである。

(17) 本発明の第１７の態様は、上述した第１６の態様に係る会議支援システムにおいて、
個々の参加者についての発話情報表示領域を、当該参加者についての参加者表示領域の近傍に配置し、互いに近傍に配置することにより、特定の参加者表示領域と特定の発話情報表示領域との紐付けを行うようにしたものである。

(18) 本発明の第１８の態様は、上述した第１６または第１７の態様に係る会議支援システムにおいて、
会議画像提示部が、発話情報表示領域に、各参加者が発話期間中か非発話期間中かを識別する識別マークを表示させるようにしたものである。

(19) 本発明の第１９の態様は、上述した第１６または第１７の態様に係る会議支援システムにおいて、
会議画像提示部が、現在発話中の参加者についての発話情報表示領域についてのみ、発話中であることを示す識別マークを表示させるようにしたものである。

(20) 本発明の第２０の態様は、上述した第１６または第１７の態様に係る会議支援システムにおいて、
会議画像提示部が、発話情報表示領域に、各参加者の累積発話時間を表示させるようにしたものである。

(21) 本発明の第２１の態様は、上述した第１６または第１７の態様に係る会議支援システムにおいて、
会議画像提示部が、発話情報表示領域に、現在発話中の参加者についての発話継続時間を表示させるようにしたものである。

(22) 本発明の第２２の態様は、上述した第２０または第２１の態様に係る会議支援システムにおいて、
会議画像提示部が、発話情報表示領域への時間表示を、数字もしくは円グラフまたはその双方で行うようにしたものである。

(23) 本発明の第２３の態様は、上述した第２０または第２１の態様に係る会議支援システムにおいて、
会議画像提示部が、発話情報表示領域に対して、円グラフを含む時間表示を行い、所定の時間ユニットＵに対して円グラフの３６０°を対応させ、表示対象となる時間ＴをＵで割り算したときの商をＱ、剰余をＲとしたときに、Ｑ個の円と、１個の扇形（中心角θは、θ＝３６０°×Ｒ／Ｕ）とを並べた表示を行うようにしたものである。

(24) 本発明の第２４の態様は、上述した第１〜第２３の態様に係る会議支援システムにおける撮影画像処理装置を構成したものである。

(25) 本発明の第２５の態様は、上述した第２４の態様に係る撮影画像処理装置を、コンピュータにプログラムを組み込むことにより構成したものである。

(26) 本発明の第２６の態様は、上述した第２４の態様に係る撮影画像処理装置を、半導体集積回路により構成したものである。

(27) 本発明の第２７の態様は、上述した第１〜第２３の態様に係る会議支援システムを複数台用意し、個々の会議支援システムの構成要素となる撮影画像処理装置をネットワークで接続することにより相互に会議画像を送受信できるようにし、ディスプレイ装置に複数の会議画像を提示させるようにしてテレビ会議支援システムを構成したものである。

本発明の会議支援システムでは、広角撮影装置を用いた撮影により、会議の各参加者の顔を含む歪曲円形画像が取り込まれ、当該画像を解析することにより各参加者の発話状態の認識が行われる。そのため、撮影装置は１台で十分であり、特別な指向性マイクなども不要になり、装置構成の単純化を図ることができ、装置の小型化にも貢献することになる。

そして、取り込まれた歪曲円形画像から、それぞれ各参加者の画像が切り出され、平面正則画像に変換した上で顔領域が認識され、更に唇近傍領域の設定が行われる。しかも、各参加者の画像の切出条件は、ユーザの操作入力に基づいて初期設定がなされた後、認識された顔領域に基づいて自動的に再設定される。このため、平面正則画像は、常に、唇の動きを認識するために好適な位置から切り出された歪みの少ない画像になり、各参加者の発話状態を正確に認識することが可能になる。

特に、発話情報として各参加者の発話時間を表示させる実施形態を採れば、各参加者の発言度が明確になり、司会者等が会議を進行する上での目安として役立つ貴重な情報提示が可能になる。

本発明の基本的な実施形態に係る会議支援システムの構成を示すブロック図である。図１に示す会議支援システムを実際の会議室に設置した利用例を示す図である。図１に示す会議支援システムにおいて、広角撮影装置１００によって取り込まれた歪曲円形画像Ｓの具体例を示す平面図である。図３に示す歪曲円形画像Ｓについて設定された切出条件（切出位置Ｐ（ｘ０，ｙ０）および切出方向Ｊ）の一例を示す平面図である。図４に示す切出条件に基づいて歪曲円形画像Ｓの一部を切り出し、これを変換することによって得られた平面正則画像Ｔの一例を示す平面図である。歪曲円形画像Ｓの一部を切り出して平面正則画像Ｔに変換する基本原理を説明する斜視図である。図１に示す会議支援システムにおいて、初期切出条件設定部２４５によってディスプレイ装置３００に表示された初期設定画面の一例を示す平面図である。図１に示す会議支援システムにおいて、会議画像提示部２９０によってディスプレイ装置３００の画面に各参加者の人物画像を表示した状態を示す平面図である。図１に示す会議支援システムにおいて、顔領域認識部２５０によって平面正則画像Ｔ上で顔領域Ｆの認識を行った例を示す平面図である。図９に示す顔領域Ｆに基づいて、再設定基準点Ｔｒ（ｕｒ，ｖｒ）を唇の位置に設定した一例を示す平面図である。図３に示す歪曲円形画像Ｓから、４人の参加者の画像を切り出すための切出条件の一例を示す平面図である。図１１に示す切出条件によって切り出された部分画像に基づいて作成された各参加者の人物画像（平面正則画像）を示す平面図である。図１に示す会議支援システムの唇近傍領域設定部２６０によって、顔領域Ｆ内に唇近傍領域Ｌを設定した一例を示す平面図である。図１３に示す唇近傍領域Ｌの設定方法の一例を示す平面図である。図１３に示す唇近傍領域Ｌの設定方法の別な一例を示す平面図である。図１に示す会議支援システムの特徴量算出部２７０によって算出された特徴量の技術的な意義を説明する平面図である。図１に示す会議支援システムの特徴量算出部２７０によって、唇近傍領域Ｌについての特徴量を算出するための数式の例をいくつか示す図である。図１に示す会議支援システムの唇近傍領域設定部２６０によって認識された唇領域Ｋのバリエーションを示す平面図である。図１に示す会議支援システムの発話状態認識部２８０によって、発話状態を認識する基本原理を示すグラフである。図１９に示す基本原理に基づいて発話状態を認識するために、特徴量の変極点を決定する作業を示すグラフである。図２０に示す方法で決定した変極点に基づいて、発話期間の認識を行う例を示すグラフである。図１に示す会議支援システムにおいて、会議画像提示部２９０によってディスプレイ装置３００に表示された第１の会議画像表示画面３３０を示す平面図である。図１に示す会議支援システムにおいて、会議画像提示部２９０によってディスプレイ装置３００に表示された第２の会議画像表示画面３４０を示す平面図である。図１に示す会議支援システムにおいて、会議画像提示部２９０によってディスプレイ装置３００に表示された第３の会議画像表示画面３５０を示す平面図である。図１に示す会議支援システムにおいて、会議画像提示部２９０によってディスプレイ装置３００に表示された第４の会議画像表示画面３６０を示す平面図である。図１に示す会議支援システムにおいて、会議画像提示部２９０によってディスプレイ装置３００に表示された第５の会議画像表示画面３７０を示す平面図である。図１に示す会議支援システムを複数台備えたテレビ会議支援システムにおいて、ディスプレイ装置３００に表示された複数の会議画像表示画面３８０，３９０を示す平面図である。図１に示す会議支援システムにおける撮影画像処理装置２００の処理手順を示す流れ図である。

以下、本発明を図示する実施形態に基づいて説明する。

＜＜＜ §１．本発明に係る会議支援システムの基本構成＞＞＞
図１は、本発明の基本的な実施形態に係る会議支援システムの構成を示すブロック図である。図示のとおり、この装置は、広角撮影装置１００、撮影画像処理装置２００、ディスプレイ装置３００を備えた会議支援システムである。

広角撮影装置１００は、広範囲な画角をもった撮影により、会議の各参加者の顔を含む歪曲円形画像を取り込む撮影装置であり、たとえば、魚眼レンズや全方位ミラーなどの光学系を装着することにより、３６０°の全方位の画像を撮影できる装置が実用化されている。魚眼レンズは複数のレンズの組み合わせによって構成され、屈折を利用して周囲からの入射光を撮像面に導く働きをする。一方、全方位ミラーは、反射を利用して周囲からの入射光を撮像面に導く働きをする。いずれも、半球状の視野内の外景からの光を集光して結像面に歪曲円形画像Ｓを生成する光学系であり、撮影によって得られる画像は、通常の正則矩形画像ではなく、歪曲した円形の画像になる。

この広角撮影装置１００は、動画撮影の機能を有しており、たとえば、３０フレーム／秒といった撮影周期で、時間軸に沿って歪曲円形画像を連続撮影することができる。こうして撮影された複数の歪曲円形画像Ｓは、撮影画像処理装置２００に取り込まれ、後述する所定の画像処理が施されることになる。この画像処理の目的は、取り込んだ歪曲円形画像Ｓに基づいて、各参加者の人物画像および発話情報を作成することにある。撮影画像処理装置２００で作成された各参加者の人物画像および発話情報は、ディスプレイ装置３００に与えられ、ディスプレイ画面上でユーザに提示される。

図２は、この会議支援システムを実際の会議室に設置した利用例を示す図である。この例では、Ａ氏，Ｂ氏，Ｃ氏，Ｄ氏の４名が、会議の参加者としてテーブルを囲むように着座しており、テーブル上には、広角撮影装置１００およびマイクロフォン１５０が置かれている。図示のとおり、広角撮影装置１００およびマイクロフォン１５０は、撮影画像処理装置２００に接続されており、撮影画像処理装置２００はディスプレイ装置３００に接続されている。

撮影画像処理装置２００は、図１において、一点鎖線で囲って示す範囲内に描かれているブロック２１０〜２９０によって構成されている。実際には、この撮影画像処理装置２００は、コンピュータに専用の画像処理用プログラムを組み込むことにより構成することができ、図示されている個々のブロックは、そのようなコンピュータを個々の機能要素として捉えたものである。

なお、ノートパソコンを利用して撮影画像処理装置２００を構成した場合、当該ノートパソコンのディスプレイをそのままディスプレイ装置３００として利用することができるので、結局、図２に示す撮影画像処理装置２００およびディスプレイ装置３００は、１台のノートパソコンによって構成することができる。一方、マイクロフォン１５０も、ノートパソコンに内蔵されたものをそのまま利用することができる。したがって、実用上は、図２に示す会議支援システムは、撮影画像処理装置２００としての機能を実行させるための専用のプログラムをインストールしたノートパソコン１台に、広角撮影装置１００を接続した単純な構成によって実現可能である。

また、図２では、広角撮影装置１００およびマイクロフォン１５０を撮影画像処理装置２００に対して有線接続した例が示されているが、もちろん、これらを無線接続するようにしてもかまわない。たとえば、Bluetooth（登録商標）などの無線通信を利用して、これらの間の接続を行うようにすれば、テーブルの上が繁雑になるのを避けることができる。

もちろん、この撮影画像処理装置２００を、半導体集積回路によって構成することも可能である。撮影画像処理装置２００を１チップのＬＳＩによって構成すれば、当該チップを広角撮影装置１００の筐体内に組み込むことも容易である。

なお、実用上は、図２に示す例のように、マイクロフォン１５０を用いて、各参加者の画像とともに音声を収録するのが好ましいが、本発明に係る会議支援システムでは、マイクロフォン１５０は必須の構成要素ではない。これは、本発明では、各参加者の唇の動きを解析して発話状態の認識を行うので、発話状態の認識に音声の収録は必要ないためである。したがって、図１に示す実施形態では、マイクロフォン１５０および音声を取り扱う構成要素は省略されており、ディスプレイ装置３００には、音声なしの動画画像のみが提示される実施例になっている。もちろん、実用上は、この図１に示す装置に、更にマイクロフォン１５０を付加し、撮影画像処理装置２００内に、音声信号を取り込んでディスプレイ装置３００に提供する音声処理部を設けるようにするのが好ましい。

以下、撮影画像処理装置２００を、専用のプログラムをインストールしたノートパソコンによって構成した実施例について、図１に各ブロックとして示された個々の構成要素の機能を説明する。

まず、歪曲円形画像格納部２１０は、広角撮影装置１００によって時間軸に沿って撮影された複数の歪曲円形画像Ｓを順次格納する構成要素であり、コンピュータ用のメモリやハードディスク装置といった記憶装置によって構成される。前述したように、広角撮影装置１００が、３０フレーム／秒といった撮影周期で連続撮影する機能をもった全方位カメラであった場合、１秒ごとに３０枚の歪曲円形画像Ｓが取り込まれることになるので、そのような画像を必要な時間分だけ格納可能な容量をもった記憶装置を用意しておくようにする。もちろん、ディスプレイ装置３００にリアルタイムで画像表示した後、会議の映像を保存しておく必要がない場合は、後述する発話状態の認識処理に必要なフレーム分を記憶するための必要最低限の記憶容量を確保しておき、不要になった過去のフレームについては逐次消去してゆくようにしてもかまわない。

魚眼レンズや全方位ミラーなどの光学系を用いた撮影によって得られる画像は、３６０°の画角をもった全方位画像になるが、当該画像自身は幾何学的な歪みを生じた円形の画像になる。そこで、本願では、広角撮影装置１００で撮影された画像を「歪曲円形画像」と呼んでいる。図３は、図２に例示する４人による会議の様子を、テーブル中央に配置された広角撮影装置１００によって撮影することによって得られた歪曲円形画像Ｓの一例を示す図である。

ここでは、説明の便宜上、この歪曲円形画像Ｓの中心点に原点Ｏをとり、図の右方向にＸ軸、上方向にＹ軸をそれぞれとった二次元ＸＹ直交座標系を定義する。図２に例示する撮影環境下では、図３に示す歪曲円形画像Ｓの中心に位置する原点Ｏは、広角撮影装置１００の真上の天井面の１点に対応し、円形テーブルを取り巻いて着座した４名の参加者Ａ〜Ｄは、原点Ｏを取り巻く位置に写ることになる。この歪曲円形画像Ｓは、原点Ｏを中心とした半球面上の画像をＸＹ平面に幾何学的に投影した画像に相当するため、図示のとおり、個々の人物画像は歪みを生じたものになる。特に、頭頂部（円の中心に近い部分）は三角形に尖るような変形を受け、胸の部分（円の外周に近い部分）は半径方向に圧縮された状態になる。

したがって、ディスプレイ画面上に個々の人物画像を表示するためには、この歪曲円形画像Ｓから、個々の人物に対応する一部分を切り出し、歪みを取り除くための幾何学的な画像変換を行う必要がある。たとえば、Ｂ氏の人物画像をディスプレイの画面上に表示する場合は、図４に示すように、歪曲円形画像ＳからＢ氏の人物に対応する一部分を切出領域Ｅとして切り出し、この切り出した画像に対して幾何学的な変換処理を施すことにより、図５に示すような歪みのない正則画像を得る必要がある。

図４に示す歪曲円形画像Ｓが、もともとは半球面上に形成された画像であるのに対して、図５に示す画像は、通常の平面上に形成された画像ということになる。そこで、本願では、図４に示す「歪曲円形画像Ｓ」に対比させて、図５に示す画像を「平面正則画像Ｔ」と呼ぶことにする。平面正則画像Ｔの輪郭形状は、必ずしも矩形である必要はないが、ディスプレイ画面に表示することを考慮すると、実用上は、矩形とするのが好ましい。そこで、以下、平面正則画像Ｔを矩形枠内の画像とする実施例を説明する。

結局、図４に示す扇形の切出領域Ｅ内の画像に対して幾何学的変換を行うことにより、図５に示す矩形状の平面正則画像Ｔが得られることになる。ここでは、説明の便宜上、この平面正則画像Ｔについては、図示のとおり、中心点に原点Ｇ（×印で示す）をとり、図の右方向にＵ軸、下方向にＶ軸をそれぞれとった二次元ＵＶ直交座標系を定義する。したがって、切出領域Ｅ内の歪曲画像を矩形状の平面正則画像Ｔに変換するプロセスは、二次元ＸＹ座標系上に定義された画像を、二次元ＵＶ座標系上に定義された画像に変換する座標変換のプロセスということになる。

図１に示す画像切出変換部２２０は、このような座標変換のプロセスを利用して、歪曲円形画像格納部２１０に格納されている歪曲円形画像Ｓの一部分を切り出して変換し、各参加者についての平面正則画像Ｔを生成する処理を行う構成要素である。もっとも、歪曲円形画像Ｓからその一部を切り出すためには、所定の切出条件を設定しておく必要がある。具体的な切出条件としては、「歪曲円形画像Ｓのどの位置から、どの方向に、どの倍率で切り出すか」という３条件（位置、方向、倍率）が必要である。

そこで、ここで述べる実施形態の場合、切出条件として、「切出中心点Ｐ」、「切出方向Ｊ」、「切出倍率ｍ」という３つのパラメータを定めるようにしている。図４に示す扇形の切出領域Ｅは、この３つのパラメータに基づいて歪曲円形画像Ｓ上に定義された領域である。図に×印で示す切出中心点Ｐは、ＸＹ座標系上の座標点Ｐ（ｘ０，ｙ０）で示される任意の点であり、この切出中心点Ｐの周囲が切り出しの対象領域ということになる。この実施例の場合、歪曲円形画像Ｓ上の切出中心点Ｐ（ｘ０，ｙ０）が、平面正則画像Ｔ上の原点Ｇに一致するような変換が行われるので、図５において、原点Ｇは平面正則画像Ｔの中心点になっている。

切出方向Ｊは、平面正則画像Ｔの向きを定めるパラメータであり、ここで述べる実施形態の場合、切出方向Ｊは、Ｕ軸方向（平面正則画像Ｔ上での右方向）を示すパラメータになっている。図５に示す平面正則画像Ｔでは、人物画像が正しい向きに配置された正立像になっているが、これは、図４に示す歪曲円形画像Ｓ上において、切出方向Ｊを図示の方向（原点Ｏを中心として切出中心点Ｐ（ｘ０，ｙ０）を通る円についての反時計回りの接線方向）に設定したためである。切出方向Ｊを逆転させると、得られる平面正則画像Ｔは人物の天地が逆転したものになり、切出方向Ｊの向きを９０°回転させると、得られる平面正則画像Ｔは人物が横向きのものになる。

切出倍率ｍは、人物画像の拡大率（縮小率）を定めるパラメータであり、倍率ｍが大きくなればなるほど、平面正則画像Ｔ上で人物は拡大された状態になる。別言すれば、倍率ｍが大きくなればなるほど、切出領域Ｅの面積は小さくなり、当該小さい面積をもった領域内の画像が拡大して表示されることになる。

切出条件設定部２４０は、上述した「切出中心点Ｐ」、「切出方向Ｊ」、「切出倍率ｍ」という３つのパラメータをもった切出条件を設定する構成要素であり、画像切出変換部２２０は、この切出条件設定部２４０に設定されている切出条件に基づいて、歪曲円形画像格納部２１０に格納されている歪曲円形画像Ｓの一部分を切り出し、これに所定の幾何学的変換を施して、各参加者Ａ〜Ｄについての平面正則画像Ｔａ〜Ｔｄを生成する機能を果たす。幾何学的変換の基本原理は、§２で説明する。

平面正則画像格納部２３０は、こうして生成された平面正則画像Ｔａ〜Ｔｄを格納する構成要素であり、コンピュータ用のメモリやハードディスク装置といった記憶装置によって構成される。前述したように、広角撮影装置１００が、３０フレーム／秒といった撮影周期で連続撮影する機能をもった全方位カメラであった場合、１秒ごとに３０枚の歪曲円形画像Ｓが取り込まれることになるので、各参加者Ａ〜Ｄについての平面正則画像Ｔａ〜Ｔｄも、これら個々のフレームごとに切り出されて逐次生成されることになる。したがって、平面正則画像格納部２３０には、そのような画像を必要な時間分だけ格納可能な容量をもった記憶装置を用意しておくようにする（もちろん、不要になった過去のフレームに関する画像については逐次消去してかまわない）。

顔領域認識部２５０は、こうして平面正則画像格納部２３０に格納された各参加者についての平面正則画像Ｔａ〜Ｔｄについて、人物の顔を構成する顔領域を認識する構成要素である。ここに示す実施形態の場合、人物の顔の部分を包摂する輪郭矩形を定め、この輪郭矩形内を顔領域として認識している。上例の場合、平面正則画像格納部２３０内には、３０フレーム／秒の時間間隔で各参加者についての平面正則画像Ｔａ〜Ｔｄが順次得られるので、顔領域認識部２５０は、こうして得られた個々の平面正則画像Ｔａ〜Ｔｄについて、それぞれ顔領域を認識する処理を施す。

なお、後に詳述するように、切出条件設定部２４０に設定される最初の切出条件は、ユーザの操作入力に基づいて、初期切出条件設定部２４５によって決定されるが、以後は、顔領域認識部２５０の認識結果に基づいて、切出条件の再設定が行われることになる。したがって、画像切出変換部２２０は、常に、最新の切出条件に基づいて、各参加者の人物画像の切出処理を行うことができる。

唇近傍領域設定部２６０は、顔領域認識部２５０が認識した顔領域上に唇近傍領域を設定する機能を果たす。この唇近傍領域は、顔画像内の唇部分およびその周囲部分を含む領域として設定される領域であり、唇の動きの有無を監視するための監視対象領域としての意味をもつ。

特徴量算出部２７０は、各参加者の平面正則画像Ｔａ〜Ｔｄについて、それぞれ唇近傍領域内の輝度もしくは色を示す特徴量を算出する機能を果たし、発話状態認識部２８０は、こうして算出された特徴量の時間変化に基づいて、個々の参加者ごとの発話状態を認識する機能を果たす。そして、会議画像提示部２９０は、平面正則画像格納部２３０内の平面正則画像Ｔａ〜Ｔｄと、発話状態認識部２８０によって認識された発話状態に関連した発話情報と、を含んだ会議画像を、時間軸に沿って順次生成し、これをディスプレイ装置３００に与えて動画として表示させる機能を果たす。なお、これらの各構成要素の具体的な処理内容については、§４で詳述する。

かくして、図１に示す会議支援システムを用いれば、ディスプレイ装置３００の画面上に、図５に示すような参加者の平面正則画像Ｔの動画とともに、当該参加者の発話情報（たとえば、発話期間中か否かを示す情報や発話時間を示す情報）が表示されることになる。

前述したとおり、図２に示すシステムでは、マイクロフォン１５０を用いて、各参加者の音声を収録しているが、本発明に係る会議支援システムでは、マイクロフォン１５０は必須の構成要素ではなく、発話情報を得るために音声情報は不要である。すなわち、１台の広角撮影装置１００とパソコン等によって構成される撮影画像処理装置２００を用意するだけで、各参加者の発話情報を得ることができる。このため、装置構成の単純化を図ることができ、装置の小型化にも貢献することになる。また、切出条件設定部２４０が、顔領域認識部２５０の認識結果に基づいて、切出条件の再設定を行う機能を有しているため、常に、唇の動きを認識するのに最適な切出条件に基づいて人物画像を切り出すことができるようになり、各参加者の発話状態を正確に認識することが可能になる。

＜＜＜ §２．画像の切出処理および変換処理の基本原理＞＞＞
続いて、ここでは、画像切出変換部２２０によって行われる画像の切出処理および変換処理の基本原理を簡単に説明しておく。図６は、歪曲円形画像Ｓの一部を切り出して平面正則画像Ｔに変換する基本原理を説明する斜視図であり、三次元ＸＹＺ直交座標系におけるＸＹ平面上に歪曲円形画像Ｓが形成されている例が示されている。ここでは、図示のとおり、Ｚ軸を図の上方にとり、Ｚ軸の正の領域側にドーム状の仮想球面Ｈ（半球）を定義した例を示すことにする。

ＸＹ平面上に形成された歪曲円形画像Ｓは、座標系の原点Ｏを中心とした半径Ｒの円を構成する画像であり、Ｚ軸の正の領域側における１８０°の画角をもった領域に存在する像を歪ませて記録したものに相当する。図２に例示するような撮影環境で、魚眼レンズを備えた広角撮影装置１００をテーブル上に配置して撮影した場合、Ｚ軸は鉛直軸となり、たとえば、図３に例示したような歪曲円形画像Ｓが得られる。この歪曲円形画像Ｓには、Ｚ軸の正の領域側に存在するすべての像が記録されることになるが、その中心部分と周囲部分とでは、像の縮尺倍率が異なっており、記録された像の形状は歪んだものになる。特に、円周部分ほど画像は圧縮された状態になる。

実際の魚眼レンズは、複数の凸レンズや凹レンズを組み合わせた光学系によって構成されるが、その光学的な特性は、図６に示すような仮想球面Ｈによってモデル化できることが知られている。すなわち、歪曲円形画像Ｓの上面に、半径Ｒをもったドーム状の仮想球面Ｈ（半球）を配置したモデルを考えれば、正射影方式の魚眼レンズの光学的特性は、仮想球面Ｈ上の任意の点に対して法線方向から入射する入射光線は、Ｚ軸に平行な入射光線として、ＸＹ平面に向かう振る舞いをする、と考えてよい。逆言すれば、図６における歪曲円形画像Ｓ上の任意の点Ｓｉ（ｘｉ，ｙｉ）は、仮想球面Ｈ上の点Ｑｉ（ｘｉ，ｙｉ，ｚｉ）に対して、原点Ｏを通る一点鎖線ｎｉに沿って入射した光線を、Ｚ軸に平行な方向に屈曲させたときのＸＹ平面との交点であり、この点Ｓｉ（ｘｉ，ｙｉ）に位置する画素は、一点鎖線ｎｉの延長線上に存在する物体上の１点を示していることになる。

結局、歪曲円形画像Ｓは、本来は平面上の画像ではなく、仮想球面Ｈという湾曲面上に形成された画像を、ＸＹ平面上に投影して得られる画像ということになる。§１で述べたとおり、画像切出変換部２２０は、この歪曲円形画像Ｓ上の一部分を切り出して、平面正則画像Ｔに変換する処理を行うことになるが、そのときの切出条件の１つとして、ＸＹ平面上の１点として指定された切出中心点Ｐ（ｘ０，ｙ０）が用いられる。

図６に示すモデルにおいて、歪曲円形画像Ｓは、三次元ＸＹＺ直交座標系のＸＹ平面上に定義されているので、歪曲円形画像Ｓ自身は、二次元ＸＹ直交座標系上に定義された画像である。そこで、この歪曲円形画像Ｓ上に定義された切出中心点Ｐ（ｘ０，ｙ０）を通りＺ軸に平行な直線と仮想球面Ｈとの交点Ｑ（ｘ０，ｙ０，ｚ０）を考える。この交点Ｑは、いわば切出中心点Ｐ（ｘ０，ｙ０）の真上にある球面上対応点であり、その位置座標は（ｘ０，ｙ０，ｚ０）である。

次に、原点Ｏから球面上対応点Ｑ（ｘ０，ｙ０，ｚ０）を通って外方へと向かう視線ベクトルｎ（点Ｑにおける仮想球面Ｈの法線方向を示すベクトル）を定義し、この視線ベクトルｎ上において、原点Ｏからの距離が半径Ｒのｍ倍となる位置に点Ｇ（ｘｇ，ｙｇ，ｚｇ）を定義し、図示のとおり、この点Ｇ（ｘｇ，ｙｇ，ｚｇ）を原点とする二次元ＵＶ直交座標系を定める。そして、平面正則画像Ｔを、この二次元ＵＶ直交座標系上の画像として求めることにする。図５に示す平面正則画像Ｔは、このようにして得られたＵＶ平面上の画像である。

ＵＶ座標系の原点となる点Ｇ（ｘｇ，ｙｇ，ｚｇ）の位置は、図示のとおり、方位角αと天頂角βとによって特定することができる。ここで、方位角α（０≦α＜３６０°）は、切出中心点Ｐ（ｘ０，ｙ０）とＸＹ座標系の原点Ｏとを結ぶ直線とＹ軸とのなす角であり、天頂角β（０≦β≦９０°）は、ＵＶ座標系の原点となる点Ｇ（ｘｇ，ｙｇ，ｚｇ）とＸＹ座標系の原点Ｏとを結ぶ直線とＺ軸とのなす角（鋭角）である。

このように、ＵＶ平面は、方位角αと天頂角βと倍率ｍとを指定することによって特定することができるが、ＵＶ座標系を決定するには、更にもう１つの角度φを指定する必要がある。この角度φは、直線ＯＧを回転軸としたＵＶ座標系の向きを示すパラメータであり、図６の例では、Ｕ軸とＤ軸とのなす角度として定義されている。ここで、Ｄ軸は、点Ｇ（ｘｇ，ｙｇ，ｚｇ）を通り、ＸＹ平面に平行かつ直線ＯＧに直交する軸である。角度φは、ＵＶ座標系において、Ｕ軸方向を向いたベクトルＵとＤ軸方向を向いたベクトルＤと、を定義したときに、ベクトルＵとベクトルＤとのなす角度として定義される角であり、通常、「平面傾斜角」と呼ばれている。

結局、図６に示す平面正則画像Ｔを形成するためのＵＶ座標系の位置および向きは、方位角α，天頂角β，平面傾斜角φという３つの角度からなるパラメータと倍率ｍを設定することにより一義的に決定される。この３つの角度は、一般にオイラー角と呼ばれている。切出条件設定部２４０において設定される切出条件は、前述したとおり、「切出中心点Ｐ（ｘ０，ｙ０）」、「切出方向Ｊ」、「切出倍率ｍ」という３つのパラメータによって構成されているが、これらのパラメータにより、上記オイラー角は一義的に決定される。

すなわち、図６に示すように、歪曲円形画像Ｓ上で切出中心点Ｐ（ｘ０，ｙ０）の位置を決めてやれば、球面上対応点Ｑ（ｘ０，ｙ０，ｚ０）が定まり、視線ベクトルｎが定まるので、方位角αおよび天頂角βが決定される。また、切出倍率ｍを決めてやれば、視線ベクトルｎ上において原点Ｏから距離ｍ・Ｒだけ離れた点として、ＵＶ座標系の原点Ｇ（ｘｇ，ｙｇ，ｚｇ）が決定される。更に、図４に示す例のように、歪曲円形画像Ｓ上で切出方向Ｊの向きを決めてやれば、図６において、原点Ｇ（ｘｇ，ｙｇ，ｚｇ）を通り切出方向Ｊに平行なベクトルとしてベクトルＤを定義することができるので、平面傾斜角φが決定される。図４に示す例のように、原点Ｏを中心として切出中心点Ｐ（ｘ０，ｙ０）を通る円についての接線方向に切出方向Ｊを設定すると、平面傾斜角φ＝０に設定することができ、ベクトルＤはＵ軸方向を向くことになる。

こうして、オイラー角α，β，φが決まると、二次元ＸＹ直交座標系と二次元ＵＶ直交座標系との間の幾何学的な関係が定まるので、ＸＹ座標系上における任意の点Ｓｉ（ｘｉ，ｙｉ）とＵＶ座標系上における対応点Ｔｉ（ｕｉ，ｖｉ）との間の幾何学的な対応関係も定まることになる。画像切出変換部２２０が行う変換処理は、ＸＹ座標系上に定義された歪曲円形画像Ｓ上の切出中心点Ｐ（ｘ０，ｙ０）を中心とした切出領域Ｅ内の歪曲画像を切り出して変形し、ＵＶ座標系上に平面正則画像Ｔを得ることにある。具体的には、図６に示すように、ＵＶ座標系上に得られる平面正則画像Ｔ上の１点Ｔｉ（ｕｉ，ｖｉ）に位置する画素の画素値を、これに対応するＸＹ座標系上の１点Ｓｉ（ｘｉ，ｙｉ）の近傍に位置する画素の画素値に基づいて決定することである。そのためには、座標（ｕｉ，ｖｉ）と座標（ｘｉ，ｙｉ）との対応関係を示す対応関係式が必要になる。

このような対応関係式は、オイラー角α，β，φおよび倍率ｍを用いた三角関数を用いて一義的に定義することができ、画像切出変換部２２０は、この対応関係式を用いて、座標（ｕｉ，ｖｉ）と座標（ｘｉ，ｙｉ）との間の変換を行い、平面正則画像Ｔを生成する。なお、具体的な対応関係式については、たとえば、特許第３０１２１４２号公報や特許第３０１２１４２号公報等、様々な文献に開示されている公知事項であるため、ここでは詳しい説明は省略する。

また、図６に示すモデルは、ＸＹ座標系上の歪曲円形画像ＳからＵＶ座標系上の平面正則画像Ｔを生成する一手法の原理を示すものであり、本発明における画像切出変換部２２０が行う変換処理は、この図６に示すモデルに基づく方法に限定されるものではない。たとえば、特開２０１０−０６２７９０号公報や前掲の特開２０１２−０８９９５４号公報（特許文献４）には、ＵＶ座標系を平面上に定義する代わりに、円柱面状に定義することにより、より歪みの少ない平面正則画像Ｔを生成する技術が開示されている。本発明における画像切出変換部２２０は、このように円柱面上に定義したＵＶ座標系を用いた変換処理を行ってもかまわない。

＜＜＜ §３．画像の切出処理および変換処理の詳細＞＞＞
ここでは、図１に示す会議支援システムの基本動作のうち、画像の切出処理および変換処理の詳細を具体例に即して説明する。§１で述べたとおり、この会議支援システムを図２に示すような形態で利用すると、広角撮影装置１００によって、図３に例示するような歪曲円形画像Ｓが撮影される。ユーザは、まず、このような歪曲円形画像Ｓを利用して、会議の個々の参加者を登録する作業を行う。この登録作業は、初期切出条件設定部２４５を利用して、切出条件設定部２４０に対して最初の切出条件を設定する作業に他ならない。

図７は、図１に示す会議支援システムにおいて、初期切出条件設定部２４５によってディスプレイ装置３００に表示された初期設定画面３１０の一例を示す平面図である。図示のとおり、この初期設定画面３１０には、初期切出位置指定画面３１１と参加者登録画面３１２とが設けられている。初期切出位置指定画面３１１には、歪曲円形画像格納部２１０内に格納されている最新の歪曲円形画像Ｓ（最新のフレーム）が表示される。結局、初期切出位置指定画面３１１には、会議の各参加者の様子がリアルタイムの動画として提示されることになる。

ユーザは、この初期切出位置指定画面３１１に表示されている歪曲円形画像Ｓ内の１点を指定することにより、１人の参加者を登録することができる。参加者登録画面３１２は、このような参加者の登録作業を補助するための画面であり、図示のとおり、参加者名登録窓３１３、参加者戻しボタン３１４、登録完了ボタン３１５、参加者送りボタン３１６が配置されている。

参加者送りボタン３１６は、第ｉ番目の参加者の登録画面を第（ｉ＋１）番目の参加者の登録画面に送る操作を行うためのボタンであり、図示のように、第１番目の参加者の登録画面が表示されているときにマウスなどの入力機器でクリックすると、第２番目の参加者の登録画面が表示されることになる。一方、参加者戻しボタン３１４は、第ｉ番目の参加者の登録画面を第（ｉ−１）番目の参加者の登録画面に戻す操作を行うためのボタンである。ユーザは、ボタン３１４，３１６をクリックすることにより、任意番目の参加者の登録画面を表示させることができる。

特定の参加者を登録するには、参加者名登録窓３１３に登録対象となる参加者の氏名を入力し、初期切出位置指定画面３１１に表示されている歪曲円形画像Ｓ内の当該参加者の人物画像をマウスなどの入力機器でクリックすればよい。たとえば、第１番目の参加者として「Ａ氏（左側の女性）」を登録するのであれば、図示の例のように、参加者名登録窓３１３に「Ａ氏」なる氏名を入力し、歪曲円形画像Ｓ内のＡ氏の人物画像（顔のあたりでよい）をクリックすればよい。初期切出条件設定部２４５は、歪曲円形画像Ｓ上のクリック位置を初期の切出中心点Ｐ（ｘ０，ｙ０）の位置として取り込み、これを切出条件設定部２４０に設定する。こうして、参加者全員（図示の例の場合、Ａ氏〜Ｄ氏の４名）についての登録作業が完了したら、登録完了ボタン３１５をクリックすれば、登録作業は完了である。

上述したとおり、この登録作業は、各参加者の人物画像についての初期切出条件を設定する作業に他ならない。結局、初期切出条件設定部２４５は、ディスプレイ装置３００の画面上（図７の例の場合は、初期切出位置指定画面３１１）に、歪曲円形画像格納部２１０に格納されている歪曲円形画像Ｓを表示させ、表示中の歪曲円形画像Ｓ上で切出中心点の位置を指定するユーザの操作入力に基づいて、切出条件設定部２４０に対して、各参加者についての初期切出条件を設定することになる。

なお、切出条件を示すパラメータとしては、切出中心点Ｐ（ｘ０，ｙ０）の位置座標とともに、切出方向Ｊおよび切出倍率ｍが必要である。そこで、ここに示す実施形態の場合、切出方向Ｊおよび切出倍率ｍについては、初期切出条件設定部２４５内に予めデフォルト値を格納しておき、初期切出条件としては、図７に示す初期設定画面３１０上でのユーザの操作入力（人物画像上の１点をクリックする入力）により決定された初期切出中心点Ｐ（ｘ０，ｙ０）と、デフォルト値として設定されている初期切出方向Ｊおよび初期切出倍率ｍとを、切出条件設定部２４０に対して初期切出条件として設定するようにしている。

デフォルトの初期切出方向Ｊとしては、図４に示す例のように、原点Ｏを中心として切出中心点Ｐ（ｘ０，ｙ０）を通る円についての反時計回りの接線方向を採用すればよい。図２に例示するように、広角撮影装置１００を水平なテーブル面に載置する利用環境を前提とすれば、図４に示すような切出方向Ｊを設定し、この切出方向ＪがＵ軸方向となるような平面正則画像Ｔを生成すれば、図５に示すような人物の正立像が得られることになる。

一方、初期切出倍率ｍとしては、図２に例示するような一般的な会議における撮影環境を想定して、広角撮影装置１００と各参加者との標準的な距離を定めておき、この標準的な距離に着座している参加者の上半身が平面正則画像Ｔとして適切な倍率で表示されるような値をデフォルト値として定めておけばよい。

こうして、初期切出条件設定部２４５によって、切出条件設定部２４０に対する初期切出条件の設定処理が完了すれば、画像切出変換部２２０は、歪曲円形画像格納部２１０内に格納されている歪曲円形画像Ｓから、当該初期切出条件を用いて各参加者Ａ〜Ｄの人物画像を切り出し、これを変換して平面正則画像Ｔａ〜Ｔｄを生成することができ、会議画像提示部２９０は、こうして生成された平面正則画像Ｔａ〜Ｔｄを各参加者Ａ〜Ｄの人物画像としてディスプレイ装置３００の画面上に表示することができる。

図８は、このようにしてディスプレイ装置３００に表示された人物画像表示画面３２０の一例を示すものである。各平面正則画像Ｔａ〜Ｔｄが各参加者Ａ〜Ｄの上半身の人物画像になっており、その下には、図７に示す初期設定画面３１０で登録された各参加者の氏名（Ａ氏〜Ｄ氏）も併せて表示されている（実際には、後述するように、会議画像提示部２９０は、この人物画像表示画面３２０に、更に、各参加者の発話情報を付加した会議画像（たとえば、図２２参照）を表示することになる）。

このように、最初の段階において、ユーザによる初期切出条件の設定操作を行っておけば、以後は、§１で説明したとおり、各平面正則画像Ｔａ〜Ｔｄから顔領域の認識が行われ、その認識結果に基づいて、切出条件の再設定が行われることになる。したがって、図７に示す初期設定画面３１０での登録位置（ユーザによるクリック位置）は、必ずしも顔の中央点といった正確な位置である必要はない。これは、切出条件の再設定が、認識された顔領域に基づいて行われるため、再設定された切出条件に基づいて再度の切出処理を行えば、顔領域を基準とした適切な位置で切り出された平面正則画像Ｔが得られるようになるためである。

このような切出条件の再設定処理を具体例を挙げながら説明しよう。たとえば、図７に示す初期設定画面３１０において、第２番目の参加者Ｂ氏の位置を登録するためにユーザがクリックした際に、クリック位置が顔の中心から若干外れて、髪の毛の位置をクリックしてしまった場合を考えてみる。このように、初期設定時のクリック位置が顔から若干ずれてしまうと、最初に得られる平面正則画像Ｔでは、枠内の人物の割付位置が若干不適切になる。図９は、Ｂ氏の髪の毛の位置をクリックしてしまった場合に得られる平面正則画像Ｔを示している。図に白い×印で示す点Ｇは、初期設定画面３１０において、ユーザがＢ氏の位置登録を行う際にクリックした位置に相当する。前述したとおり、初期切出条件設定部２４５は、クリック位置を初期の切出中心点Ｐ（ｘ０，ｙ０）の位置として設定するため、図９に示すように、このクリック位置を原点Ｇ（中心点）とした平面正則画像Ｔが生成され、平面正則画像格納部２３０に格納される。

一方、顔領域認識部２５０は、この平面正則画像Ｔとして与えられた人物画像について、所定のアルゴリズムに基づく解析処理を実行し、顔領域Ｆを認識する。図９では、太い矩形枠内の領域として、顔領域Ｆの認識結果が例示されている。

人物画像を解析して顔領域Ｆを抽出する方法としては、いくつものアルゴリズムが知られている。たとえば、Haar-like検出器として知られている顔領域抽出アルゴリズムでは、顔の大まかな明暗を特微量として、学習データとの合致度を示す評価値を算出し、この評価値に基づいて顔を判定する手順が実行される。

一方、ＨｏＧ特徴量に基づく顔領域抽出アルゴリズムとして知られている方法では、人物の肩口までの画像を、正面、側面、背面に関して学習させ、この学習画像の局所領域におけるエッジの方向をＨｏＧ特徴量として算出し、解析対象となる画像について、学習した特徴量に近い特徴量をもつものを人物と認識し、その上方部分を顔領域と認識する手順が実行される。

このように、人物画像について顔領域を認識する方法は様々なアルゴリズムが公知であり、既にデジカメ画像用の処理プログラムなどで実用化されているため、ここでは平面正則画像Ｔに基づいて顔領域Ｆを認識する具体的な方法についての説明は省略する。また、ここでは、説明の便宜上、図９に示す例のように、人物画像の髪の毛の部分も含めた頭部全体の外接矩形を顔領域Ｆの輪郭枠として抽出する例を述べることにするが、たとえば、髪の毛の部分を含まない肌の色の領域部分の外接矩形を顔領域Ｆの輪郭枠として抽出するアルゴリズムを用いてもかまわない。もちろん、顔領域Ｆの輪郭枠は、必ずしも矩形である必要はない。ただ、ここでは、基本的な実施形態として、矩形枠内の領域が顔領域Ｆとして抽出された場合を例にとって以下の説明を行うことにする。

顔領域認識部２５０によって顔領域Ｆの認識が行われると、切出条件設定部２４０は、この顔領域Ｆの輪郭枠を基準として予め定められた所定位置にある点を再設定基準点Ｔｒと定め、平面正則画像Ｔ上の当該再設定基準点Ｔｒを元の歪曲円形画像Ｓ上に逆変換して得られる点を新たな切出中心点Ｐとする処理を行う。たとえば、図９に示す例のように、顔領域Ｆが矩形状の領域として抽出された場合、この矩形枠の中心点を再設定基準点Ｔｒと定めて新たな切出中心点Ｐを設定すれば、次のフレームでは、顔の中心点を切出中心点Ｐとする切り出しが行われることになる。

ただ、ここに示す実施形態では、顔領域Ｆの中心を再設定基準点Ｔｒとする代わりに、唇の中心が位置すると予想される点を再設定基準点Ｔｒとする処理を行っている。その結果、次のフレームでは、唇の位置を切出中心点Ｐとする切り出しが行われることになる。

図１０は、図９に示す顔領域Ｆに基づいて、再設定基準点Ｔｒ（ｕｒ，ｖｒ）を唇の位置に設定した一例を示す平面図である。一般に、どのような人物画像であっても、正面向きの顔の輪郭枠に対する唇の相対位置は、ほぼ類似している。具体的には、一般的な人物の唇は、横方向に関しては、顔の輪郭枠のほぼ中心線上に位置し、縦方向に関しては、顔の輪郭枠の幅を１００％としたときに、上から７０〜９０％の付近に位置する。

そこで、図１０に示す例では、図に破線で示す中心鉛直線Ｌ１と唇位置水平線Ｌ２との交点を、唇の中心が位置すると予想される点と考え、再設定基準点Ｔｒ（ｕｒ，ｖｒ）に定めている。ここで、中心鉛直線Ｌ１は、顔領域Ｆの輪郭枠（この例では矩形枠）の横方向に関する中心線であり、唇位置水平線Ｌ２は、顔領域Ｆの輪郭枠の縦方向寸法を１００％としたときに、上端から８０％の位置に引いた水平線である。もちろん、唇位置水平線Ｌ２の位置は、必ずしも上端から８０％に設定する必要はなく、一般的には、上端から７０〜９０％の範囲内の所定値に設定すればよい。

要するに、この再設定基準点Ｔｒ（ｕｒ，ｖｒ）は、「唇の中心が位置すると予想される点」に設定すればよいので、実用上は、顔領域認識部２５０が顔領域Ｆを認識する際に採用した認識アルゴリズムを考慮して（たとえば、髪の毛の部分を含めた領域を顔領域とするか否か等の事情を考慮して）、統計的な予想点に設定するようにすればよい。

もちろん、実際には、たまたま人物が横を向いた場合など、予想どおりにならない場合もあり、その場合、再設定基準点Ｔｒ（ｕｒ，ｖｒ）は、唇の中心位置から外れることになる。ただ、そのような場合でも、次のフレームの切出位置が、唇を中心とした位置から若干外れるだけであり、大きな問題は生じない。図１０に示す例では、上記設定により、唇のほぼ中心位置に再設定基準点Ｔｒ（ｕｒ，ｖｒ）が定義されている。

さて、こうして平面正則画像Ｔ上に再設定基準点Ｔｒ（ｕｒ，ｖｒ）が定義されたら、当該再設定基準点Ｔｒ（ｕｒ，ｖｒ）を歪曲円形画像Ｓ上に逆変換して対応点を求める。図１０に示す例の場合、平面正則画像Ｔの中心点Ｇ（ｕ０，ｖ０）は、ＵＶ座標系の原点であり、ｕ０＝ｖ０＝０であるが、再設定基準点Ｔｒ（ｕｒ，ｖｒ）は中心点Ｇから外れているため、その座標値（ｕｒ，ｖｒ）は所定の値をもっている。そこで、§２で求めた変換処理により、ＵＶ座標系からＸＹ座標系への変換を行えば、歪曲円形画像Ｓにおいて、再設定基準点Ｔｒ（ｕｒ，ｖｒ）の対応点の座標（ｘｒ，ｙｒ）を求めることができる。切出条件設定部２４０は、当該座標（ｘｒ，ｙｒ）をもった対応点を、次のフレームについての切出中心点Ｐ（ｘ０，ｙ０）とする切出条件の再設定を行う。

こうして、次のフレームの歪曲円形画像Ｓからは、新たな切出中心点Ｐ（ｘ０，ｙ０）の位置（すなわち、前のフレームにおける唇の位置）を中心とした切り出しが行われるので、得られる平面正則画像Ｔは、図１０に示す再設定基準点Ｔｒ（ｕｒ，ｖｒ）の位置を中心とした人物画像になる。したがって、図７に示す初期設定画面３１０でのユーザによるクリック操作が大まかな位置を示すものであっても、切出条件設定部２４０の再設定機能により、常に、唇の位置を中心とした切出処理が行われるような補正機能が働くことになる。

もちろん、この補正機能は、会議中に参加者が動いた場合にも有効である。通常、会議中、各参加者は定位置を維持するのが一般的であるが、顔の位置はわずかながら変化するであろうし、場合によっては、着座位置を移動させることもあろう。その場合でも、顔領域認識部２５０が、個々のフレームごとに顔領域の認識を行い、切出条件設定部２４０が、その認識結果に基づいて次のフレームについての切出条件を再設定するので、常に最適な切出条件を維持することができる。

特に、図１０に示す実施形態では、唇の中心が位置すると予想される点を再設定基準点Ｔｒ（ｕｒ，ｖｒ）に定め、これに対応する位置に新たな切出中心点Ｐ（ｘ０，ｙ０）を再設定しているため、常に、発話状態の認識に用いられる唇近傍領域を中心とした切り出しが可能になり、発話状態の認識処理の精度を向上させるメリットが得られる。

図４に示す歪曲円形画像Ｓ上のＢ氏の人物画像と、図５に示す平面正則画像Ｔ上のＢ氏の人物画像とを比較すると、前者に含まれていた歪みが、後者では是正されていることがわかる。しかしながら、この平面正則画像Ｔは、歪みを完全に是正した画像にはなっていない。これは原理的に、歪曲円形画像Ｓの歪みを完全に是正した平面正則画像Ｔを作成することができないためである。すなわち、歪曲円形画像Ｓは、元来、図６に示す仮想球面Ｈ上に形成された球面画像であるため、これを完全に平面的な画像に置き換えることはできないのである。その結果、図５に示す平面正則画像Ｔでは、原点Ｇ（画像の中心点：切出中心点Ｐ（ｘ０，ｙ０）に対応した点）の近傍については歪みは少ないが、原点Ｇから離れた周囲部分ほど歪みが大きくなる。

図１０に示す実施形態を採用すれば、常に唇の近傍領域が平面正則画像Ｔの中心に位置することになるので、唇の近傍は最も歪みが少ない領域ということになる。このため、発話状態の認識処理の対象となる唇近傍領域内の画像として、歪みの少ない画像を利用することができるようになり、発話状態の認識処理の精度を向上させることができる。

図１１は、図３に示す歪曲円形画像Ｓから、４人の参加者の画像を切り出すための切出条件の一例を示す平面図であり、図１２は、この図１１に示す切出条件によって切り出された部分画像に基づいて作成された各参加者Ａ〜Ｄの人物画像（平面正則画像Ｔａ〜Ｔｄ）を示す平面図である。いずれも、図１０に例示するように、唇の中心が位置すると予想される点を再設定基準点Ｔｒ（ｕｒ，ｖｒ）に定めた実施形態を採用した例である。したがって、図１１において白抜きの×印で示された参加者Ａ〜Ｄについての切出中心点Ｐａ〜Ｐｄの位置は、いずれもほぼ唇の中心位置に設定されており、それぞれ図示されている扇形の切出領域Ｅａ〜Ｅｄから部分画像が切り出され、これらを変換することにより、図１２に示すような平面正則画像Ｔａ〜Ｔｄが作成される。

その結果、平面正則画像Ｔａ〜Ｔｄ上において、各参加者Ａ〜Ｄの唇は、ほぼその中心（ＵＶ座標系の原点Ｇ）に位置し、発話状態の認識処理に利用される唇に関しては、歪みの少ない最適な画像変換が行われていることになる。こうして作成された平面正則画像Ｔａ〜Ｔｄに基づいて、顔領域認識部２５０が顔領域Ｆａ〜Ｆｄを抽出する処理を行い、切出条件設定部２４０が、これら顔領域Ｆａ〜Ｆｄの輪郭枠（図１２の例では太線で示す矩形枠）を基準として、所定位置（たとえば、図１０に示されているような輪郭枠に対する相対位置）に再設定基準点Ｔｒ（ｕｒ，ｖｒ）を定め、この再設定基準点Ｔｒに対する歪曲円形画像Ｓ上の対応点として、次のフレームについての切出中心点Ｐａ〜Ｐｄの位置が決められる点は、既に述べたとおりである。

なお、図１１に示す歪曲円形画像Ｓから、各切出領域Ｅａ〜Ｅｄ内の部分画像を切り出して、これを幾何学的に変換することにより各平面正則画像Ｔａ〜Ｔｄを作成するためには、図１２の下段に示すとおり、切出中心点、切出方向、切出倍率という３つのパラメータからなる切出条件が必要である。たとえば、参加者Ｂの平面正則画像Ｔｂを作成するためには、切出中心点Ｐｂ、切出方向Ｊｂ、切出倍率ｍｂという３つのパラメータを定める必要がある。

ここで、切出中心点Ｐｂは、図１１に白抜きの×印で示された点であり、前のフレームについて得られた再設定基準点Ｔｒ（ｕｒ，ｖｒ）の対応点として定まる点であることは、既に述べたとおりである。一方、ここに示す実施形態の場合、切出方向Ｊｂおよび切出倍率ｍｂとしては、予め定められたデフォルト値をそのまま利用している。たとえば、切出方向Ｊｂとしては、図１１に示すとおり、原点Ｏを中心として切出中心点Ｐｂを通る円Ｃｂについての反時計回りの接線方向を設定している。他の参加者についての切出方向Ｊａ，Ｊｃ，Ｊｄについても同様である。

これは、図２に例示するように、広角撮影装置１００を水平なテーブル面に載置する利用環境を考慮したものであり、このような利用環境を前提とする限り、上述したデフォルトの切出方向を設定することにより、図１２に例示するように、人物が正立した状態の平面正則画像Ｔａ〜Ｔｄが得られることになる。要するに、切出条件設定部２４０は、切出中心点Ｐ（ｘ０，ｙ０）を通る歪曲円形画像Ｓの同心円を求め、当該同心円の接線方向が平面正則画像Ｔの水平方向となるような切出方向Ｊをもつ切出条件を再設定すればよい。

もちろん、必要があれば、切出条件設定部２４０が、顔領域認識部２５０の認識結果に基づいて切出方向Ｊの再設定を行うようにすることもできる。一般的な顔領域抽出アルゴリズムでは、両眼の位置の認識が行われるので、たとえば、「右目の中心点から左目の中心点に向かう方向を新たな切出方向Ｊとする」というような規則を定めておけば、切出条件設定部２４０は、個々のフレームごとに、顔領域認識部２５０の認識結果に基づいて新たな切出方向Ｊを設定することができる。また、ユーザの指示入力に基づいて、デフォルトの切出方向Ｊを変更するような運用も可能である。

一方、切出倍率ｍとしては、広角撮影装置１００と各参加者との標準的な距離を定めておき、この標準的な距離に着座している参加者の上半身が適切な倍率で表示されるような値をデフォルト値として定めている。図１２に示す例では、参加者Ａ〜Ｄの人物像は、ほぼ理想的な倍率で表示されているが、これは、図２に示す撮影環境において、各参加者Ａ〜Ｄが、広角撮影装置１００から標準的な距離を保って着座しているためである。実際には、広角撮影装置１００から遠くに着座した参加者は縮小表示され、近くに着座した参加者は拡大表示されることになる。

参加者の着座位置にかかわらず、常に最適な倍率で人物画像を表示させたい場合には、切出倍率ｍとしてデフォルト値を用いる代わりに、切出条件設定部２４０が、顔領域Ｆの面積に応じた切出倍率ｍを切出条件として再設定するようにすればよい。たとえば、平面正則画像Ｔの全面積に対する顔領域Ｆの面積の割合の基準値を４０％に設定しておき、顔領域Ｆの面積が４０％に満たなかった場合には切出倍率ｍを増加補正し、顔領域Ｆの面積が４０％を超えていた場合には切出倍率ｍを減少補正する、というような調整を行い、顔領域Ｆの面積割合が常に４０％を維持するように切出倍率ｍを再設定すればよい。もちろん、ユーザの指示入力に基づいて、切出倍率ｍを直接指定させたり、上記面積割合の基準値を指定させたりすることもできる。

以上、広角撮影装置１００が、たとえば、３０フレーム／秒といった一定の時間周期で撮影されたフレーム単位の静止画からなる歪曲円形画像Ｓを連続して取り込み、切出条件設定部２４０が、１フレーム周期で切出条件の再設定を行う実施形態を述べた。この実施形態では、広角撮影装置１００が撮影した個々のフレームごとに、それぞれ新たな切出条件の設定（直前のフレームについて行われた顔領域の認識結果に基づく設定）が行われることになる。

ただ、本発明を実施する上では、必ずしも１フレーム周期で切出条件の再設定を行う必要はなく、複数フレーム周期で切出条件の再設定を行うようにしてもかまわない。たとえば、１０フレームごとに切出条件の再設定を行うようにすれば、切出条件再設定の処理負担を１／１０に軽減することができる。広角撮影装置１００が、３０フレーム／秒という程度の動画撮影を行えば、１０フレームごとに切出条件の再設定を行ったとしても、切出条件の精度が大幅に低下することはない。

＜＜＜ §４．発話状態認識処理の詳細＞＞＞
続いて、図１に示す会議支援システムにおける唇近傍領域設定部２６０、特徴量算出部２７０、発話状態認識部２８０の連携動作によって行われる発話状態の認識処理の詳細を具体例に即して説明する。

§１で述べたとおり、唇近傍領域設定部２６０は、顔領域認識部２５０によって認識された顔領域Ｆ上に唇近傍領域Ｌを設定する処理機能を有している。図１３に示す顔領域Ｆの画像は、図１２に示す参加者Ｂについて認識された顔領域Ｆｂに対応するものであり、この顔領域Ｆ内には、実線で描かれた矩形状の唇近傍領域Ｌが設定された例が示されている。この唇近傍領域Ｌは、顔画像Ｆ内の唇部分およびその周囲部分を含む領域として設定される領域であり、唇の動きの有無を監視するための監視対象領域として機能する。したがって、必ずしも唇を中央部分に含むような正確な領域として設定する必要はなく、唇の動きの監視に利用可能な領域であれば、たとえ唇の一部が食み出してしまうような領域設定が行われても問題はない。

唇近傍領域設定部２６０によって唇近傍領域Ｌを設定する最も簡単な方法は、顔領域Ｆの輪郭枠を基準として予め定められた所定枠内の領域を唇近傍領域Ｌとする方法である。図１４は、このような設定方法の一例を示す平面図である。図の外側の矩形は、顔領域認識部２５０によって認識された矩形状の顔領域Ｆの輪郭枠であり、内側の矩形は、この方法で設定された唇近傍領域Ｌの輪郭枠である。輪郭枠Ｌは、輪郭枠Ｆを基準として所定の相対サイズを有する矩形であり、輪郭枠Ｆを基準とした所定の相対位置に配置されている。

具体的には、この図１４に示す例の場合、顔領域の矩形状輪郭枠Ｆの左辺の横方向に関する位置を０％、右辺の横方向に関する位置を１００％とし、上辺の縦方向に関する位置を０％、下辺の縦方向に関する位置を１００％としたときに、予め設定された所定の定数ａ１，ａ２，ｂ１，ｂ２（但し、０＜ａ１＜ａ２＜１００、０＜ｂ１＜ｂ２＜１００）に基づいて、左辺の横方向に関する位置がａ１％、右辺の横方向に関する位置がａ２％の位置にあり、上辺の縦方向に関する位置がｂ１％、下辺の縦方向に関する位置がｂ２％の位置にある矩形状の輪郭枠Ｌをもつ領域を唇近傍領域Ｌに設定している。特に、図示の例は、ａ１＝２５、ａ２＝７５、ｂ１＝７０、ｂ２＝９０に設定した例になっている。

もちろん、顔の輪郭に対する唇の相対位置や相対的な大きさには個人差があり、また、発話中は唇部分が開口することになるので、図１４に示すような条件で唇近傍領域Ｌを一義的に定義した場合、必ずしも唇が唇近傍領域Ｌ内に収まるとは限らない。特に、参加者が横向きになった場合、唇の位置は唇近傍領域Ｌの中央位置から外れる可能性が高く、場合によっては、唇近傍領域Ｌから唇の一部が食み出すこともある。

たとえば、図１３に破線で示す矩形枠Ｌ′は、顔領域Ｆ内に、図１４に示す条件で唇近傍領域を定義した場合の輪郭枠を示している。この場合、唇近傍領域Ｌ′は、鼻の下端部分まで含む領域として定義され、唇は、当該唇近傍領域Ｌ内の中央ではなく、若干左下に偏った位置に配置される。ただ、上述したとおり、唇近傍領域Ｌは、唇の動きを監視する上での監視対象領域として機能するものであるため、図１４に示すような一義的な条件設定により、図１３に破線で示すような唇近傍領域Ｌ′が定義されたとしても大きな問題は生じない。

もっとも、発話状態の認識処理の精度を高めるために、より正確な唇近傍領域Ｌの設定を行いたい場合には、唇近傍領域設定部２６０が、個々の平面正則画像について、それぞれ顔領域Ｆ内を所定の唇探索アルゴリズムを用いて探索し、探索された唇の周辺を含む領域を、当該平面正則画像についての唇近傍領域に設定するようにすればよい。

図１５は、このような方法で顔領域Ｆ内に唇近傍領域Ｌを設定した例を示す平面図である。図にハッチングを施して示す領域Ｋは、所定の唇探索アルゴリズムを用いて探索された唇領域（この例の場合は、唇の外接矩形）であり、ほぼその中心点に唇の中心点Ｐｋが位置する。唇近傍領域Ｌは、こうして探索された唇領域Ｋとその周辺を含む領域（たとえば、唇領域Ｋの四辺を外側に所定寸法だけ広げた矩形領域）として設定すればよい。唇領域Ｋの周辺を含めた領域を唇近傍領域Ｌとするのは、発話中には唇の輪郭が外側に広がると予想されるためである。

なお、唇探索アルゴリズムとしては、たとえば、ＡＡＭ（Active Appearance Model）を用いた手法などが知られている。この手法では、予め唇のテクスチャを学習させておき、顔領域Ｆ内の唇が存在しそうな領域を探索し、学習画像との間で特徴量の比較を行い、更に、エッジの情報を考慮して、唇領域Ｋの決定が行われる。また、特開２００５−０４８１５０号公報には、鼻の鼻孔にはかからない部分の色を肌の基準色として認定し、この肌の基準色に対して所定の基準以上の色差をもつ領域を唇領域Ｋと認識するアルゴリズムが開示されている。したがって、本願では、具体的な唇探索アルゴリズムの詳細についての説明は省略する。

結局、図１４に例示した実施形態のように、顔領域Ｆの輪郭枠を基準とした相対位置として一義的に唇近傍領域Ｌを定義した場合は、いずれのフレームについても、顔領域Ｆに対して常に同じ相対位置にある唇近傍領域Ｌが定義されることになる。これに対して、図１５に例示した実施形態のように、顔領域Ｆ内を所定の唇探索アルゴリズムを用いて探索して唇領域Ｋを決定し、その周辺を含む領域を唇近傍領域Ｌとする場合は、個々のフレームごとに、顔領域Ｆに対して固有の相対位置にある唇近傍領域Ｌが定義されることになる。後者の実施形態を採用すると、唇探索アルゴリズムを実行する処理負担が増えることになるが、常に、唇をほぼ中央位置に含んだ唇近傍領域Ｌを定義することができ、発話状態の認識処理の精度を向上させることができる。

なお、唇探索アルゴリズムを用いて探索した唇領域Ｋを利用して唇近傍領域Ｌを設定する実施形態を採る場合は、こうして設定された唇近傍領域Ｌの情報を利用して、切出条件の再設定を行うようにすることも可能である。たとえば、切出条件設定部２４０が新たな切出中心点Ｐ（ｘ０，ｙ０）の位置を決定する処理を行う場合、§３では、図１０に示すように、顔領域Ｆの輪郭枠を基準として特定の位置に再設定基準点Ｔｒ（ｕｒ，ｖｒ）を定義し、この再設定基準点Ｔｒを歪曲円形画像Ｓ上に逆変換して得られる点を新たな切出中心点Ｐ（ｘ０，ｙ０）とする手順を述べた。

これに対して、唇近傍領域設定部２６０が唇探索アルゴリズムで探索した唇領域Ｋを利用して唇近傍領域Ｌを設定する場合は、設定した当該唇近傍領域Ｌの中心点を再設定基準点Ｔｒ（ｕｒ，ｖｒ）と定め、平面正則画像Ｔ上の当該再設定基準点Ｔｒを歪曲円形画像Ｓ上に逆変換して得られる点を新たな切出中心点Ｐ（ｘ０，ｙ０）とすることもできる。そうすれば、実際の人物画像に即したより正確な唇の位置を新たな切出中心点Ｐ（ｘ０，ｙ０）とする再設定が可能になる。

こうして、唇近傍領域設定部２６０によって唇近傍領域Ｌが設定されたら、特徴量算出部２７０が、当該唇近傍領域Ｌ内の輝度もしくは色を示す特徴量を算出する処理を行う。図１６は、この特徴量算出部２７０によって算出された特徴量の技術的な意義を説明する平面図である。図１６(a) も図１６(b) も、同じ面積をもった唇近傍領域Ｌ内の画像であるが、前者は唇を閉じた状態、後者は唇を開いた状態の画像である。両者を比較すると、後者では、口腔内の面積割合が増えるため、輝度が低下することになる。また、両者では、色合いにも変化が見られる。

そこで、この唇近傍領域Ｌ内の輝度もしくは色を示すパラメータとして特徴量を定義すれば、唇の開閉によって、当該特徴量には顕著な変動が生じることになる。本発明では、このような特徴量の変動に基づいて、当該人物が発話状態にあるか否かを判定する。

図１７は、特徴量算出部２７０によって、唇近傍領域Ｌについての特徴量を算出するための数式の例をいくつか示す図である。ここでは、説明の便宜上、図の上段に示すように、唇近傍領域Ｌが複数ｎ個（左上隅の画素Ｗ（１）〜右下隅の画素Ｗ（ｎ））の画素の集合によって構成され、第ｉ番目の画素Ｗ（ｉ）が、Ｒ色成分Ｒ（ｉ）、Ｇ色成分Ｇ（ｉ）、Ｂ色成分Ｂ（ｉ）を有する画素であるものとして、以下の説明を行うことにする。

別言すれば、図１に示すシステムにおいて、広角撮影装置１００は、３原色ＲＧＢの各色成分をもったカラー画像を撮影する機能を有しており、平面正則画像格納部２３０に得られる平面正則画像Ｔおよびその一部を構成する唇近傍領域Ｌ内の画像は、３原色ＲＧＢの各画素値をもった画素の集合体によって構成されているものとする。

まず、図１７(a) に示す第１の実施形態は、唇近傍領域Ｌ内の輝度を示すパラメータとして特徴量ξを定義した例である。この例では、特徴量算出部２７０は、唇近傍領域Ｌ内の第ｉ番目（１≦ｉ≦ｎ、但し、ｎは唇近傍領域内の画素の総数）の画素の３原色の画素値をそれぞれＲ（ｉ），Ｇ（ｉ），Ｂ（ｉ）としたときに、
ξ＝Σ_{ｉ＝１〜ｎ}（Ｒ（ｉ）＋Ｇ（ｉ）＋Ｂ（ｉ））／ｎ
なる演算式に基づく演算により当該唇近傍領域Ｌ内の輝度を示す特徴量ξを算出する。要するに、３原色の画素値の総和の全画素についての平均値を特徴量ξとして利用することになる。

一方、図１７(b) に示す第２の実施形態は、唇近傍領域Ｌ内の色、特に、Ｒ色成分を示すパラメータとして特徴量ξを定義した例である。この例では、特徴量算出部２７０は、唇近傍領域Ｌ内の第ｉ番目（１≦ｉ≦ｎ、但し、ｎは唇近傍領域内の画素の総数）の画素の原色Ｒの画素値をＲ（ｉ）としたときに、
ξ＝Σ_{ｉ＝１〜ｎ}（Ｒ（ｉ））／ｎ
なる演算式に基づく演算により当該唇近傍領域内の色を示す特徴量ξを算出する。要するに、原色Ｒにのみ着目し、全画素についての原色Ｒの画素値の平均値を特徴量ξとして利用することになる。

そして、図１７(c) に示す第３の実施形態は、唇近傍領域Ｌ内の色、特に、色相を示すパラメータとして特徴量ξを定義した例である。この例では、特徴量算出部２７０は、唇近傍領域内の第ｉ番目（１≦ｉ≦ｎ、但し、ｎは唇近傍領域内の画素の総数）の画素の、３原色ＲＧＢの各画素値から求めた色相値をＨ（ｉ）としたときに、
ξ＝Σ_{ｉ＝１〜ｎ}（Ｈ（ｉ））／ｎ
なる演算式に基づく演算により当該唇近傍領域内の色を示す特徴量ξを算出する。ここで、３原色の各画素値Ｒ（ｉ），Ｇ（ｉ），Ｂ（ｉ）から色相値Ｈ（ｉ）を求める式は、図１７(c) 下段に示すとおりである。要するに、全画素についての色相値の平均値を特徴量ξとして利用することになる。

本願発明者が行った実験（日本人を被験者としたもの）によれば、上記３つの実施形態のいずれを採用した場合も、唇の動きが特徴量ξの変動に十分に反映されることが確認できた。もちろん、会議の参加者の人種や肌の色、会議場の照明環境などによっても、最適な特徴量ξの定義方法は変わってくるので、実用上は、何通りかの定義方法を選択できるような構成にしておくのが好ましい。

なお、図１５に示す実施形態を採用すると、個々のフレームごとに、それぞれ唇領域Ｋの大きさや形状が異なることになる。たとえば、図１８(a) は、ある人物が正面向きで唇を閉じた状態において抽出された唇領域Ｋを示しているが、同一人物が唇を開いた状態では、図１８(b) に示すような唇領域Ｋが抽出される。また、同一人物が斜め横向きになると、唇の横幅は縮むことになるので、唇を閉じた状態では図１８(c) のような唇領域Ｋが抽出され、唇を開いた状態では図１８(d) に示すような唇領域Ｋが抽出される。

このように、抽出される唇領域Ｋの大きさや形状が変動すると、唇領域Ｋを基準に設定される唇近傍領域Ｌの大きさや形状も変動することになるが、図１７に例示したとおり、特徴量の算出処理では、唇近傍領域Ｌを構成する全ｎ個の画素についての平均値が用いられるため、唇近傍領域Ｌを構成する画素数が変動しても大きな問題は生じない。ただ、特徴量の算出精度をより高めるには、個々の人物ごとに理想的な唇近傍領域Ｌを設定し、しかもフレームごとに変動しないようにするのが好ましい。そのためには、たとえば、図７に示すような初期切出位置指定画面３１０を表示して初期切出条件設定作業を行う際に、全参加者に正面（広角撮影装置１００の方向）を向き、唇を閉じた状態で所定時間（たとえば、１０秒間）だけ静止してもらい、その間に得られた個々のフレームから抽出した唇領域Ｋの平均に基づいて唇近傍領域Ｌを設定し、以後、こうして設定された同一の唇近傍領域Ｌを利用するようにしてもよい。

こうして、特徴量算出部２７０では、個々の参加者について、それぞれ各フレーム単位で特徴量ξが算出されるので、発話状態認識部２８０は、個々の参加者ごとに、その特徴量ξの時間変化に基づいて発話状態を認識する処理を行うことができる。図１９は、この発話状態認識部２８０によって、発話状態を認識する基本原理を示すグラフであり、横軸は時間ｔ、縦軸は特徴量ξ（図１７(a) ，(b) ，(c) のいずれの定義法を採用してもよい）を示している。

基本的には、発話状態認識部２８０は、各参加者について、特徴量ξの変動幅が所定のしきい値以下となる期間を非発話期間、当該しきい値を超える期間を発話期間と認識すればよい。図１９に示す例の場合、時点ｔ１〜ｔ２，ｔ３〜ｔ４，ｔ５〜ｔ６の各期間において、特徴量ξの変動幅がしきい値を超えているため、これらの期間は発話期間と認識され、時点ｔ０〜ｔ１，ｔ２〜ｔ３，ｔ４〜ｔ５，ｔ６〜の各期間において、特徴量ξの変動幅がしきい値以下となっているため、これらの期間は非発話期間と認識される。なお、認識された発話期間もしくは非発話期間の長さが所定の基準値（たとえば、１秒間）に満たない場合は、何らかのノイズの影響で当該期間が誤認識された可能性が高いので、それらの誤認識期間は無視するような運用を行うのが好ましい。

以下に、特徴量ξの変動幅がしきい値を超えているか否かを判断するための具体的な方法の一例を例示しておく。ここでは、広角撮影装置１００が、３０フレーム／秒のレートで動画撮影を行い、歪曲円形画像格納部２１０内には、１秒間に３０フレーム分の歪曲円形画像Ｓが格納され、平面正則画像格納部２３０内には、個々の参加者について、それぞれ１秒間に３０フレーム分の平面正則画像Ｔが格納されるものとしよう。

特徴量ξは、個々の参加者について、個々のフレームごとに算出されるので、ある１人の参加者についての特徴量ξの時間的変遷は、たとえば、図２０に示すようなものになる。ここで、横軸は時間軸に相当し、ｆ１〜ｆ１５は、平面正則画像Ｔのフレーム番号を示す（撮影レートが３０フレーム／秒の場合、図示のグラフは、約０．５秒の期間を示すことになる）。グラフ上の黒点は、時間軸上に離散的（１／３０秒おき）に定義された特徴量ξのサンプル点を示しており、その上の「＋」もしくは「−」の符号は、前のサンプル点の値に対する増減を示している。

このように、特徴量ξの時間的変動グラフ上に新たなサンプル点が得られた時点で、直前のサンプル点に対する増減を調べるようにすれば、増減の関係が反転したサンプル点の直前のサンプル点として、極大点と極小点とを定義することができる。たとえば、図示の例の場合、フレームｆ５において、符号が「＋」から「−」に反転しているので、その直前のフレームｆ４におけるサンプル点が極大点となり、フレームｆ１１において、符号が「−」から「＋」に反転しているので、その直前のフレームｆ１０におけるサンプル点が極小点になる。ここでは、このような極大点および極小点を併せて、変極点と呼ぶことにする。

特徴量ξに変動が生じていれば、時間軸に沿って、このような変極点が順次出現することになる。そこで、これら変極点を利用して、図２１に示すような方法で、発話期間の認識を行えばよい。図２１に示すグラフは、図２０に示すグラフの時間軸を圧縮したものに相当し、グラフ上の点Ｑ０〜Ｑ１０は、それぞれ変極点を示している。より具体的には、×印で示す偶数番号の変極点Ｑ０，Ｑ２，Ｑ４，... は極小点であり、黒丸で示す奇数番号の変極点Ｑ１，Ｑ３，Ｑ５，... は極大点である。

そして、個々の変極点について直前の変極点との間で特徴量ξの偏差ｄを求めるようにする。たとえば、変極点Ｑ１については直前の変極点Ｑ０との間で、特徴量ξの偏差ｄ１を求め、変極点Ｑ２については直前の変極点Ｑ１との間で、特徴量ξの偏差ｄ２を求め、... といった具合である。そして、この各偏差ｄ１，ｄ２，ｄ３, ...が、所定のしきい値ｔｈを超えるか否かを判定し、偏差ｄがしきい値ｔｈ以下の状態からしきい値ｔｈを超える状態に転じた時点ｔ４を非発話期間から発話期間への転換時点と認識し、偏差ｄがしきい値ｔｈを超えた状態からしきい値ｔｈ以下の状態に転じた時点ｔ９を発話期間から非発話期間への転換時点と認識すればよい。

＜＜＜ §５．会議画像提示処理の詳細＞＞＞
さて、上述したように、発話状態認識部２８０は、個々の参加者について、発話中か否かの状態もしくは発話時間を示す発話情報を取得することができる。そこで、会議画像提示部２９０は、個々の参加者の人物画像とともに当該参加者についての発話情報を、ディスプレイ装置３００の画面に表示する処理を行う。具体的には、会議画像提示部２９０は、個々の参加者について、当該参加者の人物画像を含む平面正則画像を表示する参加者表示領域と、この参加者表示領域に紐づけて当該参加者の発話情報を表示する発話情報表示領域と、を有する会議画像を生成し、この会議画像をディスプレイ装置３００の画面に表示する。以下に、このような会議画像表示画面のいくつかのバリエーションを列挙しておく。

(1) 第１のバリエーションに係る会議画像表示画面
図２２に示す第１の会議画像表示画面３３０には、参加者表示領域３３１と発話情報表示領域３３２（図では、説明の便宜上、破線で囲って示す）とが設けられている。この例では、参加者表示領域３３１は、個々の参加者Ａ〜Ｄの人物画像（図８に示す平面正則画像Ｔａ〜Ｔｄ）を表示するための領域３３１Ａ〜３３１Ｄによって構成されている。一方、発話情報表示領域３３２は、個々の参加者Ａ〜Ｄのそれぞれに対応した発話情報表示領域３３２Ａ〜３３２Ｄによって構成されており（図では破線で示すが、実際には、この破線は必ずしも表示する必要はない。）、現在発話中の参加者についての発話情報表示領域についてのみ、発話中であることを示す識別マークを表示させている。この例では、発話中識別マークＭとして、マイクの図柄をあしらったアイコンを用いており、この発話中識別マークＭが表示されている参加者（図示の例の場合はＢ氏）が現在発話中の参加者であることが一目で認識できる。

発話状態認識部２８０により、個々の参加者が現在発話中か否かを認識することができるので、会議画像提示部２９０は、現在発話中と認識された参加者についての発話情報表示領域（図示の例では、領域３３２Ｂ）にのみ、発話中識別マークＭを表示する処理を行えばよい。このような表示形態を採用すれば、発話者が交替すると、発話中識別マークＭが移動するので、現在誰が発話中であるのかを容易に把握することが可能になる。

なお、図２２に示す例では、非発話者の発話情報表示領域には発話中識別マークＭを表示せず、発話者の発話情報表示領域にのみ発話中識別マークＭを表示する運用を採っているが、基本的には、発話情報表示領域には、各参加者が発話期間中か非発話期間中かを識別する識別マークを表示させればよい。たとえば、発話期間中を示す識別マークとして「○」印、非発話期間中を示す識別マークとして「×」印を表示するようにすれば、「○」か「×」かで、各参加者の発話状態を認識することができる。図２２に示す例は、発話期間中を示す識別マークとしてマイクの図柄をあしらったアイコンを用い、非発話期間中を示す識別マークとして無印のマークを用いた例ということができる。

(2) 第２のバリエーションに係る会議画像表示画面
図２３に示す第２の会議画像表示画面３４０には、参加者表示領域３４１と発話情報表示領域３４２とが設けられている。参加者表示領域３４１に、個々の参加者Ａ〜Ｄの人物画像が表示される点は上述の例と同じであるが、発話情報表示領域３４２には、各参加者Ａ〜Ｄの会議開始後（初期切出条件の設定後）の累積発話時間が数値により表示されている。

図示の例では、累積発話時間として「時：分：秒」の書式を採用しているので、たとえば、参加者Ａの累積発話時間は、１時間２５分３秒ということになる。このように、各参加者の累積発話時間が表示されれば、誰が長時間発言し、誰の発言が少ないのかが一目瞭然であり、会議の円滑な進行を図る上で有益な情報提示が行われることになる。たとえば、図示の例では、Ｂ氏は１５分４０秒しか発言していないので、以後、司会者は、Ｂ氏に積極的に発言を求めるような進行を心がけることができる。あるいは、自分が長時間発言していることを認識したＡ氏は、以後は、自発的に発言を控えるよう自制することもできる。

(3) 第３のバリエーションに係る会議画像表示画面
図２４に示す第３の会議画像表示画面３５０には、参加者表示領域３５１と発話情報表示領域３５２とが設けられている。参加者表示領域３５１に、個々の参加者Ａ〜Ｄの人物画像が表示される点は上述の例と同じであるが、発話情報表示領域３５２には、現在発話中の参加者についての発話継続時間が表示されている。

図示の例では、発話継続時間として「分：秒」の書式を採用しており、現在、参加者Ｂが発話中であり、発話開始後の継続時間が２分１３秒であることが認識できる。ここでＢ氏が発言を終了し、代わりにＤ氏が発言を開始したとすると、Ｂ氏の発話継続時間は０にリセットされ、Ｄ氏の発話継続時間が０からカウントアップされる。しかも、発話継続時間の表示は、現在発話中の者についてのみ行われるので、Ｄ氏の発言に移行した後は、Ｄ氏の人物画像の上方にＤ氏の発話継続時間が表示され、他の参加者の人物画像の上方には、何ら時間表示はなされなくなる。

このように、現在発話中の参加者についての発話継続時間を表示する形態は、１回の発言時間を所定の設定時間内に制限するルールを採用した会議において有効である。たとえば、１回の発言時間を３分以内に制限するルールが定められた会議では、発話情報表示領域３５２に表示される発話継続時間により、当該ルールが遵守されているか否かを監視することができる。もちろん、発話継続時間の代わりに、制限時間までの残存時間を表示してもよい。

(4) 第４のバリエーションに係る会議画像表示画面
図２５に示す第４の会議画像表示画面３６０の表示内容は、基本的には、図２３に示す第２の会議画像表示画面３４０の表示内容と同じである。すなわち、参加者表示領域３６１には、個々の参加者Ａ〜Ｄの人物画像が表示され、発話情報表示領域３６２には、各参加者Ａ〜Ｄの累積発話時間が数値により表示されている。

ただ、図２３に示す会議画像表示画面３４０では、個々の参加者についての発話情報表示領域（時間が表示されている領域）を、当該参加者についての参加者表示領域（人物画像が表示されている領域）の近傍に配置し、互いに近傍に配置することにより、特定の参加者表示領域と特定の発話情報表示領域との紐付けを行っている。たとえば、会議画像表示画面３４０において、参加者Ａの累積発話時間が、１時間２５分３秒であることが認識できるのは、参加者Ａの人物画像の近傍に「１：２５：０３」なる時間表示がなされているためであり、両者は近傍に配置されているという理由で相互に紐付けがなされている。

これに対して、図２５に示す会議画像表示画面３６０では、左側に参加者表示領域３６１が配置され、右側に発話情報表示領域３６２が配置されており、個々の参加者についての参加者表示領域（人物画像が表示されている領域）と、当該参加者についての発話情報表示領域（時間が表示されている領域）との間の紐付けは、参加者名の表記によって行われている。たとえば、参加者Ａの累積発話時間が、１時間２５分３秒であることが認識できるのは、参加者Ａの人物画像と「１：２５：０３」なる時間表示とが、「Ａ氏」という参加者名を介して紐付けされていることになる。

このように、会議画像提示部２９０によって提示される会議画像上では、個々の参加者についての人物画像（平面正則画像）と、当該参加者の発話情報とが、何らかの方法で紐付けされていれていれば足り、必ずしも紐付けされた両者を近傍に配置する必要はない。

(5) 第５のバリエーションに係る会議画像表示画面
図２６に示す第５の会議画像表示画面３７０の表示内容も、基本的には、図２３に示す第２の会議画像表示画面３４０の表示内容と同じである。すなわち、参加者表示領域３７１には、個々の参加者Ａ〜Ｄの人物画像が表示され、発話情報表示領域３７２には、各参加者Ａ〜Ｄの累積発話時間が表示されている。

ただ、累積発話時間の表示は、数字ではなく円グラフＭａ〜Ｍｄによって行われている。すなわち、所定の時間ユニットＵに対して円グラフの３６０°を対応させ、表示対象となる時間ＴをＵで割り算したときの商をＱ、剰余をＲとしたときに、Ｑ個の円と、１個の扇形（中心角θは、θ＝３６０°×Ｒ／Ｕ）とを並べることにより時間表示を行っている。図示の例の場合、時間ユニットＵ＝１時間に設定されており、円グラフの３６０°が１時間に対応づけられている。したがって、１個の完全な円グラフは１時間を表しており、不完全な円グラフは、その中心角θにより、θ／３６０°時間を表している。

結局、図２６に示す発話情報表示領域３７２に円グラフＭａ〜Ｍｄとして表示されている累積発話時間は、図２３に示す発話情報表示領域３４２に数字で表示されている累積発話時間と全く同じ内容であるが、時間の表示形式が異なっていることになる。このように円グラフを用いて時間表示を行えば、より直感的、視覚的、アナログ的な時間把握が可能になる。もちろん、発話情報表示領域３７２への時間表示を、数字と円グラフの双方で行うようにしてもかまわない。

＜＜＜ §６．テレビ会議支援システム＞＞＞
これまで述べてきた実施形態は、図２に例示するように、１台の会議支援システムを１つの会議室に設置し、当該会議室内の各参加者についての人物画像や発話情報をディスプレイ上に提示するものであったが、このような会議支援システムを複数台用意して、個々の会議支援システムの構成要素となる撮影画像処理装置２００をネットワークで接続することにより相互に会議画像を送受信できるようにすれば、ディスプレイ装置３００に複数の会議画像を提示させることが可能になり、テレビ会議支援システムとして利用できるようになる。

たとえば、図１に示す構成をもった会議支援システムを２台用意し、１台を大阪の会議室に設置し、もう１台を東京の会議室に設置し、相互の撮影画像処理装置２００をインターネットを介して接続し、相互に会議画像を送受信できるようにすれば、それぞれのディスプレイ装置３００には、図２７に示すような会議画像表示画面を表示させることができる。

図２７において、上下２段にわたって配置された画面３８０，３９０は、それぞれが地区別の会議画像表示画面であり、上段が大阪地区、下段が東京地区を示している。上段の大阪地区の会議画像表示画面３８０には、地区表示３８１、参加者表示領域３８２、発話情報表示領域３８３が設けられており、下段の東京地区の会議画像表示画面３９０には、地区表示３９１、参加者表示領域３９２、発話情報表示領域３９３が設けられている。いずれも、その表示内容は、基本的には、図２３に示す会議画像表示画面３４０の表示内容とほぼ同じである。

もちろん、３台以上の会議支援システムを相互接続することにより、３カ所以上に分散した会議室を利用したテレビ会議を支援するためのテレビ会議支援システムを構成することも可能である。

＜＜＜ §７．撮影画像処理装置の処理手順＞＞＞
最後に、図２８の流れ図を参照しながら、図１に示す会議支援システムにおける撮影画像処理装置２００の処理手順をまとめておく。

まず、ステップＳ１において、初期切出条件の設定処理が行われる。この処理は、初期切出条件設定部２４５の機能によって行われる処理であり、たとえば、図７に示すような初期設定画面３１０がディスプレイ装置３００に表示され、§３で述べたように、ユーザの操作入力に基づいて、各参加者の人物画像についての初期切出条件が、切出条件設定部２４０に対して設定される。

続くステップＳ２では、新しいフレーム画像（広角撮影装置１００が撮影した歪曲円形画像Ｓ）が取り込まれ、歪曲円形画像格納部２１０に格納される。そして、ステップＳ３では、画像切出変換部２２０が、切出条件設定部２４０にその時点で格納されている切出条件に基づいて、取り込んだ歪曲円形画像Ｓから個々の人物画像を切り出し、これを平面正則画像Ｔに変換した上で、平面正則画像格納部２３０に格納する画像切出変換処理を実行する。

次のステップＳ４では、顔領域認識部２５０により、各参加者についての平面正則画像Ｔから顔領域Ｆを認識する処理が実行され、ステップＳ５では、更に、唇近傍領域設定部２６０により、顔領域Ｆ内に唇近傍領域Ｌを設定する処理が行われる。そして、ステップＳ６では、特徴量算出部２７０により、唇近傍領域Ｌから特徴量ξを算出する処理が行われ、ステップＳ７では、発話状態認識部２８０により、個々の参加者ごとの発話状態を認識する処理が行われる。この発話状態の認識は、特徴量ξの時間変化に基づいて行われるため、ステップＳ６で算出した特徴量ξは、発話状態の認識に必要な期間だけ保存しておくようにする。

そして、ステップＳ８では、ステップＳ３で得られた平面正則画像（人物画像）とステップＳ７で認識された発話状態に関連した発話情報とを含んだ会議画像を作成し、ディスプレイ装置に提示する処理が行われる。

以上述べたステップＳ２〜Ｓ８の処理は、１フレーム分の撮影画像に対して行われる一巡処理であり、当該一巡処理が、ステップＳ９を経て、会議が終了するまで繰り返し実行されることになる。その際、ステップＳ１０において切出条件の再設定を行うか否かが判断され、再設定を行う場合は、ステップＳ１１において、切出条件設定部２４０による切出条件再設定処理、すなわち、ステップＳ４における顔領域認識処理の認識結果に基づいて、新たな切出条件を設定する処理が行われる。

切出条件再設定処理を毎フレームごとに行う場合は、ステップＳ１０では常に肯定的な判断を行うようにすればよい。また、たとえば、切出条件再設定処理を１０フレームごとに行う場合は、ステップＳ１０では１０回ごとに１回の周期で肯定的な判断を行うようにすればよい

１００：広角撮影装置
１５０：マイクロフォン
２００：撮影画像処理装置
２１０：歪曲円形画像格納部
２２０：画像切出変換部
２３０：平面正則画像格納部
２４０：切出条件設定部
２４５：初期切出条件設定部
２５０：顔領域認識部
２６０：唇近傍領域設定部
２７０：特徴量算出部
２８０：発話状態認識部
２９０：会議画像提示部
３００：ディスプレイ装置
３１０：初期設定画面
３１１：初期切出位置指定画面
３１２：参加者登録画面
３１３：参加者名登録窓
３１４：参加者戻しボタン
３１５：登録完了ボタン
３１６：参加者送りボタン
３２０：人物画像表示画面
３３０：会議画像表示画面
３３１：参加者表示領域
３３１Ａ〜３３１Ｄ：Ａ氏〜Ｄ氏の人物画像（平面正則画像）
３３２：発話情報表示領域
３３２Ａ〜３３２Ｄ：Ａ氏〜Ｄ氏用の発話情報表示領域
３４０：会議画像表示画面
３４１：参加者表示領域
３４２：発話情報表示領域
３５０：会議画像表示画面
３５１：参加者表示領域
３５２：発話情報表示領域
３６０：会議画像表示画面
３６１：参加者表示領域
３６２：発話情報表示領域
３７０：会議画像表示画面
３７１：参加者表示領域
３７２：発話情報表示領域
３８０：地区別の会議画像表示画面
３８１：地区表示
３８２：参加者表示領域
３８３：発話情報表示領域
３９０：地区別の会議画像表示画面
３９１：地区表示
３９２：参加者表示領域
３９３：発話情報表示領域
Ａ〜Ｄ：会議の各参加者
ａ１，ａ２：横方向の位置指標となる定数
Ｂ（ｉ）：第ｉ番目の画素の原色Ｂの画素値
ｂ１，ｂ２：縦方向の位置指標となる定数
Ｃｂ：同心円
Ｄ：点Ｇを通り、ＸＹ平面に平行かつ直線ＯＧに直交する軸
ｄ１〜ｄ１０：偏差
Ｅ：切出領域
Ｅａ〜Ｅｄ：Ａ氏〜Ｄ氏用の切出領域
Ｆ：顔領域（顔領域の輪郭枠）
Ｆａ〜Ｆｄ：Ａ氏〜Ｄ氏用の顔領域
ｆ１〜ｆ１５：フレーム番号
Ｇ：平面正則画像Ｔの中心点（二次元ＵＶ直交座標系の原点）
Ｇ（ｕ０，ｖ０）：平面正則画像Ｔの中心点（二次元ＵＶ直交座標系の原点）
Ｇ（ｘｇ，ｙｇ，ｚｇ）：二次元ＵＶ直交座標系の原点
Ｇ（ｉ）：第ｉ番目の画素の原色Ｇの画素値
Ｈ：仮想球面
Ｈ（ｉ）：第ｉ番目の画素の色相値
Ｊ：切出方向
Ｊａ〜Ｊｄ：Ａ氏〜Ｄ氏用の切出方向
Ｋ：唇領域
Ｌ，Ｌ′：唇近傍領域（唇近傍領域の輪郭枠）
Ｌ１：顔領域Ｆの輪郭枠の中心鉛直線
Ｌ２：顔領域Ｆの唇位置水平線
Ｍ：発話中識別マーク
Ｍａ〜Ｍｄ：時間表示用円グラフ
ｍ：切出倍率
ｍａ〜ｍｄ：Ａ氏〜Ｄ氏用の切出倍率
ｎ：視線ベクトル／唇近傍領域Ｌ内の画素数
ｎｉ：ＯとＱｉとを結ぶ直線
Ｏ：歪曲円形画像Ｓの中心点（二次元ＸＹ直交座標系の原点）
Ｐ（ｘ０，ｙ０）：切出中心点
Ｐａ〜Ｐｄ：Ａ氏〜Ｄ氏用の切出中心点
Ｐｋ：唇の中心点
Ｑ（ｘ０，ｙ０，ｚ０）：球面上対応点
Ｑｉ（ｘｉ，ｙｉ，ｚｉ）：球面上対応点
Ｑ０〜Ｑ１０：変極点
Ｒ：歪曲円形画像Ｓの半径（仮想球面Ｈの半径）
Ｒ（ｉ）：第ｉ番目の画素の原色Ｒの画素値
Ｓ：歪曲円形画像
Ｓｉ（ｘｉ，ｙｉ）：二次元ＸＹ直交座標系上の歪曲円形画像Ｓ内の点
Ｓ１〜Ｓ１１：流れ図の各ステップ
Ｔ：平面正則画像（人物画像）
Ｔａ〜Ｔｄ：平面正則画像（Ａ氏〜Ｄ氏の人物画像）
Ｔｒ（ｕｒ，ｖｒ）：再設定基準点
ｔ：時間軸
ｔ１〜ｔ９：時間軸ｔ上の時点
ｔｈ：偏差のしきい値
Ｕ：平面正則画像Ｔ上の座標軸（二次元ＵＶ直交座標系の座標軸）
ｕｒ：再設定基準点ＴｒのＵ座標値
Ｖ：平面正則画像Ｔ上の座標軸（二次元ＵＶ直交座標系の座標軸）
ｖｒ：再設定基準点ＴｒのＶ座標値
Ｗ（１）〜Ｗ（ｎ）：唇近傍領域Ｌ内の画素
Ｘ：歪曲円形画像Ｓ上の座標軸（二次元ＸＹ直交座標系の各座標軸）
ｘ０：切出中心点ＰのＸ座標値
Ｙ：歪曲円形画像Ｓ上の座標軸（二次元ＸＹ直交座標系の各座標軸）
ｙ０：切出中心点ＰのＹ座標値
Ｚ：三次元ＸＹＺ直交座標系の座標軸
α：方位角
β：天頂角
ξ：特徴量
φ：平面傾斜角
θ：円グラフの中心角

Claims

広範囲な画角をもった撮影により、会議の各参加者の顔を含む歪曲円形画像を取り込む広角撮影装置と、
前記歪曲円形画像に基づいて、各参加者の人物画像および発話情報を作成する撮影画像処理装置と、
各参加者の人物画像および発話情報を表示するディスプレイ装置と、
を備える会議支援システムであって、
前記撮影画像処理装置が、
前記広角撮影装置によって時間軸に沿って撮影された複数の歪曲円形画像を順次格納する歪曲円形画像格納部と、
各参加者について、切出中心点、切出方向、切出倍率を定める所定の切出条件をそれぞれ設定する切出条件設定部と、
前記ディスプレイ装置の画面上に前記歪曲円形画像を表示させ、表示中の歪曲円形画像上で切出中心点の位置を指定するユーザの操作入力に基づいて、前記切出条件設定部に対して、各参加者についての初期切出条件を設定する初期切出条件設定部と、
前記切出条件設定部に設定されている切出条件に基づいて、前記歪曲円形画像の一部分を切り出して変換し、各参加者についての平面正則画像を生成する画像切出変換部と、
前記平面正則画像を格納する平面正則画像格納部と、
前記平面正則画像について顔領域を認識する顔領域認識部と、
前記顔領域上に唇近傍領域を設定する唇近傍領域設定部と、
各参加者の平面正則画像について、前記唇近傍領域内の輝度もしくは色を示す特徴量を算出する特徴量算出部と、
前記特徴量の時間変化に基づいて、個々の参加者ごとの発話状態を認識する発話状態認識部と、
前記平面正則画像と前記発話状態に関連した発話情報とを含んだ会議画像を、時間軸に沿って順次生成し、これを前記ディスプレイ装置に与えて動画として表示させる会議画像提示部と、
を有しており、
前記切出条件設定部が、前記顔領域認識部の認識結果に基づいて、切出条件の再設定を行う機能を有していることを特徴とする会議支援システム。
請求項１に記載の会議支援システムにおいて、
切出条件設定部が、顔領域の輪郭枠を基準として予め定められた所定位置にある点を再設定基準点と定め、平面正則画像上の前記再設定基準点を歪曲円形画像上に逆変換して得られる点を切出中心点とする再設定を行うことを特徴とする会議支援システム。
請求項２に記載の会議支援システムにおいて、
切出条件設定部が、唇の中心が位置すると予想される点を再設定基準点に定めることを特徴とする会議支援システム。
請求項１に記載の会議支援システムにおいて、
切出条件設定部が、唇近傍領域設定部が設定した唇近傍領域の中心点を再設定基準点と定め、平面正則画像上の前記再設定基準点を歪曲円形画像上に逆変換して得られる点を切出中心点とする再設定を行うことを特徴とする会議支援システム。
請求項１〜４のいずれかに記載の会議支援システムにおいて、
切出条件設定部が、顔領域の面積に応じた切出倍率をもった切出条件を再設定することを特徴とする会議支援システム。
請求項１〜５のいずれかに記載の会議支援システムにおいて、
切出条件設定部が、切出中心点を通る歪曲円形画像の同心円を求め、当該同心円の接線方向が平面正則画像の水平方向となるような切出方向をもつ切出条件を再設定することを特徴とする会議支援システム。
請求項１〜６のいずれかに記載の会議支援システムにおいて、
広角撮影装置が、一定の時間周期で撮影されたフレーム単位の静止画からなる歪曲円形画像を連続して取り込み、
切出条件設定部が、１フレーム周期、もしくは、複数フレーム周期で切出条件の再設定を行うことを特徴とする会議支援システム。
請求項１〜７のいずれかに記載の会議支援システムにおいて、
唇近傍領域設定部が、顔領域の輪郭枠を基準として予め定められた所定枠内の領域を唇近傍領域に設定することを特徴とする会議支援システム。
請求項８に記載の会議支援システムにおいて、
顔領域認識部が、矩形状の輪郭枠をもった顔領域を認識し、
唇近傍領域設定部が、前記輪郭枠の左辺の横方向に関する位置を０％、右辺の横方向に関する位置を１００％とし、上辺の縦方向に関する位置を０％、下辺の縦方向に関する位置を１００％としたときに、予め設定された所定の定数ａ１，ａ２，ｂ１，ｂ２（但し、０＜ａ１＜ａ２＜１００、０＜ｂ１＜ｂ２＜１００）に基づいて、左辺の横方向に関する位置がａ１％、右辺の横方向に関する位置がａ２％の位置にあり、上辺の縦方向に関する位置がｂ１％、下辺の縦方向に関する位置がｂ２％の位置にある矩形状の輪郭枠をもつ領域を唇近傍領域に設定することを特徴とする会議支援システム。
請求項１〜７のいずれかに記載の会議支援システムにおいて、
唇近傍領域設定部が、個々の平面正則画像について、それぞれ顔領域内を所定の唇探索アルゴリズムを用いて探索し、探索された唇の周辺を含む領域を、当該平面正則画像についての唇近傍領域に設定することを特徴とする会議支援システム。
請求項１〜１０のいずれかに記載の会議支援システムにおいて、
平面正則画像が、３原色ＲＧＢの各画素値をもった画素の集合体によって構成され、
特徴量算出部が、唇近傍領域内の第ｉ番目（１≦ｉ≦ｎ、但し、ｎは唇近傍領域内の画素の総数）の画素の３原色の画素値をそれぞれＲ（ｉ），Ｇ（ｉ），Ｂ（ｉ）としたときに、
ξ＝Σ_{ｉ＝１〜ｎ}（Ｒ（ｉ）＋Ｇ（ｉ）＋Ｂ（ｉ））／ｎ
なる演算式に基づく演算により当該唇近傍領域内の輝度を示す特徴量ξを算出することを特徴とする会議支援システム。
請求項１〜１０のいずれかに記載の会議支援システムにおいて、
平面正則画像が、３原色ＲＧＢの各画素値をもった画素の集合体によって構成され、
特徴量算出部が、唇近傍領域内の第ｉ番目（１≦ｉ≦ｎ、但し、ｎは唇近傍領域内の画素の総数）の画素の原色Ｒの画素値をＲ（ｉ）としたときに、
ξ＝Σ_{ｉ＝１〜ｎ}（Ｒ（ｉ））／ｎ
なる演算式に基づく演算により当該唇近傍領域内の色を示す特徴量ξを算出することを特徴とする会議支援システム。
請求項１〜１０のいずれかに記載の会議支援システムにおいて、
平面正則画像が、３原色ＲＧＢの各画素値をもった画素の集合体によって構成され、
特徴量算出部が、唇近傍領域内の第ｉ番目（１≦ｉ≦ｎ、但し、ｎは唇近傍領域内の画素の総数）の画素の、前記３原色ＲＧＢの各画素値から求めた色相値をＨ（ｉ）としたときに、
ξ＝Σ_{ｉ＝１〜ｎ}（Ｈ（ｉ））／ｎ
なる演算式に基づく演算により当該唇近傍領域内の色を示す特徴量ξを算出することを特徴とする会議支援システム。
請求項１〜１３のいずれかに記載の会議支援システムにおいて、
発話状態認識部が、各参加者について、特徴量の変動幅が所定のしきい値以下となる期間を非発話期間、前記しきい値を超える期間を発話期間と認識することを特徴とする会議支援システム。
請求項１４に記載の会議支援システムにおいて、
発話状態認識部が、特徴量の時間的変動グラフの極大点と極小点とを変極点として逐次検出し、個々の変極点について、当該変極点の特徴量と直前の変極点の特徴量との偏差を求め、当該偏差が所定のしきい値以下の状態から前記しきい値を超える状態に転じた時点を非発話期間から発話期間への転換時点と認識し、当該偏差が前記しきい値を超えた状態から前記しきい値以下の状態に転じた時点を発話期間から非発話期間への転換時点と認識することを特徴とする会議支援システム。
請求項１〜１５のいずれかに記載の会議支援システムにおいて、
会議画像提示部が、個々の参加者について、当該参加者の人物画像を含む平面正則画像を表示する参加者表示領域と、この参加者表示領域に紐づけて当該参加者の発話情報を表示する発話情報表示領域と、を有する会議画像を生成することを特徴とする会議支援システム。
請求項１６に記載の会議支援システムにおいて、
個々の参加者についての発話情報表示領域を、当該参加者についての参加者表示領域の近傍に配置し、互いに近傍に配置することにより、特定の参加者表示領域と特定の発話情報表示領域との紐付けを行うことを特徴とする会議支援システム。
請求項１６または１７に記載の会議支援システムにおいて、
会議画像提示部が、発話情報表示領域に、各参加者が発話期間中か非発話期間中かを識別する識別マークを表示させることを特徴とする会議支援システム。
請求項１６または１７に記載の会議支援システムにおいて、
会議画像提示部が、現在発話中の参加者についての発話情報表示領域についてのみ、発話中であることを示す識別マークを表示させることを特徴とする会議支援システム。
請求項１６または１７に記載の会議支援システムにおいて、
会議画像提示部が、発話情報表示領域に、各参加者の累積発話時間を表示させることを特徴とする会議支援システム。
請求項１６または１７に記載の会議支援システムにおいて、
会議画像提示部が、発話情報表示領域に、現在発話中の参加者についての発話継続時間を表示させることを特徴とする会議支援システム。
請求項２０または２１に記載の会議支援システムにおいて、
会議画像提示部が、発話情報表示領域への時間表示を、数字もしくは円グラフまたはその双方で行うことを特徴とする会議支援システム。
請求項２０または２１に記載の会議支援システムにおいて、
会議画像提示部が、発話情報表示領域に対して、円グラフを含む時間表示を行い、所定の時間ユニットＵに対して前記円グラフの３６０°を対応させ、表示対象となる時間ＴをＵで割り算したときの商をＱ、剰余をＲとしたときに、Ｑ個の円と、１個の扇形（中心角θは、θ＝３６０°×Ｒ／Ｕ）とを並べた表示を行うことを特徴とする会議支援システム。
請求項１〜２３のいずれかに記載の会議支援システムの一構成要素として記載されている撮影画像処理装置。
請求項２４に記載の撮影画像処理装置としてコンピュータを機能させるプログラム。
請求項２４に記載の撮影画像処理装置として機能する半導体集積回路。
請求項１〜２３のいずれかに記載の会議支援システムを複数台備え、個々の会議支援システムの構成要素となる撮影画像処理装置をネットワークで接続することにより相互に会議画像を送受信できるようにし、ディスプレイ装置に複数の会議画像を提示させるようにしたことを特徴とするテレビ会議支援システム。