JP2020052788A

JP2020052788A - 画像処理装置及びその方法、プログラム

Info

Publication number: JP2020052788A
Application number: JP2018182091A
Authority: JP
Inventors: 俊亮中野; Toshiaki Nakano; 伊藤　嘉則; Yoshinori Ito; 嘉則伊藤; 佐藤　博; Hiroshi Sato; 博佐藤; 山本　貴久; Takahisa Yamamoto; 貴久山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2020-04-02

Abstract

【課題】時系列で入力される顔画像を用いて人物を精度よく認証する。【解決手段】画像処理装置に、時系列で入力された同一人物の複数の入力顔画像を取得する取得手段と、複数人物のそれぞれの顔画像情報が登録された記憶手段と、前記複数の入力顔画像の１つと前記登録された複数人物のそれぞれの顔画像情報とを照合して類似度を求める照合手段と、前記複数の入力顔画像のそれぞれが認証に適しているかを判定する判定手段と、前記判定手段により２以上の入力顔画像が認証に適していると判定された場合に、当該２以上の入力顔画像のそれぞれと前記登録された顔画像情報との類似度を統合する統合手段と統合された前記類似度に基づいて前記入力顔画像に対応する人物を認証する認証手段とを備える。【選択図】図１

Description

本発明は、撮影された監視カメラ映像に映る人物について、その人物を認証する技術に関するものである。

撮影された画像データ内に写るオブジェクトの画像を高度に処理して有用な情報を抽出する技術が多く提案されており、その中でも人間の顔画像を認識して、顔に関する様々な情報を判定する顔認識と呼ばれる技術がある。顔認識の例として、顔から人物の性別を推定する性別推定、顔から人物の年齢を推定する年齢推定などがある。さらに、ある顔画像と別の顔画像とを照合して、ふたつの顔が同一人物であるか否かを判定する顔識別がある。

顔識別では２つの顔画像を照合し、その２つの顔画像が同一人物であるか否かを表す値である類似度を求める。その類似度が予め定められた閾値以上であれば２つの顔画像が同一人物であると判定することができる。顔識別では、入力された顔画像と、予め登録されている複数人物の顔画像とをそれぞれ照合して、入力された顔画像が誰であるか判定することも可能であり、それは顔認証と呼ばれる。顔認証では各登録者と照合して得られた最大の類似度の人物に入力された顔画像を判定する。

顔認証の用途としていくつかあるが、施設出入り口を通過する許可があるかどうかを判定する入退室管理が代表的である。入退室管理では、出入り口を通過してよい人物が予め登録されており、出入り口を通過しようとする人物が登録者であると認証した場合には入退室を許可する仕組みである。入退室管理の顔認証では、人物にカメラの前に静止してもらい顔をはっきり撮影する、協力型の方式が主流である。もうひとつの顔認証の代表的な用途として、特許文献１のように、特定の人物、例えば指名手配犯やお得意様が施設や街頭で現れたことを検知する、ブラックリスト／ホワイトリスト検知がある。この用途は、人物にはカメラの存在を知らせずに天井などに備え付けられたカメラに人物が写るタイミングで認証する、非協力型の方式である。

特許第５９３７８２３号公報

ＳｕｐｅｒｖｉｓｅｄＤｅｓｃｅｎｔＭｅｔｈｏｄａｎｄｉｔｓＡｐｐｌｉｃａｔｉｏｎｓｔｏＦａｃｅＡｌｉｇｎｍｅｎｔ：ＸｕｅｈａｎＸｉｏｎｇ，ＦｅｒｎａｎｄｏＤｅｌａＴｏｒｒｅ：２０１３

顔識別では、双方の顔画像が正面向き・高解像度・均一な照明で撮影されている場合に最大の精度を発揮する。同一人物の顔画像の間であっても向きや照明条件などが変動すると画像としての見え方が大きく異なってしまい、同じ人物で撮影条件が異なるのか人物が異なるのか正しく判定できなくなる可能性がある。このような誤判定を引き起こす変動として、向きや照明のほかに、表情、動きぶれ、撮影解像度、マスク・メガネなどの装着物などが挙げられる。

上述した非協力型の顔認証では、人物が協力はおろかカメラの存在を意識すらしないため、人物が自由に行動している最中を撮影して認証する必要がある。人物を撮影している一連の映像には認証に適していない条件の顔画像が一部含まれるため、認証精度が落ちてしまうことが課題である。例えば、まっすぐカメラに向かって歩いてくるのではなく斜めや横に通り過ぎる場合や、カメラの近くではなく終始カメラの遠くにいる場合、あるいは近くにいても携帯電話を操作しているなど下を向いている場合は、認証に適した条件とは言えない。

本発明の１態様によれば、画像処理装置に、時系列で入力された同一人物の複数の入力顔画像を取得する取得手段と、複数人物のそれぞれの顔画像情報が登録された記憶手段と、前記複数の入力顔画像の１つと前記登録された複数人物のそれぞれの顔画像情報とを照合して類似度を求める照合手段と、前記複数の入力顔画像のそれぞれが認証に適しているかを判定する判定手段と、前記判定手段により２以上の入力顔画像が認証に適していると判定された場合に、当該２以上の入力顔画像のそれぞれと前記登録された顔画像情報との類似度を統合する統合手段と統合された前記類似度に基づいて前記入力顔画像に対応する人物を認証する認証手段とを備える。

本発明によれば、認証に適切でない条件の顔画像が一部含まれる非協力型の顔認証の映像でも、高精度に人物を認証することができる。

実施形態１における全体ブロック図である。実施形態１における全体処理のフローチャートである。実施形態１における認証処理のフローチャートである。実施形態１における認証部１３００のブロック図である。実施形態１における統合処理のフローチャートである。実施形態１におけるフレームが認証に適しているか判定する判定器を示す図である。実施形態１における類似度補正のフローチャートである。実施形態１における出力部１４００の出力例を示す図である。実施形態２における全体ブロック図である。実施形態２における入力部の配置例を示す図である実施形態３におけるフレームが認証に適しているか判定する判定器を示す図である。実施形態における画像処理装置のハードウェア構成を示すブロック図である。

以下、図面を参照しながら本発明の好適な実施形態について詳細に説明する。

（実施形態１）
実施形態１では、監視カメラで撮影された映像内に、予め登録された人物が現れたかどうかリアルタイムで結果を出力する監視カメラシステムを例に説明する。以後、本実施形態では簡便のため以下のように呼称する。監視カメラ映像に映り、認証されるべき人物を、対象者と呼ぶ。一方、予め登録された個々の人物を、登録者と呼ぶ。本実施形態では人物の顔を使って認証する例で説明するが、顔だけでなく全身の体型や服装を併用して認証することももちろん可能である。

＜全体の構成＞
図１は、本実施形態における監視カメラシステム１０００として機能する画像処理装置の構成を示すブロック図である。図１に示すように、処理すべき映像を取得する入力部１１００、登録者の顔画像を保持する登録データ保持部１２００、映像に映る対象者と登録者を照合する認証部１３００、結果を通知する出力部１４００を備えている。

入力部１１００は、処理すべき映像を取得する。本実施形態では動画映像の各フレームを静止画として連続的に時系列で取得することとする。これ以降、動画映像のある１フレームの静止画を、単にフレームと呼ぶこととする。入力部１１００は、具体的には天井に据えつけた監視カメラであるとして以降説明するが、フレームを連続的に供給する装置であれば限定しない。例えば、予め録画された映像を保持している読み出し可能な半導体メモリでもよい。入力部１１００はその他の構成部と物理的に離れた場所に置かれていてもよく、例えば映像をネットワーク越しに認証部１３００に転送するような構成でもよい。

登録データ保持部１２００は、登録者の顔画像を保持する。登録データ保持部１２００は例えば大容量の半導体メモリであり、複数の顔画像を保持できるようなものが望ましい。

認証部１３００の詳細な構成に関しては後述するが、典型的には、入力部と接続されたサーバまたはワークステーションの上で動作するソフトウェアである。あるいは、ＳｏＣなどの専用回路の内部で実行されるプログラムであってもよい。

出力部１４００は、認証部１３００の出力、つまり対象者が誰であるかを適切な形で外部に出力する。出力部１４００は典型的にはディスプレイであり、カメラ映像に認証結果を重畳表示する方法が望ましいが、他の方法を併用してもよい。スピーカーから音を鳴らして周囲に報知する、ユーザの携帯端末に通知するなどが考えられ、複数のメディアを同時に使用してもよい。

図２は、本実施形態の全体処理を表すフローチャートである。この図２を参照しながら、監視カメラシステム１０００が対象者を認証する実際の処理について説明する。全体的な処理の流れとしては、入力部１１００からフレームを連続的に取得し、認証部１３００で各フレームについて対象者と登録者とを照合し、出力部１４００で認証結果を出力する。

まず始めに、入力部１１００からフレームを取得する（Ｓ１１０１）。続いて、フレームに写る対象者の顔を検出して（Ｓ１１０２）、対象者の顔の領域だけを切り出した入力顔画像をフレームから抽出する（Ｓ１１０３）。続いて、登録者の顔画像を登録データ保持部１２００からひとつずつ取得し（Ｓ１１０４）、対象者の顔画像と照合する（Ｓ１１０５）ことを登録者の数だけ繰り返す（Ｓ１１０６）。その後、この時点で取得した照合結果を統合し、照合結果の信頼度を求める（Ｓ１１０７）。ここまでの（Ｓ１１０３）から（Ｓ１１０７）までの処理を、画面に映る各対象者について行い（Ｓ１１０８）、最後に判定結果を出力する（Ｓ１１０９）。なお、判定結果を出力した後も引き続き次のフレームで、（Ｓ１１０３）から（Ｓ１１０８）までの処理を行い、結果を出力し続ける。

これ以降、フレームから抽出した対象者の顔領域を、単に対象顔画像または入力顔画像と呼ぶ。また同様に、登録者の顔画像を登録顔画像と呼ぶようにする。また、フローチャート中で示した、照合（Ｓ１１０５）および、照合結果の統合と信頼度の算出（Ｓ１１０７）の処理については、これ以降詳細に記す。

＜認証処理：概要＞
図３は、図２のフローチャートにおける照合（Ｓ１１０５）処理の詳細手順を示すフローチャートである。また、認証部１３００の詳細ブロック図を図４に示す。これらに沿って、認証部１３００の処理を詳細に説明していく。まず特徴抽出部１３１０において、対象顔画像から顔の特徴点を検出（Ｓ１２０１）したうえで、検出した特徴点の座標に基づいて特徴量を抽出（Ｓ１２０２）する。同様に登録顔画像からも特徴量を抽出し、照合部１３２０で対象者と登録者の特徴量を照合（Ｓ１２０５）し、その結果をいったん照合結果保持部１３３０に保持（Ｓ１２０６）しておく。特徴点検出、特徴量抽出、照合の各工程については、次から詳細に説明する。

＜認証処理：顔特徴点検出＞
図３における特徴点の検出（Ｓ１２０１およびＳ１２０３）について説明する。ここでは顔画像から、目・鼻・口・輪郭など、顔の特徴となりうる部分の画像上の座標と、検出した座標の信頼度を求める。特徴点を検出する実際の手法は任意のものを用いてよく、例えば、非特許文献１に記載の技術が利用できる。検出した座標の信頼度の求め方は、例えば収束するまでに要した繰り返し演算の回数などに基づいて得ることができる。なおこれ以降、ここで求めたものは単に顔特徴点座標と顔特徴点信頼度と呼ぶこととする。

＜認証処理：特徴抽出＞
図３における特徴量の抽出（Ｓ１２０２およびＳ１２０４）について説明する。ここでは顔画像から、個人の識別に必要な特徴量を抽出する。方法は任意で良いが、本実施形態では以下のように特徴量を抽出する。まず、先ほど検出した顔特徴点座標に基づいて、顔画像の座標を正規化する。例えば検出した両目の位置に基づいて、両目を結ぶ線分が画像上で所定の長さ・位置で水平になるように画像を回転・拡大縮小する。そして顔画像に特徴量を抽出する矩形領域を設定する。領域の大きさは任意であるが、個人の特徴をよく表す目や口などの器官がもれなく入るように、しかし背景などは入らないように、一辺が目幅のおおよそ１．５倍程度の正方形を顔の中央に設定するとよい。続いて矩形領域内の画素値を左上から右下に向かって順に取り出し、一列につなげてベクトルとする。これを特徴量とする。

なお本実施形態では、対象顔画像ひとつを処理するごとに登録顔画像からも特徴抽出をしている。実際の運用においては、図３の特徴点検出（Ｓ１２０３）および特徴量抽出（Ｓ１２０４）を予め登録時に行っておき、登録データ保持部１２００に顔画像に代えて特徴点及び特徴量を顔画像情報として登録しておけばよい。そうすれば繰り返し重複する処理を避けることができる。

＜認証処理：類似度算出＞
図３における特徴量の照合（Ｓ１２０５）について説明する。ここでは、対象顔画像の特徴量と登録顔画像の特徴量を照合し、どの程度同じ人物らしいかを表す類似度を算出する。その方法は任意であるが、類似度が大きいほど特徴量が似ている、つまり入力画像と登録画像が本人同士であることを表すような方法を選ぶ。例として、特徴量のベクトル同士が成す角度のコサインをとる方法、または特徴量のベクトル間のユークリッド距離の逆数をとったものが挙げられる。

最後に、ここまでで得られた各登録顔画像と対象顔画像との照合結果を一時的に照合結果保持部１３３０に記憶しておく。照合結果とは、対象顔画像の特徴点検出結果、特徴量、および各登録顔画像と照合した類似度である。

＜統合処理：概要＞
ここでは、図２における照合結果の統合処理（Ｓ１１０７）について詳細手順を表すフローチャートを図５に示す。まず、現在のフレームから抽出した対象顔画像が認証に適した条件であると判定（Ｓ１３０１）できれば、各登録顔画像との照合結果を補正する（Ｓ１３０２）。現時点で認証に適する条件と判定された対象顔画像が所定フレーム数以上得られていれば（Ｓ１３０３）、認証に適する条件と判定されたフレームの照合結果を統合し（Ｓ１３０４）、現時点で統合された照合結果の信頼度を算出する（Ｓ１３０５）。それぞれの各工程については、次から詳細に説明する。

統合された照合結果とは、対象者と各登録者との現時点での類似度であり、その最大の類似度が所定の認証閾値を超えている場合、通過者は最大の類似度に対応する登録者であると判定する。認証閾値以下である場合、対象者は登録者のうち誰でもないと判定する。

＜統合処理：フレーム選択＞
図５における、フレームが認証に適しているかの判定（Ｓ１３０１）について説明する。ここでは対象顔画像が認証に適しているかどうかを判定する。判定した結果「適していない」となった場合、この対象顔画像に対応する照合結果を照合結果保持部１３３０から削除する。ここでの「認証に適している」とは、対象者の顔がフレーム中ではっきりと映り、登録顔画像と精度よく照合できることが期待できることである。判定方法は任意であるが、例えば以下のようにするとよい。

１つは、対象顔画像の状態に基づいて判定する方法である。例えば、対象顔画像について得られている特徴点信頼度がある所定の値以下である場合は適していないと判定する方法が有効である。なぜなら、顔が遠くにあり解像していない・動きぶれしている・マスクやサングラスで一部が隠れている・顔の向きが顔特徴点検出部１３１１の仕様外である、などの条件では、顔器官が正しく検出できず信頼度が低くなる可能性が高い。よってそれらの顔から特徴を抽出しても正しく照合できない公算が高いためである。また対象顔画像の状態に基づいて判定する別の方法として、顔画像の周波数分布から推定できるボケやブレの状態、特徴点座標から推定できる顔の向きや表情などの情報も役立つと考えられる。

もう１つの方法は、対象顔画像と登録顔画像との関係性に基づいて判定する方法である。例えば、これまでで得られている各登録顔画像との類似度を調べる方法がある。具体的には、類似度の平均と分散や、類似度の最大値と下位の類似度複数個との差などを調べ、その値がある所定の値以下である場合は適していないと判定することができる。なぜなら、はっきりと写っていない対象顔画像はどの登録顔画像とも精密に照合できず、一様に低い類似度が得られる可能性が高いためである。

あるいは、上で述べた方法を組み合わせて利用することも可能である。上記の判定基準を直列に並べて判定することも可能であるし、上記の情報を全て入力して、適している／適してない、の２クラスを出力する判定器をあらかじめ機械学習で用意することも可能である。機械学習の方法としては例えばサポートベクターマシンやロジスティック回帰などの公知の方法が利用できる。また言うまでもなく、判定に用いる入力として上記の例以外にも利用できる。特徴点座標や抽出した特徴量そのもの、あるいは上位複数個の類似度の値そのもの、最大類似度と下位の類似度との差や比の情報、なども判定に役立つ可能性がある。いまここで述べた機械学習による判定器のデータフローを図６に示す。

＜統合処理：類似度補正＞
図５における照合結果の補正（Ｓ１３０２）について、図７の詳細フローチャートを参照して説明する。ここでは、認証に適していると判定されたフレームについて、登録顔画像との間で得られた最大の類似度がぎりぎり閾値以下である場合、正しく照合されたか再度判定し、最大類似度を閾値以上に引き上げる。

まず初めに、対象顔画像と各登録顔画像の類似度のうち、最大類似度を取り出す（Ｓ１４０１）。続いて、その最大類似度が所定範囲にあるかを判断する範囲判断を行う（Ｓ１４０２）。具体的には、予め定められた認証閾値に対してわずかに小さい狭い範囲を設定する。例えば類似度の値域が［０，１］であり認証閾値が０．５である場合、［０．４，０．５）の区間とするなどがよい。そして最大類似度がその範囲に入った場合、最大類似度を認証閾値以上に引き上げるかどうか判断する（Ｓ１４０３）。補正判断の方法は先ほどフレーム選択（Ｓ１３０１）で述べた方法が利用できるが、認証に適していると判定する基準をより厳しくすることが望ましい。なぜなら、対象者とは異なる登録者の類似度を認証閾値以上に引き上げることは誤認証を引き起こすことになるからであり、対象者と同じ人物の登録顔画像の類似度が最大になっていると思われるフレームのみに対して類似度を引き上げる必要があるためである。例えば、特徴点信頼度がほぼ上限値に達している場合のみ、などの判定条件を用いればよい。最後に、類似度引き上げ対象と判定された場合、最大類似度を、予め定めた所定の値にまで引き上げる（Ｓ１４０４）。その値は任意でよい。類似度の値域の最大値でもよいし、認証閾値よりわずかに高い値でもよい。

＜統合処理：類似度統合＞
図５における照合結果の統合（Ｓ１３０４）について説明する。ここでは、認証に適していると判定されたフレームの照合結果が照合結果保持部１３３０に所定数以上が蓄積された時点（Ｓ１３０３）で、各フレームから得られている登録顔画像との類似度を統合し、この対象者と最も近い登録者とその類似度を出力する。

ここで述べた所定数は、少なくとも２以上であるが、入力部１１００から取得するフレームの取得レートに依存する。撮影条件にもよるが、典型的には実時間でおおよそ２秒間から１０秒間のあいだであり、例えば３０ｆｐｓでフレームを取得する場合、６０から３００フレームであるといえる。

各フレームの類似度を統合する方法はいくつかの方法が考えられるが、以下のようにすればよい。保持しているフレームを１…ｉ…Ｍ、登録顔画像を１…ｊ…Ｎとするとき、登録者ｊに対する統合類似度Ｓ_ｊは式（１）（２）（３）（４）いずれかのように求められる。式（１）は、保持しているフレーム中の最大値である。式（２）は、保持しているフレーム中の類似度を移動平均した値の最大値である。窓幅ｗは事前に定めておくべき値であり、典型的には数フレーム分である。式（３）は、保持しているフレーム中の平均値である。式（４）は、保持しているフレーム中で認証閾値Ｔを超えている類似度の総和である。

あるいは、類似度ｓ_ｉｊ（１…ｉ…Ｍ）を入力として統合類似度Ｓ_ｊを出力するような変換器を機械学習で予め求めておいてもよい。ここでも機械学習の方法は公知のものが利用でき、回帰サポートベクターマシンなど任意のものが利用できる。最後に、対象者と最も似ている登録者とその統合類似度を、式（５）で求める。

Ｓ_ｊ＝ｍａｘ（ｓ_ｉｊ）ｉ＝１…Ｍ（１）

ｍａｘ（ｓ_ｊ）ｊ＝１…Ｎ（５）
ここで
ｓ_ｉｊ：フレームｉでの登録顔画像ｊについての類似度
Ｔ：認証閾値
である。

これまで述べた類似度統合の処理は、フレームが所定数以上蓄積された時点で実行するが、それ以降、一定数のフレームが追加で蓄積されるごとに再実行し、結果を更新することが望ましい。１フレームが追加されるごとに実行してもよいし、所定数のまとまった数のフレームが追加蓄積された時点で実行してもよい。これにより類似度の表示後に表示された類似度が順次更新される。

本実施形態では、類似度補正（Ｓ１３０２）を行ってから類似度統合（Ｓ１３０４）を行う例で説明した。逆に統合をしてから補正することも可能である。たとえば、式（１）で選択された最大の類似度が得られたフレームについて、類似度補正を行うなどが考えられる。

＜統合処理：信頼度算出＞
図５における信頼度の算出（Ｓ１３０５）について説明する。ここでは、類似度統合（Ｓ１３０４）した結果がどれほど確からしいかを表す値として信頼度を求める。これ以降、この信頼度を照合信頼度と呼ぶ。照合信頼度は、例えば以下のような基準で求めることができる。１つは、保持されているフレームの数が多いほど高い値となることが望ましい。または、フレーム選択（Ｓ１３０１）によって認証に適していると判定されたフレームの割合が高いほど高い値となる方法でもよい。さらに、検出した特徴点座標に基づいて求められる顔の平均的なサイズが大きい、あるいは平均的な特徴点信頼度が高いほど高い値となる方法も考えられる。

＜出力部＞
図１に示した出力部１４００の詳細についてここで説明する。本実施形態では、図８を交えながら、監視カメラ映像をリアルタイムで目視確認できるディスプレイに認証結果を重畳表示する例を述べる。説明を簡便にするため、対象者がひとりだけ、カメラに接近して通過するシーンを例にとる。図中（ａ）から（ｄ）に向かって時刻が進み、対象者がカメラに接近してくる。（ａ）および（ｂ）の時点で対象者の通過を検出している旨の枠は表示するが、誰であるかはまだ表示しない。そして（ｃ）の時点で対象者が登録者のうち誰とどの程度似ているか、またその判定結果の信頼度を初めて表示する。（ｄ）の時点で得られたフレームが（ｃ）から増えたため類似度統合を改めて実行し、その結果を表示する。また、信頼度も表示を更新する。図中では（ｃ）から判定結果を表示したが、どの時点から判定結果をすればよいかは任意であり、例えば以下のような基準で決めることができる。所定フレーム数の照合結果を統合できた時点、あるいは照合信頼度が所定値を超えた時点などがある。

なお、（ａ）および（ｂ）の時点で認証結果を重畳表示しない例を説明したが、（ａ）および（ｂ）の時点でも結果を表示する方法として、出力部１４００が表示するカメラ映像自体を現実より数秒間の時間差をおいて再生すればよい。例えば図８でいう２コマだけカメラ映像の表示を遅らせて、現実の（ｃ）の時点で信頼できる認証結果が得られた段階で（ａ）のカメラ映像の上に（ｃ）の時点での認証結果を重畳表示する。そうすると、あたかも対象者が画面に現れた段階で認証できているように表示でき、どのタイミングで映像を見ても認証結果を確認できるようになる。

＜実施形態１の要点＞
本実施形態１の構成の説明は以上である。ここでは、実施形態１の要点を述べる。

非協力型の顔認証では、人物が協力はおろかカメラの存在を意識すらしないため、人物が自由に行動している最中に認証する必要がある。その制約下で得られた映像では、認証に適切でない条件の顔画像が一部含まれている。したがって、映像に人物が現れてから直ちに認証できない、または認証結果を拙速に表示しても、後のタイミングで異なる認証結果が得られてしまった場合には表示内容を直前から変更してユーザを混乱させてしまう可能性があり。本実施形態によれば、複数フレームを取得して認証に適した条件の顔画像が得られるまで待ち、その適した顔画像だけを照合して信頼できる結果が得られるまでユーザへの結果の表示を待つことになる。表示が数秒間遅れるデメリットはあるが、ユーザは正しい認証結果だけを目にする確率が高まるメリットがある。

（実施形態２）
実施形態１では簡便のため、入力部１１００が１つのカメラである例を説明したが、本発明はこの形態に限定されるものではない。そこで本実施形態では、複数のカメラを同時に用いる例を説明する。特に、人物が自由に行動している最中に認証する必要がある制約下では、人物がたった１つだけのカメラの正面を常に向いているとは限らない。異なる複数の場所から撮影することで、いずれかのカメラで認証できることを期待する。

なお重複を避けるため、以下の説明においては、実施形態１と共通する部分は省略している。本実施形態に記されていない各部の機能は実施形態１と同一であるため、各部の説明は実施形態１を参照されたい。

＜全体の構成＞
図９は、本実施形態における監視カメラシステム１０００のブロック図である。この図に従って、実施形態１との差異を詳細に述べる。本実施形態では入力部１１０１、入力部１１０２のふたつの監視カメラを備える。カメラの配置は任意であるが以下のようにすればよい。例えば図１０のように入力部１１０１、入力部１１０２を設置する。カメラ間で視野を共有するが、できるかぎり異なる場所から異なる向きで人物を撮影するようにするのが望ましい。今回は実施形態１と同様に、広間に対象者がひとりだけ存在して、その対象者を処理する例で説明するが、広間に複数人物がいる場合も考えられる。その場合、入力部１１０１と入力部１１０２から抽出したそれぞれの対象者の顔画像が同じ人物であることを対応付ける必要がある。そのためには、予めカメラの設置位置を校正しておき、対象顔画像を抽出した位置から人物を対応付けられるようにすることが望ましい。

＜認証処理：概要＞
図２の全体フローチャートで実施形態１との差異を述べる。それぞれの入力部１１０１、１１０２について、独立してフレームの取得（Ｓ１１０１）から照合（Ｓ１１０５）まで行ったあと、入力部１１０１、１１０２のそれぞれから得られた照合結果を統合（Ｓ１１０７）する。以降、統合処理の詳細について説明する。

＜統合処理：概要＞
ここでは、図２における照合結果の統合（Ｓ１１０７）を詳細化したフローチャートである図５の各ステップについて、実施形態１との差異を示す。まず、それぞれの入力部１１０１および１１０２について独立して、フレームから抽出した対象顔画像が認証に適した条件であるか判定する処理（Ｓ１３０１）および照合結果を補正する処理（Ｓ１３０２）を行う。これらの処理は、それぞれの入力部１１０１および１１０２について独立して実施形態１と同様に行う。その一方で、照合結果が所定フレーム数以上得られたかどうか判定（Ｓ１３０３）、照合結果の統合（Ｓ１３０４）および信頼度の算出（Ｓ１３０５）は、両方の入力部から得られた照合結果を合わせて行う。これについて詳細に説明する。

＜統合処理：照合結果が所定フレーム数以上得られたかどうか判定＞
図５の認証に適した条件であるか判定する処理（Ｓ１３０３）について実施形態１との差異を説明する。本実施形態での所定数とは、それぞれの入力部１１０１、１１０２から得られた照合結果を合わせた数である。それは具体的には例えば合計数でもよいし、多い方の数でもよい。

＜統合処理：類似度統合＞
図５の照合結果の統合（Ｓ１３０４）について実施形態１との差異を説明する。統合類似度を算出する方法は、実施形態１で述べた方法をそのまま利用できる。カメラ１…ｈ…Ｌ、保持しているフレームを１…ｉ…Ｍ、登録顔画像を１…ｊ…Ｎとするとき、登録者ｊに対する統合類似度Ｓ_ｊは式（６）（７）（８）（９）いずれかのように求められる。実施形態１との差異は、両カメラから得られた類似度をまとめて処理することである。

Ｓ_ｊ＝ｍａｘ（ｓ_ｈｉｊ）ｈ＝１…Ｌｉ＝１…Ｍ（６）

ここで
ｓ_ｈｉｊ：カメラｈフレームｉでの登録顔画像ｊについての類似度
Ｔ：認証閾値
である。

＜統合処理：信頼度算出＞
図５の信頼度の算出（Ｓ１３０５）について実施形態１との差異を説明する。ここでは実施形態１と同様に、求めた統合結果がどれほど確からしいかを表す値を求める。本実施形態では実施形態１で説明した基準が利用できるとともに、それぞれの入力部から得られた照合結果の数が多いほど高い照合信頼度を求めることが望ましい。なぜなら異なる位置から撮影した映像はそれぞれを補完する異なる情報を持っており、そのような情報が多く得られていることは、正しく照合できることにつながるといえるためである。

＜出力部＞
図１に記した出力部１４００の詳細について実施形態１との差異を説明する。実施形態１と同様に監視カメラ映像をリアルタイムで目視確認するディスプレイに結果を重畳表示する例で説明する。入力部１１０１、入力部１１０２に対応するディスプレイがそれぞれ存在する場合は、それぞれに対して、実施形態１と同じ方法で結果を表示すればよい。入力部１１０１、入力部１１０２についてディスプレイがひとつしかない場合は以下のように表示すればよい。例えば、対象者について信頼できる照合結果が最初に得られた段階で、入力部１１０１と入力部１１０２のうち、認証に適していると判定されたフレームが多い方の映像をディスプレイに表示する。そして、対象者が通過してフレームから見えなくなるまで、その入力部の映像を表示すればよい。

実施形態２は以上である。なお、言うまでもないが、ここで説明した方法で３つ以上の監視カメラを用いることも可能である。

（実施形態３）
実施形態１では、図５における認証に適した条件であるか判定する処理（Ｓ１３０１）および照合結果を補正する処理（Ｓ１３０２）で、現在処理しているフレームから得られた情報のみを利用して判定する方法を述べた。また、照合結果保持部１３３０に複数のフレームに対応する結果が保持されていることも既に述べてある。そこで本実施形態では、照合結果保持部１３３０に保持されている過去フレームの情報も併せて参照して判定する方法を述べる。映像中に映る人物は主に歩いている・座って休んでいるなどだと考えられる。行動や姿勢は過去から引き続き近い状態である可能性が高いため、過去から現在に至る情報を利用することで判定の確度を上がられることが期待できる。

なお重複を避けるため、以下の説明においては、前実施形態と同じ部分は省略している。本実施形態に記されていない各部の機能は実施形態１と同一であるため、各部の説明は実施形態１を参照されたい。

＜統合処理：フレーム選択＞
図５における認証に適した条件であるか判定する処理（Ｓ１３０１）について実施形態１との差異を説明する。実施形態１では、現在のフレームから得られた対象顔画画像の特徴点信頼度の値などに基づいて判定することを述べた。本実施形態では、過去から現在まで蓄積されている対象顔画像の特徴点信頼度を用いる。例えば、特徴点信頼度の最大値が所定の値を超えている場合、平均値が所定の値を超えている場合などに、認証に適していると判定できる。

また一方、実施形態の図６に示したように、判定器を機械学習する方法も本実施形態で利用できる。図１１のように、現在のフレームの情報だけでなく、過去の情報も併せて入力する判定器を機械学習すればよい。図１１の例では、過去も含めて３フレームの情報を用いて判定する例を説明したが、もちろんそれより長時間の情報を使って判定してもよい。

＜統合処理：類似度補正＞
図７のフローチャートにおける類似度を引き上げるかを判定する処理（Ｓ１４０３）について、実施形態１との差異を説明する。本実施形態で述べた＜統合処理：フレーム選択＞の方法が同様に利用できる。

（その他の実施形態）
図１２は、実施形態における画像処理装置のハードウェア構成を示すブロック図である。同図において、ＣＰＵ１２０１は、バス１２０６を介して接続する各デバイスを統括的に制御する。ＣＰＵ１２０１は、読み出し専用メモリ（ＲＯＭ）１２０２に記憶された処理ステップやプログラムを読み出して実行する。オペレーティングシステム（ＯＳ）をはじめ、本実施形態に係る各処理プログラム、デバイスドライバ等はＲＯＭ１２０２に記憶されており、ランダムアクセスメモリ（ＲＡＭ）１２０３に一時記憶され、ＣＰＵ１２０１によって適宜実行される。また、ＲＡＭ１２０３は、各種データの一時保存領域として用いることができる。特に、各種の画像処理において参照するパラメータやテーブルを記憶するメモリとしては、ＳＲＡＭが好適である。また、入力Ｉ／Ｆ１２０４は、外部の装置（表示装置や操作装置など）から画像処理装置で処理可能な形式で入力信号を入力する。また、出力Ｉ／Ｆ１２０５は、外部の装置（表示装置など）へその装置が処理可能な形式で出力信号を出力する。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０００監視カメラシステム
１１００入力部
１２００登録データ保持部
１３００認証部
１４００出力部

Claims

時系列で入力された同一人物の複数の入力顔画像を取得する取得手段と、
複数人物のそれぞれの顔画像情報が登録された記憶手段と、
前記複数の入力顔画像の１つと前記登録された複数人物のそれぞれの顔画像情報とを照合して類似度を求める照合手段と、
前記複数の入力顔画像のそれぞれが認証に適しているかを判定する判定手段と、
前記判定手段により２以上の入力顔画像が認証に適していると判定された場合に、当該２以上の入力顔画像のそれぞれと前記登録された顔画像情報との類似度を統合する統合手段と
統合された前記類似度に基づいて前記入力顔画像に対応する人物を認証する認証手段とを備えることを特徴とする画像処理装置。
顔画像から特徴点を検出する検出手段と、
前記特徴点に基づいて前記顔画像から特徴量を抽出する抽出手段とをさらに備え、
前記照合手段は、前記特徴量に基づいて前記類似度を求めることを特徴とする請求項１に記載の画像処理装置。
前記記憶手段には顔画像情報として顔画像が登録されており、
前記照合手段は、前記抽出手段により前記入力顔画像と登録された顔画像のそれぞれから特徴量を抽出し、当該抽出されたそれぞれの特徴量の類似度を求めることを特徴とする請求項２に記載の画像処理装置。
前記記憶手段には顔画像情報として顔画像の特徴量が登録されており、
前記照合手段は、前記抽出手段により前記入力顔画像から特徴量を抽出し、当該抽出された特徴量と登録されている特徴量との類似度を求めることを特徴とする請求項２に記載の画像処理装置。
前記検出手段はさらに、前記検出された特徴点の信頼度を算出し、
前記判定手段は、前記検出された特徴点の信頼度に基づいて前記入力顔画像が認証に適しているかを判定することを特徴とする請求項２に記載の画像処理装置。
前記判定手段は、前記入力顔画像と前記登録顔画像との類似度に基づいて当該入力画像が認証に適しているか判定することを特徴とする請求項２に記載の画像処理装置。
前記入力顔画像と前記登録顔画像との類似度に基づいて、当該類似度を補正する補正手段をさらに備え、
前記統合手段は、前記補正手段により補正された類似度を統合することを特徴とする請求項１に記載の画像処理装置。
前記認証手段は、前記類似度に対する閾値に基づいて認証を行い、
前記補正手段は、前記類似度を前記閾値以上に引き上げることを特徴とする請求項７に記載の画像処理装置。
前記入力顔画像と前記登録顔画像のそれぞれとの類似度のうち最大の類似度が所定の範囲にあるかを判断する範囲判断手段と、
前記最大の類似度が所定の範囲にある場合に、当該最大の類似度を前記閾値以上に引き上げるかを判断する補正判断手段とを備えることを特徴とする請求項８に記載の画像処理装置。
顔画像から特徴点を検出し、該特徴点の信頼度を算出する検出手段と、
前記特徴点に基づいて前記顔画像から特徴量を抽出する抽出手段とをさらに備え、
前記照合手段は、前記特徴量に基づいて前記類似度を求め、
前記補正判断手段は、前記信頼度に基づいて前記最大の類似度を前記閾値以上に引き上げるかを判断することを特徴とする請求項９に記載の画像処理装置。
前記範囲判断手段は、前記所定の範囲を前記閾値に基づいて設定することを特徴とする請求項１０に記載の画像処理装置。
前記入力顔画像とともに前記統合された類似度を表示する表示手段をさらに備えることを特徴とする請求項１に記載の画像処理装置。
前記表示手段は、前記判定手段により適していると判定された入力顔画像が所定数以上となった後で前記統合された類似度を表示することを特徴とする請求項１２に記載の画像処理装置。
前記表示手段は、前記統合された類似度を表示後に、前記判定手段により適していると判定された入力顔画像がさらに一定数だけ追加されるごとに前記統合された類似度を更新して表示することを特徴とする請求項１３に記載の画像処理装置。
前記統合された類似度の信頼度を算出する算出手段をさらに備え、
前記表示手段は、前記入力顔画像とともに前記統合された類似度及び該類似度の信頼度を表示することを特徴とする請求項１２に記載の画像処理装置。
前記表示手段は、前記類似度の信頼度が所定値を越えた以降に、前記統合された類似度を表示することを特徴とする請求項１５に記載の画像処理装置。
時系列で入力された同一人物の複数の入力顔画像を取得する取得工程と、
前記複数の入力顔画像の１つと登録された複数人物のそれぞれの顔画像情報とを照合して類似度を求める照合工程と、
前記複数の入力顔画像のそれぞれが認証に適しているかを判定する判定工程と、
前記判定工程により２以上の入力顔画像が認証に適していると判定された場合に、当該２以上の入力顔画像のそれぞれと前記登録された顔画像情報との類似度を統合する統合工程と
統合された前記類似度に基づいて前記入力顔画像に対応する人物を認証する認証工程とを備えることを特徴とする画像処理方法。
コンピュータを請求項１乃至１６のいずれか１項に記載の画像処理装置の各手段として機能させることを特徴とするプログラム。