JP5768265B2 - 類似画像検索システム - Google Patents

類似画像検索システム Download PDF

Info

Publication number
JP5768265B2
JP5768265B2 JP2014516868A JP2014516868A JP5768265B2 JP 5768265 B2 JP5768265 B2 JP 5768265B2 JP 2014516868 A JP2014516868 A JP 2014516868A JP 2014516868 A JP2014516868 A JP 2014516868A JP 5768265 B2 JP5768265 B2 JP 5768265B2
Authority
JP
Japan
Prior art keywords
face
search
image
unit
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014516868A
Other languages
English (en)
Other versions
JPWO2013176263A1 (ja
Inventor
平井 誠一
誠一 平井
小倉 慎矢
慎矢 小倉
新保 直之
直之 新保
洋登 永吉
洋登 永吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Kokusai Electric Inc
Original Assignee
Hitachi Kokusai Electric Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Kokusai Electric Inc filed Critical Hitachi Kokusai Electric Inc
Priority to JP2014516868A priority Critical patent/JP5768265B2/ja
Application granted granted Critical
Publication of JP5768265B2 publication Critical patent/JP5768265B2/ja
Publication of JPWO2013176263A1 publication Critical patent/JPWO2013176263A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、映像監視システムに関わり、特に、画像特徴量を使って画像検索する類似画像検索システムに関する。
従来から、ホテル、ビル、コンビニエンスストア、金融機関、ダムや道路といった不特定多数の人が訪れる施設には犯罪抑止や事故防止等の目的で、映像監視システムが設置されている。このような映像監視システムでは、監視対象の人物等をカメラ等の撮像装置で撮影し、撮影された映像を、管理事務所や警備室等の監視センタに伝送し、常駐する監視者がそれを監視し、目的や必要に応じて、注意を喚起する、あるいは映像を記録するものである。
映像監視システムでの映像の記録において、記録媒体として、従来のビデオテープ媒体から、ハードディスクドライブ(HDD:Hard Disk Drive)に代表されるランダムアクセス媒体が用いられる事例が増えている。さらに近年では、このような記録媒体の大容量化が進んでいる。記録媒体の大容量化によって、記録できる映像の量は飛躍的に増大し、より多地点の記録や長時間の記録を可能にしつつある。反面、記録された画像を目視でチェックする負担の増加が問題として顕在化しつつある。
このような背景から、所望の映像をより簡単に見つけ出す為の検索機能を備える映像監視システムが普及しつつある。特に近年では、映像中の特定の事象(イベント)の発生を、画像認識技術を用いてリアルタイムに自動検知し、映像と共に記録し、事後にそれらのイベントを検索可能とする、より高度な検索機能を備えたシステムが登場しつつある。その中の代表的なシステムの1つに、類似顔画像検索機能を備えた類似顔画像検索システムがある。
類似顔画像検索機能とは、監視映像中への人物の出現をイベントとして検索可能とし、さらには、該イベントの内、ユーザが指定した特定個人の登場を、顔の画像特徴量を用いて検索する機能である。
図1は、従来の類似顔画像検索機能を備えた映像監視システムの構成の一例を示す図である。以降、「類似顔画像検索機能を備えた映像監視システム」を「類似画像検索システム」と称する。図1のシステムは、ネットワーク150に、撮像装置101、録画装置102、検索装置103、及び端末装置104が接続され、互いに通信可能な状態で構成される。
ネットワーク150は、各装置を相互に接続し、データ通信を行う専用線やイントラネット、インターネット、無線LAN(Local Area Network)等の通信線である。
撮像装置101は、CCD(Charge Coupled Device)やCMOS(Complementary Met al Oxide Semiconductor)素子等で撮像した画像にホワイトバランス等の映像処理を施した画像データを、ネットワーク150へ出力するネットワークカメラや監視カメラ等の装置である。
録画装置102は、ネットワーク150を介して入力された画像データをHDD等の記録媒体に記録し、また、外部装置からの要求に応じて、記録媒体に記録された画像データをネットワーク150へ出力するネットワークデジタルレコーダ等の装置である。
検索装置103は、ネットワーク150を介して入力された画像データ中の顔を検出し、その顔に関わる情報をHDD等の記録媒体に記録し、また、外部装置からの要求に応じて、記録媒体に記録された顔に関わる情報を検索し、検索結果をネットワーク150へ出力するサーバやPC(Personal Computer)等の装置である。
端末装置104は、ネットワーク150を介して入力された画像データや検索結果を、液晶ディスプレイやCRT(Cathode Ray Tube)等のモニタに画面表示し、キーボードやマウス等を備え、録画画像の再生操作や人物検索の実行操作を行う操作インタフェースを提供するデスクトップPC等の装置である。
図2によって、従来の検索装置103の構成と処理動作の一例を説明する。図2は、従来の検索装置103の構成の一例を示す図である。検索装置103は、顔登録処理グループ221、顔検索処理グループ222、及び、顔特徴量データベース205によって構成される。
顔登録処理グループ221は、画像入力部201、顔検出部202、顔特徴量算出部203、及び顔特徴量記録部204によって構成される。また、顔検索処理グループ222は、画像入力部211、顔検出部212、顔特徴量算出部213、顔特徴量検索部214、及び検索結果出力部215によって構成される。
図2において、顔登録処理グループ221の処理では、画像入力部201は、撮像装置101や録画装置102から入力された監視画像データの受信処理を行う。監視画像データ、即ち、検索対象画像の画像データは、常時、若しくは、別途、指示や設定があった時間期間に入力される。画像入力部201は、入力された画像データを顔検出部202に出力する。
顔検出部202は、画像入力部201から入力された画像データに対し、顔検出を行い、顔検出結果を出力する処理を行う。ここで顔検出結果とは、画像中の顔の存在有無情報であり、存在する場合には、その検出数や画像内における顔領域の位置座標、顔画像等も顔検出結果に含まれる。顔検出は、例えば、眼、鼻、口等の顔の主要構成要素の配置や額と眼の濃淡差等の顔の特性を使って画像内探索を行う方法等の画像認識技術により行うが、本例においてはいずれの方法であっても良い。顔画像は、画像入力部201からの画像データから顔を含む矩形状に切り出された画像であり、固定されたアスペクト比を有し、顔以外の背景は既定の色で塗りつぶされることが望ましい。顔検出部202は、この顔検出結果を顔特徴量算出部203に出力する。
顔特徴量算出部203は、顔検出部202から入力された顔検出結果に含まれる顔画像を用いて、顔の特徴量算出処理を行い、算出した顔特徴量を出力する処理を行う。ここで顔特徴量とは、ベクトルであり、例えば、細分化された顔のそれぞれの輪郭或いはエッジのパターンの度数分布、目や鼻や口といった顔の主要構成要素の大きさや形状及びそれらの配置関係、頭髪や皮膚の色分布、それらの組合せ等々が挙げられる。使用する特徴量の種類や成分数は、いずれであっても良い。
顔特徴量算出処理には、例えば、特許文献3や非特許文献1に開示された方法等を用いる。顔特徴量算出部203は、入力された顔検出結果の検出数に応じて処理を繰返す。顔特徴量算出部203は、算出した顔特徴量を、顔検出結果と共に、顔特徴量記録部204に出力する。
顔特徴量記録部204は、顔特徴量算出部203から入力された画像データ、顔検出結果、及び顔特徴量を、顔特徴量データベース205に書込む処理を行う。
本処理部は、入力された顔検出結果の検出数に応じて処理を繰返す。
次に、顔検索処理グループ222の処理では、画像入力部211は、端末装置104から入力された検索キー画像データを受信する。画像入力部211は、端末装置104上でのユーザの検索指示操作に基づく検索要求があった場合に、検索キー画像データの入力を実施する。画像入力部211は、入力された画像データを顔検出部212に出力する。
顔検出部212は、画像入力部211から入力された画像データに対し、顔検出を行う。顔検出部212が算出する顔検出結果や算出方法は、顔検出部202が算出する顔検出結果と同様に、画像中の顔の存在有無情報である。
顔検出部212は、算出した顔検出結果を、画像データと共に、顔特徴量算出部213に出力する。
顔特徴量算出部213は、顔検出部212から入力された顔検出結果に含まれる顔画像を用いて、顔特徴量算出部203と同じ方法で顔の特徴量算出処理を行い、算出した顔特徴量を出力する。顔特徴量算出部213は、算出した顔特徴量を、画像データ及び顔検出結果と共に、顔特徴量検索部214に出力する。
顔特徴量検索部214は、顔特徴量算出部213から入力された顔特徴量を、顔特徴量データベース205と照合し、顔類似度の高い顔をリストアップし、検索結果として出力する。顔類似度とは、顔特徴量同士の近さを示す数値である。顔類似度として、例えば、多次元から成る顔特徴量空間におけるユークリッド距離を用いた場合、類似度の値が小さい(0に近い)ほど類似していることを意味するが、このことを「類似度が高い」と表現する。顔特徴量検索部214は、検索結果を、検索結果出力部215に出力する。この検索結果は、見つかった顔の顔特徴量、類似度、及び画像データ等を含む。
検索結果出力部215は、顔特徴量検索部214から入力された検索結果を、端末装置104に出力する。
顔特徴量算出処理に関する技術としては、上述した非特許文献1の記載の他に、例えば、特許文献1や特許文献2等にも記載がある。
特開2009−43065号公報 特許第4653606号公報 特許2012−221148号公報 特許2008−217220号公報
廣池敦他、「大規模な画像集合のための表現モデル」、日本写真学会誌、2003年66巻1号、P93−P101
上述の類似顔画像検索機能は、録画装置などに記録された膨大な映像中から、特定個人の人物映像を探す目的において、大変便利である。しかしながら、現状の類似顔画像検索においては、用いる画像特徴量が、撮影角度の差異や各時での顔の向き等の見かけの顔角度によって影響されるものであるため、単一人物の画像特徴量の分布に広がりが生じ、その分布には偏りを伴う。その結果、出力される検索結果にも偏りが生じてしまう傾向にある。
即ち、正面に映った顔画像を検索キー画像にした場合、検索結果として見付かる録画画像も正面顔画像が多く、同様に斜めに映った顔画像を検索キー画像にした場合、検索結果として見付かる録画画像も近傍角度の斜め顔画像が多い。言い換えると、正面顔画像を検索キー画像にすると、同一人物であっても斜め顔画像を探し損ねる可能性が高く、逆も同様であるということである。また、逆に、本当は他人である人物を誤ってキー画像の人物本人であると判定してしまうこともあり、検索精度、即ち、検索結果に含まれる本人の割合も低いものとなってしまう。
類似顔画像検索システムにおける人物と撮像装置の関係は、ドアの開閉等に使われる一般的な顔認証システムにおけるそれと異なり、人物に撮像装置を意識させない関係である。従って、撮像される顔は、より多様な角度である場合が多く、前記課題の解消は欠かせない。
本発明は、このような状況に鑑みてなされたものであり、上述の課題を解決し、より高精度な類似画像検索システムを提供することを目的とする。
上記目的を達成するために本発明の類似画像検索システムは、検索対象画像を入力する第1の画像入力手段と、入力された検索対象画像から第1の顔を検出する第1の顔検出手段と、検出された第1の顔の特徴量を算出する顔特徴量算出手段と、算出された顔特徴量を記録するデータベース記録手段と、検索のためのキー画像を入力する第2の画像入力手段と、入力されたキー画像から第2の顔を検出する第2の顔検出手段と、検出された第2の顔の顔角度を算出する顔角度算出手段と、算出された顔角度によって合成パターンを決定する合成パターン決定手段と、決定された合成パターンに応じて合成顔画像を生成する合成顔生成手段と、生成された合成顔画像を用いて第2の顔の特徴量を算出する第2の顔特徴量算出手段と、前記決定された前記合成パターンの数に応じて、前記合成顔生成手段と前記顔特徴量算出手段を繰り返し、算出された複数個の顔特徴量をクエリとして、データベースから検索を行う顔特徴量検索手段と、検索された複数個の検索結果を統合する検索結果統合手段と、を設けたことを第1の特徴とする。
また上記目的を達成するために本発明の類似画像検索システムは、検索対象画像を入力する第1の画像入力手段と、入力された検索対象画像から第1の顔を検出する第1の顔検出手段と、検出された第1の顔の顔角度を算出する第1の顔角度算出手段と、前記検出された第1の顔の特徴量を算出する第1の顔特徴量算出手段と、算出された顔角度によって記録先データベースを決定する記録先データベース決定手段と、算出された第1の顔特徴量を決定された記録先データベースに記録するデータベース記録手段と、検索のためのキー画像を入力する第2の画像入力手段と、入力されたキー画像から第2の顔を検出する第2の顔検出手段と、検出された第2の顔の顔角度を算出する顔角度算出手段と、算出された顔角度によって合成パターンを決定する合成パターン決定手段と、決定された合成パターンに応じて合成顔画像を生成する合成顔生成手段と、生成された合成顔画像を用いて第2の顔の特徴量を算出する第2の顔特徴量算出手段と、前記算出された前記顔角度によって検索先データベースを決定する検索先データベース決定手段と、前記決定された前記合成パターンの数に応じて、前記合成顔生成手段と前記第2の顔特徴量算出手段と前記検索先データベース決定手段を複数回実施し、算出された複数個の顔特徴量をクエリとして、前記データベースから検索を行う顔特徴量検索手段と、検索された複数個の検索結果を統合する検索結果統合手段と、を設けたことを第2の特徴とする。
上記本発明の第2の特徴の類似画像検索システムにおいて、前記顔角度算出手段は、入力顔に対する顔角度特徴量算出手段と、既知角度の顔に対する顔角度特徴量が顔角度情報とともに予め格納されているデータベースと、前記顔角度特徴量算出手段で求めた顔角度特徴量をクエリとして、前記データベースから検索を行う顔角度検索手段と、を設けたことを本発明の第3の特徴とする。
また、上記本発明の第2の特徴の類似画像検索システムにおいて、前記合成パターン決定手段は、前記顔角度算出手段の算出結果の確からしさを使い、その第2候補以降の確からしさを有する顔角度も用いることを本発明の第4の特徴とする。
本発明によれば、検索の精度及び信頼性が改善された類似画像検索システムを構築することが可能となる。
従来の類似顔画像検索システムの構成の一例。 従来の検索装置の構成の一例。 本発明を含む第1の実施形態における類似顔画像検索システムの構成。 第1の実施形態における検索装置303の構成。 合成前顔角度、合成先顔角度、変形モデルを、テーブル形式で格納した一例。 第1の実施形態における顔登録処理の流れ。 第1の実施形態における顔検索処理の流れ。 顔特徴量算出部203が利用する特許文献1の顔特徴量の算出法。 第2の実施形態における検索装置803の構成。 第2の実施形態における顔登録処理の流れ。 第2の実施形態における顔検索処理の流れ。 本発明を含む第3の実施形態における類似顔画像検索機能を備えたシステムの構成。 第3の実施形態における顔登録処理の流れ。 第3の実施形態における端末装置が表示する画面の一例。 端末装置の画面に現れる検索キー画像指定領域の拡大図。 端末装置の画面に現れる検索キー画像指定領域の拡大図。 端末装置の画面に現れる検索キー画像指定領域の拡大図。 検索キー画像指定領域を用いた検索キー画像指定操作における通信シーケンスの一例。
以下に本発明の一実施形態について、図面等を用いて説明する。なお以下の説明は、本発明の一実施形態を説明するためのものであり、本願発明の範囲を制限するものではない。従って、当業者であればこれらの各要素若しくは全要素をこれと均等なものに置換した実施形態を採用することが可能であり、これらの実施形態も本願発明の範囲に含まれる。なお、従来の技術として説明した図1及び図2を含め、各図の説明において、同一の機能を有する構成要素には同一の参照番号を付し、冗長な説明を省略する。
本発明の第1の実施形態について、以下に説明する。
図3に、本発明の第1の実施形態における類似顔画像検索システムの装置構成の一例が示される。図3のシステムは、ネットワーク150に、撮像装置101、録画装置102、検索装置303、及び端末装置104が接続され、互いに通信可能な状態で構成される。図3の装置構成において、図1の装置構成と異なる点は、検索装置103の替りに、検索装置303を設けたことである。
検索装置303は、本発明の類似画像検索システムにおける類似画像検索装置を含む装置である。検索装置303は、ネットワーク150を介して入力された画像データ中の顔を検出し、その顔に関わる情報をHDD等の記録媒体に記録し、また、外部装置からの要求に応じて、記録媒体に記録された顔に関わる情報を検索し、検索結果をネットワーク150へ出力するサーバPC等の装置である。外部装置は、例えば検索装置303や端末装置104が想定されるが、それ他の、検索装置303とネットワーク150を介して通信可能な、或いは、他のインタフェースを介して直接接続されるあらゆる装置を含む。
図4に、本発明の第1の実施形態における検索装置303の構成の一例が示される。
検索装置303は、顔登録処理グループ221、顔検索処理グループ422、及び、顔特徴量データベース205によって構成される。また、顔検索処理グループ422は、画像入力部211、顔検出部212、顔角度算出部411、合成パターン決定部412、合成顔生成部413、顔特徴量算出部213、顔特徴量記録部214、及び検索結果統合出力部415によって構成される。
図4において、顔登録処理グループ221の処理は、図2で説明した通りである。
また、顔検索処理グループ422の処理は、顔角度算出部411、合成パターン決定部412及び合成顔生成部413が追加されたことを除けば、図2の顔検索処理グループ222の処理と同じである。
顔角度算出部411は、顔検出部212から入力された少なくとも1つの顔検出結果を用いて、顔角度を算出し、顔角度算出結果として出力する。ここでいう、顔角度算出結果には、入力された顔の顔角度(即ち、水平方向、垂直方向、及び回転方向のそれぞれの角度)と、その確からしさのセットを、少なくとも1つ含んで構成される。
本例の顔角度算出部411の内部は、顔角度特徴量算出部416と顔角度特徴量データベース417、顔角度特徴量検索部418によって構成される。顔角度特徴量データベース417には、多様な顔の多様な角度に対して予め求めておいた、顔角度特徴量の顔角度が、予め格納されている。
顔角度特徴量算出部416は、入力された顔検出結果に含まれる顔画像から、まず、顔角度算出に必要な特徴量を算出する。ここで算出する特徴量は、例えば、顔の重心に対する目や口の相対位置や、両目の間隔や、目頭と口との距離等の顔の向き(以下、「顔の向き」を「顔向き」と記載する)によって差異が生じる特徴量である。
次に、顔角度特徴量検索部418は、顔角度特徴量算出部416が算出した顔角度特徴量を、顔角度特徴量データベース417と照合して、近傍の特徴量を持つ顔角度を数個探し出し、その特徴量と入力画像の特徴量との距離即ち類似度を、その顔角度の確からしさ度とする。そして、顔角度特徴量検索部418は、顔角度と、確からしさ度を、入力された顔画像データ等と共に、顔角度算出結果として、合成パターン決定部412に出力する。なお、出力が含む顔角度の個数は、予め決めた数でも良いが、入力画像の特徴量との最短距離を所定数倍した距離の内にある複数の特徴量の顔角度に絞ると良い。
なお、顔角度算出部411は、顔角度特徴量データベース417に拠らずに、Joint Haar-like特徴量等を用いて、顔角度を直接表す数値を得ても良い。また、顔検出部212が対応するHaar-like識別器を有していれば、その値を流用してよく、顔角度算出部411自体を顔検出部212に内蔵しても良い。
合成パターン決定部412は、顔角度算出部411から入力された顔角度算出結果を用いて、既定の複数の合成先顔角度となるように合成顔生成の合成パターンをそれぞれ決定する。この合成パターンは、合成先顔角度と合成に必要な変形モデルのセットである。変形モデルは、3次元空間での視点変換を、2次元の画像上で擬似的に行うためのモデルであり、変形ベクトル(顔角度の変更による、顔画像上の着目画素の移動ベクトル)の集合体(2次元配列)で表現される。変形モデルは、合成前顔角度と、合成先顔角度の組合せの数だけ、機械学習等により事前に求めて保持しておく。
図5に、変形モデルや合成先顔角度のテーブル形式で格納した一例が示される。左の列501は、合成前顔角度を格納する欄の集合である。欄510には、合成前顔角度が水平20度、垂直10度、及び回転0度であることを示すデータが格納される。その下の欄511には、合成前顔角度が水平20度、垂直15度、及び回転0度であることを示している。中央の列502は、合成先顔角度を格納する欄の集合である。欄520には、合成先顔角度が水平10度、垂直10度、及び回転0度であることを示すデータが格納されている。また、欄521には、合成先顔角度が水平20度、垂直0度、及び回転0度であることを示すデータが格納されている。
図5の例では、1つの合成前顔角度に対して、2つの合成先顔角度を格納している。しかし、実際には、2つ以上の多数の合成先顔角度が格納できるようにするのが良い。格納する合成先顔角度の数や角度値は、検索精度との兼合いで決定されるが、例えば、水平、垂直、回転それぞれが3つの値を取るとすると、33−1=26個の合成先顔角度が必要となる。1を減じるのは、合成前顔角度と同じ合成先顔角度の変形モデルが不要だからである。右の列503は、変形モデルを格納する欄の集合である。欄530には、変形ベクトルの集合を格納する。図5の実施例では、水平20度、垂直10度、及び回転0度の顔を、水平10度、垂直10度、及び回転0度の顔に変形するベクトルの集合の一例を示している。同様に、欄531には、水平20度、垂直10度、及び回転0度の顔を、水平20度、垂直0度、及び回転0度の顔に変形するベクトルの集合の一例を示している。このように、列502に属する欄と列503に属する欄は、同一行において1対1で対応する。
合成パターン決定部412は、入力された顔角度算出結果に含まれる顔角度を引き数として、合成先顔角度と変形モデルのセットである合成パターンを全て読み出す。ただし、合成パターン決定部412は、顔角度算出部411から入力された顔角度算出結果に含まれる件数と同一の回数、この処理を繰返し、これらの合成パターンを、顔角度算出部411からの顔角度算出結果に付け足して、合成顔生成部413に出力する。
合成顔生成部413は、合成パターン決定部412から入力された合成パターンに従い、合成顔画像を生成する。合成顔の生成は、変形モデルに含まれる変形ベクトルに従い、オリジナル顔画像の画素を、移動させることにより達成される。この合成顔生成部413では、入力された合成パターンの数と同じ回数、この処理を繰返す。合成顔生成部413は、こうして生成した1つ以上の合成顔画像を、合成パターン決定部412からの情報に付け足して、顔特徴量算出部213に出力する。
顔特徴量算出部213は、合成顔生成部413から入力された1つ以上の合成顔画像とオリジナル顔画像から、顔特徴量をそれぞれ算出する。ここで顔特徴量算出部213が算出する顔特徴量や算出方法は、顔特徴量算出部203と同じである。オリジナル顔画像を用いずに、合成顔画像を2つ以上としても良い。この顔特徴量算出部213では、入力された顔の数だけ、この処理を繰返す。顔特徴量算出部213は、こうして算出した2つ以上の顔特徴量を、顔特徴量検索部214に出力する。
顔特徴量検索部214は、顔特徴量算出部213から入力された複数の顔特徴量をクエリとして、顔特徴量データベース205から検索を行う。即ち、入力された顔特徴量の1つを顔特徴量データベース205と照合して顔類似度の高い顔を抽出し、類似度順にソートしたリストを、検索結果として出力する。この顔類似度は、図2で説明した顔類似度と同様ものである。この検索結果には、類似度の他、顔特徴量データベース205から読み出された顔特徴量やその画像データ等が含まれる。なおこの処理は、入力された顔特徴量の数と同数回、繰返される。
顔特徴量検索部214は、算出した1つ以上の検索結果を、検索結果統合出力部415に出力する。
検索結果統合出力部415は、顔特徴量検索部214から入力された2つ以上の検索結果を統合し、統合した検索結果を端末装置104に出力する。検索結果統合出力部415は、検索結果の統合を、個々の検索結果を1つにマージし、顔画像の類似度の高い順にマージすることで実施する。
次に、図6及び図7並びに図4を参照して、本実施形態の検索装置303において為される顔登録処理と顔検索処理について説明する。
検索装置303における処理は、主として「顔登録処理」と「顔検索処理」の2つの処理シーケンスにて構成される。顔登録処理は、図4の処理部グループ221にて実施される処理シーケンスであり、顔検索処理は、図4の処理グループ422にて実施される処理シーケンスである。顔登録処理と顔検索処理は、顔特徴量データベース205を共有しつつ、非同期に動作する。
図6に、検索装置303が行なう顔登録処理の流れが示される。この顔登録処理は、撮像装置101あるいは録画装置102と検索装置303との間の通信を含む。検索装置303は、撮像装置101あるいは録画装置102からの監視画像の着信をトリガとして、顔登録処理を実施する。
ステップ600では、画像入力部201が、監視画像の着信を待機する(画像受信待機)。例えば、画像入力部201は、定期的にストリーム入力バッファ等にアクセスし、監視画像が入力されたか否かを検査する。そして、画像入力部201は、監視画像の入力を検出した場合には、ステップ601の処理に進む。
ステップ601では、画像入力部201が、撮像装置101あるいは録画装置102から受信データを受信する。受信データは、画像データの他に、撮影時刻や撮影装置番号等の属性情報データを含んで構成され、画像入力部201は、必要であれば圧縮画像を復号して画像データを得る。
次に、ステップ602では、顔検出部202が、受信された画像データに対して公知の方法で顔検出を行う。顔が少なくとも1つ以上検出された場合には、ステップ603の処理を実行し、検出されなかった場合には、ステップ600の処理に戻る。
ステップ603では、顔特徴量算出部203が、ステップ602の顔検出結果に含まれる顔画像夫々に対して、顔特徴量を算出する。
ステップ604では、顔特徴量記録部204が、顔特徴量を、画像データや顔検出結果と共に特徴量データベース205に記録する。この際、ステップ601にて受信した属性情報データも併せて記録するようにしても良い。記録の完了後、ステップ600の処理に戻る。
図7には、検索装置303が行なう顔検索処理の流れが示される。顔検索処理は、端末装置104と検索装置303間の通信を含む。検索装置303は、端末装置104からの検索要求、即ち、キー画像の着信をトリガとして、顔検索処理を実施する。
ステップ700では、画像入力部211が、端末装置104からキー画像を受信するまで待機している(キー画像受信待機)。即ち、画像入力部211は、端末装置104からキー画像が入力されたか否かを検出する。そして、画像入力部211は、キー画像の入力を検出した場合には、ステップ701の処理に進む。また、キー画像の入力を検出しなかった場合には、再度ステップ700の処理を所定時間経過後に実行する。
ステップ701では、検索装置の画像入力部211が、端末装置104からキー画像等の受信データを受信する。受信データは、画像データの他に、検索範囲としたい画像撮影時刻や撮影装置番号等の検索絞込パラメータデータを含んで構成される。
次に、ステップ702では、顔検出部212が、受信された画像データに対して顔検出を行う。顔が少なくとも1つ以上検出された場合には、ステップ703の処理を実行し、検出されなかった場合には、顔が検出されなかった旨を端末装置104に送信し、ステップ700の処理に戻る。
ステップ703では、顔角度算出部411が、ステップ702の顔検出結果に含まれる顔画像に対して、顔角度算出を行う。
ステップ704では、合成パターン決定部412が、ステップ703の顔角度算出結果を用いて、合成パターンを決定する。
ステップ705では、合成顔生成部513が、ステップ704で決定された合成パターンに従い、合成顔を生成する。
ステップ706では、顔特徴量算出部213が、ステップ705で合成された合成顔画像に対する顔特徴量を算出する。
ステップ707では、顔特徴量検索部214が、ステップ706で算出された顔特徴量を用いて、顔特徴量データベース205に対して、類似検索を行う。
ステップ708では、検索結果統合出力部415が、ステップ705〜707の繰り返しにより入力された複数個の検索結果を統合する。
ステップ709では、検索結果統合出力部415が、統合した検索結果を、端末装置104に出力する。送信の完了後、ステップ700の処理に戻る。
図8に、特許文献1から引用され、本例の顔特徴量算出部203も利用する顔特徴量の算出法が模式的に示される。この算出法では、まず入力画像の多重解像度化を行なう。例えば、入力画像(本例では顔検出部202からの顔画像)に、ガウシアンぼかしと画素間引きを交互に複数回適用して、ガウシアンピラミッドとも呼ばれる低解像度の画像群402aを得る。これは、特徴量が入力画像の解像度に影響されにくくするためのものである。本例の顔画像は、任意の大きさで映った顔の領域が切り出されたものなので、多重解像度化の前に、拡大或いは縮小により既定のサイズに合わせておく。
次に、画像群402aに領域分割を適用し、画像群402bを得る。ここで分割された領域は、異なる解像度の画像間で共通である。
次に、分割された各領域を更に3×3画素の小ブロックに分割し、小ブロックの各画素値のエッジパターンを求め、出現したエッジパターンの数をカウントする。エッジパターンは既定パターン402cが数十個用意されており、それらが小ブロックと最も一致した回数が度数402dである。このようにした算出した、画像群402bの全ての小ブロックの全ての度数402dを要素とする、数千次元のベクトルが、元始の特徴量である。実際には、元始特徴量に所定の行列(疎行列が望ましい)を掛け算して、低次元化したものを、特徴量として用いる。行列は、PCA(主要因分析)やLDA(線形判別分析)等の手法により得られる。
第1の実施形態の類似画像検索システムでは、内部的には、合成パターン決定部412にて決定された合成パターン数回の検索が繰り返えされるものであった。
以下に説明する第2の実施形態は、顔角度に応じて顔特徴量を振り分けてデータベースに登録することで、検索回数の問題を改善したものである。本発明を含む第2の実施形態における類似顔画像検索システムの構成は、検索装置303に代えて検索装置803を備えた点を除き、第1の実施形態と同じである。
図9に、第2の実施形態における検索装置803の構成の一例が示される。
検索装置803は、顔登録処理グループ921、顔検索処理グループ922、及び、顔角度別顔特徴量データベース群905によって構成される。顔登録処理グループ921は、画像入力部201、顔検出部202、顔角度算出部911、顔特徴量算出部203、顔特徴量記録先決定部901、及び顔角度別顔特徴量記録部902によって構成される。また、顔検索処理グループ922は、画像入力部211、顔検出部212、顔角度算出部912、合成パターン決定部913、合成顔生成部914、顔特徴量算出部213、顔特徴量検索先決定部915、顔角度別顔特徴量検索部916、検索結果統合出力部917によって構成される。
顔登録処理グループ921において、画像入力部201及び顔検出部202は、図2または図4と同様である。ただし、本実施例では、顔検出部202は、検出した顔検出結果を、画像データと共に、顔角度算出部911に出力する。
顔角度算出部911は、顔検出部202から入力された顔検出結果を用いて、顔角度を算出する。顔角度算出結果には、入力された顔の顔角度(即ち、水平方向、垂直方向、及び回転方向のそれぞれの角度)と、その確からしさ度をセットとして、少なくとも1つ以上含んで構成される。顔角度算出部911は、第1の実施形態の顔角度算出部411と同じでもよいが、入力画像に含まれる顔の数だけ高頻度に動作するので、処理量が少ないほうが良い。顔角度は必ずしも3次元量である必要は無く、4個以上の判別器の出力値をそのまま用いてもよい。
顔特徴量算出部203は、顔角度算出部911から入力された顔角度検出結果に含まれる顔画像を用いて、顔の特徴量を算出する。ここでいう顔特徴量とは、図2及び図4で述べた顔特徴量と同一である。顔特徴量算出部203は、画像データや顔検出結果、顔角度算出結果と共に、算出した顔特徴量を顔特徴量記録先決定部901に出力する。
顔特徴量記録先決定部901は、顔特徴量算出部203から顔特徴量と共に入力された顔角度算出結果を用いて、顔角度別顔特徴量データベース群905内における記録先を決定する。本処理部では、入力された顔検出結果の検出数に応じて(例えば、顔検出結果の検出数と同数回)、この処理を繰返す。顔特徴量記録先決定部901は、ここで決定した記録先情報を、画像データ、顔検出結果、顔角度算出結果、及び顔特徴量と共に、顔角度別顔特徴量記録部902に出力する。
顔角度別顔特徴量記録部902は、顔特徴量記録先決定部901から入力された記録先情報に基づき、画像データ、顔検出結果、顔角度算出結果、及び顔特徴量を、顔角度別顔特徴量データベース群905に書込む。本処理部では、に応じて(例えば、入力された顔検出結果の検出数と同数回)、処理を繰返す。なお、顔角度別顔特徴量データベース群905は、顔特徴量データベース205を顔角度別に独立させ分離したデータベースとしたものである。
次に、顔検索処理グループ922の処理では、画像入力部211及び顔検出部212の処理は、図2及び図4で説明した処理とほぼ同じである。
ただし、本実施例では、顔検出部212は、算出した顔検出結果を、画像データと共に、顔角度算出部912に出力する。
顔角度算出部912は、顔検出部212から入力された顔検出結果を用いて、顔角度を算出し、顔角度算出結果として出力する。ここで算出する顔角度算出結果の内容や算出方法は、顔角度算出部911と同様である。従って、顔角度算出部912は、顔角度算出部911と同様の構成であり同様の動作をする。また、顔角度算出部912は、顔角度特徴量算出部、顔角度特徴量データベース、及び顔角度特徴量検索部から成り、顔角度特徴量データベースにも、顔角度算出部911と同様な情報が予め格納されている。そして、顔角度算出部912は、算出した顔角度算出結果を、画像データ、及び顔検出結果と共に、合成パターン決定部913に出力する。なお、出力に含む件数は、予め決めた数でも良いし、ある類似度を閾値としその範囲に収まる候補を全て出力しても良く、また両者の組合せでも良い。また、ここにおける類似度は、顔特徴量検索部214の説明にて述べた類似度と、適用する特徴量空間は異なるが、算出方法については同一である。
合成パターン決定部913は、顔角度算出部912から入力された顔角度算出結果を用いて合成顔生成の合成パターンを決定する。この合成パターン決定部913が決定する合成パターンは、図4の合成パターン決定部412で述べた内容と同じである。また、変形モデルや合成先顔角度を格納した実施例もまた、図5でと同じで良い。ただし、変形モデルや合成先顔角度を予め格納する装置は、顔特徴量データベース205ではなく、顔角度別顔特徴量データベース群905である。合成パターン決定部913は、顔角度算出部912から入力された顔角度算出結果に含まれる件数と同一の回数、この処理を繰返す。そして、合成パターン決定部913は、ここで決定した合成パターンを、画像データ、顔検出結果、及び顔角度算出結果と共に、合成顔生成部914に出力する。
合成顔生成部914は、合成パターン決定部913から入力された合成パターンに従い、合成顔画像(図4参照)を生成する。
合成顔生成部914は、生成した1つ以上の合成顔画像を、画像データ、顔検出結果、及び顔角度算出結果と共に顔特徴量算出部213に出力する。
顔特徴量算出部213の処理は、図4で説明した通りである。ただし、顔特徴量算出部213は、算出した1つ以上の顔特徴量を顔特徴量検索先決定部915に出力する。
顔特徴量検索先決定部915は、顔特徴量算出部213から顔特徴量と共に入力された顔角度算出結果を用いて、顔角度別顔特徴量データベース群905内における検索先を決定する。本処理部では、に応じて(例えば、入力された顔特徴量の数と同数回)、処理を繰返す。顔特徴量検索先決定部915は、ここで決定した検索先情報を、画像データ、顔検出結果、顔角度算出結果、及び顔特徴量と共に、顔角度別顔特徴量検索部916に出力する。
顔角度別顔特徴量検索部916は、顔特徴量検索先決定部915から入力された1つ以上の顔特徴量を、顔角度別顔特徴量データベース群905内の顔特徴量データベースと照合し、顔類似度の高い顔をリストアップし、1つ以上の検索結果を、検索結果統合出力部917に出力する。顔角度別顔特徴量データベース群905内における検索先は、顔特徴量記録先決定部901から入力された記録先情報に基づく。類似度とは、顔特徴量同士の近さを示す数値であり、例えば、多次元から成る顔特徴量空間におけるユークリッド距離を用いる等する。類似度の算出方法については、例えば、非特許文献1や特許文献3に開示された技術等を参照することができる。ここで、検索結果には、顔特徴量や類似度、画像データ等が含まれる。本処理部では、に応じて(例えば、入力された顔特徴量の数と同数回)、処理を繰返す。
検索結果統合出力部917は、顔角度別顔特徴量検索部916から入力された1つ以上の検索結果を統合し、統合した検索結果の端末装置104に出力する。
検索結果統合出力部917は、検索結果の統合を、個々の検索結果に含まれる顔画像の類似度を用い、類似度の高い順にマージすることで実施する。
顔登録処理グループ921と顔検索処理グループ922は、それぞれ、図4と同様に、顔登録処理と顔検索処理の処理シーケンスを表す。顔登録処理と顔検索処理については後述する。
次に、図10及び図11並びに図9を用いて、さらに、本発明の検索装置803において為される顔登録処理と顔検索処理について説明する。
検索装置803における処理は、主として「顔登録処理」と「顔検索処理」の2つの処理シーケンスにて構成される。顔登録処理は、図9の処理部グループ921にて実施される処理シーケンスであり、顔検索処理は、図9の処理グループ922にて実施される処理シーケンスである。顔登録処理と顔検索処理は、顔角度別顔特徴量データベース群905を挟んで独立に構成され、非同期に実施可能である。
図10を用いて、本発明を含む第2の実施形態における顔登録処理の流れの一実施例について説明する。図10において、図6と同一符号のステップは、第1の実施形態と同様の処理内容である。図10の顔登録処理は、撮像装置101と検索装置803間、あるいは録画装置102と検索装置803間の通信を含んだ処理にて実施される。検索装置803は、撮像装置101あるいは録画装置102からの監視画像の着信をトリガとして、顔登録処理を実施する。またステップ602において、顔が少なくとも1つ以上検出された場合には、ステップ1001の処理を実行する。
ステップ1001では、検索装置803の顔角度算出部911が、ステップ602の顔検出結果に含まれる顔画像に対して、顔角度算出を行う。簡単にするため、繰り返しの図示はしないが、本ステップとステップ603、1002、1003は、ステップ602にて検出された顔数と同数回繰返す。
次のステップ603では、検索装置803の顔特徴量算出部203が、ステップ602の顔検出結果に含まれる顔画像に対して、顔特徴量を算出する。
次のステップ1002では、検索装置803の顔特徴量記録先決定部901が、ステップ1001にて求めた顔角度に従い、顔角度別顔特徴量データベース群905内の記録先データベースを決定する。
そしてステップ1003では、検索装置803の顔角度別顔特徴量記録部902が、算出した顔特徴量を、画像データ及び顔検出結果と共に、顔角度別顔特徴量データベース群905内の記録先データベースに記録する。その際、ステップ601において入力された属性情報データも併せて記録するようにしても良い。記録の完了後、ステップ600の処理に戻る。
図11を用いて、本発明を含む第2の実施形態における顔検索処理の流れの一実施例について説明する。顔検索処理は、端末装置104と検索装置803間の通信を含んだ処理にて実施される。検索装置803は、端末装置104からの検索要求、即ち、キー画像の着信をトリガとして、顔検索処理を実施する。図11において、図7と同一符号のステップは、第1の実施形態と同様の処理内容である。従って、ステップ700〜ステップ706、及びステップ708〜ステップ709の処理は、説明を省略する。
ただし、ステップ706の処理後は、ステップ1101の処理を実施する。また、ステップ1102の処理後に、ステップ708の処理を実施する。さらに、顔角度算出部411の替りに顔角度算出部912が動作し、合成パターン部412の替りに合成パターン部913が動作し、合成顔生成部413の替りに合成顔生成部013が動作する。
そして、ステップ1101では、検索装置803の顔特徴量検索先決定部915が、ステップ703にて求めた顔角度に従い、顔角度別顔特徴量データベース群905内の検索先データベースを決定する。
次に、ステップ1002では、検索装置803の顔角度別顔特徴量検索部916は、算出した顔特徴量を用いて、ステップ1001にて求めた検索先データベースに対して、類似検索を行う。なお、説明を簡単にするため、繰り返しの図示はしないが、本ステップ705、ステップ706、及びステップ707は、ステップ704において決定された合成パターン数回、繰返し実行する。
ステップ708では、図7と同様に、検索装置803の検索結果統合出力部415が、ステップ705、706、1001、1002の繰り返しにより入力された複数個の検索結果を統合する。
ステップ709では、検索装置803の検索結果統合出力部415が、統合した検索結果を、端末装置104に出力する。
送信の完了後、ステップ700の処理に戻る。
上述の第2の実施形態の類似画像検索システムによれば、第1の実施形態と同様に、顔を多様な角度で撮影する場合の多い監視画像に対する検索精度の改善に有効であり、信頼性の高い検索を実現できる。また、顔特徴量を記録時に記録先を指定してデータベースに記録し、検索時にはデータベース中の検索先を指定するようにしたので、検索する範囲を狭く設定できるので、実施例1より検索時間を短縮することができる。
上述の第1、第2の実施形態における顔角度算出を、検索ユーザとのインタラクティブな決定方式にて実施する第3の実施形態について、以下に説明する。
図12は、本発明を含む第3の実施形態における類似顔画像検索システムの構成の一例を示す図である。第3の実施形態は、検索装置303の替りに検索装置1203を設け、及び端末装置104の替りに端末装置1204を設けた点で、第1の実施形態と異なる。
図13に、第3の実施形態における検索装置1203の構成が示される。検索装置1203は、顔登録処理グループ921、顔検索処理グループ1322、正面顔画像合成処理グループ1323、及び、顔角度別顔特徴量データベース群905によって構成される。顔検索処理グループ1322は、画像入力部1301、合成パターン決定部1302、合成顔生成部914、顔特徴量算出部213、顔特徴量検索先決定部915、顔角度別顔特徴量検索部916、及び検索結果統合出力部917によって構成される。
顔登録処理グループ921の処理は、すでに図9で説明した通りである。正面顔画像合成処理グループ1323は、画像入力部211、顔検出部212、顔角度算出部912、正面合成顔生成部1311、及び正面合成顔出力部1312によって構成される。
顔検索処理グループ1322では、画像入力部1301は、端末装置1204から入力された検索キー画像データを受信する。受信するデータ(受信データ)には、検索キー画像データの他、選択結果情報や顔検出結果も含まれる。画像入力部1301は、端末装置1204上でのユーザの検索指示操作に基づく検索要求があった場合に、前記受信データを受信する。受信した画像データ、選択結果情報、及び顔検出結果を、合成パターン決定部1302に出力する。
合成パターン決定部1302は、画像入力部1301から入力された選択結果情報を用いて、合成顔生成の合成パターンを決定する。この合成パターン決定部1302での合成パターンの決定方法は、合成パターン決定部412と同様である。ただし、ここで用いる合成前顔角度は、選択結果情報に含まれる顔角度である。合成パターン決定部1302は、ここで決定した合成パターンを、画像データ、顔検出結果、及び顔角度算出結果と共に、合成顔生成部914に出力する。
合成顔生成部914は、合成パターン決定部1302から入力された合成パターンに従い、合成顔画像を生成し、生成した1つ以上の合成顔画像を、画像データ、顔検出結果、及び顔角度算出結果と共に顔特徴量算出部213に出力する。
合成顔生成部914、顔特徴量算出部213、顔特徴量検索先決定部915、顔角度別顔特徴量検索部916、及び検索結果統合出力部917の動作は、図9で説明したとおりである。なお、検索結果統合出力部917は、検索結果の統合を、個々の検索結果に含まれる顔画像の類似度を用い、類似度の高い順にマージすることで実施する。
次に、正面顔画像合成処理グループ1323では、画像入力部211、顔検出部212、及び顔角度算出部912の動作は、図9で説明した通りである。ただし、顔角度算出部912は、算出した顔角度算出結果を、画像データ、及び顔検出結果と共に、正面合成顔生成部1311に出力する。
正面合成顔生成部1311は、顔角度算出部912から入力された顔角度算出結果を基に、正面合成顔を生成する。合成顔生成は、顔角度算出結果を図5と照合して得られる合成パターンのうち、合成先顔角度が、正面顔、即ち、水平0度、垂直0度、回転0度となるパターンのみを用いて、合成顔生成部914と同様に実施する。本処理部では、入力された顔角度算出結果に含まれる顔角度で、確からしさ順に最大4個までの顔角度について、処理を繰返す。正面合成顔生成部1311は、ここで生成された1つ以上の合成顔画像を、画像データ、顔検出結果、及び顔角度算出結果と共に、正面合成顔出力部1312に出力する。
正面合成顔出力部1312は、正面合成顔生成部1311から入力された1つ以上の正面合成顔、顔検出結果、及び顔角度算出結果を、端末装置1204に出力する。
図14によって、本発明の第3の実施形態における端末装置1204に表示される画面及びユーザ操作の一実施例を説明する。図14は、本発明の第3の実施形態における端末装置1204に表示される画面の一実施例を示す図である。
図14において、端末装置1204に表示される画面は、再生画像表示領域1400、画像再生操作領域1410、検索キー画像指定領域1420、検索絞込パラメータ指定領域1430、検索実行領域1440、及び検索結果表示領域1450によって構成される。
図14において、再生画像表示領域1400は、撮像装置101や録画装置102からネットワーク150を介して端末装置1204に入力された画像を、連続動画表示する領域である。再生画像表示領域1400には、入力画像を連続動画表示した動画1401が表示される。
画像再生操作領域1410は、映像の入力元である撮像装置101と録画装置102の切り替えや、録画装置102に記録された画像を再生操作するボタン図形を配置した領域である。本領域に配置した各ボタン(ボタン図形)には、それぞれ固有の再生の操作種類が割当てられている。例えば、左のボタンから、「巻戻し」、「逆再生」、「再生停止」、「順再生」、「早送り」の操作種類が割当てられている。ユーザがGUI操作を行って各ボタンを適宜押下することにより、動画1401がボタン図形に割当てられた機能が動作する。
検索キー画像指定領域1420は、検索キー画像の指定と表示を行う領域である。本領域は、検索キー画像1421、指定ボタン1422、合成ボタン1423、及び、選択候補画像ボタン1424〜1427等から構成される。
検索キー画像1421は、検索キー画像を表示する場所である。初期状態においては、検索キー画像は未指定であるので、画像表示はされていない状態となる。若しくは、初期状態において、別途用意した未指定状態を示す画像を表示するようにするか、または、未指定である旨の表記をするようにしても良い。
指定ボタン1422は、ユーザがGUI操作を行って適宜押下した時に、動画1401に表示されている画像を検索キー画像として指定するボタンである。
合成ボタン1423は、押下時に検索キー画像に対して顔画像合成を指示するボタンである。
選択候補画像ボタン1424〜1427は、合成顔画像を表示する場所である。ユーザは、この中から最も真正面に合成されたと思われる合成顔画像を選んで、GUI操作を行って押下する。
検索絞込パラメータ指定領域1430は、検索の際の絞込パラメータの種類とその値(範囲)を指定する領域である。本領域は、撮像装置指定チェックボックス1431、1432、1433、及び1434、並びに、時刻指定チェックボックス1435、1436、及び、時刻指定欄1437、1438等から構成される。撮像装置指定チェックボックス1431、1432、1433、及び1434は、検索の際に検索対象とする撮像装置を指定するボタンである。本ボタンをユーザが押下すると、選ばれたことを示すチェックマークがそれぞれ表示される。このマークは再押下すると非表示となり、押下の都度、表示と非表示が切り替わる。時刻指定チェックボックス1435、1436は、検索の際に検索対象とする撮像時刻範囲を指定するボタンである。表示の態様については本ボタンも他のチェックボックスと同様である。
例えば、時刻指定チェックボックス1435を選択状態にした場合には、時刻範囲に先頭時刻を与える。非選択状態にした場合には、時刻範囲に先頭時刻を与えない。即ち、先頭時刻を与えられない場合には、録画装置に記録された最も古い時刻の画像までを検索対象範囲とすることを意味する。同様に、時刻指定チェックボックス1436を選択状態にした場合には、時刻範囲に末尾時刻を与える。非選択状態にした場合には、時刻範囲に末尾時刻を与えない。即ち、末尾時刻を与えられない場合には、録画装置に記録された最も新しい時刻の画像までを検索対象範囲とすることを意味する。また例えば、時刻指定チェックボックス1435と時刻指定チェックボックス1436の両方を選択状態にした場合には、指定された先頭時刻から末尾時刻までを検索対象範囲とすることを意味する。時刻指定欄1437、1438は、上述の先頭時刻と末尾時刻の値を指定する入力欄である。即ち、図14の例では、先頭時刻が2009年6月26日15時30分20秒であり、末尾時刻が2009年7月13日12時30分20秒である。
検索実行領域1440は、検索実行を指示する領域である。本領域は、検索ボタン1441によって構成される。
検索ボタン1441は、検索キー画像1421による類似人物検索実行を指示するボタンである。検索絞込パラメータ指定領域1430にてパラメータが指定されている場合には、その内容も含めて実行を指示する。
検索結果表示領域1450は、検索結果を表示する領域である。検索結果の表示は、検索結果画像を一覧表示することにより実施する。初期状態においては、検索結果表示領域には何も表示されない。
図14における検索結果表示領域1450には、「カメラ1、カメラ2、カメラ4の2009年6月26日15時30分20秒から2009年7月13日12時30分20秒までの画像を検索対象に、類似画像検索」を実施した例を示している。検索結果画像1451〜1457は、例えば、最上段左から右へ、次に下側の2段目左から右へと検索キー画像に対する類似度順に表示する。本例においては、一番上段で、一番左側の位置にある検索結果画像1451が検索キー画像1421に対し最も類似度が高く、検索結果画像1457が最も類似度が低いということを示している。
検索結果画像1456の周辺には、頭出し再生ボタン1458と検索キー画像指定ボタン1459を備える。他の検索結果画像1451〜1455及び1457も同様である。
頭出し再生ボタンは、検索結果画像を先頭とした連続動画再生開始を指示するボタンである。例えば、頭出し再生ボタン1458を押下すると動画1401が検索結果画像1456に切り替わる。検索キー画像指定ボタンは、検索結果画像を検索キー画像に指定するボタンである。例えば、検索キー画像指定ボタン1459を押下すると、検索結果画像1456が、検索キー画像として1421に表示される。これにより、検索結果画像を使っての再検索が実施できる。
本発明に関わる操作は、前記画面に対する操作のうち、映像の指定ボタン1422の押下に始まる検索キー画像の指定操作である。
図15A、図15B、及び図15Cは、検索キー画像指定領域1420を拡大表示したものである。図16は、本発明に関わる検索キー画像指定操作における通信シーケンスの一例を示す図である。
図16では、紙面上から下に時刻が経過する(ただし、時間は上下の長さとは一致していない)時系列の順番を示している。録画装置102(または、撮像装置101)の通信動作をシーケンス1600上に表示し、端末装置1204の通信動作をシーケンス1602上に表示し、検索装置1203の通信動作をシーケンス1601上に表示する。また、タイミング1620〜1626は、それぞれ時系列上での動作タイミングを表している。さらに、通信1610〜1615は、各装置間の主な通信を示す。通信1610と1611はリクエストとレスポンスの関係にある。通信1612と1613、通信1614と1615も同様である。なお、通信1610〜1615で示した通信は概念的な一例を示し、通信の細かい態様を示したものではない。
図15Aは、検索キー画像指定領域1420の検索キー画像を指定する前(タイミング1620)における画面の一例である。検索キー画像は、未指定であるので、検索キー画像1421は表示されていない状態となる。また、選択候補画像ボタン1424〜1427も、同様である。
図15Aにおいて、ユーザが、タイミング1621の時刻に指定ボタン1422を押下すると、端末装置1204の画面が図15Bの画面に切り替わる。
即ち、端末装置1204は、ユーザの操作により指定ボタン1422が押下されると、画像要求のための通信1610を録画装置102に出力(送信)する。通信1610は、検索キー画像要求の通信である。録画装置102は、通信1610を受信すると、通信1611を端末装置1204に出力(配信)する。この通信1611は、要求に応じて配信された検索キー画像を含む通信である。端末装置1204は、通信1610を受信すると、タイミング1622の時刻に画面に、通信1611に含まれた検索キー画像を表示する。
図15Bは、指定ボタン1422の押下後の画面の一例である。検索キー画像1421には、動画1401に現在表示されている画像が表示される。図15Bにおいて、ユーザが、タイミング1623の時刻に合成ボタン1423を押下すると、端末装置1204の画面が図15Cの画面に切り替わる。即ち、端末装置1204は、ユーザの操作により合成ボタン1423が押下されると、合成要求のための通信1612を検索装置1203に出力(送信)する。通信1612は、合成要求の通信である。この通信1612には、通信1611で取得した検索キー画像も含まれる。
検索装置1203は、通信1612を受信すると、通信1613を端末装置1204に出力(配信)する。この通信1613は、要求に応じて配信された1つ以上の合成顔画像や顔検出結果、顔角度算出結果を含む通信である。
端末装置1204は、通信1613を受信すると、タイミング1624の時刻に画面に、通信1613に含まれた検索キー画像を表示する。
図15Cは、合成ボタン1423の押下後の画面の一例である。選択候補画像ボタン1424〜1427には、それぞれ顔画像が表示される。ここで、選択候補画像ボタンに表示される顔画像であるが、合成により生成された顔画像である。図15Cにおいて、ユーザが、タイミング1625の時刻に選択候補画像ボタン1424〜1427の中から、いずれか1つを選択して押下する。ここで選択するボタンは、表示された合成顔画像のうち、最も真正面な顔と思われる顔画像を表示したボタンである。本例では、ユーザは、選択候補画像ボタン1425を押下する。
最後に、ユーザが、タイミング1626の時刻に、検索ボタン1441を押下する。即ち、端末装置1204は、ユーザの操作により合成ボタン1423が押下されると、検索要求のための通信1614を検索装置1203に出力(送信)する。通信1614は、検索要求の通信である。この通信1614には、検索キー画像に加え、図15(c)におけるユーザの選択結果についての情報や通信1611や1613で取得した検索キー画像や顔検出結果も含まれる。検索装置1203は、通信1614を受信すると、受信した通信1614に含まれる検索キー画像に基づいて、検索を行い、その検索結果を通信1615として端末装置1204に出力(配信)する。端末装置1204は、通信1615を受信して、その検索結果を検索結果表示領域1450に表示する。
以上で、本領域に関連する一連の操作が終了する。
上述の第3の実施形態の類似画像検索システムによれば、第1と第2の実施形態と同様に、顔を多様な角度で撮影する場合の多い監視画像に対する検索精度の改善に有効であり、信頼性の高い検索を実現できる。さらに、上述の第3の実施形態の類似画像検索システムによれば、第2の実施形態と同様に、顔特徴量を記録時に記録先を指定してデータベースに記録し、検索時にはデータベース中の検索先を指定するようにしたので、検索する範囲を狭く設定できるので、実施例1より検索時間を短縮することができる。またさらに、上述の第3の実施形態の類似画像検索システムによれば、顔角度算出を、検索ユーザとのユーザインタラクティブに決定することができ、操作性が向上する。また、顔角度算出を、状況に応じて適宜、容易に、かつ迅速に検索条件を変更することができるため、より信頼性の高い検索を実現できる。
上述の第1〜第3の実施例の説明においては、説明の簡略化のため、撮像装置や録画装置、検索装置、端末装置は各1台の構成で示したが、これらはネットワークに対し、複数台の接続が可能である。
また、上述の第1〜第3の実施例においては、説明を容易にするため、録画装置と検索装置を別個の装置として示したが、同一の装置上に実装される構成であっても良い。また、同様に、検索装置と端末装置も、単一の装置上に実装される構成であっても良い。
また、第3の実施例においては、説明の簡略化のため、正面顔を選ぶ操作を提示・選択を各1回で完了する例を示したが、提示・選択を数回繰り返すようにしても良い。
また、上述の第1〜第3の実施例においては、顔を対象とする類似画像検索を示したが、顔だけでなく、車両等の他のオブジェクトを対象とした類似画像検索にも適用できる。
CCTV(Closed-Circuit Television )システム、顔認証システム、犯罪者データベース等のほか、テレビ番組制作システムや個人向けの電子アルバム等、カメラに映った人物や車両などの映像を扱うシステムに利用可能である。
101:撮像装置、 102:録画装置、 103:検索装置、 104:端末装置、 150:ネットワーク、 201:画像入力部、 202:顔検出部、 203:顔特徴量算出部、 204:顔特徴量記録部、 205:顔特徴量データベース、 211:画像入力部、 212:顔検出部、 213:顔特徴量算出部、 214:顔特徴量検索部、 215:検索結果出力部、 221:顔登録処理グループ、 222:顔検索処理グループ、 303:検索装置、 411:顔角度算出部、 412:合成パターン決定部、 413:合成顔生成部、 415:検索結果統合出力部、 422:顔検索処理グループ、 501〜503:列、 510、511、520、521、530、531:欄、
803:検索装置、901:顔特徴量記録先決定部、 902:顔角度別顔特徴量記録部、 905:顔角度別顔特徴量データベース群、 911,912:顔角度算出部、 913:合成パターン決定部、 914:合成顔生成部、 915:顔特徴量検索先決定部、 916:顔角度別顔特徴量検索部、917:検索結果統合出力部、
1203:検索装置、 1204:端末装置、 1400:再生画像表示領域、 1401:動画、 1410:画像再生操作領域、 1420:検索キー画像指定領域、 1421:検索キー画像、 1422:指定ボタン、 1423:合成ボタン、 1424〜1427:選択候補画像ボタン、 1430:検索絞込パラメータ指定領域、 1431、1432、1433、1434:撮像装置指定チェックボックス、 1435、1436:時刻指定チェックボックス、 1437、1438:時刻指定欄、 1440:検索実行領域、 1450:検索結果表示領域。

Claims (4)

  1. 検索対象画像を入力する第1の画像入力手段と、入力された検索対象画像から第1の顔を検出する第1の顔検出手段と、検出された第1の顔の特徴量を算出する顔特徴量算出手段と、算出された顔特徴量を記録するデータベース記録手段と、
    検索のためのキー画像を入力する第2の画像入力手段と、入力されたキー画像から第2の顔を検出する第2の顔検出手段と、検出された第2の顔の顔角度を算出する顔角度算出手段と、算出された顔角度によって合成パターンを決定する合成パターン決定手段と、決定された合成パターンに応じて合成顔画像を生成する合成顔生成手段と、生成された合成顔画像を用いて第2の顔の特徴量を算出する第2の顔特徴量算出手段と、
    前記決定された前記合成パターンの数に応じて、前記合成顔生成手段と前記顔特徴量算出手段を繰り返し、算出された複数個の顔特徴量をクエリとして、データベースから検索を行う顔特徴量検索手段と、検索された複数個の検索結果を統合する検索結果統合手段と、を設けたことを特徴とする類似画像検索システム。
  2. 検索対象画像を入力する第1の画像入力手段と、入力された検索対象画像から第1の顔を検出する第1の顔検出手段と、検出された第1の顔の顔角度を算出する第1の顔角度算出手段と、前記検出された第1の顔の特徴量を算出する第1の顔特徴量算出手段と、算出された顔角度によって記録先データベースを決定する記録先データベース決定手段と、算出された第1の顔特徴量を決定された記録先データベースに記録するデータベース記録手段と、
    検索のためのキー画像を入力する第2の画像入力手段と、入力されたキー画像から第2の顔を検出する第2の顔検出手段と、検出された第2の顔の顔角度を算出する顔角度算出手段と、算出された顔角度によって合成パターンを決定する合成パターン決定手段と、決定された合成パターンに応じて合成顔画像を生成する合成顔生成手段と、生成された合成顔画像を用いて第2の顔の特徴量を算出する第2の顔特徴量算出手段と、
    前記算出された前記顔角度によって検索先データベースを決定する検索先データベース決定手段と、前記決定された前記合成パターンの数に応じて、前記合成顔生成手段と前記第2の顔特徴量算出手段と前記検索先データベース決定手段を複数回実施し、算出された複数個の顔特徴量をクエリとして、前記データベースから検索を行う顔特徴量検索手段と、検索された複数個の検索結果を統合する検索結果統合手段と、を設けたことを特徴とする類似画像検索システム。
  3. 前記顔角度算出手段は、入力顔に対する顔角度特徴量算出手段と、既知角度の顔に対する顔角度特徴量が顔角度情報とともに予め格納されているデータベースと、前記顔角度特徴量算出手段で求めた顔角度特徴量をクエリとして、前記データベースから検索を行う顔角度検索手段と、を設けたことを特徴とする請求項2記載の類似画像検索システム。
  4. 前記合成パターン決定手段は、前記顔角度算出手段の算出結果の確からしさを使い、その第2候補以降の確からしさを有する顔角度も用いることを特徴とする請求項2記載の類似画像検索システム。
JP2014516868A 2012-05-24 2013-05-24 類似画像検索システム Active JP5768265B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014516868A JP5768265B2 (ja) 2012-05-24 2013-05-24 類似画像検索システム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012118152 2012-05-24
JP2012118152 2012-05-24
PCT/JP2013/064508 WO2013176263A1 (ja) 2012-05-24 2013-05-24 類似画像検索システム
JP2014516868A JP5768265B2 (ja) 2012-05-24 2013-05-24 類似画像検索システム

Publications (2)

Publication Number Publication Date
JP5768265B2 true JP5768265B2 (ja) 2015-08-26
JPWO2013176263A1 JPWO2013176263A1 (ja) 2016-01-14

Family

ID=49623943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014516868A Active JP5768265B2 (ja) 2012-05-24 2013-05-24 類似画像検索システム

Country Status (3)

Country Link
US (1) US9135273B2 (ja)
JP (1) JP5768265B2 (ja)
WO (1) WO2013176263A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11157550B2 (en) * 2013-10-02 2021-10-26 Hitachi, Ltd. Image search based on feature values
JP6410450B2 (ja) * 2014-03-31 2018-10-24 キヤノン株式会社 オブジェクト識別装置、オブジェクト識別方法及びプログラム
JP6362085B2 (ja) * 2014-05-21 2018-07-25 キヤノン株式会社 画像認識システム、画像認識方法およびプログラム
US10795928B2 (en) * 2015-04-08 2020-10-06 Hitachi, Ltd. Image search apparatus, system, and method
US10657365B2 (en) 2015-09-14 2020-05-19 Hitachi Kokusai Electric Inc. Specific person detection system and specific person detection method
US11200445B2 (en) 2020-01-22 2021-12-14 Home Depot Product Authority, Llc Determining visually similar products

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4238542B2 (ja) 2002-08-30 2009-03-18 日本電気株式会社 顔向き推定装置および顔向き推定方法ならびに顔向き推定プログラム
EP1594085A4 (en) * 2003-02-13 2008-02-27 Nec Corp DEVICE AND METHOD FOR DETECTING UNEMPLOYED PERSONS
JP4653606B2 (ja) 2005-05-23 2011-03-16 株式会社東芝 画像認識装置、方法およびプログラム
JP4947769B2 (ja) 2006-05-24 2012-06-06 富士フイルム株式会社 顔照合装置および方法並びにプログラム
JP4874836B2 (ja) 2007-03-01 2012-02-15 株式会社日立製作所 画像検索方法及び画像検索システム
JP5244345B2 (ja) 2007-08-09 2013-07-24 パナソニック株式会社 顔認証装置
JP5176572B2 (ja) * 2008-02-05 2013-04-03 ソニー株式会社 画像処理装置および方法、並びにプログラム
JP5730518B2 (ja) 2010-08-27 2015-06-10 株式会社日立国際電気 特定人物検知システムおよび特定人物検知方法
JP5665125B2 (ja) 2011-04-07 2015-02-04 株式会社日立製作所 画像処理方法、及び、画像処理システム

Also Published As

Publication number Publication date
US9135273B2 (en) 2015-09-15
WO2013176263A1 (ja) 2013-11-28
US20150112970A1 (en) 2015-04-23
JPWO2013176263A1 (ja) 2016-01-14

Similar Documents

Publication Publication Date Title
JP5768265B2 (ja) 類似画像検索システム
JP4541316B2 (ja) 映像監視検索システム
US10827133B2 (en) Communication terminal, image management apparatus, image processing system, method for controlling display, and computer program product
JP5227911B2 (ja) 監視映像検索装置及び監視システム
JP5707562B1 (ja) モニタリング装置、モニタリングシステムおよびモニタリング方法
JP5863400B2 (ja) 類似画像検索システム
US7203693B2 (en) Instantly indexed databases for multimedia content analysis and retrieval
US9286777B2 (en) Presenting video data
JP5730518B2 (ja) 特定人物検知システムおよび特定人物検知方法
US11670147B2 (en) Method and apparatus for conducting surveillance
JP6172551B1 (ja) 画像検索装置、画像検索システム及び画像検索方法
US20020175997A1 (en) Surveillance recording device and method
US20090201314A1 (en) Image display apparatus, image display method, program, and record medium
US20220301317A1 (en) Method and device for constructing object motion trajectory, and computer storage medium
US20040249848A1 (en) Method and apparatus for intelligent and automatic alert management using multimedia database system
JP6203188B2 (ja) 類似画像検索装置
US20190005133A1 (en) Method, apparatus and arrangement for summarizing and browsing video content
JP5826513B2 (ja) 類似画像検索システム
US10783365B2 (en) Image processing device and image processing system
JP5329130B2 (ja) 検索結果表示方法
JP3473864B2 (ja) ビデオ情報検索方法
KR101170676B1 (ko) 얼굴 인식 기반의 얼굴 검색 시스템 및 그 방법
JP5351445B2 (ja) 画像検索システム
Bamond et al. Application of an event-sensor to situational awareness
JP5159654B2 (ja) 映像処理装置および映像処理方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150526

R150 Certificate of patent or registration of utility model

Ref document number: 5768265

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250