JP2018036870A - 画像処理装置及びプログラム - Google Patents

画像処理装置及びプログラム Download PDF

Info

Publication number
JP2018036870A
JP2018036870A JP2016169678A JP2016169678A JP2018036870A JP 2018036870 A JP2018036870 A JP 2018036870A JP 2016169678 A JP2016169678 A JP 2016169678A JP 2016169678 A JP2016169678 A JP 2016169678A JP 2018036870 A JP2018036870 A JP 2018036870A
Authority
JP
Japan
Prior art keywords
unit
image
person
image processing
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016169678A
Other languages
English (en)
Inventor
幸寛 坪下
Yukihiro Tsuboshita
幸寛 坪下
尾崎 良太
Ryota Ozaki
良太 尾崎
亨介 重中
Kyosuke Shigenaka
亨介 重中
福井 基文
Motofumi Fukui
基文 福井
加藤 典司
Noriji Kato
典司 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2016169678A priority Critical patent/JP2018036870A/ja
Priority to US15/447,788 priority patent/US20180060647A1/en
Priority to CN201710261131.9A priority patent/CN107798285A/zh
Publication of JP2018036870A publication Critical patent/JP2018036870A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】動画を構成するフレームに対して処理を行うものと比較して、正確に対象物を比較することができる画像処理装置及びプログラムを提供する。【解決手段】受付手段であるデータ受付部26は、動画を受け付ける。画像抽出手段である人物領域抽出部28は、受け付けた動画を構成する複数のフレームから対象物画像を抽出する。形成手段であるタイムラインセグメント形成部30は、抽出された時間を隔てた複数の対象物画像を一つの単位として形成する。比較手段であるタイムラインセグメント比較部34は、形成された単位毎に比較する。【選択図】図2

Description

本発明は、画像処理装置及びプログラムに関する。
非特許文献1は、入力画像から人物等の対象画像を切り出し、切り出した対象画像にニューラルネットワーク(Convolutional Neural Network)を用いて判別するFast R-CNNについて説明している。
非特許文献2は、畳み込みニューラルネットワーク(Convolutional Neural Network)を用いた画像認識について説明している。本文献で用いられている畳み込みニューラルネットワークは著者の名前を取ってアレックスネット(Alex net)と呼ばれている。
非特許文献3は、複数のカメラで撮影された歩行者等の人物画像から同一人物を照合する同一人物同定課題について、トリプルロス(Triplet loss)を導入し、人物の同一性を距離で表現、さらに、画像のどこに着目するかを自動的に学習するビジュアルアテンション(visual attention)機構を導入し、照合精度を向上させた点について説明している。
非特許文献4は、非特許文献3と同様な課題に対して、カーネルサイズを小さくし、階層を深くした深層ニューラルネットワークを用いることで、同一人物を照合する際の性能を向上させた点について説明している。
非特許文献5は、入力された二つのフレーム間の顔同士の距離を計算する標準的な方法であるオープンフェイス(Open Face)について説明している。
特許文献1は、複数の撮像手段により撮像された複数の画像から人の顔特徴点を検出して顔領域を検出する顔領域検出部と、この顔領域検出部により検出された顔領域の画像から顔の特徴量を抽出する顔特徴量抽出部と、予め登録された特定人の顔の特徴量と前記顔特徴量抽出部で抽出された顔の特徴量とから類似度を計算して人物の認識を行う人物認識部と、その人物認識部の認識結果を出力する出力装置とを有することを特徴とする顔画像処理装置を開示する。
特許文献2は、被写体を撮像して得られる画像データ領域中から、動き物体データ領域を検出する手段と、検出された動き物体データ領域中から顔面があるべきデータ領域を抽出する手段と、抽出された顔面データ領域に顔面を特定する画像データが含まれるか否か判定する手段と、前記顔面特定画像データが含まれないと判定されたことに応じて出力を発生させる手段とを備えた、人物認識装置を開示する。
特許文献3は、複数の画像のそれぞれに含まれる人物を認識する人物認識システムであって、前記複数の画像のそれぞれについて、当該画像に含まれる複数の人物を認識する人物認識部と、前記人物認識部による認識結果に基づいて、前記複数の画像の中の、少なくとも一部の画像に含まれる人物のそれぞれの間における親密度を算出する親密度算出部と、前記人物認識部によって、互いに異なる人物として認識された複数の人物のそれぞれの、一の人物に対する前記親密度の差が、予め定められた基準値以下であるか否かを判断する判断部と、互いに異なる人物として認識された複数の人物のそれぞれの、前記一の人物に対する前記親密度の差が、予め定められた基準値以下であると判断された場合に、当該複数の人物が同一人物であると判定し、前記人物認識部による認識結果を修正する修正部とを備える人物認識システムを開示する。
R. Girshick. Fast R-CNN. arXiv:1504.08083, 2015. A. Krizhevsky, I. Sutskever, G. E. Hinton, Imagenet classification with deep convolutional neural networks, NIPS 2012. H. Liu, J. Feng, M. Qi, J. Jiang and S. Yan, End-to-End Comparative Attention Networks for Person Re-identification, IEEE Trans. on Image Processing, vol.14, No. 8, June, 2016. L. Wu, C. Shen, A. van den Hengel, PersonNet: Person Re-identification with Deep Convolutional Neural Networks,http://arxiv.org/abs/1601.07255 F. Schroff, D. Kalenichenko, J. Philbin, Facenet: Aunified embedding for face recognition and clustering, CVPR 2012, pp. 815-823.
特開2004−192378号公報 特開平7−73298号公報 特開2006−236216号公報
本発明は、動画を構成するフレームに対して処理を行うものと比較して、正確に対象物を比較することができる画像処理装置及びプログラムを提供することを目的としている。
請求項1に係る本発明は、動画を受け付ける受付手段と、前記受付手段により受け付けられた動画を構成する複数のフレームから対象物画像を抽出する画像抽出手段と、前記画像抽出手段により抽出された時間を隔てた複数の対象物画像を一つの単位として形成する形成手段と、前記形成手段により形成された単位毎に比較する比較手段と、を有する画像処理装置である。
請求項2に係る本発明は、前記比較手段は、予め登録された対象物画像と比較する請求項1記載の画像処理装置である。
請求項3に係る本発明は、前記比較手段は、他の単位を構成する対象物画像と比較する請求項1記載の画像処理装置である。
請求項4に係る本発明は、前記形成手段は、複数の対象物が重なっている場合は、重なっている対象物画像を単位から除く請求項1から3いずれか記載の画像処理装置である。
請求項5に係る本発明は、前記形成手段は、複数の対象物が重なる手前までの対象物画像を前記単位とする請求項1から3いずれか記載の画像処理装置である。
請求項6に係る本発明は、前記抽出手段は、対象物として人物を抽出する請求項1から4いずれか記載の画像処理装置である。
請求項7に係る本発明は、前記抽出手段は、顔認識を含む請求項5記載の画像処理装置である。
請求項8に係る本発明は、動画を受け付けるステップと、受け付けられた動画を構成する複数のフレームから対象物画像を抽出するステップと、抽出された時間を隔てた複数の対象物画像を一つの単位として形成するステップと、形成された単位毎に比較するステップと、をコンピュータにより実行させるプログラムである。
請求項1に係る本発明によれば、動画を構成するフレームに対して処理を行うものと比較して、正確に対象物を比較することができる画像処理装置を提供することができる。
請求項2に係る本発明によれば、請求項1に係る本発明の効果に加えて、対象物を識別することができる。
請求項3に係る本発明によれば、請求項1に係る本発明の効果に加えて、対象物間の距離を同定することができる。
請求項4又は請求項5に係る本発明によれば、請求項1から3いずれかに係る本発明の効果に加えて、複数の対象物が重なった場合に対処することができる。
請求項6に係る本発明によれば、請求項1から4いずれかに係る本発明の効果に加えて、受け付けた動画から人物を比較することができる。
請求項7に係る本発明によれば、請求項5に係る本発明の効果に加えて、顔を比較対象に含めることができる。
請求項8に係る本発明によれば、動画を構成するフレームに対して処理を行うものと比較して、正確に対象物を比較することができるプログラムを提供することができる。
本発明の実施形態に係る画像処理装置のハードウェア構成を示すブロック図である。 本発明の実施形態に係る画像処理装置が有する機能を示す機能ブロック図である。 本発明の実施形態に係る画像処理装置において、タイムラインセグメントの抽出を説明するための図である。 本発明の実施形態に係る画像処理装置において、フレーム間での人物領域間の重なりを説明するための図である。 本発明の実施形態に係る画像処理装置において、複数人物の重なり発生を説明するための図である。 本発明の第一の実施形態の概要を示す図である。 本発明の第一の実施形態におけるタイムラインセグメント比較部の詳細を示すブロック図である。 本発明の第一の実施形態全体の制御フローを示すフローチャートである。 本発明の第一の実施形態におけるセグメント人物識別処理の制御フローを示すフローチャートである。 本発明の第二の実施形態の概要を示す図である。 本発明の第二の実施形態におけるタイムラインセグメント比較部の詳細を示すブロック図である。 本発明の第二の実施形態における人物間距離同定部の詳細を示すブロック図である。 本発明の第二の実施形態全体の制御フローを示すフローチャートである。 本発明の第二の実施形態におけるセグメント間距離算出処理の制御フローを示すフローチャートである。
次に、本発明の実施形態について図面を参照して詳細に説明する。
図1は、本発明の一実施形態に係る画像処理装置10のハードウェア構成を示すブロック図である。画像処理装置10は、互いにバス12により接続されるGPU14、メモリ16、表示制御部18及び通信インターフェイス20を有する。GPU14は、メモリ16に記憶されるプログラムにより動作するCPU機能と、データを並列処理する機能とを有する。表示制御部18は、液晶ディスプレイ等の表示装置22に接続され、画像処理装置10の操作のためのメニューや、画像処理装置10の動作状況等を表示する。通信インターフェイス20には、ビデオカメラ24からの動画がインターネットやLANを介して入力されるようになっている。
図2は、本発明の一実施形態に係る画像処理装置10が有する機能を示す機能ブロック図である。データ受付部26は、前述した通信インターフェイス20を介して動画を含むデータを受け付ける。
人物領域抽出部28は、データ受付部26で受け付けた動画を構成するフレーム(画像)に人物が含まれている場合、自動的に人物領域を(通常)矩形で抽出する。人物領域検出には様々な手法が提案されており標準的な方法を用いればよい。代表的な手法としては、前述した非特許文献1に記載されているfast R-CNN等が存在している。
タイムラインセグメント形成部30は、人物領域抽出部28で抽出された人物画像をタイムラインセグメントとして一つの単位として形成する。即ち、図3に示すように、時間T1のときのフレームF1と時間T2のときのフレームF2から抽出した人物領域A〜Dについてそれぞれの"重なり"をフレーム間で比較し、フレーム間の重なりが大きい場合には、それらの領域をマージし、一つのタイムラインセグメントとする。重なりが小さい場合には、異なるセグメントとする。重なりの判別には、例えば、フレームの重なり状態を次の式(1)ように定義すればよい。
Figure 2018036870
ここで、S1,S2,S3は、図4で定義される部分の面積である。この重なりが、予め定められた閾値以上の場合を重なりあり、未満の場合を重なりなしと定義すればよい。
なお、図3に示すように、動画として連続していないT3のときのフレームF3については別のタイムラインセグメントとして扱う。
タイムラインセグメント形成の問題点として、人物同士の重なりが非常に大きくなってしまうと、異なる人物間の異なるセグメントとして形成すべきセグメントを同一のセグメントとしてしまう問題が生じる。即ち、図5に示すように、人物Eと人物Fが重なる人物領域Hpが存在する場合がある。そこで、タイムラインセグメント形成部30には、複数人物重なり判定部32が設けられている。
複数人物重なり判定部32は、複数人物重なり状態の前後で、異なるセグメントに分ける。そのことにより、一つのセグメントに複数の人物が所属してしまう誤検出を防ぐことができる。
複数人物重なり判定部32は、例えば、複数人物重なり状態にある人物領域を正事例、重なり状態にない人物領域を不事例として、学習データを用意し、特徴抽出からモデル学習を行うことにより構築し、バイナリ―な識別器を構成する。特徴抽出としては、HOG特徴量、SIFT+BOF特徴量等、どのような画像特徴を用いても良いし、モデル学習は、SVMなどの分類器用いればよい。また、非特許文献2で示したAlex netに代表されるConvolutional Neural Networkを用いて、RGBの入力から、直接、識別器を形成することも可能である。
タイムラインセグメント比較部34は、タイムラインセグメント形成部30で形成されたタイムラインセグメントの比較を行う。また、出力部36は、例えば前述した表示制御部18を介して表示装置22に、タイムラインセグメント比較部34で比較した結果を表示する。
タイムラインセグメントの比較には、人物識別を行う第一の実施形態と、人物間の距離を算出する第二の実施形態がある。
まず、第一の実施形態について説明する。
図6は、個人識別を用いて複数の人物が撮影された動画38から、特定の人物が撮影されたシーンを抽出する一例を示している。まず、動画38が入力されると、人物検出技術を用いて人物領域を矩形領域として抽出し、重なりの程度から複数のタイムラインセグメント40a,40b,40cを抽出する。タイムラインセグメント40a,40b,40cそれぞれに対して、個人識別技術により個人を識別する。ここでは、事前に登録された人物Aと人物Bの撮影されたシーンの抽出を行っている。個人識別を行うことにより、タイムラインセグメント40a,40bは人物Aに、タイムラインセグメント40cは人物Bにそれぞれ仕分けられる。
第一の実施形態においては、図2に示したタイムラインセグメント比較部34は、図7に示すように、セグメント人物識別部42となる。
セグメント人物識別部42は、セグメント中のフレーム毎に人物識別部44により個人識別を行い、セグメントの判別はそれぞれの人物IDのスコアを統合することで個人識別を実現する。統合の手法としては、それぞれの人物IDのスコアを足し合わせる等の処理を行えばよい。
さらに、一般的に用いられている顔認識技術と組み合わせることが可能である。組み合わせ方は、例えば、重みつきでスコアを足し合わせること等が考えられる。
即ち、セグメント人物識別部42は人物識別部44を有し、顔検出部46及び顔認識部48を組み合わせる。
人物識別部44は、予め動画に登場する複数の人物を学習させておき、セグメント内のフレーム(画像)が入力されると、その人物のIDを推定する。学習は識別すべき全ての人物にIDを振り、その人物が写っている人物領域画像をそのIDの正事例として収集し、人数分の学習データを収集する。その上で、学習データを用意し、特徴抽出からモデル学習を行うことにより構築することができる。特徴抽出としては、HOG特徴量、SIFT+BOF特徴量などどのような画像特徴を用いても良いし、モデル学習は、SVMなどの分類器用いればよい。また、非特許文献2で示したAlex netに代表されるConvolutional Neural Networkを用いて、RGBの入力から直接、識別器を形成することも可能である。
顔検出部46は、セグメント内のフレームが入力されると、顔領域を検出する。
認識部48は、顔検出部46により顔検出が成功した場合に、予め登録されている人物に対して付与されているIDごとに人物IDのスコアを計算する。
図8は、第一の実施形態における制御フローを示すフローチャートである。
まずステップS10において、動画を受け付ける。次のステップS12においては、ステップS10で受け付けた動画をフレーム(画像)に分割する。次のステップS14においては、ステップS12で分割したフレームからタイムラインセグメントを形成する。次のステップS16においては、セグメント人物識別処理を実施する。さらに次のステップS18においては、全てのセグメントでの処理が完了したか否かを判定する。このステップS18において、全てのセグメントでの処理が完了したと判定された場合は処理を終了し、全てのセグメントでの処理が完了していないと判定された場合はステップS16へ戻り、全てのセグメントの処理が完了するまで実行される。
図9は、ステップS16でのセグメント人物識別処理の詳細な制御フローを示すフローチャートである。
まずステップS161において、セグメントを入力する。次のステップS162においては、前述したステップS12で分割したフレーム(画像)に対する個人識別を実施する。次のステップS163においては、全てのフレームの処理が完了したか否かを判定する。全てのフレームの処理が完了した場合は、次のステップS164へ進み、フレームごと、人物ごとに計算したスコアを統合し、処理を終了する。一方、ステップS163において、全てのフレームの処理が完了していないと判定された場合はステップS162へ戻り、全てのフレームの処理が完了するまで実行される。
次に第二の実施形態について説明する。
図10は、第一の実施形態と同様に、個人識別を用いて複数の人物が撮影された動画38から、特定の人物が撮影されたシーンを抽出する一例を示している。まず、動画38が入力されると、人物検出技術を用いて人物領域を矩形領域として抽出し、重なりの程度から複数のタイムラインセグメント40a,40b,40cを抽出する。タイムラインセグメント40a,40b,40cそれぞれに対して、同一人物判別技術を用いてクラスタリングを実施する。
第二の実施形態においては、図2に示したタイムラインセグメント比較部34は、図11に示すように、セグメント間距離判別部42となる。
セグメント間距離判別部42は、入力された二つのセグメント間の距離を計算する。算出手法としては、二つのセグメントに含まれるフレームの全ての組み合わせで距離を算出し、その平均として二つのセグメント間の距離を定義すればよい。また、他にも、例えば、ハウスドルフ距離などの集合間距離として定義するなどの方法がある。
さらに、一般的に用いられている顔認識技術と組み合わせることが可能である。組み合わせ方は、例えば、重みつきでスコアを足し合わせること等が考えられる。
即ち、セグメント間距離判別部42は、人物間距離同定部44を有し、顔認識部46及び顔間距離算出部48を組み合わせる。
人物間距離同定部44は、入力された二人の人物が同一人物であるかどうかを判別する。
図12は、人物間距離同定部44の一例を示す。図12において、特徴抽出器として深層学習ネットワーク50a,50bを用い、深層学習ネットワーク50a,50bの学習結果の差分を求めて差分ベクトルとし、AdaBoost識別器52を用いて同一人物の推定を行い、同一人物であるか否かを判別する。この実施形態においては、識別器として例えばAdaBoost識別器52を用いた構成を示したが、もちろんこれは一例である。
ここでは、同一人物である/でない、の2値の結果を返す構成であるが、人物間距離としては、同一人物であると判別された場合、あらかじめ定められた小さな数、そうでない場合は、あらかじめ定められた大きな数を返すことで、人物間距離を定義すればよい。
また、非特許文献3、4のように深層学習を用いて、特徴抽出から識別までをエンド・ツー・エンドで行う手法の適用も可能である。
顔認識部46は、セグメント内のフレームが入力されると、顔領域を検出して認識する。また、顔間距離算出部48は、顔検出が成功した場合には、入力された二つのフレーム間の顔同士の距離を計算する。標準的な方法としては、非特許文献5で示したOpen Fac等の手法が存在する。
さらに、セグメント間距離補正部54を設けるようにしても良い。このセグメント間距離補正部54は、同一時空間に存在しているセグメントは必ず異なる人であるという制約を用いて距離の補正を行う。
そして、このようにセグメント間の距離を判別し、クラスタリングを行う。クラスタリングは、セグメント間距離算出部42が算出したクラスタ間の距離を元に行う。クラスタリングの手法としては、例えば、k-means法や、種々の階層クラスタリング手法を用いればよい。
図13は、第二の実施形態における制御フローを示すフローチャートである。
まずステップS20において、動画を受け付ける。次のステップS22においては、ステップS20で受け付けた動画をフレーム(画像)に分割する。次のステップS24においては、ステップS22で分割したフレームからタイムラインセグメントを形成する。次のステップS26においては、セグメント間距離を算出する。さらに次のステップS28においては、全てのセグメントでの組み合わせで処理が完了したか否かを判定する。このステップS28において、全てのセグメントでの組み合わせで処理が完了したと判定された場合はステップS30に進み、クラスタリングを実施して処理を終了する。一方、ステップS28において、全てのセグメントでの組み合わせで処理が完了していないと判定された場合はステップS26へ戻り、全てのセグメントでの組み合わせで処理が完了するまで実行される。
図14は、ステップS26でのセグメント間距離識別処理の詳細な制御フローを示すフローチャートである。
まずステップS261において、セグメントを入力する。次のステップS262においては、前述したステップS22で分割したフレーム(画像)間の距離を算出する。次のステップS263においては、全ての組み合わせでの処理が完了したか否かを判定する。全ての組み合わせでの処理が完了した場合は、次のステップS264へ進み、フレーム間の距離を算出し、処理を終了する。一方、ステップS263において、全ての組み合わせでの処理が完了していないと判定された場合はステップS262へ戻り、全ての組み合わせでの処理が完了するまで実行される。
なお、上記実施形態においては、対象物として人物が選択されているが、これに限るものでは無く、例えば動物、自動車等、あらゆる物を対象とすることができる。
10 画像処理装置
14 GPU
16 メモリ
24 ビデオカメラ
26 データ受付部
28 人物領域抽出部
30 タイムラインセグメント形成部
32 複数人物重なり状態判別部
34 タイムラインセグメント比較部

Claims (8)

  1. 動画を受け付ける受付手段と、
    前記受付手段により受け付けられた動画を構成する複数のフレームから対象物画像を抽出する画像抽出手段と、
    前記画像抽出手段により抽出された時間を隔てた複数の対象物画像を一つの単位として形成する形成手段と、
    前記形成手段により形成された単位毎に比較する比較手段と、
    を有する画像処理装置。
  2. 前記比較手段は、予め登録された対象物画像と比較する請求項1記載の画像処理装置。
  3. 前記比較手段は、他の単位を構成する対象物画像と比較する請求項1記載の画像処理装置。
  4. 前記形成手段は、複数の対象物が重なっている場合は、重なっている対象物画像を単位から除く請求項1から3いずれか記載の画像処理装置。
  5. 前記形成手段は、複数の対象物が重なる手前までの対象物画像を前記単位とする請求項1から3いずれか記載の画像処理装置。
  6. 前記抽出手段は、対象物として人物を抽出する請求項1から4いずれか記載の画像処理装置。
  7. 前記抽出手段は、顔認識を含む請求項5記載の画像処理装置。
  8. 動画を受け付けるステップと、
    受け付けられた動画を構成する複数のフレームから対象物画像を抽出するステップと、
    抽出された時間を隔てた複数の対象物画像を一つの単位として形成するステップと、
    形成された単位毎に比較するステップと、
    をコンピュータにより実行させるプログラム。
JP2016169678A 2016-08-31 2016-08-31 画像処理装置及びプログラム Pending JP2018036870A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016169678A JP2018036870A (ja) 2016-08-31 2016-08-31 画像処理装置及びプログラム
US15/447,788 US20180060647A1 (en) 2016-08-31 2017-03-02 Image processing apparatus, non-transitory computer readable medium, and image processing method
CN201710261131.9A CN107798285A (zh) 2016-08-31 2017-04-20 图像处理装置和图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016169678A JP2018036870A (ja) 2016-08-31 2016-08-31 画像処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2018036870A true JP2018036870A (ja) 2018-03-08

Family

ID=61242935

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016169678A Pending JP2018036870A (ja) 2016-08-31 2016-08-31 画像処理装置及びプログラム

Country Status (3)

Country Link
US (1) US20180060647A1 (ja)
JP (1) JP2018036870A (ja)
CN (1) CN107798285A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021149863A (ja) * 2020-03-23 2021-09-27 トヨタ自動車株式会社 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414294B (zh) 2018-04-26 2023-09-26 北京京东尚科信息技术有限公司 行人重识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087150A (ja) * 2005-09-22 2007-04-05 Matsushita Electric Ind Co Ltd 画像再生方法、画像再生機、画像再生プログラム
US20080080743A1 (en) * 2006-09-29 2008-04-03 Pittsburgh Pattern Recognition, Inc. Video retrieval system for human face content
JP2013045152A (ja) * 2011-08-22 2013-03-04 Dainippon Printing Co Ltd 動体追跡装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002342762A (ja) * 2001-05-22 2002-11-29 Matsushita Electric Ind Co Ltd 物体追跡方法
GB2395852B (en) * 2002-11-29 2006-04-19 Sony Uk Ltd Media handling system
JP4297501B2 (ja) * 2004-08-11 2009-07-15 国立大学法人東京工業大学 移動体周辺監視装置
US8325981B2 (en) * 2009-04-21 2012-12-04 Nec Soft, Ltd. Human tracking apparatus, human tracking method, and human tracking processing program
GB2489674A (en) * 2011-03-29 2012-10-10 Sony Corp 3D image generation
US9158996B2 (en) * 2013-09-12 2015-10-13 Kabushiki Kaisha Toshiba Learning image collection apparatus, learning apparatus, and target object detection apparatus
CN105243395B (zh) * 2015-11-04 2018-10-19 东方网力科技股份有限公司 一种人体图像比对方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007087150A (ja) * 2005-09-22 2007-04-05 Matsushita Electric Ind Co Ltd 画像再生方法、画像再生機、画像再生プログラム
US20080080743A1 (en) * 2006-09-29 2008-04-03 Pittsburgh Pattern Recognition, Inc. Video retrieval system for human face content
JP2013045152A (ja) * 2011-08-22 2013-03-04 Dainippon Printing Co Ltd 動体追跡装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021149863A (ja) * 2020-03-23 2021-09-27 トヨタ自動車株式会社 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置
JP7115502B2 (ja) 2020-03-23 2022-08-09 トヨタ自動車株式会社 物体状態識別装置、物体状態識別方法及び物体状態識別用コンピュータプログラムならびに制御装置

Also Published As

Publication number Publication date
CN107798285A (zh) 2018-03-13
US20180060647A1 (en) 2018-03-01

Similar Documents

Publication Publication Date Title
AU2022252799B2 (en) System and method for appearance search
CN107423690B (zh) 一种人脸识别方法及装置
US11188783B2 (en) Reverse neural network for object re-identification
CN106557726B (zh) 一种带静默式活体检测的人脸身份认证系统及其方法
CN108229297B (zh) 人脸识别方法和装置、电子设备、计算机存储介质
JP5010905B2 (ja) 顔認証装置
US20180157892A1 (en) Eye detection method and apparatus
JP6921694B2 (ja) 監視システム
CN112016353B (zh) 一种基于视频的人脸图像进行身份识别方法及装置
CN110569731A (zh) 一种人脸识别方法、装置及电子设备
US20100111375A1 (en) Method for Determining Atributes of Faces in Images
US10311287B2 (en) Face recognition system and method
KR102286571B1 (ko) 영상에서 다수의 객체를 인식하는 방법
JP2018124689A (ja) 移動物体検出装置、移動物体検出システム、及び移動物体検出方法
Barbu An automatic face detection system for RGB images
JP2018088049A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2018036870A (ja) 画像処理装置及びプログラム
JP6338781B2 (ja) 学習装置および学習識別システム
Geetha et al. 3D face recognition using Hadoop
KR102380426B1 (ko) 얼굴 인증 방법 및 장치
KR102112033B1 (ko) 얼굴 군집화 기법을 이용한 영상 추출 장치
Wijaya et al. Phonographic image recognition using fusion of scale invariant descriptor
Bingöl et al. Facial action unit intensity estimation using rotation invariant features and regression analysis
US20240152549A1 (en) Image processing apparatus for search of an image, image processing method and storage medium
JP2015158745A (ja) 行動識別器生成装置、行動認識装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200716

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200907

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20201102

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201208