JP2018036870A

JP2018036870A - 画像処理装置及びプログラム

Info

Publication number: JP2018036870A
Application number: JP2016169678A
Authority: JP
Inventors: 幸寛坪下; Yukihiro Tsuboshita; 尾崎　良太; Ryota Ozaki; 良太尾崎; 亨介重中; Kyosuke Shigenaka; 福井　基文; Motofumi Fukui; 基文福井; 加藤　典司; Noriji Kato; 典司加藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2018-03-08
Also published as: CN107798285A; US20180060647A1

Abstract

【課題】動画を構成するフレームに対して処理を行うものと比較して、正確に対象物を比較することができる画像処理装置及びプログラムを提供する。【解決手段】受付手段であるデータ受付部２６は、動画を受け付ける。画像抽出手段である人物領域抽出部２８は、受け付けた動画を構成する複数のフレームから対象物画像を抽出する。形成手段であるタイムラインセグメント形成部３０は、抽出された時間を隔てた複数の対象物画像を一つの単位として形成する。比較手段であるタイムラインセグメント比較部３４は、形成された単位毎に比較する。【選択図】図２

Description

本発明は、画像処理装置及びプログラムに関する。

非特許文献１は、入力画像から人物等の対象画像を切り出し、切り出した対象画像にニューラルネットワーク（Convolutional Neural Network）を用いて判別するFast R-CNNについて説明している。

非特許文献２は、畳み込みニューラルネットワーク（Convolutional Neural Network）を用いた画像認識について説明している。本文献で用いられている畳み込みニューラルネットワークは著者の名前を取ってアレックスネット（Alex net）と呼ばれている。

非特許文献３は、複数のカメラで撮影された歩行者等の人物画像から同一人物を照合する同一人物同定課題について、トリプルロス（Triplet loss）を導入し、人物の同一性を距離で表現、さらに、画像のどこに着目するかを自動的に学習するビジュアルアテンション（visual attention）機構を導入し、照合精度を向上させた点について説明している。

非特許文献４は、非特許文献３と同様な課題に対して、カーネルサイズを小さくし、階層を深くした深層ニューラルネットワークを用いることで、同一人物を照合する際の性能を向上させた点について説明している。

非特許文献５は、入力された二つのフレーム間の顔同士の距離を計算する標準的な方法であるオープンフェイス（Open Face）について説明している。

特許文献１は、複数の撮像手段により撮像された複数の画像から人の顔特徴点を検出して顔領域を検出する顔領域検出部と、この顔領域検出部により検出された顔領域の画像から顔の特徴量を抽出する顔特徴量抽出部と、予め登録された特定人の顔の特徴量と前記顔特徴量抽出部で抽出された顔の特徴量とから類似度を計算して人物の認識を行う人物認識部と、その人物認識部の認識結果を出力する出力装置とを有することを特徴とする顔画像処理装置を開示する。

特許文献２は、被写体を撮像して得られる画像データ領域中から、動き物体データ領域を検出する手段と、検出された動き物体データ領域中から顔面があるべきデータ領域を抽出する手段と、抽出された顔面データ領域に顔面を特定する画像データが含まれるか否か判定する手段と、前記顔面特定画像データが含まれないと判定されたことに応じて出力を発生させる手段とを備えた、人物認識装置を開示する。

特許文献３は、複数の画像のそれぞれに含まれる人物を認識する人物認識システムであって、前記複数の画像のそれぞれについて、当該画像に含まれる複数の人物を認識する人物認識部と、前記人物認識部による認識結果に基づいて、前記複数の画像の中の、少なくとも一部の画像に含まれる人物のそれぞれの間における親密度を算出する親密度算出部と、前記人物認識部によって、互いに異なる人物として認識された複数の人物のそれぞれの、一の人物に対する前記親密度の差が、予め定められた基準値以下であるか否かを判断する判断部と、互いに異なる人物として認識された複数の人物のそれぞれの、前記一の人物に対する前記親密度の差が、予め定められた基準値以下であると判断された場合に、当該複数の人物が同一人物であると判定し、前記人物認識部による認識結果を修正する修正部とを備える人物認識システムを開示する。

R. Girshick. Fast R-CNN. arXiv:1504.08083, 2015. A. Krizhevsky, I. Sutskever, G. E. Hinton, Imagenet classification with deep convolutional neural networks, NIPS 2012. H. Liu, J. Feng, M. Qi, J. Jiang and S. Yan, End-to-End Comparative Attention Networks for Person Re-identification, IEEE Trans. on Image Processing, vol.14, No. 8, June, 2016. L. Wu, C. Shen, A. van den Hengel, PersonNet: Person Re-identification with Deep Convolutional Neural Networks,http://arxiv.org/abs/1601.07255 F. Schroff, D. Kalenichenko, J. Philbin, Facenet: Aunified embedding for face recognition and clustering, CVPR 2012, pp. 815-823.

特開２００４−１９２３７８号公報特開平７−７３２９８号公報特開２００６−２３６２１６号公報

本発明は、動画を構成するフレームに対して処理を行うものと比較して、正確に対象物を比較することができる画像処理装置及びプログラムを提供することを目的としている。

請求項１に係る本発明は、動画を受け付ける受付手段と、前記受付手段により受け付けられた動画を構成する複数のフレームから対象物画像を抽出する画像抽出手段と、前記画像抽出手段により抽出された時間を隔てた複数の対象物画像を一つの単位として形成する形成手段と、前記形成手段により形成された単位毎に比較する比較手段と、を有する画像処理装置である。

請求項２に係る本発明は、前記比較手段は、予め登録された対象物画像と比較する請求項１記載の画像処理装置である。

請求項３に係る本発明は、前記比較手段は、他の単位を構成する対象物画像と比較する請求項１記載の画像処理装置である。

請求項４に係る本発明は、前記形成手段は、複数の対象物が重なっている場合は、重なっている対象物画像を単位から除く請求項１から３いずれか記載の画像処理装置である。

請求項５に係る本発明は、前記形成手段は、複数の対象物が重なる手前までの対象物画像を前記単位とする請求項１から３いずれか記載の画像処理装置である。

請求項６に係る本発明は、前記抽出手段は、対象物として人物を抽出する請求項１から４いずれか記載の画像処理装置である。

請求項７に係る本発明は、前記抽出手段は、顔認識を含む請求項５記載の画像処理装置である。

請求項８に係る本発明は、動画を受け付けるステップと、受け付けられた動画を構成する複数のフレームから対象物画像を抽出するステップと、抽出された時間を隔てた複数の対象物画像を一つの単位として形成するステップと、形成された単位毎に比較するステップと、をコンピュータにより実行させるプログラムである。

請求項１に係る本発明によれば、動画を構成するフレームに対して処理を行うものと比較して、正確に対象物を比較することができる画像処理装置を提供することができる。

請求項２に係る本発明によれば、請求項１に係る本発明の効果に加えて、対象物を識別することができる。

請求項３に係る本発明によれば、請求項１に係る本発明の効果に加えて、対象物間の距離を同定することができる。

請求項４又は請求項５に係る本発明によれば、請求項１から３いずれかに係る本発明の効果に加えて、複数の対象物が重なった場合に対処することができる。

請求項６に係る本発明によれば、請求項１から４いずれかに係る本発明の効果に加えて、受け付けた動画から人物を比較することができる。

請求項７に係る本発明によれば、請求項５に係る本発明の効果に加えて、顔を比較対象に含めることができる。

請求項８に係る本発明によれば、動画を構成するフレームに対して処理を行うものと比較して、正確に対象物を比較することができるプログラムを提供することができる。

本発明の実施形態に係る画像処理装置のハードウェア構成を示すブロック図である。本発明の実施形態に係る画像処理装置が有する機能を示す機能ブロック図である。本発明の実施形態に係る画像処理装置において、タイムラインセグメントの抽出を説明するための図である。本発明の実施形態に係る画像処理装置において、フレーム間での人物領域間の重なりを説明するための図である。本発明の実施形態に係る画像処理装置において、複数人物の重なり発生を説明するための図である。本発明の第一の実施形態の概要を示す図である。本発明の第一の実施形態におけるタイムラインセグメント比較部の詳細を示すブロック図である。本発明の第一の実施形態全体の制御フローを示すフローチャートである。本発明の第一の実施形態におけるセグメント人物識別処理の制御フローを示すフローチャートである。本発明の第二の実施形態の概要を示す図である。本発明の第二の実施形態におけるタイムラインセグメント比較部の詳細を示すブロック図である。本発明の第二の実施形態における人物間距離同定部の詳細を示すブロック図である。本発明の第二の実施形態全体の制御フローを示すフローチャートである。本発明の第二の実施形態におけるセグメント間距離算出処理の制御フローを示すフローチャートである。

次に、本発明の実施形態について図面を参照して詳細に説明する。

図１は、本発明の一実施形態に係る画像処理装置１０のハードウェア構成を示すブロック図である。画像処理装置１０は、互いにバス１２により接続されるＧＰＵ１４、メモリ１６、表示制御部１８及び通信インターフェイス２０を有する。ＧＰＵ１４は、メモリ１６に記憶されるプログラムにより動作するＣＰＵ機能と、データを並列処理する機能とを有する。表示制御部１８は、液晶ディスプレイ等の表示装置２２に接続され、画像処理装置１０の操作のためのメニューや、画像処理装置１０の動作状況等を表示する。通信インターフェイス２０には、ビデオカメラ２４からの動画がインターネットやＬＡＮを介して入力されるようになっている。

図２は、本発明の一実施形態に係る画像処理装置１０が有する機能を示す機能ブロック図である。データ受付部２６は、前述した通信インターフェイス２０を介して動画を含むデータを受け付ける。

人物領域抽出部２８は、データ受付部２６で受け付けた動画を構成するフレーム（画像）に人物が含まれている場合、自動的に人物領域を(通常)矩形で抽出する。人物領域検出には様々な手法が提案されており標準的な方法を用いればよい。代表的な手法としては、前述した非特許文献１に記載されているfast R-CNN等が存在している。

タイムラインセグメント形成部３０は、人物領域抽出部２８で抽出された人物画像をタイムラインセグメントとして一つの単位として形成する。即ち、図３に示すように、時間Ｔ１のときのフレームＦ１と時間Ｔ２のときのフレームＦ２から抽出した人物領域Ａ〜Ｄについてそれぞれの"重なり"をフレーム間で比較し、フレーム間の重なりが大きい場合には、それらの領域をマージし、一つのタイムラインセグメントとする。重なりが小さい場合には、異なるセグメントとする。重なりの判別には、例えば、フレームの重なり状態を次の式（１）ように定義すればよい。

ここで、Ｓ₁，Ｓ₂，Ｓ₃は、図４で定義される部分の面積である。この重なりが、予め定められた閾値以上の場合を重なりあり、未満の場合を重なりなしと定義すればよい。
なお、図３に示すように、動画として連続していないＴ３のときのフレームＦ３については別のタイムラインセグメントとして扱う。

タイムラインセグメント形成の問題点として、人物同士の重なりが非常に大きくなってしまうと、異なる人物間の異なるセグメントとして形成すべきセグメントを同一のセグメントとしてしまう問題が生じる。即ち、図５に示すように、人物Ｅと人物Ｆが重なる人物領域Ｈｐが存在する場合がある。そこで、タイムラインセグメント形成部３０には、複数人物重なり判定部３２が設けられている。

複数人物重なり判定部３２は、複数人物重なり状態の前後で、異なるセグメントに分ける。そのことにより、一つのセグメントに複数の人物が所属してしまう誤検出を防ぐことができる。

複数人物重なり判定部３２は、例えば、複数人物重なり状態にある人物領域を正事例、重なり状態にない人物領域を不事例として、学習データを用意し、特徴抽出からモデル学習を行うことにより構築し、バイナリ―な識別器を構成する。特徴抽出としては、ＨＯＧ特徴量、ＳＩＦＴ＋ＢＯＦ特徴量等、どのような画像特徴を用いても良いし、モデル学習は、ＳＶＭなどの分類器用いればよい。また、非特許文献２で示したAlex netに代表されるConvolutional Neural Networkを用いて、ＲＧＢの入力から、直接、識別器を形成することも可能である。

タイムラインセグメント比較部３４は、タイムラインセグメント形成部３０で形成されたタイムラインセグメントの比較を行う。また、出力部３６は、例えば前述した表示制御部１８を介して表示装置２２に、タイムラインセグメント比較部３４で比較した結果を表示する。

タイムラインセグメントの比較には、人物識別を行う第一の実施形態と、人物間の距離を算出する第二の実施形態がある。

まず、第一の実施形態について説明する。
図６は、個人識別を用いて複数の人物が撮影された動画３８から、特定の人物が撮影されたシーンを抽出する一例を示している。まず、動画３８が入力されると、人物検出技術を用いて人物領域を矩形領域として抽出し、重なりの程度から複数のタイムラインセグメント４０ａ，４０ｂ，４０ｃを抽出する。タイムラインセグメント４０ａ，４０ｂ，４０ｃそれぞれに対して、個人識別技術により個人を識別する。ここでは、事前に登録された人物Ａと人物Ｂの撮影されたシーンの抽出を行っている。個人識別を行うことにより、タイムラインセグメント４０ａ，４０ｂは人物Ａに、タイムラインセグメント４０ｃは人物Ｂにそれぞれ仕分けられる。

第一の実施形態においては、図２に示したタイムラインセグメント比較部３４は、図７に示すように、セグメント人物識別部４２となる。

セグメント人物識別部４２は、セグメント中のフレーム毎に人物識別部４４により個人識別を行い、セグメントの判別はそれぞれの人物ＩＤのスコアを統合することで個人識別を実現する。統合の手法としては、それぞれの人物ＩＤのスコアを足し合わせる等の処理を行えばよい。

さらに、一般的に用いられている顔認識技術と組み合わせることが可能である。組み合わせ方は、例えば、重みつきでスコアを足し合わせること等が考えられる。

即ち、セグメント人物識別部４２は人物識別部４４を有し、顔検出部４６及び顔認識部４８を組み合わせる。

人物識別部４４は、予め動画に登場する複数の人物を学習させておき、セグメント内のフレーム(画像)が入力されると、その人物のＩＤを推定する。学習は識別すべき全ての人物にＩＤを振り、その人物が写っている人物領域画像をそのＩＤの正事例として収集し、人数分の学習データを収集する。その上で、学習データを用意し、特徴抽出からモデル学習を行うことにより構築することができる。特徴抽出としては、ＨＯＧ特徴量、ＳＩＦＴ＋ＢＯＦ特徴量などどのような画像特徴を用いても良いし、モデル学習は、ＳＶＭなどの分類器用いればよい。また、非特許文献２で示したAlex netに代表されるConvolutional Neural Networkを用いて、RGBの入力から直接、識別器を形成することも可能である。

顔検出部４６は、セグメント内のフレームが入力されると、顔領域を検出する。
認識部４８は、顔検出部４６により顔検出が成功した場合に、予め登録されている人物に対して付与されているＩＤごとに人物ＩＤのスコアを計算する。

図８は、第一の実施形態における制御フローを示すフローチャートである。
まずステップＳ１０において、動画を受け付ける。次のステップＳ１２においては、ステップＳ１０で受け付けた動画をフレーム（画像）に分割する。次のステップＳ１４においては、ステップＳ１２で分割したフレームからタイムラインセグメントを形成する。次のステップＳ１６においては、セグメント人物識別処理を実施する。さらに次のステップＳ１８においては、全てのセグメントでの処理が完了したか否かを判定する。このステップＳ１８において、全てのセグメントでの処理が完了したと判定された場合は処理を終了し、全てのセグメントでの処理が完了していないと判定された場合はステップＳ１６へ戻り、全てのセグメントの処理が完了するまで実行される。

図９は、ステップＳ１６でのセグメント人物識別処理の詳細な制御フローを示すフローチャートである。

まずステップＳ１６１において、セグメントを入力する。次のステップＳ１６２においては、前述したステップＳ１２で分割したフレーム（画像）に対する個人識別を実施する。次のステップＳ１６３においては、全てのフレームの処理が完了したか否かを判定する。全てのフレームの処理が完了した場合は、次のステップＳ１６４へ進み、フレームごと、人物ごとに計算したスコアを統合し、処理を終了する。一方、ステップＳ１６３において、全てのフレームの処理が完了していないと判定された場合はステップＳ１６２へ戻り、全てのフレームの処理が完了するまで実行される。

次に第二の実施形態について説明する。

図１０は、第一の実施形態と同様に、個人識別を用いて複数の人物が撮影された動画３８から、特定の人物が撮影されたシーンを抽出する一例を示している。まず、動画３８が入力されると、人物検出技術を用いて人物領域を矩形領域として抽出し、重なりの程度から複数のタイムラインセグメント４０ａ，４０ｂ，４０ｃを抽出する。タイムラインセグメント４０ａ，４０ｂ，４０ｃそれぞれに対して、同一人物判別技術を用いてクラスタリングを実施する。

第二の実施形態においては、図２に示したタイムラインセグメント比較部３４は、図１１に示すように、セグメント間距離判別部４２となる。

セグメント間距離判別部４２は、入力された二つのセグメント間の距離を計算する。算出手法としては、二つのセグメントに含まれるフレームの全ての組み合わせで距離を算出し、その平均として二つのセグメント間の距離を定義すればよい。また、他にも、例えば、ハウスドルフ距離などの集合間距離として定義するなどの方法がある。

即ち、セグメント間距離判別部４２は、人物間距離同定部４４を有し、顔認識部４６及び顔間距離算出部４８を組み合わせる。

人物間距離同定部４４は、入力された二人の人物が同一人物であるかどうかを判別する。

図１２は、人物間距離同定部４４の一例を示す。図１２において、特徴抽出器として深層学習ネットワーク５０ａ，５０ｂを用い、深層学習ネットワーク５０ａ，５０ｂの学習結果の差分を求めて差分ベクトルとし、AdaBoost識別器５２を用いて同一人物の推定を行い、同一人物であるか否かを判別する。この実施形態においては、識別器として例えばAdaBoost識別器５２を用いた構成を示したが、もちろんこれは一例である。

ここでは、同一人物である/でない、の２値の結果を返す構成であるが、人物間距離としては、同一人物であると判別された場合、あらかじめ定められた小さな数、そうでない場合は、あらかじめ定められた大きな数を返すことで、人物間距離を定義すればよい。

また、非特許文献３、４のように深層学習を用いて、特徴抽出から識別までをエンド・ツー・エンドで行う手法の適用も可能である。

顔認識部４６は、セグメント内のフレームが入力されると、顔領域を検出して認識する。また、顔間距離算出部４８は、顔検出が成功した場合には、入力された二つのフレーム間の顔同士の距離を計算する。標準的な方法としては、非特許文献５で示したOpen Fac等の手法が存在する。

さらに、セグメント間距離補正部５４を設けるようにしても良い。このセグメント間距離補正部５４は、同一時空間に存在しているセグメントは必ず異なる人であるという制約を用いて距離の補正を行う。

そして、このようにセグメント間の距離を判別し、クラスタリングを行う。クラスタリングは、セグメント間距離算出部４２が算出したクラスタ間の距離を元に行う。クラスタリングの手法としては、例えば、k-means法や、種々の階層クラスタリング手法を用いればよい。

図１３は、第二の実施形態における制御フローを示すフローチャートである。
まずステップＳ２０において、動画を受け付ける。次のステップＳ２２においては、ステップＳ２０で受け付けた動画をフレーム（画像）に分割する。次のステップＳ２４においては、ステップＳ２２で分割したフレームからタイムラインセグメントを形成する。次のステップＳ２６においては、セグメント間距離を算出する。さらに次のステップＳ２８においては、全てのセグメントでの組み合わせで処理が完了したか否かを判定する。このステップＳ２８において、全てのセグメントでの組み合わせで処理が完了したと判定された場合はステップＳ３０に進み、クラスタリングを実施して処理を終了する。一方、ステップＳ２８において、全てのセグメントでの組み合わせで処理が完了していないと判定された場合はステップＳ２６へ戻り、全てのセグメントでの組み合わせで処理が完了するまで実行される。

図１４は、ステップＳ２６でのセグメント間距離識別処理の詳細な制御フローを示すフローチャートである。

まずステップＳ２６１において、セグメントを入力する。次のステップＳ２６２においては、前述したステップＳ２２で分割したフレーム（画像）間の距離を算出する。次のステップＳ２６３においては、全ての組み合わせでの処理が完了したか否かを判定する。全ての組み合わせでの処理が完了した場合は、次のステップＳ２６４へ進み、フレーム間の距離を算出し、処理を終了する。一方、ステップＳ２６３において、全ての組み合わせでの処理が完了していないと判定された場合はステップＳ２６２へ戻り、全ての組み合わせでの処理が完了するまで実行される。

なお、上記実施形態においては、対象物として人物が選択されているが、これに限るものでは無く、例えば動物、自動車等、あらゆる物を対象とすることができる。

１０画像処理装置
１４ＧＰＵ
１６メモリ
２４ビデオカメラ
２６データ受付部
２８人物領域抽出部
３０タイムラインセグメント形成部
３２複数人物重なり状態判別部
３４タイムラインセグメント比較部

Claims

動画を受け付ける受付手段と、
前記受付手段により受け付けられた動画を構成する複数のフレームから対象物画像を抽出する画像抽出手段と、
前記画像抽出手段により抽出された時間を隔てた複数の対象物画像を一つの単位として形成する形成手段と、
前記形成手段により形成された単位毎に比較する比較手段と、
を有する画像処理装置。
前記比較手段は、予め登録された対象物画像と比較する請求項１記載の画像処理装置。
前記比較手段は、他の単位を構成する対象物画像と比較する請求項１記載の画像処理装置。
前記形成手段は、複数の対象物が重なっている場合は、重なっている対象物画像を単位から除く請求項１から３いずれか記載の画像処理装置。
前記形成手段は、複数の対象物が重なる手前までの対象物画像を前記単位とする請求項１から３いずれか記載の画像処理装置。
前記抽出手段は、対象物として人物を抽出する請求項１から４いずれか記載の画像処理装置。
前記抽出手段は、顔認識を含む請求項５記載の画像処理装置。
動画を受け付けるステップと、
受け付けられた動画を構成する複数のフレームから対象物画像を抽出するステップと、
抽出された時間を隔てた複数の対象物画像を一つの単位として形成するステップと、
形成された単位毎に比較するステップと、
をコンピュータにより実行させるプログラム。