JP7157784B2

JP7157784B2 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP7157784B2
Application number: JP2020152219A
Authority: JP
Inventors: 匠田中; 裕矢持丸; 裕介秋元; 竜也佐久間; 真映堀越
Original assignee: Arise Analytics Inc
Current assignee: Arise Analytics Inc
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2022-10-20
Anticipated expiration: 2039-11-19
Also published as: JP2021082255A

Description

本発明は、画像処理装置、画像処理方法、及びプログラムに関する。

従来、防犯や店舗における客の動線解析、介護施設における見守り用途で、施設内部に設置されたカメラが撮像した映像を解析し、人物の移動経路を特定する技術が提案されている（例えば、特許文献１を参照）。

特開２００３－２５０１５０号公報

上記の技術は、単一のカメラが撮影した同一の動画像に基づいて人物を追跡することを前提とした技術である。同一動画内で人物を追跡する場合であっても、同一人物が離れた時間帯に撮像されている状況などには、異なる人物として追跡される場合があった。このため、動画における対象の追跡技術の精度を向上することが求められている。

本発明はこれらの点に鑑みてなされたものであり、動画における対象の追跡技術の精度を向上させる技術を提供することを目的とする。

本発明の第１の態様は、画像処理装置である。この装置は、動画を構成する複数のフレーム画像のそれぞれから、検出対象を含む領域である対象領域を抽出する領域抽出部と、抽出された対象領域それぞれについて、各対象領域に含まれる検出対象同士の異同を判定するための特徴量を抽出する特徴量抽出部と、前記特徴量に基づいて、前記動画を構成する複数のフレーム画像を、同一の検出対象を連続して含む１又は複数のフレーム群に分類するフレーム分類部と、前記１又は複数のフレーム群に含まれる前記特徴量に基づいて、前記１又は複数のフレーム群のうち、同一の検出対象を含むフレーム群を対応づけたデータであるトラックデータを生成するトラック生成部と、を備える。

前記画像処理装置は、前記トラック生成部が生成した前記動画に由来する前記トラックデータである第１トラックデータと、前記動画とは異なる動画であって、前記検出対象が含まれるか否かの判定の対象となる第２動画に由来する前記トラックデータである第２トラックデータとを取得するトラックデータ取得部と、前記第１トラックデータを構成する各フレーム画像から抽出された前記特徴量である第１特徴量群と、前記第２トラックデータを構成する各フレーム画像から抽出された前記特徴量である第２特徴量群とに基づいて、前記第２トラックデータに含まれる検出対象が、前記第１トラックデータに含まれる検出対象と同一の検出対象か否かを判定する判定部と、同一の検出対象が含まれると判定された前記第１トラックデータと前記第２トラックデータとの組を出力するトラックデータ出力部と、をさらに備えてもよい。

前記判定部は、前記第１トラックデータに含まれる複数のフレーム画像のうちのいずれかのフレーム画像と、前記第２トラックデータに含まれる複数のフレーム画像のうちのいずれかのフレーム画像と、の組み合わせによって構成される複数の画像組を生成する組生成部と、前記画像組を構成するフレーム画像から抽出された前記特徴量に基づいて、各画像組を構成するフレーム画像間の類似度を取得する類似度取得部と、画像組毎の前記類似度に基づいて、前記第２トラックデータに含まれる検出対象が、前記第１トラックデータに含まれる検出対象と同一の検出対象か否かを決定する類比決定部と、を備えてもよい。

前記画像処理装置は、前記検出対象の指定を指定対象として受け付ける受付部をさらに備えてもよく、前記判定部は、前記第２トラックデータのうち前記指定対象が含まれるトラックデータを判定してもよく、前記トラックデータ出力部は、前記指定対象を含む前記第１トラックデータと、前記指定対象を含む前記第２トラックデータとの組を出力してもよい。

前記画像処理装置は、前記動画と前記第２動画とのそれぞれを撮像した撮像機器を示す情報である第１機器情報と第２機器情報とを取得する機器情報取得部をさらに備えてもよく、前記トラックデータ取得部は、前記第１機器情報と前記第２機器情報とが一致することを条件として、前記第２トラックデータを取得してもよい。

前記画像処理装置は、前記第１トラックデータと前記第２トラックデータとのそれぞれに含まれる前記検出対象の移動方向を示す第１移動方向と第２移動方向とを取得する移動方向取得部をさらに備えてもよく、前記判定部は、第１移動方向と第２移動方向とがあらかじめ定めた所定の範囲に含まれることを条件として、前記第２トラックデータに含まれる検出対象が、前記第１トラックデータに含まれる検出対象と同一の検出対象か否かを判定してもよい。

前記画像処理装置は、前記動画と前記第２動画とのそれぞれの撮像日を取得する撮像日取得部をさらに備えてもよく、前記特徴量抽出部は、前記動画の撮像日と前記第２動画の撮像日とが同一の場合と異なる場合とで、前記特徴量の抽出手法を変更してもよい。

本発明の第２の態様は、画像処理方法である。この方法において、プロセッサが、動画を構成する複数のフレーム画像のそれぞれから、検出対象を含む領域である対象領域を抽出するステップと、抽出された対象領域それぞれについて、各対象領域に含まれる検出対象同士の異同を判定するための特徴量を抽出するステップと、前記特徴量に基づいて、前記動画を構成する複数のフレーム画像を、同一の検出対象を連続して含む１又は複数のフレーム群に分類するステップと、前記１又は複数のフレーム群に含まれる前記特徴量に基づいて、前記１又は複数のフレーム群のうち、同一の検出対象を含むフレーム群を対応づけたデータであるトラックデータを生成するステップと、を実行する。

本発明における第３の態様は、プログラムである。このプログラムは、コンピュータに、動画を構成する複数のフレーム画像のそれぞれから、検出対象を含む領域である対象領域を抽出する機能と、抽出された対象領域それぞれについて、各対象領域に含まれる検出対象同士の異同を判定するための特徴量を抽出する機能と、前記特徴量に基づいて、前記動画を構成する複数のフレーム画像を、同一の検出対象を連続して含む１又は複数のフレーム群に分類する機能と、前記１又は複数のフレーム群に含まれる前記特徴量に基づいて、前記１又は複数のフレーム群のうち、同一の検出対象を含むフレーム群を対応づけたデータであるトラックデータを生成する機能と、を実現させる。

このプログラムを提供するため、あるいはプログラムの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。

なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、動画における対象の追跡技術の精度を向上させることができる。

実施の形態に係る画像処理装置が実行する画像処理の概要を説明するための図である。実施の形態に係る画像処理装置の機能構成を模式的に示す図である。実施の形態に係るトラックデータ作成部及び判定部の内部構成を模式的に示す図である。実施の形態に係る検出対象領域、第１領域、及び第２領域の一例を示す模式図である。実施の形態に係る類似度取得部が各画像組から取得した類似度の一覧を表形式で示す模式図である。実施の形態に係る検索対象指定部の内部構成を模式的に示す図である。実施の形態に係る領域抽出部が抽出する特定領域の一例を模式的に示す図である。実施の形態に係る画像処理装置が実行する画像処理の流れを説明するためのフローチャートである。実施の形態に係るトラックデータ作成部が実行するトラックデータの生成処理を説明するためのフローチャートである。実施の形態に係る判定部が実行する類比判定処理を説明するためのフローチャートである。

＜実施の形態の概要＞
図１（ａ）－（ｃ）は、実施の形態に係る画像処理装置が実行する画像処理の概要を説明するための図である。実施の形態に係る画像処理装置は、２つの異なる動画それぞれに含まれる同一の被写体を検出対象として、その被写体が含まれるフレーム画像を紐づける。実施の形態に係る画像処理装置が扱う検出対象は、人物、車両、飛行体、商品等、種々の物を設定できる。以下では、図１を参照して、検出対象が人物であることを前提として実施の形態の概要を述べる。

図１（ａ）は、実施の形態に係る画像処理装置が処理対象とする動画Ｍと、その動画Ｍから抽出するフレーム画像Ｆの集合とを模式的に示す図である。一般に、動画Ｍは複数のフレーム画像Ｆから構成されている。図１（ａ）に示す動画Ｍのフレーム画像Ｆには、男性の被写体Ｓ１と、女性の被写体Ｓ２とが含まれている。

実施の形態に係る画像処理装置は、まず単一の動画Ｍを構成するフレーム画像Ｆから、男性の被写体Ｓ１を連続して含むトラックデータＴを生成する。図１（ａ）は、画像処理装置が、男性の被写体Ｓ１を連続して含む３つのフレーム画像Ｆの集合を第１トラックデータＴ１として生成した場合の例を示している。続いて、実施の形態に係る画像処理装置は、女性の被写体Ｓ２を連続して含むトラックデータＴを生成する。図１（ａ）は、画像処理装置が、女性の被写体Ｓ２を連続して含む２つのフレーム画像Ｆの集合を第２トラックデータＴ２として生成した場合の例を示している。

なお、図１（ａ）において、第１トラックデータＴ１は３つのフレーム画像群が含まれる。一つ一つのフレーム群は、男性の被写体Ｓ１を時間的に連続して含んでいる。図１（ａ）は、同一の動画Ｍにおいて、異なる３つの時間帯において男性の被写体Ｓ１を連続して含む時間帯が存在したため、実施の形態に係る画像処理装置は３つのフレーム画像群を生成して第１トラックデータＴ１として生成したことを示している。女性の被写体Ｓ２についても同様である。

詳細は後述するが、実施の形態に係る画像処理装置は、動画Ｍを構成する各フレーム画像Ｆから検出対象を含む矩形領域を抽出し、その後、矩形領域を、被写体Ｓを含む領域とそれ以外の背景領域とに分割する。その後、実施の形態に係る画像処理装置１は、各フレーム画像Ｆにおける被写体Ｓを含む領域から抽出した特徴量に基づいて、異なるフレーム画像Ｆ間に含まれる被写体Ｓの類似度を算出する。実施の形態に係る画像処理装置は、算出した類似度に基づいてフレームの集合を生成する。これにより、実施の形態に係る画像処理装置は、各フレーム画像Ｆに含まれる背景領域の影響を低減し、フレーム間に含まれる被写体同士の類比判定の精度を向上することができる。結果として、撮影画像同士の比較の精度を向上させることができる。

図１（ｂ）は、実施の形態に係る画像処理装置が生成するトラックデータＴの組Ｐを模式的に示す図である。図１（ｂ）において、第３トラックデータＴ３は、実施の形態に係る画像処理装置が、図１（ａ）に示す動画Ｍとは異なる他の動画Ｍ（不図示）から男性の被写体Ｓ１を含むトラックデータＴを生成した結果を示している。同様に、第４トラックデータＴ４は、実施の形態に係る画像処理装置が、図１（ａ）に示す動画Ｍとは異なる他の動画Ｍから女性の被写体Ｓ２を含むトラックデータＴを生成した結果を示している。

実施の形態に係る画像処理装置は、異なる動画Ｍからそれぞれ独立に生成された同一の被写体Ｓを含むトラックデータＴを対応づけて、トラックデータＴの組Ｐとして生成する。図１（ｂ）に示す例では、実施の形態に係る画像処理装置は、男性の被写体Ｓ１を含むトラックデータＴの組Ｐを第１組Ｐ１として生成し、女性の被写体Ｓ２を含むトラックデータＴの組Ｐを第２組Ｐ２として生成している。

実施の形態に係る画像処理装置は、ユーザから検出対象の指定を受け付け、その検出対象を被写体に含むトラックデータＴの組Ｐを出力する。図１（ｃ）は、実施の形態に係る画像処理装置が出力するトラックデータＴの組Ｐを示す図である。図１（ｃ）に示す例では、実施の形態に係る画像処理装置が、検出対象として男性の被写体Ｓ１を指定された場合の出力例を示している。

このように、実施の形態に係る画像処理装置は、まず単一の動画Ｍを構成する複数のフレーム画像Ｆの中から、同一の検出対象が時間的に連続して存在するフレーム群を抽出し、抽出したフレーム群をまとめてトラックデータＴを生成する。続いて、実施の形態に係る画像処理装置は、異なる動画Ｍからそれぞれ独立に生成したトラックデータＴのうち、同一の検出対象を含んでいるトラックデータＴを対応づけてトラックデータＴの組Ｐを生成する。これより、実施の形態に係る画像処理装置は、複数の動画Ｍをまたいでの検出対象とする被写体Ｓの追跡を実現することができる。

＜実施の形態に係る画像処理装置１の機能構成＞
図２は、実施の形態に係る画像処理装置１の機能構成を模式的に示す図である。画像処理装置１は、記憶部２と制御部３とを備える。図２において、矢印は主なデータの流れを示しており、図２に示していないデータの流れがあってもよい。図２において、各機能ブロックはハードウェア（装置）単位の構成ではなく、機能単位の構成を示している。そのため、図２に示す機能ブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。機能ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてもよい。

記憶部２は、画像処理装置１を実現するコンピュータのＢＩＯＳ（Basic Input Output System）等を格納するＲＯＭ（Read Only Memory）や画像処理装置１の作業領域となるＲＡＭ（Random Access Memory）、ＯＳ（Operating System）やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置である。

制御部３は、画像処理装置１のＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサであり、記憶部２に記憶されたプログラムを実行することによって、画像取得部３０、トラックデータ作成部３１、トラックデータ取得部３２、判定部３３、トラックデータ出力部３４、及び検索対象指定部３５として機能する。

なお、図２は、画像処理装置１が単一の装置で構成されている場合の例を示している。しかしながら、画像処理装置１は、例えばクラウドコンピューティングシステムのように複数のプロセッサやメモリ等の計算リソースによって実現されてもよい。この場合、制御部３を構成する各部は、複数の異なるプロセッサの中の少なくともいずれかのプロセッサがプログラムを実行することによって実現される。

画像取得部３０は、処理対象となる動画Ｍを取得する。トラックデータ作成部３１は、画像取得部３０が取得した動画からトラックデータＴを作成する。トラックデータ取得部３２は、トラックデータ作成部３１が異なる２つの動画Ｍからそれぞれ独立に生成した２つの異なるトラックデータＴを取得する。判定部３３は、トラックデータ取得部３２が取得した２つの異なるトラックデータＴに含まれる検出対象が同一か否かを判定する。トラックデータ出力部３４は、トラックデータ出力部３４によって２つの異なるトラックデータＴに含まれる検出対象が同一であると判定された場合、２つのトラックデータＴを組Ｐにして出力する。これにより、画像処理装置１は、動画Ｍに含まれる同一の検出対象をまとめたトラックデータを生成することができる。なお、検索対象指定部３５が画像処理装置１のユーザから検索対象の指定を受け付けている場合には、トラックデータ出力部３４は、指定を受けた検索対象を含むトラックデータＴの組Ｐを出力する。

トラックデータ作成部３１と判定部３３とは一部の機能を共有している。図２においては、トラックデータ作成部３１と判定部３３との共有部分を、斜線を付した矩形によって示している。以下、実施の形態に係るトラックデータ作成部３１と判定部３３とについてより詳細に説明する。

図３は、実施の形態に係るトラックデータ作成部３１及び判定部３３の内部構成を模式的に示す図である。トラックデータ作成部３１は、領域抽出部４０、領域分割部４１、特徴量抽出部４２、フレーム分類部３１０、及びトラック生成部３１１を備える。また、判定部３３は、領域抽出部４０、領域分割部４１、特徴量抽出部４２、組生成部３３０、類似度取得部３３１、及び類比決定部３３２を備える。図３に示すように、トラックデータ取得部３２と判定部３３は、領域抽出部４０、領域分割部４１、及び特徴量抽出部４２を共有している。

領域抽出部４０は、動画Ｍを構成する複数のフレーム画像Ｆのそれぞれから、検出対象を含む領域である対象領域を抽出する。領域抽出部４０は、例えばＤＮＮ（Deep Neural Network）等の既知の機械学習手法を用いて作成された領域抽出エンジンを用いて対象領域の抽出を実現できる。限定はしないが、領域抽出部４０は、検出対象を含む矩形領域を検出対象領域として抽出する。

領域分割部４１は、対象領域を検索対象の物体が映る第１領域とそれ以外の背景領域である第２領域とに分割する。
図４（ａ）－（ｂ）は、実施の形態に係る検出対象領域、第１領域、及び第２領域の一例を示す模式図である。具体的に、図４（ａ）は、画像取得部３０が取得した動画Ｍを構成するフレーム画像Ｆの一例を示す図である。また、図４（ｂ）は、図４（ａ）に示すフレーム画像Ｆから抽出された対象領域Ｒ、第１領域Ｒ１、及び第２領域Ｒ２を示す図である。

図４（ａ）に示すフレーム画像Ｆには、男性の被写体Ｓが含まれている。また、被写体Ｓの背景には、縞模様の床等が撮像されている。図４（ｂ）に示すように、領域抽出部４０は、フレーム画像Ｆから、男性の被写体Ｓに外接する矩形を対象領域Ｒとして抽出する。また、領域分割部４１は、対象領域Ｒのうち、男性の被写体Ｓを含む第１領域Ｒ１とそれ以外の背景領域である第２領域Ｒ２に分割する。図４（ｂ）において、第２領域Ｒ２は、格子状のメッシュが付された領域である。

図３の説明に戻る。特徴量抽出部４２は、画像取得部３０が複数のフレーム画像Ｆから抽出した対象領域Ｒそれぞれについて、各対象領域Ｒに含まれる検出対象同士の異同を判定するための特徴量を抽出する。より具体的には、特徴量抽出部４２は、領域分割部４１が分割した第１領域Ｒ１から特徴量を抽出する。ここで、特徴量抽出部４２が対象領域Ｒから抽出する特徴量の一例としては、対象領域Ｒに対して複数のフィルタリング処理をして得られた複数の数値群である。

一例として、特徴量抽出部４２は、既知の機械学習手法であるＣＮＮ（Convolutional Neural Network）を用いて作成された学習モデルを利用して各領域に含まれる検出対象の特徴量を出力する。例えば、学習モデルは、対象画像を入力として生成される特徴量と、別の対象画像を入力として生成される特徴量について、入力画像が同一の対象の場合には特徴量同士の距離が近く、入力画像が別の対象の場合は特徴量同士の距離が遠くなるようあらかじめ学習し生成されている（距離学習）。この場合、特徴量抽出部４２が特徴量を抽出するために用いるフィルタは、ＣＮＮの学習モデルに含まれるコンボリューションフィルタということができる。このような学習モデルは、記憶部２にあらかじめ記憶されている。

フレーム分類部３１０は、特徴量抽出部４２が抽出した特徴量に基づいて、動画Ｍを構成する複数のフレーム画像Ｆを、同一の検出対象を連続して含む１又は複数のフレーム群に分類する。一例として、フレーム分類部３１０は、特徴量抽出部４２が抽出した特徴量に対してコサイン類似度などの指標が一定の閾値以上かどうかをもって分類を実現することができる。

トラック生成部３１１は、１又は複数のフレーム群に含まれる特徴量に基づいて、１又は複数のフレーム群のうち、同一の検出対象を含むフレーム群を対応づけたデータであるトラックデータＴを生成する。トラック生成部３１１も、フレーム分類部３１０と同様に、コサイン類似度などの指標を用いて各フレーム群に含まれる検出対象の類比を判定することにより、フレーム群の対応づけを実現できる。

ここで、トラックデータ取得部３２は、第１動画に由来するトラックデータＴである第１トラックデータＴ１と、第１動画とは異なる動画である第２動画に由来するトラックデータＴである第２トラックデータＴ２とを取得したとする。ここで、第２動画は、第１トラックデータＴ１の検出対象が含まれるか否かの判定の対象となる動画Ｍである。この場合、判定部３３は、第１トラックデータＴ１を構成する各フレーム画像Ｆから抽出された特徴量である第１特徴量群と、第２トラックデータＴ２を構成する各フレーム画像Ｆから抽出された特徴量である第２特徴量群とに基づいて、第２トラックデータＴ２に含まれる検出対象が、第１トラックデータに含まれる検出対象と同一の検出対象か否かを判定する。

具体的には、まず、判定部３３が備える組生成部３３０は、第１トラックデータに含まれる複数のフレーム画像Ｆのうちのいずれかのフレーム画像Ｆと、第２トラックデータに含まれる複数のフレーム画像Ｆのうちのいずれかのフレーム画像Ｆと、の組み合わせによって構成される複数の画像組を生成する。限定はしないが、一例として、組生成部３３０は、第１トラックデータＴ１に含まれる全てのフレーム画像Ｆと、第２トラックデータＴ２に含まれる全てのフレーム画像Ｆとの全ての組み合わせについて画像組を生成する。

組生成部３３０が生成する各画像組について、第１トラックデータＴ１に由来するフレーム画像Ｆを第１画像とし、第２トラックデータＴ２に由来するフレーム画像Ｆを第２画像とする。領域抽出部４０は、第１画像から検索対象を含む領域である検索元領域を抽出するとともに、第２画像から検索候補を含む領域である検索先領域を抽出する。検索元領域は第１画像における上述した対象領域Ｒに相当し、検索先領域は第２画像における対象領域Ｒに相当する。

領域分割部４１は、検索元領域を検索対象が映る第１領域とそれ以外の領域である第２領域とに分割するとともに、検索先領域を検索候補が映る第３領域とそれ以外の領域である第４領域とに分割する。特徴量抽出部４２は、第１領域から第１特徴量を抽出するとともに、第３領域から第３特徴量を抽出する。

より具体的には、特徴量抽出部４２は、検索元領域から第１領域に相当する特徴量を抽出するために、第２領域に相当する画素に対して所定の係数を乗じたデータを用いて第３特徴量を算出する。

上述したように、対象領域Ｒは、第１領域Ｒ１と第２領域Ｒ２とが混在する。そこで、特徴量抽出部４２は、第２領域Ｒ２を構成するデータに０以上１未満の実数を所定の係数として乗じた後にフィルタ処理を実行する。これにより、特徴量抽出部４２は、背景領域である第２領域Ｒ２の影響を低減することができる。第４領域Ｒ４についても同様である。

図３の説明に戻る。類似度取得部３３１は、画像組を構成するフレーム画像Ｆから抽出された特徴量に基づいて、各画像組を構成するフレーム画像Ｆ間の類似度を取得する。具体的には、類似度取得部３３１は、記憶部２から読み出した学習モデルに第１特徴量と第３特徴量とを入力することによって、各画像組を構成するフレーム画像Ｆ間の類似度を取得する。

図５は、実施の形態に係る類似度取得部３３１が各画像組から取得した類似度の一覧を表形式で示す模式図である。図５は、第１トラックデータに含まれるフレーム画像Ｆの数がＮ（Ｎは自然数）であり、第２トラックデータに含まれるフレーム画像Ｆの数がＭ（Ｍは自然数）である場合の例を示している。図５において、第１トラックデータに含まれるｉ番目のフレーム画像Ｆと、第２トラックデータに含まれるｊ番目のフレーム画像Ｆとの類似度でＳｉｊである。例えば、第１トラックデータに含まれる１番目のフレーム画像Ｆと、第２トラックデータに含まれる１番目のフレーム画像Ｆとの類似度でＳ１１であり、第１トラックデータに含まれる２番目のフレーム画像Ｆと、第２トラックデータに含まれる３番目のフレーム画像Ｆとの類似度でＳ２３である。以下同様である。

類比決定部３３２は、類似度取得部３３１が取得した類似度に基づいて、検索対象と検索候補とが同一か否かを決定する。具体的には、類比決定部３３２は、図６に示す各画像組における類似度から算出される統計量（例えば、各類似度の平均値、最頻値、中央値、最大値等）に基づいて、検索対象と検索候補とが同一か否かを決定する。類似度取得部３３１が取得する類似度が大きいほど類似していることを示す場合には、類比決定部３３２は、各画像組における類似度から算出される統計量が所定の閾値よりも大きい場合、検索対象と検索候補とが同一と判定する。

図２の説明に戻り、トラックデータ出力部３４は、同一の検出対象が含まれると類比決定部３３２によって判定された第１トラックデータと第２トラックデータとの組Ｐを出力する。このように、実施の形態に係る画像処理装置１は、複数の動画Ｍそれぞれについて、まず同一の動画Ｍ内で同一の被写体Ｓを含むフレーム群のセットであるトラックデータＴを生成する。続いて、画像処理装置１は、異なる動画Ｍそれぞれについて生成されたトラックデータＴの検出対象の類比を判定することにより、異なる動画Ｍをまたいで同一の検出対象の検出を実現することができる。結果として、画像処理装置１は、動画における対象の追跡技術の精度を向上させることができる。

図６は、実施の形態に係る検索対象指定部３５の内部構成を模式的に示す図である。実施の形態の形態に係る検索対象指定部３５は、受付部３５０、機器情報取得部３５１、移動方向取得部３５２、及び撮像日取得部３５３を備える。以下、図６を参照して、実施の形態に係る検索対象指定部３５を説明する。

受付部３５０は、画像処理装置１のユーザから検出対象の指定を指定対象として受け付ける。具体的には、受付部３５０は、キーボードやポインティング等の図示しない画像処理装置１のユーザインターフェースを介して、画像処理装置１のユーザから検出対象の指定を指定対象として受け付ける。この場合、判定部３３は、第２トラックデータのうち指定対象が含まれるトラックデータを判定する。トラックデータ出力部３４は、指定対象を含む第１トラックデータと、指定対象を含む第２トラックデータとの組Ｐを出力する。これにより、画像処理装置１は、複数の被写体Ｓをそれぞれ含むトラックデータの中から、指定対象が含まれるトラックデータの組Ｐを出力することができる。

また、画像取得部３０が複数の動画Ｍを取得する場合、いずれかの動画Ｍを撮像した撮像装置が他の動画Ｍを撮像した撮像装置と異なることも起こりうる。例えば、実施の形態に係る画像処理装置１を特定の施設に出入りする人の追跡に用いる場合には、その施設の出入り口に設置されている撮像装置で撮像された動画Ｍを処理対象とすべきである。すなわち、トラックデータ取得部３２が取得するトラックデータＴの由来となる動画Ｍの撮像装置を限定することが求められる場合がある。

そこで、機器情報取得部３５１は、第１動画と第２動画とのそれぞれを撮像した撮像機器を示す情報である第１機器情報と第２機器情報とを取得してもよい。ここで「機器情報」は、各撮像装置に一意に割り当てられている情報であり、撮像装置を一意に特定することができる情報である。トラックデータ取得部３２は、第１機器情報と第２機器情報とが一致することを条件として、第２トラックデータを取得する。これにより、画像処理装置１は、同一の撮像機器が撮像した動画ＭのトラックデータＴに検索対象が含まれているか否かを判定することができる。

また、例えば実施の形態に係る画像処理装置１を特定の施設に出入りする人の検出に用いる場合には、検出対象である人の動線方向が重要となる場合がある。具体的には、施設の入り口の外から施設内部に入る方向に移動する人の検出が求められる場合がある。

そこで、移動方向取得部３５２は、第１トラックデータと第２トラックデータとのそれぞれに含まれる検出対象の移動方向を示す第１移動方向と第２移動方向とを取得してもよい。具体的には、移動方向取得部３５２は、トラックデータＴに含まれる各フレーム画像Ｆにおける検出対象の位置の変化に基づいて、検出対象の移動方向を取得する。

判定部３３は、移動方向取得部３５２が取得した第１移動方向と第２移動方向とがあらかじめ定めた所定の範囲に含まれることを条件として、第２トラックデータに含まれる検出対象が、第１トラックデータに含まれる検出対象と同一の検出対象か否かを判定する。

ここで「所定の範囲」とは、判定部３３が検出対象の異同を判定するか否かを決定する際に参照する検出対象決定時参照範囲である。所定の範囲は、撮像装置の設置位置及び検出対象の動線方向等を勘案してあらかじめ定めておけばよい。これにより、画像処理装置１は、特定の方向に移動する被写体を検出対象とすることができる。

一般に、同一の検出対象であっても、時間によってその外観が変化することがある。例えば、検出対象が人である場合には、時間又は日によって同一人物であっても着用している衣服が変化しうる。

そこで、撮像日取得部３５３は、第１動画と第２動画とのそれぞれの撮像日を取得してもよい。特徴量抽出部４２は、第１動画の撮像日と第２動画の撮像日とが同一の場合と異なる場合とで、特徴量の抽出手法を変更する。

具体的には、まず、領域抽出部４０は、第１動画の撮像日と第２動画の撮像日とが異なることを条件として、第１領域（第１動画に由来するトラックデータＴのうち検出対象が映る領域）中の特定の領域である第１特定領域と、第２領域（第２動画に由来するトラックデータＴのうち検出対象が映る領域）中の特定の領域である第２特定領域とを抽出する。特徴量抽出部は、第１特定領域と第２特定領域とから特徴量を抽出する。

ここで、「特定領域」とは、検出対象のうち、時間による変動がない又は少ないと期待される領域である。例えば、検出対象が人物である場合、人物の顔を含む領域が特定領域の例として挙げられる。人物の顔は、衣服等による影響が少ないと考えられるからである。

図７は、実施の形態に係る領域抽出部４０が抽出する特定領域Ｑの一例を模式的に示す図であり、検出対象が人物である場合の例を示している。図７に示すように、検出対象が人物である場合、領域抽出部４０は人物の顔を含む矩形領域を特定領域Ｑとして抽出する。領域抽出部４０は、ニューラルネットワークやブースティング等の既知の機械学習手法を用いて生成された認識エンジンを用いることで特定領域Ｑの抽出を実現できる。

＜画像処理装置１が実行する画像処理方法の処理フロー＞
図８は、実施の形態に係る画像処理装置１が実行する画像処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば画像処理装置１が起動したときに開始する。

画像取得部３０は、処理対象となる２つの異なる動画Ｍを取得する（Ｓ２）。トラックデータ作成部３１は、画像取得部３０が取得した各動画ＭからトラックデータＴを作成する（Ｓ４）。検索対象指定部３５は、画像処理装置１のユーザから検索対象の指定を受け付ける（Ｓ６）。判定部３３は、トラックデータ取得部３２が取得した２つの異なるトラックデータＴに含まれる検出対象が同一か否かを判定する（Ｓ８）。トラックデータ出力部３４は、指定を受けた検索対象を含むトラックデータＴの組Ｐを生成する（Ｓ１０）。トラックデータ出力部３４がトラックデータＴの組Ｐを生成すると、本フローチャートにおける処理は終了する。

図９は、実施の形態に係るトラックデータ作成部３１が実行するトラックデータＴの生成処理を説明するためのフローチャートであり、図８におけるステップＳ４をより詳細に説明するための図である。

トラックデータ作成部３１は、画像取得部３０が処理対象として取得した２つの異なる動画Ｍのうちの一つの動画Ｍを選択する（Ｓ４１）。トラックデータ作成部３１は、選択した動画Ｍを複数のフレーム画像Ｆに分解する（Ｓ４２）。

フレーム分類部３１０は、各フレーム画像から抽出された特徴量に基づいて、複数のフレーム画像Ｆを同一の検出対象が連続して含まれるフレーム群に分類する（Ｓ４３）。トラック生成部３１１は、１又は複数のフレーム群のうち、同一の検出対象を含むフレーム群を対応づけたデータであるトラックデータＴを生成する（Ｓ４４）。

トラックデータ作成部３１が全ての動画Ｍを選択し終わるまでの間（Ｓ４５のＮｏ）、ステップＳ４１に戻って上述の処理を繰り返す。トラックデータ作成部３１が全ての動画Ｍを選択し終わると（Ｓ４５のＹｅｓ）、本フローチャートにおける処理は終了する。

図１０は、実施の形態に係る判定部３３が実行する類比判定処理を説明するためのフローチャートである。

領域抽出部４０は、第１画像から検索対象を含む領域である検索元領域を抽出するとともに、第２画像から検索候補を含む領域である検索先領域を抽出する（Ｓ３３０）。領域分割部４１は、検索元領域を検索対象が映る第１領域とそれ以外の領域である第２領域とに分割するとともに、検索先領域を検索候補が映る第３領域とそれ以外の領域である第４領域とに分割する（Ｓ３３１）。

特徴量抽出部４２は、第１領域から第１特徴量を抽出するとともに、第３領域から第３特徴量を抽出する（Ｓ３３２）。類似度取得部３３１は、記憶部２から読み出した学習モデルに第１特徴量と第３特徴量とを入力することによって第１画像と第３画像との類似度を取得する（Ｓ３３３）。類比決定部３３２は、類似度取得部３３１が取得した類似度に基づいて検索対象と検索候補とが同一か否かを決定する（Ｓ３３４）。

類似度取得部３３１が検索対象と検索候補との異同を決定すると、本フローチャートにおける処理は終了する。

＜実施の形態に係る画像処理装置１が奏する効果＞
以上説明したように、実施の形態に係る画像処理装置１によれば、動画Ｍにおける対象の追跡技術の精度を向上させることができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果をあわせ持つ。

＜第１の変形例＞
上記では、画像処理装置１が処理対象画像の領域抽出処理及び領域分割処理を実行することにより、被写体Ｓ以外の背景領域の影響を低減して検出対象の追跡の精度を向上する場合について説明した。これに代えて、領域抽出処理及び領域分割処理は、例えば、処理対象画像を撮像する撮像機器が実行してもよいし、処理対象画像を格納する画像ストレージ（不図示）を管理する画像サーバ（不図示）が実行してもよい。領域抽出処理及び領域分割処理をあらかじめ実行しておくことになるため、画像処理装置１による追跡処理を高速し、画像処理装置１が消費する計算リソースを削減することができる。

＜第２の変形例＞
上記では、トラックデータ作成部３１が同一の動画Ｍに由来する二つの異なるフレーム間の類比を判定し、判定部３３が２つの異なる動画Ｍそれぞれのフレーム画像間の類比を判定する場合について主に説明した。これに代えて、あるいはこれに加えて、判定部３３が、同一の動画Ｍに由来する二つの異なるフレーム間の類比を判定してもよい。あるいは、トラックデータ作成部３１と判定部３３とを統合して一つの画像比較部としてもよい。

１・・・画像処理装置
２・・・記憶部
３・・・制御部
３０・・・画像取得部
３１・・・トラックデータ作成部
３１０・・・フレーム分類部
３１１・・・トラック生成部
３２・・・トラックデータ取得部
３３・・・判定部
３３０・・・組生成部
３３１・・・類似度取得部
３３２・・・類比決定部
３４・・・トラックデータ出力部
３５・・・検索対象指定部
３５０・・・受付部
３５１・・・機器情報取得部
３５２・・・移動方向取得部
３５３・・・撮像日取得部
４０・・・領域抽出部
４１・・・領域分割部
４２・・・特徴量抽出部

Claims

複数の画像のそれぞれから、検出対象を含む領域である対象領域を抽出する領域抽出部と、
前記対象領域を検索対象が映る第１領域とそれ以外の領域である第２領域とに分割する領域分割部と、
前記第２領域に相当する画素に対して０より大きく１未満の係数を乗じた後に前記対象領域にフィルタ処理を実行して、前記検出対象同士の異同を判定するための特徴量を前記対象領域から抽出する特徴量抽出部と、
前記特徴量に基づいて、前記複数の画像を、同一の検出対象を含む１又は複数の画像群に分類するフレーム分類部と、
を備える画像処理装置。
前記複数の画像は動画を構成する複数のフレーム画像であり、
前記１又は複数の画像群に含まれる前記特徴量に基づいて、前記１又は複数の画像群のうち、同一の検出対象を含む画像群を対応づけたデータであるトラックデータを生成するトラック生成部をさらに備える、
請求項１に記載の画像処理装置。
前記トラック生成部が生成した前記動画に由来する前記トラックデータである第１トラックデータと、前記検出対象が含まれるか否かの判定の対象となる第２動画に由来する前記トラックデータである第２トラックデータとを取得するトラックデータ取得部と、
前記第１トラックデータを構成する各画像から抽出された前記特徴量である第１特徴量群と、前記第２トラックデータを構成する各画像から抽出された前記特徴量である第２特徴量群とに基づいて、同一の検出対象が含まれる前記第１トラックデータと前記第２トラックデータとの組を出力するトラックデータ出力部と、
をさらに備える請求項２に記載の画像処理装置。
前記第１トラックデータと前記第２トラックデータとのそれぞれに含まれる前記検出対象の移動方向を示す第１移動方向と第２移動方向とを取得する移動方向取得部と、
前記第１移動方向と前記第２移動方向とがあらかじめ定めた所定の範囲に含まれることを条件として、前記第２トラックデータに含まれる検出対象が、前記第１トラックデータに含まれる検出対象と同一の検出対象か否かを判定する判定部と、をさらに備える、
請求項３に記載の画像処理装置。
前記判定部は、
前記第１トラックデータに含まれる複数の画像のうちのいずれかの画像と、前記第２トラックデータに含まれる複数の画像のうちのいずれかの画像と、の組み合わせによって構成される複数の画像組を生成する組生成部と、
前記画像組を構成する画像から抽出された前記特徴量に基づいて、各画像組を構成する画像間の類似度を取得する類似度取得部と、
画像組毎の前記類似度に基づいて、前記第２トラックデータに含まれる検出対象が、前記第１トラックデータに含まれる検出対象と同一の検出対象か否かを決定する類比決定部と、
を備える請求項４に記載の画像処理装置。
前記動画と前記第２動画とのそれぞれの撮像日時を取得する撮像日取得部をさらに備え、
前記特徴量抽出部は、前記動画の撮像日時と前記第２動画の撮像日時とが所定の時間範囲に含まれる場合と異なる場合とで、前記特徴量を抽出する領域を変更する、
請求項３から５のいずれか１項に記載の画像処理装置。
プロセッサが、
複数の画像のそれぞれから、検出対象を含む領域である対象領域を抽出するステップと、
前記対象領域を検索対象が映る第１領域とそれ以外の領域である第２領域とに分割するステップと、
前記第２領域に相当する画素に対して０より大きく１未満の係数を乗じた後に前記対象領域にフィルタ処理を実行して、前記検出対象同士の異同を判定するための特徴量を前記対象領域から抽出するステップと、
前記特徴量に基づいて、前記複数の画像を、同一の検出対象を含む１又は複数の画像群に分類するステップと、
を実行する画像処理方法。
コンピュータに、
複数の画像のそれぞれから、検出対象を含む領域である対象領域を抽出する機能と、
前記対象領域を検索対象が映る第１領域とそれ以外の領域である第２領域とに分割する機能と、
前記第２領域に相当する画素に対し０より大きく１未満の係数を乗じた後に前記対象領域にフィルタ処理を実行して、前記検出対象同士の異同を判定するための特徴量を前記対象領域から抽出する機能と、
前記特徴量に基づいて、前記複数の画像を、同一の検出対象を含む１又は複数の画像群に分類する機能と、
を実現させるプログラム。