JP2019200527A

JP2019200527A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2019200527A
Application number: JP2018093868A
Authority: JP
Inventors: 龍二齊院; Ryuji Saiin
Original assignee: Aisin Comcruise Co Ltd
Current assignee: Aisin Comcruise Co Ltd
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2019-11-21

Abstract

【課題】追跡対象の物体領域の検出速度の向上を図る。【解決手段】情報処理装置１０は、取得部２０Ａと、追跡対象検出部２０Ｇ（検出部）と、を備える。取得部２０Ａは、撮影画像を取得する。追跡対象検出部２０Ｇは、撮影画像のうち物体が写り込んだ領域を示す１以上の物体領域の特徴量、および、教師データ１８Ｃ、に基づいて、撮影画像に含まれる１以上の物体の物体領域の内、追跡対象の物体の物体領域を検出する。教師データは、教師画像に含まれる１以上の物体領域の中の何れか追跡対象の物体の物体領域であるかを示す正解情報と、該１以上の物体領域の各々の特徴量と、の対応を示す。【選択図】図３

Description

本発明の実施の形態は、情報処理装置、情報処理方法、およびプログラムに関する。

画像を解析し、画像に含まれる追跡対象の物体を検出して追跡するシステムが知られている。

例えば、撮影画像から追跡対象の候補となる複数の候補領域を切出し、事前に学習した多層ニューラルネットワークに、切出した複数の候補領域を１つずつ入力することで、複数の候補領域の各々の特徴量を抽出する。そして、複数の候補領域の各々について、抽出した特徴量と１つ前の時点の正解の候補領域の特徴量との類似度と、抽出した特徴量から算出した信頼度と、からスコアを算出し、候補領域の各々のスコアを用いて、候補領域の内の正解とされる追跡対象の物体領域を特定する技術が開示されている（例えば、特許文献１）。

特開２０１７−１５６８８６号公報

しかしながら、従来では、画像に含まれる追跡対象の候補領域の各々を、１つずつ多層ニューラルネットワークに入力することで得られた特徴量と一つ前の時点の正解の候補領域の特徴量との類似度および信頼度を算出することで、正解とされる追跡対象の物体領域を特定していた。このため、画像に含まれる追跡対象の候補領域の数が多いほど、検出速度が低下していた。

本発明が解決しようとする課題は、追跡対象の物体領域の検出速度の向上を図るこができる、情報処理装置、情報処理方法、およびプログラムを提供することである。

実施の形態の情報処理装置は、取得部と、検出部と、を備える。取得部は、撮影画像を取得する。検出部は、前記撮影画像のうち、物体が写り込んだ領域を示す１以上の物体領域の特徴量、および、教師画像に含まれる１以上の前記物体領域の中の何れが追跡対象の物体の前記物体領域であるかを示す正解情報と該１以上の前記物体領域の各々の特徴量との対応を示す教師データ、に基づいて、前記撮影画像に含まれる１以上の物体の前記物体領域の内、追跡対象の物体の前記物体領域を検出する。

図１は、本実施の形態の情報処理システムの全体構成図である。図２は、情報処理装置のハードウェア構成図である。図３は、情報処理装置の機能ブロック図である。図４は、撮影画像に対する処理の流れを示す模式図である。図５は、変形管理情報のデータ構成を示す模式図である。図６は、教師データセットのデータ構成を示す模式図である。図７は、情報処理の手順のフローチャートである。図８は、変形された撮影画像の効果の説明図である。

以下に添付図面を参照して、情報処理装置、情報処理方法、およびプログラムの一の実施の形態を詳細に説明する。

図１は、本実施の形態の情報処理システム１の全体構成図である。情報処理システム1は、情報処理装置１０と、撮影部１２と、入力部１４と、表示部１６と、を備える。撮影部１２、入力部１４、および表示部１６と、情報処理装置１０と、はデータや信号を授受可能に接続されている。

撮影部１２は、撮影によって撮影画像を得る。撮影部１２は、公知のデジタルカメラである。本実施の形態では、撮影部１２は連続して撮影を行い、撮影によって得た撮影画像を、情報処理装置１０へ順次出力する。

入力部１４は、ユーザによる操作指示を受付ける。入力部１４は、キーボード、タッチパネル、ポインティングデバイス、マウス、入力ボタンなどである。

表示部１６は、各種の情報を表示する。表示部１６は、例えば、公知のＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）や有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）などである。

情報処理装置１０は、撮影部１２から受付けた撮影画像の内、追跡対象の物体が写りこんだ領域を検出する。また、情報処理装置１０は、撮影部１２で時系列に連続して撮影される複数の撮影画像の各々に含まれる、追跡対象の物体が写り込んだ領域を順次検出することで、追跡対象の物体を追跡する。

追跡対象の物体は、任意の物体であればよい。例えば、追跡対象の物体は、人、動物（犬、猫、鳥、など）などの生物や、車、自動車、自転車などの非生物である。また、物体は、移動体（移動可能な物体）であってもよいし、静止物であってもよい。本実施の形態では、追跡対象の物体が、移動可能な生物の一例である“人”、すなわち、歩行者である場合を一例として説明する。

次に、ハードウェア構成を説明する。図２は、情報処理装置１０のハードウェア構成図の一例である。

情報処理装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０Ａ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０Ｂ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０Ｃ、およびＩ／Ｆ１０Ｄ等がバス１０Ｅにより相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。

ＣＰＵ１０Ａは、本実施の形態の情報処理装置１０を制御する演算装置である。ＲＯＭ１０Ｂは、ＣＰＵ１０Ａによる各種処理を実現するプログラム等を記憶する。ＲＡＭ１０Ｃは、ＣＰＵ１０Ａによる各種処理に必要なデータを記憶する。Ｉ／Ｆ１０Ｄは、外部装置、撮影部１２、入力部１４、および表示部１６などに接続し、データを送受信するためのインターフェースである。

本実施の形態の情報処理装置１０で実行される情報処理を実行するためのプログラムは、ＲＯＭ１０Ｂ等に予め組み込んで提供される。なお、本実施の形態の情報処理装置１０で実行されるプログラムは、情報処理装置１０にインストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。

次に、情報処理装置１０の機能的構成を説明する。図３は、情報処理装置１０の機能的構成を示す機能ブロック図である。なお、図３には、データの入出力関係を明確にするために、情報処理装置１０に加えて、撮影部１２、入力部１４、および表示部１６を併せて図示した。

情報処理装置１０は、記憶部１８と、制御部２０と、を備える。記憶部１８と制御部２０とは、データや信号を授受可能に接続されている。

記憶部１８は、各種データを記憶する。本実施の形態では、記憶部１８は、変形管理情報１８Ａ、および教師データセット１８Ｂを記憶する。変形管理情報１８Ａおよび教師データセット１８Ｂの詳細は後述する。

制御部２０は、情報処理装置１０を制御する。制御部２０は、取得部２０Ａと、画像変形部２０Ｂと、物体検出部２０Ｃと、抽出部２０Ｄと、特定部２０Ｅと、追跡対象検出部２０Ｇと、追加部２０Ｈと、学習部２０Ｉと、を備える。

画像変形部２０Ｂ、物体検出部２０Ｃ、抽出部２０Ｄ、特定部２０Ｅ、追加部２０Ｈ、および学習部２０Ｉの一部またはすべては、例えば、ＣＰＵ１０Ａなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

取得部２０Ａは、撮影部１２から撮影画像を取得する。取得部２０Ａは、撮影部１２から撮影画像を取得するごとに、取得した撮影画像を画像変形部２０Ｂへ出力する。

画像変形部２０Ｂは、取得部２０Ａから撮影画像を受付け、受付けた撮影画像を変形する。

図４は、撮影画像４０に対する処理の流れの一例を示す模式図である。例えば、取得部２０Ａが、図４（Ａ）に示す撮影画像４０を受付けた場合を想定する（図４（Ａ）参照）。

撮影画像４０には、複数の物体４３が含まれている。なお、撮影画像４０には、１つの物体４３のみが含まれていてもよい。図４には、撮影画像４０が、複数の物体４３を含む場合を一例として示した。また、図４には、撮影画像４０が、複数の物体４３として、複数の歩行者４１と犬４９を含む形態を一例として示した。

画像変形部２０Ｂは、受付けた撮影画像４０を変形し、撮影画像４２を生成する（図４（Ｂ）参照）。

図３に戻り説明を続ける。画像変形部２０Ｂは、撮影画像４０に含まれる追跡対象の属性の物体４３が、後述する学習済モデル２０Ｆで用いるフィルタに応じた形状となるように、撮影画像４０全体を変形する。

学習済モデル２０Ｆは、畳み込みニューラルネットワークである。畳み込みニューラルネットワークで用いるフィルタは、具体的には、畳み込みフィルタである。この畳み込みフィルタの形状は、例えば、正方形である。このため、例えば、画像変形部２０Ｂは、撮影画像４０に含まれる追跡対象の属性の物体４３が正方形となるように、撮影画像４０全体を変形する。なお、学習済モデル２０Ｆの詳細は後述する。

本実施の形態では、画像変形部２０Ｂは、以下の処理により、撮影画像４０に含まれる追跡対象の属性の物体４３が畳み込みフィルタに応じた形状となるように、撮影画像４０を変形する。

まず、画像変形部２０Ｂは、撮影画像４０における、追跡対象の物体４３の属性を特定する。例えば、画像変形部２０Ｂは、追跡対象の物体４３の属性を示す情報を、入力部１４から受付ける。

物体４３の属性を示す情報は、例えば、物体４３を予め定めた規則に沿って複数のグループに分類した、各グループに属する物体４３の属性を示す情報である。例えば、制御部２０は、物体４３のアスペクト比などに応じて、物体４３を予め複数の属性に分類すればよい。物体４３の属性を示す情報は、例えば、歩行者を示す情報、犬を示す情報、車を示す情報、などであるが、これらに限定されない。

ユーザは、入力部１４を操作することで、追跡対象の物体４３の属性を示す情報を入力する。画像変形部２０Ｂは、追跡対象の物体４３の属性を示す情報を入力部１４から受付けることで、該情報を特定する。

なお、画像変形部２０Ｂは、追跡対象の物体４３の属性を示す情報を予め記憶部１８に記憶し、記憶部１８から該情報を読取ることで、追跡対象の物体４３の属性を示す情報を特定してもよい。

次に、画像変形部２０Ｂは、特定した追跡対象の物体４３の属性に対応する変形情報を、変形管理情報１８Ａから取得する。変形管理情報１８Ａは、記憶部１８に予め記憶されている。

図５は、変形管理情報１８Ａのデータ構成の一例を示す模式図である。変形管理情報１８Ａは、物体４３の属性を示す情報と、変形情報と、を予め対応付けたデータベースである。なお、変形管理情報１８Ａのデータ形式は、データベースに限定されない。

変形情報は、対応する属性の物体４３がフィルタに応じた形状となるように撮影画像４０を変形するためのアスペクト比の変形率を示す情報である。上述したように、フィルタの形状は、例えば、正方形である。この場合、変形情報は、対応する属性の物体４３が正方形となるように撮影画像４０を変形するための、変形率を示す情報である。なお、変形情報は、対応する属性の物体４３がフィルタに応じた形状となるように撮影画像４０を変形するための情報であればよく、アスペクト比の変形率を示す情報に限定されない。

そして、画像変形部２０Ｂは、取得した変形情報に応じて撮影画像４０を変形することによって、撮影画像４０に含まれる追跡対象の属性の物体４３が学習済モデル２０Ｆで用いるフィルタに応じた形状となるように、撮影画像４０全体を変形する。

上述したように、本実施の形態では、追跡対象の属性の物体４３が歩行者４１である場合を一例として説明する。このため、図４（Ａ）に示すように、画像変形部２０Ｂは、撮影画像４０に含まれる歩行者４１が正方形となるように、撮影画像４０全体を変形することで、撮影画像４２を作成する（図４（Ｂ）参照）。

図３に戻り説明を続ける。画像変形部２０Ｂは、変形後の撮影画像４０である撮影画像４２を、物体検出部２０Ｃおよび抽出部２０Ｄへ出力する。

物体検出部２０Ｃは、画像変形部２０Ｂから撮影画像４２を受付ける。そして、物体検出部２０Ｃは、撮影画像４２に含まれる、追跡対象の物体４３と同じ属性を示す物体４３が写り込んだ領域を検出する。以下では、該領域を、物体領域と称して説明する。

なお、物体領域は、追跡対象の属性の物体４３が写り込んだ領域であればよい。物体領域は、例えば、追跡対象の属性の物体４３の輪郭内の領域や、追跡対象の属性の物体４３を矩形状に囲む領域や、追跡対象の属性の物体４３の構成部位を示す領域である。追跡対象の属性の物体４３の輪郭内の領域は、例えば、セマンティックセグメンテーションにより表される。物体４３を矩形状に囲む領域は、例えば、バウンディングボックスにより表される。構成部位を示す領域は、追跡対象の属性の物体４３が歩行者４１である場合、例えば、歩行者４１の骨格を示す情報である。歩行者４１の骨格を示す情報は、歩行者４１の頭、胴体、腰、上腕、下肢、などの構成部とこれらの構成部の接続状況（傾きなど）によって表される。

図４（Ｃ）には、物体領域４５の一例を示した。図４（Ｃ）に示すように、本実施の形態では、物体領域４５が、追跡対象の属性の物体４３（本実施の形態では歩行者４１）を矩形状に囲む領域である場合を、一例として説明する。

物体検出部２０Ｃは、公知の方法を用いて、撮影画像４２に含まれる追跡対象の属性の物体４３（歩行者４１）の各々について、物体領域４５を検出すればよい。追跡対象の物体４３の属性を示す情報は、例えば、入力部１４から受付けてもよいし、記憶部１８から読取ってもよい。

本実施の形態では、物体検出部２０Ｃは、撮影画像４２に含まれる歩行者４１の各々の物体領域４５を検出するための検出器を予め学習する。検出器には、公知の抽出器を用いればよい。例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）や、再帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲＮＮ）や、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ）などのアルゴリズムの深層学習（ディープラーニング）により、検出器を予め学習すればよい。

本実施の形態では、物体検出部２０Ｃは、後述する特定部２０Ｅが用いる学習済モデル２０Ｆと同じ属性のアルゴリズムの検出器を用いる場合を一例として説明する。このため、本実施の形態では、物体検出部２０Ｃは、検出器のアルゴリズムとして、畳み込みニューラルネットワーク（ＣＮＮ）を用いる。

例えば、物体検出部２０Ｃは、畳み込みニューラルネットワークを用いて物体４３を検出する公知技術（例えば、ＪｏｓｅｐｈＲｅｄｍｏｎ，ＡｌｉＦａｒｈａｄｉ “ＹＯＬＯ９０００：Ｂｅｔｔｅｒ，Ｆａｓｔｅｒ，Ｓｔｒｏｎｇｅｒ” Ｓｕｂｊｅｃｔｓ：ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ｃｓ．ＣＶ）Ｃｉｔｅａｓ：ａｒＸｉｖ：１６１２．０８２４２［ｃｓ．ＣＶ］）に示される検出器を用いて、撮影画像４２に含まれる物体領域４５を検出する。

このため、図４（Ｃ）に示すように、撮影画像４２から、撮影画像４２に含まれる追跡対象の属性の物体４３である歩行者４１（ユーザＡ〜ユーザＣ）の各々の物体領域４５（物体領域４５Ａ〜物体領域４５Ｃ）が検出される。物体検出部２０Ｃは、物体領域４５の検出結果を、追跡対象検出部２０Ｇへ出力する。

図３に戻り説明を続ける。次に、抽出部２０Ｄについて説明する。抽出部２０Ｄは、画像変形部２０Ｂから受付けた撮影画像４２について、追跡対象の属性の物体４３である歩行者４１の物体領域の特徴量を抽出する。なお、以下では、物体４３の物体領域の特徴量を、単に、物体４３の特徴量と称して説明する場合がある。

特徴量は、追跡対象の属性の物体４３の各々を区別して検出するための情報である。本実施の形態では、特徴量は、歩行者４１の各々を区別して検出するための情報である。例えば、図４（Ｂ）に示すように、撮影画像４２内に、ユーザＡ、ユーザＢ、およびユーザＣの３人の歩行者４１が含まれていると仮定する。この場合、特徴量は、ユーザＡ、ユーザＢ、およびユーザＣの各々を区別して検出可能な情報である。

特徴量は、追跡対象の属性の物体４３の各々を区別して検出するための情報であればよい。特徴量は、例えば、ＨＯＧ特徴量である。ＨＯＧ特徴量は、画像の局所領域における輝度の勾配方向をヒストグラム化し、各度数を成分としたベクトル量である。

抽出部２０Ｄは、公知の方法を用いて、撮影画像４２から、撮影画像４２に含まれる歩行者４１の各々の特徴量を検出するための特徴量を抽出すればよい。

例えば、抽出部２０Ｄは、撮影画像４２から、撮影画像４２に含まれる歩行者４１の各々の特徴量を抽出するための抽出器を予め学習する。抽出器には、公知の抽出器を用いればよい。例えば、畳み込みニューラルネットワーク（ＣＮＮ）や、再帰型ニューラルネットワーク（ＲＮＮ）や、ＬＳＴＭなどのアルゴリズムを用いた深層学習によって得られる抽出器を用いる。

なお、本実施の形態では、抽出部２０Ｄは、後述する特定部２０Ｅが用いる学習済モデル２０Ｆと同じ属性のアルゴリズムの抽出器を用いる。このため、本実施の形態では、抽出部２０Ｄは、抽出器として、畳み込みニューラルネットワーク（ＣＮＮ）を用いる場合を説明する。

そして、抽出部２０Ｄは、撮影画像４２と抽出器を用いて、撮影画像４２に含まれる歩行者４１の各々の特徴量を抽出する。

例えば、図４（Ｄ）に示すように、抽出部２０Ｄによって、撮影画像４２に含まれる歩行者４１（ユーザＡ〜ユーザＣ）の各々の特徴量４４（特徴量４４Ａ〜特徴量４４Ｃ）が抽出される。

図３に戻り説明を続ける。次に、特定部２０Ｅについて説明する。

特定部２０Ｅは、撮影画像４２に含まれる１以上の物体４３の特徴量４４と、教師データと、に基づいて、撮影画像４２に含まれる１以上の物体４３の物体領域４５の内、追跡対象の物体４３の物体領域４５を示す正解情報を特定する。

正解情報は、正解の物体領域４５を示す情報である。正解の物体領域４５とは、追跡対象の物体４３の物体領域４５を示す。例えば追跡対象の物体４３の属性が人（属性“歩行者４１”）である場合、正解情報は、１以上の歩行者４１と１対１で対応する１以上の物体領域４５の中の何れが、追跡対象となる特定の歩行者４１（例えば、ユーザＢ）に対応する物体領域４５であるか、を示す情報となる。なお、どの物体４３を追跡対象とするかは、ユーザによる指定や選択等の操作指示に応じて、任意に変更可能である。

詳細には、特定部２０Ｅは、教師データを用いた学習によって生成された学習済モデル２０Ｆと、撮影画像４２に含まれる、追跡対象の属性の１以上の物体４３（歩行者４１）の特徴量４４と、を用いて、撮影画像４２に含まれる１以上の物体４３の物体領域４５の内、追跡対象の物体４３の物体領域４５を示す正解情報を特定する。

学習済モデル２０Ｆは、後述する学習部２０Ｉによる教師データセット１８Ｂを用いた学習によって生成される。

図６は、教師データセット１８Ｂのデータ構成の一例を示す模式図である。教師データセット１８Ｂは、複数の教師データ１８Ｃを含む。教師データ１８Ｃは、１つの教師画像ごとに生成される。教師画像は、学習済モデル２０Ｆの生成に用いるための撮影画像である。

教師画像は、１または複数の、追跡対象の属性の物体４３（本実施の形態では歩行者４１）を含む。このため、１人の歩行者４１を含む教師画像に対応する教師データ１８Ｃは、１人の歩行者４１の特徴量４４と、該歩行者４１の物体領域４５が追跡対象の物体の物体領域４５であることを示す正解情報と、を含む。また、複数の歩行者４１を含む教師画像に対応する教師データ１８Ｃは、複数の歩行者４１の各々の特徴量４４と、これらの歩行者４１の各々の物体領域４５の内、何れの物体領域４５が追跡対象の物体の物体領域４５であるかを示す正解情報と、を含む。

正解情報は、該正解情報を含む教師データ１８Ｃに対応する教師画像に含まれる、１または複数の歩行者４１の各々の物体領域４５の内、何れの物体領域４５が追跡対象の物体の物体領域４５であるかを示す情報であればよい。例えば、正解情報は、教師画像を複数の区画領域に分割した区画領域ごとに、追跡対象の物体の物体領域４５を含む区画領域には高いスコア値を規定し、追跡対象の物体の物体領域４５を含まない区画領域には低いスコア値を規定したマップであってもよい。また、正解情報は、教師画像における、追跡対象の物体の物体領域４５を示す画素位置を示す情報であってもよい。また、正解情報は、教師画像における、追跡対象の物体の物体領域４５の位置および範囲を規定した図形情報やテキストデータであってもよい。なお、正解情報は、対応する教師画像に含まれる複数の物体領域４５の内、何れの物体領域４５が追跡対象の物体の物体領域４５であるかを示す情報であればよく、これらの形態によって表される情報に限定されない。

本実施の形態では、正解情報は、対応する教師画像を１または複数の画素からなる複数の区画領域に分割し、分割した区画領域ごとに、追跡対象の物体の物体領域４５を含む区画領域には高いスコア値を規定し、追跡対象の物体の物体領域４５を含まない区画領域には低いスコア値を規定した、マップである場合を一例として説明する。

図３に戻り説明を続ける。本実施の形態では、学習済モデル２０Ｆは、複数の教師データ１８Ｃを含む教師データセット１８Ｂを用いて、撮影画像４２に含まれる１または複数の歩行者４１（追跡対象の属性の物体４３）の各々の特徴量４４から、正解情報を導出するための学習済モデルである。

本実施の形態では、学習済モデル２０Ｆは、畳み込みニューラルネットワーク（ＣＮＮ）である。

特定部２０Ｅは、抽出部２０Ｄから受付けた撮影画像４２に含まれる歩行者４１の各々の特徴量４４を、学習済モデル２０Ｆへ入力データとして入力する。そして、特定部２０Ｅは、学習済モデル２０Ｆによる演算結果（出力データ）として、該撮影画像４２の正解情報を得る。すなわち、特定部２０Ｅは、１つの撮影画像４２に含まれる複数の歩行者４１（追跡対象の属性の物体４３）の特徴量４４を一度に学習済モデル２０Ｆへ入力することで、該撮影画像４２に含まれる物体領域４５の内の何れが追跡対象の物体の物体領域４５であるかを示す、１つの正解情報を特定する。

図４（Ｅ）は、正解情報４７の一例である。図４（Ｅ）に示すように、正解情報４７は、例えば、撮影画像４２における、追跡対象の物体の物体領域４５を含む区画領域には高いスコア値Ｓを規定し、追跡対象の物体の物体領域４５を含む区画領域には低いスコア値Ｓ’を規定した、マップである。

図３に戻り説明を続ける。そして、特定部２０Ｅは、特定した正解情報４７を、追跡対象検出部２０Ｇへ出力する。

次に、追跡対象検出部２０Ｇについて説明する。追跡対象検出部２０Ｇは、物体検出部２０Ｃから、撮影画像４２に含まれる物体領域４５の検出結果を受付ける。また、追跡対象検出部２０Ｇは、特定部２０Ｅから、該撮影画像４２に対する正解情報４７を受付ける。

そして、追跡対象検出部２０Ｇは、撮影画像４２における、特定部２０Ｅで特定された正解情報４７によって示される物体領域４５を、追跡対象の物体４３の物体領域４５として検出する。言い換えると、追跡対象検出部２０Ｇは、物体検出部２０Ｃから受付けた検出結果と特定部２０Ｅから受付けた正解情報４７を用いることで、撮影画像４２に含まれる１以上の物体４３の特徴量４４と教師データ１８Ｃとに基づいて、撮影画像４２に含まれる１以上の物体４３の物体領域４５の内、追跡対象の物体４３の物体領域４５を検出する。

すなわち、追跡対象検出部２０Ｇは、撮影画像４２に含まれる、物体検出部２０Ｃによって検出された１または複数の物体領域４５の内、特定部２０Ｅで特定された正解情報４７によって示される物体領域４５を、追跡対象の物体領域４５として特定する。

図４を用いて説明する。例えば、追跡対象検出部２０Ｇが、物体領域４５の検出結果として、図４（Ｃ）に示す物体領域４５の検出結果を物体検出部２０Ｃから受付けた場合を想定する。また、追跡対象検出部２０Ｇが、撮影画像４２の正解情報４７として、図４（Ｅ）に示す正解情報４７を特定部２０Ｅから受付けた場合を想定する。すると、例えば、追跡対象検出部２０Ｇは、撮影画像４２に含まれる物体領域４５の内、正解情報４７によって示される高いスコア値Ｓの区画領域との一致度が閾値以上の物体領域４５Ｂを、追跡対象の物体領域４５として検出する（図４（Ｆ）参照）。なお、以下では、撮影画像４２に含まれる複数の物体領域４５の内、追跡対象検出部２０Ｇで検出された追跡対象の物体領域４５を、追跡対象の物体領域４６と称して説明する場合がある（図４（Ｆ）参照）。

なお、物体検出部２０Ｃは、撮影画像４２における、特定部２０Ｅで特定された正解情報４７によって示される物体領域４５を、追跡対象の物体領域４６として検出すればよい。このため、追跡対象の物体領域４６の検出方法は、高いスコア値Ｓの区画領域との一致度を用いた方法に限定されない。

図３に戻り説明を続ける。追跡対象検出部２０Ｇは、撮影画像４２から特定した、追跡対象の物体領域４６の検出結果を、表示部１６へ出力する。このため、表示部１６には、撮影部１２で撮影された撮影画像４２における、追跡対象の特定の歩行者４１（例えば、ユーザＢ）の物体領域４６を示す情報が、表示される。

また、追跡対象検出部２０Ｇは、撮影画像４２と、該撮影画像４２から検出した追跡対象の物体領域４６を示す情報と、該撮影画像４２に含まれる追跡対象の属性の物体４３の特徴量４４と、を追加部２０Ｈへ出力する。

次に、追加部２０Ｈについて説明する。追加部２０Ｈは、追跡対象検出部２０Ｇが追跡対象の物体４３の物体領域４６を検出する毎に、撮影画像４２に含まれる追跡対象の属性の１以上の物体４３（歩行者４１）の特徴量４４と、正解情報４７と、の対応を示す教師データ１８Ｃを生成し、教師データセット１８Ｂに追加する。

追加部２０Ｈは、追跡対象検出部２０Ｇで追跡対象の物体領域４６を検出した撮影画像４２を、新たな教師画像として用いる。すなわち、追加部２０Ｈは、画像変形部２０Ｂによって変形された撮影画像４０である撮影画像４２を、新たな教師画像として用いる。

そして、追加部２０Ｈは、該撮影画像４２に含まれる１または複数の物体４３の各々の物体領域４５の内、追跡対象検出部２０Ｇで検出された追跡対象の物体４３の物体領域４６を示す正解情報４７を生成する。

そして、追加部２０Ｈは、該撮影画像４２について、該撮影画像４２に含まれる１または複数の歩行者４１（追跡対象の属性の物体４３）の各々について抽出部２０Ｄで抽出された特徴量４４と、生成した正解情報４７と、を教師データ１８Ｃとして生成する。

このため、図４（Ｇ）に示すように、追加部２０Ｈは、抽出部２０Ｄによって撮影画像４２から抽出された、複数の歩行者４１の各々の特徴量４４（特徴量４４Ａ〜特徴量４４Ｃ）と、追跡対象検出部２０Ｇで検出された追跡対象の物体領域４６を示す正解情報４７と、の対応を示す教師データ１８Ｃを生成する。

そして、追加部２０Ｈは、新たに生成した教師データ１８Ｃを、記憶部１８の教師データセット１８Ｂに追加登録する。このため、教師データセット１８Ｂには、追加部２０Ｈが教師データ１８Ｃを生成するごとに、新たに生成された教師データ１８Ｃが順次追加される（図６参照）。

なお、教師データセット１８Ｂに登録される教師データ１８Ｃの数は、予め定めた数とすればよい。ここで、追加部２０Ｈが新たに生成した教師データ１８Ｃを追加登録するときに、予め定めた数の教師データ１８Ｃが教師データセット１８Ｂに既に登録済の場合がある。この場合、追加部２０Ｈは、最も過去のタイミングに登録された教師データ１８Ｃを教師データセット１８Ｂから削除し、新たに生成した教師データ１８Ｃを教師データセット１８Ｂへ追加登録すればよい。

図３に戻り説明を続ける。次に、学習部２０Ｉについて説明する。学習部２０Ｉは、教師データセット１８Ｂに登録されている複数の教師データ１８Ｃを用いて、撮影画像４２に含まれる１または複数の物体４３の特徴量４４から正解情報４７を導出するための、学習済モデル２０Ｆを学習する。

学習済モデル２０Ｆは、上述したように、畳み込みニューラルネットワーク（ＣＮＮ）である。学習済モデル２０Ｆの生成方法には、公知の方法を用いればよい。

学習部２０Ｉは、予め定めたタイミング毎に、教師データセット１８Ｂに登録されている複数の教師データ１８Ｃを用いて、新たな学習済モデル２０Ｆを学習すればよい。例えば、学習部２０Ｉは、追加部２０Ｈによって教師データセット１８Ｂに教師データ１８Ｃが追加される毎に、更新後の教師データセット１８Ｂを用いて新たな学習済モデル２０Ｆを学習する。なお、学習部２０Ｉは、所定時間ごとに、教師データセット１８Ｂに登録されている教師データ１８Ｃを用いて、学習済モデル２０Ｆを学習してもよい。

そして、学習部２０Ｉは、新たに学習した学習済モデル２０Ｆを、特定部２０Ｅへ登録する。このため、特定部２０Ｅに登録されている学習済モデル２０Ｆは、学習部２０Ｉによって更新される。

次に、本実施の形態の情報処理装置１０が実行する、情報処理の手順の一例を説明する。図７は、本実施の形態の情報処理装置１０が実行する、情報処理の手順の一例を示すフローチャートである。

なお、情報処理装置１０は、撮影部１２で１枚（１フレーム）の撮影画像４２が撮影され、情報処理装置１０へ出力されるごとに、図７に示す情報処理の手順を実行するものとする。このため、情報処理装置１０は、撮影部１２が時系列に沿って複数の撮影画像４２を撮影すると、撮影された撮影画像４２ごとに図７に示す情報処理の手順を繰返し実行することとなる。

なお、追跡対象の物体４３の属性は、歩行者４１である場合を一例として説明する。

まず、取得部２０Ａが、撮影部１２から撮影画像４０を取得する（ステップＳ１００）。次に、画像変形部２０Ｂが、ステップＳ１００で取得した撮影画像４０に含まれる追跡対象の属性の物体４３が学習済モデル２０Ｆで用いるフィルタに応じた形状となるように、撮影画像４０を変形する（ステップＳ１０２）。ステップＳ１０２の処理によって、撮影画像４０が撮影画像４２に変形される（図４（Ａ）、図４（Ｂ）参照）。

次に、物体検出部２０Ｃが、ステップＳ１０２で変形された撮影画像４２に含まれる、追跡対象の属性の物体４３の物体領域４５を検出する（ステップＳ１０４）（図４（Ｃ）参照）。

次に、抽出部２０Ｄが、ステップＳ１０２で変形された撮影画像４２に含まれる、追跡対象の属性の１または複数の物体４３（歩行者４１）の各々の特徴量４４を抽出する（ステップＳ１０６）（図４（Ｄ）参照）。

次に、制御部２０が、教師データ１８Ｃが教師データセット１８Ｂに登録済であるか否かを判断する（ステップＳ１０８）。教師データセット１８Ｂに教師データ１８Ｃが未登録である場合（ステップＳ１０８：Ｎｏ）、ステップＳ１１０へ進む。

ステップＳ１１０では、追跡対象検出部２０Ｇが、ステップＳ１０４で検出された物体領域４５の内、追跡対象の物体４３の物体領域４５を選択し（ステップＳ１１０）、後述するステップＳ１１８へ進む。例えば、追跡対象検出部２０Ｇは、ユーザによる入力部１４の操作指示によって指定された１つの物体４３の物体領域４５を、追跡対象の物体領域４５として選択する。

一方、教師データ１８Ｃが教師データセット１８Ｂに登録済である場合には（ステップＳ１０８：Ｙｅｓ）、ステップＳ１１２へ進む。ステップＳ１１２では、特定部２０Ｅは、教師データ１８Ｃを用いた学習によって生成された学習済モデル２０Ｆと、ステップＳ１０６で抽出した特徴量４４と、を用いて、撮影画像４２に対する正解情報４７を特定する（ステップＳ１１２）。すなわち、特定部２０Ｅは、ステップＳ１０６で撮影画像４２から抽出した１または複数の歩行者４１の各々の特徴量４４を学習済モデル２０Ｆで入力することで、正解情報４７を特定する（図４（Ｅ）参照）。

次に、追跡対象検出部２０Ｇが、ステップＳ１０２で変形された撮影画像４２における、ステップＳ１１２で特定された正解情報４７によって示される物体領域４５を、追跡対象の物体領域４６として検出する（ステップＳ１１４）（図４（Ｆ）参照）。

次に、追跡対象検出部２０Ｇが、ステップＳ１１４で追跡対象の物体領域４６の検出に成功したか否かを判断する（ステップＳ１１６）。ステップＳ１１４で追跡対象の物体領域４６を検出出来なかった場合（ステップＳ１１６：Ｎｏ）、上記ステップＳ１００へ戻る。

一方、ステップＳ１１４で追跡対象の追跡対象の物体領域４６を検出出来た場合（ステップＳ１１６：Ｙｅｓ）、ステップＳ１１８へ進む。

ステップＳ１１８では、追跡対象検出部２０Ｇが、ステップＳ１１０で選択またはステップＳ１１４で検出した、追跡対象の物体領域４６を示す情報を表示部１６へ出力する（ステップＳ１１８）。

次に、追加部２０Ｈが、ステップＳ１０６で抽出した撮影画像４２に含まれる追跡対象の属性の１または複数の物体４３（歩行者４１）の特徴量４４と、ステップＳ１１２で特定した正解情報４７と、の対応を示す教師データ１８Ｃを生成する（ステップＳ１２０）。

次に、追加部２０Ｈは、ステップＳ１２０で新たに生成した教師データ１８Ｃを、記憶部１８の教師データセット１８Ｂに追加する（ステップＳ１２２）。

次に、学習部２０Ｉは、教師データセット１８Ｂに登録されている複数の教師データ１８Ｃを用いて、学習済モデル２０Ｆを学習する（ステップＳ１２４）。

そして、学習部２０Ｉは、ステップＳ１２４で学習した学習済モデル２０Ｆを特定部２０Ｅへ登録することで、特定部２０Ｅに登録されている学習済モデル２０Ｆを更新する（ステップＳ１２６）。

次に、制御部２０は、追跡対象の物体領域４６の追跡を終了するか否かを判断する（ステップＳ１２８）。例えば、制御部２０は、追跡終了を示す情報を入力部１４から受付けた場合、追跡を終了すると判断する。

ステップＳ１２８で否定判断すると（ステップＳ１２８：Ｎｏ）、上記ステップＳ１００へ戻る。

一方、ステップＳ１２８で肯定判断すると（ステップＳ１２８：Ｙｅｓ）、本ルーチンを終了する。ステップＳ１００〜ステップＳ１２８の処理を繰り返し実行することで、情報処理装置１０は、撮影部１２で時系列に連続して撮影された複数の撮影画像４０の各々に含まれる、追跡対象の物体４３の追跡対象の物体領域４６を順次検出し、該追跡対象の物体領域４６（および該追跡対象の物体領域４６に示される物体４３）を追跡することができる。

以上説明したように、本実施の形態の情報処理装置１０は、取得部２０Ａと、追跡対象検出部２０Ｇ（検出部）と、を備える。取得部２０Ａは、撮影画像４０を取得する。追跡対象検出部２０Ｇは、撮影画像４０のうち、物体４３が写り込んだ領域を示す１以上の物体領域４５の特徴量４４、および、教師データ１８Ｃ、に基づいて、撮影画像４０に含まれる１以上の物体の物体領域４５の内、追跡対象の物体４３の物体領域４６を検出する。教師データ１８Ｃは、教師画像に含まれる１以上の物体領域４５の中の何れか追跡対象の物体４３の物体領域４５であるかを示す正解情報と、該１以上の物体領域４５の各々の特徴量４４と、の対応を示す。

このように、本実施の形態の情報処理装置１０では、教師画像に含まれる１以上の物体４３の特徴量４４と正解情報４７との対応を示す教師データ１８Ｃを用いて、撮影画像４０に含まれる１以上の物体４３の特徴量４４から、撮影画像４０に含まれる１以上の物体４３の物体領域４５の内、追跡対象の物体４３の物体領域４６を検出する。

すなわち、本実施の形態の情報処理装置１０では、上記構成の教師データ１８Ｃを用いることで、１つの撮影画像４０に含まれる１以上の物体４３の特徴量４４から、これらの１以上の物体４３の物体領域４５の内、何れが追跡対象の物体領域４６であるかを容易に検出することができる。言い換えると、本実施の形態の情報処理装置１０では、撮影画像４０に含まれる１以上の物体領域４５を１つずつ多層ニューラルネットワーク（学習済モデル２０Ｆ）に入力する必要はなく、撮影画像４０に含まれる１以上の物体領域４５の特徴量４４を一度に多層ニューラルネットワークに入力するだけで、追跡対象の物体の物体領域４６を検出することができる。このため、本実施の形態の情報処理装置１０では、高速に追跡対象の物体領域４６を検出することができる。

このため、撮影画像に含まれる候補領域の各々を、１つずつ多層ニューラルネットワークに入力することで得られた特徴量と一つ前の時点の正解の候補領域の特徴量との類似度および信頼度を算出し、物体領域の各々の類似度や信頼度の算出結果を比較することで追跡対象の物体領域を検出する従来方法に比べて、撮影画像４２に含まれる物体領域４５の数に拘らず、高速に追跡対象の物体領域４６を検出することができる。

従って、本実施の形態の情報処理装置１０は、追跡対象の物体領域４６の検出速度の向上を図ることができる。

また、本実施の形態の情報処理装置１０では、上記のデータ構成の教師データ１８Ｃを用いるため、撮影画像４２に含まれる物体領域４５の数が少ない場合であっても、追跡対象の物体領域４６の検出精度低下を抑制することができる。これは、教師データ１８Ｃが、撮影画像４０に含まれる１または複数の物体４３の各々の特徴量４４と、正解情報４７と、の対応を示すデータであるためである。

また、本実施の形態の情報処理装置１０では、撮影画像４０全体から一度に正解情報４７によって示される追跡対象の物体領域４６を検出することができるため、追跡対象の物体領域４６の検出ミスなどによる検出エラーを抑制することができる。

また、本実施の形態の情報処理装置１０では、学習部２０Ｉが、教師データセット１８Ｂに登録されている複数の教師データ１８Ｃを用いて、学習済モデル２０Ｆを学習する。

教師データ１８Ｃのデータ構成が上記構成であるため、本実施の形態の情報処理装置１０では、上記効果に加えて、学習部２０Ｉによる学習時間の短縮を図ることができる。

また、本実施の形態の情報処理装置１０では、撮影部１２から撮影画像４０を取得するごとに、撮影画像４０に含まれる追跡対象の物体領域４６を追跡対象検出部２０Ｇで検出して追跡しながら、新たに生成された教師データ１８Ｃを含む教師データセット１８Ｂを用いて学習済モデル２０Ｆを学習する。

このため、本実施の形態の情報処理装置１０では、学習部２０Ｉによる学習済モデル２０Ｆの高速な逐次学習が可能となり、追跡対象の物体領域４６の追跡精度の向上を図ることができる。

また、本実施の形態の情報処理装置１０では、画像変形部２０Ｂが、撮影画像４０に含まれる追跡対象の属性の物体４３が、畳み込みニューラルネットワークにおけるフィルタに応じた形状となるように、撮影画像４０を変形する。

このため、物体検出部２０Ｃ、抽出部２０Ｄ、および特定部２０Ｅは、処理時に用いるフィルタを有効に用いることができる。

図８は、変形された撮影画像４２を用いることによる効果の一例の説明図である。例えば、図８（Ａ）に示すように、取得部２０Ａが、歩行者４１を含む撮影画像４０を撮影部１２から取得したと仮定する。すると、画像変形部２０Ｂは、撮影画像４０を、歩行者４１に対応する変形情報（図５参照）に応じて、歩行者４１がフィルタＦに応じた形状（例えば、正方形）となるように、撮影画像４０全体を変形する。このため、図８（Ｂ）に示す撮影画像４２が得られる。図８（Ｂ）に示すように、撮影画像４２に含まれる歩行者４１は、フィルタＦに応じて正方形状となる。

一方、撮影画像４０全体を、フィルタＦに応じた形状に変形したと仮定する。この場合、図８（Ｃ）に示すように、変形した比較撮影画像４２’に含まれる歩行者４１を正方形のフィルタＦで囲むと、該フィルタＦ内には、歩行者４１以外の不要な領域Ｅ’が含まれることとなる。

しかし、本実施の形態の情報処理装置１０では、画像変形部２０Ｂが、歩行者４１がフィルタＦに応じた形状となるように、撮影画像４０全体を変形する（図８（Ｂ）の撮影画像４２参照）。このため、比較撮影画像４２’（図８（Ｃ）参照）に比べて、フィルタＦ内に演算に不要な領域Ｅ’が含まれることを抑制することができる。

すなわち、本実施の形態の情報処理装置１０では、畳み込みニューラルネットワークで用いるフィルタＦ内に演算に不要な領域Ｅ’が含まれることを抑制することができ、フィルタＦ内のパラメータを無駄なく利用することができる。

また、撮影画像４０自体をフィルタＦに応じた形状に変形する場合に比べて、撮影画像４０に含まれる歩行者４１がフィルタＦに応じた形状となるように撮影画像４０を変形することで、より小さいサイズのフィルタＦで学習を行うことができる。また、本実施の形態の情報処理装置１０では、畳み込みニューラルネットワークの規模を、従来技術に比べて縮小することができる。

このため、本実施の形態の情報処理装置１０では、上記効果に加えて、更なる検出速度の向上および検出精度の向上を図ることができる。

なお、本実施の形態では、画像変形部２０Ｂは、撮影画像４０に含まれる追跡対象の属性の物体４３が、特定部２０Ｅで用いる学習済モデル２０Ｆのフィルタに応じた形状となるように、撮影画像４０全体を変形する形態を説明した。

しかし、上述したように、物体検出部２０Ｃおよび抽出部２０Ｄの少なくとも一方は、特定部２０Ｅが用いる学習済モデル２０Ｆと同じ属性のアルゴリズムの検出器や抽出器を用いてもよい。この場合、物体検出部２０Ｃおよび抽出部２０Ｄの少なくとも一方は、学習済モデル２０Ｆと同様に、畳み込みフィルタを用いた畳み込みニューラルネットワーク（ＣＮＮ）となる。

この場合、画像変形部２０Ｂは、撮影画像４２に含まれる物体４３の特徴量４４の抽出、撮影画像４２に含まれる物体４３の物体領域４５の検出、および学習済モデル２０Ｆを用いた正解情報４７の特定、の少なくとも１つの処理時に用いる畳み込みフィルタに応じた形状となるように、撮影画像４０を変形することとなる。

画像変形部２０Ｂが、このような変形処理を行うことで、本実施の形態の情報処理装置１０は、上記効果に加えて、検出精度の向上を更に図ることができる。

なお、本実施の形態では、情報処理装置１０が、画像変形部２０Ｂを備えた構成である場合を一例として説明した。しかし、情報処理装置１０は、画像変形部２０Ｂを備えない構成であってもよい。この場合、情報処理装置１０は、撮影画像４０を用いて、上記処理を実行すればよい。但し、情報処理装置１０は、画像変形部２０Ｂを備えた構成であることが好ましい。これは、情報処理装置１０が画像変形部２０Ｂを備えた構成であることで、上述した更なる効果が得られるためである。

なお、上述した実施の形態における、上記情報処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよいし、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、各種プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

また、上述した実施の形態における、上記情報処理を実行するための連携支援プログラムは、上記各機能部を含むモジュール構成となっており、実際のハードウェアとしては、例えば、ＣＰＵ（プロセッサ回路）がＲＯＭまたはＨＤＤから連携支援プログラムを読み出して実行することにより、上述した各機能部がＲＡＭ（主記憶）上にロードされ、上述した各機能部がＲＡＭ（主記憶）上に生成されるようになっている。なお、上述した各機能部の一部または全部を、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などの専用のハードウェアを用いて実現することも可能である。

なお、上記には、実施の形態を説明したが、上記実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施の形態は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０情報処理装置
２０Ａ取得部
２０Ｂ画像変形部
２０Ｃ物体検出部
２０Ｄ抽出部
２０Ｅ特定部
２０Ｆ学習済モデル
２０Ｇ追跡対象検出部
２０Ｈ追加部
２０Ｉ学習部

Claims

撮影画像を取得する取得部と、
前記撮影画像のうち、物体が写り込んだ領域を示す１以上の物体領域の特徴量、および、教師画像に含まれる１以上の前記物体領域の中の何れが追跡対象の物体の前記物体領域であるかを示す正解情報と該１以上の前記物体領域の各々の特徴量との対応を示す教師データ、に基づいて、前記撮影画像に含まれる１以上の物体の前記物体領域の内、追跡対象の物体の前記物体領域を検出する検出部と、
を備える情報処理装置。
前記検出部が追跡対象の物体の前記物体領域を検出する毎に、該検出に用いられた前記撮影画像に含まれる１以上の前記物体領域の各々の前記特徴量と、該撮影画像に含まれる１以上の前記物体領域の中の前記検出部によって検出された追跡対象の物体の前記物体領域を示す前記正解情報と、の対応を示す前記教師データを追加する追加部を備える、
請求項１に記載の情報処理装置。
複数の前記教師データを含む教師データセットを用いて、前記撮影画像に含まれる１以上の前記物体領域の前記特徴量から前記正解情報を導出するための学習済モデルを学習する学習部を備え、
前記検出部は、
前記撮影画像に含まれる１以上の物体の前記物体領域の前記特徴量および前記学習済モデルに基づいて、前記撮影画像に含まれる１以上の物体の前記物体領域の内、追跡対象の物体の前記物体領域を検出する、
請求項１または請求項２に記載の情報処理装置。
前記学習済モデルは、畳み込みニューラルネットワークである、
請求項３に記載の情報処理装置。
前記撮影画像に含まれる追跡対象の属性の物体が、前記畳み込みニューラルネットワークにおけるフィルタに応じた形状となるように、前記撮影画像を変形する画像変形部を備え、
前記検出部は、変形された前記撮影画像に含まれる１以上の物体の前記物体領域の特徴量および前記学習済モデルに基づいて、前記撮影画像に含まれる１以上の物体の前記物体領域の内、追跡対象の物体の前記物体領域を検出する、
請求項４に記載の情報処理装置。
撮影画像を取得するステップと、
前記撮影画像のうち、物体が写り込んだ領域を示す１以上の物体領域の特徴量、および、教師画像に含まれる１以上の前記物体領域の中の何れが追跡対象の物体の前記物体領域であるかを示す正解情報と該１以上の前記物体領域の各々の特徴量との対応を示す教師データ、に基づいて、前記撮影画像に含まれる１以上の物体の前記物体領域の内、追跡対象の物体の前記物体領域を検出するステップと、
を含む情報処理方法。
撮影画像を取得するステップと、
前記撮影画像のうち、物体が写り込んだ領域を示す１以上の物体領域の特徴量、および、教師画像に含まれる１以上の前記物体領域の中の何れが追跡対象の物体の前記物体領域であるかを示す正解情報と該１以上の前記物体領域の各々の特徴量との対応を示す教師データ、に基づいて、前記撮影画像に含まれる１以上の物体の前記物体領域の内、追跡対象の物体の前記物体領域を検出するステップと、
をコンピュータに実行させるためのプログラム。