JP7143263B2

JP7143263B2 - 符号化パラメータを用いて対象識別位置を決定する対象識別方法、装置及びプログラム

Info

Publication number: JP7143263B2
Application number: JP2019161826A
Authority: JP
Inventors: 和之田坂; 勝菅野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2022-09-28
Anticipated expiration: 2039-09-05
Also published as: JP2021039642A

Description

本発明は、所定の対象を画像内に含み得る画像データから、当該対象を識別する技術に関する。

現在、監視やマーケティング等の目的をもって、さらには自動運転車や自律ロボット等の「視覚系」として、カメラによって生成された画像データを解析し、撮影された対象を識別する技術の開発が盛んに進められている。

ここで、この対象識別処理は多くの場合、対象検出用に学習を行った物体検出器を用いて実施される。このような物体検出器を利用した例として、非特許文献１は、畳み込みニューラルネットワーク（ＣＮＮ，Convolutional Neural Network）を用いて、画像に含まれる対象における存在位置やその種別を推定する技術を開示している。

また、特許文献１には、ＣＮＮを用い、特定物体の検出処理の高速化を図った物体検出装置が開示されている。この装置は具体的に、畳み込み計算を行うニューラルネットワークを１層以上備えており特徴マップを出力する特徴抽出部と、この特徴マップに対しスライディングウィンドウ処理を実行して複数の特徴マップウィンドウを出力するスライディングウィンドウ部と、これらの特徴マップウィンドウ内に特定の物体が含まれるか否かを判定する識別部とを備えている。

さらにこの物体検出装置においては、例えば画像サイズが1280×448である画像について物体検出を行う場合、この画像を、互いに画質の異なる複数の画像、例えば320×112、640×224、及び1280×448の画像に変換し、これらの画像を用いて物体検出を行っている。

特開２０１８－００５５２０号公報

Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, "SSD: single shot multibox detector", European Conference on Computer Vision, Computer Vision-ECCV 2016, ２０１６年, ２１～３７頁

以上に説明したような画像識別技術が実施される状況として、多くの場合、撮影され生成された画像データは、車載装置や監視カメラ装置等から圧縮符号化された映像ストリームの形で画像識別装置へ送信されることになる。

ここで、特許文献１や非特許文献１に記載されたような従来技術においては、対象識別処理の前提となる、対象に係る画像領域の推定処理を行うため、このストリームデータを一先ず画像データの形に変換して、機械学習モデルへ入力する必要が生じてしまう。

そのため、ストリームデータを受けた対象識別装置における処理負担が多大なものとなり、特に、対象識別処理のリアルタイム性が要求される場面においては、この大きな処理負担は重大な問題となってきた。

そこで、本発明は、処理対象である画像データを受信する側における対象識別処理の処理負担を低減可能な対象識別方法、装置及びプログラムを提供することを目的とする。

本発明によれば、所定の対象を画像内に含み得る画像データから当該対象を識別する装置であって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
決定された複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
を有し、
候補領域決定手段は、複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n（nは２からN（≧2）までの各整数）の候補画像領域であって、第(n－1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別装置が提供される。

この本発明による対象識別装置においては、第nの候補画像領域は、第(n－1)の候補画像領域よりも大きい面積を有するように設定されることも好ましい。さらに、第1の候補画像領域及び第Nの候補画像領域の間となる候補画像領域がm個存在している場合に、m個の候補画像領域の各々における面積値は、第1の候補画像領域の面積値と第Nの候補画像領域の面積値との間を(m＋1)等分した際の各等分位置の値に設定されることも好ましい。

また具体的に１つの実施形態として、第nの候補画像領域は、第(n－1)の候補画像領域を自らの中央に配し、且つ第(n－1)の候補画像領域の全体を包含するように決定されることも好ましい。さらに他の実施形態として、第1の候補画像領域は、当該単位画像区域の画像内での位置が、自らの下部又は下端となるように決定されることも好ましい。

また、上述したような実施形態において、第1の候補画像領域は、当該単位画像区域の画像内での位置における画像下端からの距離が小さいほど、より大きな面積を有するように決定されることも好ましい。さらに、第1の候補画像領域は、当該単位画像区域の画像内での位置における消失点からの距離が大きいほど、より大きな面積を有するように決定されることも好ましい。

また、本発明による対象識別装置では具体的に、当該映像データの符号化はＭＰＥＧ（Moving Picture Experts Group）による符号化であり、所定条件を満たす符号化パラメータは、
（ａ）所定以上の大きさと、基準向きに対し所定以上の角度をなす向きとを有する順方向予測の動きベクトル、
（ｂ）所定以上の大きさを有する画面内予測の符号量、及び
（ｃ）所定以下の大きさを有する量子化ステップサイズ
のうちの少なくとも１つであって、当該単位画像区域はマクロブロックであることも好ましい。

さらに、本発明による対象識別装置における当該識別器は、
当該少なくとも１つの候補画像領域のそれぞれを入力とし、当該候補画像領域の特徴に係る特徴情報をそれぞれ出力する少なくとも１つの畳み込み層部（Convolutional Layers）と、
上記の少なくとも１つの畳み込み層部から出力される特徴情報を取りまとめて入力とし、当該対象のクラスに係る情報を出力する全結合層部（Fully-Connected Layers）と
を含むことも好ましい。

本発明によれば、また、所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータによって実施される方法であって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定するステップと、
決定された複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別するステップと
を有し、
上記の複数の候補画像領域を決定するステップでは、複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n（nは２からN（≧2）までの各整数）の候補画像領域であって、第(n－1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別方法が提供される。

本発明によれば、さらに、クライアントで生成された、所定の対象を画像内に含み得る画像データを取得し、当該対象を識別するサーバであって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報であって、クライアントから当該画像データとともに取得された位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
決定された複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
を有し、
候補領域決定手段は、複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n（nは２からN（≧2）までの各整数）の候補画像領域であって、第(n－1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別サーバが提供される。

本発明によれば、さらにまた、所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータを機能させるプログラムであって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
決定された複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
してコンピュータを機能させ、
候補領域決定手段は、複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n（nは２からN（≧2）までの各整数）の候補画像領域であって、第(n－1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別プログラムが提供される。

本発明の対象識別方法、装置及びプログラムによれば、処理対象である画像データを受信する側における対象識別処理の処理負担を低減することができる。

本発明による対象識別装置（サーバ）及びクライアントを備えた対象識別システムの一実施形態を説明するための模式図及び機能ブロック図である。本発明に係る候補領域決定部における候補画像領域決定処理の一実施例を説明するための模式図である。本発明に係る候補領域決定部における候補画像領域決定処理についての種々の実施形態を説明するための模式図である。本発明に係る対象識別部における対象識別処理の一実施例を説明するための模式図である。本発明に係るマクロブロック選別部におけるマクロブロック選別処理の実施例を説明するための模式図である本発明に係る有意映像ストリーム生成部における有意映像ストリームを構成するフレームの生成に係る一実施形態を説明するための模式図である。本発明に係る有意映像ストリーム生成部における有意映像ストリーム生成処理の一実施形態を説明するための模式図である。

以下、本発明の実施形態について、図面を用いて詳細に説明する。

［対象識別システム］
図１は、本発明による対象識別装置（サーバ）及びクライアントを備えた対象識別システムの一実施形態を説明するための模式図及び機能ブロック図である。

図１に示した本実施形態の対象識別システムは、
（ａ）移動可能なクライアントである少なくとも１つの端末２０と、
（ｂ）端末２０から、所定の対象を画像内に含み得る画像データを取得可能なサーバであるクラウドサーバ１と
を有し、クラウドサーバ１において、当該画像データから所定の対象が識別されるのである。

また上記（ａ）の端末２０は、本実施形態において通信機能を有するドライブレコーダであり自動車２に設置されている。ここで、その設置場所は任意に設定可能であり、例えば自動車２のフロントガラス越しに車両前方を撮影可能な位置（例えばダッシュボード上部）とすることができる。勿論、車両側方や後方を撮影可能な位置に端末２０を設置してもよく、異なる複数の位置の各々に端末２０を設置することも可能である。

さらに本実施形態において、端末２０（ドライブレコーダ）は、例えば自動車２の進行方向の状況をカメラで撮影して画像（映像）データを生成し、自身に設けられたメモリやストレージに保存することができる。また、端末２０は、例えば携帯電話通信網やインターネット等を介してクラウドサーバ１と無線通信接続が可能となっており、保存した画像（映像）データの一部又は全部を、適宜又は要求に応じてクラウドサーバ１へ送信することもできるのである。

ここで、端末２０からクラウドサーバ１へ画像（映像）データを送信する際、端末２０は通常、当該画像（映像）データに対し圧縮符号化処理を行い、伝送負担の小さい圧縮映像ストリームを生成して送信することになる。本実施形態では、この圧縮符号化処理として、ＭＰＥＧ（Moving Picture Experts Group）規格におけるＨ．２６４やＨ．２６５といった標準フォーマットによる処理が実施されるが、非標準のフォーマットによるものとすることも可能である。また勿論、空間解像度、フレームレートや、ビットレートは任意に設定可能となっている。

さらに、後に図５～７を用いて詳細に説明するが、端末２０は、後述する「符号化パラメータマップ」フレームに同期した符号化フレームによって構成される「有意映像ストリーム」（図７）を、クラウドサーバ１へ送信することも好ましい。

ここで、「有意映像ストリーム」は、クラウドサーバ１における対象識別処理に必要となるであろう（当該処理上有意となるであろう）フレームによって構成されており、実際には、カメラ２０２によって撮影される自動車２の周囲の状況の中で、撮影範囲において急に現れたり消滅したり、その位置や形状が所定以上の急激さで変化したりした対象を捉えたフレームを選別して含んでいる。またその結果、「有意映像ストリーム」は、符号化された原映像ストリームと比較しても、伝送容量のより低減した映像データとなっているのである。

一方、上記（ｂ）のクラウドサーバ１は、具体的にその構成として、
（Ａ）識別処理対象である画像データを含む映像データを符号化した際に決定される「符号化パラメータ」が所定条件を満たすことになる「単位画像区域」の画像内での位置に係る情報に基づき、当該画像データにおいて、所定の対象に係る少なくとも１つの「候補画像領域」を決定する候補領域決定部１１２と、
（Ｂ）決定された少なくとも１つの「候補画像領域」を入力とし、所定の対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから所定の対象を識別する対象識別部１１３と
を有することを特徴としている。

ここで、上記（Ａ）において「候補画像領域」を決定する画像データは、受信された圧縮符号化画像（映像）データを伸張（デコード）したものとすることができ、または、「有意映像ストリーム」を構成する画像データであってもよい。

また、上記（Ａ）の「符号化パラメータ」は、本実施形態においてＭＰＥＧにおける、順方向予測の動きベクトル、画面内予測の符号量、及び量子化ステップサイズのうちの少なくとも１つとすることができ、さらに、「符号化パラメータ」が所定条件を満たすことになる「単位画像区域」は、
（ａ）順方向予測の動きベクトルが、所定以上の大きさと、基準向き（例えば、消失点（画像内地平線上の収束点）へ向かう向き）に対し所定以上の角度をなす向きとを有している、
（ｂ）画面内予測の符号量が、所定以上の大きさを有する、及び
（ｃ）量子化ステップサイズが、所定以下の大きさを有する
との３つの条件のうちの１つ、２つ又は全部が満たされる「マクロブロック」であることも好ましい。

なお、このような条件を満たす「マクロブロック（単位画像区域）」の情報は、端末２０から「有意映像ストリーム」とともに送信されてきた「符号化パラメータマップ」によって取得してもよい。「符号化パラメータマップ」は、後に詳細に説明するが、順方向予測の動きベクトル、画面内予測の符号量、及び／又は量子化ステップサイズが所定条件を満たす度合いが高いほど、対応するマクロブロックの部分の画素値をより大きくしたマップデータである。

例えば「符号化パラメータマップ」は、順方向予測の動きベクトルの大きさが大きいほど、また、基準向きに対してその向きのなす角度が大きいほど、そのマクロブロックの部分における色合いの階調を高く（濃く）したものであってもよい。また、画面内予測の符号量が大きいほど、そのマクロブロックの部分における色合いの階調を高く（濃く）したものとすることもできる。さらに、量子化ステップサイズが小さいほど、そのマクロブロックの部分における色合いの階調を高く（濃く）したものであってもよい。

いずれにしても、このような「符号化パラメータマップ」を用いることによって、「符号化パラメータ」が所定条件を満たすことになる「単位画像区域」の画像内での位置に係る情報を取得・決定し、これにより「候補画像領域」を決定することができるのである。

ちなみに、端末２０は、「符号化パラメータマップ」ではなく、所定条件を満たす「マクロブロック」の画像内における位置情報（例えばマクロブロックのアドレスや画像内位置座標値）をクラウドサーバ１へ通知し、クラウドサーバ１は、この位置情報に基づいて、「候補画像領域」を決定することも可能である。

さらに、「符号化パラメータマップ」や上記のマクロブロック位置情報は、端末２０から取得されるのではなく、クラウドサーバ１において生成されてもよい。すなわちクラウドサーバ１が、受信した圧縮符号化映像ストリームを一先ず簡易的に伸張（デコード）して、ビットストリームを解釈（パース）し、符号化パラメータを抽出することによって、「符号化パラメータマップ」や上記のマクロブロック位置情報を生成してもよい。

いずれにしても、クラウドサーバ１は、「符号化パラメータ」が所定条件を満たすことになる「単位画像区域」の画像内での位置に係る情報に基づいて、少なくとも１つの「候補画像領域」を決定することができる。すなわち、対象識別処理を実施するにあたり、最初に検出器を用いて画像内において所定の対象を検出する処理を行い、予めその候補位置を決定するといった負担の大きい処理を実施する必要がないのである。

これは言い換えると、クライアントである端末２０側において送信映像データを圧縮符号化する段階で、対象検出処理相当の処理結果が生成されると捉えることもできる。これにより、処理対象である画像データを受信する側（すなわちクラウドサーバ１）における対象識別処理の処理負担を低減することができるのである。またその実施態様によってはクラウドサーバ１において、本来、対象検出処理を実施するにあたり必要となるデータの蓄積が不要となり、結果的に、サーバ側でのデータ蓄積量を低減することも可能となるのである。

なお、端末２０は当然に、自動車２に設置された車載装置（ドライブレコーダ）に限定されるものではなく、例えば自転車や鉄道車両、さらにはロボットやドローン等の他の移動体に設置された又は搭乗した装置であってもよい。また、端末２０は、例えばＨＭＤ（Head Mounted Display）やグラス型端末等のウェアラブル端末であってもよい。この場合、例えばユーザが歩きながら撮影し生成した画像データがクラウドサーバ１へ上げられることになる。さらに、画像データ生成・送信元のクライアントは、端末２０とは異なり移動可能ではない端末であってもよく、例えば通信機能を備えた固定カメラ装置とすることもできる。

［対象識別サーバの機能構成］
図１に示した機能ブロック図によれば、クラウドサーバ１は、通信インタフェース１０１と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明による対象識別プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この対象識別プログラムを実行することによって、対象識別処理を実施する。

またこのことから、本発明による対象識別サーバとして、本クラウドサーバ１に代えて、本発明による対象識別プログラムを搭載した、例えば非クラウドのサーバ装置、パーソナル・コンピュータ（ＰＣ）、ノート型若しくはタブレット型コンピュータ、又はスマートフォン等を採用することも可能となる。

また例えば、端末２０に本発明による対象識別プログラムを搭載し、当該端末２０を本発明による対象識別サーバとすることもできる。さらに、本発明による対象識別サーバを、端末２０とともに自動車２に設置する実施形態も可能となるのである。

また、上記のプロセッサ・メモリは、画像取得部１１１と、候補領域決定部１１２と、対象識別部１１３と、学習データ生成部１１４と、学習モデル生成部１１５と、送受信制御部１１６とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された対象識別プログラムの機能と捉えることができる。また、図１におけるクラウドサーバ１の機能構成部間を矢印で接続して示した処理の流れは、本発明による対象識別方法の一実施形態としても理解される。

同じく図１の機能ブロック図において、画像取得部１１１は、端末２０から通信インタフェース１０１及び送受信制御部１１６を介して受信された、圧縮符号化された映像ストリームを取得し、管理する。ここで画像取得部１１１は、当該映像ストリームを伸張（デコード）し、原映像ストリームを構成する画像データ群として管理することも好ましい。また上述したように一変更態様として、ビットストリームを解釈（パース）し、符号化パラメータを抽出することによって「符号化パラメータマップ」を生成するようにすることも可能である。

候補領域決定部１１２は、端末２０から上記の映像ストリームとともに受信された「マクロブロック位置情報」に基づき、画像取得部１１１から取り込んだ画像データにおいて、所定の対象に係る少なくとも１つの候補画像領域を決定する。ここで「マクロブロック位置情報」は、
（ａ）符号化パラメータが所定条件を満たすことになるマクロブロックの画像内における位置情報、例えばマクロブロックアドレスや、マクロブロックの画像内位置座標値、又は
（ｂ）符号化パラメータマップ
とすることができる。

具体的に本実施形態における「マクロブロック位置情報」は、上述したように、
（ａ）順方向予測の動きベクトルが、所定以上の大きさと、消失点へ向かう基準向きに対し所定以上の角度をなす向きとを有している、
（ｂ）画面内予測の符号量が、所定以上の大きさを有する、及び
（ｃ）量子化ステップサイズが、所定以下の大きさを有する
との３つの条件のうちの１つ、２つ又は全部（いずれを採用するかは予め設定される）が満たされるマクロブロックの画像内位置情報となっている。

候補領域決定部１１２は、このような「マクロブロック位置情報」で指定された画像内位置を基準として、対象識別処理に使用すべき候補画像領域を決定するのである。

図２は、候補領域決定部１１２における候補画像領域決定処理の一実施例を説明するための模式図である。

図２によれば、候補領域決定部１１２は、識別対象である画像データと、当該画像データに対応する符号化パラメータマップとを取得し、この符号化パラメータマップから、上記の所定条件を満たすマクロブロックの画像内位置座標を抽出して、候補画像領域を決める際の基準となる基準対象位置（図２における黒丸）を決定している。

ここで、所定条件を満たすマクロブロックが複数の固まりとなって分布している場合、例えば各固まりの重心座標を、基準対象位置に決定することができる。本実施例においても、実際には複数の基準対象位置が決定されているが、図２では、そのうちの１つを示している。

次いで、候補領域決定部１１２は本実施例において、決定した基準対象位置に基づき３つの候補画像領域を決定している。具体的には、図２に示すように、
（ａ）この基準対象位置（所定条件を満たすマクロブロックの画像内位置）を含む第1の候補画像領域と、
（ｂ）第1の候補画像領域の全体（又は所定以上の部分）を含む第2の候補画像領域と、
（ｃ）第2の候補画像領域の全体（又は所定以上の部分）を含む第3の候補画像領域と
を決定しているのである。

ここで勿論、候補領域決定部１１２は、３つの候補画像領域に限定されず、予め設定されたN（2以上の整数）個の候補画像領域を決定することができる。この場合、基準対象位置（所定条件を満たすマクロブロックの画像内位置）を含む第1の候補画像領域と、第n（nは２からNまでの各整数）の候補画像領域であって、第(n－1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定することも好ましい。

図３は、候補領域決定部１１２における候補画像領域決定処理についての種々の実施形態を説明するための模式図である。

最初に候補領域決定部１１２は、図３（Ａ）に示すように、識別対象の画像データにおいて１つの基準対象位置を決定しているものとする。ここで、基準対象位置は、例えば同図のように画像内に自動車が含まれている場合、この自動車における平坦な地面（路面）と接する足元、すなわちタイヤ付近となることが多い。

次いで一実施形態として、候補領域決定部１１２は、図３（Ｂ）に示すように、
（ａ）決定された基準対象位置を含む第1の候補画像領域と、
（ｂ）第1の候補画像領域を自らの中央に配し、且つ第1の候補画像領域の全体を包含する第2の候補画像領域と、
（ｃ）第2の候補画像領域を自らの中央に配し、且つ第2の候補画像領域の全体を包含する第3の候補画像領域と
を決定することができる。

ここで勿論、候補領域決定部１１２は、３つの候補画像領域に限定されず、予め設定されたN（2以上の整数）個の候補画像領域を決定してもよい。この場合、第n（nは２からNまでの各整数）の候補画像領域は、第(n－1)の候補画像領域を自らの中央に配し、且つ第(n－1)の候補画像領域の全体を包含するように決定されるのである。

以上説明したような処理によって、所定の対象が存在する可能性のある基準対象位置を確実に含み、且つ（少なくとも最大である第Nの候補画像領域において）当該対象の全体を含み得る（含む可能性が高い）複数の候補画像領域を決定することができる。またこの後、このような候補画像領域を用いることによって、より確実に当該対象を識別することが可能となるのである。

また、候補領域決定部１１２は他の実施形態として、図３（Ｃ）に示すように、第1の候補画像領域を、基準対象位置がこの第1の候補画像領域の下部又は下端となるように決定することも好ましい。この場合、同じく図３（Ｃ）に示すように、
（ａ）基準対象位置が自らの下部又は下端となっており、且つ第1の候補画像領域の全体を包含する第2の候補画像領域と、同じく基準対象位置が自らの下部又は下端となっており、且つ第2の候補画像領域の全体を包含する第3の候補画像領域と
を決定してもよく、または、
（ｂ）第1の候補画像領域を自らの中央に配し、且つ第1の候補画像領域の全体を包含する第2の候補画像領域と、第2の候補画像領域を自らの中央に配し、且つ第2の候補画像領域の全体を包含する第3の候補画像領域と
を決定することも可能である。

ここで勿論、候補領域決定部１１２は、３つの候補画像領域に限定されず、上記と同様にして、予め設定されたN（2以上の整数）個の候補画像領域を決定してもよい。

いずれにしても、以上説明したような処理によって、所定の対象が存在する可能性のある基準対象位置を確実に含み、且つ（少なくとも最大である第Nの候補画像領域において）当該対象の全体を含み得る（含む可能性が高い）複数の候補画像領域を決定することができる。特に上述したように、自動車等の移動体が所定の対象である場合、基準対象位置は通常、この移動体における平坦な地面（路面）と接する足元となる。したがってこの場合、基準対象位置の上方に展開する候補画像領域の中に、当該対象がより包含され易くなる。またこの後、このような候補画像領域を用いることによって、より確実に当該対象を識別することが可能となるのである。

さらに、図３（Ｂ）及び（Ｃ）に示したいずれの実施形態においても、第1の候補画像領域は、（ａ）基準対象位置（所定条件を満たすマクロブロックの画像内位置）における画像下端からの距離aが小さいほど、より大きな面積を有するように決定されることも好ましい。この場合、第1の候補画像領域の面積（画素数）S1は、f_sを距離aの単調減少関数として、次式
（１） S1＝f_s(a)
で表すことができる。

また、同じく図３（Ｂ）及び（Ｃ）のいずれの実施形態においても、第1の候補画像領域は、（ｂ）基準対象位置（所定条件を満たすマクロブロックの画像内位置）における消失点（図３（Ａ））からの距離が大きいほど、より大きな面積を有するように決定されることも好ましい。

以上説明したように第1の候補画像領域の面積を決定することによって、例えば前方を走行している自動車を撮影した画像データから、当該自動車を所定の対象として識別する場合において、当該自動車の位置が近いほど、第1の候補画像領域の面積、ひいては残りの候補画像領域の面積をより大きく設定することが可能となり、結果的に、当該自動車の全体を含み得る（含む可能性が高い）候補画像領域が決定され易くなる。

また一方、当該自動車の位置が遠いほど、第1の候補画像領域の面積、ひいては残りの候補画像領域の面積をより小さく設定することも可能となり、その結果、対象識別上不要となる当該自動車以外の画像領域を、できるだけ含まないような候補画像領域が決定され易くなるのである。

さらに好適な実施形態として、第Nの候補画像領域についても、（ａ）基準対象位置（所定条件を満たすマクロブロックの画像内位置）における画像下端からの距離aが小さいほど、より大きな面積を有するように決定されることも好ましく、さらに、（ｂ）基準対象位置（所定条件を満たすマクロブロックの画像内位置）における消失点（図３（Ａ））からの距離が大きいほど、より大きな面積を有するように決定されることも好ましい。

いずれにしても、このように面積を設定することによって、最も大きくなる第Nの候補画像領域の大きさが、基準対象位置に係る対象（例えば自動車）の想定される大きさに合わせ、当該対象に係る画像領域をより確実に包含し得るように調整可能となるのである。

ちなみに、第1及び第Nの候補画像領域の間となる候補画像領域がm個存在している場合、これらの候補画像領域の面積は、第1の候補画像領域の面積値と第Nの候補画像領域の面積値との間を(m＋1)等分した際の各等分位置の面積値に設定することができる。

図１の機能ブロック図に戻って、対象識別部１１３は、決定された少なくとも１つの候補画像領域を入力とし、所定の対象のクラスに係る情報を出力する学習済みの識別器を用いて、画像データから当該対象を識別する。

ここで、対象識別処理を実施する識別器は、画像認識用に広く使用されているディープニューラルネットワーク（ＤＮＮ，Deep Neural Network）や、ＳＶＭ（Support Vector machine）、さらにはランダムフォレスト（Random Forest）等、少なくとも１つの候補画像領域が入力されて識別結果が出力される様々な種別の機械学習アルゴリズムによって構成することができる。以下、複数の候補画像領域を受け入れて対象識別を実施可能な識別器の例を説明する。

図４は、対象識別部１１３における対象識別処理の一実施例を説明するための模式図である。

図４に示した実施例では、対象識別部１１３は、図２の実施例で決定された３つの候補画像領域を入力とし、所定の対象のクラスとしての"自動車"と、その確からしさ（スコア）とを出力する識別器を用いて、識別処理を行っている。

ここで、この識別器は、
（ａ）複数の（本実施例では３つの）候補画像領域のそれぞれを入力とし、当該候補画像領域の特徴に係る特徴情報をそれぞれ出力する複数の畳み込み層部（Convolutional Layers）と、
（ｂ）上記（ａ）の複数の畳み込み層部から出力される特徴情報を取りまとめて入力とし、所定の対象（本実施例では自動車）のクラスに係る情報（例えばクラス"自動車"とそのスコア）を出力する全結合層部（Fully-Connected Layers）と
を含む構成となっている。

ここで、上記（ａ）の畳み込み層部は、画像データに対しカーネル（重み付け行列フィルタ）をスライドさせて特徴マップを生成する畳み込み処理を実行する。この畳み込み処理によって、画像の解像度を段階的に落としながら、エッジや勾配等の基本的特徴を抽出し、局所的な相関パターンの情報を得ることができる。例えばこの畳み込み層部として、複数の畳み込み層を用いた公知のAlexNetを用いることが可能である。

このAlexNetでは、各畳み込み層はプーリング層と対になっており、畳み込み処理とプーリング処理とが繰り返される。ここでプーリング処理とは、畳み込み層から出力される特徴マップ（一定領域内の畳み込みフィルタの反応）を最大値や平均値等でまとめ、調整パラメータを減らしつつ、局所的な平行移動不変性を確保する処理である。

なお、更なる他の実施態様として、対象識別部１１３は、上記（ａ）の複数の畳み込み層部の出力側に、判別すべきクラス毎に設けられたサポートベクタマシン（ＳＶＭ）を接続した構成の識別器を用い、これに対し学習を行わせた上で対象識別処理を実施させることも可能である。

いずれにしても、対象識別部１１３で生成された対象識別結果（対象のクラスに係る情報，例えばクラス"自動車"とそのスコア）は、送受信制御部１１６及び通信インタフェース１０１を介し、外部の情報処理装置、例えば端末２０へ送信されることも好ましい。また、クラウドサーバ１内で、所定のアプリケーション・プログラムによって利用されるようにしてもよい。

図１の機能ブロック図に戻って、学習データ生成部１１４は、対象識別部１１３の識別器を構成する学習モデルを構築するための学習データを生成し管理する。ここで、学習データは具体的に、候補領域決定部１１２で決定された候補画像領域に対し、元の画像データについての正解ラベル（例えば"自動車"）を付与することによって生成される。次いで、学習モデル生成部１１５は、この学習データ生成部１１４で生成され管理されている（十分な量の）学習データを用いて、対象識別処理用の学習モデルを生成するのである。

ここで勿論、複数の対象（例えば自動車や人間等）に対応すべく、学習データ生成部１１４は当該対象毎の学習データを生成し、さらに、学習モデル生成部１１５はこれらの学習データを使用して当該対象毎の学習モデルを生成することも好ましい。この場合、対象識別部１１３は、複数の対象のそれぞれを識別可能な複数の識別器を取得し、各対象についての識別結果を並行して出力することも可能となるのである。

［画像データ提供クライアントの機能構成］
同じく図１に示した機能ブロック図によれば、端末２０は、通信インタフェース２０１と、カメラ２０２と、ディスプレイ（ＤＰ）２０３と、プロセッサ・メモリとを有する。ここで、このプロセッサ・メモリは、本発明に係る画像データ提供プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、この画像データ提供プログラムを実行することによって、画像データ提供処理を実施する。

またこのことから、本発明に係る画像データ提供クライアントとして、ドライブレコーダである本端末２０に代えて、本発明に係る画像データ提供プログラムを搭載した他の車載情報処理装置や、さらにはカメラを備えたスマートフォン、ノート型若しくはタブレット型コンピュータ、又はパーソナル・コンピュータ（ＰＣ）等を採用することも可能となる。また、ドライブレコーダとＷｉ-Ｆｉ（登録商標）やBluetooth（登録商標）等で通信接続された端末、例えばスマートフォンを本画像データ提供クライアントとしてもよい。

さらに、プロセッサ・メモリは、映像生成部２１１と、符号化パラメータ抽出部２１２と、マクロブロック選別部２１３と、有意映像ストリーム生成部２１４と、提示情報生成部２１５と、送受信制御部２１６とを有する。なお、これらの機能構成部は、プロセッサ・メモリに保存された画像データ提供プログラムの機能と捉えることができる。また、図１における端末２０の機能構成部間を矢印で接続して示した処理の流れは、本発明に係る画像データ提供方法の一実施形態としても理解される。

なお本実施形態では、端末２０はこの後説明するように、符号化パラメータマップフレームに同期した符号化フレームによって構成される有意映像ストリーム（図７）を、クラウドサーバ１へ送信することになるが、勿論、通常の圧縮符号化映像ストリームを送信するようにしてもよい。

同じく図１の機能ブロック図において、映像生成部２１１は、カメラ２０２から出力された撮影データに基づいて画像（映像）データを生成する。本実施形態において端末２０はドライブレコーダであり、映像生成部２１１はデフォルトの設定として、少なくとも自動車２の走行時は常に、車外の状況を撮影した撮影データをカメラ２０２から取得し、画像（映像）データを生成し保存している。

また本実施形態において、映像生成部２１１は、ＭＰＥＧ規格におけるＨ．２６４やＨ．２６５といった標準フォーマットによって、生成した画像（映像）データに対し圧縮符号化処理を行い、圧縮符号化映像ストリーム（原画像ストリーム）を生成する。

符号化パラメータ抽出部２１２は、生成された圧縮符号化映像ストリームを簡易的に伸張（デコード）して、ビットストリームを解釈（パース）し、各マクロブロックにおける符号化パラメータを抽出する。ここで、符号化パラメータは、（ａ）順方向予測の動きベクトル、（ｂ）画面内予測の符号量、及び（ｃ）量子化ステップサイズのうちの予め設定された少なくとも１つとすることができる。

マクロブロック選別部２１３は、各マクロブロックから抽出された符号化パラメータに基づき、
（ａ）順方向予測の動きベクトルが、所定以上の大きさと、消失点へ向かう基準向きに対し所定以上の角度をなす向きとを有している、
（ｂ）画面内予測の符号量が、所定以上の大きさを有する、及び
（ｃ）量子化ステップサイズが、所定以下の大きさを有する
との３つの条件のうちの１つ、２つ又は全部（いずれを採用するかは予め設定される）が満たされるマクロブロックを選別する。ちなみにこのような条件を満たす符号化パラメータは、おしなべて言えば画像の時間的変動が所定以上に大きいことを示すものとなっている。

ここで、上記の条件（ａ）について、動きベクトルは、２フレーム以上前の１フレームを参照して算出してもよく、直前の１フレームを参照して算出することもでき、また、複数のフレームを参照して算出してもよい。いずれにしても、このような算出の方法に応じて、所定以上の大きさの基準（閾値）が適宜調整されることも好ましい。

また、上記の条件（ｂ）について、画面内予測の符号量は通常、画像内にエッジ（対象の輪郭）が存在すれば大きくなり、画像が平坦な場合には小さくなる。したがって、例えば所定の対象が自動車の場合、特に、自動車と平坦な路面との境界に相当するタイヤ位置付近での符号量が大きくなり、そのあたりのマクロブロックが選別され易くなる。

さらに、上記の条件（ｃ）について、量子化ステップサイズは、適応量子化（adaptive quantization）方式の下、圧縮効率を高めるために、変化の少ない画像領域では小さい値に設定され、一方、変化の大きい領域では、人間の視覚の鈍感さに合わせて大きな値に設定される。したがって、例えば所定の対象が自動車の場合、画像内で急激にその位置を変化させる自動車に係る量子化ステップサイズはより小さく設定され、そのあたりのマクロブロックが選別され易くなるのである。

マクロブロック選別部２１３は、次いで「マクロブロック位置情報」として、
（ａ）符号化パラメータが所定条件を満たすことになるマクロブロックの画像内における位置情報、例えばマクロブロックアドレスや、マクロブロックの画像内位置座標値、又は
（ｂ）符号化パラメータマップ
を生成し、この「マクロブロック位置情報」をクラウドサーバ１へ通知するのである。

ここで、このように生成されたマクロブロック位置情報は、端的に言えば所定以上の急激さをもって変化した画像領域を示すものとなっており、例えば自動車２の周囲に存在する識別・監視すべき対象（例えば他の自動車や歩行者）の画像内位置に係る情報となっている可能性が高いのである。

図５は、マクロブロック選別部２１３におけるマクロブロック選別処理の実施例を説明するための模式図である。

最初に、図５（Ａ）に示した（カメラ２０２によって生成された）原映像フレーム（カメラ画像データ）には、概ね一定の速度で変化している物体が含まれている。また、この原映像フレームにおける各マクロブロックの動きベクトルは、消失点から遠ざかるほど大きくなる傾向にあるが、いずれにしても概ね消失点に向かう向きを有している。したがってこの場合、動きベクトルについて所定条件を満たすマクロブロックは選別されない。

次に、図５（Ｂ）に示した（カメラ２０２によって生成された）原映像フレーム（カメラ画像データ）には、その画像の右下あたりに、急激にその位置を変化させる対象が含まれている。また、この画像の右下あたりのマクロブロックの動きベクトルは、所定以上の大きさを有し、さらに消失点へ向かう向きに対し所定以上の角度をなす向きを有している。その結果、動きベクトルについて、この画像の右下あたりのマクロブロック群が所定条件を満たすものとして選別されることになる。

なお、上述したように選別されたマクロブロック群の位置には、例えば、（カメラ２０２を搭載した自動車２の）前方を走行していて急な車線変更を行ったり、急な減速を行ったりする自動車（移動体）の写っていることが見込まれるのである。

最後に、図５（Ｃ）に示した（カメラ２０２によって生成された）原映像フレーム（カメラ画像データ）には、その画像の右下あたりに、急激にその位置を変化させる対象が含まれている。また、この画像の右下あたりの画面内予測の符号量は、所定以上の大きさを有している。その結果、画面内予測の符号量について、この画像の右下あたりのマクロブロック群が所定条件を満たすものとして選別されることになる。

なお以下に説明する実施形態においては、上述したような所定条件を満たす符号化パラメータをマッピングしたフレーム（符号化パラメータマップのフレーム）は、ＧＯＰ（Group Of Pictures）単位で生成されることになる（後に説明する図７を参照）。

図１の機能ブロック図に戻って、有意映像ストリーム生成部２１４は、符号化パラメータマップのフレームと同期した原映像ストリームのフレームを、時系列にして結合した有意映像ストリームを生成する。ここで本実施形態において、生成された有意映像ストリームは、生成された対応する「マクロブロック位置情報」と紐づけて、送受信制御部２１６及び通信インタフェース２０１を介し、クラウドサーバ１へ送信されることになる。

図６は、有意映像ストリーム生成部２１４における有意映像ストリームを構成するフレームの生成に係る一実施形態を説明するための模式図である。

図６（Ａ）に示した原映像フレームにおける、所定条件を満たすマクロブロックの分布範囲が、図６（Ｂ）に示されている。本実施形態において、有意映像ストリーム生成部２１４は、この図６（Ｂ）に示されたマクロブロックの分布範囲に対応する部分だけを抽出した原映像フレーム（図６（Ｃ））を生成し、有意映像ストリームを構成するフレームとするのである。これにより、最終的に生成される有意映像ストリームのデータ量を大幅に低減させることも可能となる。

図７は、有意映像ストリーム生成部２１４における有意映像ストリーム生成処理の一実施形態を説明するための模式図である。

図７によれば、有意映像ストリーム生成部２１４は、符号化された原映像フレーム群から、ＧＯＰ毎に生成された符号化パラメータマップのフレームに同期したフレームを抽出し、抽出したこれらのフレームを時系列に結合させて有意映像ストリームを生成する。

また、有意映像ストリーム生成部２１４は、同じく図７に示したように、Ｉ（イントラ）フレームの符号量が所定の符号量閾値（例えば1メガビット）以上となる場合、自らに係る自動車２が停止中であると判定して、この時間区間のフレームを、有意映像ストリームの構成フレームから除外する。これにより、有意映像ストリームのデータ量（フレーム数）をより低減させることが可能となる。ここで、判定基準となる所定の符号量閾値は、ＣＢＲ（固定ビットレート）による符号化の場合とＶＢＲ（可変ビットレート）による符号化の場合とで、異なる値に設定されることも好ましい。

ちなみに、Ｉフレームの符号量によって自動車２の走行／停止の判定が可能となるのは以下の理由による。すなわち、例えば原映像ストリームにおいて画像内の対象が一定の速度で変化し、且つ急峻な変化がない場合、画像内に一定の動きは存在するので、順方向予測のマクロブロックが増加する。一方、画面内予測のマクロブロックは減少し、その結果、フレーム全体の符号量は小さくなる傾向となる。例えば毎秒6メガビット程度の固定ビットレートで符号化処理を行うＨ．２６４では、走行中の原映像ストリームにおけるＩフレームの符号量は通常、0.5～0.8メガビットで推移する。

一方、原映像ストリームにおいて画像内に急峻な変化がある場合、画面内予測のマクロブロックは増加し、一方で、順方向予測のマクロブロックが減少して、結局、フレーム全体の符号量は大きくなる傾向となる。

さらに、原映像ストリームにおいて画像内に動きが存在しない場合、すなわち自動車２が停止中の場合、順方向予測のマクロブロックが減少し、一方で、画面内予測のマクロブロックが増加して、結果的にフレーム全体の符号量が大きくなる傾向となる。例えば停止中で変化のない原映像ストリームでは、Ｉフレームの符号量は1メガビットを超えることになる。このように、Ｉフレームの符号量を観測することによって、走行／停止の判定が可能となるのである。

図１の機能ブロック図に戻って、提示情報生成部２１５は、クラウドサーバ１から配信された対象識別結果を、通信インタフェース２０１及び送受信制御部２１６を介して取得し、端末２０がユーザへ提示するサービス情報の生成に利用してもよい。

例えば提示情報生成部２１５は、当該対象識別結果を、搭載している運転支援プログラムに取り込ませ、ディスプレイ２０３に表示されたカメラ２０２による進行方向のリアルタイムの映像において、突然の車線変更、幅寄せや追い越し等の急な動きを行っている自動車の画像部分を強調表示し、併せてアラームを鳴らしてユーザに警告することも可能となる。

以上詳細に説明したように、本発明によれば、符号化パラメータが所定条件を満たすことになる単位画像区域（例えばマクロブロック）の画像内での位置に係る情報に基づいて、少なくとも１つの候補画像領域を決定することができる。すなわち、対象識別処理を実施するにあたり、最初に検出器を用いて画像内において所定の対象を検出する処理を行い、予めその候補位置を決定するといった負担の大きい処理を実施する必要がないのである。その結果、処理対象である画像データを受信する側における対象識別処理の処理負担を低減することが可能となる。

ちなみに、本発明の構成及び方法は、膨大な量の映像データ伝送が可能となる５Ｇ（第５世代移動通信システム）を利用し、多数のクライアントから圧縮符号化された映像ストリームをサーバへアップロードする場面において、サーバにおける画像解析・対象識別処理の効率を向上させ、その負担を軽減すること等、予想される重要課題の解決に大いに貢献するものと考えられる。例えば本発明の実施形態によっては、自動運転車、ドローンや、各種ロボットが撮影した高解像度映像を５Ｇによって収集し、収集した映像を効率良く確実に識別処理して、新サービスの創出・提供につなげることも可能となるのである。

以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲内での種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例示であって、何ら制約を意図するものではない。本発明は、特許請求の範囲及びその均等物によってのみ制約される。

１クラウドサーバ（対象識別装置）
１０１、２０１通信インタフェース
１１１画像取得部
１１２候補領域決定部
１１３対象識別部
１１４学習データ生成部
１１５学習モデル生成部
１１６送受信制御部
２自動車
２０端末（クライアント）
２０２カメラ
２０３ディスプレイ（ＤＰ）
２１１映像生成部
２１２符号化パラメータ抽出部
２１３マクロブロック選別部
２１４有意映像ストリーム生成部
２１５提示情報生成部
２１６送受信制御部

Claims

所定の対象を画像内に含み得る画像データから当該対象を識別する装置であって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
決定された前記複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
を有し、
前記候補領域決定手段は、前記複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n（nは２からN（≧2）までの各整数）の候補画像領域であって、第(n－1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別装置。
当該識別器は、
前記複数の候補画像領域のそれぞれを入力とし、該複数の候補画像領域の特徴に係る特徴情報をそれぞれ出力する複数の畳み込み層部と、
前記複数の畳み込み層部から出力される特徴情報を取りまとめて入力とし、当該対象のクラスに係る情報を出力する全結合層部と
を含むことを特徴とする請求項１に記載の対象識別装置。
第nの候補画像領域は、第(n－1)の候補画像領域よりも大きい面積を有するように設定されることを特徴とする請求項１又は２に記載の対象識別装置。
第1の候補画像領域及び第Nの候補画像領域の間となる候補画像領域がm個存在している場合に、m個の候補画像領域の各々における面積値は、第1の候補画像領域の面積値と第Nの候補画像領域の面積値との間を(m＋1)等分した際の各等分位置の値に設定されることを特徴とする請求項１から３のいずれか１項に記載の対象識別装置。
第nの候補画像領域は、第(n－1)の候補画像領域を自らの中央に配し、且つ第(n－1)の候補画像領域の全体を包含するように決定されることを特徴とする請求項１から４のいずれか１項に記載の対象識別装置。
第1の候補画像領域は、当該単位画像区域の画像内での位置が、自らの下部又は下端となるように決定されることを特徴とする請求項１から５のいずれか１項に記載の対象識別装置。
第1の候補画像領域は、当該単位画像区域の画像内での位置における画像下端からの距離が小さいほど、より大きな面積を有するように決定されることを特徴とする請求項１から６のいずれか１項に記載の対象識別装置。
第1の候補画像領域は、当該単位画像区域の画像内での位置における消失点からの距離が大きいほど、より大きな面積を有するように決定されることを特徴とする請求項１から７のいずれか１項に記載の対象識別装置。
当該映像データの符号化はＭＰＥＧ（Moving Picture Experts Group）による符号化であり、所定条件を満たす符号化パラメータは、
（ａ）所定以上の大きさと、基準向きに対し所定以上の角度をなす向きとを有する順方向予測の動きベクトル、
（ｂ）所定以上の大きさを有する画面内予測の符号量、及び
（ｃ）所定以下の大きさを有する量子化ステップサイズ
のうちの少なくとも１つであって、当該単位画像区域はマクロブロックであることを特徴とする請求項１から８のいずれか１項に記載の対象識別装置。
クライアントで生成された、所定の対象を画像内に含み得る画像データを取得し、当該対象を識別するサーバであって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報であって、前記クライアントから当該画像データとともに取得された位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
決定された前記複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
を有し、
前記候補領域決定手段は、前記複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n（nは２からN（≧2）までの各整数）の候補画像領域であって、第(n－1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別サーバ。
所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータを機能させるプログラムであって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定する候補領域決定手段と、
決定された前記複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別する対象識別手段と
してコンピュータを機能させ、
前記候補領域決定手段は、前記複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n（nは２からN（≧2）までの各整数）の候補画像領域であって、第(n－1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別プログラム。
所定の対象を画像内に含み得る画像データから当該対象を識別するコンピュータによって実施される方法であって、
当該画像データを含む映像データを符号化した際に決定される符号化パラメータが所定条件を満たすことになる単位画像区域の画像内での位置に係る情報に基づき、当該画像データにおいて、当該対象に係る複数の候補画像領域を決定するステップと、
決定された前記複数の候補画像領域を入力とし、当該対象のクラスに係る情報を出力する学習済みの識別器を用いて、当該画像データから当該対象を識別するステップと
を有し、
前記複数の候補画像領域を決定するステップでは、前記複数の候補画像領域として、当該単位画像区域の画像内での位置を含む第1の候補画像領域と、第n（nは２からN（≧2）までの各整数）の候補画像領域であって、第(n－1)の候補画像領域の全体又は所定以上の部分を含む第nの候補画像領域とからなるN個の候補画像領域を決定する
ことを特徴とする対象識別方法。