JP5786495B2

JP5786495B2 - 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム

Info

Publication number: JP5786495B2
Application number: JP2011146077A
Authority: JP
Inventors: 馬場　孝之; 孝之馬場; 秋吾中村; 正樹石原; 昌彦杉村; 遠藤　進; 進遠藤; 上原　祐介; 祐介上原; 増本　大器; 大器増本; 茂美長田; 内藤　宏久; 宏久内藤; あきら宮崎
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-06-30
Filing date: 2011-06-30
Publication date: 2015-09-30
Anticipated expiration: 2031-06-30
Also published as: US20130004081A1; JP2013012163A; US8934724B2

Description

本発明は、例えば、動画像に写っている物体を認識する画像認識装置、画像認識方法及び画像認識用コンピュータプログラムに関する。

動画像に写っている様々な物体の名称を表すラベルを、その動画像に付与することが好ましいことがある。例えば、そのようなラベルがテレビジョン番組映像に付されていれば、放送局は、多数のテレビジョン番組映像の中から所望の映像を必要なときに効率的に検索できる。しかし、動画像にラベルを付す作業を人手で行うと、膨大な手間が掛かる。

近年、画像に写っている物体の名称を自動的に認識する技術が研究されている（例えば、非特許文献１を参照）。このような技術を利用して動画像にラベルを付す作業を自動化できれば、その作業が効率化できる。

一方、動画像の内容に応じて動画像に付加的な情報を付す技術が提案されている（例えば、特許文献１及び２を参照）。例えば、特許文献１には、デジタル放送で放送される各番組に関する番組情報及び番組のジャンルを動画像に付与することが記載されている。また特許文献２には、映像からテロップ文字が表示されたフレームを抜き出して、テロップ文字を認識し、認識された文字のフォントを認識して、文字のフォントと映像種別とを対応付けたデータベースを参照して映像の種別を判定する方法が開示されている。

特開２００３−１３４４１２号公報特開２００６−５３８０２号公報

T.Malisiewicz and A.A. Efros, "Recognition by association via learning per-exemplar distances", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2008年, p. 1-8

しかしながら、特許文献１及び２に開示された技術は、動画像そのものに予め付与された情報を利用するので、そのような情報が付与されていない動画像には適用できない。また、非特許文献１に開示された技術のように、画像からその画像に写っている物体を認識する技術では、画像に写っていることが想定される全ての物体を認識対象とする物体識別器が用いられる。しかし、実際の動画像の多くには、想定される物体の種類のうちの一部しか写っていない。このように、実際には動画像に写っていない物体も認識対象として物体識別器が構築されていることが、実際には動画像に写っていない物体が認識されるといった誤認識を引き起こす要因となっていた。

そこで本明細書は、動画像に写っている物体の認識精度を向上させた画像認識装置を提供することを目的とする。

一つの実施形態によれば、画像認識装置が提供される。この画像認識装置は、動画像中に第１の区間を設定する区間設定部と、所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第１の特徴量を入力とし、入力された第１の特徴量に応じて複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、第１の区間に含まれる少なくとも一枚のピクチャから抽出された少なくとも一つの第１の特徴量を入力することにより、第１の区間に含まれるピクチャに写っている物体を認識する第１の物体認識部と、複数の物体のうちの認識された物体を表す情報を入力とし、入力された情報に応じて所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、第１の区間について認識された物体を表す情報を入力することにより、複数のサブカテゴリの中から動画像に写っている物体が属すると推定されるサブカテゴリを選択する選択部と、選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第２の特徴量を入力とし、入力された第２の特徴量に応じて選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、動画像中の第１の区間以外の第２の区間に含まれる少なくとも一枚のピクチャから抽出された少なくとも一つの第２の特徴量を入力することにより、第２の区間に含まれるピクチャに写っている物体を認識する第２の物体認識部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された画像認識装置は、動画像に写っている物体の認識精度を向上できる。

一つの実施形態による画像認識装置により行われる画像認識処理を示す図である。一つの実施形態による画像認識装置の構成を示す図である。処理部の機能ブロック図である。画像認識処理の動作フローチャートである。

以下、図を参照しつつ、一つの実施形態による画像認識装置について説明する。この画像認識装置は、動画像中の各ピクチャに写っている物体を認識する。
図１は、この画像認識装置により実行される、画像認識処理を示す図である。図１において、入力された動画像１００の一部の区間１１０に含まれるピクチャ１０１、１０２に写っている物体は、所定のカテゴリに含まれる全ての物体Ａ〜Ｚを認識対象とする汎用の物体識別器１２０を用いて認識される。例えば、ピクチャ１０１から物体Ａが認識され、ピクチャ１０２から物体Ｂが認識される。そして認識された物体Ａ、Ｂに基づいて、認識対象となる物体を限定した複数の個別物体識別器１２１〜１２４の中から、動画像１００に写っている物体が属すると推定されるサブカテゴリに属する物体のみを認識対象とする個別物体識別器１２３が選択される。そして、個別物体識別器１２３を用いて、動画像の残りの区間１１１に含まれるピクチャ１０３〜１０５に写っている物体が認識される。これにより、ピクチャ１０３〜１０５について、写っている可能性が無い物体を誤って認識する可能性が低減されるので、物体の認識精度の向上が図られる。

なお、ピクチャは、フレームまたはフィールドの何れであってもよい。フレームは、動画像中の一つの静止画像であり、一方、フィールドは、フレームから奇数行のデータあるいは偶数行のデータのみを取り出すことにより得られる静止画像である。また動画像は、時系列順に並んだ複数のピクチャを含む。

図２は、一つの実施形態による画像認識装置の構成を示す図である。画像認識装置１は、インターフェース部１１と、記憶部１２と、処理部１３と、記録媒体アクセス装置１４とを有する。そして画像認識装置１は、インターフェース部１１を介して取得した、動画像に写っている物体を認識する。

インターフェース部１１は、例えば、画像認識装置１を、カムコーダなどの動画像入力装置（図示せず）または液晶ディスプレイなどの画像表示装置（図示せず）と接続するためのビデオ信号インターフェース及びその制御回路を有する。あるいは、インターフェース部１１は、画像認識装置１を、イーサネット（登録商標）などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有してもよい。
インターフェース部１１は、動画像入力装置から、または通信ネットワークを介して動画像を取得し、その動画像を処理部１３へ渡す。

さらに、インターフェース部１１は、動画像から認識された物体についての情報を処理部１３から受け取り、その情報を液晶ディスプレイなどの画像表示装置へ出力する。または、インターフェース部１１は、動画像から認識された物体についての情報を、通信ネットワークを介して画像認識装置１と接続された他の機器へ送信してもよい。

記憶部１２は、例えば、揮発性または不揮発性の半導体メモリを有する。そして記憶部１２は、画像認識装置１で実行されるコンピュータプログラムと、動画像から物体を認識するために使用される各種のパラメータを記憶する。また記憶部１２は、取得した動画像を記憶してもよい。さらに記憶部１２は、動画像から認識された物体についての種別、名称といった情報を、その動画像とともに記憶してもよい。

記録媒体アクセス装置１４は、記録媒体１５が挿入されることにより、記録媒体１５に記憶されている情報あるいはコンピュータプログラムを読み取って処理部１３へ渡し、あるいは、処理部１３から受け取った情報を記録媒体１５に書き込む。なお、記録媒体１５は、半導体メモリ、磁気ディスク、または光ディスクである。例えば、記録媒体１５が半導体メモリであれば、記録媒体アクセス装置１４は、その半導体メモリと通信するためのインターフェース回路、例えば、Universal Serial Busに準拠したインターフェース回路を有する。また記録媒体１５が光ディスクであれば、記録媒体アクセス装置１４は、光ディスクのドライブ装置を有する。また、記録媒体１５に記憶されている情報は、例えば、動画像から物体を認識するために使用される各種のパラメータ、または画像認識処理の対象となる動画像である。

処理部１３は、１個または複数個のプロセッサと、ランダムアクセスメモリといったメモリ回路と、周辺回路を有する。そして処理部１３は、動画像に写っている物体を認識する。さらに処理部１３は、画像認識装置１全体を制御する。

図３は、動画像に写っている物体を認識するために実現される処理部１３の機能を示すブロック図である。処理部１３は、検査区間設定部２１と、汎用認識部２２と、選択部２３と、評価値算出部２４と、判定部２５と、個別認識部２６とを有する。処理部１３が有するこれらの各部は、処理部１３が有するプロセッサ上で実行されるコンピュータプログラムによって実装される機能モジュールである。あるいは、処理部１３が有するこれらの各部は、それぞれ別個の演算回路として画像認識装置１に実装されてもよい。あるいは、処理部１３が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として処理部１３に実装されてもよい。

検査区間設定部２１は、動画像に対して、汎用認識部２２により物体が認識される、１枚以上のピクチャを含む検査区間を設定する。例えば、検査区間設定部２１は、最初に、動画像の先頭から開始される予め設定された所定区間を検査区間として設定する。そして検査区間設定部２１は、判定部２５により検査区間が不適切であると判定される度に、検査区間を所定の追加区間だけ延長する。なお、判定部２５の詳細については後述する。

所定区間の長さは、例えば、動画像全体の時間長の1/100〜1/10に設定される。あるいは、所定区間の長さは、動画像全体の時間長とは関係無く、例えば、1分〜10分といった期間に設定されてもよい。さらに、所定区間は、動画像の先頭からの区間でなく、動画像の終端を含むように設定されてもよく、あるいは、動画像の先頭から所定時刻、例えば、5分〜30分経過した時刻から開始されるように設定されてもよい。さらにまた、所定区間は、連続した一つの区間でなくてもよい。例えば、所定区間は、1分〜10分間隔で並んだ複数のピクチャを含むように設定されてもよい。

また、追加区間の長さは、例えば、動画像全体の時間長の1/100〜1/20に設定される。あるいは、追加区間の長さは、動画像全体の時間長とは関係無く、例えば、30秒〜5分といった期間であってもよい。
検査区間設定部２１は、検査区間を設定する度に、検査区間の先頭を表す時刻及び検査区間の終わりを表す時刻を記憶部１２に記憶するとともに、それらの時刻を汎用認識部２２に通知する。
なお、以下では、便宜上、動画像中で検査区間以外の残りの区間を未検査区間と呼ぶ。

汎用認識部２２は、検査区間内の少なくとも一枚のピクチャに対して所定のカテゴリに属する全ての物体を認識対象とする汎用の物体識別器を用いることにより、そのピクチャに写っている物体を認識する。

ここで、所定のカテゴリは、例えば、動画像から認識された物体に関する情報の用途に応じて予め決定される。例えば、所定のカテゴリは、動画像を、「スポーツ」、「ドラマ」といった複数のジャンルの何れかに分類したり、特定のシーンを検索するために有用な全ての物体を含むように決定される。あるいは、所定のカテゴリは、特定のジャンルの映像において出現する可能性のある物体のみを含むように決定されてもよい。

また、本実施形態における物体には、例えば、「人」、「車」といった、実空間で特定の範囲を占める物体だけでなく、「空」のような範囲が明りょうでないものが含まれてもよい。また本実施形態における物体には、「アルファベット」または「四角形」といった、文字または図形が含まれてもよい。さらに、「赤い車」と「青い車」のように、同一の種別に属するものの、画像上で識別可能な特徴が互いに異なる複数の物体は、それぞれ別個の物体であってもよい。

汎用認識部２２は、各ピクチャについて、以下の手順に従って物体を認識する。
手順１：汎用認識部２２は、ピクチャを複数の領域に分割する。
手順２：汎用認識部２２は、各領域から、それぞれ、認識すべき物体の特徴を表す特徴量を少なくとも一つ抽出する。
手順３：汎用認識部２２は、領域ごとに、抽出された特徴量を汎用物体識別器に入力することにより、その領域に写っている物体を認識する。
以下、各手順について説明する。

手順１について：
汎用認識部２２は、ピクチャに写っている各物体がそれぞれ別個の領域に含まれるように、ピクチャを複数の領域に分割する。そのために、汎用認識部２２は、例えば、所定の値の範囲に含まれる画素値を持つ画素の集合を一つの領域とし、その所定の範囲に含まれない画素値を持つ画素の集合を他の領域とするようにピクチャを分割してもよい。この場合、所定の値の範囲は、例えば、想定される物体に応じて予め設定される。また画素値は、例えば、RGB表色系の色成分値の何れかであってもよい。あるいは、汎用認識部２２は、ピクチャの各画素の色成分値を、HSV表色系あるいはHLS表色系の値に変換し、HSV表色系あるいはHLS表色系における色相または彩度若しくは輝度値を画素値としてもよい。

また、汎用認識部２２は、ピクチャ中の任意の画素、例えば、ピクチャ中の左上端の画素を着目画素とし、その着目画素に隣接する画素のうち、着目画素の画素値との差が所定範囲内に収まる画素値を持つ画素を着目画素と連結する。なお、所定範囲は、例えば、同一の物体の像とみなせる画素値の差の最大値に設定される。汎用認識部２２は、着目画素に連結された画素を次の着目画素として同様の処理を繰り返す。そして汎用認識部２２は、連結された画素の集合を一番目の領域とする。また汎用認識部２２は、一番目の領域に含まれなかった画素の中から次の着目画素を設定し、上記と同様の処理を繰り返すことにより、ピクチャを複数の領域に分割してもよい。

あるいは、汎用認識部２２は、ピクチャを複数の領域に区分する他の様々な方法の何れかに従って、ピクチャを複数の領域に区分してもよい。例えば、汎用認識部２２は、ピクチャ中の各画素の画素値を、k-means法といったクラスタリング法に従って複数のクラスタに分類し、各クラスタに属する画素の集合をそれぞれ一つの領域としてもよい。
また、汎用認識部２２は、ピクチャを複数の領域に分割した後に、孤立点を解消するために、複数の領域のうちの少なくとも一つの領域について、モルフォロジーの膨張収縮演算あるいは収縮膨張演算を行ってもよい。さらに、汎用認識部２２は、各領域についてラベリング処理を行うことで、互いに分離した複数のサブ領域を検出した場合には、各サブ領域をそれぞれ別個の領域としてもよい。

手順２について：
汎用認識部２２は、ピクチャの複数の領域のそれぞれから、少なくとも一つの特徴量を抽出する。汎用認識部２２は、例えば、複数の領域のうちの着目する領域について、複数の色成分のそれぞれについての出現頻度を表す色ヒストグラムを求め、その色ヒストグラムを特徴量としてもよい。
あるいは、汎用認識部２２は、着目する領域の形状またはテクスチャに基づいて決定される特徴量を抽出してもよい。例えば、汎用認識部２２は、着目する領域に含まれる画素数、着目する領域の縦横比または円形度を特徴量として求めてよい。なお、円形度は、着目する領域の面積（すなわち、着目する領域に含まれる画素数）をS、着目する領域の周囲長をLとして、(4πS/L²)として表される。また汎用認識部２２は、着目する領域をウェーブレット変換することで得られるウェーブレット係数を特徴量としてもよい。さらに、汎用認識部２２は、着目領域内でHaar-like特徴量またはHistograms of Oriented Gradients(HOG)特徴量を求めてもよい。
さらに、汎用認識部２２は、着目する領域内の画素値の統計量、例えば、各色成分の分散または輝度値の分散、最小輝度値と最大輝度値の差または平均輝度値などを特徴量として求めてもよい。

手順３について：
汎用認識部２２は、ピクチャの複数の領域のそれぞれについて、求めた特徴量をそれぞれ一つの要素とする特徴量ベクトルを汎用物体識別器に入力することにより、その領域に写っている物体を認識する。

汎用物体識別器は、例えば、いわゆる教師付き学習によって構築される、多層パーセプトロン、サポートベクトルマシンまたはk近傍法といった機械学習システムとすることができる。
汎用物体識別器を学習するために、所定のカテゴリに属する全ての物体のそれぞれについて、予め複数のサンプル画像が準備される。また、認識対象となる何れの物体も写っていないサンプル画像も複数準備されることが好ましい。そしてサンプル画像ごとに、汎用認識部２２が抽出する特徴量と同じ特徴量が抽出される。そして汎用物体識別器に、サンプル画像から抽出された特徴量を要素とする特徴量ベクトルを入力すると、そのサンプル画像に写っている物体の種別を表す値を出力するように、汎用物体識別器は、その汎用物体識別器を形成する機械学習システムに応じた学習法を用いて学習される。

例えば、汎用物体識別器が多層パーセプトロンである場合、汎用物体識別器は、バックプロパゲーションと呼ばれる学習法に従って学習される。
また汎用物体識別器は、認識対象となる物体ごとに準備された複数のサポートベクトルマシンを有してもよい。サポートベクトルマシンは基本的に２クラス識別器である。そのため、各サポートベクトルマシンは、入力された特徴量ベクトルに対して、そのサポートベクトルマシンが認識対象とする物体が写っているか否かの判定結果を出力するように、例えば、カーネルトリックと呼ばれる手法を用いて学習される。

汎用物体識別器を形成する機械学習システムを表すパラメータ、例えば、多層パーセプトロンが有するユニット間の重み及び各ユニットのバイアス、あるいはサポートベクトルマシンの各サポートベクトルは、予め記憶部１２に記憶される。

汎用認識部２２は、ピクチャの複数の領域のそれぞれについて、特徴量ベクトルを汎用物体識別器に入力すると、汎用物体識別器は、その領域に写っている物体の種別を表す値を出力する。なお、汎用物体識別器は、その領域に認識すべき物体が写っていなければ、物体が写っていないことを表す値を出力する。そして汎用認識部２２は、検査区間内の各ピクチャから認識された物体の種別を表す全ての値を、その検査区間と関連付けて記憶部１２に記憶する。また汎用認識部２２は、検査区間内の各ピクチャから認識された物体の種別を表す値の全てを選択部２３へ通知する。
なお、汎用認識部２２は、認識された物体ごとに、認識された頻度を求め、その物体ごとの頻度も選択部２３へ通知してもよい。
また、汎用認識部２２は、上記の手順１を省略し、ピクチャ全体から特徴量を抽出し、その特徴量を要素とする特徴量ベクトルを汎用物体識別器に入力することによって物体を認識してもよい。

選択部２３は、検査区間内の各ピクチャから認識された物体に基づいて、所定のカテゴリに属する物体のうちの一部のみを含む複数のサブカテゴリの中から、入力された動画像に写っている物体が属すると推定されるサブカテゴリを選択する。さらに選択部２３は、その動画像に写っている物体が選択されたサブカテゴリに属する確からしさを表す確信度を求める。また選択部２３は、入力された動画像を、複数のサブカテゴリのそれぞれに対応する、動画像のジャンルを表すグループの中から、選択されたサブカテゴリに対応するグループに分類してもよい。

各サブカテゴリは、サブカテゴリごとに、属する物体の少なくとも一部が互いに異なるように設定される。
例えば、球技に関する第１のサブカテゴリと、モータースポーツに関する第２のサブカテゴリとが予め設定される。この場合、第１のサブカテゴリに属する物体には、例えば、「ボール」、「人」及び「芝生」が含まれる。一方、第２のサブカテゴリに属する物体には、例えば、「車」、「バイク」及び「道路」が含まれる。
なお、サブカテゴリの区分は、スポーツ及びドラマといった、一般的な映像のジャンルの区分とは異なる観点で行われてもよい。例えば、特定のシーンに写る可能性の有る物体（例えば、海、特定のロゴマークなど）が属するサブカテゴリと、その特定のシーンに写る可能性の有る物体を含まず、他のシーンにおいて写る可能性の有る物体が属するサブカテゴリとが設定されてもよい。

選択部２３は、サブカテゴリを選択するために、認識された物体を表す情報、例えば、認識された個々の物体の種別を表す値の組を入力とし、その入力に応じたサブカテゴリの識別番号及び確信度を出力するグループ識別器を用いる。例えば、「人」に対して'1'、「車」に対して'2'、「ボール」に対して'3'、「空」に対して'4'が設定されているとし、認識された物体が「人」と「空」であれば、グループ識別器には、'1'と'4'とが入力される。あるいは、選択部２３は、所定のカテゴリに属する全ての物体のそれぞれについての認識されたか否かを表す値を要素とするベクトルをグループ識別器に入力してもよい。例えば、要素の値が'1'であれば、その要素は、対応する物体が認識されていることを表し、要素の値が'0'であれば、その要素は、対応する物体が認識されていないことを表してもよい。例えば、上記のように、所定のカテゴリに属する物体が「人」、「車」、「ボール」及び「空」であり、グループ識別器に入力されるベクトルの各要素は、「人」、「車」、「ボール」、「空」の順に物体が認識されたか否かを表すとする。そして、認識された物体が「人」と「空」であれば、グループ識別器にベクトル(1,0,0,1)が入力される。

このグループ識別器も、例えば、教師付き学習によって構築される、決定木、多層パーセプトロン、サポートベクトルマシンまたはk近傍法といった機械学習システムとすることができる。グループ識別器を学習するサンプルデータとして、サブカテゴリごとに、そのサブカテゴリに属する物体の種別を表す番号の組が複数準備される。そしてグループ識別器に、特定のサブカテゴリに対応する物体種別の番号の組を入力すると、そのサブカテゴリの識別番号が出力されるように、グループ識別器は、そのグループ識別器を形成する機械学習システムに応じた学習法を用いて学習される。

なお、グループ識別器は、認識された物体ごとの頻度も入力とするように形成されてもよい。この場合には、グループ識別器の学習に用いるサンプルデータも、物体の種別を表す番号の組とともに、物体ごとの頻度を含む。

選択部２３は、認識された個々の物体の種別を表す値の組または追加的に各物体ごとの頻度をグループ識別器に入力することによって、選択されるサブカテゴリの識別番号及び確信度を得る。

例えば、グループ識別器が多層パーセプトロンで形成される場合、その多層パーセプトロンの出力層は、サブカテゴリのそれぞれに対応する出力ユニットを含む。そして各出力ユニットから出力された値は、動画像に写っている物体がその出力ユニットに対応するサブカテゴリに属することの確からしさを、例えば、0〜1の間の値で表す。なお、出力値が大きいほど、動画像に写っている物体が選択されたサブカテゴリに属する可能性が高いとする。したがって、グループ識別器は、最も高い値を出力した出力ユニットに対応するサブカテゴリの識別番号を、選択されたサブカテゴリの識別番号として出力する。またグループ識別器は、各出力ユニットからの出力値のうちの最も高い値を確信度として出力する。

また、グループ識別器は、サブカテゴリごとに対応するサポートベクトルマシンを含んでもよい。この場合、各サポートベクトルマシンから出力される、動画像に写っている物体がそのサポートベクトルマシンに対応するサブカテゴリに属する確からしさの値は、例えば、ほぼ-1〜1の間に含まれる。なお、出力値が大きいほど、選択されたサブカテゴリに動画像に写っている物体が含まれる可能性が高いとする。したがって、グループ識別器は、最も高い値を出力したサポートベクトルマシンに対応するサブカテゴリの識別番号を、選択されたサブカテゴリの識別番号として出力する。またグループ識別器は、各サポートベクトルマシンからの出力値のうちの最も高い値を確信度として出力する。

さらに、グループ識別器がk近傍法に基づく認識モデルである場合、その認識モデルは、検査区間から認識された個々の物体の種別を表す値の組の近傍に位置するk個のサンプルデータを検出する。ただしkは3以上の整数である。そしてグループ識別器は、そのk個のサンプルデータ中で対応するサンプルデータが最も多いサブカテゴリを選択する。また、k個のサンプルデータのうちで、選択されたサブカテゴリに対応するサンプルデータの数がm個（ただしmはk以下の整数）である場合、グループ識別器は、(m/k)を確信度として出力する。

選択部２３は、選択したサブカテゴリの識別番号及び確信度を、入力された動画像と関連付けて記憶部１２に記憶する。また選択部２３は、確信度を評価値算出部２４へ渡す。

評価値算出部２４は、確信度と未検査区間における出現物体数の予測値とに基づいて、検査区間の適切さを表す評価値を算出する。

動画像中の未検査区間における出現物体数の予測値は、例えば、次式に従って求められる。

ここで、Sは単位時間当たりのピクチャ数を表す。またTは、入力された動画像全体の時間長を表し、tは検査区間の時間長を表す。したがって、（１）式の右辺に含まれる｛S×(T-t)｝は、未検査区間に含まれるピクチャの総数を表す。そしてA(j)は、選択部２３によって選択されたサブカテゴリj(j=1,2,...,M、ただしMはサブカテゴリの総数)についてのピクチャ当たりの平均物体出現数を表す。なおA(j)は、例えば、サブカテゴリごとに用意された複数のサンプル動画像に含まれる各ピクチャに写っている物体数の平均値として算出され、記憶部１２に予め記憶される。そしてR(t,j)は、サブカテゴリjが選択されており、かつ検査区間の時間長がtである場合の出現物体数の予測値である。

評価値算出部２４は、例えば、次式に従って、サブカテゴリjが選択されており、かつ検査区間の時間長がtである場合の評価値F(t,j)を算出する。

ここでD(t,j)は、サブカテゴリjが選択されており、かつ検査区間の時間長がtである場合において、選択部２３によって求められた確信度を表す。またwは重み係数である。wは、例えば、（２）式における右辺の第２項の取り得る最大値が、右辺の第１項が取り得る最大値と略等しくなるように予め設定される。これにより、確信度D(t,j)及び出現物体数の予測値R(t,j)の何れか一方のみに基づいて、評価値F(t,j)の値が実質的に決定されることが防止される。

（２）式から明らかなように、確信度D(t,j)が高いほど、すなわち、入力された動画像に写っている物体が選択されたサブカテゴリに属する可能性が高いほど、評価値F(t,j)も高くなる。また、未検査区間における出現物体数の予測値R(t,j)が高いほど、すなわち、未検査区間が長いほど、評価値F(t,j)も高くなる。

（２）式によれば、確信度D(t,j)が低くても、出現物体数の予測値R(t,j)が高ければ、評価値F(t,j)は相対的に高い値となり得る。しかしこのような場合には、選択されたサブカテゴリが誤っており、その結果として入力された動画像に写っている物体が選択されたサブカテゴリに属さない可能性が高い。そして選択されたサブカテゴリが誤っていれば、後述する個別認識部２６は、適切な個別物体識別器を未検査区間に適用できないので、未検査区間における物体認識精度も低下してしまう。

そこで評価値算出部２４は、確信度D(t,j)が所定の閾値H未満である場合には、確信度D(t,j)の代わりに予め設定された低確信度値を（２）式に代入することにより、評価値F(t,j)を求めてもよい。この場合、閾値Hは、例えば、サブカテゴリの選択結果が誤っている確率がその選択結果が正しい確率よりも高くなる確信度D(t,j)の最小値、例えば、確信度D(t,j)が取り得る最小値と最大値の平均値に設定される。また低確信度値は、例えば、確信度が取り得る最小値以下の値、例えば、-1または0に設定される。
評価値算出部２４は、求めた評価値を判定部２５へ渡す。

判定部２５は、評価値F(t,j)に基づいて、検査区間が適切か否か判定する。例えば、判定部２５は、評価値F(t,j)を所定の閾値Lと比較し、評価値F(t,j)が閾値L以上であれば、検査区間は適切であると判定する。一方、評価値F(t,j)が閾値L未満であれば、判定部２５は、検査区間は不適切であると判定する。
なお、閾値Lは、例えば、対象となる動画像中の未検査区間に含まれる各ピクチャに対して、サブカテゴリごとに特化された個別物体識別器を用いて物体を認識する精度が、汎用物体識別器を用いて物体を認識する精度よりも高くなる評価値の最小値に設定される。この最小値は、例えば、予めサブカテゴリごとに用意された複数のサンプル動画像に対して個別物体識別器及び汎用物体識別器を用いてそれぞれ物体を認識したときの精度を求めることによって求められる。例えば、確信度D(t,j)及びwR(t,j)が、それぞれ0〜1の範囲内の値となる場合、閾値Lは、例えば、1.5〜1.8に設定される。
判定部２５は、その判定結果を処理部１３に出力する。

個別認識部２６は、判定部２５が検査区間が適切であると判定した場合、入力された動画像中の未検査区間に含まれる少なくとも一枚のピクチャについて、選択されたサブカテゴリに対応する個別物体識別器を用いてそのピクチャに写っている物体を認識する。
なお、個別認識部２６による処理は、対象となるピクチャが含まれる区間及び使用される物体識別器を除いて、汎用認識部２２による処理と同一である。そこで、以下では、個別認識部２６が使用する個別物体識別器について説明する。

個別物体識別器も、汎用物体識別器と同様に、例えば、いわゆる教師付き学習によって構築される、多層パーセプトロン、サポートベクトルマシンまたはk近傍法といった機械学習システムとすることができる。
ただし、個別物体識別器は、その個別物体識別器に対応するサブカテゴリに属する物体のみを認識対象とするように学習される。すなわち、サブカテゴリごとに、そのサブカテゴリに属する物体のそれぞれについて、予め複数のサンプル画像が準備される。また、認識対象となる何れの物体も写っていないサンプル画像も複数準備されることが好ましい。そして注目するサブカテゴリに対応する個別物体識別器は、その注目するサブカテゴリについて準備されたサンプル画像を用いて、個別物体識別器を形成する機械学習システムに応じた教師付き学習法に従って予め学習される。
したがって、個別物体識別器は、対応するサブカテゴリに属する物体のみを認識対象とする。そのため、正しいサブカテゴリが選択されていれば、個別物体識別器による物体の認識精度は、汎用物体識別器による物体の認識精度よりも高くなる。

個別認識部２６は、選択されたサブカテゴリの識別番号に対応する個別物体識別器を記憶部１２から読み込む。また個別認識部２６は、未検査区間に含まれる各ピクチャを複数の領域に分割する。個別認識部２６は、ピクチャごとに、複数の領域のそれぞれから少なくとも一つの特徴量を抽出する。なお、個別認識部２６により抽出される特徴量は、選択されたサブカテゴリごとに異なっていてもよい。また、個別認識部２６により抽出される特徴量は、汎用物体識別器に入力される特徴量と異なっていてもよい。これにより、個別認識部２６は、選択されたサブカテゴリに応じて、そのサブカテゴリに属する物体を正確に認識するのに適した特徴量を、物体認識に利用できるので、認識精度をより向上できる。そして個別認識部２６は、複数の領域のそれぞれについて、抽出された特徴量を要素とする特徴量ベクトルを、個別物体識別器に入力することにより、その領域に写っている物体を認識する。なお、個別認識部２６も、ピクチャ全体から抽出された特徴量を要素とする特徴量ベクトルを個別物体識別器に入力することにより、そのピクチャに写っている物体を認識してもよい。
また、個別認識部２６は、未検査区間に含まれる複数のピクチャの中から選択した１枚以上のピクチャについてのみ、物体を認識してもよい。物体が認識されるピクチャは、例えば、10〜30ピクチャ当たり1枚であってもよい。

個別認識部２６は、未検査区間内の各ピクチャから認識された全ての物体の種別を、対象となる動画像の未検査区間と関連付けて記憶部１２に記憶する。

図４は、処理部１３により実行される、画像認識処理の動作フローチャートを示す。
先ず、処理部１３の検査区間設定部２１は、対象となる動画像に検査区間を設定する（ステップＳ１０１）。

その後、処理部１３の汎用認識部２２は、汎用物体識別器を用いて、検査区間内に含まれるピクチャごとに、そのピクチャに写っている物体を認識する（ステップＳ１０２）。そして処理部１３の選択部２３は、認識された物体に基づいて、複数のサブカテゴリのうちの何れかを選択する（ステップＳ１０３）。また選択部２３は、選択されたサブカテゴリについての確信度D(t,j)を求める。

何れかのサブカテゴリが選択されると、処理部１３の評価値算出部２４は、未検査区間における出現物体数の予測値R(t,j)と確信度D(t,j)に基づいて評価値F(t,j)を求める（ステップＳ１０４）。そして処理部１３の判定部２５は、評価値F(t,j)が閾値L以上か否か判定する（ステップＳ１０５）。

評価値F(t,j)が閾値L未満である場合（ステップＳ１０５−Ｎｏ）、検査区間設定部２１は、検査区間を所定の追加区間だけ延長する（ステップＳ１０６）。その後、処理部１３は、ステップＳ１０２以降の処理を繰り返す。ただし、２回目以降に実行されるステップＳ１０２の処理では、汎用認識部２２は、追加区間に含まれるピクチャについてのみ物体を認識してもよい。

一方、評価値F(t,j)が閾値L以上である場合（ステップＳ１０５−Ｙｅｓ）、検査区間は適切である。そこで処理部１３の個別認識部２６は、選択されたサブカテゴリに対応する個別物体識別器を用いて、未検査区間内に含まれるピクチャごとに、そのピクチャに写っている物体を認識する（ステップＳ１０７）。
その後、処理部１３は、画像認識処理を終了する。

以上に説明してきたように、この画像認識装置は、動画像中の一部である検査区間に含まれるピクチャから認識された物体に基づいて、所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリの中から何れかのサブカテゴリを選択する。そしてこの画像認識装置は、選択されたサブカテゴリに属する物体のみを認識する個別物体識別器を用いて、動画像中の未検査区間に含まれるピクチャに写っている物体を認識する。そのため、この画像認識装置は、未検査区間内の各ピクチャについて、写っている可能性が無い物体を誤って認識することがないので、物体の認識精度を向上できる。また、この画像認識装置は、未検査区間内の各ピクチャについては、認識対象となる物体が限られているので、物体認識の際の演算量を抑制できる。さらに、この画像認識装置は、動画像に写っている物体が選択されたサブカテゴリに含まれることの確からしさと未検査区間における出現物体数の予測値から算出される評価値に基づいて検査区間を修正する。そのため、この画像認識装置は、サブカテゴリを正確に選択しつつ、個別物体識別器が適用される区間を長くできる。

なお、本発明は上記の実施形態に限定されるものではない。例えば、一つの変形例によれば、個別認識部は、検査区間に含まれる各ピクチャについても、選択されたサブカテゴリに対応する個別物体識別器を用いてそのピクチャに写っている物体を再認識してもよい。これにより、画像認識装置は、検査区間内のピクチャについても、物体の認識精度を向上できる。

また他の変形例によれば、区間設定部は、判定部によって検査区間が不適切であると判定された場合に、検査区間を延長する代わりに、動画像中に占める検査区間の位置を変更してもよい。例えば、区間設定部は、判定部によって検査区間が不適切であると判定された場合、次に設定される検査区間の開始時刻が、現在の検査区間の終了時刻となるように、検査区間の位置を変更する。
さらに他の変形例によれば、動画像中の各ピクチャに、そのピクチャに写っている場所の位置情報が付与されている場合、区間設定部は、予め指定した基準位置から所定の距離範囲内に位置する場所に対応するピクチャを検査区間に設定してもよい。なお、所定の距離範囲は、例えば、公園、駅といった一つの施設に相当する範囲、例えば、10m〜1kmに設定される。

さらに他の変形例によれば、評価値算出部は、上記の確信度D(t,j)そのもの、または未検査区間の出現物体の予測数R(t,j)そのものを、評価値としてもよい。確信度D(t,j)そのものが評価値となる場合には、検査区間設定部は、最初に検査区間を最も短く設定し、判定部が、検査区間が不適切と判定する度に、検査区間を延長することが好ましい。検査区間が長くなるほど、検査区間から認識される物体の数が増えるので、確信度D(t,j)も高くなる。そのため、徐々に検査区間を長くすることで、画像認識装置は、検査区間の長さを適切に設定できる。

また、処理部が有する各部の機能をプロセッサに実行させるコンピュータプログラムは、光記録媒体または磁気記録媒体といった記録媒体に記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
動画像中に、当該動画像の全区間よりも短く、かつ少なくとも１枚のピクチャを含む第１の区間を設定する区間設定部と、
所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第１の特徴量を入力とし、当該入力された第１の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第１の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第１の特徴量を入力することにより、前記第１の区間に含まれるピクチャに写っている物体を認識する第１の物体認識部と、
前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第１の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択する選択部と、
前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第２の特徴量を入力とし、当該入力された第２の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記動画像中の前記第１の区間以外の第２の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第２の特徴量を入力することにより、前記第２の区間に含まれるピクチャに写っている物体を認識する第２の物体認識部と、
を有する画像認識装置。
（付記２）
前記動画像に含まれる各ピクチャに写っている物体が前記選択されたサブカテゴリに属する確信度、及び前記第２の区間における出現物体数の予測値のうちの少なくとも一方に基づいて、前記第１の区間の適切さを表す評価値を求める評価値算出部と、
前記評価値に基づいて前記第１の区間が適切か否かを判定する判定部とをさらに有し、
前記判定部が前記第１の区間が適切でないと判定した場合、前記区間設定部は、前記第１の区間を変更または延長し、一方、前記判定部が前記第１の区間が適切であると判定した場合、前記第２の物体認識部は、前記個別物体識別器に、前記第２の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第２の特徴量を入力することにより前記第２の区間に含まれるピクチャに写っている物体を認識する、付記１に記載の画像認識装置。
（付記３）
前記評価値算出部は、前記確信度が高いほど、あるいは、前記出現物体数の予測値が多いほど前記評価値を高くする、付記２に記載の画像認識装置。
（付記４）
前記判定部は、前記評価値が、前記個別物体識別器を用いて前記第２の区間に含まれるピクチャに写っている物体を認識したときの認識精度が、前記汎用物体識別器を用いて前記第２の区間に含まれるピクチャに写っている物体を認識したときの認識精度より高くなる値となる場合、前記第１の区間が適切であると判定する、付記２または３に記載の画像認識装置。
（付記５）
前記第２の物体認識部は、前記第１の区間に含まれる少なくとも一枚のピクチャに写っている物体を、前記個別物体識別器を用いて認識する、付記１〜４の何れか一項に記載の画像認識装置。
（付記６）
動画像中に、当該動画像の全区間よりも短く、かつ少なくとも１枚のピクチャを含む第１の区間を設定し、
所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第１の特徴量を入力とし、当該入力された第１の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第１の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第１の特徴量を入力することにより、前記第１の区間に含まれるピクチャに写っている物体を認識し、
前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第１の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択し、
前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第２の特徴量を入力とし、当該入力された第２の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記動画像中の前記第１の区間以外の第２の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第２の特徴量を入力することにより、前記第２の区間に含まれるピクチャに写っている物体を認識する、
ことを含む画像認識方法。
（付記７）
動画像中に、当該動画像の全区間よりも短く、かつ少なくとも１枚のピクチャを含む第１の区間を設定し、
所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第１の特徴量を入力とし、当該入力された第１の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第１の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第１の特徴量を入力することにより、前記第１の区間に含まれるピクチャに写っている物体を認識し、
前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第１の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択し、
前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第２の特徴量を入力とし、当該入力された第２の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記動画像中の前記第１の区間以外の第２の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第２の特徴量を入力することにより、前記第２の区間に含まれるピクチャに写っている物体を認識する、
ことをコンピュータに実行させる画像認識用コンピュータプログラム。

１画像認識装置
１１インターフェース部
１２記憶部
１３処理部
１４記録媒体アクセス装置
１５記録媒体
２１検査区間設定部
２２汎用認識部
２３選択部
２４評価値算出部
２５判定部
２６個別認識部

Claims

動画像中に、当該動画像の全区間よりも短く、かつ少なくとも１枚のピクチャを含む第１の区間を設定する区間設定部と、
所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第１の特徴量を入力とし、当該入力された第１の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第１の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第１の特徴量を入力することにより、前記第１の区間に含まれるピクチャに写っている物体を認識する第１の物体認識部と、
前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第１の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択する選択部と、
前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第２の特徴量を入力とし、当該入力された第２の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記動画像中の前記第１の区間以外の第２の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第２の特徴量を入力することにより、前記第２の区間に含まれるピクチャに写っている物体を認識する第２の物体認識部と、
前記動画像に含まれる各ピクチャに写っている物体が前記選択されたサブカテゴリに属する確信度、及び前記第２の区間における出現物体数の予測値のうちの少なくとも一方に基づいて、前記第１の区間の適切さを表す評価値を求める評価値算出部と、
前記評価値に基づいて前記第１の区間が適切か否かを判定する判定部と、
を有し、
前記判定部が前記第１の区間が適切でないと判定した場合、前記区間設定部は、前記第１の区間を変更または延長し、一方、前記判定部が前記第１の区間が適切であると判定した場合、前記第２の物体認識部は、前記個別物体識別器に、前記第２の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第２の特徴量を入力することにより前記第２の区間に含まれるピクチャに写っている物体を認識する画像認識装置。
前記評価値算出部は、前記確信度が高いほど、あるいは、前記出現物体数の予測値が多いほど前記評価値を高くする、請求項１に記載の画像認識装置。
前記判定部は、前記評価値が、前記個別物体識別器を用いて前記第２の区間に含まれるピクチャに写っている物体を認識したときの認識精度が、前記汎用物体識別器を用いて前記第２の区間に含まれるピクチャに写っている物体を認識したときの認識精度より高くなる値となる場合、前記第１の区間が適切であると判定する、請求項１または２に記載の画像認識装置。
動画像中に、当該動画像の全区間よりも短く、かつ少なくとも１枚のピクチャを含む第１の区間を設定し、
所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第１の特徴量を入力とし、当該入力された第１の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第１の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第１の特徴量を入力することにより、前記第１の区間に含まれるピクチャに写っている物体を認識し、
前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第１の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択し、
前記動画像に含まれる各ピクチャに写っている物体が前記選択されたサブカテゴリに属する確信度、及び前記動画像中の前記第１の区間以外の第２の区間における出現物体数の予測値のうちの少なくとも一方に基づいて、前記第１の区間の適切さを表す評価値を求め、
前記評価値に基づいて前記第１の区間が適切か否かを判定し、
前記第１の区間が適切でないと判定された場合、前記第１の区間を変更または延長し、
前記第１の区間が適切であると判定された場合、前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第２の特徴量を入力とし、当該入力された第２の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記第２の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第２の特徴量を入力することにより、前記第２の区間に含まれるピクチャに写っている物体を認識する、
ことを含む画像認識方法。
動画像中に、当該動画像の全区間よりも短く、かつ少なくとも１枚のピクチャを含む第１の区間を設定し、
所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第１の特徴量を入力とし、当該入力された第１の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第１の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第１の特徴量を入力することにより、前記第１の区間に含まれるピクチャに写っている物体を認識し、
前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第１の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択し、
前記動画像に含まれる各ピクチャに写っている物体が前記選択されたサブカテゴリに属する確信度、及び前記動画像中の前記第１の区間以外の第２の区間における出現物体数の予測値のうちの少なくとも一方に基づいて、前記第１の区間の適切さを表す評価値を求め、
前記評価値に基づいて前記第１の区間が適切か否かを判定し、
前記第１の区間が適切でないと判定された場合、前記第１の区間を変更または延長し、
前記第１の区間が適切であると判定された場合、前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第２の特徴量を入力とし、当該入力された第２の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記第２の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第２の特徴量を入力することにより、前記第２の区間に含まれるピクチャに写っている物体を認識する、
ことをコンピュータに実行させる画像認識用コンピュータプログラム。