JP5786495B2 - 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム - Google Patents

画像認識装置、画像認識方法及び画像認識用コンピュータプログラム Download PDF

Info

Publication number
JP5786495B2
JP5786495B2 JP2011146077A JP2011146077A JP5786495B2 JP 5786495 B2 JP5786495 B2 JP 5786495B2 JP 2011146077 A JP2011146077 A JP 2011146077A JP 2011146077 A JP2011146077 A JP 2011146077A JP 5786495 B2 JP5786495 B2 JP 5786495B2
Authority
JP
Japan
Prior art keywords
section
moving image
objects
picture
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011146077A
Other languages
English (en)
Other versions
JP2013012163A (ja
Inventor
馬場 孝之
孝之 馬場
秋吾 中村
秋吾 中村
正樹 石原
正樹 石原
昌彦 杉村
昌彦 杉村
遠藤 進
進 遠藤
上原 祐介
祐介 上原
増本 大器
大器 増本
茂美 長田
茂美 長田
内藤 宏久
宏久 内藤
あきら 宮崎
あきら 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011146077A priority Critical patent/JP5786495B2/ja
Priority to US13/471,886 priority patent/US8934724B2/en
Publication of JP2013012163A publication Critical patent/JP2013012163A/ja
Application granted granted Critical
Publication of JP5786495B2 publication Critical patent/JP5786495B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、例えば、動画像に写っている物体を認識する画像認識装置、画像認識方法及び画像認識用コンピュータプログラムに関する。
動画像に写っている様々な物体の名称を表すラベルを、その動画像に付与することが好ましいことがある。例えば、そのようなラベルがテレビジョン番組映像に付されていれば、放送局は、多数のテレビジョン番組映像の中から所望の映像を必要なときに効率的に検索できる。しかし、動画像にラベルを付す作業を人手で行うと、膨大な手間が掛かる。
近年、画像に写っている物体の名称を自動的に認識する技術が研究されている(例えば、非特許文献1を参照)。このような技術を利用して動画像にラベルを付す作業を自動化できれば、その作業が効率化できる。
一方、動画像の内容に応じて動画像に付加的な情報を付す技術が提案されている(例えば、特許文献1及び2を参照)。例えば、特許文献1には、デジタル放送で放送される各番組に関する番組情報及び番組のジャンルを動画像に付与することが記載されている。また特許文献2には、映像からテロップ文字が表示されたフレームを抜き出して、テロップ文字を認識し、認識された文字のフォントを認識して、文字のフォントと映像種別とを対応付けたデータベースを参照して映像の種別を判定する方法が開示されている。
特開2003−134412号公報 特開2006−53802号公報
T.Malisiewicz and A.A. Efros, "Recognition by association via learning per-exemplar distances", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2008年, p. 1-8
しかしながら、特許文献1及び2に開示された技術は、動画像そのものに予め付与された情報を利用するので、そのような情報が付与されていない動画像には適用できない。また、非特許文献1に開示された技術のように、画像からその画像に写っている物体を認識する技術では、画像に写っていることが想定される全ての物体を認識対象とする物体識別器が用いられる。しかし、実際の動画像の多くには、想定される物体の種類のうちの一部しか写っていない。このように、実際には動画像に写っていない物体も認識対象として物体識別器が構築されていることが、実際には動画像に写っていない物体が認識されるといった誤認識を引き起こす要因となっていた。
そこで本明細書は、動画像に写っている物体の認識精度を向上させた画像認識装置を提供することを目的とする。
一つの実施形態によれば、画像認識装置が提供される。この画像認識装置は、動画像中に第1の区間を設定する区間設定部と、所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第1の特徴量を入力とし、入力された第1の特徴量に応じて複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、第1の区間に含まれる少なくとも一枚のピクチャから抽出された少なくとも一つの第1の特徴量を入力することにより、第1の区間に含まれるピクチャに写っている物体を認識する第1の物体認識部と、複数の物体のうちの認識された物体を表す情報を入力とし、入力された情報に応じて所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、第1の区間について認識された物体を表す情報を入力することにより、複数のサブカテゴリの中から動画像に写っている物体が属すると推定されるサブカテゴリを選択する選択部と、選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第2の特徴量を入力とし、入力された第2の特徴量に応じて選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、動画像中の第1の区間以外の第2の区間に含まれる少なくとも一枚のピクチャから抽出された少なくとも一つの第2の特徴量を入力することにより、第2の区間に含まれるピクチャに写っている物体を認識する第2の物体認識部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された画像認識装置は、動画像に写っている物体の認識精度を向上できる。
一つの実施形態による画像認識装置により行われる画像認識処理を示す図である。 一つの実施形態による画像認識装置の構成を示す図である。 処理部の機能ブロック図である。 画像認識処理の動作フローチャートである。
以下、図を参照しつつ、一つの実施形態による画像認識装置について説明する。この画像認識装置は、動画像中の各ピクチャに写っている物体を認識する。
図1は、この画像認識装置により実行される、画像認識処理を示す図である。図1において、入力された動画像100の一部の区間110に含まれるピクチャ101、102に写っている物体は、所定のカテゴリに含まれる全ての物体A〜Zを認識対象とする汎用の物体識別器120を用いて認識される。例えば、ピクチャ101から物体Aが認識され、ピクチャ102から物体Bが認識される。そして認識された物体A、Bに基づいて、認識対象となる物体を限定した複数の個別物体識別器121〜124の中から、動画像100に写っている物体が属すると推定されるサブカテゴリに属する物体のみを認識対象とする個別物体識別器123が選択される。そして、個別物体識別器123を用いて、動画像の残りの区間111に含まれるピクチャ103〜105に写っている物体が認識される。これにより、ピクチャ103〜105について、写っている可能性が無い物体を誤って認識する可能性が低減されるので、物体の認識精度の向上が図られる。
なお、ピクチャは、フレームまたはフィールドの何れであってもよい。フレームは、動画像中の一つの静止画像であり、一方、フィールドは、フレームから奇数行のデータあるいは偶数行のデータのみを取り出すことにより得られる静止画像である。また動画像は、時系列順に並んだ複数のピクチャを含む。
図2は、一つの実施形態による画像認識装置の構成を示す図である。画像認識装置1は、インターフェース部11と、記憶部12と、処理部13と、記録媒体アクセス装置14とを有する。そして画像認識装置1は、インターフェース部11を介して取得した、動画像に写っている物体を認識する。
インターフェース部11は、例えば、画像認識装置1を、カムコーダなどの動画像入力装置(図示せず)または液晶ディスプレイなどの画像表示装置(図示せず)と接続するためのビデオ信号インターフェース及びその制御回路を有する。あるいは、インターフェース部11は、画像認識装置1を、イーサネット(登録商標)などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有してもよい。
インターフェース部11は、動画像入力装置から、または通信ネットワークを介して動画像を取得し、その動画像を処理部13へ渡す。
さらに、インターフェース部11は、動画像から認識された物体についての情報を処理部13から受け取り、その情報を液晶ディスプレイなどの画像表示装置へ出力する。または、インターフェース部11は、動画像から認識された物体についての情報を、通信ネットワークを介して画像認識装置1と接続された他の機器へ送信してもよい。
記憶部12は、例えば、揮発性または不揮発性の半導体メモリを有する。そして記憶部12は、画像認識装置1で実行されるコンピュータプログラムと、動画像から物体を認識するために使用される各種のパラメータを記憶する。また記憶部12は、取得した動画像を記憶してもよい。さらに記憶部12は、動画像から認識された物体についての種別、名称といった情報を、その動画像とともに記憶してもよい。
記録媒体アクセス装置14は、記録媒体15が挿入されることにより、記録媒体15に記憶されている情報あるいはコンピュータプログラムを読み取って処理部13へ渡し、あるいは、処理部13から受け取った情報を記録媒体15に書き込む。なお、記録媒体15は、半導体メモリ、磁気ディスク、または光ディスクである。例えば、記録媒体15が半導体メモリであれば、記録媒体アクセス装置14は、その半導体メモリと通信するためのインターフェース回路、例えば、Universal Serial Busに準拠したインターフェース回路を有する。また記録媒体15が光ディスクであれば、記録媒体アクセス装置14は、光ディスクのドライブ装置を有する。また、記録媒体15に記憶されている情報は、例えば、動画像から物体を認識するために使用される各種のパラメータ、または画像認識処理の対象となる動画像である。
処理部13は、1個または複数個のプロセッサと、ランダムアクセスメモリといったメモリ回路と、周辺回路を有する。そして処理部13は、動画像に写っている物体を認識する。さらに処理部13は、画像認識装置1全体を制御する。
図3は、動画像に写っている物体を認識するために実現される処理部13の機能を示すブロック図である。処理部13は、検査区間設定部21と、汎用認識部22と、選択部23と、評価値算出部24と、判定部25と、個別認識部26とを有する。処理部13が有するこれらの各部は、処理部13が有するプロセッサ上で実行されるコンピュータプログラムによって実装される機能モジュールである。あるいは、処理部13が有するこれらの各部は、それぞれ別個の演算回路として画像認識装置1に実装されてもよい。あるいは、処理部13が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路として処理部13に実装されてもよい。
検査区間設定部21は、動画像に対して、汎用認識部22により物体が認識される、1枚以上のピクチャを含む検査区間を設定する。例えば、検査区間設定部21は、最初に、動画像の先頭から開始される予め設定された所定区間を検査区間として設定する。そして検査区間設定部21は、判定部25により検査区間が不適切であると判定される度に、検査区間を所定の追加区間だけ延長する。なお、判定部25の詳細については後述する。
所定区間の長さは、例えば、動画像全体の時間長の1/100〜1/10に設定される。あるいは、所定区間の長さは、動画像全体の時間長とは関係無く、例えば、1分〜10分といった期間に設定されてもよい。さらに、所定区間は、動画像の先頭からの区間でなく、動画像の終端を含むように設定されてもよく、あるいは、動画像の先頭から所定時刻、例えば、5分〜30分経過した時刻から開始されるように設定されてもよい。さらにまた、所定区間は、連続した一つの区間でなくてもよい。例えば、所定区間は、1分〜10分間隔で並んだ複数のピクチャを含むように設定されてもよい。
また、追加区間の長さは、例えば、動画像全体の時間長の1/100〜1/20に設定される。あるいは、追加区間の長さは、動画像全体の時間長とは関係無く、例えば、30秒〜5分といった期間であってもよい。
検査区間設定部21は、検査区間を設定する度に、検査区間の先頭を表す時刻及び検査区間の終わりを表す時刻を記憶部12に記憶するとともに、それらの時刻を汎用認識部22に通知する。
なお、以下では、便宜上、動画像中で検査区間以外の残りの区間を未検査区間と呼ぶ。
汎用認識部22は、検査区間内の少なくとも一枚のピクチャに対して所定のカテゴリに属する全ての物体を認識対象とする汎用の物体識別器を用いることにより、そのピクチャに写っている物体を認識する。
ここで、所定のカテゴリは、例えば、動画像から認識された物体に関する情報の用途に応じて予め決定される。例えば、所定のカテゴリは、動画像を、「スポーツ」、「ドラマ」といった複数のジャンルの何れかに分類したり、特定のシーンを検索するために有用な全ての物体を含むように決定される。あるいは、所定のカテゴリは、特定のジャンルの映像において出現する可能性のある物体のみを含むように決定されてもよい。
また、本実施形態における物体には、例えば、「人」、「車」といった、実空間で特定の範囲を占める物体だけでなく、「空」のような範囲が明りょうでないものが含まれてもよい。また本実施形態における物体には、「アルファベット」または「四角形」といった、文字または図形が含まれてもよい。さらに、「赤い車」と「青い車」のように、同一の種別に属するものの、画像上で識別可能な特徴が互いに異なる複数の物体は、それぞれ別個の物体であってもよい。
汎用認識部22は、各ピクチャについて、以下の手順に従って物体を認識する。
手順1:汎用認識部22は、ピクチャを複数の領域に分割する。
手順2:汎用認識部22は、各領域から、それぞれ、認識すべき物体の特徴を表す特徴量を少なくとも一つ抽出する。
手順3:汎用認識部22は、領域ごとに、抽出された特徴量を汎用物体識別器に入力することにより、その領域に写っている物体を認識する。
以下、各手順について説明する。
手順1について:
汎用認識部22は、ピクチャに写っている各物体がそれぞれ別個の領域に含まれるように、ピクチャを複数の領域に分割する。そのために、汎用認識部22は、例えば、所定の値の範囲に含まれる画素値を持つ画素の集合を一つの領域とし、その所定の範囲に含まれない画素値を持つ画素の集合を他の領域とするようにピクチャを分割してもよい。この場合、所定の値の範囲は、例えば、想定される物体に応じて予め設定される。また画素値は、例えば、RGB表色系の色成分値の何れかであってもよい。あるいは、汎用認識部22は、ピクチャの各画素の色成分値を、HSV表色系あるいはHLS表色系の値に変換し、HSV表色系あるいはHLS表色系における色相または彩度若しくは輝度値を画素値としてもよい。
また、汎用認識部22は、ピクチャ中の任意の画素、例えば、ピクチャ中の左上端の画素を着目画素とし、その着目画素に隣接する画素のうち、着目画素の画素値との差が所定範囲内に収まる画素値を持つ画素を着目画素と連結する。なお、所定範囲は、例えば、同一の物体の像とみなせる画素値の差の最大値に設定される。汎用認識部22は、着目画素に連結された画素を次の着目画素として同様の処理を繰り返す。そして汎用認識部22は、連結された画素の集合を一番目の領域とする。また汎用認識部22は、一番目の領域に含まれなかった画素の中から次の着目画素を設定し、上記と同様の処理を繰り返すことにより、ピクチャを複数の領域に分割してもよい。
あるいは、汎用認識部22は、ピクチャを複数の領域に区分する他の様々な方法の何れかに従って、ピクチャを複数の領域に区分してもよい。例えば、汎用認識部22は、ピクチャ中の各画素の画素値を、k-means法といったクラスタリング法に従って複数のクラスタに分類し、各クラスタに属する画素の集合をそれぞれ一つの領域としてもよい。
また、汎用認識部22は、ピクチャを複数の領域に分割した後に、孤立点を解消するために、複数の領域のうちの少なくとも一つの領域について、モルフォロジーの膨張収縮演算あるいは収縮膨張演算を行ってもよい。さらに、汎用認識部22は、各領域についてラベリング処理を行うことで、互いに分離した複数のサブ領域を検出した場合には、各サブ領域をそれぞれ別個の領域としてもよい。
手順2について:
汎用認識部22は、ピクチャの複数の領域のそれぞれから、少なくとも一つの特徴量を抽出する。汎用認識部22は、例えば、複数の領域のうちの着目する領域について、複数の色成分のそれぞれについての出現頻度を表す色ヒストグラムを求め、その色ヒストグラムを特徴量としてもよい。
あるいは、汎用認識部22は、着目する領域の形状またはテクスチャに基づいて決定される特徴量を抽出してもよい。例えば、汎用認識部22は、着目する領域に含まれる画素数、着目する領域の縦横比または円形度を特徴量として求めてよい。なお、円形度は、着目する領域の面積(すなわち、着目する領域に含まれる画素数)をS、着目する領域の周囲長をLとして、(4πS/L2)として表される。また汎用認識部22は、着目する領域をウェーブレット変換することで得られるウェーブレット係数を特徴量としてもよい。さらに、汎用認識部22は、着目領域内でHaar-like特徴量またはHistograms of Oriented Gradients(HOG)特徴量を求めてもよい。
さらに、汎用認識部22は、着目する領域内の画素値の統計量、例えば、各色成分の分散または輝度値の分散、最小輝度値と最大輝度値の差または平均輝度値などを特徴量として求めてもよい。
手順3について:
汎用認識部22は、ピクチャの複数の領域のそれぞれについて、求めた特徴量をそれぞれ一つの要素とする特徴量ベクトルを汎用物体識別器に入力することにより、その領域に写っている物体を認識する。
汎用物体識別器は、例えば、いわゆる教師付き学習によって構築される、多層パーセプトロン、サポートベクトルマシンまたはk近傍法といった機械学習システムとすることができる。
汎用物体識別器を学習するために、所定のカテゴリに属する全ての物体のそれぞれについて、予め複数のサンプル画像が準備される。また、認識対象となる何れの物体も写っていないサンプル画像も複数準備されることが好ましい。そしてサンプル画像ごとに、汎用認識部22が抽出する特徴量と同じ特徴量が抽出される。そして汎用物体識別器に、サンプル画像から抽出された特徴量を要素とする特徴量ベクトルを入力すると、そのサンプル画像に写っている物体の種別を表す値を出力するように、汎用物体識別器は、その汎用物体識別器を形成する機械学習システムに応じた学習法を用いて学習される。
例えば、汎用物体識別器が多層パーセプトロンである場合、汎用物体識別器は、バックプロパゲーションと呼ばれる学習法に従って学習される。
また汎用物体識別器は、認識対象となる物体ごとに準備された複数のサポートベクトルマシンを有してもよい。サポートベクトルマシンは基本的に2クラス識別器である。そのため、各サポートベクトルマシンは、入力された特徴量ベクトルに対して、そのサポートベクトルマシンが認識対象とする物体が写っているか否かの判定結果を出力するように、例えば、カーネルトリックと呼ばれる手法を用いて学習される。
汎用物体識別器を形成する機械学習システムを表すパラメータ、例えば、多層パーセプトロンが有するユニット間の重み及び各ユニットのバイアス、あるいはサポートベクトルマシンの各サポートベクトルは、予め記憶部12に記憶される。
汎用認識部22は、ピクチャの複数の領域のそれぞれについて、特徴量ベクトルを汎用物体識別器に入力すると、汎用物体識別器は、その領域に写っている物体の種別を表す値を出力する。なお、汎用物体識別器は、その領域に認識すべき物体が写っていなければ、物体が写っていないことを表す値を出力する。そして汎用認識部22は、検査区間内の各ピクチャから認識された物体の種別を表す全ての値を、その検査区間と関連付けて記憶部12に記憶する。また汎用認識部22は、検査区間内の各ピクチャから認識された物体の種別を表す値の全てを選択部23へ通知する。
なお、汎用認識部22は、認識された物体ごとに、認識された頻度を求め、その物体ごとの頻度も選択部23へ通知してもよい。
また、汎用認識部22は、上記の手順1を省略し、ピクチャ全体から特徴量を抽出し、その特徴量を要素とする特徴量ベクトルを汎用物体識別器に入力することによって物体を認識してもよい。
選択部23は、検査区間内の各ピクチャから認識された物体に基づいて、所定のカテゴリに属する物体のうちの一部のみを含む複数のサブカテゴリの中から、入力された動画像に写っている物体が属すると推定されるサブカテゴリを選択する。さらに選択部23は、その動画像に写っている物体が選択されたサブカテゴリに属する確からしさを表す確信度を求める。また選択部23は、入力された動画像を、複数のサブカテゴリのそれぞれに対応する、動画像のジャンルを表すグループの中から、選択されたサブカテゴリに対応するグループに分類してもよい。
各サブカテゴリは、サブカテゴリごとに、属する物体の少なくとも一部が互いに異なるように設定される。
例えば、球技に関する第1のサブカテゴリと、モータースポーツに関する第2のサブカテゴリとが予め設定される。この場合、第1のサブカテゴリに属する物体には、例えば、「ボール」、「人」及び「芝生」が含まれる。一方、第2のサブカテゴリに属する物体には、例えば、「車」、「バイク」及び「道路」が含まれる。
なお、サブカテゴリの区分は、スポーツ及びドラマといった、一般的な映像のジャンルの区分とは異なる観点で行われてもよい。例えば、特定のシーンに写る可能性の有る物体(例えば、海、特定のロゴマークなど)が属するサブカテゴリと、その特定のシーンに写る可能性の有る物体を含まず、他のシーンにおいて写る可能性の有る物体が属するサブカテゴリとが設定されてもよい。
選択部23は、サブカテゴリを選択するために、認識された物体を表す情報、例えば、認識された個々の物体の種別を表す値の組を入力とし、その入力に応じたサブカテゴリの識別番号及び確信度を出力するグループ識別器を用いる。例えば、「人」に対して'1'、「車」に対して'2'、「ボール」に対して'3'、「空」に対して'4'が設定されているとし、認識された物体が「人」と「空」であれば、グループ識別器には、'1'と'4'とが入力される。あるいは、選択部23は、所定のカテゴリに属する全ての物体のそれぞれについての認識されたか否かを表す値を要素とするベクトルをグループ識別器に入力してもよい。例えば、要素の値が'1'であれば、その要素は、対応する物体が認識されていることを表し、要素の値が'0'であれば、その要素は、対応する物体が認識されていないことを表してもよい。例えば、上記のように、所定のカテゴリに属する物体が「人」、「車」、「ボール」及び「空」であり、グループ識別器に入力されるベクトルの各要素は、「人」、「車」、「ボール」、「空」の順に物体が認識されたか否かを表すとする。そして、認識された物体が「人」と「空」であれば、グループ識別器にベクトル(1,0,0,1)が入力される。
このグループ識別器も、例えば、教師付き学習によって構築される、決定木、多層パーセプトロン、サポートベクトルマシンまたはk近傍法といった機械学習システムとすることができる。グループ識別器を学習するサンプルデータとして、サブカテゴリごとに、そのサブカテゴリに属する物体の種別を表す番号の組が複数準備される。そしてグループ識別器に、特定のサブカテゴリに対応する物体種別の番号の組を入力すると、そのサブカテゴリの識別番号が出力されるように、グループ識別器は、そのグループ識別器を形成する機械学習システムに応じた学習法を用いて学習される。
なお、グループ識別器は、認識された物体ごとの頻度も入力とするように形成されてもよい。この場合には、グループ識別器の学習に用いるサンプルデータも、物体の種別を表す番号の組とともに、物体ごとの頻度を含む。
選択部23は、認識された個々の物体の種別を表す値の組または追加的に各物体ごとの頻度をグループ識別器に入力することによって、選択されるサブカテゴリの識別番号及び確信度を得る。
例えば、グループ識別器が多層パーセプトロンで形成される場合、その多層パーセプトロンの出力層は、サブカテゴリのそれぞれに対応する出力ユニットを含む。そして各出力ユニットから出力された値は、動画像に写っている物体がその出力ユニットに対応するサブカテゴリに属することの確からしさを、例えば、0〜1の間の値で表す。なお、出力値が大きいほど、動画像に写っている物体が選択されたサブカテゴリに属する可能性が高いとする。したがって、グループ識別器は、最も高い値を出力した出力ユニットに対応するサブカテゴリの識別番号を、選択されたサブカテゴリの識別番号として出力する。またグループ識別器は、各出力ユニットからの出力値のうちの最も高い値を確信度として出力する。
また、グループ識別器は、サブカテゴリごとに対応するサポートベクトルマシンを含んでもよい。この場合、各サポートベクトルマシンから出力される、動画像に写っている物体がそのサポートベクトルマシンに対応するサブカテゴリに属する確からしさの値は、例えば、ほぼ-1〜1の間に含まれる。なお、出力値が大きいほど、選択されたサブカテゴリに動画像に写っている物体が含まれる可能性が高いとする。したがって、グループ識別器は、最も高い値を出力したサポートベクトルマシンに対応するサブカテゴリの識別番号を、選択されたサブカテゴリの識別番号として出力する。またグループ識別器は、各サポートベクトルマシンからの出力値のうちの最も高い値を確信度として出力する。
さらに、グループ識別器がk近傍法に基づく認識モデルである場合、その認識モデルは、検査区間から認識された個々の物体の種別を表す値の組の近傍に位置するk個のサンプルデータを検出する。ただしkは3以上の整数である。そしてグループ識別器は、そのk個のサンプルデータ中で対応するサンプルデータが最も多いサブカテゴリを選択する。また、k個のサンプルデータのうちで、選択されたサブカテゴリに対応するサンプルデータの数がm個(ただしmはk以下の整数)である場合、グループ識別器は、(m/k)を確信度として出力する。
選択部23は、選択したサブカテゴリの識別番号及び確信度を、入力された動画像と関連付けて記憶部12に記憶する。また選択部23は、確信度を評価値算出部24へ渡す。
評価値算出部24は、確信度と未検査区間における出現物体数の予測値とに基づいて、検査区間の適切さを表す評価値を算出する。
動画像中の未検査区間における出現物体数の予測値は、例えば、次式に従って求められる。
Figure 0005786495
ここで、Sは単位時間当たりのピクチャ数を表す。またTは、入力された動画像全体の時間長を表し、tは検査区間の時間長を表す。したがって、(1)式の右辺に含まれる{S×(T-t)}は、未検査区間に含まれるピクチャの総数を表す。そしてA(j)は、選択部23によって選択されたサブカテゴリj(j=1,2,...,M、ただしMはサブカテゴリの総数)についてのピクチャ当たりの平均物体出現数を表す。なおA(j)は、例えば、サブカテゴリごとに用意された複数のサンプル動画像に含まれる各ピクチャに写っている物体数の平均値として算出され、記憶部12に予め記憶される。そしてR(t,j)は、サブカテゴリjが選択されており、かつ検査区間の時間長がtである場合の出現物体数の予測値である。
評価値算出部24は、例えば、次式に従って、サブカテゴリjが選択されており、かつ検査区間の時間長がtである場合の評価値F(t,j)を算出する。
Figure 0005786495
ここでD(t,j)は、サブカテゴリjが選択されており、かつ検査区間の時間長がtである場合において、選択部23によって求められた確信度を表す。またwは重み係数である。wは、例えば、(2)式における右辺の第2項の取り得る最大値が、右辺の第1項が取り得る最大値と略等しくなるように予め設定される。これにより、確信度D(t,j)及び出現物体数の予測値R(t,j)の何れか一方のみに基づいて、評価値F(t,j)の値が実質的に決定されることが防止される。
(2)式から明らかなように、確信度D(t,j)が高いほど、すなわち、入力された動画像に写っている物体が選択されたサブカテゴリに属する可能性が高いほど、評価値F(t,j)も高くなる。また、未検査区間における出現物体数の予測値R(t,j)が高いほど、すなわち、未検査区間が長いほど、評価値F(t,j)も高くなる。
(2)式によれば、確信度D(t,j)が低くても、出現物体数の予測値R(t,j)が高ければ、評価値F(t,j)は相対的に高い値となり得る。しかしこのような場合には、選択されたサブカテゴリが誤っており、その結果として入力された動画像に写っている物体が選択されたサブカテゴリに属さない可能性が高い。そして選択されたサブカテゴリが誤っていれば、後述する個別認識部26は、適切な個別物体識別器を未検査区間に適用できないので、未検査区間における物体認識精度も低下してしまう。
そこで評価値算出部24は、確信度D(t,j)が所定の閾値H未満である場合には、確信度D(t,j)の代わりに予め設定された低確信度値を(2)式に代入することにより、評価値F(t,j)を求めてもよい。この場合、閾値Hは、例えば、サブカテゴリの選択結果が誤っている確率がその選択結果が正しい確率よりも高くなる確信度D(t,j)の最小値、例えば、確信度D(t,j)が取り得る最小値と最大値の平均値に設定される。また低確信度値は、例えば、確信度が取り得る最小値以下の値、例えば、-1または0に設定される。
評価値算出部24は、求めた評価値を判定部25へ渡す。
判定部25は、評価値F(t,j)に基づいて、検査区間が適切か否か判定する。例えば、判定部25は、評価値F(t,j)を所定の閾値Lと比較し、評価値F(t,j)が閾値L以上であれば、検査区間は適切であると判定する。一方、評価値F(t,j)が閾値L未満であれば、判定部25は、検査区間は不適切であると判定する。
なお、閾値Lは、例えば、対象となる動画像中の未検査区間に含まれる各ピクチャに対して、サブカテゴリごとに特化された個別物体識別器を用いて物体を認識する精度が、汎用物体識別器を用いて物体を認識する精度よりも高くなる評価値の最小値に設定される。この最小値は、例えば、予めサブカテゴリごとに用意された複数のサンプル動画像に対して個別物体識別器及び汎用物体識別器を用いてそれぞれ物体を認識したときの精度を求めることによって求められる。例えば、確信度D(t,j)及びwR(t,j)が、それぞれ0〜1の範囲内の値となる場合、閾値Lは、例えば、1.5〜1.8に設定される。
判定部25は、その判定結果を処理部13に出力する。
個別認識部26は、判定部25が検査区間が適切であると判定した場合、入力された動画像中の未検査区間に含まれる少なくとも一枚のピクチャについて、選択されたサブカテゴリに対応する個別物体識別器を用いてそのピクチャに写っている物体を認識する。
なお、個別認識部26による処理は、対象となるピクチャが含まれる区間及び使用される物体識別器を除いて、汎用認識部22による処理と同一である。そこで、以下では、個別認識部26が使用する個別物体識別器について説明する。
個別物体識別器も、汎用物体識別器と同様に、例えば、いわゆる教師付き学習によって構築される、多層パーセプトロン、サポートベクトルマシンまたはk近傍法といった機械学習システムとすることができる。
ただし、個別物体識別器は、その個別物体識別器に対応するサブカテゴリに属する物体のみを認識対象とするように学習される。すなわち、サブカテゴリごとに、そのサブカテゴリに属する物体のそれぞれについて、予め複数のサンプル画像が準備される。また、認識対象となる何れの物体も写っていないサンプル画像も複数準備されることが好ましい。そして注目するサブカテゴリに対応する個別物体識別器は、その注目するサブカテゴリについて準備されたサンプル画像を用いて、個別物体識別器を形成する機械学習システムに応じた教師付き学習法に従って予め学習される。
したがって、個別物体識別器は、対応するサブカテゴリに属する物体のみを認識対象とする。そのため、正しいサブカテゴリが選択されていれば、個別物体識別器による物体の認識精度は、汎用物体識別器による物体の認識精度よりも高くなる。
個別認識部26は、選択されたサブカテゴリの識別番号に対応する個別物体識別器を記憶部12から読み込む。また個別認識部26は、未検査区間に含まれる各ピクチャを複数の領域に分割する。個別認識部26は、ピクチャごとに、複数の領域のそれぞれから少なくとも一つの特徴量を抽出する。なお、個別認識部26により抽出される特徴量は、選択されたサブカテゴリごとに異なっていてもよい。また、個別認識部26により抽出される特徴量は、汎用物体識別器に入力される特徴量と異なっていてもよい。これにより、個別認識部26は、選択されたサブカテゴリに応じて、そのサブカテゴリに属する物体を正確に認識するのに適した特徴量を、物体認識に利用できるので、認識精度をより向上できる。そして個別認識部26は、複数の領域のそれぞれについて、抽出された特徴量を要素とする特徴量ベクトルを、個別物体識別器に入力することにより、その領域に写っている物体を認識する。なお、個別認識部26も、ピクチャ全体から抽出された特徴量を要素とする特徴量ベクトルを個別物体識別器に入力することにより、そのピクチャに写っている物体を認識してもよい。
また、個別認識部26は、未検査区間に含まれる複数のピクチャの中から選択した1枚以上のピクチャについてのみ、物体を認識してもよい。物体が認識されるピクチャは、例えば、10〜30ピクチャ当たり1枚であってもよい。
個別認識部26は、未検査区間内の各ピクチャから認識された全ての物体の種別を、対象となる動画像の未検査区間と関連付けて記憶部12に記憶する。
図4は、処理部13により実行される、画像認識処理の動作フローチャートを示す。
先ず、処理部13の検査区間設定部21は、対象となる動画像に検査区間を設定する(ステップS101)。
その後、処理部13の汎用認識部22は、汎用物体識別器を用いて、検査区間内に含まれるピクチャごとに、そのピクチャに写っている物体を認識する(ステップS102)。そして処理部13の選択部23は、認識された物体に基づいて、複数のサブカテゴリのうちの何れかを選択する(ステップS103)。また選択部23は、選択されたサブカテゴリについての確信度D(t,j)を求める。
何れかのサブカテゴリが選択されると、処理部13の評価値算出部24は、未検査区間における出現物体数の予測値R(t,j)と確信度D(t,j)に基づいて評価値F(t,j)を求める(ステップS104)。そして処理部13の判定部25は、評価値F(t,j)が閾値L以上か否か判定する(ステップS105)。
評価値F(t,j)が閾値L未満である場合(ステップS105−No)、検査区間設定部21は、検査区間を所定の追加区間だけ延長する(ステップS106)。その後、処理部13は、ステップS102以降の処理を繰り返す。ただし、2回目以降に実行されるステップS102の処理では、汎用認識部22は、追加区間に含まれるピクチャについてのみ物体を認識してもよい。
一方、評価値F(t,j)が閾値L以上である場合(ステップS105−Yes)、検査区間は適切である。そこで処理部13の個別認識部26は、選択されたサブカテゴリに対応する個別物体識別器を用いて、未検査区間内に含まれるピクチャごとに、そのピクチャに写っている物体を認識する(ステップS107)。
その後、処理部13は、画像認識処理を終了する。
以上に説明してきたように、この画像認識装置は、動画像中の一部である検査区間に含まれるピクチャから認識された物体に基づいて、所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリの中から何れかのサブカテゴリを選択する。そしてこの画像認識装置は、選択されたサブカテゴリに属する物体のみを認識する個別物体識別器を用いて、動画像中の未検査区間に含まれるピクチャに写っている物体を認識する。そのため、この画像認識装置は、未検査区間内の各ピクチャについて、写っている可能性が無い物体を誤って認識することがないので、物体の認識精度を向上できる。また、この画像認識装置は、未検査区間内の各ピクチャについては、認識対象となる物体が限られているので、物体認識の際の演算量を抑制できる。さらに、この画像認識装置は、動画像に写っている物体が選択されたサブカテゴリに含まれることの確からしさと未検査区間における出現物体数の予測値から算出される評価値に基づいて検査区間を修正する。そのため、この画像認識装置は、サブカテゴリを正確に選択しつつ、個別物体識別器が適用される区間を長くできる。
なお、本発明は上記の実施形態に限定されるものではない。例えば、一つの変形例によれば、個別認識部は、検査区間に含まれる各ピクチャについても、選択されたサブカテゴリに対応する個別物体識別器を用いてそのピクチャに写っている物体を再認識してもよい。これにより、画像認識装置は、検査区間内のピクチャについても、物体の認識精度を向上できる。
また他の変形例によれば、区間設定部は、判定部によって検査区間が不適切であると判定された場合に、検査区間を延長する代わりに、動画像中に占める検査区間の位置を変更してもよい。例えば、区間設定部は、判定部によって検査区間が不適切であると判定された場合、次に設定される検査区間の開始時刻が、現在の検査区間の終了時刻となるように、検査区間の位置を変更する。
さらに他の変形例によれば、動画像中の各ピクチャに、そのピクチャに写っている場所の位置情報が付与されている場合、区間設定部は、予め指定した基準位置から所定の距離範囲内に位置する場所に対応するピクチャを検査区間に設定してもよい。なお、所定の距離範囲は、例えば、公園、駅といった一つの施設に相当する範囲、例えば、10m〜1kmに設定される。
さらに他の変形例によれば、評価値算出部は、上記の確信度D(t,j)そのもの、または未検査区間の出現物体の予測数R(t,j)そのものを、評価値としてもよい。確信度D(t,j)そのものが評価値となる場合には、検査区間設定部は、最初に検査区間を最も短く設定し、判定部が、検査区間が不適切と判定する度に、検査区間を延長することが好ましい。検査区間が長くなるほど、検査区間から認識される物体の数が増えるので、確信度D(t,j)も高くなる。そのため、徐々に検査区間を長くすることで、画像認識装置は、検査区間の長さを適切に設定できる。
また、処理部が有する各部の機能をプロセッサに実行させるコンピュータプログラムは、光記録媒体または磁気記録媒体といった記録媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
動画像中に、当該動画像の全区間よりも短く、かつ少なくとも1枚のピクチャを含む第1の区間を設定する区間設定部と、
所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第1の特徴量を入力とし、当該入力された第1の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第1の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第1の特徴量を入力することにより、前記第1の区間に含まれるピクチャに写っている物体を認識する第1の物体認識部と、
前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第1の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択する選択部と、
前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第2の特徴量を入力とし、当該入力された第2の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記動画像中の前記第1の区間以外の第2の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第2の特徴量を入力することにより、前記第2の区間に含まれるピクチャに写っている物体を認識する第2の物体認識部と、
を有する画像認識装置。
(付記2)
前記動画像に含まれる各ピクチャに写っている物体が前記選択されたサブカテゴリに属する確信度、及び前記第2の区間における出現物体数の予測値のうちの少なくとも一方に基づいて、前記第1の区間の適切さを表す評価値を求める評価値算出部と、
前記評価値に基づいて前記第1の区間が適切か否かを判定する判定部とをさらに有し、
前記判定部が前記第1の区間が適切でないと判定した場合、前記区間設定部は、前記第1の区間を変更または延長し、一方、前記判定部が前記第1の区間が適切であると判定した場合、前記第2の物体認識部は、前記個別物体識別器に、前記第2の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第2の特徴量を入力することにより前記第2の区間に含まれるピクチャに写っている物体を認識する、付記1に記載の画像認識装置。
(付記3)
前記評価値算出部は、前記確信度が高いほど、あるいは、前記出現物体数の予測値が多いほど前記評価値を高くする、付記2に記載の画像認識装置。
(付記4)
前記判定部は、前記評価値が、前記個別物体識別器を用いて前記第2の区間に含まれるピクチャに写っている物体を認識したときの認識精度が、前記汎用物体識別器を用いて前記第2の区間に含まれるピクチャに写っている物体を認識したときの認識精度より高くなる値となる場合、前記第1の区間が適切であると判定する、付記2または3に記載の画像認識装置。
(付記5)
前記第2の物体認識部は、前記第1の区間に含まれる少なくとも一枚のピクチャに写っている物体を、前記個別物体識別器を用いて認識する、付記1〜4の何れか一項に記載の画像認識装置。
(付記6)
動画像中に、当該動画像の全区間よりも短く、かつ少なくとも1枚のピクチャを含む第1の区間を設定し、
所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第1の特徴量を入力とし、当該入力された第1の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第1の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第1の特徴量を入力することにより、前記第1の区間に含まれるピクチャに写っている物体を認識し、
前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第1の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択し、
前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第2の特徴量を入力とし、当該入力された第2の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記動画像中の前記第1の区間以外の第2の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第2の特徴量を入力することにより、前記第2の区間に含まれるピクチャに写っている物体を認識する、
ことを含む画像認識方法。
(付記7)
動画像中に、当該動画像の全区間よりも短く、かつ少なくとも1枚のピクチャを含む第1の区間を設定し、
所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第1の特徴量を入力とし、当該入力された第1の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第1の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第1の特徴量を入力することにより、前記第1の区間に含まれるピクチャに写っている物体を認識し、
前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第1の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択し、
前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第2の特徴量を入力とし、当該入力された第2の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記動画像中の前記第1の区間以外の第2の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第2の特徴量を入力することにより、前記第2の区間に含まれるピクチャに写っている物体を認識する、
ことをコンピュータに実行させる画像認識用コンピュータプログラム。
1 画像認識装置
11 インターフェース部
12 記憶部
13 処理部
14 記録媒体アクセス装置
15 記録媒体
21 検査区間設定部
22 汎用認識部
23 選択部
24 評価値算出部
25 判定部
26 個別認識部

Claims (5)

  1. 動画像中に、当該動画像の全区間よりも短く、かつ少なくとも1枚のピクチャを含む第1の区間を設定する区間設定部と、
    所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第1の特徴量を入力とし、当該入力された第1の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第1の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第1の特徴量を入力することにより、前記第1の区間に含まれるピクチャに写っている物体を認識する第1の物体認識部と、
    前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第1の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択する選択部と、
    前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第2の特徴量を入力とし、当該入力された第2の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記動画像中の前記第1の区間以外の第2の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第2の特徴量を入力することにより、前記第2の区間に含まれるピクチャに写っている物体を認識する第2の物体認識部と、
    前記動画像に含まれる各ピクチャに写っている物体が前記選択されたサブカテゴリに属する確信度、及び前記第2の区間における出現物体数の予測値のうちの少なくとも一方に基づいて、前記第1の区間の適切さを表す評価値を求める評価値算出部と、
    前記評価値に基づいて前記第1の区間が適切か否かを判定する判定部と、
    を有し、
    前記判定部が前記第1の区間が適切でないと判定した場合、前記区間設定部は、前記第1の区間を変更または延長し、一方、前記判定部が前記第1の区間が適切であると判定した場合、前記第2の物体認識部は、前記個別物体識別器に、前記第2の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第2の特徴量を入力することにより前記第2の区間に含まれるピクチャに写っている物体を認識する画像認識装置。
  2. 前記評価値算出部は、前記確信度が高いほど、あるいは、前記出現物体数の予測値が多いほど前記評価値を高くする、請求項に記載の画像認識装置。
  3. 前記判定部は、前記評価値が、前記個別物体識別器を用いて前記第2の区間に含まれるピクチャに写っている物体を認識したときの認識精度が、前記汎用物体識別器を用いて前記第2の区間に含まれるピクチャに写っている物体を認識したときの認識精度より高くなる値となる場合、前記第1の区間が適切であると判定する、請求項1または2に記載の画像認識装置。
  4. 動画像中に、当該動画像の全区間よりも短く、かつ少なくとも1枚のピクチャを含む第1の区間を設定し、
    所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第1の特徴量を入力とし、当該入力された第1の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第1の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第1の特徴量を入力することにより、前記第1の区間に含まれるピクチャに写っている物体を認識し、
    前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第1の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択し、
    前記動画像に含まれる各ピクチャに写っている物体が前記選択されたサブカテゴリに属する確信度、及び前記動画像中の前記第1の区間以外の第2の区間における出現物体数の予測値のうちの少なくとも一方に基づいて、前記第1の区間の適切さを表す評価値を求め、
    前記評価値に基づいて前記第1の区間が適切か否かを判定し、
    前記第1の区間が適切でないと判定された場合、前記第1の区間を変更または延長し、
    前記第1の区間が適切であると判定された場合、前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第2の特徴量を入力とし、当該入力された第2の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記第2の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第2の特徴量を入力することにより、前記第2の区間に含まれるピクチャに写っている物体を認識する、
    ことを含む画像認識方法。
  5. 動画像中に、当該動画像の全区間よりも短く、かつ少なくとも1枚のピクチャを含む第1の区間を設定し、
    所定のカテゴリに属する複数の物体のそれぞれについての特徴を表す少なくとも一つの第1の特徴量を入力とし、当該入力された第1の特徴量に応じて前記複数の物体のうちの何れかを認識結果として出力する汎用物体識別器に、前記第1の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第1の特徴量を入力することにより、前記第1の区間に含まれるピクチャに写っている物体を認識し、
    前記複数の物体のうちの認識された物体を表す情報を入力とし、当該入力された情報に応じて前記所定のカテゴリに属する物体のうちの一部を含む複数のサブカテゴリのうちの一つを選択するカテゴリ識別器に、前記第1の区間について認識された物体を表す情報を入力することにより、前記複数のサブカテゴリの中から前記動画像に写っている物体が属すると推定されるサブカテゴリを選択し、
    前記動画像に含まれる各ピクチャに写っている物体が前記選択されたサブカテゴリに属する確信度、及び前記動画像中の前記第1の区間以外の第2の区間における出現物体数の予測値のうちの少なくとも一方に基づいて、前記第1の区間の適切さを表す評価値を求め、
    前記評価値に基づいて前記第1の区間が適切か否かを判定し、
    前記第1の区間が適切でないと判定された場合、前記第1の区間を変更または延長し、
    前記第1の区間が適切であると判定された場合、前記選択されたサブカテゴリに属する少なくとも一つの物体のそれぞれについての特徴を表す少なくとも一つの第2の特徴量を入力とし、当該入力された第2の特徴量に応じて前記選択されたサブカテゴリに属する少なくとも一つの物体のうちの何れかを認識結果として出力する個別物体識別器に、前記第2の区間に含まれる少なくとも一枚のピクチャから抽出された前記少なくとも一つの第2の特徴量を入力することにより、前記第2の区間に含まれるピクチャに写っている物体を認識する、
    ことをコンピュータに実行させる画像認識用コンピュータプログラム。
JP2011146077A 2011-06-30 2011-06-30 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム Active JP5786495B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011146077A JP5786495B2 (ja) 2011-06-30 2011-06-30 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム
US13/471,886 US8934724B2 (en) 2011-06-30 2012-05-15 Image recognition device, image recognizing method, storage medium that stores computer program for image recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011146077A JP5786495B2 (ja) 2011-06-30 2011-06-30 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2013012163A JP2013012163A (ja) 2013-01-17
JP5786495B2 true JP5786495B2 (ja) 2015-09-30

Family

ID=47390765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011146077A Active JP5786495B2 (ja) 2011-06-30 2011-06-30 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム

Country Status (2)

Country Link
US (1) US8934724B2 (ja)
JP (1) JP5786495B2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140040474A (ko) * 2012-09-26 2014-04-03 한국전자통신연구원 비디오 요약 장치, 방법 및 시스템
JP2014127188A (ja) * 2012-12-27 2014-07-07 Toshiba Corp 整形装置及び方法
JP6088381B2 (ja) * 2013-08-02 2017-03-01 株式会社日立国際電気 物体検索システム
WO2015030689A2 (en) * 2013-08-27 2015-03-05 Altun Halis A tool and method for robust, scale and orientation invariant object detection and classification
TWI533182B (zh) * 2014-11-07 2016-05-11 緯創資通股份有限公司 光學觸控模組及其觸控偵測方法
EP3196898B1 (en) * 2014-11-21 2019-04-03 Fujikura Ltd. Superconducting coil
CN104598566B (zh) * 2015-01-09 2018-01-09 四川九洲电器集团有限责任公司 运动目标的关联规则分析方法及系统
JP2017041022A (ja) * 2015-08-18 2017-02-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
WO2017104272A1 (ja) * 2015-12-18 2017-06-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP6977345B2 (ja) * 2017-07-10 2021-12-08 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
KR102402513B1 (ko) 2017-09-15 2022-05-27 삼성전자주식회사 컨텐트를 실행하는 방법 및 장치
US10733758B2 (en) 2018-10-30 2020-08-04 Rapsodo Pte. Ltd. Learning-based ground position estimation
WO2020235268A1 (ja) 2019-05-23 2020-11-26 コニカミノルタ株式会社 物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体
US20220207863A1 (en) 2019-05-23 2022-06-30 Konica Minolta, Inc. Object detection device, object detection method, program, and recording medium
US11443277B2 (en) * 2020-03-26 2022-09-13 Fractal Analytics Private Limited System and method for identifying object information in image or video data
CN111626202B (zh) 2020-05-27 2023-08-29 北京百度网讯科技有限公司 用于识别视频的方法及装置
CN114005079B (zh) * 2021-12-31 2022-04-19 北京金茂教育科技有限公司 多媒体流处理方法及装置
US11756288B2 (en) * 2022-01-05 2023-09-12 Baidu Usa Llc Image processing method and apparatus, electronic device and storage medium

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3579387B2 (ja) 2001-10-26 2004-10-20 株式会社東芝 デジタル放送受信装置および電子番組表の表示制御装置
JP2004302644A (ja) * 2003-03-28 2004-10-28 Sony Corp 顔識別装置、顔識別方法、記録媒体、及びロボット装置
JP4476744B2 (ja) * 2003-09-02 2010-06-09 富士フイルム株式会社 撮像システム、及びプログラム
JP4531501B2 (ja) 2003-09-29 2010-08-25 富士フイルム株式会社 照合システム及びそのプログラム
JP4671640B2 (ja) 2004-08-12 2011-04-20 エヌ・ティ・ティ・コミュニケーションズ株式会社 映像ジャンル判定方法、映像ジャンル判定装置及び映像ジャンル判定プログラム
US7646922B2 (en) * 2005-12-30 2010-01-12 Honeywell International Inc. Object classification in video images
US8311344B2 (en) * 2008-02-15 2012-11-13 Digitalsmiths, Inc. Systems and methods for semantically classifying shots in video
JP5322550B2 (ja) * 2008-09-18 2013-10-23 三菱電機株式会社 番組推奨装置
JP2010287178A (ja) * 2009-06-15 2010-12-24 Sharp Corp 画像処理装置、画像読取装置、複合機、画像処理方法、プログラム、記録媒体
US8644624B2 (en) * 2009-07-28 2014-02-04 Samsung Electronics Co., Ltd. System and method for indoor-outdoor scene classification
CA2817103C (en) * 2010-11-11 2016-04-19 Google Inc. Learning tags for video annotation using latent subtags

Also Published As

Publication number Publication date
US20130004081A1 (en) 2013-01-03
JP2013012163A (ja) 2013-01-17
US8934724B2 (en) 2015-01-13

Similar Documents

Publication Publication Date Title
JP5786495B2 (ja) 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム
US11113587B2 (en) System and method for appearance search
CN105469029B (zh) 用于对象再识别的系统和方法
US10846554B2 (en) Hash-based appearance search
KR101452562B1 (ko) 비디오 이미지에서 텍스트를 검출하는 방법
JP4991923B2 (ja) 画像処理方法及び装置
US20140056473A1 (en) Object detection apparatus and control method thereof, and storage medium
US8831357B2 (en) System and method for image and video search, indexing and object classification
JP2003016448A (ja) 前景/背景セグメント化を用いた画像のイベント・クラスタリング
US20230394794A1 (en) Information processing device, information processing method, and program recording medium
Shi et al. Graph-based background suppression for scene text detection
JP5796107B2 (ja) テキスト検出の方法及び装置
AU2019303730B2 (en) Hash-based appearance search
CN116524377A (zh) 一种基于tir图像的无人机目标跟踪识别方法
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
CN112907634B (zh) 基于无人机的车辆跟踪方法
CN112380970B (zh) 基于局部区域搜索的视频目标检测方法
Zhuge et al. Robust video text detection with morphological filtering enhanced MSER
Tong et al. Shot classification in broadcast soccer video
Park et al. Extraction of visual information in basketball broadcasting video for event segmentation system
CN112836578B (zh) 一种基于表观特征的货架缺货检测方法
Awoke et al. Ethiopic and latin multilingual text detection from images using hybrid techniques
CN115131582A (zh) 基于形态学识别模板匹配的目标识别方法、装置及介质
Strat et al. Bags of Trajectory Words for video indexing
CN113449629A (zh) 基于行车视频的车道线虚实识别装置、方法、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150407

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150608

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150713

R150 Certificate of patent or registration of utility model

Ref document number: 5786495

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150