JP4640155B2

JP4640155B2 - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP4640155B2
Application number: JP2005361347A
Authority: JP
Inventors: 康治浅野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-12-15
Filing date: 2005-12-15
Publication date: 2011-03-02
Anticipated expiration: 2025-12-15
Also published as: CN100545859C; US20070160294A1; US7907751B2; CN1983303A; KR20070064269A; JP2007164560A; EP1798666A1

Description

本発明は画像処理装置および方法、並びにプログラムに関し、特に、画像認識の精度を向上させるようにした画像処理装置および方法、並びにプログラムに関する。

近年、人を識別する技術が発展しつつある。例えば、特定の場所への入出を管理するために、その場所に入ろうとする人を撮影し、予め登録されている画像と一致するか否かを判断し、一致すれば、入出を許可するような技術が提案されている。

また、静止画像や動画像は、ユーザが撮影したり編集したりして気軽に楽しめるようにもなってきている。そのため、膨大の枚数の静止画像や長時間の動画像などを、ユーザが扱う機会も増えてきている。そのような状況を背景とし、ユーザが所望の静止画像や動画像を検索しやすいように、それらの画像にメタデータを付与し、そのメタデータを用いて検索が行えることが提案されている。（例えば、特許文献１参照）

そのようなメタデータを付与するために、画像中から、ユーザなどにより予め指定されている種類の物体、動作などを検出、認識することも提案されている。（例えば、特許文献２参照）
特開２００５−３９３５４号広報

特開２００４−１４５４１６号広報

上記したような技術は、物体、動作の検出、認識を行う際、対象となるものを、それぞれ個別に画像（静止画像、動画像）中から抽出することにより行っている。例えば、複数の人が写っている静止画像から、特定の人を検出する場合、その静止画像中から、顔と思われる部分を検出し、その検出された部分毎に、検出したい顔のパターンと一致するか否かを判断するといった処理が繰り返されることにより、検出が行われていた。

そのような検出や認識は、精度的に不十分であることがあり、そのために、検出（認識）精度が低くなってしまうことがあった。

本発明は、このような状況に鑑みてなされたものであり、物や人を画像中から検出する際、検出対象になる物体が画像中に出現する確率も考慮して検出することにより、検出の精度を向上することができるようにするものである。

本発明の一側面の画像処理装置は、処理対象とされる画像内から、認識対象が存在する可能性のある領域を抽出する領域抽出手段と、前記領域抽出手段により抽出された領域毎に特徴量を抽出する特徴量抽出手段と、全ての前記領域の組み合わせについて、画像スコアと、コンテキストスコアを統合したスコアを計算する計算手段と、前記画像スコアである前記認識対象に関するパラメータを保持するパラメータ保持手段と、前記コンテキストスコアである前記認識対象に関するコンテキストを保持するコンテキスト保持手段とを備え、前記コンテキストは、複数の認識対象間の同時刻における画像中の異なる領域から検出された認識対象間の共起確率であり、前記計算手段は、前記画像スコアを利用した確率と、前記コンテキストスコアを利用した確率を乗算することで前記スコアを計算し、前記スコアの高い前記組み合わせを選択することで、認識処理を実行する。

前記認識対象がユーザにより新たに設定された場合、新たに設定された認識対象が存在する画像を、記憶されている複数の画像内から読み出し、読み出された画像内に他の認識対象があるか否かを判断し、その判断結果に基づいて、新たに設定された前記認識対象と前記画像内の前記他の認識対象との共起確率を算出し、前記コンテキスト保持部に保持されている新たに設定された認識対象に関するコンテキストを更新するようにすることができる。

本発明の一側面の画像処理方法またはプログラムは、領域抽出手段、特徴量抽出手段、計算手段、パラメータ保持手段、およびコンテキスト保持手段を備える画像処理装置の画像処理方法において、前記領域抽出手段が、処理対象とされる画像内から、認識対象が存在する可能性のある領域を抽出し、前記特徴量抽出手段が、抽出された前記領域毎に特徴量を抽出し、前記計算手段が、全ての前記領域の組み合わせについて、画像スコアと、コンテキストスコアを統合したスコアを計算し、前記パラメータ保持手段が、前記画像スコアである前記認識対象に関するパラメータを保持し、前記コンテキスト保持手段が、前記コンテキストスコアである前記認識対象に関するコンテキストを保持するステップを含み、前記コンテキストは、複数の認識対象間の同時刻における画像中の異なる領域から検出された認識対象間の共起確率であり、前記計算手段が、前記画像スコアを利用した確率と、前記コンテキストスコアを利用した確率を乗算することで前記スコアを計算し、前記スコアの高い前記組み合わせが選択されることで、認識処理を実行する。

本発明の一側面の画像処理装置および方法、並びにプログラムにおいては、画像内から所定の物体や動作が検出される際、物体同士の関わりを示す確率値や動作の関連性に関する確率値などが用いられる。

本発明の一側面によれば、物や人を、より精度良く認識することが可能となる。

以下に、本発明の実施の形態について図面を参照して説明する。

［画像処理装置の構成と動作について］
図１は、本発明を適用した画像処理装置の一実施の形態の構成を示す図である。図１に示した画像処理装置は、撮影された静止画像や動画像から、所定の人や物、動作（予め登録されている人や物、動作）を検出し、認識する装置である。

このような装置は、例えば、所定の場所への立ち入りを、予め登録されている人に限定するために、その場所に立ち入ろうとした人を撮影し、その人が予め登録されている人か否かを判断し、立ち入りを許可するか否かを判断するような装置に適用できる。

また、沢山の画像、例えば、ユーザがデジタルスチルカメラなどで撮影した静止画像や、ビデオカメラなどで撮影した動画像から、ユーザが所望とする人や物が撮影されている静止画像や動画像を検出する装置などにも適用できる。なお、以下の説明において、画像との表記は、特に断りのない限り静止画像と動画像を含むとする。

図１に示した画像処理装置は、上記したように画像を扱う。そのような図１に示した画像処理装置は、画像入力部１１、物体認識部１２、動作認識部１３、コンテキスト処理部１４、および、出力部１５を含む構成とされている。

画像入力部１１は、撮影された画像や記録されている画像などを入力する機能を有する。撮影された画像とは、例えば、上記したように、所定の場所への立ち入りなどを管理するために設置されたスチルカメラやビデオカメラからの画像などである。また、記録されている画像とは、例えば、上記したように、ユーザが撮影して、記録媒体に記録した画像などである。

画像入力部１１に入力された画像（画像データ）は、物体認識部１２と動作認識部１３に供給される。

物体認識部１２は、物体（ここで物体とは、人や物を含む表現であるとする）を検出し、その検出された物体が予め検出対象とされている物体であるか否かを認識する機能を有する。物体認識部１２は、領域抽出部２１、画像特徴抽出部２２、マッチング部２３、および画像パラメータ保持部２４を含む構成とされている。

領域抽出部２１は、画像入力部１１から供給される画像内から、物体が存在する領域（物体が写っている領域）を抽出し、その抽出した領域内の情報を、画像特徴抽出部２２に供給する。画像特徴抽出部２２は、各領域から、その領域内の画像における特徴量を抽出し、マッチング部２３に供給する。

マッチング部２３は、画像パラメータ保持部２４または／およびコンテキスト処理部１４から供給されるパラメータを用いて、各領域内の画像は、予め登録されている物体の画像であるか否かを判断する。画像パラメータ保持部２４は、マッチング部２３がマッチングを行うためのパラメータ（特徴量）を保持する。

動作認識部１３は、所定の物体を検出し、その物体の動作、例えば、検出対象とされる物体が人であり、その人が歩いたなどの動作を認識する機能を有する。動作認識部１３は、領域抽出部３１、画像特徴抽出部３２、マッチング部３３、および画像パラメータ保持部３４を含む構成とされている。

領域抽出部３１は、画像入力部１１から供給される画像内から、物体が存在する領域（物体が写っている領域）を抽出し、その抽出した領域内の情報を、画像特徴抽出部３２に供給する。画像特徴抽出部３２は、各領域から、その領域内の画像における特徴量を抽出し、マッチング部３３に供給する。

マッチング部３３は、画像パラメータ保持部３４または／およびコンテキスト処理部１４から供給されるパラメータを用いて、各領域内の画像は、所定の動作をしているか否かを認識する。画像パラメータ保持部３４は、マッチング部３３がマッチングを行うためのパラメータ（特徴量）を保持する。

物体認識部１２と動作認識部１３は、それぞれ同様の構成を有するが、認識する対象が異なっている。そのため、領域の抽出方法、抽出されるパラメータやマッチング手法などは異なる。

コンテキスト処理部１４は、物体認識部１２や動作認識部１３が、それぞれ物体や動作を認識するときに必要とされるコンテキストを処理する。コンテキスト処理部１４は、動的コンテキスト保持部４１とコンテキストパラメータ保持部４２を含む構成とされている。

動的コンテキスト保持部４１は、出力部１５から出力される認識結果を一時的に保持したり、時間的に前後に取得（撮影）された画像を保持したりする。後述するように、物体認識部１２や動作認識部１３により認識される物体や動作の認識率（認識の精度）を向上させるために、本実施の形態においては、例えば、１枚の画像を処理対象としているとき、その画像に対して時間的に前後に撮影された画像の情報も用いて認識処理を実行するように構成されている。

そのために、時間的に前後の画像の情報などを保持する動的コンテキスト保持部４１が設けられている。

コンテキストパラメータ保持部４２は、例えば、人物Ａと人物Ｂが同一の画像内に存在する確率などが保持されている。このように、コンテキストパラメータ保持部４２には、１つの物体（動作）と、他の物体（動作）とのかかわりに関する情報（共に発生する可能性（確率）に関する情報）が保持される。

出力部１５は、物体認識部１２のマッチング部２３からの出力または／および動作認識部１３のマッチング部３３からの出力が供給され、図示されていない他の部分（例えば、認識結果を用いて、所定の画像を読み出し、ディスプレイなどに表示させる処理部）に対して出力する。また、出力部１５からの出力は、必要に応じ、コンテキスト処理部１４に供給される。

次に、コンテキストパラメータ保持部４２に保持されるコンテキストパラメータ（テーブル）について説明する。コンテキストパラメータ保持部４２には、図２と図３に示すテーブルが保持されているとして説明を続ける。

図２に示したテーブルは、主に、物体認識部１２のマッチング部２３に供給され、同一の画像や、撮影された時間的に前後の画像中に、２つの認識対象が存在する確率を示したテーブルである。以下、図２に示したテーブルを、物体認識用テーブル６１と記述する。

物体認識用テーブル６１には、例えば、図２を参照するに、友人Ａと友人Ｂが同一の画像内に写っている確率として、“０．３”との情報が書き込まれている。この確率は、友人Ａが写っている画像が撮影された時刻の前後（所定の時間内）に撮影された画像に、友人Ｂが写っている確率でもある。

この友人Ａや友人Ｂは、例えば、図１に示した画像処理装置を用いるユーザの友人であり、同一の画像に写っている可能性がある。そのような友人Ａと友人Ｂが同一の画像に写っている可能性が、この場合“０．３”である。式で表すと、次式（１）のようになる。
P(友人A、友人B)= P(友人B、友人A)=0.3 ・・・（１）

また、ユーザにとって、友人である友人Ａと、同僚である同僚Ｃは、共に、ユーザには関わりがある人物であるが、友人Ａと同僚Ｃは関係がない人物同士であると考えられる。このような場合、友人Ａと同僚Ｃが同一の画像に写っている可能性は低いため、同一の画像に写っている確率は、“０．０１”となる。式で表すと、次式（２）のようになる。
P(友人A、同僚C)= P(同僚C、友人A)=0.01 ・・・（２）

このように、物体認識用テーブル６１には、同一の画像に写っている可能性のある人物同士は、高い確率値が記載されており、同一の画像に写っている可能性が低い人物同士は、低い確率値が記載されている。

すなわち、換言するならば、物体認識用テーブル６１は、人が一般的に地域のコミュニティー、趣味のグループ、職場などの複数の人間関係のグループに属していることを利用したテーブルである。そして、同一のグループに属している人間とは、同じ時間を共有する場合が多く、そのようなことが数値化され、記載されているのが、物体認識用テーブル６１である。

このような物体認識用テーブル６１は、デジタルスチルカメラなどで撮影された画像の整理などのときの、画像認識に用いられて有効なテーブルである。

例えば、友人Ｂと同僚Ｃの顔がよく似ているとする。このようなとき、友人Ａが写っている画像Ａに友人Ｂか同僚Ｃかの判別が難しい人物が写っていたとする。上記したコンテキストパラメータ（例えば、物体認識用テーブル６１）から友人Ａと友人Ｂが一緒に写っている確率は、“０．３”程度、友人Ａと同僚Ｃが一緒に写っている確率は“０．０１”程度であることがわかる。

このような物体認識用テーブル６１に記載されている確率値を、合わせて利用して認識すれば、この人物は友人Ｂであると認識することができ、ユーザ側に誤った認識結果を提供してしまうようなことを防ぐことが可能となる。

また、例えば、画像Ａには、同僚Ｃと認識される領域（画像）があるような場合、友人Ａと同僚Ｃが同一の画像に写っている可能性は低く（この場合、０．０１程の確率）、このような確率値を合わせて利用すれば、友人Ａが写っている画像に同僚Ｃも写っているという誤った認識結果が、ユーザ側に提供されるような可能性を低くすることができる

人だけでなく、物の場合にも同様のことがいえる。すなわち、図２に示したように、例えば、一般的に野球のグローブとバットは同一の画像に写っている可能性が高いが、野球のグローブとゴルフクラブが同一の画像に写っている可能性は低いと考えられる。そのような物と物との関連性（同一の画像に写っている可能性を示す確率値）も、図２に示したような物体認識用テーブル６１には記載されている。

さらに、図２に示した物体認識用テーブル６１には、人と物との関係についても記載されている。例えば、友人Ａがゴルフを好きであれば、友人Ａが写っている画像には、ゴルフクラブも写っている可能性が高くなり、友人Ａがゴルフを好きでなければ、友人Ａが写っている画像にゴルフクラブも写っている可能性は低くなる。このような人と物との関連性（同一の画像に写っている可能性を示す確率値）も、図２に示したような物体認識用テーブル６１には記載されている。

なお、図２に示した物体認識用テーブル６１は、全ての欄に数値（確率値）が記載されている例を示したが、例えば、“友人Ａ”と“友人Ｂ”が同一の画像に写っている確率と、“友人Ｂ”と“友人Ａ”が同一の画像に写っている確率は、同一値である（式（１）や式（２）では、そのことを示している）。すなわち、図２に示した物体認識用テーブル６１の右上と左下とでは対称になっているので、どちらか一方のみ記載されていればよい。

図３に示したテーブルは、主に、動作認識部１３のマッチング部３３に供給され、一連の動作が起こりえる確率を示したテーブルである。以下、図３に示したテーブルを、動作認識用テーブル６２と記述する。

動作認識用テーブル６２には、例えば、フレームイン（ビデオカメラなどで撮影されている画枠に、人物などが入ってきたことを意味する）したあとに、そのフレームインした物体（人）が、ソファーに座る確率（例えば、図３においては“０．４”）が記載されている。このことを式で表すと、次式（３）のようになる。
p(ソファーに座る|フレームイン)=0.4 ・・・（３）

式（１）乃至（３）においてＰ（Ａ｜Ｂ）は、条件Ｂが発生した場合における条件Ａが発生する確率を示している。よって、式（３）は、“フレームイン”という条件が発生した後に、フレームインしてきた人物が、“ソファーに座る”という条件が発生する確率は、“０．４”であることを示している。また、このような確率値（一連の動作が連続して起こる確率）は、たとえば、Ｎ−ｇｒａｍで近似された値を用いることができる。

図３に示した動作認識用テーブル６２には、“行”に記載されている項目が先に行われ、“列”に記載されている項目が次に行われるときの確率値が記載されている。よって、例えば、“ソファーに座る”という項目が行われた（条件が発生した）後に、“フレームイン”するという項目が行われる（条件が発生する確率）は、次式（４）に示すように、“０．０”となる。
p(フレームイン|ソファーに座る)=0.0 ・・・（４）

すなわち、このような場合、ソファーに座っている人物は、既に、フレームインしている状態であるので、ソファーに座った後に、フレームインするという状況が発生することはないため、そのような一連の動作の確率値は“０．０”となる。

このように、図３に示した動作認識用テーブル６２には、Ａという行動が行われた後に、Ｂという行動が行われる（一連の動作が実行される）確率値が記載されている。よって、図３に示した動作認識用テーブル６２は、図２に示した物体認識用テーブル６１とは異なり、動作認識用テーブル６２中の右上と左下は、対称ではない。

換言すれば、動作認識用テーブル６２における確率値は、p(A|B)と表され、条件Bが発生するという条件下における条件Aが生起する条件付確率を表し、この場合は、動作Bという動作が行われてから、動作Aという動作が行われる確率を表す。よって、式（３）と式（４）に示したように、行動の前後が入れ替われば、その確率値も異なる値となる。

このような動作認識用テーブル６２は、ユーザの一連の動作を認識し、１つ１つの動作を認識する際の認識精度を高めるためのテーブルとして、有効なテーブルである。例えば、従来は、１つ１つの動作を判断し、その判断に基づき、１つ１つの動作を認識していたため、例えば、“ソファーに座る”という動作が認識された後、そのソファーに座るという動作と関係なく次の動作が判断されたため、“フレームインする”といった動作が、“ソファーに座る”という動作が認識された後に認識されることがあった。

このようなことは、上記したように、実際には発生することのない動作の順序であると考えられる。よって、従来のように、動作を１つ１つ認識すると、このような“ソファーに座った”後に“フレームインした”といった誤った認識結果が、ユーザに提供されてしまうことがあった。

これに対し、動作認識用テーブル６２を設け、動作認識用テーブル６２も、認識の処理の際に用いられるようにすれば、“ソファーに座った”後に“フレームインした”と認識される確率は、式（４）に示したように、“０．０”であるので、そのような動作の流れは発生しないと判断され、誤った認識結果がユーザに提供されるようなことを防ぐことが可能となる。

また、複数の動作が行われた間の時間差に基づいてコンテキストパラメータに重み付けを行うことも可能である。例えば、実際に利用するコンテキストパラメータP’を、テーブルに保持しているPの値から次式のように算出する。
P'(ソファーに座る|フレームイン) = α(t) Ｐ(ソファーに座る|フレームイン)

この式において、α(t)は２つの動作の間の時間差tに対して単調に減少する関数で、これは時間差tが小さい、すなわち２つの動作の時間間隔が近接している場合に重み付けが相対的に大きくなるようにすることを表す。このような重み付けを行うのは、時間差が小さいような画像同士は、関連性が高いと考えられるからである。

このようなテーブルは、事前の学習により作成されたり、ユーザ側で利用されているときの学習により作成されたりする。

例えば、物体認識用テーブル６１における物と物とに関する確率値や、動作認識用テーブル６２の一連の動作が連続して起こる確率に関する確率値は、事前に収集された大量のデータを分析することにより、算出することが可能である。よって、そのような事前に算出された確率値を記載することにより、テーブルを作成することが可能である。

また、例えば、物体認識用テーブル６１における人と人、人と物とに関する確率値は、利用するユーザにより異なる（ユーザに依存する）ため、ユーザ側で利用されているときの学習により作成されることが好ましい。よって、図６のフローチャートを参照して説明するように、物体認識用テーブル６１の一部は、ユーザ側で利用されるときの学習により作成されるようにする。

なお、既存のデータを用いて作成されたテーブルも、利用するユーザ側の嗜好などが反映された方が良いので、後述する学習が行われるようにしてももちろん良い。

このようなテーブルを、コンテキストパラメータ保持部４２に有する図１に示した画像処理装置の動作について説明する。

図４は、図１に示した画像処理装置が、所定の物体や動作を認識する際の処理について説明するフローチャートである。

ステップＳ１１において、画像入力部１１（図１）は、処理対象となる画像（画像データ：以下、画像との表記は、特に断りがなければ、画像データ（画像を表示させるための元となるデータ）の意味を含むとする）を入力する。画像入力部１１に入力された画像は、物体抽出部１２の領域抽出部２１と動作認識部１３の領域抽出部３１に供給される。

なお、図１の構成の説明をしたときに説明したように、物体認識部１２と動作認識部１３は、基本的に同様の構成を有し、同様の処理の流れであるので、以下の説明においては、物体認識部１２における処理を例に挙げて説明をし、適宜、異なる処理があるときには、動作認識部１３における処理についても説明を加える。

ステップＳ１２において、領域抽出部２１は、供給された画像から、認識対象となる領域を抽出する。例えば、認識対象となるのが、顔である場合、供給された画像から、顔と判断される領域が抽出される。１つの画像から複数の領域が抽出されても勿論良い。抽出された領域（その領域の画像）は、画像特徴抽出部２２に供給される。

ステップＳ１３において、画像特徴抽出部２２は、供給された領域内の画像から、特徴量を抽出する。抽出された特徴量は、マッチング部２３に供給される。抽出される特徴量やその特徴量の抽出の仕方は、マッチング部２３によるマッチングの処理に依存する。また、マッチング部２３は、マッチングの処理を行う際、画像パラメータ保持部２４に保持されているパラメータやコンテキストパラメータ保持部４２に保持されているパラメータも用いるが、これらのパラメータも、マッチングの処理に依存する。

マッチング部２３によるマッチングの処理（画像認識モデル）としては、例えば、ＨＭＭ（Hidden Markov Model）やＳＶＭ（Support Vector Machine）など、認識対象に適した方式が用いられる。そして、その用いられる方式に適した特徴量が抽出され、パラメータが保持される。

ステップＳ１４において、マッチング部２３は、全ての対象領域の組み合わせについて、認識モデルスコアと、コンテキストスコアを統合したスコアを計算する。例えば、領域抽出部２１で、領域Ａ、領域Ｂ、および領域Ｃという３つの領域が抽出されたとする。この場合、全ての対象領域の組み合わせとは、“領域Ａと領域Ｂ”、“領域Ａと領域Ｃ”、“領域Ｂと領域Ｃ”という組み合わせである。

認識モデルのスコアとは、画像パラメータ保持部２４に保持されているパラメータであり、コンテキストスコアとは、コンテキストパラメータ保持部４２に保持されているパラメータのことである。上記したように、物体認識部１２において物体を認識する場合、コンテキストパラメータ保持部４２に保持されている図２に示したような物体認識用テーブル６１が参照される。

Ｉを、マッチング部２３に入力された特徴量とし、Ｏを、認識対象となる物体のパラメータを示すとした場合、ベイズ則より、マッチング部２３は、次式（５）に基づいた演算を行う。
P(O|I) = P(I|O)P(O)/P(I) ・・・（５）

式（５）において、P(I|O)は画像パラメータ保持部２４が保持するパラメータを利用して画像認識モデルに基づいて計算される条件付確率を示す。この項から算出される値（スコア）を、画像スコアと記述する。

また、式（５）において、P(O)はコンテキストパラメータ保持部４２が保持するパラメータに基づいた、認識対象が出現する事前確率となる。すなわち、P(O)は、静止画像や動画像の画像内（フレーム内）、画像間（フレーム間）の共起、連鎖確率から計算されるスコアであり、ここでは、コンテキストスコアと記述する。

式（５）において、P(I)は実際にマッチング部２３で計算を行うときには、無視しても良い。すなわち、式（５）は次式（５）’のようにし、P(I|O)P(O)の尤度が高くなるものをマッチング処理（スコアの演算）結果として出力するようにしても良い。
P(O|I) = P(I|O)P(O)・・・（５）’

なお、従来は、画像パラメータ保持部２４で保持されているパラメータのみが用いられてマッチングの処理が行われていたため、P(I|O)の項に関する演算だけが行われていた（画像スコアのみが演算されていた）。すなわち、事前に画像パラメータ保持部２４に、認識対象の画像（物体）として登録されているパラメータのみが用いられてマッチングが行われていた。

本実施の形態においては、マッチング部２３は、式（５）または式（５）’に示すように、P(I|O)にP(0)を乗算して、マッチングを行うようにしている。このP(O)は、上記したように、静止画像や動画像のフレーム内、フレーム間の共起、連鎖確率から計算されるスコアである。このようなスコア（コンテキストスコア）を乗算することにより、１枚の画像内に写っている可能性が高い物体同士や、時間的に隣接する画像間で写っている可能性が高い物体同士などの情報も用いてマッチングを行うことが可能となる。

よって、マッチングの精度（認識精度）を高めることが可能となる。

また、式（５）は、次式（６）のにしても良い（次式（６）に基づいてマッチング処理に係わる演算が行われるようにしても良い）。
logP = logP(I|O) + αlogP(O) ・・・（６）
式（６）も、画像スコアとコンテキストスコアを統合したスコア（統合スコア）を演算するための式であるが、重み付けも行われるような演算とされている。式（６）において、Ｐは、統合スコアを示し、αは重み付けの値を示す。P(I|O)やP(O)は、式（５）と同等の意味である。

動作認識部１３のマッチング部３３も、物体認識部１２のマッチング部２３と同様の処理を行う。ただし、マッチング部３３は、動作を認識するため、P(O)を算出する際、コンテキストパラメータ保持部４２に保持されている図３に示したような動作認識用テーブル６２を参照し、動作に関するマッチングを行う。

また、動作認識用テーブル６２は、所定の動作（第１の動作とする）が行われた後に、他の所定の動作（第２の動作とする）が行われる確率値が記載されているテーブルである。そのようなテーブルを用いるためにマッチング部３３は、第１の動作に関する情報を取得する必要がある。そのために、第１の動作に関する情報（第２の動作を認識する前の時点で認識された動作に関する情報）は、動的コンテキスト保持部４１に保持されている。

動的コンテキスト保持部４１には、出力部１５からの出力が供給される。すなわち、動作認識部１３により認識された動作に関する情報は、動的コンテキスト保持部４１にも、出力部１５を介して供給され、保持される。そして、マッチング部３３は、動作認識用テーブル６２を参照するとき、動的コンテキスト保持部４１に保持されている第１の動作の情報を参照し、その第１の動作に係わるコンテキストパラメータを動作認識用テーブル６２から読み出す。そして、マッチング部３３は、その読み出したコンテキストパラメータを用いてマッチングの処理（第２の動作の認識処理）を実行する。

マッチング部２３（マッチング部３３）は、算出したスコアを、一時的に保持し、マッチングの処理が終了した時点で、最も高い値を有するスコアを選択する。選択されたスコアを有する組み合わせは、ステップＳ１５において、出力部１５に供給され、さらに、後段の処理（不図示）に対して出力される。

このようにして、認識処理が実行される。

図５のフローチャートを参照し、他の認識処理について説明する。図４のフローチャートを参照して説明した認識処理においては、ステップＳ１４において、全ての対象領域の組み合わせについて、画像スコアとコンテキストスコアを統合した統合スコアが計算されるようにした。

これに対し、図５のフローチャートを参照して説明する認識処理は、全ての組み合わせに対して統合スコアを算出するのではなく、認識対象とされる物体や動作を確定することができない領域に対して、認識対象であるか否かを確定するために統合スコアが算出されるようにする。

ステップＳ３１において、個別に認識結果が算出される。個別に認識結果が算出されるとは、まず、領域抽出部２１により、画像入力部１１から供給された画像内から、認識対象となる領域が抽出される。領域抽出部２１により抽出された領域（領域内の画像データ）は、画像特徴抽出部２２に供給される。

画像特徴抽出部２２は、供給された領域内の画像から、特徴量を抽出し、マッチング部２３に供給する。ここまでの処理は、基本的に、図４を参照して説明した処理と同様に行われる。マッチング部２３は、画像パラメータ保持部２４に保持されているパラメータを用いてマッチングの処理を実行する。このマッチングの処理は、P(O)を各認識対象に対して等確率であるとして無視し、次式（７）に基づいてスコアを算出することにより行われる。
P(O|I) = P(I|O)・・・（７）

このようにして算出されたスコア（この場合、画像スコア）が用いられ、ステップＳ３２における判断が実行される。すなわち、ステップＳ３２において、マッチング部２３は、画像スコアが閾値を超えた認識結果があるか否かを判断する。

すなわち、予め登録されている認識対象（画像パラメータ保持部２４にパラメータが保持されている認識対象）となる物体が、供給された画像内に存在するか否かの判断が行われる。予め登録されている認識対象が、検出された領域内に存在すると判断され、その判断は、正しいとされるのは、算出されたスコアが閾値以上である場合である。

よって、そのような場合、すなわち、ステップＳ３２において、閾値を超えた認識結果があると判断された場合、ステップＳ３３に処理が進められ、その閾値を越えたものを認識結果として確定し、認識対象から外すという処理が実行される。

ステップＳ３４において、残りの領域に対して画像スコアが計算される。ただし、ステップＳ３１において、個別の領域に対する認識処理を実行するときに、画像スコアは算出されているため、その算出されている画像スコアを、ステップＳ３４の処理に用いても良い。

ステップＳ３５において、確定済（ステップＳ３３に処理が進められたときに、認識対象から外された領域）も含めて、全ての組み合わせに対してコンテキストスコアが計算される。この際、コンテキストスコアとして計算されるのは、確定済みの領域があった場合、その領域（物体や動作）に係わるコンテキストスコアのみが計算されるようにしても良い。

例えば、領域Ａ、領域Ｂ、領域Ｃが抽出されている場合、“領域Ａと領域Ｂ”、“領域Ａと領域Ｃ”、“領域Ｂと領域Ｃ”という組み合わせが考えられ、全ての組み合わせに対して、コンテキストスコアを計算するときには、この３組に関するコンテキストスコアが計算されることになる。ここで、領域Ａが確定済みの領域であるとすると、“領域Ａと領域Ｂ”、“領域Ａと領域Ｃ”という２つの組み合わせに関するコンテキストスコアが計算されるようにしても良い。

ステップＳ３６において、総合スコアが最大となる組み合わせが探索される。すなわち、ステップＳ３４とステップＳ３５における処理の結果が用いられ、式（５）や式（６）に基づく演算が行われることにより、総合スコアが計算される。その結果、最も高い総合スコアの値を有する認識結果が、ステップＳ３７において確定される。

このようにして、画像スコアで確定できる領域は、認識結果として確定してしまい、その確定済みの結果も用いて、コンテキストスコアや総合スコアを計算することにより、スコアに関する計算を、図４のフローチャートの処理を実行したときよりも低減させることが可能となり、かつ、図４のフローチャートの処理を実行したときと同等に認識精度を向上させることが可能となる。

ところで、上記したように、本実施の形態においては、コンテキストスコア（図２に示した物体認識用テーブル６１や図３に示した動作認識用テーブル６２）が用いられて、認識処理が実行されるが、その認識処理に用いられるテーブル自体の精度が悪ければ、その認識精度も低下してしまう可能性がある。また、上記したように、例えば、人と人とに係わる確率値などは、ユーザ毎に異なるため、そのような確率値を事前に計算し、テーブルに記載しておくことは難しい。

そこで、次に、物体認識用テーブル６１や動作認識用テーブル６２の作成（学習）に係わる処理について、図６のフローチャートを参照して説明する。

ステップＳ５１において、画像中の登録対象領域が選択される。この選択自体は、ユーザが登録したい物体が写っている画像（その画像内の物体が写っている領域）を選択することにより行われ、その選択された情報が供給されることにより、ステップＳ５１における処理が行われる。

例えば、ディスプレイ（不図示）に表示されている画像内で、領域抽出部２１により抽出された領域が、四角などで囲まれて表示され、その囲まれた領域のうちの１つをユーザが選択できるような機能を設ける。そして、ユーザにより選択された領域に関する情報が、ステップＳ５１において取得される。

ステップＳ５２において、選択領域の画像パラメータが抽出される。この抽出は、例えば、画像特徴抽出部２２が、選択された領域の画像から、特徴量（パラメータ）を抽出することにより行われる。抽出されたパラメータは、ステップＳ５３において、画像パラメータ保持部２４に供給され、保持される。

このようにして、ユーザが登録させたい（認識させたい）物体が、登録される。この処理が行われた後は、その新たに登録された物体も、検出対象（認識対象）とされる。すなわち、図４や図５のフローチャートを参照して説明した認識処理において、認識結果としえ、ユーザ側に提供される情報の１つとされる。

次に、ステップＳ５４において、パラメータが登録された物体（以下、適宜、登録物体と記述する）が写っている画像（静止画像や動画像）が読み出される。例えば、ユーザにより撮影され、所定の記録媒体に記録されている画像が読み出され、読み出された画像に、登録物体が写っているか否かが判断される。

この判断は、領域抽出部２１、画像特徴抽出部２２、マッチング部２３、および画像パラメータ保持部２４による処理により行われる。例えば、図５のフローチャートのステップＳ３１の処理と同様の処理により行うことが可能である。

そして、登録物体が写っていると判断された画像は、一旦保持される。ステップＳ５５において、保持された画像から、コンテキストパラメータが抽出される。すなわち、保持されている画像には、登録物体が写っており、その登録物体と同一画像に写っている物体を検出し、その検出された物体とのコンテキストパラメータが抽出される。

コンテキストパラメータの抽出は、全ての可能な組み合わせ数え上げ、それらの共起確率や連鎖確率を計算することにより行われる。しかしながら、学習に利用できる画像の数は限られているので、全ての可能な組み合わせに対して正しい確率値を求めることは困難である。そこで例えば、他の組み合わせの確率の一部をディスカウントし、存在しなかった組み合わせに対して、その個別の物体の出現回数に応じて配分するといった簡易的な方法で、確率値を求めるようにしても良い。

また、本実施の形態においては、時間的に前後に位置する画像同士の関係もコンテキストパラメータとして保持する。そのような複数枚の画像に係わる共起確率をコンテキストパラメータとして用いることも可能で、例えば、次式（８）により算出される。
Ｐ（Ｘ）＝（１−α（ｔ））ｐ（Ａ，Ｘ）＋α（ｔ）ｐ（Ｂ，Ｘ）・・・（８）

式（８）において、α（ｔ）は、重み付けの係数であり、例えば、２枚の画像の撮影時刻の差分（時間差ｔ）に応じた値とされる。すなわち、時間差ｔが小さい場合、換言すれば、２枚の撮影時刻が近接している場合（連続して撮影されたような場合）、α（ｔ）の値は、０．５に近い値とされる。逆に、時間差ｔが大きい場合、α（ｔ）の値は、０に近い値とされる。

このような重み付けを行うのは、時間差が小さいような画像同士は、関連性が高いと考えられるからである。

このようにして、コンテキストパラメータ（確率値）が求められる。

ステップＳ５６において、求められたコンテキストパラメータにより、コンテキストパラメータ保持部４２に保持されているテーブル（この場合、図２に示した物体認識用テーブル６１と図３に示した動作認識用テーブル６２）が更新される。

ステップＳ５７において、指定回数、上記したような処理が実行されたか否かが判断される。ステップＳ５７において、指定回数繰り返されていないと判断された場合、ステップＳ５４に処理が戻され、それ以降の処理が繰り返され、指定回数繰り返されたと判断された場合、図６に示したフローチャートに基づく、学習処理が終了される。

このように複数回数処理を繰り返すことによって、より精緻化されたコンテキストパラメータを利用して、学習用画像データを再認識することが可能となり、より精度の高い認識制度、ひいては精度の高いコンテキストパラメータを得ることが可能となる。

このように、ユーザが登録させたい物体（認識させたい物体）が登録され、その登録された物体に関するコンテキストパラメータが更新される。このような更新（学習）が行われることにより、コンテキストパラメータ保持部４２に保持されるテーブルを、適切なものとすることが可能となり、そのような適切なテーブルを用いて実行される認識処理は、適切な認識結果を出せるようになる。

このように、コンテキストパラメータを用いた認識処理を実行することにより、その認識精度を向上させることが可能となる。

［記録媒体について］
図７は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。ＣＰＵ（Central Processing Unit）１０１は、ＲＯＭ（Read Only Memory）１０２、または記憶部１０８に記憶されているプログラムに従って各種の処理を実行する。ＲＡＭ（Random Access Memory）１０３には、ＣＰＵ１０１が実行するプログラムやデータなどが適宜記憶される。これらのＣＰＵ１０１、ＲＯＭ１０２、およびＲＡＭ１０３は、バス１０４により相互に接続されている。

ＣＰＵ１０１にはまた、バス１０４を介して入出力インターフェース１０５が接続されている。入出力インターフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７が接続されている。ＣＰＵ１０１は、入力部１０６から入力される指令に対応して各種の処理を実行する。そして、ＣＰＵ１０１は、処理の結果を出力部１０７に出力する。

入出力インターフェース１０５に接続されている記憶部１０８は、例えばハードディスクからなり、ＣＰＵ１０１が実行するプログラムや各種のデータを記憶する。通信部１０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

また、通信部１０９を介してプログラムを取得し、記憶部１０８に記憶してもよい。

入出力インターフェース１０５に接続されているドライブ１１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどのリムーバブルメディア１１１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部１０８に転送され、記憶される。

上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム格納媒体からインストールされる。

コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム格納媒体は、図７に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ（Mini-Disc）を含む）、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア１１１、または、プログラムが一時的もしくは永続的に格納されるＲＯＭ１０２や、記憶部１０８を構成するハードディスクなどにより構成される。プログラム格納媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインターフェースである通信部１０９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。

なお、本明細書において、プログラム格納媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

本発明を適用した画像処理装置の一実施の形態の構成を示す図である。物体認識用テーブルについて説明する図である。動作認識用テーブルについて説明する図である。認識処理について説明するフローチャートである。他の認識処理について説明するフローチャートである。学習処理について説明するフローチャートである。記録媒体について説明するための図である。

符号の説明

１１画像入力部，１２物体認識部，１３動作認識部，１４コンテキスト処理部，１５出力部，２１領域抽出部，２２画像特徴抽出部，２３マッチング部，２４画像パラメータ保持部，３１領域抽出部，３２画像特徴抽出部，３３マッチング部，３４画像パラメータ保持部，４１動的コンテキスト保持部，４２コンテキストパラメータ保持部

Claims

処理対象とされる画像内から、認識対象が存在する可能性のある領域を抽出する領域抽出手段と、
前記領域抽出手段により抽出された領域毎に特徴量を抽出する特徴量抽出手段と、
全ての前記領域の組み合わせについて、画像スコアと、コンテキストスコアを統合したスコアを計算する計算手段と、
前記画像スコアである前記認識対象に関するパラメータを保持するパラメータ保持手段と、
前記コンテキストスコアである前記認識対象に関するコンテキストを保持するコンテキスト保持手段と
を備え、
前記コンテキストは、複数の認識対象間の同時刻における画像中の異なる領域から検出された認識対象間の共起確率であり、
前記計算手段は、前記画像スコアを利用した確率と、前記コンテキストスコアを利用した確率を乗算することで前記スコアを計算し、
前記スコアの高い前記組み合わせを選択することで、認識処理を実行する
画像処理装置。
前記認識対象がユーザにより新たに設定された場合、新たに設定された認識対象が存在する画像を、記憶されている複数の画像内から読み出し、
読み出された画像内に他の認識対象があるか否かを判断し、
その判断結果に基づいて、新たに設定された前記認識対象と前記画像内の前記他の認識対象との共起確率を算出し、前記コンテキスト保持部に保持されている新たに設定された認識対象に関するコンテキストを更新する
請求項１に記載の画像処理装置。
領域抽出手段、特徴量抽出手段、計算手段、パラメータ保持手段、およびコンテキスト保持手段を備える画像処理装置の画像処理方法において、
前記領域抽出手段が、処理対象とされる画像内から、認識対象が存在する可能性のある領域を抽出し、
前記特徴量抽出手段が、抽出された前記領域毎に特徴量を抽出し、
前記計算手段が、全ての前記領域の組み合わせについて、画像スコアと、コンテキストスコアを統合したスコアを計算し、
前記パラメータ保持手段が、前記画像スコアである前記認識対象に関するパラメータを保持し、
前記コンテキスト保持手段が、前記コンテキストスコアである前記認識対象に関するコンテキストを保持する
ステップを含み、
前記コンテキストは、複数の認識対象間の同時刻における画像中の異なる領域から検出された認識対象間の共起確率であり、
前記計算手段が、前記画像スコアを利用した確率と、前記コンテキストスコアを利用した確率を乗算することで前記スコアを計算し、
前記スコアの高い前記組み合わせが選択されることで、認識処理を実行する
画像処理方法。
領域抽出手段、特徴量抽出手段、計算手段、パラメータ保持手段、およびコンテキスト保持手段を備える画像処理装置に、
前記領域抽出手段が、処理対象とされる画像内から、認識対象が存在する可能性のある領域を抽出し、
前記特徴量抽出手段が、抽出された前記領域毎に特徴量を抽出し、
前記計算手段が、全ての前記領域の組み合わせについて、画像スコアと、コンテキストスコアを統合したスコアを計算し、
前記パラメータ保持手段が、前記画像スコアである前記認識対象に関するパラメータを保持し、
前記コンテキスト保持手段が、前記コンテキストスコアである前記認識対象に関するコンテキストを保持する
ステップを含む処理を実行させ、
前記コンテキストは、複数の認識対象間の同時刻における画像中の異なる領域から検出された認識対象間の共起確率であり、
前記計算手段が、前記画像スコアを利用した確率と、前記コンテキストスコアを利用した確率を乗算することで前記スコアを計算し、
前記スコアの高い前記組み合わせが選択されることで、認識処理を実行する
処理を実行させるコンピュータが読み取り可能なプログラム。