JP4640155B2 - 画像処理装置および方法、並びにプログラム - Google Patents

画像処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP4640155B2
JP4640155B2 JP2005361347A JP2005361347A JP4640155B2 JP 4640155 B2 JP4640155 B2 JP 4640155B2 JP 2005361347 A JP2005361347 A JP 2005361347A JP 2005361347 A JP2005361347 A JP 2005361347A JP 4640155 B2 JP4640155 B2 JP 4640155B2
Authority
JP
Japan
Prior art keywords
image
score
context
recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005361347A
Other languages
English (en)
Other versions
JP2007164560A (ja
Inventor
康治 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005361347A priority Critical patent/JP4640155B2/ja
Priority to EP06256256A priority patent/EP1798666A1/en
Priority to US11/638,013 priority patent/US7907751B2/en
Priority to KR1020060127643A priority patent/KR20070064269A/ko
Priority to CNB2006101669719A priority patent/CN100545859C/zh
Publication of JP2007164560A publication Critical patent/JP2007164560A/ja
Application granted granted Critical
Publication of JP4640155B2 publication Critical patent/JP4640155B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns

Description

本発明は画像処理装置および方法、並びにプログラムに関し、特に、画像認識の精度を向上させるようにした画像処理装置および方法、並びにプログラムに関する。
近年、人を識別する技術が発展しつつある。例えば、特定の場所への入出を管理するために、その場所に入ろうとする人を撮影し、予め登録されている画像と一致するか否かを判断し、一致すれば、入出を許可するような技術が提案されている。
また、静止画像や動画像は、ユーザが撮影したり編集したりして気軽に楽しめるようにもなってきている。そのため、膨大の枚数の静止画像や長時間の動画像などを、ユーザが扱う機会も増えてきている。そのような状況を背景とし、ユーザが所望の静止画像や動画像を検索しやすいように、それらの画像にメタデータを付与し、そのメタデータを用いて検索が行えることが提案されている。(例えば、特許文献1参照)
そのようなメタデータを付与するために、画像中から、ユーザなどにより予め指定されている種類の物体、動作などを検出、認識することも提案されている。(例えば、特許文献2参照)
特開2005−39354号広報
特開2004−145416号広報
上記したような技術は、物体、動作の検出、認識を行う際、対象となるものを、それぞれ個別に画像(静止画像、動画像)中から抽出することにより行っている。例えば、複数の人が写っている静止画像から、特定の人を検出する場合、その静止画像中から、顔と思われる部分を検出し、その検出された部分毎に、検出したい顔のパターンと一致するか否かを判断するといった処理が繰り返されることにより、検出が行われていた。
そのような検出や認識は、精度的に不十分であることがあり、そのために、検出(認識)精度が低くなってしまうことがあった。
本発明は、このような状況に鑑みてなされたものであり、物や人を画像中から検出する際、検出対象になる物体が画像中に出現する確率も考慮して検出することにより、検出の精度を向上することができるようにするものである。
本発明の一側面の画像処理装置は、処理対象とされる画像内から、認識対象が存在する可能性のある領域を抽出する領域抽出手段と、前記領域抽出手段により抽出された領域毎に特徴量を抽出する特徴量抽出手段と、全ての前記領域の組み合わせについて、画像スコアと、コンテキストスコアを統合したスコアを計算する計算手段と、前記画像スコアである前記認識対象に関するパラメータを保持するパラメータ保持手段と、前記コンテキストスコアである前記認識対象に関するコンテキストを保持するコンテキスト保持手段とを備え、前記コンテキストは、複数の認識対象間の同時刻における画像中の異なる領域から検出された認識対象間の共起確率であり、前記計算手段は、前記画像スコアを利用した確率と、前記コンテキストスコアを利用した確率を乗算することで前記スコアを計算し、前記スコアの高い前記組み合わせを選択することで、認識処理を実行する。
前記認識対象がユーザにより新たに設定された場合、新たに設定された認識対象が存在する画像を、記憶されている複数の画像内から読み出し、読み出された画像内に他の認識対象があるか否かを判断し、その判断結果に基づいて、新たに設定された前記認識対象と前記画像内の前記他の認識対象との共起確率を算出し、前記コンテキスト保持部に保持されている新たに設定された認識対象に関するコンテキストを更新するようにすることができる。
本発明の一側面の画像処理方法またはプログラムは、領域抽出手段、特徴量抽出手段、計算手段、パラメータ保持手段、およびコンテキスト保持手段を備える画像処理装置の画像処理方法において、前記領域抽出手段が、処理対象とされる画像内から、認識対象が存在する可能性のある領域を抽出し、前記特徴量抽出手段が、抽出された前記領域毎に特徴量を抽出し、前記計算手段が、全ての前記領域の組み合わせについて、画像スコアと、コンテキストスコアを統合したスコアを計算し、前記パラメータ保持手段が、前記画像スコアである前記認識対象に関するパラメータを保持し、前記コンテキスト保持手段が、前記コンテキストスコアである前記認識対象に関するコンテキストを保持するステップを含み、前記コンテキストは、複数の認識対象間の同時刻における画像中の異なる領域から検出された認識対象間の共起確率であり、前記計算手段が、前記画像スコアを利用した確率と、前記コンテキストスコアを利用した確率を乗算することで前記スコアを計算し、前記スコアの高い前記組み合わせが選択されることで、認識処理を実行する。
本発明の一側面の画像処理装置および方法、並びにプログラムにおいては、画像内から所定の物体や動作が検出される際、物体同士の関わりを示す確率値や動作の関連性に関する確率値などが用いられる。
本発明の一側面によれば、物や人を、より精度良く認識することが可能となる。
以下に、本発明の実施の形態について図面を参照して説明する。
[画像処理装置の構成と動作について]
図1は、本発明を適用した画像処理装置の一実施の形態の構成を示す図である。図1に示した画像処理装置は、撮影された静止画像や動画像から、所定の人や物、動作(予め登録されている人や物、動作)を検出し、認識する装置である。
このような装置は、例えば、所定の場所への立ち入りを、予め登録されている人に限定するために、その場所に立ち入ろうとした人を撮影し、その人が予め登録されている人か否かを判断し、立ち入りを許可するか否かを判断するような装置に適用できる。
また、沢山の画像、例えば、ユーザがデジタルスチルカメラなどで撮影した静止画像や、ビデオカメラなどで撮影した動画像から、ユーザが所望とする人や物が撮影されている静止画像や動画像を検出する装置などにも適用できる。なお、以下の説明において、画像との表記は、特に断りのない限り静止画像と動画像を含むとする。
図1に示した画像処理装置は、上記したように画像を扱う。そのような図1に示した画像処理装置は、画像入力部11、物体認識部12、動作認識部13、コンテキスト処理部14、および、出力部15を含む構成とされている。
画像入力部11は、撮影された画像や記録されている画像などを入力する機能を有する。撮影された画像とは、例えば、上記したように、所定の場所への立ち入りなどを管理するために設置されたスチルカメラやビデオカメラからの画像などである。また、記録されている画像とは、例えば、上記したように、ユーザが撮影して、記録媒体に記録した画像などである。
画像入力部11に入力された画像(画像データ)は、物体認識部12と動作認識部13に供給される。
物体認識部12は、物体(ここで物体とは、人や物を含む表現であるとする)を検出し、その検出された物体が予め検出対象とされている物体であるか否かを認識する機能を有する。物体認識部12は、領域抽出部21、画像特徴抽出部22、マッチング部23、および画像パラメータ保持部24を含む構成とされている。
領域抽出部21は、画像入力部11から供給される画像内から、物体が存在する領域(物体が写っている領域)を抽出し、その抽出した領域内の情報を、画像特徴抽出部22に供給する。画像特徴抽出部22は、各領域から、その領域内の画像における特徴量を抽出し、マッチング部23に供給する。
マッチング部23は、画像パラメータ保持部24または/およびコンテキスト処理部14から供給されるパラメータを用いて、各領域内の画像は、予め登録されている物体の画像であるか否かを判断する。画像パラメータ保持部24は、マッチング部23がマッチングを行うためのパラメータ(特徴量)を保持する。
動作認識部13は、所定の物体を検出し、その物体の動作、例えば、検出対象とされる物体が人であり、その人が歩いたなどの動作を認識する機能を有する。動作認識部13は、領域抽出部31、画像特徴抽出部32、マッチング部33、および画像パラメータ保持部34を含む構成とされている。
領域抽出部31は、画像入力部11から供給される画像内から、物体が存在する領域(物体が写っている領域)を抽出し、その抽出した領域内の情報を、画像特徴抽出部32に供給する。画像特徴抽出部32は、各領域から、その領域内の画像における特徴量を抽出し、マッチング部33に供給する。
マッチング部33は、画像パラメータ保持部34または/およびコンテキスト処理部14から供給されるパラメータを用いて、各領域内の画像は、所定の動作をしているか否かを認識する。画像パラメータ保持部34は、マッチング部33がマッチングを行うためのパラメータ(特徴量)を保持する。
物体認識部12と動作認識部13は、それぞれ同様の構成を有するが、認識する対象が異なっている。そのため、領域の抽出方法、抽出されるパラメータやマッチング手法などは異なる。
コンテキスト処理部14は、物体認識部12や動作認識部13が、それぞれ物体や動作を認識するときに必要とされるコンテキストを処理する。コンテキスト処理部14は、動的コンテキスト保持部41とコンテキストパラメータ保持部42を含む構成とされている。
動的コンテキスト保持部41は、出力部15から出力される認識結果を一時的に保持したり、時間的に前後に取得(撮影)された画像を保持したりする。後述するように、物体認識部12や動作認識部13により認識される物体や動作の認識率(認識の精度)を向上させるために、本実施の形態においては、例えば、1枚の画像を処理対象としているとき、その画像に対して時間的に前後に撮影された画像の情報も用いて認識処理を実行するように構成されている。
そのために、時間的に前後の画像の情報などを保持する動的コンテキスト保持部41が設けられている。
コンテキストパラメータ保持部42は、例えば、人物Aと人物Bが同一の画像内に存在する確率などが保持されている。このように、コンテキストパラメータ保持部42には、1つの物体(動作)と、他の物体(動作)とのかかわりに関する情報(共に発生する可能性(確率)に関する情報)が保持される。
出力部15は、物体認識部12のマッチング部23からの出力または/および動作認識部13のマッチング部33からの出力が供給され、図示されていない他の部分(例えば、認識結果を用いて、所定の画像を読み出し、ディスプレイなどに表示させる処理部)に対して出力する。また、出力部15からの出力は、必要に応じ、コンテキスト処理部14に供給される。
次に、コンテキストパラメータ保持部42に保持されるコンテキストパラメータ(テーブル)について説明する。コンテキストパラメータ保持部42には、図2と図3に示すテーブルが保持されているとして説明を続ける。
図2に示したテーブルは、主に、物体認識部12のマッチング部23に供給され、同一の画像や、撮影された時間的に前後の画像中に、2つの認識対象が存在する確率を示したテーブルである。以下、図2に示したテーブルを、物体認識用テーブル61と記述する。
物体認識用テーブル61には、例えば、図2を参照するに、友人Aと友人Bが同一の画像内に写っている確率として、“0.3”との情報が書き込まれている。この確率は、友人Aが写っている画像が撮影された時刻の前後(所定の時間内)に撮影された画像に、友人Bが写っている確率でもある。
この友人Aや友人Bは、例えば、図1に示した画像処理装置を用いるユーザの友人であり、同一の画像に写っている可能性がある。そのような友人Aと友人Bが同一の画像に写っている可能性が、この場合“0.3”である。式で表すと、次式(1)のようになる。
P(友人A、友人B)= P(友人B、友人A)=0.3 ・・・(1)
また、ユーザにとって、友人である友人Aと、同僚である同僚Cは、共に、ユーザには関わりがある人物であるが、友人Aと同僚Cは関係がない人物同士であると考えられる。このような場合、友人Aと同僚Cが同一の画像に写っている可能性は低いため、同一の画像に写っている確率は、“0.01”となる。式で表すと、次式(2)のようになる。
P(友人A、同僚C)= P(同僚C、友人A)=0.01 ・・・(2)
このように、物体認識用テーブル61には、同一の画像に写っている可能性のある人物同士は、高い確率値が記載されており、同一の画像に写っている可能性が低い人物同士は、低い確率値が記載されている。
すなわち、換言するならば、物体認識用テーブル61は、人が一般的に地域のコミュニティー、趣味のグループ、職場などの複数の人間関係のグループに属していることを利用したテーブルである。そして、同一のグループに属している人間とは、同じ時間を共有する場合が多く、そのようなことが数値化され、記載されているのが、物体認識用テーブル61である。
このような物体認識用テーブル61は、デジタルスチルカメラなどで撮影された画像の整理などのときの、画像認識に用いられて有効なテーブルである。
例えば、友人Bと同僚Cの顔がよく似ているとする。このようなとき、友人Aが写っている画像Aに友人Bか同僚Cかの判別が難しい人物が写っていたとする。上記したコンテキストパラメータ(例えば、物体認識用テーブル61)から友人Aと友人Bが一緒に写っている確率は、“0.3”程度、友人Aと同僚Cが一緒に写っている確率は“0.01”程度であることがわかる。
このような物体認識用テーブル61に記載されている確率値を、合わせて利用して認識すれば、この人物は友人Bであると認識することができ、ユーザ側に誤った認識結果を提供してしまうようなことを防ぐことが可能となる。
また、例えば、画像Aには、同僚Cと認識される領域(画像)があるような場合、友人Aと同僚Cが同一の画像に写っている可能性は低く(この場合、0.01程の確率)、このような確率値を合わせて利用すれば、友人Aが写っている画像に同僚Cも写っているという誤った認識結果が、ユーザ側に提供されるような可能性を低くすることができる
人だけでなく、物の場合にも同様のことがいえる。すなわち、図2に示したように、例えば、一般的に野球のグローブとバットは同一の画像に写っている可能性が高いが、野球のグローブとゴルフクラブが同一の画像に写っている可能性は低いと考えられる。そのような物と物との関連性(同一の画像に写っている可能性を示す確率値)も、図2に示したような物体認識用テーブル61には記載されている。
さらに、図2に示した物体認識用テーブル61には、人と物との関係についても記載されている。例えば、友人Aがゴルフを好きであれば、友人Aが写っている画像には、ゴルフクラブも写っている可能性が高くなり、友人Aがゴルフを好きでなければ、友人Aが写っている画像にゴルフクラブも写っている可能性は低くなる。このような人と物との関連性(同一の画像に写っている可能性を示す確率値)も、図2に示したような物体認識用テーブル61には記載されている。
なお、図2に示した物体認識用テーブル61は、全ての欄に数値(確率値)が記載されている例を示したが、例えば、“友人A”と“友人B”が同一の画像に写っている確率と、“友人B”と“友人A”が同一の画像に写っている確率は、同一値である(式(1)や式(2)では、そのことを示している)。すなわち、図2に示した物体認識用テーブル61の右上と左下とでは対称になっているので、どちらか一方のみ記載されていればよい。
図3に示したテーブルは、主に、動作認識部13のマッチング部33に供給され、一連の動作が起こりえる確率を示したテーブルである。以下、図3に示したテーブルを、動作認識用テーブル62と記述する。
動作認識用テーブル62には、例えば、フレームイン(ビデオカメラなどで撮影されている画枠に、人物などが入ってきたことを意味する)したあとに、そのフレームインした物体(人)が、ソファーに座る確率(例えば、図3においては“0.4”)が記載されている。このことを式で表すと、次式(3)のようになる。
p(ソファーに座る|フレームイン)=0.4 ・・・(3)
式(1)乃至(3)においてP(A|B)は、条件Bが発生した場合における条件Aが発生する確率を示している。よって、式(3)は、“フレームイン”という条件が発生した後に、フレームインしてきた人物が、“ソファーに座る”という条件が発生する確率は、“0.4”であることを示している。また、このような確率値(一連の動作が連続して起こる確率)は、たとえば、N−gramで近似された値を用いることができる。
図3に示した動作認識用テーブル62には、“行”に記載されている項目が先に行われ、“列”に記載されている項目が次に行われるときの確率値が記載されている。よって、例えば、“ソファーに座る”という項目が行われた(条件が発生した)後に、“フレームイン”するという項目が行われる(条件が発生する確率)は、次式(4)に示すように、“0.0”となる。
p(フレームイン|ソファーに座る)=0.0 ・・・(4)
すなわち、このような場合、ソファーに座っている人物は、既に、フレームインしている状態であるので、ソファーに座った後に、フレームインするという状況が発生することはないため、そのような一連の動作の確率値は“0.0”となる。
このように、図3に示した動作認識用テーブル62には、Aという行動が行われた後に、Bという行動が行われる(一連の動作が実行される)確率値が記載されている。よって、図3に示した動作認識用テーブル62は、図2に示した物体認識用テーブル61とは異なり、動作認識用テーブル62中の右上と左下は、対称ではない。
換言すれば、動作認識用テーブル62における確率値は、p(A|B)と表され、条件Bが発生するという条件下における条件Aが生起する条件付確率を表し、この場合は、動作Bという動作が行われてから、動作Aという動作が行われる確率を表す。よって、式(3)と式(4)に示したように、行動の前後が入れ替われば、その確率値も異なる値となる。
このような動作認識用テーブル62は、ユーザの一連の動作を認識し、1つ1つの動作を認識する際の認識精度を高めるためのテーブルとして、有効なテーブルである。例えば、従来は、1つ1つの動作を判断し、その判断に基づき、1つ1つの動作を認識していたため、例えば、“ソファーに座る”という動作が認識された後、そのソファーに座るという動作と関係なく次の動作が判断されたため、“フレームインする”といった動作が、“ソファーに座る”という動作が認識された後に認識されることがあった。
このようなことは、上記したように、実際には発生することのない動作の順序であると考えられる。よって、従来のように、動作を1つ1つ認識すると、このような“ソファーに座った”後に“フレームインした”といった誤った認識結果が、ユーザに提供されてしまうことがあった。
これに対し、動作認識用テーブル62を設け、動作認識用テーブル62も、認識の処理の際に用いられるようにすれば、“ソファーに座った”後に“フレームインした”と認識される確率は、式(4)に示したように、“0.0”であるので、そのような動作の流れは発生しないと判断され、誤った認識結果がユーザに提供されるようなことを防ぐことが可能となる。
また、複数の動作が行われた間の時間差に基づいてコンテキストパラメータに重み付けを行うことも可能である。例えば、実際に利用するコンテキストパラメータP’を、テーブルに保持しているPの値から次式のように算出する。
P'(ソファーに座る|フレームイン) = α(t) P(ソファーに座る|フレームイン)
この式において、α(t)は2つの動作の間の時間差tに対して単調に減少する関数で、これは時間差tが小さい、すなわち2つの動作の時間間隔が近接している場合に重み付けが相対的に大きくなるようにすることを表す。このような重み付けを行うのは、時間差が小さいような画像同士は、関連性が高いと考えられるからである。
このようなテーブルは、事前の学習により作成されたり、ユーザ側で利用されているときの学習により作成されたりする。
例えば、物体認識用テーブル61における物と物とに関する確率値や、動作認識用テーブル62の一連の動作が連続して起こる確率に関する確率値は、事前に収集された大量のデータを分析することにより、算出することが可能である。よって、そのような事前に算出された確率値を記載することにより、テーブルを作成することが可能である。
また、例えば、物体認識用テーブル61における人と人、人と物とに関する確率値は、利用するユーザにより異なる(ユーザに依存する)ため、ユーザ側で利用されているときの学習により作成されることが好ましい。よって、図6のフローチャートを参照して説明するように、物体認識用テーブル61の一部は、ユーザ側で利用されるときの学習により作成されるようにする。
なお、既存のデータを用いて作成されたテーブルも、利用するユーザ側の嗜好などが反映された方が良いので、後述する学習が行われるようにしてももちろん良い。
このようなテーブルを、コンテキストパラメータ保持部42に有する図1に示した画像処理装置の動作について説明する。
図4は、図1に示した画像処理装置が、所定の物体や動作を認識する際の処理について説明するフローチャートである。
ステップS11において、画像入力部11(図1)は、処理対象となる画像(画像データ:以下、画像との表記は、特に断りがなければ、画像データ(画像を表示させるための元となるデータ)の意味を含むとする)を入力する。画像入力部11に入力された画像は、物体抽出部12の領域抽出部21と動作認識部13の領域抽出部31に供給される。
なお、図1の構成の説明をしたときに説明したように、物体認識部12と動作認識部13は、基本的に同様の構成を有し、同様の処理の流れであるので、以下の説明においては、物体認識部12における処理を例に挙げて説明をし、適宜、異なる処理があるときには、動作認識部13における処理についても説明を加える。
ステップS12において、領域抽出部21は、供給された画像から、認識対象となる領域を抽出する。例えば、認識対象となるのが、顔である場合、供給された画像から、顔と判断される領域が抽出される。1つの画像から複数の領域が抽出されても勿論良い。抽出された領域(その領域の画像)は、画像特徴抽出部22に供給される。
ステップS13において、画像特徴抽出部22は、供給された領域内の画像から、特徴量を抽出する。抽出された特徴量は、マッチング部23に供給される。抽出される特徴量やその特徴量の抽出の仕方は、マッチング部23によるマッチングの処理に依存する。また、マッチング部23は、マッチングの処理を行う際、画像パラメータ保持部24に保持されているパラメータやコンテキストパラメータ保持部42に保持されているパラメータも用いるが、これらのパラメータも、マッチングの処理に依存する。
マッチング部23によるマッチングの処理(画像認識モデル)としては、例えば、HMM(Hidden Markov Model)やSVM(Support Vector Machine)など、認識対象に適した方式が用いられる。そして、その用いられる方式に適した特徴量が抽出され、パラメータが保持される。
ステップS14において、マッチング部23は、全ての対象領域の組み合わせについて、認識モデルスコアと、コンテキストスコアを統合したスコアを計算する。例えば、領域抽出部21で、領域A、領域B、および領域Cという3つの領域が抽出されたとする。この場合、全ての対象領域の組み合わせとは、“領域Aと領域B”、“領域Aと領域C”、“領域Bと領域C”という組み合わせである。
認識モデルのスコアとは、画像パラメータ保持部24に保持されているパラメータであり、コンテキストスコアとは、コンテキストパラメータ保持部42に保持されているパラメータのことである。上記したように、物体認識部12において物体を認識する場合、コンテキストパラメータ保持部42に保持されている図2に示したような物体認識用テーブル61が参照される。
Iを、マッチング部23に入力された特徴量とし、Oを、認識対象となる物体のパラメータを示すとした場合、ベイズ則より、マッチング部23は、次式(5)に基づいた演算を行う。
P(O|I) = P(I|O)P(O)/P(I) ・・・(5)
式(5)において、P(I|O)は画像パラメータ保持部24が保持するパラメータを利用して画像認識モデルに基づいて計算される条件付確率を示す。この項から算出される値(スコア)を、画像スコアと記述する。
また、式(5)において、P(O)はコンテキストパラメータ保持部42が保持するパラメータに基づいた、認識対象が出現する事前確率となる。すなわち、P(O)は、静止画像や動画像の画像内(フレーム内)、画像間(フレーム間)の共起、連鎖確率から計算されるスコアであり、ここでは、コンテキストスコアと記述する。
式(5)において、P(I)は実際にマッチング部23で計算を行うときには、無視しても良い。すなわち、式(5)は次式(5)’のようにし、P(I|O)P(O)の尤度が高くなるものをマッチング処理(スコアの演算)結果として出力するようにしても良い。
P(O|I) = P(I|O)P(O)・・・(5)’
なお、従来は、画像パラメータ保持部24で保持されているパラメータのみが用いられてマッチングの処理が行われていたため、P(I|O)の項に関する演算だけが行われていた(画像スコアのみが演算されていた)。すなわち、事前に画像パラメータ保持部24に、認識対象の画像(物体)として登録されているパラメータのみが用いられてマッチングが行われていた。
本実施の形態においては、マッチング部23は、式(5)または式(5)’に示すように、P(I|O)にP(0)を乗算して、マッチングを行うようにしている。このP(O)は、上記したように、静止画像や動画像のフレーム内、フレーム間の共起、連鎖確率から計算されるスコアである。このようなスコア(コンテキストスコア)を乗算することにより、1枚の画像内に写っている可能性が高い物体同士や、時間的に隣接する画像間で写っている可能性が高い物体同士などの情報も用いてマッチングを行うことが可能となる。
よって、マッチングの精度(認識精度)を高めることが可能となる。
また、式(5)は、次式(6)のにしても良い(次式(6)に基づいてマッチング処理に係わる演算が行われるようにしても良い)。
logP = logP(I|O) + αlogP(O) ・・・(6)
式(6)も、画像スコアとコンテキストスコアを統合したスコア(統合スコア)を演算するための式であるが、重み付けも行われるような演算とされている。式(6)において、Pは、統合スコアを示し、αは重み付けの値を示す。P(I|O)やP(O)は、式(5)と同等の意味である。
動作認識部13のマッチング部33も、物体認識部12のマッチング部23と同様の処理を行う。ただし、マッチング部33は、動作を認識するため、P(O)を算出する際、コンテキストパラメータ保持部42に保持されている図3に示したような動作認識用テーブル62を参照し、動作に関するマッチングを行う。
また、動作認識用テーブル62は、所定の動作(第1の動作とする)が行われた後に、他の所定の動作(第2の動作とする)が行われる確率値が記載されているテーブルである。そのようなテーブルを用いるためにマッチング部33は、第1の動作に関する情報を取得する必要がある。そのために、第1の動作に関する情報(第2の動作を認識する前の時点で認識された動作に関する情報)は、動的コンテキスト保持部41に保持されている。
動的コンテキスト保持部41には、出力部15からの出力が供給される。すなわち、動作認識部13により認識された動作に関する情報は、動的コンテキスト保持部41にも、出力部15を介して供給され、保持される。そして、マッチング部33は、動作認識用テーブル62を参照するとき、動的コンテキスト保持部41に保持されている第1の動作の情報を参照し、その第1の動作に係わるコンテキストパラメータを動作認識用テーブル62から読み出す。そして、マッチング部33は、その読み出したコンテキストパラメータを用いてマッチングの処理(第2の動作の認識処理)を実行する。
マッチング部23(マッチング部33)は、算出したスコアを、一時的に保持し、マッチングの処理が終了した時点で、最も高い値を有するスコアを選択する。選択されたスコアを有する組み合わせは、ステップS15において、出力部15に供給され、さらに、後段の処理(不図示)に対して出力される。
このようにして、認識処理が実行される。
図5のフローチャートを参照し、他の認識処理について説明する。図4のフローチャートを参照して説明した認識処理においては、ステップS14において、全ての対象領域の組み合わせについて、画像スコアとコンテキストスコアを統合した統合スコアが計算されるようにした。
これに対し、図5のフローチャートを参照して説明する認識処理は、全ての組み合わせに対して統合スコアを算出するのではなく、認識対象とされる物体や動作を確定することができない領域に対して、認識対象であるか否かを確定するために統合スコアが算出されるようにする。
ステップS31において、個別に認識結果が算出される。個別に認識結果が算出されるとは、まず、領域抽出部21により、画像入力部11から供給された画像内から、認識対象となる領域が抽出される。領域抽出部21により抽出された領域(領域内の画像データ)は、画像特徴抽出部22に供給される。
画像特徴抽出部22は、供給された領域内の画像から、特徴量を抽出し、マッチング部23に供給する。ここまでの処理は、基本的に、図4を参照して説明した処理と同様に行われる。マッチング部23は、画像パラメータ保持部24に保持されているパラメータを用いてマッチングの処理を実行する。このマッチングの処理は、P(O)を各認識対象に対して等確率であるとして無視し、次式(7)に基づいてスコアを算出することにより行われる。
P(O|I) = P(I|O)・・・(7)
このようにして算出されたスコア(この場合、画像スコア)が用いられ、ステップS32における判断が実行される。すなわち、ステップS32において、マッチング部23は、画像スコアが閾値を超えた認識結果があるか否かを判断する。
すなわち、予め登録されている認識対象(画像パラメータ保持部24にパラメータが保持されている認識対象)となる物体が、供給された画像内に存在するか否かの判断が行われる。予め登録されている認識対象が、検出された領域内に存在すると判断され、その判断は、正しいとされるのは、算出されたスコアが閾値以上である場合である。
よって、そのような場合、すなわち、ステップS32において、閾値を超えた認識結果があると判断された場合、ステップS33に処理が進められ、その閾値を越えたものを認識結果として確定し、認識対象から外すという処理が実行される。
ステップS34において、残りの領域に対して画像スコアが計算される。ただし、ステップS31において、個別の領域に対する認識処理を実行するときに、画像スコアは算出されているため、その算出されている画像スコアを、ステップS34の処理に用いても良い。
ステップS35において、確定済(ステップS33に処理が進められたときに、認識対象から外された領域)も含めて、全ての組み合わせに対してコンテキストスコアが計算される。この際、コンテキストスコアとして計算されるのは、確定済みの領域があった場合、その領域(物体や動作)に係わるコンテキストスコアのみが計算されるようにしても良い。
例えば、領域A、領域B、領域Cが抽出されている場合、“領域Aと領域B”、“領域Aと領域C”、“領域Bと領域C”という組み合わせが考えられ、全ての組み合わせに対して、コンテキストスコアを計算するときには、この3組に関するコンテキストスコアが計算されることになる。ここで、領域Aが確定済みの領域であるとすると、“領域Aと領域B”、“領域Aと領域C”という2つの組み合わせに関するコンテキストスコアが計算されるようにしても良い。
ステップS36において、総合スコアが最大となる組み合わせが探索される。すなわち、ステップS34とステップS35における処理の結果が用いられ、式(5)や式(6)に基づく演算が行われることにより、総合スコアが計算される。その結果、最も高い総合スコアの値を有する認識結果が、ステップS37において確定される。
このようにして、画像スコアで確定できる領域は、認識結果として確定してしまい、その確定済みの結果も用いて、コンテキストスコアや総合スコアを計算することにより、スコアに関する計算を、図4のフローチャートの処理を実行したときよりも低減させることが可能となり、かつ、図4のフローチャートの処理を実行したときと同等に認識精度を向上させることが可能となる。
ところで、上記したように、本実施の形態においては、コンテキストスコア(図2に示した物体認識用テーブル61や図3に示した動作認識用テーブル62)が用いられて、認識処理が実行されるが、その認識処理に用いられるテーブル自体の精度が悪ければ、その認識精度も低下してしまう可能性がある。また、上記したように、例えば、人と人とに係わる確率値などは、ユーザ毎に異なるため、そのような確率値を事前に計算し、テーブルに記載しておくことは難しい。
そこで、次に、物体認識用テーブル61や動作認識用テーブル62の作成(学習)に係わる処理について、図6のフローチャートを参照して説明する。
ステップS51において、画像中の登録対象領域が選択される。この選択自体は、ユーザが登録したい物体が写っている画像(その画像内の物体が写っている領域)を選択することにより行われ、その選択された情報が供給されることにより、ステップS51における処理が行われる。
例えば、ディスプレイ(不図示)に表示されている画像内で、領域抽出部21により抽出された領域が、四角などで囲まれて表示され、その囲まれた領域のうちの1つをユーザが選択できるような機能を設ける。そして、ユーザにより選択された領域に関する情報が、ステップS51において取得される。
ステップS52において、選択領域の画像パラメータが抽出される。この抽出は、例えば、画像特徴抽出部22が、選択された領域の画像から、特徴量(パラメータ)を抽出することにより行われる。抽出されたパラメータは、ステップS53において、画像パラメータ保持部24に供給され、保持される。
このようにして、ユーザが登録させたい(認識させたい)物体が、登録される。この処理が行われた後は、その新たに登録された物体も、検出対象(認識対象)とされる。すなわち、図4や図5のフローチャートを参照して説明した認識処理において、認識結果としえ、ユーザ側に提供される情報の1つとされる。
次に、ステップS54において、パラメータが登録された物体(以下、適宜、登録物体と記述する)が写っている画像(静止画像や動画像)が読み出される。例えば、ユーザにより撮影され、所定の記録媒体に記録されている画像が読み出され、読み出された画像に、登録物体が写っているか否かが判断される。
この判断は、領域抽出部21、画像特徴抽出部22、マッチング部23、および画像パラメータ保持部24による処理により行われる。例えば、図5のフローチャートのステップS31の処理と同様の処理により行うことが可能である。
そして、登録物体が写っていると判断された画像は、一旦保持される。ステップS55において、保持された画像から、コンテキストパラメータが抽出される。すなわち、保持されている画像には、登録物体が写っており、その登録物体と同一画像に写っている物体を検出し、その検出された物体とのコンテキストパラメータが抽出される。
コンテキストパラメータの抽出は、全ての可能な組み合わせ数え上げ、それらの共起確率や連鎖確率を計算することにより行われる。しかしながら、学習に利用できる画像の数は限られているので、全ての可能な組み合わせに対して正しい確率値を求めることは困難である。そこで例えば、他の組み合わせの確率の一部をディスカウントし、存在しなかった組み合わせに対して、その個別の物体の出現回数に応じて配分するといった簡易的な方法で、確率値を求めるようにしても良い。
また、本実施の形態においては、時間的に前後に位置する画像同士の関係もコンテキストパラメータとして保持する。そのような複数枚の画像に係わる共起確率をコンテキストパラメータとして用いることも可能で、例えば、次式(8)により算出される。
P(X)=(1−α(t))p(A,X)+α(t)p(B,X) ・・・(8)
式(8)において、α(t)は、重み付けの係数であり、例えば、2枚の画像の撮影時刻の差分(時間差t)に応じた値とされる。すなわち、時間差tが小さい場合、換言すれば、2枚の撮影時刻が近接している場合(連続して撮影されたような場合)、α(t)の値は、0.5に近い値とされる。逆に、時間差tが大きい場合、α(t)の値は、0に近い値とされる。
このような重み付けを行うのは、時間差が小さいような画像同士は、関連性が高いと考えられるからである。
このようにして、コンテキストパラメータ(確率値)が求められる。
ステップS56において、求められたコンテキストパラメータにより、コンテキストパラメータ保持部42に保持されているテーブル(この場合、図2に示した物体認識用テーブル61と図3に示した動作認識用テーブル62)が更新される。
ステップS57において、指定回数、上記したような処理が実行されたか否かが判断される。ステップS57において、指定回数繰り返されていないと判断された場合、ステップS54に処理が戻され、それ以降の処理が繰り返され、指定回数繰り返されたと判断された場合、図6に示したフローチャートに基づく、学習処理が終了される。
このように複数回数処理を繰り返すことによって、より精緻化されたコンテキストパラメータを利用して、学習用画像データを再認識することが可能となり、より精度の高い認識制度、ひいては精度の高いコンテキストパラメータを得ることが可能となる。
このように、ユーザが登録させたい物体(認識させたい物体)が登録され、その登録された物体に関するコンテキストパラメータが更新される。このような更新(学習)が行われることにより、コンテキストパラメータ保持部42に保持されるテーブルを、適切なものとすることが可能となり、そのような適切なテーブルを用いて実行される認識処理は、適切な認識結果を出せるようになる。
このように、コンテキストパラメータを用いた認識処理を実行することにより、その認識精度を向上させることが可能となる。
[記録媒体について]
図7は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成の例を示すブロック図である。CPU(Central Processing Unit)101は、ROM(Read Only Memory)102、または記憶部108に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)103には、CPU101が実行するプログラムやデータなどが適宜記憶される。これらのCPU101、ROM102、およびRAM103は、バス104により相互に接続されている。
CPU101にはまた、バス104を介して入出力インターフェース105が接続されている。入出力インターフェース105には、キーボード、マウス、マイクロホンなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107が接続されている。CPU101は、入力部106から入力される指令に対応して各種の処理を実行する。そして、CPU101は、処理の結果を出力部107に出力する。
入出力インターフェース105に接続されている記憶部108は、例えばハードディスクからなり、CPU101が実行するプログラムや各種のデータを記憶する。通信部109は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
また、通信部109を介してプログラムを取得し、記憶部108に記憶してもよい。
入出力インターフェース105に接続されているドライブ110は、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどのリムーバブルメディア111が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部108に転送され、記憶される。
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム格納媒体からインストールされる。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム格納媒体は、図7に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini-Disc)を含む)、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア111、または、プログラムが一時的もしくは永続的に格納されるROM102や、記憶部108を構成するハードディスクなどにより構成される。プログラム格納媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインターフェースである通信部109を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、プログラム格納媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
本発明を適用した画像処理装置の一実施の形態の構成を示す図である。 物体認識用テーブルについて説明する図である。 動作認識用テーブルについて説明する図である。 認識処理について説明するフローチャートである。 他の認識処理について説明するフローチャートである。 学習処理について説明するフローチャートである。 記録媒体について説明するための図である。
符号の説明
11 画像入力部, 12 物体認識部, 13 動作認識部, 14 コンテキスト処理部, 15 出力部, 21 領域抽出部, 22 画像特徴抽出部, 23 マッチング部, 24 画像パラメータ保持部, 31 領域抽出部, 32 画像特徴抽出部, 33 マッチング部, 34 画像パラメータ保持部, 41 動的コンテキスト保持部, 42 コンテキストパラメータ保持部

Claims (4)

  1. 処理対象とされる画像内から、認識対象が存在する可能性のある領域を抽出する領域抽出手段と、
    前記領域抽出手段により抽出された領域毎に特徴量を抽出する特徴量抽出手段と、
    全ての前記領域の組み合わせについて、画像スコアと、コンテキストスコアを統合したスコアを計算する計算手段と、
    前記画像スコアである前記認識対象に関するパラメータを保持するパラメータ保持手段と、
    前記コンテキストスコアである前記認識対象に関するコンテキストを保持するコンテキスト保持手段と
    を備え、
    前記コンテキストは、複数の認識対象間の同時刻における画像中の異なる領域から検出された認識対象間の共起確率であり、
    前記計算手段は、前記画像スコアを利用した確率と、前記コンテキストスコアを利用した確率を乗算することで前記スコアを計算し、
    前記スコアの高い前記組み合わせを選択することで、認識処理を実行する
    画像処理装置。
  2. 前記認識対象がユーザにより新たに設定された場合、新たに設定された認識対象が存在する画像を、記憶されている複数の画像内から読み出し、
    読み出された画像内に他の認識対象があるか否かを判断し、
    その判断結果に基づいて、新たに設定された前記認識対象と前記画像内の前記他の認識対象との共起確率を算出し、前記コンテキスト保持部に保持されている新たに設定された認識対象に関するコンテキストを更新する
    請求項1に記載の画像処理装置。
  3. 領域抽出手段、特徴量抽出手段、計算手段、パラメータ保持手段、およびコンテキスト保持手段を備える画像処理装置の画像処理方法において、
    前記領域抽出手段が、処理対象とされる画像内から、認識対象が存在する可能性のある領域を抽出し、
    前記特徴量抽出手段が、抽出された前記領域毎に特徴量を抽出し、
    前記計算手段が、全ての前記領域の組み合わせについて、画像スコアと、コンテキストスコアを統合したスコアを計算し、
    前記パラメータ保持手段が、前記画像スコアである前記認識対象に関するパラメータを保持し、
    前記コンテキスト保持手段が、前記コンテキストスコアである前記認識対象に関するコンテキストを保持する
    ステップを含み、
    前記コンテキストは、複数の認識対象間の同時刻における画像中の異なる領域から検出された認識対象間の共起確率であり、
    前記計算手段が、前記画像スコアを利用した確率と、前記コンテキストスコアを利用した確率を乗算することで前記スコアを計算し、
    前記スコアの高い前記組み合わせが選択されることで、認識処理を実行する
    画像処理方法。
  4. 領域抽出手段、特徴量抽出手段、計算手段、パラメータ保持手段、およびコンテキスト保持手段を備える画像処理装置に、
    前記領域抽出手段が、処理対象とされる画像内から、認識対象が存在する可能性のある領域を抽出し、
    前記特徴量抽出手段が、抽出された前記領域毎に特徴量を抽出し、
    前記計算手段が、全ての前記領域の組み合わせについて、画像スコアと、コンテキストスコアを統合したスコアを計算し、
    前記パラメータ保持手段が、前記画像スコアである前記認識対象に関するパラメータを保持し、
    前記コンテキスト保持手段が、前記コンテキストスコアである前記認識対象に関するコンテキストを保持する
    ステップを含む処理を実行させ、
    前記コンテキストは、複数の認識対象間の同時刻における画像中の異なる領域から検出された認識対象間の共起確率であり、
    前記計算手段が、前記画像スコアを利用した確率と、前記コンテキストスコアを利用した確率を乗算することで前記スコアを計算し、
    前記スコアの高い前記組み合わせが選択されることで、認識処理を実行する
    処理を実行させるコンピュータが読み取り可能なプログラム。
JP2005361347A 2005-12-15 2005-12-15 画像処理装置および方法、並びにプログラム Expired - Fee Related JP4640155B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2005361347A JP4640155B2 (ja) 2005-12-15 2005-12-15 画像処理装置および方法、並びにプログラム
EP06256256A EP1798666A1 (en) 2005-12-15 2006-12-08 image processing apparatus, method and programproduct
US11/638,013 US7907751B2 (en) 2005-12-15 2006-12-13 Image processing apparatus, method, and program
KR1020060127643A KR20070064269A (ko) 2005-12-15 2006-12-14 화상 처리 장치 및 방법, 및 프로그램
CNB2006101669719A CN100545859C (zh) 2005-12-15 2006-12-15 图像处理设备、方法及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005361347A JP4640155B2 (ja) 2005-12-15 2005-12-15 画像処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2007164560A JP2007164560A (ja) 2007-06-28
JP4640155B2 true JP4640155B2 (ja) 2011-03-02

Family

ID=37891793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005361347A Expired - Fee Related JP4640155B2 (ja) 2005-12-15 2005-12-15 画像処理装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US7907751B2 (ja)
EP (1) EP1798666A1 (ja)
JP (1) JP4640155B2 (ja)
KR (1) KR20070064269A (ja)
CN (1) CN100545859C (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2913510B1 (fr) * 2007-03-07 2009-07-03 Eastman Kodak Co Procede pour determiner automatiquement une probabilite de saisie d'images avec un terminal a partir de donnees contextuelles
JP4924886B2 (ja) * 2007-03-22 2012-04-25 日本電気株式会社 映像図形文字認識システム、映像図形文字認識方法および映像図形文字認識用プログラム
JP4755632B2 (ja) * 2007-08-15 2011-08-24 ヤフー株式会社 アイテム認識装置及びアイテム認識方法
JP4962961B2 (ja) * 2007-08-15 2012-06-27 ヤフー株式会社 空間共起辞書作成装置及び空間共起辞書作成方法
NO331287B1 (no) 2008-12-15 2011-11-14 Cisco Systems Int Sarl Fremgangsmate og anordning for gjenkjenning av ansikter i en videostrom
JP2010231256A (ja) * 2009-03-25 2010-10-14 Hitachi Ltd データ認識装置、データ認識方法及びプログラム
JP5662670B2 (ja) * 2009-10-27 2015-02-04 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP4661980B2 (ja) * 2009-12-09 2011-03-30 カシオ計算機株式会社 画像認識装置およびプログラム
JP5423566B2 (ja) * 2010-04-28 2014-02-19 富士通株式会社 対象物検出装置、対象物検出方法、及びプログラム
JP5742267B2 (ja) 2011-02-08 2015-07-01 富士ゼロックス株式会社 画像処理プログラム及び画像処理装置
US9058806B2 (en) 2012-09-10 2015-06-16 Cisco Technology, Inc. Speaker segmentation and recognition based on list of speakers
US8886011B2 (en) 2012-12-07 2014-11-11 Cisco Technology, Inc. System and method for question detection based video segmentation, search and collaboration in a video processing environment
JP2015005172A (ja) * 2013-06-21 2015-01-08 ソニー株式会社 情報処理装置、情報処理システム、及びプログラムを記憶した記憶媒体
CN105593901B (zh) 2013-06-28 2020-06-12 日本电气株式会社 训练数据生成设备、方法和程序以及人群状态识别设备、方法和程序
JP6255944B2 (ja) 2013-11-27 2018-01-10 株式会社リコー 画像解析装置、画像解析方法及び画像解析プログラム
JP6320112B2 (ja) * 2014-03-27 2018-05-09 キヤノン株式会社 情報処理装置、情報処理方法
US10474949B2 (en) 2014-08-19 2019-11-12 Qualcomm Incorporated Knowledge-graph biased classification for data
US9576203B2 (en) 2015-04-29 2017-02-21 Canon Kabushiki Kaisha Devices, systems, and methods for knowledge-based inference for material recognition
EP3357019A4 (en) * 2015-09-30 2019-03-27 The Nielsen Company (US), LLC. INTERACTIVE EXAMINATION OF PRODUCTS WITH A MOBILE DEVICE
EP3196785B1 (en) * 2016-01-20 2021-12-08 Ricoh Company, Ltd. Information processing system and information processing method
JP6942464B2 (ja) * 2016-12-09 2021-09-29 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
KR101932008B1 (ko) * 2017-12-29 2018-12-24 (주)제이엘케이인스펙션 영상의 특징 및 맥락에 기초한 영상 분석 장치 및 방법
TWI649697B (zh) * 2018-03-14 2019-02-01 群光電能科技股份有限公司 影像辨識模組擴充盒及其擴充使用方法
JP7119912B2 (ja) * 2018-10-31 2022-08-17 富士通株式会社 行動認識方法、行動認識プログラムおよび行動認識装置
US11158100B2 (en) * 2019-02-13 2021-10-26 Adobe Inc. Automatic generation of context-aware composite images

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219703A (ja) * 1994-02-03 1995-08-18 Canon Inc ジェスチャー入力方法及びその装置
JPH0934863A (ja) * 1995-07-14 1997-02-07 Hitachi Ltd ニューラルネットワークによる情報統合処理方法
JPH11175665A (ja) * 1997-12-16 1999-07-02 Hitachi Software Eng Co Ltd 文字認識後処理装置
JP2000311180A (ja) * 1999-03-11 2000-11-07 Fuji Xerox Co Ltd 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
JP2003216955A (ja) * 2002-01-23 2003-07-31 Sharp Corp ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
JP2005196750A (ja) * 2003-12-12 2005-07-21 Mitsubishi Electric Research Laboratories Inc 映像の構造を学習する方法
JP2005339000A (ja) * 2004-05-25 2005-12-08 Casio Comput Co Ltd 画像認識装置およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
JP3288474B2 (ja) * 1993-03-31 2002-06-04 富士通株式会社 画像処理装置
US6819783B2 (en) 1996-09-04 2004-11-16 Centerframe, Llc Obtaining person-specific images in a public venue
US6643400B1 (en) * 1999-03-31 2003-11-04 Minolta Co., Ltd. Image processing apparatus and method for recognizing specific pattern and recording medium having image processing program recorded thereon
US6611622B1 (en) * 1999-11-23 2003-08-26 Microsoft Corporation Object recognition system and process for identifying people and objects in an image of a scene
US7340079B2 (en) * 2002-09-13 2008-03-04 Sony Corporation Image recognition apparatus, image recognition processing method, and image recognition program
JP2004145416A (ja) 2002-10-22 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> 画像認識用サーバ、画像認識用携帯端末装置、画像認識方法、画像認識用プログラム、画像認識用プログラムを記録した記録媒体
JP2005039354A (ja) 2003-07-16 2005-02-10 Matsushita Electric Ind Co Ltd メタデータ入力方法と編集システム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07219703A (ja) * 1994-02-03 1995-08-18 Canon Inc ジェスチャー入力方法及びその装置
JPH0934863A (ja) * 1995-07-14 1997-02-07 Hitachi Ltd ニューラルネットワークによる情報統合処理方法
JPH11175665A (ja) * 1997-12-16 1999-07-02 Hitachi Software Eng Co Ltd 文字認識後処理装置
JP2000311180A (ja) * 1999-03-11 2000-11-07 Fuji Xerox Co Ltd 特徴セット選択方法、ビデオ画像クラス統計モデルの生成方法、ビデオフレームの分類及びセグメント化方法、ビデオフレームの類似性決定方法、およびコンピュータ可読媒体、並びにコンピュータシステム
JP2003216955A (ja) * 2002-01-23 2003-07-31 Sharp Corp ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
JP2005196750A (ja) * 2003-12-12 2005-07-21 Mitsubishi Electric Research Laboratories Inc 映像の構造を学習する方法
JP2005339000A (ja) * 2004-05-25 2005-12-08 Casio Comput Co Ltd 画像認識装置およびプログラム

Also Published As

Publication number Publication date
CN100545859C (zh) 2009-09-30
US20070160294A1 (en) 2007-07-12
US7907751B2 (en) 2011-03-15
CN1983303A (zh) 2007-06-20
KR20070064269A (ko) 2007-06-20
JP2007164560A (ja) 2007-06-28
EP1798666A1 (en) 2007-06-20

Similar Documents

Publication Publication Date Title
JP4640155B2 (ja) 画像処理装置および方法、並びにプログラム
CN108256433B (zh) 一种运动姿态评估方法及系统
Mao et al. Generation and comprehension of unambiguous object descriptions
CN105005777B (zh) 一种基于人脸的音视频推荐方法及系统
JP5106271B2 (ja) 画像処理装置、画像処理方法、及びコンピュータプログラム
JP2006172437A (ja) データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置
US9110501B2 (en) Method and apparatus for detecting talking segments in a video sequence using visual cues
JP2007272896A (ja) 適応型文脈支援による人間分類を行うためのデジタル画像処理方法および装置
CN104487915A (zh) 维持扩增的连续性
CN101853391A (zh) 信息处理设备和方法、程序及记录介质
JP2012208710A (ja) 属性推定装置
WO2018196718A1 (zh) 图像消歧方法、装置、存储介质和电子设备
CN111161314B (zh) 目标对象的位置区域确定方法、装置、电子设备及存储介质
JP6850751B2 (ja) 物体追跡装置、物体追跡方法、及びコンピュータプログラム
CN113052061A (zh) 一种基于人体姿态估计的速度滑冰运动员动作识别方法
JP2005208850A (ja) 顔画像認識装置及び顔画像認識プログラム
JP7438690B2 (ja) 情報処理装置、画像認識方法及び学習モデル生成方法
JP7370050B2 (ja) 読唇装置及び読唇方法
CN113591731B (zh) 一种基于知识蒸馏的弱监督视频时序行为定位方法
JP2021177312A (ja) 情報処理装置、情報処理方法
JP4449483B2 (ja) 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
JP2022013256A (ja) キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム
Taranta II et al. Machete: Easy, efficient, and precise continuous custom gesture segmentation
JP7216175B1 (ja) 画像解析システム、画像解析方法およびプログラム
KR20200018341A (ko) 유전자 정보를 이용한 얼굴 재현 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees