JP6963352B2

JP6963352B2 - 物体状況判断システム、物体状況判断方法、およびプログラム

Info

Publication number: JP6963352B2
Application number: JP2020547731A
Authority: JP
Inventors: 俊二菅谷
Original assignee: Optim Corp
Current assignee: Optim Corp
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2021-11-05
Anticipated expiration: 2038-09-27
Also published as: US20210311986A1; JPWO2020065839A1; WO2020065839A1; US11210335B2; CN113646800A

Description

本発明は、画像内の物体の状況を推測することが可能な物体状況判断システム、物体状況判断方法、およびプログラムに関する。

全体画像から頭部候補領域を検出することで、移動している人物や車両等の複数の移動物体又は群衆の監視を行う監視装置を提供する方法が提案されている（特許文献１）。

また、人工知能が画像解析を行うための機械学習の手法として、教師あり学習（ＳｕｐｅｒｖｉｓｅｄＬｅａｒｎｉｎｇ）はよく知られる手法であり、目的にあわせた学習済モデルの生成方法も提案されている（特許文献２）。

特開２００７−２０９００８特許６２１６０２４

しかしながら、特許文献１の手法では、複数の移動物体又は群衆をマクロ的に監視することは可能であるが、画像内の物体がどのような状況にあるのかを具体的に推測することではできない。また、特許文献２の手法では、画像解析のために教師あり学習を行う場合、大量の画像を用意して、画像に対して正しい教師データを付加してから、画像を分類するための分類器やニューラルネットワーク等に学習させて学習済モデルを作成する必要があり、学習のための画像を準備する手間がかかる点が問題となる。

この課題に対して、本発明者は、画像内の物体の特徴点を抽出して構成要素を解析したものと、その物体の状況データの組み合わせを関係づけておき、状況データに関連した画像を画像検索コンピュータから取得して、取得した画像と状況データを教師データとして画像の構成要素の組み合わせを自動で学習することで、画像を準備する手間を省き、かつ、画像内の物体の状況を高精度に推測することが可能な点に着目した。

本発明は、画像内の物体の構成要素とその物体の状況データの組み合わせを関係づけて自動で学習することで、学習結果を基に画像内の物体の状況を推測することが可能な物体状況判断システム、物体状況判断方法、およびプログラムを提供することを目的とする。

本発明では、以下のような解決手段を提供する。

第１の特徴に係る発明は、
学習用の画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも２つに関する構成要素を前記画像内の特徴点を抽出して解析する構成要素解析手段と、
前記物体がどのような状況であるかの状況データの文字を取得して、その文字に関連した複数の画像を、画像検索コンピュータで検索して取得する状況取得手段と、
取得した複数の画像の構成要素を、前記構成要素解析手段により解析し、各画像の構成要素の組み合わせと、取得した前記状況データを関係づけて学習する学習手段と、
所定の画像に対して前記構成要素解析手段により解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測する物体状況推測手段と、
を備えることを特徴とする物体状況判断システムを提供する。

第１の特徴に係る発明によれば、物体状況判断システムにおいて、学習用の画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも２つに関する構成要素を前記画像内の特徴点を抽出して解析する構成要素解析手段と、前記物体がどのような状況であるかの状況データの文字を取得して、その文字に関連した複数の画像を、画像検索コンピュータで検索して取得する状況取得手段と、取得した複数の画像の構成要素を、前記構成要素解析手段により解析し、各画像の構成要素の組み合わせと、取得した前記状況データを関係づけて学習する学習手段と、所定の画像に対して前記構成要素解析手段により解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測する物体状況推測手段と、を備えることを特徴とする物体状況判断システムを提供する。

第１の特徴に係る発明は、物体状況判断システムのカテゴリであるが、物体状況判断方法、およびプログラムであっても同様の作用、効果を奏する。

第２の特徴に係る発明は、第１の特徴に係る発明である物体状況判断システムであって、
前記画像内に複数の物体が撮影されている場合に、
前記構成要素解析手段は、複数の物体それぞれを画像解析し、解析された物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景の少なくとも２つを前記画像内の特徴点を抽出して解析し、
前記複数の物体が全体として何を行っているかを解析することを特徴とする物体状況判断システムを提供する。

第２の特徴に係る発明によれば、第１の特徴に係る発明である物体状況判断システムにおいて、前記画像内に複数の物体が撮影されている場合に、前記構成要素解析手段は、複数の物体それぞれを画像解析し、解析された物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景の少なくとも２つを前記画像内の特徴点を抽出して解析し、前記複数の物体が全体として何を行っているかを解析する。

第３の特徴に係る発明は、第１の特徴又は第２の特徴に係る発明である物体状況判断システムであって、
前記画像内に複数の物体が撮影されている場合に、
前記構成要素解析手段は、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置の少なくとも１つを構成要素として抽出して解析することを特徴とする物体状況判断システムを提供する。

第３の特徴に係る発明によれば第１の特徴又は第２の特徴に係る発明である物体状況判断システムにおいて、前記画像内に複数の物体が撮影されている場合に、前記構成要素解析手段は、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置の少なくとも１つを構成要素として抽出して解析する。

第４の特徴に係る発明は、第１の特徴から第３の特徴の何れかに係る発明である物体状況判断システムであって、
前記状況取得手段は、前記画像を用いた検索を行うことで、前記文字を取得することを特徴とする物体状況判断システムを提供する。

第４の特徴に係る発明によれば、第１の特徴から第３の特徴の何れかに係る発明である物体状況判断システムにおいて、前記状況取得手段は、前記画像を用いた検索を行うことで、前記文字を取得する。

第５の特徴に係る発明は、
物体状況判断システムに、
画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも２つに関する構成要素を前記画像内の特徴点を抽出して解析するステップと、
前記物体がどのような状況であるかの状況データを、文字を取得してその文字に関連した画像を検索する画像検索コンピュータから取得するステップと、
前記構成要素の組み合わせと、取得した前記状況データを関係づけて学習するステップと、
所定の画像に対して前記構成要素解析手段により解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測するステップと、
を備えることを特徴とする物体状況判断方法を提供する。

第６の特徴に係る発明は、
物体状況判断システムに、
画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも２つに関する構成要素を前記画像内の特徴点を抽出して解析するステップ、
前記物体がどのような状況であるかの状況データを、文字を取得してその文字に関連した画像を検索する画像検索コンピュータから取得するステップ、
前記構成要素の組み合わせと、取得した前記状況データを関係づけて学習するステップ、
所定の画像に対して前記構成要素解析手段により解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測するステップ、
を実行させるためのプログラムを提供する。

本発明によれば、画像内の物体の構成要素とその物体の状況データの組み合わせを関係づけて自動で学習することで、学習結果を基に画像内の物体の状況を推測することが可能な物体状況判断システム、物体状況判断方法、およびプログラムを提供することが可能となる。

図１は、本発明の好適な実施形態の概要図である。図２は、コンピュータ１００の機能ブロックと各機能の関係を示す図である。図３は、物体状況判断処理のフローチャート図である。図４は、構成要素解析処理のフローチャート図である。図５は、物体状況推測処理のフローチャート図である。図６は、画像の構成要素解析処理の一例である。図７は、物体が複数の場合の、画像の構成要素解析処理の一例である。図８は、物体状況判断システムの出力の画面の一例である。

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。

［物体状況判断システムの概要］
図１は、本発明の好適な実施形態の概要図である。この図１に基づいて、本発明の概要を説明する。物体状況判断システム１は、コンピュータ１００から構成される。なお、図１において、コンピュータ１００は１台であるが、複数であってもよい。また、実在する装置に限らず、仮想的な装置であってもよい。

コンピュータ１００は、図２に示すように、制御部１１０、通信部１２０、記憶部１３０、入力部１４０、出力部１５０から構成される。制御部１１０は、記憶部１３０と協働して構成要素解析モジュール１１１、学習モジュール１１３を実現する。また、制御部１１０は、通信部１２０、記憶部１３０、入力部１４０と協働して状況取得モジュール１１２を実現する。また、制御部１１０は、通信部１２０、記憶部１３０、出力部１５０と協働して物体状況推測モジュール１１４を実現する。通信部１２０は、通信網を介して、コンピュータ１００と状況判断システム１のユーザの端末（非図示）との通信を可能とする。

コンピュータ１００は、物体状況判断システム１の運用が可能な計算装置である。ここでは、例としてデスクトップ型のコンピュータを図示しているが、携帯電話、携帯情報端末、タブレット端末、パーソナルコンピュータに加え、ネットブック端末、スレート端末、電子書籍端末、携帯型音楽プレーヤ等の電化製品や、スマートグラス、ヘッドマウントディスプレイ等のウェアラブル端末等であってよい。また、実在する装置に限らず、仮想的な装置であってもよい。

図１の物体状況判断システム１において、まず、コンピュータ１００は、学習のために、画像と状況データの入力を受け付ける（ステップＳ０１）。物体の状況を判断するための学習には、物体が映った画像と、その物体がどのような状況であるかをあらわず状況データがセットとなった教師データが必要となる。ここでの状況データとは、物体の状況を文字で表したものとする。ここでは、図６の画像６０１と「恋人」という状況データが入力されたものとする。ここでの入力は、コンピュータ１００の入力部１４０を介して行ってもよいし、他のコンピュータや端末から、通信部１２０を介して行ってもよいものとする。

次に、コンピュータ１００の構成要素解析モジュール１１１は、入力された画像の構成要素の解析を行う（ステップＳ０２）。ここで、構成要素を解析するための方法として、画像内の特徴点を抽出することで、画像内の撮影された物体を検出する。さらに、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても細かく解析する。また、撮影された画像の背景についても、同じく画像内の特徴点から解析する。画像内に複数の物体が撮影されている場合には、複数の物体それぞれを画像解析し、その後、複数の物体が全体として何を行っているかを解析する。また、複数の物体が存在する場合には、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置についても、構成要素とあわせて解析を行う。構成要素の解析結果は、状況データと関連付けて、記憶部１３０に保存する。

図６は、画像の構成要素解析処理の一例である。画像６０１と「恋人」という状況データが入力された場合に、構成要素解析モジュール１１１がどのように構成要素を解析するかの一例を示している。構成要素解析モジュール１１１は、画像６０１の特徴点を抽出することにより、物体Ｘとして物体６１０を検出する。その特徴から、物体Ｘは「（人：女性）」であるとする。また、その物体Ｘの部位として、部位１（図６の部位６１１）、部位２（図６の部位６１２）、部位３（図６の部位６１３）を検出する。それぞれの特徴から、物体Ｘの部位１は「（顔：正面）」、物体Ｘの部位２は「（腕：右手）」、物体Ｘの部位３は「（体：正面）」と種類を解析する。更に、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても詳しく解析を行う。図６の例では、物体Ｘの部位１（顔）の解析結果６２１として「位置：部位３（体）の上部、方向：正面、カメラ目線、表情：スマイル」、物体Ｘの部位２（腕）の解析結果６２２として「位置：部位３（体）の手前、方向：手のひらが上、差し出す」、物体Ｘの部位３（体）の解析結果６２３として「位置：部位１（顔）の下部、部位２（手）の奥、方向：正面、前かがみ」であることを表している。また、背景６９０は、「海辺」であると解析している。

図１に戻り、コンピュータ１００の状況取得モジュール１１２は、状況データの文字を取得して、その文字に関連した類似の画像データを、検索して取得する（ステップＳ０３）。ここでは、「恋人」という状況データの文字で、外部の検索エンジン等の画像検索コンピュータを利用して検索を行い、「恋人」による検索結果の画像を複数取得する。外部の画像検索コンピュータ等を利用することで、状況データに合致する多数の画像を手間無く取得することが可能となる。

次に、コンピュータ１００の学習モジュール１１３は、取得した複数の画像と検索を行った状況データの文字とを関連付けたものを教師データとして、学習する（ステップＳ０４）。図１の例では、状況データが「恋人」である時に、各画像の構成要素と組み合わせがどのような状態であるかを、学習する。取得した画像の構成要素解析は、ステップＳ０２で行ったのと同じく、構成要素解析モジュール１１１を利用するものとする。構成要素の解析結果は、状況データと関連付けて、記憶部１３０に保存する。

ステップＳ０１からステップＳ０４までを繰り返し、十分な状況データについての学習を行った後に、物体状況判断システム１は、画像の物体の状況が判断可能となる。ここでは、十分な状況データについての学習を完了したものとする。

学習が完了すると、コンピュータ１００は、物体状況判断システム１のユーザから、状況判断を行いたい画像データの入力を受け付ける（ステップＳ０５）。ここでの入力は、コンピュータ１００の入力部１４０を介して行ってもよいし、ユーザが使用する他のコンピュータや端末から、通信部１２０を介して行ってもよいものとする。

最後にコンピュータ１００の物体状況推測モジュール１１４は、ステップＳ０５で入力された画像データの物体の状況を推測し、出力する（ステップＳ０６）。物体の状況を推測するためには、構成要素解析モジュール１１１を利用して入力された画像の構成要素を解析し、その構成要素の組み合わせと解析結果が、ステップＳ０４で行った状況データの学習の結果それぞれと類似又は同一であるかを判定する。類似又は同一である場合には、該当した学習結果の状況データを、物体の状況として出力する。ここで、類似であるかどうかの判定は、ある一定の閾値内であるかどうかを判定してもよい。

以上のように、本発明によれば、画像内の物体の特徴点を抽出して構成要素を解析したものと、その物体の状況データの組み合わせを関係づけておき、状況データに関連した画像を画像検索コンピュータから取得して、取得した画像と状況データを教師データとして画像の構成要素の組み合わせを自動で学習することで、画像を準備する手間を省き、かつ、画像内の物体の状況を高精度に推測することが可能な物体状況判断システム、物体状況判断方法、およびプログラムを提供することができる。

［各機能の説明］
図２は、コンピュータ１００の機能ブロックと各機能の関係を示す図である。コンピュータ１００は、制御部１１０、通信部１２０、記憶部１３０、入力部１４０、出力部１５０から構成される。制御部１１０は、記憶部１３０と協働して構成要素解析モジュール１１１、学習モジュール１１３を実現する。また、制御部１１０は、通信部１２０、記憶部１３０、入力部１４０と協働して状況取得モジュール１１２を実現する。また、制御部１１０は、通信部１２０、記憶部１３０、出力部１５０と協働して物体状況推測モジュール１１４を実現する。通信部１２０は、通信網を介して、コンピュータ１００と状況判断システム１のユーザの端末（非図示）との通信を可能とする。

制御部１１０として、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を備える。制御部１１０は、記憶部１３０と協働して構成要素解析モジュール１１１、学習モジュール１１３を実現する。また、制御部１１０は、通信部１２０、記憶部１３０、入力部１４０と協働して状況取得モジュール１１２を実現する。また、制御部１１０は、通信部１２０、記憶部１３０、出力部１５０と協働して物体状況推測モジュール１１４を実現する。

通信部１２０として、他の機器と通信可能にするためのデバイス、例えば、ＩＥＥＥ８０２．１１に準拠したＷｉＦｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）対応デバイス又は第３世代、第４世代移動通信システム等のＩＭＴ−２０００規格に準拠した無線デバイス等を備える。有線によるＬＡＮ接続であってもよい。また、この通信部１２０を介して、必要に応じて状況判断システム１のユーザの端末（非図示）との通信を行うものとする。

記憶部１３０として、ハードディスクや半導体メモリによる、データのストレージ部を備え、画像データ、状況データ、構成要素解析結果、等の処理に必要なデータ等を記憶する。また、記憶部１３０に、学習済みの画像の構成要素解析結果と状況データを関連づけたものを、データベースとして記憶してもよい。

入力部１４０は、物体状況判断システム１を運用するために必要な機能を備えるものとする。入力を実現するための例として、タッチパネル機能を実現する液晶ディスプレイ、キーボード、マウス、ペンタブレット、装置上のハードウェアボタン、音声認識を行うためのマイク等を備えることが可能である。入力方法により、本発明は特に機能を限定されるものではない。

出力部１５０は、物体状況判断システム１を運用するために必要な機能を備えるものとする。出力を実現するための例として、液晶ディスプレイ、ＰＣのディスプレイ、プロジェクターへの投影等の表示と音声出力等の形態が考えられる。出力方法により、本発明は特に機能を限定されるものではない。

［物体状況判断処理］
図３は、物体状況判断処理のフローチャート図である。上述した各モジュールが実行する処理について、本処理にあわせて説明する。

まず、コンピュータ１００は、学習のために、画像と状況データの入力を受け付ける（ステップＳ３０１）。物体の状況を判断するための学習には、物体が映った画像と、その物体がどのような状況であるかをあらわず状況データがセットとなった教師データが必要となる。ここでの状況データとは、物体の状況を文字で表したものとする。ここでは、図６の画像６０１と「恋人」という状況データが入力されたものとする。ここでの入力は、コンピュータ１００の入力部１４０を介して行ってもよいし、他のコンピュータや端末から、通信部１２０を介して行ってもよいものとする。

次に、コンピュータ１００の構成要素解析モジュール１１１は、入力された画像の構成要素の解析を行う（ステップＳ３０２）。ここで、構成要素を解析するための方法として、画像内の特徴点を抽出することで、画像内の撮影された物体を検出する。さらに、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても細かく解析する。また、撮影された画像の背景についても、同じく画像内の特徴点から解析する。画像内に複数の物体が撮影されている場合には、複数の物体それぞれを画像解析し、その後、複数の物体が全体として何を行っているかを解析する。また、複数の物体が存在する場合には、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置についても、構成要素とあわせて解析を行う。構成要素の解析結果は、状況データと関連付けて、記憶部１３０に保存する。構成要素解析処理の詳細については、後述する。

コンピュータ１００の状況取得モジュール１１２は、状況データの文字を取得して、その文字に関連した類似の画像データを、検索して取得する（ステップＳ３０３）。ここでは、「恋人」という状況データの文字で、外部の検索エンジン等の画像検索コンピュータを利用して検索を行い、「恋人」による検索結果の画像を複数取得する。外部の画像検索コンピュータ等を利用することで、状況データに合致する多数の画像を手間無く取得することが可能となる。

次に、コンピュータ１００の学習モジュール１１３は、取得した複数の画像と検索を行った状況データの文字とを関連付けたものを教師データとして、学習する（ステップＳ３０４）。ここでは、状況データが「恋人」である時に、各画像の構成要素と組み合わせがどのような状態であるかを、学習する。取得した画像の構成要素解析は、ステップＳ３０２で行ったのと同じく、構成要素解析モジュール１１１を利用するものとする。構成要素の解析結果は、状況データと関連付けて、記憶部１３０に保存する。

次に、コンピュータ１００は、物体状況推測モジュール１１４による物体状況の推測が可能な状態であるかどうかを確認する（ステップＳ３０５）。この段階で、ステップＳ３０１からステップＳ３０４までを何度も繰り返し、十分な状況データについての学習が行われていれば、物体状況推測モジュール１１４による物体状況の推測が可能である。十分な学習が行われていて物体状況の推測が可能であればステップＳ３０６に進み、十分な学習が行われていない場合には、ステップＳ３０１に戻って処理を繰り返す。

学習が完了している場合、コンピュータ１００は、物体状況判断システム１のユーザから、状況判断を行いたい画像データの入力を受け付ける（ステップＳ３０６）。ここでの入力は、コンピュータ１００の入力部１４０を介して行ってもよいし、ユーザが使用する他のコンピュータや端末から、通信部１２０を介して行ってもよいものとする。

コンピュータ１００の物体状況推測モジュール１１４は、ステップＳ３０６で入力された画像データの物体の状況を推測する（ステップＳ３０７）。物体の状況を推測するためには、構成要素解析モジュール１１１を利用して入力された画像の構成要素を解析し、その構成要素の組み合わせと解析結果が、ステップＳ３０４で行った状況データの学習の結果それぞれと類似又は同一であるかを判定する。類似又は同一である場合には、該当した学習結果の状況データを、物体の状況として出力する。ここで、類似であるかどうかの判定は、ある一定の閾値内であるかどうかを判定してもよい。物体状況推測処理の詳細については、後述する。

最後にコンピュータ１００の物体状況推測モジュール１１４は、ステップＳ３０７の推測結果を出力する（ステップＳ３０８）。ここでの出力は、コンピュータ１００の出力部１５０に行ってもよいし、通信部１２０を介して、ユーザが使用する他のコンピュータや端末の出力部に行ってもよいものとする。

ここでは、ステップＳ３０１で、学習のために、画像と状況データ両方の入力を受け付ける例を示したが、ステップＳ３０１で画像のみの入力を受け付けることにしてもよい。その場合は、状況取得モジュール１１２が、状況データの文字を取得するために、入力された画像を用いた検索を行うことで、画像にふさわしい文字列を取得することが可能である。画像を用いた検索には、外部の画像検索コンピュータを用いてもよい。

［構成要素解析処理］
図４は、構成要素解析処理のフローチャート図である。図３のステップＳ３０２の処理に該当する。

構成要素解析処理として、まず、構成要素解析モジュール１１１は、画像内の物体の数を確認する（ステップＳ４０１）。画像内の物体が複数である場合にはステップＳ４０２に進み、物体が単数である場合にはステップＳ４０３に進み、物体が無い場合には処理を終了する。

はじめに、物体が単数である場合の例を説明する。物体が単数である場合、構成要素解析モジュール１１１は、その物体の構成要素を解析する（ステップＳ４０３）。

図６は、物体が単数の場合の、画像の構成要素解析処理の一例である。画像６０１と「恋人」という状況データが入力された場合に、構成要素解析モジュール１１１がどのように構成要素を解析するかの一例を示している。構成要素解析モジュール１１１は、画像６０１の特徴点を抽出することにより、物体Ｘとして物体６１０を検出する。その特徴から、物体Ｘは「（人：女性）」であるとする。また、その物体Ｘの部位として、部位１（図６の部位６１１）、部位２（図６の部位６１２）、部位３（図６の部位６１３）を検出する。それぞれの特徴から、物体Ｘの部位１は「（顔：正面）」、物体Ｘの部位２は「（腕：右手）」、物体Ｘの部位３は「（体：正面）」と種類を解析する。更に、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても詳しく解析を行う。図６の例では、物体Ｘの部位１（顔）の解析結果６２１として「位置：部位３（体）の上部、方向：正面、カメラ目線、表情：スマイル」、物体Ｘの部位２（腕）の解析結果６２２として「位置：部位３（体）の手前、方向：手のひらが上、差し出す」、物体Ｘの部位３（体）の解析結果６２３として「位置：部位１（顔）の下部、部位２（手）の奥、方向：正面、前かがみ」であることを表している。また、背景６９０は、「海辺」であると解析している。

図４に戻り、構成要素解析モジュール１１１は、ステップＳ４０３で解析した構成要素の組み合わせと状況データを関連づける（ステップＳ４０６）。具体的には、図６の例では、状況データ「恋人」のデータとして、物体Ｘ「（人：女性）」、物体Ｘの部位１「（顔：正面）位置：部位３（体）の上部、方向：正面、カメラ目線、表情：スマイル」、物体Ｘの部位２「（腕：右手）位置：部位３（体）の手前、方向：手のひらが上、差し出す」、物体Ｘの部位３「（体：正面）位置：部位１（顔）の下部、部位２（手）の奥、方向：正面、前かがみ」、「背景：海辺」の組み合わせを関連付ける。ここで、すべての構成要素を関連付けてもよいし、一部の重要な構成要素を関連づけてもよい。

最後に、構成要素解析モジュール１１１は、ステップＳ４０６で関連付けたデータを記憶部１３０に保存する（ステップＳ４０７）。以上が、物体が単数である場合の処理フローである。

次に、物体が複数である場合の例を説明する。

図７は、物体が複数の場合の、画像の構成要素解析処理の一例である。画像７０１と「恋人」という状況データが入力された場合に、構成要素解析モジュール１１１がどのように構成要素を解析するかの一例を示している。ステップＳ５０１において、構成要素解析モジュール１１１は、画像７０１の特徴点を抽出することにより、物体Ａとして物体７１０を検出する。また、物体Ｂとして物体７２０を検出する。このため、画像７０１の物体は複数であるとする。

図４のフローチャートに戻り、物体が複数である場合、構成要素解析モジュール１１１は、未選択の物体を一つ選択する（ステップＳ４０２）。図７では、物体Ａをまず選択したものとする。

次に、構成要素解析モジュール１１１は、選択した物体Ａの構成要素を解析する（ステップＳ４０３）。その特徴から、図７の物体Ａは「（人：女性）」であるとする。また、その物体Ａの部位として、部位１（図７の部位７１１）を検出する。更に、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても詳しく解析を行い、物体Ａの部位１は「（顔：右側）」であるとする。また、背景７９０についても、ここで解析してもよい。背景７９０は、「海辺」であると解析している。

図４に戻り、構成要素解析モジュール１１１は、全ての物体の解析が終了したかを確認する（ステップＳ４０４）。ここでは、すべての物体の解析が終了していないため、ステップＳ４０２に戻り、物体Ｂを選択したものとする。

次に、構成要素解析モジュール１１１は、選択した物体Ｂの構成要素を解析する（ステップＳ４０３）。その特徴から、図７の物体Ｂは「（人：男性）」であるとする。また、その物体Ｂの部位として、部位１（図７の部位７２１）、部位２（図７の部位７２２）を検出する。更に、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても詳しく解析を行い、物体Ｂの部位１は「（顔：左側）」、部位２は「腕：左手」であるとする。

図４に戻り、構成要素解析モジュール１１１は、全ての物体の解析が終了したかを確認する（ステップＳ４０４）。ここでは、すべての物体の解析が終了しているため、次のステップＳ４０５に進む。

構成要素解析モジュール１１１は、画像７０１の構成要素を、複数の物体間で相対的に解析する（ステップＳ４０５）。具体的には、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置等が挙げられる。図７の画像７０１の例では、物体Ａの部位１（顔）と物体Ｂの部位１（顔）について、解析結果７３１として「位置：１０cm未満、方向：向き合う、表情：物体Ａ：スマイル、物体Ｂ：スマイル」と解析していることを示している。

図４に戻り、構成要素解析モジュール１１１は、ステップＳ４０３で解析した構成要素の組み合わせと、ステップＳ４０５で解析した構成要素の相対関係と、状況データを関連づける（ステップＳ４０６）。具体的には、図７の例では、状況データ「恋人」のデータとして、物体Ａ「（人：女性）」、物体Ａの部位１「（顔：右側）」、物体Ｂ「（人：男性）」、物体Ｂの部位１「（顔：左側）」、物体Ｂの部位２「（腕：左手）」、物体Ａの部位１と物体Ｂの部位１「位置：１０cm未満、方向：向き合う、表情：物体Ａ：スマイル、物体Ｂ：スマイル」、「背景：海辺」の組み合わせを関連付ける。ここで、すべての構成要素を関連付けてもよいし、一部の重要な構成要素を関連づけてもよい。

最後に、構成要素解析モジュール１１１は、ステップＳ４０６で関連付けたデータを記憶部１３０に保存する（ステップＳ４０７）。

以上のように、物体が単数の場合にも複数の場合にも、適切な構成要素の解析処理を行うことが可能である。

［物体状況推測処理］
図５は、物体状況推測処理のフローチャート図である。図３のステップＳ３０７の処理に該当する。

物体状況推測処理のステップＳ５０１からステップＳ５０５は、構成要素解析処理のステップＳ４０１からステップＳ４０５に相当する。これらの処理について、物体状況推測モジュール１１４は、構成要素解析モジュール１１１を利用して行ってもよい。また、処理の詳細は前述の通りであるため、省略する。

物体状況推測モジュール１１４は、ステップＳ５０３とステップＳ５０５の解析結果について、記憶部１３０に保存された学習済データと同一又は類似のものがあるかどうかを確認する（ステップＳ５０６）。ある場合には、ステップＳ５０７に進み、ない場合には、ステップＳ５０８に進む。

記憶部１３０に保存された学習済データと同一又は類似のものがある場合、同一又は類似のものの状況データを、入力された画像の物体状況推測結果とする（ステップＳ５０７）。

記憶部１３０に保存された学習済データと同一又は類似のものがない場合、入力された画像の物体状況推測は不可能とする（ステップＳ５０８）。

以上のように、入力された画像データに適した状況データを物体状況の推測結果とすることが可能である。

［物体状況判断結果の出力処理］
図８は、物体状況判断システム１の出力の画面の一例である。図３のステップＳ３０８で、コンピュータ１００の出力部１５０又はユーザの利用する端末の出力部に、このような画面８１０を表示してもよい。ボタン８０６で物体状況判断システム１のメニュー画面に戻り、ボタン８０７で物体状況判断システム１を終了するものとする。表示８０１として、入力画像の状況判断結果を推測結果として文字で表示している。図８の例では、推測結果は「恋人」である。また、表示８０２として、推測結果の他の候補を表示している。図５のフローチのャートでは、該当する推測結果が１つのみの場合を説明したが、例えば類似の学習済データが複数あった場合等の該当する推測結果が複数ある場合に、複数の推測結果を表示してもよい。また、表示８０３として、ユーザからのフィードバックを受ける場合の例を示している。ユーザから、推測がふさわしかったか、ふさわしくなかったかのフィードバックを受けて、その結果を教師データとして再度学習を行うことで、より物体状況判断システム１の精度を上げることが可能となる。ラジオボタンで「満足（推測が相応しい）」か「不満足（推測結果が相応しくない）」かを選択し、「不満足（推測結果が相応しくない）」である場合には、テキストボックス８０４に正しい結果を入力してもらい、ボタン８０５でフィードバックを送信してもらう。物体状況判断システム１が文字データを受信して、フィードバックされた文字を状況データとし、入力画像とあわせて図３のステップＳ３０１からＳ３０４を行うことで、新たな学習が可能である。

以上のように、本発明によれば、ユーザからのフィードバックを受け付けることでより判断精度を高めることが可能な物体状況判断システム、物体状況判断方法、およびプログラムを提供することができる。

上述した手段、機能は、コンピュータ（ＣＰＵ、情報処理装置、各種端末を含む）が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、コンピュータからネットワーク経由で提供される（ＳａａＳ：ソフトウェア・アズ・ア・サービス）形態であってもよいし、フレキシブルディスク、ＣＤ（ＣＤ−ＲＯＭ等）、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ等）、コンパクトメモリ等のコンピュータ読取可能な記録媒体に記録された形態で提供される形態であってもよい。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置又は外部記憶装置に転送し記憶して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記憶装置（記録媒体）に予め記録しておき、その記憶装置から通信回線を介してコンピュータに提供するようにしてもよい。

以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

１物体状況判断システム、１００コンピュータ

Claims

学習用の画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも２つに関する構成要素を前記画像内の特徴点を抽出して解析する構成要素解析手段と、
前記物体がどのような状況であるかの状況データの文字を取得して、その文字に関連した複数の画像を、画像検索コンピュータで検索して取得する状況取得手段と、
取得した複数の画像の構成要素を、前記構成要素解析手段により解析し、各画像の構成要素の組み合わせと、取得した前記状況データを関係づけて学習する学習手段と、
所定の画像に対して前記構成要素解析手段により解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測する物体状況推測手段と、
を備えることを特徴とする物体状況判断システム。
前記画像内に複数の物体が撮影されている場合に、
前記構成要素解析手段は、複数の物体それぞれを画像解析し、解析された物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景の少なくとも２つを前記画像内の特徴点を抽出して解析し、
前記複数の物体が全体として何を行っているかを解析することを特徴とする請求項１に記載の物体状況判断システム。
前記画像内に複数の物体が撮影されている場合に、
前記構成要素解析手段は、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置の少なくとも１つを構成要素として抽出して解析することを特徴とする請求項１又は請求項２に記載の物体状況判断システム。
前記状況取得手段は、前記画像を用いた検索を行うことで、前記文字を取得することを特徴とする請求項１から請求項３の何れか一項に記載の物体状況判断システム。
物体状況判断システムに、
学習用の画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも２つに関する構成要素を前記画像内の特徴点を抽出して解析するステップと、
前記物体がどのような状況であるかの状況データの文字を取得して、その文字に関連した複数の画像を、検索する画像検索コンピュータで検索して取得するステップと、
取得した複数の画像の構成要素を、前記解析するステップにより解析し、各画像の構成要素の組み合わせと、取得した前記状況データを関係づけて学習するステップと、
所定の画像に対して前記解析するステップにより解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測するステップと、
を備えることを特徴とする物体状況判断方法。
物体状況判断システムに、
学習用の画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも２つに関する構成要素を前記画像内の特徴点を抽出して解析するステップ、
前記物体がどのような状況であるかの状況データの文字を取得して、その文字に関連した複数の画像を、検索する画像検索コンピュータで検索して取得するステップ、
取得した複数の画像の構成要素を、前記解析するステップにより解析し、各画像の構成要素の組み合わせと、取得した前記状況データを関係づけて学習するステップ、
所定の画像に対して前記解析するステップにより解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測するステップ、
を実行させるためのプログラム。