JP6963352B2 - 物体状況判断システム、物体状況判断方法、およびプログラム - Google Patents

物体状況判断システム、物体状況判断方法、およびプログラム Download PDF

Info

Publication number
JP6963352B2
JP6963352B2 JP2020547731A JP2020547731A JP6963352B2 JP 6963352 B2 JP6963352 B2 JP 6963352B2 JP 2020547731 A JP2020547731 A JP 2020547731A JP 2020547731 A JP2020547731 A JP 2020547731A JP 6963352 B2 JP6963352 B2 JP 6963352B2
Authority
JP
Japan
Prior art keywords
image
situation
learning
components
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020547731A
Other languages
English (en)
Other versions
JPWO2020065839A1 (ja
Inventor
俊二 菅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Optim Corp
Original Assignee
Optim Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Optim Corp filed Critical Optim Corp
Publication of JPWO2020065839A1 publication Critical patent/JPWO2020065839A1/ja
Application granted granted Critical
Publication of JP6963352B2 publication Critical patent/JP6963352B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Description

本発明は、画像内の物体の状況を推測することが可能な物体状況判断システム、物体状況判断方法、およびプログラムに関する。
全体画像から頭部候補領域を検出することで、移動している人物や車両等の複数の移動物体又は群衆の監視を行う監視装置を提供する方法が提案されている(特許文献1)。
また、人工知能が画像解析を行うための機械学習の手法として、教師あり学習(Supervised Learning)はよく知られる手法であり、目的にあわせた学習済モデルの生成方法も提案されている(特許文献2)。
特開2007−209008 特許6216024
しかしながら、特許文献1の手法では、複数の移動物体又は群衆をマクロ的に監視することは可能であるが、画像内の物体がどのような状況にあるのかを具体的に推測することではできない。また、特許文献2の手法では、画像解析のために教師あり学習を行う場合、大量の画像を用意して、画像に対して正しい教師データを付加してから、画像を分類するための分類器やニューラルネットワーク等に学習させて学習済モデルを作成する必要があり、学習のための画像を準備する手間がかかる点が問題となる。
この課題に対して、本発明者は、画像内の物体の特徴点を抽出して構成要素を解析したものと、その物体の状況データの組み合わせを関係づけておき、状況データに関連した画像を画像検索コンピュータから取得して、取得した画像と状況データを教師データとして画像の構成要素の組み合わせを自動で学習することで、画像を準備する手間を省き、かつ、画像内の物体の状況を高精度に推測することが可能な点に着目した。
本発明は、画像内の物体の構成要素とその物体の状況データの組み合わせを関係づけて自動で学習することで、学習結果を基に画像内の物体の状況を推測することが可能な物体状況判断システム、物体状況判断方法、およびプログラムを提供することを目的とする。
本発明では、以下のような解決手段を提供する。
第1の特徴に係る発明は、
学習用の画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも2つに関する構成要素を前記画像内の特徴点を抽出して解析する構成要素解析手段と、
前記物体がどのような状況であるかの状況データ文字を取得してその文字に関連した複数の画像を画像検索コンピュータで検索して取得する状況取得手段と、
取得した複数の画像の構成要素を、前記構成要素解析手段により解析し、各画像の構成要素の組み合わせと、取得した前記状況データを関係づけて学習する学習手段と、
所定の画像に対して前記構成要素解析手段により解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測する物体状況推測手段と、
を備えることを特徴とする物体状況判断システムを提供する。
第1の特徴に係る発明によれば、物体状況判断システムにおいて、学習用の画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも2つに関する構成要素を前記画像内の特徴点を抽出して解析する構成要素解析手段と、前記物体がどのような状況であるかの状況データ文字を取得してその文字に関連した複数の画像を画像検索コンピュータで検索して取得する状況取得手段と、取得した複数の画像の構成要素を、前記構成要素解析手段により解析し、各画像の構成要素の組み合わせと、取得した前記状況データを関係づけて学習する学習手段と、所定の画像に対して前記構成要素解析手段により解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測する物体状況推測手段と、を備えることを特徴とする物体状況判断システムを提供する。
第1の特徴に係る発明は、物体状況判断システムのカテゴリであるが、物体状況判断方法、およびプログラムであっても同様の作用、効果を奏する。
第2の特徴に係る発明は、第1の特徴に係る発明である物体状況判断システムであって、
前記画像内に複数の物体が撮影されている場合に、
前記構成要素解析手段は、複数の物体それぞれを画像解析し、解析された物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景の少なくとも2つを前記画像内の特徴点を抽出して解析し、
前記複数の物体が全体として何を行っているかを解析することを特徴とする物体状況判断システムを提供する。
第2の特徴に係る発明によれば、第1の特徴に係る発明である物体状況判断システムにおいて、前記画像内に複数の物体が撮影されている場合に、前記構成要素解析手段は、複数の物体それぞれを画像解析し、解析された物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景の少なくとも2つを前記画像内の特徴点を抽出して解析し、前記複数の物体が全体として何を行っているかを解析する。
第3の特徴に係る発明は、第1の特徴又は第2の特徴に係る発明である物体状況判断システムであって、
前記画像内に複数の物体が撮影されている場合に、
前記構成要素解析手段は、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置の少なくとも1つを構成要素として抽出して解析することを特徴とする物体状況判断システムを提供する。
第3の特徴に係る発明によれば第1の特徴又は第2の特徴に係る発明である物体状況判断システムにおいて、前記画像内に複数の物体が撮影されている場合に、前記構成要素解析手段は、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置の少なくとも1つを構成要素として抽出して解析する。
第4の特徴に係る発明は、第1の特徴から第3の特徴の何れかに係る発明である物体状況判断システムであって、
前記状況取得手段は、前記画像を用いた検索を行うことで、前記文字を取得することを特徴とする物体状況判断システムを提供する。
第4の特徴に係る発明によれば、第1の特徴から第3の特徴の何れかに係る発明である物体状況判断システムにおいて、前記状況取得手段は、前記画像を用いた検索を行うことで、前記文字を取得する。
第5の特徴に係る発明は、
物体状況判断システムに、
画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも2つに関する構成要素を前記画像内の特徴点を抽出して解析するステップと、
前記物体がどのような状況であるかの状況データを、文字を取得してその文字に関連した画像を検索する画像検索コンピュータから取得するステップと、
前記構成要素の組み合わせと、取得した前記状況データを関係づけて学習するステップと、
所定の画像に対して前記構成要素解析手段により解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測するステップと、
を備えることを特徴とする物体状況判断方法を提供する。
第6の特徴に係る発明は、
物体状況判断システムに、
画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも2つに関する構成要素を前記画像内の特徴点を抽出して解析するステップ、
前記物体がどのような状況であるかの状況データを、文字を取得してその文字に関連した画像を検索する画像検索コンピュータから取得するステップ、
前記構成要素の組み合わせと、取得した前記状況データを関係づけて学習するステップ、
所定の画像に対して前記構成要素解析手段により解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測するステップ、
を実行させるためのプログラムを提供する。
本発明によれば、画像内の物体の構成要素とその物体の状況データの組み合わせを関係づけて自動で学習することで、学習結果を基に画像内の物体の状況を推測することが可能な物体状況判断システム、物体状況判断方法、およびプログラムを提供することが可能となる。
図1は、本発明の好適な実施形態の概要図である。 図2は、コンピュータ100の機能ブロックと各機能の関係を示す図である。 図3は、物体状況判断処理のフローチャート図である。 図4は、構成要素解析処理のフローチャート図である。 図5は、物体状況推測処理のフローチャート図である。 図6は、画像の構成要素解析処理の一例である。 図7は、物体が複数の場合の、画像の構成要素解析処理の一例である。 図8は、物体状況判断システムの出力の画面の一例である。
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
[物体状況判断システムの概要]
図1は、本発明の好適な実施形態の概要図である。この図1に基づいて、本発明の概要を説明する。物体状況判断システム1は、コンピュータ100から構成される。なお、図1において、コンピュータ100は1台であるが、複数であってもよい。また、実在する装置に限らず、仮想的な装置であってもよい。
コンピュータ100は、図2に示すように、制御部110、通信部120、記憶部130、入力部140、出力部150から構成される。制御部110は、記憶部130と協働して構成要素解析モジュール111、学習モジュール113を実現する。また、制御部110は、通信部120、記憶部130、入力部140と協働して状況取得モジュール112を実現する。また、制御部110は、通信部120、記憶部130、出力部150と協働して物体状況推測モジュール114を実現する。通信部120は、通信網を介して、コンピュータ100と状況判断システム1のユーザの端末(非図示)との通信を可能とする。
コンピュータ100は、物体状況判断システム1の運用が可能な計算装置である。ここでは、例としてデスクトップ型のコンピュータを図示しているが、携帯電話、携帯情報端末、タブレット端末、パーソナルコンピュータに加え、ネットブック端末、スレート端末、電子書籍端末、携帯型音楽プレーヤ等の電化製品や、スマートグラス、ヘッドマウントディスプレイ等のウェアラブル端末等であってよい。また、実在する装置に限らず、仮想的な装置であってもよい。
図1の物体状況判断システム1において、まず、コンピュータ100は、学習のために、画像と状況データの入力を受け付ける(ステップS01)。物体の状況を判断するための学習には、物体が映った画像と、その物体がどのような状況であるかをあらわず状況データがセットとなった教師データが必要となる。ここでの状況データとは、物体の状況を文字で表したものとする。ここでは、図6の画像601と「恋人」という状況データが入力されたものとする。ここでの入力は、コンピュータ100の入力部140を介して行ってもよいし、他のコンピュータや端末から、通信部120を介して行ってもよいものとする。
次に、コンピュータ100の構成要素解析モジュール111は、入力された画像の構成要素の解析を行う(ステップS02)。ここで、構成要素を解析するための方法として、画像内の特徴点を抽出することで、画像内の撮影された物体を検出する。さらに、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても細かく解析する。また、撮影された画像の背景についても、同じく画像内の特徴点から解析する。画像内に複数の物体が撮影されている場合には、複数の物体それぞれを画像解析し、その後、複数の物体が全体として何を行っているかを解析する。また、複数の物体が存在する場合には、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置についても、構成要素とあわせて解析を行う。構成要素の解析結果は、状況データと関連付けて、記憶部130に保存する。
図6は、画像の構成要素解析処理の一例である。画像601と「恋人」という状況データが入力された場合に、構成要素解析モジュール111がどのように構成要素を解析するかの一例を示している。構成要素解析モジュール111は、画像601の特徴点を抽出することにより、物体Xとして物体610を検出する。その特徴から、物体Xは「(人:女性)」であるとする。また、その物体Xの部位として、部位1(図6の部位611)、部位2(図6の部位612)、部位3(図6の部位613)を検出する。それぞれの特徴から、物体Xの部位1は「(顔:正面)」、物体Xの部位2は「(腕:右手)」、物体Xの部位3は「(体:正面)」と種類を解析する。更に、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても詳しく解析を行う。図6の例では、物体Xの部位1(顔)の解析結果621として「位置:部位3(体)の上部、方向:正面、カメラ目線、表情:スマイル」、物体Xの部位2(腕)の解析結果622として「位置:部位3(体)の手前、方向:手のひらが上、差し出す」、物体Xの部位3(体)の解析結果623として「位置:部位1(顔)の下部、部位2(手)の奥、方向:正面、前かがみ」であることを表している。また、背景690は、「海辺」であると解析している。
図1に戻り、コンピュータ100の状況取得モジュール112は、状況データの文字を取得して、その文字に関連した類似の画像データを、検索して取得する(ステップS03)。ここでは、「恋人」という状況データの文字で、外部の検索エンジン等の画像検索コンピュータを利用して検索を行い、「恋人」による検索結果の画像を複数取得する。外部の画像検索コンピュータ等を利用することで、状況データに合致する多数の画像を手間無く取得することが可能となる。
次に、コンピュータ100の学習モジュール113は、取得した複数の画像と検索を行った状況データの文字とを関連付けたものを教師データとして、学習する(ステップS04)。図1の例では、状況データが「恋人」である時に、各画像の構成要素と組み合わせがどのような状態であるかを、学習する。取得した画像の構成要素解析は、ステップS02で行ったのと同じく、構成要素解析モジュール111を利用するものとする。構成要素の解析結果は、状況データと関連付けて、記憶部130に保存する。
ステップS01からステップS04までを繰り返し、十分な状況データについての学習を行った後に、物体状況判断システム1は、画像の物体の状況が判断可能となる。ここでは、十分な状況データについての学習を完了したものとする。
学習が完了すると、コンピュータ100は、物体状況判断システム1のユーザから、状況判断を行いたい画像データの入力を受け付ける(ステップS05)。ここでの入力は、コンピュータ100の入力部140を介して行ってもよいし、ユーザが使用する他のコンピュータや端末から、通信部120を介して行ってもよいものとする。
最後にコンピュータ100の物体状況推測モジュール114は、ステップS05で入力された画像データの物体の状況を推測し、出力する(ステップS06)。物体の状況を推測するためには、構成要素解析モジュール111を利用して入力された画像の構成要素を解析し、その構成要素の組み合わせと解析結果が、ステップS04で行った状況データの学習の結果それぞれと類似又は同一であるかを判定する。類似又は同一である場合には、該当した学習結果の状況データを、物体の状況として出力する。ここで、類似であるかどうかの判定は、ある一定の閾値内であるかどうかを判定してもよい。
以上のように、本発明によれば、画像内の物体の特徴点を抽出して構成要素を解析したものと、その物体の状況データの組み合わせを関係づけておき、状況データに関連した画像を画像検索コンピュータから取得して、取得した画像と状況データを教師データとして画像の構成要素の組み合わせを自動で学習することで、画像を準備する手間を省き、かつ、画像内の物体の状況を高精度に推測することが可能な物体状況判断システム、物体状況判断方法、およびプログラムを提供することができる。
[各機能の説明]
図2は、コンピュータ100の機能ブロックと各機能の関係を示す図である。コンピュータ100は、制御部110、通信部120、記憶部130、入力部140、出力部150から構成される。制御部110は、記憶部130と協働して構成要素解析モジュール111、学習モジュール113を実現する。また、制御部110は、通信部120、記憶部130、入力部140と協働して状況取得モジュール112を実現する。また、制御部110は、通信部120、記憶部130、出力部150と協働して物体状況推測モジュール114を実現する。通信部120は、通信網を介して、コンピュータ100と状況判断システム1のユーザの端末(非図示)との通信を可能とする。
コンピュータ100は、物体状況判断システム1の運用が可能な計算装置である。ここでは、例としてデスクトップ型のコンピュータを図示しているが、携帯電話、携帯情報端末、タブレット端末、パーソナルコンピュータに加え、ネットブック端末、スレート端末、電子書籍端末、携帯型音楽プレーヤ等の電化製品や、スマートグラス、ヘッドマウントディスプレイ等のウェアラブル端末等であってよい。また、実在する装置に限らず、仮想的な装置であってもよい。
制御部110として、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備える。制御部110は、記憶部130と協働して構成要素解析モジュール111、学習モジュール113を実現する。また、制御部110は、通信部120、記憶部130、入力部140と協働して状況取得モジュール112を実現する。また、制御部110は、通信部120、記憶部130、出力部150と協働して物体状況推測モジュール114を実現する。
通信部120として、他の機器と通信可能にするためのデバイス、例えば、IEEE802.11に準拠したWiFi(Wireless Fidelity)対応デバイス又は第3世代、第4世代移動通信システム等のIMT−2000規格に準拠した無線デバイス等を備える。有線によるLAN接続であってもよい。また、この通信部120を介して、必要に応じて状況判断システム1のユーザの端末(非図示)との通信を行うものとする。
記憶部130として、ハードディスクや半導体メモリによる、データのストレージ部を備え、画像データ、状況データ、構成要素解析結果、等の処理に必要なデータ等を記憶する。また、記憶部130に、学習済みの画像の構成要素解析結果と状況データを関連づけたものを、データベースとして記憶してもよい。
入力部140は、物体状況判断システム1を運用するために必要な機能を備えるものとする。入力を実現するための例として、タッチパネル機能を実現する液晶ディスプレイ、キーボード、マウス、ペンタブレット、装置上のハードウェアボタン、音声認識を行うためのマイク等を備えることが可能である。入力方法により、本発明は特に機能を限定されるものではない。
出力部150は、物体状況判断システム1を運用するために必要な機能を備えるものとする。出力を実現するための例として、液晶ディスプレイ、PCのディスプレイ、プロジェクターへの投影等の表示と音声出力等の形態が考えられる。出力方法により、本発明は特に機能を限定されるものではない。
[物体状況判断処理]
図3は、物体状況判断処理のフローチャート図である。上述した各モジュールが実行する処理について、本処理にあわせて説明する。
まず、コンピュータ100は、学習のために、画像と状況データの入力を受け付ける(ステップS301)。物体の状況を判断するための学習には、物体が映った画像と、その物体がどのような状況であるかをあらわず状況データがセットとなった教師データが必要となる。ここでの状況データとは、物体の状況を文字で表したものとする。ここでは、図6の画像601と「恋人」という状況データが入力されたものとする。ここでの入力は、コンピュータ100の入力部140を介して行ってもよいし、他のコンピュータや端末から、通信部120を介して行ってもよいものとする。
次に、コンピュータ100の構成要素解析モジュール111は、入力された画像の構成要素の解析を行う(ステップS302)。ここで、構成要素を解析するための方法として、画像内の特徴点を抽出することで、画像内の撮影された物体を検出する。さらに、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても細かく解析する。また、撮影された画像の背景についても、同じく画像内の特徴点から解析する。画像内に複数の物体が撮影されている場合には、複数の物体それぞれを画像解析し、その後、複数の物体が全体として何を行っているかを解析する。また、複数の物体が存在する場合には、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置についても、構成要素とあわせて解析を行う。構成要素の解析結果は、状況データと関連付けて、記憶部130に保存する。構成要素解析処理の詳細については、後述する。
図6は、画像の構成要素解析処理の一例である。画像601と「恋人」という状況データが入力された場合に、構成要素解析モジュール111がどのように構成要素を解析するかの一例を示している。構成要素解析モジュール111は、画像601の特徴点を抽出することにより、物体Xとして物体610を検出する。その特徴から、物体Xは「(人:女性)」であるとする。また、その物体Xの部位として、部位1(図6の部位611)、部位2(図6の部位612)、部位3(図6の部位613)を検出する。それぞれの特徴から、物体Xの部位1は「(顔:正面)」、物体Xの部位2は「(腕:右手)」、物体Xの部位3は「(体:正面)」と種類を解析する。更に、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても詳しく解析を行う。図6の例では、物体Xの部位1(顔)の解析結果621として「位置:部位3(体)の上部、方向:正面、カメラ目線、表情:スマイル」、物体Xの部位2(腕)の解析結果622として「位置:部位3(体)の手前、方向:手のひらが上、差し出す」、物体Xの部位3(体)の解析結果623として「位置:部位1(顔)の下部、部位2(手)の奥、方向:正面、前かがみ」であることを表している。また、背景690は、「海辺」であると解析している。
コンピュータ100の状況取得モジュール112は、状況データの文字を取得して、その文字に関連した類似の画像データを、検索して取得する(ステップS303)。ここでは、「恋人」という状況データの文字で、外部の検索エンジン等の画像検索コンピュータを利用して検索を行い、「恋人」による検索結果の画像を複数取得する。外部の画像検索コンピュータ等を利用することで、状況データに合致する多数の画像を手間無く取得することが可能となる。
次に、コンピュータ100の学習モジュール113は、取得した複数の画像と検索を行った状況データの文字とを関連付けたものを教師データとして、学習する(ステップS304)。ここでは、状況データが「恋人」である時に、各画像の構成要素と組み合わせがどのような状態であるかを、学習する。取得した画像の構成要素解析は、ステップS302で行ったのと同じく、構成要素解析モジュール111を利用するものとする。構成要素の解析結果は、状況データと関連付けて、記憶部130に保存する。
次に、コンピュータ100は、物体状況推測モジュール114による物体状況の推測が可能な状態であるかどうかを確認する(ステップS305)。この段階で、ステップS301からステップS304までを何度も繰り返し、十分な状況データについての学習が行われていれば、物体状況推測モジュール114による物体状況の推測が可能である。十分な学習が行われていて物体状況の推測が可能であればステップS306に進み、十分な学習が行われていない場合には、ステップS301に戻って処理を繰り返す。
学習が完了している場合、コンピュータ100は、物体状況判断システム1のユーザから、状況判断を行いたい画像データの入力を受け付ける(ステップS306)。ここでの入力は、コンピュータ100の入力部140を介して行ってもよいし、ユーザが使用する他のコンピュータや端末から、通信部120を介して行ってもよいものとする。
コンピュータ100の物体状況推測モジュール114は、ステップS306で入力された画像データの物体の状況を推測する(ステップS307)。物体の状況を推測するためには、構成要素解析モジュール111を利用して入力された画像の構成要素を解析し、その構成要素の組み合わせと解析結果が、ステップS304で行った状況データの学習の結果それぞれと類似又は同一であるかを判定する。類似又は同一である場合には、該当した学習結果の状況データを、物体の状況として出力する。ここで、類似であるかどうかの判定は、ある一定の閾値内であるかどうかを判定してもよい。物体状況推測処理の詳細については、後述する。
最後にコンピュータ100の物体状況推測モジュール114は、ステップS307の推測結果を出力する(ステップS308)。ここでの出力は、コンピュータ100の出力部150に行ってもよいし、通信部120を介して、ユーザが使用する他のコンピュータや端末の出力部に行ってもよいものとする。
ここでは、ステップS301で、学習のために、画像と状況データ両方の入力を受け付ける例を示したが、ステップS301で画像のみの入力を受け付けることにしてもよい。その場合は、状況取得モジュール112が、状況データの文字を取得するために、入力された画像を用いた検索を行うことで、画像にふさわしい文字列を取得することが可能である。画像を用いた検索には、外部の画像検索コンピュータを用いてもよい。
以上のように、本発明によれば、画像内の物体の特徴点を抽出して構成要素を解析したものと、その物体の状況データの組み合わせを関係づけておき、状況データに関連した画像を画像検索コンピュータから取得して、取得した画像と状況データを教師データとして画像の構成要素の組み合わせを自動で学習することで、画像を準備する手間を省き、かつ、画像内の物体の状況を高精度に推測することが可能な物体状況判断システム、物体状況判断方法、およびプログラムを提供することができる。
[構成要素解析処理]
図4は、構成要素解析処理のフローチャート図である。図3のステップS302の処理に該当する。
構成要素解析処理として、まず、構成要素解析モジュール111は、画像内の物体の数を確認する(ステップS401)。画像内の物体が複数である場合にはステップS402に進み、物体が単数である場合にはステップS403に進み、物体が無い場合には処理を終了する。
はじめに、物体が単数である場合の例を説明する。物体が単数である場合、構成要素解析モジュール111は、その物体の構成要素を解析する(ステップS403)。
図6は、物体が単数の場合の、画像の構成要素解析処理の一例である。画像601と「恋人」という状況データが入力された場合に、構成要素解析モジュール111がどのように構成要素を解析するかの一例を示している。構成要素解析モジュール111は、画像601の特徴点を抽出することにより、物体Xとして物体610を検出する。その特徴から、物体Xは「(人:女性)」であるとする。また、その物体Xの部位として、部位1(図6の部位611)、部位2(図6の部位612)、部位3(図6の部位613)を検出する。それぞれの特徴から、物体Xの部位1は「(顔:正面)」、物体Xの部位2は「(腕:右手)」、物体Xの部位3は「(体:正面)」と種類を解析する。更に、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても詳しく解析を行う。図6の例では、物体Xの部位1(顔)の解析結果621として「位置:部位3(体)の上部、方向:正面、カメラ目線、表情:スマイル」、物体Xの部位2(腕)の解析結果622として「位置:部位3(体)の手前、方向:手のひらが上、差し出す」、物体Xの部位3(体)の解析結果623として「位置:部位1(顔)の下部、部位2(手)の奥、方向:正面、前かがみ」であることを表している。また、背景690は、「海辺」であると解析している。
図4に戻り、構成要素解析モジュール111は、ステップS403で解析した構成要素の組み合わせと状況データを関連づける(ステップS406)。具体的には、図6の例では、状況データ「恋人」のデータとして、物体X「(人:女性)」、物体Xの部位1「(顔:正面)位置:部位3(体)の上部、方向:正面、カメラ目線、表情:スマイル」、物体Xの部位2「(腕:右手)位置:部位3(体)の手前、方向:手のひらが上、差し出す」、物体Xの部位3「(体:正面)位置:部位1(顔)の下部、部位2(手)の奥、方向:正面、前かがみ」、「背景:海辺」の組み合わせを関連付ける。ここで、すべての構成要素を関連付けてもよいし、一部の重要な構成要素を関連づけてもよい。
最後に、構成要素解析モジュール111は、ステップS406で関連付けたデータを記憶部130に保存する(ステップS407)。以上が、物体が単数である場合の処理フローである。
次に、物体が複数である場合の例を説明する。
図7は、物体が複数の場合の、画像の構成要素解析処理の一例である。画像701と「恋人」という状況データが入力された場合に、構成要素解析モジュール111がどのように構成要素を解析するかの一例を示している。ステップS501において、構成要素解析モジュール111は、画像701の特徴点を抽出することにより、物体Aとして物体710を検出する。また、物体Bとして物体720を検出する。このため、画像701の物体は複数であるとする。
図4のフローチャートに戻り、物体が複数である場合、構成要素解析モジュール111は、未選択の物体を一つ選択する(ステップS402)。図7では、物体Aをまず選択したものとする。
次に、構成要素解析モジュール111は、選択した物体Aの構成要素を解析する(ステップS403)。その特徴から、図7の物体Aは「(人:女性)」であるとする。また、その物体Aの部位として、部位1(図7の部位711)を検出する。更に、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても詳しく解析を行い、物体Aの部位1は「(顔:右側)」であるとする。また、背景790についても、ここで解析してもよい。背景790は、「海辺」であると解析している。
図4に戻り、構成要素解析モジュール111は、全ての物体の解析が終了したかを確認する(ステップS404)。ここでは、すべての物体の解析が終了していないため、ステップS402に戻り、物体Bを選択したものとする。
次に、構成要素解析モジュール111は、選択した物体Bの構成要素を解析する(ステップS403)。その特徴から、図7の物体Bは「(人:男性)」であるとする。また、その物体Bの部位として、部位1(図7の部位721)、部位2(図7の部位722)を検出する。更に、検出した物体の姿勢、形、方向、表情、物体の部位の種類、位置、についても詳しく解析を行い、物体Bの部位1は「(顔:左側)」、部位2は「腕:左手」であるとする。
図4に戻り、構成要素解析モジュール111は、全ての物体の解析が終了したかを確認する(ステップS404)。ここでは、すべての物体の解析が終了しているため、次のステップS405に進む。
構成要素解析モジュール111は、画像701の構成要素を、複数の物体間で相対的に解析する(ステップS405)。具体的には、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置等が挙げられる。図7の画像701の例では、物体Aの部位1(顔)と物体Bの部位1(顔)について、解析結果731として「位置:10cm未満、方向:向き合う、表情:物体A:スマイル、物体B:スマイル」と解析していることを示している。
図4に戻り、構成要素解析モジュール111は、ステップS403で解析した構成要素の組み合わせと、ステップS405で解析した構成要素の相対関係と、状況データを関連づける(ステップS406)。具体的には、図7の例では、状況データ「恋人」のデータとして、物体A「(人:女性)」、物体Aの部位1「(顔:右側)」、物体B「(人:男性)」、物体Bの部位1「(顔:左側)」、物体Bの部位2「(腕:左手)」、物体Aの部位1と物体Bの部位1「位置:10cm未満、方向:向き合う、表情:物体A:スマイル、物体B:スマイル」、「背景:海辺」の組み合わせを関連付ける。ここで、すべての構成要素を関連付けてもよいし、一部の重要な構成要素を関連づけてもよい。
最後に、構成要素解析モジュール111は、ステップS406で関連付けたデータを記憶部130に保存する(ステップS407)。
以上のように、物体が単数の場合にも複数の場合にも、適切な構成要素の解析処理を行うことが可能である。
[物体状況推測処理]
図5は、物体状況推測処理のフローチャート図である。図3のステップS307の処理に該当する。
物体状況推測処理のステップS501からステップS505は、構成要素解析処理のステップS401からステップS405に相当する。これらの処理について、物体状況推測モジュール114は、構成要素解析モジュール111を利用して行ってもよい。また、処理の詳細は前述の通りであるため、省略する。
物体状況推測モジュール114は、ステップS503とステップS505の解析結果について、記憶部130に保存された学習済データと同一又は類似のものがあるかどうかを確認する(ステップS506)。ある場合には、ステップS507に進み、ない場合には、ステップS508に進む。
記憶部130に保存された学習済データと同一又は類似のものがある場合、同一又は類似のものの状況データを、入力された画像の物体状況推測結果とする(ステップS507)。
記憶部130に保存された学習済データと同一又は類似のものがない場合、入力された画像の物体状況推測は不可能とする(ステップS508)。
以上のように、入力された画像データに適した状況データを物体状況の推測結果とすることが可能である。
[物体状況判断結果の出力処理]
図8は、物体状況判断システム1の出力の画面の一例である。図3のステップS308で、コンピュータ100の出力部150又はユーザの利用する端末の出力部に、このような画面810を表示してもよい。ボタン806で物体状況判断システム1のメニュー画面に戻り、ボタン807で物体状況判断システム1を終了するものとする。表示801として、入力画像の状況判断結果を推測結果として文字で表示している。図8の例では、推測結果は「恋人」である。また、表示802として、推測結果の他の候補を表示している。図5のフローチのャートでは、該当する推測結果が1つのみの場合を説明したが、例えば類似の学習済データが複数あった場合等の該当する推測結果が複数ある場合に、複数の推測結果を表示してもよい。また、表示803として、ユーザからのフィードバックを受ける場合の例を示している。ユーザから、推測がふさわしかったか、ふさわしくなかったかのフィードバックを受けて、その結果を教師データとして再度学習を行うことで、より物体状況判断システム1の精度を上げることが可能となる。ラジオボタンで「満足(推測が相応しい)」か「不満足(推測結果が相応しくない)」かを選択し、「不満足(推測結果が相応しくない)」である場合には、テキストボックス804に正しい結果を入力してもらい、ボタン805でフィードバックを送信してもらう。物体状況判断システム1が文字データを受信して、フィードバックされた文字を状況データとし、入力画像とあわせて図3のステップS301からS304を行うことで、新たな学習が可能である。
以上のように、本発明によれば、ユーザからのフィードバックを受け付けることでより判断精度を高めることが可能な物体状況判断システム、物体状況判断方法、およびプログラムを提供することができる。
上述した手段、機能は、コンピュータ(CPU、情報処理装置、各種端末を含む)が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、コンピュータからネットワーク経由で提供される(SaaS:ソフトウェア・アズ・ア・サービス)形態であってもよいし、フレキシブルディスク、CD(CD−ROM等)、DVD(DVD−ROM、DVD−RAM等)、コンパクトメモリ等のコンピュータ読取可能な記録媒体に記録された形態で提供される形態であってもよい。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置又は外部記憶装置に転送し記憶して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記憶装置(記録媒体)に予め記録しておき、その記憶装置から通信回線を介してコンピュータに提供するようにしてもよい。
以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
1 物体状況判断システム、100 コンピュータ

Claims (6)

  1. 学習用の画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも2つに関する構成要素を前記画像内の特徴点を抽出して解析する構成要素解析手段と、
    前記物体がどのような状況であるかの状況データ文字を取得してその文字に関連した複数の画像を画像検索コンピュータで検索して取得する状況取得手段と、
    取得した複数の画像の構成要素を、前記構成要素解析手段により解析し、各画像の構成要素の組み合わせと、取得した前記状況データを関係づけて学習する学習手段と、
    所定の画像に対して前記構成要素解析手段により解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測する物体状況推測手段と、
    を備えることを特徴とする物体状況判断システム。
  2. 前記画像内に複数の物体が撮影されている場合に、
    前記構成要素解析手段は、複数の物体それぞれを画像解析し、解析された物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景の少なくとも2つを前記画像内の特徴点を抽出して解析し、
    前記複数の物体が全体として何を行っているかを解析することを特徴とする請求項1に記載の物体状況判断システム。
  3. 前記画像内に複数の物体が撮影されている場合に、
    前記構成要素解析手段は、物体の組み合わせ、物体間の相対位置、物体の部位の相対位置の少なくとも1つを構成要素として抽出して解析することを特徴とする請求項1又は請求項2に記載の物体状況判断システム。
  4. 前記状況取得手段は、前記画像を用いた検索を行うことで、前記文字を取得することを特徴とする請求項1から請求項3の何れか一項に記載の物体状況判断システム。
  5. 物体状況判断システムに、
    学習用の画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも2つに関する構成要素を前記画像内の特徴点を抽出して解析するステップと、
    前記物体がどのような状況であるかの状況データ文字を取得してその文字に関連した複数の画像を検索する画像検索コンピュータで検索して取得するステップと、
    取得した複数の画像の構成要素を、前記解析するステップにより解析し、各画像の構成要素の組み合わせと、取得した前記状況データを関係づけて学習するステップと、
    所定の画像に対して前記解析するステップにより解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測するステップと、
    を備えることを特徴とする物体状況判断方法。
  6. 物体状況判断システムに、
    学習用の画像内に撮影された物体、当該物体の姿勢、形、方向、表情、当該物体の部位の種類、位置、撮影された画像の背景、の少なくとも2つに関する構成要素を前記画像内の特徴点を抽出して解析するステップ、
    前記物体がどのような状況であるかの状況データ文字を取得してその文字に関連した複数の画像を検索する画像検索コンピュータで検索して取得するステップ、
    取得した複数の画像の構成要素を、前記解析するステップにより解析し、各画像の構成要素の組み合わせと、取得した前記状況データを関係づけて学習するステップ、
    所定の画像に対して前記解析するステップにより解析された結果が、前記構成要素の組み合わせと類似又は同一の場合に、前記状況データの学習結果に基づいて、前記物体の状況を推測するステップ、
    を実行させるためのプログラム。
JP2020547731A 2018-09-27 2018-09-27 物体状況判断システム、物体状況判断方法、およびプログラム Active JP6963352B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/036000 WO2020065839A1 (ja) 2018-09-27 2018-09-27 物体状況判断システム、物体状況判断方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2020065839A1 JPWO2020065839A1 (ja) 2021-08-30
JP6963352B2 true JP6963352B2 (ja) 2021-11-05

Family

ID=69950517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020547731A Active JP6963352B2 (ja) 2018-09-27 2018-09-27 物体状況判断システム、物体状況判断方法、およびプログラム

Country Status (4)

Country Link
US (1) US11210335B2 (ja)
JP (1) JP6963352B2 (ja)
CN (1) CN113646800A (ja)
WO (1) WO2020065839A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7348754B2 (ja) * 2019-06-03 2023-09-21 キヤノン株式会社 画像処理装置及びその制御方法、プログラム、記憶媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005100122A (ja) * 2003-09-25 2005-04-14 Fuji Photo Film Co Ltd 識別処理に用いる特徴量の種類と識別条件を決定する装置、プログラムならびにプログラムを記録した記録媒体、および特定内容のデータを選別する装置
JP2007209008A (ja) 2003-10-21 2007-08-16 Matsushita Electric Ind Co Ltd 監視装置
JP2007041762A (ja) * 2005-08-02 2007-02-15 Seiko Epson Corp 画像認識装置
JP2010092199A (ja) * 2008-10-07 2010-04-22 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
CN102422286A (zh) * 2009-03-11 2012-04-18 香港浸会大学 利用图像获取参数和元数据自动和半自动的图像分类、注释和标签
US20110047163A1 (en) * 2009-08-24 2011-02-24 Google Inc. Relevance-Based Image Selection
JP4926266B2 (ja) * 2010-07-13 2012-05-09 ヤフー株式会社 学習データ作成装置、学習データ作成方法及びプログラム
CN102298604A (zh) * 2011-05-27 2011-12-28 中国科学院自动化研究所 基于多媒体分析的视频事件检测方法
JP6402653B2 (ja) * 2015-03-05 2018-10-10 オムロン株式会社 物体認識装置、物体認識方法、およびプログラム
KR101833359B1 (ko) * 2016-03-22 2018-02-28 고려대학교 산학협력단 차량의 외부 영상 빅데이터를 이용한 교통 정보 수집 방법 및 장치
CN107562742B (zh) * 2016-06-30 2021-02-05 江苏苏宁云计算有限公司 一种图像数据处理方法及装置
JP6216024B1 (ja) 2016-11-15 2017-10-18 株式会社Preferred Networks 学習済モデル生成方法及び信号データ判別装置
CN108268510B (zh) * 2016-12-30 2022-01-28 华为技术有限公司 一种图像标注方法和装置
CN106886580B (zh) * 2017-01-23 2020-01-17 北京工业大学 一种基于深度学习的图片情感极性分析方法
CN111507216A (zh) * 2017-11-03 2020-08-07 阿里巴巴集团控股有限公司 无人值守场景中非法行为的识别方法和装置
CN108509880A (zh) * 2018-03-21 2018-09-07 南京邮电大学 一种视频人物行为语义识别方法
US10540554B2 (en) * 2018-03-29 2020-01-21 Toyota Jidosha Kabushiki Kaisha Real-time detection of traffic situation

Also Published As

Publication number Publication date
US20210311986A1 (en) 2021-10-07
JPWO2020065839A1 (ja) 2021-08-30
WO2020065839A1 (ja) 2020-04-02
US11210335B2 (en) 2021-12-28
CN113646800A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
US10616475B2 (en) Photo-taking prompting method and apparatus, an apparatus and non-volatile computer storage medium
CN106713811B (zh) 视频通话方法和装置
US20140198954A1 (en) Systems and methods of detecting body movements using globally generated multi-dimensional gesture data
CN106874826A (zh) 人脸关键点跟踪方法和装置
CN107911643B (zh) 一种视频通信中展现场景特效的方法和装置
US9536132B2 (en) Facilitating image capture and image review by visually impaired users
US10719695B2 (en) Method for pushing picture, mobile terminal, and storage medium
CN103988202A (zh) 基于索引和搜索的图像吸引力
US8917957B2 (en) Apparatus for adding data to editing target data and displaying data
TWI670628B (zh) 動作評量模型生成裝置及其動作評量模型生成方法
CN109919077A (zh) 姿态识别方法、装置、介质和计算设备
CN111240482A (zh) 一种特效展示方法及装置
CN112995757B (zh) 视频剪裁方法及装置
WO2018214115A1 (zh) 一种评价脸妆的方法及装置
CN111401318A (zh) 动作识别方法及装置
JPWO2020050413A1 (ja) 認証用顔画像候補判定装置、認証用顔画像候補判定方法、プログラム、および記録媒体
CN113657087A (zh) 信息的匹配方法及装置
EP3200092A1 (en) Method and terminal for implementing image sequencing
JP6963352B2 (ja) 物体状況判断システム、物体状況判断方法、およびプログラム
JP2006293720A (ja) 顔検出装置、顔検出方法、及び顔検出プログラム
KR102482841B1 (ko) 인공지능 미러링 놀이 가방
CN110750193B (zh) 一种基于人工智能的场景拓扑确定方法和装置
CN111582281B (zh) 一种图片显示优化的方法、装置、电子设备和存储介质
CN111428523B (zh) 翻译语料生成方法、装置、计算机设备及存储介质
CN111931510A (zh) 一种基于神经网络的意图识别方法及装置、终端设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210401

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210401

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211013

R150 Certificate of patent or registration of utility model

Ref document number: 6963352

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150