JPWO2020152843A1 - 処理装置、処理方法及びプログラム - Google Patents

処理装置、処理方法及びプログラム Download PDF

Info

Publication number
JPWO2020152843A1
JPWO2020152843A1 JP2020567329A JP2020567329A JPWO2020152843A1 JP WO2020152843 A1 JPWO2020152843 A1 JP WO2020152843A1 JP 2020567329 A JP2020567329 A JP 2020567329A JP 2020567329 A JP2020567329 A JP 2020567329A JP WO2020152843 A1 JPWO2020152843 A1 JP WO2020152843A1
Authority
JP
Japan
Prior art keywords
event
person
time
image
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020567329A
Other languages
English (en)
Other versions
JP7192888B2 (ja
Inventor
健全 劉
利亭 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020152843A1 publication Critical patent/JPWO2020152843A1/ja
Application granted granted Critical
Publication of JP7192888B2 publication Critical patent/JP7192888B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/44Event detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Abstract

本発明は、時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する事象抽出部(11)と、第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する事象情報生成部(12)と、事象情報に基づき、第1の事象と第2の事象との間の因果関係を示すスコアを算出する因果関係算出部(13)と、時系列画像群から抽出された第1の事象及び第2の事象の内、スコアが所定条件を満たす第1の事象及び第2の事象を示す情報を出力する出力部(14)と、を有する処理装置(10)を提供する。

Description

本発明は、処理装置、処理方法及びプログラムに関する。
非特許文献1は、手書き画像に基づいた動画検索技術を開示している。当該技術では、入力欄において手書き画像の入力を受付けると、手書き画像に類似するシーンを検索し、出力する。
Claudiu Tanase、他7名、"Semantic Sketch-Based Video Retrieval with Auto completion"、[Online]、[平成29年9月5日検索]、インターネット<URL: https://iui.ku.edu.tr/sezgin_publications/2016/Sezgin-IUI-2016.pdf>
動画像を解析し、「第1の人物が第2の人物に第1の物を渡す」等のように、複数の物体(人物及び物)により定義される出来事の発生を検出する技術が望まれている。特に、検出対象の出来事に関わる物体(人物や物)が画像内に存在するが、その出来事が起きたシーン(例:物を渡すシーン)が画像内に存在しないような場合に、画像解析でその出来事の発生を検出する技術が望まれている。非特許文献1は、当該課題を解決する手段を開示しない。
本発明は、検出対象の出来事が起きたシーンが画像内に存在しないような場合であっても、画像解析でその出来事の発生を検出できるようにすることを課題とする。
本発明によれば、
時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する事象抽出手段と、
第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する事象情報生成手段と、
前記事象情報に基づき、前記第1の事象と前記第2の事象との間の因果関係を示すスコアを算出する因果関係算出手段と、
前記時系列画像群から抽出された前記第1の事象及び前記第2の事象の内、前記スコアが所定条件を満たす前記第1の事象及び前記第2の事象を示す情報を出力する出力手段と、
を有する処理装置が提供される。
また、本発明によれば、
コンピュータが、
時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する事象抽出工程と、
第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する事象情報生成工程と、
前記事象情報に基づき、前記第1の事象と前記第2の事象との間の因果関係を示すスコアを算出する因果関係算出工程と、
前記時系列画像群から抽出された前記第1の事象及び前記第2の事象の内、前記スコアが所定条件を満たす前記第1の事象及び前記第2の事象を示す情報を出力する出力工程と、
を有する処理方法が提供される。
また、本発明によれば、
コンピュータを、
時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する事象抽出手段、
第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する事象情報生成手段、
前記事象情報に基づき、前記第1の事象と前記第2の事象との間の因果関係を示すスコアを算出する因果関係算出手段、
前記時系列画像群から抽出された前記第1の事象及び前記第2の事象の内、前記スコアが所定条件を満たす前記第1の事象及び前記第2の事象を示す情報を出力する出力手段、
として機能させるプログラムが提供される。
本発明によれば、検出対象の出来事が起きたシーン(例:物を渡すシーン)が画像内に存在しないような場合であっても、画像解析でその出来事の発生を検出できるようになる。
上述した目的、及び、その他の目的、特徴及び利点は、以下に述べる好適な実施の形態、及び、それに付随する以下の図面によって、さらに明らかになる。
本実施形態の処理装置のハードウエア構成の一例を示す図である。 本実施形態の処理装置の機能ブロック図の一例である。 事象を抽出する処理の一例を説明するための図である。 第1の事象及び第2の事象を決定する処理の一例を説明するための図である。 複数の第1の事象関連状態の一例を説明するための図である。 複数の第2の事象関連状態の一例を説明するための図である。 事象情報の一例を示す図である。 具体的な値を用いて事象情報を例示する図である。 第1のカメラで生成された画像データから生成された事象情報を例示する図である。 第2のカメラで生成された画像データから生成された事象情報を例示する図である。 スコアの算出に用いる確率を具体的に算出した例を示す図である。 スコアの算出に用いる確率を具体的に算出した例を示す図である。 スコアの算出に用いる確率を具体的に算出した例を示す図である。 スコアの算出に用いる確率を具体的に算出した例を示す図である。 スコアの算出に用いる確率を具体的に算出した例を示す図である。 スコアの算出に用いる確率を具体的に算出した例を示す図である。 スコアの算出に用いる確率を具体的に算出した例を示す図である。 本実施形態の処理装置の処理の流れの一例を示すフローチャートである。 複数の第1の事象関連状態の一例を説明するための図である。 複数の第2の事象関連状態の一例を説明するための図である。
<第1の実施形態>
まず、本実施形態の処理装置の概要を説明する。まず、処理装置は、時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する。抽出する事象の例は、「男(成人)がカバン(黒)を所持している」、「女(成人)がカバン(黒)を所持している」、「男(子供)がボール(赤)を所持している」等であるが、これらに限定されない。
次いで、処理装置は、抽出した事象の中から、検出対象の出来事に関わる複数の事象を抽出する。検出対象の出来事は、複数の物体(人物及び物)により定義される出来事であり、例えば、「男(成人)がカバン(黒)を女(成人)に渡す」等である。検出対象の出来事が当該例である場合、検出対象の出来事に関わる複数の事象は、「男(成人)がカバン(黒)を所持している」及び「女(成人)がカバン(黒)を所持している」等となる。
次いで、処理装置は、抽出した「複数の事象」の間の因果関係を示すスコアを算出する。そして、処理装置は、画像から抽出した事象の内、当該スコアが所定条件を満たす複数の事象の組合せを出力する。
このように、処理装置は、検出対象の出来事に関わる複数の事象であって、因果関係が基準レベルより大きい事象の組合せを検出できる。このため、検出対象の出来事が起きたシーンが画像内に存在しないような場合であっても、画像解析でその出来事の発生を検出できるようになる。
次に、本実施形態の処理装置の構成を詳細に説明する。まず、処理装置のハードウエア構成の一例について説明する。本実施形態の処理装置が備える各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
図1は、本実施形態の処理装置のハードウエア構成を例示するブロック図である。図1に示すように、処理装置は、プロセッサ1A、メモリ2A、入出力インターフェイス3A、周辺回路4A、バス5Aを有する。周辺回路4Aには、様々なモジュールが含まれる。処理装置は周辺回路4Aを有さなくてもよい。なお、処理装置は物理的及び/又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。
バス5Aは、プロセッサ1A、メモリ2A、周辺回路4A及び入出力インターフェイス3Aが相互にデータを送受信するためのデータ伝送路である。プロセッサ1Aは、例えばCPU、GPU(Graphics Processing Unit)などの演算処理装置である。メモリ2Aは、例えばRAM(Random Access Memory)やROM(Read Only Memory)などのメモリである。入出力インターフェイス3Aは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ1Aは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。
次に、処理装置の機能構成の一例について説明する。図2の機能ブロック図に示すように、処理装置10は、事象抽出部11と、事象情報生成部12と、因果関係算出部13と、出力部14とを有する。
事象抽出部11は、時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する。処理対象とする時系列画像群は、カメラで生成された動画データに含まれる全てのフレーム画像であってもよいし、当該動画データから所定間隔おき(例:数秒おき、数フレームおき)にピックアップしたフレーム画像であってもよい。
また、事象抽出部11は、複数のカメラ各々で生成された複数の動画データに含まれる時系列画像群を処理対象として、上記事象を抽出する処理を実行することができる。
抽出する事象の例は、「男(成人)がカバン(黒)を所持している」、「女(成人)がカバン(黒)を所持している」、「男(子供)がボール(赤)を所持している」等であるが、これらに限定されない。
図3を用いて、事象抽出部11が行う抽出処理の具体例を説明する。図示するPは、時系列画像群に含まれる画像であり、図ではm個の画像が示されている。なお、mの数は設計的事項である。nは各画像を識別する通番である。
例えば図示するように、抽出対象とする「人物」、「物」及び「人物と物との間の関係」が予め定義されていてもよい。図示するSが抽出対象となる人物であり、Oが抽出対象となる物であり、Vが抽出対象となる人物と物との間の関係である。
人物と物とが互いに関係する事象は、例えば図示するように、(S、V、O)の3つの値の組合せで表すことができる。(S、V、O)=(男(成人)、所持、カバン(黒))は、「男(成人)がカバン(黒)を所持している」という事象を表す。
事象抽出部11は、あらゆる技術を利用して上記抽出を実現することができる。例えば、予め、抽出対象とする各人物、各物及び各人物と物との間の関係の外観の特徴が登録されており、事象抽出部11は画像解析で当該特徴を画像内で検索することで上記抽出を実現してもよい。その他、事象抽出部11は、resnet(residual network)やLSTM(long short term memory)等の機械学習の技術を利用して上記抽出を実現してもよい。
図2に戻り、事象情報生成部12は、第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する。
事象情報を生成するため、まず、事象情報生成部12は、第1の事象(S1、V1、O1)及び第2の事象(S2、V2、O2)を決定する。
1つの例として、オペレータが、S1、V1、O1、S2、V2及びO2を直接指定する入力を処理装置10に対して行ってもよい。第1の事象を「男(成人)がカバン(黒)を所持している」としたい場合、オペレータは、S1として「男(成人)」を指定し、V1として「所持」を指定し、O1として「カバン(黒)」を指定する入力を行うこととなる。
他の例として、オペレータは、検出したい出来事を指定する入力を処理装置10に対して行ってもよい。例えば、オペレータは、「成人の男が黒いカバンを成人の女に渡す」等の文章を処理装置10に入力してもよい。この例の場合、事象情報生成部12は、当該文章を構文解析などして、当該文章からS1、S2、O1、O2とする名詞を抽出する。また、事象情報生成部12は、当該文章から動詞を抽出し、抽出した動詞と、抽出した動詞をV1及びV2に変換する変換ルールとに基づき、V1及びV2を決定する。図4に、当該処理の概念図を示す。
このように、事象情報生成部12は、指定された検索条件に基づき、第1の人物(S1)、第1の物(O1)及び第1の関係(V1)を指定した第1の事象を決定するとともに、第2の人物(S2)、第2の物(O2)及び第2の関係(V2)を指定した第2の事象を決定することができる。指定された検索条件は、S1、V1、O1、S2、V2及びO2を直接指定したものや、検出したい出来事を指定したもの等である。
例えば上述のようにして第1の事象及び第2の事象を決定した後、事象情報生成部12は、第1の事象の時系列な変化を示すとともに、第2の事象の時系列な変化を示す事象情報を生成する。
具体的には、事象情報生成部12は、第1の人物、第1の物及び第1の関係各々が画像に含まれるか否かに応じて、第1の事象に関連する複数の第1の事象関連状態を定義する。そして、事象情報生成部12は、各画像を複数の第1の事象関連状態のいずれかに分類し、第1の事象関連状態の時系列な変化を示す事象情報を生成する。
図5を用いて、複数の第1の事象関連状態の定義の仕方の一例を説明する。図示する例では、3つの第1の事象関連状態を定義している。
「第1の事象関連状態:3」は、第1の人物(S1:男(成人))、第1の物(O1:カバン(黒))及び第1の関係(V1:所持)の全てが画像に含まれる状態である。すなわち、S1、V1及びO1で定義される第1の事象が起きている状態である。
「第1の事象関連状態:1」は、第1の人物(S1:男(成人))が画像に含まれるが、第1の物(O1:カバン(黒))及び第1の関係(V1:所持)が画像に含まれない状態である。すなわち、S1、V1及びO1で定義される第1の事象が起きていないが、第1の事象に関わる第1の人物が画像に存在する状態である。
「第1の事象関連状態:0」は、第1の人物(S1:男(成人))、第1の物(O1:カバン(黒))及び第1の関係(V1:所持)の全てが画像に含まれない状態である。すなわち、S1、V1及びO1で定義される第1の事象が起きておらず、第1の事象に関わる第1の人物が画像に存在しない状態である。
なお、「第1の事象関連状態:3」及び「第1の事象関連状態:1」のいずれにも該当しない画像すべてを「第1の事象関連状態:0」に分類することとしてもよい。
同様に、事象情報生成部12は、第2の人物、第2の物及び第2の関係各々が画像に含まれるか否かに応じて、第2の事象に関連する複数の第2の事象関連状態を定義する。そして、事象情報生成部12は、各画像を複数の第2の事象関連状態のいずれかに分類し、第2の事象関連状態の時系列な変化を示す事象情報を生成する。
図6を用いて、複数の第2の事象関連状態の定義の仕方の一例を説明する。図示する例では、3つの第2の事象関連状態を定義している。
「第2の事象関連状態:3」は、第2の人物(S2:女(成人))、第2の物(O2:カバン(黒))及び第2の関係(V2:所持)の全てが画像に含まれる状態である。すなわち、S2、V2及びO2で定義される第2の事象が起きている状態である。
「第2の事象関連状態:1」は、第2の人物(S2:女(成人))が画像に含まれるが、第2の物(O2:カバン(黒))及び第2の関係(V2:所持)が画像に含まれない状態である。すなわち、S2、V2及びO2で定義される第2の事象が起きていないが、第2の事象に関わる第2の人物が画像に存在する状態である。
「第2の事象関連状態:0」は、第2の人物(S2:女(成人))、第2の物(O2:カバン(黒))及び第2の関係(V2:所持)の全てが画像に含まれない状態である。すなわち、S2、V2及びO2で定義される第2の事象が起きておらず、第2の事象に関わる第2の人物が画像に存在しない状態である。
なお、「第2の事象関連状態:3」及び「第2の事象関連状態:1」のいずれにも該当しない画像すべてを「第2の事象関連状態:0」に分類することとしてもよい。
第1の事象関連状態の時系列な変化及び第2の事象関連状態の時系列な変化を示す事象情報は、例えば図7のように表すことができる。
HOI(第1の事象)は、第1の事象関連状態の時系列な変化を示す事象情報である。図示する例では、m個のxの値が時系列順に並んでいる。xは、n番目の画像が第1の事象関連状態のいずれに分類されたかを示す。図5を用いて説明した例の場合、xは0、1、3のいずれかの値をとる。
HOJ(第2の事象)は、第2の事象関連状態の時系列な変化を示す事象情報である。図示する例では、m個のyの値が時系列順に並んでいる。yは、n番目の画像が第2の事象関連状態のいずれに分類されたかを示す。図6を用いて説明した例の場合、yは0、1、3のいずれかの値をとる。
図8に、x及びyに具体的な値をあてはめた事象情報の具体例を示す。図示する例の場合、14個の時系列な画像における第1の事象及び第2の事象の時系列な変化を示す。図7及び図8を比較しながら参照すると、n=1の画像の第1の事象関連状態を示すxは0であり、第2の事象関連状態を示すyは0であることが分かる。また、n=2の画像の第1の事象関連状態を示すxは1であり、第2の事象関連状態を示すyは0であることが分かる。
事象情報を何個の時系列な画像における第1の事象及び第2の事象の時系列な変化を示すものとするか、すなわちmの値は設計的事項である。しかし、第1の事象が起きているタイミング(第1の事象関連状態が3であるタイミング)、及び、第2の事象が起きているタイミング(第2の事象関連状態が3であるタイミング)を含むようにm個の時系列な画像を定めるのが好ましい。事象情報生成部12は、q個の画像を含む時系列画像群から、m個の時系列な画像における第1の事象及び第2の事象の時系列な変化を示す複数の事象情報を生成してもよい(m≦q)。複数の事象情報は、互いに異なるタイミングで切出されたm個の画像群における第1の事象及び第2の事象の時系列な変化を示すものであってもよい。また、複数の事象情報は、互いに異なる数の画像群(互いにmの数が異なる画像群)における第1の事象及び第2の事象の時系列な変化を示すものであってもよい。
なお、事象情報生成部12は、複数のカメラ各々で生成された複数の動画データに含まれる時系列画像群毎に上記手法で事象情報を生成し、各カメラに対応して生成した事象情報を時間同期して統合したものを最終的な事象情報として生成してもよい。
図9及び図10を用いて当該処理を詳細に説明する。図9に示すHOIC1(第1の事象)は、第1のカメラで生成された動画データに含まれる時系列画像群に基づき上記手法で生成した第1の事象に関する事象情報である。HOIC2(第1の事象)は、第2のカメラで生成された動画データに含まれる時系列画像群に基づき上記手法で生成した第1の事象に関する事象情報である。これら2つの事象情報を所定ルールで論理演算(統合)したものが図8に示すHOI(第1の事象)となる。
同様に、図10に示すHOIC1(第2の事象)は、第1のカメラで生成された動画データに含まれる時系列画像群に基づき上記手法で生成した第2の事象に関する事象情報である。HOIC2(第2の事象)は、第2のカメラで生成された動画データに含まれる時系列画像群に基づき上記手法で生成した第2の事象に関する事象情報である。これら2つの事象情報を所定ルールで論理演算(統合)したものが図8に示すHOI(第2の事象)となる。
所定ルールは、2つの入力値から1つの出力値を決定するものである。入力値は、「0」又は「0と異なる値」の2通りである。「0と異なる値」は複数の値をとることができる。出力値は、2つの入力値のいずれかの値となる。2つの入力値の少なくとも一方が「0と異なる値」である場合、出力値は「0と異なる値」となる。2つの入力値の両方が「0」である場合、出力値は「0」となる。
図2に戻り、因果関係算出部13は、事象情報生成部12が生成した事象情報に基づき、第1の事象と第2の事象との間の因果関係を示すスコアを算出する。
具体的には、因果関係算出部13は、以下の式(1)に基づき、第1の事象が第2の事象に起因して起きた確率TJ→Iを上記スコアとして算出する。
Figure 2020152843
また、因果関係算出部13は、以下の式(2)に基づき、第2の事象が第1の事象に起因して起きた確率TI→Jを上記スコアとして算出する。
Figure 2020152843
p(x)は、事象情報により第1の事象関連状態及び第2の事象関連状態の時系列な変化を示される画像群において、xで示される第1の事象関連状態が現れる確率を示す。
p(y)は、事象情報により第1の事象関連状態及び第2の事象関連状態の時系列な変化を示される画像群において、yで示される第2の事象関連状態が現れる確率を示す。
p(x、y)は、事象情報により第1の事象関連状態及び第2の事象関連状態の時系列な変化を示される画像群において、xで示される第1の事象関連状態とyで示される第2の事象関連状態が同時に現れる確率を示す。
p(xn+1、x)は、事象情報により第1の事象関連状態及び第2の事象関連状態の時系列な変化を示される画像群において、xで示される第1の事象関連状態が起きた直後にxn+1で示される第1の事象関連状態が起きる確率を示す。
p(yn+1、y)は、事象情報により第1の事象関連状態及び第2の事象関連状態の時系列な変化を示される画像群において、yで示される第2の事象関連状態が起きた直後にyn+1で示される第2の事象関連状態が起きる確率を示す。
p(xn+1、x、y)は、事象情報により第1の事象関連状態及び第2の事象関連状態の時系列な変化を示される画像群において、xで示される第1の事象関連状態とyで示される第2の事象関連状態が同時に起きた直後にxn+1で示される第1の事象関連状態が起きる確率を示す。
p(yn+1、x、y)は、事象情報により第1の事象関連状態及び第2の事象関連状態の時系列な変化を示される画像群において、xで示される第1の事象関連状態とyで示される第2の事象関連状態が同時に起きた直後にyn+1で示される第2の事象関連状態が起きる確率を示す。
事象情報生成部12が生成した事象情報が図8で示される場合、上記確率各々は図11乃至図17のように算出される。ここで、図11に示すp(x)を例にとり、確率の算出方法を説明する。上述の通り、xは0、1及び3のいずれかの値をとる。図7及び図8より、0となるxの数は7であり、1となるxの数は4であり、3となるxの数は3である。以上より、p(0)=7/(7+4+3)=7/14となる。同様に、p(1)=4/14となり、p(3)=3/14となる。
次に、図11乃至図17の例に基づき、n=1の場合に式(1)に代入される値を説明する。
まず、n=1の場合にp(x)に代入される値p(x)を説明する。図7及び図8より、x=0であるため、p(x)=p(0)となる。そして、図11より、p(x)の場合、p(0)=7/14である。以上より、n=1の場合にp(x)に代入される値p(x)は7/14となる。
次に、n=1の場合にp(x、y)に代入される値p(x、y)を説明する。図7及び図8より、x=y=0であるため、p(x、y)=p(0、0)となる。そして、図11より、p(x、y)の場合、p(0、0)は6/14である。以上より、n=1の場合にp(x、y)に代入される値p(x、y)は6/14となる。
次に、n=1の場合にp(xn+1、x)に代入される値p(x、x)を説明する。図7及び図8より、x=0、x=1であるため、p(x、x)=p(1、0)となる。そして、図14より、p(xn+1、x)の場合、p(1、0)は2/13である。以上より、n=1の場合にp(xn+1、x)に代入される値は2/13となる。
次に、n=1の場合にp(xn+1、x、y)に代入される値p(x、x、y)を説明する。図7及び図8より、x=y=0であり、x=1であるため、p(x、x、y)=p(1、0、0)となる。そして、図16より、p(xn+1、x、y)の場合、p(1、0、0)は2/13である。以上より、n=1の場合にp(xn+1、x、y)に代入される値は2/13となる。
ここで、式(1)及び式(2)を導き出す方法を説明する。まず、xとyが発生したときにxn+1が発生した際のエントロピー値を示すhは式(3)のように表すことができる。式(3)におけるp(xn+1|x、y)は、xとyが発生したときにxn+1が発生した確率を示す。
Figure 2020152843
また、xが発生したときにxn+1が発生した際のエントロピー値を示すhは式(4)のように表すことができる。式(4)におけるp(xn+1|x)は、xが発生したときにxn+1が発生した確率を示す。
Figure 2020152843
式(4)から式(3)を引くと式(5)のようになる。
Figure 2020152843
−hはyが発生したときにxn+1が発生した際のエントロピー値を表すので、事象発生の前後順を入れ替える場合は、式(6)及び式(7)のように表すことができる。
Figure 2020152843
Figure 2020152843
式(8)及び式(9)のように表すことができるので、式(6)及び式(7)は式(1)及び式(2)のように表すことができる。
Figure 2020152843
Figure 2020152843
このように、因果関係算出部13は、複数の第1の事象関連状態の中の第1−1の事象関連状態と、複数の第2の事象関連状態の中の第2−1の事象関連状態とが同時に現れる確率に基づき、上記スコアを算出することができる。
また、因果関係算出部13は、複数の第1の事象関連状態の中の第1−1の事象関連状態と、複数の第2の事象関連状態の中の第2−1の事象関連状態とが同時に現れ、かつ、複数の第1の事象関連状態の中の第1−2の事象関連状態が直後の画像に現れる確率に基づき、上記スコアを算出することができる。
また、因果関係算出部13は、複数の第1の事象関連状態の中の第1−1の事象関連状態が現れる確率に基づき、上記スコアを算出することができる。
また、因果関係算出部13は、複数の第1の事象関連状態の中の第1−1の事象関連状態が現れた直後の画像に複数の第1の事象関連状態の中の第1−2の事象関連状態が現れる確率に基づき、上記スコアを算出することができる。
図2に戻り、出力部14は、時系列画像群から抽出された第1の事象及び第2の事象の内、スコアが所定条件を満たす第1の事象及び第2の事象を示す情報を出力する。所定条件は、スコアが基準値以上である。
出力部14は、スコアが所定条件を満たす第1の事象及び第2の事象が起きているタイミング(事象情報生成部12が生成した事象情報(図8参照)において3を示しているタイミング)の画像を出力してもよい。
また、出力部14は、因果関係算出部13が算出したスコアを併せて出力してもよい。
また、出力部14は、事象抽出部11が処理対象とした時系列画像群の中から、スコアが所定条件を満たす第1の事象と第2の事象とのペアが複数検出された場合、最もスコアの大きいペアを示す情報を出力してもよいし、スコアの大きい順に並べて複数のペアを示す情報を出力してもよい。
次に、図18のフローチャートを用いて、処理装置10の処理の流れの一例を説明する。
S10では、事象抽出部11は、第1のカメラで生成されたq個の画像を含む時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する。また、事象抽出部11は、第2のカメラで生成されたq個の画像を含む時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する。
S11では、事象情報生成部12は、第1の事象及び第2の事象を決定する。次いで、事象情報生成部12は、第1のカメラで生成された時系列画像群の中のm個の画像群における第1の事象の時系列な変化、及び、第2の事象の時系列な変化を示す事象情報を生成する。同様に、事象情報生成部12は、第2のカメラで生成された時系列画像群の中のm個の画像群における第1の事象の時系列な変化、及び、第2の事象の時系列な変化を示す事象情報を生成する。
そして、事象情報生成部12は、第1のカメラで生成された時系列画像群の中のm個の画像群における第1の事象の時系列な変化を示す事象情報と、第2のカメラで生成された時系列画像群の中のm個の画像群における第1の事象の時系列な変化を示す事象情報とを時間同期して統合することで、第1の事象の時系列な変化を示す事象情報(最終版)を生成する。
同様に、事象情報生成部12は、第1のカメラで生成された時系列画像群の中のm個の画像群における第2の事象の時系列な変化を示す事象情報と、第2のカメラで生成された時系列画像群の中のm個の画像群における第2の事象の時系列な変化を示す事象情報とを時間同期して統合することで、第2の事象の時系列な変化を示す事象情報(最終版)を生成する。
S12では、因果関係算出部13は、S11で生成された事象情報に基づき、第1の事象と第2の事象との間の因果関係を示すスコアを算出する。
S13では、出力部14は、S11で抽出された第1の事象及び第2の事象の内、S12で算出されたスコアが所定条件を満たす第1の事象及び第2の事象を示す情報を出力する。
以上説明した本実施形態の処理装置10によれば、検出対象の出来事に関わる第1の事象及び第2の事象を画像から抽出し、それらの間の因果関係を示すスコアを算出することができる。検出対象の出来事は、例えば、「男(成人)がカバン(黒)を女(成人)に渡す」である。この場合の第1の事象は、例えば「男(成人)がカバン(黒)を所持している」であり、第2の事象は、例えば「女(成人)がカバン(黒)を所持している」である。
そして、処理装置10は、時系列画像群から抽出された第1の事象及び第2の事象の内、スコアが所定条件を満たす第1の事象及び第2の事象、すなわち互いの因果関係が基準レベルより大きい第1の事象及び第2の事象を示す情報を出力することができる。
このような処理装置10によれば、検出対象の出来事に関わる物体(人物や物)が画像内に存在するが、その出来事が起きたシーン(例:物を渡すシーン)が画像内に存在しないような場合であっても、画像解析でその出来事の発生を検出できるようになる。
<第2の実施形態>
本実施形態の処理装置10は、複数の第1の事象関連状態の定義の仕方及び複数の第2の事象関連状態の定義の仕方が第1の実施形態と異なる。処理装置10のその他の構成は、第1の実施形態と同様である。
図19を用いて、複数の第1の事象関連状態の定義の仕方の一例を説明する。図示する例では、4つの第1の事象関連状態を定義している。
「第1の事象関連状態:3」、「第1の事象関連状態:1」及び「第1の事象関連状態:0」は、第1の実施形態と同様である。「第1の事象関連状態:2」は、第1の人物(男(成人))が画像に含まれないが、第1の物(カバン(黒))及び第1の関係(所持)が画像に含まれる状態である。すなわち、S1、V1及びO1で定義される第1の事象が起きておらず、第1の事象に関わる第1の人物が画像に存在しないが、第1の事象に関わる第1の物体が画像に存在する状態である。
図20を用いて、複数の第2の事象関連状態の定義の仕方の一例を説明する。図示する例では、4つの第2の事象関連状態を定義している。
「第2の事象関連状態:3」、「第2の事象関連状態:1」及び「第2の事象関連状態:0」は、第1の実施形態と同様である。「第2の事象関連状態:2」は、第2の人物(女(成人))が画像に含まれないが、第2の物(カバン(黒))及び第2の関係(所持)が画像に含まれる状態である。すなわち、S2、V2及びO2で定義される第2の事象が起きておらず、第2の事象に関わる第2の人物が画像に存在しないが、第2の事象に関わる第2の物体が画像に存在する状態である。
本実施形態の処理装置10によれば、第1の実施形態の処理装置10と同様な作用効果を実現できる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
1. 時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する事象抽出手段と、
第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する事象情報生成手段と、
前記事象情報に基づき、前記第1の事象と前記第2の事象との間の因果関係を示すスコアを算出する因果関係算出手段と、
前記時系列画像群から抽出された前記第1の事象及び前記第2の事象の内、前記スコアが所定条件を満たす前記第1の事象及び前記第2の事象を示す情報を出力する出力手段と、
を有する処理装置。
2. 1に記載の処理装置において、
前記事象情報生成手段は、指定された検索条件に基づき、前記第1の人物、前記第1の物及び前記第1の関係を指定した前記第1の事象を決定するとともに、前記第2の人物、前記第2の物及び前記第2の関係を指定した前記第2の事象を決定する処理装置。
3. 1又は2に記載の処理装置において、
前記事象情報生成手段は、
前記第1の人物、前記第1の物及び前記第1の関係各々が画像に含まれるか否かに応じて、各画像を複数の第1の事象関連状態のいずれかに分類し、前記第1の事象関連状態の時系列な変化を示す前記事象情報を生成し、
前記第2の人物、前記第2の物及び前記第2の関係各々が画像に含まれるか否かに応じて、各画像を複数の第2の事象関連状態のいずれかに分類し、前記第2の事象関連状態の時系列な変化を示す前記事象情報を生成する処理装置。
4. 3に記載の処理装置において、
前記因果関係算出手段は、複数の前記第1の事象関連状態の中の第1−1の事象関連状態と、複数の前記第2の事象関連状態の中の第2−1の事象関連状態とが同時に現れる確率に基づき、前記スコアを算出する処理装置。
5. 3又は4に記載の処理装置において、
前記因果関係算出手段は、複数の前記第1の事象関連状態の中の第1−1の事象関連状態と、複数の前記第2の事象関連状態の中の第2−1の事象関連状態とが同時に現れ、かつ、複数の前記第1の事象関連状態の中の第1−2の事象関連状態が直後の画像に現れる確率に基づき、前記スコアを算出する処理装置。
6. 3から5のいずれかに記載の処理装置において、
前記因果関係算出手段は、複数の前記第1の事象関連状態の中の第1−1の事象関連状態が現れる確率に基づき、前記スコアを算出する処理装置。
7. 3から6のいずれかに記載の処理装置において、
前記因果関係算出手段は、複数の前記第1の事象関連状態の中の第1−1の事象関連状態が現れた直後の画像に複数の前記第1の事象関連状態の中の第1−2の事象関連状態が現れる確率に基づき、前記スコアを算出する処理装置。
8. コンピュータが、
時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する事象抽出工程と、
第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する事象情報生成工程と、
前記事象情報に基づき、前記第1の事象と前記第2の事象との間の因果関係を示すスコアを算出する因果関係算出工程と、
前記時系列画像群から抽出された前記第1の事象及び前記第2の事象の内、前記スコアが所定条件を満たす前記第1の事象及び前記第2の事象を示す情報を出力する出力工程と、
を有する処理方法。
9. コンピュータを、
時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する事象抽出手段、
第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する事象情報生成手段、
前記事象情報に基づき、前記第1の事象と前記第2の事象との間の因果関係を示すスコアを算出する因果関係算出手段、
前記時系列画像群から抽出された前記第1の事象及び前記第2の事象の内、前記スコアが所定条件を満たす前記第1の事象及び前記第2の事象を示す情報を出力する出力手段、
として機能させるプログラム。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

Claims (9)

  1. 時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する事象抽出手段と、
    第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する事象情報生成手段と、
    前記事象情報に基づき、前記第1の事象と前記第2の事象との間の因果関係を示すスコアを算出する因果関係算出手段と、
    前記時系列画像群から抽出された前記第1の事象及び前記第2の事象の内、前記スコアが所定条件を満たす前記第1の事象及び前記第2の事象を示す情報を出力する出力手段と、
    を有する処理装置。
  2. 請求項1に記載の処理装置において、
    前記事象情報生成手段は、指定された検索条件に基づき、前記第1の人物、前記第1の物及び前記第1の関係を指定した前記第1の事象を決定するとともに、前記第2の人物、前記第2の物及び前記第2の関係を指定した前記第2の事象を決定する処理装置。
  3. 請求項1又は2に記載の処理装置において、
    前記事象情報生成手段は、
    前記第1の人物、前記第1の物及び前記第1の関係各々が画像に含まれるか否かに応じて、各画像を複数の第1の事象関連状態のいずれかに分類し、前記第1の事象関連状態の時系列な変化を示す前記事象情報を生成し、
    前記第2の人物、前記第2の物及び前記第2の関係各々が画像に含まれるか否かに応じて、各画像を複数の第2の事象関連状態のいずれかに分類し、前記第2の事象関連状態の時系列な変化を示す前記事象情報を生成する処理装置。
  4. 請求項3に記載の処理装置において、
    前記因果関係算出手段は、複数の前記第1の事象関連状態の中の第1−1の事象関連状態と、複数の前記第2の事象関連状態の中の第2−1の事象関連状態とが同時に現れる確率に基づき、前記スコアを算出する処理装置。
  5. 請求項3又は4に記載の処理装置において、
    前記因果関係算出手段は、複数の前記第1の事象関連状態の中の第1−1の事象関連状態と、複数の前記第2の事象関連状態の中の第2−1の事象関連状態とが同時に現れ、かつ、複数の前記第1の事象関連状態の中の第1−2の事象関連状態が直後の画像に現れる確率に基づき、前記スコアを算出する処理装置。
  6. 請求項3から5のいずれか1項に記載の処理装置において、
    前記因果関係算出手段は、複数の前記第1の事象関連状態の中の第1−1の事象関連状態が現れる確率に基づき、前記スコアを算出する処理装置。
  7. 請求項3から6のいずれか1項に記載の処理装置において、
    前記因果関係算出手段は、複数の前記第1の事象関連状態の中の第1−1の事象関連状態が現れた直後の画像に複数の前記第1の事象関連状態の中の第1−2の事象関連状態が現れる確率に基づき、前記スコアを算出する処理装置。
  8. コンピュータが、
    時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する事象抽出工程と、
    第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する事象情報生成工程と、
    前記事象情報に基づき、前記第1の事象と前記第2の事象との間の因果関係を示すスコアを算出する因果関係算出工程と、
    前記時系列画像群から抽出された前記第1の事象及び前記第2の事象の内、前記スコアが所定条件を満たす前記第1の事象及び前記第2の事象を示す情報を出力する出力工程と、
    を有する処理方法。
  9. コンピュータを、
    時系列画像群の画像毎に、人物と物とが互いに関係する事象を抽出する事象抽出手段、
    第1の人物と、第1の物と、人物と物との間の第1の関係とにより定義される第1の事象の時系列な変化を示すとともに、第2の人物と、第2の物と、人物と物との間の第2の関係とにより定義される第2の事象の時系列な変化を示す事象情報を生成する事象情報生成手段、
    前記事象情報に基づき、前記第1の事象と前記第2の事象との間の因果関係を示すスコアを算出する因果関係算出手段、
    前記時系列画像群から抽出された前記第1の事象及び前記第2の事象の内、前記スコアが所定条件を満たす前記第1の事象及び前記第2の事象を示す情報を出力する出力手段、
    として機能させるプログラム。
JP2020567329A 2019-01-25 2019-01-25 処理装置、処理方法及びプログラム Active JP7192888B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/002427 WO2020152843A1 (ja) 2019-01-25 2019-01-25 処理装置、処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2020152843A1 true JPWO2020152843A1 (ja) 2021-11-11
JP7192888B2 JP7192888B2 (ja) 2022-12-20

Family

ID=71736697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020567329A Active JP7192888B2 (ja) 2019-01-25 2019-01-25 処理装置、処理方法及びプログラム

Country Status (3)

Country Link
US (1) US11620826B2 (ja)
JP (1) JP7192888B2 (ja)
WO (1) WO2020152843A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021203742B2 (en) * 2020-12-31 2023-02-16 Sensetime International Pte. Ltd. Methods and apparatuses for identifying operation event
CN113609259A (zh) * 2021-08-16 2021-11-05 山东新一代信息产业技术研究院有限公司 视频和自然语言的多模态推理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008252519A (ja) * 2007-03-30 2008-10-16 Hitachi Kokusai Electric Inc 画像処理装置
JP2017028561A (ja) * 2015-07-24 2017-02-02 セコム株式会社 画像監視システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9132352B1 (en) * 2010-06-24 2015-09-15 Gregory S. Rabin Interactive system and method for rendering an object
JP6758918B2 (ja) * 2016-05-27 2020-09-23 キヤノン株式会社 画像出力装置、画像出力方法及びプログラム
US9965687B2 (en) * 2016-07-27 2018-05-08 Conduent Business Services, Llc System and method for detecting potential mugging event via trajectory-based analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008252519A (ja) * 2007-03-30 2008-10-16 Hitachi Kokusai Electric Inc 画像処理装置
JP2017028561A (ja) * 2015-07-24 2017-02-02 セコム株式会社 画像監視システム

Also Published As

Publication number Publication date
US11620826B2 (en) 2023-04-04
US20220084312A1 (en) 2022-03-17
WO2020152843A1 (ja) 2020-07-30
JP7192888B2 (ja) 2022-12-20

Similar Documents

Publication Publication Date Title
US9251467B2 (en) Probabilistic parsing
US10891322B2 (en) Automatic conversation creator for news
CN113076433B (zh) 具有多模态信息的检索对象的检索方法和装置
US11094076B2 (en) Analysis apparatus, analysis method, and storage medium
CN111814770A (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
CN110598622B (zh) 视频字幕定位方法、电子设备以及计算机存储介质
US20230076387A1 (en) Systems and methods for providing a comment-centered news reader
CN113688310B (zh) 一种内容推荐方法、装置、设备及存储介质
JP7192888B2 (ja) 処理装置、処理方法及びプログラム
US9881023B2 (en) Retrieving/storing images associated with events
JP2017199149A (ja) 学習装置、学習方法および学習プログラム
JP2019533867A (ja) カーネルベースの機械学習のための構造化直交ランダム特徴
CN112820071A (zh) 一种行为识别方法和装置
JP2018136900A (ja) 文章解析装置及び文章解析プログラム
EP3026671A1 (en) Method and apparatus for detecting emotional key frame
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
US11749021B2 (en) Retrieval device, control method, and non-transitory storage medium
CN114511715A (zh) 一种驾驶场景数据挖掘方法
US11823491B2 (en) Processing apparatus, processing method, and non-transitory storage medium
CN114218574A (zh) 一种数据检测方法、装置、电子设备以及存储介质
WO2021075995A1 (ru) Способ формирования поисковой выдачи в рекламном виджите
WO2022190470A1 (ja) 画像処理装置及びその方法、並びに画像処理プログラム
US20230326181A1 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
US11683578B2 (en) Extraction of target person from image
CN117935285A (zh) 文本合并方法、文本识别装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221121

R151 Written notification of patent or utility model registration

Ref document number: 7192888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151