JP2022107137A - 情報処理装置、出力方法、および出力プログラム - Google Patents

情報処理装置、出力方法、および出力プログラム Download PDF

Info

Publication number
JP2022107137A
JP2022107137A JP2021001876A JP2021001876A JP2022107137A JP 2022107137 A JP2022107137 A JP 2022107137A JP 2021001876 A JP2021001876 A JP 2021001876A JP 2021001876 A JP2021001876 A JP 2021001876A JP 2022107137 A JP2022107137 A JP 2022107137A
Authority
JP
Japan
Prior art keywords
rule
basic
similarity
moving image
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021001876A
Other languages
English (en)
Inventor
孝広 齊藤
Takahiro Saito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2021001876A priority Critical patent/JP2022107137A/ja
Priority to EP21217954.3A priority patent/EP4027308A3/en
Priority to US17/567,345 priority patent/US20220222973A1/en
Publication of JP2022107137A publication Critical patent/JP2022107137A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

【課題】既存のルールのなかから動画に写る行動と類似する行動を認識するルールを特定する。【解決手段】情報処理装置と、撮影装置と、からなる行動認識システムにおいて、情報処理装置101は、撮影装置が撮影する動画から対象の少なくとも1つの基本動作を検出する検出部と、対象の行動を検出するための基本動作のパターンを規定する複数のルールであって、基本動作のパターンに含まれる複数の基本動作の検出タイミングを時系列で表す第1の時系列情報と対応づけられている、複数のルールの夫々のルールについて、ルールと対応付けられている第1の時系列情報と、動画から検出された少なくとも1つの基本動作の検出タイミングを時系列で表す第2の時系列情報とに基づいて、ルールと動画との類似度を評価する評価部と、類似度に基づいて、複数のルールのうちから候補ルールを出力する出力部と、を含む。【選択図】図2

Description

本発明は、情報処理装置、出力方法、および出力プログラムに関する。
近年、様々なビジネスの領域において動画データを人工知能(AI:Artificial Intelligence)で解析する需要が急激に増加している。例えば、ディープラーニングなどの機械学習によって得られた認識モデルを用いて動画から人の行動を認識することが行われている。
これに関し、動画などの映像の解析に関連する技術が知られている(例えば、特許文献1~3)。また、動画を入力とする類似動画検索に関連する技術も知られている(例えば、非特許文献1)。
特開2019-176423号公報 特開2015-116308号公報 特開2005-228274号公報
木村 彰吾 他、「類似理由の提示機能を具備した類似動画検索システムの構築」、第49回プログラミングシンポジウム、2008年1月、p.97‐p.106
例えば、ディープラーニングなどにより認識対象の行動を検出する認識モデルを生成する場合、認識対象となる行動ごとに大量の学習用の動画データが要求される。そして、例えば、学習用の動画データの収集に時間がかかったり、収集が困難だったりすることがあり、認識対象の行動を認識する認識モデルの生成が難しいことがある。
ところで、例えば、人の行動は、歩く、首を振る、手を伸ばすなどの人の基本的な動作の組み合わせから生み出されている。そのため、例えば、人の様々な基本動作を認識する認識モデルを予め作成しておき、その基本動作の組み合わせに対して、不審行動や購買行動といった人の複雑な行動を認識するためのルールを記述することで、行動を検出することが考えられる。そして、このように基本動作の組み合わせに対するルールを規定することで、認識対象の行動が撮影されている大量の動画を用意しなくても、ルールを用いて認識対象の行動を認識することが可能になる。
しかしながら、認識対象とする行動を認識するために基本動作を組み合わせてルールを生成するためにはノウハウや経験が求められる。そして、認識対象となる様々な行動ごとにルールを生成するには、人手およびコストがかかる。そのため、行動を認識するための新たなルールを作成する際に、過去に作成されたルールのうちからルールを流用できることは好ましい。
1つの側面では、本発明は、既存のルールのなかから動画に写る行動と類似する行動を認識するルールを特定することを目的とする。
本発明の一つの態様の情報処理装置は、動画から対象の少なくとも1つの基本動作を検出する検出部と、対象の行動を検出するための基本動作のパターンを規定する複数のルールであって、基本動作のパターンに含まれる複数の基本動作の検出タイミングを時系列で表す第1の時系列情報と対応づけられている、複数のルールのそれぞれのルールについて、ルールと対応づけられている第1の時系列情報と、動画から検出された少なくとも1つの基本動作の検出タイミングを時系列で表す第2の時系列情報とに基づいて、ルールと動画との類似度を評価する評価部と、類似度に基づいて、複数のルールのうちから候補ルールを出力する出力部と、を含む。
既存のルールのなかから動画に写る行動と類似する行動を認識するルールを特定することができる。
実施形態に係る行動認識システムを例示する図である。 実施形態に係る情報処理装置のブロック構成を例示する図である。 実施形態に係るルール情報のリンク関係を示す図である。 基本動作認識結果のクラスの定義を例示する図である。 ルールのクラスの定義を例示する図である。 行動検出期間のクラスの定義を例示する図である。 ルール情報のグラフ構造の述語の定義を例示する図である。 実施形態に係る候補ルールの出力処理の動作フローを例示する図である。 棚から商品を取る行動を検出するためのルールとルールに紐づく情報を例示する図である。 入力された動画に関する情報を例示する図である。 例示的な動的時間伸縮法の適用を示す図である。 実施形態の変形例に係るルールが複数の動画に適用された場合のグラフ構造を例示する図である。 実施形態の変形例に係る候補ルールの出力処理の動作フローを例示する図である。 実施形態に係る情報処理装置を実現するためのコンピュータのハードウェア構成を例示する図である。
以下、図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、複数の図面において対応する要素には同一の符号を付す。
図1は、実施形態に係る行動認識システム100を例示する図である。行動認識システム100は、例えば、情報処理装置101と、撮影装置102とを含む。情報処理装置101は、例えば、サーバコンピュータ、パーソナルコンピュータ(PC)、モバイルPC、およびタブレット端末などの動画を処理する機能を備えるコンピュータであってよい。撮影装置102は、例えば、カメラなどの動画を撮影する装置である。情報処理装置101は、例えば、撮影装置102と通信可能に接続されていてよく、撮影装置102で撮影された動画データを受信する。また、別の実施形態では情報処理装置101は、撮影装置102で撮影された動画データを別の装置から受信してもよいし、撮影装置102と一体に製造されていてもよい。
情報処理装置101は、動画データを受信すると、受信した動画を解析して認識対象を検出する(図1の(1))。一例では、情報処理装置101は、動画から人物を検出してよい。図1の例では情報処理装置101は、動画から認識対象1および認識対象2の二人の人物を検出している。
続いて、情報処理装置101は、動画に写る認識対象から基本動作を認識する(図1の(2))。基本動作は、例えば、対象がとる基本的な動作であってよく、一例では、対象の体を間接ごとの部位に分割した各部位の動きを含んでよい。また、基本動作は、例えば、歩く、走る、投げる、つかむ、蹴る、飛ぶ、食べるといった対象が様々な場面でよくとる動作を含んでよい。例えば、情報処理装置101は、様々な基本動作を検出する認識モデルを用いて動画から複数の基本動作を検出してよい。図1の例では情報処理装置101は、動画に写る認識対象1の人物から「走る」、「立ち止まる」、「歩く」、「首を振る」の4つの基本動作が検出された例が示されている。
続いて、情報処理装置101は、動画から検出した認識対象の基本動作がルールに適合するかに基づいて、認識対象がルールと対応する行動をとったかを認識する(図1の(3))。ルールは、例えば、基本動作のパターンで表されてよい。図1では、動画の認識対象1に対して、不審行動を検出するルールを適用する例が示されており、「走る→立ち止まる→首を振る」の基本動作のパターンが検出されたため、情報処理装置101が不審行動を検出した例が示されている。
このように、認識対象の行動を検出するためのルールを、基本動作のパターンを用いて規定することで、認識対象の行動が撮影されている大量の学習用の動画を用意しなくても、ルールを用いて認識対象の行動を検出することができる。そのため、例えば、認識対象の行動を検出するシステムを導入する場合にも、学習データの準備などの手間がなく容易にシステムを導入することが可能となる。
しかしながら、このようなルールの生成にはノウハウおよび経験が求められる。そして、認識対象となる様々な行動ごとにルールを生成するには、人手およびコストがかかる。そのため、行動を検出するための新たなルールを作成する際に、過去に作成されたルールのうちからルールを流用できることは好ましい。例えば、認識対象とする行動と類似する行動を認識する過去に生成されているルールを流用することができれば、ルールの生成に関わる労力を削減することができる。
過去に生成されているルールの中から認識対象の行動と類似する行動を検出するルールを特定する1つの手法として、一例では、過去に生成されているルールに対してキーワード検索を実行することが考えられる。例えば、ルールのデータに付された名称などのメタデータに、そのルールで検出する対象とする行動と関連するキーワードが含まれていたとする。この場合、認識対象とする行動を表す文字列などで検索を実行することで、認識対象の行動と類似する行動を検出するルールを特定できる可能性がある。
しかしながら、実際にはメタデータなどに登録される情報は、人によってさまざまであり得る。一例として、同じ行動を認識するルールであっても、「ネジ留め」とタイトルが付されることもあれば、「工程1-A」などとタイトルが付されることもある。或いは、同じ「ネジ留め」の行動であっても、実際にはネジ留めする固定位置などにより、行動を特徴づける基本動作が異なることもある。そのため、キーワードによる検索では流用に適したルールを特定することが難しいことがある。
また、別の手法として、例えば、認識したい行動が撮影されている動画と、類似している動画を検索し、ヒットした動画から作成されたルールを抽出して流用することも考えられる。しかしながら、類似動画の検索は、例えば、非特許文献1に記載されるように、現状では色や動画に写る人物数などを用いて類似している動画を検索するといった技術であり、似たような行動が写っている動画が適切に検索されることを期待することは難しい。そのため、認識対象とする動画に写る行動と類似する行動を認識するルールを、既存のルールのうちから特定する更なる技術の提供が望まれている。
以下で述べる実施形態では情報処理装置101は、対象の行動を検出するための基本動作のパターンを規定する複数のルールを、基本動作のパターンに含まれる複数の基本動作の検出タイミングを時系列で表す第1の時系列情報と対応づけて記憶装置に保存する。なお、各ルールは、例えば、異なる行動を検出するルールであってよい。そして、新規ルールの作成対象の動画が入力された場合、情報処理装置101は、動画に基本動作の検出を実行して少なくとも1つの基本動作を検出する。続いて、情報処理装置101は、複数のルールのそれぞれのルールについて、ルールと対応づけられている第1の時系列情報と、動画の少なくとも1つの基本動作の検出タイミングを時系列で表す第2の時系列情報とに基づいて、ルールと動画との類似度を評価する。そして、情報処理装置101は、類似度に基づき複数のルールのうちから流用の候補となる候補ルールを出力する。
このように、ルールと対応づけられている第1の時系列情報と、動画から検出された少なくとも1つの基本動作の第2の時系列情報とに基づいて、ルールと動画との類似度を評価することで、流用できる可能性の高い類似ルールを効率的に特定することができる。以下、実施形態を更に詳細に説明する。
図2は、実施形態に係る情報処理装置101のブロック構成を例示する図である。情報処理装置101は、例えば、制御部201、記憶部202、および通信部203を含む。制御部201は、例えば検出部211、評価部212、および出力部213などを含み、またその他の機能部を含んでもよい。情報処理装置101の記憶部202は、例えば、後述するルール情報300の基本動作認識結果301、ルール302、および行動検出期間303などの情報を記憶している。通信部203は、例えば、制御部201の指示に従って他の装置と通信する。例えば、通信部203は、撮影装置102に接続して撮影装置102で撮影された動画データを受信してよい。これらの各部の詳細および記憶部202に格納されている情報の詳細については後述する。
上述のように、実施形態では、過去に作成されたルールを、そのルールが認識する行動の基本動作の認識結果と紐づけてルール情報300に蓄積する。以下、例として、グラフ構造を備えたグラフデータベース(DB:Database)を例に、ルールに関する情報を蓄積するルール情報300を説明する。
図3は、実施形態に係るルール情報300のリンク関係を示す図である。図3では、基本動作認識結果301、ルール302、および行動検出期間303の3つのクラスが示されている。また、クラスは、参照、生成、ソースなどの述語で結ばれている。
図4は、基本動作認識結果301のクラスの定義を例示する図である。基本動作認識結果301のクラスは、例えば、URI(Uniform Resource Identifier)、動画、認識モデル、ボディなどのプロパティを含んでよい。URIは、例えば、基本動作認識結果301のインスタンスを識別するための識別子である。動画は、例えば、基本動作認識結果301の生成に用いられた動画データのURIである。認識モデルは、例えば、基本動作認識結果301の生成に用いられた基本動作の認識モデルのURIである。ボディは、例えば、基本動作認識結果301の動画に示す動画データに対して、認識モデルにより基本動作を認識して得た基本動作の認識結果のデータを含んでよい。基本動作認識結果301のボディに格納される基本動作の認識結果は、例えば、第1の時系列情報と呼ばれてもよい。
図5は、ルール302のクラスの定義を例示する図である。ルール302は、例えば、URI、バージョン、作者、ボディなどのプロパティを含んでよい。URIは、例えば、ルール302のインスタンスを識別するための識別子である。バージョンは、例えば、ルール302で定義されるルールのバージョンを示す情報である。作者は、例えば、ルール302で定義されるルールの作者を示す情報である。ボディは、例えば、ルール302で定義されるルールを示す情報である。なお、ルールは、例えば、検出対象とする行動を認識するための基本動作のパターンを示す情報で表されてよい。基本動作のパターンは、例えば、基本動作の組み合わせを示す情報を含んでよい。また、基本動作のパターンは、例えば、基本動作の検出順序などを示す情報を含んでもよい。
図6は、行動検出期間303のクラスの定義を例示する図である。行動検出期間303は、例えば、URI、開始、終了、対象ID(Identifier)などのプロパティを含んでよい。URIは、例えば、行動検出期間303のインスタンスを識別するための識別子である。開始は、例えば、動画から検出した行動の開始フレームを示す情報である。終了は、例えば、動画から検出した行動の終了フレームを示す情報である。対象IDは、例えば、検出した行動の動作主を識別するための識別子である。行動検出期間303には、例えば、或る動画に対して或る行動を検出するルールを適用して、その行動が検出された場合に、その行動が検出された開始から終了までの期間を示す情報が登録されていてよい。
なお、図4に示す基本動作認識結果301、図5に示すルール302、および図6に示す行動検出期間303のクラスの定義は、例示であり、実施形態はこれに限定されるものではない。例えば、別の実施形態では、基本動作認識結果301、ルール302、および行動検出期間303のクラスは、その他のプロパティを含んでもよいし、一部のプロパティが削除されたり、置き換えられたりしてもよい。
図7は、ルール情報300のグラフ構造の述語の定義を例示する図である。実施形態に係るルール情報300は、例えば、参照、生成、およびソースの述語を含んでよい。
参照は、図7に示すように、“SはOを参照して作成された”ことを示しており、ここでSはルール302であり、Oは基本動作認識結果301である。従って、ルール情報300において、ルール302から基本動作認識結果301に向かう参照のエッジで結ばれたトリプルは、そのルール302が、参照のエッジで結ばれた基本動作認識結果301を参照して作成されたことを示している。
生成は、図7に示すように、“SはOを生成する”ことを示しており、ここでSはルール302であり、Oは行動検出期間303である。従って、ルール情報300において、ルール302から行動検出期間303に向かう生成のエッジで結ばれたトリプルは、そのルール302が、生成のエッジで結ばれた行動検出期間303を生成したことを示している。
ソースは、図7に示すように、“SはO中の一部を示す情報である”ことを示しており、ここでSは行動検出期間303であり、Oは基本動作認識結果301である。従って、ルール情報300において、行動検出期間303から基本動作認識結果301に向かうソースのエッジで結ばれたトリプルは、その行動検出期間303が、ソースのエッジで結ばれた基本動作認識結果301中の一部を示す情報であることを示している。
なお、図7に示す述語の定義は例示であり、実施形態はこれに限定されるものではない。例えば、別の実施形態では、その他の述語を含んでもよいし、図7の述語の一部が削除されたり、置き換えられたりしてもよい。
以上のように、一実施形態ではグラフ構造を用いて、既存のルール302が、そのルールが認識する行動に含まれる基本動作の認識結果と紐づけられてルール情報300として蓄積されている。
続いて、実施形態に係る認識対象の行動が写る動画に対する既存のルールからの候補ルールの特定について説明する。図8は、実施形態に係る候補ルールの出力処理の動作フローを例示する図である。例えば、情報処理装置101の制御部201は、候補ルールの出力処理の実行指示が入力されると、図8の動作フローを開始してよい。
ステップ801(以降、ステップを“S”と記載し、例えば、S801と表記する)において情報処理装置101の制御部201は、ルールの作成対象の行動が写る動画データの入力を受け付ける。
S802において制御部201は、入力された動画に対して基本動作の認識を実行する。例えば、制御部201は、対象の基本動作を認識するようにディープラーニングなどにより機械学習された認識モデルを用いて、動画から基本動作を認識してよい。基本動作は、上述のように、例えば、対象がとる基本的な動作であってよく、一例では、対象の体を間接ごとの部位に分割した各部位の動きを含んでよい。また、基本動作は、例えば、歩く、走る、投げる、つかむ、蹴る、飛ぶ、食べるといった対象が様々な場面でよくとる動作を含んでよい。なお、入力された動画に対して基本動作の認識を実行して得られた認識結果は、例えば、第2の時系列情報と呼ばれてもよい。
S803において制御部201は、ルール情報300のルール302のうちから未処理のルール302を1つ選択する。
S804において制御部201は、選択したルール302に紐づく基本動作認識結果301をルール情報300から取得する。
S805において制御部201は、選択したルール302と、入力された動画との基本動作の類似度を評価する。例えば、制御部201は、選択したルール302に紐づく基本動作認識結果301と、入力された動画から検出された基本動作の認識結果との間の類似度を評価してよい。以下、図9から図11を参照して、一実施形態に係る基本動作の類似度の評価の例について説明する。
[基本動作の類似度の評価の例]
図9には、食品売り場などにおいて顧客が棚から商品を取る行動を検出するためのルール302と、そのルール302に紐づく基本動作認識結果301および行動検出期間303の情報とが示されている。
棚から商品を取る行動を検出するためのルール302の基本動作の情報は、例えば、ルール302のボディプロパティから取得することができる。一例では、棚から商品を取る行動を検出するためのルール302は、基本動作:歩くの後に、基本動作:右手を前に向けるを検出するルールとして定義することができる。なお、ルールの定義は、例示であり、棚から商品を取る行動を検出するためのルール302は、その他の基本動作のパターンで規定されてもよい。
また、図9において横軸は、基本動作認識結果301の生成に用いられた動画におけるフレーム番号である。そして、図9には、基本動作:歩く、および基本動作:右手を前に向けるを、認識モデルで検出した基本動作認識結果301が縦に並べて示されている。図9において基本動作:歩く、および基本動作:右手を前に向けるのそれぞれの行に示された点901は、動画に対して認識モデルで基本動作の検出を実行した際に、その基本動作が検出されたフレームを表している。また、点901が無いフレームは、認識モデルで基本動作が検出されていないことを表している。これらのルール302で用いる基本動作の認識結果の情報は、例えば、基本動作認識結果301のボディから取得することができる。
更に、図9には、棚から商品を取る行動が検出された行動検出期間303が矢印で示されている。棚から商品を取る行動が検出された行動検出期間303の情報は、例えば、行動検出期間303の開始および終了のプロパティから取得することができる。
以上に述べたように、例えば、制御部201は、選択したルール302と、そのルール302に紐づく基本動作認識結果301および行動検出期間303から、図9に示す情報を取得することができる。
続いて、図10を参照して、入力された動画について類似度の評価のための情報の取得を説明する。図10において横軸は、入力された動画におけるフレーム番号である。そして、図10には、入力動画に対してS802で実行した基本動作の認識結果が示されている。なお、図10の例では、基本動作として、図9と同様に歩くおよび右手を前に向けるの基本動作の検出結果が示されている。例えば、図10において基本動作:歩く、および基本動作:右手を前に向けるのそれぞれの行に示された点1001は、動画に対してそれぞれの基本動作の認識モデルで検出を実行した際に、その基本動作が検出されたフレームを表している。また、点1001が無いフレームは、認識モデルで基本動作が検出されていないことを表している。なお、基本動作の認識結果には、検出対象の基本動作として予め定められているその他の基本動作の認識結果が含まれていてもよい。
また、図10には、ルールの生成対象の行動が写る対象行動期間1002が矢印で示されている。対象行動期間1002は、例えば、ユーザによって指定されてよい。例えば、動画に対して行動を検出するルールを新たに作成する場合、ユーザは検出したい行動を認識していることが多く、動画を見ればどの区間にルールで検出したい行動が含まれているのかを指定することができる。そのため、一例では、ユーザは、動画において検出したい行動が写る区間を指定して動画を情報処理装置101に入力してよい。情報処理装置101の制御部201は、指定された区間をルールの作成の対象行動期間1002として用いてよい。
以上に述べたように、例えば、制御部201は、入力された動画について、図10に示す情報を取得することができる。
そして、図9および図10に示す情報を用いて、制御部201は、選択したルール302と、入力された動画との類似度を評価する。一例では制御部201は、選択したルール302と、入力された動画との間で、対応する基本動作の認識結果間の類似度を評価する。例えば、図9および図10の例では、選択したルールと、入力された動画とは、どちらも基本動作:歩くと基本動作:右手を前に向けるとを含んでいる。そのため、制御部201は、例えば、基本動作:歩くと基本動作:右手を前に向けるとの基本動作について類似度を評価してよい。
なお、検出対象とする行動が検出される期間の長さは、動画によって異なり得る。例えば、図9の選択したルール302では、検出対象とする行動が検出される行動検出期間303は100フレームから230フレームに設定されており、その長さは130フレームである。一方、図10の入力動画では、検出対象とする行動の写る対象行動期間1002として、50フレームから150フレームの期間が指定されており、その長さは100フレームである。そのため、一実施形態において制御部201は、動的時間伸縮法(DTW:Dynamic Time Warping)などの手法を用いて、比較対象とする行動の2つの時系列情報を対応づけて対応系列を生成してよい。
図11は、例示的な動的時間伸縮法の適用を示す図である。図11(a)には、上段に選択したルール由来の基本動作1(例えば、歩く)の行動検出期間303における認識結果が元系列1として示されている。また、図11(a)の下段には入力された動画由来の基本動作1(例えば、歩く)の対象行動期間1002における認識結果が元系列2として示されている。なお、元系列1および元系列2において、0は基本動作1が検出されなかったフレームを表しており、また、1は基本動作1が検出されたフレームを表している。
この場合に、動的時間伸縮法を用いて同じ長さの対応系列を得ることができる。動的時間伸縮法は、例えば、2つの時系列の各点の距離を総当たりで求め、全て求めた上で2つの時系列が最短となる経路を見つけるアルゴリズムである。得られた対応系列では、選択したルールと、動画とで全てのデータが対応づけられている。
そして、制御部201は、対応系列の類似度を算出する。例えば、制御部201は、対応系列のJaccard係数を類似度として用いてよい。Jaccard係数は、例えば、以下の式で求めることができる。
Jaccard係数=両方が1であるフレーム数/少なくとも一方が1であるフレーム数
図11(b)に示すように、対応系列において、少なくとも一方が1であるフレーム数は4つであり、両方が1であるフレーム数は3つであるため、Jaccard係数として3/4を求めることができる。一例では制御部201は、このJaccard係数を基本動作間の類似度として用いてよい。
なお、実施形態に係る類似度は、Jaccard係数に限定されるものではなく、その他の類似度であってよもよい。例えば、別の実施形態では、Dice係数やSimpton係数などが用いられてもよい。また、例えば、基本動作認識結果301がベクトルで表される場合、コサイン類似度などが採用されてもよい。
例えば、以上のように、制御部201は、選択したルール302と、入力された動画との間で、対応する基本動作の認識結果間の類似度を評価することができる。
S806において制御部201は、ルール302に対する類似度を評価する。例えば、S805においてルール302と、入力された動画との間で対応する複数の基本動作について類似度が得られている場合、制御部201は、更に、対応する複数の基本動作間での類似度を代表する代表類似度を求めてよい。例えば、図9に示すルール302と、図10に示す動画とでは、歩くと、右手を前に向けるの2つの基本動作が対応している。そのため、制御部201は、これら2つの基本動作について、S805の処理を実行しており、それぞれの基本動作について類似度が求められている。そして、S806では制御部201、得られた2つの類似度を代表する代表類似度を求めてよい。
一例では、制御部201は、対応する基本動作の認識結果毎に得られた類似度の平均値を代表類似度として用いてよい。例えば、図9のルール302と紐づく基本動作:歩くの認識結果と、図10の動画から検出された基本動作:歩くの認識結果との類似度が、0.9417であったとする。また、図9のルール302と紐づく基本動作:右手を前に向けるの認識結果と、図10の動画から検出された基本動作:右手を前に向けるの認識結果との類似度が、0.7018であったとする。この場合に、制御部201は、(0.9417+0.7018)/2=0.8218で、0.8218を代表類似度として用いてよい。なお、実施形態に係る複数の類似度を代表する代表類似度は、平均値に限定されるものではなく、その他の値であってもよい。例えば、別の実施形態では、代表類似度は、中央値、最大値、最小値などの複数の類似度を代表するその他の統計値であってもよい。
また、別の実施形態では、代表類似度の取得に重み付け平均を用いることもできる。例えば、ルール情報300における基本動作の出現頻度に応じて重み付けを行ってもよい。
例えば、ルール情報300に100個のルール302が登録されているとする。また、これらの100個のルール302のうちで、行動の検出に用いる基本動作として歩くが登録されているルール302の数が50個であったとする。一方、100個のルール302のうちで、行動の検出に用いる基本動作として右手を前に向けるが登録されているルール302の数が10個であったとする。この場合、基本動作:歩くよりも、基本動作:右手を前に向けるの方が出現頻度が小さく、ルール情報300において稀な基本動作であることが分かる。そして、出現頻度が小さく、ルール情報300において稀な基本動作の方が、頻繁に登場する基本動作よりも、ルール302による行動の検出において重要であったり、ルール302を強く特徴づけていたりする可能性がある。そのため、一実施形態では制御部201は、ルール情報300において、対象の基本動作の出現頻度が低いほど、その基本動作の認識結果の類似度を強く、代表類似度に反映させてよい。
例えば、上記の例では、ルール情報300においてルール302が100個あり、そのうちの50個のルール302が着目する基本動作として歩くを含む。そのため、100/50=2で重み付けの係数2を求めることができる。同様に、ルール情報300においてルール302が100個あり、そのうちの10個のルール302が着目する基本動作として右手を前に向けるを含む。そのため、100/10=10で重み付けの係数10を求めることができる。そして、制御部201は、得られた重み付けの係数を用いて、(2*0.9417+10*0.7808)/(2+10)=0.8076というように重み付け平均を計算して代表類似度を取得してもよい。
そして、S806の処理では制御部201は、得られた代表類似度を、選択したルール302と、入力された動画との間の類似度として用いてよい。
S807において制御部201は、ルール情報300に未処理のルール302があるか否かを判定する。ルール情報300に未処理のルール情報300がある場合(S807がYES)、フローはS803に戻り、制御部201は、未処理のルール302を選択して処理を繰り返す。一方、ルール情報300に未処理のルール302がない場合(S807がNO)、フローはS808に進む。
S808において制御部201は、類似度に基づき候補ルールを特定して出力する。例えば、制御部201は、類似度が高いルール302が、類似度が低いルール302よりも上位に配置されるように、ルール情報300のルール302を並べ替えてルール302を示す情報を候補ルールとして出力してよい。また、別の例では制御部201は、類似度が上位の所定の数のルール302を示す情報を候補ルールとして出力してもよい。
また、制御部201は、候補ルールを出力する際に、候補ルールと対応する基本動作認識結果301の動画プロパティで指定される動画を出力してもよい。それにより、ユーザは候補ルールと対応する動画を見ることができ、出力された候補ルールが流用に適しているかを容易に確認することができる。
また、例えば、ルール情報300に蓄積されているルール302は、検出対象の行動の種別などによって予め複数のグループに分類されていてもよい。この場合に、制御部201は、S808においてグループごとに類似度が上位の所定の数のルール302を出力してもよい。ルール302のグループ化は、例えば、類似度に基づいて実行することができる。一例では、制御部201は、ルール情報300に含まれるルール302間で類似度を評価する。そして、制御部201は、所定の類似度以上のルール302をグループにまとめることで、ルール情報300のルール302を複数のグループに分類してよい。或いは、ユーザが予め似ているルール302が同じグループになるようにルール302のグループ化を実行してもよい。
そして、このようにグループ化を行って、グループごとにルール302を出力することで、ほぼ同じルール302が候補ルールとして複数特定されてしまうことを抑制することができる。例えば、動画に写る行動と類似する行動を検出するルール302を検索したい場合、似通った行動ばかりではなく、多様な行動を検出するルール302の中から類似度の高いルール302を特定することが望ましい場合がある。グループ化を行って、グループごとのルール302から候補ルールを特定することで、多様な行動を対象とするルール302を候補ルールとして特定することができる。
以上で述べたように、実施形態によれば認識したい行動が写る動画を用意すれば、その行動を特徴づける基本動作に着目するルール302を候補ルールとして特定することができる。そして、制御部201は、一例では、認識対象の動画に含まれる被写体の写る角度、撮影装置の画質等の撮影条件などによる誤差をパラメータフィッティングにより調整すれば、候補ルールを用いて動画からの認識対象の行動の検出を開始することができる。或いは、ユーザは、候補ルールを編集して、動画に適した新たなルール302を生成してもよい。この場合にも、候補ルールを流用することで、着目する基本動作などが特定されたルール302をベースに、新たなルール302を作成できるため、ルール302の作成コストを削減することができる。
(変形例)
続いて、変形例を説明する。例えば、1つのルール302が複数の動画に適用されることもあり得る。この場合に、例えば、それぞれの動画から基本動作認識結果301および行動検出期間303が取得されてルール情報300に登録されてもよい。
図12は、実施形態の変形例に係るルール302が複数の動画に適用された場合のグラフ構造を例示する図である。図12に示すように、ルール302を、複数の動画の基本動作認識結果301(基本動作認識結果a~基本動作認識結果c)に対して適用して、複数の行動検出期間303(行動検出期間a~行動検出期間d)が生成されている。なお、基本動作認識結果cからはルール302による検出対象の行動が2つ検出されており、行動検出期間cおよび行動検出期間dの2つの行動検出期間303が生成されている。
このように1つのルール302が、複数の動画の基本動作認識結果301に適用されて複数の行動検出期間303が生成されているとする。この場合にも、制御部201は、それぞれの基本動作認識結果301ごとに、入力された動画の基本動作の認識結果との類似度を評価し、その複数の類似度を代表する代表類似度を取得することで、入力された動画とルール302との類似度を評価することができる。
図13は、実施形態の変形例に係る候補ルールの出力処理の動作フローを例示する図である。例えば、情報処理装置101の制御部201は、候補ルールの出力処理の実行指示が入力されると、図13の動作フローを開始してよい。
続く、S1301からS1305の処理は、例えば、S801からS805の処理と対応していてよく、制御部201は、S801からS805の処理と同様の処理を実行してよい。
S1306において制御部201は、選択したルール302に紐づく未処理の基本動作認識結果301があるかいなかを判定する。そして、未処理の基本動作認識結果301がある場合(S1306がYES)、フローはS1304に戻り、未処理の基本動作認識結果301に対して処理を繰り返す。一方、未処理の基本動作認識結果301がない場合(S1306がNO)、フローはS1307に進む。
S1307において制御部201は、選択したルール302の類似度を評価する。例えば、選択したルール302に紐づく基本動作認識結果301が1つであれば、制御部201は、対応する基本動作ごとに得られている類似度を代表する代表類似度を求めて、その代表類似度をルール302の類似度として用いてよい。一方、選択したルール302に紐づく基本動作認識結果301が複数ある場合、それぞれの基本動作認識結果301について基本動作ごとに類似度が得られている。この場合、制御部201は、基本動作認識結果301ごとに、対応する基本動作の類似度を代表する代表類似度を求める。そして、制御部201は、得られた基本動作認識結果301ごとの代表類似度を更に代表する代表類似度を求めて、動画とルール302との類似度として用いてよい。なお、代表類似度は、例えば、複数の類似度を代表する類似度であってよく、平均値、中央値、最小値、最大値などの統計値であってよい。
続く、S1308およびS1309の処理は、例えば、S807からS808の処理と対応していてよく、制御部201は、S807からS808の処理と同様の処理を実行してよい。
以上で述べたように、例えば、ルール302が複数の動画の基本動作認識結果301に適用されているとする。この場合にも、そのルールの複数の時系列情報と、動画から検出された基本動作と対応する第2の時系列情報とに基づいて、そのルールと動画との類似度を評価し、候補ルールを出力することができる。
また、変形例で述べたように、複数の基本動作認識結果301との類似度を評価することで、幅広いルール302を候補ルールとして特定することが可能になる。例えば、入力される動画として、歩いて右手を前に向ける行動が写る動画を入力したとする。この場合、歩いて右手を前に向ける行動を含むルール302の類似度は高く評価される。
また更に、例えば、ルール情報300に、歩いて片手を前に向けるルール302があったとする。このルール302では、前に向ける手は、右手であっても、左手であってもよく、歩いて片手を前に向ける行動が写っていれば、このルール302を満たすことになる。しかしながら、例えば、このルール302に紐づく基本動作認識結果301として、歩いて左手を前に向ける行動が写る動画の基本動作認識結果301しかルール情報300に存在しないとする。この場合、入力動画は右手を前に向ける基本動作が写る動画であるため、左手を前に向ける基本動作については類似度が低く評価されてしまう。結果として、入力動画と、歩いて片手を前に向けるルール302との類似度も低く評価されてしまう。
一方、例えば、ルール302に紐づく基本動作認識結果301として、歩いて左手を前に向ける基本動作の写る動画の基本動作認識結果301と、歩いて右手を前に向ける基本動作の写る動画の基本動作認識結果301とを紐づけておく。それにより、歩いて右手を前に向ける基本動作の写る動画の基本動作認識結果301は、入力動画との類似度が高く評価されるため、複数の基本動作認識結果301を代表する代表類似度も高く評価させることができる。結果として、歩いて片手を前に向けるルール302の入力動画との類似度を高く評価することができ、候補ルールとして歩いて片手を前に向けるルール302を特定することが可能になる。
このように、ルール302は、片手を前に向けるというように、複数の基本動作を許容するように記述されることがある。これらの多様な記述を網羅するように複数の基本動作認識結果301をルール302に紐づけておくことで、評価対象のルール302がいずれかの基本動作認識結果301と合致すれば、そのルール302を高く評価させることができる。その結果、入力される動画と対応する幅広いルール302を類似度に基づいて特定することが可能になる。なお、別の実施形態では、制御部201は、ルール302において並列で記述される基本動作については、並列で記述される複数の基本動作の類似度のうち最大の類似度を、並列で記述される複数の基本動作を代表する代表類似度として用いてもよい。
以上において、実施形態を例示したが、実施形態はこれに限定されるものではない。例えば、上述の動作フローは例示であり、実施形態はこれに限定されるものではない。可能な場合には、動作フローは、処理の順番を変更して実行されてもよく、別に更なる処理を含んでもよく、または、一部の処理が省略されてもよい。例えば、図8および図13の動作フローの過去の実行において、入力動画に対して既に基本動作の認識が実行済みである場合には、S802およびS1302の処理は実行されなくてもよい。
また、上述の実施形態においてルール302に紐づけられた基本動作認識結果301に記録される認識結果は、例えば、ルール302で規定される基本動作のパターンで用いられている基本動作についての認識結果の情報のみであってもよい。それにより、基本動作認識結果301の蓄積にかかる記憶容量を削減することができる。しかしながら、実施形態はこれに限定されるものではなく、基本動作認識結果301は、その他の基本動作についての認識結果の情報を含んでいてもよい。また、S805およびS1305における基本動作の類似度の評価の処理も、ルール302に含まれる基本動作のみを対象として実行されてもよい。即ち、制御部201は、例えば、動画から検出された少なくとも1つの基本動作と対応する第2の時系列情報のうちで、ルールの複数の基本動作と対応している一部の時系列情報と、ルールと対応づけられている第1の時系列情報との類似度を評価してよい。また、入力動画からの基本動作の検出は、ルール情報300のルール302に登録されている基本動作のみを対象として実行されてもよい。それにより、処理量を削減することができる。
また、ルール302で着目する基本動作が、入力動画において検出されないこともある。この場合、制御部201は、その基本動作が検出されていない認識結果を用いて、ルール302の基本動作との類似度を評価してもよい。或いは、制御部201は、ルール302に含まれる基本動作のうちで、入力動画において検出されていない基本動作については、類似度の評価を行わず、他の基本動作について評価した類似度を用いてルール302と、入力動画との類似度を評価してもよい。
また、上述の実施形態ではルール情報300のクラスとして基本動作認識結果301、ルール302、および行動検出期間303の3つのクラスを定義しているが、実施形態はこれに限定されるものではない。例えば、別の実施形態では、行動検出期間303は含まれていなくてもよい。代わりに、行動検出期間303の情報は、制御部201が、基本動作認識結果301にルール302を適用して適宜生成してもよい。例えば、制御部201は、所定の頻度以上で対象の基本動作が検出された区間を、基本動作が検出された区間として特定してよい。そして、制御部201は、ルール302で規定される基本動作のパターンに含まれる複数の基本動作が検出された区間を統合して、行動検出期間として用いてもよい。或いは、別の実施形態では、基本動作認識結果301の動画の範囲が行動検出期間303となるようにルール情報300に基本動作認識結果301が記録されていてもよい。
なお、上述の実施形態において、例えば、S801からS802およびS1301からS1302の処理では、情報処理装置101の制御部201は、検出部211として動作する。また、S806およびS1307の処理では、情報処理装置101の制御部201は、例えば、評価部212として動作する。S808およびS1309の処理では、情報処理装置101の制御部201は、例えば、出力部213として動作する。
図14は、実施形態に係る情報処理装置101を実現するためのコンピュータ1400のハードウェア構成を例示する図である。図14のハードウェア構成は、例えば、プロセッサ1401、メモリ1402、記憶装置1403、読取装置1404、通信インタフェース1406、および入出力インタフェース1407を備える。なお、プロセッサ1401、メモリ1402、記憶装置1403、読取装置1404、通信インタフェース1406、入出力インタフェース1407は、例えば、バス1408を介して互いに接続されている。
プロセッサ1401は、例えば、シングルプロセッサであっても、マルチプロセッサやマルチコアであってもよい。プロセッサ1401は、メモリ1402を利用して例えば上述の動作フローの手順を記述したプログラムを実行することにより、上述した制御部201の一部または全部の機能を提供する。例えば、情報処理装置101のプロセッサ1401は、記憶装置1403に格納されているプログラムを読み出して実行することで、検出部211、評価部212、および出力部213として動作する。
メモリ1402は、例えば半導体メモリであり、RAM領域およびROM領域を含んでいてよい。記憶装置1403は、例えばハードディスク、フラッシュメモリ等の半導体メモリ、または外部記憶装置である。なお、RAMは、Random Access Memoryの略称である。また、ROMは、Read Only Memoryの略称である。
読取装置1404は、プロセッサ1401の指示に従って着脱可能記憶媒体1405にアクセスする。着脱可能記憶媒体1405は、例えば、半導体デバイス、磁気的作用により情報が入出力される媒体、光学的作用により情報が入出力される媒体などにより実現される。なお、半導体デバイスは、例えば、USB(Universal Serial Bus)メモリである。また、磁気的作用により情報が入出力される媒体は、例えば、磁気ディスクである。光学的作用により情報が入出力される媒体は、例えば、CD-ROM、DVD、Blu-ray Disc等(Blu-rayは登録商標)である。CDは、Compact Discの略称である。DVDは、Digital Versatile Diskの略称である。
上述の記憶部202は、例えばメモリ1402、記憶装置1403、および着脱可能記憶媒体1405を含んでいる。例えば、情報処理装置101の記憶装置1403には、ルール情報300の基本動作認識結果301、ルール302、および行動検出期間303が格納されている。
通信インタフェース1406は、例えば、プロセッサ1401の指示に従って、他の装置と通信する。例えば、情報処理装置101は、通信インタフェース1406を介して撮影装置102から動画データを受信してよい。通信インタフェース1406は、上述の通信部203の一例である。
入出力インタフェース1407は、例えば、入力装置および出力装置との間のインタフェースである。入力装置は、例えばユーザからの指示を受け付けるキーボード、マウス、タッチパネルなどのデバイスである。出力装置は、例えばディスプレーなどの表示装置、およびスピーカなどの音声装置である。
実施形態に係る各プログラムは、例えば、下記の形態で情報処理装置101に提供される。
(1)記憶装置1403に予めインストールされている。
(2)着脱可能記憶媒体1405により提供される。
(3)プログラムサーバなどのサーバから提供される。
なお、図14を参照して述べた情報処理装置101を実現するためのコンピュータ1400のハードウェア構成は、例示であり、実施形態はこれに限定されるものではない。例えば、上述の構成の一部が、削除されてもよく、また、新たな構成が追加されてもよい。また、別の実施形態では、例えば、上述の制御部201の一部または全部の機能がFPGA、SoC、ASIC、およびPLDなどによるハードウェアとして実装されてもよい。なお、FPGAは、Field Programmable Gate Arrayの略称である。SoCは、System-on-a-chipの略称である。ASICは、Application Specific Integrated Circuitの略称である。PLDは、Programmable Logic Deviceの略称である。
以上において、いくつかの実施形態が説明される。しかしながら、実施形態は上記の実施形態に限定されるものではなく、上述の実施形態の各種変形形態および代替形態を包含するものとして理解されるべきである。例えば、各種実施形態は、その趣旨および範囲を逸脱しない範囲で構成要素を変形して具体化できることが理解されよう。また、前述した実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の実施形態が実施され得ることが理解されよう。更には、実施形態に示される全構成要素からいくつかの構成要素を削除して、または実施形態に示される構成要素にいくつかの構成要素を追加して種々の実施形態が実施され得ることが当業者には理解されよう。
100 行動認識システム
101 情報処理装置
102 撮影装置
201 制御部
202 記憶部
203 通信部
211 検出部
212 評価部
213 出力部
300 ルール情報
301 基本動作認識結果
302 ルール
303 行動検出期間
1002 対象行動期間
1400 コンピュータ
1401 プロセッサ
1402 メモリ
1403 記憶装置
1404 読取装置
1405 着脱可能記憶媒体
1406 通信インタフェース
1407 入出力インタフェース
1408 バス

Claims (7)

  1. 動画から対象の少なくとも1つの基本動作を検出する検出部と、
    前記対象の行動を検出するための基本動作のパターンを規定する複数のルールであって、前記基本動作のパターンに含まれる複数の基本動作の検出タイミングを時系列で表す第1の時系列情報と対応づけられている、前記複数のルールのそれぞれのルールについて、前記ルールと対応づけられている前記第1の時系列情報と、前記動画から検出された前記少なくとも1つの基本動作の検出タイミングを時系列で表す第2の時系列情報とに基づいて、前記ルールと前記動画との類似度を評価する評価部と、
    前記類似度に基づいて、前記複数のルールのうちから候補ルールを出力する出力部と、
    を含む、情報処理装置。
  2. 前記評価部は、前記動画から検出された前記少なくとも1つの基本動作と対応する前記第2の時系列情報のうちで、前記ルールの前記複数の基本動作と対応している一部の時系列情報と、前記ルールと対応づけられている前記第1の時系列情報との類似度を評価する、請求項1に記載の情報処理装置。
  3. 前記複数のルールは複数のグループに分類されており、
    前記出力部は、前記複数のグループのうちの第1のグループから前記類似度に基づいて特定された第1の候補ルールと、第2のグループから前記類似度に基づいて特定された第2の候補ルールとを出力する、請求項1または2に記載の情報処理装置。
  4. 前記評価部は、前記ルールと対応づけられている前記第1の時系列情報と、前記動画から検出された前記少なくとも1つの基本動作と対応する前記第2の時系列情報とから動的時間伸縮法により生成した対応系列の類似度を評価する、請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記複数のルールのうちの或るルールは、前記第1の時系列情報を含む複数の時系列情報と対応づけられており、
    前記評価部は、前記或るルールの前記複数の時系列情報と、前記動画から検出された前記少なくとも1つの基本動作と対応する前記第2の時系列情報とに基づいて、前記或るルールと前記動画との類似度を評価する、請求項1から4のいずれか1項に記載の情報処理装置。
  6. コンピュータにより実行される出力方法であって、
    前記コンピュータが、
    動画から対象の少なくとも1つの基本動作を検出し、
    前記対象の行動を検出するための基本動作のパターンを規定する複数のルールであって、前記基本動作のパターンに含まれる複数の基本動作の検出タイミングを時系列で表す第1の時系列情報と対応づけられている、前記複数のルールのそれぞれのルールについて、前記ルールと対応づけられている前記第1の時系列情報と、前記動画から検出された前記少なくとも1つの基本動作の検出タイミングを時系列で表す第2の時系列情報とに基づいて、前記ルールと前記動画との類似度を評価し、
    前記類似度に基づいて、前記複数のルールのうちから候補ルールを出力する、
    ことを特徴とする出力方法。
  7. 動画から対象の少なくとも1つの基本動作を検出し、
    前記対象の行動を検出するための基本動作のパターンを規定する複数のルールであって、前記基本動作のパターンに含まれる複数の基本動作の検出タイミングを時系列で表す第1の時系列情報と対応づけられている、前記複数のルールのそれぞれのルールについて、前記ルールと対応づけられている前記第1の時系列情報と、前記動画から検出された前記少なくとも1つの基本動作の検出タイミングを時系列で表す第2の時系列情報とに基づいて、前記ルールと前記動画との類似度を評価し、
    前記類似度に基づいて、前記複数のルールのうちから候補ルールを出力する、
    処理をコンピュータに実行させる出力プログラム。
JP2021001876A 2021-01-08 2021-01-08 情報処理装置、出力方法、および出力プログラム Pending JP2022107137A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021001876A JP2022107137A (ja) 2021-01-08 2021-01-08 情報処理装置、出力方法、および出力プログラム
EP21217954.3A EP4027308A3 (en) 2021-01-08 2021-12-28 Information processing apparatus, output method, and information processing program
US17/567,345 US20220222973A1 (en) 2021-01-08 2022-01-03 Information processing apparatus, output method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021001876A JP2022107137A (ja) 2021-01-08 2021-01-08 情報処理装置、出力方法、および出力プログラム

Publications (1)

Publication Number Publication Date
JP2022107137A true JP2022107137A (ja) 2022-07-21

Family

ID=79024902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021001876A Pending JP2022107137A (ja) 2021-01-08 2021-01-08 情報処理装置、出力方法、および出力プログラム

Country Status (3)

Country Link
US (1) US20220222973A1 (ja)
EP (1) EP4027308A3 (ja)
JP (1) JP2022107137A (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4449483B2 (ja) 2004-02-16 2010-04-14 富士ゼロックス株式会社 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
JP5440080B2 (ja) * 2009-10-02 2014-03-12 ソニー株式会社 行動パターン解析システム、携帯端末、行動パターン解析方法、及びプログラム
US11928894B2 (en) * 2012-09-18 2024-03-12 Origin Wireless, Inc. Method, apparatus, and system for wireless gait recognition
JP6091407B2 (ja) 2013-12-18 2017-03-08 三菱電機株式会社 ジェスチャ登録装置
US10252145B2 (en) * 2016-05-02 2019-04-09 Bao Tran Smart device
JP7170411B2 (ja) 2018-03-29 2022-11-14 キヤノン株式会社 情報処理装置および方法およびコンピュータプログラム、並びに監視システム

Also Published As

Publication number Publication date
EP4027308A3 (en) 2022-09-28
EP4027308A2 (en) 2022-07-13
US20220222973A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
JP7317919B2 (ja) 外観検索のシステムおよび方法
Zhou et al. Salient region detection via integrating diffusion-based compactness and local contrast
US10949702B2 (en) System and a method for semantic level image retrieval
EP2500841B1 (en) Video based matching and tracking
Murthy et al. Ordered trajectories for human action recognition with large number of classes
Lee et al. Stare: Spatio-temporal attention relocation for multiple structured activities detection
JP6943333B2 (ja) オブジェクト追跡装置、オブジェクト追跡方法、及びオブジェクト追跡プログラム
Pu et al. Learning recurrent memory activation networks for visual tracking
Amanat et al. Video retrieval system for meniscal surgery to improve health care services
Dixit et al. Multi-feature based automatic facial expression recognition using deep convolutional neural network
JP2011053952A (ja) 画像検索装置及び画像検索方法
JP2022107137A (ja) 情報処理装置、出力方法、および出力プログラム
Breier et al. Analysis of video feature learning in two-stream CNNs on the example of zebrafish swim bout classification
Ainasoja et al. Keyframe-based Video Summarization with Human in the Loop.
JP2016207106A (ja) 物体検出における誤検出低減方法および装置
Martınez et al. Human action recognition in realistic scenes based on action bank
JP2014056415A (ja) 画像照合システム、画像照合方法、およびプログラム
Altun et al. Face verification system in mobile devices by using cognitive services
Burgos-Madrigal et al. Video and Image Complexity in Human Action Recognition
Ren A MULTIPLE PERSPECTIVE INTELLIGENT VIDEO SURVEILLANCE SYSTEM DESIGN WITH PRIVACY PRESERVATION
Mukherjee Integrated approach to recognition of macro & micro expressions from facial images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230907

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20231024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240529

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240711

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241015