JP2020123328A - 検出装置、及び方法、並びに画像処理装置及びシステム - Google Patents

検出装置、及び方法、並びに画像処理装置及びシステム Download PDF

Info

Publication number
JP2020123328A
JP2020123328A JP2020003058A JP2020003058A JP2020123328A JP 2020123328 A JP2020123328 A JP 2020123328A JP 2020003058 A JP2020003058 A JP 2020003058A JP 2020003058 A JP2020003058 A JP 2020003058A JP 2020123328 A JP2020123328 A JP 2020123328A
Authority
JP
Japan
Prior art keywords
person
detected
detection
image
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020003058A
Other languages
English (en)
Inventor
ホァーン ヤオハイ
Yaohai Huang
ホァーン ヤオハイ
ジー シン
Xin Ji
ジー シン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2020123328A publication Critical patent/JP2020123328A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Alarm Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】助けを必要とする人を発見することができる検出装置及び方法並びに画像処理装置及びシステムを提供する。【解決手段】検出装置は、画像から特徴を抽出するユニットと、抽出された特徴に基づいて画像内の人を検出するユニットと、抽出された特徴に基づいて検出された人の周囲領域内の物体を検出するユニットと、抽出された特徴、検出された人および検出された物体に基づいて画像内の人と物体との相互作用情報を判定するユニットと、を備える。【効果】ビデオ/画像から人、物体および人と物体との相互作用関係を検出する検出速度および検出精度を向上させることができるので、助けを必要とする人に助けを提供するタイムラインおよび精度をより良好に満たすことができる。【選択図】図2

Description

本開示は画像処理に関し、特に、例えば、画像における人と物体との相互作用の検出に関する。
シーンを監視する際に、時間内に助けを必要とする人に援助を提供できるようにするために、人と物体との間の相互作用関係(すなわち、人と物体との相互作用関係)を画像/ビデオから迅速かつタイムリーに検出することが重要なタスクであり、人と物体との相互作用関係は、例えば、人が松葉杖をついていること、人が車椅子に座っていること、人がベビーカーを押していること、などを含む。例えば、人と物体との相互作用関係が、人が車椅子に座っているか、松葉杖をついているなどである場合、人は通常、助けを必要とする人である。
ビデオ/画像から人と物体との相互作用関係を検出するために、非特許文献「Detecting and Recognizing the Human-Object Interactions」(Georgia Gkioxari Ross Girshick Piotr Doll´ar Kaiming He, Facebook AI Research, CVPR 2018)は、人と物体との相互作用関係を検出して認識する例示的な技術を開示している。ここで、この例示的な技術は主に、次のようなものである。先ずは1つのニューラルネットワークによって画像から特徴を抽出し、画像内の人および物体の全ての可能な候補領域を検出し、次に、検出された候補領域から別のニューラルネットワークによって特徴を再び抽出し、再び抽出された特徴に基づいて、ニューラルネットワーク内の物体検出ブランチ、人検出ブランチ、および人と物体との相互作用関係検出ブランチによって、候補領域から人、物体、および人と物体との相互作用関係をそれぞれ検出する。
上述のように、ビデオ/画像から人と物体との相互作用関係を検出する過程で、上述の例示的な技術は、2つの独立した段階によって対応する検出を実現する必要があることが分かる。ここで、一方の段階の動作は、画像から人の全ての候補領域及び物体の全ての候補領域を同時に検出することであり、他の段階の動作は、全ての候補領域から人、物体、及び人と物体との相互作用関係を検出することである。2段階の動作では、2回のネットワーク演算、特に2回の特徴抽出(例えば、人と物体の候補領域を検出するための特徴を抽出し、人、物体、人と物体との相互作用関係を検出するための特徴を抽出する)を行う必要があるため、全体の検出処理により多くの処理時間を費やし、すなわち、ビデオ/画像から人、物体、人と物体との相互作用関係を検出する検出速度に影響を与え、したがって、助けを必要とする人に助けを提供するタイムラインに影響を与える。
上記関連技術の記録に鑑みて、本開示は、上記問題の少なくとも1つに対処することを目的とする。
本開示の一態様によれば、画像から特徴を抽出する特徴抽出部と、特徴に基づいて画像内の人を検出する人検出部と、特徴に基づいて検出された人の周囲領域内の物体を検出する物体検出部と、特徴、検出された人、および検出された物体、に基づいて、画像内の人と物体との相互作用情報(人と物体との相互作用関係)を判定する相互作用判定部と、を備える検出装置が提供される。
本開示の別の態様によれば、画像から特徴を抽出する特徴抽出ステップと、特徴に基づいて画像内の人を検出する人検出ステップと、特徴に基づいて検出された人の周囲領域内の物体を検出する物体検出ステップと、特徴、検出された人、および検出された物体に基づいて、画像内の人と物体との相互作用情報(人と物体との相互作用関係)を判定する相互作用判定ステップと、を含む検出方法が提供される。
本開示において、検出された人の少なくとも1つの部分は、検出される物体のタイプに基づいて決定され、ここで、周囲領域は、決定された少なくとも1つの部分を囲む領域である。ここで、本開示において、周囲領域は、検出された人の、人の姿勢を判定することによって決定される。
本開示のさらなる態様によれば、画像またはビデオを取得する取得デバイスと、命令を記憶する記憶デバイスと、取得された画像またはビデオに基づいて命令を実行してプロセッサが少なくとも上述の検出方法を実施するようにするプロセッサと、を備える、画像処理装置が提供される。
本開示のさらなる態様によれば、画像またはビデオを取得する取得装置と、取得された画像またはビデオから人、物体、および人と物体との相互作用情報を検出する上記検出装置と、検出された人と物体との相互作用情報に基づいて後続の画像処理動作を実行する処理装置と、を備え、ここで、取得装置、検出装置、および処理装置は、ネットワークを介して互いに接続される、画像処理システムが提供される。
一方、本開示は画像から各動作で使用可能な共有特徴を取得するので、本開示は、1段階の処理で人、物体、および人と物体との相互作用関係の検出を実現することができ、よって、検出処理全体の処理時間を削減することができる。一方、本開示は先ず画像中の人を検出し、次いで検出された人の情報に基づいて、物体が検出された領域を決定するだけでよいので、本開示は、物体検出の範囲を小さくすることができ、よって、検出処理全体の検出精度を向上させることができ、検出処理全体の処理時間をさらに削減することができる。したがって、本開示によれば、ビデオ/画像から人、物体、および人と物体との相互作用関係を検出する検出速度および検出精度を改善することができ、それにより、助けを必要とする人に助けを提供するためのタイムラインおよび精度をより良く満たすことができる。
本開示のさらなる特徴および利点は、添付の図面を参照して、以下の典型的な実施形態の説明から明らかになるのであろう。
本明細書に組み込まれ、その一部を構成する添付の図面は、本開示の実施形態を示し、実施形態の説明とともに、本開示の原理を説明する役割を果たす。
本開示の一実施形態に係る技術を実現可能なハードウェア構成を模式的に示すブロック図である。 本開示の一実施形態に係る検出装置の構成を示すブロック図である。 本開示の一実施形態に適用可能な事前生成ニューラルネットワークの概略構造を概略的に示す。 本開示の一実施形態に係る検出方法のフローチャートを概略的に示す。 本開示の一実施形態に係る、図4に示される物体検出ステップS430のフローチャートを概略的に示す。 本開示に係る物体を検出するための領域を決定する例を概略的に示す。 本開示に係る物体を検出するための領域を決定する別の例を概略的に示す。 本開示の一実施形態に適用可能な、予めニューラルネットワークを生成するための生成方法のフローチャートを概略的に示す。 本開示に係る例示的な画像処理装置の構成を示す。 本開示に係る例示的な画像処理システムの構成を示す。
以下、本開示の例示的な実施形態について、添付の図面を参照しながら詳細に説明する。以下の説明は本質的に単に具体例(illustrative)かつ例示的(exemplary)なものであり、本開示およびそのアプリケーションまたは使用を限定することを決して意図しないことに留意されたい。実施形態に記載されている構成要素およびステップの相対的な配置、数値表現、および数値は特に断らない限り、本開示の範囲を限定するものではない。加えて、当業者によって知られている技術、方法、およびデバイスは詳細に論じられないことがあるが、適切な場合には本明細書の一部であるべきである。
なお、同様の参照番号および文字は図面中の同様の項目を指し、したがって、1つの図面中で項目が定義されると、以下の図面中でそれを論じる必要はないことに留意されたい。
人と物体との相互作用関係を検出する過程では、通常、人を囲む物体、特に人のある部分(例えば、手、下半身等)を囲む物体に注意を払う必要がある。言い換えれば、人と物体との相互作用関係を検出する過程において、人および物体の検出は、独立ではなく、互いに関連付けられる。したがって、本発明者は、一方では先ず画像から人が検出され、次いで、検出された人の情報(例えば、位置、姿勢など)に基づいて画像から関連する物体が検出され、検出された人および物体に基づいて人と物体との相互作用関係が判定され得ると考える。一方、人、物体、および人と物体との相互作用関係の検出は互いに関連付けられるので、特徴(共有特徴と見なすことができる)を画像全体から抽出し、同時に人の検出、物体の検出、および人と物体との相互作用関係の検出に使用することができる。このように、本開示によれば、1段階の処理により、人、物体、および人と物体との相互作用関係の検出を実現することができる。
したがって、本開示によれば、検出処理全体の処理時間を削減することができ、検出処理全体の検出精度を向上させることができる。したがって、本開示によれば、ビデオ/画像から人、物体、および人と物体との相互作用関係を検出する検出速度および検出精度を改善することができ、それにより、助けを必要とする人に助けを提供するタイムラインおよび精度をより良く満たすことができる。
(ハードウェア構成)
まず、図1を参照して、以下の技術を実現可能なハードウェア構成について説明する。
ハードウェア構成100は例えば、中央処理ユニット(CPU)110、ランダムアクセスメモリ(RAM)120、読取り専用メモリ(ROM)130、ハードディスク140、入力デバイス150、出力デバイス160、ネットワークインターフェース170、およびシステムバス180を含む。さらに、一実装形態では、ハードウェア構成100がタブレット、ラップトップ、デスクトップ、または他の適切な電子デバイスなどのコンピュータによって実装され得る。別の実装形態では、ハードウェア構成100がデジタルカメラ、ビデオカメラ、ネットワークカメラ、または他の適切な電子デバイスなどの監視デバイスによって実装され得る。ここで、ハードウェア構成100が監視デバイスによって実現される場合、ハードウェア構成100は例えば、光学系190も含む。
一実装形態では、本開示に係る検出装置がハードウェアまたはファームウェアから構成され、ハードウェア構成100のモジュールまたは構成要素として使用される。例えば、図2を参照して以下に詳細に説明される検出装置200は、ハードウェア構成100のモジュールまたは構成要素として使用される。他の実装形態では、本開示に係る検出装置は、ROM130またはハードディスク140に格納され且つCPU110により実行されるソフトウェアにより構成される。例えば、ROM130又はハードディスク140に格納されたプログラムとして、図4を参照して以下に詳細に説明する処理400が用いられる。
CPU110は任意の適切でプログラム可能な制御デバイス(プロセッサなど)であり、ROM130またはハードディスク140(メモリなど)に格納された様々なアプリケーションを実行することによって、以下で説明する様々な機能を実行することができる。RAM120はROM130やハードディスク140からロードされたプログラムやデータを一時的に格納するために用いられ、CPU110が各種の処理(図4〜図8を参照して以下に詳細に説明する技術を実現する等)やその他の利用可能な機能を実行するための空間としても用いられる。ハードディスク140は、OS(operating system)、各種アプリケーション、制御プログラム、ビデオ、画像、予め生成されたネットワーク(例えば、ニューラルネットワーク)、予め定義されたデータ(例えば、物体に対する人の従来の使用方法)等の各種情報を格納している。
一実装形態では、入力デバイス150は、ユーザがハードウェア構成100と対話することを可能にするために使用される。一例では、ユーザが入力デバイス150を介してビデオ/画像を入力することができる。別の例では、ユーザが入力デバイス150によって本開示の対応する処理を始動させることができる。さらに、入力デバイス150は、ボタン、キーボード、またはタッチスクリーンなどの様々な形態であってもよい。別の実装形態では、入力デバイス150は、デジタルカメラ、ビデオカメラ、および/またはネットワークカメラなどの特殊な電子デバイスから出力されたビデオ/画像を受信するために使用される。また、ハードウェア構成100が監視デバイスによって実現される場合、ハードウェア構成100内の光学系190は、監視サイトのビデオ/画像を直接キャプチャする。
一実装形態では、出力デバイス160が検出結果(検出された人、物体、および人と物体との相互作用関係など)をユーザに対して表示するために使用される。さらに、出力デバイス160は、陰極線管(CRT)またはLCDディスプレイなどの様々な形態であってもよい。別の実装形態では、出力デバイス160がセキュリティ監視および異常シーン検出などの後続の画像処理に検出結果を出力するために使用される。
ネットワークインターフェース170は、ハードウェア構成100をネットワークに接続するためのインターフェースを提供する。例えば、ハードウェア構成100は、ネットワークインターフェース170を介してネットワークの手段により接続された他の電子デバイスとのデータ通信を行ってもよい。あるいは、ハードウェア構成100が無線データ通信のための無線インターフェースを備えてもよい。システムバス180は、CPU110、RAM120、ROM130、ハードディスク140、入力デバイス150、出力デバイス160、ネットワークインターフェース170、光学系190などの間で互いにデータを伝送するためのデータ伝送経路を提供する。システムバス180はバスと呼ばれるが、特定のデータ伝送技術に限定されるものではない。
上記のハードウェア構成100は単に例示的なものであり、本開示、そのアプリケーション、または使用を限定することを決して意図するものではない。なお、図1では、簡単のため、1つのハードウェア構成のみを示している。ただし、必要に応じて複数のハードウェア構成を用いてもよい。
(検出装置及び方法)
次に、図2〜図7Cを参照して、本開示に係る検出処理について説明する。
図2は、本開示の一実施形態に係る検出装置200の構成を示すブロック図である。ここで、図2に示すモジュールの一部または全部は、専用のハードウェアによって実現されてもよい。図2に示すように、検出装置200は、特徴抽出部210と、人検出部220と、物体検出部230と、相互作用判定部240と、を備える。
まず、一実装形態では、例えば、図1に示すハードウェア構成100がコンピュータで実現される場合、入力デバイス150は専用の電子デバイス(例えば、カメラ等)から出力された画像もしくはユーザにより入力された画像を受け取る。そして、入力デバイス150は、受け取った画像をシステムバス180を介して検出装置200に送信する。例えば、他の実装形態では、ハードウェア構成100が監視デバイスによって実現される場合、検出装置200は、光学系190によって撮像された画像をそのまま利用する。
そして、特徴抽出部210は図2に示すように、受け取った画像(すなわち、画像全体)から特徴を抽出する。本開示では、抽出された特徴は、共有特徴と見なすことができる。一実装形態では、特徴抽出部210は、輝度勾配ヒストグラム(Histogram of Oriented Gradient)(HOG)、ローカルバイナリパターン(LBP)、および他の演算子(operators)などの様々な特徴抽出演算子を使用することによって、受け取った画像から共有特徴を抽出する。
人検出部220は、特徴抽出部210によって抽出された共有特徴に基づいて、受け取った画像中の人を検出する。一実装形態では、人検出部220によって実行される検出動作は、画像から人の領域を検出することである。このような実装形態では、人検出部220は、選択的検索アルゴリズム、EdgeBoxesアルゴリズム、Objectnessアルゴリズムなどの既存の領域検出アルゴリズムを使用することによって、人の領域を検出することができる。別の実装形態では、人検出部220によって実行される検出動作は、画像から人のキーポイントを検出することである。本実装形態において、人検出部220は、マスク領域畳み込みニューラルネットワーク(Mask R−CNN)アルゴリズムなどの既存のキーポイント検出アルゴリズムを用いて人のキーポイントを検出することができる。
物体検出部230は、特徴抽出部210によって抽出された共有特徴に基づいて、人検出部220によって検出された人の周囲領域内の物体を検出する。一方で、セキュリティ監視または異常シーン検出の過程において、検出の目的は通常、明確である。例えば、画像内に車椅子に座っている人や松葉づえをついている人がいるかを検出することが必要である。したがって、検出の目的に応じて、検出する物体のタイプを直接知ることができる。したがって、検出される人の少なくとも1つの部分は、検出する物体のタイプに基づいてさらに決定することができ、周囲領域は、決定された少なくとも1つの部分を囲む領域である。例えば、検出する物体が松葉づえや車椅子である場合、人の判定部分は例えば、人の下半身である。例えば、検出する物体が松葉づえ及びパラソル/傘である場合、人の決定部分は例えば、人の上半身及び下半身である。例えば、検出する物体が松葉づえおよびバックパックである場合、人の決定部分は例えば、人の下半身および中部である。明らかに、本開示はこれらに限定されない。一方、上述したように、人検出部220によって行われる検出動作は、人の領域の検出であってもよいし、人のキーポイントの検出であってもよい。したがって、一実装形態では、人検出部220が人の領域を検出する場合、物体検出部230によって実行される検出動作は、物体の領域の検出である。ここで、また、物体検出部230は、例えば、上述した既存の領域検出アルゴリズムを用いて、物体の領域を検出してもよい。他の実装形態では、人検出部220が人のキーポイントを検出する場合、物体検出部230による検出動作は、物体のキーポイントの検出である。ここで、また、物体検出部230は例えば、上述した既存のキーポイント検出アルゴリズムを用いて、物体のキーポイントを検出してもよい。
相互作用判定部240は、受け取った画像中の人および物体を検出した後、特徴抽出部210によって抽出された共有特徴と、人検出部220によって検出された人と、物体検出部230によって検出された物体と、に基づいて、受け取った画像中の人と物体との相互作用情報(すなわち、人と物体との相互作用関係)を判定する。一実装形態では、相互作用判定部240は、例えば、共有特徴、検出された人および物体に基づいて事前に生成された分類器を使用して、人と物体との相互作用関係を判定することができる。ここで、分類器は、人、物体、および人と物体との相互作用関係(すなわち、人が対応する物体を使用する従来の使用方法)でマークされたサンプルに基づいて、サポートベクトルマシン(Support Vector Machine)(SVM)などのアルゴリズムを使用することによって訓練され、取得され得る。
最後に、人検出部220、物体検出部230、および相互作用判定部240は、図1に示すシステムバス180を介して、検出結果(例えば、検出された人、物体、および人と物体との相互作用関係)を出力デバイス160に送信し、検出結果をユーザに対して表示したり、検出結果をセキュリティ監視や異常シーン検出等の後続の画像処理に出力したりする。
また、好ましくは、一実装形態では、図2に示す検出装置200の各部(すなわち、特徴抽出部210、人検出部220、物体検出部230、および相互作用判定部240)は、予め生成されたニューラルネットワークを用いて、対応する動作を実行してもよい。一方、例えば、図3に示すように、本開示の実施形態に適用可能な予め生成されたニューラルネットワークは、例えば、特徴を抽出する部分と、人を検出する部分と、物体を検出する部分と、人と物体との相互作用関係を判定する部分と、を含む。ここで、予めニューラルネットワークを生成する方法については、図8を参照して以下に詳細に説明する。一方、予め生成されたニューラルネットワークは、記憶デバイス(図示せず)に格納されてもよい。例えば、記憶デバイスは、図1に示すようなROM230やハードディスク240であってもよい。例えば、記憶デバイスは、ネットワーク(図示せず)を介して検出装置200に接続されたサーバや外部記憶デバイスであってもよい。
具体的には、一方では、検出装置200は、予め生成されたニューラルネットワークを記憶デバイスから取得する。他方では、特徴抽出部210は、ニューラルネットワークの特徴を抽出する部分を用いて、受け取った画像から共有特徴を抽出する。人検出部220は、特徴抽出部210によって抽出された共有特徴に基づいて、ニューラルネットワークの人を検出する部分を用いて、受け取った画像中の人を検出する。物体検出部230は、特徴抽出部210によって抽出された共有特徴と、人検出部220によって検出された人と、に基づいて、ニューラルネットワークの物体を検出する部分を用いて、人を囲む物体を検出する。相互作用判定部240は、特徴抽出部210によって抽出された共有特徴と、人検出部220によって検出された人と、物体検出部230によって検出された物体と、に基づいて、ニューラルネットワークの人と物体との相互作用関係を判定する部分を用いて、受け取った画像における人と物体との相互作用関係を判定する。
図4に示すフローチャート400は、図2に示す検出装置200の対応する処理である。
図4に示すように、特徴抽出ステップS410において、特徴抽出部210は、受け取った画像から特徴(すなわち共有特徴)を抽出する。
共有特徴を取得した後、人検出ステップS420において、人検出部220は、共有特徴に基づいて、受け取った画像内の人を検出する。ここで、上述したように、人検出部220により実行される検出動作は、画像から人の領域を検出したり、画像から人のキーポイントを検出したりするものであってもよい。
画像中の人を検出した後、物体検出ステップS430において、物体検出部230は、共有特徴に基づいて、検出された人を囲む領域内の物体を検出する。一実装形態では、物体検出部230は、図5を参照して、対応する物体検出動作を実行する。この場合、図2に示す物体検出部230は、例えば、領域判定サブユニット(図示せず)と、物体検出サブユニット(図示せず)と、を含んでもよい。
図5に示すように、ステップS4310において、物体検出部230又は領域判定サブユニットは、検出された人の少なくとも1つの部分を決定し、物体を検出する領域として、決定された部分の周囲領域を決定する。
ここで、上記のように、検出された人の少なくとも1つの部分の決定に関しては、セキュリティ監視または異常シーン検出の過程において、検出の目的は通常確定的であるため、検出される物体のタイプに基づいて、検出された人から少なくとも1つの部分を決定することができる。セキュリティ監視の過程では、助けを必要とする人は通常、松葉杖や車椅子を通常使用する人であるため、検出される物体は通常、人の下半身が位置する領域に位置する。従って、好ましくは、人の決定された部分が例えば、その下半身である。例えば、図6A〜6Cに示すように、図6Aは受け取った画像を表し、図6Bの領域610は検出された人の領域を表す。検出する物体のタイプは松葉杖であるため、検出された人の下半身(図6Cの領域620に示すように)が対応部位として決定されてもよい。
ここで、決定された部分を囲む領域の決定(すなわち、物体を検出するための領域の決定)に関して、一実装形態では、例えば、物体を検出するための領域は、決定された部分が位置する領域を拡張することによって決定されてもよい。例えば、図6Dに示すように、図6Dの領域630は、物体を検出するための領域を表しており、図6Cの領域620を拡張することで直接得られる。別の実装形態では、人は通常、ある種の物体を使用する、例えば、人が車椅子に「座っている」、人が松葉杖を「ついている」、人が傘を「持っている」、人がベビーカーを「押す」など、のために特定の姿勢を有するので、物体をより効果的に検出するための領域を得て、物体の検出速度を向上させるために、例えば、検出された人の人の姿勢を判定することによって、物体を検出するための領域を決定することができる。例えば、通常、検出された人の人の姿勢が「手が松葉杖の上にある」と判定することにより、物体を検出する領域が人の下半身の手の近くの位置にあるとすると、例えば、図6Eに示すように、図6Eの領域640および領域650は物体を検出する領域を示しており、図6Cの領域620に基づいて、判定された人の姿勢を組み合わせることで取得される。また、上述したように、人や物体の領域に加えて、人のキーポイントや物体のキーポイントが検出されてもよい。そこで、他の実装形態では、人検出部220によって人のキーポイントが検出された場合に、検出された人のキーポイントのうちの少なくとも1つを囲む領域を、物体を検出する(すなわち、物体のキーポイントを検出する)ための領域として決定してもよく、このようにして、物体を検出するためのより有効な領域を得て、物体を検出するための速度を向上させてもよい。例えば、通常、人の右手が松葉杖の上にあるとすると、右手を表すキーポイントを囲む領域が、物体を検出する領域として決定されてもよい。もちろん、左手を表すキーポイントを囲む領域と、右手を表すキーポイントを囲む領域と、をそれぞれ物体を検出する領域として決定してもよい。例えば、図7A〜7Cに示すように、図7Aは受け取った画像を示し、図7Bの星点は検出された人のキーポイントを示し、ここで、星点710は右手のキーポイントを示し、星点720は左手のキーポイントを示し、図7Cの領域730は物体を検出する領域(すなわち、右手のキーポイントを囲む領域)を示し、図7Cの領域740は物体を検出する他の領域(すなわち、左手のキーポイントを囲む領域)を示す。
図5に戻り、物体を検出するための領域が決定された後、ステップS4320において、物体検出部230または物体検出サブユニットは、共有特徴および決定された領域に基づいて物体を検出する(例えば、物体の領域を検出する、または物体のキーポイントを検出する)。
図4に戻り、受け取った画像内の人および物体を検出した後、相互作用判定ステップS440において、相互作用判定部240は、共有特徴ならびに検出された人および物体に基づいて、受け取った画像内の人と物体との相互作用情報(すなわち、人と物体との相互作用関係)を判定する。例えば、図6Aまたは図7Aに示される画像のように、判定された人と物体との相互作用関係は、人が松葉杖の上に手を置くことである。
最後に、人検出部220、物体検出部230、および相互作用判定部240は、図1に示すシステムバス180を介して、検出結果(例えば、検出された人、物体、および人と物体との相互作用関係)を出力デバイス160に送信し、検出結果をユーザに対して表示したり、検出結果をセキュリティ監視や異常シーン検出等の後続の画像処理に出力したりする。
上記の通り、一方では、本開示では画像から各動作で使用可能な共有特徴を取得するため、本開示は、1段階の処理で人、物体、および人と物体との相互作用関係の検出を実現することができ、よって、検出処理全体の処理時間を削減することができる。他方で、本開示は、先ず画像中の人を検出し、次いで検出された人の情報に基づいて物体が検出された領域が決定されればよいので、本開示は物体検出の範囲を狭めることができ、検出処理全体の検出精度を向上させることができ、よって、検出処理全体の処理時間をさらに削減することができる。したがって、本開示によれば、ビデオ/画像から人、物体、および人と物体との相互作用関係を検出する検出速度および検出精度を向上させることができ、それにより、助けを必要とする人に助けを提供するタイムラインおよび精度をより良く満たすことができる。
(ニューラルネットワークの生成)
上述のように、本開示の実施形態では、対応する動作が事前に生成されたニューラルネットワーク(例えば、図3に示されるニューラルネットワーク)を使用することによって実行されてもよい。本開示では、人の領域/キーポイント、物体の領域/キーポイント、および人と物体との相互作用関係がマーキングされるトレーニングサンプルに基づいて、ディープラーニング方法(deep learning method)(例えば、ニューラルネットワーク方法)を使用することによって、対応するニューラルネットワークを事前に生成することができる。
一実装形態では、ニューラルネットワークを生成するのに要する時間を削減するために、ニューラルネットワークにおいて、特徴を抽出する部分と、人を検出する部分と、物体を検出する部分と、人と物体との相互作用関係を判定する部分と、がバックプロパゲーションの方法で一緒に更新される。図8は、本開示の実施形態に適用可能なニューラルネットワークを事前に生成するための生成方法のフローチャート800を概略的に示す。図8に示すフローチャート800では、ニューラルネットワーク法を用いて対応するニューラルネットワークを生成する場合を例に取り説明する。しかし、明らかに、本開示はこれに限定されない。ここで、図8を参照した生成方法は、図1に示したハードウェア構成100によって実行されてもよい。
図8に示すように、図1に示すようにCPU110は、まず、入力デバイス150により、予め設定された初期ニューラルネットワークと、複数のトレーニングサンプルと、を取得する。ここで、人の領域/キーポイント、物体の領域/キーポイント、および人と物体との相互作用関係は、各トレーニングサンプルにおいてマークされる。
次に、ステップS810において、一方でCPU110は、トレーニングサンプルを現在のニューラルネットワーク(例えば、初期ニューラルネットワーク)に通して、人の領域/キーポイント、物体の領域/キーポイント、および人と物体との相互作用関係を取得する。換言すれば、CPU110は、トレーニングサンプルを、現在のニューラルネットワークにおいて特徴を抽出する部分、人を検出する部分、物体を検出する部分、および人と物体との相互作用関係を判定する部分、に順次通過させて、人の領域/キーポイント、物体の領域/キーポイント、および人と物体との相互作用関係を取得する。他方で、人の取得した領域/キーポイントについては、CPU110は、人の取得した領域/キーポイントと人のサンプル領域/キーポイントとの間の損失(例えば、第1損失、Loss1)を決定する。ここで、人のサンプル領域/キーポイントは、トレーニングサンプルにおいてマークされた人の領域/キーポイントに従って取得されてもよい。ここで、第1損失Loss1は、現在のニューラルネットワークを用いて得られる人の予測領域/キーポイントと、人のサンプル領域/キーポイント(すなわち、実際の領域/キーポイント)と、の間の誤差を表し、誤差は例えば、距離によって評価されてもよい。
物体の取得された領域/キーポイントについて、CPU110は、物体の取得された領域/キーポイントと物体のサンプル領域/キーポイントとの間の損失(例えば、第2損失、Loss2)を決定する。ここで、物体のサンプル領域/キーポイントは、トレーニングサンプルにおいてマークされた物体の領域/キーポイントに従って得ることができる。ここで、第2損失Loss2は、現在のニューラルネットワークを使用することによって得られる物体の予測領域/キーポイントと、物体のサンプル領域/キーポイント(すなわち、実際の領域/キーポイント)と、の間の誤差を表し、誤差は、例えば、距離によって評価されてもよい。
得られた人と物体との相互作用関係について、CPU110は、得られた人と物体との相互作用関係とサンプルの人と物体との相互作用関係との間の損失(例えば、第3損失、Loss3)を決定する。ここで、サンプルの人と物体との相互作用関係は、トレーニングサンプルにおいてマークされた人と物体との相互作用関係に従って得ることができる。ここで、第3損失Loss3は、現在のニューラルネットワークを用いて得られた予測される人と物体との相互作用関係と、サンプルの人と物体との相互作用関係(すなわち、実際の人と物体との相互作用関係)と、の間の誤差を表し、誤差は、例えば、距離によって評価されてもよい。
図8に戻って、ステップS820において、CPU110は、決定されたすべての損失(すなわち、第1損失Loss1、第2損失Loss2、および第3損失Loss3)に基づいて、現在のニューラルネットワークが所定の条件を満たすかどうかを判断する。例えば、3つの損失の和/重み付き和を閾値(例えば、TH1)と比較し、3つの損失の和/重み付き和がTH1以下である場合には、現在のニューラルネットワークは所定の条件を満たしており、最終的なニューラルネットワーク(すなわち、予め生成されたニューラルネットワーク)として出力されると判断し、例えば、最終的なニューラルネットワークは図1に示すROM130またはハードディスク140に出力され、図2〜7Cに示す検出動作に用いることができる。3つの損失の和/重み付き和がTH1より大きい場合、現在のニューラルネットワークは所定の条件を満たさないと判断され、生成処理はステップS830に進む。
ステップS830において、CPU110は、第1損失Loss1、第2損失Loss2、および第3損失Loss3に基づいて、現在のニューラルネットワークを更新する、すなわち、現在のニューラルネットワークにおける、人と物体との相互作用関係を判定する部分、物体を検出する部分、人を検出する部分、および特徴を抽出する部分、における各層のパラメータを順次更新する。ここで、各層のパラメータとは、例えば、上記部分の各々における各畳み込み層における重み値である。一例では例えば、各層のパラメータは、確率的勾配降下法を使用することによって、第1損失Loss1、第2損失Loss2、および第3損失Loss3に基づいて更新される。その後、生成処理は再びステップS810に進む。
図8に示すフローチャート800では、3つの損失(第1損失Loss1、第2損失Loss2、および第3損失Loss3)の和/重み付き和が所定の条件を満たすか否かを、現在のニューラルネットワークの更新を停止するための条件としている。しかし、明らかに、本開示はこれに限定されない。あるいは例えば、ステップS820を省略してもよいが、現在のニューラルネットワークの更新回数が所定回数に達した後に、対応する更新動作を停止する。
(アプリケーション)
また、上述したように、本開示は監視デバイス(例えば、ネットワークカメラ)によって実現することができる。そこで、一アプリケーションとして、本開示をネットワークカメラで実現する場合を例に挙げて、本開示に係る例示的な画像処理装置900の構成を図9に示す。図9に示すように、画像処理装置900は、少なくとも取得デバイス910、記憶デバイス920、およびプロセッサ930、を含む。もちろん、画像処理装置900は、図示しない入力デバイスや出力デバイス等も含んでよい。
図9に示すように、まず、取得デバイス910(例えば、ネットワークカメラの光学系)は、注目箇所(例えば、監視サイト)の画像/ビデオを撮像し、撮像した画像/ビデオをプロセッサ930に送信する。ここで、上記監視サイトは、セキュリティ監視、異常シーン検出等を必要とする場所であってもよい。
記憶デバイス920は命令を記憶し、記憶された命令は、少なくとも、図4〜7Cに記載された検出方法に対応する命令である。
プロセッサ930は、撮像された画像/ビデオに基づいて、記憶された命令を実行し、これにより、少なくとも図4〜7Cに記載された検出方法が実行され、撮像された画像/ビデオにおける人、物体、および人と物体との相互作用関係を検出する。
また、記憶デバイス920が後続の画像処理命令も記憶している場合、例えば、監視サイトに異常シーンがあるかどうか(例えば、助けを必要とする人がいるかどうか)を判定する場合、プロセッサ930は、検出された人と物体との相互作用関係に基づいて、対応する後続の画像処理命令を実行することによって、対応する動作を実施することもできる。この場合、例えば、外部の表示装置(図示せず)がネットワークを介して画像処理装置900に接続され、外部の表示装置はその後の画像処理結果(例えば、助けを必要とする人間の外観等)をユーザ/監視員に対して出力するようにしてもよい。あるいは、上記の後続の画像処理命令が外部プロセッサ(図示せず)によって実行されてもよい。この場合、上記後続の画像処理命令は例えば、外部記憶デバイス(図示せず)に記憶され、画像処理装置900、外部記憶デバイス、外部プロセッサ、および外部表示装置は、例えば、ネットワークを介して接続されてもよい。このように、外部プロセッサは、画像処理装置900によって検出された人と物体との相互作用関係に基づいて、外部記憶デバイスに記憶されている後続の画像処理命令を実行することができ、外部表示装置は、後続の画像処理結果をユーザ/監視要員に対して出力することができる。
また、上述したように、本開示は、コンピュータ(例えば、クライアントサーバ)によって実現されてもよい。そこで、一アプリケーションとして、本開示をクライアントサーバで実現する場合を例に挙げて、本開示に係る例示的な画像処理システム1000の構成を図10に示す。図10に示すように、画像処理システム1000は、取得装置1010(例えば、少なくとも1つのネットワークカメラ)と、処理装置1020と、図2に示す検出装置200と、を含み、取得装置1010と、処理装置1020と、検出装置200とは、ネットワーク1030を介して互いに接続されている。なお、処理装置1020と画像処理装置200とは、それぞれ同一のクライアントサーバで実現されてもよいし、異なるクライアントサーバで実現されてもよい。
図10に示すように、まず、取得装置1010は注目箇所(例えば、監視サイト)の画像又はビデオを撮像し、撮像した画像/ビデオをネットワーク1030を介して検出装置200に送信する。ここで、上記監視サイトは例えば、セキュリティ監視、異常シーン検出等を必要とする場所であってもよい。
検出装置200は、図2〜図7Cを参照して、撮像された画像/ビデオから、人、物体、および人と物体との相互作用関係を検出する。
処理装置1020は、検出された人と物体との相互作用関係に基づいて、以降の画像処理動作を実行し、例えば、監視サイトに異常シーンがあるか否か(例えば、助けを必要とする人がいるか否か)等を判定する。例えば、検出された人と物体との相互作用関係は、助けを必要とする人がいるかどうかを判断するための予め定義された異常ルールと比較されてもよい。例えば、予め定められた異常ルールが「松葉杖をついている若しくは車椅子に座っている人がいる場合に、人が助けを必要としている」であるとすると、検出された人と物体との相互作用関係が「人が松葉杖をついている若しくは車椅子に座っている」である場合に、表示装置や警報装置をネットワーク1030により接続して、対応する画像処理結果(例えば、助けを必要とする人がいるなど)をユーザ/監視員に対して出力するようにしてもよい。
上記のユニットのすべては、本開示で説明される処理を実施するための例示的および/または好ましいモジュールである。これらのユニットは、ハードウェアユニット(フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ、特定用途向け集積回路など)および/またはソフトウェアモジュール(コンピュータ可読プログラムなど)とすることができる。各ステップを実施するためのユニットは、上記では詳細に説明されていない。しかしながら、特定の処理を実行するステップが存在する場合、同じ処理を実施するための対応する機能モジュールまたはユニット(ハードウェアおよび/またはソフトウェアによって実施される)が存在してもよい。説明されたステップと、これらのステップに対応するユニットと、の全ての組み合わせによって構成される技術的解決策は、それらが構成する技術的解決策が完全であり且つ適用可能である限り、本アプリケーションの開示内容に含まれる。
本開示の方法および装置は、様々な方法で実装され得る。例えば、本開示の方法および装置は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せによって実装され得る。別段の指定がない限り、本方法におけるステップの上記シーケンスは単に例示的なものであることが意図されており、本開示の方法におけるステップは、上記の特定のシーケンスに限定されない。さらに、いくつかの実施形態では、本開示が本開示に係る方法を実施するための機械可読命令を含む記録媒体に記録されたプログラムとして実施することもできる。したがって、本開示は、本開示に係る方法を実現するためのプログラムを格納する記録媒体も包含する。
本開示のいくつかの特定の実施形態が、例を用いて詳細に実証されたが、上記の実施形態は例示的であることを意図するのみで、本開示の範囲を限定することを意図しないことが、当業者によって理解されるべきである。上記の実施形態は、本開示の範囲および精神から逸脱することなく変更され得ることが、当業者によって理解されるべきである。本開示の範囲は、添付の特許請求の範囲によって定義される。

Claims (14)

  1. 画像から特徴を抽出する特徴抽出部と、
    前記特徴に基づいて、前記画像中の人を検出する人検出部と、
    前記特徴に基づいて前記検出された人の周囲領域内の物体を検出する物体検出部と、
    前記特徴、前記検出された人および前記検出された物体、に基づいて、前記画像内の人と物体との相互作用情報を判定する相互作用判定部と
    を有することを特徴とする検出装置。
  2. 前記人検出部および前記物体検出部は、前記人および前記物体の領域を検出するか、または前記人および前記物体のキーポイントを検出するように構成されていることを特徴とする請求項1に記載の検出装置。
  3. 前記検出された人の少なくとも1つの部分は、検出される物体のタイプに基づいて決定され、前記周囲領域は、前記決定された少なくとも1つの部分を囲む領域であることを特徴とする請求項2に記載の検出装置。
  4. 前記決定された少なくとも1つの部分は、前記検出された人の下半身であることを特徴とする請求項3に記載の検出装置。
  5. 前記周囲領域は、前記検出された人の姿勢を判定することによって決定されることを特徴とする請求項3に記載の検出装置。
  6. 前記周囲領域は、前記人の前記キーポイントが検出された場合には、前記人の前記キーポイントの少なくとも1つを囲む領域であることを特徴とする請求項3に記載の検出装置。
  7. 前記特徴抽出部、前記人検出部、前記物体検出部、および前記相互作用判定部は、予め生成されたニューラルネットワークを用いて、対応する動作を実行することを特徴とする請求項1に記載の検出装置。
  8. 画像から特徴を抽出する特徴抽出ステップと、
    前記特徴に基づいて、前記画像中の人を検出する人検出ステップと、
    前記特徴に基づいて前記検出された人の周囲領域内の物体を検出する物体検出ステップと、
    前記特徴と、前記検出された人および前記検出された物体とに基づいて、前記画像内の人と物体との相互作用情報を判定する相互作用判定ステップと
    を有することを特徴とする検出方法。
  9. 前記人検出ステップおよび前記物体検出ステップは、前記人および前記物体の領域を検出するか、または前記人および前記物体のキーポイントを検出するように構成されていることを特徴とする請求項8に記載の検出方法。
  10. 前記検出された人の少なくとも1つの部分は、検出される物体のタイプに基づいて決定され、前記周囲領域は、前記決定された少なくとも1つの部分を囲む領域であることを特徴とする請求項9に記載の検出方法。
  11. 前記周囲領域は、前記検出された人の姿勢を判定することによって決定されることを特徴とする請求項10に記載の検出方法。
  12. 前記周囲領域は、前記人の前記キーポイントが検出された場合には、前記人の前記キーポイントのうちの少なくとも1つを囲む領域であることを特徴とする請求項10に記載の検出方法。
  13. 画像またはビデオを取得する取得デバイスと、
    命令を記憶する記憶デバイスと、
    プロセッサが少なくとも請求項8に記載の検出方法を実施するように、前記取得された画像またはビデオに基づいて前記命令を実行する前記プロセッサと
    を備えることを特徴とする画像処理装置。
  14. 画像またはビデオを取得する取得装置と、
    前記取得された画像またはビデオから人、物体、および人と物体との相互作用情報を検出する、請求項1に記載の検出装置と、
    前記検出された人と物体との相互作用情報に基づいて、後続の画像処理動作を実行する処理装置と
    を備え、
    前記取得装置、前記検出装置、および前記処理装置は、ネットワークを介して互いに接続されていることを特徴とする画像処理システム。
JP2020003058A 2019-01-30 2020-01-10 検出装置、及び方法、並びに画像処理装置及びシステム Pending JP2020123328A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910089715.1A CN111507125A (zh) 2019-01-30 2019-01-30 检测装置和方法及图像处理装置和系统
CN201910089715.1 2019-01-30

Publications (1)

Publication Number Publication Date
JP2020123328A true JP2020123328A (ja) 2020-08-13

Family

ID=71732506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020003058A Pending JP2020123328A (ja) 2019-01-30 2020-01-10 検出装置、及び方法、並びに画像処理装置及びシステム

Country Status (3)

Country Link
US (1) US20200242345A1 (ja)
JP (1) JP2020123328A (ja)
CN (1) CN111507125A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022034680A1 (ja) * 2020-08-14 2022-02-17 日本電気株式会社 物体認識装置、物体認識方法、及び、記録媒体

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020198173A1 (en) * 2019-03-22 2020-10-01 Qualcomm Technologies, Inc. Subject-object interaction recognition model
US20220194762A1 (en) * 2020-12-18 2022-06-23 Industrial Technology Research Institute Method and system for controlling a handling machine and non-volatile computer readable recording medium
CN112784760B (zh) * 2021-01-25 2024-04-12 北京百度网讯科技有限公司 人体行为识别方法、装置、设备以及存储介质
JP2022122364A (ja) * 2021-02-10 2022-08-23 日本電気株式会社 データ生成装置、データ生成方法、及びプログラム
CN113255820B (zh) * 2021-06-11 2023-05-02 成都通甲优博科技有限责任公司 落石检测模型训练方法、落石检测方法及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002056251A1 (fr) * 2000-12-27 2002-07-18 Mitsubishi Denki Kabushiki Kaisha Dispositif de traitement d'images et ascenseur sur lequel il est monte
JP2007274234A (ja) * 2006-03-30 2007-10-18 National Institute Of Advanced Industrial & Technology ステレオカメラを用いた白杖使用者検出システム
WO2015133206A1 (ja) * 2014-03-05 2015-09-11 コニカミノルタ株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
JP2018206321A (ja) * 2017-06-09 2018-12-27 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
WO2018235198A1 (ja) * 2017-06-21 2018-12-27 日本電気株式会社 情報処理装置、制御方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4476546B2 (ja) * 2000-12-27 2010-06-09 三菱電機株式会社 画像処理装置及びそれを搭載したエレベータ
US10198818B2 (en) * 2016-10-12 2019-02-05 Intel Corporation Complexity reduction of human interacted object recognition
CN108734112A (zh) * 2018-04-26 2018-11-02 深圳市深晓科技有限公司 一种交互行为实时检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002056251A1 (fr) * 2000-12-27 2002-07-18 Mitsubishi Denki Kabushiki Kaisha Dispositif de traitement d'images et ascenseur sur lequel il est monte
JP2007274234A (ja) * 2006-03-30 2007-10-18 National Institute Of Advanced Industrial & Technology ステレオカメラを用いた白杖使用者検出システム
WO2015133206A1 (ja) * 2014-03-05 2015-09-11 コニカミノルタ株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
JP2018206321A (ja) * 2017-06-09 2018-12-27 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
WO2018235198A1 (ja) * 2017-06-21 2018-12-27 日本電気株式会社 情報処理装置、制御方法、及びプログラム

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BANGPENG YAO ET AL.: ""Recognizing Human-Object Interactions in Still Images by Modeling the Mutual Context of Objects and", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 34, no. 9, JPN6021005814, 6 March 2012 (2012-03-06), US, pages 1691 - 1703, XP011490714, ISSN: 0004450723, DOI: 10.1109/TPAMI.2012.67 *
GEORGIA GKIOXARI ET AL.: ""Detection and Recognizing Human-Object Interactions"", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6021005810, 18 June 2018 (2018-06-18), US, pages 8359 - 8367, ISSN: 0004508560 *
三橋 優人、外2名: ""人込みの中での人物と物体のインタラクション開始・終了検出"", 第76回(平成26年)全国大会講演論文集(2), JPN6021005812, 11 March 2014 (2014-03-11), JP, pages 87 - 88, ISSN: 0004450721 *
三橋 優人、外2名: ""映像の階層的な解析に基づく混雑した状況での人物と物体のインタラクション検出"", 電子情報通信学会技術研究報告, vol. 114, no. 356, JPN6021005811, 4 December 2014 (2014-12-04), JP, pages 69 - 74, ISSN: 0004450720 *
工藤 康統、外2名: ""Convolutional Neural Networksを用いた人物周辺の環境を考慮した行動認識", 画像ラボ, vol. 28, no. 7, JPN6021005813, 10 July 2017 (2017-07-10), JP, pages 24 - 32, ISSN: 0004450722 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022034680A1 (ja) * 2020-08-14 2022-02-17 日本電気株式会社 物体認識装置、物体認識方法、及び、記録媒体
JP7416261B2 (ja) 2020-08-14 2024-01-17 日本電気株式会社 物体認識装置、物体認識方法、及び、プログラム

Also Published As

Publication number Publication date
CN111507125A (zh) 2020-08-07
US20200242345A1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
JP2020123328A (ja) 検出装置、及び方法、並びに画像処理装置及びシステム
JP7229174B2 (ja) 人識別システム及び方法
EP3284016B1 (en) Authentication of a user of a device
Asim et al. Context-aware human activity recognition (CAHAR) in-the-Wild using smartphone accelerometer
US11393186B2 (en) Apparatus and method for detecting objects using key point sets
Vadivelu et al. Thermal imaging based elderly fall detection
Chhetri et al. Deep learning for vision‐based fall detection system: Enhanced optical dynamic flow
Fan et al. Fall detection via human posture representation and support vector machine
JP7238902B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN110689030A (zh) 属性识别装置和方法及存储介质
Sharma et al. Study on HGR by Using Machine Learning
JP2024045460A (ja) 情報処理システム、情報処理装置、情報処理方法、およびプログラム
Sharif et al. Human Gait Recognition using Deep Learning: A Comprehensive Review
JP2018049482A (ja) 評価システム、情報処理装置およびプログラム
CN113569671A (zh) 异常行为报警方法、装置
Yan et al. Home-Based Real-Time Abnormal Movement Detection System Deployed on On-Device Artificial Intelligence
Zhao et al. Person identification based on static features extracted from kinect skeleton data
Kaur et al. Real-time video surveillance based human fall detection system using hybrid haar cascade classifier
Lavi et al. Biometric system based on kinect skeletal, facial and vocal features
Mobsite et al. A Deep Learning Dual-Stream Framework for Fall Detection
Pandi et al. AI Based Human Computer Interactions for Specially-Abled
JP7480841B2 (ja) イベントの管理方法、イベント管理装置、システム及びプログラム
Altun et al. Face Verification System In Mobile Devices By Using Cognitive Services
Suarez et al. FASENet: A Two-Stream Fall Detection and Activity Monitoring Model Using Pose Keypoints and Squeeze-and-Excitation Networks
Chiang et al. A framework for fusing video and wearable sensing data by deep learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210521