JP2020123328A

JP2020123328A - 検出装置、及び方法、並びに画像処理装置及びシステム

Info

Publication number: JP2020123328A
Application number: JP2020003058A
Authority: JP
Inventors: ホァーンヤオハイ; Yaohai Huang; ジーシン; Xin Ji
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-01-30
Filing date: 2020-01-10
Publication date: 2020-08-13
Also published as: US20200242345A1; CN111507125A

Abstract

【課題】助けを必要とする人を発見することができる検出装置及び方法並びに画像処理装置及びシステムを提供する。【解決手段】検出装置は、画像から特徴を抽出するユニットと、抽出された特徴に基づいて画像内の人を検出するユニットと、抽出された特徴に基づいて検出された人の周囲領域内の物体を検出するユニットと、抽出された特徴、検出された人および検出された物体に基づいて画像内の人と物体との相互作用情報を判定するユニットと、を備える。【効果】ビデオ／画像から人、物体および人と物体との相互作用関係を検出する検出速度および検出精度を向上させることができるので、助けを必要とする人に助けを提供するタイムラインおよび精度をより良好に満たすことができる。【選択図】図２

Description

本開示は画像処理に関し、特に、例えば、画像における人と物体との相互作用の検出に関する。

シーンを監視する際に、時間内に助けを必要とする人に援助を提供できるようにするために、人と物体との間の相互作用関係（すなわち、人と物体との相互作用関係）を画像／ビデオから迅速かつタイムリーに検出することが重要なタスクであり、人と物体との相互作用関係は、例えば、人が松葉杖をついていること、人が車椅子に座っていること、人がベビーカーを押していること、などを含む。例えば、人と物体との相互作用関係が、人が車椅子に座っているか、松葉杖をついているなどである場合、人は通常、助けを必要とする人である。

ビデオ／画像から人と物体との相互作用関係を検出するために、非特許文献「Detecting and Recognizing the Human-Object Interactions」（Georgia Gkioxari Ross Girshick Piotr Doll´ar Kaiming He, Facebook AI Research, CVPR 2018）は、人と物体との相互作用関係を検出して認識する例示的な技術を開示している。ここで、この例示的な技術は主に、次のようなものである。先ずは１つのニューラルネットワークによって画像から特徴を抽出し、画像内の人および物体の全ての可能な候補領域を検出し、次に、検出された候補領域から別のニューラルネットワークによって特徴を再び抽出し、再び抽出された特徴に基づいて、ニューラルネットワーク内の物体検出ブランチ、人検出ブランチ、および人と物体との相互作用関係検出ブランチによって、候補領域から人、物体、および人と物体との相互作用関係をそれぞれ検出する。

上述のように、ビデオ／画像から人と物体との相互作用関係を検出する過程で、上述の例示的な技術は、２つの独立した段階によって対応する検出を実現する必要があることが分かる。ここで、一方の段階の動作は、画像から人の全ての候補領域及び物体の全ての候補領域を同時に検出することであり、他の段階の動作は、全ての候補領域から人、物体、及び人と物体との相互作用関係を検出することである。２段階の動作では、２回のネットワーク演算、特に２回の特徴抽出（例えば、人と物体の候補領域を検出するための特徴を抽出し、人、物体、人と物体との相互作用関係を検出するための特徴を抽出する）を行う必要があるため、全体の検出処理により多くの処理時間を費やし、すなわち、ビデオ／画像から人、物体、人と物体との相互作用関係を検出する検出速度に影響を与え、したがって、助けを必要とする人に助けを提供するタイムラインに影響を与える。

上記関連技術の記録に鑑みて、本開示は、上記問題の少なくとも１つに対処することを目的とする。

本開示の一態様によれば、画像から特徴を抽出する特徴抽出部と、特徴に基づいて画像内の人を検出する人検出部と、特徴に基づいて検出された人の周囲領域内の物体を検出する物体検出部と、特徴、検出された人、および検出された物体、に基づいて、画像内の人と物体との相互作用情報（人と物体との相互作用関係）を判定する相互作用判定部と、を備える検出装置が提供される。

本開示の別の態様によれば、画像から特徴を抽出する特徴抽出ステップと、特徴に基づいて画像内の人を検出する人検出ステップと、特徴に基づいて検出された人の周囲領域内の物体を検出する物体検出ステップと、特徴、検出された人、および検出された物体に基づいて、画像内の人と物体との相互作用情報（人と物体との相互作用関係）を判定する相互作用判定ステップと、を含む検出方法が提供される。

本開示において、検出された人の少なくとも１つの部分は、検出される物体のタイプに基づいて決定され、ここで、周囲領域は、決定された少なくとも１つの部分を囲む領域である。ここで、本開示において、周囲領域は、検出された人の、人の姿勢を判定することによって決定される。

本開示のさらなる態様によれば、画像またはビデオを取得する取得デバイスと、命令を記憶する記憶デバイスと、取得された画像またはビデオに基づいて命令を実行してプロセッサが少なくとも上述の検出方法を実施するようにするプロセッサと、を備える、画像処理装置が提供される。

本開示のさらなる態様によれば、画像またはビデオを取得する取得装置と、取得された画像またはビデオから人、物体、および人と物体との相互作用情報を検出する上記検出装置と、検出された人と物体との相互作用情報に基づいて後続の画像処理動作を実行する処理装置と、を備え、ここで、取得装置、検出装置、および処理装置は、ネットワークを介して互いに接続される、画像処理システムが提供される。

一方、本開示は画像から各動作で使用可能な共有特徴を取得するので、本開示は、１段階の処理で人、物体、および人と物体との相互作用関係の検出を実現することができ、よって、検出処理全体の処理時間を削減することができる。一方、本開示は先ず画像中の人を検出し、次いで検出された人の情報に基づいて、物体が検出された領域を決定するだけでよいので、本開示は、物体検出の範囲を小さくすることができ、よって、検出処理全体の検出精度を向上させることができ、検出処理全体の処理時間をさらに削減することができる。したがって、本開示によれば、ビデオ／画像から人、物体、および人と物体との相互作用関係を検出する検出速度および検出精度を改善することができ、それにより、助けを必要とする人に助けを提供するためのタイムラインおよび精度をより良く満たすことができる。

本開示のさらなる特徴および利点は、添付の図面を参照して、以下の典型的な実施形態の説明から明らかになるのであろう。

本明細書に組み込まれ、その一部を構成する添付の図面は、本開示の実施形態を示し、実施形態の説明とともに、本開示の原理を説明する役割を果たす。
本開示の一実施形態に係る技術を実現可能なハードウェア構成を模式的に示すブロック図である。本開示の一実施形態に係る検出装置の構成を示すブロック図である。本開示の一実施形態に適用可能な事前生成ニューラルネットワークの概略構造を概略的に示す。本開示の一実施形態に係る検出方法のフローチャートを概略的に示す。本開示の一実施形態に係る、図４に示される物体検出ステップＳ４３０のフローチャートを概略的に示す。、、、、本開示に係る物体を検出するための領域を決定する例を概略的に示す。、、本開示に係る物体を検出するための領域を決定する別の例を概略的に示す。本開示の一実施形態に適用可能な、予めニューラルネットワークを生成するための生成方法のフローチャートを概略的に示す。本開示に係る例示的な画像処理装置の構成を示す。本開示に係る例示的な画像処理システムの構成を示す。

以下、本開示の例示的な実施形態について、添付の図面を参照しながら詳細に説明する。以下の説明は本質的に単に具体例（illustrative）かつ例示的（exemplary）なものであり、本開示およびそのアプリケーションまたは使用を限定することを決して意図しないことに留意されたい。実施形態に記載されている構成要素およびステップの相対的な配置、数値表現、および数値は特に断らない限り、本開示の範囲を限定するものではない。加えて、当業者によって知られている技術、方法、およびデバイスは詳細に論じられないことがあるが、適切な場合には本明細書の一部であるべきである。

なお、同様の参照番号および文字は図面中の同様の項目を指し、したがって、１つの図面中で項目が定義されると、以下の図面中でそれを論じる必要はないことに留意されたい。

人と物体との相互作用関係を検出する過程では、通常、人を囲む物体、特に人のある部分（例えば、手、下半身等）を囲む物体に注意を払う必要がある。言い換えれば、人と物体との相互作用関係を検出する過程において、人および物体の検出は、独立ではなく、互いに関連付けられる。したがって、本発明者は、一方では先ず画像から人が検出され、次いで、検出された人の情報（例えば、位置、姿勢など）に基づいて画像から関連する物体が検出され、検出された人および物体に基づいて人と物体との相互作用関係が判定され得ると考える。一方、人、物体、および人と物体との相互作用関係の検出は互いに関連付けられるので、特徴（共有特徴と見なすことができる）を画像全体から抽出し、同時に人の検出、物体の検出、および人と物体との相互作用関係の検出に使用することができる。このように、本開示によれば、１段階の処理により、人、物体、および人と物体との相互作用関係の検出を実現することができる。

したがって、本開示によれば、検出処理全体の処理時間を削減することができ、検出処理全体の検出精度を向上させることができる。したがって、本開示によれば、ビデオ／画像から人、物体、および人と物体との相互作用関係を検出する検出速度および検出精度を改善することができ、それにより、助けを必要とする人に助けを提供するタイムラインおよび精度をより良く満たすことができる。
（ハードウェア構成）
まず、図１を参照して、以下の技術を実現可能なハードウェア構成について説明する。

ハードウェア構成１００は例えば、中央処理ユニット（ＣＰＵ）１１０、ランダムアクセスメモリ（ＲＡＭ）１２０、読取り専用メモリ（ＲＯＭ）１３０、ハードディスク１４０、入力デバイス１５０、出力デバイス１６０、ネットワークインターフェース１７０、およびシステムバス１８０を含む。さらに、一実装形態では、ハードウェア構成１００がタブレット、ラップトップ、デスクトップ、または他の適切な電子デバイスなどのコンピュータによって実装され得る。別の実装形態では、ハードウェア構成１００がデジタルカメラ、ビデオカメラ、ネットワークカメラ、または他の適切な電子デバイスなどの監視デバイスによって実装され得る。ここで、ハードウェア構成１００が監視デバイスによって実現される場合、ハードウェア構成１００は例えば、光学系１９０も含む。

一実装形態では、本開示に係る検出装置がハードウェアまたはファームウェアから構成され、ハードウェア構成１００のモジュールまたは構成要素として使用される。例えば、図２を参照して以下に詳細に説明される検出装置２００は、ハードウェア構成１００のモジュールまたは構成要素として使用される。他の実装形態では、本開示に係る検出装置は、ＲＯＭ１３０またはハードディスク１４０に格納され且つＣＰＵ１１０により実行されるソフトウェアにより構成される。例えば、ＲＯＭ１３０又はハードディスク１４０に格納されたプログラムとして、図４を参照して以下に詳細に説明する処理４００が用いられる。

ＣＰＵ１１０は任意の適切でプログラム可能な制御デバイス（プロセッサなど）であり、ＲＯＭ１３０またはハードディスク１４０（メモリなど）に格納された様々なアプリケーションを実行することによって、以下で説明する様々な機能を実行することができる。ＲＡＭ１２０はＲＯＭ１３０やハードディスク１４０からロードされたプログラムやデータを一時的に格納するために用いられ、ＣＰＵ１１０が各種の処理（図４〜図８を参照して以下に詳細に説明する技術を実現する等）やその他の利用可能な機能を実行するための空間としても用いられる。ハードディスク１４０は、OS(operating system)、各種アプリケーション、制御プログラム、ビデオ、画像、予め生成されたネットワーク（例えば、ニューラルネットワーク）、予め定義されたデータ（例えば、物体に対する人の従来の使用方法）等の各種情報を格納している。

一実装形態では、入力デバイス１５０は、ユーザがハードウェア構成１００と対話することを可能にするために使用される。一例では、ユーザが入力デバイス１５０を介してビデオ／画像を入力することができる。別の例では、ユーザが入力デバイス１５０によって本開示の対応する処理を始動させることができる。さらに、入力デバイス１５０は、ボタン、キーボード、またはタッチスクリーンなどの様々な形態であってもよい。別の実装形態では、入力デバイス１５０は、デジタルカメラ、ビデオカメラ、および／またはネットワークカメラなどの特殊な電子デバイスから出力されたビデオ／画像を受信するために使用される。また、ハードウェア構成１００が監視デバイスによって実現される場合、ハードウェア構成１００内の光学系１９０は、監視サイトのビデオ／画像を直接キャプチャする。

一実装形態では、出力デバイス１６０が検出結果（検出された人、物体、および人と物体との相互作用関係など）をユーザに対して表示するために使用される。さらに、出力デバイス１６０は、陰極線管（ＣＲＴ）またはＬＣＤディスプレイなどの様々な形態であってもよい。別の実装形態では、出力デバイス１６０がセキュリティ監視および異常シーン検出などの後続の画像処理に検出結果を出力するために使用される。

ネットワークインターフェース１７０は、ハードウェア構成１００をネットワークに接続するためのインターフェースを提供する。例えば、ハードウェア構成１００は、ネットワークインターフェース１７０を介してネットワークの手段により接続された他の電子デバイスとのデータ通信を行ってもよい。あるいは、ハードウェア構成１００が無線データ通信のための無線インターフェースを備えてもよい。システムバス１８０は、ＣＰＵ１１０、ＲＡＭ１２０、ＲＯＭ１３０、ハードディスク１４０、入力デバイス１５０、出力デバイス１６０、ネットワークインターフェース１７０、光学系１９０などの間で互いにデータを伝送するためのデータ伝送経路を提供する。システムバス１８０はバスと呼ばれるが、特定のデータ伝送技術に限定されるものではない。

上記のハードウェア構成１００は単に例示的なものであり、本開示、そのアプリケーション、または使用を限定することを決して意図するものではない。なお、図１では、簡単のため、１つのハードウェア構成のみを示している。ただし、必要に応じて複数のハードウェア構成を用いてもよい。
（検出装置及び方法）
次に、図２〜図７Ｃを参照して、本開示に係る検出処理について説明する。

図２は、本開示の一実施形態に係る検出装置２００の構成を示すブロック図である。ここで、図２に示すモジュールの一部または全部は、専用のハードウェアによって実現されてもよい。図２に示すように、検出装置２００は、特徴抽出部２１０と、人検出部２２０と、物体検出部２３０と、相互作用判定部２４０と、を備える。

まず、一実装形態では、例えば、図１に示すハードウェア構成１００がコンピュータで実現される場合、入力デバイス１５０は専用の電子デバイス（例えば、カメラ等）から出力された画像もしくはユーザにより入力された画像を受け取る。そして、入力デバイス１５０は、受け取った画像をシステムバス１８０を介して検出装置２００に送信する。例えば、他の実装形態では、ハードウェア構成１００が監視デバイスによって実現される場合、検出装置２００は、光学系１９０によって撮像された画像をそのまま利用する。

そして、特徴抽出部２１０は図２に示すように、受け取った画像（すなわち、画像全体）から特徴を抽出する。本開示では、抽出された特徴は、共有特徴と見なすことができる。一実装形態では、特徴抽出部２１０は、輝度勾配ヒストグラム（Histogram of Oriented Gradient）（ＨＯＧ）、ローカルバイナリパターン（ＬＢＰ）、および他の演算子（operators）などの様々な特徴抽出演算子を使用することによって、受け取った画像から共有特徴を抽出する。

人検出部２２０は、特徴抽出部２１０によって抽出された共有特徴に基づいて、受け取った画像中の人を検出する。一実装形態では、人検出部２２０によって実行される検出動作は、画像から人の領域を検出することである。このような実装形態では、人検出部２２０は、選択的検索アルゴリズム、ＥｄｇｅＢｏｘｅｓアルゴリズム、Ｏｂｊｅｃｔｎｅｓｓアルゴリズムなどの既存の領域検出アルゴリズムを使用することによって、人の領域を検出することができる。別の実装形態では、人検出部２２０によって実行される検出動作は、画像から人のキーポイントを検出することである。本実装形態において、人検出部２２０は、マスク領域畳み込みニューラルネットワーク(Mask R−ＣＮＮ）アルゴリズムなどの既存のキーポイント検出アルゴリズムを用いて人のキーポイントを検出することができる。

物体検出部２３０は、特徴抽出部２１０によって抽出された共有特徴に基づいて、人検出部２２０によって検出された人の周囲領域内の物体を検出する。一方で、セキュリティ監視または異常シーン検出の過程において、検出の目的は通常、明確である。例えば、画像内に車椅子に座っている人や松葉づえをついている人がいるかを検出することが必要である。したがって、検出の目的に応じて、検出する物体のタイプを直接知ることができる。したがって、検出される人の少なくとも１つの部分は、検出する物体のタイプに基づいてさらに決定することができ、周囲領域は、決定された少なくとも１つの部分を囲む領域である。例えば、検出する物体が松葉づえや車椅子である場合、人の判定部分は例えば、人の下半身である。例えば、検出する物体が松葉づえ及びパラソル／傘である場合、人の決定部分は例えば、人の上半身及び下半身である。例えば、検出する物体が松葉づえおよびバックパックである場合、人の決定部分は例えば、人の下半身および中部である。明らかに、本開示はこれらに限定されない。一方、上述したように、人検出部２２０によって行われる検出動作は、人の領域の検出であってもよいし、人のキーポイントの検出であってもよい。したがって、一実装形態では、人検出部２２０が人の領域を検出する場合、物体検出部２３０によって実行される検出動作は、物体の領域の検出である。ここで、また、物体検出部２３０は、例えば、上述した既存の領域検出アルゴリズムを用いて、物体の領域を検出してもよい。他の実装形態では、人検出部２２０が人のキーポイントを検出する場合、物体検出部２３０による検出動作は、物体のキーポイントの検出である。ここで、また、物体検出部２３０は例えば、上述した既存のキーポイント検出アルゴリズムを用いて、物体のキーポイントを検出してもよい。

相互作用判定部２４０は、受け取った画像中の人および物体を検出した後、特徴抽出部２１０によって抽出された共有特徴と、人検出部２２０によって検出された人と、物体検出部２３０によって検出された物体と、に基づいて、受け取った画像中の人と物体との相互作用情報（すなわち、人と物体との相互作用関係）を判定する。一実装形態では、相互作用判定部２４０は、例えば、共有特徴、検出された人および物体に基づいて事前に生成された分類器を使用して、人と物体との相互作用関係を判定することができる。ここで、分類器は、人、物体、および人と物体との相互作用関係（すなわち、人が対応する物体を使用する従来の使用方法）でマークされたサンプルに基づいて、サポートベクトルマシン（Support Vector Machine）（ＳＶＭ）などのアルゴリズムを使用することによって訓練され、取得され得る。

最後に、人検出部２２０、物体検出部２３０、および相互作用判定部２４０は、図１に示すシステムバス１８０を介して、検出結果（例えば、検出された人、物体、および人と物体との相互作用関係）を出力デバイス１６０に送信し、検出結果をユーザに対して表示したり、検出結果をセキュリティ監視や異常シーン検出等の後続の画像処理に出力したりする。

また、好ましくは、一実装形態では、図２に示す検出装置２００の各部（すなわち、特徴抽出部２１０、人検出部２２０、物体検出部２３０、および相互作用判定部２４０）は、予め生成されたニューラルネットワークを用いて、対応する動作を実行してもよい。一方、例えば、図３に示すように、本開示の実施形態に適用可能な予め生成されたニューラルネットワークは、例えば、特徴を抽出する部分と、人を検出する部分と、物体を検出する部分と、人と物体との相互作用関係を判定する部分と、を含む。ここで、予めニューラルネットワークを生成する方法については、図８を参照して以下に詳細に説明する。一方、予め生成されたニューラルネットワークは、記憶デバイス（図示せず）に格納されてもよい。例えば、記憶デバイスは、図１に示すようなＲＯＭ２３０やハードディスク２４０であってもよい。例えば、記憶デバイスは、ネットワーク（図示せず）を介して検出装置２００に接続されたサーバや外部記憶デバイスであってもよい。

具体的には、一方では、検出装置２００は、予め生成されたニューラルネットワークを記憶デバイスから取得する。他方では、特徴抽出部２１０は、ニューラルネットワークの特徴を抽出する部分を用いて、受け取った画像から共有特徴を抽出する。人検出部２２０は、特徴抽出部２１０によって抽出された共有特徴に基づいて、ニューラルネットワークの人を検出する部分を用いて、受け取った画像中の人を検出する。物体検出部２３０は、特徴抽出部２１０によって抽出された共有特徴と、人検出部２２０によって検出された人と、に基づいて、ニューラルネットワークの物体を検出する部分を用いて、人を囲む物体を検出する。相互作用判定部２４０は、特徴抽出部２１０によって抽出された共有特徴と、人検出部２２０によって検出された人と、物体検出部２３０によって検出された物体と、に基づいて、ニューラルネットワークの人と物体との相互作用関係を判定する部分を用いて、受け取った画像における人と物体との相互作用関係を判定する。

図４に示すフローチャート４００は、図２に示す検出装置２００の対応する処理である。

図４に示すように、特徴抽出ステップＳ４１０において、特徴抽出部２１０は、受け取った画像から特徴（すなわち共有特徴）を抽出する。

共有特徴を取得した後、人検出ステップＳ４２０において、人検出部２２０は、共有特徴に基づいて、受け取った画像内の人を検出する。ここで、上述したように、人検出部２２０により実行される検出動作は、画像から人の領域を検出したり、画像から人のキーポイントを検出したりするものであってもよい。

画像中の人を検出した後、物体検出ステップＳ４３０において、物体検出部２３０は、共有特徴に基づいて、検出された人を囲む領域内の物体を検出する。一実装形態では、物体検出部２３０は、図５を参照して、対応する物体検出動作を実行する。この場合、図２に示す物体検出部２３０は、例えば、領域判定サブユニット（図示せず）と、物体検出サブユニット（図示せず）と、を含んでもよい。

図５に示すように、ステップＳ４３１０において、物体検出部２３０又は領域判定サブユニットは、検出された人の少なくとも１つの部分を決定し、物体を検出する領域として、決定された部分の周囲領域を決定する。

ここで、上記のように、検出された人の少なくとも１つの部分の決定に関しては、セキュリティ監視または異常シーン検出の過程において、検出の目的は通常確定的であるため、検出される物体のタイプに基づいて、検出された人から少なくとも１つの部分を決定することができる。セキュリティ監視の過程では、助けを必要とする人は通常、松葉杖や車椅子を通常使用する人であるため、検出される物体は通常、人の下半身が位置する領域に位置する。従って、好ましくは、人の決定された部分が例えば、その下半身である。例えば、図６Ａ〜６Ｃに示すように、図６Ａは受け取った画像を表し、図６Ｂの領域６１０は検出された人の領域を表す。検出する物体のタイプは松葉杖であるため、検出された人の下半身（図６Ｃの領域６２０に示すように）が対応部位として決定されてもよい。

ここで、決定された部分を囲む領域の決定（すなわち、物体を検出するための領域の決定）に関して、一実装形態では、例えば、物体を検出するための領域は、決定された部分が位置する領域を拡張することによって決定されてもよい。例えば、図６Ｄに示すように、図６Ｄの領域６３０は、物体を検出するための領域を表しており、図６Ｃの領域６２０を拡張することで直接得られる。別の実装形態では、人は通常、ある種の物体を使用する、例えば、人が車椅子に「座っている」、人が松葉杖を「ついている」、人が傘を「持っている」、人がベビーカーを「押す」など、のために特定の姿勢を有するので、物体をより効果的に検出するための領域を得て、物体の検出速度を向上させるために、例えば、検出された人の人の姿勢を判定することによって、物体を検出するための領域を決定することができる。例えば、通常、検出された人の人の姿勢が「手が松葉杖の上にある」と判定することにより、物体を検出する領域が人の下半身の手の近くの位置にあるとすると、例えば、図６Ｅに示すように、図６Ｅの領域６４０および領域６５０は物体を検出する領域を示しており、図６Ｃの領域６２０に基づいて、判定された人の姿勢を組み合わせることで取得される。また、上述したように、人や物体の領域に加えて、人のキーポイントや物体のキーポイントが検出されてもよい。そこで、他の実装形態では、人検出部２２０によって人のキーポイントが検出された場合に、検出された人のキーポイントのうちの少なくとも１つを囲む領域を、物体を検出する（すなわち、物体のキーポイントを検出する）ための領域として決定してもよく、このようにして、物体を検出するためのより有効な領域を得て、物体を検出するための速度を向上させてもよい。例えば、通常、人の右手が松葉杖の上にあるとすると、右手を表すキーポイントを囲む領域が、物体を検出する領域として決定されてもよい。もちろん、左手を表すキーポイントを囲む領域と、右手を表すキーポイントを囲む領域と、をそれぞれ物体を検出する領域として決定してもよい。例えば、図７Ａ〜７Ｃに示すように、図７Ａは受け取った画像を示し、図７Ｂの星点は検出された人のキーポイントを示し、ここで、星点７１０は右手のキーポイントを示し、星点７２０は左手のキーポイントを示し、図７Ｃの領域７３０は物体を検出する領域（すなわち、右手のキーポイントを囲む領域）を示し、図７Ｃの領域７４０は物体を検出する他の領域（すなわち、左手のキーポイントを囲む領域）を示す。

図５に戻り、物体を検出するための領域が決定された後、ステップＳ４３２０において、物体検出部２３０または物体検出サブユニットは、共有特徴および決定された領域に基づいて物体を検出する（例えば、物体の領域を検出する、または物体のキーポイントを検出する）。

図４に戻り、受け取った画像内の人および物体を検出した後、相互作用判定ステップＳ４４０において、相互作用判定部２４０は、共有特徴ならびに検出された人および物体に基づいて、受け取った画像内の人と物体との相互作用情報（すなわち、人と物体との相互作用関係）を判定する。例えば、図６Ａまたは図７Ａに示される画像のように、判定された人と物体との相互作用関係は、人が松葉杖の上に手を置くことである。

上記の通り、一方では、本開示では画像から各動作で使用可能な共有特徴を取得するため、本開示は、１段階の処理で人、物体、および人と物体との相互作用関係の検出を実現することができ、よって、検出処理全体の処理時間を削減することができる。他方で、本開示は、先ず画像中の人を検出し、次いで検出された人の情報に基づいて物体が検出された領域が決定されればよいので、本開示は物体検出の範囲を狭めることができ、検出処理全体の検出精度を向上させることができ、よって、検出処理全体の処理時間をさらに削減することができる。したがって、本開示によれば、ビデオ／画像から人、物体、および人と物体との相互作用関係を検出する検出速度および検出精度を向上させることができ、それにより、助けを必要とする人に助けを提供するタイムラインおよび精度をより良く満たすことができる。
（ニューラルネットワークの生成）
上述のように、本開示の実施形態では、対応する動作が事前に生成されたニューラルネットワーク（例えば、図３に示されるニューラルネットワーク）を使用することによって実行されてもよい。本開示では、人の領域／キーポイント、物体の領域／キーポイント、および人と物体との相互作用関係がマーキングされるトレーニングサンプルに基づいて、ディープラーニング方法（deep learning method）（例えば、ニューラルネットワーク方法）を使用することによって、対応するニューラルネットワークを事前に生成することができる。

一実装形態では、ニューラルネットワークを生成するのに要する時間を削減するために、ニューラルネットワークにおいて、特徴を抽出する部分と、人を検出する部分と、物体を検出する部分と、人と物体との相互作用関係を判定する部分と、がバックプロパゲーションの方法で一緒に更新される。図８は、本開示の実施形態に適用可能なニューラルネットワークを事前に生成するための生成方法のフローチャート８００を概略的に示す。図８に示すフローチャート８００では、ニューラルネットワーク法を用いて対応するニューラルネットワークを生成する場合を例に取り説明する。しかし、明らかに、本開示はこれに限定されない。ここで、図８を参照した生成方法は、図１に示したハードウェア構成１００によって実行されてもよい。

図８に示すように、図１に示すようにＣＰＵ１１０は、まず、入力デバイス１５０により、予め設定された初期ニューラルネットワークと、複数のトレーニングサンプルと、を取得する。ここで、人の領域／キーポイント、物体の領域／キーポイント、および人と物体との相互作用関係は、各トレーニングサンプルにおいてマークされる。

次に、ステップＳ８１０において、一方でＣＰＵ１１０は、トレーニングサンプルを現在のニューラルネットワーク（例えば、初期ニューラルネットワーク）に通して、人の領域／キーポイント、物体の領域／キーポイント、および人と物体との相互作用関係を取得する。換言すれば、ＣＰＵ１１０は、トレーニングサンプルを、現在のニューラルネットワークにおいて特徴を抽出する部分、人を検出する部分、物体を検出する部分、および人と物体との相互作用関係を判定する部分、に順次通過させて、人の領域／キーポイント、物体の領域／キーポイント、および人と物体との相互作用関係を取得する。他方で、人の取得した領域／キーポイントについては、ＣＰＵ１１０は、人の取得した領域／キーポイントと人のサンプル領域／キーポイントとの間の損失（例えば、第１損失、Ｌｏｓｓ１）を決定する。ここで、人のサンプル領域／キーポイントは、トレーニングサンプルにおいてマークされた人の領域／キーポイントに従って取得されてもよい。ここで、第１損失Ｌｏｓｓ１は、現在のニューラルネットワークを用いて得られる人の予測領域／キーポイントと、人のサンプル領域／キーポイント（すなわち、実際の領域／キーポイント）と、の間の誤差を表し、誤差は例えば、距離によって評価されてもよい。

物体の取得された領域／キーポイントについて、ＣＰＵ１１０は、物体の取得された領域／キーポイントと物体のサンプル領域／キーポイントとの間の損失（例えば、第２損失、Ｌｏｓｓ２）を決定する。ここで、物体のサンプル領域／キーポイントは、トレーニングサンプルにおいてマークされた物体の領域／キーポイントに従って得ることができる。ここで、第２損失Ｌｏｓｓ２は、現在のニューラルネットワークを使用することによって得られる物体の予測領域／キーポイントと、物体のサンプル領域／キーポイント（すなわち、実際の領域／キーポイント）と、の間の誤差を表し、誤差は、例えば、距離によって評価されてもよい。

得られた人と物体との相互作用関係について、ＣＰＵ１１０は、得られた人と物体との相互作用関係とサンプルの人と物体との相互作用関係との間の損失（例えば、第３損失、Ｌｏｓｓ３）を決定する。ここで、サンプルの人と物体との相互作用関係は、トレーニングサンプルにおいてマークされた人と物体との相互作用関係に従って得ることができる。ここで、第３損失Ｌｏｓｓ３は、現在のニューラルネットワークを用いて得られた予測される人と物体との相互作用関係と、サンプルの人と物体との相互作用関係（すなわち、実際の人と物体との相互作用関係）と、の間の誤差を表し、誤差は、例えば、距離によって評価されてもよい。

図８に戻って、ステップＳ８２０において、ＣＰＵ１１０は、決定されたすべての損失（すなわち、第１損失Ｌｏｓｓ１、第２損失Ｌｏｓｓ２、および第３損失Ｌｏｓｓ３）に基づいて、現在のニューラルネットワークが所定の条件を満たすかどうかを判断する。例えば、３つの損失の和／重み付き和を閾値（例えば、ＴＨ１）と比較し、３つの損失の和／重み付き和がＴＨ１以下である場合には、現在のニューラルネットワークは所定の条件を満たしており、最終的なニューラルネットワーク（すなわち、予め生成されたニューラルネットワーク）として出力されると判断し、例えば、最終的なニューラルネットワークは図１に示すＲＯＭ１３０またはハードディスク１４０に出力され、図２〜７Ｃに示す検出動作に用いることができる。３つの損失の和／重み付き和がＴＨ１より大きい場合、現在のニューラルネットワークは所定の条件を満たさないと判断され、生成処理はステップＳ８３０に進む。

ステップＳ８３０において、ＣＰＵ１１０は、第１損失Ｌｏｓｓ１、第２損失Ｌｏｓｓ２、および第３損失Ｌｏｓｓ３に基づいて、現在のニューラルネットワークを更新する、すなわち、現在のニューラルネットワークにおける、人と物体との相互作用関係を判定する部分、物体を検出する部分、人を検出する部分、および特徴を抽出する部分、における各層のパラメータを順次更新する。ここで、各層のパラメータとは、例えば、上記部分の各々における各畳み込み層における重み値である。一例では例えば、各層のパラメータは、確率的勾配降下法を使用することによって、第１損失Ｌｏｓｓ１、第２損失Ｌｏｓｓ２、および第３損失Ｌｏｓｓ３に基づいて更新される。その後、生成処理は再びステップＳ８１０に進む。

図８に示すフローチャート８００では、３つの損失（第１損失Ｌｏｓｓ１、第２損失Ｌｏｓｓ２、および第３損失Ｌｏｓｓ３）の和／重み付き和が所定の条件を満たすか否かを、現在のニューラルネットワークの更新を停止するための条件としている。しかし、明らかに、本開示はこれに限定されない。あるいは例えば、ステップＳ８２０を省略してもよいが、現在のニューラルネットワークの更新回数が所定回数に達した後に、対応する更新動作を停止する。
（アプリケーション）
また、上述したように、本開示は監視デバイス（例えば、ネットワークカメラ）によって実現することができる。そこで、一アプリケーションとして、本開示をネットワークカメラで実現する場合を例に挙げて、本開示に係る例示的な画像処理装置９００の構成を図９に示す。図９に示すように、画像処理装置９００は、少なくとも取得デバイス９１０、記憶デバイス９２０、およびプロセッサ９３０、を含む。もちろん、画像処理装置９００は、図示しない入力デバイスや出力デバイス等も含んでよい。

図９に示すように、まず、取得デバイス９１０（例えば、ネットワークカメラの光学系）は、注目箇所（例えば、監視サイト）の画像／ビデオを撮像し、撮像した画像／ビデオをプロセッサ９３０に送信する。ここで、上記監視サイトは、セキュリティ監視、異常シーン検出等を必要とする場所であってもよい。

記憶デバイス９２０は命令を記憶し、記憶された命令は、少なくとも、図４〜７Ｃに記載された検出方法に対応する命令である。

プロセッサ９３０は、撮像された画像／ビデオに基づいて、記憶された命令を実行し、これにより、少なくとも図４〜７Ｃに記載された検出方法が実行され、撮像された画像／ビデオにおける人、物体、および人と物体との相互作用関係を検出する。

また、記憶デバイス９２０が後続の画像処理命令も記憶している場合、例えば、監視サイトに異常シーンがあるかどうか（例えば、助けを必要とする人がいるかどうか）を判定する場合、プロセッサ９３０は、検出された人と物体との相互作用関係に基づいて、対応する後続の画像処理命令を実行することによって、対応する動作を実施することもできる。この場合、例えば、外部の表示装置（図示せず）がネットワークを介して画像処理装置９００に接続され、外部の表示装置はその後の画像処理結果（例えば、助けを必要とする人間の外観等）をユーザ／監視員に対して出力するようにしてもよい。あるいは、上記の後続の画像処理命令が外部プロセッサ（図示せず）によって実行されてもよい。この場合、上記後続の画像処理命令は例えば、外部記憶デバイス（図示せず）に記憶され、画像処理装置９００、外部記憶デバイス、外部プロセッサ、および外部表示装置は、例えば、ネットワークを介して接続されてもよい。このように、外部プロセッサは、画像処理装置９００によって検出された人と物体との相互作用関係に基づいて、外部記憶デバイスに記憶されている後続の画像処理命令を実行することができ、外部表示装置は、後続の画像処理結果をユーザ／監視要員に対して出力することができる。

また、上述したように、本開示は、コンピュータ（例えば、クライアントサーバ）によって実現されてもよい。そこで、一アプリケーションとして、本開示をクライアントサーバで実現する場合を例に挙げて、本開示に係る例示的な画像処理システム１０００の構成を図１０に示す。図１０に示すように、画像処理システム１０００は、取得装置１０１０（例えば、少なくとも１つのネットワークカメラ）と、処理装置１０２０と、図２に示す検出装置２００と、を含み、取得装置１０１０と、処理装置１０２０と、検出装置２００とは、ネットワーク１０３０を介して互いに接続されている。なお、処理装置１０２０と画像処理装置２００とは、それぞれ同一のクライアントサーバで実現されてもよいし、異なるクライアントサーバで実現されてもよい。

図１０に示すように、まず、取得装置１０１０は注目箇所（例えば、監視サイト）の画像又はビデオを撮像し、撮像した画像／ビデオをネットワーク１０３０を介して検出装置２００に送信する。ここで、上記監視サイトは例えば、セキュリティ監視、異常シーン検出等を必要とする場所であってもよい。

検出装置２００は、図２〜図７Ｃを参照して、撮像された画像／ビデオから、人、物体、および人と物体との相互作用関係を検出する。

処理装置１０２０は、検出された人と物体との相互作用関係に基づいて、以降の画像処理動作を実行し、例えば、監視サイトに異常シーンがあるか否か（例えば、助けを必要とする人がいるか否か）等を判定する。例えば、検出された人と物体との相互作用関係は、助けを必要とする人がいるかどうかを判断するための予め定義された異常ルールと比較されてもよい。例えば、予め定められた異常ルールが「松葉杖をついている若しくは車椅子に座っている人がいる場合に、人が助けを必要としている」であるとすると、検出された人と物体との相互作用関係が「人が松葉杖をついている若しくは車椅子に座っている」である場合に、表示装置や警報装置をネットワーク１０３０により接続して、対応する画像処理結果（例えば、助けを必要とする人がいるなど）をユーザ／監視員に対して出力するようにしてもよい。

上記のユニットのすべては、本開示で説明される処理を実施するための例示的および／または好ましいモジュールである。これらのユニットは、ハードウェアユニット（フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ、特定用途向け集積回路など）および／またはソフトウェアモジュール（コンピュータ可読プログラムなど）とすることができる。各ステップを実施するためのユニットは、上記では詳細に説明されていない。しかしながら、特定の処理を実行するステップが存在する場合、同じ処理を実施するための対応する機能モジュールまたはユニット（ハードウェアおよび／またはソフトウェアによって実施される）が存在してもよい。説明されたステップと、これらのステップに対応するユニットと、の全ての組み合わせによって構成される技術的解決策は、それらが構成する技術的解決策が完全であり且つ適用可能である限り、本アプリケーションの開示内容に含まれる。

本開示の方法および装置は、様々な方法で実装され得る。例えば、本開示の方法および装置は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せによって実装され得る。別段の指定がない限り、本方法におけるステップの上記シーケンスは単に例示的なものであることが意図されており、本開示の方法におけるステップは、上記の特定のシーケンスに限定されない。さらに、いくつかの実施形態では、本開示が本開示に係る方法を実施するための機械可読命令を含む記録媒体に記録されたプログラムとして実施することもできる。したがって、本開示は、本開示に係る方法を実現するためのプログラムを格納する記録媒体も包含する。

本開示のいくつかの特定の実施形態が、例を用いて詳細に実証されたが、上記の実施形態は例示的であることを意図するのみで、本開示の範囲を限定することを意図しないことが、当業者によって理解されるべきである。上記の実施形態は、本開示の範囲および精神から逸脱することなく変更され得ることが、当業者によって理解されるべきである。本開示の範囲は、添付の特許請求の範囲によって定義される。

Claims

画像から特徴を抽出する特徴抽出部と、
前記特徴に基づいて、前記画像中の人を検出する人検出部と、
前記特徴に基づいて前記検出された人の周囲領域内の物体を検出する物体検出部と、
前記特徴、前記検出された人および前記検出された物体、に基づいて、前記画像内の人と物体との相互作用情報を判定する相互作用判定部と
を有することを特徴とする検出装置。
前記人検出部および前記物体検出部は、前記人および前記物体の領域を検出するか、または前記人および前記物体のキーポイントを検出するように構成されていることを特徴とする請求項１に記載の検出装置。
前記検出された人の少なくとも１つの部分は、検出される物体のタイプに基づいて決定され、前記周囲領域は、前記決定された少なくとも１つの部分を囲む領域であることを特徴とする請求項２に記載の検出装置。
前記決定された少なくとも１つの部分は、前記検出された人の下半身であることを特徴とする請求項３に記載の検出装置。
前記周囲領域は、前記検出された人の姿勢を判定することによって決定されることを特徴とする請求項３に記載の検出装置。
前記周囲領域は、前記人の前記キーポイントが検出された場合には、前記人の前記キーポイントの少なくとも１つを囲む領域であることを特徴とする請求項３に記載の検出装置。
前記特徴抽出部、前記人検出部、前記物体検出部、および前記相互作用判定部は、予め生成されたニューラルネットワークを用いて、対応する動作を実行することを特徴とする請求項１に記載の検出装置。
画像から特徴を抽出する特徴抽出ステップと、
前記特徴に基づいて、前記画像中の人を検出する人検出ステップと、
前記特徴に基づいて前記検出された人の周囲領域内の物体を検出する物体検出ステップと、
前記特徴と、前記検出された人および前記検出された物体とに基づいて、前記画像内の人と物体との相互作用情報を判定する相互作用判定ステップと
を有することを特徴とする検出方法。
前記人検出ステップおよび前記物体検出ステップは、前記人および前記物体の領域を検出するか、または前記人および前記物体のキーポイントを検出するように構成されていることを特徴とする請求項８に記載の検出方法。
前記検出された人の少なくとも１つの部分は、検出される物体のタイプに基づいて決定され、前記周囲領域は、前記決定された少なくとも１つの部分を囲む領域であることを特徴とする請求項９に記載の検出方法。
前記周囲領域は、前記検出された人の姿勢を判定することによって決定されることを特徴とする請求項１０に記載の検出方法。
前記周囲領域は、前記人の前記キーポイントが検出された場合には、前記人の前記キーポイントのうちの少なくとも１つを囲む領域であることを特徴とする請求項１０に記載の検出方法。
画像またはビデオを取得する取得デバイスと、
命令を記憶する記憶デバイスと、
プロセッサが少なくとも請求項８に記載の検出方法を実施するように、前記取得された画像またはビデオに基づいて前記命令を実行する前記プロセッサと
を備えることを特徴とする画像処理装置。
画像またはビデオを取得する取得装置と、
前記取得された画像またはビデオから人、物体、および人と物体との相互作用情報を検出する、請求項１に記載の検出装置と、
前記検出された人と物体との相互作用情報に基づいて、後続の画像処理動作を実行する処理装置と
を備え、
前記取得装置、前記検出装置、および前記処理装置は、ネットワークを介して互いに接続されていることを特徴とする画像処理システム。