JP2023514322A

JP2023514322A - 対話関係の識別方法、装置、機器及び記憶媒体

Info

Publication number: JP2023514322A
Application number: JP2022549446A
Authority: JP
Inventors: 越廖; 彦杰 ▲陳▼; ▲飛▼ 王; 晨 ▲銭▼
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2020-02-18
Filing date: 2021-02-09
Publication date: 2023-04-05
Also published as: CN111325141A; CN111325141B; WO2021164662A1; KR20220054657A

Abstract

本開示は、対話関係の識別方法、装置、機器及び記憶媒体に関し、前記方法は、処理対象画像を検出し、人体検出結果及び物体検出結果を取得することと、前記人体検出結果に基づいて、人体に対応する各人体部位領域を特定することと、前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体の空間位置関係マップを構築することと、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することと、を含み、前記物体領域が物体検出結果における物体検出枠に対応する領域であり、前記空間位置関係マップが各前記人体部位ノードの特徴情報、前記物体ノードの特徴情報、及び各前記人体部位ノードと前記物体ノードの位置関係情報を含む。【選択図】図１

Description

本開示は、コンピュータ視覚の分野に属し、特に対話関係の識別方法、装置、機器及び記憶媒体に関する。

人と物体の対話関係の識別は、都市の知能監視、家庭の知能監視などの分野において広い応用の将来性を有する。人が物体と対話する過程において、人は、形態が異なる姿勢を生成し、かつ人と物体との間にも異なる位置関係を有する可能性があるため、人と物体との対話関係の識別を行うことは、以上の情報を十分にマイニングし、人と物体との間の対話を全面的に理解する必要がある。

近年、深層学習は、単一の物体理解に非常に大きな進展を取得し、人と物体との間の関係理解に対する研究がまだ発進段階にある。

本開示の実施例は、対話関係の識別の解決手段を提供する。

本開示の一態様によれば、対話関係の識別方法を提供し、処理対象画像を検出し、人体検出結果及び物体検出結果を取得することと、前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定することと、前記物体検出結果に基づいて、前記処理対象画像における物体に対応する物体領域を特定することと、前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間的位置関係マップを特定することと、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することと、を含み、前記物体領域が前記物体検出結果における物体検出枠に対応する領域であり、前記空間的位置関係マップが各前記人体部位ノードの特徴情報と、前記物体ノードの特徴情報と、各前記人体部位ノードと前記物体ノードの位置関係情報を含む。

本開示が提供するいずれかの実施形態を参照し、前記人体検出結果に基づいて、前記処理対象画像における人体が対応する各人体部位領域を特定することは、前記人体検出結果における人体検出枠に含まれる特徴情報を取得し、前記特徴情報に基づいて、前記人体の人体キーポイントを取得し、人体骨格情報に基づいて前記人体キーポイントを接続し、接続情報を取得し、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することを含む。

本開示が提供するいずれかの実施形態を参照し、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することは、接続された複数の人体キーポイントに基づいて一つの人体部位領域を特定し、又は前記複数の人体キーポイントの一つを中心として一つの人体部位領域を特定することの少なくとも一つを含む。

本開示が提供するいずれかの実施形態を参照し、前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体の空間位置関係マップを特定することは、前記人体部位領域の特徴情報に次元圧縮を行い、前記人体部位ノードの特徴情報を取得することと、前記物体領域の特徴情報に次元圧縮を行い、前記物体ノードの特徴情報を取得し、同じ人体に対して、人体骨格情報に基づいて各前記人体部位ノードを接続することと、前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得することと、を含み、一つの物体ノードが一つの人体部位ノードに接続されて形成された辺の特徴情報は、前記辺に接続された物体ノードと人体部位ノードの位置関係情報を含む。

本開示が提供するいずれかの実施形態を参照し、前記物体ノードを前記人体部位ノードに接続することは、各物体ノードに対して、前記物体ノードとの距離が最も近い所定数の人体部位ノードを前記物体ノードにそれぞれ接続することを含む。

本開示が提供するいずれかの実施形態を参照し、人体と物体の空間位置関係マップを取得した後、前記方法は、各人体部位ノードに対して、前記人体部位ノードの一つ又は複数の隣接する人体部位ノードの特徴情報及び前記人体部位ノードと前記隣接する人体部位ノードを接続する辺の特徴情報を利用して、各前記人体部位ノードの特徴情報を更新することをさらに含む。

本開示が提供するいずれかの実施形態を参照し、前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得し、前記物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得し、前記人体に対応する特徴情報及び前記物体に対応する特徴情報に基づいて、前記人体と前記物体との間の対話関係を特定することを含む。

本開示が提供するいずれかの実施形態を参照し、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得することは、同じ人体に対して、各人体部位ノードの特徴情報にグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得することを含む。

本開示が提供するいずれかの実施形態を参照し、前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係が属する対話種別を特定することを含み、前記方法は、前記人体と前記物体との間の対話関係が属する対話種別の安全係数が第１設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定することをさらに含む。

本開示が提供するいずれかの実施形態を参照し、前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、人体と物体との空間的位置関係マップに基づいて、前記人体と異なる種類の物体との間の対話関係が属する対話類別を特定することを含み、前記方法は、前記人体と異なる種類の物体との間の対話関係が属する対話類別の組み合わせの安全係数を特定し、前記組み合わせの安全係数が第２設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定することをさらに含む。

本開示の一態様によれば、対話関係の識別装置を提供し、前記装置は、処理対象画像に検出を行い、人体検出結果及び物体検出結果を取得するために用いられる取得ユニットと、前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定し、かつ前記物体検出結果に基づいて、前記処理対象画像における物体に対応する物体領域を特定するために用いられる第１特定ユニットと、前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間的位置関係マップを特定するために用いられる第２特定ユニットと、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定するために用いられる識別ユニットとを含み、前記物体領域が前記物体検出結果における物体検出枠に対応する領域であり、前記空間的位置関係マップが各前記人体部位ノードの特徴情報、前記物体ノードの特徴情報、及び各前記人体部位ノードと前記物体ノードとの位置関係情報を含む。

本開示が提供するいずれかの実施形態を参照し、前記第１特定ユニットは、具体的には、前記人体検出結果における人体検出枠に含まれる特徴情報を取得し、前記特徴情報に基づいて、前記人体の人体キーポイントを取得し、人体骨格情報に基づいて前記人体キーポイントを接続し、接続情報を取得し、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定するために用いられ、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することは、接続された複数の人体キーポイントに基づいて一つの人体部位領域を特定し、又は前記複数の人体キーポイントの一つを中心として一つの人体部位領域を特定することの少なくとも一つを含む。

本開示が提供するいずれかの実施形態を参照し、前記第２特定ユニットは、具体的には、前記人体部位領域の特徴情報に次元圧縮を行い、前記人体部位ノードの特徴情報を取得し、前記物体領域の特徴情報に次元圧縮を行い、前記物体ノードの特徴情報を取得し、同じ人体に対して、人体骨格情報に基づいて各前記人体部位ノードを接続し、前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得するために用いられ、前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得することは、各物体ノードに対して、前記物体ノードとの距離が最も近い所定数の人体部位ノードを前記物体ノードにそれぞれ接続することを含み、一つの物体ノードが一つの人体部位ノードに接続されて形成された辺の特徴情報が前記辺に接続された物体ノードと人体部位ノードの位置関係情報を含むことを含む。

本開示が提供するいずれかの実施形態を参照し、前記装置は、各人体部位ノードに対して、前記人体部位ノードの一つ又は複数の隣接する人体部位ノードの特徴情報及び前記人体部位ノードと前記隣接する人体部位ノードを接続する辺の特徴情報を利用して、各前記人体部位ノードの特徴情報を更新するための更新ユニットをさらに含む。

本開示が提供するいずれかの実施形態を参照し、前記識別ユニットは、具体的には、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得するために用いられ、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得することは、同じ人体に対して、各人体部位ノードの特徴情報に対してグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得し、前記物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得し、前記人体に対応する特徴情報及び前記物体に対応する特徴情報に基づいて、前記人体と前記物体との間の対話関係を特定することを含む。

本開示が提供するいずれかの実施形態を参照し、前記識別ユニットは、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係が属する対話種別を特定するために用いられ、前記装置は、前記人体と前記物体との間の対話関係が属する対話カテゴリの安全係数が第１設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第３特定ユニットをさらに含む。

本開示が提供するいずれかの実施形態を参照し、前記識別ユニットは、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と異なる種類の物体との間の対話関係が属する対話類別を特定するために用いられ、前記装置は、前記人体と異なる種類の物体との間の対話関係が属する対話類別の組み合わせの安全係数を特定し、前記組み合わせの安全係数が第２設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第４特定ユニットをさらに含む。

本開示の一態様によれば、電子機器を提供し、機器は、メモリ、プロセッサを含み、前記メモリは、プロセッサで実行可能なコンピュータ命令を記憶するために用いられ、前記プロセッサは、前記コンピュータ命令を実行する時に本開示のいずれかの実施形態に記載の対話関係の識別方法を実現するために用いられる。

本開示の一態様によれば、コンピュータ読み取り可能な記録媒体を提供し、その上にコンピュータプログラムが記憶され、前記プログラムがプロセッサにより実行される時に本開示のいずれかの実施形態に記載の対話関係の識別方法を実現する。

本開示の一態様によれば、コンピュータプログラムを提供し、それがプロセッサにより実行される時に本開示のいずれかの実施形態に記載の対話関係の識別方法を実現する。

本開示の一つ又は複数の実施形態の対話関係の識別方法、装置、機器及び記憶媒体は、処理対象画像の人体検出結果及び物体検出結果に基づいて、処理対象画像における人体に対応する各人体部位領域及び物体に対応する物体領域を特定し、かつ対応するノードに変換し、前記ノードに基づいて人と物体との空間位置関係マップを構築し、前記空間位置関係マップは、異なる人体姿勢に対応する特徴を含むだけでなく、各身体部位と物体との位置関係を含む。前記空間位置を利用して人体に対応する特徴情報及び物体に対応する特徴情報を取得することにより、前記人体と前記物体との間の対話関係を特定し、対話関係の識別の正確性及び信頼性を向上させる。

理解すべきなのは、以上の一般的な説明及び後文の詳細な説明は、単に例示的及び説明的なものであり、本開示を限定するものではない。

ここでの図面は、明細書に組み込まれて本明細書の一部を構成し、本明細書に合致する実施例を示し、かつ明細書と共に本明細書の原理を説明するために用いられる。
本開示の少なくとも一つの実施例に係る対話関係の識別方法のフローチャートを示す。本開示の少なくとも一つの実施例に係る目標検出方法のフローチャートを示す。本開示の少なくとも一つの実施例に係る目標検出方法で得られた人体検出結果を示す。図３Ａにおける人体検出結果に基づいて特定された人体キーポイントを示す。本開示の少なくとも一つの実施例に係る対話関係の識別装置の構造模式図を示す。本開示の少なくとも一つの実施例に係る電子機器の構造図を示す。

ここで例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明は、図面に関する場合、特に示さない限り、異なる図面における同じ数字が同じ又は類似する要素を示す。以下の例示的な実施例に記載される実施形態は、本開示と一致する全ての実施形態を表すものではない。逆に、それらは、添付の特許請求の範囲に詳述され本開示のいくつかの態様と一致する装置及び方法の例に過ぎない。

本明細書における用語「及び／又は」は、関連対象を説明するための関連関係だけであり、三種類の関係の存在を示し、例えば、Ａ及び／又はＢは、単独してＡが存在し、Ａ及びＢが同時に存在し、単独してＢが存在するという三種類の状況が存在することを表すことができる。また、本明細書における用語「少なくとも一種」は、複数種のうちの任意の一種又は複数種のうちの少なくとも二種の任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも一種は、Ａ、Ｂ及びＣで構成された集合から選択された任意の一つ又は複数の元素を含むことを表すことができる。

本開示の少なくとも一つの実施例は、対話関係の識別方法を提供し、前記対話関係の識別方法は、端末機器又はサーバ等の電子機器により実行することができ、端末機器は、ユーザー機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、モバイル機器、ユーザー端末、端末、携帯電話、コードレス電話、パーソナルデジタル処理（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、ハンドヘルド機器、計算機器、車載機器、ウェアラブル機器等であってもよい。

図１は、本開示の少なくとも一つの実施例に係る対話関係の識別方法のフローチャートを示し、図１に示すように、前記方法は、ステップ１０１～ステップ１０４を含む。

ステップ１０１において、処理対象画像に検出を行い、人体検出結果及び物体検出結果を取得する。

本開示の実施例において、処理対象画像は、画像収集装置（例えばカメラ）により取得された画像であり、それは、ビデオストリームにおける一フレームであってもよく、リアルタイムに取得された画像であってもよい。前記処理対象画像は、カラー画像（ＲＧＢ画像）であってもよく、赤外線／近赤外画像であってもよく、本開示は、これを限定しない。

深層学習ネットワークを利用して、前記処理対象画像に検出を行い、人体検出結果及び物体検出結果を取得することができる。人体又は物体を検出した場合、検出結果は、検出枠、検出枠の位置、検出枠の種類等を含むことができる。深層学習ネットワークを利用して処理対象画像に検出を行う具体的な方法については後に詳述する。

ステップ１０２において、前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定する。

人と物との間の様々な対話がそれぞれどのような身体部位により実行されるかは、一般的な意味で既に確定されるものであり、例えば電話をかけることは、一般的に電話と人の手、頭部との間の対話に関する。したがって、人体検出結果を取得した上で、人体検出結果における人体検出枠に対応する領域に基づいてさらに該人体に対応する各身体部位領域を特定し、さらに身体部位と物体との間に発生可能な対話関係を判断することができる。ここで、人体に含まれる、物体と対話する可能性のある身体部位は、実際の必要に応じて具体的に定義することができ、本開示はこれを限定しない。

ステップ１０３において、前記人体部位領域に対応する人体部位ノード及び物体領域に対応する物体ノードに基づいて人体と物体の空間位置関係マップを特定する。

ここで、前記物体領域は、物体検出結果における物体検出枠に対応する領域であり、前記空間位置関係マップは、各前記人体部位ノードの特徴情報、前記物体ノードの特徴情報、及び各前記人体部位ノードと前記物体ノードの位置関係情報を含む。

いくつかの実施例において、前記人体部位領域に対応する人体部位ノード、及び前記物体領域に対応する物体ノードは、予めトレーニングされたニューラルネットワークにより取得することができる。例えば、前記人体部位領域の特徴情報を前記ニューラルネットワークに入力して次元圧縮を行い、前記人体部位領域に対応する人体部位ノードの特徴情報を取得し、それにより人体部位領域を人体部位ノードに変換する。同様に、物体ノードに対して、前記物体領域の特徴情報を前記ニューラルネットワークに入力して次元圧縮を行い、前記物体領域に対応する物体ノードの特徴情報を取得し、それにより物体領域を物体ノードに変換することができる。後続プロセスに使用されるニューラルネットワークと区別するために、ここで、人体部位ノード及び物体ノードを取得するニューラルネットワークを第１ニューラルネットワークと呼んでも構わない。前記人体部位領域及び前記物体領域の特徴情報の取得方式については後に詳述する。

処理対象画像に含まれる一つ又は複数の人体に対応する人体部位ノード、及び一つ又は複数の物体ノードに対して、まず各人体に対応する人体部位ノードを接続することにより、人体ノード図を取得することができ、その後に各物体ノードを各人体に対応する人体部位ノードに接続することにより、人体と物体の空間位置関係マップを取得することができる。各物体ノードと各人体部位ノードとの間の具体的な接続方式について、本開示の実施例は、限定しない。

前記空間位置関係マップは、各人体部位ノードと物体ノードの間の接続情報を含むだけでなく、各人体部位ノード、物体ノードに対応する特徴情報、及び前記物体ノードと人体部位ノードとが接続されて形成された「辺」に対応する特徴情報を含み、ここで、辺の特徴情報は、接続された物体ノードと人体部位ノードとの相対位置に基づいて取得することができる。

本開示の実施例において、前記人体に対応する人体部位ノードのうちの一部又は全部は、「辺」により物体ノードに接続されるものであるため、該空間的位置関係マップに基づいて前記人体に対応する特徴情報を特定する時に、「辺」の影響を受け、すなわち物体ノードの前記人体部位ノードへの影響を受け、それにより人体の特徴情報は、物体に関連する空間的位置情報を含み、それにより後続の人体と物体との間の対話関係の識別に役立つ。

ステップ１０４において、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定する。

いくつかの実施例において、予めトレーニングされたニューラルネットワークを利用して前記人体と前記物体との間の対話関係を特定することができる。ここで、人体部位ノード及び物体ノードを取得する上記ニューラルネットワークと区別するために、人体と物体との間の対話関係を特定するための該ニューラルネットワークを第２ニューラルネットワークと呼ぶ。前記第２ニューラルネットワークは、前記人体と前記物体との間の対話関係を分類するために用いられる。前記人体に対応する特徴情報と前記物体に対応する特徴情報を特徴情報対として、前記第２ニューラルネットワークに入力することにより、対話関係分類結果を予測して得て、それにより前記特徴情報対に対応する物体と人体との対話関係を特定することができる。

本開示の実施例において、処理対象画像の人体検出結果及び物体検出結果に基づいて、処理対象画像における人体に対応する各人体部位領域及び物体に対応する物体領域を特定し、かつ対応するノードに変換し、前記ノードに基づいて人と物体との空間位置関係マップを構築し、前記空間位置関係マップは、異なる人体姿勢に対応する特徴を含むだけでなく、各身体部位と物体との位置関係を含む。前記各ノードの空間位置を利用して人体に対応する特徴情報及び物体に対応する特徴情報を取得することにより、前記人体と前記物体との間の対話関係を特定し、対話関係の識別の正確性及び信頼性を向上させる。

図２は、本開示の少なくとも一つの実施例に係る目標検出方法のフローチャートを示し、該目標検出方法を利用して処理対象画像に検出を行うことにより、人体検出結果及び物体検出結果を取得することができる。

図２に示すように、予めトレーニングされた目標検出ネットワーク２００を利用して前記処理対象画像に検出を行うことができる。ここで、目標検出ネットワーク２００は、特徴抽出モジュール２１０と、候補枠抽出モジュール２２０と、プーリングモジュール２３０と、分類モジュール２４０と、座標フィッティングモジュール２５０とを含む。

処理対象画像は、まず特徴抽出モジュール２１０に入力される。特徴抽出モジュール２１０は、畳み込みニューラルネットワークモジュールであってもよく、それが複数の畳み込み層を含み、前記処理対象画像の視覚的特徴を抽出し、すなわち前記処理対象画像の特徴マップ（ｆｅａｔｕｒｅｍａｐｓ）を抽出するために用いられる。

候補枠抽出モジュール２２０は、特徴抽出モジュール２１０から出力された特徴マップに基づいて、目標対象が出現する可能性のある一連の領域を候補枠として予測する。候補枠を

として表すことができ、ここで、

は、ｉ番目の候補枠の頂点の横座標を表し、

は、頂点の縦座標を表す。

候補枠抽出モジュール２２０により予測された候補枠に対して、プーリングモジュール２３０は、プーリング層によりオリジナル画像上の候補枠領域を一部の特徴マップにマッピングし、かつプーリング操作により固定サイズの特徴を生成する。該特徴は、同時に分類モジュール２４０及び座標フィッティングモジュール２５０に入り、座標フィッティングモジュール２５０は、候補枠抽出モジュール２２０により抽出された候補枠に基づいて、候補枠の座標に回帰を行い、より正確な目標候補枠を取得し、分類モジュール２４０は、前記候補枠に再分類を行い、人の種類又は具体的な物体種類を取得し、これにより処理対象画像から人体検出枠及び物体検出枠を取得する。図２に示すように、目標検出ネットワーク２００から出力された画像は、人体検出枠２６１物体検出枠２６２、２６３を含む。

処理対象画像に画像検出を行うことにより、人と物体の処理対象画像における空間位置情報及び視覚的特徴を取得し、後続のステップにおける人と物との間の対話関係の予測に用いることができる。

いくつかの実施例において、以下の方法により身体部位領域を特定する。

まず、前記人体検出結果における人体検出枠に含まれる特徴情報を取得する。例えば、人体検出枠を利用し、ＲＯＩＡｌｉｇｎ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔＡｌｉｇｎ、関心領域位置合わせ）を採用して処理対象画像の特徴マップから前記人体検出枠に含まれる特徴情報を取得し、すなわち人体の特徴情報を取得することができる。

次に、前記特徴情報に基づいて、前記人体の人体キーポイントを取得する。例えば、前記人体検出枠に含まれる特徴情報を姿勢推定ネットワークに入力することができる。姿勢推定ネットワークは、一連の畳み込み層及び非線形層で構成され、それは、姿勢種類数のチャネル特徴を出力し、各チャネルは、一つの信頼度熱力図に対応し、各熱力図のスコアの最高点は、該姿勢種類に対応する人体キーポイントの位置である。

人体キーポイントを取得した後、人体骨格情報に基づいて前記人体キーポイントを接続し、かつ接続情報を取得することができる。予め設定されたか又は予め取得された人体骨格情報に対して、各人体キーポイントの間の接続方式は特定されるものであり、すなわち、いずれかの人体キーポイントに対して、それと接続するキーポイントを特定することができる。前記人体キーポイントの接続情報は、それに接続されたキーポイント及び接続されたキーポイントの位置情報を含む。

図３Ａは、処理対象画像に検出を行って得られた人体検出結果を示し、人体検出枠３００及び人体検出枠の位置を含む。前記人体検出枠に含まれる画像部分に対して後続の人体部位領域特定ステップを行ってもよく、前記人体検出枠に含まれる画像をトリミングし、トリミングされた画像に基づいて後続の人体部位領域特定ステップを行ってもよい。

図３Ａに示すような人体検出枠に含まれる特徴情報に基づいて、検出された人体に対応する人体キーポイントを特定することができ、図３Ｂに示すとおりである。

人体キーポイント及び前記人体キーポイントの接続情報を取得した後、前記人体キーポイント及び前記接続情報に基づいて人体部位領域を特定することができる。

一例において、接続された複数（例えば、二つ）の人体キーポイントに基づいて前記人体部位領域を特定することができる。

図３Ｂにおける接続された人体キーポイント３１１及び３１２を例とし、人体キーポイント３１１及び３１２の種類（例えばそれぞれ膝キーポイント及び足首キーポイントである）及び位置に基づいて、この二つの人体キーポイントにより形成された矩形領域が下腿領域であることを特定することができ、枠３２１に示すとおりである。他の人体部位領域の判定は、上述した方法と同様である。

一例において、さらに前記人体キーポイントを中心として前記人体部位領域を特定することができる。例えば膝キーポイントを中心として、予め設定された膝領域の大きさに基づいて、それにより膝領域の具体的な位置を特定することができる。他の人体部位領域の判定は、上述した方法と同様である。

一例において、人体部位領域の一部は、接続された複数の人体キーポイントに基づいて特定することができ、人体部位領域の他の一部は、この複数の人体キーポイントのうちの一つのキーポイントを中心として特定することができる。各人体部位領域の具体的な特定方式は、実際の状況に応じて特定することができ、本開示の実施例は、これを限定しない。

前記処理対象画像から検出された人体に含まれる各人体部位領域に対して、それを対応する人体部位ノードに変換し、同時に、物体検出結果における物体検出枠に対応する領域、即ち物体領域を、対応する物体ノードに変換することができる。各人体部位ノード及び物体ノードに基づいて、処理対象画像における人体と物体との間の対話関係を特定する。

いくつかの実施例において、以下の方式で人体部位領域及び物体領域を、それぞれ人体部位ノード及び物体ノードに変換することができる。

まず、人体部位領域及び物体領域の特徴情報を取得する。例えば、人体部位領域及び物体領域に基づいて、ＲＯＩＡｌｉｇｎを用いて処理対象画像の特徴マップから前記人体部位領域の特徴情報及び物体領域の特徴情報を取得することができる。

次に、前記人体部位領域の特徴情報及び物体領域の特徴情報に次元圧縮を行い、人体部位領域に対応する人体部位ノード及び物体領域に対応する物体ノードの特徴情報を取得する。例えば、予めトレーニングされたニューラルネットワークにより前記人体部位領域及び物体領域の特徴情報に次元圧縮を行うことができる。後続に使用されるニューラルネットワークと区別するために、次元圧縮を行う該ニューラルネットワークを第１ニューラルネットワークと呼ぶことができる。

人体部位ノード及び物体ノードの特徴情報を取得した後、ノードの種類及び空間的位置関係に基づいてマップを構築し、すなわち人体と物体との空間的位置関係マップを構築することができる。

いくつかの実施例において、以下の方法により人体と物体の空間位置関係マップを構築することができる。

まず、同じ人体に対して、人体骨格情報に基づいて各人体部位ノードを接続する。

人体キーポイントの接続と類似し、予め設定されたか又は予め取得された人体骨格情報に基づいて各人体部位ノードを接続する。いずれかの人体部位ノードに対して、それに接続された人体部位ノードを特定することができる。

次に、前記物体ノードと前記人体部位ノードの辺を接続し、人体と物体の空間位置関係マップを取得する。物体ノードと人体部位ノードとの間の空間距離に基づいて辺の接続を行うことができ、例えば、各物体ノードに対して、それに最も近い所定数の人体部位ノードを選択して辺の接続を行うことができ、例えば５つの最も近い人体部位ノードと辺の接続を行い、前記空間位置関係マップにおける辺を構成する。

空間構造情報を十分にマイニングするために、空間位置関係マップにおける各辺に特徴を付与することができ、例えば接続された物体ノードと人体部位ノードの相対位置に基づいて辺の特徴情報を特定し、すなわち接続された二つのノードの相対位置座標の符号化を辺の特徴情報とすることができる。得られた空間位置関係マップは、各人体部位ノード及び物体ノードの特徴情報を含み、各辺の特徴情報も含む。

本開示の実施例において、人体部位ノードと物体ノードに辺の接続を行い、かつ辺に特徴を付与することにより、人体と物体との間の空間位置情報を明示的に構築し、空間情報と人体構造情報の表示能力を向上させる。

構築された人体と物体との空間的位置関係マップに対して、さらに以下の方式で前記人体に対応する特徴情報及び前記物体に対応する特徴情報を取得することができる。

各人体部位ノードに対して、隣接する人体部位ノードの特徴情報及び接続された辺の特徴情報を利用して、各前記人体ノードの特徴情報を更新することができる。

一例では、辺敏感なグラフ畳み込みニューラルネットワークを用いて各人体部位ノードの特徴情報を更新し、すなわち空間位置関係マップの状態を更新することができる。グラフ畳み込みニューラルネットワークは、複数のグラフ畳み込み層及び非線形操作性を含み、ｌ番目のグラフ畳み込み層に対して、

式（１）により各人体部位ノードｘ_ｉの特徴情報の更新を表すことができ、
ここで、

は、ｌ＋１番目層の出力であり、

は、ｌ番目層の出力であり、ｘ_ｊは、ｘ_ｉに隣接する人体部位ノードであり、
Ｎ（ｉ）は、ｘ_ｉの隣接する人体部位ノード符号の集合を示し、
Ｆ_ｊｉは、ｘ_ｉとｘ_ｊを接続する辺の特徴を示し、Ｗは、Ｆ_ｊｉに全接続操作を行う関数であり、θは、特徴次元を調整する行列であり、σは、活性化関数であり、例えばｓｉｇｍｏｉｄ又はｒｅｌｕである。

複数のグラフ畳み込み層の操作の後、各人体部位ノードは、いずれも一定のグローバル視野と向上した空間構造化特徴づけ能力を有する。

各人体部位ノードの特徴情報を取得した後、該特徴情報に基づいて、前記人体に対応する特徴情報を取得することができる。

一例において、同じ人体に対して、各人体部位ノードの特徴情報にグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得する。グローバルプーリング操作により、処理対象画像から検出された各人体に対していずれも対応する特徴情報を取得することができる。

検出対象画像から検出された物体に対して、各物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得することができる。一般的には、一つの物体は、一つの物体ノードに対応するため、各物体ノードの特徴情報に基づいて各物体に対応する特徴情報を取得することができる。

検出対象画像から検出された各物体及び各人体の特徴情報を取得することにより、前記人体と前記物体との間の対話関係の特定に用いることができる。

いくつかの実施例において、予めトレーニングされたニューラルネットワークを利用して前記人体と前記物体との間の対話関係を特定することができ、ここで、前記ニューラルネットワークは、前記人体と前記物体との間の対話関係を分類するために用いられる。前述のニューラルネットワークと区別するために、対話関係を特定するための該ニューラルネットワークを第２ニューラルネットワークと呼ぶことができる。

人体と物体との間の対話を表記した画像サンプルにより第２ニューラルネットワークをトレーニングすることにより、前記第２ニューラルネットワークは、処理対象画像における人体と物体との間の対話関係を分類し、それにより人体と物体との間の対話関係を特定することができる。例えば、現実生活シーンから一般的で実用的な意味を有する人体と物体との間の十種の対話関係を統計することができ、例えば喫煙、飲水、飲酒、サイクリング、電話をかけるなどであり、同時にこの十種の日常生活シーンを含むデータベースを収集し、該第２ニューラルネットワークを該データベースにおいてトレーニングすることにより、これらの十種の対話関係を迅速で、正確に分類することができる。

いくつかの実施例において、各タイプの対話関係に対して安全係数を設定することができる。例えば、上記十種の対話関係に対して、安全程度に応じて対応する安全係数を設定することができる。後続に定義された安全係数と区別するために、ここでの安全係数を第１安全係数と呼ぶことができる。例えば、「火と接触する」の安全係数を０．２に設定し、「飲水」の安全係数を０．６に設定することができる。

前記処理対象画像における少なくとも一対の人体と物体の第１安全係数が第１設定閾値より低いことに応答して、前記人体と物体の対話関係が目標対話関係であることを特定する。すなわち、処理対象画像から安全係数が第１設定閾値より低い対話関係を検出すれば、前記人体が目標シーン内に位置することを特定することができる。例えば、第１設定閾値が０．３である場合、上記例に対して、人体と物体との対話関係が「火と接触する」に属することを特定する場合、人体が危険シーン内に位置することを特定することができる。

以上の方法は、処理対象画像に危険度が高い対話関係が存在するか否かを検出するために用いられる。例えば、監視画像に対して、安全係数が第１設定閾値より低い対話関係が存在すると検出した場合、画像中の人が危険シーン内に位置していることを判断し、警報をトリガする。

異なるタイプの対話関係の間の組み合わせに対して安全係数を設定することができ、ここでそれを第２安全係数と呼ぶことができる。例えば、「飲水」と「サイクリング」の組み合わせに対して、第２安全係数を０．２に設定することができ、「電話をかける」と「喫煙」の組み合わせに対して、安全係数を０．６に設定することができる。当業者に理解されるように、ここでの組み合わせは、二つの対話関係の間の組み合わせであってもよく、三つ、さらにより多くの対話関係の間の組み合わせであってもよく、本開示は、これを限定しない。

同じ人体に対して、前記人体と各物体との間の対話関係、及び対応する第２安全係数を取得する。すなわち、人体と全ての物体と発生した対話関係を特定し、かつそれに対応する第２安全係数を特定する。

前記第２安全係数が第２設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定する。すなわち、処理対象画像から一つの人体と複数の物体との対話関係組み合わせに対応する第２安全係数が第２設定閾値より低いことを検出すれば、前記人体が目標シーン内に位置することを特定することができる。例えば、第２設定閾値が０．５である場合、上記例に対して、同時に飲水しながらサイクリングする人体が目標シーン内に位置することを特定することができる。

以上の方法は、処理対象画像に潜在的な危険を有する対話関係が存在するか否かを検出するために用いられる例えば、処理対象画像における対象が運転しながら電話をかけていることを検出すれば、すなわち検出された第２安全係数が第２設定閾値よりも低いと、該対象が危険シーン内に位置することを特定し、警報をトリガすることができる。

いくつかの単独して実行する時に安全係数が高い動作は、同時に実行する時に実際に非常に危険であり、本開示の実施例は、これらの危険なシーンを識別し、タイムリーに警報して、安全性を向上させることができる。

図４は、本開示の少なくとも一つの実施例に係る対話関係の識別装置であり、図４に示すように、該装置は、処理対象画像に検出を行い、人体検出結果及び物体検出結果を取得するための取得ユニット４０１と、前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定し、かつ前記物体検出結果に基づいて、前記処理対象画像における物体に対応する物体領域を特定するための第１特定ユニット４０２と、前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間的位置関係マップを特定するための第２特定ユニット４０３と、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定するための識別ユニット４０４と、を含むことができ、前記物体領域が前記物体検出結果における物体検出枠に対応する領域であり、前記空間的位置関係マップが各前記人体部位ノードの特徴情報、前記物体ノードの特徴情報、及び各前記人体部位ノードと前記物体ノードとの位置関係情報を含む。

いくつかの実施例において、第１特定ユニット４０２は、具体的には、前記人体検出結果における人体検出枠に含まれる特徴情報を取得し、前記特徴情報に基づいて、前記人体の人体キーポイントを取得し、人体骨格情報に基づいて前記人体キーポイントを接続し、接続情報を取得し、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定するために用いられ、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することは、接続された複数の人体キーポイントに基づいて一つの人体部位領域を特定し、又は前記複数の人体キーポイントの一つを中心として一つの人体部位領域を特定することの少なくとも一つを含む。

いくつかの実施例において、第２特定ユニット４０３は、具体的には、前記人体部位領域の特徴情報に次元圧縮を行い、前記人体部位ノードの特徴情報を取得し、前記物体領域の特徴情報に次元圧縮を行い、前記物体ノードの特徴情報を取得し、同じ人体に対して、人体骨格情報に基づいて各前記人体部位ノードを接続し、前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得するために用いられ、前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得することは、各物体ノードに対して、前記物体ノードとの距離が最も近い所定数の人体部位ノードを前記物体ノードにそれぞれ接続することを含み、一つの物体ノードが一つの人体部位ノードに接続されて形成された辺の特徴情報が前記辺に接続された物体ノードと人体部位ノードの位置関係情報を含むことを含む。

いくつかの実施例において、前記装置は、各人体部位ノードに対して、前記人体部位ノードの一つ又は複数の隣接する人体部位ノードの特徴情報及び前記人体部位ノードと前記隣接する人体部位ノードを接続する辺の特徴情報を利用して、各前記人体部位ノードの特徴情報を更新するための更新ユニットをさらに含む。

いくつかの実施例において、識別ユニット４０４は、具体的には、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得するために用いられ、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得することは、同じ人体に対して、各人体部位ノードの特徴情報に対してグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得し、前記物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得し、前記人体に対応する特徴情報及び前記物体に対応する特徴情報に基づいて、前記人体と前記物体との間の対話関係を特定することを含む。

いくつかの実施例において、識別ユニット４０４は、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係が属する対話種別を特定するために用いられ、前記装置は、前記人体と前記物体との間の対話関係が属する対話カテゴリの安全係数が第１設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第３特定ユニットをさらに含む。

いくつかの実施例において、識別ユニット４０４は、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と異なる種類の物体との間の対話関係が属する対話類別を特定するために用いられ、前記装置は、前記人体と異なる種類の物体との間の対話関係が属する対話類別の組み合わせの安全係数を特定し、前記組み合わせの安全係数が第２設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第４特定ユニットをさらに含む。

図５は、本開示の少なくとも一つの実施例に係る電子機器であり、前記機器は、メモリ５０１、プロセッサ５０２を含み、前記メモリ５０１は、プロセッサ５０２で実行可能なコンピュータ命令を記憶するために用いられ、前記プロセッサ５０２は、前記コンピュータ命令を実行する時に本明細書のいずれかの実施例に記載の対話関係の識別方法を実現するために用いられる。

本明細書の少なくとも一つの実施例は、コンピュータ読み取り可能な記録媒体をさらに提供し、その上にコンピュータプログラムが記憶され、前記プログラムがプロセッサにより実行される時に本明細書のいずれか一つの実施例に記載の目標検出方法を実現し、及び／又は、本明細書のいずれか一つの実施例に記載の対話関係の識別方法を実現する。

本明細書の少なくとも一つの実施例は、コンピュータプログラムをさらに提供し、前記プログラムがプロセッサにより実行される時に本明細書のいずれかの実施例に記載の目標検出方法を実現し、及び／又は、本明細書のいずれかの実施例に記載の対話関係の識別方法を実現する。

当業者に理解されるように、本明細書の一つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供することができる。したがって、本明細書の一つ又は複数の実施例は、完全なハードウェア実施例、完全なソフトウェア実施例又はソフトウェアとハードウェアを組み合わせる実施例の形式を採用することができる。且つ、本明細書の一つ又は複数の実施例は、コンピュータ使用可能なプログラムコードを含む一つ又は複数のコンピュータ使用可能な記憶媒体（磁気ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリ等を含むがこれらに限定されない）で実施されたコンピュータプログラム製品の形式を採用することができる。

本明細書における各実施例は、いずれも漸進の方式で説明され、各実施例の間の同じで類似する部分は、互いに参照すればよく、各実施例は、他の実施例との相違点を重点として説明する。特に、機器の実施例に対して、それは、基本的に方法の実施例と類似するため、簡単に説明され、関連する部分は、方法の実施例の部分の説明を参照すればよい。

以上、本明細書の具体的な実施例について説明した。他の実施例は、添付の特許請求の範囲内にある。いくつかの場合、特許請求の範囲に記載の動作又はステップは、実施例と異なる順序で実行し、且つ依然として所望の結果を実現することができる。また、図面に描かれたプロセスは、所望の結果を達成するために、示されている特定の順序又は連続した順序を必ずしも必要としない。いくつかの実施形態において、マルチタスク処理及び並列処理も可能であるか又は有利である可能性がある。

本明細書に記載された主題及び機能操作の実施例は、デジタル電子回路、実体的に具現化されたコンピュータソフトウェア又はファームウェア、本明細書に開示された構成及びその構造的等価物を含むコンピュータハードウェア、又はそれらのうちの一つ又は複数の組み合わせで実現することができる。本明細書に記載された主題の実施例は、一つ又は複数のコンピュータプログラムとして実現することができ、すなわち有形の非一時的なプログラム担体にコーディングされてデータ処理装置に実行されるか又はデータ処理装置の操作を制御するコンピュータプログラム命令のうちの一つ又は複数のモジュールである。また、プログラム命令は、人工的に生成された機械的に生成された電気、光又は電磁信号などの伝播信号に符号化されてもよく、該信号が生成されて情報を符号化しかつ適切な受信機装置に伝送してデータ処理装置により実行される。コンピュータ記憶媒体は、機械読み取り可能な記憶装置、機械読み取り可能な記憶基板、ランダム又はシリアルアクセスメモリ装置、又はそれらのうちの一つ又は複数の組み合わせであってもよい。

本明細書に記述された処理及び論理フローは、一つ又は複数のコンピュータプログラムを実行する一つ又は複数のプログラム可能なコンピュータにより実行されてもよく、それにより入力データに基づいて操作し、かつ出力を生成することにより対応する機能を実行する。前記処理及び論理フローは、さらに専用論理回路、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）又はＡＳＩＣ（専用集積回路）により実行されてもよく、かつ装置は、専用論理回路として実現されてもよい。

コンピュータプログラムの実行に適するコンピュータは、例えば汎用及び／又は専用マイクロプロセッサ、又は任意の他のタイプの中央処理ユニットを含む。一般的に、中央処理ユニットは、リードオンリーメモリ及び／又はランダムアクセスメモリから命令及びデータを受信する。コンピュータの基本的な構成要素は、命令を実施又は実行するための中央処理ユニットと、命令及びデータを記憶するための一つ又は複数のメモリ装置とを含む。一般的に、コンピュータは、データを記憶するための一つ又は複数の大容量記憶装置をさらに含み、例えば磁気ディスク、光磁気ディスク又は光ディスク等であり、又はコンピュータは、この大容量記憶装置と操作可能に結合されてそれからデータを受信するか又はそれにデータを伝送し、又は二つの場合がある。しかしながら、コンピュータは、このような装置を有さなくてもよい。また、コンピュータは、他の装置、例えばいくつかの例として挙げられた携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、移動オーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム（ＧＰＳ）受信機、又は例えばユニバーサルシリアルバス（ＵＳＢ）フラッシュメモリドライバのポータブル記憶装置に埋め込むことができる。

コンピュータプログラム命令及びデータを記憶することに適するコンピュータ読み取り可能な媒体は、全ての形式の不揮発性メモリ、媒体及びメモリ装置を含み、例えば半導体メモリ装置（例えばＥＰＲＯＭ、ＥＥＰＲＯＭ及びフラッシュメモリ装置）、磁気ディスク（例えば内部ハードディスク又はリムーバブルディスク）、光磁気ディスク及びＣＤＲＯＭ及びＤＶＤ－ＲＯＭディスクを含む。プロセッサ及びメモリは、専用論理回路によって補充されてもよく又は専用論理回路に組み込まれてもよい。

本明細書は、多くの具体的な実施の詳細を含むが、これらが任意の発明の範囲又は保護を要求する範囲を限定するものと解釈されるべきではなく、主に特定の発明の具体的な実施例の特徴を説明するために用いられる。本明細書において、複数の実施例に記述されたいくつかの特徴は、単一の実施例において組み合わせて実施されてもよい。他方では、単一の実施例において説明された様々な特徴は、複数の実施例において分けて実施するか又は任意の適切なサブ組み合わせで実施してもよい。また、特徴は、上記のようにいくつかの組み合わせにおいて作用し、かつ最初にこのように保護を要求することができるが、保護を求める組み合わせからの一つ又は複数の特徴は、いくつかの場合に該組み合わせから除去することができ、かつ保護を求める組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指すことができる。

同様に、図面において特定の順序で操作を説明したが、これは、これらの操作が示された特定の順序で実行されるか又は順次実行されることを要求し、又は全ての例示された操作が実行されることを要求して、所望の結果を実現すると理解されるべきではない。いくつかの場合に、マルチタスク及び並列処理は、有利である可能性がある。また、上記実施例における様々なシステムモジュール及びコンポーネントの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではなく、かつ理解すべきなのは、説明されたプログラムコンポーネント及びシステムは、一般的に単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品にパッケージされてもよい。

これにより、テーマの特定の実施例が説明された。他の実施例は、添付の特許請求の範囲内にある。いくつかの場合、特許請求の範囲に記載された動作は、異なる順序で実行できるままで所望の結果を実現する。また、図面に示された処理は、必ずしも示された特定の順序又は順序で所望の結果を実現するものと理解されるべきではない。いくつかの実現において、マルチタスク及び並列処理は有利である可能性がある。

Claims

処理対象画像を検出し、人体検出結果及び物体検出結果を取得することと、
前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定することと、
前記物体検出結果に基づいて、前記処理対象画像における物体に対応する物体領域を特定することと、
前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間的位置関係マップを特定することと、
人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することと、を含み、
前記物体領域が前記物体検出結果における物体検出枠に対応する領域であり、
前記空間的位置関係マップが各前記人体部位ノードの特徴情報と、前記物体ノードの特徴情報と、各前記人体部位ノードと前記物体ノードの位置関係情報を含むことを特徴とする対話関係の識別方法。
前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定することは、
前記人体検出結果における人体検出枠に含まれる特徴情報を取得し、
前記特徴情報に基づいて、前記人体の人体キーポイントを取得し、
人体骨格情報に基づいて前記人体キーポイントを接続し、接続情報を取得し、
前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することを含むことを特徴とする請求項１に記載の方法。
前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することは、
接続された複数の人体キーポイントに基づいて一つの人体部位領域を特定し、又は
前記複数の人体キーポイントの一つを中心として一つの人体部位領域を特定することの少なくとも一つを含むことを特徴とする請求項２に記載の方法。
前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間位置関係マップを特定することは、
前記人体部位領域の特徴情報に次元圧縮を行い、前記人体部位ノードの特徴情報を取得することと、
前記物体領域の特徴情報に次元圧縮を行い、前記物体ノードの特徴情報を取得し、同じ人体に対して、人体骨格情報に基づいて各前記人体部位ノードを接続することと、
前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得することと、を含み、
一つの物体ノードが一つの人体部位ノードに接続されて形成された辺の特徴情報が前記辺に接続された物体ノードと人体部位ノードの位置関係情報を含むことを特徴とする請求項１に記載の方法。
前記物体ノードを前記人体部位ノードに接続することは、
各物体ノードに対して、前記物体ノードとの距離が最も近い所定数の人体部位ノードを前記物体ノードにそれぞれ接続することを含むことを特徴とする請求項４に記載の方法。
人体と物体の空間位置関係マップを取得した後、前記方法は、
各人体部位ノードに対して、前記人体部位ノードの一つ又は複数の隣接する人体部位ノードの特徴情報及び前記人体部位ノードと前記隣接する人体部位ノードを接続する辺の特徴情報を利用して、各前記人体部位ノードの特徴情報を更新することをさらに含むことを特徴とする請求項４又は５に記載の方法。
前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、
前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得し、
前記物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得し、
前記人体に対応する特徴情報及び前記物体に対応する特徴情報に基づいて、前記人体と前記物体との間の対話関係を特定することを含むことを特徴とする請求項１～６のいずれか一項に記載の方法。
前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得することは、
同じ人体に対して、各人体部位ノードの特徴情報にグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得することを含むことを特徴とする請求項７に記載の方法。
前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、
人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係が属する対話種別を特定することを含み、
前記方法は、
前記人体と前記物体との間の対話関係が属する対話種別の安全係数が第１設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定することをさらに含むことを特徴とする請求項１～８のいずれか一項に記載の方法。
前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、
人体と物体との空間的位置関係マップに基づいて、前記人体と異なる種類の物体との間の対話関係が属する対話類別を特定することを含み、
前記方法は、
前記人体と異なる種類の物体との間の対話関係が属する対話類別の組み合わせの安全係数を特定し、
前記組み合わせの安全係数が第２設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定することをさらに含むことを特徴とする請求項１～８のいずれか一項に記載の方法。
処理対象画像に検出を行い、人体検出結果及び物体検出結果を取得するために用いられる取得ユニットと、
前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定し、かつ前記物体検出結果に基づいて、前記処理対象画像における物体に対応する物体領域を特定するために用いられる第１特定ユニットと、
前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間的位置関係マップを特定するために用いられる第２特定ユニットと、
人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定するために用いられる識別ユニットと、を含み、
前記物体領域が前記物体検出結果における物体検出枠に対応する領域であり、
前記空間的位置関係マップが各前記人体部位ノードの特徴情報、前記物体ノードの特徴情報、及び各前記人体部位ノードと前記物体ノードとの位置関係情報を含むことを特徴とする対話関係の識別装置。
前記第１特定ユニットは、具体的には、
前記人体検出結果における人体検出枠に含まれる特徴情報を取得し、
前記特徴情報に基づいて、前記人体の人体キーポイントを取得し、
人体骨格情報に基づいて前記人体キーポイントを接続し、接続情報を取得し、
前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定するために用いられ、
前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することは、接続された複数の人体キーポイントに基づいて一つの人体部位領域を特定し、又は前記複数の人体キーポイントの一つを中心として一つの人体部位領域を特定することの少なくとも一つを含むことを特徴とする請求項１１に記載の装置。
前記第２特定ユニットは、具体的には、
前記人体部位領域の特徴情報に次元圧縮を行い、前記人体部位ノードの特徴情報を取得し、
前記物体領域の特徴情報に次元圧縮を行い、前記物体ノードの特徴情報を取得し、同じ人体に対して、人体骨格情報に基づいて各前記人体部位ノードを接続し、
前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得するために用いられ、
前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得することは、各物体ノードに対して、前記物体ノードとの距離が最も近い所定数の人体部位ノードを前記物体ノードにそれぞれ接続することを含み、
一つの物体ノードが一つの人体部位ノードに接続されて形成された辺の特徴情報が前記辺に接続された物体ノードと人体部位ノードの位置関係情報を含むことを特徴とする請求項１２に記載の装置。
前記装置は、各人体部位ノードに対して、前記人体部位ノードの一つ又は複数の隣接する人体部位ノードの特徴情報及び前記人体部位ノードと前記隣接する人体部位ノードを接続する辺の特徴情報を利用して、各前記人体部位ノードの特徴情報を更新するための更新ユニットをさらに含むことを特徴とする請求項１３に記載の装置。
前記識別ユニットは、具体的には、
前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得し、
前記物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得し、
前記人体に対応する特徴情報及び前記物体に対応する特徴情報に基づいて、前記人体と前記物体との間の対話関係を特定するために用いられ、
前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得することは、同じ人体に対して、各人体部位ノードの特徴情報にグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得することを含むことを特徴とする請求項１１～１４のいずれか一項に記載の装置。
前記識別ユニットは、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係が属する対話種別を特定するために用いられ、
前記装置は、前記人体と前記物体との間の対話関係が属する対話種類の安全係数が第１設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第３特定ユニットをさらに含むことを特徴とする請求項１１～１５のいずれか一項に記載の装置。
前記識別ユニットは、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と異なる種類の物体との間の対話関係が属する対話類別を特定するために用いられ、
前記装置は、前記人体と異なる種類の物体との間の対話関係が属する対話類別の組み合わせの安全係数を特定し、前記組み合わせの安全係数が第２設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第４特定ユニットをさらに含むことを特徴とする請求項１１～１５のいずれか一項に記載の装置。
電子機器であって、
メモリ、プロセッサを含み、
前記メモリは、プロセッサで実行可能なコンピュータ命令を記憶するために用いられ、
前記プロセッサは、前記コンピュータ命令を実行する時に請求項１～１０のいずれか一項に記載の方法を実現するために用いられることを特徴とする電子機器。
コンピュータプログラムが記憶されるコンピュータ読み取り可能な記録媒体であって、
前記プログラムがプロセッサにより実行される時に請求項１～１０のいずれか一項に記載の方法を実現するコンピュータ読み取り可能な記録媒体。
コンピュータプログラムであって、
プロセッサにより実行される時に請求項１～１０のいずれか一項に記載の方法を実現するコンピュータプログラム。