JP2023514322A - 対話関係の識別方法、装置、機器及び記憶媒体 - Google Patents

対話関係の識別方法、装置、機器及び記憶媒体 Download PDF

Info

Publication number
JP2023514322A
JP2023514322A JP2022549446A JP2022549446A JP2023514322A JP 2023514322 A JP2023514322 A JP 2023514322A JP 2022549446 A JP2022549446 A JP 2022549446A JP 2022549446 A JP2022549446 A JP 2022549446A JP 2023514322 A JP2023514322 A JP 2023514322A
Authority
JP
Japan
Prior art keywords
human body
node
body part
feature information
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022549446A
Other languages
English (en)
Inventor
越 廖
彦杰 ▲陳▼
▲飛▼ 王
晨 ▲銭▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Lingang Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Publication of JP2023514322A publication Critical patent/JP2023514322A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、対話関係の識別方法、装置、機器及び記憶媒体に関し、前記方法は、処理対象画像を検出し、人体検出結果及び物体検出結果を取得することと、前記人体検出結果に基づいて、人体に対応する各人体部位領域を特定することと、前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体の空間位置関係マップを構築することと、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することと、を含み、前記物体領域が物体検出結果における物体検出枠に対応する領域であり、前記空間位置関係マップが各前記人体部位ノードの特徴情報、前記物体ノードの特徴情報、及び各前記人体部位ノードと前記物体ノードの位置関係情報を含む。【選択図】図1

Description

本開示は、コンピュータ視覚の分野に属し、特に対話関係の識別方法、装置、機器及び記憶媒体に関する。
人と物体の対話関係の識別は、都市の知能監視、家庭の知能監視などの分野において広い応用の将来性を有する。人が物体と対話する過程において、人は、形態が異なる姿勢を生成し、かつ人と物体との間にも異なる位置関係を有する可能性があるため、人と物体との対話関係の識別を行うことは、以上の情報を十分にマイニングし、人と物体との間の対話を全面的に理解する必要がある。
近年、深層学習は、単一の物体理解に非常に大きな進展を取得し、人と物体との間の関係理解に対する研究がまだ発進段階にある。
本開示の実施例は、対話関係の識別の解決手段を提供する。
本開示の一態様によれば、対話関係の識別方法を提供し、処理対象画像を検出し、人体検出結果及び物体検出結果を取得することと、前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定することと、前記物体検出結果に基づいて、前記処理対象画像における物体に対応する物体領域を特定することと、前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間的位置関係マップを特定することと、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することと、を含み、前記物体領域が前記物体検出結果における物体検出枠に対応する領域であり、前記空間的位置関係マップが各前記人体部位ノードの特徴情報と、前記物体ノードの特徴情報と、各前記人体部位ノードと前記物体ノードの位置関係情報を含む。
本開示が提供するいずれかの実施形態を参照し、前記人体検出結果に基づいて、前記処理対象画像における人体が対応する各人体部位領域を特定することは、前記人体検出結果における人体検出枠に含まれる特徴情報を取得し、前記特徴情報に基づいて、前記人体の人体キーポイントを取得し、人体骨格情報に基づいて前記人体キーポイントを接続し、接続情報を取得し、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することを含む。
本開示が提供するいずれかの実施形態を参照し、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することは、接続された複数の人体キーポイントに基づいて一つの人体部位領域を特定し、又は前記複数の人体キーポイントの一つを中心として一つの人体部位領域を特定することの少なくとも一つを含む。
本開示が提供するいずれかの実施形態を参照し、前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体の空間位置関係マップを特定することは、前記人体部位領域の特徴情報に次元圧縮を行い、前記人体部位ノードの特徴情報を取得することと、前記物体領域の特徴情報に次元圧縮を行い、前記物体ノードの特徴情報を取得し、同じ人体に対して、人体骨格情報に基づいて各前記人体部位ノードを接続することと、前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得することと、を含、一つの物体ノードが一つの人体部位ノードに接続されて形成された辺の特徴情報は、前記辺に接続された物体ノードと人体部位ノードの位置関係情報を含む。
本開示が提供するいずれかの実施形態を参照し、前記物体ノードを前記人体部位ノードに接続することは、各物体ノードに対して、前記物体ノードとの距離が最も近い所定数の人体部位ノードを前記物体ノードにそれぞれ接続することを含む。
本開示が提供するいずれかの実施形態を参照し、人体と物体の空間位置関係マップを取得した後、前記方法は、各人体部位ノードに対して、前記人体部位ノードの一つ又は複数の隣接する人体部位ノードの特徴情報及び前記人体部位ノードと前記隣接する人体部位ノードを接続する辺の特徴情報を利用して、各前記人体部位ノードの特徴情報を更新することをさらに含む。
本開示が提供するいずれかの実施形態を参照し、前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得し、前記物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得し、前記人体に対応する特徴情報及び前記物体に対応する特徴情報に基づいて、前記人体と前記物体との間の対話関係を特定することを含む。
本開示が提供するいずれかの実施形態を参照し、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得することは、同じ人体に対して、各人体部位ノードの特徴情報にグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得することを含む。
本開示が提供するいずれかの実施形態を参照し、前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係が属する対話種別を特定することを含み、前記方法は、前記人体と前記物体との間の対話関係が属する対話種別の安全係数が第1設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定することをさらに含む。
本開示が提供するいずれかの実施形態を参照し、前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、人体と物体との空間的位置関係マップに基づいて、前記人体と異なる種類の物体との間の対話関係が属する対話類別を特定することを含み、前記方法は、前記人体と異なる種類の物体との間の対話関係が属する対話類別の組み合わせの安全係数を特定し、前記組み合わせの安全係数が第2設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定することをさらに含む。
本開示の一態様によれば、対話関係の識別装置を提供し、前記装置は、処理対象画像に検出を行い、人体検出結果及び物体検出結果を取得するために用いられる取得ユニットと、前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定し、かつ前記物体検出結果に基づいて、前記処理対象画像における物体に対応する物体領域を特定するために用いられる第1特定ユニットと、前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間的位置関係マップを特定するために用いられる第2特定ユニットと、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定するために用いられる識別ユニットとを含み、前記物体領域が前記物体検出結果における物体検出枠に対応する領域であり、前記空間的位置関係マップが各前記人体部位ノードの特徴情報、前記物体ノードの特徴情報、及び各前記人体部位ノードと前記物体ノードとの位置関係情報を含む。
本開示が提供するいずれかの実施形態を参照し、前記第1特定ユニットは、具体的には、前記人体検出結果における人体検出枠に含まれる特徴情報を取得し、前記特徴情報に基づいて、前記人体の人体キーポイントを取得し、人体骨格情報に基づいて前記人体キーポイントを接続し、接続情報を取得し、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定するために用いられ、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することは、接続された複数の人体キーポイントに基づいて一つの人体部位領域を特定し、又は前記複数の人体キーポイントの一つを中心として一つの人体部位領域を特定することの少なくとも一つを含む。
本開示が提供するいずれかの実施形態を参照し、前記第2特定ユニットは、具体的には、前記人体部位領域の特徴情報に次元圧縮を行い、前記人体部位ノードの特徴情報を取得し、前記物体領域の特徴情報に次元圧縮を行い、前記物体ノードの特徴情報を取得し、同じ人体に対して、人体骨格情報に基づいて各前記人体部位ノードを接続し、前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得するために用いられ、前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得することは、各物体ノードに対して、前記物体ノードとの距離が最も近い所定数の人体部位ノードを前記物体ノードにそれぞれ接続することを含み、一つの物体ノードが一つの人体部位ノードに接続されて形成された辺の特徴情報が前記辺に接続された物体ノードと人体部位ノードの位置関係情報を含むことを含む。
本開示が提供するいずれかの実施形態を参照し、前記装置は、各人体部位ノードに対して、前記人体部位ノードの一つ又は複数の隣接する人体部位ノードの特徴情報及び前記人体部位ノードと前記隣接する人体部位ノードを接続する辺の特徴情報を利用して、各前記人体部位ノードの特徴情報を更新するための更新ユニットをさらに含む。
本開示が提供するいずれかの実施形態を参照し、前記識別ユニットは、具体的には、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得するために用いられ、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得することは、同じ人体に対して、各人体部位ノードの特徴情報に対してグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得し、前記物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得し、前記人体に対応する特徴情報及び前記物体に対応する特徴情報に基づいて、前記人体と前記物体との間の対話関係を特定することを含む。
本開示が提供するいずれかの実施形態を参照し、前記識別ユニットは、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係が属する対話種別を特定するために用いられ、前記装置は、前記人体と前記物体との間の対話関係が属する対話カテゴリの安全係数が第1設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第3特定ユニットをさらに含む。
本開示が提供するいずれかの実施形態を参照し、前記識別ユニットは、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と異なる種類の物体との間の対話関係が属する対話類別を特定するために用いられ、前記装置は、前記人体と異なる種類の物体との間の対話関係が属する対話類別の組み合わせの安全係数を特定し、前記組み合わせの安全係数が第2設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第4特定ユニットをさらに含む。
本開示の一態様によれば、電子機器を提供し、機器は、メモリ、プロセッサを含み、前記メモリは、プロセッサで実行可能なコンピュータ命令を記憶するために用いられ、前記プロセッサは、前記コンピュータ命令を実行する時に本開示のいずれかの実施形態に記載の対話関係の識別方法を実現するために用いられる。
本開示の一態様によれば、コンピュータ読み取り可能な記録媒体を提供し、その上にコンピュータプログラムが記憶され、前記プログラムがプロセッサにより実行される時に本開示のいずれかの実施形態に記載の対話関係の識別方法を実現する。
本開示の一態様によれば、コンピュータプログラムを提供し、それがプロセッサにより実行される時に本開示のいずれかの実施形態に記載の対話関係の識別方法を実現する。
本開示の一つ又は複数の実施形態の対話関係の識別方法、装置、機器及び記憶媒体は、処理対象画像の人体検出結果及び物体検出結果に基づいて、処理対象画像における人体に対応する各人体部位領域及び物体に対応する物体領域を特定し、かつ対応するノードに変換し、前記ノードに基づいて人と物体との空間位置関係マップを構築し、前記空間位置関係マップは、異なる人体姿勢に対応する特徴を含むだけでなく、各身体部位と物体との位置関係を含む。前記空間位置を利用して人体に対応する特徴情報及び物体に対応する特徴情報を取得することにより、前記人体と前記物体との間の対話関係を特定し、対話関係の識別の正確性及び信頼性を向上させる。
理解すべきなのは、以上の一般的な説明及び後文の詳細な説明は、単に例示的及び説明的なものであり、本開示を限定するものではない。
ここでの図面は、明細書に組み込まれて本明細書の一部を構成し、本明細書に合致する実施例を示し、かつ明細書と共に本明細書の原理を説明するために用いられる。
本開示の少なくとも一つの実施例に係る対話関係の識別方法のフローチャートを示す。 本開示の少なくとも一つの実施例に係る目標検出方法のフローチャートを示す。 本開示の少なくとも一つの実施例に係る目標検出方法で得られた人体検出結果を示す。 図3Aにおける人体検出結果に基づいて特定された人体キーポイントを示す。 本開示の少なくとも一つの実施例に係る対話関係の識別装置の構造模式図を示す。 本開示の少なくとも一つの実施例に係る電子機器の構造図を示す。
ここで例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明は、図面に関する場合、特に示さない限り、異なる図面における同じ数字が同じ又は類似する要素を示す。以下の例示的な実施例に記載される実施形態は、本開示と一致する全ての実施形態を表すものではない。逆に、それらは、添付の特許請求の範囲に詳述され本開示のいくつかの態様と一致する装置及び方法の例に過ぎない。
本明細書における用語「及び/又は」は、関連対象を説明するための関連関係だけであり、三種類の関係の存在を示し、例えば、A及び/又はBは、単独してAが存在し、A及びBが同時に存在し、単独してBが存在するという三種類の状況が存在することを表すことができる。また、本明細書における用語「少なくとも一種」は、複数種のうちの任意の一種又は複数種のうちの少なくとも二種の任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも一種は、A、B及びCで構成された集合から選択された任意の一つ又は複数の元素を含むことを表すことができる。
本開示の少なくとも一つの実施例は、対話関係の識別方法を提供し、前記対話関係の識別方法は、端末機器又はサーバ等の電子機器により実行することができ、端末機器は、ユーザー機器(UserEquipment、UE)、モバイル機器、ユーザー端末、端末、携帯電話、コードレス電話、パーソナルデジタル処理(PersonalDigitalAssistant、PDA)、ハンドヘルド機器、計算機器、車載機器、ウェアラブル機器等であってもよい。
図1は、本開示の少なくとも一つの実施例に係る対話関係の識別方法のフローチャートを示し、図1に示すように、前記方法は、ステップ101~ステップ104を含む。
ステップ101において、処理対象画像に検出を行い、人体検出結果及び物体検出結果を取得する。
本開示の実施例において、処理対象画像は、画像収集装置(例えばカメラ)により取得された画像であり、それは、ビデオストリームにおける一フレームであってもよく、リアルタイムに取得された画像であってもよい。前記処理対象画像は、カラー画像(RGB画像)であってもよく、赤外線/近赤外画像であってもよく、本開示は、これを限定しない。
深層学習ネットワークを利用して、前記処理対象画像に検出を行い、人体検出結果及び物体検出結果を取得することができる。人体又は物体を検出した場合、検出結果は、検出枠、検出枠の位置、検出枠の種類等を含むことができる。深層学習ネットワークを利用して処理対象画像に検出を行う具体的な方法については後に詳述する。
ステップ102において、前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定する。
人と物との間の様々な対話がそれぞれどのような身体部位により実行されるかは、一般的な意味で既に確定されるものであり、例えば電話をかけることは、一般的に電話と人の手、頭部との間の対話に関する。したがって、人体検出結果を取得した上で、人体検出結果における人体検出枠に対応する領域に基づいてさらに該人体に対応する各身体部位領域を特定し、さらに身体部位と物体との間に発生可能な対話関係を判断することができる。ここで、人体に含まれる、物体と対話する可能性のある身体部位は、実際の必要に応じて具体的に定義することができ、本開示はこれを限定しない。
ステップ103において、前記人体部位領域に対応する人体部位ノード及び物体領域に対応する物体ノードに基づいて人体と物体の空間位置関係マップを特定する。
ここで、前記物体領域は、物体検出結果における物体検出枠に対応する領域であり、前記空間位置関係マップは、各前記人体部位ノードの特徴情報、前記物体ノードの特徴情報、及び各前記人体部位ノードと前記物体ノードの位置関係情報を含む。
いくつかの実施例において、前記人体部位領域に対応する人体部位ノード、及び前記物体領域に対応する物体ノードは、予めトレーニングされたニューラルネットワークにより取得することができる。例えば、前記人体部位領域の特徴情報を前記ニューラルネットワークに入力して次元圧縮を行い、前記人体部位領域に対応する人体部位ノードの特徴情報を取得し、それにより人体部位領域を人体部位ノードに変換する。同様に、物体ノードに対して、前記物体領域の特徴情報を前記ニューラルネットワークに入力して次元圧縮を行い、前記物体領域に対応する物体ノードの特徴情報を取得し、それにより物体領域を物体ノードに変換することができる。後続プロセスに使用されるニューラルネットワークと区別するために、ここで、人体部位ノード及び物体ノードを取得するニューラルネットワークを第1ニューラルネットワークと呼んでも構わない。前記人体部位領域及び前記物体領域の特徴情報の取得方式については後に詳述する。
処理対象画像に含まれる一つ又は複数の人体に対応する人体部位ノード、及び一つ又は複数の物体ノードに対して、まず各人体に対応する人体部位ノードを接続することにより、人体ノード図を取得することができ、その後に各物体ノードを各人体に対応する人体部位ノードに接続することにより、人体と物体の空間位置関係マップを取得することができる。各物体ノードと各人体部位ノードとの間の具体的な接続方式について、本開示の実施例は、限定しない。
前記空間位置関係マップは、各人体部位ノードと物体ノードの間の接続情報を含むだけでなく、各人体部位ノード、物体ノードに対応する特徴情報、及び前記物体ノードと人体部位ノードとが接続されて形成された「辺」に対応する特徴情報を含み、ここで、辺の特徴情報は、接続された物体ノードと人体部位ノードとの相対位置に基づいて取得することができる。
本開示の実施例において、前記人体に対応する人体部位ノードのうちの一部又は全部は、「辺」により物体ノードに接続されるものであるため、該空間的位置関係マップに基づいて前記人体に対応する特徴情報を特定する時に、「辺」の影響を受け、すなわち物体ノードの前記人体部位ノードへの影響を受け、それにより人体の特徴情報は、物体に関連する空間的位置情報を含み、それにより後続の人体と物体との間の対話関係の識別に役立つ。
ステップ104において、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定する。
いくつかの実施例において、予めトレーニングされたニューラルネットワークを利用して前記人体と前記物体との間の対話関係を特定することができる。ここで、人体部位ノード及び物体ノードを取得する上記ニューラルネットワークと区別するために、人体と物体との間の対話関係を特定するための該ニューラルネットワークを第2ニューラルネットワークと呼ぶ。前記第2ニューラルネットワークは、前記人体と前記物体との間の対話関係を分類するために用いられる。前記人体に対応する特徴情報と前記物体に対応する特徴情報を特徴情報対として、前記第2ニューラルネットワークに入力することにより、対話関係分類結果を予測して得て、それにより前記特徴情報対に対応する物体と人体との対話関係を特定することができる。
本開示の実施例において、処理対象画像の人体検出結果及び物体検出結果に基づいて、処理対象画像における人体に対応する各人体部位領域及び物体に対応する物体領域を特定し、かつ対応するノードに変換し、前記ノードに基づいて人と物体との空間位置関係マップを構築し、前記空間位置関係マップは、異なる人体姿勢に対応する特徴を含むだけでなく、各身体部位と物体との位置関係を含む。前記各ノードの空間位置を利用して人体に対応する特徴情報及び物体に対応する特徴情報を取得することにより、前記人体と前記物体との間の対話関係を特定し、対話関係の識別の正確性及び信頼性を向上させる。
図2は、本開示の少なくとも一つの実施例に係る目標検出方法のフローチャートを示し、該目標検出方法を利用して処理対象画像に検出を行うことにより、人体検出結果及び物体検出結果を取得することができる。
図2に示すように、予めトレーニングされた目標検出ネットワーク200を利用して前記処理対象画像に検出を行うことができる。ここで、目標検出ネットワーク200は、特徴抽出モジュール210と、候補枠抽出モジュール220と、プーリングモジュール230と、分類モジュール240と、座標フィッティングモジュール250とを含む。
処理対象画像は、まず特徴抽出モジュール210に入力される。特徴抽出モジュール210は、畳み込みニューラルネットワークモジュールであってもよく、それが複数の畳み込み層を含み、前記処理対象画像の視覚的特徴を抽出し、すなわち前記処理対象画像の特徴マップ(featuremaps)を抽出するために用いられる。
候補枠抽出モジュール220は、特徴抽出モジュール210から出力された特徴マップに基づいて、目標対象が出現する可能性のある一連の領域を候補枠として予測する。候補枠を
Figure 2023514322000002
として表すことができ、ここで、
Figure 2023514322000003
は、i番目の候補枠の頂点の横座標を表し、
Figure 2023514322000004
は、頂点の縦座標を表す。
候補枠抽出モジュール220により予測された候補枠に対して、プーリングモジュール230は、プーリング層によりオリジナル画像上の候補枠領域を一部の特徴マップにマッピングし、かつプーリング操作により固定サイズの特徴を生成する。該特徴は、同時に分類モジュール240及び座標フィッティングモジュール250に入り、座標フィッティングモジュール250は、候補枠抽出モジュール220により抽出された候補枠に基づいて、候補枠の座標に回帰を行い、より正確な目標候補枠を取得し、分類モジュール240は、前記候補枠に再分類を行い、人の種類又は具体的な物体種類を取得し、これにより処理対象画像から人体検出枠及び物体検出枠を取得する。図2に示すように、目標検出ネットワーク200から出力された画像は、人体検出枠261物体検出枠262、263を含む。
処理対象画像に画像検出を行うことにより、人と物体の処理対象画像における空間位置情報及び視覚的特徴を取得し、後続のステップにおける人と物との間の対話関係の予測に用いることができる。
いくつかの実施例において、以下の方法により身体部位領域を特定する。
まず、前記人体検出結果における人体検出枠に含まれる特徴情報を取得する。例えば、人体検出枠を利用し、ROIAlign(RegionofInterestAlign、関心領域位置合わせ)を採用して処理対象画像の特徴マップから前記人体検出枠に含まれる特徴情報を取得し、すなわち人体の特徴情報を取得することができる。
次に、前記特徴情報に基づいて、前記人体の人体キーポイントを取得する。例えば、前記人体検出枠に含まれる特徴情報を姿勢推定ネットワークに入力することができる。姿勢推定ネットワークは、一連の畳み込み層及び非線形層で構成され、それは、姿勢種類数のチャネル特徴を出力し、各チャネルは、一つの信頼度熱力図に対応し、各熱力図のスコアの最高点は、該姿勢種類に対応する人体キーポイントの位置である。
人体キーポイントを取得した後、人体骨格情報に基づいて前記人体キーポイントを接続し、かつ接続情報を取得することができる。予め設定されたか又は予め取得された人体骨格情報に対して、各人体キーポイントの間の接続方式は特定されるものであり、すなわち、いずれかの人体キーポイントに対して、それと接続するキーポイントを特定することができる。前記人体キーポイントの接続情報は、それに接続されたキーポイント及び接続されたキーポイントの位置情報を含む。
図3Aは、処理対象画像に検出を行って得られた人体検出結果を示し、人体検出枠300及び人体検出枠の位置を含む。前記人体検出枠に含まれる画像部分に対して後続の人体部位領域特定ステップを行ってもよく、前記人体検出枠に含まれる画像をトリミングし、トリミングされた画像に基づいて後続の人体部位領域特定ステップを行ってもよい。
図3Aに示すような人体検出枠に含まれる特徴情報に基づいて、検出された人体に対応する人体キーポイントを特定することができ、図3Bに示すとおりである。
人体キーポイント及び前記人体キーポイントの接続情報を取得した後、前記人体キーポイント及び前記接続情報に基づいて人体部位領域を特定することができる。
一例において、接続された複数(例えば、二つ)の人体キーポイントに基づいて前記人体部位領域を特定することができる。
図3Bにおける接続された人体キーポイント311及び312を例とし、人体キーポイント311及び312の種類(例えばそれぞれ膝キーポイント及び足首キーポイントである)及び位置に基づいて、この二つの人体キーポイントにより形成された矩形領域が下腿領域であることを特定することができ、枠321に示すとおりである。他の人体部位領域の判定は、上述した方法と同様である。
一例において、さらに前記人体キーポイントを中心として前記人体部位領域を特定することができる。例えば膝キーポイントを中心として、予め設定された膝領域の大きさに基づいて、それにより膝領域の具体的な位置を特定することができる。他の人体部位領域の判定は、上述した方法と同様である。
一例において、人体部位領域の一部は、接続された複数の人体キーポイントに基づいて特定することができ、人体部位領域の他の一部は、この複数の人体キーポイントのうちの一つのキーポイントを中心として特定することができる。各人体部位領域の具体的な特定方式は、実際の状況に応じて特定することができ、本開示の実施例は、これを限定しない。
前記処理対象画像から検出された人体に含まれる各人体部位領域に対して、それを対応する人体部位ノードに変換し、同時に、物体検出結果における物体検出枠に対応する領域、即ち物体領域を、対応する物体ノードに変換することができる。各人体部位ノード及び物体ノードに基づいて、処理対象画像における人体と物体との間の対話関係を特定する。
いくつかの実施例において、以下の方式で人体部位領域及び物体領域を、それぞれ人体部位ノード及び物体ノードに変換することができる。
まず、人体部位領域及び物体領域の特徴情報を取得する。例えば、人体部位領域及び物体領域に基づいて、ROI Alignを用いて処理対象画像の特徴マップから前記人体部位領域の特徴情報及び物体領域の特徴情報を取得することができる。
次に、前記人体部位領域の特徴情報及び物体領域の特徴情報に次元圧縮を行い、人体部位領域に対応する人体部位ノード及び物体領域に対応する物体ノードの特徴情報を取得する。例えば、予めトレーニングされたニューラルネットワークにより前記人体部位領域及び物体領域の特徴情報に次元圧縮を行うことができる。後続に使用されるニューラルネットワークと区別するために、次元圧縮を行う該ニューラルネットワークを第1ニューラルネットワークと呼ぶことができる。
人体部位ノード及び物体ノードの特徴情報を取得した後、ノードの種類及び空間的位置関係に基づいてマップを構築し、すなわち人体と物体との空間的位置関係マップを構築することができる。
いくつかの実施例において、以下の方法により人体と物体の空間位置関係マップを構築することができる。
まず、同じ人体に対して、人体骨格情報に基づいて各人体部位ノードを接続する。
人体キーポイントの接続と類似し、予め設定されたか又は予め取得された人体骨格情報に基づいて各人体部位ノードを接続する。いずれかの人体部位ノードに対して、それに接続された人体部位ノードを特定することができる。
次に、前記物体ノードと前記人体部位ノードの辺を接続し、人体と物体の空間位置関係マップを取得する。物体ノードと人体部位ノードとの間の空間距離に基づいて辺の接続を行うことができ、例えば、各物体ノードに対して、それに最も近い所定数の人体部位ノードを選択して辺の接続を行うことができ、例えば5つの最も近い人体部位ノードと辺の接続を行い、前記空間位置関係マップにおける辺を構成する。
空間構造情報を十分にマイニングするために、空間位置関係マップにおける各辺に特徴を付与することができ、例えば接続された物体ノードと人体部位ノードの相対位置に基づいて辺の特徴情報を特定し、すなわち接続された二つのノードの相対位置座標の符号化を辺の特徴情報とすることができる。得られた空間位置関係マップは、各人体部位ノード及び物体ノードの特徴情報を含み、各辺の特徴情報も含む。
本開示の実施例において、人体部位ノードと物体ノードに辺の接続を行い、かつ辺に特徴を付与することにより、人体と物体との間の空間位置情報を明示的に構築し、空間情報と人体構造情報の表示能力を向上させる。
構築された人体と物体との空間的位置関係マップに対して、さらに以下の方式で前記人体に対応する特徴情報及び前記物体に対応する特徴情報を取得することができる。
各人体部位ノードに対して、隣接する人体部位ノードの特徴情報及び接続された辺の特徴情報を利用して、各前記人体ノードの特徴情報を更新することができる。
一例では、辺敏感なグラフ畳み込みニューラルネットワークを用いて各人体部位ノードの特徴情報を更新し、すなわち空間位置関係マップの状態を更新することができる。グラフ畳み込みニューラルネットワークは、複数のグラフ畳み込み層及び非線形操作性を含み、l番目のグラフ畳み込み層に対して、
Figure 2023514322000005
式(1)により各人体部位ノードxの特徴情報の更新を表すことができ、
ここで、
Figure 2023514322000006
は、l+1番目層の出力であり、
Figure 2023514322000007
は、l番目層の出力であり、xは、xに隣接する人体部位ノードであり、
N(i)は、xの隣接する人体部位ノード符号の集合を示し、
jiは、xとxを接続する辺の特徴を示し、Wは、Fjiに全接続操作を行う関数であり、θは、特徴次元を調整する行列であり、σは、活性化関数であり、例えばsigmoid又はreluである。
複数のグラフ畳み込み層の操作の後、各人体部位ノードは、いずれも一定のグローバル視野と向上した空間構造化特徴づけ能力を有する。
各人体部位ノードの特徴情報を取得した後、該特徴情報に基づいて、前記人体に対応する特徴情報を取得することができる。
一例において、同じ人体に対して、各人体部位ノードの特徴情報にグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得する。グローバルプーリング操作により、処理対象画像から検出された各人体に対していずれも対応する特徴情報を取得することができる。
検出対象画像から検出された物体に対して、各物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得することができる。一般的には、一つの物体は、一つの物体ノードに対応するため、各物体ノードの特徴情報に基づいて各物体に対応する特徴情報を取得することができる。
検出対象画像から検出された各物体及び各人体の特徴情報を取得することにより、前記人体と前記物体との間の対話関係の特定に用いることができる。
いくつかの実施例において、予めトレーニングされたニューラルネットワークを利用して前記人体と前記物体との間の対話関係を特定することができ、ここで、前記ニューラルネットワークは、前記人体と前記物体との間の対話関係を分類するために用いられる。前述のニューラルネットワークと区別するために、対話関係を特定するための該ニューラルネットワークを第2ニューラルネットワークと呼ぶことができる。
人体と物体との間の対話を表記した画像サンプルにより第2ニューラルネットワークをトレーニングすることにより、前記第2ニューラルネットワークは、処理対象画像における人体と物体との間の対話関係を分類し、それにより人体と物体との間の対話関係を特定することができる。例えば、現実生活シーンから一般的で実用的な意味を有する人体と物体との間の十種の対話関係を統計することができ、例えば喫煙、飲水、飲酒、サイクリング、電話をかけるなどであり、同時にこの十種の日常生活シーンを含むデータベースを収集し、該第2ニューラルネットワークを該データベースにおいてトレーニングすることにより、これらの十種の対話関係を迅速で、正確に分類することができる。
いくつかの実施例において、各タイプの対話関係に対して安全係数を設定することができる。例えば、上記十種の対話関係に対して、安全程度に応じて対応する安全係数を設定することができる。後続に定義された安全係数と区別するために、ここでの安全係数を第1安全係数と呼ぶことができる。例えば、「火と接触する」の安全係数を0.2に設定し、「飲水」の安全係数を0.6に設定することができる。
前記処理対象画像における少なくとも一対の人体と物体の第1安全係数が第1設定閾値より低いことに応答して、前記人体と物体の対話関係が目標対話関係であることを特定する。すなわち、処理対象画像から安全係数が第1設定閾値より低い対話関係を検出すれば、前記人体が目標シーン内に位置することを特定することができる。例えば、第1設定閾値が0.3である場合、上記例に対して、人体と物体との対話関係が「火と接触する」に属することを特定する場合、人体が危険シーン内に位置することを特定することができる。
以上の方法は、処理対象画像に危険度が高い対話関係が存在するか否かを検出するために用いられる。例えば、監視画像に対して、安全係数が第1設定閾値より低い対話関係が存在すると検出した場合、画像中の人が危険シーン内に位置していることを判断し、警報をトリガする。
異なるタイプの対話関係の間の組み合わせに対して安全係数を設定することができ、ここでそれを第2安全係数と呼ぶことができる。例えば、「飲水」と「サイクリング」の組み合わせに対して、第2安全係数を0.2に設定することができ、「電話をかける」と「喫煙」の組み合わせに対して、安全係数を0.6に設定することができる。当業者に理解されるように、ここでの組み合わせは、二つの対話関係の間の組み合わせであってもよく、三つ、さらにより多くの対話関係の間の組み合わせであってもよく、本開示は、これを限定しない。
同じ人体に対して、前記人体と各物体との間の対話関係、及び対応する第2安全係数を取得する。すなわち、人体と全ての物体と発生した対話関係を特定し、かつそれに対応する第2安全係数を特定する。
前記第2安全係数が第2設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定する。すなわち、処理対象画像から一つの人体と複数の物体との対話関係組み合わせに対応する第2安全係数が第2設定閾値より低いことを検出すれば、前記人体が目標シーン内に位置することを特定することができる。例えば、第2設定閾値が0.5である場合、上記例に対して、同時に飲水しながらサイクリングする人体が目標シーン内に位置することを特定することができる。
以上の方法は、処理対象画像に潜在的な危険を有する対話関係が存在するか否かを検出するために用いられる例えば、処理対象画像における対象が運転しながら電話をかけていることを検出すれば、すなわち検出された第2安全係数が第2設定閾値よりも低いと、該対象が危険シーン内に位置することを特定し、警報をトリガすることができる。
いくつかの単独して実行する時に安全係数が高い動作は、同時に実行する時に実際に非常に危険であり、本開示の実施例は、これらの危険なシーンを識別し、タイムリーに警報して、安全性を向上させることができる。
図4は、本開示の少なくとも一つの実施例に係る対話関係の識別装置であり、図4に示すように、該装置は、処理対象画像に検出を行い、人体検出結果及び物体検出結果を取得するための取得ユニット401と、前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定し、かつ前記物体検出結果に基づいて、前記処理対象画像における物体に対応する物体領域を特定するための第1特定ユニット402と、前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間的位置関係マップを特定するための第2特定ユニット403と、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定するための識別ユニット404と、を含むことができ、前記物体領域が前記物体検出結果における物体検出枠に対応する領域であり、前記空間的位置関係マップが各前記人体部位ノードの特徴情報、前記物体ノードの特徴情報、及び各前記人体部位ノードと前記物体ノードとの位置関係情報を含む。
いくつかの実施例において、第1特定ユニット402は、具体的には、前記人体検出結果における人体検出枠に含まれる特徴情報を取得し、前記特徴情報に基づいて、前記人体の人体キーポイントを取得し、人体骨格情報に基づいて前記人体キーポイントを接続し、接続情報を取得し、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定するために用いられ、前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することは、接続された複数の人体キーポイントに基づいて一つの人体部位領域を特定し、又は前記複数の人体キーポイントの一つを中心として一つの人体部位領域を特定することの少なくとも一つを含む。
いくつかの実施例において、第2特定ユニット403は、具体的には、前記人体部位領域の特徴情報に次元圧縮を行い、前記人体部位ノードの特徴情報を取得し、前記物体領域の特徴情報に次元圧縮を行い、前記物体ノードの特徴情報を取得し、同じ人体に対して、人体骨格情報に基づいて各前記人体部位ノードを接続し、前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得するために用いられ、前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得することは、各物体ノードに対して、前記物体ノードとの距離が最も近い所定数の人体部位ノードを前記物体ノードにそれぞれ接続することを含み、一つの物体ノードが一つの人体部位ノードに接続されて形成された辺の特徴情報が前記辺に接続された物体ノードと人体部位ノードの位置関係情報を含むことを含む。
いくつかの実施例において、前記装置は、各人体部位ノードに対して、前記人体部位ノードの一つ又は複数の隣接する人体部位ノードの特徴情報及び前記人体部位ノードと前記隣接する人体部位ノードを接続する辺の特徴情報を利用して、各前記人体部位ノードの特徴情報を更新するための更新ユニットをさらに含む。
いくつかの実施例において、識別ユニット404は、具体的には、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得するために用いられ、前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得することは、同じ人体に対して、各人体部位ノードの特徴情報に対してグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得し、前記物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得し、前記人体に対応する特徴情報及び前記物体に対応する特徴情報に基づいて、前記人体と前記物体との間の対話関係を特定することを含む。
いくつかの実施例において、識別ユニット404は、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係が属する対話種別を特定するために用いられ、前記装置は、前記人体と前記物体との間の対話関係が属する対話カテゴリの安全係数が第1設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第3特定ユニットをさらに含む。
いくつかの実施例において、識別ユニット404は、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と異なる種類の物体との間の対話関係が属する対話類別を特定するために用いられ、前記装置は、前記人体と異なる種類の物体との間の対話関係が属する対話類別の組み合わせの安全係数を特定し、前記組み合わせの安全係数が第2設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第4特定ユニットをさらに含む。
図5は、本開示の少なくとも一つの実施例に係る電子機器であり、前記機器は、メモリ501、プロセッサ502を含み、前記メモリ501は、プロセッサ502で実行可能なコンピュータ命令を記憶するために用いられ、前記プロセッサ502は、前記コンピュータ命令を実行する時に本明細書のいずれかの実施例に記載の対話関係の識別方法を実現するために用いられる。
本明細書の少なくとも一つの実施例は、コンピュータ読み取り可能な記録媒体をさらに提供し、その上にコンピュータプログラムが記憶され、前記プログラムがプロセッサにより実行される時に本明細書のいずれか一つの実施例に記載の目標検出方法を実現し、及び/又は、本明細書のいずれか一つの実施例に記載の対話関係の識別方法を実現する。
本明細書の少なくとも一つの実施例は、コンピュータプログラムをさらに提供し、前記プログラムがプロセッサにより実行される時に本明細書のいずれかの実施例に記載の目標検出方法を実現し、及び/又は、本明細書のいずれかの実施例に記載の対話関係の識別方法を実現する。
当業者に理解されるように、本明細書の一つ又は複数の実施例は、方法、システム又はコンピュータプログラム製品として提供することができる。したがって、本明細書の一つ又は複数の実施例は、完全なハードウェア実施例、完全なソフトウェア実施例又はソフトウェアとハードウェアを組み合わせる実施例の形式を採用することができる。且つ、本明細書の一つ又は複数の実施例は、コンピュータ使用可能なプログラムコードを含む一つ又は複数のコンピュータ使用可能な記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリ等を含むがこれらに限定されない)で実施されたコンピュータプログラム製品の形式を採用することができる。
本明細書における各実施例は、いずれも漸進の方式で説明され、各実施例の間の同じで類似する部分は、互いに参照すればよく、各実施例は、他の実施例との相違点を重点として説明する。特に、機器の実施例に対して、それは、基本的に方法の実施例と類似するため、簡単に説明され、関連する部分は、方法の実施例の部分の説明を参照すればよい。
以上、本明細書の具体的な実施例について説明した。他の実施例は、添付の特許請求の範囲内にある。いくつかの場合、特許請求の範囲に記載の動作又はステップは、実施例と異なる順序で実行し、且つ依然として所望の結果を実現することができる。また、図面に描かれたプロセスは、所望の結果を達成するために、示されている特定の順序又は連続した順序を必ずしも必要としない。いくつかの実施形態において、マルチタスク処理及び並列処理も可能であるか又は有利である可能性がある。
本明細書に記載された主題及び機能操作の実施例は、デジタル電子回路、実体的に具現化されたコンピュータソフトウェア又はファームウェア、本明細書に開示された構成及びその構造的等価物を含むコンピュータハードウェア、又はそれらのうちの一つ又は複数の組み合わせで実現することができる。本明細書に記載された主題の実施例は、一つ又は複数のコンピュータプログラムとして実現することができ、すなわち有形の非一時的なプログラム担体にコーディングされてデータ処理装置に実行されるか又はデータ処理装置の操作を制御するコンピュータプログラム命令のうちの一つ又は複数のモジュールである。また、プログラム命令は、人工的に生成された機械的に生成された電気、光又は電磁信号などの伝播信号に符号化されてもよく、該信号が生成されて情報を符号化しかつ適切な受信機装置に伝送してデータ処理装置により実行される。コンピュータ記憶媒体は、機械読み取り可能な記憶装置、機械読み取り可能な記憶基板、ランダム又はシリアルアクセスメモリ装置、又はそれらのうちの一つ又は複数の組み合わせであってもよい。
本明細書に記述された処理及び論理フローは、一つ又は複数のコンピュータプログラムを実行する一つ又は複数のプログラム可能なコンピュータにより実行されてもよく、それにより入力データに基づいて操作し、かつ出力を生成することにより対応する機能を実行する。前記処理及び論理フローは、さらに専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)又はASIC(専用集積回路)により実行されてもよく、かつ装置は、専用論理回路として実現されてもよい。
コンピュータプログラムの実行に適するコンピュータは、例えば汎用及び/又は専用マイクロプロセッサ、又は任意の他のタイプの中央処理ユニットを含む。一般的に、中央処理ユニットは、リードオンリーメモリ及び/又はランダムアクセスメモリから命令及びデータを受信する。コンピュータの基本的な構成要素は、命令を実施又は実行するための中央処理ユニットと、命令及びデータを記憶するための一つ又は複数のメモリ装置とを含む。一般的に、コンピュータは、データを記憶するための一つ又は複数の大容量記憶装置をさらに含み、例えば磁気ディスク、光磁気ディスク又は光ディスク等であり、又はコンピュータは、この大容量記憶装置と操作可能に結合されてそれからデータを受信するか又はそれにデータを伝送し、又は二つの場合がある。しかしながら、コンピュータは、このような装置を有さなくてもよい。また、コンピュータは、他の装置、例えばいくつかの例として挙げられた携帯電話、パーソナルデジタルアシスタント(PDA)、移動オーディオ又はビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、又は例えばユニバーサルシリアルバス(USB)フラッシュメモリドライバのポータブル記憶装置に埋め込むことができる。
コンピュータプログラム命令及びデータを記憶することに適するコンピュータ読み取り可能な媒体は、全ての形式の不揮発性メモリ、媒体及びメモリ装置を含み、例えば半導体メモリ装置(例えばEPROM、EEPROM及びフラッシュメモリ装置)、磁気ディスク(例えば内部ハードディスク又はリムーバブルディスク)、光磁気ディスク及びCDROM及びDVD-ROMディスクを含む。プロセッサ及びメモリは、専用論理回路によって補充されてもよく又は専用論理回路に組み込まれてもよい。
本明細書は、多くの具体的な実施の詳細を含むが、これらが任意の発明の範囲又は保護を要求する範囲を限定するものと解釈されるべきではなく、主に特定の発明の具体的な実施例の特徴を説明するために用いられる。本明細書において、複数の実施例に記述されたいくつかの特徴は、単一の実施例において組み合わせて実施されてもよい。他方では、単一の実施例において説明された様々な特徴は、複数の実施例において分けて実施するか又は任意の適切なサブ組み合わせで実施してもよい。また、特徴は、上記のようにいくつかの組み合わせにおいて作用し、かつ最初にこのように保護を要求することができるが、保護を求める組み合わせからの一つ又は複数の特徴は、いくつかの場合に該組み合わせから除去することができ、かつ保護を求める組み合わせは、サブ組み合わせ又はサブ組み合わせの変形を指すことができる。
同様に、図面において特定の順序で操作を説明したが、これは、これらの操作が示された特定の順序で実行されるか又は順次実行されることを要求し、又は全ての例示された操作が実行されることを要求して、所望の結果を実現すると理解されるべきではない。いくつかの場合に、マルチタスク及び並列処理は、有利である可能性がある。また、上記実施例における様々なシステムモジュール及びコンポーネントの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではなく、かつ理解すべきなのは、説明されたプログラムコンポーネント及びシステムは、一般的に単一のソフトウェア製品に統合されてもよく、又は複数のソフトウェア製品にパッケージされてもよい。
これにより、テーマの特定の実施例が説明された。他の実施例は、添付の特許請求の範囲内にある。いくつかの場合、特許請求の範囲に記載された動作は、異なる順序で実行できるままで所望の結果を実現する。また、図面に示された処理は、必ずしも示された特定の順序又は順序で所望の結果を実現するものと理解されるべきではない。いくつかの実現において、マルチタスク及び並列処理は有利である可能性がある。

Claims (20)

  1. 処理対象画像を検出し、人体検出結果及び物体検出結果を取得することと、
    前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定することと、
    前記物体検出結果に基づいて、前記処理対象画像における物体に対応する物体領域を特定することと、
    前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間的位置関係マップを特定することと、
    人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することと、を含み、
    前記物体領域が前記物体検出結果における物体検出枠に対応する領域であり、
    前記空間的位置関係マップが各前記人体部位ノードの特徴情報と、前記物体ノードの特徴情報と、各前記人体部位ノードと前記物体ノードの位置関係情報を含むことを特徴とする対話関係の識別方法。
  2. 前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定することは、
    前記人体検出結果における人体検出枠に含まれる特徴情報を取得し、
    前記特徴情報に基づいて、前記人体の人体キーポイントを取得し、
    人体骨格情報に基づいて前記人体キーポイントを接続し、接続情報を取得し、
    前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することを含むことを特徴とする請求項1に記載の方法。
  3. 前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することは、
    接続された複数の人体キーポイントに基づいて一つの人体部位領域を特定し、又は
    前記複数の人体キーポイントの一つを中心として一つの人体部位領域を特定することの少なくとも一つを含むことを特徴とする請求項2に記載の方法。
  4. 前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間位置関係マップを特定することは、
    前記人体部位領域の特徴情報に次元圧縮を行い、前記人体部位ノードの特徴情報を取得することと、
    前記物体領域の特徴情報に次元圧縮を行い、前記物体ノードの特徴情報を取得し、同じ人体に対して、人体骨格情報に基づいて各前記人体部位ノードを接続することと、
    前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得することと、を含み、
    一つの物体ノードが一つの人体部位ノードに接続されて形成された辺の特徴情報が前記辺に接続された物体ノードと人体部位ノードの位置関係情報を含むことを特徴とする請求項1に記載の方法。
  5. 前記物体ノードを前記人体部位ノードに接続することは、
    各物体ノードに対して、前記物体ノードとの距離が最も近い所定数の人体部位ノードを前記物体ノードにそれぞれ接続することを含むことを特徴とする請求項4に記載の方法。
  6. 人体と物体の空間位置関係マップを取得した後、前記方法は、
    各人体部位ノードに対して、前記人体部位ノードの一つ又は複数の隣接する人体部位ノードの特徴情報及び前記人体部位ノードと前記隣接する人体部位ノードを接続する辺の特徴情報を利用して、各前記人体部位ノードの特徴情報を更新することをさらに含むことを特徴とする請求項4又は5に記載の方法。
  7. 前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、
    前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得し、
    前記物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得し、
    前記人体に対応する特徴情報及び前記物体に対応する特徴情報に基づいて、前記人体と前記物体との間の対話関係を特定することを含むことを特徴とする請求項1~6のいずれか一項に記載の方法。
  8. 前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得することは、
    同じ人体に対して、各人体部位ノードの特徴情報にグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得することを含むことを特徴とする請求項7に記載の方法。
  9. 前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、
    人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係が属する対話種別を特定することを含み、
    前記方法は、
    前記人体と前記物体との間の対話関係が属する対話種別の安全係数が第1設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定することをさらに含むことを特徴とする請求項1~8のいずれか一項に記載の方法。
  10. 前記人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定することは、
    人体と物体との空間的位置関係マップに基づいて、前記人体と異なる種類の物体との間の対話関係が属する対話類別を特定することを含み、
    前記方法は、
    前記人体と異なる種類の物体との間の対話関係が属する対話類別の組み合わせの安全係数を特定し、
    前記組み合わせの安全係数が第2設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定することをさらに含むことを特徴とする請求項1~8のいずれか一項に記載の方法。
  11. 処理対象画像に検出を行い、人体検出結果及び物体検出結果を取得するために用いられる取得ユニットと、
    前記人体検出結果に基づいて、前記処理対象画像における人体に対応する各人体部位領域を特定し、かつ前記物体検出結果に基づいて、前記処理対象画像における物体に対応する物体領域を特定するために用いられる第1特定ユニットと、
    前記人体部位領域に対応する人体部位ノード及び前記物体領域に対応する物体ノードに基づいて人体と物体との空間的位置関係マップを特定するために用いられる第2特定ユニットと、
    人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係を特定するために用いられる識別ユニットと、を含み、
    前記物体領域が前記物体検出結果における物体検出枠に対応する領域であり、
    前記空間的位置関係マップが各前記人体部位ノードの特徴情報、前記物体ノードの特徴情報、及び各前記人体部位ノードと前記物体ノードとの位置関係情報を含むことを特徴とする対話関係の識別装置。
  12. 前記第1特定ユニットは、具体的には、
    前記人体検出結果における人体検出枠に含まれる特徴情報を取得し、
    前記特徴情報に基づいて、前記人体の人体キーポイントを取得し、
    人体骨格情報に基づいて前記人体キーポイントを接続し、接続情報を取得し、
    前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定するために用いられ、
    前記人体キーポイント及び接続情報に基づいて各人体部位領域を特定することは、接続された複数の人体キーポイントに基づいて一つの人体部位領域を特定し、又は前記複数の人体キーポイントの一つを中心として一つの人体部位領域を特定することの少なくとも一つを含むことを特徴とする請求項11に記載の装置。
  13. 前記第2特定ユニットは、具体的には、
    前記人体部位領域の特徴情報に次元圧縮を行い、前記人体部位ノードの特徴情報を取得し、
    前記物体領域の特徴情報に次元圧縮を行い、前記物体ノードの特徴情報を取得し、同じ人体に対して、人体骨格情報に基づいて各前記人体部位ノードを接続し、
    前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得するために用いられ、
    前記物体ノードを前記人体部位ノードに接続し、人体と物体の空間位置関係マップを取得することは、各物体ノードに対して、前記物体ノードとの距離が最も近い所定数の人体部位ノードを前記物体ノードにそれぞれ接続することを含み、
    一つの物体ノードが一つの人体部位ノードに接続されて形成された辺の特徴情報が前記辺に接続された物体ノードと人体部位ノードの位置関係情報を含むことを特徴とする請求項12に記載の装置。
  14. 前記装置は、各人体部位ノードに対して、前記人体部位ノードの一つ又は複数の隣接する人体部位ノードの特徴情報及び前記人体部位ノードと前記隣接する人体部位ノードを接続する辺の特徴情報を利用して、各前記人体部位ノードの特徴情報を更新するための更新ユニットをさらに含むことを特徴とする請求項13に記載の装置。
  15. 前記識別ユニットは、具体的には、
    前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得し、
    前記物体ノードの特徴情報に基づいて、前記物体に対応する特徴情報を取得し、
    前記人体に対応する特徴情報及び前記物体に対応する特徴情報に基づいて、前記人体と前記物体との間の対話関係を特定するために用いられ、
    前記人体部位ノードの特徴情報に基づいて、前記人体に対応する特徴情報を取得することは、同じ人体に対して、各人体部位ノードの特徴情報にグローバルプーリング操作を行い、前記人体に対応する特徴情報を取得することを含むことを特徴とする請求項11~14のいずれか一項に記載の装置。
  16. 前記識別ユニットは、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と前記物体との間の対話関係が属する対話種別を特定するために用いられ、
    前記装置は、前記人体と前記物体との間の対話関係が属する対話種類の安全係数が第1設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第3特定ユニットをさらに含むことを特徴とする請求項11~15のいずれか一項に記載の装置。
  17. 前記識別ユニットは、具体的には、人体と物体との空間的位置関係マップに基づいて、前記人体と異なる種類の物体との間の対話関係が属する対話類別を特定するために用いられ、
    前記装置は、前記人体と異なる種類の物体との間の対話関係が属する対話類別の組み合わせの安全係数を特定し、前記組み合わせの安全係数が第2設定閾値より低いことに応答して、前記人体が目標シーン内に位置することを特定するための第4特定ユニットをさらに含むことを特徴とする請求項11~15のいずれか一項に記載の装置。
  18. 電子機器であって、
    メモリ、プロセッサを含み、
    前記メモリは、プロセッサで実行可能なコンピュータ命令を記憶するために用いられ、
    前記プロセッサは、前記コンピュータ命令を実行する時に請求項1~10のいずれか一項に記載の方法を実現するために用いられることを特徴とする電子機器。
  19. コンピュータプログラムが記憶されるコンピュータ読み取り可能な記録媒体であって、
    前記プログラムがプロセッサにより実行される時に請求項1~10のいずれか一項に記載の方法を実現するコンピュータ読み取り可能な記録媒体。
  20. コンピュータプログラムであって、
    プロセッサにより実行される時に請求項1~10のいずれか一項に記載の方法を実現するコンピュータプログラム。
JP2022549446A 2020-02-18 2021-02-09 対話関係の識別方法、装置、機器及び記憶媒体 Pending JP2023514322A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010099652.0A CN111325141B (zh) 2020-02-18 2020-02-18 交互关系识别方法、装置、设备及存储介质
CN202010099652.0 2020-02-18
PCT/CN2021/076306 WO2021164662A1 (zh) 2020-02-18 2021-02-09 交互关系识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
JP2023514322A true JP2023514322A (ja) 2023-04-05

Family

ID=71163491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022549446A Pending JP2023514322A (ja) 2020-02-18 2021-02-09 対話関係の識別方法、装置、機器及び記憶媒体

Country Status (4)

Country Link
JP (1) JP2023514322A (ja)
KR (1) KR20220054657A (ja)
CN (1) CN111325141B (ja)
WO (1) WO2021164662A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325141B (zh) * 2020-02-18 2024-03-26 上海商汤临港智能科技有限公司 交互关系识别方法、装置、设备及存储介质
CN111931703B (zh) * 2020-09-14 2021-01-05 中国科学院自动化研究所 基于人-物体交互弱监督标签的物体检测方法
CN113139483B (zh) * 2021-04-28 2023-09-29 北京百度网讯科技有限公司 人体行为识别方法、装置、设备、存储介质以及程序产品
CN113590857A (zh) * 2021-08-10 2021-11-02 北京有竹居网络技术有限公司 键值匹配方法、装置、可读介质及电子设备
CN113869202B (zh) * 2021-09-27 2023-11-24 北京百度网讯科技有限公司 图像识别方法、装置、设备、存储介质及程序产品
CN114005177B (zh) * 2021-10-29 2023-09-19 北京百度网讯科技有限公司 人物交互检测方法、神经网络及其训练方法、设备和介质
CN114005181A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 交互关系的识别方法、装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086482A (ja) * 2008-10-02 2010-04-15 Canon Inc 画像認識装置および画像認識方法
WO2012036306A1 (ja) * 2010-09-17 2012-03-22 日本電気株式会社 携帯物領域抽出装置、携帯物領域抽出方法、及び、携帯物領域抽出プログラム
WO2015133206A1 (ja) * 2014-03-05 2015-09-11 コニカミノルタ株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
WO2018061616A1 (ja) * 2016-09-28 2018-04-05 株式会社日立国際電気 監視システム
CN109753859A (zh) * 2017-11-08 2019-05-14 佳能株式会社 在图像中检测人体部件的装置和方法及图像处理系统
JP6525229B1 (ja) * 2019-01-25 2019-06-05 株式会社 テクノミライ デジタルサーチ・セキュリティシステム、方法及びプログラム
JP6579411B1 (ja) * 2019-05-30 2019-09-25 アースアイズ株式会社 介護設備又は病院用の監視システム及び監視方法
JP6583953B1 (ja) * 2019-06-27 2019-10-02 アースアイズ株式会社 医療用装身器具の自己抜去監視システム及び医療用装身器具の自己抜去監視方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140094284A (ko) * 2013-01-22 2014-07-30 한국전자통신연구원 물체특성의 계층화를 통한 원격 조작용 환경가시화 방법 및 그 장치
CN106126579B (zh) * 2016-06-17 2020-04-28 北京市商汤科技开发有限公司 物体识别方法和装置、数据处理装置和终端设备
CN106709420B (zh) * 2016-11-21 2020-07-10 厦门瑞为信息技术有限公司 一种监测营运车辆驾驶人员驾驶行为的方法
CN109241881A (zh) * 2018-08-22 2019-01-18 东北大学 一种人体姿态估计方法
CN110490035A (zh) * 2019-05-17 2019-11-22 上海交通大学 人体骨架动作识别方法、系统及介质
CN110135375B (zh) * 2019-05-20 2021-06-01 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110363220B (zh) * 2019-06-11 2021-08-20 北京奇艺世纪科技有限公司 行为类别检测方法、装置、电子设备和计算机可读介质
CN110348335B (zh) * 2019-06-25 2022-07-12 平安科技(深圳)有限公司 行为识别的方法、装置、终端设备及存储介质
CN110717449A (zh) * 2019-10-09 2020-01-21 上海眼控科技股份有限公司 车辆年检人员的行为检测方法、装置和计算机设备
CN111325141B (zh) * 2020-02-18 2024-03-26 上海商汤临港智能科技有限公司 交互关系识别方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086482A (ja) * 2008-10-02 2010-04-15 Canon Inc 画像認識装置および画像認識方法
WO2012036306A1 (ja) * 2010-09-17 2012-03-22 日本電気株式会社 携帯物領域抽出装置、携帯物領域抽出方法、及び、携帯物領域抽出プログラム
WO2015133206A1 (ja) * 2014-03-05 2015-09-11 コニカミノルタ株式会社 画像処理装置、画像処理方法、および、画像処理プログラム
WO2018061616A1 (ja) * 2016-09-28 2018-04-05 株式会社日立国際電気 監視システム
CN109753859A (zh) * 2017-11-08 2019-05-14 佳能株式会社 在图像中检测人体部件的装置和方法及图像处理系统
JP6525229B1 (ja) * 2019-01-25 2019-06-05 株式会社 テクノミライ デジタルサーチ・セキュリティシステム、方法及びプログラム
JP6579411B1 (ja) * 2019-05-30 2019-09-25 アースアイズ株式会社 介護設備又は病院用の監視システム及び監視方法
JP6583953B1 (ja) * 2019-06-27 2019-10-02 アースアイズ株式会社 医療用装身器具の自己抜去監視システム及び医療用装身器具の自己抜去監視方法

Also Published As

Publication number Publication date
CN111325141A (zh) 2020-06-23
CN111325141B (zh) 2024-03-26
WO2021164662A1 (zh) 2021-08-26
KR20220054657A (ko) 2022-05-03

Similar Documents

Publication Publication Date Title
JP2023514322A (ja) 対話関係の識別方法、装置、機器及び記憶媒体
US10534957B2 (en) Eyeball movement analysis method and device, and storage medium
US10872262B2 (en) Information processing apparatus and information processing method for detecting position of object
CN110268440B (zh) 图像解析装置、图像解析方法、以及存储介质
CN112163537B (zh) 一种行人异常行为检测方法、系统、终端以及存储介质
JP2019109709A (ja) 画像処理装置、画像処理方法およびプログラム
CN105279484A (zh) 对象检测方法和对象检测装置
CN110796100B (zh) 步态识别方法、装置、终端及存储装置
US10650234B2 (en) Eyeball movement capturing method and device, and storage medium
CN111598067B (zh) 视频中重识别训练方法、重识别方法及存储装置
WO2022160591A1 (zh) 人群行为检测方法及装置、电子设备、存储介质及计算机程序产品
CN110826484A (zh) 车辆重识别的方法、装置、计算机设备及模型训练方法
CN111401196A (zh) 受限空间内自适应人脸聚类的方法、计算机装置及计算机可读存储介质
CN112906484B (zh) 一种视频帧处理方法及装置、电子设备和存储介质
AU2021203821B2 (en) Methods, devices, apparatuses and storage media of detecting correlated objects involved in images
CN113723185B (zh) 动作行为识别方法、装置、存储介质及终端设备
CN113632097A (zh) 对象间的关联性的预测方法、装置、设备和存储介质
CN113348465A (zh) 图像中对象的关联性预测方法、装置、设备和存储介质
CN115439927A (zh) 基于机器人的步态监测方法、装置、设备及存储介质
CN113557546B (zh) 图像中关联对象的检测方法、装置、设备和存储介质
CN113793362A (zh) 基于多镜头视频的行人轨迹提取方法和装置
CN111126102A (zh) 人员搜索方法、装置及图像处理设备
CN115035596B (zh) 行为检测的方法及装置、电子设备和存储介质
CN115578749A (zh) 步态特征提取及其训练方法、步态识别方法及相关设备
CN111723614A (zh) 交通信号灯识别方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220817

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230919

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230929