JP2023511242A - 画像内関連対象検出方法、装置、デバイス、及び記録媒体 - Google Patents

画像内関連対象検出方法、装置、デバイス、及び記録媒体 Download PDF

Info

Publication number
JP2023511242A
JP2023511242A JP2021536343A JP2021536343A JP2023511242A JP 2023511242 A JP2023511242 A JP 2023511242A JP 2021536343 A JP2021536343 A JP 2021536343A JP 2021536343 A JP2021536343 A JP 2021536343A JP 2023511242 A JP2023511242 A JP 2023511242A
Authority
JP
Japan
Prior art keywords
human
human body
target
predetermined
body part
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2021536343A
Other languages
English (en)
Inventor
柏▲潤▼ 王
学森 ▲張▼
春▲亞▼ ▲劉▼
景▲煥▼ ▲陳▼
▲帥▼ 伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime International Pte Ltd
Original Assignee
Sensetime International Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensetime International Pte Ltd filed Critical Sensetime International Pte Ltd
Priority claimed from PCT/IB2021/053563 external-priority patent/WO2022144605A1/en
Publication of JP2023511242A publication Critical patent/JP2023511242A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本発明は、画像内関連対象検出方法、装置、デバイス、及び記録媒体を提供する。当該方法は、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出する。上記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行する。上記画像に含まれた人体対象に対して分割を実行し、分割して得られた各上記人体対象に対応する領域に基づいて、上記人顔対象、および、上記所定の人体部位対象がそれぞれ帰属する人体対象を確定する。上記人顔対象、および、上記所定の人体部位対象がそれぞれ帰属する人体対象に基づいて、上記人顔対象と上記所定の人体部位対象との間の第1関連性予測結果を調整し、調整後の上記第1関連性予測結果に基づいて上記画像内の関連対象を確定する。【選択図】図1

Description

本発明は、コンピュータ技術に関し、具体的には、画像内関連対象検出方法、装置、デバイス、及び記録媒体に関する。
<関連出願の互いに引用>
本発明は、出願日が2020年12月31日であり、出願番号が10202013267Tであるシンガポール特許出願の優先権を主張し、当該シンガポール特許出願の全ての内容が参照として本願に組み入れられる。
インテリジェントなビデオ分析技術は、人間が物理的空間内の対象の状態および対象間の関係を了解するのに役立つ。インテリジェントなビデオ分析の1つの適用場面において、ビデオに登場する人体部位に基づいて当該部位に対応する人の身分を認識する必要がある。
具体的に、まず、識別が容易な第1人体部位と人の身分とを対応させる。前記の対応関係が維持された後に、ビデオに登場する第2人体部位と互いに関連対象である第1人体部位を確定し、確定された第1人体部位に基づいて当該第2人体部位に対応する人の身分を認識することができる。その中で、関連対象とは、同じ人に属する第1人体部位と第2人体部位を意味する。2つの人体部位が互いに関連対象であることは、前記の各人体部位が1人に属することとして見なすことができる。
画像内の人体部位を関連付けることによって、さらに、複数の人の場面での個人の行動と状態、および複数の人間の関係を分析するのに役立つ。たとえば、画像内から検出された複数の人顔対象、および、複数の人手対象のうち、1人に属する人顔対象と人手対象を確定することができる。1人に属する人顔対象と人手対象を確定した後、人手対象と関連している人顔対象に基づいて、当該人手対象を利用して所定の動作を実行する人または所定の領域に触れた人の身分情報を確定することができる。
これに鑑みて、本発明は、画像内関連対象検出方法を開示し、前記方法は、画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出することと、前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第1関連性予測結果、前記所定の人体部位対象と前記人手対象の第2関連性予測結果、および、前記人顔対象と前記人手対象の第3関連性予測結果を得ることと、前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象、および、前記所定の人体部位対象が帰属する第1人体対象、および、第2人体対象を確定することと、前記第1人体対象および前記第2人体対象に基づいて、前記第1関連性予測結果を調整し、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて、前記画像内の関連対象を確定することと、を含む。
示されたいくつかの実施例において、前記画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することは、画像内の人顔対象の第1バウンディングボックスおよび所定の人体部位対象の第2バウンディングボックスを検出することを含み、前記分割して得られた各前記人体対象に対応する領域に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定することは、前記第1バウンディングボックスに基づいて前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第1重複領域を確定することと、前記第2バウンディングボックスに基づいて前記所定の人体部位対象に対応する領域と各前記人体対象に対応する領域との間の第2重複範囲を確定することと、前記第1重複範囲および前記第2重複範囲に基づいて、前記人顔対象が帰属する第1人体対象、および、前記所定の人体部位対象がそれぞれ帰属する第1人体対象、および、第2人体対象を確定することと、を含む。
示されたいくつかの実施例において、前記第1重複範囲および前記第2重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定することは、各前記人体対象にそれぞれ対応する領域のうち、前記人顔対象に対応する領域との第1重複範囲が最大である第1目標領域を確定することと、各前記人体対象にそれぞれ対応する領域のうち、前記所定の人体部位対象に対応する領域との第2重複範囲が最大である第2目標領域を確定することと、前記第1目標領域に対応する人体対象を前記人顔対象が帰属する第1人体対象として確定することと、前記第2目標領域に対応する人体対象を前記所定の人体部位対象が帰属する第2人体対象として確定することと、を含む。
示されたいくつかの実施例において、前記人顔対象、および、前記所定の人体部位対象がそれぞれ帰属する第1人体対象、および、第2人体対象に基づいて、前記第1関連性予測結果を調整することは、第1人体対象と第2人体対象をマッチングしてマッチング結果を得ることと、前記マッチング結果に基づいて前記第1関連性予測結果を調整することと、を含む。
示されたいくつかの実施例において、前記マッチング結果に基づいて前記第1関連性予測結果を調整することは、前記第1人体対象と前記第2人体対象とがマッチングされる場合、前記第1関連性予測結果における関連性予測スコアを増加すること、および/または、前記第1人体対象と前記第2人体対象とがマッチングされない場合、前記第1関連性予測結果における関連性予測スコアを減少することを含む。
示されたいくつかの実施例において、前記方法は、検出された前記人顔対象と前記所定の人体部位対象と前記人手対象とを組み合わせて、1つの人顔対象と1つの人体部位対象と1つの人手対象とを含む三要素セットを少なくとも1つ生成することをさらに含み、前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行することは、各三要素セット中の2つの対象ごとに関連性予測を実行することを含み、前記調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて、前記画像内の関連対象を確定することは、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて各三要素セットに対応する第4関連性予測結果を確定することと、各三要素セットに対応する第4関連性予測結果に基づいて前記画像内の関連対象を確定することと、を含む。
示されたいくつかの実施例において、前記各三要素セットに対応する第4関連性予測結果に基づいて前記画像内の関連対象を確定することは、各三要素セットに対応する前記第4関連性予測結果における関連性予測スコアの降順に従って、各三要素セットを順に現在三要素セットとして確定して、以下の操作を実行することを含み、当該操作は、既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第1所定の閾値に達したか否かを確定し、また、現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第2所定の閾値に達したか否かを確定することと、前記関連人手対象の数が前記第1所定の閾値に達していないし、同時に、前記関連人顔対象の数が前記第2所定の閾値に達していないと、現在三要素セットに含まれた人顔対象と人手対象とを前記画像内の関連対象として確定することと、を含む。
示されたいくつかの実施例において、前記所定の人体部位対象は、肩対象、および、肘対象の中の少なくとも1つを含む。
示されたいくつかの実施例において、前記方法は、前記画像内の関連対象の検出結果を出力することをさらに含む。
示されたいくつかの実施例において、前記画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することは、ニューラルネットワークに基づいて構築した対象検出モデルを採用して、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することを含む。前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行することは、ニューラルネットワークに基づいて構築した関連性予測モデルを採用して、前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行することを含み、前記画像に含まれた人体対象に対して分割を実行することは、ニューラルネットワークに基づいて構築したインスタンス分割モデルを採用して前記画像に含まれた人体対象に対して分割を実行することを含む。
示されたいくつかの実施例において、前記方法は、 第1トレーニングサンプルセットに基づいて前記対象検出モデルをトレーニングすることと、第2トレーニングサンプルセットに基づいて前記インスタンス分割モデルをトレーニングすることと、第3トレーニングサンプルセットに基づいて、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して共同トレーニングを実行することと、を含み、その中で、前記第1トレーニングサンプルセットは、第1ラベリング情報を有する画像トレーニングサンプルを含み、前記第1ラベリング情報は、人顔対象と前記所定の身体部位対象と人手対象とのバウンディングボックスを含み、前記第2トレーニングサンプルセットは、第2ラベリング情報を有する画像トレーニングサンプルを含み、前記第2ラベリング情報は、人体対象のバウンディングボックスを含み、前記第3トレーニングサンプルセットは、第3ラベリング情報を有する画像トレーニングサンプルを含み、前記第3ラベリング情報は、人顔対象と所定の身体部位対象と人手対象と人体対象とにそれぞれ対応するバウンディングボックス、人顔対象と所定の身体部位対象との間の関連性ラベリング情報、所定の身体部位対象と人手対象との間の関連性ラベリング情報、および、人顔対象と人手対象との間の関連性ラベリング情報を含む。
本発明は、画像内関連対象検出装置をさらに提供し、前記装置は、画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出するための対象検出モジュールと、前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第1関連性予測結果、前記所定の人体部位対象と前記人手対象の第2関連性予測結果、および、前記人顔対象と前記人手対象の第3関連性予測結果を得るための関連性予測モジュールと、前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定するための帰属関係確定モジュールと、第1人体対象、および、第2人体対象に基づいて前記第1関連性予測結果を調整し、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて、前記画像内の関連対象を確定するための関連対象確定モジュールと、を備える。
示されたいくつかの実施例において、前記対象検出モジュールは、具体的に、画像内の人顔対象、および、所定の人体部位対象にそれぞれ対応する第1バウンディングボックスおよび第2バウンディングボックスを検出し、前記帰属関係確定モジュールは、第1バウンディングボックスに基づいて前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第1重複範囲を確定し、第2バウンディングボックスに基づいて前記所定の人体対象に対応する領域と各前記人体対象に対応する領域との間の第2重複範囲を確定するための重複範囲確定モジュールと、前記第1重複範囲および第2重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定するための帰属関係確定サブモジュールと、を備える。
示されたいくつかの実施例において、前記帰属関係確定サブモジュールは、具体的に、各前記人体対象にそれぞれ対応する領域のうち、前記人顔対象に対応する領域との第1重複範囲が最大である第1目標領域を確定し、各前記人体対象にそれぞれ対応する領域のうち、前記所定の人体部位対象に対応する領域との第2重複範囲が最大である第2目標領域を確定し、前記第1目標領域に対応する人体対象を前記人顔対象が帰属する第1人体対象として確定し、前記第2目標領域に対応する人体対象を前記所定の人体部位対象が帰属する第2人体対象として確定する。
示されたいくつかの実施例において、前記関連対象確定モジュールは、具体的に、前記第1人体対象と上第2人体対象とをマッチングして、マッチング結果を得、前記マッチング結果に基づいて前記第1関連性予測結果を調整する。
示されたいくつかの実施例において、 前記関連対象確定モジュールは、前記第1人体対象と前記第2人体対象とがマッチングされる場合、前記第1関連性予測結果における関連性予測スコアを増加し、および/または、前記第1人体対象と前記第2人体対象とがマッチングされない場合、前記第1関連性予測結果における関連性予測スコアを減少する。
示されたいくつかの実施例において、前記装置は、検出された前記人顔対象と前記所定の人体部位対象と前記人手対象とを組み合わせて、1つの人顔対象と1つの人体部位対象と1つの人手対象とを含む三要素セットを少なくとも1つ生成するための組合せモジュールをさらに備える。前記関連性予測モジュールは、具体的に、各三要素セット中の2つの対象ごとに関連性予測を実行し、前記関連対象確定モジュールは、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて各三要素セットに対応する第4関連性予測結果を確定するための三要素セット関連関係予測モジュールと、各三要素セットに対応する第4関連性予測結果に基づいて前記画像内の関連対象を確定する関連対象確定サブモジュールと、を備える。
示されたいくつかの実施例において、前記関連対象確定サブモジュールは、具体的に、各三要素セットに対応する前記第4関連性予測結果における関連性予測スコアの降順に従って、各三要素セットを順に現在三要素セットとして確定して、以下の操作を実行し、当該操作は、既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第1所定の閾値に達したか否かを確定し、また、現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第2所定の閾値に達したか否かを確定し、前記関連人手対象の数が前記第1所定の閾値に達していないし、同時に、現在三要素セットに含まれた人手対象と関連している関連人顔対象の数が前記第2所定の閾値に達していないと、現在三要素セットに含まれた人顔対象と人手対象とを前記画像内の関連対象として確定する。
示されたいくつかの実施例において、前記所定の人体部位対象は、肩対象、および、肘対象の中の少なくとも1つを含む。
示されたいくつかの実施例において、前記装置は、前記画像内の関連対象の検出結果を出力するための出力モジュールをさらに備える。
示されたいくつかの実施例において、前記対象検出モジュールは、具体的に、ニューラルネットワークに基づいて構築した対象検出モデルを採用して、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出し、前記関連性予測モジュールは、具体的に、ニューラルネットワークに基づいて構築した関連性予測モデルを採用して、前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行し、前記帰属関係確定モジュールは、具体的に、ニューラルネットワークに基づいて構築したインスタンス分割モデルを採用して前記画像に含まれた人体対象に対して分割を実行する。
示されたいくつかの実施例において、前記装置は、第1トレーニングサンプルセットに基づいて前記対象検出モデルをトレーニングするための第1トレーニングモジュールと、第2トレーニングサンプルセットに基づいて前記インスタンス分割モデルをトレーニングするための第2トレーニングモジュールと、第3トレーニングサンプルセットに基づいて前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して、共同トレーニングを実行するための共同トレーニングモジュールと、を備え、その中で、前記第1トレーニングサンプルセットは、第1ラベリング情報を有する画像トレーニングサンプルを含み、前記第1ラベリング情報は、人顔対象と前記所定の身体部位対象と人手対象とのバウンディングボックスを含み、前記第2トレーニングサンプルセットは、第2ラベリング情報を有する画像トレーニングサンプルを含み、前記第2ラベリング情報は、人体対象のバウンディングボックスを含み、その中で、前記第3トレーニングサンプルセットは、第3ラベリング情報を有する画像トレーニングサンプルを含み、前記第3ラベリング情報は、人顔対象と所定の身体部位対象と人手対象と人体対象とにそれぞれ対応するバウンディングボックス、人顔対象と所定の身体部位対象との間の関連性ラベリング情報、所定の身体部位対象と人手対象との間の関連性ラベリング情報、および、人顔対象と人手対象との間の関連性ラベリング情報を含む。
本発明は、電子デバイスをさらに提供し、前記デバイスは、プロセッサと、前記プロセッサによって実行可能な命令を格納するためのメモリと、を備え、その中で、前記プロセッサは、前記メモリに格納された実行可能命令を呼び出して、前記の任意の実施例に示す画像内関連対象検出方法を実装するように構成される。
本発明は、コンピュータ可読記録媒体をさらに提供し、前記記録媒体には、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、前記の任意の実施例に示す画像内関連対象検出方法を実行する。
前記方法の技術的解決策において、一方では、人手対象に密接に関連する所定の人体部位を媒介として使用することによって、人顔対象と当該所定の人体部位との間の第1関連性予測結果、当該所定の人体部位と人手対象との間の第2関連性予測結果、および、人顔対象と人手対象との間の第3関連性予測結果を、それぞれ確定する。その後に、さらに、前記第1関連性予測結果、前記第2関連性予測結果、および、前記第3関連性予測結果に基づいて、前記画像内の関連対象を確定することによって、関連対象を確定する過程で、より少ない干渉情報が導入され、関連性を持つ人顔対象と人手対象の確定結果の精度を保証する。
もう一方では、前記画像に含まれた人体対象に対して分割を実行した結果に基づいて人顔対象と当該所定の人体部位との間の第1関連性予測結果に対して最適化を実行することによって、人顔対象と当該所定の人体部位との間の関連性予測結果がより正確になるようにし、さらに関連対象確定結果の精度を向上させる。
上記の一般的な叙述と以下の細部の叙述は、例示的および解釈的なもの過ぎず、本発明に対する限定ではないことを理解すべきである。
以下、本発明の1つまたは複数の実施例の技術的解決策をより明確に説明するために、実施例の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は、本発明の1つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者は創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
本発明に係る画像内関連対象検出方法を示すフローチャートである。 本発明に係る関連対象検出方法を示す模式図である。 本発明に係る対象検出フローを示す模式図である。 本発明に係る関連性予測フローを示す模式図である。 本発明に係る関連性予測フローを示す模式図である。 本発明に係る画像分割フローを示す模式図である。 本発明の実施例に係るモデルトレーニング方法のフローを示す模式図である。 本発明に係る画像内関連対象検出装置を示す構成図である。 本発明に係る電子デバイスのハードウェアを示す構成図である。
以下、例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。
本発明で使用される用語は、特定の実施例を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明および添付の特許請求の範囲で使用される「一種」、「前記」、「当該」などの単数形は、文脈が他の意味を明確に示さない限り、複数形を含むことを意図している。本明細書で使用される「および/または」という用語は、1つまたは複数の関連するリストされたアイテムの任意の1つまたはすべての可能な組み合わせを含むことを指すことを理解すべきである。文脈に応じて、本明細書で使用される「もし」という単語は、「…場合」、「…すると」、または、「…ことに応答して」と解釈することができることをさらに理解すべきである。
本発明は、画像内関連対象検出方法(以下、関連対象検出方法と略称する)を提案することを意図している。一方では、当該方法は、人手対象に密接に関連する所定の人体部位を媒介として使用することによって、人顔対象と当該所定の人体部位との間の第1関連性予測結果、当該所定の人体部位と人手対象との間の第2関連性予測結果、および、人顔対象と人手対象との間の第3関連性予測結果を、それぞれ確定する。その後に、さらに、前記第1関連性予測結果、前記第2関連性予測結果、および、前記第3関連性予測結果に基づいて、前記画像内の関連対象を確定することによって、関連対象を確定する過程で、より少ない干渉情報が導入され、関連性を持つ人顔対象と人手対象の確定結果の精度を保証する。
もう一方では、当該方法は、前記画像に含まれた人体対象に対して分割を実行した結果に基づいて人顔対象と当該所定の人体部位との間の第1関連性予測結果に対して最適化を実行することによって、人顔対象と当該所定の人体部位との間の関連性予測結果がより正確になるようにし、さらに関連対象確定結果の精度を向上させる。
図1を参照すると、図1は本発明に係る画像内関連対象検出方法のフローチャートである。図1に示すように、前記方法は、以下のステップを含み得る。
S102において、画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出する。
S104において、前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第1関連性予測結果、前記所定の人体部位対象と前記人手対象の第2関連性予測結果、および、前記人顔対象と前記人手対象の第3関連性予測結果を得る。
S106において、前記画像に対して分割を実行して少なくとも1つの人体対象を確定し、分割して得られた各前記少なくとも1つの人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定する。
S108において、前記第1人体対象および前記第2人体対象に基づいて、前記第1関連性予測結果を調整し、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて、前記画像内の関連対象を確定する。
前記関連対象検出方法は、電子デバイスに適用され得る。その中で、前記電子デバイスは、関連対象検出方法に対応するソフトウェアシステムを搭載することによって、前記関連対象検出方法を実行することができる。本発明の実施例において、前記電子デバイスのタイプは、ノートパソコン、コンピュータ、サーバ、携帯電話、PAD端末などであり得、本発明において特に限定しない。
前記関連対象検出方法は、端末デバイスまたはサービス側デバイスのみによって実行可能であり、または端末デバイスとサービス側デバイスが協働して実行可能であることを理解できる。
たとえば、前記関連対象検出方法は、クライアントに統合されることができる。当該クライアントを搭載する端末デバイスは、関連対象検出要求を受信した後、それ自体のハードウェア環境を介して計算能力を提供して前記関連対象検出方法を実行することができる。
また、たとえば、前記関連対象検出方法は、システムプラットフォームに統合することができる。当該システムプラットフォームを搭載するサービス側デバイスは、関連対象検出要求を受信した後に、それ自体のハードウェアを介して計算能力を提供して前記関連対象検出方法を実行することができる。
さらに、たとえば、前記関連対象検出方法は、画像を取得することと、画像に対して関連対象検出を実行することと、のような2つのタスクに分けることができる。その中で、取得タスクは、クライアントに統合されて端末デバイスに搭載されることができる。関連対象検出タスクは、サービス側に統合されてサービス側デバイスに搭載されることができる。前記クライアントは、画像を取得した後に、前記サービス側デバイスに関連対象検出要求を送信することができる。前記サービス側デバイスは、前記要求を受信した後に、前記要求に応答して、前記画像に対して前記関連対象検出方法を実行することができる。
以下、実行主体が電子デバイス(以下、デバイスと略称する)である例をとって説明する。
図2を参照すると、図2は本発明に係る関連対象検出方法の模式図である。
図2に示すように、図2に示す方法において、画像内に含まれている関連性を持つ人顔対象と人手対象を確定することができる。
その中で、前記画像とは、画像処理を実行する必要がある画像を指す。当該画像内には、いくつかの被検出対象が含まれ得る。たとえば、卓上ゲームの場面において、前記画像は、デスクトップの付近を囲んでいるいくつかの人体対象と、人体上の人顔対象、所定の人体部位対象、および、人手対象とを含み得る。
いくつかの例において、前記画像を取得するときに、前記デバイスは、ユーザと対話して、画像の入力を完了することができる。たとえば、前記デバイスは、それ自体に搭載されているインターフェースを介してユーザに処理待ち画像を入力するウィンドウを提供することによって、ユーザが画像を入力するようにすることができる。ユーザは、当該ウィンドウを利用して画像の入力を完了することができる。
いくつかの例において、前記デバイスは、現場に配備された画像収集デバイスと接続されて、前記画像収集デバイスから当該デバイスによって収集された画像を取得することができる。
引き続き図2を参照すると、前記デバイスは、画像を取得した後に、前記S102を実行することができ、画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出する。
その中で、人顔と人手との間の身体接続部は、首部、肩部、腕、および、手首を含む。前記所定の人体部位対象は、具体的に前記身体接続部におけるある身体部位を示す。いくつかの例において、関連性予測精度を向上させるために、前記所定の人体部位対象は、人体関節検出の方法によってより容易に検出することができる関節部位であり得、たとえば、肩対象、および、肘対象の中の少なくとも1つであり得る。もういくつかの例において、前記所定の人体部位対象は、さらに、上腕、前腕、手首などの部位を示すことができる。このように、所定の人体部位対象を媒介として、距離がより遠い人顔対象と人手対象をより正確に関連付けることができる。
本ステップにおいて、前記画像を対象検出モデルに入力して計算を実行することによって、前記画像に含まれた人顔対象と人手対象と前記所定の人体部位対象とにそれぞれ対応するバウンディングボックスを検出することができる。画像内に含まれた各対象に対応するバウンディングボックスを検出することは、画像内に含まれた人顔対象、所定の人体部位対象、および、人手対象を検出することとして見なすことができることを理解できる。
前記対象検出モデルは、対象を検出するための深層畳み込みネットワークモデルであり得る。たとえば、前記対象検出モデルは、RCNN(Region Convolutional Neural Networks、領域畳み込みニューラルネットワーク)ネットワーク、FAST―RCNN(Fast Region Convolutional Neural Networks、高速領域畳み込みニューラルネットワーク)ネットワーク、または、FASTER―RCNNネットワークに基づいて構築したモデルであり得る。
実際の適用において、当該対象検出モデルを使用して対象検出を実行する前に、人顔対象バウンディングボックス、人手対象バウンディングボックス、および、所定の人体部位対象バウンディングボックスをラベリングしたいくつかの真の値の画像トレーニングサンプルを利用して、当該モデルが収束するまで、当該モデルをトレーニングすることができる。
図3を参照すると、図3は、本発明に示す対象検出フローを示す模式図である。図3は、対象検出フローを模式的に説明しているにすぎず、本発明に対して特に限定しないことを説明する必要がある。
図3に示すように、前記対象検出モデルは、FASTER―RCNNネットワークに基づいて構築したモデルであり得る。当該モデルは、バックボーンネットワーク(backbone)、RPN(Region Proposal Network、候補ボックス生成ネットワーク)、および、RCNN(Region―based Convolutional Neural Network、領域に基づく畳み込みニューラルネットワーク)を少なくとも含み得る。
その中で、前記バックボーンネットワークは、画像に対していくつかの畳み込み演算を実行して当該画像に対応する特徴マップを得ることができる。特徴マップを得た後に、特徴マップを前記RPNネットワークに入力していくつかのanchors(アンカーボックス)を得ることができる。アンカーボックスを得た後に、当該アンカーボックスおよび前記特徴マップを対応するRCNNネットワークに入力してbbox(bounding boxes、バウンディングボックス)回帰および分類を実行して、人顔対象と人手対象と所定の人体部位対象とにそれぞれ対応する第1バウンディングボックスおよび第2バウンディングボックスを得ることができる。
本ステップの各バウンディングボックスを得ることは、各バウンディングボックスに対応する位置情報、サイズ情報などを得ることを含み得る。その中で、前記位置情報は、バウンディングボックスの頂点座標を含み得、さらにバウンディングボックスの長さおよび幅情報を含み得ることを理解できる。
人顔対象と人手対象と所定の人体部位対象とにそれぞれ対応するバウンディングボックスを確定した後に、S104を実行することができ、前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第1関連性予測結果、前記所定の人体部位対象と前記人手対象の第2関連性予測結果、および、前記人顔対象と前記人手対象の第3関連性予測結果を得る。
前記関連性予測は、具体的に、2つの人体部位が互いに関連対象である確率を予測することを指す。その中で、関連対象は、1人に属する2つの人体部位対象を指す。
いくつかの例において、ニューラルネットワークに基づいて構築した関連性予測モデルを利用して関連性予測を実行して、対応する関連性予測結果を得ることができる。
前記関連性予測結果(第1関連性予測結果、第2関連性予測結果、および、第3関連性予測結果を含む)は、具体的に、2つの人体部位間が互いに関連対象である確率を指す。いくつかの例において、関連性予測スコアを利用して関連性予測結果を数値化することができる。関連性予測スコアが高いほど、関連性予測スコアに対応する2つの人体部位が1人に属する可能性が高いことを意味する。
たとえば、卓上ゲームの場面において、画像内の人顔対象と人手対象に対して関連性予測を実行することは、関連性予測モデルに基づいて画像内から検出された任意の人顔対象と任意の人手対象とが互いに関連対象である確率を予測することでありえる。
通常の場合に、前記画像は、複数の前記人顔対象、複数の前記所定の人体部位対象、および、複数の前記人手対象を含み得ることを理解できる。この場合、前記第1関連性予測結果を確定するときに、前記画像から検出された人顔対象と所定の人体部位対象とを任意に2つずつ組み合わせ、得られた各組み合わせに対応する第1関連性予測結果を確定することができる。同様に、前記第2関連性予測結果を確定するときに、画像内の所定の人体部位対象と画像内の人手対象とを任意に2つずつ組み合わせて、各組み合わせに対応する第2関連性予測結果を確定することができる。前記第3関連性予測結果を確定するときに、画像内の人顔対象と画像内の人手対象とを任意に2つずつ組み合わせて、各組み合わせに対応する第3関連性予測結果を確定することができる。
いくつかの例において、S104を実行するときに、人顔対象と所定の人体部位対象との関連性、所定の人体部位対象と人手対象との関連性、人顔対象と人手対象との関連性にそれぞれ対して予測を実行して、対応する関連性予測結果を得ることができる。
上記の3つの関連性予測結果を確定する方法は互いに参考でき、以下は第1関連性予測結果を確定する例をとって説明することを理解できる。
たとえば、まず、S1042を実行し、検出された各人顔対象を、各所定の人体部位対象とそれぞれ2つずつ組み合わせて、複数の組み合わせ結果を得ることができる。
本ステップにおいて、検出された各人顔対象、各人手対象、および、各所定の人体部位対象に対してそれぞれ識別子を生成することができる。その中で、各部位対象に対応する識別子は、当該部位対象と一対一に対応する。たとえば、人顔対象識別子は、人顔対象と一対一に対応し、人手対象識別子は、人手対象と一対一に対応する。実際の適用において、前記識別子は部位番号であり得ることを理解できる。たとえば、人顔対象1、人顔対象2、人手対象1、所定の人体部位対象1などであり得る。
識別子の生成が完了された後に、識別子(たとえば番号順序)に従って順に各人顔対象を各所定の人体部位対象と組み合わせて、複数の組み合わせ結果を得ることができる。
前記複数の組み合わせ結果を得た後に、S1044を実行することができ、各組み合わせ結果に対して、人顔対象と所定の人体部位対象の関連性予測ブランチ(以下、第1ブランチと略称する)を利用して、現在組み合わせ結果内の人顔対象と所定の人体部位対象とにそれぞれ対応する領域特徴および位置情報に基づいて、当該人顔対象と当該所定の人体部位対象とに対して関連性予測を実行して、当該人顔対象と当該所定の人体部位対象とに対応する第1関連性予測結果を得ることができる。
前記第1ブランチは、具体的に、畳み込みニューラルネットワークに基づいて構築した関連性予測モデルであり得る。当該関連性予測ブランチは、人顔対象と所定の人体部位対象とに対して関連性予測を実行して、第1関連性予測結果を得ることができる。当該関連性予測ブランチは、完全結合層を含み得、最終に第1関連性予測スコアを出力することができることを理解できる。
本発明のいくつかの実施例において、前記完全結合層は、線性回帰、最小二乘回帰などの回帰アルゴリズムに基づいて構築した計算ユニットであり得る。当該計算ユニットは、領域特徴に対して特徴マッピングを実行して、対応する関連性予測スコア値を得ることができる。ここで、領域特徴は、画像内の該当する対象が位置している領域(たとえば画像内の対象のバウンディングボックスに対応する領域)の特徴を示し、たとえば対象が位置している領域の特徴マップ、ピクセルマトリックスなどを示す。
実際の適用において、前記第1ブランチは、関連性予測を実行する前に、人顔対象と所定の人体部位対象との関連性ラベリング情報を有するいくつかの画像トレーニングサンプルに基づいてトレーニングすることができる。
前記人顔対象と所定の人体部位対象とに対してトレーニングを実行するときに、まず、いくつかの画像トレーニングサンプルを構築することができることを理解できる。その中で、前記いくつかの画像トレーニングサンプルを構築するときに、まずいくつかの元の画像を取得することができる。元の画像を取得した後に、ラベリングツールを利用して元の画像内に含まれている人顔対象と所定の人体部位対象とをランダムに組み合わせて、複数の組み合わせ結果を得ることができる。その後に、さらに、各組み合わせ内の人顔対象と所定の人体部位対象とに対して関連性ラベリングを実行することができる。いくつかの例において、組み合わせ内の人顔対象と所定の人体部位対象とが関連性を有すると(1人に属する)、1をラベリングし、そうではないと0をラベリングすることができる。または、元の画像をラベリングするときに、その中の各人顔対象、および、各所定の人体部位対象に対して帰属する人対象の情報(たとえば人識別子)をラベリングすることによって、帰属する人対象の情報が一致するか否かによって組み合わせ内の人顔対象と所定の人体部位対象とが関連性を有するかを確定することができる。
画像トレーニングサンプルの構築が完了された後に、従来のモデルトレーニング方法によって当該ブランチが収束するまで、前記第1ブランチをトレーニングすることができる。
図4を参照すると、図4は、本発明に係る関連性予測フローを示す模式図である。模式的に、図4に示す第1ブランチは、領域特徴抽出ユニットおよび完全結合層を含み得る。その中で、領域特徴抽出ユニットは、人顔対象バウンディングボックス、所定の人体部位対象バウンディングボックス、および、画像に対応する特徴マップに基づいて、人顔対象と所定の人体部位対象とにそれぞれ対応する領域特徴を得ることができる。
いくつかの例において、前記人顔対象と所定の人体部位対象とにそれぞれ対応する領域特徴は、1つの特徴マップに集中され得、すなわち、1つの特徴マップに前記人顔対象と前記所定の人体部位対象にそれぞれ対応する特徴部位が含まれ得ることを理解できる。前記特徴マップを得た後に、当該特徴マップに基づいて特徴マッピング(マトリックス演算)を実行して、対応する関連性予測結果を得ることができる。
もういくつかの例において、前記人顔対象と所定の人体部位対象とにそれぞれ対応する領域特徴は、少なくとも2つの特徴マップに分布され得、人顔対象と所定の人体部位対象とにそれぞれ対応する特徴マップを得た後に、人顔対象と所定の人体部位対象とに対応する特徴マップを完全結合層に入力して特徴接合を実行して、接合された特徴マップを得ることができる。接合された特徴マップを得た後に、当該接合された特徴マップに基づいて特徴マッピング(マトリックス演算)を実行して、対応する関連性予測結果を得ることができる。
前記領域特徴抽出ユニットは、ROI Align(Region of interest Align、関心領域特徴アラインメント)ユニット、または、ROI pooling(Region of interest pooling、関心領域特徴プーリング)ユニットであり得る。
前記完全結合層は、具体的には、線性回帰、最小二乘回帰などの回帰アルゴリズムに基づいて構築した計算ユニットであり得る。当該計算ユニットは、領域特徴(特徴マップまたはピクセルマトリックス)に対してマトリックス演算を実行して、対応する関連性予測スコア値を得ることができる。
前記第1ブランチを使用して予測するときに、各人顔対象と所定の人体部位対象との組み合わせ結果を順に現在組み合わせ結果として確定し、その後に、現在組み合わせ結果内の人顔対象と所定の人体部位対象とに対応する領域特徴を前記第1ブランチに入力して計算を実行して、現在組み合わせ結果内の人顔対象と所定の人体部位対象との間の関連性予測スコア(第1関連性予測スコア)を得ることができる。
いくつかの例において、モデル関連性予測精度を向上させるために、第1関連性予測スコア予測を実行するときに、各組み合わせ結果に対して、第1ブランチを利用して、現在組み合わせ結果内の人顔対象と所定の人体部位対象とにそれぞれ対応する領域特徴および位置情報に基づいて、当該人顔対象と当該所定の人体部位対象とに対して関連性予測を実行して、当該人顔対象と当該所定の人体部位対象とに対応する第1関連性予測結果を得ることができる。
図5を参照すると、図5は本発明に係る関連性予測フローを示す模式図である。図5に示すように、領域特徴抽出ユニットを利用して人顔対象に対応する特徴および所定の人体部位対象に対応する特徴を抽出した後に、さらに、人顔対象の位置情報(たとえば、座標)および所定の人体部位対象の位置情報(たとえば、座標情報)に対して特徴接合(たとえば、シングルコア畳み込み操作)を実行して、接合された特徴を得ることができる。接合された特徴を得た後に、当該接合された特徴を前記完全結合層に入力して特徴マッピング(マトリックス演算)を実行して、第1関連性予測スコア値を得ることができる。関連性予測を実行するときに、人顔対象に対応する特徴および所定の人体部位対象に対応する特徴に加えて、さらに、人顔対象バウンディングボックスおよび所定の人体部位対象バウンディングボックスにそれぞれに対応する位置情報を使用することによって、両者の位置における関連関係を示す情報を導入することによって、得られた関連性予測結果の精度を向上させることができる。前記各組み合わせに対して上記のステップを実行した後に、複数の前記第1関連性予測結果における関連性予測スコアを得ることができる。
所定の人体部位対象と人手対象との関連性予測を実行するときに、S1046を実行することができ、検出された各所定の人体部位対象を、それぞれ各人手対象と2つずつ組み合わせて、複数の組み合わせ結果を得る。S1048において、各組み合わせ結果に対して、所定の人体部位対象と人手対象の関連性予測ブランチを利用して、現在組み合わせ結果内の所定の人体部位対象と人手対象とにそれぞれ対応する領域特徴および位置情報に基づいて、当該所定の人体部位対象と当該人手対象とに対して関連性予測を実行して、当該所定の人体部位対象と当該人手対象とに対応する第2関連性予測結果を得る。
前記各組み合わせに対して前記ステップを実行した後に、複数の前記第2関連性予測の予測結果における関連性予測スコアを得ることができる。
S1046~S1048のステップの説明は、S1042~S1044のステップの説明を参照することができ、ここでは繰り返して説明しないことを理解できる。
人顔対象と人手対象に対して関連性予測を実行するときに、同様に前記S1042~S1044を参照することができ、ここでは詳細に説明しない。
本発明は、第1関連性予測結果と第2関連性予測結果と第3関連性予測結果を確定する順序を特に限定しないことを、説明する必要がある。たとえば、所定の順序に従って順に前記3つの関連性予測結果を確定してもよいし、第1関連性予測結果と第2関連性予測結果と第3関連性予測結果の予測を同期に実行してもよい。
いくつかの例において、S104を実行するときに、検出された人顔対象、所定の人体部位対象、および、人手対象を、関連性予測モデルに入力して計算を実行して、前記第1関連性予測結果、前記第2関連性予測結果、および、前記第3関連性予測結果を得ることができる。
その中で、前記関連性予測モデルは、いろんな種類の分類器を含む分類モデルであり得る。その中で、当該いろんな種類の分類器の出力は、少なくとも、前記第1関連性予測結果、前記第2関連性予測結果、および、前記第3関連性予測結果を、含み得る。
前記関連性予測モデルをトレーニングするときに、まず、画像トレーニングサンプルを構築することができる。画像トレーニングサンプルを構築するときに、まず、元の画像を取得することができる。元の画像を取得した後に、画像ラベリングツールを利用して、前記元の画像に含まれた各三要素セットに含まれた人顔対象と所定の人体部位対象とに対応する第1関連性予測結果、所定の人体部位対象と人手対象とに対応する第2関連性予測結果、および、人顔対象と人手対象とに対応する第3関連性予測結果に対して、それぞれラベリングを実行して、真の値をラベリングした画像トレーニングサンプルを得ることができる。画像トレーニングサンプルを構築した後に、当該対象関連性予測モデルが収束するまで、構築した画像トレーニングサンプルに基づいてモデルトレーニングを実行することができる。
本ステップにおいて、まず、検出された任意の人顔対象、任意所定の人体部位対象、および、任意の人手対象を組み合わせて、複数の三要素セットを得ることができる。前記複数の三要素セットを得た後に、前記複数の三要素セットを順に現在三要素セットとして、現在三要素セットに含まれた人顔対象、所定の人体部位対象、および、人手対象を、トレーニングを通じた対象関連性予測モデルに入力して計算を実行して、当該三要素セットに含まれた人顔対象と所定の人体部位対象とに対応する第1関連性予測結果、所定の人体部位対象と人手対象とに対応する第2関連性予測結果、および、人顔対象と人手対象とに対応する第3関連性予測結果を得ることができる。前記対象関連性予測モデルの構成は、前述した第1ブランチの構成を参照することができ、ここでは詳細に説明しないことを説明する必要がある。
引き続き図2を参照すると、第1関連性予測結果、第2関連性予測結果、および、第3関連性予測結果を得た後に、引き続きS106を実行することができ、前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定する。
S106は、実際にはS1062とS1064の2つのステップに分けることができ、ここで、S1062において、前記画像に対して分割を実行して、画像内に含まれた少なくとも1つの人体対象を確定し、前記少なくとも1つの人体対象に対応する領域を得、S1064において、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定することができることを理解できる。
いくつかの例において、S1062を実行するときに、前記画像を深層畳み込みニューラルネットワークに基づいて構築したインスタンス分割モデルに入力して計算を実行することによって、前記画像に含まれた各人体対象および前記各人体対象にそれぞれ対応する領域を確定することができる。
前記インスタンス分割モデルは、具体的に、インスタンス分割を実行するモデルであり得る。たとえば、前記インスタンス分割モデルは、FASTER―RCNNネットワークまたはMASK―RCNN(MASK Region Convolutional Neural Networks、マスクに基づく領域畳み込みニューラルネットワーク)ネットワークに基づいて構築したモデルであり得る。
実際の適用において、当該インスタンス分割モデルを使用してインスタンス分割を実行する前に、当該モデルが収束するまで、人体対象のバウンディングボックスをラベリングしたいくつかの画像トレーニングサンプルに基づいて当該モデルをトレーニングすることができる。
前記画像トレーニングサンプルを構築するときに、まず、元の画像を取得することができる。元の画像を取得した後に、ラベリングツールを利用して前記元の画像内に含まれている各人体対象を確定することができる。各人体対象を確定した後に、当該ラベリングツールを利用して、各人体対象のバウンディングまたは輪郭をそれぞれラベリングすることができる。ラベリングを実行するときに、各人体バウンディングボックス内のピクセル点に対してそれぞれ異なるピクセル値をラベリングすることができる。たとえば、前記元の画像は、人体対象A、人体対象B、および、人体対象Cを含む。ラベリングを実行するときに、人体対象Aのバウンディングボックス内のピクセル点に対してピクセル値1をラベリングし、人体対象Bのバウンディングボックス内のピクセル点に対してピクセル値2をラベリングし、人体対象Cのバウンディングボックス内のピクセル点に対してピクセル値3をラベリングすることができる。画像トレーニングサンプルの構築が完了された後に、当該モデルが収束するまで、従来のモデルトレーニング方法によって前記インスタンス分割モデルをトレーニングすることができる。
図6を参照すると、図6は本発明に係る画像分割フローを示す模式図である。図6は、画像分割フローを模式的に説明しているにすぎず、本発明に対して特に限定しないことを説明する必要がある。図6に示すように、前記インスタンス分割モデルは、MASK―RCNNネットワークに基づいて構築したモデルであり得る。当該モデルは、少なくとも、バックボーンネットワーク、RPN(Region Proposal Network、候補ボックス生成ネットワーク)、RCNN(Region―based Convolutional Neural Network、領域に基づく畳み込みニューラルネットワーク)、および、FCNs(Fully Convolution Networks、完全畳み込みネットワーク)を含み得る。その中で、前記バックボーンネットワークは、画像に対して何回の畳み込み演算を実行して当該画像に対応する特徴マップを得ることができる。特徴マップを得た後に、特徴マップを前記RPNネットワークに入力していくつかのanchors(アンカーボックス)を得ることができる。アンカーボックスを得た後に、当該アンカーボックスおよび前記特徴マップを対応するRCNNネットワークに入力してbbox(bounding boxes、バウンディングボックス)回帰および分類を実行して、各人体対象にそれぞれ対応するバウンディングボックスを得ることができる。各人体対象に対応するバウンディングボックスを得た後に、当該バウンディングボックスおよび前記特徴マップをFCNsネットワークに入力してセマンティック分割を実行して、各人体対象に対応する領域を得ることができる。
いくつかの例において、前記FCNsの前に、接続ROI Alignユニットをさらに接続することができる。このとき、当該バウンディングボックスおよび前記特徴マップをFCNsネットワークに入力してセマンティック分割を実行するときに、まず、当該バウンディングボックスおよび前記特徴マップをROI Align(Region of interest Align、関心領域特徴アラインメント)ユニットに入力して領域特徴抽出を実行し、その後に、抽出された前記領域特徴を前記FCNsネットワークに入力してセマンティック分割を実行することができる。
本ステップで各バウンディングボックスを得ることは、各バウンディングボックスに対応する位置情報およびサイズ情報を得ることを含み得ることを理解できる。その中で、前記位置情報は、前記画像の左下隅を座標の原点として構築した直交座標系に基づいて確定した位置座標を含み得る。
前記画像に対してインスタンス分割を実行して、少なくとも1つの人体対象に対応する領域を得た後に、S1064を実行することができ、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定する。
いくつかの例において、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定するときに、前記人顔対象の第1バウンディングボックスに基づいて前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第1重複範囲を確定し、前記所定の人体部位対象の第2バウンディングボックスに基づいて前記所定の人体部位対象に対応する領域と各前記人体対象に対応する領域との間の第2重複範囲を確定することができる。前記第1重複範囲および第2重複範囲を確定した後に、前記第1重複範囲および第2重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定することができる。
一般的に、1つの人体対象の場合、人顔対象の第1バウンディングボックスおよび所定の人体部位対象の第2バウンディングボックスは、人体バウンディングボックス内に位置する。したがって、前記第1重複範囲の大きさは、人顔対象がある人体対象に属する可能性を示すことができ、前記第2重複範囲の大きさは、所定の人体部位対象がある人体対象に属する可能性を示すことができる。人顔対象の例をとると、ある人顔対象A1とある人体対象Bとの間の第1重複範囲がある人顔対象A2と人体対象Bとの間の第1重複範囲よりも大きいと、当該人顔対象A1が当該人体対象Bに帰属する可能性が、人顔対象A2が当該人体対象Bに帰属する可能性よりも大きいことを意味する。または、ある人顔対象A1とある人体対象Bとの間の第1重複範囲が所定の区間を超えると(たとえば重複範囲の面積が人顔対象対応領域の80%を超える)、当該人顔対象A1が当該人体対象Bに帰属する可能性または確率の値がより高いことを意味し、この場合、直接当該人顔対象A1が当該人体対象Bに帰属すると確定するか、または、人体対象Bを人顔対象A1が帰属する候補人体対象セットに追加し、さらに当該人顔対象A1が対応する候補人体対象セット中の各人体対象に帰属する確率の値の順番に基づいて、人顔対象が帰属する第1人体対象を確定する。
前記第1重複範囲および前記第2重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定する過程で、少なくとも2つの人顔対象が1つの人体対象に属する状況が現れると、または、所定の人体部位対象が肘部対象または肩部対象であるときに、少なくとも3つの所定の人体部位対象が1つの人体対象に属する状況が現れると、1つの人体対象の最大限1つの人顔対象、2つの肘部対象、または、2つの肩部対象が関連できる拘束条件に従って、1つの人体対象に属する人顔対象または所定の人体部位対象に対して重複範囲の降順に従ってソートして選別することによって、人顔対象または所定の人体対象が人体対象に帰属する判定結果が実際の状況に一致しない可能性を減らすことができることを理解できる。したがって、本例において、前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第1重複範囲および前記所定の人体部位対象に対応する領域と各前記人体対象に対応する領域との間の第2重複範囲を確定することによって、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定することができる。
いくつかの例において、前記第1重複範囲および前記第2重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定するときに、各前記人体対象にそれぞれ対応する領域のうち、前記人顔対象に対応する領域との第1重複範囲が最大である第1目標領域を確定することができ、また、各前記人体対象にそれぞれ対応する領域のうち、前記所定の人体部位対象に対応する領域との第2重複範囲が最大である第2目標領域を確定することができる。前記第1目標領域と前記第2目標領域を確定した後に、前記第1目標領域に対応する人体対象を前記人顔対象が帰属する第1人体対象として確定し、また、前記第2目標領域に対応する人体対象を前記所定の人体部位対象が帰属する第2人体対象として確定する。
前記第1目標領域が、前記人顔対象に対応する領域との第1重複範囲が最大である領域であり、前記第2目標領域が、前記所定の人体部位対象に対応する領域との第2重複範囲が最大である領域であるため、本例では、前記人顔対象が帰属する可能性が一番高い第1人体対象と前記所定の人体部位対象が帰属する可能性が一番高い第2人体対象を確定することによって、関連対象検出の正確性を保証した。いくつかの例において、前記第1目標領域を確定するときに、前記人顔対象に対応する領域内に含まれた各ピクセル点を、ピクセル値大きさに従って同じ大きさのピクセル値を1組にグループ化して、いくつかの分類組み合わせを得ることができる。異なるピクセル値が異なる人体対象に対応する領域を示すため、ピクセル点を分類した後に、各分類組み合わせは1つの前記人体対象に対応する領域を示すことができることを理解できる。
ピクセル点を分類した後に、各分類組み合わせに含まれたピクセル点の数を統計して、含まれたピクセル点の数が最も多い分類組み合わせに対応する人体対象領域を前記第1目標領域として確定することができる。たとえば、人顔対象に対応する領域が合計100個のピクセル点を含み、その中で、80個が人体対象Aに対応する領域に対応し、15個が人体対象Bに対応する領域に対応し、5個が人体対象Cに対応する領域に対応すると仮定する。このときに、人体対象Aに対応する領域が前記第1目標領域であると見なすことができる。前記第2目標領域を確定する方法は前記の第1目標領域を確定する方法を参照することができ、ここでは詳細に説明しないことを説明する必要がある。
いくつかの例において、前記第1目標領域と前記第2目標領域を確定するときに、さらに、IoU(Intersection over Union、交差比率)アルゴリズムなどの方法を採用して確定することができる。
いくつかの例において、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定するときに、前記第1重複範囲および第2重複範囲を確定した後に、さらに前記人顔対象の領域および前記所定の人体部位対象の領域に基づいて、前記人顔対象と前記人体対象との結合範囲および前記所定の人体部位対象と前記人体対象との結合範囲をそれぞれ確定することができる。
前記結合範囲を確定した後に、IoUアルゴリズム式に基づいて、前記人顔対象と前記人体対象との間第1重複範囲で前記両者に対応する結合範囲を除算して、前記人顔対象に対応する第1IoU値セットを得ることができる。同様に、前記所定の人体部位対象に対応する第2IoU値セットを得ることができる。
前記第1IoU値セットと前記第2IoU値セットを確定した後に、前記第1IoU値セット中で値が最大である第3IoU値および前記第2IoU値セット中で値が最大である第4IoU値を確定することができる。次に、前記第3IoU値に対応する人体対象および前記第4IoU値に対応する人体対象を、前記人顔対象が帰属する第1人体対象および前記所定の人体部位対象が帰属する第2人体対象としてそれぞれ確定することができる。
前記IoU値の大きさは、人顔対象または所定の人体部位対象がある人体対象に属する可能性を示すことができる。たとえば、ある人顔対象とある人体対象との間のIoU値がより大きいと、当該人顔対象が当該人体対象に帰属する可能性が大きいことを意味する。
前記第3IoU値が前記第1IoU値セット中の最大値であり、前記第4IoU値が前記第2IoU値セット中の最大値であるため、本例では、前記人顔対象が帰属する可能性が一番高い第1人体対象および前記所定の人体部位対象が帰属する可能性が一番高い第2人体対象を確定することができ、関連対象検出の正確性を保証した。
いくつかの例において、S1064を実行するときに、人顔対象が帰属する第1人体対象または所定の人体部位対象が帰属する第2人体対象を確定できない状況が現れる可能性がある。このような状況が現れると、当該人顔対象または当該所定の人体対象に対応する関連性予測結果を調整しないでもよい。
たとえば、人顔対象が帰属する第1人体対象を確定するときに、当該人顔対象に対応する領域と重複するいくつかの人体対象領域と、当該人顔対象の領域との間の第1重複範囲の大きさがほぼ同じである状況が現れる可能性があり、この場合、当該人顔対象が属する第1人体対象を確定できないと見なすことができ、当該人顔対象に対応する関連性予測結果を調整しないでもよい。
引き続き図2を参照すると、前記画像に含まれた人顔対象および所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定した後に、引き続きS108を実行することができ、前記第1人体対象および前記第2人体対象に基づいて、前記第1関連性予測結果を調整し、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて、前記画像内の関連対象を確定する。
S108は、実際に、S1082とS1084の2つのステップに分けることができ、ここで、S1082において、第1人体対象および第2人体対象に基づいて前記第1関連性予測結果を調整し、S1084において、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて、前記画像内の関連対象を確定することができることを理解できる。
いくつかの例において、S1082を実行するときに、前記人顔対象が帰属する第1人体対象と前記所定の人体部位対象が帰属する第2人体対象とをマッチングして、マッチング結果を得ることができる。マッチング結果を得た後に、前記マッチング結果に基づいて前記第1関連性予測結果を調整することができる。
前記人顔対象が帰属する第1人体対象と前記所定の人体部位対象が帰属する第2人体対象とが一致すると、前記人顔対象と前記所定の人体部位対象とが同じ人に属する確率がより大きいことを意味するため、本例では、前記マッチング結果に基づいて前記第1関連性予測結果を調整し、前記第1関連性予測結果を調整することによって、当該第1関連性予測結果に対応する人顔対象と所定の人体部位対象を1人に属すると確定する可能性を向上させ、関連対象検出の正確性を向上させる。
画像に複数ペアの人顔対象と所定の人体部位対象との組み合わせが含まれているため、S104を実行するときに、通常、複数の第1関連性予測結果を確定することができることを理解できる。このときに、S1082を実行するときに、前記複数の第1関連性予測結果を順に現在第1関連性予測結果として、第1人体対象と第2人体対象をマッチングしてマッチング結果を得ることができる。つぎに、前記マッチング結果に基づいて当該現在第1関連性予測結果を調整することができる。
いくつかの例において、以下のアイデアに従って、第1関連性予測結果を調整することができる。ここで、関連性予測結果は関連性予測スコアを含み得、関連性予測スコアが高いほど、両者の関連性が強い。第1人体対象と第2人体対象が一致する場合、前記第1関連性予測結果における関連性予測スコアを増加し、および/または、第1人体対象と第2人体対象が一致しない場合、前記第1関連性予測結果における関連性予測スコアを減少する。
本例において、第1人体対象と第2人体対象が一致する場合、前記第1関連性予測結果における関連性予測スコアを増加し、および/または、第1人体対象と第2人体対象が一致しない場合、前記第1関連性予測の予測結果における関連性スコアを減少することができる。したがって、1人に属する人顔対象と所定の人体部位対象との間の関連性予測スコアを増加し、および/または、1人に属しない人顔対象と所定の人体部位対象の間関連性予測スコアを減少することによって、関連対象検出の正確性を向上させる。
本発明は、前記第1関連性予測結果における関連性予測スコアを減少したり増加したりする方法に対して特に限定しないことを説明する必要がある。たとえば、第1関連性予測結果における関連性予測スコアを増加または減少するときに、元の第1関連性予測結果における関連性予測スコアに基づいて、所定の値を増加または減少することができる。
いくつかの例において、画像をインスタンス分割して得られた分割結果は、前記画像に含まれた各人体対象にそれぞれ対応する領域に加えて、さらに、インスタンス分割結果の正確性の信頼度を示すスコアを含むことができる。このときに、人顔対象と所定の人体部位対象との間の第1関連性予測結果における関連性予測スコアを増加するときに、当該第1関連性予測結果における関連性予測スコアを、前記人顔対象が帰属する人体対象に対応する信頼度スコアまでに増加することができる。第1関連性予測結果における関連性予測スコアを減少するときに、元の第1関連性予測結果における関連性予測スコアを半分にすることができる。
いくつかの例において、S1064を実行するときに、人顔対象が帰属する第1人体対象または所定の人体部位対象が帰属する第2人体対象を確定できない状況が現れる可能性がある。このような状況が現れると、当該人顔対象または当該所定の人体対象に対応する関連性予測結果を調整しないでもよい。
引き続き図2を参照すると、前記第1関連性予測結果を調整した後に、引き続きS1084を実行することができ、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて、前記画像内の関連対象を確定する。
いくつかの例において、当前記画像が1つの人顔対象と1つの所定の人体部位対象と1つの人手対象のみを含む場合、前記画像内の関連対象を確定するときに、前記第1関連性予測結果における関連性予測スコア、前記第2関連性予測結果における関連性予測スコア、および、前記第3関連性予測結果における関連性予測スコアを加算して、加算結果を得ることができる。前記加算結果を得た後に、前記加算結果が所定の標準値に達したか否かを確定することができる。前記加算結果が前記所定の標準値に達した場合、画像に含まれた人顔対象と人手対象が互いに関連対象であると見なすことができる。本発明のいくつかの実施例において、前記所定の標準値は、具体的に、実際の状況に応じて設定した経験閾値であり得る。たとえば、当該所定の標準値は、0.95であり得る。
前記画像が複数の人顔対象と所定の人体部位対象と人手対象とを含むときに、前記画像内の関連対象を確定するときに、検出された前記人顔対象と前記所定の人体部位対象と前記人手対象とを組み合わせて、少なくとも1つの三要素セットを生成し、その中で、各三要素セットは、1つの人顔対象と1つの所定の人体部位対象と1つの人手対象とを含む。複数の三要素セットを取得した後に、前記画像内の関連対象を確定することができる。
本発明のいくつかの実施例において、まず、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて各三要素セットに対応する第4関連性予測結果を確定することができる。
いくつかの例において、前記第4関連性予測結果は、関連性予測スコアを含み得る。前記複数の三要素セットにそれぞれ対応する関連性予測結果における関連性予測スコアを確定するときに、前記複数の三要素セット中の各三要素セットを順に現在三要素セットとして確定することができる。その後に、現在三要素セットに含まれた人顔対象と所定の人体部位対象とに対応する調整後の第1関連性予測結果における関連性予測スコア、所定の人体部位対象と人手対象とに対応する第2関連性予測結果における関連性予測スコア、および、人顔対象と人手対象とに対応する第3関連性予測結果における関連性予測スコアの合計を、現在三要素セットに対応する関連性予測結果における関連性予測スコアとして確定することができる。
本発明は、調整後の前記第1関連性予測結果における関連性予測スコア、前記第2関連性予測結果における関連性予測スコア、および、前記第3関連性予測結果における関連性予測スコアに基づいて、前記複数の三要素セットにそれぞれ対応する関連性予測結果における関連性予測スコアを確定する具体的な方法を特に限定しないことを説明する必要がある。たとえば、さらに、前記3つのスコアに対して、乗算、加重和、平均化などを実行する方法によって、三要素セットに対応する関連性予測結果における関連性予測スコアを確定することができる。
前記複数の三要素セットのそれぞれに対応する関連性予測結果を得た後に、各三要素セットに対応する関連性予測結果に基づいて前記画像内の関連対象を確定することができる。
前記各三要素セットに対応する第4関連性予測結果は、当該三要素セットに含まれた人顔対象と人手対象とが1人に属する可能性を示すことができる。たとえば、前記第4関連性予測結果を関連性予測結果における関連性予測スコアで示す場合、関連性予測結果における関連性予測スコアがより高いと、当該関連性予測結果に対応する三要素セット中の人顔対象と人手対象とが1人に属する可能性がより大きいことを意味する。
したがって、本例において、各三要素セットに対応する関連性予測結果に基づいて前記画像内の関連対象を確定することによって、密接に関連する三要素セット中の人顔対象と人手対象とを関連対象として確定することができ、関連対象検出の正確性を向上させた。
いくつかの例において、各三要素セットに対応する第4関連性予測結果に基づいて前記画像内の関連対象を確定するときに、優先的に、第4関連性予測結果における関連性予測スコアが高い三要素セットに含まれた人顔対象と人手対象を、関連性を持つ人顔対象と人手対象として確定することができる。
関連性予測結果における関連性予測スコアが高いことは、三要素セット中の人顔対象と人手対象との関連性が強いことを意味するため、いくつかの例において、関連性予測結果における関連性予測スコアの降順に従って、順に三要素セット中の人顔対象と人手対象とが関連対象であるか否かを判断することができる。
実際の状況において、通常、1つの人顔対象に最大限2つの人手対象が対応され、または1つの人手対象に最大限1つの人顔対象が対応される。前記実際の状況を満たすために、いくつかの例において、優先的に、関連性予測結果における関連性予測スコアがより高い三要素セットに含まれた人顔対象と人手対象とを、関連性を持つ人顔対象と人手対象として確定するときに、各三要素セットに対応する前記関連性予測結果における関連性予測スコアの降順に従って、各三要素セットを順に現在三要素セットとして確定し、各現在三要素セットに対して、既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第1所定の閾値に達したか否かを確定することと、現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第2所定の閾値に達したか否かを確定することと、を実行することができる。
前記第1所定の閾値は、具体的に、実際の状況に応じて設定した経験閾値であり得る。たとえば、前記第1所定の閾値は、2であり得る。
前記第2所定の閾値は、具体的に、実際の状況に応じて設定した経験閾値であり得る。たとえば、前記第2所定の閾値は、1であり得る。
いくつかの例において、各人顔対象と各人手対象とに対してそれぞれカウンターを維持し、任意の人顔対象と互いに関連対象である関連人手対象を確定するたびに、前記関連人顔対象に対応するカウンターの値に1を加算する。この場合、既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第1所定の閾値に達したか否かを確定するときに、前記人顔対象に対応するカウンターのカウント値が第1所定の閾値に達したか否かを確定することによって、前記人顔対象と互いに関連対象である関連人手対象の数が第1所定の閾値に達したか否かを確定することができる。現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第2所定の閾値に達したか否かを確定するときに、前記人手対象に対応するカウンターのカウント値が第2所定の閾値に達したか否かを確定することによって、前記人手対象と互いに関連対象である関連人顔対象の数が第2所定の閾値に達したか否かを確定することができる。
現在三要素セットに含まれた人顔対象と関連している関連人手対象の数が前記第1所定の閾値に達していないし、かつ、現在三要素セットに含まれた人手対象と関連している関連人顔対象の数が前記第2所定の閾値に達していないと、現在三要素セットに含まれた人顔対象と人手対象とを前記画像内の関連対象として確定することができる。
関連対象を確定するときに、現在三要素セットに含まれた人顔対象と関連している関連人手対象の数が前記第1所定の閾値に達していないし、かつ、現在三要素セットに含まれた人手対象と関連している関連人顔対象の数が前記第2所定の閾値に達していない場合、現在三要素セット中の人顔対象と人手対象とを関連対象として確定することができる。したがって、1つの人顔対象と2つを超える人手対象とが関連される状況および1つの人手対象と1つを超える人顔対象が関連される状況が現れることを回避することができる。
いくつかの例において、画像内の関連対象を確定した後に、当該画像内の関連対象の検出結果を出力することができる。いくつかの例において、画像出力デバイス(たとえばディスプレイ)に前記関連対象によって指示する人顔対象と人手対象を含むバウンディングボックスを出力することができる。前記関連対象を含むバウンディングボックスを表示することによって、観察者が画像出力デバイスに表示された画像内の関連対象を便利かつ直感的に確定することができるようにして、関連対象の検出結果に対する手動検証が便利になる。
上記は、本発明に係る画像内の関連対象を確定する技術的解決策の紹介であり、以下、当該技術的解決策で使用した各モデルのトレーニング方法を紹介する。
引き続き図2を参照する。図2に示す技術的解決策において、ニューラルネットワークに基づいて構築した対象検出モデルを採用して、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することができる。ニューラルネットワークに基づいて構築した関連性予測モデルを採用して、前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行することができる。ニューラルネットワークに基づいて構築したインスタンス分割モデルを採用して、前記画像に含まれた人体対象に対して分割を実行することができる。前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルは、同じバックボーンネットワークを共有することができることを理解できる。
いくつかの例において、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して、トレーニングサンプルセットをそれぞれ構築し、構築したトレーニングサンプルセットに基づいて、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルをそれぞれトレーニングすることができる。
いくつかの例において、関連対象検出の精度を向上させるために、セグメント化トレーニングの方法を採用して各モデルをトレーニングすることができる。その中で、第1セグメントは、対象検出モデルおよびインスタンス分割モデルに対するトレーニングであり、第2セグメントは、対象検出モデル、インスタンス分割モデル、および、関連性予測モデルに対する共同トレーニングである。
図7を参照すると、図7は本発明の実施例のモデルトレーニング方法の1つのフローを示す模式図である。
図7に示すように、当該方法は、S702を含み、当該S702において、第1トレーニングサンプルセットに基づいて前記対象検出モデルをトレーニングし、その中で、前記第1トレーニングサンプルセットは、第1ラベリング情報を有する画像トレーニングサンプルを含み、前記第1ラベリング情報は、人顔対象と前記所定の身体部位対象と人手対象とのバウンディングボックスを含む。
本ステップを実行するときに、手動ラベリングまたは機械補助ラベリングの方法を採用して、元の画像に対して真の値をラベリングすることができる。たとえば、元の画像を取得した後に、画像ラベリングツールを使用して元の画像内に含まれている人顔対象バウンディングボックス、人手対象バウンディングボックス、および、所定の人体部位対象(たとえば肘)バウンディングボックスに対してラベリングを実行することによって、いくつかの画像トレーニングサンプルを得ることができる。画像トレーニングサンプルを符号化するときに、one―hot符号化(ワンホット符号化)などの方法を採用して符号化することができ、本発明は符号化の具体的な方法を限定しないことを説明する必要がある。
第1トレーニングサンプルセットを確定した後に、当該モデルが収束するまで、所定の損失関数に基づいて対象検出モデルをトレーニングすることができる。
S704において、第2トレーニングサンプルセットに基づいて前記インスタンス分割モデルをトレーニングし、その中で、前記第2トレーニングサンプルセットは、第2ラベリング情報を有する画像トレーニングサンプルを含み、前記第2ラベリング情報は、人体対象のバウンディングボックスを含む。
前記画像トレーニングサンプルを構築するときに、まず、元の画像を取得することができる。元の画像を取得した後に、ラベリングツールを利用して前記元の画像内に含まれている各人体対象を確定することができる。各人体対象を確定した後に、当該ラベリングツールを利用して、各人体対象に対応するバウンディングボックスに対してそれぞれラベリングを実行することができる。ラベリングを実行するときに、各バウンディングボックス内のピクセル点に対して異なるピクセル値をラベリングすることができる。たとえば、前記元の画像は、人体対象A、人体対象B、および、人体対象Cを含む。ラベリングを実行するときに、人体対象Aのバウンディングボックス内のピクセル点に対してピクセル値1をラベリングし、人体対象Bのバウンディングボックス内のピクセル点に対してピクセル値2をラベリングし、人体対象Cのバウンディングボックス内のピクセル点に対してピクセル値3をラベリングすることができる。第2トレーニングサンプルセットを確定した後に、当該モデルが収束するまで、従来のモデルトレーニング方法によって前記インスタンス分割モデルをトレーニングすることができる。
S706において、第3トレーニングサンプルセットに基づいて、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して共同トレーニングを実行し、その中で、前記第3トレーニングサンプルセットは、第3ラベリング情報を有する画像トレーニングサンプルを含み、前記第3ラベリング情報は、人顔対象と所定の身体部位対象と人手対象と人体対象とにそれぞれ対応するバウンディングボックス、人顔対象と所定の身体部位対象との間の関連性ラベリング情報、所定の身体部位対象と人手対象との間の関連性ラベリング情報、および、人顔対象と人手対象との間の関連性ラベリング情報を含む。
本ステップを実行するときに、手動ラベリングまたは機械補助ラベリングの方法を採用して、元の画像に対して真の値をラベリングすることができる。たとえば、元の画像を取得した後、一方では、画像ラベリングツールを使用して、元の画像内に含まれている人顔対象バウンディングボックス、人手対象バウンディングボックス、および、所定の人体部位対象(たとえば肘)バウンディングボックスに対してラベリングを実行することができる。もう一方では、画像ラベリングツールを利用して、前記元の画像内に含まれている各人体対象を確定することができる。各人体対象を確定した後に、当該ラベリングツールを利用して、各人体対象に対応するバウンディングボックスに対してそれぞれラベリングを実行することができる。別の一方では、ラベリングツールを利用して、元の画像内に含まれている人顔対象と所定の人体部位対象とをランダムに組み合わせを実行し、元の画像内に含まれている人顔対象と人手対象とをランダムに組み合わせを実行し、元の画像内に含まれている所定の人体部位対象と人手対象とをランダムに組み合わせを実行して、複数の組み合わせ結果を得ることができる。その後に、さらに、各組み合わせ中の2つの対象に対して関連性結果ラベリングを実行する。いくつかの例において、組み合わせ中の2つの対象が1人に属すると、1をラベリングし、そうではないと、0をラベリングする。
第3トレーニングサンプルセットを確定した後に、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルのそれぞれに対応する損失関数に基づいて、共同学習損失関数を確定することができる。いくつかの例において、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルのそれぞれに対応する損失関数を加算して、前記共同学習損失関数を得ることができる。本発明では、さらに、前記共同学習損失関数に正則化項目などのハイパーパラメータを増加することができることを説明する必要がある。ここで追加するハイパーパラメータの種類を特に限定しない。
共同トレーニング損失関数を得た後に、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルがいずれも収束するまで、前記共同学習損失関数および前記第3トレーニングサンプルセットに基づいて、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して、共同トレーニングを実行することができる。
モデルをトレーニングするときに、まず、学習率、トレーニングサイクル回数などのハイパーパラメータを指定することができる。前記ハイパーパラメータを確定した後に、真の値をラベリングした前記画像トレーニングサンプルに基づいて各モデルに対して教師ありトレーニングを実行することができる。
1回の教師ありトレーニング過程で、順伝播を実行して各モデルによって出力される計算結果を得ることができる。各モデルによって出力される計算結果を得た後に、構築した共同学習損失関数に基づいて前記計算結果の誤差を評価することができ、すなわち、前記計算結果と真の値との間の差異を評価することができる。誤差を得た後に、確率的勾配降下法を採用して降下勾配を確定することができる。降下勾配を確定した後に、逆伝播を実行して前記各モデルに対応するモデルパラメータを更新することができる。その後に、前記各モデルが収束するまで、パラメータを更新した後の各モデルを利用して前記過程を繰り返す。前記モデル収束の条件は、所定のトレーニング回数に達したこと、または、連続的にM(Mは1より大きい正の整数である)回の順伝播の後に得られた共同学習損失関数の変化量が一定の閾値未満であることであり得ることを説明する必要がある。本発明は、モデル収束の条件に対して特に限定しない。
前記モデルトレーニングで教師ありの共同トレーニング方法を採用したため、各モデルに対して同時にトレーニングを実行することによって、各モデル間がトレーニング過程で互いに拘束し、また互いに促進することができ、一方では、各モデルの収束効率を向上させることができ、もう一方では、各モデルの共有のバックボーンネットワークが関連対象検出により有益な特徴を抽出するように促進し、関連対象検出の精度を向上させる。
本発明は、画像内関連対象検出装置をさらに提供する。図8を参照すると、図8は本発明に係る画像内関連対象検出装置を示す構成図である。
図8に示すように、前記装置80は、画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出するための対象検出モジュール81と、
前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第1関連性予測結果、前記所定の人体部位対象と前記人手対象の第2関連性予測結果、および、前記人顔対象と前記人手対象の第3関連性予測結果を得るための関連性予測モジュール82と、
前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定するための帰属関係確定モジュール83と、
第1人体対象、および、第2人体対象に基づいて前記第1関連性予測結果を調整し、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて、前記画像内の関連対象を確定するための関連対象確定モジュール84と、を備える。
示されたいくつかの実施例において、前記対象検出モジュール81は、具体的に、画像内の人顔対象、および、所定の人体部位対象にそれぞれ対応する第1バウンディングボックスおよび第2バウンディングボックスを検出し、前記帰属関係確定モジュール83は、前記第1バウンディングボックスに基づいて前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第1重複範囲を確定し、第2バウンディングボックスに基づいて前記所定の人体部位対象に対応する領域と各前記人体対象に対応する領域との間の第2重複範囲を確定するための重複範囲確定モジュールと、前記第1重複範囲および第2重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定するための帰属関係確定サブモジュールと、を備える。
示されたいくつかの実施例において、前記帰属関係確定サブモジュールは、具体的に、各前記人体対象にそれぞれ対応する領域のうち、前記人顔対象に対応する領域との第1重複範囲が最大である第1目標領域を確定し、各前記人体対象にそれぞれ対応する領域のうち、前記所定の人体部位対象に対応する領域との第2重複範囲が最大である第2目標領域を確定し、前記第1目標領域に対応する人体対象を前記人顔対象が帰属する第1人体対象として確定し、前記第2目標領域に対応する人体対象を前記所定の人体部位対象が帰属する第2人体対象として確定する。
示されたいくつかの実施例において、前記関連対象確定モジュール84は、具体的に、第1人体対象と第2人体対象をマッチングしてマッチング結果を得、前記マッチング結果に基づいて前記第1関連性予測結果を調整する。
示されたいくつかの実施例において、前記関連対象確定モジュール84は、具体的に、前記第1人体対象と前記第2人体対象とがマッチングされる場合、前記第1関連性予測結果における関連性予測スコアを増加し、および/または、前記第1人体対象と前記第2人体対象とがマッチングされない場合、前記第1関連性予測結果における関連性スコアを減少する。
示されたいくつかの実施例において、前記装置80は、検出された前記人顔対象と前記所定の人体部位対象と前記人手対象とを組み合わせて、少なくとも1つの三要素セットを生成するための組合せモジュールをさらに備え、その中で、各三要素セットは、1つの人顔対象と1つの所定の人体部位対象と1つの人手対象とを含み、前記関連性予測モジュール82は、具体的に、各三要素セット中の2つの対象ごとに関連性予測を実行し、前記関連対象確定モジュール84は、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて各三要素セットに対応する第4関連性予測結果を確定するための三要素セット関連関係予測モジュールと、各三要素セットに対応する第4関連性予測結果に基づいて前記画像内の関連対象を確定するための関連対象確定サブモジュールと、を備える。
示されたいくつかの実施例において、前記関連対象確定サブモジュールは、具体的に、各三要素セットに対応する前記第4関連性予測結果における関連性予測スコアの降順に従って、各三要素セットを順に現在三要素セットとして確定して、以下の操作を実行し、当該操作は、既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第1所定の閾値に達したか否かを確定し、また、現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第2所定の閾値に達したか否かを確定することと、前記関連人手対象の数が前記第1所定の閾値に達していないし、同時に、前記関連人顔対象の数が前記第2所定の閾値に達していないと、現在三要素セットに含まれた人顔対象と人手対象とを前記画像内の関連対象として確定することと、を含む。
示されたいくつかの実施例において、前記所定の人体部位対象は、肩対象、および、肘対象の中の少なくとも1つを含む。
示されたいくつかの実施例において、前記装置80は、前記画像内の関連対象の検出結果を出力するための出力モジュールをさらに備える。
示されたいくつかの実施例において、前記対象検出モジュール81は、具体的に、ニューラルネットワークに基づいて構築した対象検出モデルを採用して、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出し、前記関連性予測モジュール82は、具体的に、ニューラルネットワークに基づいて構築した関連性予測モデルを採用して、前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行し、前記帰属関係確定モジュール83は、具体的に、ニューラルネットワークに基づいて構築したインスタンス分割モデルを採用して前記画像に含まれた人体対象に対して分割を実行する。
示されたいくつかの実施例において、前記装置80は、第1トレーニングサンプルセットに基づいて前記対象検出モデルをトレーニングするための第1トレーニングモジュールと、第2トレーニングサンプルセットに基づいて前記インスタンス分割モデルをトレーニングするための第2トレーニングモジュールと、第3トレーニングサンプルセットに基づいて前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して、共同トレーニングを実行するための共同トレーニングモジュールと、を備え、その中で、前記第1トレーニングサンプルセットは、第1ラベリング情報を有する画像トレーニングサンプルを含み、前記第1ラベリング情報は、人顔対象と前記所定の身体部位対象と人手対象とのバウンディングボックスを含み、前記第2トレーニングサンプルセットは、第2ラベリング情報を有する画像トレーニングサンプルを含み、前記第2ラベリング情報は、人体対象のバウンディングボックスを含み、前記第3トレーニングサンプルセットは、第3ラベリング情報を有する画像トレーニングサンプルを含み、前記第3ラベリング情報は、人顔対象と所定の身体部位対象と人手対象と人体対象とにそれぞれ対応するバウンディングボックス、人顔対象と所定の身体部位対象との間の関連性ラベリング情報、所定の身体部位対象と人手対象との間の関連性ラベリング情報、および、人顔対象と人手対象との間の関連性ラベリング情報を含む。
本発明に示す画像内関連対象検出装置の実施例は、電子デバイスに適用され得る。これに応じて、本発明は、電子デバイスを開示し、当該デバイスは、プロセッサと、プロセッサによって実行可能な命令を格納するためのメモリと、を備え、その中で、前記プロセッサは、前記メモリに格納された実行可能命令を呼び出して、前記の任意の実施例に示す画像内関連対象検出方法を実装するように構成される。
図9を参照すると、図9は、本発明に示す電子デバイスのハードウェア構成図である。図9に示すように、当該電子デバイスは、命令を実行するためのプロセッサと、ネットワーク接続を実行するためのネットワークインターフェースと、プロセッサのために運行データを記憶するためのメモリと、画像処理装置に対応する命令を記憶するための不揮発性メモリと、を含み得る。画像処理装置の実施例は、ソフトウェア、ハードウェア、または、両者の組み合わせによって実装され得る。ソフトウェアによって実装される例をとると、論理装置として、電子デバイスのプロセッサによって不揮発性メモリ内の対応するコンピュータプログラム命令をメモリに読み取って運行されて形成され得る。ハードウェアの観点からは、図9に示すプロセッサ、メモリ、ネットワークインターフェース、および、不揮発性メモリに加えて、実施例の装置が配置される電子デバイスは、一般的に、実際の機能に基づく他のハードウェアを含み、これに対して繰り返して説明しない。処理速度を上げるために、画像処理装置に対応する命令も直接メモリに記憶することができ、本発明はこれに対して限定しないことを理解できる。
本発明は、コンピュータ可読記録媒体を提供し、前記記録媒体には、コンピュータプログラムが格納されており、前記コンピュータプログラムは、前記の任意の実施例に示す画像内関連対象検出方法を実行する。
当業者は、本発明の1つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の1つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形式を使用することができる。また、本発明の1つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む1つまたは複数のコンピュータ利用可能な記憶媒体(ディスクメモリ、CD-ROM、光学メモリなどを含むが、これらに限定されない)上で実施されるコンピュータプログラム製品の形式を使用することができる。
本発明での「および/または」は、少なくとも両者の中の1つを有することを示し、たとえば、「Aおよび/またはB」は、A、B、および、「AおよびB」のような3つの解決策を含み得る。
本発明における各実施例は、いずれも、漸進的な方式を使用して叙述され、各実施例同士の間の同一または類似な部分は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の部分の説明を参照すればよい。
上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果を得るために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。
本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの1つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、1つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の1つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの1つまたは複数の組み合わせであり得る。
本発明における処理と論理フローは、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(専用集積回路)などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。
コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および/または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および/または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための1つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための1つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう1デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム(GPS)レジーバー、または、汎用シリアルバス(USB)フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。
コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、様々な形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス(たとえば、EPROM、EEPROM、および、フラッシュメモリ)、磁気ディスク(たとえば、内部ハードディスクまたは移動可能ディスク)、磁気光学ディスク、CD―ROM、DVD―ROMなどを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。
本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの1つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせるの変形に向けることができる。
類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。
したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。
上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の範囲に含まれるべきである。

Claims (15)

  1. 画像内関連対象検出方法であって、
    画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出することと、
    前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第1関連性予測結果と、前記所定の人体部位対象と前記人手対象の第2関連性予測結果と、前記人顔対象と前記人手対象の第3関連性予測結果と、を得ることと、
    前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定することと、
    前記第1人体対象および前記第2人体対象に基づいて、前記第1関連性予測結果を調整することと、
    調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて、前記画像内の関連対象を確定することと、を含む
    ことを特徴とする画像内関連対象検出方法。
  2. 前記画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することは、
    画像内の人顔対象、および、所定の人体部位対象にそれぞれ対応する第1バウンディングボックスおよび第2バウンディングボックスを検出することを含み、
    前記分割して得られた各前記人体対象に対応する領域に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定することは、
    前記第1バウンディングボックスに基づいて前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第1重複範囲を確定することと、
    前記第2バウンディングボックスに基づいて前記所定の人体部位対象に対応する領域と各前記人体対象に対応する領域との間の第2重複範囲を確定することと、
    前記第1重複範囲および前記第2重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定することと、を含む
    ことを特徴とする請求項1に記載の画像内関連対象検出方法。
  3. 前記第1重複範囲および前記第2重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第1人体対象および第2人体対象を確定することは、
    各前記人体対象にそれぞれ対応する領域のうち、前記人顔対象に対応する領域との第1重複範囲が最大である第1目標領域を確定することと、
    各前記人体対象にそれぞれ対応する領域のうち、前記所定の人体部位対象に対応する領域との第2重複範囲が最大である第2目標領域を確定することと、
    前記第1目標領域に対応する人体対象を前記人顔対象が帰属する第1人体対象として確定することと、
    前記第2目標領域に対応する人体対象を前記所定の人体部位対象が帰属する第2人体対象として確定することと、を含む
    ことを特徴とする請求項2に記載の画像内関連対象検出方法。
  4. 前記第1人体対象、および、前記第2人体対象に基づいて前記第1関連性予測結果を調整することは、
    前記第1人体対象と前記第2人体対象をマッチングしてマッチング結果を得ることと、
    前記マッチング結果に基づいて前記第1関連性予測結果を調整することと、を含む
    ことを特徴とする請求項1~3のいずれか1項に記載の画像内関連対象検出方法。
  5. 前記マッチング結果に基づいて前記第1関連性予測結果を調整することは、
    前記第1人体対象と前記第2人体対象がマッチングされる場合、前記第1関連性予測結果における関連性予測スコアを増加すること、および/または、
    前記第1人体対象と前記第2人体対象とがマッチングされない場合、前記第1関連性予測結果における関連性予測スコアを減少することを含む
    ことを特徴とする請求項4に記載の画像内関連対象検出方法。
  6. 検出された前記人顔対象と前記所定の人体部位対象と前記人手対象とを組み合わせて、1つの人顔対象と1つの人体部位対象と1つの人手対象とを含む三要素セットを少なくとも1つ生成することをさらに含み、
    前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行することは、
    各三要素セット中の2つの対象ごとに関連性予測を実行することを含み、
    前記調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて前記画像内の関連対象を確定することは、
    調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて各三要素セットに対応する第4関連性予測結果を確定することと、
    各三要素セットに対応する第4関連性予測結果に基づいて前記画像内の関連対象を確定することと、を含む
    ことを特徴とする請求項1~5のいずれか1項に記載の画像内関連対象検出方法。
  7. 前記各三要素セットに対応する第4関連性予測結果に基づいて前記画像内の関連対象を確定することは、
    各三要素セットに対応する前記第4関連性予測結果における関連性予測スコアの降順に従って、各三要素セットを順に現在三要素セットとして確定して、以下の操作を実行することを含み、
    当該操作は、
    既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第1所定の閾値に達したか否かを確定し、また、現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第2所定の閾値に達したか否かを確定することと、
    前記関連人手対象の数が前記第1所定の閾値に達していないし、同時に、前記関連人顔対象の数が前記第2所定の閾値に達していないと、現在三要素セットに含まれた人顔対象と人手対象とを前記画像内の関連対象として確定することと、を含む
    ことを特徴とする請求項6に記載の画像内関連対象検出方法。
  8. 前記所定の人体部位対象は、肩対象、および、肘対象の中の少なくとも1つを含む
    ことを特徴とする請求項1~7のいずれか1項に記載の画像内関連対象検出方法。
  9. 前記画像内の関連対象の検出結果を出力することをさらに含む
    ことを特徴とする請求項1~8のいずれか1項に記載の画像内関連対象検出方法。
  10. 前記画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することは、
    ニューラルネットワークに基づいて構築した対象検出モデルを採用して、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することを含み、
    前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行することは、
    ニューラルネットワークに基づいて構築した関連性予測モデルを採用して、前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行することを含み、
    前記画像に含まれた人体対象に対して分割を実行することは、
    ニューラルネットワークに基づいて構築したインスタンス分割モデルを採用して前記画像に含まれた人体対象に対して分割を実行することを含む
    ことを特徴とする請求項1~9のいずれか1項に記載の画像内関連対象検出方法。
  11. 第1トレーニングサンプルセットに基づいて前記対象検出モデルをトレーニングすることと、
    第2トレーニングサンプルセットに基づいて前記インスタンス分割モデルをトレーニングすることと、
    第3トレーニングサンプルセットに基づいて前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して共同トレーニングを実行することと、をさらに含み、
    前記第1トレーニングサンプルセットは、第1ラベリング情報を有する画像トレーニングサンプルを含み、前記第1ラベリング情報は、人顔対象、前記所定の身体部位対象、および、人手対象のバウンディングボックスを含み、
    前記第2トレーニングサンプルセットは、第2ラベリング情報を有する画像トレーニングサンプルを含み、前記第2ラベリング情報は、人体対象のバウンディングボックスを含み、
    前記第3トレーニングサンプルセットは、第3ラベリング情報を有する画像トレーニングサンプルを含み、前記第3ラベリング情報は、人顔対象と所定の身体部位対象と人手対象と人体対象とにそれぞれ対応するバウンディングボックス、人顔対象と所定の身体部位対象との間の関連性ラベリング情報、所定の身体部位対象と人手対象との間の関連性ラベリング情報、および、人顔対象と人手対象との間の関連性ラベリング情報を含む
    ことを特徴とする請求項10に記載の画像内関連対象検出方法。
  12. 画像内関連対象検出装置であって、
    画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出するための対象検出モジュールと、
    前記人顔対象と所定の人体部位対象と人手対象との中の2つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第1関連性予測結果と、前記所定の人体部位対象と前記人手対象の第2関連性予測結果と、前記人顔対象と前記人手対象の第3関連性予測結果と、を得るための関連性予測モジュールと、
    前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象、および、前記所定の人体部位対象がそれぞれ帰属する人体対象を確定するための帰属関係確定モジュールと、
    前記人顔対象、および、前記所定の人体部位対象がそれぞれ帰属する人体対象に基づいて、前記第1関連性予測結果を調整し、調整後の前記第1関連性予測結果と前記第2関連性予測結果と前記第3関連性予測結果とに基づいて、前記画像内の関連対象を確定するための関連対象確定モジュールと、を備える
    ことを特徴とする画像内関連対象検出装置。
  13. 電子デバイスであって、
    プロセッサと、
    前記プロセッサによって実行可能な命令を格納するためのメモリと、を備え、
    前記プロセッサは、前記メモリに格納された実行可能命令を呼び出して、請求項1から11のいずれか1項に記載の画像内関連対象検出方法を実装する
    ことを特徴とする電子デバイス。
  14. コンピュータプログラムが格納されているコンピュータ可読記録媒体であって、
    前記コンピュータプログラムは、請求項1から11のいずれか1項に記載の画像内関連対象検出方法を実行する
    ことを特徴とするコンピュータ可読記録媒体。
  15. コンピュータ命令を含むコンピュータプログラムであって、
    前記コンピュータ命令がデバイスのプロセッサによって運行されると、請求項1乃至11の中のいずれか1項に記載の方法が実現される
    ことを特徴とするコンピュータプログラム。
JP2021536343A 2020-12-31 2021-04-29 画像内関連対象検出方法、装置、デバイス、及び記録媒体 Withdrawn JP2023511242A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202013267T 2020-12-31
SG10202013267T 2020-12-31
PCT/IB2021/053563 WO2022144605A1 (en) 2020-12-31 2021-04-29 Methods, devices, apparatuses and storage media of detecting correlated objects in images

Publications (1)

Publication Number Publication Date
JP2023511242A true JP2023511242A (ja) 2023-03-17

Family

ID=79867888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021536343A Withdrawn JP2023511242A (ja) 2020-12-31 2021-04-29 画像内関連対象検出方法、装置、デバイス、及び記録媒体

Country Status (6)

Country Link
US (1) US11756205B2 (ja)
JP (1) JP2023511242A (ja)
KR (1) KR20220098312A (ja)
CN (1) CN114902299A (ja)
AU (1) AU2021203821B2 (ja)
PH (1) PH12021551366A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023504322A (ja) * 2021-06-21 2023-02-03 センスタイム インターナショナル プライベート リミテッド 人体と人手との関連付け方法、装置、設備及び記憶媒体
CN116486134A (zh) * 2023-03-02 2023-07-25 哈尔滨市科佳通用机电股份有限公司 基于深度神经网络的列车制动软管挂钩脱出故障检测方法
CN116895043B (zh) * 2023-06-13 2024-01-26 郑州宝冶钢结构有限公司 一种施工现场智能安全监控预警方法、系统及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2467643B (en) * 2009-02-04 2011-06-29 Honeywell Int Inc Improved detection of people in real world videos and images
JP5848551B2 (ja) * 2011-08-26 2016-01-27 キヤノン株式会社 学習装置、学習装置の制御方法、検出装置、検出装置の制御方法、およびプログラム
CN104123532B (zh) 2013-04-28 2017-05-10 浙江大华技术股份有限公司 对目标对象进行检测、确定目标对象数量的方法和设备
US9857881B2 (en) * 2015-12-31 2018-01-02 Microsoft Technology Licensing, Llc Electrical device for hand gestures detection
US10037458B1 (en) * 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition
WO2018207365A1 (ja) * 2017-05-12 2018-11-15 富士通株式会社 距離画像処理装置、距離画像処理システム、距離画像処理方法および距離画像処理プログラム
CN108038474B (zh) * 2017-12-28 2020-04-14 深圳励飞科技有限公司 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
WO2019222383A1 (en) * 2018-05-15 2019-11-21 Northeastern University Multi-person pose estimation using skeleton prediction
CN113272816A (zh) * 2019-01-25 2021-08-17 谷歌有限责任公司 进行脸部筛选的全人关联
KR20220004628A (ko) * 2019-03-12 2022-01-11 엘리먼트, 인크. 모바일 디바이스를 이용한 안면 인식 스푸핑의 검출
KR102199467B1 (ko) 2019-05-20 2021-01-07 넷마블 주식회사 기계 학습을 위한 데이터 수집 방법
KR102075293B1 (ko) * 2019-05-22 2020-02-07 주식회사 루닛 의료 영상의 메타데이터 예측 장치 및 방법
CN110636315B (zh) 2019-08-19 2020-12-15 北京达佳互联信息技术有限公司 一种多人虚拟直播方法、装置、电子设备及存储介质
CN110674719B (zh) * 2019-09-18 2022-07-26 北京市商汤科技开发有限公司 目标对象匹配方法及装置、电子设备和存储介质
CN110647834B (zh) * 2019-09-18 2021-06-25 北京市商汤科技开发有限公司 人脸和人手关联检测方法及装置、电子设备和存储介质
CN110852162B (zh) * 2019-09-29 2020-10-23 深圳云天励飞技术有限公司 一种人体完整度数据标注方法、装置及终端设备
CN110675433A (zh) * 2019-10-31 2020-01-10 北京达佳互联信息技术有限公司 视频处理方法、装置、电子设备及存储介质
CN110929651B (zh) * 2019-11-25 2022-12-06 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN111144215B (zh) * 2019-11-27 2023-11-24 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111680654B (zh) * 2020-06-15 2023-10-13 杭州海康威视数字技术股份有限公司 一种基于物品取放事件的人员信息获取方法、装置及设备
CN112527107B (zh) * 2020-11-30 2023-04-07 京东方科技集团股份有限公司 手势识别方法、装置、电子设备及存储介质
AU2021204583A1 (en) * 2021-03-17 2022-10-06 Sensetime International Pte. Ltd. Methods, apparatuses, devices and storage medium for predicting correlation between objects

Also Published As

Publication number Publication date
KR20220098312A (ko) 2022-07-12
AU2021203821B2 (en) 2022-08-18
AU2021203821A1 (en) 2022-07-14
US11756205B2 (en) 2023-09-12
PH12021551366A1 (en) 2021-12-13
US20220207741A1 (en) 2022-06-30
CN114902299A (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
US11308334B2 (en) Method and apparatus for integration of detected object identifiers and semantic scene graph networks for captured visual scene behavior estimation
WO2022213879A1 (zh) 目标对象检测方法、装置、计算机设备和存储介质
JP2023511242A (ja) 画像内関連対象検出方法、装置、デバイス、及び記録媒体
EP3853764A1 (en) Training neural networks for vehicle re-identification
WO2021164662A1 (zh) 交互关系识别方法、装置、设备及存储介质
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
US11941838B2 (en) Methods, apparatuses, devices and storage medium for predicting correlation between objects
US20220269883A1 (en) Methods, apparatuses, devices and storage media for predicting correlation between objects involved in image
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN110910375A (zh) 基于半监督学习的检测模型训练方法、装置、设备及介质
CN113557546B (zh) 图像中关联对象的检测方法、装置、设备和存储介质
CN116994319A (zh) 训练模型的方法和人脸识别方法、设备、介质
CN116958873A (zh) 行人跟踪方法、装置、电子设备及可读存储介质
US11961249B2 (en) Generating stereo-based dense depth images
CN114694257A (zh) 多人实时三维动作识别评估方法、装置、设备及介质
CN112115740B (zh) 用于处理图像的方法和装置
WO2022144605A1 (en) Methods, devices, apparatuses and storage media of detecting correlated objects in images
WO2022195338A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
WO2022195336A1 (en) Methods, apparatuses, devices and storage medium for predicting correlation between objects
CN114863473B (zh) 一种人体关键点检测方法、装置、设备及存储介质
CN115358379B (zh) 神经网络处理、信息处理方法、装置和计算机设备
CN113947635A (zh) 图像定位方法、装置、电子设备以及存储介质
WO2022175731A1 (en) Methods, apparatuses, devices and storage media for predicting correlation between objects involved in image
CN114998908A (zh) 样本图像标注、模型训练方法、装置、设备以及存储介质
CN117953581A (zh) 动作识别的方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210622

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20230209