JP2023511242A

JP2023511242A - 画像内関連対象検出方法、装置、デバイス、及び記録媒体

Info

Publication number: JP2023511242A
Application number: JP2021536343A
Authority: JP
Inventors: 柏▲潤▼ 王; 学森 ▲張▼; 春▲亞▼ ▲劉▼; 景▲煥▼ ▲陳▼; ▲帥▼ 伊
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2020-12-31
Filing date: 2021-04-29
Publication date: 2023-03-17
Also published as: KR20220098312A; AU2021203821B2; AU2021203821A1; US11756205B2; PH12021551366A1; US20220207741A1; CN114902299A

Abstract

本発明は、画像内関連対象検出方法、装置、デバイス、及び記録媒体を提供する。当該方法は、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出する。上記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行する。上記画像に含まれた人体対象に対して分割を実行し、分割して得られた各上記人体対象に対応する領域に基づいて、上記人顔対象、および、上記所定の人体部位対象がそれぞれ帰属する人体対象を確定する。上記人顔対象、および、上記所定の人体部位対象がそれぞれ帰属する人体対象に基づいて、上記人顔対象と上記所定の人体部位対象との間の第１関連性予測結果を調整し、調整後の上記第１関連性予測結果に基づいて上記画像内の関連対象を確定する。【選択図】図１

Description

本発明は、コンピュータ技術に関し、具体的には、画像内関連対象検出方法、装置、デバイス、及び記録媒体に関する。

＜関連出願の互いに引用＞
本発明は、出願日が２０２０年１２月３１日であり、出願番号が１０２０２０１３２６７Ｔであるシンガポール特許出願の優先権を主張し、当該シンガポール特許出願の全ての内容が参照として本願に組み入れられる。

インテリジェントなビデオ分析技術は、人間が物理的空間内の対象の状態および対象間の関係を了解するのに役立つ。インテリジェントなビデオ分析の１つの適用場面において、ビデオに登場する人体部位に基づいて当該部位に対応する人の身分を認識する必要がある。

具体的に、まず、識別が容易な第１人体部位と人の身分とを対応させる。前記の対応関係が維持された後に、ビデオに登場する第２人体部位と互いに関連対象である第１人体部位を確定し、確定された第１人体部位に基づいて当該第２人体部位に対応する人の身分を認識することができる。その中で、関連対象とは、同じ人に属する第１人体部位と第２人体部位を意味する。２つの人体部位が互いに関連対象であることは、前記の各人体部位が１人に属することとして見なすことができる。

画像内の人体部位を関連付けることによって、さらに、複数の人の場面での個人の行動と状態、および複数の人間の関係を分析するのに役立つ。たとえば、画像内から検出された複数の人顔対象、および、複数の人手対象のうち、１人に属する人顔対象と人手対象を確定することができる。１人に属する人顔対象と人手対象を確定した後、人手対象と関連している人顔対象に基づいて、当該人手対象を利用して所定の動作を実行する人または所定の領域に触れた人の身分情報を確定することができる。

これに鑑みて、本発明は、画像内関連対象検出方法を開示し、前記方法は、画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出することと、前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第１関連性予測結果、前記所定の人体部位対象と前記人手対象の第２関連性予測結果、および、前記人顔対象と前記人手対象の第３関連性予測結果を得ることと、前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象、および、前記所定の人体部位対象が帰属する第１人体対象、および、第２人体対象を確定することと、前記第１人体対象および前記第２人体対象に基づいて、前記第１関連性予測結果を調整し、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて、前記画像内の関連対象を確定することと、を含む。

示されたいくつかの実施例において、前記画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することは、画像内の人顔対象の第１バウンディングボックスおよび所定の人体部位対象の第２バウンディングボックスを検出することを含み、前記分割して得られた各前記人体対象に対応する領域に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定することは、前記第１バウンディングボックスに基づいて前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第１重複領域を確定することと、前記第２バウンディングボックスに基づいて前記所定の人体部位対象に対応する領域と各前記人体対象に対応する領域との間の第２重複範囲を確定することと、前記第１重複範囲および前記第２重複範囲に基づいて、前記人顔対象が帰属する第１人体対象、および、前記所定の人体部位対象がそれぞれ帰属する第１人体対象、および、第２人体対象を確定することと、を含む。

示されたいくつかの実施例において、前記第１重複範囲および前記第２重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定することは、各前記人体対象にそれぞれ対応する領域のうち、前記人顔対象に対応する領域との第１重複範囲が最大である第１目標領域を確定することと、各前記人体対象にそれぞれ対応する領域のうち、前記所定の人体部位対象に対応する領域との第２重複範囲が最大である第２目標領域を確定することと、前記第１目標領域に対応する人体対象を前記人顔対象が帰属する第１人体対象として確定することと、前記第２目標領域に対応する人体対象を前記所定の人体部位対象が帰属する第２人体対象として確定することと、を含む。

示されたいくつかの実施例において、前記人顔対象、および、前記所定の人体部位対象がそれぞれ帰属する第１人体対象、および、第２人体対象に基づいて、前記第１関連性予測結果を調整することは、第１人体対象と第２人体対象をマッチングしてマッチング結果を得ることと、前記マッチング結果に基づいて前記第１関連性予測結果を調整することと、を含む。

示されたいくつかの実施例において、前記マッチング結果に基づいて前記第１関連性予測結果を調整することは、前記第１人体対象と前記第２人体対象とがマッチングされる場合、前記第１関連性予測結果における関連性予測スコアを増加すること、および／または、前記第１人体対象と前記第２人体対象とがマッチングされない場合、前記第１関連性予測結果における関連性予測スコアを減少することを含む。

示されたいくつかの実施例において、前記方法は、検出された前記人顔対象と前記所定の人体部位対象と前記人手対象とを組み合わせて、１つの人顔対象と１つの人体部位対象と１つの人手対象とを含む三要素セットを少なくとも１つ生成することをさらに含み、前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行することは、各三要素セット中の２つの対象ごとに関連性予測を実行することを含み、前記調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて、前記画像内の関連対象を確定することは、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて各三要素セットに対応する第４関連性予測結果を確定することと、各三要素セットに対応する第４関連性予測結果に基づいて前記画像内の関連対象を確定することと、を含む。

示されたいくつかの実施例において、前記各三要素セットに対応する第４関連性予測結果に基づいて前記画像内の関連対象を確定することは、各三要素セットに対応する前記第４関連性予測結果における関連性予測スコアの降順に従って、各三要素セットを順に現在三要素セットとして確定して、以下の操作を実行することを含み、当該操作は、既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第１所定の閾値に達したか否かを確定し、また、現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第２所定の閾値に達したか否かを確定することと、前記関連人手対象の数が前記第１所定の閾値に達していないし、同時に、前記関連人顔対象の数が前記第２所定の閾値に達していないと、現在三要素セットに含まれた人顔対象と人手対象とを前記画像内の関連対象として確定することと、を含む。

示されたいくつかの実施例において、前記所定の人体部位対象は、肩対象、および、肘対象の中の少なくとも１つを含む。

示されたいくつかの実施例において、前記方法は、前記画像内の関連対象の検出結果を出力することをさらに含む。

示されたいくつかの実施例において、前記画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することは、ニューラルネットワークに基づいて構築した対象検出モデルを採用して、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することを含む。前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行することは、ニューラルネットワークに基づいて構築した関連性予測モデルを採用して、前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行することを含み、前記画像に含まれた人体対象に対して分割を実行することは、ニューラルネットワークに基づいて構築したインスタンス分割モデルを採用して前記画像に含まれた人体対象に対して分割を実行することを含む。

示されたいくつかの実施例において、前記方法は、第１トレーニングサンプルセットに基づいて前記対象検出モデルをトレーニングすることと、第２トレーニングサンプルセットに基づいて前記インスタンス分割モデルをトレーニングすることと、第３トレーニングサンプルセットに基づいて、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して共同トレーニングを実行することと、を含み、その中で、前記第１トレーニングサンプルセットは、第１ラベリング情報を有する画像トレーニングサンプルを含み、前記第１ラベリング情報は、人顔対象と前記所定の身体部位対象と人手対象とのバウンディングボックスを含み、前記第２トレーニングサンプルセットは、第２ラベリング情報を有する画像トレーニングサンプルを含み、前記第２ラベリング情報は、人体対象のバウンディングボックスを含み、前記第３トレーニングサンプルセットは、第３ラベリング情報を有する画像トレーニングサンプルを含み、前記第３ラベリング情報は、人顔対象と所定の身体部位対象と人手対象と人体対象とにそれぞれ対応するバウンディングボックス、人顔対象と所定の身体部位対象との間の関連性ラベリング情報、所定の身体部位対象と人手対象との間の関連性ラベリング情報、および、人顔対象と人手対象との間の関連性ラベリング情報を含む。

本発明は、画像内関連対象検出装置をさらに提供し、前記装置は、画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出するための対象検出モジュールと、前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第１関連性予測結果、前記所定の人体部位対象と前記人手対象の第２関連性予測結果、および、前記人顔対象と前記人手対象の第３関連性予測結果を得るための関連性予測モジュールと、前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定するための帰属関係確定モジュールと、第１人体対象、および、第２人体対象に基づいて前記第１関連性予測結果を調整し、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて、前記画像内の関連対象を確定するための関連対象確定モジュールと、を備える。

示されたいくつかの実施例において、前記対象検出モジュールは、具体的に、画像内の人顔対象、および、所定の人体部位対象にそれぞれ対応する第１バウンディングボックスおよび第２バウンディングボックスを検出し、前記帰属関係確定モジュールは、第１バウンディングボックスに基づいて前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第１重複範囲を確定し、第２バウンディングボックスに基づいて前記所定の人体対象に対応する領域と各前記人体対象に対応する領域との間の第２重複範囲を確定するための重複範囲確定モジュールと、前記第１重複範囲および第２重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定するための帰属関係確定サブモジュールと、を備える。

示されたいくつかの実施例において、前記帰属関係確定サブモジュールは、具体的に、各前記人体対象にそれぞれ対応する領域のうち、前記人顔対象に対応する領域との第１重複範囲が最大である第１目標領域を確定し、各前記人体対象にそれぞれ対応する領域のうち、前記所定の人体部位対象に対応する領域との第２重複範囲が最大である第２目標領域を確定し、前記第１目標領域に対応する人体対象を前記人顔対象が帰属する第１人体対象として確定し、前記第２目標領域に対応する人体対象を前記所定の人体部位対象が帰属する第２人体対象として確定する。

示されたいくつかの実施例において、前記関連対象確定モジュールは、具体的に、前記第１人体対象と上第２人体対象とをマッチングして、マッチング結果を得、前記マッチング結果に基づいて前記第１関連性予測結果を調整する。

示されたいくつかの実施例において、前記関連対象確定モジュールは、前記第１人体対象と前記第２人体対象とがマッチングされる場合、前記第１関連性予測結果における関連性予測スコアを増加し、および／または、前記第１人体対象と前記第２人体対象とがマッチングされない場合、前記第１関連性予測結果における関連性予測スコアを減少する。

示されたいくつかの実施例において、前記装置は、検出された前記人顔対象と前記所定の人体部位対象と前記人手対象とを組み合わせて、１つの人顔対象と１つの人体部位対象と１つの人手対象とを含む三要素セットを少なくとも１つ生成するための組合せモジュールをさらに備える。前記関連性予測モジュールは、具体的に、各三要素セット中の２つの対象ごとに関連性予測を実行し、前記関連対象確定モジュールは、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて各三要素セットに対応する第４関連性予測結果を確定するための三要素セット関連関係予測モジュールと、各三要素セットに対応する第４関連性予測結果に基づいて前記画像内の関連対象を確定する関連対象確定サブモジュールと、を備える。

示されたいくつかの実施例において、前記関連対象確定サブモジュールは、具体的に、各三要素セットに対応する前記第４関連性予測結果における関連性予測スコアの降順に従って、各三要素セットを順に現在三要素セットとして確定して、以下の操作を実行し、当該操作は、既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第１所定の閾値に達したか否かを確定し、また、現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第２所定の閾値に達したか否かを確定し、前記関連人手対象の数が前記第１所定の閾値に達していないし、同時に、現在三要素セットに含まれた人手対象と関連している関連人顔対象の数が前記第２所定の閾値に達していないと、現在三要素セットに含まれた人顔対象と人手対象とを前記画像内の関連対象として確定する。

示されたいくつかの実施例において、前記装置は、前記画像内の関連対象の検出結果を出力するための出力モジュールをさらに備える。

示されたいくつかの実施例において、前記対象検出モジュールは、具体的に、ニューラルネットワークに基づいて構築した対象検出モデルを採用して、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出し、前記関連性予測モジュールは、具体的に、ニューラルネットワークに基づいて構築した関連性予測モデルを採用して、前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行し、前記帰属関係確定モジュールは、具体的に、ニューラルネットワークに基づいて構築したインスタンス分割モデルを採用して前記画像に含まれた人体対象に対して分割を実行する。

示されたいくつかの実施例において、前記装置は、第１トレーニングサンプルセットに基づいて前記対象検出モデルをトレーニングするための第１トレーニングモジュールと、第２トレーニングサンプルセットに基づいて前記インスタンス分割モデルをトレーニングするための第２トレーニングモジュールと、第３トレーニングサンプルセットに基づいて前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して、共同トレーニングを実行するための共同トレーニングモジュールと、を備え、その中で、前記第１トレーニングサンプルセットは、第１ラベリング情報を有する画像トレーニングサンプルを含み、前記第１ラベリング情報は、人顔対象と前記所定の身体部位対象と人手対象とのバウンディングボックスを含み、前記第２トレーニングサンプルセットは、第２ラベリング情報を有する画像トレーニングサンプルを含み、前記第２ラベリング情報は、人体対象のバウンディングボックスを含み、その中で、前記第３トレーニングサンプルセットは、第３ラベリング情報を有する画像トレーニングサンプルを含み、前記第３ラベリング情報は、人顔対象と所定の身体部位対象と人手対象と人体対象とにそれぞれ対応するバウンディングボックス、人顔対象と所定の身体部位対象との間の関連性ラベリング情報、所定の身体部位対象と人手対象との間の関連性ラベリング情報、および、人顔対象と人手対象との間の関連性ラベリング情報を含む。

本発明は、電子デバイスをさらに提供し、前記デバイスは、プロセッサと、前記プロセッサによって実行可能な命令を格納するためのメモリと、を備え、その中で、前記プロセッサは、前記メモリに格納された実行可能命令を呼び出して、前記の任意の実施例に示す画像内関連対象検出方法を実装するように構成される。

本発明は、コンピュータ可読記録媒体をさらに提供し、前記記録媒体には、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、前記の任意の実施例に示す画像内関連対象検出方法を実行する。

前記方法の技術的解決策において、一方では、人手対象に密接に関連する所定の人体部位を媒介として使用することによって、人顔対象と当該所定の人体部位との間の第１関連性予測結果、当該所定の人体部位と人手対象との間の第２関連性予測結果、および、人顔対象と人手対象との間の第３関連性予測結果を、それぞれ確定する。その後に、さらに、前記第１関連性予測結果、前記第２関連性予測結果、および、前記第３関連性予測結果に基づいて、前記画像内の関連対象を確定することによって、関連対象を確定する過程で、より少ない干渉情報が導入され、関連性を持つ人顔対象と人手対象の確定結果の精度を保証する。

もう一方では、前記画像に含まれた人体対象に対して分割を実行した結果に基づいて人顔対象と当該所定の人体部位との間の第１関連性予測結果に対して最適化を実行することによって、人顔対象と当該所定の人体部位との間の関連性予測結果がより正確になるようにし、さらに関連対象確定結果の精度を向上させる。

上記の一般的な叙述と以下の細部の叙述は、例示的および解釈的なもの過ぎず、本発明に対する限定ではないことを理解すべきである。

以下、本発明の１つまたは複数の実施例の技術的解決策をより明確に説明するために、実施例の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は、本発明の１つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者は創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
本発明に係る画像内関連対象検出方法を示すフローチャートである。本発明に係る関連対象検出方法を示す模式図である。本発明に係る対象検出フローを示す模式図である。本発明に係る関連性予測フローを示す模式図である。本発明に係る関連性予測フローを示す模式図である。本発明に係る画像分割フローを示す模式図である。本発明の実施例に係るモデルトレーニング方法のフローを示す模式図である。本発明に係る画像内関連対象検出装置を示す構成図である。本発明に係る電子デバイスのハードウェアを示す構成図である。

以下、例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。

本発明で使用される用語は、特定の実施例を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明および添付の特許請求の範囲で使用される「一種」、「前記」、「当該」などの単数形は、文脈が他の意味を明確に示さない限り、複数形を含むことを意図している。本明細書で使用される「および／または」という用語は、１つまたは複数の関連するリストされたアイテムの任意の１つまたはすべての可能な組み合わせを含むことを指すことを理解すべきである。文脈に応じて、本明細書で使用される「もし」という単語は、「…場合」、「…すると」、または、「…ことに応答して」と解釈することができることをさらに理解すべきである。

本発明は、画像内関連対象検出方法（以下、関連対象検出方法と略称する）を提案することを意図している。一方では、当該方法は、人手対象に密接に関連する所定の人体部位を媒介として使用することによって、人顔対象と当該所定の人体部位との間の第１関連性予測結果、当該所定の人体部位と人手対象との間の第２関連性予測結果、および、人顔対象と人手対象との間の第３関連性予測結果を、それぞれ確定する。その後に、さらに、前記第１関連性予測結果、前記第２関連性予測結果、および、前記第３関連性予測結果に基づいて、前記画像内の関連対象を確定することによって、関連対象を確定する過程で、より少ない干渉情報が導入され、関連性を持つ人顔対象と人手対象の確定結果の精度を保証する。

もう一方では、当該方法は、前記画像に含まれた人体対象に対して分割を実行した結果に基づいて人顔対象と当該所定の人体部位との間の第１関連性予測結果に対して最適化を実行することによって、人顔対象と当該所定の人体部位との間の関連性予測結果がより正確になるようにし、さらに関連対象確定結果の精度を向上させる。

図１を参照すると、図１は本発明に係る画像内関連対象検出方法のフローチャートである。図１に示すように、前記方法は、以下のステップを含み得る。

Ｓ１０２において、画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出する。

Ｓ１０４において、前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第１関連性予測結果、前記所定の人体部位対象と前記人手対象の第２関連性予測結果、および、前記人顔対象と前記人手対象の第３関連性予測結果を得る。

Ｓ１０６において、前記画像に対して分割を実行して少なくとも１つの人体対象を確定し、分割して得られた各前記少なくとも１つの人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定する。

Ｓ１０８において、前記第１人体対象および前記第２人体対象に基づいて、前記第１関連性予測結果を調整し、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて、前記画像内の関連対象を確定する。

前記関連対象検出方法は、電子デバイスに適用され得る。その中で、前記電子デバイスは、関連対象検出方法に対応するソフトウェアシステムを搭載することによって、前記関連対象検出方法を実行することができる。本発明の実施例において、前記電子デバイスのタイプは、ノートパソコン、コンピュータ、サーバ、携帯電話、ＰＡＤ端末などであり得、本発明において特に限定しない。

前記関連対象検出方法は、端末デバイスまたはサービス側デバイスのみによって実行可能であり、または端末デバイスとサービス側デバイスが協働して実行可能であることを理解できる。

たとえば、前記関連対象検出方法は、クライアントに統合されることができる。当該クライアントを搭載する端末デバイスは、関連対象検出要求を受信した後、それ自体のハードウェア環境を介して計算能力を提供して前記関連対象検出方法を実行することができる。

また、たとえば、前記関連対象検出方法は、システムプラットフォームに統合することができる。当該システムプラットフォームを搭載するサービス側デバイスは、関連対象検出要求を受信した後に、それ自体のハードウェアを介して計算能力を提供して前記関連対象検出方法を実行することができる。

さらに、たとえば、前記関連対象検出方法は、画像を取得することと、画像に対して関連対象検出を実行することと、のような２つのタスクに分けることができる。その中で、取得タスクは、クライアントに統合されて端末デバイスに搭載されることができる。関連対象検出タスクは、サービス側に統合されてサービス側デバイスに搭載されることができる。前記クライアントは、画像を取得した後に、前記サービス側デバイスに関連対象検出要求を送信することができる。前記サービス側デバイスは、前記要求を受信した後に、前記要求に応答して、前記画像に対して前記関連対象検出方法を実行することができる。

以下、実行主体が電子デバイス（以下、デバイスと略称する）である例をとって説明する。

図２を参照すると、図２は本発明に係る関連対象検出方法の模式図である。

図２に示すように、図２に示す方法において、画像内に含まれている関連性を持つ人顔対象と人手対象を確定することができる。

その中で、前記画像とは、画像処理を実行する必要がある画像を指す。当該画像内には、いくつかの被検出対象が含まれ得る。たとえば、卓上ゲームの場面において、前記画像は、デスクトップの付近を囲んでいるいくつかの人体対象と、人体上の人顔対象、所定の人体部位対象、および、人手対象とを含み得る。

いくつかの例において、前記画像を取得するときに、前記デバイスは、ユーザと対話して、画像の入力を完了することができる。たとえば、前記デバイスは、それ自体に搭載されているインターフェースを介してユーザに処理待ち画像を入力するウィンドウを提供することによって、ユーザが画像を入力するようにすることができる。ユーザは、当該ウィンドウを利用して画像の入力を完了することができる。

いくつかの例において、前記デバイスは、現場に配備された画像収集デバイスと接続されて、前記画像収集デバイスから当該デバイスによって収集された画像を取得することができる。

引き続き図２を参照すると、前記デバイスは、画像を取得した後に、前記Ｓ１０２を実行することができ、画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出する。

その中で、人顔と人手との間の身体接続部は、首部、肩部、腕、および、手首を含む。前記所定の人体部位対象は、具体的に前記身体接続部におけるある身体部位を示す。いくつかの例において、関連性予測精度を向上させるために、前記所定の人体部位対象は、人体関節検出の方法によってより容易に検出することができる関節部位であり得、たとえば、肩対象、および、肘対象の中の少なくとも１つであり得る。もういくつかの例において、前記所定の人体部位対象は、さらに、上腕、前腕、手首などの部位を示すことができる。このように、所定の人体部位対象を媒介として、距離がより遠い人顔対象と人手対象をより正確に関連付けることができる。

本ステップにおいて、前記画像を対象検出モデルに入力して計算を実行することによって、前記画像に含まれた人顔対象と人手対象と前記所定の人体部位対象とにそれぞれ対応するバウンディングボックスを検出することができる。画像内に含まれた各対象に対応するバウンディングボックスを検出することは、画像内に含まれた人顔対象、所定の人体部位対象、および、人手対象を検出することとして見なすことができることを理解できる。

前記対象検出モデルは、対象を検出するための深層畳み込みネットワークモデルであり得る。たとえば、前記対象検出モデルは、ＲＣＮＮ（ＲｅｇｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、領域畳み込みニューラルネットワーク）ネットワーク、ＦＡＳＴ―ＲＣＮＮ（ＦａｓｔＲｅｇｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、高速領域畳み込みニューラルネットワーク）ネットワーク、または、ＦＡＳＴＥＲ―ＲＣＮＮネットワークに基づいて構築したモデルであり得る。

実際の適用において、当該対象検出モデルを使用して対象検出を実行する前に、人顔対象バウンディングボックス、人手対象バウンディングボックス、および、所定の人体部位対象バウンディングボックスをラベリングしたいくつかの真の値の画像トレーニングサンプルを利用して、当該モデルが収束するまで、当該モデルをトレーニングすることができる。

図３を参照すると、図３は、本発明に示す対象検出フローを示す模式図である。図３は、対象検出フローを模式的に説明しているにすぎず、本発明に対して特に限定しないことを説明する必要がある。

図３に示すように、前記対象検出モデルは、ＦＡＳＴＥＲ―ＲＣＮＮネットワークに基づいて構築したモデルであり得る。当該モデルは、バックボーンネットワーク（ｂａｃｋｂｏｎｅ）、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ、候補ボックス生成ネットワーク）、および、ＲＣＮＮ（Ｒｅｇｉｏｎ―ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、領域に基づく畳み込みニューラルネットワーク）を少なくとも含み得る。

その中で、前記バックボーンネットワークは、画像に対していくつかの畳み込み演算を実行して当該画像に対応する特徴マップを得ることができる。特徴マップを得た後に、特徴マップを前記ＲＰＮネットワークに入力していくつかのａｎｃｈｏｒｓ（アンカーボックス）を得ることができる。アンカーボックスを得た後に、当該アンカーボックスおよび前記特徴マップを対応するＲＣＮＮネットワークに入力してｂｂｏｘ（ｂｏｕｎｄｉｎｇｂｏｘｅｓ、バウンディングボックス）回帰および分類を実行して、人顔対象と人手対象と所定の人体部位対象とにそれぞれ対応する第１バウンディングボックスおよび第２バウンディングボックスを得ることができる。

本ステップの各バウンディングボックスを得ることは、各バウンディングボックスに対応する位置情報、サイズ情報などを得ることを含み得る。その中で、前記位置情報は、バウンディングボックスの頂点座標を含み得、さらにバウンディングボックスの長さおよび幅情報を含み得ることを理解できる。

人顔対象と人手対象と所定の人体部位対象とにそれぞれ対応するバウンディングボックスを確定した後に、Ｓ１０４を実行することができ、前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第１関連性予測結果、前記所定の人体部位対象と前記人手対象の第２関連性予測結果、および、前記人顔対象と前記人手対象の第３関連性予測結果を得る。

前記関連性予測は、具体的に、２つの人体部位が互いに関連対象である確率を予測することを指す。その中で、関連対象は、１人に属する２つの人体部位対象を指す。

いくつかの例において、ニューラルネットワークに基づいて構築した関連性予測モデルを利用して関連性予測を実行して、対応する関連性予測結果を得ることができる。

前記関連性予測結果（第１関連性予測結果、第２関連性予測結果、および、第３関連性予測結果を含む）は、具体的に、２つの人体部位間が互いに関連対象である確率を指す。いくつかの例において、関連性予測スコアを利用して関連性予測結果を数値化することができる。関連性予測スコアが高いほど、関連性予測スコアに対応する２つの人体部位が１人に属する可能性が高いことを意味する。

たとえば、卓上ゲームの場面において、画像内の人顔対象と人手対象に対して関連性予測を実行することは、関連性予測モデルに基づいて画像内から検出された任意の人顔対象と任意の人手対象とが互いに関連対象である確率を予測することでありえる。

通常の場合に、前記画像は、複数の前記人顔対象、複数の前記所定の人体部位対象、および、複数の前記人手対象を含み得ることを理解できる。この場合、前記第１関連性予測結果を確定するときに、前記画像から検出された人顔対象と所定の人体部位対象とを任意に２つずつ組み合わせ、得られた各組み合わせに対応する第１関連性予測結果を確定することができる。同様に、前記第２関連性予測結果を確定するときに、画像内の所定の人体部位対象と画像内の人手対象とを任意に２つずつ組み合わせて、各組み合わせに対応する第２関連性予測結果を確定することができる。前記第３関連性予測結果を確定するときに、画像内の人顔対象と画像内の人手対象とを任意に２つずつ組み合わせて、各組み合わせに対応する第３関連性予測結果を確定することができる。

いくつかの例において、Ｓ１０４を実行するときに、人顔対象と所定の人体部位対象との関連性、所定の人体部位対象と人手対象との関連性、人顔対象と人手対象との関連性にそれぞれ対して予測を実行して、対応する関連性予測結果を得ることができる。

上記の３つの関連性予測結果を確定する方法は互いに参考でき、以下は第１関連性予測結果を確定する例をとって説明することを理解できる。

たとえば、まず、Ｓ１０４２を実行し、検出された各人顔対象を、各所定の人体部位対象とそれぞれ２つずつ組み合わせて、複数の組み合わせ結果を得ることができる。

本ステップにおいて、検出された各人顔対象、各人手対象、および、各所定の人体部位対象に対してそれぞれ識別子を生成することができる。その中で、各部位対象に対応する識別子は、当該部位対象と一対一に対応する。たとえば、人顔対象識別子は、人顔対象と一対一に対応し、人手対象識別子は、人手対象と一対一に対応する。実際の適用において、前記識別子は部位番号であり得ることを理解できる。たとえば、人顔対象１、人顔対象２、人手対象１、所定の人体部位対象１などであり得る。

識別子の生成が完了された後に、識別子（たとえば番号順序）に従って順に各人顔対象を各所定の人体部位対象と組み合わせて、複数の組み合わせ結果を得ることができる。

前記複数の組み合わせ結果を得た後に、Ｓ１０４４を実行することができ、各組み合わせ結果に対して、人顔対象と所定の人体部位対象の関連性予測ブランチ（以下、第１ブランチと略称する）を利用して、現在組み合わせ結果内の人顔対象と所定の人体部位対象とにそれぞれ対応する領域特徴および位置情報に基づいて、当該人顔対象と当該所定の人体部位対象とに対して関連性予測を実行して、当該人顔対象と当該所定の人体部位対象とに対応する第１関連性予測結果を得ることができる。

前記第１ブランチは、具体的に、畳み込みニューラルネットワークに基づいて構築した関連性予測モデルであり得る。当該関連性予測ブランチは、人顔対象と所定の人体部位対象とに対して関連性予測を実行して、第１関連性予測結果を得ることができる。当該関連性予測ブランチは、完全結合層を含み得、最終に第１関連性予測スコアを出力することができることを理解できる。

本発明のいくつかの実施例において、前記完全結合層は、線性回帰、最小二乘回帰などの回帰アルゴリズムに基づいて構築した計算ユニットであり得る。当該計算ユニットは、領域特徴に対して特徴マッピングを実行して、対応する関連性予測スコア値を得ることができる。ここで、領域特徴は、画像内の該当する対象が位置している領域（たとえば画像内の対象のバウンディングボックスに対応する領域）の特徴を示し、たとえば対象が位置している領域の特徴マップ、ピクセルマトリックスなどを示す。

実際の適用において、前記第１ブランチは、関連性予測を実行する前に、人顔対象と所定の人体部位対象との関連性ラベリング情報を有するいくつかの画像トレーニングサンプルに基づいてトレーニングすることができる。

前記人顔対象と所定の人体部位対象とに対してトレーニングを実行するときに、まず、いくつかの画像トレーニングサンプルを構築することができることを理解できる。その中で、前記いくつかの画像トレーニングサンプルを構築するときに、まずいくつかの元の画像を取得することができる。元の画像を取得した後に、ラベリングツールを利用して元の画像内に含まれている人顔対象と所定の人体部位対象とをランダムに組み合わせて、複数の組み合わせ結果を得ることができる。その後に、さらに、各組み合わせ内の人顔対象と所定の人体部位対象とに対して関連性ラベリングを実行することができる。いくつかの例において、組み合わせ内の人顔対象と所定の人体部位対象とが関連性を有すると（１人に属する）、１をラベリングし、そうではないと０をラベリングすることができる。または、元の画像をラベリングするときに、その中の各人顔対象、および、各所定の人体部位対象に対して帰属する人対象の情報（たとえば人識別子）をラベリングすることによって、帰属する人対象の情報が一致するか否かによって組み合わせ内の人顔対象と所定の人体部位対象とが関連性を有するかを確定することができる。

画像トレーニングサンプルの構築が完了された後に、従来のモデルトレーニング方法によって当該ブランチが収束するまで、前記第１ブランチをトレーニングすることができる。

図４を参照すると、図４は、本発明に係る関連性予測フローを示す模式図である。模式的に、図４に示す第１ブランチは、領域特徴抽出ユニットおよび完全結合層を含み得る。その中で、領域特徴抽出ユニットは、人顔対象バウンディングボックス、所定の人体部位対象バウンディングボックス、および、画像に対応する特徴マップに基づいて、人顔対象と所定の人体部位対象とにそれぞれ対応する領域特徴を得ることができる。

いくつかの例において、前記人顔対象と所定の人体部位対象とにそれぞれ対応する領域特徴は、１つの特徴マップに集中され得、すなわち、１つの特徴マップに前記人顔対象と前記所定の人体部位対象にそれぞれ対応する特徴部位が含まれ得ることを理解できる。前記特徴マップを得た後に、当該特徴マップに基づいて特徴マッピング（マトリックス演算）を実行して、対応する関連性予測結果を得ることができる。

もういくつかの例において、前記人顔対象と所定の人体部位対象とにそれぞれ対応する領域特徴は、少なくとも２つの特徴マップに分布され得、人顔対象と所定の人体部位対象とにそれぞれ対応する特徴マップを得た後に、人顔対象と所定の人体部位対象とに対応する特徴マップを完全結合層に入力して特徴接合を実行して、接合された特徴マップを得ることができる。接合された特徴マップを得た後に、当該接合された特徴マップに基づいて特徴マッピング（マトリックス演算）を実行して、対応する関連性予測結果を得ることができる。

前記領域特徴抽出ユニットは、ＲＯＩＡｌｉｇｎ（ＲｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔＡｌｉｇｎ、関心領域特徴アラインメント）ユニット、または、ＲＯＩｐｏｏｌｉｎｇ（Ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔｐｏｏｌｉｎｇ、関心領域特徴プーリング）ユニットであり得る。

前記完全結合層は、具体的には、線性回帰、最小二乘回帰などの回帰アルゴリズムに基づいて構築した計算ユニットであり得る。当該計算ユニットは、領域特徴（特徴マップまたはピクセルマトリックス）に対してマトリックス演算を実行して、対応する関連性予測スコア値を得ることができる。

前記第１ブランチを使用して予測するときに、各人顔対象と所定の人体部位対象との組み合わせ結果を順に現在組み合わせ結果として確定し、その後に、現在組み合わせ結果内の人顔対象と所定の人体部位対象とに対応する領域特徴を前記第１ブランチに入力して計算を実行して、現在組み合わせ結果内の人顔対象と所定の人体部位対象との間の関連性予測スコア（第１関連性予測スコア）を得ることができる。

いくつかの例において、モデル関連性予測精度を向上させるために、第１関連性予測スコア予測を実行するときに、各組み合わせ結果に対して、第１ブランチを利用して、現在組み合わせ結果内の人顔対象と所定の人体部位対象とにそれぞれ対応する領域特徴および位置情報に基づいて、当該人顔対象と当該所定の人体部位対象とに対して関連性予測を実行して、当該人顔対象と当該所定の人体部位対象とに対応する第１関連性予測結果を得ることができる。

図５を参照すると、図５は本発明に係る関連性予測フローを示す模式図である。図５に示すように、領域特徴抽出ユニットを利用して人顔対象に対応する特徴および所定の人体部位対象に対応する特徴を抽出した後に、さらに、人顔対象の位置情報（たとえば、座標）および所定の人体部位対象の位置情報（たとえば、座標情報）に対して特徴接合（たとえば、シングルコア畳み込み操作）を実行して、接合された特徴を得ることができる。接合された特徴を得た後に、当該接合された特徴を前記完全結合層に入力して特徴マッピング（マトリックス演算）を実行して、第１関連性予測スコア値を得ることができる。関連性予測を実行するときに、人顔対象に対応する特徴および所定の人体部位対象に対応する特徴に加えて、さらに、人顔対象バウンディングボックスおよび所定の人体部位対象バウンディングボックスにそれぞれに対応する位置情報を使用することによって、両者の位置における関連関係を示す情報を導入することによって、得られた関連性予測結果の精度を向上させることができる。前記各組み合わせに対して上記のステップを実行した後に、複数の前記第１関連性予測結果における関連性予測スコアを得ることができる。

所定の人体部位対象と人手対象との関連性予測を実行するときに、Ｓ１０４６を実行することができ、検出された各所定の人体部位対象を、それぞれ各人手対象と２つずつ組み合わせて、複数の組み合わせ結果を得る。Ｓ１０４８において、各組み合わせ結果に対して、所定の人体部位対象と人手対象の関連性予測ブランチを利用して、現在組み合わせ結果内の所定の人体部位対象と人手対象とにそれぞれ対応する領域特徴および位置情報に基づいて、当該所定の人体部位対象と当該人手対象とに対して関連性予測を実行して、当該所定の人体部位対象と当該人手対象とに対応する第２関連性予測結果を得る。

前記各組み合わせに対して前記ステップを実行した後に、複数の前記第２関連性予測の予測結果における関連性予測スコアを得ることができる。

Ｓ１０４６～Ｓ１０４８のステップの説明は、Ｓ１０４２～Ｓ１０４４のステップの説明を参照することができ、ここでは繰り返して説明しないことを理解できる。

人顔対象と人手対象に対して関連性予測を実行するときに、同様に前記Ｓ１０４２～Ｓ１０４４を参照することができ、ここでは詳細に説明しない。

本発明は、第１関連性予測結果と第２関連性予測結果と第３関連性予測結果を確定する順序を特に限定しないことを、説明する必要がある。たとえば、所定の順序に従って順に前記３つの関連性予測結果を確定してもよいし、第１関連性予測結果と第２関連性予測結果と第３関連性予測結果の予測を同期に実行してもよい。

いくつかの例において、Ｓ１０４を実行するときに、検出された人顔対象、所定の人体部位対象、および、人手対象を、関連性予測モデルに入力して計算を実行して、前記第１関連性予測結果、前記第２関連性予測結果、および、前記第３関連性予測結果を得ることができる。

その中で、前記関連性予測モデルは、いろんな種類の分類器を含む分類モデルであり得る。その中で、当該いろんな種類の分類器の出力は、少なくとも、前記第１関連性予測結果、前記第２関連性予測結果、および、前記第３関連性予測結果を、含み得る。

前記関連性予測モデルをトレーニングするときに、まず、画像トレーニングサンプルを構築することができる。画像トレーニングサンプルを構築するときに、まず、元の画像を取得することができる。元の画像を取得した後に、画像ラベリングツールを利用して、前記元の画像に含まれた各三要素セットに含まれた人顔対象と所定の人体部位対象とに対応する第１関連性予測結果、所定の人体部位対象と人手対象とに対応する第２関連性予測結果、および、人顔対象と人手対象とに対応する第３関連性予測結果に対して、それぞれラベリングを実行して、真の値をラベリングした画像トレーニングサンプルを得ることができる。画像トレーニングサンプルを構築した後に、当該対象関連性予測モデルが収束するまで、構築した画像トレーニングサンプルに基づいてモデルトレーニングを実行することができる。

本ステップにおいて、まず、検出された任意の人顔対象、任意所定の人体部位対象、および、任意の人手対象を組み合わせて、複数の三要素セットを得ることができる。前記複数の三要素セットを得た後に、前記複数の三要素セットを順に現在三要素セットとして、現在三要素セットに含まれた人顔対象、所定の人体部位対象、および、人手対象を、トレーニングを通じた対象関連性予測モデルに入力して計算を実行して、当該三要素セットに含まれた人顔対象と所定の人体部位対象とに対応する第１関連性予測結果、所定の人体部位対象と人手対象とに対応する第２関連性予測結果、および、人顔対象と人手対象とに対応する第３関連性予測結果を得ることができる。前記対象関連性予測モデルの構成は、前述した第１ブランチの構成を参照することができ、ここでは詳細に説明しないことを説明する必要がある。

引き続き図２を参照すると、第１関連性予測結果、第２関連性予測結果、および、第３関連性予測結果を得た後に、引き続きＳ１０６を実行することができ、前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定する。

Ｓ１０６は、実際にはＳ１０６２とＳ１０６４の２つのステップに分けることができ、ここで、Ｓ１０６２において、前記画像に対して分割を実行して、画像内に含まれた少なくとも１つの人体対象を確定し、前記少なくとも１つの人体対象に対応する領域を得、Ｓ１０６４において、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定することができることを理解できる。

いくつかの例において、Ｓ１０６２を実行するときに、前記画像を深層畳み込みニューラルネットワークに基づいて構築したインスタンス分割モデルに入力して計算を実行することによって、前記画像に含まれた各人体対象および前記各人体対象にそれぞれ対応する領域を確定することができる。

前記インスタンス分割モデルは、具体的に、インスタンス分割を実行するモデルであり得る。たとえば、前記インスタンス分割モデルは、ＦＡＳＴＥＲ―ＲＣＮＮネットワークまたはＭＡＳＫ―ＲＣＮＮ（ＭＡＳＫＲｅｇｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、マスクに基づく領域畳み込みニューラルネットワーク）ネットワークに基づいて構築したモデルであり得る。

実際の適用において、当該インスタンス分割モデルを使用してインスタンス分割を実行する前に、当該モデルが収束するまで、人体対象のバウンディングボックスをラベリングしたいくつかの画像トレーニングサンプルに基づいて当該モデルをトレーニングすることができる。

前記画像トレーニングサンプルを構築するときに、まず、元の画像を取得することができる。元の画像を取得した後に、ラベリングツールを利用して前記元の画像内に含まれている各人体対象を確定することができる。各人体対象を確定した後に、当該ラベリングツールを利用して、各人体対象のバウンディングまたは輪郭をそれぞれラベリングすることができる。ラベリングを実行するときに、各人体バウンディングボックス内のピクセル点に対してそれぞれ異なるピクセル値をラベリングすることができる。たとえば、前記元の画像は、人体対象Ａ、人体対象Ｂ、および、人体対象Ｃを含む。ラベリングを実行するときに、人体対象Ａのバウンディングボックス内のピクセル点に対してピクセル値１をラベリングし、人体対象Ｂのバウンディングボックス内のピクセル点に対してピクセル値２をラベリングし、人体対象Ｃのバウンディングボックス内のピクセル点に対してピクセル値３をラベリングすることができる。画像トレーニングサンプルの構築が完了された後に、当該モデルが収束するまで、従来のモデルトレーニング方法によって前記インスタンス分割モデルをトレーニングすることができる。

図６を参照すると、図６は本発明に係る画像分割フローを示す模式図である。図６は、画像分割フローを模式的に説明しているにすぎず、本発明に対して特に限定しないことを説明する必要がある。図６に示すように、前記インスタンス分割モデルは、ＭＡＳＫ―ＲＣＮＮネットワークに基づいて構築したモデルであり得る。当該モデルは、少なくとも、バックボーンネットワーク、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ、候補ボックス生成ネットワーク）、ＲＣＮＮ（Ｒｅｇｉｏｎ―ｂａｓｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、領域に基づく畳み込みニューラルネットワーク）、および、ＦＣＮｓ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎＮｅｔｗｏｒｋｓ、完全畳み込みネットワーク）を含み得る。その中で、前記バックボーンネットワークは、画像に対して何回の畳み込み演算を実行して当該画像に対応する特徴マップを得ることができる。特徴マップを得た後に、特徴マップを前記ＲＰＮネットワークに入力していくつかのａｎｃｈｏｒｓ（アンカーボックス）を得ることができる。アンカーボックスを得た後に、当該アンカーボックスおよび前記特徴マップを対応するＲＣＮＮネットワークに入力してｂｂｏｘ（ｂｏｕｎｄｉｎｇｂｏｘｅｓ、バウンディングボックス）回帰および分類を実行して、各人体対象にそれぞれ対応するバウンディングボックスを得ることができる。各人体対象に対応するバウンディングボックスを得た後に、当該バウンディングボックスおよび前記特徴マップをＦＣＮｓネットワークに入力してセマンティック分割を実行して、各人体対象に対応する領域を得ることができる。

いくつかの例において、前記ＦＣＮｓの前に、接続ＲＯＩＡｌｉｇｎユニットをさらに接続することができる。このとき、当該バウンディングボックスおよび前記特徴マップをＦＣＮｓネットワークに入力してセマンティック分割を実行するときに、まず、当該バウンディングボックスおよび前記特徴マップをＲＯＩＡｌｉｇｎ（ＲｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔＡｌｉｇｎ、関心領域特徴アラインメント）ユニットに入力して領域特徴抽出を実行し、その後に、抽出された前記領域特徴を前記ＦＣＮｓネットワークに入力してセマンティック分割を実行することができる。

本ステップで各バウンディングボックスを得ることは、各バウンディングボックスに対応する位置情報およびサイズ情報を得ることを含み得ることを理解できる。その中で、前記位置情報は、前記画像の左下隅を座標の原点として構築した直交座標系に基づいて確定した位置座標を含み得る。

前記画像に対してインスタンス分割を実行して、少なくとも１つの人体対象に対応する領域を得た後に、Ｓ１０６４を実行することができ、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定する。

いくつかの例において、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定するときに、前記人顔対象の第１バウンディングボックスに基づいて前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第１重複範囲を確定し、前記所定の人体部位対象の第２バウンディングボックスに基づいて前記所定の人体部位対象に対応する領域と各前記人体対象に対応する領域との間の第２重複範囲を確定することができる。前記第１重複範囲および第２重複範囲を確定した後に、前記第１重複範囲および第２重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定することができる。

一般的に、１つの人体対象の場合、人顔対象の第１バウンディングボックスおよび所定の人体部位対象の第２バウンディングボックスは、人体バウンディングボックス内に位置する。したがって、前記第１重複範囲の大きさは、人顔対象がある人体対象に属する可能性を示すことができ、前記第２重複範囲の大きさは、所定の人体部位対象がある人体対象に属する可能性を示すことができる。人顔対象の例をとると、ある人顔対象Ａ１とある人体対象Ｂとの間の第１重複範囲がある人顔対象Ａ２と人体対象Ｂとの間の第１重複範囲よりも大きいと、当該人顔対象Ａ１が当該人体対象Ｂに帰属する可能性が、人顔対象Ａ２が当該人体対象Ｂに帰属する可能性よりも大きいことを意味する。または、ある人顔対象Ａ１とある人体対象Ｂとの間の第１重複範囲が所定の区間を超えると（たとえば重複範囲の面積が人顔対象対応領域の８０％を超える）、当該人顔対象Ａ１が当該人体対象Ｂに帰属する可能性または確率の値がより高いことを意味し、この場合、直接当該人顔対象Ａ１が当該人体対象Ｂに帰属すると確定するか、または、人体対象Ｂを人顔対象Ａ１が帰属する候補人体対象セットに追加し、さらに当該人顔対象Ａ１が対応する候補人体対象セット中の各人体対象に帰属する確率の値の順番に基づいて、人顔対象が帰属する第１人体対象を確定する。

前記第１重複範囲および前記第２重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定する過程で、少なくとも２つの人顔対象が１つの人体対象に属する状況が現れると、または、所定の人体部位対象が肘部対象または肩部対象であるときに、少なくとも３つの所定の人体部位対象が１つの人体対象に属する状況が現れると、１つの人体対象の最大限１つの人顔対象、２つの肘部対象、または、２つの肩部対象が関連できる拘束条件に従って、１つの人体対象に属する人顔対象または所定の人体部位対象に対して重複範囲の降順に従ってソートして選別することによって、人顔対象または所定の人体対象が人体対象に帰属する判定結果が実際の状況に一致しない可能性を減らすことができることを理解できる。したがって、本例において、前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第１重複範囲および前記所定の人体部位対象に対応する領域と各前記人体対象に対応する領域との間の第２重複範囲を確定することによって、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定することができる。

いくつかの例において、前記第１重複範囲および前記第２重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定するときに、各前記人体対象にそれぞれ対応する領域のうち、前記人顔対象に対応する領域との第１重複範囲が最大である第１目標領域を確定することができ、また、各前記人体対象にそれぞれ対応する領域のうち、前記所定の人体部位対象に対応する領域との第２重複範囲が最大である第２目標領域を確定することができる。前記第１目標領域と前記第２目標領域を確定した後に、前記第１目標領域に対応する人体対象を前記人顔対象が帰属する第１人体対象として確定し、また、前記第２目標領域に対応する人体対象を前記所定の人体部位対象が帰属する第２人体対象として確定する。

前記第１目標領域が、前記人顔対象に対応する領域との第１重複範囲が最大である領域であり、前記第２目標領域が、前記所定の人体部位対象に対応する領域との第２重複範囲が最大である領域であるため、本例では、前記人顔対象が帰属する可能性が一番高い第１人体対象と前記所定の人体部位対象が帰属する可能性が一番高い第２人体対象を確定することによって、関連対象検出の正確性を保証した。いくつかの例において、前記第１目標領域を確定するときに、前記人顔対象に対応する領域内に含まれた各ピクセル点を、ピクセル値大きさに従って同じ大きさのピクセル値を１組にグループ化して、いくつかの分類組み合わせを得ることができる。異なるピクセル値が異なる人体対象に対応する領域を示すため、ピクセル点を分類した後に、各分類組み合わせは１つの前記人体対象に対応する領域を示すことができることを理解できる。

ピクセル点を分類した後に、各分類組み合わせに含まれたピクセル点の数を統計して、含まれたピクセル点の数が最も多い分類組み合わせに対応する人体対象領域を前記第１目標領域として確定することができる。たとえば、人顔対象に対応する領域が合計１００個のピクセル点を含み、その中で、８０個が人体対象Ａに対応する領域に対応し、１５個が人体対象Ｂに対応する領域に対応し、５個が人体対象Ｃに対応する領域に対応すると仮定する。このときに、人体対象Ａに対応する領域が前記第１目標領域であると見なすことができる。前記第２目標領域を確定する方法は前記の第１目標領域を確定する方法を参照することができ、ここでは詳細に説明しないことを説明する必要がある。

いくつかの例において、前記第１目標領域と前記第２目標領域を確定するときに、さらに、ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ、交差比率）アルゴリズムなどの方法を採用して確定することができる。

いくつかの例において、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定するときに、前記第１重複範囲および第２重複範囲を確定した後に、さらに前記人顔対象の領域および前記所定の人体部位対象の領域に基づいて、前記人顔対象と前記人体対象との結合範囲および前記所定の人体部位対象と前記人体対象との結合範囲をそれぞれ確定することができる。

前記結合範囲を確定した後に、ＩｏＵアルゴリズム式に基づいて、前記人顔対象と前記人体対象との間第１重複範囲で前記両者に対応する結合範囲を除算して、前記人顔対象に対応する第１ＩｏＵ値セットを得ることができる。同様に、前記所定の人体部位対象に対応する第２ＩｏＵ値セットを得ることができる。

前記第１ＩｏＵ値セットと前記第２ＩｏＵ値セットを確定した後に、前記第１ＩｏＵ値セット中で値が最大である第３ＩｏＵ値および前記第２ＩｏＵ値セット中で値が最大である第４ＩｏＵ値を確定することができる。次に、前記第３ＩｏＵ値に対応する人体対象および前記第４ＩｏＵ値に対応する人体対象を、前記人顔対象が帰属する第１人体対象および前記所定の人体部位対象が帰属する第２人体対象としてそれぞれ確定することができる。

前記ＩｏＵ値の大きさは、人顔対象または所定の人体部位対象がある人体対象に属する可能性を示すことができる。たとえば、ある人顔対象とある人体対象との間のＩｏＵ値がより大きいと、当該人顔対象が当該人体対象に帰属する可能性が大きいことを意味する。

前記第３ＩｏＵ値が前記第１ＩｏＵ値セット中の最大値であり、前記第４ＩｏＵ値が前記第２ＩｏＵ値セット中の最大値であるため、本例では、前記人顔対象が帰属する可能性が一番高い第１人体対象および前記所定の人体部位対象が帰属する可能性が一番高い第２人体対象を確定することができ、関連対象検出の正確性を保証した。

いくつかの例において、Ｓ１０６４を実行するときに、人顔対象が帰属する第１人体対象または所定の人体部位対象が帰属する第２人体対象を確定できない状況が現れる可能性がある。このような状況が現れると、当該人顔対象または当該所定の人体対象に対応する関連性予測結果を調整しないでもよい。

たとえば、人顔対象が帰属する第１人体対象を確定するときに、当該人顔対象に対応する領域と重複するいくつかの人体対象領域と、当該人顔対象の領域との間の第１重複範囲の大きさがほぼ同じである状況が現れる可能性があり、この場合、当該人顔対象が属する第１人体対象を確定できないと見なすことができ、当該人顔対象に対応する関連性予測結果を調整しないでもよい。

引き続き図２を参照すると、前記画像に含まれた人顔対象および所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定した後に、引き続きＳ１０８を実行することができ、前記第１人体対象および前記第２人体対象に基づいて、前記第１関連性予測結果を調整し、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて、前記画像内の関連対象を確定する。

Ｓ１０８は、実際に、Ｓ１０８２とＳ１０８４の２つのステップに分けることができ、ここで、Ｓ１０８２において、第１人体対象および第２人体対象に基づいて前記第１関連性予測結果を調整し、Ｓ１０８４において、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて、前記画像内の関連対象を確定することができることを理解できる。

いくつかの例において、Ｓ１０８２を実行するときに、前記人顔対象が帰属する第１人体対象と前記所定の人体部位対象が帰属する第２人体対象とをマッチングして、マッチング結果を得ることができる。マッチング結果を得た後に、前記マッチング結果に基づいて前記第１関連性予測結果を調整することができる。

前記人顔対象が帰属する第１人体対象と前記所定の人体部位対象が帰属する第２人体対象とが一致すると、前記人顔対象と前記所定の人体部位対象とが同じ人に属する確率がより大きいことを意味するため、本例では、前記マッチング結果に基づいて前記第１関連性予測結果を調整し、前記第１関連性予測結果を調整することによって、当該第１関連性予測結果に対応する人顔対象と所定の人体部位対象を１人に属すると確定する可能性を向上させ、関連対象検出の正確性を向上させる。

画像に複数ペアの人顔対象と所定の人体部位対象との組み合わせが含まれているため、Ｓ１０４を実行するときに、通常、複数の第１関連性予測結果を確定することができることを理解できる。このときに、Ｓ１０８２を実行するときに、前記複数の第１関連性予測結果を順に現在第１関連性予測結果として、第１人体対象と第２人体対象をマッチングしてマッチング結果を得ることができる。つぎに、前記マッチング結果に基づいて当該現在第１関連性予測結果を調整することができる。

いくつかの例において、以下のアイデアに従って、第１関連性予測結果を調整することができる。ここで、関連性予測結果は関連性予測スコアを含み得、関連性予測スコアが高いほど、両者の関連性が強い。第１人体対象と第２人体対象が一致する場合、前記第１関連性予測結果における関連性予測スコアを増加し、および／または、第１人体対象と第２人体対象が一致しない場合、前記第１関連性予測結果における関連性予測スコアを減少する。

本例において、第１人体対象と第２人体対象が一致する場合、前記第１関連性予測結果における関連性予測スコアを増加し、および／または、第１人体対象と第２人体対象が一致しない場合、前記第１関連性予測の予測結果における関連性スコアを減少することができる。したがって、１人に属する人顔対象と所定の人体部位対象との間の関連性予測スコアを増加し、および／または、１人に属しない人顔対象と所定の人体部位対象の間関連性予測スコアを減少することによって、関連対象検出の正確性を向上させる。

本発明は、前記第１関連性予測結果における関連性予測スコアを減少したり増加したりする方法に対して特に限定しないことを説明する必要がある。たとえば、第１関連性予測結果における関連性予測スコアを増加または減少するときに、元の第１関連性予測結果における関連性予測スコアに基づいて、所定の値を増加または減少することができる。

いくつかの例において、画像をインスタンス分割して得られた分割結果は、前記画像に含まれた各人体対象にそれぞれ対応する領域に加えて、さらに、インスタンス分割結果の正確性の信頼度を示すスコアを含むことができる。このときに、人顔対象と所定の人体部位対象との間の第１関連性予測結果における関連性予測スコアを増加するときに、当該第１関連性予測結果における関連性予測スコアを、前記人顔対象が帰属する人体対象に対応する信頼度スコアまでに増加することができる。第１関連性予測結果における関連性予測スコアを減少するときに、元の第１関連性予測結果における関連性予測スコアを半分にすることができる。

引き続き図２を参照すると、前記第１関連性予測結果を調整した後に、引き続きＳ１０８４を実行することができ、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて、前記画像内の関連対象を確定する。

いくつかの例において、当前記画像が１つの人顔対象と１つの所定の人体部位対象と１つの人手対象のみを含む場合、前記画像内の関連対象を確定するときに、前記第１関連性予測結果における関連性予測スコア、前記第２関連性予測結果における関連性予測スコア、および、前記第３関連性予測結果における関連性予測スコアを加算して、加算結果を得ることができる。前記加算結果を得た後に、前記加算結果が所定の標準値に達したか否かを確定することができる。前記加算結果が前記所定の標準値に達した場合、画像に含まれた人顔対象と人手対象が互いに関連対象であると見なすことができる。本発明のいくつかの実施例において、前記所定の標準値は、具体的に、実際の状況に応じて設定した経験閾値であり得る。たとえば、当該所定の標準値は、０．９５であり得る。

前記画像が複数の人顔対象と所定の人体部位対象と人手対象とを含むときに、前記画像内の関連対象を確定するときに、検出された前記人顔対象と前記所定の人体部位対象と前記人手対象とを組み合わせて、少なくとも１つの三要素セットを生成し、その中で、各三要素セットは、１つの人顔対象と１つの所定の人体部位対象と１つの人手対象とを含む。複数の三要素セットを取得した後に、前記画像内の関連対象を確定することができる。

本発明のいくつかの実施例において、まず、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて各三要素セットに対応する第４関連性予測結果を確定することができる。

いくつかの例において、前記第４関連性予測結果は、関連性予測スコアを含み得る。前記複数の三要素セットにそれぞれ対応する関連性予測結果における関連性予測スコアを確定するときに、前記複数の三要素セット中の各三要素セットを順に現在三要素セットとして確定することができる。その後に、現在三要素セットに含まれた人顔対象と所定の人体部位対象とに対応する調整後の第１関連性予測結果における関連性予測スコア、所定の人体部位対象と人手対象とに対応する第２関連性予測結果における関連性予測スコア、および、人顔対象と人手対象とに対応する第３関連性予測結果における関連性予測スコアの合計を、現在三要素セットに対応する関連性予測結果における関連性予測スコアとして確定することができる。

本発明は、調整後の前記第１関連性予測結果における関連性予測スコア、前記第２関連性予測結果における関連性予測スコア、および、前記第３関連性予測結果における関連性予測スコアに基づいて、前記複数の三要素セットにそれぞれ対応する関連性予測結果における関連性予測スコアを確定する具体的な方法を特に限定しないことを説明する必要がある。たとえば、さらに、前記３つのスコアに対して、乗算、加重和、平均化などを実行する方法によって、三要素セットに対応する関連性予測結果における関連性予測スコアを確定することができる。

前記複数の三要素セットのそれぞれに対応する関連性予測結果を得た後に、各三要素セットに対応する関連性予測結果に基づいて前記画像内の関連対象を確定することができる。

前記各三要素セットに対応する第４関連性予測結果は、当該三要素セットに含まれた人顔対象と人手対象とが１人に属する可能性を示すことができる。たとえば、前記第４関連性予測結果を関連性予測結果における関連性予測スコアで示す場合、関連性予測結果における関連性予測スコアがより高いと、当該関連性予測結果に対応する三要素セット中の人顔対象と人手対象とが１人に属する可能性がより大きいことを意味する。

したがって、本例において、各三要素セットに対応する関連性予測結果に基づいて前記画像内の関連対象を確定することによって、密接に関連する三要素セット中の人顔対象と人手対象とを関連対象として確定することができ、関連対象検出の正確性を向上させた。

いくつかの例において、各三要素セットに対応する第４関連性予測結果に基づいて前記画像内の関連対象を確定するときに、優先的に、第４関連性予測結果における関連性予測スコアが高い三要素セットに含まれた人顔対象と人手対象を、関連性を持つ人顔対象と人手対象として確定することができる。

関連性予測結果における関連性予測スコアが高いことは、三要素セット中の人顔対象と人手対象との関連性が強いことを意味するため、いくつかの例において、関連性予測結果における関連性予測スコアの降順に従って、順に三要素セット中の人顔対象と人手対象とが関連対象であるか否かを判断することができる。

実際の状況において、通常、１つの人顔対象に最大限２つの人手対象が対応され、または１つの人手対象に最大限１つの人顔対象が対応される。前記実際の状況を満たすために、いくつかの例において、優先的に、関連性予測結果における関連性予測スコアがより高い三要素セットに含まれた人顔対象と人手対象とを、関連性を持つ人顔対象と人手対象として確定するときに、各三要素セットに対応する前記関連性予測結果における関連性予測スコアの降順に従って、各三要素セットを順に現在三要素セットとして確定し、各現在三要素セットに対して、既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第１所定の閾値に達したか否かを確定することと、現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第２所定の閾値に達したか否かを確定することと、を実行することができる。

前記第１所定の閾値は、具体的に、実際の状況に応じて設定した経験閾値であり得る。たとえば、前記第１所定の閾値は、２であり得る。

前記第２所定の閾値は、具体的に、実際の状況に応じて設定した経験閾値であり得る。たとえば、前記第２所定の閾値は、１であり得る。

いくつかの例において、各人顔対象と各人手対象とに対してそれぞれカウンターを維持し、任意の人顔対象と互いに関連対象である関連人手対象を確定するたびに、前記関連人顔対象に対応するカウンターの値に１を加算する。この場合、既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第１所定の閾値に達したか否かを確定するときに、前記人顔対象に対応するカウンターのカウント値が第１所定の閾値に達したか否かを確定することによって、前記人顔対象と互いに関連対象である関連人手対象の数が第１所定の閾値に達したか否かを確定することができる。現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第２所定の閾値に達したか否かを確定するときに、前記人手対象に対応するカウンターのカウント値が第２所定の閾値に達したか否かを確定することによって、前記人手対象と互いに関連対象である関連人顔対象の数が第２所定の閾値に達したか否かを確定することができる。

現在三要素セットに含まれた人顔対象と関連している関連人手対象の数が前記第１所定の閾値に達していないし、かつ、現在三要素セットに含まれた人手対象と関連している関連人顔対象の数が前記第２所定の閾値に達していないと、現在三要素セットに含まれた人顔対象と人手対象とを前記画像内の関連対象として確定することができる。

関連対象を確定するときに、現在三要素セットに含まれた人顔対象と関連している関連人手対象の数が前記第１所定の閾値に達していないし、かつ、現在三要素セットに含まれた人手対象と関連している関連人顔対象の数が前記第２所定の閾値に達していない場合、現在三要素セット中の人顔対象と人手対象とを関連対象として確定することができる。したがって、１つの人顔対象と２つを超える人手対象とが関連される状況および１つの人手対象と１つを超える人顔対象が関連される状況が現れることを回避することができる。

いくつかの例において、画像内の関連対象を確定した後に、当該画像内の関連対象の検出結果を出力することができる。いくつかの例において、画像出力デバイス（たとえばディスプレイ）に前記関連対象によって指示する人顔対象と人手対象を含むバウンディングボックスを出力することができる。前記関連対象を含むバウンディングボックスを表示することによって、観察者が画像出力デバイスに表示された画像内の関連対象を便利かつ直感的に確定することができるようにして、関連対象の検出結果に対する手動検証が便利になる。

上記は、本発明に係る画像内の関連対象を確定する技術的解決策の紹介であり、以下、当該技術的解決策で使用した各モデルのトレーニング方法を紹介する。

引き続き図２を参照する。図２に示す技術的解決策において、ニューラルネットワークに基づいて構築した対象検出モデルを採用して、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することができる。ニューラルネットワークに基づいて構築した関連性予測モデルを採用して、前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行することができる。ニューラルネットワークに基づいて構築したインスタンス分割モデルを採用して、前記画像に含まれた人体対象に対して分割を実行することができる。前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルは、同じバックボーンネットワークを共有することができることを理解できる。

いくつかの例において、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して、トレーニングサンプルセットをそれぞれ構築し、構築したトレーニングサンプルセットに基づいて、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルをそれぞれトレーニングすることができる。

いくつかの例において、関連対象検出の精度を向上させるために、セグメント化トレーニングの方法を採用して各モデルをトレーニングすることができる。その中で、第１セグメントは、対象検出モデルおよびインスタンス分割モデルに対するトレーニングであり、第２セグメントは、対象検出モデル、インスタンス分割モデル、および、関連性予測モデルに対する共同トレーニングである。

図７を参照すると、図７は本発明の実施例のモデルトレーニング方法の１つのフローを示す模式図である。

図７に示すように、当該方法は、Ｓ７０２を含み、当該Ｓ７０２において、第１トレーニングサンプルセットに基づいて前記対象検出モデルをトレーニングし、その中で、前記第１トレーニングサンプルセットは、第１ラベリング情報を有する画像トレーニングサンプルを含み、前記第１ラベリング情報は、人顔対象と前記所定の身体部位対象と人手対象とのバウンディングボックスを含む。

本ステップを実行するときに、手動ラベリングまたは機械補助ラベリングの方法を採用して、元の画像に対して真の値をラベリングすることができる。たとえば、元の画像を取得した後に、画像ラベリングツールを使用して元の画像内に含まれている人顔対象バウンディングボックス、人手対象バウンディングボックス、および、所定の人体部位対象（たとえば肘）バウンディングボックスに対してラベリングを実行することによって、いくつかの画像トレーニングサンプルを得ることができる。画像トレーニングサンプルを符号化するときに、ｏｎｅ―ｈｏｔ符号化（ワンホット符号化）などの方法を採用して符号化することができ、本発明は符号化の具体的な方法を限定しないことを説明する必要がある。

第１トレーニングサンプルセットを確定した後に、当該モデルが収束するまで、所定の損失関数に基づいて対象検出モデルをトレーニングすることができる。

Ｓ７０４において、第２トレーニングサンプルセットに基づいて前記インスタンス分割モデルをトレーニングし、その中で、前記第２トレーニングサンプルセットは、第２ラベリング情報を有する画像トレーニングサンプルを含み、前記第２ラベリング情報は、人体対象のバウンディングボックスを含む。

前記画像トレーニングサンプルを構築するときに、まず、元の画像を取得することができる。元の画像を取得した後に、ラベリングツールを利用して前記元の画像内に含まれている各人体対象を確定することができる。各人体対象を確定した後に、当該ラベリングツールを利用して、各人体対象に対応するバウンディングボックスに対してそれぞれラベリングを実行することができる。ラベリングを実行するときに、各バウンディングボックス内のピクセル点に対して異なるピクセル値をラベリングすることができる。たとえば、前記元の画像は、人体対象Ａ、人体対象Ｂ、および、人体対象Ｃを含む。ラベリングを実行するときに、人体対象Ａのバウンディングボックス内のピクセル点に対してピクセル値１をラベリングし、人体対象Ｂのバウンディングボックス内のピクセル点に対してピクセル値２をラベリングし、人体対象Ｃのバウンディングボックス内のピクセル点に対してピクセル値３をラベリングすることができる。第２トレーニングサンプルセットを確定した後に、当該モデルが収束するまで、従来のモデルトレーニング方法によって前記インスタンス分割モデルをトレーニングすることができる。

Ｓ７０６において、第３トレーニングサンプルセットに基づいて、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して共同トレーニングを実行し、その中で、前記第３トレーニングサンプルセットは、第３ラベリング情報を有する画像トレーニングサンプルを含み、前記第３ラベリング情報は、人顔対象と所定の身体部位対象と人手対象と人体対象とにそれぞれ対応するバウンディングボックス、人顔対象と所定の身体部位対象との間の関連性ラベリング情報、所定の身体部位対象と人手対象との間の関連性ラベリング情報、および、人顔対象と人手対象との間の関連性ラベリング情報を含む。

本ステップを実行するときに、手動ラベリングまたは機械補助ラベリングの方法を採用して、元の画像に対して真の値をラベリングすることができる。たとえば、元の画像を取得した後、一方では、画像ラベリングツールを使用して、元の画像内に含まれている人顔対象バウンディングボックス、人手対象バウンディングボックス、および、所定の人体部位対象（たとえば肘）バウンディングボックスに対してラベリングを実行することができる。もう一方では、画像ラベリングツールを利用して、前記元の画像内に含まれている各人体対象を確定することができる。各人体対象を確定した後に、当該ラベリングツールを利用して、各人体対象に対応するバウンディングボックスに対してそれぞれラベリングを実行することができる。別の一方では、ラベリングツールを利用して、元の画像内に含まれている人顔対象と所定の人体部位対象とをランダムに組み合わせを実行し、元の画像内に含まれている人顔対象と人手対象とをランダムに組み合わせを実行し、元の画像内に含まれている所定の人体部位対象と人手対象とをランダムに組み合わせを実行して、複数の組み合わせ結果を得ることができる。その後に、さらに、各組み合わせ中の２つの対象に対して関連性結果ラベリングを実行する。いくつかの例において、組み合わせ中の２つの対象が１人に属すると、１をラベリングし、そうではないと、０をラベリングする。

第３トレーニングサンプルセットを確定した後に、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルのそれぞれに対応する損失関数に基づいて、共同学習損失関数を確定することができる。いくつかの例において、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルのそれぞれに対応する損失関数を加算して、前記共同学習損失関数を得ることができる。本発明では、さらに、前記共同学習損失関数に正則化項目などのハイパーパラメータを増加することができることを説明する必要がある。ここで追加するハイパーパラメータの種類を特に限定しない。

共同トレーニング損失関数を得た後に、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルがいずれも収束するまで、前記共同学習損失関数および前記第３トレーニングサンプルセットに基づいて、前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して、共同トレーニングを実行することができる。

モデルをトレーニングするときに、まず、学習率、トレーニングサイクル回数などのハイパーパラメータを指定することができる。前記ハイパーパラメータを確定した後に、真の値をラベリングした前記画像トレーニングサンプルに基づいて各モデルに対して教師ありトレーニングを実行することができる。

１回の教師ありトレーニング過程で、順伝播を実行して各モデルによって出力される計算結果を得ることができる。各モデルによって出力される計算結果を得た後に、構築した共同学習損失関数に基づいて前記計算結果の誤差を評価することができ、すなわち、前記計算結果と真の値との間の差異を評価することができる。誤差を得た後に、確率的勾配降下法を採用して降下勾配を確定することができる。降下勾配を確定した後に、逆伝播を実行して前記各モデルに対応するモデルパラメータを更新することができる。その後に、前記各モデルが収束するまで、パラメータを更新した後の各モデルを利用して前記過程を繰り返す。前記モデル収束の条件は、所定のトレーニング回数に達したこと、または、連続的にＭ（Ｍは１より大きい正の整数である）回の順伝播の後に得られた共同学習損失関数の変化量が一定の閾値未満であることであり得ることを説明する必要がある。本発明は、モデル収束の条件に対して特に限定しない。

前記モデルトレーニングで教師ありの共同トレーニング方法を採用したため、各モデルに対して同時にトレーニングを実行することによって、各モデル間がトレーニング過程で互いに拘束し、また互いに促進することができ、一方では、各モデルの収束効率を向上させることができ、もう一方では、各モデルの共有のバックボーンネットワークが関連対象検出により有益な特徴を抽出するように促進し、関連対象検出の精度を向上させる。

本発明は、画像内関連対象検出装置をさらに提供する。図８を参照すると、図８は本発明に係る画像内関連対象検出装置を示す構成図である。

図８に示すように、前記装置８０は、画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出するための対象検出モジュール８１と、
前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第１関連性予測結果、前記所定の人体部位対象と前記人手対象の第２関連性予測結果、および、前記人顔対象と前記人手対象の第３関連性予測結果を得るための関連性予測モジュール８２と、
前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定するための帰属関係確定モジュール８３と、
第１人体対象、および、第２人体対象に基づいて前記第１関連性予測結果を調整し、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて、前記画像内の関連対象を確定するための関連対象確定モジュール８４と、を備える。

示されたいくつかの実施例において、前記対象検出モジュール８１は、具体的に、画像内の人顔対象、および、所定の人体部位対象にそれぞれ対応する第１バウンディングボックスおよび第２バウンディングボックスを検出し、前記帰属関係確定モジュール８３は、前記第１バウンディングボックスに基づいて前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第１重複範囲を確定し、第２バウンディングボックスに基づいて前記所定の人体部位対象に対応する領域と各前記人体対象に対応する領域との間の第２重複範囲を確定するための重複範囲確定モジュールと、前記第１重複範囲および第２重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定するための帰属関係確定サブモジュールと、を備える。

示されたいくつかの実施例において、前記関連対象確定モジュール８４は、具体的に、第１人体対象と第２人体対象をマッチングしてマッチング結果を得、前記マッチング結果に基づいて前記第１関連性予測結果を調整する。

示されたいくつかの実施例において、前記関連対象確定モジュール８４は、具体的に、前記第１人体対象と前記第２人体対象とがマッチングされる場合、前記第１関連性予測結果における関連性予測スコアを増加し、および／または、前記第１人体対象と前記第２人体対象とがマッチングされない場合、前記第１関連性予測結果における関連性スコアを減少する。

示されたいくつかの実施例において、前記装置８０は、検出された前記人顔対象と前記所定の人体部位対象と前記人手対象とを組み合わせて、少なくとも１つの三要素セットを生成するための組合せモジュールをさらに備え、その中で、各三要素セットは、１つの人顔対象と１つの所定の人体部位対象と１つの人手対象とを含み、前記関連性予測モジュール８２は、具体的に、各三要素セット中の２つの対象ごとに関連性予測を実行し、前記関連対象確定モジュール８４は、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて各三要素セットに対応する第４関連性予測結果を確定するための三要素セット関連関係予測モジュールと、各三要素セットに対応する第４関連性予測結果に基づいて前記画像内の関連対象を確定するための関連対象確定サブモジュールと、を備える。

示されたいくつかの実施例において、前記関連対象確定サブモジュールは、具体的に、各三要素セットに対応する前記第４関連性予測結果における関連性予測スコアの降順に従って、各三要素セットを順に現在三要素セットとして確定して、以下の操作を実行し、当該操作は、既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第１所定の閾値に達したか否かを確定し、また、現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第２所定の閾値に達したか否かを確定することと、前記関連人手対象の数が前記第１所定の閾値に達していないし、同時に、前記関連人顔対象の数が前記第２所定の閾値に達していないと、現在三要素セットに含まれた人顔対象と人手対象とを前記画像内の関連対象として確定することと、を含む。

示されたいくつかの実施例において、前記装置８０は、前記画像内の関連対象の検出結果を出力するための出力モジュールをさらに備える。

示されたいくつかの実施例において、前記対象検出モジュール８１は、具体的に、ニューラルネットワークに基づいて構築した対象検出モデルを採用して、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出し、前記関連性予測モジュール８２は、具体的に、ニューラルネットワークに基づいて構築した関連性予測モデルを採用して、前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行し、前記帰属関係確定モジュール８３は、具体的に、ニューラルネットワークに基づいて構築したインスタンス分割モデルを採用して前記画像に含まれた人体対象に対して分割を実行する。

示されたいくつかの実施例において、前記装置８０は、第１トレーニングサンプルセットに基づいて前記対象検出モデルをトレーニングするための第１トレーニングモジュールと、第２トレーニングサンプルセットに基づいて前記インスタンス分割モデルをトレーニングするための第２トレーニングモジュールと、第３トレーニングサンプルセットに基づいて前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して、共同トレーニングを実行するための共同トレーニングモジュールと、を備え、その中で、前記第１トレーニングサンプルセットは、第１ラベリング情報を有する画像トレーニングサンプルを含み、前記第１ラベリング情報は、人顔対象と前記所定の身体部位対象と人手対象とのバウンディングボックスを含み、前記第２トレーニングサンプルセットは、第２ラベリング情報を有する画像トレーニングサンプルを含み、前記第２ラベリング情報は、人体対象のバウンディングボックスを含み、前記第３トレーニングサンプルセットは、第３ラベリング情報を有する画像トレーニングサンプルを含み、前記第３ラベリング情報は、人顔対象と所定の身体部位対象と人手対象と人体対象とにそれぞれ対応するバウンディングボックス、人顔対象と所定の身体部位対象との間の関連性ラベリング情報、所定の身体部位対象と人手対象との間の関連性ラベリング情報、および、人顔対象と人手対象との間の関連性ラベリング情報を含む。

本発明に示す画像内関連対象検出装置の実施例は、電子デバイスに適用され得る。これに応じて、本発明は、電子デバイスを開示し、当該デバイスは、プロセッサと、プロセッサによって実行可能な命令を格納するためのメモリと、を備え、その中で、前記プロセッサは、前記メモリに格納された実行可能命令を呼び出して、前記の任意の実施例に示す画像内関連対象検出方法を実装するように構成される。

図９を参照すると、図９は、本発明に示す電子デバイスのハードウェア構成図である。図９に示すように、当該電子デバイスは、命令を実行するためのプロセッサと、ネットワーク接続を実行するためのネットワークインターフェースと、プロセッサのために運行データを記憶するためのメモリと、画像処理装置に対応する命令を記憶するための不揮発性メモリと、を含み得る。画像処理装置の実施例は、ソフトウェア、ハードウェア、または、両者の組み合わせによって実装され得る。ソフトウェアによって実装される例をとると、論理装置として、電子デバイスのプロセッサによって不揮発性メモリ内の対応するコンピュータプログラム命令をメモリに読み取って運行されて形成され得る。ハードウェアの観点からは、図９に示すプロセッサ、メモリ、ネットワークインターフェース、および、不揮発性メモリに加えて、実施例の装置が配置される電子デバイスは、一般的に、実際の機能に基づく他のハードウェアを含み、これに対して繰り返して説明しない。処理速度を上げるために、画像処理装置に対応する命令も直接メモリに記憶することができ、本発明はこれに対して限定しないことを理解できる。

本発明は、コンピュータ可読記録媒体を提供し、前記記録媒体には、コンピュータプログラムが格納されており、前記コンピュータプログラムは、前記の任意の実施例に示す画像内関連対象検出方法を実行する。

当業者は、本発明の１つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の１つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形式を使用することができる。また、本発明の１つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む１つまたは複数のコンピュータ利用可能な記憶媒体（ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリなどを含むが、これらに限定されない）上で実施されるコンピュータプログラム製品の形式を使用することができる。

本発明での「および／または」は、少なくとも両者の中の１つを有することを示し、たとえば、「Ａおよび／またはＢ」は、Ａ、Ｂ、および、「ＡおよびＢ」のような３つの解決策を含み得る。

本発明における各実施例は、いずれも、漸進的な方式を使用して叙述され、各実施例同士の間の同一または類似な部分は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の部分の説明を参照すればよい。

上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果を得るために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。

本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの１つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、１つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の１つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの１つまたは複数の組み合わせであり得る。

本発明における処理と論理フローは、１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（専用集積回路）などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。

コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および／または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および／または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための１つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための１つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう１デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム（ＧＰＳ）レジーバー、または、汎用シリアルバス（ＵＳＢ）フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。

コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、様々な形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス（たとえば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、および、フラッシュメモリ）、磁気ディスク（たとえば、内部ハードディスクまたは移動可能ディスク）、磁気光学ディスク、ＣＤ―ＲＯＭ、ＤＶＤ―ＲＯＭなどを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。

本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの１つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせるの変形に向けることができる。

類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。

したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。

上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の範囲に含まれるべきである。

Claims

画像内関連対象検出方法であって、
画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出することと、
前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第１関連性予測結果と、前記所定の人体部位対象と前記人手対象の第２関連性予測結果と、前記人顔対象と前記人手対象の第３関連性予測結果と、を得ることと、
前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定することと、
前記第１人体対象および前記第２人体対象に基づいて、前記第１関連性予測結果を調整することと、
調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて、前記画像内の関連対象を確定することと、を含む
ことを特徴とする画像内関連対象検出方法。
前記画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することは、
画像内の人顔対象、および、所定の人体部位対象にそれぞれ対応する第１バウンディングボックスおよび第２バウンディングボックスを検出することを含み、
前記分割して得られた各前記人体対象に対応する領域に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定することは、
前記第１バウンディングボックスに基づいて前記人顔対象に対応する領域と各前記人体対象に対応する領域との間の第１重複範囲を確定することと、
前記第２バウンディングボックスに基づいて前記所定の人体部位対象に対応する領域と各前記人体対象に対応する領域との間の第２重複範囲を確定することと、
前記第１重複範囲および前記第２重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定することと、を含む
ことを特徴とする請求項１に記載の画像内関連対象検出方法。
前記第１重複範囲および前記第２重複範囲に基づいて前記人顔対象および前記所定の人体部位対象がそれぞれ帰属する第１人体対象および第２人体対象を確定することは、
各前記人体対象にそれぞれ対応する領域のうち、前記人顔対象に対応する領域との第１重複範囲が最大である第１目標領域を確定することと、
各前記人体対象にそれぞれ対応する領域のうち、前記所定の人体部位対象に対応する領域との第２重複範囲が最大である第２目標領域を確定することと、
前記第１目標領域に対応する人体対象を前記人顔対象が帰属する第１人体対象として確定することと、
前記第２目標領域に対応する人体対象を前記所定の人体部位対象が帰属する第２人体対象として確定することと、を含む
ことを特徴とする請求項２に記載の画像内関連対象検出方法。
前記第１人体対象、および、前記第２人体対象に基づいて前記第１関連性予測結果を調整することは、
前記第１人体対象と前記第２人体対象をマッチングしてマッチング結果を得ることと、
前記マッチング結果に基づいて前記第１関連性予測結果を調整することと、を含む
ことを特徴とする請求項１～３のいずれか１項に記載の画像内関連対象検出方法。
前記マッチング結果に基づいて前記第１関連性予測結果を調整することは、
前記第１人体対象と前記第２人体対象がマッチングされる場合、前記第１関連性予測結果における関連性予測スコアを増加すること、および／または、
前記第１人体対象と前記第２人体対象とがマッチングされない場合、前記第１関連性予測結果における関連性予測スコアを減少することを含む
ことを特徴とする請求項４に記載の画像内関連対象検出方法。
検出された前記人顔対象と前記所定の人体部位対象と前記人手対象とを組み合わせて、１つの人顔対象と１つの人体部位対象と１つの人手対象とを含む三要素セットを少なくとも１つ生成することをさらに含み、
前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行することは、
各三要素セット中の２つの対象ごとに関連性予測を実行することを含み、
前記調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて前記画像内の関連対象を確定することは、
調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて各三要素セットに対応する第４関連性予測結果を確定することと、
各三要素セットに対応する第４関連性予測結果に基づいて前記画像内の関連対象を確定することと、を含む
ことを特徴とする請求項１～５のいずれか１項に記載の画像内関連対象検出方法。
前記各三要素セットに対応する第４関連性予測結果に基づいて前記画像内の関連対象を確定することは、
各三要素セットに対応する前記第４関連性予測結果における関連性予測スコアの降順に従って、各三要素セットを順に現在三要素セットとして確定して、以下の操作を実行することを含み、
当該操作は、
既に確定された関連対象に基づいて、現在三要素セットに含まれた人顔対象と互いに関連対象である関連人手対象の数が第１所定の閾値に達したか否かを確定し、また、現在三要素セットに含まれた人手対象と互いに関連対象である関連人顔対象の数が第２所定の閾値に達したか否かを確定することと、
前記関連人手対象の数が前記第１所定の閾値に達していないし、同時に、前記関連人顔対象の数が前記第２所定の閾値に達していないと、現在三要素セットに含まれた人顔対象と人手対象とを前記画像内の関連対象として確定することと、を含む
ことを特徴とする請求項６に記載の画像内関連対象検出方法。
前記所定の人体部位対象は、肩対象、および、肘対象の中の少なくとも１つを含む
ことを特徴とする請求項１～７のいずれか１項に記載の画像内関連対象検出方法。
前記画像内の関連対象の検出結果を出力することをさらに含む
ことを特徴とする請求項１～８のいずれか１項に記載の画像内関連対象検出方法。
前記画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することは、
ニューラルネットワークに基づいて構築した対象検出モデルを採用して、画像内に含まれた人顔対象と所定の人体部位対象と人手対象とを検出することを含み、
前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行することは、
ニューラルネットワークに基づいて構築した関連性予測モデルを採用して、前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行することを含み、
前記画像に含まれた人体対象に対して分割を実行することは、
ニューラルネットワークに基づいて構築したインスタンス分割モデルを採用して前記画像に含まれた人体対象に対して分割を実行することを含む
ことを特徴とする請求項１～９のいずれか１項に記載の画像内関連対象検出方法。
第１トレーニングサンプルセットに基づいて前記対象検出モデルをトレーニングすることと、
第２トレーニングサンプルセットに基づいて前記インスタンス分割モデルをトレーニングすることと、
第３トレーニングサンプルセットに基づいて前記対象検出モデル、前記インスタンス分割モデル、および、前記関連性予測モデルに対して共同トレーニングを実行することと、をさらに含み、
前記第１トレーニングサンプルセットは、第１ラベリング情報を有する画像トレーニングサンプルを含み、前記第１ラベリング情報は、人顔対象、前記所定の身体部位対象、および、人手対象のバウンディングボックスを含み、
前記第２トレーニングサンプルセットは、第２ラベリング情報を有する画像トレーニングサンプルを含み、前記第２ラベリング情報は、人体対象のバウンディングボックスを含み、
前記第３トレーニングサンプルセットは、第３ラベリング情報を有する画像トレーニングサンプルを含み、前記第３ラベリング情報は、人顔対象と所定の身体部位対象と人手対象と人体対象とにそれぞれ対応するバウンディングボックス、人顔対象と所定の身体部位対象との間の関連性ラベリング情報、所定の身体部位対象と人手対象との間の関連性ラベリング情報、および、人顔対象と人手対象との間の関連性ラベリング情報を含む
ことを特徴とする請求項１０に記載の画像内関連対象検出方法。
画像内関連対象検出装置であって、
画像内に含まれた、人顔対象と、人顔と人手との間の身体接続部における所定の人体部位を表す所定の人体部位対象と、人手対象と、を検出するための対象検出モジュールと、
前記人顔対象と所定の人体部位対象と人手対象との中の２つの対象ごとに関連性予測を実行して、前記人顔対象と前記所定の人体部位対象の第１関連性予測結果と、前記所定の人体部位対象と前記人手対象の第２関連性予測結果と、前記人顔対象と前記人手対象の第３関連性予測結果と、を得るための関連性予測モジュールと、
前記画像に含まれた人体対象に対して分割を実行し、分割して得られた各前記人体対象に対応する領域に基づいて、前記人顔対象、および、前記所定の人体部位対象がそれぞれ帰属する人体対象を確定するための帰属関係確定モジュールと、
前記人顔対象、および、前記所定の人体部位対象がそれぞれ帰属する人体対象に基づいて、前記第１関連性予測結果を調整し、調整後の前記第１関連性予測結果と前記第２関連性予測結果と前記第３関連性予測結果とに基づいて、前記画像内の関連対象を確定するための関連対象確定モジュールと、を備える
ことを特徴とする画像内関連対象検出装置。
電子デバイスであって、
プロセッサと、
前記プロセッサによって実行可能な命令を格納するためのメモリと、を備え、
前記プロセッサは、前記メモリに格納された実行可能命令を呼び出して、請求項１から１１のいずれか１項に記載の画像内関連対象検出方法を実装する
ことを特徴とする電子デバイス。
コンピュータプログラムが格納されているコンピュータ可読記録媒体であって、
前記コンピュータプログラムは、請求項１から１１のいずれか１項に記載の画像内関連対象検出方法を実行する
ことを特徴とするコンピュータ可読記録媒体。
コンピュータ命令を含むコンピュータプログラムであって、
前記コンピュータ命令がデバイスのプロセッサによって運行されると、請求項１乃至１１の中のいずれか１項に記載の方法が実現される
ことを特徴とするコンピュータプログラム。