JP7084485B2

JP7084485B2 - 画像処理方法及び装置、電子機器、並びに記憶媒体

Info

Publication number: JP7084485B2
Application number: JP2020540785A
Authority: JP
Inventors: ツォンガンツァイ，; ツェンジュンユイ，; ハイユイツァオ，; シュアイイー，
Original assignee: センスタイムインターナショナルプライベートリミテッド
Priority date: 2019-12-30
Filing date: 2020-03-19
Publication date: 2022-06-14
Anticipated expiration: 2040-03-19
Also published as: KR102445187B1; SG10201913744SA; WO2021136979A1; AU2020309091B2; AU2020309091A1; KR20210088439A; JP2022509893A

Description

関連出願の相互参照

本開示は、２０１９年１２月３０日にシンガポール特許局に提出された、出願番号１０２０１９１３７４４Ｓ、出願の名称「ＩＭＡＧＥＰＲＯＣＥＳＳＩＮＧＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳ，ＥＬＥＣＴＲＯＮＩＣＤＥＶＩＣＥ，ＡＮＤＳＴＯＲＡＧＥＭＥＤＩＵＭ」のシンガポール特許出願の優先権を主張し、その内容の全てが参照によって本開示に組み込まれる。

本開示は、コンピュータビジョン技術に関し、特に、画像処理方法及び装置、電子機器、並びに記憶媒体に関する。

コンピュータビジョンは、コンピュータ及び関連装置を用いて生物学的視覚をシミュレートする技術であり、取得された画像又は動画を処理することにより、対応シーンの三次元情報を取得することができる。コンピュータビジョンの一応用では、取得された画像又は動画を用いて目標検出を行って、第１目標対象物の画像における位置を決めることができる。

本開示は、画像処理の技術的解決手段を提案する。

本開示の一方面によれば、第１画像と、前記第１画像における第１目標対象物の第１注意画像とを取得することであって、前記第１注意画像は、前記第１目標対象物の前記第１画像における位置を示すものであることと、第２画像と、前記第２画像の第２マスク画像とを取得することであって、前記第２マスク画像において各画素の画素値が等しいことと、前記第１画像と第１注意画像とにより決定された第１入力情報、及び前記第２画像と前記第２マスク画像とにより決定された第２入力情報に基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることと、を含む画像処理方法を提供する。

可能な一実現形態では、前記方法は、前記第２画像における第２目標対象物に対する検出結果に基づいて、前記第２画像の第２注意画像を取得することであって、前記第２注意画像は、前記第２目標対象物の前記第２画像における位置を示すものであることを更に含み、前記第１予測結果が得られた後、前記第２画像と前記第２注意画像とにより決定された第３入力情報、及び前記第２画像と前記第１予測結果とにより決定された第４入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第１関連性スコアを得ることと、前記第１関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することと、を更に含む。

可能な一実現形態では、前記方法は、前記第１入力情報及び前記第３入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第２関連性スコアを得ることを更に含み、前記第１関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することは、前記第１関連性スコア及び前記第２関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することを含む。

可能な一実現形態では、前記方法は、前記第２目標対象物の前記第１画像における位置を示す第２予測結果を取得することと、
前記第１画像と前記第２予測結果とにより決定された第５入力情報、及び前記第１入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第３関連性スコアを得ることと、を更に含み、前記第１関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することは、前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することを含む。

可能な一実現形態では、前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することは、前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との最終的関連性スコアを決定することと、前記最終的関連性スコアがスコア閾値よりも大きい場合、前記関連付け結果として前記第１目標対象物と前記第２目標対象物との間に潜在的な関連性を有すると決定することと、を含む。

可能な一実現形態では、前記方法は、前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第１目標対象物と前記第２目標対象物との間に関連性がないと決定することを更に含む。

可能な一実現形態では、前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することは、前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１画像の第１目標対象物と前記第２目標対象物との最終的関連性スコアを決定することと、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と各第２目標対象物とのマッチングを行って、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得ることと、を含む。

可能な一実現形態では、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と各第２目標対象物とのマッチングを行って、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得ることは、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と前記各第２目標対象物との間の関連性スコアの総和を決定することと、前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値よりも大きい場合、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物が一対一でマッチングしていると決定して、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得ることと、を含む。

可能な一実現形態では、前記方法は、
前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物がマッチングしないと決定することを更に含む。

可能な一実現形態では、第１入力情報及び第２入力情報に基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることは、前記第１入力情報に対する特徴抽出を行って第１入力情報に対応する特徴マップを得ることと、前記第２入力情報に対する特徴抽出を行って第２入力情報に対応する特徴マップを得ることと、前記第１入力情報に対応する特徴マップ及び前記第２入力情報に対応する特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることと、を含む。

可能な一実現形態では、前記第１入力情報に対する特徴抽出を行って第１入力情報に対応する特徴マップを得ることは、ニューラルネットワークの第１分岐ネットワークを用いて前記第１入力情報に対する特徴抽出を行って、前記第１入力情報の特徴マップを得ることを含み、前記第２入力情報に対する特徴抽出を行って第２入力情報に対応する特徴マップを得ることは、前記ニューラルネットワークの第２分岐ネットワークを用いて前記第２入力情報に対する特徴抽出を行って、前記第２入力情報の特徴マップを得ることを含み、前記第１分岐ネットワークと前記第２分岐ネットワークは、ネットワークパラメータおよびネットワーク構造が同じである。

可能な一実現形態では、前記第１入力情報に対応する特徴マップ及び前記第２入力情報に対応する特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることは、前記第１入力情報に対応する特徴マップと前記第２入力情報に対応する特徴マップとを特徴関連付けて、第１関連付け特徴マップを得ることと、前記第１関連付け特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることと、を含む。

可能な一実現形態では、前記第１目標対象物の第１注意画像を取得することは、前記第１画像における第１目標対象物に対する検出結果に基づいて、前記第１目標対象物の前記第１画像における第１画像領域を決定することと、前記第１画像領域、及び前記第１画像における第１画像領域以外の第２画像領域に基づいて、前記第１目標対象物の第１注意画像を決定することと、を含む。

可能な一実現形態では、前記第１画像における第１目標対象物に対する検出結果に基づいて、前記第１目標対象物の前記第１画像における第１画像領域を決定することは、画像サイズが前記第１画像とマッチングする第１初期画像を取得することと、前記第１画像における第１画像領域に対応する、前記第１初期画像における第１画像領域中の画素の画素値を、第１画素値に設定することと、前記第１初期画像における前記第１画像領域以外の領域である、前記第１初期画像における第２画像領域中の画素の画素値を、前記第１画素値と等しくない第２画素値に設定して、前記第１目標対象物の第１注意画像を得ることと、を含む。

可能な一実現形態では、前記第２画像の第２マスク画像を取得することは、画像サイズが前記第２画像とマッチングする第２初期画像を取得することと、前記第２初期画像中の画素の画素値を第３画素値に設定して、前記第２マスク画像を得ることと、を含む。

可能な一実現形態では、前記第１画像および第１注意画像に基づいて、前記第１入力情報を決定することは、前記第１画像と前記第１注意画像を融合して前記第１入力情報を得ることを含む。

可能な一実現形態では、前記第１画像と前記第１注意画像を融合して前記第１入力情報を得ることは、前記第１画像と前記第１注意画像を所定次元で加算して前記第１入力情報を得るか、又は、前記第１画像と前記第１注意画像を所定次元で繋ぎ合わせて前記第１入力情報を得ることを含む。

可能な一実現形態では、前記第１画像および前記第２画像は、同一シーンを異なる視角から同期して取得さられたものである。

本開示の別の方面によれば、第１画像と、前記第１画像における第１目標対象物の第１注意画像とを取得するための第１取得モジュールであって、前記第１注意画像は、前記第１目標対象物の前記第１画像における位置を示すものである第１取得モジュールと、第２画像と、前記第２画像の第２マスク画像とを取得するための第２取得モジュールであって、前記第２マスク画像において各画素の画素値が等しい第２取得モジュールと、前記第１画像と第１注意画像とにより決定された第１入力情報、及び前記第２画像と前記第２マスク画像とにより決定された第２入力情報に基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得るための第１決定モジュールと、を含む画像処理装置を提供する。

可能な一実現形態では、前記装置は、前記第２画像における第２目標対象物に対する検出結果に基づいて、前記第２画像の第２注意画像を取得するための第３取得モジュールであって、前記第２注意画像は、前記第２目標対象物の前記第２画像における位置を示すものである第３取得モジュールと、前記第２画像と前記第２注意画像とにより決定された第３入力情報、及び前記第２画像と前記第１予測結果とにより決定された第４入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第１関連性スコアを得るための第２決定モジュールと、前記第１関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定するための第３決定モジュールと、を更に含む。

可能な一実現形態では、前記装置は、前記第１入力情報及び前記第３入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第２関連性スコアを得るための第４決定モジュールを更に含み、前記第３決定モジュールは、前記第１関連性スコア及び前記第２関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定するために用いられる。

可能な一実現形態では、前記装置は、前記第２目標対象物の前記第１画像における位置を示す第２予測結果を取得するための第４取得モジュールと、前記第１画像と前記第２予測結果とにより決定された第５入力情報、及び前記第１入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第３関連性スコアを得るための第５決定モジュールと、を更に含み、前記第３決定モジュールは、前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定するために用いられる。

可能な一実現形態では、前記第３決定モジュールは、前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との最終的関連性スコアを決定するための第１決定サブモジュールと、前記最終的関連性スコアがスコア閾値よりも大きい場合、前記関連付け結果として前記第１目標対象物と前記第２目標対象物との間に潜在的な関連性を有すると決定するための第２決定サブモジュールと、を含む。

可能な一実現形態では、前記第３決定モジュールは、前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第１目標対象物と前記第２目標対象物との間に関連性がないと決定するための第３決定サブモジュールを更に含む。

可能な一実現形態では、前記第３決定モジュールは、前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１画像の第１目標対象物と前記第２目標対象物との最終的関連性スコアを決定するための第４決定サブモジュールと、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と各第２目標対象物とのマッチングを行って、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得るためのマッチングサブモジュールと、を含む。

可能な一実現形態では、前記マッチングサブモジュールは、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と前記各第２目標対象物との間の関連性スコアの総和を決定するための第１決定ユニットと、前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値よりも大きい場合、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物が一対一でマッチングしていると決定して、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得るための第２決定ユニットと、を含む。

可能な一実現形態では、前記マッチングサブモジュールは、前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物がマッチングしないと決定するための第３決定ユニットを更に含む。

可能な一実現形態では、前記第１決定モジュールは、前記第１入力情報に対する特徴抽出を行って第１入力情報に対応する特徴マップを得るための第１特徴抽出サブモジュールと、前記第２入力情報に対する特徴抽出を行って第２入力情報に対応する特徴マップを得るための第２特徴抽出サブモジュールと、前記第１入力情報に対応する特徴マップ及び前記第２入力情報に対応する特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得るための予測結果決定サブモジュールと、を含む。

可能な一実現形態では、前記第１特徴抽出サブモジュールは、ニューラルネットワークの第１分岐ネットワークを用いて前記第１入力情報に対する特徴抽出を行って、前記第１入力情報の特徴マップを得るために用いられ、前記第２特徴抽出サブモジュールは、前記ニューラルネットワークの第２分岐ネットワークを用いて前記第２入力情報に対する特徴抽出を行って、前記第２入力情報の特徴マップを得るために用いられ、前記第１分岐ネットワークと前記第２分岐ネットワークは、ネットワークパラメータおよびネットワーク構造が同じである。

可能な一実現形態では、前記予測結果決定サブモジュールは、前記第１入力情報に対応する特徴マップと前記第２入力情報に対応する特徴マップとを特徴関連付けて、第１関連付け特徴マップを得るための特徴関連付けユニットと、前記第１関連付け特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得るための予測結果決定ユニットと、を含む。

可能な一実現形態では、前記第１取得モジュールは、前記第１画像における第１目標対象物に対する検出結果に基づいて、前記第１目標対象物の前記第１画像における第１画像領域を決定するための領域決定サブモジュールと、前記第１画像領域、及び前記第１画像における第１画像領域以外の第２画像領域に基づいて、前記第１目標対象物の第１注意画像を決定するための注意画像決定サブモジュールと、を含む。

可能な一実現形態では、前記領域決定サブモジュールは、画像サイズが前記第１画像とマッチングする第１初期画像を取得するための第１取得ユニットと、前記第１画像における第１画像領域に対応する、前記第１初期画像における第１画像領域中の画素の画素値を、第１画素値に設定するための第１設定ユニットと、前記第１初期画像における前記第１画像領域以外の領域である、前記第１初期画像における第２画像領域中の画素の画素値を、前記第１画素値と等しくない第２画素値に設定して、前記第１目標対象物の第１注意画像を得る第２設定ユニットと、を含む。

可能な一実現形態では、前記第２取得モジュールは、画像サイズが前記第２画像とマッチングする第２初期画像を取得するための第２取得ユニットと、前記第２初期画像中の画素の画素値を第３画素値に設定して、前記第２マスク画像を得るための第３設定ユニットと、を含む。

可能な一実現形態では、前記装置は、前記第１画像と前記第１注意画像を融合して前記第１入力情報を得る画像融合モジュールを更に含む。

可能な一実現形態では、前記画像融合モジュールは、前記第１画像と前記第１注意画像を所定次元で加算して前記第１入力情報を得るための加算サブモジュール、又は、前記第１画像と前記第１注意画像を所定次元で繋ぎ合わせて前記第１入力情報を得るための繋ぎ合わせサブモジュールを含む。

可能な一実現形態では、前記第１画像および前記第２画像は、同一シーンを異なる視角から同期して取得されたものである。

可能な一実現形態では、本開示の一方面によれば、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサは、上記画像処理方法を実行するように構成される電子機器を提供する。

本開示の一方面によれば、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記画像処理方法を実現させるコンピュータ読取可能記憶媒体を提供する。

本開示の一方面によれば、コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードが電子機器で実行されると、前記電子機器に含まれるプロセッサに上記画像処理方法を実現させるコンピュータプログラムを提供する。

本開示の実施例では、第１画像と前記第１画像における第１目標対象物の第１注意画像とを取得し、第２画像と前記第２画像の第２マスク画像とを取得し、そして、前記第１画像と第１注意画像をにより決定された第１入力情報、及び第２画像と第２マスク画像とにより決定された第２入力情報に基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることができる。ただし、第１注意画像は、第１目標対象物の第１画像における位置を示すものであり、第２マスク画像において各画素の画素値が等しい。このように、第１目標対象物の第２画像における位置を予測でき、視角の異なる複数の画像同士の関係を確立して、視野の範囲を拡大して、現在のシーンのより全面的な情報を得ることができる。

以上の一般説明および以下の詳細説明は、本開示を限定するのではなく、単なる例示的および解釈的であることを理解されたい。

以下、図面を参照しながら例示的な実施例について詳細に説明することにより、本開示の他の特徴及び方面は明瞭になる。

明細書の一部として組み込まれた図面は、本開示に合致する実施例を示し、更に明細書と共に本開示の技術的手段を説明するために用いられる。

本開示の実施例による画像処理方法のフローチャートを示す。本開示の実施例による第１ニューラルネットワークによって第１予測結果を取得する一例のブロック図を示す。本開示の実施例による第１目標対象物と第２目標対象物との関連付け結果を決定するフローチャートを示す。本開示の実施例による関連付け結果を取得する一例のブロック図を示す。本開示の実施例による画像処理装置のブロック図を示す。本開示の実施例による電子機器の例のブロック図を示す。本開示の実施例による電子機器の例のブロック図を示す。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴および方面を詳細に説明する。図面において、同じ符号が同じまたは類似する機能の要素を表す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を作る必要がない。

ここの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例も他の実施例より好ましい又は優れるものであると理解すべきではない。

本明細書において、用語の「及び／又は」は、関連対象の関連関係を記述するためのものに過ぎず、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在し、ＡとＢが同時に存在し、Ｂのみが存在するという３つの場合を示すことができる。また、本明細書において、用語の「少なくとも１つ」は複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組合を示し、例えば、Ａ、Ｂ及びＣのうちの少なくとも１つを含むということは、Ａ、Ｂ及びＣから構成される集合から選択されたいずれか１つ又は複数の要素を含むことを示すことができる。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、何らかの具体的な詳細がなくても、本開示が同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者に既知の方法、手段、要素および回路について、詳細な説明を行わない。

本開示の実施例で提供された画像処理手段によれば、第１画像と前記第１画像における第１目標対象物の第１注意画像とを取得し、第２画像と前記第２画像の第２マスク画像とを取得することができる。第１注意画像は、第１目標対象物の第１画像における位置を示すことができ、第２マスク画像において各画素の画素値が等しい。そして、第１画像と第１注意画像とにより決定された第１入力情報、及び第２画像と第２マスク画像とにより決定された第２入力情報に基づいて、第１目標対象物の第２画像における位置を示す第１予測結果を得ることができる。第１注意画像が第１目標対象物の第１画像における位置を示すことができるので、第１入力情報と第２入力情報の連携で、第１目標対象物の第２画像における位置を予測でき、更に、第１目標対象物の第２画像における位置についての第１予測結果に基づいて、視角の異なる複数の画像同士の関係を確立できる。例えば、同一シーンの上面図と側面図について、第１目標対象物の上面図における位置に基づいて第１目標対象物の側面図における位置を予測でき、複数の視角からの画像情報によって第１目標対象物のより完全な情報を得ることができる。

関連技術において、一般的には、複数の画像の目標対象物を共通ベクトル空間に投影し、共通ベクトル空間での別々の目標対象物の投影間の距離を計算することにより、別々の画像において互いに関連する目標対象物を決定する。このような目標関連付け方式では、目標を共通ベクトル空間に投影する時に、投影のための投影行列をキャリブレーションする必要があるが、投影行列が画像取得装置の姿勢に影響されてしまい、即ち、画像装置の姿勢が変化すると投影行列のずれが発生するため、得られた予測結果に大きい誤差が生じてしまう。本開示の実施例で提供された画像処理手段は、第１画像および第１注意画像を第１入力情報とし、第２画像および第２マスク画像を第２入力情報とすることによって、第１注意画像に示される第１目標対象物の位置とともに、第１画像および第２画像における第１目標対象物の画像情報に基づいて、第１目標対象物の第２画像における位置を予測でき、目標対象物の共通ベクトル空間への投影、投影行列のキャリブレーションの必要がなく、得られた予測結果が、画像取得装置の姿勢の影響を受けにくく、予測結果の正確性を高めることができる。

本開示の実施例で提供された技術的解決手段は、目標マーキング、目標認識、画像関連付け等の応用シーンの拡張に利用可能である。例えば、同一のシーンを異なる視角から取得された複数の画像を関連付けて、視角の異なる画像における目標の位置を予測することができる。もう１つの例を挙げると、複数の画像における同一の目標をマーキングすることができる。本開示は具体的な応用シーンを限定しない。以下、実施例によって本開示の実施例で提供された画像処理手段を説明する。

図１は本開示の実施例による画像処理方法のフローチャートを示す。この画像処理方法は、ユーザ側装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、手持ちの機器、計算装置、車載装置、ウエアラブル装置等の端末装置、または、サーバ、他の情報処理装置により実行されてもよい。いくつかの可能な実現形態では、この画像処理方法は、プロセッサによりメモリに記憶されているコンピュータ読取可能なコマンドを呼び出すことで実現されてもよい。以下、画像処理装置を実行主体とする例として本開示の実施例の画像処理手段を説明する。

図１に示すように、前記画像処理方法は以下のステップを含む。

ステップＳ１１、第１画像と、前記第１画像における第１目標対象物の第１注意画像を取得し、前記第１注意画像は、前記第１目標対象物の前記第１画像における位置を示すものである。

本開示の実施例では、画像取得装置により取得された少なくとも２つの画像を得てよい。画像のそれぞれは、同一の画像取得装置からのものであってもよく、別々の画像取得装置からのものであってもよい。第１画像は、少なくとも２つの画像から任意に選択された１つの画像であってもよい。第１画像は、個別に取得された１つの画像であってもよく、取得されたビデオストリームにおける１フレームの画像であってもよい。ここで、第１画像はカラー画像であってもよく、このカラー画像は赤（Ｒ）、緑（Ｇ）、青（Ｂ）の３色を重ね合わせた画像として理解されてもよい。

本開示の実施例では、画像取得装置は第１画像における第１目標対象物の第１注意画像を取得できる。第１注意画像は第１目標対象物の第１画像における位置を示すことができる。第１目標対象物は第１画像におけるいずれの目標対象物であってもよく、例えば、第１画像には顔、テーブルや椅子、盆栽等の複数の目標対象物を含んでもよく、複数の目標対象物のうちの１つの目標対象物、例えば顔を第１目標対象物としてもよい。ここで、画像取得装置は、第１画像における第１目標対象物の所在位置に基づいて第１注意画像を取得してもよく、又は、他の装置によって第１注意画像を直接取得してもよい。

可能な一実現形態では、第１画像における第１目標対象物に対する検出結果に基づいて、第１目標対象物の前記第１画像における第１画像領域を決定し、そして、第１画像領域、及び第１画像における第１画像領域以外の第２画像領域に基づいて、第１目標対象物の第１注意画像を決定するようにしてもよい。

この実現形態では、第１画像に対する目標検出を行って検出結果を得て、検出結果のそれぞれが、１つの目標対象物に対応してもよい。検出結果が複数であってもよく、いずれか１つの検出結果を第１目標対象物の検出結果とすることができる。ここで、検出結果を検出枠で表してもよい。１つの検出結果を１つの注意画像に対応させて、複数の検出結果同士の妨害を低減できる。１つの検出結果に対応する検出枠によって、この検出枠でマーキングされた第１目標対象物の第１画像における第１画像領域を決定する。この第１画像領域は、閉鎖画像領域であってもよい。そして、決定された第１画像領域、及び第１画像領域以外の第２画像領域に基づいて、第１画像の第１注意画像を得ることができる。例えば、第１画像領域における画素の画素値をコピーし、第２画像領域の画素値を変更するか又はコピーした第１画像領域における画素の画素値を調整することで、第１画像領域の画素値と第２画像領域の画素値を明らかに異ならせて、第１注意画像を得るようにしてもよい。すると、第１注意画像における第１目標対象物の所在する画像領域を他の画像領域から区別して、第１目標対象物の第１画像における位置情報を提供することができ、得られた第１目標対象物の第２画像における位置を示す第１予測結果の正確率を高めることができる。

この実現形態の一例において、画像サイズが第１画像とマッチングする第１初期画像を取得し、そして、第１初期画像における第１画像領域中の画素の画素値を第１画素値に設定し、第１初期画像における第２画像領域中の画素の画素値を第２画素値に設定して、前記第１目標対象物の第１注意画像を得るようにしてもよい。ただし、第１初期画像における第１画像領域は、前記第１画像における第１画像領域に対応し、第１初期画像における第２画像領域は、第１初期画像における前記第１画像領域以外の領域であり、第１画素値は前記第２画素値と等しくない。

この例において、画像サイズが第１画像と同じである１つの第１初期画像を生成してもよい。又は、第１画像の第１画像領域をコピーして第１初期画像を得てもよい。第１初期画像は、画像サイズが第１画像とマッチングしている。すなわち、第１初期画像は、第１画像と同じ画像サイズであってもよく、例えば、第１画像の画像サイズが３×３ｃｍであれば、第１初期画像の画像サイズも３×３ｃｍとなると理解されてもよい。第１初期画像は、第１画像領域に対応する第１画像領域を含んでもよい。すなわち、第１画像領域の第１初期画像における画像位置が第１画像領域の第１画像における画像位置と同じであってもよく、例えば、白色に対応する画素値であると理解されてもよい。第１画像領域の画素値は予め設定された第１画素値に設定されてもよく、第１画素値は第１画像領域における画素点の画素値と同じであってもよい。第２画像領域は、第１初期画像における、第１画像領域が含まらない画像領域であってよく、画素値が第２画素値に設定されてもよい。第２画素値は、第１画素値とが異なり、予め設定された画素値、例えば、黒色に対応する画素値であってもよい。それによって、第２画像領域および第１画像領域を画素点の画素値によって区別可能である。このような方式によれば、第１目標対象物に対応する第１注意画像を得ることができ、第１注意画像は、第１目標対象物に対応する画像領域を示すことができる。

別の例において、第１画像領域の画素値を第１画像の第１画像領域と同じ画素値に設定してもよい。第１画像がカラー画像であれば、第１画像領域はカラー画像領域であってもよい。このような方式によって得られた第１画像における第１目標対象物の第１注意画像は、第１目標対象物の位置情報を含むことに加えて、第１目標対象物の色情報を含むことが可能であり、第１目標対象物の第２画像における位置を決定する正確率を高めることができる。

例を挙げると、第１初期画像の第１画像領域における画素点の画素値を１に設定し、第２画像領域における画素点の画素値を０に設定して、第１目標対象物の第１注意画像を得るようにしてもよい。又は、第１画像の第１画像領域における画素点の画素値を第１初期画像の第１画像領域にコピーし、第２画像領域における画素点の画素値を０に設定して、第１注意画像を得るようにしてもよい。

ステップＳ１２、第２画像と前記第２画像の第２マスク画像とを取得し、前記第２マスク画像において各画素の画素値が等しい。

本開示の実施例では、第２画像は上記画像取得装置により取得された少なくとも２つの画像のうちのいずれか１つの画像であってもよい。第２画像の取得手法はステップＳ１１における第１画像の取得手法と同じであってもよく、異なってもよく、詳細は再度説明しない。第２マスク画像は、第２画像と画像サイズが同じであってもよく、画素の画素値が同じであってもよい。同一の画素値を有することにより、位置情報を提供せず、遮蔽の役割を果たすことができる。ここで、第２画像の画像サイズに基づいて第２マスク画像を取得してもよく、又は、他の装置によって第２マスク画像を取得してもよい。

可能な一実現形態では、画像サイズが第２画像とマッチングする第２初期画像を取得し、そして第２初期画像における画素の画素値を第３画素値に設定して、第２マスク画像を得るようにしてもよい。この実現形態では、第２画像と画像サイズが同じ第２初期画像を取得し、そして、第２初期画像における画素の画素値を予め設定された第３画素値に設定して、例えば、第２初期画像における画素点の画素値を黒色に対応する画素値に設定して、第２初期画像を得る。第２初期画像は遮蔽の役割を果たすことができる。

ステップＳ１３、前記第１画像と第１注意画像とにより決定された第１入力情報、及び前記第２画像と前記第２マスク画像とにより決定された第２入力情報に基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得る。

本開示の実施例では、第１画像および第１注意画像を第１入力情報とし、第２画像および第２マスク画像を第２入力情報として、そして、訓練済の第１ニューラルネットワークを用いて第１入力情報および第２入力情報に対する特徴抽出を行って、第１目標対象物の第２画像における位置を示す第１予測結果を得るようにしてもよい。この第１予測結果は１つの画像であり、この画像における画素点の画素値によって第１目標対象物の第２画像における位置を決定できる。例を挙げると、この画像における画素点の画素値を検出し、ある画像領域における画素点の画素値が予め設定された第１画素値であれば、例えば、ある画像領域における画素点が白色であれば、この画像領域の画像における画像位置が第１目標対象物の第２画像における画像位置に相当すると決定できる。

可能な一実現形態では、第１画像と第１注意画像を融合して前記第１入力情報を得てもよい。

この実現形態では、第１画像と第１注意画像を融合して第１入力情報を得る。第１入力情報をニューラルネットワークの入力としてもよい。第１画像と第１注意画像を融合することにより、２つの画像からの画像情報をより好適に組み合わせることができ、抽出された画像特徴をより正確にすることができる。

一例において、前記第１画像と前記第１注意画像を所定次元で加算して前記第１入力情報を得るか、又は、前記第１画像と前記第１注意画像を所定次元で繋ぎ合わせて前記第１入力情報を得るようにしてもよい。

この例において、第１画像と第１注意画像を所定次元で加算することは、第１画像と第１注意画像を深さ次元、即ちチャネル次元で加算するようにしてもよい。ここで、チャネル数は画像の深さ次元に対応する。第１画像と第１注意画像は同じチャネル数を有してもよく、例えば、第１画像と第１注意画像はいずれも、合計３つのチャネルを有するＲＧＢ画像であってもよい。又は、第１画像と第１注意画像は、チャネル数が異なってもよく、例えば、第１画像が３つのチャネルを有し、第１注意画像が１つのチャネルを有する。第１画像と第１注意画像を深さ次元で加算することは、２つの画像の対応位置での画素点のＲ値を加算し、Ｇ値を加算し、Ｂ値を加算するか、又は、第１画像が３つのチャネルを有し、第１注意画像が１つのチャネルを有する場合、対応位置での第１画像の画素点のＲ値に第１注意画像の画素点の画素値を加算するようにしてもよい。それによって、チャネル数が第１画像と同じ第１入力情報を得る。

この例において、第１画像と第１注意画像を所定次元で繋ぎ合わせることは、第１画像と第１注意画像を、画像の長さ、画像の幅、又は深さ次元、即ちチャネル次元（例えば、ＲＧＢの３つのチャネル）で繋ぎ合わせると理解されてもよい。深さ次元で繋ぎ合わせることを例とすると、第１画像と第１注意画像を深さ次元で繋ぎ合わせて６チャネルの画像を形成し、得られた被処理画像の画像サイズが第１画像および第１注意画像の所定次元サイズの和である。ここで、第１画像と第１注意画像の深さが同じである場合に、第１注意画像は、第１目標対象物の位置情報だけでなく、第１目標対象物の画像特徴も提供でき、それによって、ニューラルネットワークによって抽出される特徴マップに、より正確で且つ全面的な画像特徴を持たせる。

可能な一実現形態では、第１ニューラルネットワークの第１分岐ネットワークを用いて第１入力情報を処理して第１分岐ネットワークの第１入力情報に対応する特徴マップを得、第１ニューラルネットワークの第２分岐ネットワークを用いて第２入力情報を処理して第２分岐ネットワークの第２入力情報に対応する特徴マップを得るようにしてもよい。そして、第１入力情報に対応する特徴マップと第２入力情報に対応する特徴マップとを特徴関連付けて、第１関連付け特徴マップを得、さらに、第１関連付け特徴マップに基づいて第１目標対象物の第２画像における位置を示す第１予測結果を得る。

上記の第１入力情報を取得する方法は第２入力情報を取得する方法と同じであっても、異なってもよいことが注意されたく、詳細は再度説明しない。

可能な一実現形態では、第１入力情報に対する特徴抽出を行って第１入力情報に対応する特徴マップを得、第２入力情報に対する特徴抽出を行って第２入力情報に対応する特徴マップを得、そして、第１入力情報に対応する特徴マップおよび前記第２入力情報に対応する特徴マップに基づいて第１目標対象物の前記第２画像における位置を示す第１予測結果を得るようにしてもよい。

この実現形態では、第１入力情報及び第２入力情報をニューラルネットワークの入力情報とし、ニューラルネットワークによって第１入力情報及び第２入力情報のそれぞれに対する特徴抽出を行って、第１入力情報に対応する特徴マップ及び第２入力情報に対応する特徴マップを得るようにしてもよい。そして、第１入力情報に対応する特徴マップ及び第２入力情報に対応する特徴マップによって、第１目標対象物の前記第２画像における位置を示す第１予測結果を得るようにしてもよい。第１入力情報及び第２入力情報に対する特徴抽出を行うことにより、異なる入力情報間の相違をより好適に比較でき、第１予測結果をより正確にすることができる。

この実現形態の一例において、ニューラルネットワークの第１分岐ネットワークを用いて第１入力情報に対する特徴抽出を行って第１入力情報の特徴マップを得、ニューラルネットワークの第２分岐ネットワークを用いて第２入力情報に対する特徴抽出を行って第２入力情報の特徴マップを得るようにしてもよい。ただし、第１分岐ネットワークと第２分岐ネットワークは、ネットワークパラメータおよびネットワーク構造が同じである。

この実現形態では、上記ニューラルネットワークは、それぞれ１つの入力情報に対応する少なくとも２つの分岐ネットワークを含む第１ニューラルネットワークであってもよい。第１分岐ネットワークおよび第２分岐ネットワークは第１ニューラルネットワークの任意２つの分岐ネットワークであってもよい。ただし、第１入力情報を第１分岐ネットワークの入力とし、第２入力情報を第２分岐ネットワークの入力としてもよい。第１分岐ネットワークは特徴抽出層を含み、第１分岐ネットワークの特徴抽出層を用いて第１入力情報に対する特徴抽出を行って第１入力情報の特徴マップを得るようにしてもよい。第２分岐ネットワークは特徴抽出層を含み、第２分岐ネットワークの特徴抽出層を用いて第２入力情報に対する特徴抽出を行って第２入力情報に対応する特徴マップを得るようにしてもよい。ここで、第１分岐ネットワークと第２分岐ネットワークは、ネットワークパラメータおよびネットワーク構造が同じであり、即ち、第１分岐ネットワークと第２分岐ネットワークはネットワークパラメータを共用すると理解されてもよい。そのようにして、第１ニューラルネットワークの訓練速度を加速可能である。例を挙げると、第１ニューラルネットワークの各分岐ネットワークがいずれもチャネル数減少層や特徴抽出層等のネットワーク層を含むことを仮定すると、各分岐ネットワークのチャネル数減少層のネットワークパラメータが同じであってもよく、各分岐ネットワークの特徴抽出層のネットワークパラメータが同じであってもよい。

この実現形態の一例において、第１入力情報に対応する特徴マップと第２入力情報に対応する特徴マップとを特徴関連付けて第１関連付け特徴マップを得、そして第１関連付け特徴マップに基づいて前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得るようにしてもよい。

この例において、第１ニューラルネットワークは関連付け層、回帰層等のネットワーク層を含み、第１ニューラルネットワークの関連付け層を用いて、第１入力情報に対応する特徴マップと第２入力情報に対応する特徴マップとを特徴関連付けて、第１関連付け特徴マップを得て、そして、第１関連付け特徴マップに対して複数回の畳み込み、バッチ正規化、線形正規化、全結合等の処理を行って第１ニューラルネットワークの出力を取得して、この第１ニューラルネットワークの出力を第１予測結果として、又は、第１ニューラルネットワークの出力を更に処理して第１予測結果を得るようにしてもよい。ここで、第１画像は第１目標対象物の画像情報を含むことに加えて、第１目標対象物の周りの画像領域を更に含み、それによって第１画像で形成された第１入力情報から、より全面的な画像特徴を得ることができる。また、第１入力情報は第１目標対象物の画像位置情報を提供できる第１注意画像を更に含むことにより、より正確な第１予測結果を取得できる。

図２は、本開示の実施例による第１ニューラルネットワークによって第１予測結果を取得する一例のブロック図を示す。

一例において、複数の画像取得装置は同一シーンを同期して撮影でき、第１画像取得装置および第２画像取得装置は複数の画像取得装置のうちの任意２つの画像取得装置であり、第１画像取得装置により取得される画像が第１画像であり、第２画像取得装置により取得される画像が第２画像であるようにしてもよい。第１画像および第２画像のそれぞれに対する目標検出を行って第１画像および第２画像の目標検出結果を得てもよい。画像処理装置は、第１画像および第１注意画像、第２画像および第２マスク画像を取得して、第１画像および第１注意画像を第１ニューラルネットワークの第１分岐ネットワークに入力し、且つ第２画像および第２マスク画像を第１ニューラルネットワークの第２分岐ネットワークに入力するようにしてもよい。第１分岐ネットワークの処理過程を例とすると、第１画像と第１注意画像を深さ次元で繋ぎ合わせて第１入力情報を得てもよく、ただし、第１画像が３つのチャネルに対応し、第１注意画像が１つのチャネルに対応し、第１入力情報が４つのチャネルに対応し、各チャネルがそれぞれ１つの深さに対応する。そして、第１分岐ネットワークを用いて第１入力情報に対して畳み込み処理を行って第１入力情報のチャネル数を４から３に低減し、そして、特徴抽出を行って第１分岐ネットワークの第１入力情報に対応する特徴マップを得るようにしてもよい。第１入力情報に対応する特徴マップは、３つの次元特徴を有するテンソルであってもよく、３つの次元特徴は長さ特徴、幅特徴及び深さ特徴を含んでもよい。特徴抽出を行う時に複数回の畳み込み処理を行ってもよい。同様な処理手法で、第２分岐ネットワークの第２入力情報に対応する特徴マップを取得できる。

そして、第１ニューラルネットワークの関連付け層を用いて第１入力情報に対応する特徴マップと第２入力情報に対応する特徴マップとを関連付けて、第１関連付け特徴マップを取得するようにしてもよい。第１入力情報に対応する特徴マップと第２入力情報に対応する特徴マップとを関連付ける時に、以下の式（１）が利用可能になる。

ただし、

は第１関連付け特徴マップを表し、

であり、ここで、

は実数集合を表す。

は第１入力情報に対応する特徴マップの特徴ベクトルであり、

は第２入力情報に対応する特徴マップの特徴ベクトルであり、ｉは第１入力情報に対応する特徴マップおよび第２入力情報に対応する特徴マップの行を表し、長さ特徴に対応し、ｊは第１入力情報に対応する特徴マップおよび第２入力情報に対応する特徴マップの列を表し、幅特徴に対応し、ｉとｊは共に正整数であり、ｋは行および列に対応するインデックスを表し、例えば、

であり、

は第１関連付け特徴マップの３つの次元特徴を表す。

そして、第１関連付け特徴マップに対してチャネルインターリービング、グローバル回帰等の処理を行ってもよい。チャネルインターリービングによって、第１関連付け特徴マップにおける画像特徴を更に抽出し、チャネルインターリービングを行った後の第１関連付け特徴マップの深さ特徴を一定の深さ、例えば、６４の深さ内に抑えることができる。チャネルインターリービング、グローバル回帰等の処理を行った後、画像における白色の画素点の画像領域が第１目標対象物の第２画像における位置を示す１つの画像が得られることができる。ここのグローバル回帰処理は、複数回の畳み込み処理、バッチ正規化処理、線形正規化処理及び全結合層の処理を含んでもよい。

本開示の実施例では、構造が第１ニューラルネットワークと同じ又は類似的な第２ニューラルネットワークを用いて、第１画像における第１目標対象物と第１画像における第２目標対象物が同じ目標対象物であるか否かについて判断することができる。図３は本開示の実施例による第１目標対象物と第２目標対象物との関連付け結果を決定するフローチャートを示す。本開示の実施例で提供された画像処理方法は以下のステップを更に含んでもよい。

ステップＳ２１、前記第２画像における第２目標対象物に対する検出結果に基づいて、前記第２画像の第２注意画像を取得し、前記第２注意画像は、前記第２目標対象物の前記第２画像における位置を示すものである。

ここで、第２画像における第２目標対象物の、第２目標対象物の位置を含む検出結果を取得するようにしてもよい。第２目標対象物は第２画像におけるいずれか１つの目標対象物であってもよい。第２画像における第２目標対象物の検出結果に基づいて、第２画像の第２注意画像を取得できる。第２注意画像の取得手法は第１注意画像と同じであっても、異なってもよく、詳細は再度説明しない。第２注意画像は第２目標対象物の第２画像における位置情報を含むようにしてもよい。ここで、画像取得装置は他の装置から第２画像の第２注意画像を直接取得してもよい。

ステップＳ２２、前記第２画像と前記第２注意画像とにより決定された第３入力情報、及び前記第２画像と前記第１予測結果とにより決定された第４入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第１関連性スコアを得る。

本開示の実施例では、第２画像と第２注意画像を融合して第３入力情報を得、第２画像と第１予測結果を融合して第４入力情報を得、更に、訓練済の第２ニューラルネットワークを用いて第３入力情報及び第４入力情報を処理して第１目標対象物と第２目標対象物との間の第１関連性スコアを得るようにしてもよい。第１関連性スコアは第１目標対象物と第２目標対象物との間の関連度を表すことができる。ここで、第２注意画像を取得する方法は第１注意画像を取得する方法と同じであっても、異なってもよく、第２画像と第２注意画像の融合過程は第１画像と第１注意画像の融合過程と同じであっても、異なってもよく、詳細は再度説明しない。

可能な一実現形態では、第２ニューラルネットワークの第３分岐ネットワークを用いて前記第３入力情報を処理して第３入力情報に対応する特徴マップを得、第２ニューラルネットワークの第４分岐ネットワークを用いて第４入力情報を処理して第４入力情報に対応する特徴マップを得るようにしてもよい。そして、第３入力情報に対応する特徴マップと第４入力情報に対応する特徴マップとを特徴関連付けて第２関連付け特徴マップを得、さらに、前記第２関連付け特徴マップに基づいて第１目標対象物と第２目標対象物との間の関連度を表す第１関連性スコアを得る。

この実現形態では、第２ニューラルネットワークは、それぞれ１つの入力情報に対応する少なくとも２つの分岐ネットワークを含んでもよい。第３分岐ネットワークおよび第４分岐ネットワークは第２ニューラルネットワークの任意２つの分岐ネットワークであってもよい。ただし、第１入力情報を第３分岐ネットワークの入力とし、第３入力情報を第２分岐ネットワークの入力としてもよい。第３分岐ネットワークは特徴抽出層を含み、第３分岐ネットワークの特徴抽出層を用いて第１入力情報に対する特徴抽出を行って第３入力情報に対応する特徴マップを得るようにしてもよい。それに応じて、第４分岐ネットワークは特徴抽出層を含み、第４分岐ネットワークの特徴抽出層を用いて第３入力情報に対する特徴抽出を行って第４入力情報に対応する特徴マップを得るようにしてもよい。第２ニューラルネットワークは、関連付け層、回帰層等のネットワーク層を含み、第２ニューラルネットワークの関連付け層を用いて第３入力情報に対応する特徴マップと第４入力情報に対応する特徴マップとを特徴関連付けて第２関連付け特徴マップを得て、そして、第２関連付け特徴マップに対して複数回の畳み込み、バッチ正規化、線形正規化、全結合等の処理を行って、第２ニューラルネットワークの出力を得るようにしてもよい。この第２ニューラルネットワークの出力を第１関連性スコアとしてもよく、又は、第２ニューラルネットワークの出力を更に処理して第１関連性スコアを得てもよい。この第１関連性スコアが高いほど、第１予測結果によって示される第１目標対象物と第２画像中の第２目標対象物との間に関連性があり、即ち、２つの目標対象物が同一の目標対象物であれば、この目標対象物について予測された画像位置がこの目標対象物の実の画像位置に近いので、第１関連性スコアが大きいと理解されてもよい。２つの目標対象物が同一の目標対象物でなければ、この目標対象物について予測された画像位置がこの目標対象物の実の画像位置と大きくずれ、第１関連性スコアが小さい。

ステップＳ２３、前記第１関連性スコアに基づいて前記第１目標対象物と前記第２目標対象物との関連付け結果を決定する。

本開示の実施例では、第１関連性スコアに基づいて第１目標対象物と第２目標対象物との関連付け結果を決定することができる。例えば、第１関連性スコアに基づいて第１目標対象物と第２目標対象物が同一の目標対象物であるか否かを決定でき、第１関連性スコアが所定のスコア閾値より大きい場合、関連付け結果として第１目標対象物と第２目標対象物が同一の目標対象物であると考えられる。第１関連性スコアが所定のスコア閾値以下である場合、関連付け結果として第１目標対象物と第２目標対象物との間に関連性がないと考えられる。

一例において、第２画像、第２注意画像、及び第１予測結果を取得するようにしてもよい。そして、第２画像および第２注意画像を第２ニューラルネットワークの第３分岐ネットワークに入力し、且つ第２画像および第１予測結果を第２ニューラルネットワークの第４分岐ネットワークに入力するようにしてもよい。第３分岐ネットワークの処理過程を例とすると、第２画像と第２注意画像を深さ次元で結合して第３入力情報を得てもよく、ただし、第２画像のブランチが３つのチャネルに対応し、第２注意画像が１つのチャネルに対応し、第３入力情報が４つのチャネルに対応し、各チャネルがそれぞれ１つの深さに対応する。そして、第３分岐ネットワークを用いて第３入力情報に対して畳み込み処理を行って、第３入力情報のチャネル数を４から３に低減し、そして、特徴抽出を行って第３分岐ネットワークの第３入力情報に対応する特徴マップを得るようにしてもよい。第３入力情報に対応する特徴マップは３つの次元特徴を有するテンソルであってもよく、３つの次元特徴は長さ特徴、幅特徴及び深さ特徴を含んでもよい。特徴抽出を行う時に複数回の畳み込み処を行ってもよい。同様な処理手法で、第４分岐ネットワークの第４入力情報に対応する特徴マップを取得できる。

そして、第２ニューラルネットワークの関連付け層を用いて第３入力情報に対応する特徴マップと第４入力情報に対応する特徴マップとを関連付けて、第２関連付け特徴マップを取得するようにしてもよい。第３入力情報に対応する特徴マップと第４入力情報に対応する特徴マップとを関連付ける時に、上記の式（１）で第２関連付け特徴マップを取得してもよい。そして、第２関連付け特徴マップに対してグローバル回帰処理を行って、第１目標対象物と第２目標対象物との間の第１関連性スコアを取得するようにしてもよい。ここのグローバル回帰処理は複数回の畳み込み処理、バッチ正規化処理、線形正規化処理及び全結合層の処理を含んでもよい。

一例において、第１入力情報及び第３入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第２関連性スコアを得、そして第１関連性スコア及び第２関連性スコアに基づいて第１目標対象物と前記第２目標対象物との関連付け結果を決定するようにしてもよい。

この例において、関連付け結果の正確率を保証するために、複数のニューラルネットワークを組み合わせて、第１目標対象物と第２目標対象物との間の関連付け結果を共同で決定するようにしてもよい。即ち、第３ニューラルネットワークを用いて第１入力情報および第３入力情報に対する特徴抽出を行って第１入力情報に対応する特徴マップおよび第３入力情報に対応する特徴マップを得、そして、第１入力情報に対応する特徴マップと第３入力情報に対応する特徴マップとを特徴関連付けて第３関連付け特徴マップを得、そして、第３関連付け特徴マップに基づいて第１目標対象物と第２目標対象物との間の関連度を表す第２関連性スコアを得るようにしてもよい。ここの関連度は第１目標対象物と第２目標対象物が同一の目標対象物である概率を表すものであると理解されてもよい。ここで、第３ニューラルネットワークのネットワーク構造及び処理過程は上記第２ニューラルネットワークと同じであり、詳細は再度説明しない。第２関連性スコアが得られた後、第１関連性スコアおよび第２関連性スコアに基づいて第１目標対象物と第２目標対象物との関連付け結果を決定できる。例えば、第１関連性スコアおよび第２関連性スコアに対して加重平均を行って最終的関連性スコアを決定し、さらに最終的関連性スコアに基づいて第１目標対象物と第２目標対象物との関連付け結果を決定する。

一例において、第２目標対象物の第１画像における位置を示す第２予測結果を取得し、そして、前記第１画像と前記第２予測結果とにより決定された第５入力情報、及び第１入力情報に基づいて第１目標対象物と前記第２目標対象物との間の関連度を表す第３関連性スコアを得るようにしてもよい。更に、第１関連性スコア及び第３関連性スコアに基づいて第１目標対象物と第２目標対象物との関連付け結果を決定する。

この例において、第２予測結果は、第２画像および第２画像における第２注意画像、並びに第１画像および第１マスク画像により決定されることができる。第２予測結果の決定過程は第１予測結果の決定過程と同じであっても、異なってもよく、詳細は再度説明しない。第２予測結果および第１画像を第５入力情報としてもよく、又は、第２予測結果と第１画像を融合して第５入力情報を得てもよい。そして、第５入力情報および第１入力情報を第４ニューラルネットワークに入力して、第４ニューラルネットワークの出力に基づいて第３関連性スコアを取得するようにしてもよい。ここで、第４ニューラルネットワークはネットワーク構造が第２ニューラルネットワークと同じであってもよく、詳細は再度説明しない。第３関連性スコアは第２予測結果と第１目標対象物との関連度を表すことができる。この第３関連性スコアが高いほど、第２予測結果によって示される第２目標対象物と第１画像中の第１目標対象物との間に関連性がある。そして、第１関連性スコアと第３関連性スコアとの両方に基づいて第１目標対象物と第２目標対象物との間の比較的正確な関連付け結果を取得でき、例えば、第１関連性スコアと第３関連性スコアの平均値又は最大値を計算して、この平均値又は最大値に基づいて第１目標対象物と第２目標対象物との関連付け結果を決定できる。

図４は本開示の実施例による関連付け結果を取得する一例のブロック図を示す。ここで、第１画像をＩ１で、第１画像の第１注意画像をＭ１で、第１画像の第１マスク画像をＭ０１で表してもよい。第２画像をＩ２で、第２画像の第２注意画像をＭ２で、第２画像の第２マスク画像をＭ０２で表してもよい。第１画像Ｉ１および第１注意画像Ｍ１を第１入力情報として、第２画像Ｉ２および第２マスク画像Ｍ０２を第２入力情報として、第１ニューラルネットワークをＭａｓｋ１で表してもよい。第１入力情報および第２入力情報を第１ニューラルネットワークＭａｓｋ１に入力して第１予測結果を取得でき、第１予測結果を

で表してもよい。第２画像および第２注意画像を第３入力情報として、第１予測結果および第２画像を第４入力情報として、第４入力情報および第３入力情報を第２ニューラルネットワークＡｓｓｏｃｉａｔｉｏｎ１に入力して第１関連性スコアを取得できる。第１入力情報および第３入力情報を第３ニューラルネットワークＡｓｓｏｃｉａｔｉｏｎ２に入力して第２関連性スコアを取得できる。第３入力情報および第４入力情報を第５ニューラルネットワークＭａｓｋ２に入力して第２予測結果

を取得できる。第２予測結果

および第１画像を第５入力情報として、第１入力情報および第５入力情報を第４ニューラルネットワークＡｓｓｏｃｉａｔｉｏｎ３に入力して第３関連性スコアを取得できる。そして、第１関連性スコア、第２関連性スコア、及び第３関連性スコアを、１つの全結合層であってもよい投票層に入力して、投票層によって最終的関連性スコアを取得でき、この最終的関連性スコアに基づいて第１目標対象物と第２目標対象物との関連付け結果を決定できる。

上記第１ニューラルネットワークのネットワーク構造と第２ニューラルネットワークのネットワーク構造によって任意に組み合わせてもよいことが注意されたい。図４は可能な一つの組合せ方式を例示するに過ぎず、本開示の実施例では具体的な組合せ方式を限定しない。

一例において、第１関連性スコアおよび第３関連性スコアに基づいて前記第１目標対象物と前記第２目標対象物との最終的関連性スコアを決定し、最終的関連性スコアがスコア閾値よりも大きい場合、関連付け結果として前記第１目標対象物と前記第２目標対象物との間に潜在的な関連性を有すると決定する。

この例において、複数の関連性スコアに基づいて、第１目標対象物と第２目標対象物との関連度を正確に表せる最終的関連性スコアを得ることができる。第１関連性スコアと第３関連性スコアの平均値又は最大値を最終的関連性スコアとしてもよく、第１関連性スコアおよび第３関連性スコアを１つのニューラルネットワークの全結合層に入力して最終的関連性スコアを得てもよい。そして、最終的関連性スコアに基づいて第１目標対象物と第２目標対象物との関連付け結果を決定する。最終的関連性スコアが高いほど、第１目標対象物と第２目標対象物との間の関連度が大きく、最終的関連性スコアが低いほど、第１目標対象物と第２目標対象物との間の関連度が小さい。この例において、最終的関連性スコアを予め設定されたスコア閾値と比較してもよく、得られた関連性スコアがスコア閾値よりも大きければ、２つの目標検出結果間に潜在的な関連性があり、即ち、２つの目標が同一の目標である可能性があると考えられる。このような方式によれば、最終的関連性スコアに基づいて、２つの目標対象物が同一の目標対象物であるか否かを迅速に判断できる。

一例において、前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第１目標対象物と前記第２目標対象物との間に関連性がないと決定する。

この例において、得られた最終的関連性スコアが所定のスコア閾値以下であれば、２つの目標対象物間に関連性がなく、即ち、第１目標対象物と第２目標対象物が同一の目標対象物でないと考えられる。このような方式によれば、任意２つの目標対象物間の関連性スコアに基づいて、２つの目標対象物が同一の目標対象物でないと迅速に決定できる。

一例において、更に、第１関連性スコア、第２関連性スコア、及び第３関連性スコアに基づいて最終的関連性スコアを共同で決定するようにしてもよい。例えば、第１関連性スコア、第２関連性スコア、及び第３関連性スコアに対して加重平均を行って最終的関連性スコアを得る。

一例において、前記第１関連性スコアおよび前記第３関連性スコアに基づいて前記第１画像の第１目標対象物と前記第２目標対象物との最終的関連性スコアを決定し、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて前記各第１目標対象物と各第２目標対象物とのマッチングを行って、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得るようにしてもよい。

この例において、第１画像と第２画像との両方に複数の目標対象物が含まれてもよいので、第１画像におけるある第１目標対象物が第２画像の複数の第２目標対象物に対して潜在的な関連性を有するが、実際には１つの第１目標対象物が１つの第２目標対象物に対応する。従って、第１目標対象物と第２目標対象物との間の最終的関連性スコアに基づいて、１つの第１目標対象物と１つの第２目標対象物とのマッチングを行うように、複数の第１目標対象物と複数の第２目標対象物とのグローバルマッチングを行って、マッチングが成功した第１目標対象物と第２目標対象物が同一の目標対象物であると考えられる。

この例において、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて前記各第１目標対象物と前記各第２目標対象物との間の関連性スコアの総和を決定し、前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値より大きい場合、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物が一対一でマッチングしていると決定して、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得るようにしてもよい。

この例において、各第１目標対象物と各第２目標対象物との間の最終的関連性スコアの総和を計算することによって、２つの画像における目標のマッチングを行うことができる。即ち、第１画像における複数の目標と第２画像の複数の目標を一対一でマッチングして、そして、マッチングされた目標のペアの間の最終的関連性スコアを計算することにより、関連性スコアの総和を得る。関連性スコアの総和が最大となった場合に、第１画像における各第１目標対象物と第２画像における各第２目標対象物が最適にマッチングしていると考えられ、この最大となった関連性スコアの総和が予め設定された総和スコア閾値よりも大きければ、第１画像における複数の目標対象物と第２画像の複数の目標対象物が一対一でマッチングしていると考えられる。このように、異なる画像における目標対象物同士の最適なマッチングを取れる。

この例において、前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合に、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物がマッチングしないと決定する。

ここで、この最大の関連性スコアの総和が予め設定された総和スコア閾値以下であれば、第１画像における複数の第１目標対象物と第２画像の複数の第２目標が最適にマッチングしているが、最大の関連性スコアの総和が予め設定された総和スコア閾値に到達していないと考えられ、第１画像における複数の第１目標対象物と第２画像の複数の第２目標対象物が一対一でマッチングするのではなく、第１画像と第２画像が同一シーンに対して撮影した画像ではないと考えられる。例えば、第１画像および第２画像に含まれる目標対象物は、一部で同じ、一部で異なるか、又は第１画像および第２画像に含まれる目標対象物はすべて異なる。

例を挙げると、第１画像にＡ、Ｂ及びＣの３つの第１目標対象物が存在し、第２画像にａ、ｂ及びｃの３つの第２目標対象物が存在すると仮定する。第１画像におけるＡと第２画像におけるａとの間の最終的関連性スコアをＡａで表してもよい。第１画像における３つの第１目標対象物と第２画像における３つの第２目標対象物をランダムにペアリングして、ペアリングされた２つの目標間の最終的関連性スコアを加算して得られたものを、各第１目標対象物と各第２目標対象物との間の関連性スコアの総和としてもよい。ランダムにペアリングするたびに、第１画像における１つの第１目標対象物に第２画像における１つの第２目標対象物が割り当てられる。即ち、Ａａ、Ｂｂ、Ｃｃが１回のランダムペアリングに対応し、Ａａ、Ｂｃ、Ｃｂが１回のランダムペアリングに対応し、Ａｂ、Ｂａ、Ｃｃが１回のランダムペアリングに対応し、Ａｂ、Ｂｃ、Ｃａが１回のランダムペアリングに対応し、Ａｃ、Ｂａ、Ｃｂが１回のランダムペアリングに対応し、Ａｃ、Ｂｂ、Ｃａが１回のランダムペアリングに対応し、その中、最終的関連性スコアの和が最も大きい１回のランダムペアリングを選択し、このランダムペアリングされた目標のペアの最終的関連性スコアの和を最大の関連性スコアの総和としてもよい。

本開示では、複数の第１目標対象物と複数の第２目標対象物とのマッチングを行う時に、具体的なマッチング方法が限定されないことが注意されたい。ここで、例えば、貪欲法又はハンガリアン法のような関連アルゴリズムを用いて、第１画像における複数の第１目標対象物と第２画像における複数の第２目標対象物とのマッチングを行って、異なる画像における目標対象物同士の最適なマッチングを取れる。

可能な一実現形態では、第１画像および第２画像は、同一シーンを異なる視角から同期して取得されたものである。ここで、複数の画像取得装置は異なる視角から同一シーンを同期して撮影でき、画像取得装置毎に撮影角度および撮影位置が異なるため、異なる角度から同一シーンを撮影した画像、例えば、同一物体の正面図および上面図を取得可能である。第１画像と第２画像における目標対象物同士の関連付け結果に基づいて、複数の画像取得装置によって同期して取得された画像における同一目標対象物のマッチングを行うことができ、例えば、異なる画像における同じ目標対象物を同じ番号、同じ色又は形状等でマーキングして、異なる画像における同じ目標対象物の関連付けを実現することができる。

本開示で言及された上記各方法の実施例は、原理や論理を違反しない限り、相互に組み合わせて実施例を形成することができることが理解され、紙幅に限りがあるため、詳細は本開示では再度説明しない。

また、本開示は画像処理装置、電子機器、コンピュータ読取可能記憶媒体、プログラムを更に提供し、いずれも本開示で提供されるいずれか１つの画像処理方法を実現するために用いることができ、対応する技術的解決手段及び説明は方法の部分の対応する記載を参照すればよく、詳細は再度説明しない。

具体的な実施形態の上記方法において、各ステップの記述順序は厳密にその順に従って実行することを限定するものではなく、実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順序はその機能および可能な内在的論理によって決定されるべきであることが当業者に理解される。

図５は本開示の実施例による画像処理装置のブロック図を示し、図５に示すように、前記画像処理装置は、第１画像と、前記第１画像における第１目標対象物の第１注意画像とを取得するための第１取得モジュール３１であって、前記第１注意画像は、前記第１目標対象物の前記第１画像における位置を示すものである第１取得モジュール３１と、第２画像と、前記第２画像の第２マスク画像とを取得するための第２取得モジュール３２であって、前記第２マスク画像において各画素の画素値が等しい第２取得モジュール３２と、前記第１画像と第１注意画像とにより決定された第１入力情報、及び前記第２画像と前記第２マスク画像とにより決定された第２入力情報に基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得るための第１決定モジュール３３と、を含む。

可能な一実現形態では、前記領域決定サブモジュールは、画像サイズが前記第１画像とマッチングする第１初期画像を取得するための第１取得ユニットと、前記第１画像における第１画像領域に対応する、前記第１初期画像における第１画像領域中の画素の画素値を、第１画素値に設定するための第１設定ユニットと、前記第１初期画像における前記第１画像領域以外の領域である、前記第１初期画像における第２画像領域中の画素の画素値を、前記第１画素値と等しくない第２画素値に設定して、前記第１目標対象物の第１注意画像を得るための第２設定ユニットと、を含む。

可能な一実現形態では、前記第２取得モジュールは、画像サイズが前記第２画像とマッチングする第２初期画像を取得するための第２取得ユニットと、前記第２初期画像中の画素の画素値を第３設置画素値に設定して、前記第２マスク画像を得るための第３設定ユニットと、を含む。

可能な一実現形態では、前記装置は、前記第１画像と前記第１注意画像を融合して前記第１入力情報を得るための画像融合モジュールを更に含む。

可能な一実現形態では、前記画像融合モジュールは、前記第１画像と前記第１注意画像を所定次元で加算して前記第１入力情報を得るための加算サブモジュール、又は、前記第１画像と前記第１注意画像を所定次元で繋ぎ合わせて前記第１入力情報を得るための繋ぎ合わせサブモジュールと、を含む。

いくつかの実施例では、本開示の実施例で提供された装置が有する機能又はモジュールは、上記方法の実施例に記載の方法を実行するために用いられ、その具体的な実現は上記方法の実施例の説明を参照すればよく、説明を簡潔にするために、詳細は再度説明しない。

本開示の実施例は、コンピュータプログラムコマンドが記憶されているコンピュータ読取可能記憶媒体であって、前記コンピュータプログラムコマンドは、プロセッサにより実行されると、上記方法を実現させるコンピュータ読取可能記憶媒体を更に提案する。コンピュータ読取可能記憶媒体は非揮発性のコンピュータ読取可能記憶媒体であってもよい。

本開示の実施例は、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、前記プロセッサは、上記方法を実行するように構成される電子機器を更に提案する。

電子機器は、端末、サーバ又は他の形態のデバイスとして提供されてよい。

図６は例示的な一実施例によって示された電子機器８００のブロック図である。例えば、装置８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレット装置、医療機器、フィットネス器具、パーソナル・デジタル・アシスタントなどの端末であってよい。

図６を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インターフェイス８１２、センサコンポーネント８１４、および通信コンポーネント８１６のうちの一つ以上を含でもよい。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話呼出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、命令を実行して上記方法の全てまたは一部のステップを実行するために、一つ以上のプロセッサ８２０を含んでもよい。また、処理コンポーネント８０２は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８とのインタラクションのために、マルチメディアモジュールを含んでもよい。

メモリ８０４は電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器８００において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インターフェイスを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント８０８は一つの前面カメラおよび／または後面カメラを含む。電子機器８００が動作モード、例えば写真モードまたは撮影モードになる場合、前面カメラおよび／または後面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび後面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、一つのマイク（ＭＩＣ）を含み、マイク（ＭＩＣ）は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインターフェイス８１２は処理コンポーネント８０２と周辺インターフェイスモジュールとの間でインターフェイスを提供し、上記周辺インターフェイスモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。

センサコンポーネント８１４は電子機器８００の各面で状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、例えば電子機器８００の表示装置およびキーパッドのようなコンポーネントの相対的画像処理を検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成された近接センサを含んでもよい。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。

通信コンポーネント８１６は電子機器８００と他の機器との有線または無線通信を実現するように配置される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いることができる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体又は揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０によって実行されると、上記方法を実行することができる。

図７は例示的な一実施例によって示された電子機器１９００のブロック図である。例えば、電子機器１９００はサーバとして提供てもよい。図７を参照すると、電子機器１９００は、一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されたアプリケーションプログラムはそれぞれが１つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント１９２２は命令を実行することによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成された電源コンポーネント１９２６、電子機器１９００をネットワークに接続するように構成された有線または無線ネットワークインターフェイス１９５０、および入出力（Ｉ／Ｏ）インターフェイス１９５８を含んでもよい。電子機器１９００はメモリ１９３２に記憶されたオペレーティングシステム、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒ^ＴＭ、ＭａｃＯＳＸ^ＴＭ、Ｕｎｉｘ^ＴＭ、Ｌｉｎｕｘ^ＴＭ、ＦｒｅｅＢＳＤ^ＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体又は揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されると、上記方法を実行することができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各方面を実現させるためのコンピュータ読み取り可能プログラム命令を有しているコンピュータ読み取り可能記憶媒体を含んでもよい。

コンピュータ読み取り可能記憶媒体は命令実行装置に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含んでもよい。各計算／処理機器内のネットワークアダプタカードまたはネットワークインターフェイスはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算／処理機器内のコンピュータ読み取り可能記憶媒体に記憶させる。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能プログラム命令を実行することにより、本開示の各方面を実現できるようにしてもよい。

なお、ここで本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各方面を説明しが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ読み取り可能プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されて、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されるときフローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現ように装置を製造してもよい。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよい。命令を記憶しているコンピュータ読み取り可能記憶媒体に、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各方面を実現するための命令を有する製品を含む。

コンピュータ読み取り可能プログラムは、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードし、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ことを実行させることにより、コンピュータにより実施なプロセスを生成し、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令によりフローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は図面に付した順序と異なって実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、逆な順序で実行してもよい場合がある。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本明細書に披露された各実施例を理解させるためのものである。

Claims

第１画像と、前記第１画像における第１目標対象物の第１注意画像とを取得することであって、前記第１注意画像は、前記第１目標対象物の前記第１画像における位置を示すものであることと、
第２画像と、前記第２画像の第２マスク画像とを取得することであって、前記第２マスク画像において各画素の画素値が等しいことと、
前記第１画像と第１注意画像とにより決定された第１入力情報、及び前記第２画像と前記第２マスク画像とにより決定された第２入力情報に基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることと、を含み、
前記第１画像および前記第２画像は、同一シーンを異なる視角から取得されたものであり、
前記第１画像および前記第１注意画像を前記第１入力情報とするか、又は前記第１画像と前記第１注意画像を融合して前記第１入力情報を得、
前記第２画像および前記第２マスク画像を前記第２入力情報とするか、又は前記第２画像と前記第２マスク画像を融合して前記第２入力情報を得る
ことを特徴とする画像処理方法。
前記第２画像における第２目標対象物に対する検出結果に基づいて、前記第２画像の第２注意画像を取得することであって、前記第２注意画像は、前記第２目標対象物の前記第２画像における位置を示すものであることを更に含み、
前記第１予測結果が得られた後、
前記第２画像と前記第２注意画像とにより決定された第３入力情報、及び前記第２画像と前記第１予測結果とにより決定された第４入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第１関連性スコアを得ることと、
前記第１関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連
付け結果を決定することと、を更に含むことを特徴とする請求項１に記載の方法。
前記第１入力情報及び前記第３入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第２関連性スコアを得ることを更に含み、
前記第１関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することは、
前記第１関連性スコア及び前記第２関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することを含むことを特徴とする請求項２に記載の方法。
前記第２目標対象物の前記第１画像における位置を示す第２予測結果を取得することと、
前記第１画像と前記第２予測結果とにより決定された第５入力情報、及び前記第１入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第３関連性スコアを得ることと、を更に含み、
前記第１関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することは、
前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することを含むことを特徴とする請求項２又は３に記載の方法。
前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することは、
前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との最終的関連性スコアを決定することと、
前記最終的関連性スコアがスコア閾値よりも大きい場合、前記関連付け結果として前記第１目標対象物と前記第２目標対象物との間に潜在的な関連性を有すると決定することと、
前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第１目標対象物と前記第２目標対象物との間に関連性がないと決定することと、を含むことを特徴とする請求項４に記載の方法。
前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することは、
前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１画像の第１目標対象物と前記第２目標対象物との最終的関連性スコアを決定することと、
前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と各第２目標対象物とのマッチングを行って、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得ることと、を含むことを特徴とする請求項４に記載の方法。
前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と各第２目標対象物とのマッチングを行って、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得ることは、
前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と前記各第２目標対象物との間の関連性スコアの総和を決定することと、
前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値よりも大きい場合、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物が一対一でマッチングしていると決定して、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得ることと、
前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物がマッチングしないと決定することと、を含むことを特徴とする請求項６に記載の方法。
第１入力情報及び第２入力情報に基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることは、
前記第１入力情報に対する特徴抽出を行って第１入力情報に対応する特徴マップを得ることと、
前記第２入力情報に対する特徴抽出を行って第２入力情報に対応する特徴マップを得ることと、
前記第１入力情報に対応する特徴マップ及び前記第２入力情報に対応する特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることと、を含むことを特徴とする請求項１～７のいずれか一項に記載の方法。
前記第１入力情報に対応する特徴マップ及び前記第２入力情報に対応する特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることは、
前記第１入力情報に対応する特徴マップと前記第２入力情報に対応する特徴マップとを特徴関連付けて、第１関連付け特徴マップを得ることと、
前記第１関連付け特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることと、を含むことを特徴とする請求項８に記載の方法。
プロセッサと、
前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含む画像処理装置であって、
前記プロセッサは、前記メモリに記憶されているコマンドを呼び出して、
第１画像と、前記第１画像における第１目標対象物の第１注意画像とを、前記第１注意画像は、前記第１目標対象物の前記第１画像における位置を示すものとして、取得し、
第２画像と、前記第２画像の第２マスク画像とを、前記第２マスク画像において各画素の画素値が等しいものとして、取得し、
前記第１画像と第１注意画像とにより決定された第１入力情報、及び前記第２画像と前記第２マスク画像とにより決定された第２入力情報に基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得、
前記第１画像および前記第１注意画像を前記第１入力情報とするか、又は前記第１画像と前記第１注意画像を融合して前記第１入力情報を得、
前記第２画像および前記第２マスク画像を前記第２入力情報とするか、又は前記第２画像と前記第２マスク画像を融合して前記第２入力情報を得るように構成され、
前記第１画像および前記第２画像は、同一シーンを異なる視角から取得されたものであることを特徴とする画像処理装置。
前記プロセッサが、
前記第２画像における第２目標対象物に対する検出結果に基づいて、前記第２画像の第２注意画像を取得するものであって、前記第２注意画像は、前記第２目標対象物の前記第２画像における位置を示し、
前記第２画像と前記第２注意画像とにより決定された第３入力情報、及び前記第２画像と前記第１予測結果とにより決定された第４入力情報に基づいて、前記第1予測結果を得たのちに前記第１目標対象物と前記第２目標対象物との間の関連度を表す第１関連性スコアを得るものであって、
前記第１関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定するものである、ように更に構成されていることを特徴とする請求項１０に記載の装置。
前記プロセッサが、
前記第１入力情報及び前記第３入力情報に基づいて、前記第１目標対象物と前記第２目
標対象物との間の関連度を表す第２関連性スコアを得るものであって、
前記第１関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することが、
前記第１関連性スコア及び前記第２関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することを含む、ように更に構成されていることを特徴とする請求項１１に記載の装置。
前記プロセッサが、
前記第２目標対象物の前記第１画像における位置を示す第２予測結果を取得するものであって、
前記第１画像と前記第２予測結果とにより決定された第５入力情報、及び前記第１入力情報に基づいて、前記第１目標対象物と前記第２目標対象物との間の関連度を表す第３関連性スコアを得るものであって、
前記第１関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することが、
前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することを含む、ように更に構成されていることを特徴とする請求項１１又は１２に記載の装置。
前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することが、
前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との最終的関連性スコアを決定することと、
前記最終的関連性スコアがスコア閾値よりも大きい場合、前記関連付け結果として前記第１目標対象物と前記第２目標対象物との間に潜在的な関連性を有すると決定することと、
前記最終的関連性スコアが前記スコア閾値以下である場合、前記関連付け結果として前記第１目標対象物と前記第２目標対象物との間に関連性がないと決定すること、を含むことを特徴とする請求項１３に記載の装置。
前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１目標対象物と前記第２目標対象物との関連付け結果を決定することが、
前記第１関連性スコア及び前記第３関連性スコアに基づいて、前記第１画像の第１目標対象物と前記第２目標対象物との最終的関連性スコアを決定することと、
前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と各第２目標対象物とのマッチングを行って、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得ること、を含むことを特徴とする請求項１３に記載の装置。
前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と各第２目標対象物とのマッチングを行って、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得ることが、
前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物との最終的関連性スコアに基づいて、前記各第１目標対象物と前記各第２目標対象物との間の関連性スコアの総和を決定することと、
前記関連性スコアの総和が最大となり且つ予め設定された総和スコア閾値よりも大きい場合、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物が一対一でマッチングしていると決定して、前記各第１目標対象物と各第２目標対象物との間の関連付け結果を得ることと、
前記関連性スコアの総和のうちの最大の関連性スコアの総和が前記総和スコア閾値以下である場合、前記第１画像における各第１目標対象物と前記第２画像における各第２目標対象物がマッチングしないと決定すること、を含むことを特徴とする請求項１５に記載の装置。
前記第１入力情報及び前記第２入力情報に基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることが、
前記第１入力情報に対する特徴抽出を行って第１入力情報に対応する特徴マップを得ることと、
前記第２入力情報に対する特徴抽出を行って第２入力情報に対応する特徴マップを得ることと、
前記第１入力情報に対応する特徴マップ及び前記第２入力情報に対応する特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることと、を含むことを特徴とする請求項１０～１６のいずれか一項に記載の装置。
前記第１入力情報に対応する特徴マップ及び前記第２入力情報に対応する特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることが、
前記第１入力情報に対応する特徴マップと前記第２入力情報に対応する特徴マップとを特徴関連付けて、第１関連付け特徴マップを得ることと、
前記第１関連付け特徴マップに基づいて、前記第１目標対象物の前記第２画像における位置を示す第１予測結果を得ることと、を含むことを特徴とする請求項１７に記載の装置。
コンピュータプログラムコマンドが記憶されている非揮発性コンピュータ読取可能記憶媒体であって、前記記憶媒体に記憶されているコンピュータプログラムコマンドは、電子機器のプロセッサにロードされて実行されると、請求項１～９のいずれか一項に記載の方法を前記電子機器に実行させることを特徴とする非揮発性コンピュータ読取可能記憶媒体。