JP2022517835A

JP2022517835A - 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器

Info

Publication number: JP2022517835A
Application number: JP2021542181A
Authority: JP
Inventors: 坤金; 世杰 ▲趙▼; ▲陽▼ 易; 峰李; 小祥左
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-06
Filing date: 2020-04-16
Publication date: 2022-03-10
Anticipated expiration: 2040-04-16
Also published as: WO2020224405A1; EP3968180A1; EP3968180A4; US11978241B2; JP7163504B2; CN110222220B; CN110222220A; US20210319243A1

Abstract

画像処理方法並びにその、装置、コンピュータ可読媒体及び電子機器。この画像処理方法は、処理対象の画像の特徴図を抽出するステップＳ２１０と、前記特徴図を複数のターゲット領域に分割するステップＳ２２０と、各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定するステップＳ２３０と、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するステップＳ２４０とを含む。上記技術案は、画像における各ターゲット領域の特徴ベクトルに基づいて、各ターゲット領域に対して重み付け処理を行うことができ、さらに画像における非顕著領域を弱め、画像における顕著領域を強調することができ、生成される画像特徴ベクトルの精度及び合理性を効果的に向上させる。

Description

本願は、２０１９年５月６日に提出された、出願番号が２０１９１０３６９９７４Ｘで、発明の名称が「画像処理方法並びにその、装置、コンピュータ可読媒体及び電子機器」である中国特許出願の優先権を主張し、その全ての内容は、参照により本願に組み込まれるものとする。

本願は、コンピュータ及び通信技術分野に関し、具体的には、画像処理方法並びにその、装置、コンピュータ可読媒体及び電子機器に関する。

画像処理分野、例えば、画像検索、画像認識技術では、画像から抽出された特徴ベクトルが画像処理結果の精度に大きい影響を与えるが、関連する技術に係る特徴抽出方法には、非常に多くの不合理なところが存在するため、抽出された特徴ベクトルが不正確になってしまい、さらに、最終的な処理結果に影響を与えてしまう。

本願の実施例は、さらに、決定される画像特徴ベクトルの精度及び合理性を少なくともある程度まで向上させることができる、画像処理方法、装置、コンピュータ可読媒体及び電子機器を提供する。

本願の他の特徴及び利点は、以下の詳細な説明にて明瞭になり、又は、部分的に本願を実施することで理解される。

本願の実施例の１つの態様によれば、画像処理方法が提供され、前記画像処理方法は、処理対象の画像の特徴図を抽出するステップと、前記特徴図を複数のターゲット領域に分割するステップと、各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定するステップと、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するステップとを含む。

本願の実施例の１つの態様によれば、画像処理方法が提供され、前記画像処理方法は、処理対象の画像を画像処理モデルに入力するステップであって、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含み、前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである、ステップと、前記画像処理モデルにより生成された前記処理対象の画像の特徴ベクトルを取得するステップとを含む。

本願の実施例の１つの態様によれば、画像処理装置が提供され、前記画像処理装置は、処理対象の画像の特徴図を抽出する抽出ユニットと、前記特徴図を複数のターゲット領域に分割する分割ユニットと、各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定する決定ユニットと、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する生成ユニットとを含む。

本願の一部の実施例では、前記した技術案に基づいて、前記分割ユニットは、予め設定された領域分割パターンに基づいて前記特徴図を分割し、前記複数のターゲット領域を得、又は、前記特徴図に対してＲＯＩ（ＲｅｇｉｏｎＯｆＩｎｔｅｒｅｓｔ、関心領域）プーリング操作を行うことで、ＲＯＩを前記特徴図にマッピングして前記複数のターゲット領域を得るように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、前記分割ユニットは、予め設定された少なくとも１種の領域分割パターンに基づいて、前記特徴図を分割し、各種の前記領域分割パターンに対応する特徴図領域を得、各種の前記領域分割パターンに対応する特徴図領域を前記ターゲット領域とするように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、前記決定ユニットは、各前記ターゲット領域の特徴ベクトルに対して次元低減処理を行い、各前記ターゲット領域に対応する特徴スカラーを得、各前記ターゲット領域に対応する特徴スカラーに対して正規化処理を行い、各前記ターゲット領域のウェートを得るように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、前記決定ユニットは、各前記ターゲット領域の特徴ベクトルを出力次元が１次元の全接続層に入力し、前記全接続層の出力に基づいて各前記ターゲット領域に対応する特徴スカラーを決定するように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、前記生成ユニットは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域に対して重み付け後の特徴ベクトルを演算し、各前記ターゲット領域に対して重み付け後の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、前記生成ユニットは、各前記ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、前記処理対象の画像の特徴ベクトルを得、又は、各前記ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、統合処理された特徴ベクトルに対して正規化処理を行い、前記処理対象の画像の特徴ベクトルを得るように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、前記画像処理装置は、前記処理対象の画像の特徴ベクトルに基づいて、前記処理対象の画像とマッチングする画像を検索する検索ユニットをさらに含む。

本願の実施例の１つの態様によれば、画像処理装置が提供され、前記画像処理装置は、処理対象の画像を画像処理モデルに入力する処理ユニットであって、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含み、前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものでありであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである処理ユニットと、前記画像処理モデルにより生成された前記処理対象の画像の特徴ベクトル取得ユニットとを含む。

本願の一部の実施例では、前記した技術案に基づいて、前記画像処理装置は、特徴ベクトルがマークされた画像サンプルを取得し、前記画像サンプルにより前記画像処理モデルを訓練する訓練ユニットをさらに含む。

本願の一部の実施例では、前記した技術案に基づいて、前記処理ユニットは、前記畳み込みモジュールにおけるいずれかの畳み込み層により前記処理対象の画像の特徴図を抽出するように構成されている。

本願の実施例の１つの態様によれば、コンピュータプログラムが記憶されているコンピュータ可読媒体が提供され、前記コンピュータプログラムがプロセッサによって実行されると、上記実施例に記載の画像処理方法を実現する。

本願の実施例の１つの態様によれば、電子機器が提供され、前記電子機器は、１つ又は複数のプロセッサと、１つ又は複数のプログラムが記憶されているメモリであって、前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに上記実施例に記載の画像処理方法を実現させるメモリとを含む。

本願の一部の実施例に係る技術案では、処理対象の画像の特徴図を複数のターゲット領域に分割し、各ターゲット領域の特徴ベクトルに基づいて各ターゲット領域のウェートを決定することで、各ターゲット領域のウェート及び各ターゲット領域の特徴ベクトルに基づいて、処理対象の画像の特徴ベクトルを生成することによって、画像の特徴ベクトルを決定する際、画像における各ターゲット領域の特徴ベクトルに基づいて、各ターゲット領域に対して重み付け処理を行うことができ、さらに画像における非顕著領域（例えば、顕著領域）を弱め、画像における顕著領域（例えば、前景領域）を強調し、生成される画像特徴ベクトルの精度及び合理性を効果的に向上させ、画像検索の効果を向上させることに寄与する。

以上の一般的な説明及び次の詳細な説明は例示的かつ説明的なものに過ぎず、本願を限定するものではないことを理解すべきである。

ここでの図面は明細書に組み込まれかつ本明細書の一部を構成し、本願を満たす実施例を示し、明細書と共に本願の原理を説明するために用いられる。明らかに、以下の説明における図面は本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力を要することなく、これらの図面に基づいて他の図面を取得することができる。図面において、
本願の実施例の技術案を適用できる例示的なシステムアーキテクチャの模式図を示す。本願の一実施例に係る画像処理方法のフローチャートを示す。本願の一実施例に係る、各ターゲット領域のウェートを決定するフローチャートを示す。本願の一実施例に係る、各ターゲット領域のウェート及び各ターゲット領域の特徴ベクトルに基づいて、処理対象の画像の特徴ベクトルを生成するフローチャートを示す。本願の一実施例に係る画像処理方法のフローチャートを示す。本願の一実施例に係る画像処理方法のフローチャートを示す。本願の一実施例に係る領域分割パターンの模式図を示す。本願の一実施例に係る画像検索モデルの構成の模式図を示す。本願の一実施例に係る画像中各領域のウェート模式図を示す。本願の一実施例に係る画像検索結果の模式図を示す。本願の一実施例に係る画像処理装置のブロック図を示す。本願の一実施例に係る画像処理装置のブロック図を示す。本願の実施例を実現するための電子機器のコンピュータシステムの構成の模式図である。

以下、図面を参照して、例示的な実施形態をより全面的に説明する。しかし、例示的な実施形態は様々な形態で実施することができ、かつここで説明される例に限定されるとして理解すべきではない。逆に、これらの実施形態を提供することにより、本願がより全面的かつ完全になり、例示的な実施形態の発想を当業者に全面的に伝える。

また、説明された特徴、構造又は特性は、任意の適切な形態で１つ以上の実施例に組み合わせることができる。以下の説明において、より多くの具体的な詳細を提供することで、本願の実施例に対する十分な理解を提供する。しかし、当業者であれば、特定の詳細のうちの１つ以上なしで、本出願の技術案を実施してもよく、又は、他の方法、構成要素、装置、ステップなどを採用してもよいことを意識する。他の場合、本願の各態様を曖昧にすることを回避するために、公知の方法、装置、実現又は操作を示さないか又は説明しない。

図面に示されたブロック図は単に機能エンティティであり、必ずしも物理的に独立したエンティティに対応する必要がない。即ち、ソフトウェアの形でこれらの機能エンティティを実現したり、又は、１つ以上のハードウェアモジュール又は集積回路においてこれらの機能エンティティを実現したり、又は、異なるネットワーク及び／又はプロセッサ装置及び／又はマイクロコントローラ装置においてこれらの機能エンティティを実現したりすることができる。

図面に示されたフローチャートは例示的な説明だけであり、必ずしも全ての内容及び操作／ステップを含む必要がなく、必ずしも説明された順序で実行する必要がない。例えば、ある操作／ステップは分解されてもよく、ある操作／ステップは組み合わせられるか又は部分的に組み合わせられてもよく、したがって、実際に実行される順序は実際の状況に応じて変更する可能性がある。

図１は、本願の実施例の技術案を適用できる例示的なシステムアーキテクチャの模式図を示す。

図１に示すように、システムアーキテクチャは、端末機器（図１に示すスマートフォン１０１、タブレットパソコン１０２及びポータブルコンピュータ１０３のうちの１種又は複数種であり、当然ながら、デスクトップコンピュータなどであってもよい）と、ネットワーク１０４と、サーバ１０５とを含むことができる。ネットワーク１０４は、端末機器とサーバ１０５との間に通信リンクを提供する媒体である。ネットワーク１０４は、有線通信リンク、無線通信リンクなどの様々な接続種類を含むことができる。

図１における端末機器、ネットワーク及びサーバの数が例示的なものに過ぎないことを理解すべきである。実際のニーズに応じて、任意の数の端末機器、ネットワーク及びサーバを有することができる。例えば、サーバ１０５は、複数のサーバからなるサーバクラスターなどであってもよい。

本願の一実施例では、ユーザは、端末機器（図１に示すスマートフォン１０１、タブレットパソコン１０２又はポータブルコンピュータ１０３）により、処理対象の画像を指定することができ、例えば、ユーザは、端末機器により処理対象の画像をサーバ１０５に送信するか、又は、端末機器により、サーバ１０５に提供された画像から処理対象の画像を選択する。

本願の一実施例では、サーバ１０５は、処理対象の画像を決定すると、処理対象の画像の特徴図を抽出することができ、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、畳み込みニューラルネットワーク）モデルにおけるいずれかの畳み込み層により、処理対象の画像の特徴図を抽出することができる。処理対象の画像の特徴図を抽出した後に、この特徴図を複数のターゲット領域に分割し、次に各ターゲット領域の特徴ベクトルに基づいて、各ターゲット領域のウェートを決定し、さらに各ターゲット領域のウェート及び各ターゲット領域の特徴ベクトルに基づいて、処理対象の画像の特徴ベクトルを生成することができる。これから分かるように、本願の実施例の技術案は、画像の特徴ベクトルを決定する場合、画像における各ターゲット領域の特徴ベクトルに基づいて、各ターゲット領域に対して重み付け処理を行うことができ、さらに画像における非顕著領域を弱め、画像における顕著領域を強調することができ、生成される画像特徴ベクトルの正確性及び合理性を効果的に向上させ、画像処理の効果を向上させることに寄与し、例えば、画像検索の効果及び画像認識の精度などを向上させる。

なお、本願の実施例に係る画像処理方法は、サーバ１０５により実行されてもよく、対応して、画像処理装置は、サーバ１０５に設置されてもよい。しかし、本願の他の実施例では、端末機器は、本願の実施例に係る画像処理案を実行するように、サーバと同様な機能を有してもよい。

以下、本願の実施例の技術案の実現詳細について詳しく説明する。

図２は、本願の一実施例に係る画像処理方法のフローチャートを示し、この画像処理方法は、演算処理機能を有する機器によって実行されてもよく、例えば、図１に示すサーバ１０５によって実行されてもよい。図２を参照すると、この画像処理方法は、ステップＳ２１０～ステップＳ２４０を少なくとも含み、詳細な説明は以下のとおりである。

ステップＳ２１０において、サーバが処理対象の画像の特徴図を抽出する。

本願の一実施例では、処理対象の画像は、特徴ベクトルを抽出すべき画像であってもよいし、又は、検索すべき画像であってもよいし、又は、認識すべき画像などであってもよい。

本願の一実施例では、ＣＮＮモデルにおけるいずれかの畳み込み層によって、処理対象の画像の特徴図を抽出することができる。

ステップＳ２２０において、サーバが前記特徴図を複数のターゲット領域に分割する。

本願の一実施例では、予め設定された領域分割パターンに基づいて処理対象の画像の特徴図を分割することで、この複数のターゲット領域を得てもよい。例えば、少なくともの１種の領域分割パターンを予め設定し（例えば、３種の領域分割パターンを予め設定する）、次に、この少なくとも１種の領域分割パターンによって特徴図を分割し、各種の領域分割パターンに対応する特徴図領域を得、さらに各種の領域分割パターンに対応する特徴図領域を分割して得られたターゲット領域としてもよい。

本願の一実施例では、ＲＯＩプーリング（Ｐｏｏｌｉｎｇ）操作の出力特徴図のサイズを設定し、次に、処理対象の画像の特徴図に対してＲＯＩプーリング操作を行うことで、ＲＯＩを処理対象の画像の特徴図にマッピングして複数のターゲット領域を得てもよい。

続いて、図２を参照すると、ステップＳ２３０において、サーバが各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定する。

本願の一実施例では、図３に示すように、ステップＳ２３０において、各ターゲット領域のウェートを決定するプロセスは、ステップＳ３１０及びステップＳ３２０を含むことができる。

ステップＳ３１０において、サーバが各ターゲット領域の特徴ベクトルに対して次元低減処理を行い、各ターゲット領域に対応する特徴スカラーを得る。

本願の一実施例では、特徴スカラーは、特徴サイズを特徴付ける物理量であり、例えば、各ターゲット領域の特徴ベクトルを出力次元が１次元の全接続層に入力することで、全接続層の出力に基づいて、各ターゲット領域に対応する特徴スカラーを決定してもよい。

ステップＳ３２０において、サーバが各ターゲット領域に対応する特徴スカラーに対して正規化処理を行い、各ターゲット領域のウェートを得る。

本願の一実施例では、各ターゲット領域に対応する特徴スカラーに対して、Ｌ１ノルム、Ｌ２ノルム又はｓｏｆｔｍａｘ（正規化指数関数と称する）関数の正規化処理を行ってもよい。

図３に示す実施例の技術案によって、各ターゲット領域の特徴ベクトルに基づいて各ターゲット領域のウェートを決定することができ、さらに、決定されたウェートにより画像における非顕著領域（例えば、背景領域）を弱め、画像における顕著領域（例えば、前景領域）を強調することができ、生成される画像特徴ベクトルの精度及び合理性を向上させることに寄与する。

続いて、図２を参照すると、ステップＳ２４０において、サーバが各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する。

本願の一実施例では、図４に示すように、ステップＳ２４０において、各ターゲット領域のウェート及び各ターゲット領域の特徴ベクトルに基づいて、処理対象の画像の特徴ベクトルを生成するプロセスは、以下のステップＳ４１０及びステップＳ４２０を含むことができる

ステップＳ４１０において、サーバが各ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域に対して重み付け後の特徴ベクトルを演算する。

本願の一実施例では、各ターゲット領域のウェートと各ターゲット領域の特徴ベクトルとのドット積を求める（すなわち、スカラー積を演算する）ことで、各ターゲット領域に対して重み付け後の特徴ベクトルを得てもよい。

ステップＳ４２０において、サーバが各前記ターゲット領域に対して重み付け後の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する。

本願の一実施例では、各ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行うことで、処理対象の画像の特徴ベクトルを得てもよい。或いは、各ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行った後に、統合処理された特徴ベクトルに対して正規化処理を行い（例えば、Ｌ２ノルムによる正規化処理を行う）、処理対象の画像の特徴ベクトルを得てもよい。

図２に示す実施例の技術案によれば、本願の一実施例では、処理対象の画像の特徴ベクトルを取得した後に、処理対象の画像の特徴ベクトルに基づいて、処理対象の画像とマッチングする画像を検索し、又は、特徴ベクトルに基づいてさらに画像認識を行うことができる。

図２～図４に示す実施例の技術案によって、画像の特徴ベクトルを決定する場合、画像における各ターゲット領域の特徴ベクトルに基づいて、各ターゲット領域に対して重み付け処理を行うことができ、さらに画像における非顕著領域を弱め、画像における顕著領域を強調することができ、生成される画像特徴ベクトルの精度及び合理性を効果的に向上させ、画像検索の効果を向上させることに寄与し、画像認識の効果を向上させることに寄与することができる。

図５は、本願の一実施例に係る画像処理方法のフローチャートを示し、この画像処理方法は、演算処理機能を有する機器によって実行されてもよく、例えば、図１に示すサーバ１０５によって実行されてもよい。図５を参照すると、この画像処理方法は、ステップＳ５１０～ステップＳ５２０を少なくとも含み、詳細な説明は以下のとおりである。

ステップＳ５１０において、処理対象の画像を画像処理モデルに入力し、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含む。前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものでありであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである。

本願の一実施例では、畳み込みモジュールは、畳み込みモジュールにおけるいずれかの畳み込み層により、処理対象の画像の特徴図を抽出できる畳み込みニューラルネットワークであり得る。

本願の一実施例では、視覚的注意力モジュールは、予め設定された領域分割パターンに基づいて処理対象の画像の特徴図を分割することで、複数のターゲット領域を得てもよい。例えば、少なくとも１種の領域分割パターンを予め設定し、次に、この少なくとも１種の領域分割パターンにより特徴図を分割し、各種の領域分割パターンに対応する特徴図領域を得、さらに各種の領域分割パターンに対応する特徴図領域を分割して得られたターゲット領域としてもよい。

本願の一実施例では、視覚的注意力モジュールは、ＲＯＩプーリング操作の出力特徴図のサイズを設定し、次に処理対象の画像の特徴図に対してＲＯＩプーリング操作を行うことで、ＲＯＩを処理対象の画像の特徴図にマッピングして複数のターゲット領域を得てもよい。

本願の一実施例では、視覚的注意力モジュールが各ターゲット領域の特徴ベクトルに基づいて各ターゲット領域のウェートを決定する技術案は、前記した実施例で図３に示す技術案と同様であるため、ここでは説明を省略する。

本願の一実施例では、特徴統合モジュールが各ターゲット領域のウェート及び各ターゲット領域の特徴ベクトルに基づいて、処理対象の画像の特徴ベクトルを生成する技術案は、前記した実施例で図４に示す技術案と同様であるため、ここでは説明を省略する。

続いて、図５を参照すると、ステップＳ５２０において、サーバが前記画像処理モデルにより生成された前記処理対象の画像の特徴ベクトルを取得する。

本願の一実施例では、画像処理モデルにより生成された処理対象の画像の特徴ベクトルを取得すると、処理対象の画像の特徴ベクトルに基づいて、処理対象の画像とマッチングする画像を検索してもよい。

本願の一実施例では、画像処理モデルにより生成された処理対象の画像の特徴ベクトルを取得すると、処理対象の画像の特徴ベクトルに基づいて、処理対象の画像を認識してもよい。

図５に示す実施例の技術案は、画像処理モデルにより処理対象の画像の特徴ベクトルを生成することによって、生成される画像特徴ベクトルの精度及び合理性を確保した上で、エンドツーエンドの訓練方法により画像処理モデルを訓練することを実現し、さらに、画像処理モデルにより画像の特徴ベクトルを容易に生成することを実現することができる。本願の一実施例では、画像処理モデルを訓練する方法は、特徴ベクトルがマークされた画像サンプルを取得し、画像処理モデルの損失関数が収束するまで、この画像サンプルにより画像処理モデルを訓練することである。

以下、図６～図１０を参照しながら、本願の実施例の技術案の実現詳細について詳しく説明する。

図６に示すように、本願の実施例による画像処理方法は、ステップＳ６１０～ステップＳ６６０を含み、詳細な説明は以下のとおりである。

ステップＳ６１０において、サーバがいずれかのデータセットにおいて畳み込みニューラルネットワークモデルを訓練する。

本願の一実施例では、畳み込みニューラルネットワークモデルは、ＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、残差ニューラルネットワーク）、ＲｅｓＮｅＸｔ、ＶＧＧＮｅｔ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐＮｅｔｗｏｒｋ、超解像テストシーケンスネットワーク）、ＩｎｃｅｐｔｉｏｎＮｅｔなどであり得る。

このいずれかのデータセットにおいて訓練することは、データセットを訓練セットとして用いて、畳み込みニューラルネットワークモデルを訓練することであり得る。

ステップＳ６２０において、サーバが画像を訓練された畳み込みニューラルネットワークモデルに入力し、いずれかの畳み込み層から出力された１組の特徴図を取得する。

本願の一実施例では、畳み込みニューラルネットワークモデルから出力された特徴図のサイズは、Ｃ×Ｗ×Ｈであってもよい。ただし、Ｃは、チャンネルの数を表し、Ｈ及びＷは、それぞれ、長さ及び幅を表す。

畳み込みニューラルネットワークは、２つ以上の畳み込み層を有する場合、この２つ以上の畳み込み層が並列するものであってもよく、すなわち、画像がそれぞれ各畳み込み層で処理されることで、各畳み込み層に対応する特徴図、すなわち、上記の１組の特徴図が出力される。

ステップＳ６３０において、サーバが取得した特徴図をいくつかの領域に分割し、各領域の特徴ベクトルを決定する。

本願の一実施例では、画像に対していくつかの領域を事前に設計し、次に各領域内においてプーリング（ＭａｘＰｏｏｌｉｎｇ）操作を行うことで、各領域の特徴を得てもよい。図７に示すように、図７のうちの図（１）は、図全体を１つの領域と見なすことを示し、すなわち、Ｒ１とし、図７のうちの図（２）は、図全体を４つの領域にほぼ等分することを示し（領域の交差が多すぎると、不明瞭になってしまうことを回避するために、そのうちの２つの領域のみを示す）、隣接する２つの領域の重なり率をα（０＜α＜ｌ）とし、この４つの領域をそれぞれＲ２、Ｒ３、Ｒ４、Ｒ５とし、図７のうちの図（３）は、図全体を９つの領域にほぼ等分することを示し（領域の交差が多すぎると、不明瞭になってしまうことを回避するために、そのうちの３つの領域のみを示す）、隣接する２つの領域の重なり率をα（０＜α＜ｌ）とし、この９つの領域をそれぞれＲ６、Ｒ７、Ｒ８、Ｒ９、Ｒ１Ｏ、Ｒ１１、Ｒ１２、Ｒ１３、Ｒ１４とする。当然ながら、図全体をより多くの領域に分割してもよい。

本願の一実施例では、画像を図７に示す３つのパターンで分割し、Ｒ１～Ｒ１４の１４個の領域を得てもよい。次に、各領域の座標位置に基づいて各領域内においてｍａｘ－ｐｏｏｌｉｎｇ操作を行うことで、各領域の特徴ベクトルｖを決定する。

本願の一実施例では、ＲＯＩＰｏｏｌｉｎｇ層の出力特徴図のサイズを設定してもよい。例えば、出力特徴図のサイズを３×３に設定した場合、サイズがＷ×Ｈの入力特徴図をＲＯＩＰｏｏｌｉｎｇ層に入力すると、アルゴリズムが入力特徴図を３×３の部分にほぼ等分し、各部分が１つの最大値を出力として取得し、それにより、３×３の特徴図を出力する。

以下、上記Ｒ１～Ｒ１４の１４個の領域を得ることを例として説明すると、この１４個の領域の特徴ベクトルは、それぞれｖ１～ｖ１４であり、各特徴ベクトルの次元は、Ｃであり、対応する領域内の特徴を特徴付けるためのものである。

ステップＳ６４０において、サーバが取得した特徴ベクトルｖ１～ｖ１４を全接続層に入力し、各領域に対応するスカラーを出力し、各領域に対応するスカラーに対して正規化処理を行い、各領域のウェートを得る。

本願の一実施例では、全接続層のパラメータは、全接続層の入力次元がＣ次元、出力次元が１次元であることを表す

であってもよい。全接続層によって１４個のスカラーを取得した場合、この１４個のスカラーに対して正規化処理を行ってもよく、例えば、ＬＩノルム、Ｌ２ノルム又はｓｏｆｔｍａｘ関数を用いて正規化処理を行い、β１～β１４を得ると、β１～β１４は、それぞれ特徴ベクトルｖ１～ｖ１４のウェート、すなわち、各領域のウェートを表す。ＬＩノルムで正規化することを例とする場合、特徴ベクトルのウェートは、以下の式（１）で演算することができる。

ステップＳ６５０において、サーバが取得した特徴ベクトルｖｉ～ｖ１４のそれぞれと、対応するウェートβ１～β１４とのドット積を求め、各領域に対して重み付け後の特徴ベクトルを得る。

本願の一実施例では、この１４個の領域に対して重み付け後の特徴ベクトルは、それぞれ、β１ｖ１～β１４ｖ１として表され、すなわち、画像に対して視覚的注意力メカニズムの処理を行い、この処理は、ドット積で実現することができる。このプロセスは、設計がシンプルであり、特定のニューラルネットワーク層を追加する必要がなく、ドット積プロセスは、対応する領域特徴ベクトルと領域のウェートとを掛け算することのみである。

ステップＳ６６０において、サーバが各領域に対して重み付け後の特徴ベクトルを加算し、Ｌ２ノルムによる正規化処理を行い、画像の最終的な特徴ベクトルを得る。画像の特徴ベクトルを得ると、この特徴ベクトルに基づいて処理し、例えば、画像検索処理又は画像認識処理などを行うことができる。本願の一実施例では、以下の式（２）で演算して画像の最終的な特徴ベクトルを得ることができる。

本願の一実施例では、図６に示す技術案に基づいて、エンドツーエンド訓練を行うことができる画像検索モデルを構築することができ、画像検索モデルは、図８に示すように、ＣＮＮネットワーク８０１と、視覚的注意力モジュール８０３と、加算モジュール８０４と、Ｌ２正規化層８０５とを含むことができ、この中で、視覚的注意力モジュール８０３は、ＲＯＩＰｏｏｌｉｎｇ層と、全接続層と、正規化層と、ドット積モジュールとを含むことができる。ＣＮＮネットワーク８０１は、図６に示すステップＳ６２０を実行し、特徴図８０２を得るためのものであり、視覚的注意力モジュール８０３は、図６に示すステップＳ６３０～ステップＳ６５０を実行するためのものであり、加算モジュール８０４及びＬ２正規化層８０５は、図６に示すステップＳ６６０を実行し、画像の特徴ベクトル８０６を得るためのものである。この画像検索モデルは、異なる画像の特徴ベクトルに基づいて画像間の類似度を決定することにより、類似度に基づいて類似画像を決定するための類似度決定モジュールをさらに含む。

本願の一実施例では、画像検索モデルの損失関数が収束するまで、構築された画像検索モデルを、分類タスク上で又は距離学習の方法などを用いて微調整することができる。

本願の実施例の技術案の効果を説明しやすくするために、具体的に図９に示すように、本願の実施例では、演算して得られた各領域のウェートを画像においてマークする。図９に示す「ＧＴ」は、各画像における目立つものが位置する領域を表し、図９から分かるように、目立つものを含む領域のウェートが一般的に大きい一方、目立つものを含まない領域のウェートが小さく、さらに前景領域の特徴を強調し、背景領域の特徴を弱め、より合理的かつより正確な画像特徴の符号化を実現し、画像検索性能を大幅に向上させることに寄与する。

本願の一実施例では、ＶＧＧ－１６又はＲｅｓＮｅｔ－１０１のネットワークアーキテクチャに基づいて、学界に認められている画像検索データセットＰａｒｉｓ６ｋ、Ｏｘｆｏｒｄ５ｋ、Ｐａｒｉｓ１０６ｋ、Ｏｘｆｏｒｄ１０５ｋをテストし、テスト結果は、ＭｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ（平均再現率の平均値、ＭＡＰと略称）を定量指標とし、具体的なテスト結果を表１に示す。

表１から分かるように、本願の実施例の技術案を用いると、定量指標を効果的に向上させることができ、特に、ＲｅｓＮｅｔ－１０１アーキテクチャを選択する場合、データセットＰａｒｉｓｌ０６ｋにおいて７．３６％高まり、データセット０ｘｆｏｒｄｌ０５ｋにおいて１１．２５％高まった。

本願の実施例の技術案の効果をさらに検証するために、本願の一実施例では、本願の実施例の技術案に基づいて、検出対象の画像の特徴ベクトルを抽出すると、抽出された特徴ベクトルに基づいて検索し、次に類似度の降順に、順次検索画像に戻り、戻った５枚目の画像、１０枚目の画像、２０枚目の画像及び３０枚目の画像は、図１０に示す。それで分かるように、本発明の実施例の技術案は、合理的かつ正確な特徴を抽出し、従って、非ターゲット領域が大きい画像でも、良好に検索することができる。

また、本願の実施例の技術案は、画像検索、ビデオ検索分野に適用することができ、具体的には、類似ビデオの推薦、類似ビデオの重複除去、画像の推薦又は重複除去などに適用することができる。

以下、本願の上記実施例での画像処理方法を実行するための本願の装置の実施例について説明する。本願の装置の実施例で開示されていない詳細については、本願の上記の画像処理方法の実施例を参照してください。

図１１は、本願の一実施例に係る画像処理装置のブロック図を示す。

図１１を参照すると、本願の一実施例に係る画像処理装置１１００は、抽出ユニット１１０２と、分割ユニット１１０４と、決定ユニット１１０６と、生成ユニット１１０８とを含む。

抽出ユニット１１０２は、処理対象の画像の特徴図を抽出するためのものであり、分割ユニット１１０４は、前記特徴図を複数のターゲット領域に分割するためのものであり、決定ユニット１１０６は、各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定するためのものであり、生成ユニット１１０８は、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである。

本願の一部の実施例では、前記した技術案に基づいて、分割ユニット１１０４は、予め設定された領域分割パターンに基づいて前記特徴図を分割し、前記複数のターゲット領域を得、又は、前記特徴図に対してＲＯＩプーリング操作を行うことで、ＲＯＩを前記特徴図にマッピングして前記複数のターゲット領域を得るように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、分割ユニット１１０４は、予め設定された少なくとも１種の領域分割パターンに基づいて、前記特徴図を分割し、各種の前記領域分割パターンに対応する特徴図領域を得、各種の前記領域分割パターンに対応する特徴図領域を前記ターゲット領域とするように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、決定ユニット１１０６は、各前記ターゲット領域の特徴ベクトルに対して次元低減処理を行い、各前記ターゲット領域に対応する特徴スカラーを得、各前記ターゲット領域に対応する特徴スカラーに対して正規化処理を行い、各前記ターゲット領域のウェートを得るように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、決定ユニット１１０６は、各前記ターゲット領域の特徴ベクトルを出力次元が１次元の全接続層に入力し、前記全接続層の出力に基づいて各前記ターゲット領域に対応する特徴スカラーを決定するように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、生成ユニット１１０８は、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域に対して重み付け後の特徴ベクトルを演算し、各前記ターゲット領域に対して重み付け後の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、生成ユニット１１０８は、各ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、前記処理対象の画像の特徴ベクトルを得、又は、各前記ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、統合処理された特徴ベクトルに対して正規化処理を行い、前記処理対象の画像の特徴ベクトルを得るように構成されている。

本願の一部の実施例では、前記した技術案に基づいて、画像処理装置１１００は、前記処理対象の画像の特徴ベクトルに基づいて、前記処理対象の画像とマッチングする画像を検索する検索ユニットをさらに含む。

図１２は、本願の一実施例に係る画像処理装置のブロック図を示す。

図１２を参照すると、本願の一実施例に係る画像処理装置１２００は、処理ユニット１２０２と取得ユニット１２０４とを含む。

処理ユニット１２０２は、処理対象の画像を画像処理モデルに入力するためのものであり、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含み、前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものでありであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものであり、取得ユニット１２０４は、前記画像処理モデルにより生成された前記処理対象の画像の特徴ベクトルを取得するためのものである。

本願の一部の実施例では、前記した技術案に基づいて、画像処理装置１２００は、特徴ベクトルがマークされた画像サンプルを取得し、前記画像サンプルにより前記画像処理モデルを訓練する訓練ユニットをさらに含む。

本願の一部の実施例では、前記した技術案に基づいて、処理ユニット１２０２は、前記畳み込みモジュールにおけるいずれかの畳み込み層により、前記処理対象の画像の特徴図を抽出するように構成されている。

図１３は、本願の実施例を実現するための電子機器のコンピュータシステムの構成の模式図を示す。

なお、図１３に示す電子機器のコンピュータシステム１３００は、１つの例に過ぎず、本願の実施例の機能及び適用範囲にいかなる制限をもたらすものではない。

図１３に示すように、コンピュータシステム１３００は、中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）１３０１を含み、中央処理ユニット１３０１は、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）１３０２に記憶されたプログラム又は記憶部分１３０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）１３０３にロードされたプログラムに基づいて、様々な適当な動作及び処理を実行することができ、例えば、上記実施例に記載の方法を実行する。ＲＡＭ１３０３には、システムオペレーティングに必要とされる様々なプログラム及びデータが記憶されている。ＣＰＵ１３０１、ＲＯＭ１３０２及びＲＡＭ１３０３は、バス１３０４を介してお互いに接続されている。入出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、Ｉ／Ｏ）インターフェース１３０５もバス１３０４に接続されている。

以下の部材、即ち、キーボード、マウスなどを含む入力部分１３０６と、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ＣＲＴ）、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）など及びスピーカなどを含む出力部分１３０７と、ハードディスクなどを含む記憶部分１３０８と、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ローカルエリアネットワーク）カード、モデムなどを含むネットワークインターフェースカードの通信部分１３０９とは、Ｉ／Ｏインターフェース１３０５に接続されている。通信部分１３０９は、インターネットなどのネットワークを介して、通信処理を実行する。ドライバ１３１０は、需要に応じて、Ｉ／Ｏインターフェース１３０５に接続されてもよい。フロッピーディスク、ディスク、光磁気ディスク、半導体メモリなどの取り外し可能媒体１３１１は、ニーズに応じて、ドライバ１３１０に取り付けられることで、読み取られたコンピュータプログラムを需要に応じて記憶部分１３０８に容易にインストールする。

特に、本願の実施例によれば、以上にフローチャートを参照して説明したプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本願の実施例は、コンピュータ可読媒体に記憶されたコンピュータプログラムを含むコンピュータプログラム製品を含み、このコンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。この実施例では、このコンピュータプログラムは、通信部分１３０９を介してネットワークからダウンロードしてインストールし、及び／又は、取り外し可能媒体１３１１からインストールすることができる。このコンピュータプログラムは、中央処理ユニット（ＣＰＵ）１３０１によって実行されると、本願のシステムで限定される様々な機能を実行する。

なお、本願の実施例に示すコンピュータ可読媒体は、コンピュータ可読信号媒体、又は、コンピュータ可読記憶媒体、又は、上記両者の任意の組合せであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置又はデバイス、又は以上の任意の組合せであってよいがこれらに限られない。コンピュータ可読記憶媒体のより具体的な例は、１つ又は複数のワイヤを有する電気的接続、ポータブルコンピュータフロッピーディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）、フラッシュメモリ、光ファイバ、ポータブルコンパクトフロッピーディスク読み出し専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、又は上記の任意の適当な組合せを含んでもよいがこれらに限られない。本願では、コンピュータ可読記憶媒体は、プロクラムを含む又は記憶する任意の有形媒体であってもよく、このプログラムは、命令実行システム、装置又はデバイスにより使用されるか、又は、それと組み合わせて使用されてもよい。本願では、コンピュータ可読信号媒体は、ベースバンドにおいて又は搬送波の一部として伝播するデータ信号を含んでもよく、コンピュータ可読プログラムコードが記憶されている。このように伝播するデータ信号は、複数の形式を用いてもよく、電磁信号、光信号又は上記の任意の適当な組合せを含むがこれらに限られない。コンピュータ可読信号媒体は、さらに、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体体であってもよく、このコンピュータ可読媒体は、命令実行システム、装置又はデバイスによって使用されるか、又は、それと組み合わせて使用されるプログラムを送信、伝播又は転送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適当な媒体で転送されてもよく、無線、有線など、又は、上記の任意の適当な組合せを含むがこれらに限られない。

図面におけるフローチャート及びブロック図は、本願の各実施例に係るシステム、方法及びコンピュータプログラム製品の可能な形態のアーキテクチャ、機能及び動作を示す。フローチャート又はブロック図での各ブロックは、１つのモジュール、ブロック、又はコードの一部を表し得る。上記モジュール、ブロック、又はコードの一部に、規定された論理機能を実現するための１つ又は複数の実行可能な命令が含まれる。なお、代替的な形態によっては、ブロックにマーキングされた機能は、図面にマーキングされた順序と異なる順序で発生してもよい。例えば、連続的に示す２つのブロックは、関与する機能に応じて、実際には、実質的に並列に実行されてもよく、場合によっては逆の順序で実行されてもよい。また、ブロック図又はフローチャートでの各ブロック、及びブロック図又はフローチャートでのブロックの組合せは、規定された機能又は動作を実行するハードウェア・ベースの専用システムによって実現されてもよく、又は、専用ハードウェアとコンピュータ命令の組合せで実現されてもよいことにも留意されたい。

本願の実施例に説明された係るユニットはソフトウェアの形態で実現されてもよいし、ハードウェアの形態で実現されてもよく、説明されたユニットはプロセッサに設けられてもよい。これらのユニットの名称は、ある場合、該ユニット自体に対する限定を構成しない。

他の態様としては、本願は、コンピュータ可読媒体をさらに提供する。該コンピュータ可読媒体は、上記実施例で説明された電子機器に含まれるものであってもよく、独立に存在しており、該電子機器に組み立てられていないものであってもよい。上記コンピュータ可読媒体に１つ又は複数のプログラムが含まれ、上記１つ又は複数のプログラムが１つの該電子機器により実行されると、該電子機器に上記実施例に記載の方法を実現させる。

なお、以上に、動作実行用の機器のいくつかのモジュール又はユニットについて詳細に説明したが、この分割は強制的ではない。実際には、本願の実施形態によれば、上記で説明された２つ以上のモジュール又はユニットの特徴及び機能は、１つのモジュール又はユニットにおいて具体化されてもよい。逆に、上述した１つのモジュール又はユニットの特徴及び機能は、さらに複数のモジュール又はユニットに分割されて具体化されてもよい。

以上の実施形態の説明により、ここで説明された例示的な実施形態は、ソフトウェアによって実現されてもよく、ソフトウェアと必要なハードウェアの組み合わせによって実現されてもよいことを当業者が理解しやすい。従って、本願の実施形態による技術案は、ソフトウェア製品の形態で具現化されてもよく、該ソフトウェア製品は、１つの不揮発性記憶媒体（ＣＤ－ＲＯＭ、ＵＳＢディスク、モバイルディスクなどであってもよい）又はネットワークに記憶されてもよく、一台のコンピューティングデバイス（パソコン、サーバ、タッチ端末、又はネットワーク機器などであってもよい）に本願の実施形態による方法を実行させるいくつかの命令を含む。

当業者は、明細書を考慮し、ここに開示された実施形態を実施すると、本願の他の実施案を容易に想到できる。本願は、本願のいかなる変形、用途又は適応的な変化をカバーすることを意図しており、これらの変形、用途又は適応的な変化は、本願の一般的な原理に従っており、本願に開示されていない本技術分野における公知の常識又は慣用技術手段を含む。本願は、以上に説明されるとともに、図面に示す正確な構造に限られず、その範囲から逸脱することなく、様々な修正や変更を行うことができることが理解されるべきである。本願の範囲は、添付の特許請求の範囲のみによって制限される。

1100 画像処理装置
1102 抽出ユニット
1104 分割ユニット
1106 決定ユニット
1108 生成ユニット
1200 画像処理装置
1202 処理ユニット
1204 取得ユニット
1305 Ｉ／Ｏインターフェース
1306 入力部分
1307 出力部分
1308 記憶部分
1309 通信部分
1310 ドライバ
1311 取り外し可能媒体

本願は、コンピュータ及び通信技術分野に関し、具体的には、画像処理方法並びにその、装置、コンピュータプログラム及び電子機器に関する。

Claims

処理対象の画像の特徴図を抽出するステップと、
前記特徴図を複数のターゲット領域に分割するステップと、
各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定するステップと、
各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するステップとを含む、ことを特徴とする画像処理方法。
前記特徴図を複数のターゲット領域に分割する前記ステップは、
前記複数のターゲット領域を得るように、予め設定された領域分割パターンに基づいて前記特徴図を分割するステップ、又は、
前記特徴図に対して関心領域（ＲＯＩ）のプーリング操作を行うことで、ＲＯＩを前記特徴図にマッピングして前記複数のターゲット領域を得るステップを含む、ことを特徴とする請求項１に記載の画像処理方法。
予め設定された領域分割パターンに基づいて前記特徴図を分割する前記ステップは、
予め設定された少なくとも１種の領域分割パターンに基づいて、前記特徴図を分割し、各種の前記領域分割パターンに対応する特徴図領域を得るステップと、
各種の前記領域分割パターンに対応する特徴図領域を前記ターゲット領域とするステップとを含む、ことを特徴とする請求項２に記載の画像処理方法。
各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定する前記ステップは、
各前記ターゲット領域の特徴ベクトルに対して次元低減処理を行い、各前記ターゲット領域に対応する特徴スカラーを得るステップと、
各前記ターゲット領域に対応する特徴スカラーに対して正規化処理を行い、各前記ターゲット領域のウェートを得るステップとを含む、ことを特徴とする請求項１に記載の画像処理方法。
各前記ターゲット領域の特徴ベクトルに対して次元低減処理を行い、各前記ターゲット領域に対応する特徴スカラーを得る前記ステップは、
各前記ターゲット領域の特徴ベクトルを出力次元が１次元の全接続層に入力し、前記全接続層の出力に基づいて各前記ターゲット領域に対応する特徴スカラーを決定するステップを含む、ことを特徴とする請求項４に記載の画像処理方法。
各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する前記ステップは、
各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域に対して重み付け後の特徴ベクトルを演算するステップと、
各前記ターゲット領域に対して重み付け後の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するステップとを含む、ことを特徴とする請求項１に記載の画像処理方法。
各前記ターゲット領域に対して重み付け後の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する前記ステップは、
各前記ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、前記処理対象の画像の特徴ベクトルを得るステップ、又は
各前記ターゲット領域に対して重み付け後の特徴ベクトルに対して統合処理を行い、統合処理された特徴ベクトルに対して正規化処理を行い、前記処理対象の画像の特徴ベクトルを得るステップを含む、ことを特徴とする請求項６に記載の画像処理方法。
前記処理対象の画像の特徴ベクトルに基づいて、前記処理対象の画像とマッチングする画像を検索するステップをさらに含む、ことを特徴とする請求項１～請求項７のいずれか１項に記載の画像処理方法。
処理対象の画像を画像処理モデルに入力するステップであって、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含み、前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである、ステップと、
前記画像処理モデルの前記処理対象の画像の特徴ベクトルを取得するステップとを含む、ことを特徴とする画像処理方法。
特徴ベクトルがマークされた画像サンプルを取得するステップと、
前記画像サンプルにより前記画像処理モデルを訓練するステップとをさらに含む、ことを特徴とする請求項９に記載の画像処理方法。
前記畳み込みモジュールにおけるいずれかの畳み込み層により、前記処理対象の画像の特徴図を抽出する、ことを特徴とする請求項９又は１０に記載の画像処理方法。
処理対象の画像の特徴図を抽出する抽出ユニットと、
前記特徴図を複数のターゲット領域に分割する分割ユニットと、
各前記ターゲット領域の特徴ベクトルに基づいて、各前記ターゲット領域のウェートを決定する決定ユニットと、
各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成する生成ユニットとを含む、ことを特徴とする画像処理装置。
処理対象の画像を画像処理モデルに入力する処理ユニットであって、前記画像処理モデルは、畳み込みモジュールと、視覚的注意力モジュールと、特徴統合モジュールとを含み、前記畳み込みモジュールは、前記処理対象の画像の特徴図を抽出するためのものであり、前記視覚的注意力モジュールは、前記特徴図を複数のターゲット領域に分割し、各前記ターゲット領域の特徴ベクトルに基づいて各前記ターゲット領域のウェートを決定するためのものであり、前記特徴統合モジュールは、各前記ターゲット領域のウェート及び各前記ターゲット領域の特徴ベクトルに基づいて、前記処理対象の画像の特徴ベクトルを生成するためのものである、処理ユニットと、
前記画像処理モデルにより生成された前記処理対象の画像の特徴ベクトルを取得する取得ユニットとを含む、ことを特徴とする画像処理装置。
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～請求項８のいずれか１項に記載の画像処理方法を実現するか、又は、請求項９～請求項１１のいずれか１項に記載の画像処理方法を実現させる、ことを特徴とするコンピュータ可読媒体。
１つ又は複数のプロセッサと、
１つ又は複数のプログラムが記憶されているメモリであって、前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサによって実行されると、前記１つ又は複数のプロセッサに、請求項１～請求項８のいずれか１項に記載の画像処理方法を実現させるか、又は、請求項９～請求項１１のいずれか１項に記載の画像処理方法を実現させるメモリとを含む、ことを特徴とする電子機器。