JP2023133274A

JP2023133274A - Ｒｏｉ検出モデルのトレーニング方法、検出方法、装置、機器および媒体

Info

Publication number: JP2023133274A
Application number: JP2023038084A
Authority: JP
Inventors: 鵬原呂; Peng Yuan Lu; 森範; Sen Fan; 成全章; Chengquan Zhang; ▲コン▼ 姚; Kun Yao; 鈞宇韓; Junyu Han; 経拓劉; Jingtuo Liu; 二鋭丁; Er Rui Ding; 井東王; Jingdong Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-11
Filing date: 2023-03-10
Publication date: 2023-09-22
Also published as: CN114612651A; KR20230133808A; CN114612651B; US20230290126A1

Abstract

【課題】本開示は、ＲＯＩ検出モデルのトレーニング方法、検出方法、装置、機器および媒体を提供し、人工知能の技術分野に関し、特に、コンピュータ視覚および深層学習技術に関する。【解決手段】具体的な実現形態として、サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得し、サンプル特徴データに対して非線形マッピングを行い、第１特徴データと第２特徴データとを取得し、第１特徴データのタグＲＯＩの関連領域での第３特徴データおよび第２特徴データに基づき、領域間差分データを確定し、領域間差分データおよびタグＲＯＩの関連領域に基づき、ＲＯＩ検出モデルのトレーニング待ちパラメータを調整する。本開示の技術によれば、ＲＯＩ検出モデルの検出精度を向上させる。【選択図】図１Ｃ

Description

本開示は、人工知能の技術分野に関し、特に、コンピュータ視覚および深層学習技術に関し、具体的に、ＲＯＩ検出モデルのトレーニング方法、検出方法、装置、機器および媒体に関する。

画像処理分野において、関心領域（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ、ＲＯＩ）は、画像から選択された１つの画像領域であり、該領域は、画像分析における注目されている重点であり、画像に対する更なる処理の前提として該領域を絞り込むことは、画像処理時間を短縮し、画像処理精度を向上させることができる。

本開示は、ＲＯＩ検出モデルのトレーニング方法、検出方法、装置、機器および媒体を提供する。

本開示の一態様によれば、
サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得することと、
サンプル特徴データに対して非線形マッピングを行い、クエリ空間での特徴マッピング結果を指示する第１特徴データと、値空間での特徴マッピング結果を指示する第２特徴データとを取得することと、
第１特徴データのタグＲＯＩの関連領域での第３特徴データおよび第２特徴データに基づき、領域間差分データを確定することと、
領域間差分データおよびタグＲＯＩの関連領域に基づき、ＲＯＩ検出モデルのトレーニング待ちパラメータを調整することと、を含む、
関心領域検出モデルのトレーニング方法を提供する。

本開示の別の態様によれば、
本開示の実施例に係るいずれかの関心領域検出モデルのトレーニング方法でトレーニングされた特徴抽出パラメータに基づいて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得することと、
トレーニングされた復号化パラメータに基づいて予測特徴データを復号化処理し、ＲＯＩ予測結果を取得することと、を含む、
関心領域検出方法を更に提供する。

本開示の別の態様によれば、
少なくとも１つのプロセッサと、
少なくとも１つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
メモリに、少なくとも１つのプロセッサによって実行可能な命令が記憶され、
命令は、少なくとも１つのプロセッサが本開示の実施例に係るいずれかの関心領域検出モデルのトレーニング方法または本開示の実施例に係るいずれかの関心領域検出方法を実行可能であるように、少なくとも１つのプロセッサにより実行される、
電子機器を更に提供する。

本開示の別の態様によれば、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
コンピュータ命令は、本開示の実施例に係るいずれかの関心領域検出モデルのトレーニング方法または本開示の実施例に係るいずれかの関心領域検出方法をコンピュータに実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を更に提供する。

本開示の技術によれば、関心領域検出モデルの検出精度を向上させる。

本開示に記載された内容は、本開示の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本開示の範囲を限定するものでもないことが理解されるべきである。本開示の他の特徴は、以下の明細書により容易に理解することができる。

図面は本形態をより良く理解するためのものであり、本開示を限定するものではない。

本開示の実施例に係るＲＯＩ検出モデルの構造図である。従来技術に係るＲＯＩ検出モデルの構造図である。本開示の実施例に係るＲＯＩ検出モデルのトレーニング方法のフローチャートである。本開示の実施例に係るＲＯＩ検出モデルのトレーニング方法のフローチャートである。本開示の実施例に係る特徴強調モジュールの構造図である。本開示の実施例に係るＲＯＩ検出モデルのトレーニング方法のフローチャートである。本開示の実施例に係るテキスト領域検出モデルの構造図である。本開示の実施例に係るＲＯＩ検出方法のフローチャートである。本開示の実施例に係るＲＯＩ検出モデルのトレーニング装置の構造図である。本開示の実施例に係るＲＯＩ検出装置の構造図である。本開示の実施例のＲＯＩ検出モデルのトレーニング方法および／またはＲＯＩ検出方法を実現するための電子機器のブロック図である。

以下、図面を参照しながら本開示の例示的な実施例について説明し、ここで、理解の便宜上、本開示の実施例に係る様々な細かい内容まで含まれているが、例示的なものに過ぎないと理解すべきである。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。

本開示に係る関心領域（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ、ＲＯＩ）検出モデルのトレーニング方法は、予め構築された深層学習モデルをトレーニングすることで、該モデルにＲＯＩ検出能力を持たせるという適用シーンに適用できる。ここで、ＲＯＩは、テキスト領域、顔領域、車両領域等のような画像内の予め設定されたターゲットが位置する領域であってもよく、必要に応じて予め設定されたターゲットの設定を行うことができる。本開示に係る各ＲＯＩ検出モデルのトレーニング方法は、ＲＯＩ検出モデルのトレーニング装置で実行することができ、該装置は、ソフトウェアおよび／またはハードウェアで実現することができ、具体的に、電子機器に構成される。

理解しやすいために、まず、ＲＯＩ検出モデルの構造について簡単に説明する。

図１Ａに示すＲＯＩ検出モデルを参照し、特徴抽出モジュールおよび特徴強調モジュールを備える。ここで、特徴抽出モジュールは、入力された画像に対して特徴抽出を行うことに用いられ、特徴強調モジュールは、特徴抽出モジュールの出力結果に対して特徴強調を行うことにより、特徴強調モジュールの強調出力結果に基づいてＲＯＩ検出モデルにおける特徴抽出モジュールおよび特徴強調モジュールのトレーニング待ちパラメータを最適化調整し、特徴抽出モジュールの特徴抽出能力を向上させることに用いられる。

更に、ＲＯＩ検出モデルは、特徴抽出モジュールの出力結果に基づいてＲＯＩ予測を行い、ＲＯＩ予測結果および予め付されたタグＲＯＩ領域に基づき、特徴抽出モジュールおよび復号化モジュールのトレーニング待ちパラメータを最適化調整するための復号化モジュールを更に備えてもよい。

図１Ｂを参照し、従来技術において、ＲＯＩ検出モデルは、特徴抽出モジュールおよび復号化モジュールのみを備え、特徴抽出モジュールにより、入力された画像に対して特徴抽出を行い、復号化モジュールにより、特徴抽出モジュールの出力結果に基づいてＲＯＩ予測を行い、ＲＯＩ予測結果および予め付されたタグＲＯＩ領域に基づき、特徴抽出モジュールおよび復号化モジュールのトレーニング待ちパラメータを最適化調整する。

本開示の図１Ａに示すＲＯＩ検出モデルと図１Ｂに示す従来技術のＲＯＩ検出モデルとを比べることにより、本開示では特徴強調モジュールを導入して特徴抽出モジュールのトレーニング待ちパラメータの最適化を補助するため、特徴抽出モジュールの特徴抽出能力を向上させ、ＲＯＩ検出モデルの検出能力の向上に寄与する。

以下、図１Ａに示すＲＯＩ検出モデルを基に、本開示に係るＲＯＩ検出モデルのトレーニング方法について詳細に説明する。

図１Ｃに示すＲＯＩ検出モデルのトレーニング方法を参照し、ここで、ＲＯＩ検出モデルは、特徴抽出モジュールおよび特徴強調モジュールを備え、該方法は、以下のステップを含む。

Ｓ１０１において、サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得する。

ここで、サンプル画像は、ＲＯＩ検出モデルのトレーニングを行う時に使用するトレーニングサンプルである。トレーニングするモデルのモデル精度を確保するために、通常、サンプル画像の数は複数であり、種類は様々である。

ここで、サンプル特徴データは、サンプル画像を抽象化表示したものとして理解できる。

特徴抽出モジュールによりサンプル画像に対して特徴抽出を行い、サンプル画像内のＲＯＩ関連情報を取得し、サンプル画像内のＲＯＩ無関係情報を除外することが理解できる。

Ｓ１０２において、サンプル特徴データに対して非線形マッピングを行い、第１特徴データと第２特徴データとを取得する。

ここで、第１特徴データおよび第２特徴データは、サンプル特徴データを、特徴空間に非線形マッピングした結果と見なすことができる。ここで、第１特徴データは、サンプル特徴データのクエリ空間（ｑｕｅｒｙｉｎｇｓｐａｔｉａｌ）での特徴マッピング結果を指示し、第２特徴データは、サンプル特徴データの値空間での特徴マッピング結果を指示し、なお、非線形マッピングの方式で第１特徴データおよび第２特徴データの確定を行うことは、ＲＯＩ検出モデルのフィッティング能力の向上に寄与する。

第１特徴データと第２特徴データとが同じデータ、即ち、サンプル特徴データの空間マッピング結果であるため、第１特徴データおよび第２特徴データには、いずれもサンプル特徴データにおけるキーとなる情報が担持されている。

なお、第１特徴データに対応するクエリ空間と第２特徴データに対応する値空間とは同じであってもよいし、異なってもよく、本開示は、何ら限定するものではない。ＲＯＩ検出モデルの柔軟性および汎用性を向上させるために、通常、特徴強調モジュールに２つの異なる非線形マッピング分岐を設け、第１特徴データおよび第２特徴データの確定をそれぞれ行い、大量のサンプル画像により、ＲＯＩ検出モデルのトレーニング状況に対して同じ特徴空間または異なる特徴空間の非線形マッピングを行う。

Ｓ１０３において、第１特徴データのタグＲＯＩの関連領域での第３特徴データおよび第２特徴データに基づき、領域間差分データを確定する。

ここで、タグＲＯＩは、予め付されたサンプル画像内のＲＯＩであり、本開示は、具体的な付し方式を何ら限定するものではない。タグＲＯＩの関連領域は、サンプル画像の各領域内の、タグＲＯＩが位置する領域と一定の関連関係を有する領域であってもよく、例えば、タグＲＯＩ自身の領域、またはタグＲＯＩ内の局所領域であってもよい。１つの具体的な実現形態において、タグＲＯＩ内の局所領域は、タグＲＯＩの中心領域であってもよい。

なお、第１特徴データのタグＲＯＩの関連領域での第３特徴データは、サンプル特徴データにおけるタグＲＯＩの関連領域のキーとなる情報の、クエリ空間でのマッピング結果として理解できる。第２特徴データに、サンプル特徴データのタグＲＯＩの関連領域およびタグＲＯＩの関連領域以外の他の領域での情報のクエリ空間でのマッピング結果が含まれるため、第３特徴データおよび第２特徴データのタグＲＯＩの関連領域での特徴データに基づいて確定された領域間差分データは、タグＲＯＩの関連領域とタグＲＯＩの関連領域以外の他の領域との間に担持される情報の比較差分を表すことができ、タグＲＯＩの関連領域をある程度で特徴強調する。

Ｓ１０４において、領域間差分データおよびタグＲＯＩの関連領域に基づき、ＲＯＩ検出モデルのトレーニング待ちパラメータを調整する。

領域間差分データが、タグＲＯＩの関連領域を特徴強調した結果であるため、該特徴強調結果とタグＲＯＩの関連領域との整合性が高ければ高いほど、差分が小さければ小さいほど、ＲＯＩ検出モデルにおける特徴抽出モジュールの特徴抽出能力および特徴強調モジュールの特徴強調能力が良くなることを表し、該特徴強調結果とタグＲＯＩの関連領域との整合性が低ければ低いほど、差分が大きければ大きいほど、ＲＯＩ検出モデルにおける特徴抽出モジュールの特徴抽出能力または特徴強調モジュールの特徴強調能力が悪くなることを表す。これに鑑み、領域間差分データとタグＲＯＩの関連領域との間の差分状況に基づき、特徴抽出モジュールの特徴抽出パラメータおよび特徴強調モジュールの特徴強調パラメータのうちの少なくとも１つを含んでもよいＲＯＩ検出モデルのトレーニング待ちパラメータを最適化することにより、特徴抽出モジュールの特徴抽出能力および特徴強調モジュールの特徴強調能力を絶えず向上させ、ＲＯＩ検出モデルをトレーニングするという目的を達成することができる。

本開示の実施例は、サンプル画像を抽出することにより得られたサンプル特徴データに対して非線形マッピングを行い、クエリ空間での第１特徴データおよび値空間での第２特徴データを取得し、第１特徴データのタグＲＯＩの関連領域での第３特徴データおよび第２特徴データに対して領域間差分データの確定を行い、非線形マッピング結果のタグＲＯＩの関連領域および非関連領域での比較差分を表し、領域間差分データによりＲＯＩ検出モデルに対してトレーニング待ちパラメータの調整を行うことで、ＲＯＩ検出モデルをトレーニングするという目的を達成し、ＲＯＩ検出モデルの特徴抽出能力を向上させ、無関係情報の抽出を低減するとともに、キーとなる情報の欠落を回避し、抽出された特徴の正確性および全面性を確保し、更にトレーニングされたＲＯＩ検出モデルのＲＯＩ検出能力を向上させる。

上記各技術案の基に、本開示は、１つの好ましい実施例を更に提供し、該好ましい実施例において、Ｓ１０３の領域間差分データの確定メカニズムを最適化改良する。なお、本好ましい実施例で開示されていない部分は、前述した各実施例の関連記述を参照することができる。

図２Ａに示すＲＯＩ検出モデルのトレーニング方法を参照し、以下のステップを含む。

Ｓ２０１において、サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得する。

Ｓ２０２において、サンプル特徴データに対して非線形マッピングを行い、第１特徴データと第２特徴データとを取得する。

Ｓ２０３において、第１特徴データのタグＲＯＩの関連領域での第３特徴データに基づき、ＲＯＩグローバル特徴データを確定する。

ここで、ＲＯＩグローバル特徴データは、グローバルな視点からタグＲＯＩの関連領域のキーとなる情報を表すことに用いられる。

１つの好ましい実施例において、チャネルに従って第３特徴データの平均値を確定し、確定した結果をＲＯＩグローバル特徴データとすることができる。

しかし、タグＲＯＩの関連領域の全ての第３特徴データを処理することは、演算量を増加する。演算効率を向上させて演算コストを低減するために、別の好ましい実施例において、第３特徴データをサンプリングしてＲＯＩ参照特徴データを取得し、ＲＯＩ参照特徴データに基づいてＲＯＩグローバル特徴データを確定することもできる。ここで、ＲＯＩ参照特徴データは少なくとも１セットであってもよく、本開示は、ＲＯＩ参照特徴データの具体的な数を何ら限定するものではない。

なお、本開示は、サンプリング方式およびサンプリングレートを何ら限定するものではなく、当業者が必要に応じて設定または調整するか、または大量の試験により確定することができる。例えば、ランダムサンプリングの方式で設定数セットのＲＯＩ参照特徴データを取得することができる。

好ましくは、ＲＯＩ参照特徴データ内の１セットを選択して直接ＲＯＩグローバル特徴データとすることができる。または、好ましくは、チャネル次元に従い、少なくとも１セットのＲＯＩ参照特徴データの平均値を確定し、確定した結果をＲＯＩグローバル特徴データとすることができる。

１つの具体的な実現形態において、ランダムサンプリングの方式により第３特徴データを無差別に扱い、チャネル次元に従い、各セットのＲＯＩ参照特徴データの平均値を確定し、確定した結果をＲＯＩグローバル特徴データとし、キーとなる情報の見落としを回避し、ＲＯＩグローバル特徴データに担持された情報の正確性および全面性の向上に寄与する。

第３特徴データをサンプリング処理し、タグＲＯＩの関連領域での全量の第３特徴データの代わりにサンプリングで得られたＲＯＩ参照特徴データを採用し、ＲＯＩグローバル特徴データの確定を行うことにより、演算量を著しく低減し、演算効率を向上させることが理解できる。

Ｓ２０４において、ＲＯＩグローバル特徴データおよび第２特徴データに基づき、領域間差分データを確定する。

ＲＯＩグローバル特徴データがグローバルな視点からタグＲＯＩの関連領域でのキーとなる情報を表すことができるため、クエリ空間のＲＯＩグローバル特徴データおよび値空間の第２特徴データに基づき、タグＲＯＩの関連領域と非関連領域との間の比較差分を表す領域間差分データを確定することができる。

１つの好ましい実施例において、ＲＯＩグローバル特徴データに基づいて第２特徴データに対して特徴強調を行い、ＲＯＩ強調特徴データを取得し、ＲＯＩ強調特徴データをアクティブ化処理し、領域間差分データを取得することができる。

ＲＯＩグローバル特徴データにより第２特徴データに対して特徴強調を行い、第２特徴データ内のタグＲＯＩと関連する領域の特徴を強め、第２特徴データ内のタグＲＯＩと無関係な領域の特徴（第１特徴データ内の第３特徴データ以外の他の特徴）を弱める。ＲＯＩ強調特徴データをアクティブ化処理し、ＲＯＩ強調特徴データを予め設定された特徴空間にマッピングすることにより、領域間差分データを取得する。ここで、予め設定された特徴空間は、当業者が必要または経験値に応じて確定または調整することができ、本開示は、何ら限定するものではなく、例えば、０－１空間であってもよい。本開示は、アクティブ化処理に使用されるアクティブ化関数についても何ら限定するものではなく、実際の必要に応じて設定または調整するか、または大量の試験により確定することができる。

予め設定された特徴空間が０－１空間である場合、領域間差分データは、第２特徴データとＲＯＩグローバル特徴データとの間の類似度を表すことに使用できる。画素点に対応する類似度の数が０に近づくと、該画素点の第２特徴値とＲＯＩグローバル特徴値との間の類似度が低くなり、即ち、対応する画素点がタグＲＯＩの非関連領域である確率が高くなることを表し、画素点に対応する類似度の数が１に近づくと、該画素点の第２特徴値とＲＯＩグローバル特徴値との間の類似度が高くなり、即ち、対応する画素点がタグＲＯＩの関連領域である確率が高くなることを表す。

上記技術案は、特徴強調およびアクティブ化処理を導入して領域間差分データの確定を行うことにより、領域間差分データの確定メカニズムを完備し、後でＲＯＩ検出モデルのトレーニング待ちパラメータに対する調整にデータ支持を提供する。それと同時に、特徴強調およびアクティブ化処理が操作しやすいため、領域間差分データの確定効率を向上させ、演算量を低減することが理解できる。

更に、図２Ｂに示す特徴強調モジュールの構造模式図を参照しながら、領域間差分データの確定過程について詳細に説明する。

特徴抽出モジュールから出力されたサンプル特徴データＦをクエリ空間（φ_ｑは非線形マッピングパラメータであり、モデルのトレーニングにより得られる）に非線形マッピングし、Ｈ×Ｗ×Ｃ次元の第１特徴データＦ_ｑを取得し、サンプル特徴データＦを値空間（φ_ｋは非線形マッピングパラメータであり、モデルのトレーニングにより得られる）に非線形マッピングし、Ｈ×Ｗ×Ｃ次元の第２特徴データＦ_ｋを取得する。第１特徴データＦ_ｑのタグＲＯＩの関連領域での第３特徴データをランダムサンプリングし、Ｎ（Ｎ≧１）セットの１×Ｃ次元のＲＯＩ参照特徴データＦ_ｑｒを取得し、チャネル次元に従ってＮセットのＲＯＩ参照特徴データＦ_ｑｒを平均値処理し、得た平均特徴を表示してＲＯＩグローバル特徴データＦ_ｑｍとし、ＲＯＩグローバル特徴データを転置処理し、Ｃ×１次元の転置結果Ｆ_ｑｍ’を取得する。Ｈ×Ｗ×Ｃ次元の第２特徴データＦ_ｋを平坦化処理し、（ＨＷ）×Ｃ次元の平坦化結果Ｆ_ｋｆを取得し、平坦化結果Ｆ_ｋｆおよび転置結果Ｆ_ｑｍ’を行列乗算演算し、（ＨＷ）×１次元の初期強調特徴Ｆ_ｍを取得し、初期強調特徴Ｆ_ｍを特徴再構成し、Ｈ×Ｗ次元のＲＯＩ強調特徴データＭ_ｒを取得し、ＲＯＩ強調特徴データＭ_ｒをアクティブ化処理し、Ｈ×Ｗ次元の行列間差分データＭを取得する。

なお、本開示は、タグＲＯＩの関連領域の種類および数を何ら限定するものではない。異なるタグＲＯＩの関連領域は、前述した方式をそれぞれ採用して対応する領域間差分データを確定することができる。

Ｓ２０５において、領域間差分データおよびタグＲＯＩの関連領域に基づき、ＲＯＩ検出モデルのトレーニング待ちパラメータを調整する。

本開示の実施例は、領域間差分データの確定操作を、第１特徴データのタグＲＯＩの関連領域での特徴データに基づいてＲＯＩグローバル特徴データを確定することで、第２特徴データおよびタグＲＯＩの関連領域のグローバル特徴を表すＲＯＩグローバル特徴データに基づき、クエリ空間および値空間でのタグＲＯＩの関連領域と非関連領域との間の領域間差分データを確定することに細分化することにより、領域間差分データの確定メカニズムを完備し、後でＲＯＩ検出モデルのトレーニング待ちパラメータの調整にデータ支持を提供する。

上記各技術案の基に、本開示は、１つの好ましい実施例を更に提供し、該好ましい実施例において、Ｓ１０４のトレーニング待ちパラメータの調整メカニズムを最適化改良する。

図３に示すＲＯＩ検出モデルのトレーニング方法を参照し、以下のステップを含む。

Ｓ３０１において、サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得する。

Ｓ３０２において、サンプル特徴データに対して非線形マッピングを行い、第１特徴データと第２特徴データとを取得する。

Ｓ３０３において、第１特徴データのタグＲＯＩの関連領域での第３特徴データおよび第２特徴データに基づき、領域間差分データを確定する。

Ｓ３０４において、領域間差分データおよびタグＲＯＩの関連領域に基づき、ターゲット特徴抽出損失を確定する。

ここで、ターゲット特徴抽出損失は、特徴強調モジュールから出力された領域間差分データと、実際に期待されるタグＲＯＩの関連領域との差分の大きさを表し、特徴抽出モジュールの特徴抽出能力を側面から反映する。差分が大きい場合、特徴抽出モジュールの特徴抽出能力が弱く、キーとなる情報の欠落または無関係情報の抽出が存在する可能性があることを表し、差分が小さい場合、特徴抽出モジュールの特徴抽出能力が強いことを表す。

例示的には、領域間差分データとタグＲＯＩの関連領域との間の差分状況に基づき、ターゲット特徴抽出損失を確定することができる。

具体的には、予め設定された損失関数に基づき、領域間差分データおよびタグＲＯＩの関連領域により、ターゲット特徴抽出損失を確定することができる。ここで、予め設定された損失関数は、当業者が必要または経験値に応じて設定または調整するか、または大量の試験により繰り返し確定することができ、本開示は、これについて何ら限定するものではない。

なお、タグＲＯＩの関連領域が単一の領域である場合、１つのターゲット特徴抽出損失を確定することができる。タグＲＯＩの関連領域が少なくとも２つの領域を含む場合、タグＲＯＩの関連領域毎に、対応する特徴抽出損失を確定することができ、特徴抽出ネットワークの異なるタグＲＯＩの関連領域に対する特徴抽出能力を反映することに用いる。それに対応し、各特徴抽出損失に基づき、ターゲット特徴抽出損失を確定する。

好ましくは、タグＲＯＩの関連領域は、タグＲＯＩの全域の視点から特徴抽出モジュールの特徴抽出能力を測定するためのタグＲＯＩを含んでもよい。または、好ましくは、タグＲＯＩの関連領域は、タグＲＯＩの局所領域の視点から特徴抽出モジュールの特徴抽出能力を測定するためのタグＲＯＩ内の局所領域を含んでもよい。ここで、タグＲＯＩの局所領域の数は、少なくとも１つであってもよい。例えば、タグＲＯＩの局所領域は、タグＲＯＩの中心領域であってもよい。

タグＲＯＩの関連領域を、タグＲＯＩおよび／またはタグＲＯＩの局所領域を含むように細分化することにより、後で確定する領域間差分データの豊富さおよび多様性を向上させ、ＲＯＩ検出モデルのトレーニング方法の多様性の向上に寄与することが理解できる。

１つの好ましい実施例において、タグＲＯＩの関連領域がタグＲＯＩおよびタグＲＯＩの局所領域を含む場合、タグＲＯＩに対応する領域間差分データおよびタグＲＯＩに基づいて第１特徴抽出損失を確定し、タグＲＯＩの局所領域に対応する領域間差分データおよびタグＲＯＩの局所領域に基づいて第２特徴抽出損失を確定し、第１特徴抽出損失および第２特徴抽出損失に基づいてターゲット特徴抽出損失を確定することができる。

例示的には、第１予め設定された損失関数に基づき、タグＲＯＩに対応する領域間差分データおよびタグＲＯＩにより、第２特徴抽出損失を確定し、第２予め設定された損失関数に基づき、タグＲＯＩの局所領域に対応する領域間差分データおよびタグＲＯＩの局所領域により、第２特徴抽出損失を確定し、第１特徴抽出損失および第２特徴抽出損失の加重平均値に基づき、ターゲット特徴抽出損失を確定することができる。ここで、第１予め設定された損失関数および第２予め設定された損失関数は、当業者が必要または経験値に応じて設定または調整することができ、第１予め設定された損失関数と第２予め設定された損失関数との両者は、同じであってもよいし、異なってもよく、本開示は、何ら限定するものではない。ターゲット特徴抽出損失を確定する時、異なる特徴抽出損失に対応する重みは、当業者が必要または経験値に応じて設定または調整することができ、本開示は、重みの具体的な数を何ら限定するものではない。

なお、タグＲＯＩの局所領域の数が少なくとも１つである場合、対応する確定された第２特徴抽出損失の数も少なくとも１つである。

タグＲＯＩの関連領域を、タグＲＯＩおよびタグＲＯＩの局所領域を含む２種のデータに細分化することにより、上記データに基づいて異なる類別に対応する領域間差分データの確定を行い、領域間差分データの豊富さおよび多様性を向上させることが理解できる。それとともに、各類別の領域間差分データおよび対応するタグＲＯＩの関連領域にそれぞれ対して対応する特徴抽出損失の確定を行い、ターゲット特徴抽出損失の確定の基礎とし、計算過程が便利で迅速であり、計算量が小さく、ターゲット特徴抽出損失の計算効率を向上させる。

Ｓ３０５において、ターゲット特徴抽出損失に基づき、トレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータを調整する。

ここで、トレーニング待ち特徴抽出パラメータは、特徴抽出を行うための特徴抽出モジュールにおけるトレーニング待ちパラメータとして理解でき、トレーニング待ち特徴強調パラメータは、特徴強調（例えば、非線形マッピングおよび領域間差分データの確定）を行うための特徴強調モジュールにおけるトレーニング待ちパラメータとして理解できる。

ターゲット特徴抽出損失に基づき、特徴抽出モジュールおよび特徴強調モジュールのトレーニング待ちパラメータを調整することにより、ＲＯＩ検出モデルにおける特徴抽出モジュールの特徴抽出効率を徐々に向上させ、特徴強調モジュールから出力された領域間差分データを対応するタグＲＯＩの関連領域に絶えず近づけ、更にＲＯＩ検出モデルにおける特徴抽出モジュールの特徴抽出能力を向上させる。

具体的には、予め設定された勾配関数に基づき、ターゲット特徴抽出損失により、特徴抽出モジュールおよび特徴強調モジュールのトレーニング待ちパラメータを調整することができる。ここで、予め設定された勾配関数は、当業者が必要または経験値に応じて設定または調整するか、または大量の試験により確定することができ、本開示は、これについて何ら限定するものではない。

１つの好ましい実施例において、更に、ＲＯＩ検出モデルにおける復号化モジュールから出力された予測ＲＯＩおよびタグＲＯＩに基づき、ターゲット予測損失を確定し、ターゲット予測損失に基づき、ＲＯＩ検出モデルのトレーニング待ちパラメータを調整することができる。例えば、ターゲット予測損失に基づき、ＲＯＩ検出モデルにおける特徴抽出モジュールの特徴抽出パラメータおよび／または復号化モジュールの復号化パラメータを調整することができる。

ターゲット予測損失およびターゲット特徴抽出損失に基づき、特徴抽出モジュールのトレーニング待ちパラメータを連携調整することにより、特徴抽出モジュールの特徴抽出能力を向上させるとともに、特徴抽出モジュールが抽出した特徴をＲＯＩ検出のニーズに更に合致させることができ、ＲＯＩ検出モデル全体の検出能力の向上に寄与することが理解できる。

本開示の実施例は、ＲＯＩ検出モデルのトレーニング待ちパラメータに対する調整操作を、領域間差分データおよびタグＲＯＩの関連領域に基づいてターゲット特徴抽出損失を確定し、ＲＯＩ検出モデルにおける特徴抽出モジュールの特徴抽出能力を表し、該ターゲット特徴抽出損失により特徴抽出モジュールおよび特徴強調モジュールのトレーニング待ちパラメータを調整することに細分化することにより、タグＲＯＩの関連領域と非関連領域との間の比較差分の特徴に対する特徴抽出モジュールの敏感性を向上させ、更に特徴抽出モジュールの特徴抽出能力を向上させ、ＲＯＩ検出モデルの検出精度の向上に保障を提供する。

以下、タグＲＯＩをタグテキスト領域とし、それに対応し、タグＲＯＩの関連領域がタグテキスト領域およびタグテキスト中心領域を含むことを例とし、テキスト領域検出モデル（即ち、前述した関心領域検出モデル）のトレーニング過程について詳細に説明する。

図４に示すテキスト領域検出モデルの模式図を参照し、特徴抽出モジュール、特徴強調モジュール、および復号化モジュールを備える。ここで、特徴強調モジュールは、第１特徴強調ネットワークおよび第２特徴強調ネットワークを備える。

特徴抽出モジュールにより、入力されたサンプル画像に対して特徴抽出を行い、サンプル特徴データを取得する。

第１特徴強調ネットワークを介してサンプル特徴データに対して非線形マッピングを行い、第１クエリ空間での第１特徴データおよび第１値空間での第２特徴データをそれぞれ取得し、第１クエリ空間での第１特徴データのタグテキスト領域での特徴データを該第１クエリ空間での第３特徴データとし、第１特徴強調ネットワークを介して第１値空間での第２特徴データおよび第１クエリ空間での第３特徴データに基づき、第１領域間差分データを確定する。

第２特徴強調ネットワークを介してサンプル特徴データに対して非線形マッピングを行い、第２クエリ空間での第１特徴データおよび第２値空間での第２第２特徴データをそれぞれ取得し、第２クエリ空間での第１特徴データのタグテキスト中心領域での特徴データを該第２クエリ空間での第３特徴データとし、第２特徴強調ネットワークを介して第２値空間での第２特徴データおよび第２クエリ空間での第３特徴データに基づき、第２領域間差分データを確定する。

復号化モジュールによりサンプル特徴データを復号化処理し、テキスト領域分割画像を取得し、テキスト領域分割画像に対して２値化および連通領域の確定等の後処理を行った後、予測テキスト領域を取得する。

第１領域間差分データおよびタグテキスト領域に基づき、第１特徴抽出損失を確定し、第２領域間差分データおよびタグテキスト中心領域に基づき、第２特徴抽出損失を確定し、第１特徴抽出損失および第２特徴抽出損失に基づき、加重でターゲット特徴抽出損失を取得し、ターゲット特徴抽出損失に基づき、特徴抽出モジュールの特徴抽出パラメータおよび特徴強調モジュールの特徴強調パラメータを最適化する。

予測テキスト領域およびタグテキスト領域に基づき、予測損失を確定し、予測損失に基づき、特徴抽出モジュールの特徴抽出パラメータおよび復号化モジュールの復号化パラメータを最適化する。

なお、第１特徴強調ネットワークおよび第２特徴強調ネットワークにおける非線形マッピングを行う部分を統合することができ、即ち、第１特徴強調ネットワークと第２特徴強調ネットワークは、同じクエリ空間での第１特徴データおよび同じ値空間での第２特徴データを共有することで、データ演算量を低減する。

ここで、復号化モジュールは、従来技術のいずれかの復号化ネットワークを用いて実現することができ、本開示は、これについて何ら限定するものではない。例えば、復号化モジュールは、分割に基づく復号化モジュールであってもよく、即ち、サンプル特徴データに基づき、サンプル画像に対して「背景－テキスト中心領域－テキスト境界」の３分類を行い、サンプル画像における各画素点の分類結果を確定し、テキスト領域分割画像を取得し、テキスト領域分割画像を２値化し、連通領域を確定する等の後処理操作により、予測テキスト領域を取得する。

ここで、異なる特徴強調ネットワークが対応する領域間差分データの確定操作を行うことは、前述した各実施例における特徴強調モジュールの関連記述を参照することができ、ここで説明を省略する。

上記技術案は、タグテキスト領域に対応する第１領域間差分データおよびタグテキスト中心領域に対応する第２領域間差分データを導入してターゲット特徴抽出損失の確定を行い、ターゲット特徴抽出損失により特徴抽出モジュールのトレーニング待ちパラメータを絶えず最適化することにより、特徴抽出モジュールの特徴抽出能力を向上させ、更に、トレーニングするテキスト領域検出モデルの検出結果精度を向上させる。

上記各技術案の基に、本開示は、ＲＯＩ検出方法の好ましい実施例を更に提供し、該好ましい実施例は、前述した実施例でトレーニングされたＲＯＩ検出モデルを採用してＲＯＩ検出を行うという適用シーンに適用される。本開示に係る各ＲＯＩ検出方法は、ＲＯＩ検出装置で実行することができ、該装置は、ソフトウェアおよび／またはハードウェアで実現することができ、具体的に電子機器に構成される。なお、ＲＯＩ検出方法を実行する電子機器と、前述したＲＯＩ検出モデルのトレーニング方法を実行する電子機器との両者は、同じであってもよいし、異なってもよく、本開示は、これについて何ら限定するものではない。

図５に示すＲＯＩ検出方法を参照し、以下のステップを含む。

Ｓ５０１において、トレーニングされた特徴抽出パラメータに基づいて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得する。

ここで、特徴抽出パラメータは、本開示の実施例に係る各ＲＯＩ検出モデルのトレーニング方法を用いてトレーニングされる。

なお、ＲＯＩ予測を行う時、トレーニングされたＲＯＩ検出モデルを取得し、該ＲＯＩ検出モデルにおけるトレーニングされた特徴抽出パラメータを用いて特徴抽出操作を実行し、ＲＯＩ検出操作のデータ支持とすることができる。

ここで、ＲＯＩ検出モデルの取得操作は、前述したトレーニングされた完全なＲＯＩ検出モデルを直接取得して記憶してもよいし、前述したトレーニングされたＲＯＩ検出モデルにおける特徴強調モジュールを除外し、除外後のＲＯＩ検出モデルを記憶してもよい。それに対応し、記憶されたＲＯＩ検出モデルを用いて特徴抽出および後続の復号化操作を実行する。除外後のＲＯＩ検出モデルの記憶および使用を行うことにより、ＲＯＩ検出モデルの記憶空間およびデータ演算量を低減することができ、本開示は、これについて何ら限定するものではないことが理解できる。

Ｓ５０２において、トレーニングされた復号化パラメータに基づいて予測特徴データを復号化処理し、ＲＯＩ予測結果を取得する。

例示的には、ＲＯＩ検出モデルにおける復号化モジュールにより、予測特徴データを復号化処理してＲＯＩ分割画像を取得し、ＲＯＩ分割画像を２値化し、２値化結果に対して連通領域を計算し、ＲＯＩ予測結果を取得することができる。

本開示の実施例は、前述したトレーニングされた特徴抽出パラメータを用いて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得し、トレーニングされた復号化パラメータに基づいて予測特徴データを復号化処理し、ＲＯＩ検出結果を取得する。特徴抽出パラメータのトレーニング過程において、クエリ空間での第１特徴データおよび値空間での第２特徴データを導入してタグＲＯＩの関連領域と非関連領域との間の領域間差分データの確定を行い、領域間差分データに基づいてＲＯＩ検出モデルにおける特徴抽出パラメータを含むトレーニング待ちパラメータを調整するため、トレーニングされた特徴抽出パラメータの特徴抽出能力をより良くさせ、ＲＯＩ予測を行う時に、得られたＲＯＩ予測結果の正確性も著しく向上させる。

上記各ＲＯＩ検出モデルのトレーニング方法の実現として、本開示は、各ＲＯＩ検出モデルのトレーニング方法を実行する実行装置の好ましい実施例を更に提供する。更に、図６に示すＲＯＩ検出モデルのトレーニング装置６００を参照し、特徴抽出モジュール６０１、特徴強調モジュール６０２、およびネットワークパラメータ調整モジュール６０３を備える。ここで、ＲＯＩ検出モデルのトレーニング装置６００は、ＲＯＩ検出モデルに対してモデルのトレーニングを行うことに用いられ、ここで、ＲＯＩ検出モデルは、特徴抽出モジュール６０１および特徴強調モジュール６０２を備える。

特徴抽出モジュール６０１は、サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得することに用いられる。

特徴強調モジュール６０２は、サンプル特徴データに対して非線形マッピングを行い、第１特徴データと第２特徴データとをそれぞれ取得するに用いられる。

特徴強調モジュール６０２は、更に、第１特徴データおよび第２特徴データのタグＲＯＩの関連領域での特徴データに基づき、領域間差分データを確定することに用いられる。

ネットワークパラメータ調整モジュール６０３は、領域間差分データおよびタグＲＯＩの関連領域に基づき、ＲＯＩ検出モデルのトレーニング待ちパラメータを調整することに用いられる。

本開示の実施例は、ＲＯＩ検出モデルで、サンプル画像を抽出することにより得られたサンプル特徴データに対して非線形マッピングを行い、クエリ空間での第１特徴データおよび値空間での第２特徴データを取得し、第１特徴データのタグＲＯＩの関連領域での第３特徴データおよび第２特徴データに対して領域間差分データの確定を行い、非線形マッピング結果のタグＲＯＩの関連領域および非関連領域での比較差分を表し、領域間差分データによりＲＯＩ検出モデルに対してトレーニング待ちパラメータの調整を行うことで、ＲＯＩ検出モデルをトレーニングするという目的を達成し、ＲＯＩ検出モデルにおける特徴抽出モジュールの特徴抽出能力を向上させ、無関係情報の抽出を低減するとともに、キーとなる情報の欠落を回避し、抽出された特徴の正確性および全面性を確保し、更にトレーニングされたＲＯＩ検出モデルのＲＯＩ検出能力を向上させる。

１つの好ましい実施例において、特徴強調モジュール６０２は、
第３特徴データに基づき、ＲＯＩグローバル特徴データを確定するためのＲＯＩグローバル特徴データ確定ユニットと、
ＲＯＩグローバル特徴データおよび第２特徴データに基づき、領域間差分データを確定するための領域間差分データ確定ユニットと、を備える。

１つの好ましい実施例において、領域間差分データ確定ユニットは、
ＲＯＩグローバル特徴データに基づいて第２特徴データに対して特徴強調を行い、ＲＯＩ強調特徴データを取得するための特徴強調サブユニットと、
ＲＯＩ強調特徴データをアクティブ化処理し、領域間差分データを取得するためのアクティブ化処理サブユニットと、を備える。

１つの好ましい実施例において、ＲＯＩグローバル特徴データ確定ユニットは、
第３特徴データをサンプリングし、ＲＯＩ参照特徴データを取得するためのデータサンプリングサブユニットと、
ＲＯＩ参照特徴データに基づき、ＲＯＩグローバル特徴データを確定するためのＲＯＩグローバル特徴データ確定サブユニットと、を備える。

１つの好ましい実施例において、ネットワークパラメータ調整モジュール６０３は、
領域間差分データおよびタグＲＯＩの関連領域に基づき、ターゲット特徴抽出損失を確定するためのターゲット特徴抽出損失確定ユニットと、
ターゲット特徴抽出損失に基づき、トレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータを調整するためのネットワークパラメータ調整ユニットと、を備える。

１つの好ましい実施例において、タグＲＯＩの関連領域は、タグＲＯＩ、タグＲＯＩの局所領域の少なくとも１つを含む。

１つの好ましい実施例において、タグＲＯＩの関連領域がタグＲＯＩおよびタグＲＯＩ内の局所領域を含む場合、ターゲット特徴抽出損失確定ユニットは、
タグＲＯＩに対応する領域間差分データおよびタグＲＯＩに基づき、第１特徴抽出損失を確定するための第１損失確定サブユニットと、
タグＲＯＩの局所領域に対応する領域間差分データおよびタグＲＯＩの局所領域に基づき、第２特徴抽出損失を確定するための第２損失確定サブユニットと、
第１特徴抽出損失および第２特徴抽出損失に基づき、ターゲット特徴抽出損失を確定するためのターゲット特徴抽出損失確定サブユニットと、を備える。

１つの好ましい実施例において、タグＲＯＩの局所領域は、タグＲＯＩの中心領域を含む。

上記ＲＯＩ検出モデルのトレーニング装置は、本開示のいずれかの実施例に係るＲＯＩ検出モデルのトレーニング方法を実行することができ、各ＲＯＩ検出モデルのトレーニング方法の実行に対応する機能モジュールおよび有益な効果を備える。

上記各ＲＯＩ予測方法の実現として、本開示は、各ＲＯＩ検出方法を実行する実行装置の好ましい実施例を更に提供する。更に図７に示すＲＯＩ検出装置７００を参照し、特徴抽出モジュール７０１および復号化モジュール７０２を備える。

特徴抽出モジュール７０１は、本開示の実施例に係るいずれかのＲＯＩ検出モデルのトレーニング装置でトレーニングされた特徴抽出パラメータに基づいて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得することに用いられる。

復号化モジュール７０２は、トレーニングされた復号化パラメータに基づいて予測特徴データを復号化処理し、ＲＯＩ予測結果を取得することに用いられる。

本開示の実施例は、トレーニングされた特徴抽出パラメータを用いて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得し、トレーニングされた復号化パラメータに基づいて予測特徴データを復号化処理し、ＲＯＩ予測結果を取得する。特徴抽出パラメータのトレーニング過程において、クエリ空間での第１特徴データおよび値空間での第２特徴データを導入してタグＲＯＩの関連領域と非関連領域との間の領域間差分データの確定を行い、領域間差分データに基づいてＲＯＩ検出モデルにおける特徴抽出パラメータを含むトレーニング待ちパラメータを調整するため、トレーニングされた特徴抽出パラメータの特徴抽出能力をより良くさせ、ＲＯＩ予測を行う時に、得られたＲＯＩ予測結果の正確性も著しく向上させる。

上記ＲＯＩ検出装置は、本開示のいずれかの実施例に係るＲＯＩ検出方法を実行することができ、各ＲＯＩ検出方法の実行に対応する機能モジュールおよび有益な効果を備える。

本開示の技術案に係るサンプル画像、検出待ち画像の収集、記憶、使用、加工、伝達、提供、および公開等は、いずれも関連法律法規の規定に該当し、公序良俗に反していない。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体、およびコンピュータプログラムを更に提供する。

図８は、本開示の実施例を実施するための例示的な電子機器８００の模式的なブロック図を示す。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような様々な形式の移動装置を表すこともできる。本開示に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本開示に記載および／または要求される本開示の実現を限定するものではない。

図８に示すように、機器８００は、計算ユニット８０１を備え、読み出し専用メモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラム、または記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムに基づき、様々な適当な動作および処理を実行することができる。ＲＡＭ８０３には、機器８００の操作に必要な様々なプログラムおよびデータが記憶されてもよい。計算ユニット８０１、ＲＯＭ８０２およびＲＡＭ８０３は、バス８０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース８０５もバス８０４に接続されている。

機器８００における複数のコンポーネントはＩ／Ｏインタフェース８０５に接続され、キーボード、マウス等のような入力ユニット８０６と、各種のディスプレイ、スピーカ等のような出力ユニット８０７と、磁気ディスク、光ディスク等のような記憶ユニット８０８と、ネットワークカード、モデム、無線通信送受信機等のような通信ユニット８０９とを備える。通信ユニット８０９は、機器８００がインターネットのようなコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを許容する。

計算ユニット８０１は、処理および計算能力を有する汎用および／または専用の処理アセンブリであってもよい。計算ユニット８０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）コンピューティングチップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラ、マイクロコントローラ等を含んでもよいが、これらに限定されない。計算ユニット８０１は、上記様々な方法および処理、例えば、ＲＯＩ検出モデルのトレーニング方法およびＲＯＩ検出方法のうちの少なくとも１つを実行する。例えば、いくつかの実施例において、ＲＯＩ検出モデルのトレーニング方法およびＲＯＩ検出方法のうちの少なくとも１つは、コンピュータソフトウェアプログラムとして実現でき、有形的に記憶ユニット８０８のような機器可読媒体に含まれている。いくつかの実施例において、コンピュータプログラムの一部または全ては、ＲＯＭ８０２および／または通信ユニット８０９を介して機器８００にロードおよび／またはインストールされ得る。コンピュータプログラムがＲＡＭ３０３にロードされて計算ユニット８０１により実行されると、上記ＲＯＩ検出モデルのトレーニング方法およびＲＯＩ検出方法の１つまたは複数のステップを実行することができる。あるいは、他の実施例において、計算ユニット８０１は、他の任意の適当な方式（例えば、ファームウェアを介して）により、ＲＯＩ検出モデルのトレーニング方法およびＲＯＩ検出方法のうちの少なくとも１つを実行するように構成され得る。

本開示に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準パーツ（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現できる。これらの様々な実施形態は以下を含んでもよい。１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも１つの入力装置、および該少なくとも１つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせでコードできる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供でき、これにより、プログラムコードがプロセッサまたはコントローラにより実行されると、フローチャートおよび／またはブロック図で規定された機能／操作が実施される。プログラムコードは、完全に機器で実行されてもよいし、一部が機器で実行されてもよいし、独立したソフトウェアパッケージとして一部が機器で実行されて一部がリモート機器で実行されてもよいし、完全にリモート機器またはサーバで実行されてもよい。

本開示の明細書において、機器可読媒体は、命令実行システム、装置またはデバイスに使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含有または記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体または機器可読記憶媒体であってもよい。機器可読媒体は、電子の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体の更なる具体的な例は、１つまたは複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用ディスク（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置（例えば、マウスまたはトラックボール）とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用できる。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、且つ、任意の形式（音入力、音声入力または、触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、または中間コンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ）、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ブロックチェーンネットワーク、およびインターネットを含む。

コンピューティングシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント－サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系における１つのホスト製品であり、従来の物理ホストおよびＶＰＳサービスに存在する管理しにくく、トラフィックの拡張性が弱いという欠陥を解決するために使用される。サーバは、分散型システムのサーバであってもよいし、ブロックチェーンを組み合わせたサーバであってもよい。

人工知能は、研究でコンピュータに人間のある思考過程および知能行動（例えば、学習、推理、思考、計画等）をシミュレートさせる学科であり、ハードウェアの面の技術があるとともに、ソフトウェアの面の技術もある。人工知能のハードウェア技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理等のような技術を含み、人工知能のソフトウェア技術は、主にコンピュータ視覚技術、音声識別技術、自然言語処理技術と機械学習／深層学習技術、ビッグデータ処理技術、ナレッジグラフ技術等のいくつかの方向を含む。

上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示に係る技術案の所望する結果を達成できる限り、本開示はここで限定しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本発明の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本開示の保護範囲内に含まれているべきである。

Claims

サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得することと、
前記サンプル特徴データに対して非線形マッピングを行い、クエリ空間での特徴マッピング結果を指示する第１特徴データと、値空間での特徴マッピング結果を指示する第２特徴データとを取得することと、
前記第１特徴データのタグＲＯＩの関連領域での第３特徴データおよび前記第２特徴データに基づき、領域間差分データを確定することと、
前記領域間差分データおよび前記タグＲＯＩの関連領域に基づき、前記ＲＯＩ検出モデルのトレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータの少なくとも１つを調整することにより、トレーニングされた特徴抽出パラメータおよびトレーニングされた特徴強調パラメータの少なくとも１つを取得することと、を含む、
関心領域ＲＯＩ検出モデルのトレーニング方法。
前記第１特徴データのタグＲＯＩの関連領域での第３特徴データおよび前記第２特徴データに基づき、領域間差分データを確定することは、
前記第３特徴データに基づき、ＲＯＩグローバル特徴データを確定することと、
前記ＲＯＩグローバル特徴データおよび前記第２特徴データに基づき、前記領域間差分データを取得することと、を含む、
請求項１に記載の方法。
前記ＲＯＩグローバル特徴データおよび前記第２特徴データに基づき、領域間差分データを確定することは、
前記ＲＯＩグローバル特徴データに基づいて前記第２特徴データに対して特徴強調を行い、ＲＯＩ強調特徴データを取得することと、
前記ＲＯＩ強調特徴データをアクティブ化処理し、前記領域間差分データを取得することと、を含む、
請求項２に記載の方法。
前記第３特徴データに基づき、ＲＯＩグローバル特徴データを確定することは、
前記第３特徴データをサンプリングし、ＲＯＩ参照特徴データを取得することと、
前記ＲＯＩ参照特徴データに基づき、前記ＲＯＩグローバル特徴データを確定することと、を含む、
請求項２に記載の方法。
前記領域間差分データおよび前記タグＲＯＩの関連領域に基づき、前記ＲＯＩ検出モデルのトレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータの少なくとも１つを調整することにより、トレーニングされた特徴抽出パラメータおよびトレーニングされた特徴強調パラメータの少なくとも１つを取得することは、
前記領域間差分データおよび前記タグＲＯＩの関連領域に基づき、ターゲット特徴抽出損失を確定することと、
前記ターゲット特徴抽出損失に基づき、前記トレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータを調整することにより、トレーニングされた特徴抽出パラメータおよびトレーニングされた特徴強調パラメータを取得することと、を含む、
請求項１から４のいずれか１項に記載の方法。
前記タグＲＯＩの関連領域は、前記タグＲＯＩ、前記タグＲＯＩの局所領域の少なくとも１つを含む、
請求項５に記載の方法。
前記タグＲＯＩの関連領域が前記タグＲＯＩおよび前記タグＲＯＩの局所領域を含む場合、前記領域間差分データおよび前記タグＲＯＩの関連領域に基づき、ターゲット特徴抽出損失を確定することは、
前記タグＲＯＩに対応する領域間差分データおよび前記タグＲＯＩに基づき、第１特徴抽出損失を確定することと、
前記タグＲＯＩの局所領域に対応する領域間差分データおよび前記タグＲＯＩの局所領域に基づき、第２特徴抽出損失を確定することと、
前記第１特徴抽出損失および前記第２特徴抽出損失に基づき、前記ターゲット特徴抽出損失を確定することと、を含む、
請求項６に記載の方法。
前記タグＲＯＩの局所領域は、前記タグＲＯＩの中心領域を含む、
請求項６に記載の方法。
請求項１から４のいずれか１項に記載の方法でトレーニングされた特徴抽出パラメータに基づいて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得することと、
トレーニングされた復号化パラメータに基づいて前記予測特徴データを復号化処理し、ＲＯＩ予測結果を取得することと、を含む、
関心領域ＲＯＩ検出方法。
サンプル画像に対して特徴抽出を行い、サンプル特徴データを取得するための特徴抽出モジュールと、
前記サンプル特徴データに対して非線形マッピングを行い、クエリ空間での特徴マッピング結果を指示する第１特徴データと、値空間での特徴マッピング結果を指示する第２特徴データとをそれぞれ取得するための特徴強調モジュールと、
前記第１特徴データのタグＲＯＩの関連領域での第３特徴データおよび前記第２特徴データに基づき、領域間差分データを確定するための前記特徴強調モジュールと、
前記領域間差分データおよび前記タグＲＯＩの関連領域に基づき、前記ＲＯＩ検出モデルのトレーニング待ちパラメータを調整するためのネットワークパラメータ調整モジュールと、を備える、
関心領域ＲＯＩ検出モデルのトレーニング装置。
前記特徴強調モジュールは、
前記第３特徴データに基づき、ＲＯＩグローバル特徴データを確定するためのＲＯＩグローバル特徴データ確定ユニットと、
前記ＲＯＩグローバル特徴データおよび前記第２特徴データに基づき、領域間差分データを確定するための領域間差分データ確定ユニットと、を備える、
請求項１０に記載の装置。
前記領域間差分データ確定ユニットは、
前記ＲＯＩグローバル特徴データに基づいて前記第２特徴データに対して特徴強調を行い、ＲＯＩ強調特徴データを取得するための特徴強調サブユニットと、
前記ＲＯＩ強調特徴データをアクティブ化処理し、前記領域間差分データを取得するためのアクティブ化処理サブユニットと、を備える、
請求項１１に記載の装置。
前記ＲＯＩグローバル特徴データ確定ユニットは、
前記第３特徴データをサンプリングし、ＲＯＩ参照特徴データを取得するためのデータサンプリングサブユニットと、
前記ＲＯＩ参照特徴データに基づき、前記ＲＯＩグローバル特徴データを確定するためのＲＯＩグローバル特徴データ確定サブユニットと、を備える、
請求項１１に記載の装置。
前記ネットワークパラメータ調整モジュールは、
前記領域間差分データおよび前記タグＲＯＩの関連領域に基づき、ターゲット特徴抽出損失を確定するためのターゲット特徴抽出損失確定ユニットと、
前記ターゲット特徴抽出損失に基づき、トレーニング待ち特徴抽出パラメータおよびトレーニング待ち特徴強調パラメータを調整するためのネットワークパラメータ調整ユニットと、を備える、
請求項１０から１３のいずれか１項に記載の装置。
前記タグＲＯＩの関連領域は、前記タグＲＯＩ、前記タグＲＯＩの局所領域の少なくとも１つを含む、請求項１４に記載の装置。
前記タグＲＯＩの関連領域が前記タグＲＯＩおよび前記タグＲＯＩの局所領域を含む場合、前記ターゲット特徴抽出損失確定ユニットは、
前記タグＲＯＩに対応する領域間差分データおよび前記タグＲＯＩに基づき、第１特徴抽出損失を確定するための第１損失確定サブユニットと、
前記タグＲＯＩの局所領域に対応する領域間差分データおよび前記タグＲＯＩの局所領域に基づき、第２特徴抽出損失を確定するための第２損失確定サブユニットと、
前記第１特徴抽出損失および前記第２特徴抽出損失に基づき、前記ターゲット特徴抽出損失を確定するためのターゲット特徴抽出損失確定サブユニットと、を備える、
請求項１５に記載の装置。
前記タグＲＯＩの局所領域は、前記タグＲＯＩの中心領域を含む、
請求項１５に記載の装置。
請求項１０から１３のいずれか１項に記載の装置でトレーニングされた特徴抽出パラメータに基づいて検出待ち画像に対して特徴抽出を行い、予測特徴データを取得するための特徴抽出モジュールと、
トレーニングされた復号化パラメータに基づいて前記予測特徴データを復号化処理し、ＲＯＩ予測結果を取得するための復号化モジュールと、を備える、
関心領域検出装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリと、を備える電子機器であって、
前記メモリに、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも１つのプロセッサが請求項１から４のいずれか１項に記載のＲＯＩ検出モデルのトレーニング方法または請求項９に記載のＲＯＩ検出方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、請求項１から４のいずれか１項に記載のＲＯＩ検出モデルのトレーニング方法または請求項９に記載のＲＯＩ検出方法をコンピュータに実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。
コンピュータに、請求項１から４のいずれか１項に記載のＲＯＩ検出モデルのトレーニング方法、または、請求項９に記載のＲＯＩ検出方法を実行させるためのプログラム。