JP2022521130A

JP2022521130A - ネットワークトレーニング、画像処理方法および電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP2022521130A
Application number: JP2021539612A
Authority: JP
Inventors: 王国泰; ▲顧▼然; 宋涛
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-01-20
Filing date: 2020-07-07
Publication date: 2022-04-06
Also published as: WO2021147257A1; KR20210140757A; TW202129543A; CN111310764B; CN111310764A; TWI743931B

Abstract

本願実施例は、ネットワークトレーニング、画像処理方法および電子機器、記憶媒体並びにコンピュータプログラムを提供し、前記ネットワークトレーニング方法は、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、ことと、前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得することと、前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングすることとを含む。【選択図】図１

Description

本願は、２０２０年０１月２０日に中国特許局に提出された、出願番号がＣＮ２０２０１００６５９９８．９である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。

本願実施例は、コンピュータ技術分野に関し、特に、ネットワークトレーニング、画像処理方法および装置、電子機器および記憶媒体に関する。

画像セグメンテーションとは、画像をその領域の分布属性に従っていくつかの特定の互いに素な「連通」領域にセグメント化する画像処理プロセスを指し、関連する特徴は、同じ領域で一定の分類上の一貫性または類似性を有し、この違いは、各領域の境界で最も明らかである。医用画像セグメンテーションは、医学研究、臨床診断、病理分析、および画像情報処理などの研究および実践分野において重要な学術研究の重要性と応用価値を持っており、主に、医用画像分析を容易にするための医用画像の関心領域の抽出、臨床パラメータの計算を容易にするための医用画像内の人体臓器、組織または病変の体積や容積の計算、医用画像の３次元再構成または視覚化、医用画像検索研究などに適用される。したがって、効果的な画像セグメンテーション方法が必要とされている。

本願実施例は、ネットワークトレーニング、画像処理方法および装置、電子機器および記憶媒体を提供する。

本願実施例はネットワークトレーニング方法を提供し、前記ネットワークトレーニング方法は、ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するために使用され、前記方法は、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、ことと、前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得することと、前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングすることと、を含む。

セグメンテーションネットワークを介して、空間次元、チャネル次元、およびスケール次元におけるプリセットの次元で、アテンションメカニズムを使用してトレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得し、特徴抽出結果に従ってサンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得し、画像セグメンテーション結果およびトレーニングサンプルに含まれるサンプル画像に対応するセグメンテーションマーク情報に従って、セグメンテーションネットワークをトレーニングすることにより、トレーニングによって得られたセグメンテーションネットワークが画像セグメンテーション処理を実行する際のセグメンテーション精度を向上させることができる。

本願のいくつかの実施例では、前記セグメンテーションネットワークは、エンコーダおよびデコーダを含み、前記エンコーダは複数の符号化層を含み、前記デコーダは複数の復号化層を含み、前記セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することは、前記サンプル画像を前記エンコーダに入力して、各符号化層に対応する第１特徴画像を決定することであって、異なる符号化層に対応する第１特徴画像のスケールは異なる、ことと、任意の復号化層について、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第２特徴画像をトレーニングして、当該復号化層に対応する第３特徴画像を決定することであって、当該復号化層に入力された第２特徴画像は、当該復号化層の前の復号化層に対応する第３特徴画像に従って決定されたものであり、異なる復号化層に対応する第３特徴画像のスケールは異なる、ことと、複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、前記特徴抽出結果を決定することとを含む。

サンプル画像をエンコーダに入力して、エンコーダの各符号化層に対応する異なるスケールの第１特徴画像を決定し、デコーダ内の任意の復号化層について、対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して、任意の復号化層に入力された第２特徴画像に対して特徴トレーニングを実行して、各復号化層に対応する第３特徴画像を決定することにより、異なるスケールの第３特徴画像に従って、サンプル画像の関心領域の空間特徴情報およびチャネル特徴情報が強調された、且つ画像内の関心のない領域の空間特徴情報およびチャネル特徴情報が抑制された特徴抽出結果を効果的に決定することができる。

本願のいくつかの実施例では、前記任意の復号化層について、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第２特徴画像をトレーニングして、当該復号化層に対応する第３特徴画像を決定することは、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングして、当該復号化層に対応する第４特徴画像を決定することであって、第１トレーニングされる特徴画像は、当該復号化層に入力された第２特徴画像である、ことと、当該復号化層に入力された第２特徴画像と当該復号化層に対応する第４特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を取得することと、チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第３特徴画像を決定することとを含む。

符号化層の対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して復号化層に対応する第１トレーニングされる特徴画像をトレーニングすることにより、サンプル画像内の関心領域の空間特徴情報が強調された且つ画像内の関心のない領域の空間特徴情報が抑制された第４特徴画像を効果的に決定でき、第４特徴画像と復号化層の第２特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を取得し、チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、サンプル画像内の関心領域のチャネル特徴情報が強調された且つ画像内の関心のない領域のチャネル特徴情報が抑制された第３特徴画像を効果的に決定することができる。

本願のいくつかの実施例では、前記任意の復号化層について、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第２特徴画像をトレーニングして、当該復号化層に対応する第３特徴画像を決定することは、当該復号化層のスケールに対応する第１特徴画像と当該復号化層に入力された第２特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を決定することと、チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、第１トレーニングされる特徴画像を決定することと、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第３特徴画像を決定することとを含む。

復号化層の第２特徴画像と対応する符号化層の第１特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を取得し、チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、サンプル画像内の関心領域が強調されたチャネル特徴情報を効果的に決定でき、画像内の関心のない領域のチャネル特徴情報の第１トレーニングされる特徴画像を抑制することができ、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることにより、サンプル画像内の関心領域の空間特徴情報が且つ画像内の関心のない領域の空間特徴情報が抑制された第３特徴画像を効果的に決定することができる。

本願のいくつかの実施例では、前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることは、当該復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、当該復号化層に対応する空間アテンション重み分布を決定することであって、復号化層に対応する空間アテンション重み分布は、第１トレーニングされる特徴画像の各画素点の重みを指示するために使用される、ことと、当該復号化層に対応する空間アテンション重み分布に従って、第１トレーニングされる特徴画像内の各画素点を較正することとを含む。

符号化層の対応する第１特徴画像および復号化層に対応する第１トレーニングされる特徴画像を使用して、復号化層に対応する空間アテンション重み分布を決定し、空間アテンション重み分布に従って、第１トレーニングされる特徴画像内の各画素点を較正して、空間次元でアテンションメカニズムを使用するトレーニングを完了することにより、サンプル画像内の関心領域の空間特徴情報を効果的に強調し、画像内の関心のない領域の空間特徴情報を抑制することができる。

本願のいくつかの実施例では、任意の復号化層について、当該復号化層は、複数の空間アテンショントレーニング層を含み、前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、当該復号化層に対応する空間アテンション重み分布を決定することは、当該復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第１トレーニングされる特徴画像の各画素点の複数の重みを決定することと、第１トレーニングされる特徴画像の各画素点の前記複数の重みに従って、当該復号化層に対応する空間アテンション重み分布を決定することとを含む。

任意の復号化層について、複数の空間アテンショントレーニング層を設定し、符号化層の対応する第１特徴画像および復号化層に対応する第１トレーニングされる特徴画像を使用して復号化層を決定し、在複数の空間アテンショントレーニング層で第１トレーニングされる特徴画像の各画素点の複数の重みをそれぞれ決定し、第１トレーニングされる特徴画像の各画素点の複数の重みに従って、復号化層に対応する空間アテンション重み分布を総合的に決定することにより、空間アテンション重み分布の精度を効果的に向上させることができる。

本願のいくつかの実施例では、前記チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることは、当該復号化層に対応するチャネルアテンション重み分布を決定することであって、当該復号化層に対応するチャネルアテンション重み分布は、第２トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、ことと、当該復号化層に対応するチャネルアテンション重み分布に従って、第２トレーニングされる特徴画像内の各チャネルを較正することとを含む。

復号化層に対応するチャネルアテンション重み分布を決定し、チャネルアテンション重み分布に従って、復号化層に対応する第２トレーニングされる特徴画像内の各チャネルを較正して、チャネル次元でアテンションメカニズムを使用するトレーニングを完了することにより、サンプル画像の関心領域のチャネル特徴情報を効果的に強調し、画像内の関心のない領域のチャネル特徴情報を抑制することができる。

本願のいくつかの実施例では、前記復号化層に対応するチャネルアテンション重み分布を決定することは、第２トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得することと、第２トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得することと、前記平均プーリング結果および前記最大プーリング結果に従って、当該復号化層に対応するチャネルアテンション重み分布を決定することとを含む。

第２トレーニングされる特徴画像に対して、平均プーリング操作と最大プーリング操作をそれぞれ実行して、平均プーリング結果および最大プーリング結果を取得し、平均プーリング結果および最大プーリング結果に従って、復号化層に対応する空間アテンション重み分布を総合的に決定することにより、チャネルアテンション重み分布の精度を効果的に向上させることができる。

本願のいくつかの実施例では、前記複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、前記特徴抽出結果を決定することは、異なるスケールの第３特徴画像を繋ぎ合わせて、第３トレーニングされる特徴画像を取得することであって、第３トレーニングされる特徴画像のスケールは、前記サンプル画像のスケールと同じである、ことと、スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることにより、前記特徴抽出結果を決定することとを含む。

異なるスケールの第３特徴画像を繋ぎ合わせて、第３トレーニングされる特徴画像を取得し、スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることにより、サンプル画像において要件を満たすスケールに対応する特徴情報を効果的に強調し、画像において要件を満たさないスケールに対応する特徴情報を抑制することができる。

本願のいくつかの実施例では、前記スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることは、スケールアテンション重み分布を決定することであって、前記スケールアテンション重み分布は、異なるスケールの重みを指示するために使用される、ことと、前記スケールアテンション重み分布に従って、第３トレーニングされる特徴画像を較正することとを含む。

スケールアテンション重み分布を決定し、スケールアテンション重み分布に従って、第３トレーニングされる特徴画像を較正して、スケール次元でアテンションメカニズムを使用するトレーニングを完了することにより、サンプル画像において要件を満たすスケールに対応する特徴情報を効果的に強調し、画像において要件を満たさないスケールに対応する特徴情報を抑制することができる。

本願のいくつかの実施例では、前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである。

本願実施例は画像処理方法を提供し、前記方法は、セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することを含み、ここで、前記セグメンテーションネットワークは、上記のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである。

セグメンテーションネットワークを介して、空間次元、チャネル次元、およびスケール次元におけるプリセットの次元で、アテンションメカニズムを使用してトレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得し、特徴抽出結果に従ってサンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得し、画像セグメンテーション結果およびトレーニングサンプルに含まれるサンプル画像に対応するセグメンテーションマーク情報に従って、セグメンテーションネットワークをトレーニングし、トレーニングによって得られたセグメンテーションネットワークを使用して、セグメント化される画像に対して画像セグメンテーション処理を実行することにより、セグメンテーション精度を効果的に向上させることができる。

本願のいくつかの実施例では、前記セグメント化される画像は、セグメント化される医用画像であり、前記セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することは、セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得することを含む。

本願実施例はネットワークトレーニング装置を提供し、前記ネットワークトレーニング装置は、ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するために使用され、前記装置は、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得するように構成される特徴抽出モジュールであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、特徴抽出モジュールと、前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得するように構成されるセグメンテーションモジュールと、前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングするように構成されるトレーニングモジュールとを備える。

本願実施例は、プロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリとを備える電子機器を提供し、前記プロセッサは、前記メモリに記憶された命令を呼び出して、上記のネットワークトレーニング方法を実行するように構成される。

本願実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行される時に、上記のネットワークトレーニング方法を実現する。

本願実施例は画像処理装置を提供し、前記装置は、セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得するように構成される画像処理モジュールを備え、前記セグメンテーションネットワークは、上記のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである。

本願のいくつかの実施例では、前記セグメント化される画像は、セグメント化される医用画像であり、前記画像処理モジュールは、セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得するように構成される。

本願実施例は、プロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリとを備える電子機器を提供し、前記プロセッサは、前記メモリに記憶された命令を呼び出して、上記の画像処理方法を実行するように構成される。

本願実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行される時に、上記の画像処理方法を実現する。

以上の一般的な説明と以下の詳細な説明は、解釈するための例示的なものに過ぎず、本願を限定するものではないことを理解すべきである。添付の図面を参照した例示的な実施例の以下の詳細な説明により、本願の他の特徴および態様が明らかになる。

ここでの図面は、本明細書に組み込まれ、本明細書の一部を構成し、これらの図面は、本願に準拠する実施例を示し、本明細書とともに本願実施例の技術的解決策を説明するために使用される。
本願実施例によるネットワークトレーニング方法の例示的なフローチャートある。本願実施例によるセグメンテーションネットワークの概略構造図である。本願実施例による、図２の空間アテンションモジュール２０２２の概略構造図である。本願実施例による、図２の空間アテンションモジュール２０２５の概略構造図である。本願実施例による、図２のチャネルアテンションモジュール２０２６の概略構造図である。本願実施例におる、図２のスケールアテンションモジュール２０４９の概略構造図である。本願実施例による画像処理方法の例示的なフローチャートである。本願実施例によるネットワークトレーニング装置の概略構造図である。本願実施例による画像処理装置の概略構造図である。本願実施例による電子機器の概略構造図である。本願実施例による電子機器の概略構造図である。

以下、図面を参照して、本願の様々な例示的実施例、特徴および態様について詳細に説明する。図面において、同一の参照符号は、同じまたは類似の機能を有する要素を表す。実施例の様々な態様が図面に示されているが、特に明記しない限り、図面は必ずしも縮尺どおりに描かれている必要はない。

本明細書において、「例示的」という用語は、「例、実施例、または説明として使用される」こと意味する。本明細書において、「例示的」として説明される任意の実施例は、他の実施例よりも優れていると解釈されるべきではない。

本明細書において、「および／または」という用語は、単に関連するオブジェクトを説明する関連関係であり、３つの関係が存在できることを示し、例えば、ａおよび／またはｂは、ａのみが存在し、ａおよびｂが存在し、ｂのみが存在するという３つの状況を示すことができる。さらに、本明細書において、「少なくとも１つ」という用語は、複数のうちの任意の１つまたは複数のうちの少なくとも２つの任意の組み合わせを意味し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、ＢおよびＣからなるセットから選択される任意の１つまたは複数の要素を含むことを意味することができる。

さらに、本発明の実施例をより効果的に説明するために、以下の具体的な実施形態において多くの具体的な詳細が与えられる。当業者なら自明であるが、いくつかの決定の詳細がなくても、本願実施例を実施することができる。いくつかの実施例では、本願実施例の要旨を強調するために、当業者に既知の方法、手段、要素、および回路に対する詳細な説明を省略する。

図１は、本願実施例によるネットワークトレーニング方法の例示的なフローチャートである。当該ネットワークトレーニング方法は、端末機器または他の処理機器によって実行でき、ここで、端末機器は、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルドデバイス、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。他の処理機器は、サーバまたはクラウドサーバであってもよい。いくつかの可能な実施形態では、当該ネットワークトレーニング方法は、プロセッサによってメモリに記憶されたコンピュータ可読命令を呼び出すことで実現することができる。図１に示されるように、当該ネットワークトレーニング方法は以下のステップを含む。

ステップＳ１１において、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得し、ここで、プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、トレーニングサンプルは、サンプル画像に対応するセグメンテーションマーク情報をさらに含む。

ステップＳ１２において、特徴抽出結果に従ってサンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得する。

ステップＳ１３において、画像セグメンテーション結果およびセグメンテーションマーク情報に従って、セグメンテーションネットワークをトレーニングする。

トレーニングサンプルを事前に作成し、トレーニングサンプルは、サンプル画像とサンプル画像に対応するセグメンテーションマーク情報を含み、ここで、サンプル画像に対応するセグメンテーションマーク情報は、サンプル画像の参照セグメンテーション結果を指示するために使用される。トレーニングサンプルに基づいて、空間次元、チャネル次元、およびスケール次元におけるプリセットの次元でアテンションメカニズムを使用して、セグメンテーションネットワークをトレーニングすることにより、トレーニングよって得られたセグメンテーションネットワークが画像セグメンテーション処理を実行する際のセグメンテーション精度を向上させることができる。

セグメンテーションネットワークは、Ｕ－ｎｅｔネットワークモデルに基づいて改善された畳み込みニューラルネットワークであってもよいし、対応する処理を実現できる他のネットワークモデルであってもよいが、本願実施例はこれを限定しない。

一例では、サンプル画像は、医用画像を前処理した後に取得したものであり得る。医用画像を取得し、医用画像を２５６＊３４２スケールに再サンプリングしてから、再サンプリングされた医用画像を０～１に正規化して、第１画像を取得し、第１画像に対してランダム反転、ランダム回転、ランダムトリミングを実行して、データ強調を実現し、サンプル画像を取得し、ここで、サンプル画像のチャネル数は３であり、スケールは２２４＊３００である。サンプル画像の決定方式は、他の方式を採用することができ、サンプル画像のチャネル数およびスケールは、実際の状況に応じて決定でき、本願実施例はこれを特に限定しない。

本願のいくつかの実施例では、セグメンテーションネットワークは、エンコーダおよびデコーダを含み、エンコーダは複数の符号化層を含み、デコーダは複数の復号化層を含み、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することは、サンプル画像をエンコーダに入力して、各符号化層に対応する第１特徴画像を決定することであって、異なる符号化層に対応する第１特徴画像のスケールは異なる、ことと、任意の復号化層について、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第２特徴画像をトレーニングして、当該復号化層に対応する第３特徴画像を決定することであって、当該復号化層に入力された第２特徴画像は、当該復号化層の前の復号化層に対応する第３特徴画像に従って決定されたものであり、異なる復号化層に対応する第３特徴画像のスケールは異なる、ことと、複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、特徴抽出結果を決定することとを含む。

図２は、本願実施例によるセグメンテーションネットワークの概略構造図である。例えば、セグメンテーションネットワークは、バックボーンネットワークとしてのＵ－ｎｅｔネットワークモデルに基づいて改善して得られたものである。セグメンテーションネットワークは、バックボーンネットワークとしてのＵ－ｎｅｔネットワークモデルに基づくことができ、バックボーンネットワークとしての他のネットワークモデルに基づくこともでき、本願実施例はこれを特に限定しない。

図２に示されるように、セグメンテーションネットワークは、エンコーダ２００１およびデコーダ２００２を含む。エンコーダ２００１は、符号化層２００３から２００７を含み、ここで、符号化層２００３は、畳み込み層２００８を含み、符号化層２００４は、最大プーリング層２００９およいび畳み込み層２０１０を含み、符号化層２００５は、最大プーリング層２０１１および畳み込み層２０１２を含み、符号化層２００６は、最大プーリング層２０１３および畳み込み層２０１４を含み、符号化層２００７は、最大プーリング層２０１５および畳み込み層２０１６を含む。デコーダ２００２は、復号化層２０１７から２０２０を含み、ここで、復号化層２０１７は、畳み込み層２０２１、空間アテンションモジュール２０２２、およびチャネルアテンションモジュール２０２３を含み、復号化層２０１８は、畳み込み層２０２４、空間アテンションモジュール２０２５、およびチャネルアテンションモジュール２０２６を含み、復号化層２０１９は、畳み込み層２０２７、空間アテンションモジュール２０２８、およびチャネルアテンションモジュール２０２９を含み、復号化層２０２０は、畳み込み層２０３０、空間アテンションモジュール２０３１、およびチャネルアテンションモジュール２０３２を含む。セグメンテーションネットワークの畳み込み層は、３＊３の畳み込みカーネルを備えた標準畳み込み層であり得、最大プーリング層は、入力データのダウンサンプリングを実現し、入力データのスケールを低減することができる。

サンプル画像２０３３をセグメンテーションネットワークのエンコーダ２００１に入力する。サンプル画像２０３３のスケールは、２２４＊３００であり得る。サンプル画像２０３３が符号化層２００３の２つの畳み込み層２００８を逐次通過した後、符号化層２００３に対応するスケールが２２４＊３００でチャネル数が１６である第１特徴画像を取得する。スケールが２２４＊３００でチャネル数が１６である第１特徴画像が、符号化層２００４の最大プーリング層２００９と２つの畳み込み層２０１０を逐次通過した後、符号化層２００４に対応するスケールが１１２＊１５０でチャネル数が３２である第１特徴画像を取得する。スケールが１１２＊１５０でチャネル数が３２である第１特徴画像が、符号化層２００５の最大プーリング層２０１１と２つの畳み込み層２０１２を逐次通過した後、符号化層２００５に対応するスケールが５６＊７５でチャネル数が６４である第１特徴画像を取得する。スケールが５６＊７５でチャネル数が６４である第１特徴画像が、符号化層２００６の最大プーリング層２０１３と２つの畳み込み層２０１４を逐次通過した後、符号化層２００６に対応するスケールが２８＊３７でチャネル数が１２８である第１特徴画像を取得する。スケールが２８＊３７でチャネル数が１２８である第１特徴画像が、符号化層２００７の最大プーリング層２０１５と２つの畳み込み層２０１６を逐次通過した後、符号化層２００７に対応するスケールが１４＊１８でチャネル数が２５６である第１特徴画像を取得する。ここで、異なる符号化層に対応する第１特徴画像のスケールおよびチャネル数は、実際の状況に応じて決定でき、本願実施例はこれを特に限定しない。

以下、デコーダ２００２内の任意の復号化層について、当該復号化層のスケールに対応する第１特徴画像を使用して、空間次元およびチャネル次元でアテンションメカニズムを使用して、当該復号化層に入力された第２特徴画像をトレーニングすることにより、当該復号化層に対応する第３特徴画像を取得するプロセスについて詳細に説明する。

本願のいくつかの実施例では、最下位の符号化層に対応する第１特徴画像をアップサンプリングし、前の符号化層に対応する第１特徴画像と繋ぎ合わせて、最上位の復号化層に入力する第２特徴画像を取得する。最上位の復号化層に入力された第２特徴画像に対して、空間次元およびチャネル次元でアテンションメカニズムを使用して、最上位の復号化層に対応する第３特徴画像を決定する。

最下位の符号化層に対応する第１特徴画像（最小スケールの第１特徴画像）は、サンプル画像のグローバル特徴情報を含むため、最下位の符号化層に対応する第１特徴画像をアップサンプリングし、前の符号化層に対応する第１特徴画像と繋ぎ合わせた後、空間次元およびチャネル次元のアテンショントレーニングを実行することにより、グローバルトレーニングを実現することができる。

図２に示されるように、最下位の符号化層（符号化層２００７）に対応する第１特徴画像（スケールが最小スケール１４＊１８である）に対して、アップサンプリング処理を実行した後、前の符号化層（符号化層２００６）に対応する第１特徴画像（２８＊３７スケール）と繋ぎ合わせて、最上位の復号化層（復号化層２０１７）に入力する第２特徴画像（２８＊３７スケール、２５６チャネル）を取得し、復号化層２０１７に入力する第２特徴画像を、復号化層２０１７に対応する第１トレーニングされる特徴画像として空間アテンションモジュール２０２２に入力して、空間アテンショントレーニングを実行して、復号化層２０１７に対応する第４特徴画像（２８＊３７スケール、２５６チャネル）を取得し、復号化層２０１７に対応する第４特徴画像を、畳み込み層２０２１、チャネルアテンションモジュール２０２３、および畳み込み層２０２１に通過させてチャネルアテンショントレーニングを実行して、復号化層２０１７に対応する第３特徴画像（２８＊３７スケール、１２８チャネル）を取得する。図２において、「×２」は、アップサンプリング処理を表すために使用され、ここで、アッププーリング層を介してアップサンプリング処理を実行してもよいし、逆畳み込み層を介してアップサンプリング処理を実行してもよいし、または、他の方式でアップサンプリング処理を実行してもよいが、本願実施例はこれを特に限定しない。

図３は、本願実施例による、図２の空間アテンションモジュール２０２２の概略構造図である。図３に示されるように、空間アテンションモジュール２０２２は、複数の１×１畳み込み層２０３４、複数の転置層（Ｔｒａｎｓｐｏｓｅ層）２０３５、および正規化層２０３６を含む。復号化層２０１７のスケールに対応する第１特徴画像（符号化層２００６に対応する第１特徴画像）および復号化層２０１７に対応する第１トレーニングされる特徴画像を、空間アテンションモジュール２０２２に入力し、複数の１×１畳み込み層２０３４、複数の転置層２０３５、および正規化層２０３６にそれぞれ通過させて、復号化層２０１７に対応する空間アテンション重み分布を取得する。例えば、空間アテンションモジュール２０２２は、下記式（１－１）に従って、復号化層２０１７に対応する空間アテンション重み分布を決定することができる。

ここで、

は正規化関数であり、

は復号化層２０１７に対応する第１トレーニングされる特徴画像内の１つの画素点であり、

は畳み込み操作である。

復号化層２０１７に対応する空間アテンション重み分布に従って、復号化層２０１７に対応する第１トレーニングされる特徴画像内の各画素点を較正して、チャネル次元でアテンションメカニズムを使用してトレーニングする必要がある復号化層２０１７に対応する第２トレーニングされる特徴画像を取得することができる。

本願のいくつかの実施例では、任意の復号化層について、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第２特徴画像をトレーニングして、当該復号化層に対応する第３特徴画像を決定することは、当該復号化層のスケールに対応する第１特徴画像と当該復号化層に入力された第２特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を決定することと、チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、第１トレーニングされる特徴画像を決定することと、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第３特徴画像を決定することとを含む。

任意の復号化層について、先ず、チャネル次元でアテンションメカニズムを使用して、当該復号化層のスケールに対応する第１特徴画像と当該復号化層に入力した第２特徴画像とを繋ぎ合わせて得られた第２トレーニングされる特徴画像をトレーニングし、空間次元でアテンションメカニズムを使用して、チャネル次元でアテンションメカニズムを使用してトレーニングすることによって得られた第１トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第３特徴画像を決定する。さらに、本願実施例において、前述したように、先ずチャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングし、空間次元でアテンションメカニズム使用して第１トレーニングされる特徴画像をトレーニングしてもよく、先ず空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングし、チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングしてもよいが、本願実施例はこれを特に限定しない。以下、先ず空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングし、チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることを例として取り上げて詳細に説明する。

本願のいくつかの実施例では、任意の復号化層について、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第２特徴画像をトレーニングして、当該復号化層に対応する第３特徴画像を決定することは、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる画像をトレーニングすることにより、当該復号化層に対応する第４特徴画像を決定することであって、第１トレーニングされる特徴画像は、当該復号化層に入力された第２特徴画像である、ことと、当該復号化層に入力された第２特徴画像と当該復号化層に対応する第４特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を取得することと、チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第３特徴画像を決定することとを含む。

本願のいくつかの実施例では、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることは、当該復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、当該復号化層に対応する空間アテンション重み分布を決定することであって、復号化層に対応する空間アテンション重み分布は、第１トレーニングされる特徴画像の各画素点の重みを指示するために使用される、ことと、当該復号化層に対応する空間アテンション重み分布に従って、第１トレーニングされる特徴画像内の各画素点を較正することとを含む。

本願のいくつかの実施例では、任意の復号化層について、当該復号化層は、複数の空間アテンショントレーニング層を含み、当該復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、当該復号化層に対応する空間アテンション重み分布を決定することは、当該復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像をそれぞれ複数の空間アテンショントレーニング層に入力して、第１トレーニングされる特徴画像の各画素点の複数の重みを決定することと、第１トレーニングされる特徴画像の各画素点の複数の重みに従って、当該復号化層に対応する空間アテンション重み分布を決定することとを含む。

図２に示されるように、復号化層２０１７に対応する第３特徴画像（２８＊３７スケール、１２８チャネル）に対してアップサンプリング処理を実行して、復号化層２０１８に入力する第２特徴画像（５６＊７５スケール、６４チャネル）を取得し、復号化層２０１８に入力する第２特徴画像を復号化層２０１８に対応する第１トレーニングされる特徴画像として空間アテンションモジュール２０２５に入力して空間アテンショントレーニングを実行して、復号化層２０１８に対応する第４特徴画像（５６＊７５スケール、６４チャネル）を取得する。復号化層２０１８に入力した第２特徴画像と復号化層２０１８に対応する第４特徴画像とを繋ぎ合わせて、復号化層２０１８に対応する第２トレーニングされる特徴画像（５６＊７５スケール、１２８チャネル）を取得する。復号化層２０１８に対応する第２トレーニングされる特徴画像を、畳み込み層２０２４、チャネルアテンションモジュール２０２６、および畳み込み層２０２４に逐次通過させた後、復号化層２０１８に対応する第３特徴画像を取得する。

図４は、本願実施例による、図２の空間アテンションモジュール２０２５の概略構造図である。図４に示されるように、空間アテンションモジュール２０２５は、２つの空間アテンショントレーニング層２０３７から２０３８を含み、復号化層２０１８のスケールに対応する第１特徴画像（符号化層２００５に対応する第１特徴画像）をクエリ（ｑｕｅｒｙ）のソース値として使用し、復号化層２０１８に対応する第１トレーニングされる特徴画像をクエリのクエリ値（ｋｅｙ）として使用し、空間アテンショントレーニング層２０３７と空間アテンショントレーニング層２０３８にそれぞれ入力する。空間アテンショントレーニング層の個数は、実際の状況に応じて決定でき、本願実施例をこれを特に限定しない。図４に示されるように、各空間アテンショントレーニング層は、複数の１×１畳み込み層２０３９、アップサンプリング層２０４０、活性化層（修正線形ユニット（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ、ＲｅＬＵ）層）２０４１、活性化層（ｓｉｇｍｏｉｄ層）２０４２、および再サンプリング層（Ｒｅｓａｍｐｌｅ層）２０４３を含む。空間アテンションモジュール２０２５のうちの任意の空間アテンショントレーニング層は、復号化層２０１８に対応する第１トレーニングされる特徴画像の各画素点の重みを決定することができる。例えば、空間アテンションモジュール２０２５のうちの任意の空間アテンショントレーニング層について、下記式（１－２）に従って復号化層２０１８に対応する第１トレーニングされる特徴画像の画素点

の重み

を決定することができる。

ここで、

は活性化関数であり、

は、復号化層２０１８スケールに対応する第１特徴画像であり、

は、復号化層２０１８に対応する第１トレーニングされる特徴画像であり、

は、復号化層２０１８のスケールに対応する第１特徴画像を線形変換することを表し、

は、復号化層２０１８に対応する第１トレーニングされる特徴画像を線形変換することを表し、

は１×１畳み込みであり、

は活性化関数であり、

は偏差項である。

空間アテンショントレーニング層２０３７によって決定された復号化層２０１８に対応する第１トレーニングされる特徴画像の各画素点の重み、および空間アテンショントレーニング層２０３８によって決定された復号化層２０１８に対応する第１トレーニングされる特徴画像の各画素点の重みに従って、復号化層２０１８に対応する空間アテンション重み分布を決定し、復号化層２０１８に対応する空間アテンション重み分布に従って、復号化層２０１８に対応する第１トレーニングされる特徴画像内の各画素点を較正して、復号化層２０１８に対応する第４特徴画像を取得する。

復号化層２０１９に対応する第４特徴画像および復号化層２０２０に対応する第４特徴画像を決定する方式は、前述した復号化層２０１８に対応する第４特徴画像を決定する方式と同様であり、ここでは繰り返して説明しない。空間アテンションモジュール２０２８および空間アテンションモジュール２０３１の構造は、空間アテンションモジュール２０２５と同様であり、ここでは繰り返して説明しない。

空間アテンションモジュールを使用してセグメンテーションネットワークに対して空間次元のアテンショントレーニングを実行することにより、トレーニングされたセグメンテーションネットワークが画像セグメンテーション処理を実行する際の画像内の関心領域の空間特徴情報を強調し、画像内の関心のない領域の空間特徴情報を抑制することができ、セグメンテーションネットワークのセグメンテーション精度を向上させることができる。

任意の復号化層について、当該復号化層に対応する第４特徴画像を決定した後、当該復号化層に入力した第２特徴画像と当該復号化層に対応する第２特徴画像とを繋ぎ合わせて（チャネルカスケード）、当該復号化層に対応する第２トレーニングされる特徴画像を取得する。例えば、復号化層２０１８について、復号化層２０１８に入力した第２特徴画像（５６＊７５スケール、６４チャネル）および復号化層２０１８に対応する第４特徴画像（５６＊７５スケール、６４チャネル）に対してチャネルカスケード繋ぎ合わせを実行して、復号化層２０１８に対応する第２トレーニングされる特徴画像（５６＊７５スケール、１２８チャネル）を取得する。

本願のいくつかの実施例では、チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることは、当該復号化層に対応するチャネルアテンション重み分布を決定することであって、当該復号化層に対応するチャネルアテンション重み分布は、第２トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、ことと、当該復号化層に対応するチャネルアテンション重み分布に従って、第２トレーニングされる特徴画像内の各チャネルを較正することとを含む。

本願のいくつかの実施例では、復号化層に対応するチャネルアテンション重み分布を決定することは、第２トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得することと、第２トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得することと、平均プーリング結果および最大プーリング結果に従って、当該復号化層に対応するチャネルアテンション重み分布を決定することとを含む。

図５は、本願実施例による、図２のチャネルアテンションモジュール２０２６の概略構造図である。図５に示されるように、チャネルアテンションモジュール２０２６は、最大プーリング層２０４４、平均プーリング層２０４５、完全接続層（ＦＣ層：ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒｓ）２０４６、活性化層（ＲｅＬＵ層）２０４７、および完全接続層（ＦＣ層）２０４８を含む。図２および図５に示されるように、復号化層２０１８に対応する第２トレーニングされる特徴画像（１２８チャネル）をチャネルアテンションモジュール２０２６に入力し、最大プーリング層２０４４を介して最大プーリング操作を実行して、最大プーリング結果を取得し、平均プーリング層２０４５を介して平均プーリング操作を実行して、平均プーリング結果を取得し、平均プーリング結果および最大プーリング結果を、完全接続層（ＦＣ層）２０４６、活性化層（ＲｅＬＵ層）２０４７、および完全接続層（ＦＣ層）２０４８にそれぞれ通過させて、復号化層２０１８に対応するチャネルアテンション重み分布を決定する。例えば、チャネルアテンションモジュール２０２６は、下記式（１－３）に従って、復号化層２０１８に対応する第２トレーニングされる特徴画像のチャネル

の重み

を決定することができる。

ここで、

は活性化関数であり、

は、復号化層２０１８に対応する第２トレーニングされる特徴画像であり、

は、完全接続操作およびＲｅＬＵ操作であり、

は完全接続操作であり、

は平均プーリング関数であり、

は最大プーリング関数である。

復号化層２０１８に対応するチャネルアテンション重み分布を決定した後、復号化層２０１８に対応するチャネルアテンション重み分布に従って、復号化層２０１８に対応する第２トレーニングされる特徴画像内の各チャネルを較正して、復号化層２０１８に対応する第３特徴画像を取得する。

復号化層２０１７に対応する第３特徴画像、復号化層２０１９に対応する第３特徴画像、および復号化層２０２０に対応する第３特徴画像を決定する方式は、前述した復号化層２０１８に対応する第３特徴画像を決定する方式と同様であり、ここでは繰り返して説明しない。チャネルアテンションモジュール２０２３、チャネルアテンションモジュール２０２９、およびチャネルアテンションモジュール２０３２の構造は、チャネルアテンションモジュール２０２６と同様であり、ここでは繰り返して説明しない。

チャネルアテンションモジュールを使用してセグメンテーションネットワークに対してチャネル次元のアテンショントレーニングを実行することにより、トレーニングされたセグメンテーションネットワークが画像セグメンテーション処理を実行する際の画像内の関心領域のチャネル特徴情報を強調し、画像内の関心のない領域のチャネル特徴情報を抑制することができ、セグメンテーションネットワークのセグメンテーション精度を向上させることができる。

本願のいくつかの実施例では、複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、特徴抽出結果を決定することは、異なるスケールの第３特徴画像を繋ぎ合わせて、第３トレーニングされる特徴画像を取得することであって、第３トレーニングされる特徴画像のスケールは、サンプル画像のスケールと同じである、ことと、スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることにより、特徴抽出結果を決定することとを含む。

本願のいくつかの実施例では、スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることは、スケールアテンション重み分布を決定することであって、スケールアテンション重み分布は、異なるスケールの重みを指示するために使用される、ことと、スケールアテンション重み分布に従って、第３トレーニングされる特徴画像を較正することとを含む。

図２に示されるように、セグメンテーションネットワークは、さらに、スケールアテンションモジュール２０４９を含む。復号化層２０１７に対応する第３特徴画像、復号化層２０１８に対応する第３特徴画像、復号化層２０１９に対応する第３特徴画像、および復号化層２０２０に対応する第３特徴画像を繋ぎ合わせ、繋ぎ合わせるプロセスで、復号化層２０１７に対応する第３特徴画像（２８＊３７スケール）、復号化層２０１８に対応する第３特徴画像（５６＊７５スケール）、および復号化層２０１９に対応する第３特徴画像（１１２＊１５０スケール）を全て、２２４＊３００スケール（サンプル画像のスケールと同じである）にアップサンプリングし、繋ぎ合わせるプロセスで、各復号化層に対応する第３特徴画像は４つのチャネルのみを保持でき、繋ぎ合わせた後、２２４＊３００スケールの第６特徴画像（１６チャネル）を取得する。第６特徴画像をスケールアテンションモジュール２０４９に入力して、スケール次元でのアテンショントレーニングを実行する。

図６は、本願実施例による、図２のスケールアテンションモジュール２０４９の概略構造図である。図６に示されるように、スケールアテンションモジュール２０４９は、最大プーリング層２０５０、平均プーリング層２０５１、完全接続層（ＦＣ層）２０５２、活性化層（ＲｅＬＵ層）２０５３、完全接続層（ＦＣ層）２０５４、畳み込み層２０５５、活性化層（ＲｅＬＵ層）２０５６、畳み込み層２０５７、および活性化層（Ｓｉｇｍｏｉｄ層）２０５８を含む。第６特徴画像をスケールアテンションモジュール２０４９に入力し、最大プーリング層２０５０を介して最大プーリング操作を実行して、最大プーリング結果を取得し、平均プーリング層２０５１を介して平均プーリング操作を実行して、平均プーリング結果を取得し、平均プーリング結果および最大プーリング結果を、完全接続層（ＦＣ層）２０５２、活性化層（ＲｅＬＵ層）２０５３、完全接続層（ＦＣ層）２０５４にそれぞれ通過させて、スケールアテンション重み分布を決定する。例えば、スケールアテンションモジュール２０４９は、下記式（１－４）に従って、スケール

の重み

を決定することができる。

ここで、

は活性化関数であり、

は第６特徴画像であり、

は完全接続操作およびＲｅＬＵ操作であり、

は完全接続操作であり、

は平均プーリング関数であり、

は最大プーリング関数である。

スケールアテンション重み分布に基づいて、第６特徴画像に対して初回目の較正を実行して、初回目の較正後の第６特徴画像を取得する。スケールアテンションモジュールを使用して、セグメンテーションネットワークに対してスケール次元のアテンショントレーニングを実行することにより、トレーニングされたセグメンテーションネットワークが画像セグメンテーションを実行する際に、適切なスケールの特徴情報を強調し、画像内の不適切なスケールの特徴情報を抑制することができ、セグメンテーションネットワークのセグメンテーション精度を向上させることができる。

初回目の較正後の第６特徴画像を、畳み込み層２０５５、活性化層（ＲｅＬＵ層）２０５６、畳み込み層２０５７、活性化層（Ｓｉｇｍｏｉｄ層）２０５８に通過させて、空間次元でアテンショントレーニングを再度実行して、初回目の較正後の第６特徴画像の各画素点の重みを決定する。例えば、下記式（１－５）により、初回目の較正後の第６特徴画像の画素点

の重み

を決定できる。

ここで、

は活性化関数であり、

は、畳み込み操作および一括正規化操作（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ操作）であり、

は、初回目の較正後の第６特徴画像である。

初回目の較正後の第６特徴図の各画素点の重みに従って、初回目の較正後の第６特徴画像内の各画素点を再較正して、２番目の較正後の第６特徴画像を取得し、２番目の較正後の第６特徴画像をサンプル画像の特徴抽出結果として決定する。

図２に示されるように、セグメンテーションネットワークは、さらに、分類器（ｃｌａｓｓ）２０５９および正規化層（Ｓｏｆｔｍａｘ層）２０６０を含み、サンプル画像の特徴抽出結果を、分類器２０５９および正規化層２０６０を逐次通過させて、サンプル画像の画像セグメンテーションを実現して、サンプル画像のセグメンテーション結果２０６１を取得する。

サンプル画像のセグメンテーション結果およびサンプル画像に対応するセグメンテーションマーク情報に従って、セグメンテーションネットワークのセグメンテーション損失を決定し、セグメンテーション損失に従って、セグメンテーションネットワークのネットワークパラメータを調整する。セグメンテーションネットワークのセグメンテーション損失が収束するか、または反復回数がプリセットされた回数に達するまで、セグメンテーションネットワークを反復する。ここで、セグメンテーション損失を決定するために、ＤＩＣＥ損失関数、Ｓｏｆｔｄｉｃｅ損失関数、クロスエントロピー（ＣｒｏｓｓＥｎｔｒｏｐｙ）損失関数、Ｆｏｃａｌｌｏｓｓ損失関数、またはその他の損失関数を使用でき、本願実施例はこれを特に限定しない。

空間アテンションモジュール、チャネルアテンションモジュール、およびスケールアテンションモジュールを総合的に使用することで、空間次元、チャネル次元、およびスケール次元でセグメンテーションネットワークに対して総合的なアテンショントレーニングを実行することにより、トレーニングされたセグメンテーションネットワークが画像セグメンテーションを実行する際のセグメンテーション精度を向上させることができ、医用画像セグメンテーションの問題に適用される。例えば、磁気共鳴画像法（ＭＲＩ：ＭａｇｎｅｔｉｃＲｅｓｏｎａｎｃｅＩｍａｇｉｎｇ）画像、コンピュータ断層撮影（ＣＴ：ＣｏｍｐｕｔｅｄＴｏｍｏｇｒａｐｈｙ）画像、超音波画像、またはＸ線画像における腫瘍、組織の損傷と壊死、特定臓器のセグメンテーションに適用され、医師が病気の状態を判断するか、患者の健康状態をより正確に評価するように支援する。

本願実施例によるネットワークトレーニング方法は、医用画像分析に適用され、当該ネットワークトレーニング方法は、端末機器または他の処理機器によって実行でき、ここで、端末機器は、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルドデバイス、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。他の処理機器は、サーバまたはクラウドサーバであってもよい。いくつかの可能な実施形態では、当該ネットワークトレーニング方法は、プロセッサによってメモリに記憶されたコンピュータ可読命令を呼び出すことで実現することができる。当該ネットワークトレーニング方法は、以下のステップを含み得る。

ステップＳ３１において、医用画像を前処理し、画像をトリミングおよび正規化する。

ステップＳ３２において、医用画像分析において非常に安定した効果を持つＵ－Ｎｅｔネットワークモデルをバックボーンネットワークとして選択する。Ｕ－Ｎｅｔの最下層で内積和の方式を使用して、画素点のそれぞれと、他の全ての画素点との相関性を接続し、その後、各アップサンプリング（特徴復号化プロセス）の後、復号化された情報を使用して、同じレベルの符号化プロセスにおける特徴を照会する。このステップは、空間アテンション方法である。

ステップＳ３３において、各復号化層の中央にチャネルアテンションを埋め込み、同時に、平均プーリングおよび最大プーリングの情報を使用して、現在の層の特徴チャネル情報を較正する。

ステップＳ３４において、アップサンプリングにより、復号化層の各層の中間出力を、元の入力画像と同じサイズに統合し、異なるスケール特徴を含むチャネルを繋ぎ合わせ、最後に、異なるスケール情報にアテンションメカニズムを導入する。

ステップＳ３５において、サンプル画像に対して画像セグメンテーションを実行して、サンプル画像のセグメンテーション結果を取得する。当該セグメンテーション結果と、手動で（医師や看護師によって実行できるが、これらに限定ない）マークされたゴールドスタンダードを比較し、逆伝播アルゴリズムを介して、勾配降下法を使用して損失関数に対して反復トレーニングを繰り返すことにより、モデルパラメータを最適化する。ここで、損失関数は、セグメンテーションＤＩＣＥ損失関数を使用する。

本願実施例によるネットワークトレーニング方法は、医用画像が広く適用されているネットワークにおいて、特徴の複数の次元でアテンションメカニズムを導入し、既存のアテンションメカニズムと比較すると、関心領域のアテンションをより強調でき、ネットワークの自己適応能力を向上させることができる。

さらに、ネットワークセグメンテーションタスクの能力を大幅に向上させる上で、ネットワークに、少量のパラメータ量と計算オーバーヘッドのみが追加される。したがって、当該ネットワークトレーニング方法は、メモリが限られている機器にうまく適合させることができる。

図７は、本願実施例による画像処理方法の例示的なフローチャートである。当該画像処理方法は、端末機器または他の処理機器によって実行でき、ここで、端末機器は、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルドデバイス、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。他の処理機器は、サーバまたはクラウドサーバであってもよい。いくつかの可能な実施形態では、当該画像処理方法は、プロセッサによってメモリに記憶されたコンピュータ可読命令を呼び出すことで実現することができる。図７に示されるように、当該画像処理方法は、以下のステップを含み得る。

ステップＳ７１において、セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得し、ここで、セグメンテーションネットワークは、上記の実施例のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである。

例えば、上記の実施例でトレーニングされたセグメンテーションネットワークを使用して、処理される画像に対して画像セグメンテーション処理を実行する。具体的には、処理される画像をセグメンテーションネットワークに入力し、当該セグメンテーションネットワークの出力は、処理される画像の画像セグメンテーション結果である。セグメンテーションネットワークは、空間次元、チャネル次元、およびスケール次元でアテンションメカニズム使用してトレーニングすることで得られたものであるため、セグメンテーションネットワークによる処理される画像への画像セグメンテーション処理のセグメンテーション精度が向上する。皮膚疾患腫瘍の自動セグメンテーションのシナリオを例として取り上げると、本願実施例による画像処理方法は、以下のステップを含み得る。

ステップＳ７０１において、ダーモスコピー（Ｄｅｒｍｏｓｃｏｐｙ）画像を前処理し、画像を２２４＊３００サイズに再サンプリングしてから、０から１の間に正規化する。

ステップＳ７０２、３＊２２４＊３００に前処理されたダーモスコピー画像をトレーニングデータとしてネットワークに入力する。ネットワークトレーニングに入る前に、画像をランダムに反転、回転、およびトリミングして、データを強調する必要があり、その後、強調されたトレーニングデータおよび対応するマーク情報をネットワークに入力してトレーニングする。

ステップＳ７０３において、完全畳み込みネットワーク（ＦＣＮ：ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）またはＵ－Ｎｅｔに基づくネットワーク構造を使用して、サイズが３＊２２４＊３００であるダーモスコピー画像を、異なる畳み込み層に通過させる。４回のダウンサンプリング、一括正規化、および活性化関数操作の後、３＊２２４＊３００サイズの皮膚病腫瘍画像サイズを順次に３＊１１２＊１５０、３＊５６＊７５、３＊２８＊３７、および３＊１４＊１８に縮小する。最後に、３＊１４＊１８の特徴画像を取得し、チャネル数を１から１２８に増加する。その後、４回の逆畳み込み操作の後、３＊１４＊１８サイズの特徴画像を４回アップサンプリングすることにより、元のサイズ３＊２２４＊３００に徐々にアップグレードする。アップサンプリングプロセスでは、ダウンサンプリングにおいて同じ解像度（３２＊３２＊３２など）の特徴画像、およびアップサンプリングにおいて同じサイズの特徴画像を融合してから、空間アテンションメカニズムを使用してトレニンーグする。このようにして、特徴を画像内の局部および全局の情報と組み合わせ、同時に、特徴領域のアテンションを強調することができる。

ステップＳ７０４において、アップサンプリングによって得られた、サイズが３＊２２４＊３００である画像に対して、畳み込み操作の中間に改善されたチャネルアテンションメカニズムを挿入する。その後、各層のアップサンプリングについて、中間特徴結果を入力画像のサイズにアップサンプリングする。次に、スケールアテンションメカニズムを介して、特徴スケールでのアテンションを強調する。最後に、セグメンテーション結果と元のマークされたセグメンテーション結果を比較し、ＤＩＣＥ損失関数、ＩＯＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒｕｎｉｏｎ）損失関数、または他の損失関数を使用して損失を計算し、最終的な損失関数を形成する。逆伝播アルゴリズムを使用して、前記損失関数を使用してモデルパラメータを更新し、モデルが収束するか、最大反復回数に達するまで、モデルを繰り返し最適化する。

ステップＳ７０５において、トレーニングされたモデルを使用して、処理されるダーモスコピー画像に対して画像処理を実行して、セグメント化された結果を取得する。ＤＩＣＥ係数、ＩＯＵ、または平均対称表面距離（ＡＳＳＤ：ａｖｅｒａｇｅｓｙｍｍｅｔｒｉｃｓｕｒｆａｃｅｄｉｓｔａｎｃｅ）を評価指標として使用して、ネットワークのトレーニング効果を評価する。

本願実施例による画像処理方法は、完全アテンションに基づくネットワーク方法を使用し、医用画像セグメンテーションに非常に一般的に使用され、同時に、ＭＲＩ、ＣＴ、超音波、およびＸ線などの医用画像における腫瘍、組織損傷壊死などの病変領域または特定の臓器のセグメンテーションタスクにも使用できる。入力ネットワークのデータパラメータを設定するだけで、異なるタスクのトレーニングとテストを実現できる。

放射線科医師の場合、患者データをダウンロードした後、本願実施例による画像処理方法に基づくワークステーションを使用して、セグメント化する必要のある腫瘍または臓器をリアルタイムでセグメント化できるため、ＣＴ放射線治療領域の描写、遠隔医療診断、クラウドプラットフォーム支援インテリジェント診断などを実現でき、医師が病気の状態を判断するか、患者の健康状態をより正確に評価するように支援することができる。

本願実施例による画像処理方法に基づくインテリジェント診断機器は、クラウドプラットフォーム、大型サーバ、およびモバイル機器への埋め込みにも適用されることができ、画像診断医師や臨床医師などは、診断の必要性に応じて、さまざまな機器を使用して即座に閲覧することができる。

本出願で言及される上記各方法の実施例は、原理と論理に違反することなく、相互に組み合わせて、組み合わされた実施例を形成することができ、紙数に限りがあるので、本出願では詳細な説明を省略することを理解されたい。当業者なら自明であるが、上記の特定の実施形態における方法において、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定される必要がある。

本出願はまた、ネットワークトレーニング装置、画像処理装置、電子機器、コンピュータ可読記憶媒体、およびプログラムを提供し、これらはすべて、本出願で提供されるネットワークトレーニング、画像処理方法のいずれかを実現するために使用されることができ、対応する技術的解決策と説明は、方法の実施例の対応する説明を参照することができ、ここでは繰り返して説明しない。

図８は、本願実施例によるネットワークトレーニング装置の概略構造図である。図８に示されるように、装置８０は、
セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得するように構成される特徴抽出モジュール８１であって、プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、特徴抽出モジュール８１と、
特徴抽出結果に従ってサンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得するように構成されるセグメンテーションモジュール８２と、
画像セグメンテーション結果およびセグメンテーションマーク情報に従って、セグメンテーションネットワークをトレーニングするように構成されるトレーニングモジュール８３と、を備える。

本願のいくつかの実施例では、セグメンテーションネットワークは、エンコーダおよびデコーダを含み、エンコーダは複数の符号化層を含み、デコーダは複数の復号化層を含み、
特徴抽出モジュール８１は、
サンプル画像をエンコーダに入力して、各符号化層に対応する第１特徴画像を決定するように構成される第１決定サブモジュールであって、異なる符号化層に対応する第１特徴画像のスケールは異なる、第１決定サブモジュールと、
任意の復号化層について、当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第２特徴画像をトレーニングして、当該復号化層に対応する第３特徴画像を決定するように構成される第２決定サブモジュールであって、当該復号化層に入力された第２特徴画像は、当該復号化層の前の復号化層に対応する第３特徴画像に従って決定されたものであり、異なる復号化層に対応する第３特徴画像のスケールは異なる、第２決定サブモジュールと、
複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、特徴抽出結果を決定するように構成される第３決定サブモジュールと、を備える。

本願のいくつかの実施例では、第２決定サブモジュールは、
当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングして、当該復号化層に対応する第４特徴画像を決定するように構成される第１トレーニングユニットであって、第１トレーニングされる特徴画像は、当該復号化層に入力された第２特徴画像である、第１トレーニングユニットと、
当該復号化層に入力された第２特徴画像と当該復号化層に対応する第４特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を取得するように構成される第１繋ぎ合わせユニットと、
チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第３特徴画像を決定するように構成される第２トレーニングユニットと、を備える。

本願のいくつかの実施例では、第２決定サブモジュールは、
当該復号化層のスケールに対応する第１特徴画像と当該復号化層に入力された第２特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を決定するように構成される第２繋ぎ合わせユニットと、
チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、第１トレーニングされる特徴画像を決定するように構成される第２トレーニングユニットと、
当該復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第３特徴画像を決定するように構成される第１トレーニングユニットと、を備える。

本願のいくつかの実施例では、第１トレーニングユニットは、
当該復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、当該復号化層に対応する空間アテンション重み分布を決定するように構成される第１決定サブユニットであって、復号化層に対応する空間アテンション重み分布は、第１トレーニングされる特徴画像の各画素点の重みを指示するために使用される、第１決定サブユニットと、
当該復号化層に対応する空間アテンション重み分布に従って、第１トレーニングされる特徴画像内の各画素点を較正するように構成される第１較正サブユニットと、を備える。

本願のいくつかの実施例では、任意の復号化層について、当該復号化層は、複数の空間アテンショントレーニング層を含み、
第１決定サブユニットは、具体的に、
当該復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第１トレーニングされる特徴画像の各画素点の複数の重みを決定し、
第１トレーニングされる特徴画像の各画素点の複数の重みに従って、当該復号化層に対応する空間アテンション重み分布を決定するように構成される。

本願のいくつかの実施例では、第２トレーニングユニットは、
当該復号化層に対応するチャネルアテンション重み分布を決定するように構成される第２決定サブユニットであって、当該復号化層に対応するチャネルアテンション重み分布は、第２トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、第２決定サブユニットと、
当該復号化層に対応するチャネルアテンション重み分布に従って、第２トレーニングされる特徴画像内の各チャネルを較正するように構成される第２較正サブユニットと、を備える。

本願のいくつかの実施例では、第２決定サブユニットは、具体的に、
第２トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得し、
第２トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得し、
平均プーリング結果および最大プーリング結果に従って、当該復号化層に対応するチャネルアテンション重み分布を決定するように構成される。

本願のいくつかの実施例では、第３決定サブモジュールは、
異なるスケールの第３特徴画像を繋ぎ合わせて、第３トレーニングされる特徴画像を取得するように構成される第３繋ぎ合わせユニットであって、第３トレーニングされる特徴画像のスケールは、サンプル画像のスケールと同じである、第３繋ぎ合わせユニットと、
スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることにより、特徴抽出結果を決定するように構成される決定ユニットと、を備える。

本願のいくつかの実施例では、決定ユニットは、具体的に、
スケールアテンション重み分布を決定し、スケールアテンション重み分布は、異なるスケールの重みを指示するために使用され、
スケールアテンション重み分布に従って、第３トレーニングされる特徴画像を較正するように構成される。

図９は、本願実施例による画像処理装置の概略構造図である。図９に示されるように、装置９０は、
セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得するように構成される画像処理モジュール９１を備え、
ここで、セグメンテーションネットワークは、上記の実施例のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである。

本願のいくつかの実施例では、前記セグメント化される画像は、セグメント化される医用画像であり、画像処理モジュール９１は、セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得するように構成される。

いくつかの実施例では、本願実施例に係る装置に含まれる機能またはモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実現については、上記の方法の実施例の説明を参照することができ、簡潔にするため、ここでは繰り返して説明しない。

本願実施例は、さらに、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行される時に、上記の方法を実現する。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってよい。

本願実施例は、さらに、プロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリとを備える電子機器を提供し、ここで、前記プロセッサは、前記メモリに記載された命令を呼び出して、上記の方法を実行するように構成される。

本願実施例は、さらに、コンピュータ可読コードを含むコンピュータプログラム製品を提供し、コンピュータ可読コードが機器で実行される時に、前記機器内のプロセッサは、上記の実施例によるネットワークトレーニング／画像処理方法を実現するための命令を実行する。

本願実施例は、さらに、コンピュータ可読命令を記憶するように構成される別のコンピュータプログラム製品を提供し、命令が実行された時に、コンピュータに、上記の任意の実施例によるネットワークトレーニング／画像処理方法の動作を実行させる。

電子機器は、端末、サーバ、または他の形の機器として提供することができる。

図１０は、本願実施例による電子機器８００の概略図である。例えば、電子機器１０００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。

図１０を参照すると、電子機器１０００は、処理コンポーネント１００２、メモリ１００４、電源コンポーネント１００６、マルチメディアコンポーネント１００８、オーディオコンポーネント１０１０、入力／出力（Ｉ／Ｏ）インターフェース１０１２、センサコンポーネント１０１４、および通信コンポーネント１０１６のうちの１つまたは複数を含み得る。

処理コンポーネント１００２は通常、電子機器１０００の全体的な動作、例えば、表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント１００２は、上記の方法のステップの全部または一部を完了するための１つまたは複数のプロセッサ１０２０を備えることができる。さらに、処理コンポーネント１００２は、処理コンポーネント１００２と他のコンポーネントとの間の対話を容易にするための１つまたは複数のモジュールを含み得る。例えば、処理コンポーネント１００２は、マルチメディアコンポーネント１００８と処理コンポーネント１００２との間の対話を容易にするためのマルチメディアモジュールを含み得る。

メモリ１００４は、電子機器１０００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器１０００で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどが含まれる。メモリ１００４は、任意のタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現でき、当該ストレージデバイスは、例えば、静的ランダムアクセスメモリ（ＳＲＡＭ、ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ、ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ、ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ、ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどであり得る。

電源コンポーネント１００６は、電子機器１０００の各コンポーネントに電力を供給する。電源コンポーネント１００６は電源管理システム、１つまたは複数の電源、および電子機器１０００のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。

マルチメディアコンポーネント１００８は、前記電子機器１０００とユーザとの間で出力インターフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）およびタッチパネル（ＴＰ：ＴｏｕｃｈＰａｎｅｌ）を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現できる。タッチパネルは、タッチ、スワイプ、およびタッチパネルでのジェスチャを検知するための１つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間と圧力も検出する。いくつかの実施例では、マルチメディアコンポーネント１００８は、フロントカメラおよび／またはリアカメラを含む。電子機器１０００が、撮影モードまたは撮像モードなどの動作モードにある場合、フロンドカメラおよび／またはリアカメラは、外部マルチメディアデータを受信することができる。各フロンドカメラおよびリアカメラは、固定光学レンズシステムであってもよく、焦点距離および光学ズーム機能を有するものであってもよい。

オーディオコンポーネント１０１０は、オーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント１０１０は、マイクロフォン（ＭＩＣ：Ｍｉｃｒｏｐｈｏｎｅ）を含み、前記マイクロフォンは、電子機器１０００が、呼び出しモード、記録モード、または音声認識モードなどの動作モードにある場合、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ１００４に記憶されてもよいし、通信コンポーネント１０１６によって送信されてもよい。いくつかの実施例において、オーディオコンポーネント１０１０は、オーディオ信号を出力するためのスピーカをさらに含む。

Ｉ／Ｏインターフェース１０１２は、処理コンポーネント１００２と周辺インターフェースモジュールとの間のインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであり得る。これらのボタンは、ホームボタン、音量ボタン、スタートボタン、およびロックボタンなどを含んでもよいが、これらに限定されない。

センサコンポーネント１０１４は、各態様の状態評価を電子機器１０００に提供するように構成される１つまたは複数のセンサを含む。例えば、センサコンポーネント１０１４は、電子機器１０００のオン／オフ状態およびコンポーネントの相対的な位置を検出でき、例えば、前記コンポーネントが電子機器１０００のディスプレイおよびキーパッドであることを検出でき、センサコンポーネント１０１４はまた、電子機器１０００または電子機器１０００のコンポーネントの位置の変化、ユーザと電子機器１０００との接触の有無、電子機器１０００の方位または加減速、および電子機器１０００の温度変化を検出できる。センサコンポーネント１０１４は、物理的接触なしに近くの物体の存在を検出するように構成される近接センサを含み得る。センサコンポーネント１０１４は、さらに、イメージングに使用される光センサ（金属酸化物半導体素子（ＣＭＯＳ：ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）または電荷結合素子（ＣＣＤ：ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）イメージセンサなど）を含み得る。いくつかの実施例では、当該センサコンポーネント１０１４は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、または温度センサを含み得る。

通信コンポーネント１０１６は、電子機器１０００と他の機器との間の有線または無線通信を実現するように構成される。電子機器１０００は、通信規格に基づく無線ネットワーク、例えば、ワイヤレスフィデリティ（ＷｉＦｉ：ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）、第２世帯（２Ｇ：２ｔｈＧｅｎｅｒａｔｉｏｎ）または第３世代（３Ｇ：３ｔｈＧｅｎｅｒａｔｉｏｎ）、またはそれらの組み合わせにアクセスできる。一例示的な実施例では、通信コンポーネント１０１６は、放送チャネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント１０１６は、さらに、近距離通信を容易にするための近距離無線通信（ＮＦＣ：ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）モジュールを備える。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩＤｅｎｔｉｆｉｃａｔｉｏｎ）技術、赤外線データ協会（ＩｒＤＡ：ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）技術、超広帯域（ＵＷＢ：ＵｌｔｒａＷｉｄｅＢａｎｄ）技術、ブルートゥース（登録商標）（ＢＴ：ＢｌｕｅＴｏｏｔｈ、（登録商標））技術および他の技術に基づいて実現できる。

例示的な実施例では、上記の方法を実行するために、電子機器８００は、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、デジタル信号処理デバイス（ＤＳＰＤ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓ）、プログラマブルロジックデバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現されることができる。

例示的な実施例では、コンピュータプログラム命令を含むメモリ１００４などの不揮発性コンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラム命令は、電子機器１０００のプロセッサ１０２０によって実行されることにより、上記の方法を完了することができる。

図１１は、本願実施例による電子機器のブロック図を示している。例えば、電子機器１１００は、サーバとして提供することができる。図１１を参照すると、電子機器１１００は、１つまたは複数のプロセッサを含む処理コンポーネント１１２２と、処理コンポーネント１１２２によって実行可能な命令（アプリケーションプログラムなど）を記憶するように構成されるメモリリソースを代表するメモリ１１３２と、を備える。メモリ１１３２に記憶されたアプリケーションプログラムは、それぞれが一セットの命令に対応する１つまたは複数のモジュールを含み得る。さらに、処理コンポーネント１１２２は、命令を実行することにより、上記の方法を実行するように構成される。

電子機器１１００は、さらに、電子機器１１００の電力管理を実行するように構成される電源コンポーネント１１２６と、電子機器１１００をネットワークに接続するように構成される有線または無線ネットワークインターフェース１１５０と、入力／出力（Ｉ／Ｏ）インターフェース１１５８と、を備えてもよい。電子機器１１００は、メモリ１１３２に記憶されたオペレーティングシステム、例えば、Ｗｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、コンピュータプログラム命令を含むメモリ１１３２などの不揮発性コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令は、電子機器１１００の処理コンポーネント１１２２によって実行されることにより、上記の方法を完了することができる。

本願実施例は、システム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読プログラム命令が記憶されたコンピュータ可読記憶媒体を含み得、当該コンピュータ可読プログラム命令は、プロセッサに、本願実施例の各態様を実現させるように構成される。

コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であり得る。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例（非包括的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピー（登録商標）ディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。本明細書で使用するコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング／処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークなどのネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含み得る。各計算／処理機器内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他の計算／処理機器のコンピュータ可読記憶媒体への記憶のために当該コンピュータ可読プログラム命令を転送する。

本願実施例における動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ：ＩｎｓｔｒｕｃｔｉｏｎＳｅｔＡｒｃｈｉｔｅｃｔｕｒｅ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）または広域ネットワーク（ＷＡＮ：ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）を含む任意のタイプのネットワークを経由してユーザのコンピュータに接続するか、または、外部コンピュータに接続する（例えば、インターネットサービスプロバイダを利用することにより、インターネットを経由して外部コンピュータに接続する）ことができる。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、電子回路をカスタマイズすることができる。例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をカスタマイズすることができ、当該電子回路は、コンピュータ可読プログラム命令を実行することにより、本願実施例の各態様を実現することができる。

ここで、本願実施例における方法、装置（システム）、およびコンピュータプログラム製品に係るフローチャートおよび／またはブロック図を参照して、本願実施例の各態様を説明したが、フローチャートおよび／またはブロック図の各ブロック、およびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ可読プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された機能／動作を実現する手段を創出する。また、これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置および／または他の機器が、これらの命令に応じて特定の方式で動作することができる。したがって、命令が記憶されたコンピュータ可読記憶媒体は、フローチャートおよび／またはブロック図の１つまたは複数のブロックで指定された機能／動作を実現する命令を含む製品を備えることができる。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器に一連の動作ステップを実行させることにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器でる命令を実行することで、フローチャートおよび／またはブロック図の１つまたは複数のブロックで指定された機能／動作を実現することができる。

図面中のフローチャートおよびブロック図は、本出願の複数の実施例によるシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示している。この点では、フローチャートまたはブロック図における各ブロックは、１つのモジュール、プログラムセグメントまたは命令の一部を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための１つまたは複数の実行可能な命令を含む。いくつかの代替としての実現では、ブロックでマークされた機能は、図面でマークされた順序とは異なる順序で実行できる。例えば、２つの連続的なブロックは、実際には実質的に同時に実行でき、関連する機能によっては、逆の順序で実行されることもできる。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。

前記コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェア、またはそれらの組み合わせの方式によって実現されることができる。一代替実施例では、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として実現され、別の代替実施例では、コンピュータプログラム製品は、具体的には、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などのソフトウェア製品として実現される。

以上、本願の各実施例を説明したが、上記の説明は、例示的なものであり、網羅的なものではなく、開示された各実施例に限定されるものでもない。説明された各実施例の範囲および要旨を逸脱することなく、様々な修正および変更をすることが可能であることは、当業者にとっては明らかである。本明細書で使用される用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するためのものであるか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

本願実施例は、ネットワークトレーニング／画像処理方法および装置、電子機器および記憶媒体を提供し、前記ネットワークトレーニング方法は、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、ことと、前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得することと、前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングすることとを含む。本願実施例は、セグメンテーションネットワークのトレーニングを実現でき、トレーニングによって得られたセグメンテーションネットワークを介して画像セグメンテーション処理を実行することができる。

本願実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行される時に、上記の画像処理方法を実現する。
本願実施例は、コンピュータ可読コードを含む、コンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるとき、前記電子機器内のプロセッサは、上記の画像処理方法を実現するために実行される。

以上の一般的な説明と以下の詳細な説明は、解釈するための例示的なものに過ぎず、本願を限定するものではないことを理解すべきである。添付の図面を参照した例示的な実施例の以下の詳細な説明により、本願の他の特徴および態様が明らかになる。
例えば、本願は以下の項目を提供する。
（項目１）
ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するための、ネットワークトレーニング方法であって、
セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、ことと、
前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得することと、
前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングすることと、を含む、前記ネットワークトレーニング方法。
（項目２）
前記セグメンテーションネットワークは、エンコーダおよびデコーダを含み、前記エンコーダは複数の符号化層を含み、前記デコーダは複数の復号化層を含み、
前記セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することは、
前記サンプル画像を前記エンコーダに入力して、各符号化層に対応する第１特徴画像を決定することであって、異なる符号化層に対応する第１特徴画像のスケールは異なる、ことと、
任意の復号化層について、前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第２特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定することであって、前記復号化層に入力された第２特徴画像は、前記復号化層の前の復号化層に対応する第３特徴画像に従って決定されたものであり、異なる復号化層に対応する第３特徴画像のスケールは異なる、ことと、
複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、前記特徴抽出結果を決定することと、を含む、
項目１に記載のネットワークトレーニング方法。
（項目３）
前記任意の復号化層について、前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第２特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定することは、
前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して、第１トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第４特徴画像を決定することであって、第１トレーニングされる特徴画像は、前記復号化層に入力された第２特徴画像である、ことと、
前記復号化層に入力された第２特徴画像と前記復号化層に対応する第４特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を取得することと、
チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定することと、を含む、
項目２に記載のネットワークトレーニング方法。
（項目４）
前記任意の復号化層について、前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第２特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定することは、
前記復号化層のスケールに対応する第１特徴画像と前記復号化層に入力された第２特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を決定することと、
チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、第１トレーニングされる特徴画像を決定することと、
前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定することと、を含む、
項目２に記載のネットワークトレーニング方法。
（項目５）
前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることは、
前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定することであって、前記復号化層に対応する空間アテンション重み分布は、第１トレーニングされる特徴画像の各画素点の重みを指示するために使用される、ことと、
前記復号化層に対応する空間アテンション重み分布に従って、第１トレーニングされる特徴画像内の各画素点を較正することと、を含む、
項目３に記載のネットワークトレーニング方法。
（項目６）
任意の復号化層について、前記復号化層は、複数の空間アテンショントレーニング層を含み、
前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定することは、
前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第１トレーニングされる特徴画像の各画素点の複数の重みを決定することと、
第１トレーニングされる特徴画像の各画素点の前記複数の重みに従って、前記復号化層に対応する空間アテンション重み分布を決定することと、を含む、
項目５に記載のネットワークトレーニング方法。
（項目７）
前記チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることは、
前記復号化層に対応するチャネルアテンション重み分布を決定することであって、前記復号化層に対応するチャネルアテンション重み分布は、第２トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、ことと、
前記復号化層に対応するチャネルアテンション重み分布に従って、第２トレーニングされる特徴画像内の各チャネルを較正することと、を含む、
項目３ないし６のいずれか一項に記載のネットワークトレーニング方法。
（項目８）
前記復号化層に対応するチャネルアテンション重み分布を決定することは、
第２トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得することと、
第２トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得することと、
前記平均プーリング結果および前記最大プーリング結果に従って、前記復号化層に対応するチャネルアテンション重み分布を決定することと、を含む、
項目７に記載のネットワークトレーニング方法。
（項目９）
前記複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、前記特徴抽出結果を決定することは、
異なるスケールの第３特徴画像を繋ぎ合わせて、第３トレーニングされる特徴画像を取得することであって、第３トレーニングされる特徴画像のスケールは、前記サンプル画像のスケールと同じである、ことと、
スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることにより、前記特徴抽出結果を決定することと、を含む、
項目２ないし８のいずれか一項に記載のネットワークトレーニング方法。
（項目１０）
前記スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることは、
スケールアテンション重み分布を決定することであって、前記スケールアテンション重み分布は、異なるスケールの重みを指示するために使用される、ことと、
前記スケールアテンション重み分布に従って、第３トレーニングされる特徴画像を較正することと、を含む、
項目９に記載のネットワークトレーニング方法。
（項目１１）
前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである、
項目１ないし１０のいずれか一項に記載のネットワークトレーニング方法。
（項目１２）
画像処理方法であって、
セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することを含み、
前記セグメンテーションネットワークは、項目１ないし１１のいずれか一項に記載のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである、前記画像処理方法。
（項目１３）
前記セグメント化される画像は、セグメント化される医用画像であり、
前記セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することは、
セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得することを含む、
項目１２に記載の画像処理方法。
（項目１４）
ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するために使用される、ネットワークトレーニング装置であって、
セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得するように構成される特徴抽出モジュールであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、特徴抽出モジュールと、
前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得するように構成されるセグメンテーションモジュールと、
前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングするように構成されるトレーニングモジュールと、を備える、前記ネットワークトレーニング装置。
（項目１５）
前記セグメンテーションネットワークは、エンコーダおよびデコーダを含み、前記エンコーダは複数の符号化層を含み、前記デコーダは複数の復号化層を含み、
前記特徴抽出モジュールは、
サンプル画像をエンコーダに入力して、各符号化層に対応する第１特徴画像を決定するように構成される第１決定サブモジュールであって、異なる符号化層に対応する第１特徴画像のスケールは異なる、第１決定サブモジュールと、
任意の復号化層について、前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第２特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定するように構成される第２決定サブモジュールであって、前記復号化層に入力された第２特徴画像は、前記復号化層の前の復号化層に対応する第３特徴画像に従って決定されたものであり、異なる復号化層に対応する第３特徴画像のスケールは異なる、第２決定サブモジュールと、
複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、特徴抽出結果を決定するように構成される第３決定サブモジュールと、を備える、
項目１４に記載のネットワークトレーニング装置。
（項目１６）
前記第２決定サブモジュールは、
前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第４特徴画像を決定するように構成される第１トレーニングユニットであって、前記第１トレーニングされる特徴画像は、前記復号化層に入力された第２特徴画像である、第１トレーニングユニットと、
前記復号化層に入力された第２特徴画像と前記復号化層に対応する第４特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を取得するように構成される第１繋ぎ合わせユニットと、
チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定するように構成される第２トレーニングユニットと、を備える、
項目１５に記載のネットワークトレーニング装置。
（項目１７）
前記第２決定サブモジュールは、
前記復号化層のスケールに対応する第１特徴画像と前記復号化層に入力された第２特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を決定するように構成される第２繋ぎ合わせユニットと、
チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、第１トレーニングされる特徴画像を決定するように構成される第２トレーニングユニットと、
前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定するように構成される第１トレーニングユニットと、を備える、
項目１５に記載のネットワークトレーニング装置。
（項目１８）
前記第１トレーニングユニットは、
前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定するように構成される第１決定サブユニットであって、前記復号化層に対応する空間アテンション重み分布は、第１トレーニングされる特徴画像の各画素点の重みを指示するために使用される、第１決定サブユニットと、
前記復号化層に対応する空間アテンション重み分布に従って、第１トレーニングされる特徴画像内の各画素点を較正するように構成される第１較正サブユニットと、を備える、
項目１６に記載のネットワークトレーニング装置。
（項目１９）
任意の復号化層について、前記復号化層は、複数の空間アテンショントレーニング層を含み、
前記第１決定サブユニットは、さらに、
前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第１トレーニングされる特徴画像の各画素点の複数の重みを決定し、
第１トレーニングされる特徴画像の各画素点の複数の重みに従って、前記復号化層に対応する空間アテンション重み分布を決定するように構成される、
項目１８に記載のネットワークトレーニング装置。
（項目２０）
前記第２トレーニングユニットは、
前記復号化層に対応するチャネルアテンション重み分布を決定するように構成される第２決定サブユニットであって、前記復号化層に対応するチャネルアテンション重み分布は、第２トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、第２決定サブユニットと、
前記復号化層に対応するチャネルアテンション重み分布に従って、第２トレーニングされる特徴画像内の各チャネルを較正するように構成される第２較正サブユニットと、を備える、
項目１６ないし１９のいずれか一項に記載のネットワークトレーニング装置。
（項目２１）
前記第２決定サブユニットは、さらに、
第２トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得し、
第２トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得し、
前記平均プーリング結果および前記最大プーリング結果に従って、前記復号化層に対応するチャネルアテンション重み分布を決定するように構成される、
項目２０に記載のネットワークトレーニング装置。
（項目２２）
前記第３決定サブモジュールは、
異なるスケールの第３特徴画像を繋ぎ合わせて、第３トレーニングされる特徴画像を取得するように構成される第３繋ぎ合わせユニットであって、第３トレーニングされる特徴画像のスケールは、サンプル画像のスケールと同じである、第３繋ぎ合わせユニットと、
スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることにより、特徴抽出結果を決定するように構成される決定ユニットと、を備える、
項目１５ないし２１のいずれか一項に記載のネットワークトレーニング装置。
（項目２３）
前記決定ユニットは、さらに、
スケールアテンション重み分布を決定し、スケールアテンション重み分布は、異なるスケールの重みを指示するために使用され、
スケールアテンション重み分布に従って、第３トレーニングされる特徴画像を較正するように構成される、
項目２２に記載のネットワークトレーニング装置。
（項目２４）
前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである、
項目１４ないし２３のいずれか一項に記載のネットワークトレーニング装置。
（項目２５）
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶された命令を呼び出して、項目１ないし１１のいずれか一項に記載のネットワークトレーニング方法を実行するように構成される、前記電子機器。
（項目２６）
コンピュータプログラム命令が記憶された、コンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行される時に、項目１ないし１１のいずれか一項に記載のネットワークトレーニング方法を実現する、前記コンピュータ可読記憶媒体。
（項目２７）
画像処理装置であって、
セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得するように構成される画像処理モジュールを備え、
前記セグメンテーションネットワークは、項目１ないし１１のいずれか一項に記載のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである、前記画像処理装置。
（項目２８）
前記セグメント化される画像は、セグメント化される医用画像であり、
前記画像処理モジュールは、セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得するように構成される、
項目２７に記載の画像処理装置。
（項目２９）
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶された命令を呼び出して、項目１２または１３に記載の画像処理方法を実行するように構成される、前記電子機器。
（項目３０）
コンピュータプログラム命令が記憶された、コンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行される時に、項目１２または１３に記載の画像処理方法を実現する、前記コンピュータ可読記憶媒体。

Claims

ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するための、ネットワークトレーニング方法であって、
セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、ことと、
前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得することと、
前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングすることと、を含む、前記ネットワークトレーニング方法。
前記セグメンテーションネットワークは、エンコーダおよびデコーダを含み、前記エンコーダは複数の符号化層を含み、前記デコーダは複数の復号化層を含み、
前記セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することは、
前記サンプル画像を前記エンコーダに入力して、各符号化層に対応する第１特徴画像を決定することであって、異なる符号化層に対応する第１特徴画像のスケールは異なる、ことと、
任意の復号化層について、前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第２特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定することであって、前記復号化層に入力された第２特徴画像は、前記復号化層の前の復号化層に対応する第３特徴画像に従って決定されたものであり、異なる復号化層に対応する第３特徴画像のスケールは異なる、ことと、
複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、前記特徴抽出結果を決定することと、を含む、
請求項１に記載のネットワークトレーニング方法。
前記任意の復号化層について、前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第２特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定することは、
前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して、第１トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第４特徴画像を決定することであって、第１トレーニングされる特徴画像は、前記復号化層に入力された第２特徴画像である、ことと、
前記復号化層に入力された第２特徴画像と前記復号化層に対応する第４特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を取得することと、
チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定することと、を含む、
請求項２に記載のネットワークトレーニング方法。
前記任意の復号化層について、前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第２特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定することは、
前記復号化層のスケールに対応する第１特徴画像と前記復号化層に入力された第２特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を決定することと、
チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、第１トレーニングされる特徴画像を決定することと、
前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定することと、を含む、
請求項２に記載のネットワークトレーニング方法。
前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることは、
前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定することであって、前記復号化層に対応する空間アテンション重み分布は、第１トレーニングされる特徴画像の各画素点の重みを指示するために使用される、ことと、
前記復号化層に対応する空間アテンション重み分布に従って、第１トレーニングされる特徴画像内の各画素点を較正することと、を含む、
請求項３に記載のネットワークトレーニング方法。
任意の復号化層について、前記復号化層は、複数の空間アテンショントレーニング層を含み、
前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定することは、
前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第１トレーニングされる特徴画像の各画素点の複数の重みを決定することと、
第１トレーニングされる特徴画像の各画素点の前記複数の重みに従って、前記復号化層に対応する空間アテンション重み分布を決定することと、を含む、
請求項５に記載のネットワークトレーニング方法。
前記チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることは、
前記復号化層に対応するチャネルアテンション重み分布を決定することであって、前記復号化層に対応するチャネルアテンション重み分布は、第２トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、ことと、
前記復号化層に対応するチャネルアテンション重み分布に従って、第２トレーニングされる特徴画像内の各チャネルを較正することと、を含む、
請求項３ないし６のいずれか一項に記載のネットワークトレーニング方法。
前記復号化層に対応するチャネルアテンション重み分布を決定することは、
第２トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得することと、
第２トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得することと、
前記平均プーリング結果および前記最大プーリング結果に従って、前記復号化層に対応するチャネルアテンション重み分布を決定することと、を含む、
請求項７に記載のネットワークトレーニング方法。
前記複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、前記特徴抽出結果を決定することは、
異なるスケールの第３特徴画像を繋ぎ合わせて、第３トレーニングされる特徴画像を取得することであって、第３トレーニングされる特徴画像のスケールは、前記サンプル画像のスケールと同じである、ことと、
スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることにより、前記特徴抽出結果を決定することと、を含む、
請求項２ないし８のいずれか一項に記載のネットワークトレーニング方法。
前記スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることは、
スケールアテンション重み分布を決定することであって、前記スケールアテンション重み分布は、異なるスケールの重みを指示するために使用される、ことと、
前記スケールアテンション重み分布に従って、第３トレーニングされる特徴画像を較正することと、を含む、
請求項９に記載のネットワークトレーニング方法。
前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである、
請求項１ないし１０のいずれか一項に記載のネットワークトレーニング方法。
画像処理方法であって、
セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することを含み、
前記セグメンテーションネットワークは、請求項１ないし１１のいずれか一項に記載のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである、前記画像処理方法。
前記セグメント化される画像は、セグメント化される医用画像であり、
前記セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することは、
セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得することを含む、
請求項１２に記載の画像処理方法。
ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するために使用される、ネットワークトレーニング装置であって、
セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得するように構成される特徴抽出モジュールであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、特徴抽出モジュールと、
前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得するように構成されるセグメンテーションモジュールと、
前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングするように構成されるトレーニングモジュールと、を備える、前記ネットワークトレーニング装置。
前記セグメンテーションネットワークは、エンコーダおよびデコーダを含み、前記エンコーダは複数の符号化層を含み、前記デコーダは複数の復号化層を含み、
前記特徴抽出モジュールは、
サンプル画像をエンコーダに入力して、各符号化層に対応する第１特徴画像を決定するように構成される第１決定サブモジュールであって、異なる符号化層に対応する第１特徴画像のスケールは異なる、第１決定サブモジュールと、
任意の復号化層について、前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第２特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定するように構成される第２決定サブモジュールであって、前記復号化層に入力された第２特徴画像は、前記復号化層の前の復号化層に対応する第３特徴画像に従って決定されたものであり、異なる復号化層に対応する第３特徴画像のスケールは異なる、第２決定サブモジュールと、
複数の復号化層によって決定された複数の異なるスケールの第３特徴画像に従って、特徴抽出結果を決定するように構成される第３決定サブモジュールと、を備える、
請求項１４に記載のネットワークトレーニング装置。
前記第２決定サブモジュールは、
前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第４特徴画像を決定するように構成される第１トレーニングユニットであって、前記第１トレーニングされる特徴画像は、前記復号化層に入力された第２特徴画像である、第１トレーニングユニットと、
前記復号化層に入力された第２特徴画像と前記復号化層に対応する第４特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を取得するように構成される第１繋ぎ合わせユニットと、
チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定するように構成される第２トレーニングユニットと、を備える、
請求項１５に記載のネットワークトレーニング装置。
前記第２決定サブモジュールは、
前記復号化層のスケールに対応する第１特徴画像と前記復号化層に入力された第２特徴画像とを繋ぎ合わせて、第２トレーニングされる特徴画像を決定するように構成される第２繋ぎ合わせユニットと、
チャネル次元でアテンションメカニズムを使用して第２トレーニングされる特徴画像をトレーニングすることにより、第１トレーニングされる特徴画像を決定するように構成される第２トレーニングユニットと、
前記復号化層のスケールに対応する第１特徴画像を使用し、空間次元でアテンションメカニズムを使用して第１トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第３特徴画像を決定するように構成される第１トレーニングユニットと、を備える、
請求項１５に記載のネットワークトレーニング装置。
前記第１トレーニングユニットは、
前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定するように構成される第１決定サブユニットであって、前記復号化層に対応する空間アテンション重み分布は、第１トレーニングされる特徴画像の各画素点の重みを指示するために使用される、第１決定サブユニットと、
前記復号化層に対応する空間アテンション重み分布に従って、第１トレーニングされる特徴画像内の各画素点を較正するように構成される第１較正サブユニットと、を備える、
請求項１６に記載のネットワークトレーニング装置。
任意の復号化層について、前記復号化層は、複数の空間アテンショントレーニング層を含み、
前記第１決定サブユニットは、さらに、
前記復号化層のスケールに対応する第１特徴画像および第１トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第１トレーニングされる特徴画像の各画素点の複数の重みを決定し、
第１トレーニングされる特徴画像の各画素点の複数の重みに従って、前記復号化層に対応する空間アテンション重み分布を決定するように構成される、
請求項１８に記載のネットワークトレーニング装置。
前記第２トレーニングユニットは、
前記復号化層に対応するチャネルアテンション重み分布を決定するように構成される第２決定サブユニットであって、前記復号化層に対応するチャネルアテンション重み分布は、第２トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、第２決定サブユニットと、
前記復号化層に対応するチャネルアテンション重み分布に従って、第２トレーニングされる特徴画像内の各チャネルを較正するように構成される第２較正サブユニットと、を備える、
請求項１６ないし１９のいずれか一項に記載のネットワークトレーニング装置。
前記第２決定サブユニットは、さらに、
第２トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得し、
第２トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得し、
前記平均プーリング結果および前記最大プーリング結果に従って、前記復号化層に対応するチャネルアテンション重み分布を決定するように構成される、
請求項２０に記載のネットワークトレーニング装置。
前記第３決定サブモジュールは、
異なるスケールの第３特徴画像を繋ぎ合わせて、第３トレーニングされる特徴画像を取得するように構成される第３繋ぎ合わせユニットであって、第３トレーニングされる特徴画像のスケールは、サンプル画像のスケールと同じである、第３繋ぎ合わせユニットと、
スケール次元でアテンションメカニズムを使用して第３トレーニングされる特徴画像をトレーニングすることにより、特徴抽出結果を決定するように構成される決定ユニットと、を備える、
請求項１５ないし２１のいずれか一項に記載のネットワークトレーニング装置。
前記決定ユニットは、さらに、
スケールアテンション重み分布を決定し、スケールアテンション重み分布は、異なるスケールの重みを指示するために使用され、
スケールアテンション重み分布に従って、第３トレーニングされる特徴画像を較正するように構成される、
請求項２２に記載のネットワークトレーニング装置。
前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである、
請求項１４ないし２３のいずれか一項に記載のネットワークトレーニング装置。
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶された命令を呼び出して、請求項１ないし１１のいずれか一項に記載のネットワークトレーニング方法を実行するように構成される、前記電子機器。
コンピュータプログラム命令が記憶された、コンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行される時に、請求項１ないし１１のいずれか一項に記載のネットワークトレーニング方法を実現する、前記コンピュータ可読記憶媒体。
画像処理装置であって、
セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得するように構成される画像処理モジュールを備え、
前記セグメンテーションネットワークは、請求項１ないし１１のいずれか一項に記載のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである、前記画像処理装置。
前記セグメント化される画像は、セグメント化される医用画像であり、
前記画像処理モジュールは、セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得するように構成される、
請求項２７に記載の画像処理装置。
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶された命令を呼び出して、請求項１２または１３に記載の画像処理方法を実行するように構成される、前記電子機器。
コンピュータプログラム命令が記憶された、コンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行される時に、請求項１２または１３に記載の画像処理方法を実現する、前記コンピュータ可読記憶媒体。