JP2022521130A - ネットワークトレーニング、画像処理方法および電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

ネットワークトレーニング、画像処理方法および電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP2022521130A
JP2022521130A JP2021539612A JP2021539612A JP2022521130A JP 2022521130 A JP2022521130 A JP 2022521130A JP 2021539612 A JP2021539612 A JP 2021539612A JP 2021539612 A JP2021539612 A JP 2021539612A JP 2022521130 A JP2022521130 A JP 2022521130A
Authority
JP
Japan
Prior art keywords
image
feature image
feature
training
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021539612A
Other languages
English (en)
Inventor
王国泰
▲顧▼然
宋涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Publication of JP2022521130A publication Critical patent/JP2022521130A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本願実施例は、ネットワークトレーニング、画像処理方法および電子機器、記憶媒体並びにコンピュータプログラムを提供し、前記ネットワークトレーニング方法は、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、ことと、前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得することと、前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングすることとを含む。【選択図】図1

Description

本願は、2020年01月20日に中国特許局に提出された、出願番号がCN202010065998.9である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
本願実施例は、コンピュータ技術分野に関し、特に、ネットワークトレーニング、画像処理方法および装置、電子機器および記憶媒体に関する。
画像セグメンテーションとは、画像をその領域の分布属性に従っていくつかの特定の互いに素な「連通」領域にセグメント化する画像処理プロセスを指し、関連する特徴は、同じ領域で一定の分類上の一貫性または類似性を有し、この違いは、各領域の境界で最も明らかである。医用画像セグメンテーションは、医学研究、臨床診断、病理分析、および画像情報処理などの研究および実践分野において重要な学術研究の重要性と応用価値を持っており、主に、医用画像分析を容易にするための医用画像の関心領域の抽出、臨床パラメータの計算を容易にするための医用画像内の人体臓器、組織または病変の体積や容積の計算、医用画像の3次元再構成または視覚化、医用画像検索研究などに適用される。したがって、効果的な画像セグメンテーション方法が必要とされている。
本願実施例は、ネットワークトレーニング、画像処理方法および装置、電子機器および記憶媒体を提供する。
本願実施例はネットワークトレーニング方法を提供し、前記ネットワークトレーニング方法は、ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するために使用され、前記方法は、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、ことと、前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得することと、前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングすることと、を含む。
セグメンテーションネットワークを介して、空間次元、チャネル次元、およびスケール次元におけるプリセットの次元で、アテンションメカニズムを使用してトレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得し、特徴抽出結果に従ってサンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得し、画像セグメンテーション結果およびトレーニングサンプルに含まれるサンプル画像に対応するセグメンテーションマーク情報に従って、セグメンテーションネットワークをトレーニングすることにより、トレーニングによって得られたセグメンテーションネットワークが画像セグメンテーション処理を実行する際のセグメンテーション精度を向上させることができる。
本願のいくつかの実施例では、前記セグメンテーションネットワークは、エンコーダおよびデコーダを含み、前記エンコーダは複数の符号化層を含み、前記デコーダは複数の復号化層を含み、前記セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することは、前記サンプル画像を前記エンコーダに入力して、各符号化層に対応する第1特徴画像を決定することであって、異なる符号化層に対応する第1特徴画像のスケールは異なる、ことと、任意の復号化層について、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第2特徴画像をトレーニングして、当該復号化層に対応する第3特徴画像を決定することであって、当該復号化層に入力された第2特徴画像は、当該復号化層の前の復号化層に対応する第3特徴画像に従って決定されたものであり、異なる復号化層に対応する第3特徴画像のスケールは異なる、ことと、複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、前記特徴抽出結果を決定することとを含む。
サンプル画像をエンコーダに入力して、エンコーダの各符号化層に対応する異なるスケールの第1特徴画像を決定し、デコーダ内の任意の復号化層について、対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して、任意の復号化層に入力された第2特徴画像に対して特徴トレーニングを実行して、各復号化層に対応する第3特徴画像を決定することにより、異なるスケールの第3特徴画像に従って、サンプル画像の関心領域の空間特徴情報およびチャネル特徴情報が強調された、且つ画像内の関心のない領域の空間特徴情報およびチャネル特徴情報が抑制された特徴抽出結果を効果的に決定することができる。
本願のいくつかの実施例では、前記任意の復号化層について、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第2特徴画像をトレーニングして、当該復号化層に対応する第3特徴画像を決定することは、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングして、当該復号化層に対応する第4特徴画像を決定することであって、第1トレーニングされる特徴画像は、当該復号化層に入力された第2特徴画像である、ことと、当該復号化層に入力された第2特徴画像と当該復号化層に対応する第4特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を取得することと、チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第3特徴画像を決定することとを含む。
符号化層の対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して復号化層に対応する第1トレーニングされる特徴画像をトレーニングすることにより、サンプル画像内の関心領域の空間特徴情報が強調された且つ画像内の関心のない領域の空間特徴情報が抑制された第4特徴画像を効果的に決定でき、第4特徴画像と復号化層の第2特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を取得し、チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、サンプル画像内の関心領域のチャネル特徴情報が強調された且つ画像内の関心のない領域のチャネル特徴情報が抑制された第3特徴画像を効果的に決定することができる。
本願のいくつかの実施例では、前記任意の復号化層について、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第2特徴画像をトレーニングして、当該復号化層に対応する第3特徴画像を決定することは、当該復号化層のスケールに対応する第1特徴画像と当該復号化層に入力された第2特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を決定することと、チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、第1トレーニングされる特徴画像を決定することと、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第3特徴画像を決定することとを含む。
復号化層の第2特徴画像と対応する符号化層の第1特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を取得し、チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、サンプル画像内の関心領域が強調されたチャネル特徴情報を効果的に決定でき、画像内の関心のない領域のチャネル特徴情報の第1トレーニングされる特徴画像を抑制することができ、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることにより、サンプル画像内の関心領域の空間特徴情報が且つ画像内の関心のない領域の空間特徴情報が抑制された第3特徴画像を効果的に決定することができる。
本願のいくつかの実施例では、前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることは、当該復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、当該復号化層に対応する空間アテンション重み分布を決定することであって、復号化層に対応する空間アテンション重み分布は、第1トレーニングされる特徴画像の各画素点の重みを指示するために使用される、ことと、当該復号化層に対応する空間アテンション重み分布に従って、第1トレーニングされる特徴画像内の各画素点を較正することとを含む。
符号化層の対応する第1特徴画像および復号化層に対応する第1トレーニングされる特徴画像を使用して、復号化層に対応する空間アテンション重み分布を決定し、空間アテンション重み分布に従って、第1トレーニングされる特徴画像内の各画素点を較正して、空間次元でアテンションメカニズムを使用するトレーニングを完了することにより、サンプル画像内の関心領域の空間特徴情報を効果的に強調し、画像内の関心のない領域の空間特徴情報を抑制することができる。
本願のいくつかの実施例では、任意の復号化層について、当該復号化層は、複数の空間アテンショントレーニング層を含み、前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、当該復号化層に対応する空間アテンション重み分布を決定することは、当該復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第1トレーニングされる特徴画像の各画素点の複数の重みを決定することと、第1トレーニングされる特徴画像の各画素点の前記複数の重みに従って、当該復号化層に対応する空間アテンション重み分布を決定することとを含む。
任意の復号化層について、複数の空間アテンショントレーニング層を設定し、符号化層の対応する第1特徴画像および復号化層に対応する第1トレーニングされる特徴画像を使用して復号化層を決定し、在複数の空間アテンショントレーニング層で第1トレーニングされる特徴画像の各画素点の複数の重みをそれぞれ決定し、第1トレーニングされる特徴画像の各画素点の複数の重みに従って、復号化層に対応する空間アテンション重み分布を総合的に決定することにより、空間アテンション重み分布の精度を効果的に向上させることができる。
本願のいくつかの実施例では、前記チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることは、当該復号化層に対応するチャネルアテンション重み分布を決定することであって、当該復号化層に対応するチャネルアテンション重み分布は、第2トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、ことと、当該復号化層に対応するチャネルアテンション重み分布に従って、第2トレーニングされる特徴画像内の各チャネルを較正することとを含む。
復号化層に対応するチャネルアテンション重み分布を決定し、チャネルアテンション重み分布に従って、復号化層に対応する第2トレーニングされる特徴画像内の各チャネルを較正して、チャネル次元でアテンションメカニズムを使用するトレーニングを完了することにより、サンプル画像の関心領域のチャネル特徴情報を効果的に強調し、画像内の関心のない領域のチャネル特徴情報を抑制することができる。
本願のいくつかの実施例では、前記復号化層に対応するチャネルアテンション重み分布を決定することは、第2トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得することと、第2トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得することと、前記平均プーリング結果および前記最大プーリング結果に従って、当該復号化層に対応するチャネルアテンション重み分布を決定することとを含む。
第2トレーニングされる特徴画像に対して、平均プーリング操作と最大プーリング操作をそれぞれ実行して、平均プーリング結果および最大プーリング結果を取得し、平均プーリング結果および最大プーリング結果に従って、復号化層に対応する空間アテンション重み分布を総合的に決定することにより、チャネルアテンション重み分布の精度を効果的に向上させることができる。
本願のいくつかの実施例では、前記複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、前記特徴抽出結果を決定することは、異なるスケールの第3特徴画像を繋ぎ合わせて、第3トレーニングされる特徴画像を取得することであって、第3トレーニングされる特徴画像のスケールは、前記サンプル画像のスケールと同じである、ことと、スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることにより、前記特徴抽出結果を決定することとを含む。
異なるスケールの第3特徴画像を繋ぎ合わせて、第3トレーニングされる特徴画像を取得し、スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることにより、サンプル画像において要件を満たすスケールに対応する特徴情報を効果的に強調し、画像において要件を満たさないスケールに対応する特徴情報を抑制することができる。
本願のいくつかの実施例では、前記スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることは、スケールアテンション重み分布を決定することであって、前記スケールアテンション重み分布は、異なるスケールの重みを指示するために使用される、ことと、前記スケールアテンション重み分布に従って、第3トレーニングされる特徴画像を較正することとを含む。
スケールアテンション重み分布を決定し、スケールアテンション重み分布に従って、第3トレーニングされる特徴画像を較正して、スケール次元でアテンションメカニズムを使用するトレーニングを完了することにより、サンプル画像において要件を満たすスケールに対応する特徴情報を効果的に強調し、画像において要件を満たさないスケールに対応する特徴情報を抑制することができる。
本願のいくつかの実施例では、前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである。
本願実施例は画像処理方法を提供し、前記方法は、セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することを含み、ここで、前記セグメンテーションネットワークは、上記のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである。
セグメンテーションネットワークを介して、空間次元、チャネル次元、およびスケール次元におけるプリセットの次元で、アテンションメカニズムを使用してトレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得し、特徴抽出結果に従ってサンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得し、画像セグメンテーション結果およびトレーニングサンプルに含まれるサンプル画像に対応するセグメンテーションマーク情報に従って、セグメンテーションネットワークをトレーニングし、トレーニングによって得られたセグメンテーションネットワークを使用して、セグメント化される画像に対して画像セグメンテーション処理を実行することにより、セグメンテーション精度を効果的に向上させることができる。
本願のいくつかの実施例では、前記セグメント化される画像は、セグメント化される医用画像であり、前記セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することは、セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得することを含む。
本願実施例はネットワークトレーニング装置を提供し、前記ネットワークトレーニング装置は、ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するために使用され、前記装置は、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得するように構成される特徴抽出モジュールであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、特徴抽出モジュールと、前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得するように構成されるセグメンテーションモジュールと、前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングするように構成されるトレーニングモジュールとを備える。
本願実施例は、プロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリとを備える電子機器を提供し、前記プロセッサは、前記メモリに記憶された命令を呼び出して、上記のネットワークトレーニング方法を実行するように構成される。
本願実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行される時に、上記のネットワークトレーニング方法を実現する。
本願実施例は画像処理装置を提供し、前記装置は、セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得するように構成される画像処理モジュールを備え、前記セグメンテーションネットワークは、上記のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである。
本願のいくつかの実施例では、前記セグメント化される画像は、セグメント化される医用画像であり、前記画像処理モジュールは、セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得するように構成される。
本願実施例は、プロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリとを備える電子機器を提供し、前記プロセッサは、前記メモリに記憶された命令を呼び出して、上記の画像処理方法を実行するように構成される。
本願実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行される時に、上記の画像処理方法を実現する。
以上の一般的な説明と以下の詳細な説明は、解釈するための例示的なものに過ぎず、本願を限定するものではないことを理解すべきである。添付の図面を参照した例示的な実施例の以下の詳細な説明により、本願の他の特徴および態様が明らかになる。
ここでの図面は、本明細書に組み込まれ、本明細書の一部を構成し、これらの図面は、本願に準拠する実施例を示し、本明細書とともに本願実施例の技術的解決策を説明するために使用される。
本願実施例によるネットワークトレーニング方法の例示的なフローチャートある。 本願実施例によるセグメンテーションネットワークの概略構造図である。 本願実施例による、図2の空間アテンションモジュール2022の概略構造図である。 本願実施例による、図2の空間アテンションモジュール2025の概略構造図である。 本願実施例による、図2のチャネルアテンションモジュール2026の概略構造図である。 本願実施例におる、図2のスケールアテンションモジュール2049の概略構造図である。 本願実施例による画像処理方法の例示的なフローチャートである。 本願実施例によるネットワークトレーニング装置の概略構造図である。 本願実施例による画像処理装置の概略構造図である。 本願実施例による電子機器の概略構造図である。 本願実施例による電子機器の概略構造図である。
以下、図面を参照して、本願の様々な例示的実施例、特徴および態様について詳細に説明する。図面において、同一の参照符号は、同じまたは類似の機能を有する要素を表す。実施例の様々な態様が図面に示されているが、特に明記しない限り、図面は必ずしも縮尺どおりに描かれている必要はない。
本明細書において、「例示的」という用語は、「例、実施例、または説明として使用される」こと意味する。本明細書において、「例示的」として説明される任意の実施例は、他の実施例よりも優れていると解釈されるべきではない。
本明細書において、「および/または」という用語は、単に関連するオブジェクトを説明する関連関係であり、3つの関係が存在できることを示し、例えば、aおよび/またはbは、aのみが存在し、aおよびbが存在し、bのみが存在するという3つの状況を示すことができる。さらに、本明細書において、「少なくとも1つ」という用語は、複数のうちの任意の1つまたは複数のうちの少なくとも2つの任意の組み合わせを意味し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、BおよびCからなるセットから選択される任意の1つまたは複数の要素を含むことを意味することができる。
さらに、本発明の実施例をより効果的に説明するために、以下の具体的な実施形態において多くの具体的な詳細が与えられる。当業者なら自明であるが、いくつかの決定の詳細がなくても、本願実施例を実施することができる。いくつかの実施例では、本願実施例の要旨を強調するために、当業者に既知の方法、手段、要素、および回路に対する詳細な説明を省略する。
図1は、本願実施例によるネットワークトレーニング方法の例示的なフローチャートである。当該ネットワークトレーニング方法は、端末機器または他の処理機器によって実行でき、ここで、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。他の処理機器は、サーバまたはクラウドサーバであってもよい。いくつかの可能な実施形態では、当該ネットワークトレーニング方法は、プロセッサによってメモリに記憶されたコンピュータ可読命令を呼び出すことで実現することができる。図1に示されるように、当該ネットワークトレーニング方法は以下のステップを含む。
ステップS11において、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得し、ここで、プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、トレーニングサンプルは、サンプル画像に対応するセグメンテーションマーク情報をさらに含む。
ステップS12において、特徴抽出結果に従ってサンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得する。
ステップS13において、画像セグメンテーション結果およびセグメンテーションマーク情報に従って、セグメンテーションネットワークをトレーニングする。
トレーニングサンプルを事前に作成し、トレーニングサンプルは、サンプル画像とサンプル画像に対応するセグメンテーションマーク情報を含み、ここで、サンプル画像に対応するセグメンテーションマーク情報は、サンプル画像の参照セグメンテーション結果を指示するために使用される。トレーニングサンプルに基づいて、空間次元、チャネル次元、およびスケール次元におけるプリセットの次元でアテンションメカニズムを使用して、セグメンテーションネットワークをトレーニングすることにより、トレーニングよって得られたセグメンテーションネットワークが画像セグメンテーション処理を実行する際のセグメンテーション精度を向上させることができる。
セグメンテーションネットワークは、U-netネットワークモデルに基づいて改善された畳み込みニューラルネットワークであってもよいし、対応する処理を実現できる他のネットワークモデルであってもよいが、本願実施例はこれを限定しない。
一例では、サンプル画像は、医用画像を前処理した後に取得したものであり得る。医用画像を取得し、医用画像を256*342スケールに再サンプリングしてから、再サンプリングされた医用画像を0~1に正規化して、第1画像を取得し、第1画像に対してランダム反転、ランダム回転、ランダムトリミングを実行して、データ強調を実現し、サンプル画像を取得し、ここで、サンプル画像のチャネル数は3であり、スケールは224*300である。サンプル画像の決定方式は、他の方式を採用することができ、サンプル画像のチャネル数およびスケールは、実際の状況に応じて決定でき、本願実施例はこれを特に限定しない。
本願のいくつかの実施例では、セグメンテーションネットワークは、エンコーダおよびデコーダを含み、エンコーダは複数の符号化層を含み、デコーダは複数の復号化層を含み、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することは、サンプル画像をエンコーダに入力して、各符号化層に対応する第1特徴画像を決定することであって、異なる符号化層に対応する第1特徴画像のスケールは異なる、ことと、任意の復号化層について、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第2特徴画像をトレーニングして、当該復号化層に対応する第3特徴画像を決定することであって、当該復号化層に入力された第2特徴画像は、当該復号化層の前の復号化層に対応する第3特徴画像に従って決定されたものであり、異なる復号化層に対応する第3特徴画像のスケールは異なる、ことと、複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、特徴抽出結果を決定することとを含む。
図2は、本願実施例によるセグメンテーションネットワークの概略構造図である。例えば、セグメンテーションネットワークは、バックボーンネットワークとしてのU-netネットワークモデルに基づいて改善して得られたものである。セグメンテーションネットワークは、バックボーンネットワークとしてのU-netネットワークモデルに基づくことができ、バックボーンネットワークとしての他のネットワークモデルに基づくこともでき、本願実施例はこれを特に限定しない。
図2に示されるように、セグメンテーションネットワークは、エンコーダ2001およびデコーダ2002を含む。エンコーダ2001は、符号化層2003から2007を含み、ここで、符号化層2003は、畳み込み層2008を含み、符号化層2004は、最大プーリング層2009およいび畳み込み層2010を含み、符号化層2005は、最大プーリング層2011および畳み込み層2012を含み、符号化層2006は、最大プーリング層2013および畳み込み層2014を含み、符号化層2007は、最大プーリング層2015および畳み込み層2016を含む。デコーダ2002は、復号化層2017から2020を含み、ここで、復号化層2017は、畳み込み層2021、空間アテンションモジュール2022、およびチャネルアテンションモジュール2023を含み、復号化層2018は、畳み込み層2024、空間アテンションモジュール2025、およびチャネルアテンションモジュール2026を含み、復号化層2019は、畳み込み層2027、空間アテンションモジュール2028、およびチャネルアテンションモジュール2029を含み、復号化層2020は、畳み込み層2030、空間アテンションモジュール2031、およびチャネルアテンションモジュール2032を含む。セグメンテーションネットワークの畳み込み層は、3*3の畳み込みカーネルを備えた標準畳み込み層であり得、最大プーリング層は、入力データのダウンサンプリングを実現し、入力データのスケールを低減することができる。
サンプル画像2033をセグメンテーションネットワークのエンコーダ2001に入力する。サンプル画像2033のスケールは、224*300であり得る。サンプル画像2033が符号化層2003の2つの畳み込み層2008を逐次通過した後、符号化層2003に対応するスケールが224*300でチャネル数が16である第1特徴画像を取得する。スケールが224*300でチャネル数が16である第1特徴画像が、符号化層2004の最大プーリング層2009と2つの畳み込み層2010を逐次通過した後、符号化層2004に対応するスケールが112*150でチャネル数が32である第1特徴画像を取得する。スケールが112*150でチャネル数が32である第1特徴画像が、符号化層2005の最大プーリング層2011と2つの畳み込み層2012を逐次通過した後、符号化層2005に対応するスケールが56*75でチャネル数が64である第1特徴画像を取得する。スケールが56*75でチャネル数が64である第1特徴画像が、符号化層2006の最大プーリング層2013と2つの畳み込み層2014を逐次通過した後、符号化層2006に対応するスケールが28*37でチャネル数が128である第1特徴画像を取得する。スケールが28*37でチャネル数が128である第1特徴画像が、符号化層2007の最大プーリング層2015と2つの畳み込み層2016を逐次通過した後、符号化層2007に対応するスケールが14*18でチャネル数が256である第1特徴画像を取得する。ここで、異なる符号化層に対応する第1特徴画像のスケールおよびチャネル数は、実際の状況に応じて決定でき、本願実施例はこれを特に限定しない。
以下、デコーダ2002内の任意の復号化層について、当該復号化層のスケールに対応する第1特徴画像を使用して、空間次元およびチャネル次元でアテンションメカニズムを使用して、当該復号化層に入力された第2特徴画像をトレーニングすることにより、当該復号化層に対応する第3特徴画像を取得するプロセスについて詳細に説明する。
本願のいくつかの実施例では、最下位の符号化層に対応する第1特徴画像をアップサンプリングし、前の符号化層に対応する第1特徴画像と繋ぎ合わせて、最上位の復号化層に入力する第2特徴画像を取得する。最上位の復号化層に入力された第2特徴画像に対して、空間次元およびチャネル次元でアテンションメカニズムを使用して、最上位の復号化層に対応する第3特徴画像を決定する。
最下位の符号化層に対応する第1特徴画像(最小スケールの第1特徴画像)は、サンプル画像のグローバル特徴情報を含むため、最下位の符号化層に対応する第1特徴画像をアップサンプリングし、前の符号化層に対応する第1特徴画像と繋ぎ合わせた後、空間次元およびチャネル次元のアテンショントレーニングを実行することにより、グローバルトレーニングを実現することができる。
図2に示されるように、最下位の符号化層(符号化層2007)に対応する第1特徴画像(スケールが最小スケール14*18である)に対して、アップサンプリング処理を実行した後、前の符号化層(符号化層2006)に対応する第1特徴画像(28*37スケール)と繋ぎ合わせて、最上位の復号化層(復号化層2017)に入力する第2特徴画像(28*37スケール、256チャネル)を取得し、復号化層2017に入力する第2特徴画像を、復号化層2017に対応する第1トレーニングされる特徴画像として空間アテンションモジュール2022に入力して、空間アテンショントレーニングを実行して、復号化層2017に対応する第4特徴画像(28*37スケール、256チャネル)を取得し、復号化層2017に対応する第4特徴画像を、畳み込み層2021、チャネルアテンションモジュール2023、および畳み込み層2021に通過させてチャネルアテンショントレーニングを実行して、復号化層2017に対応する第3特徴画像(28*37スケール、128チャネル)を取得する。図2において、「×2」は、アップサンプリング処理を表すために使用され、ここで、アッププーリング層を介してアップサンプリング処理を実行してもよいし、逆畳み込み層を介してアップサンプリング処理を実行してもよいし、または、他の方式でアップサンプリング処理を実行してもよいが、本願実施例はこれを特に限定しない。
図3は、本願実施例による、図2の空間アテンションモジュール2022の概略構造図である。図3に示されるように、空間アテンションモジュール2022は、複数の1×1畳み込み層2034、複数の転置層(Transpose層)2035、および正規化層2036を含む。復号化層2017のスケールに対応する第1特徴画像(符号化層2006に対応する第1特徴画像)および復号化層2017に対応する第1トレーニングされる特徴画像を、空間アテンションモジュール2022に入力し、複数の1×1畳み込み層2034、複数の転置層2035、および正規化層2036にそれぞれ通過させて、復号化層2017に対応する空間アテンション重み分布を取得する。例えば、空間アテンションモジュール2022は、下記式(1-1)に従って、復号化層2017に対応する空間アテンション重み分布を決定することができる。
Figure 2022521130000002
ここで、
Figure 2022521130000003
は正規化関数であり、
Figure 2022521130000004
は復号化層2017に対応する第1トレーニングされる特徴画像内の1つの画素点であり、
Figure 2022521130000005
は畳み込み操作である。
復号化層2017に対応する空間アテンション重み分布に従って、復号化層2017に対応する第1トレーニングされる特徴画像内の各画素点を較正して、チャネル次元でアテンションメカニズムを使用してトレーニングする必要がある復号化層2017に対応する第2トレーニングされる特徴画像を取得することができる。
本願のいくつかの実施例では、任意の復号化層について、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第2特徴画像をトレーニングして、当該復号化層に対応する第3特徴画像を決定することは、当該復号化層のスケールに対応する第1特徴画像と当該復号化層に入力された第2特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を決定することと、チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、第1トレーニングされる特徴画像を決定することと、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第3特徴画像を決定することとを含む。
任意の復号化層について、先ず、チャネル次元でアテンションメカニズムを使用して、当該復号化層のスケールに対応する第1特徴画像と当該復号化層に入力した第2特徴画像とを繋ぎ合わせて得られた第2トレーニングされる特徴画像をトレーニングし、空間次元でアテンションメカニズムを使用して、チャネル次元でアテンションメカニズムを使用してトレーニングすることによって得られた第1トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第3特徴画像を決定する。さらに、本願実施例において、前述したように、先ずチャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングし、空間次元でアテンションメカニズム使用して第1トレーニングされる特徴画像をトレーニングしてもよく、先ず空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングし、チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングしてもよいが、本願実施例はこれを特に限定しない。以下、先ず空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングし、チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることを例として取り上げて詳細に説明する。
本願のいくつかの実施例では、任意の復号化層について、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第2特徴画像をトレーニングして、当該復号化層に対応する第3特徴画像を決定することは、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる画像をトレーニングすることにより、当該復号化層に対応する第4特徴画像を決定することであって、第1トレーニングされる特徴画像は、当該復号化層に入力された第2特徴画像である、ことと、当該復号化層に入力された第2特徴画像と当該復号化層に対応する第4特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を取得することと、チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第3特徴画像を決定することとを含む。
本願のいくつかの実施例では、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることは、当該復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、当該復号化層に対応する空間アテンション重み分布を決定することであって、復号化層に対応する空間アテンション重み分布は、第1トレーニングされる特徴画像の各画素点の重みを指示するために使用される、ことと、当該復号化層に対応する空間アテンション重み分布に従って、第1トレーニングされる特徴画像内の各画素点を較正することとを含む。
本願のいくつかの実施例では、任意の復号化層について、当該復号化層は、複数の空間アテンショントレーニング層を含み、当該復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、当該復号化層に対応する空間アテンション重み分布を決定することは、当該復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像をそれぞれ複数の空間アテンショントレーニング層に入力して、第1トレーニングされる特徴画像の各画素点の複数の重みを決定することと、第1トレーニングされる特徴画像の各画素点の複数の重みに従って、当該復号化層に対応する空間アテンション重み分布を決定することとを含む。
図2に示されるように、復号化層2017に対応する第3特徴画像(28*37スケール、128チャネル)に対してアップサンプリング処理を実行して、復号化層2018に入力する第2特徴画像(56*75スケール、64チャネル)を取得し、復号化層2018に入力する第2特徴画像を復号化層2018に対応する第1トレーニングされる特徴画像として空間アテンションモジュール2025に入力して空間アテンショントレーニングを実行して、復号化層2018に対応する第4特徴画像(56*75スケール、64チャネル)を取得する。復号化層2018に入力した第2特徴画像と復号化層2018に対応する第4特徴画像とを繋ぎ合わせて、復号化層2018に対応する第2トレーニングされる特徴画像(56*75スケール、128チャネル)を取得する。復号化層2018に対応する第2トレーニングされる特徴画像を、畳み込み層2024、チャネルアテンションモジュール2026、および畳み込み層2024に逐次通過させた後、復号化層2018に対応する第3特徴画像を取得する。
図4は、本願実施例による、図2の空間アテンションモジュール2025の概略構造図である。図4に示されるように、空間アテンションモジュール2025は、2つの空間アテンショントレーニング層2037から2038を含み、復号化層2018のスケールに対応する第1特徴画像(符号化層2005に対応する第1特徴画像)をクエリ(query)のソース値として使用し、復号化層2018に対応する第1トレーニングされる特徴画像をクエリのクエリ値(key)として使用し、空間アテンショントレーニング層2037と空間アテンショントレーニング層2038にそれぞれ入力する。空間アテンショントレーニング層の個数は、実際の状況に応じて決定でき、本願実施例をこれを特に限定しない。図4に示されるように、各空間アテンショントレーニング層は、複数の1×1畳み込み層2039、アップサンプリング層2040、活性化層(修正線形ユニット(Rectified Linear Unit、ReLU)層)2041、活性化層(sigmoid層)2042、および再サンプリング層(Resample層)2043を含む。空間アテンションモジュール2025のうちの任意の空間アテンショントレーニング層は、復号化層2018に対応する第1トレーニングされる特徴画像の各画素点の重みを決定することができる。例えば、空間アテンションモジュール2025のうちの任意の空間アテンショントレーニング層について、下記式(1-2)に従って復号化層2018に対応する第1トレーニングされる特徴画像の画素点
Figure 2022521130000006
の重み
Figure 2022521130000007
を決定することができる。
Figure 2022521130000008
ここで、
Figure 2022521130000009
は活性化関数であり、
Figure 2022521130000010
は、復号化層2018スケールに対応する第1特徴画像であり、
Figure 2022521130000011
は、復号化層2018に対応する第1トレーニングされる特徴画像であり、
Figure 2022521130000012
は、復号化層2018のスケールに対応する第1特徴画像を線形変換することを表し、
Figure 2022521130000013
は、復号化層2018に対応する第1トレーニングされる特徴画像を線形変換することを表し、
Figure 2022521130000014
は1×1畳み込みであり、
Figure 2022521130000015
は活性化関数であり、
Figure 2022521130000016
は偏差項である。
空間アテンショントレーニング層2037によって決定された復号化層2018に対応する第1トレーニングされる特徴画像の各画素点の重み、および空間アテンショントレーニング層2038によって決定された復号化層2018に対応する第1トレーニングされる特徴画像の各画素点の重みに従って、復号化層2018に対応する空間アテンション重み分布を決定し、復号化層2018に対応する空間アテンション重み分布に従って、復号化層2018に対応する第1トレーニングされる特徴画像内の各画素点を較正して、復号化層2018に対応する第4特徴画像を取得する。
復号化層2019に対応する第4特徴画像および復号化層2020に対応する第4特徴画像を決定する方式は、前述した復号化層2018に対応する第4特徴画像を決定する方式と同様であり、ここでは繰り返して説明しない。空間アテンションモジュール2028および空間アテンションモジュール2031の構造は、空間アテンションモジュール2025と同様であり、ここでは繰り返して説明しない。
空間アテンションモジュールを使用してセグメンテーションネットワークに対して空間次元のアテンショントレーニングを実行することにより、トレーニングされたセグメンテーションネットワークが画像セグメンテーション処理を実行する際の画像内の関心領域の空間特徴情報を強調し、画像内の関心のない領域の空間特徴情報を抑制することができ、セグメンテーションネットワークのセグメンテーション精度を向上させることができる。
任意の復号化層について、当該復号化層に対応する第4特徴画像を決定した後、当該復号化層に入力した第2特徴画像と当該復号化層に対応する第2特徴画像とを繋ぎ合わせて(チャネルカスケード)、当該復号化層に対応する第2トレーニングされる特徴画像を取得する。例えば、復号化層2018について、復号化層2018に入力した第2特徴画像(56*75スケール、64チャネル)および復号化層2018に対応する第4特徴画像(56*75スケール、64チャネル)に対してチャネルカスケード繋ぎ合わせを実行して、復号化層2018に対応する第2トレーニングされる特徴画像(56*75スケール、128チャネル)を取得する。
本願のいくつかの実施例では、チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることは、当該復号化層に対応するチャネルアテンション重み分布を決定することであって、当該復号化層に対応するチャネルアテンション重み分布は、第2トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、ことと、当該復号化層に対応するチャネルアテンション重み分布に従って、第2トレーニングされる特徴画像内の各チャネルを較正することとを含む。
本願のいくつかの実施例では、復号化層に対応するチャネルアテンション重み分布を決定することは、第2トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得することと、第2トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得することと、平均プーリング結果および最大プーリング結果に従って、当該復号化層に対応するチャネルアテンション重み分布を決定することとを含む。
図5は、本願実施例による、図2のチャネルアテンションモジュール2026の概略構造図である。図5に示されるように、チャネルアテンションモジュール2026は、最大プーリング層2044、平均プーリング層2045、完全接続層(FC層:Fully Connected Layers)2046、活性化層(ReLU層)2047、および完全接続層(FC層)2048を含む。図2および図5に示されるように、復号化層2018に対応する第2トレーニングされる特徴画像(128チャネル)をチャネルアテンションモジュール2026に入力し、最大プーリング層2044を介して最大プーリング操作を実行して、最大プーリング結果を取得し、平均プーリング層2045を介して平均プーリング操作を実行して、平均プーリング結果を取得し、平均プーリング結果および最大プーリング結果を、完全接続層(FC層)2046、活性化層(ReLU層)2047、および完全接続層(FC層)2048にそれぞれ通過させて、復号化層2018に対応するチャネルアテンション重み分布を決定する。例えば、チャネルアテンションモジュール2026は、下記式(1-3)に従って、復号化層2018に対応する第2トレーニングされる特徴画像のチャネル
Figure 2022521130000017
の重み
Figure 2022521130000018
を決定することができる。
Figure 2022521130000019
ここで、
Figure 2022521130000020
は活性化関数であり、
Figure 2022521130000021
は、復号化層2018に対応する第2トレーニングされる特徴画像であり、
Figure 2022521130000022
は、完全接続操作およびReLU操作であり、
Figure 2022521130000023
は完全接続操作であり、
Figure 2022521130000024
は平均プーリング関数であり、
Figure 2022521130000025
は最大プーリング関数である。
復号化層2018に対応するチャネルアテンション重み分布を決定した後、復号化層2018に対応するチャネルアテンション重み分布に従って、復号化層2018に対応する第2トレーニングされる特徴画像内の各チャネルを較正して、復号化層2018に対応する第3特徴画像を取得する。
復号化層2017に対応する第3特徴画像、復号化層2019に対応する第3特徴画像、および復号化層2020に対応する第3特徴画像を決定する方式は、前述した復号化層2018に対応する第3特徴画像を決定する方式と同様であり、ここでは繰り返して説明しない。チャネルアテンションモジュール2023、チャネルアテンションモジュール2029、およびチャネルアテンションモジュール2032の構造は、チャネルアテンションモジュール2026と同様であり、ここでは繰り返して説明しない。
チャネルアテンションモジュールを使用してセグメンテーションネットワークに対してチャネル次元のアテンショントレーニングを実行することにより、トレーニングされたセグメンテーションネットワークが画像セグメンテーション処理を実行する際の画像内の関心領域のチャネル特徴情報を強調し、画像内の関心のない領域のチャネル特徴情報を抑制することができ、セグメンテーションネットワークのセグメンテーション精度を向上させることができる。
本願のいくつかの実施例では、複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、特徴抽出結果を決定することは、異なるスケールの第3特徴画像を繋ぎ合わせて、第3トレーニングされる特徴画像を取得することであって、第3トレーニングされる特徴画像のスケールは、サンプル画像のスケールと同じである、ことと、スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることにより、特徴抽出結果を決定することとを含む。
本願のいくつかの実施例では、スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることは、スケールアテンション重み分布を決定することであって、スケールアテンション重み分布は、異なるスケールの重みを指示するために使用される、ことと、スケールアテンション重み分布に従って、第3トレーニングされる特徴画像を較正することとを含む。
図2に示されるように、セグメンテーションネットワークは、さらに、スケールアテンションモジュール2049を含む。復号化層2017に対応する第3特徴画像、復号化層2018に対応する第3特徴画像、復号化層2019に対応する第3特徴画像、および復号化層2020に対応する第3特徴画像を繋ぎ合わせ、繋ぎ合わせるプロセスで、復号化層2017に対応する第3特徴画像(28*37スケール)、復号化層2018に対応する第3特徴画像(56*75スケール)、および復号化層2019に対応する第3特徴画像(112*150スケール)を全て、224*300スケール(サンプル画像のスケールと同じである)にアップサンプリングし、繋ぎ合わせるプロセスで、各復号化層に対応する第3特徴画像は4つのチャネルのみを保持でき、繋ぎ合わせた後、224*300スケールの第6特徴画像(16チャネル)を取得する。第6特徴画像をスケールアテンションモジュール2049に入力して、スケール次元でのアテンショントレーニングを実行する。
図6は、本願実施例による、図2のスケールアテンションモジュール2049の概略構造図である。図6に示されるように、スケールアテンションモジュール2049は、最大プーリング層2050、平均プーリング層2051、完全接続層(FC層)2052、活性化層(ReLU層)2053、完全接続層(FC層)2054、畳み込み層2055、活性化層(ReLU層)2056、畳み込み層2057、および活性化層(Sigmoid層)2058を含む。第6特徴画像をスケールアテンションモジュール2049に入力し、最大プーリング層2050を介して最大プーリング操作を実行して、最大プーリング結果を取得し、平均プーリング層2051を介して平均プーリング操作を実行して、平均プーリング結果を取得し、平均プーリング結果および最大プーリング結果を、完全接続層(FC層)2052、活性化層(ReLU層)2053、完全接続層(FC層)2054にそれぞれ通過させて、スケールアテンション重み分布を決定する。例えば、スケールアテンションモジュール2049は、下記式(1-4)に従って、スケール
Figure 2022521130000026
の重み
Figure 2022521130000027
を決定することができる。
Figure 2022521130000028
ここで、
Figure 2022521130000029
は活性化関数であり、
Figure 2022521130000030
は第6特徴画像であり、
Figure 2022521130000031
は完全接続操作およびReLU操作であり、
Figure 2022521130000032
は完全接続操作であり、
Figure 2022521130000033
は平均プーリング関数であり、
Figure 2022521130000034
は最大プーリング関数である。
スケールアテンション重み分布に基づいて、第6特徴画像に対して初回目の較正を実行して、初回目の較正後の第6特徴画像を取得する。スケールアテンションモジュールを使用して、セグメンテーションネットワークに対してスケール次元のアテンショントレーニングを実行することにより、トレーニングされたセグメンテーションネットワークが画像セグメンテーションを実行する際に、適切なスケールの特徴情報を強調し、画像内の不適切なスケールの特徴情報を抑制することができ、セグメンテーションネットワークのセグメンテーション精度を向上させることができる。
初回目の較正後の第6特徴画像を、畳み込み層2055、活性化層(ReLU層)2056、畳み込み層2057、活性化層(Sigmoid層)2058に通過させて、空間次元でアテンショントレーニングを再度実行して、初回目の較正後の第6特徴画像の各画素点の重みを決定する。例えば、下記式(1-5)により、初回目の較正後の第6特徴画像の画素点
Figure 2022521130000035
の重み
Figure 2022521130000036
を決定できる。
Figure 2022521130000037
ここで、
Figure 2022521130000038
は活性化関数であり、
Figure 2022521130000039
は活性化関数であり、
Figure 2022521130000040
は、畳み込み操作および一括正規化操作(Batch Normalization操作)であり、
Figure 2022521130000041
は、畳み込み操作および一括正規化操作(Batch Normalization操作)であり、
Figure 2022521130000042
は、初回目の較正後の第6特徴画像である。
初回目の較正後の第6特徴図の各画素点の重みに従って、初回目の較正後の第6特徴画像内の各画素点を再較正して、2番目の較正後の第6特徴画像を取得し、2番目の較正後の第6特徴画像をサンプル画像の特徴抽出結果として決定する。
図2に示されるように、セグメンテーションネットワークは、さらに、分類器(class)2059および正規化層(Softmax層)2060を含み、サンプル画像の特徴抽出結果を、分類器2059および正規化層2060を逐次通過させて、サンプル画像の画像セグメンテーションを実現して、サンプル画像のセグメンテーション結果2061を取得する。
サンプル画像のセグメンテーション結果およびサンプル画像に対応するセグメンテーションマーク情報に従って、セグメンテーションネットワークのセグメンテーション損失を決定し、セグメンテーション損失に従って、セグメンテーションネットワークのネットワークパラメータを調整する。セグメンテーションネットワークのセグメンテーション損失が収束するか、または反復回数がプリセットされた回数に達するまで、セグメンテーションネットワークを反復する。ここで、セグメンテーション損失を決定するために、DICE損失関数、Softdice損失関数、クロスエントロピー(Cross Entropy)損失関数、Focalloss損失関数、またはその他の損失関数を使用でき、本願実施例はこれを特に限定しない。
空間アテンションモジュール、チャネルアテンションモジュール、およびスケールアテンションモジュールを総合的に使用することで、空間次元、チャネル次元、およびスケール次元でセグメンテーションネットワークに対して総合的なアテンショントレーニングを実行することにより、トレーニングされたセグメンテーションネットワークが画像セグメンテーションを実行する際のセグメンテーション精度を向上させることができ、医用画像セグメンテーションの問題に適用される。例えば、磁気共鳴画像法(MRI:Magnetic Resonance Imaging)画像、コンピュータ断層撮影(CT:Computed Tomography)画像、超音波画像、またはX線画像における腫瘍、組織の損傷と壊死、特定臓器のセグメンテーションに適用され、医師が病気の状態を判断するか、患者の健康状態をより正確に評価するように支援する。
セグメンテーションネットワークを介して、空間次元、チャネル次元、およびスケール次元におけるプリセットの次元で、アテンションメカニズムを使用してトレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得し、特徴抽出結果に従ってサンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得し、画像セグメンテーション結果およびトレーニングサンプルに含まれるサンプル画像に対応するセグメンテーションマーク情報に従って、セグメンテーションネットワークをトレーニングすることにより、トレーニングによって得られたセグメンテーションネットワークが画像セグメンテーション処理を実行する際のセグメンテーション精度を向上させることができる。
本願実施例によるネットワークトレーニング方法は、医用画像分析に適用され、当該ネットワークトレーニング方法は、端末機器または他の処理機器によって実行でき、ここで、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。他の処理機器は、サーバまたはクラウドサーバであってもよい。いくつかの可能な実施形態では、当該ネットワークトレーニング方法は、プロセッサによってメモリに記憶されたコンピュータ可読命令を呼び出すことで実現することができる。当該ネットワークトレーニング方法は、以下のステップを含み得る。
ステップS31において、医用画像を前処理し、画像をトリミングおよび正規化する。
ステップS32において、医用画像分析において非常に安定した効果を持つU-Netネットワークモデルをバックボーンネットワークとして選択する。U-Netの最下層で内積和の方式を使用して、画素点のそれぞれと、他の全ての画素点との相関性を接続し、その後、各アップサンプリング(特徴復号化プロセス)の後、復号化された情報を使用して、同じレベルの符号化プロセスにおける特徴を照会する。このステップは、空間アテンション方法である。
ステップS33において、各復号化層の中央にチャネルアテンションを埋め込み、同時に、平均プーリングおよび最大プーリングの情報を使用して、現在の層の特徴チャネル情報を較正する。
ステップS34において、アップサンプリングにより、復号化層の各層の中間出力を、元の入力画像と同じサイズに統合し、異なるスケール特徴を含むチャネルを繋ぎ合わせ、最後に、異なるスケール情報にアテンションメカニズムを導入する。
ステップS35において、サンプル画像に対して画像セグメンテーションを実行して、サンプル画像のセグメンテーション結果を取得する。当該セグメンテーション結果と、手動で(医師や看護師によって実行できるが、これらに限定ない)マークされたゴールドスタンダードを比較し、逆伝播アルゴリズムを介して、勾配降下法を使用して損失関数に対して反復トレーニングを繰り返すことにより、モデルパラメータを最適化する。ここで、損失関数は、セグメンテーションDICE損失関数を使用する。
本願実施例によるネットワークトレーニング方法は、医用画像が広く適用されているネットワークにおいて、特徴の複数の次元でアテンションメカニズムを導入し、既存のアテンションメカニズムと比較すると、関心領域のアテンションをより強調でき、ネットワークの自己適応能力を向上させることができる。
さらに、ネットワークセグメンテーションタスクの能力を大幅に向上させる上で、ネットワークに、少量のパラメータ量と計算オーバーヘッドのみが追加される。したがって、当該ネットワークトレーニング方法は、メモリが限られている機器にうまく適合させることができる。
図7は、本願実施例による画像処理方法の例示的なフローチャートである。当該画像処理方法は、端末機器または他の処理機器によって実行でき、ここで、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、携帯電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルドデバイス、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。他の処理機器は、サーバまたはクラウドサーバであってもよい。いくつかの可能な実施形態では、当該画像処理方法は、プロセッサによってメモリに記憶されたコンピュータ可読命令を呼び出すことで実現することができる。図7に示されるように、当該画像処理方法は、以下のステップを含み得る。
ステップS71において、セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得し、ここで、セグメンテーションネットワークは、上記の実施例のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである。
例えば、上記の実施例でトレーニングされたセグメンテーションネットワークを使用して、処理される画像に対して画像セグメンテーション処理を実行する。具体的には、処理される画像をセグメンテーションネットワークに入力し、当該セグメンテーションネットワークの出力は、処理される画像の画像セグメンテーション結果である。セグメンテーションネットワークは、空間次元、チャネル次元、およびスケール次元でアテンションメカニズム使用してトレーニングすることで得られたものであるため、セグメンテーションネットワークによる処理される画像への画像セグメンテーション処理のセグメンテーション精度が向上する。皮膚疾患腫瘍の自動セグメンテーションのシナリオを例として取り上げると、本願実施例による画像処理方法は、以下のステップを含み得る。
ステップS701において、ダーモスコピー(Dermoscopy)画像を前処理し、画像を224*300サイズに再サンプリングしてから、0から1の間に正規化する。
ステップS702、3*224*300に前処理されたダーモスコピー画像をトレーニングデータとしてネットワークに入力する。ネットワークトレーニングに入る前に、画像をランダムに反転、回転、およびトリミングして、データを強調する必要があり、その後、強調されたトレーニングデータおよび対応するマーク情報をネットワークに入力してトレーニングする。
ステップS703において、完全畳み込みネットワーク(FCN:Fully Convolutional Network)またはU-Netに基づくネットワーク構造を使用して、サイズが3*224*300であるダーモスコピー画像を、異なる畳み込み層に通過させる。4回のダウンサンプリング、一括正規化、および活性化関数操作の後、3*224*300サイズの皮膚病腫瘍画像サイズを順次に3*112*150、3*56*75、3*28*37、および3*14*18に縮小する。最後に、3*14*18の特徴画像を取得し、チャネル数を1から128に増加する。その後、4回の逆畳み込み操作の後、3*14*18サイズの特徴画像を4回アップサンプリングすることにより、元のサイズ3*224*300に徐々にアップグレードする。アップサンプリングプロセスでは、ダウンサンプリングにおいて同じ解像度(32*32*32など)の特徴画像、およびアップサンプリングにおいて同じサイズの特徴画像を融合してから、空間アテンションメカニズムを使用してトレニンーグする。このようにして、特徴を画像内の局部および全局の情報と組み合わせ、同時に、特徴領域のアテンションを強調することができる。
ステップS704において、アップサンプリングによって得られた、サイズが3*224*300である画像に対して、畳み込み操作の中間に改善されたチャネルアテンションメカニズムを挿入する。その後、各層のアップサンプリングについて、中間特徴結果を入力画像のサイズにアップサンプリングする。次に、スケールアテンションメカニズムを介して、特徴スケールでのアテンションを強調する。最後に、セグメンテーション結果と元のマークされたセグメンテーション結果を比較し、DICE損失関数、IOU(Intersection over union)損失関数、または他の損失関数を使用して損失を計算し、最終的な損失関数を形成する。逆伝播アルゴリズムを使用して、前記損失関数を使用してモデルパラメータを更新し、モデルが収束するか、最大反復回数に達するまで、モデルを繰り返し最適化する。
ステップS705において、トレーニングされたモデルを使用して、処理されるダーモスコピー画像に対して画像処理を実行して、セグメント化された結果を取得する。DICE係数、IOU、または平均対称表面距離(ASSD:average symmetric surface distance)を評価指標として使用して、ネットワークのトレーニング効果を評価する。
本願実施例による画像処理方法は、完全アテンションに基づくネットワーク方法を使用し、医用画像セグメンテーションに非常に一般的に使用され、同時に、MRI、CT、超音波、およびX線などの医用画像における腫瘍、組織損傷壊死などの病変領域または特定の臓器のセグメンテーションタスクにも使用できる。入力ネットワークのデータパラメータを設定するだけで、異なるタスクのトレーニングとテストを実現できる。
放射線科医師の場合、患者データをダウンロードした後、本願実施例による画像処理方法に基づくワークステーションを使用して、セグメント化する必要のある腫瘍または臓器をリアルタイムでセグメント化できるため、CT放射線治療領域の描写、遠隔医療診断、クラウドプラットフォーム支援インテリジェント診断などを実現でき、医師が病気の状態を判断するか、患者の健康状態をより正確に評価するように支援することができる。
本願実施例による画像処理方法に基づくインテリジェント診断機器は、クラウドプラットフォーム、大型サーバ、およびモバイル機器への埋め込みにも適用されることができ、画像診断医師や臨床医師などは、診断の必要性に応じて、さまざまな機器を使用して即座に閲覧することができる。
本出願で言及される上記各方法の実施例は、原理と論理に違反することなく、相互に組み合わせて、組み合わされた実施例を形成することができ、紙数に限りがあるので、本出願では詳細な説明を省略することを理解されたい。当業者なら自明であるが、上記の特定の実施形態における方法において、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定される必要がある。
本出願はまた、ネットワークトレーニング装置、画像処理装置、電子機器、コンピュータ可読記憶媒体、およびプログラムを提供し、これらはすべて、本出願で提供されるネットワークトレーニング、画像処理方法のいずれかを実現するために使用されることができ、対応する技術的解決策と説明は、方法の実施例の対応する説明を参照することができ、ここでは繰り返して説明しない。
図8は、本願実施例によるネットワークトレーニング装置の概略構造図である。図8に示されるように、装置80は、
セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得するように構成される特徴抽出モジュール81であって、プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、特徴抽出モジュール81と、
特徴抽出結果に従ってサンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得するように構成されるセグメンテーションモジュール82と、
画像セグメンテーション結果およびセグメンテーションマーク情報に従って、セグメンテーションネットワークをトレーニングするように構成されるトレーニングモジュール83と、を備える。
本願のいくつかの実施例では、セグメンテーションネットワークは、エンコーダおよびデコーダを含み、エンコーダは複数の符号化層を含み、デコーダは複数の復号化層を含み、
特徴抽出モジュール81は、
サンプル画像をエンコーダに入力して、各符号化層に対応する第1特徴画像を決定するように構成される第1決定サブモジュールであって、異なる符号化層に対応する第1特徴画像のスケールは異なる、第1決定サブモジュールと、
任意の復号化層について、当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して当該復号化層に入力された第2特徴画像をトレーニングして、当該復号化層に対応する第3特徴画像を決定するように構成される第2決定サブモジュールであって、当該復号化層に入力された第2特徴画像は、当該復号化層の前の復号化層に対応する第3特徴画像に従って決定されたものであり、異なる復号化層に対応する第3特徴画像のスケールは異なる、第2決定サブモジュールと、
複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、特徴抽出結果を決定するように構成される第3決定サブモジュールと、を備える。
本願のいくつかの実施例では、第2決定サブモジュールは、
当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングして、当該復号化層に対応する第4特徴画像を決定するように構成される第1トレーニングユニットであって、第1トレーニングされる特徴画像は、当該復号化層に入力された第2特徴画像である、第1トレーニングユニットと、
当該復号化層に入力された第2特徴画像と当該復号化層に対応する第4特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を取得するように構成される第1繋ぎ合わせユニットと、
チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第3特徴画像を決定するように構成される第2トレーニングユニットと、を備える。
本願のいくつかの実施例では、第2決定サブモジュールは、
当該復号化層のスケールに対応する第1特徴画像と当該復号化層に入力された第2特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を決定するように構成される第2繋ぎ合わせユニットと、
チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、第1トレーニングされる特徴画像を決定するように構成される第2トレーニングユニットと、
当該復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることにより、当該復号化層に対応する第3特徴画像を決定するように構成される第1トレーニングユニットと、を備える。
本願のいくつかの実施例では、第1トレーニングユニットは、
当該復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、当該復号化層に対応する空間アテンション重み分布を決定するように構成される第1決定サブユニットであって、復号化層に対応する空間アテンション重み分布は、第1トレーニングされる特徴画像の各画素点の重みを指示するために使用される、第1決定サブユニットと、
当該復号化層に対応する空間アテンション重み分布に従って、第1トレーニングされる特徴画像内の各画素点を較正するように構成される第1較正サブユニットと、を備える。
本願のいくつかの実施例では、任意の復号化層について、当該復号化層は、複数の空間アテンショントレーニング層を含み、
第1決定サブユニットは、具体的に、
当該復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第1トレーニングされる特徴画像の各画素点の複数の重みを決定し、
第1トレーニングされる特徴画像の各画素点の複数の重みに従って、当該復号化層に対応する空間アテンション重み分布を決定するように構成される。
本願のいくつかの実施例では、第2トレーニングユニットは、
当該復号化層に対応するチャネルアテンション重み分布を決定するように構成される第2決定サブユニットであって、当該復号化層に対応するチャネルアテンション重み分布は、第2トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、第2決定サブユニットと、
当該復号化層に対応するチャネルアテンション重み分布に従って、第2トレーニングされる特徴画像内の各チャネルを較正するように構成される第2較正サブユニットと、を備える。
本願のいくつかの実施例では、第2決定サブユニットは、具体的に、
第2トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得し、
第2トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得し、
平均プーリング結果および最大プーリング結果に従って、当該復号化層に対応するチャネルアテンション重み分布を決定するように構成される。
本願のいくつかの実施例では、第3決定サブモジュールは、
異なるスケールの第3特徴画像を繋ぎ合わせて、第3トレーニングされる特徴画像を取得するように構成される第3繋ぎ合わせユニットであって、第3トレーニングされる特徴画像のスケールは、サンプル画像のスケールと同じである、第3繋ぎ合わせユニットと、
スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることにより、特徴抽出結果を決定するように構成される決定ユニットと、を備える。
本願のいくつかの実施例では、決定ユニットは、具体的に、
スケールアテンション重み分布を決定し、スケールアテンション重み分布は、異なるスケールの重みを指示するために使用され、
スケールアテンション重み分布に従って、第3トレーニングされる特徴画像を較正するように構成される。
本願のいくつかの実施例では、前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである。
図9は、本願実施例による画像処理装置の概略構造図である。図9に示されるように、装置90は、
セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得するように構成される画像処理モジュール91を備え、
ここで、セグメンテーションネットワークは、上記の実施例のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである。
本願のいくつかの実施例では、前記セグメント化される画像は、セグメント化される医用画像であり、画像処理モジュール91は、セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得するように構成される。
いくつかの実施例では、本願実施例に係る装置に含まれる機能またはモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実現については、上記の方法の実施例の説明を参照することができ、簡潔にするため、ここでは繰り返して説明しない。
本願実施例は、さらに、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行される時に、上記の方法を実現する。コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってよい。
本願実施例は、さらに、プロセッサと、プロセッサ実行可能な命令を記憶するように構成されるメモリとを備える電子機器を提供し、ここで、前記プロセッサは、前記メモリに記載された命令を呼び出して、上記の方法を実行するように構成される。
本願実施例は、さらに、コンピュータ可読コードを含むコンピュータプログラム製品を提供し、コンピュータ可読コードが機器で実行される時に、前記機器内のプロセッサは、上記の実施例によるネットワークトレーニング/画像処理方法を実現するための命令を実行する。
本願実施例は、さらに、コンピュータ可読命令を記憶するように構成される別のコンピュータプログラム製品を提供し、命令が実行された時に、コンピュータに、上記の任意の実施例によるネットワークトレーニング/画像処理方法の動作を実行させる。
電子機器は、端末、サーバ、または他の形の機器として提供することができる。
図10は、本願実施例による電子機器800の概略図である。例えば、電子機器1000は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などの端末であってもよい。
図10を参照すると、電子機器1000は、処理コンポーネント1002、メモリ1004、電源コンポーネント1006、マルチメディアコンポーネント1008、オーディオコンポーネント1010、入力/出力(I/O)インターフェース1012、センサコンポーネント1014、および通信コンポーネント1016のうちの1つまたは複数を含み得る。
処理コンポーネント1002は通常、電子機器1000の全体的な動作、例えば、表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント1002は、上記の方法のステップの全部または一部を完了するための1つまたは複数のプロセッサ1020を備えることができる。さらに、処理コンポーネント1002は、処理コンポーネント1002と他のコンポーネントとの間の対話を容易にするための1つまたは複数のモジュールを含み得る。例えば、処理コンポーネント1002は、マルチメディアコンポーネント1008と処理コンポーネント1002との間の対話を容易にするためのマルチメディアモジュールを含み得る。
メモリ1004は、電子機器1000での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータの例には、電子機器1000で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどが含まれる。メモリ1004は、任意のタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現でき、当該ストレージデバイスは、例えば、静的ランダムアクセスメモリ(SRAM、Static Random Access Memory)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM、Electrically Erasable Programmable Read-Only Memory)、消去可能なプログラマブル読み取り専用メモリ(EPROM、Erasable Programmable Read-Only Memory)、プログラマブル読み取り専用メモリ(PROM、Programmable Read-Only Memory)、読み取り専用メモリ(ROM、Read Only Memory)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどであり得る。
電源コンポーネント1006は、電子機器1000の各コンポーネントに電力を供給する。電源コンポーネント1006は電源管理システム、1つまたは複数の電源、および電子機器1000のための電力生成、管理および配分に関連する他のコンポーネントを含むことができる。
マルチメディアコンポーネント1008は、前記電子機器1000とユーザとの間で出力インターフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは、液晶ディスプレイ(LCD:Liquid Crystal Display)およびタッチパネル(TP:Touch Panel)を含み得る。スクリーンがタッチパネルを含む場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実現できる。タッチパネルは、タッチ、スワイプ、およびタッチパネルでのジェスチャを検知するための1つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチまたはスワイプ動作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間と圧力も検出する。いくつかの実施例では、マルチメディアコンポーネント1008は、フロントカメラおよび/またはリアカメラを含む。電子機器1000が、撮影モードまたは撮像モードなどの動作モードにある場合、フロンドカメラおよび/またはリアカメラは、外部マルチメディアデータを受信することができる。各フロンドカメラおよびリアカメラは、固定光学レンズシステムであってもよく、焦点距離および光学ズーム機能を有するものであってもよい。
オーディオコンポーネント1010は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント1010は、マイクロフォン(MIC:Microphone)を含み、前記マイクロフォンは、電子機器1000が、呼び出しモード、記録モード、または音声認識モードなどの動作モードにある場合、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ1004に記憶されてもよいし、通信コンポーネント1016によって送信されてもよい。いくつかの実施例において、オーディオコンポーネント1010は、オーディオ信号を出力するためのスピーカをさらに含む。
I/Oインターフェース1012は、処理コンポーネント1002と周辺インターフェースモジュールとの間のインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであり得る。これらのボタンは、ホームボタン、音量ボタン、スタートボタン、およびロックボタンなどを含んでもよいが、これらに限定されない。
センサコンポーネント1014は、各態様の状態評価を電子機器1000に提供するように構成される1つまたは複数のセンサを含む。例えば、センサコンポーネント1014は、電子機器1000のオン/オフ状態およびコンポーネントの相対的な位置を検出でき、例えば、前記コンポーネントが電子機器1000のディスプレイおよびキーパッドであることを検出でき、センサコンポーネント1014はまた、電子機器1000または電子機器1000のコンポーネントの位置の変化、ユーザと電子機器1000との接触の有無、電子機器1000の方位または加減速、および電子機器1000の温度変化を検出できる。センサコンポーネント1014は、物理的接触なしに近くの物体の存在を検出するように構成される近接センサを含み得る。センサコンポーネント1014は、さらに、イメージングに使用される光センサ(金属酸化物半導体素子(CMOS:Complementary Metal Oxide Semiconductor)または電荷結合素子(CCD:Charge Coupled Device)イメージセンサなど)を含み得る。いくつかの実施例では、当該センサコンポーネント1014は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサ、または温度センサを含み得る。
通信コンポーネント1016は、電子機器1000と他の機器との間の有線または無線通信を実現するように構成される。電子機器1000は、通信規格に基づく無線ネットワーク、例えば、ワイヤレスフィデリティ(WiFi:Wireless Fidelity)、第2世帯(2G:2th Generation)または第3世代(3G:3th Generation)、またはそれらの組み合わせにアクセスできる。一例示的な実施例では、通信コンポーネント1016は、放送チャネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント1016は、さらに、近距離通信を容易にするための近距離無線通信(NFC:Near Field Communication)モジュールを備える。例えば、NFCモジュールは、無線周波数識別(RFID:Radio Frequency IDentification)技術、赤外線データ協会(IrDA:Infrared Data Association)技術、超広帯域(UWB:Ultra WideBand)技術、ブルートゥース(登録商標)(BT:Blue Tooth、(登録商標))技術および他の技術に基づいて実現できる。
例示的な実施例では、上記の方法を実行するために、電子機器800は、1つまたは複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、デジタル信号処理デバイス(DSPD:Digital Signal Process)、プログラマブルロジックデバイス(PLD:Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現されることができる。
例示的な実施例では、コンピュータプログラム命令を含むメモリ1004などの不揮発性コンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラム命令は、電子機器1000のプロセッサ1020によって実行されることにより、上記の方法を完了することができる。
図11は、本願実施例による電子機器のブロック図を示している。例えば、電子機器1100は、サーバとして提供することができる。図11を参照すると、電子機器1100は、1つまたは複数のプロセッサを含む処理コンポーネント1122と、処理コンポーネント1122によって実行可能な命令(アプリケーションプログラムなど)を記憶するように構成されるメモリリソースを代表するメモリ1132と、を備える。メモリ1132に記憶されたアプリケーションプログラムは、それぞれが一セットの命令に対応する1つまたは複数のモジュールを含み得る。さらに、処理コンポーネント1122は、命令を実行することにより、上記の方法を実行するように構成される。
電子機器1100は、さらに、電子機器1100の電力管理を実行するように構成される電源コンポーネント1126と、電子機器1100をネットワークに接続するように構成される有線または無線ネットワークインターフェース1150と、入力/出力(I/O)インターフェース1158と、を備えてもよい。電子機器1100は、メモリ1132に記憶されたオペレーティングシステム、例えば、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標)、Linux(登録商標)、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、コンピュータプログラム命令を含むメモリ1132などの不揮発性コンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令は、電子機器1100の処理コンポーネント1122によって実行されることにより、上記の方法を完了することができる。
本願実施例は、システム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読プログラム命令が記憶されたコンピュータ可読記憶媒体を含み得、当該コンピュータ可読プログラム命令は、プロセッサに、本願実施例の各態様を実現させるように構成される。
コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であり得る。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非包括的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピー(登録商標)ディスク、機械的符号化装置、例えば命令が記憶されているせん孔カードまたはスロット内突起構造、および上記の任意の適当な組み合わせを含む。本明細書で使用するコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング/処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークなどのネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含み得る。各計算/処理機器内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他の計算/処理機器のコンピュータ可読記憶媒体への記憶のために当該コンピュータ可読プログラム命令を転送する。
本願実施例における動作を実行するためのコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA:Instruction Set Architecture)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN:Local Area Network)または広域ネットワーク(WAN:Wide Area Network)を含む任意のタイプのネットワークを経由してユーザのコンピュータに接続するか、または、外部コンピュータに接続する(例えば、インターネットサービスプロバイダを利用することにより、インターネットを経由して外部コンピュータに接続する)ことができる。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、電子回路をカスタマイズすることができる。例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をカスタマイズすることができ、当該電子回路は、コンピュータ可読プログラム命令を実行することにより、本願実施例の各態様を実現することができる。
ここで、本願実施例における方法、装置(システム)、およびコンピュータプログラム製品に係るフローチャートおよび/またはブロック図を参照して、本願実施例の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、これらの命令はコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行され、フローチャートおよび/またはブロック図の1つまたは複数のブロックにおいて指定された機能/動作を実現する手段を創出する。また、これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置および/または他の機器が、これらの命令に応じて特定の方式で動作することができる。したがって、命令が記憶されたコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の1つまたは複数のブロックで指定された機能/動作を実現する命令を含む製品を備えることができる。
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器に一連の動作ステップを実行させることにより、コンピュータ、他のプログラマブルデータ処理装置、または他の機器でる命令を実行することで、フローチャートおよび/またはブロック図の1つまたは複数のブロックで指定された機能/動作を実現することができる。
図面中のフローチャートおよびブロック図は、本出願の複数の実施例によるシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示している。この点では、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメントまたは命令の一部を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための1つまたは複数の実行可能な命令を含む。いくつかの代替としての実現では、ブロックでマークされた機能は、図面でマークされた順序とは異なる順序で実行できる。例えば、2つの連続的なブロックは、実際には実質的に同時に実行でき、関連する機能によっては、逆の順序で実行されることもできる。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことに注意すべきである。
前記コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェア、またはそれらの組み合わせの方式によって実現されることができる。一代替実施例では、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として実現され、別の代替実施例では、コンピュータプログラム製品は、具体的には、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品として実現される。
以上、本願の各実施例を説明したが、上記の説明は、例示的なものであり、網羅的なものではなく、開示された各実施例に限定されるものでもない。説明された各実施例の範囲および要旨を逸脱することなく、様々な修正および変更をすることが可能であることは、当業者にとっては明らかである。本明細書で使用される用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するためのものであるか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
本願実施例は、ネットワークトレーニング/画像処理方法および装置、電子機器および記憶媒体を提供し、前記ネットワークトレーニング方法は、セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、ことと、前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得することと、前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングすることとを含む。本願実施例は、セグメンテーションネットワークのトレーニングを実現でき、トレーニングによって得られたセグメンテーションネットワークを介して画像セグメンテーション処理を実行することができる。
本願実施例は、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行される時に、上記の画像処理方法を実現する。
本願実施例は、コンピュータ可読コードを含む、コンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるとき、前記電子機器内のプロセッサは、上記の画像処理方法を実現するために実行される。

以上の一般的な説明と以下の詳細な説明は、解釈するための例示的なものに過ぎず、本願を限定するものではないことを理解すべきである。添付の図面を参照した例示的な実施例の以下の詳細な説明により、本願の他の特徴および態様が明らかになる。
例えば、本願は以下の項目を提供する。
(項目1)
ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するための、ネットワークトレーニング方法であって、
セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、ことと、
前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得することと、
前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングすることと、を含む、前記ネットワークトレーニング方法。
(項目2)
前記セグメンテーションネットワークは、エンコーダおよびデコーダを含み、前記エンコーダは複数の符号化層を含み、前記デコーダは複数の復号化層を含み、
前記セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することは、
前記サンプル画像を前記エンコーダに入力して、各符号化層に対応する第1特徴画像を決定することであって、異なる符号化層に対応する第1特徴画像のスケールは異なる、ことと、
任意の復号化層について、前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第2特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定することであって、前記復号化層に入力された第2特徴画像は、前記復号化層の前の復号化層に対応する第3特徴画像に従って決定されたものであり、異なる復号化層に対応する第3特徴画像のスケールは異なる、ことと、
複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、前記特徴抽出結果を決定することと、を含む、
項目1に記載のネットワークトレーニング方法。
(項目3)
前記任意の復号化層について、前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第2特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定することは、
前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して、第1トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第4特徴画像を決定することであって、第1トレーニングされる特徴画像は、前記復号化層に入力された第2特徴画像である、ことと、
前記復号化層に入力された第2特徴画像と前記復号化層に対応する第4特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を取得することと、
チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定することと、を含む、
項目2に記載のネットワークトレーニング方法。
(項目4)
前記任意の復号化層について、前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第2特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定することは、
前記復号化層のスケールに対応する第1特徴画像と前記復号化層に入力された第2特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を決定することと、
チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、第1トレーニングされる特徴画像を決定することと、
前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定することと、を含む、
項目2に記載のネットワークトレーニング方法。
(項目5)
前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることは、
前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定することであって、前記復号化層に対応する空間アテンション重み分布は、第1トレーニングされる特徴画像の各画素点の重みを指示するために使用される、ことと、
前記復号化層に対応する空間アテンション重み分布に従って、第1トレーニングされる特徴画像内の各画素点を較正することと、を含む、
項目3に記載のネットワークトレーニング方法。
(項目6)
任意の復号化層について、前記復号化層は、複数の空間アテンショントレーニング層を含み、
前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定することは、
前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第1トレーニングされる特徴画像の各画素点の複数の重みを決定することと、
第1トレーニングされる特徴画像の各画素点の前記複数の重みに従って、前記復号化層に対応する空間アテンション重み分布を決定することと、を含む、
項目5に記載のネットワークトレーニング方法。
(項目7)
前記チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることは、
前記復号化層に対応するチャネルアテンション重み分布を決定することであって、前記復号化層に対応するチャネルアテンション重み分布は、第2トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、ことと、
前記復号化層に対応するチャネルアテンション重み分布に従って、第2トレーニングされる特徴画像内の各チャネルを較正することと、を含む、
項目3ないし6のいずれか一項に記載のネットワークトレーニング方法。
(項目8)
前記復号化層に対応するチャネルアテンション重み分布を決定することは、
第2トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得することと、
第2トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得することと、
前記平均プーリング結果および前記最大プーリング結果に従って、前記復号化層に対応するチャネルアテンション重み分布を決定することと、を含む、
項目7に記載のネットワークトレーニング方法。
(項目9)
前記複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、前記特徴抽出結果を決定することは、
異なるスケールの第3特徴画像を繋ぎ合わせて、第3トレーニングされる特徴画像を取得することであって、第3トレーニングされる特徴画像のスケールは、前記サンプル画像のスケールと同じである、ことと、
スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることにより、前記特徴抽出結果を決定することと、を含む、
項目2ないし8のいずれか一項に記載のネットワークトレーニング方法。
(項目10)
前記スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることは、
スケールアテンション重み分布を決定することであって、前記スケールアテンション重み分布は、異なるスケールの重みを指示するために使用される、ことと、
前記スケールアテンション重み分布に従って、第3トレーニングされる特徴画像を較正することと、を含む、
項目9に記載のネットワークトレーニング方法。
(項目11)
前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである、
項目1ないし10のいずれか一項に記載のネットワークトレーニング方法。
(項目12)
画像処理方法であって、
セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することを含み、
前記セグメンテーションネットワークは、項目1ないし11のいずれか一項に記載のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである、前記画像処理方法。
(項目13)
前記セグメント化される画像は、セグメント化される医用画像であり、
前記セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することは、
セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得することを含む、
項目12に記載の画像処理方法。
(項目14)
ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するために使用される、ネットワークトレーニング装置であって、
セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得するように構成される特徴抽出モジュールであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、特徴抽出モジュールと、
前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得するように構成されるセグメンテーションモジュールと、
前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングするように構成されるトレーニングモジュールと、を備える、前記ネットワークトレーニング装置。
(項目15)
前記セグメンテーションネットワークは、エンコーダおよびデコーダを含み、前記エンコーダは複数の符号化層を含み、前記デコーダは複数の復号化層を含み、
前記特徴抽出モジュールは、
サンプル画像をエンコーダに入力して、各符号化層に対応する第1特徴画像を決定するように構成される第1決定サブモジュールであって、異なる符号化層に対応する第1特徴画像のスケールは異なる、第1決定サブモジュールと、
任意の復号化層について、前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第2特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定するように構成される第2決定サブモジュールであって、前記復号化層に入力された第2特徴画像は、前記復号化層の前の復号化層に対応する第3特徴画像に従って決定されたものであり、異なる復号化層に対応する第3特徴画像のスケールは異なる、第2決定サブモジュールと、
複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、特徴抽出結果を決定するように構成される第3決定サブモジュールと、を備える、
項目14に記載のネットワークトレーニング装置。
(項目16)
前記第2決定サブモジュールは、
前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第4特徴画像を決定するように構成される第1トレーニングユニットであって、前記第1トレーニングされる特徴画像は、前記復号化層に入力された第2特徴画像である、第1トレーニングユニットと、
前記復号化層に入力された第2特徴画像と前記復号化層に対応する第4特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を取得するように構成される第1繋ぎ合わせユニットと、
チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定するように構成される第2トレーニングユニットと、を備える、
項目15に記載のネットワークトレーニング装置。
(項目17)
前記第2決定サブモジュールは、
前記復号化層のスケールに対応する第1特徴画像と前記復号化層に入力された第2特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を決定するように構成される第2繋ぎ合わせユニットと、
チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、第1トレーニングされる特徴画像を決定するように構成される第2トレーニングユニットと、
前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定するように構成される第1トレーニングユニットと、を備える、
項目15に記載のネットワークトレーニング装置。
(項目18)
前記第1トレーニングユニットは、
前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定するように構成される第1決定サブユニットであって、前記復号化層に対応する空間アテンション重み分布は、第1トレーニングされる特徴画像の各画素点の重みを指示するために使用される、第1決定サブユニットと、
前記復号化層に対応する空間アテンション重み分布に従って、第1トレーニングされる特徴画像内の各画素点を較正するように構成される第1較正サブユニットと、を備える、
項目16に記載のネットワークトレーニング装置。
(項目19)
任意の復号化層について、前記復号化層は、複数の空間アテンショントレーニング層を含み、
前記第1決定サブユニットは、さらに、
前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第1トレーニングされる特徴画像の各画素点の複数の重みを決定し、
第1トレーニングされる特徴画像の各画素点の複数の重みに従って、前記復号化層に対応する空間アテンション重み分布を決定するように構成される、
項目18に記載のネットワークトレーニング装置。
(項目20)
前記第2トレーニングユニットは、
前記復号化層に対応するチャネルアテンション重み分布を決定するように構成される第2決定サブユニットであって、前記復号化層に対応するチャネルアテンション重み分布は、第2トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、第2決定サブユニットと、
前記復号化層に対応するチャネルアテンション重み分布に従って、第2トレーニングされる特徴画像内の各チャネルを較正するように構成される第2較正サブユニットと、を備える、
項目16ないし19のいずれか一項に記載のネットワークトレーニング装置。
(項目21)
前記第2決定サブユニットは、さらに、
第2トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得し、
第2トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得し、
前記平均プーリング結果および前記最大プーリング結果に従って、前記復号化層に対応するチャネルアテンション重み分布を決定するように構成される、
項目20に記載のネットワークトレーニング装置。
(項目22)
前記第3決定サブモジュールは、
異なるスケールの第3特徴画像を繋ぎ合わせて、第3トレーニングされる特徴画像を取得するように構成される第3繋ぎ合わせユニットであって、第3トレーニングされる特徴画像のスケールは、サンプル画像のスケールと同じである、第3繋ぎ合わせユニットと、
スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることにより、特徴抽出結果を決定するように構成される決定ユニットと、を備える、
項目15ないし21のいずれか一項に記載のネットワークトレーニング装置。
(項目23)
前記決定ユニットは、さらに、
スケールアテンション重み分布を決定し、スケールアテンション重み分布は、異なるスケールの重みを指示するために使用され、
スケールアテンション重み分布に従って、第3トレーニングされる特徴画像を較正するように構成される、
項目22に記載のネットワークトレーニング装置。
(項目24)
前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである、
項目14ないし23のいずれか一項に記載のネットワークトレーニング装置。
(項目25)
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶された命令を呼び出して、項目1ないし11のいずれか一項に記載のネットワークトレーニング方法を実行するように構成される、前記電子機器。
(項目26)
コンピュータプログラム命令が記憶された、コンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行される時に、項目1ないし11のいずれか一項に記載のネットワークトレーニング方法を実現する、前記コンピュータ可読記憶媒体。
(項目27)
画像処理装置であって、
セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得するように構成される画像処理モジュールを備え、
前記セグメンテーションネットワークは、項目1ないし11のいずれか一項に記載のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである、前記画像処理装置。
(項目28)
前記セグメント化される画像は、セグメント化される医用画像であり、
前記画像処理モジュールは、セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得するように構成される、
項目27に記載の画像処理装置。
(項目29)
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶された命令を呼び出して、項目12または13に記載の画像処理方法を実行するように構成される、前記電子機器。
(項目30)
コンピュータプログラム命令が記憶された、コンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行される時に、項目12または13に記載の画像処理方法を実現する、前記コンピュータ可読記憶媒体。

Claims (30)

  1. ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するための、ネットワークトレーニング方法であって、
    セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、ことと、
    前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得することと、
    前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングすることと、を含む、前記ネットワークトレーニング方法。
  2. 前記セグメンテーションネットワークは、エンコーダおよびデコーダを含み、前記エンコーダは複数の符号化層を含み、前記デコーダは複数の復号化層を含み、
    前記セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得することは、
    前記サンプル画像を前記エンコーダに入力して、各符号化層に対応する第1特徴画像を決定することであって、異なる符号化層に対応する第1特徴画像のスケールは異なる、ことと、
    任意の復号化層について、前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第2特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定することであって、前記復号化層に入力された第2特徴画像は、前記復号化層の前の復号化層に対応する第3特徴画像に従って決定されたものであり、異なる復号化層に対応する第3特徴画像のスケールは異なる、ことと、
    複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、前記特徴抽出結果を決定することと、を含む、
    請求項1に記載のネットワークトレーニング方法。
  3. 前記任意の復号化層について、前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第2特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定することは、
    前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して、第1トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第4特徴画像を決定することであって、第1トレーニングされる特徴画像は、前記復号化層に入力された第2特徴画像である、ことと、
    前記復号化層に入力された第2特徴画像と前記復号化層に対応する第4特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を取得することと、
    チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定することと、を含む、
    請求項2に記載のネットワークトレーニング方法。
  4. 前記任意の復号化層について、前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第2特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定することは、
    前記復号化層のスケールに対応する第1特徴画像と前記復号化層に入力された第2特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を決定することと、
    チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、第1トレーニングされる特徴画像を決定することと、
    前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定することと、を含む、
    請求項2に記載のネットワークトレーニング方法。
  5. 前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることは、
    前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定することであって、前記復号化層に対応する空間アテンション重み分布は、第1トレーニングされる特徴画像の各画素点の重みを指示するために使用される、ことと、
    前記復号化層に対応する空間アテンション重み分布に従って、第1トレーニングされる特徴画像内の各画素点を較正することと、を含む、
    請求項3に記載のネットワークトレーニング方法。
  6. 任意の復号化層について、前記復号化層は、複数の空間アテンショントレーニング層を含み、
    前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定することは、
    前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第1トレーニングされる特徴画像の各画素点の複数の重みを決定することと、
    第1トレーニングされる特徴画像の各画素点の前記複数の重みに従って、前記復号化層に対応する空間アテンション重み分布を決定することと、を含む、
    請求項5に記載のネットワークトレーニング方法。
  7. 前記チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることは、
    前記復号化層に対応するチャネルアテンション重み分布を決定することであって、前記復号化層に対応するチャネルアテンション重み分布は、第2トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、ことと、
    前記復号化層に対応するチャネルアテンション重み分布に従って、第2トレーニングされる特徴画像内の各チャネルを較正することと、を含む、
    請求項3ないし6のいずれか一項に記載のネットワークトレーニング方法。
  8. 前記復号化層に対応するチャネルアテンション重み分布を決定することは、
    第2トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得することと、
    第2トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得することと、
    前記平均プーリング結果および前記最大プーリング結果に従って、前記復号化層に対応するチャネルアテンション重み分布を決定することと、を含む、
    請求項7に記載のネットワークトレーニング方法。
  9. 前記複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、前記特徴抽出結果を決定することは、
    異なるスケールの第3特徴画像を繋ぎ合わせて、第3トレーニングされる特徴画像を取得することであって、第3トレーニングされる特徴画像のスケールは、前記サンプル画像のスケールと同じである、ことと、
    スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることにより、前記特徴抽出結果を決定することと、を含む、
    請求項2ないし8のいずれか一項に記載のネットワークトレーニング方法。
  10. 前記スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることは、
    スケールアテンション重み分布を決定することであって、前記スケールアテンション重み分布は、異なるスケールの重みを指示するために使用される、ことと、
    前記スケールアテンション重み分布に従って、第3トレーニングされる特徴画像を較正することと、を含む、
    請求項9に記載のネットワークトレーニング方法。
  11. 前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである、
    請求項1ないし10のいずれか一項に記載のネットワークトレーニング方法。
  12. 画像処理方法であって、
    セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することを含み、
    前記セグメンテーションネットワークは、請求項1ないし11のいずれか一項に記載のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである、前記画像処理方法。
  13. 前記セグメント化される画像は、セグメント化される医用画像であり、
    前記セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得することは、
    セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得することを含む、
    請求項12に記載の画像処理方法。
  14. ニューラルネットワークモデルをトレーニングし、トレーニングによって得られたニューラルネットワークモデルに従って画像をセグメント化するために使用される、ネットワークトレーニング装置であって、
    セグメンテーションネットワークを介して、プリセットの次元でアテンションメカニズムを使用して、トレーニングサンプルに含まれるサンプル画像に対して特徴抽出を実行して、特徴抽出結果を取得するように構成される特徴抽出モジュールであって、前記プリセットの次元は、空間次元、チャネル次元、およびスケール次元を含み、前記トレーニングサンプルは、前記サンプル画像に対応するセグメンテーションマーク情報をさらに含む、特徴抽出モジュールと、
    前記特徴抽出結果に従って前記サンプル画像に対して画像セグメンテーション処理を実行して、画像セグメンテーション結果を取得するように構成されるセグメンテーションモジュールと、
    前記画像セグメンテーション結果および前記セグメンテーションマーク情報に従って、前記セグメンテーションネットワークをトレーニングするように構成されるトレーニングモジュールと、を備える、前記ネットワークトレーニング装置。
  15. 前記セグメンテーションネットワークは、エンコーダおよびデコーダを含み、前記エンコーダは複数の符号化層を含み、前記デコーダは複数の復号化層を含み、
    前記特徴抽出モジュールは、
    サンプル画像をエンコーダに入力して、各符号化層に対応する第1特徴画像を決定するように構成される第1決定サブモジュールであって、異なる符号化層に対応する第1特徴画像のスケールは異なる、第1決定サブモジュールと、
    任意の復号化層について、前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元およびチャネル次元でアテンションメカニズムを使用して前記復号化層に入力された第2特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定するように構成される第2決定サブモジュールであって、前記復号化層に入力された第2特徴画像は、前記復号化層の前の復号化層に対応する第3特徴画像に従って決定されたものであり、異なる復号化層に対応する第3特徴画像のスケールは異なる、第2決定サブモジュールと、
    複数の復号化層によって決定された複数の異なるスケールの第3特徴画像に従って、特徴抽出結果を決定するように構成される第3決定サブモジュールと、を備える、
    請求項14に記載のネットワークトレーニング装置。
  16. 前記第2決定サブモジュールは、
    前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第4特徴画像を決定するように構成される第1トレーニングユニットであって、前記第1トレーニングされる特徴画像は、前記復号化層に入力された第2特徴画像である、第1トレーニングユニットと、
    前記復号化層に入力された第2特徴画像と前記復号化層に対応する第4特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を取得するように構成される第1繋ぎ合わせユニットと、
    チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定するように構成される第2トレーニングユニットと、を備える、
    請求項15に記載のネットワークトレーニング装置。
  17. 前記第2決定サブモジュールは、
    前記復号化層のスケールに対応する第1特徴画像と前記復号化層に入力された第2特徴画像とを繋ぎ合わせて、第2トレーニングされる特徴画像を決定するように構成される第2繋ぎ合わせユニットと、
    チャネル次元でアテンションメカニズムを使用して第2トレーニングされる特徴画像をトレーニングすることにより、第1トレーニングされる特徴画像を決定するように構成される第2トレーニングユニットと、
    前記復号化層のスケールに対応する第1特徴画像を使用し、空間次元でアテンションメカニズムを使用して第1トレーニングされる特徴画像をトレーニングすることにより、前記復号化層に対応する第3特徴画像を決定するように構成される第1トレーニングユニットと、を備える、
    請求項15に記載のネットワークトレーニング装置。
  18. 前記第1トレーニングユニットは、
    前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像に従って、前記復号化層に対応する空間アテンション重み分布を決定するように構成される第1決定サブユニットであって、前記復号化層に対応する空間アテンション重み分布は、第1トレーニングされる特徴画像の各画素点の重みを指示するために使用される、第1決定サブユニットと、
    前記復号化層に対応する空間アテンション重み分布に従って、第1トレーニングされる特徴画像内の各画素点を較正するように構成される第1較正サブユニットと、を備える、
    請求項16に記載のネットワークトレーニング装置。
  19. 任意の復号化層について、前記復号化層は、複数の空間アテンショントレーニング層を含み、
    前記第1決定サブユニットは、さらに、
    前記復号化層のスケールに対応する第1特徴画像および第1トレーニングされる特徴画像を前記複数の空間アテンショントレーニング層にそれぞれ入力して、第1トレーニングされる特徴画像の各画素点の複数の重みを決定し、
    第1トレーニングされる特徴画像の各画素点の複数の重みに従って、前記復号化層に対応する空間アテンション重み分布を決定するように構成される、
    請求項18に記載のネットワークトレーニング装置。
  20. 前記第2トレーニングユニットは、
    前記復号化層に対応するチャネルアテンション重み分布を決定するように構成される第2決定サブユニットであって、前記復号化層に対応するチャネルアテンション重み分布は、第2トレーニングされる特徴画像の各チャネルの重みを指示するために使用される、第2決定サブユニットと、
    前記復号化層に対応するチャネルアテンション重み分布に従って、第2トレーニングされる特徴画像内の各チャネルを較正するように構成される第2較正サブユニットと、を備える、
    請求項16ないし19のいずれか一項に記載のネットワークトレーニング装置。
  21. 前記第2決定サブユニットは、さらに、
    第2トレーニングされる特徴画像に対して平均プーリング操作を実行して、平均プーリング結果を取得し、
    第2トレーニングされる特徴画像に対して最大プーリング操作を実行して、最大プーリング結果を取得し、
    前記平均プーリング結果および前記最大プーリング結果に従って、前記復号化層に対応するチャネルアテンション重み分布を決定するように構成される、
    請求項20に記載のネットワークトレーニング装置。
  22. 前記第3決定サブモジュールは、
    異なるスケールの第3特徴画像を繋ぎ合わせて、第3トレーニングされる特徴画像を取得するように構成される第3繋ぎ合わせユニットであって、第3トレーニングされる特徴画像のスケールは、サンプル画像のスケールと同じである、第3繋ぎ合わせユニットと、
    スケール次元でアテンションメカニズムを使用して第3トレーニングされる特徴画像をトレーニングすることにより、特徴抽出結果を決定するように構成される決定ユニットと、を備える、
    請求項15ないし21のいずれか一項に記載のネットワークトレーニング装置。
  23. 前記決定ユニットは、さらに、
    スケールアテンション重み分布を決定し、スケールアテンション重み分布は、異なるスケールの重みを指示するために使用され、
    スケールアテンション重み分布に従って、第3トレーニングされる特徴画像を較正するように構成される、
    請求項22に記載のネットワークトレーニング装置。
  24. 前記サンプル画像は医用画像であり、前記セグメンテーションマーク情報は、手動でマークされたゴールドスタンダードである、
    請求項14ないし23のいずれか一項に記載のネットワークトレーニング装置。
  25. 電子機器であって、
    プロセッサと、
    プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、前記メモリに記憶された命令を呼び出して、請求項1ないし11のいずれか一項に記載のネットワークトレーニング方法を実行するように構成される、前記電子機器。
  26. コンピュータプログラム命令が記憶された、コンピュータ可読記憶媒体であって、
    前記コンピュータプログラム命令がプロセッサによって実行される時に、請求項1ないし11のいずれか一項に記載のネットワークトレーニング方法を実現する、前記コンピュータ可読記憶媒体。
  27. 画像処理装置であって、
    セグメンテーションネットワークを介して、セグメント化される画像に対して画像セグメンテーション処理を実行して、セグメンテーション結果を取得するように構成される画像処理モジュールを備え、
    前記セグメンテーションネットワークは、請求項1ないし11のいずれか一項に記載のネットワークトレーニング方法を使用してトレーニングすることによって得られたものである、前記画像処理装置。
  28. 前記セグメント化される画像は、セグメント化される医用画像であり、
    前記画像処理モジュールは、セグメンテーションネットワークを介して、セグメント化される医用画像に対して画像セグメンテーション処理を実行して、セグメント化された病変領域または標的臓器領域を取得するように構成される、
    請求項27に記載の画像処理装置。
  29. 電子機器であって、
    プロセッサと、
    プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、前記メモリに記憶された命令を呼び出して、請求項12または13に記載の画像処理方法を実行するように構成される、前記電子機器。
  30. コンピュータプログラム命令が記憶された、コンピュータ可読記憶媒体であって、
    前記コンピュータプログラム命令がプロセッサによって実行される時に、請求項12または13に記載の画像処理方法を実現する、前記コンピュータ可読記憶媒体。
JP2021539612A 2020-01-20 2020-07-07 ネットワークトレーニング、画像処理方法および電子機器、記憶媒体並びにコンピュータプログラム Pending JP2022521130A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010065998.9A CN111310764B (zh) 2020-01-20 2020-01-20 网络训练、图像处理方法及装置、电子设备和存储介质
CN202010065998.9 2020-01-20
PCT/CN2020/100723 WO2021147257A1 (zh) 2020-01-20 2020-07-07 网络训练、图像处理方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
JP2022521130A true JP2022521130A (ja) 2022-04-06

Family

ID=71146977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021539612A Pending JP2022521130A (ja) 2020-01-20 2020-07-07 ネットワークトレーニング、画像処理方法および電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
JP (1) JP2022521130A (ja)
KR (1) KR20210140757A (ja)
CN (1) CN111310764B (ja)
TW (1) TWI743931B (ja)
WO (1) WO2021147257A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310764B (zh) * 2020-01-20 2024-03-26 上海商汤智能科技有限公司 网络训练、图像处理方法及装置、电子设备和存储介质
CN112102251B (zh) * 2020-08-20 2023-10-31 上海壁仞智能科技有限公司 一种分割影像的方法及装置、电子设备和存储介质
CN112183507B (zh) * 2020-11-30 2021-03-19 北京沃东天骏信息技术有限公司 图像分割方法、装置、设备、存储介质
CN112733886A (zh) * 2020-12-24 2021-04-30 西人马帝言(北京)科技有限公司 样本图像的处理方法、装置、设备及存储介质
CN113223730B (zh) * 2021-03-30 2023-06-06 武汉市疾病预防控制中心 基于人工智能的疟疾分类方法及设备
CN113377986B (zh) * 2021-06-23 2023-11-07 泰康保险集团股份有限公司 图像检索方法和装置
CN113989593A (zh) * 2021-10-29 2022-01-28 北京百度网讯科技有限公司 图像处理方法、检索方法、训练方法、装置、设备及介质
CN114267443B (zh) * 2021-11-08 2022-10-04 东莞市人民医院 基于深度学习的胰腺肿瘤纤维化程度预测方法及相关装置
CN114119351A (zh) * 2021-11-08 2022-03-01 清华大学 图像处理方法、装置、电子设备及存储介质
WO2023101276A1 (ko) * 2021-11-30 2023-06-08 삼성전자 주식회사 영상 처리 장치 및 그 동작 방법
CN114399629A (zh) * 2021-12-22 2022-04-26 北京沃东天骏信息技术有限公司 一种目标检测模型的训练方法、目标检测的方法和装置
CN114330711A (zh) * 2021-12-31 2022-04-12 上海壁仞智能科技有限公司 训练方法及装置、图像处理方法、电子设备和存储介质
CN114418069B (zh) * 2022-01-19 2024-06-14 腾讯科技(深圳)有限公司 一种编码器的训练方法、装置及存储介质
CN114429548A (zh) * 2022-01-28 2022-05-03 北京百度网讯科技有限公司 图像处理方法、神经网络及其训练方法、装置和设备
CN114596370A (zh) * 2022-03-04 2022-06-07 深圳万兴软件有限公司 视频色彩转换方法、装置、计算机设备及存储介质
CN114897848A (zh) * 2022-05-20 2022-08-12 中国农业大学 一种鱼苗计数方法、装置、电子设备与存储介质
CN114764858B (zh) * 2022-06-15 2022-11-01 深圳大学 一种复制粘贴图像识别方法、装置、计算机设备及存储介质
CN115131608B (zh) * 2022-06-17 2024-08-27 广东技术师范大学 一种细粒度图像分类方法、装置、计算机设备及存储介质
CN114782440B (zh) * 2022-06-21 2022-10-14 杭州三坛医疗科技有限公司 医学图像分割方法及电子设备
CN115330808B (zh) * 2022-07-18 2023-06-20 广州医科大学 一种分割引导的磁共振图像脊柱关键参数自动测量方法
CN115034375B (zh) * 2022-08-09 2023-06-27 北京灵汐科技有限公司 数据处理方法及装置、神经网络模型、设备、介质
CN115430066A (zh) * 2022-09-13 2022-12-06 苏州雷泰医疗科技有限公司 超声装置、包括该超声装置的放射治疗设备及其工作方法
CN116402779B (zh) * 2023-03-31 2024-07-23 北京长木谷医疗科技股份有限公司 基于深度学习注意力机制的颈椎图像分割方法及装置
CN116704666A (zh) * 2023-06-21 2023-09-05 合肥中科类脑智能技术有限公司 售卖方法及计算机可读存储介质、自动售卖机
CN116955965B (zh) * 2023-09-20 2024-02-02 山东鑫泰莱光电股份有限公司 一种基于太阳能数据故障预测方法、设备以及存储介质
CN117351183B (zh) * 2023-10-09 2024-06-04 广州医科大学附属第一医院(广州呼吸中心) 子宫内膜癌淋巴结转移智能识别方法及系统
CN117437463B (zh) * 2023-10-19 2024-05-24 上海策溯科技有限公司 基于图像处理的医学影像数据处理方法及处理平台
CN118297970B (zh) * 2024-04-08 2024-09-17 中国人民解放军空军特色医学中心 一种胸腰椎x射线片分割方法及装置
CN118172677B (zh) * 2024-05-14 2024-08-16 山东科技大学 基于神经网络识别的尾矿排水固结的规划方法及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN109410216A (zh) * 2018-09-14 2019-03-01 北京市商汤科技开发有限公司 一种缺血性脑卒中图像区域分割方法及装置
CN109614991A (zh) * 2018-11-19 2019-04-12 成都信息工程大学 一种基于Attention的多尺度扩张性心肌的分割分类方法
CN110176012A (zh) * 2019-05-28 2019-08-27 腾讯科技(深圳)有限公司 图像中的目标分割方法、池化方法、装置及存储介质
CN110188765A (zh) * 2019-06-05 2019-08-30 京东方科技集团股份有限公司 图像语义分割模型生成方法、装置、设备及存储介质
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network
JP2019537147A (ja) * 2016-11-18 2019-12-19 セールスフォース ドット コム インコーポレイティッド 画像キャプション生成のための空間的注目モデル

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW514513B (en) * 1996-02-06 2002-12-21 Deus Technologies Inc Method for the detection of lung nodule in radiological images using digital image processing and artificial neural network
US10049279B2 (en) * 2016-03-11 2018-08-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding
CN109446970B (zh) * 2018-10-24 2021-04-27 西南交通大学 一种基于深度学习的变电站巡检机器人道路场景识别方法
CN109829501B (zh) * 2019-02-01 2021-02-19 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放军火箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN110633755A (zh) * 2019-09-19 2019-12-31 北京市商汤科技开发有限公司 网络训练方法、图像处理方法及装置、电子设备
CN111310764B (zh) * 2020-01-20 2024-03-26 上海商汤智能科技有限公司 网络训练、图像处理方法及装置、电子设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019537147A (ja) * 2016-11-18 2019-12-19 セールスフォース ドット コム インコーポレイティッド 画像キャプション生成のための空間的注目モデル
CN108830157A (zh) * 2018-05-15 2018-11-16 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN109410216A (zh) * 2018-09-14 2019-03-01 北京市商汤科技开发有限公司 一种缺血性脑卒中图像区域分割方法及装置
CN109614991A (zh) * 2018-11-19 2019-04-12 成都信息工程大学 一种基于Attention的多尺度扩张性心肌的分割分类方法
CN110176012A (zh) * 2019-05-28 2019-08-27 腾讯科技(深圳)有限公司 图像中的目标分割方法、池化方法、装置及存储介质
CN110188765A (zh) * 2019-06-05 2019-08-30 京东方科技集团股份有限公司 图像语义分割模型生成方法、装置、设备及存储介质
US10482603B1 (en) * 2019-06-25 2019-11-19 Artificial Intelligence, Ltd. Medical image segmentation using an integrated edge guidance module and object segmentation network

Also Published As

Publication number Publication date
CN111310764A (zh) 2020-06-19
CN111310764B (zh) 2024-03-26
TW202129543A (zh) 2021-08-01
TWI743931B (zh) 2021-10-21
WO2021147257A1 (zh) 2021-07-29
KR20210140757A (ko) 2021-11-23

Similar Documents

Publication Publication Date Title
JP2022521130A (ja) ネットワークトレーニング、画像処理方法および電子機器、記憶媒体並びにコンピュータプログラム
CN111368923B (zh) 神经网络训练方法及装置、电子设备和存储介质
TWI755853B (zh) 圖像處理方法、電子設備和電腦可讀儲存介質
WO2022151755A1 (zh) 目标检测方法及装置、电子设备、存储介质、计算机程序产品和计算机程序
US20210319560A1 (en) Image processing method and apparatus, and storage medium
CN107680684B (zh) 用于获取信息的方法及装置
TWI754375B (zh) 圖像處理方法、電子設備、電腦可讀儲存介質
TWI755175B (zh) 圖像分割方法、電子設備和儲存介質
CN107729929B (zh) 用于获取信息的方法及装置
WO2022036972A1 (zh) 图像分割方法及装置、电子设备和存储介质
CN113470029B (zh) 训练方法及装置、图像处理方法、电子设备和存储介质
WO2021259391A2 (zh) 图像处理方法及装置、电子设备和存储介质
CN113222038B (zh) 基于核磁图像的乳腺病灶分类和定位方法及装置
CN114820584B (zh) 肺部病灶定位装置
TWI765404B (zh) 圖像定位的互動顯示方法、電子設備和電腦可讀儲存媒體
JP2022548453A (ja) 画像分割方法及び装置、電子デバイス並びに記憶媒体
JP2022518583A (ja) ニューラルネットワークトレーニングおよび画像分割方法、装置、機器
CN111640114B (zh) 图像处理方法及装置
CN115170464A (zh) 肺图像的处理方法、装置、电子设备和存储介质
CN117218133A (zh) 肺图像处理方法及装置、电子设备和存储介质
WO2021259394A2 (zh) 一种图像处理方法及装置、电子设备和存储介质
CN112802032A (zh) 图像分割网络的训练和图像处理方法、装置、设备及介质
CN112767347A (zh) 一种图像配准方法及装置、电子设备和存储介质
CN111968106A (zh) 图像处理方法及装置、电子设备和存储介质
CN113553460B (zh) 影像检索方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210707

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230323