JP2022537974A

JP2022537974A - ニューラルネットワーク訓練方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2022537974A
Application number: JP2021574781A
Authority: JP
Inventors: ナーワン; タオソン; シンロンリウ; ニンホアン; シャオティンジャン
Original assignee: シャンハイセンスタイムインテリジェントテクノロジーカンパニーリミテッド
Priority date: 2020-03-05
Filing date: 2020-07-07
Publication date: 2022-08-31
Also published as: TWI770754B; TW202133787A; WO2021174739A1; CN111368923A; KR20220009451A; CN111368923B

Abstract

本願の実施例は、ニューラルネットワーク訓練方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、ニューラルネットワークモデルを訓練し、訓練されたニューラルネットワークモデルにより、画像を分類するために用いられ、前記方法は、サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を取得することと、サンプル画像におけるターゲット領域の位置情報に基づいてセグメンテーションを行い、少なくとも１つのサンプル画像ブロックを得ることと、カテゴリ情報に基づいて、少なくとも１つのサンプル画像ブロックを分類し、Ｎカテゴリのサンプル画像ブロックを得ることと、Ｎカテゴリのサンプル画像ブロックをニューラルネットワークに入力して訓練を行うことと、を含む。

Description

（関連出願の相互参照）
本願は、２０２０年０３月０５日に中国特許局に提出された、出願番号が２０２０１０１４８５４４．８である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。

本願は、コンピュータ技術分野に関し、特にニューラルネットワーク訓練方法及び装置、電子機器並びに記憶媒体に関する。

機械学習などの方法は、画像処理分野において広く適用されている。例えば、一般的な画像又は三次元画像の分類及び画像検出などの分野に適用可能である。例えば、医用画像処理において、機械学習方法で疾患カテゴリの決定及び病変領域の検出などを行うことができる。

医用画像の処理において、肺部医用画像（例えば、肺部コンピュータ断層撮影（ＣｏｍｐｕｔｅｄＴｏｍｏｇｒａｐｈｙ：ＣＴ））の分類及び検出は、肺炎、肺癌などの病変のスクリーニング及び診断に重要な役割を果たす。手術前に病変特徴を早期に発見することは、臨床的に極めて重要であり、臨床的意思決定のためのガイダンスを提供することができる。しかしながら、早期癌の典型的な放射線医学的特徴（肺胞が明瞭であり、胸膜が収縮するなど等）が欠けているため、臨床的に、専門医師又は放射線科医は、ＣＴ画像から、亜型すりガラス型結節（Ｇｒｏｕｎｄ－ＧｌａｓｓＮｏｄｕｌｅ：ＧＧＮ）カテゴリを正確に鑑別診断することが困難である。

本願の実施例は、ニューラルネットワーク訓練方法及び装置、電子機器並びに記憶媒体を提供する。

本願の実施例は、ニューラルネットワーク訓練方法を提供する。前記ニューラルネットワーク訓練方法は、ニューラルネットワークモデルを訓練し、訓練されたニューラルネットワークモデルにより、画像を分類するために用いられ、前記方法は、サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を取得することと、前記サンプル画像におけるターゲット領域の位置情報に基づいてセグメンテーションを行い、少なくとも１つのサンプル画像ブロックを得ることと、前記カテゴリ情報に基づいて、前記少なくとも１つのサンプル画像ブロックを分類し、Ｎカテゴリのサンプル画像ブロックを得ることであって、Ｎは整数であり、且つＮ≧１である、ことと、前記Ｎカテゴリのサンプル画像ブロックをニューラルネットワークに入力して訓練を行うことと、を更に含む。

本願の実施例のニューラルネットワーク訓練方法によれば、サンプル画像ブロックに対して細かい分類を行うことができ、ニューラルネットワークに対して訓練を行う。これにより、ニューラルネットワークは画像に対して細かい分類を行うことができ、分類効率及び正確度を向上させることができる。

本願の幾つかの実施例において、前記サンプル画像は、医用映像ピクチャである。

本願の幾つかの実施例において、サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を取得することは、前記医用映像ピクチャにおけるターゲット領域に対して位置決めを行い、前記ターゲット領域の位置情報を得ることと、前記医用映像ピクチャに関連する病理学的ピクチャを取得することであって、前記病理学的ピクチャは、診断された、病理学的情報を含むピクチャである、ことと、前記病理学的ピクチャにおける各ターゲット領域の病理学的情報に基づいて、前記医用映像ピクチャにおけるターゲット領域のカテゴリ情報を決定することと、を含む。

本願の幾つかの実施例において、前記Ｎカテゴリのサンプル画像ブロックをニューラルネットワークに入力して訓練を行うことは、いずれか１つのサンプル画像ブロックを前記ニューラルネットワークに入力して訓練を行い、サンプル画像ブロックのカテゴリ予測情報及び予測ターゲット領域を得ることと、少なくとも前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、分類損失を決定することと、前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、セグメンテーション損失を決定することと、前記分類損失及び前記セグメンテーション損失に基づいて、前記ニューラルネットワークを訓練することと、を含む。

本願の幾つかの実施例において、前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、分類損失を決定することは、前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、第１分類損失を決定することと、前記カテゴリ予測情報及び前記サンプル画像ブロックが属するカテゴリのカテゴリセンターのカテゴリ情報に基づいて、第２分類損失を決定することと、前記第１分類損失及び前記第２分類損失に対して加重加算処理を行い、前記分類損失を得ることと、を含む。

このような方式で、訓練において、同一のカテゴリのサンプル画像ブロックのカテゴリ特徴をより寄せ集めることができ、カテゴリが異なるサンプル画像ブロックのカテゴリ情報間の特徴距離をより大きくすることができ、分類性能の向上及び分類の正確率の向上に寄与する。

本願の幾つかの実施例において、前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、セグメンテーション損失を決定することは、前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記予測ターゲット領域の第１重み及び前記サンプル画像ブロックにおけるサンプル背景領域の第２重みを決定することと、前記第１重み、第２重み、前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、前記セグメンテーション損失を決定することと、を含む。

本願の幾つかの実施例において、前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記予測ターゲット領域の第１重み及び前記サンプル画像ブロックにおけるサンプル背景領域の第２重みを決定することは、前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記サンプル画像ブロックにおけるサンプル背景領域の第２割合を決定することと、前記第２割合を前記第１重みとして決定し、前記第１割合を第２重みとして決定することと、を含む。

このような方式で、ターゲット領域の誤差と非ターゲット領域の誤差のバランスを取り、ネットワークパラメータの最適化に寄与し、訓練効率及び訓練効果を向上させる。

本願の幾つかの実施例において、前記カテゴリ情報は、前浸潤性腺癌異型腺腫様過形成結節、上皮内腺癌結節、微小浸潤腺癌結節及び浸潤性腺癌結節を含む。

本願の幾つかの実施例において、前記ニューラルネットワークは、共有特徴抽出ネットワーク、分類ネットワーク及びセグメンテーションネットワークを含み、前記方法は、処理されるべき画像ブロックを前記共有特徴抽出ネットワークに入力して処理を行い、前記処理されるべき画像ブロックのターゲット特徴を得ることであって、前記共有特徴抽出ネットワークは、Ｍ個の共有特徴抽出ブロックを備え、ｉ番目の共有特徴抽出ブロックの入力特徴は、最初のｉ－１個の共有特徴抽出ブロックの出力特徴を含み、ｉ及びＭは整数であり、且つ１＜ｉ≦Ｍである、ことと、前記ターゲット特徴を前記分類ネットワークに入力して分類処理を行い、前記処理されるべき画像ブロックのカテゴリ情報を得ることと、前記ターゲット特徴を前記セグメンテーションネットワークに入力してセグメンテーション処理を行い、前記処理されるべき画像ブロックにおけるターゲット領域を得ることと、を含む。

このような方式で、共有特徴抽出ネットワークによりターゲット特徴を得ることができる。共有特徴抽出ネットワークの共有特徴抽出ブロックは、この前の全ての共有特徴抽出ブロックの出力特徴を得て、自己の出力特徴を後続の全ての共有特徴抽出ブロックに入力することができる。ネットワーク内の勾配移動を強化し、勾配消失減少を軽減すると同時に、特徴抽出及び学習能力を向上させることができる。入力された処理されるべき画像ブロックに対するより細かい分類及びセグメンテーション処理に寄与する。処理されるべき画像ブロックの細かいカテゴリ情報及びターゲット領域を得て、画像処理効率を向上させることができる。

本願の幾つかの実施例において、処理されるべき画像ブロックを前記共有特徴抽出ネットワークに入力して処理を行い、前記処理されるべき画像ブロックのターゲット特徴を得ることは、前記処理されるべき画像ブロックに対して第１特徴抽出処理を行い、前記処理されるべき画像ブロックの第１特徴を得ることと、前記第１特徴を１番目の共有特徴抽出ブロックに入力し、前記１番目の共有特徴抽出ブロックの出力特徴を得て、前記１番目の共有特徴抽出ブロックの出力特徴を後続のＭ－１個の共有特徴抽出ブロックに出力することと、最初のｊ－１個の共有特徴抽出ブロックの出力特徴をｊ番目の共有特徴抽出ブロックに入力し、前記ｊ番目の共有特徴抽出ブロックの出力特徴を得ることであって、ｊは整数であり、且つ１＜ｊ＜Ｍである、ことと、Ｍ番目の共有特徴抽出ブロックの出力特徴に対して第２特徴抽出処理を行い、前記処理されるべき画像ブロックの第２特徴を得ることと、前記第２特徴に対してプーリング処理を行い、前記ターゲット特徴を得ることと、を含む。

本願の幾つかの実施例において、前記方法は、処理されるべき画像に対して前処理を行い、第１画像を得ることと、前記第１画像におけるターゲット領域に対して位置決めを行い、前記第１画像におけるターゲット領域の位置情報を決定することと、前記第１画像におけるターゲット領域の位置情報に基づいて、セグメンテーションを行い、少なくとも１つの前記処理されるべき画像ブロックを得ることと、を更に含む。

本願の実施例は、ニューラルネットワーク訓練装置を提供する。前記ニューラルネットワーク訓練装置は、ニューラルネットワークモデルを訓練し、訓練されたニューラルネットワークモデルにより、画像を分類するために用いられ、前記装置は、サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を取得するように構成される取得モジュールと、前記サンプル画像におけるターゲット領域の位置情報に基づいてセグメンテーションを行い、少なくとも１つのサンプル画像ブロックを得るように構成される第１セグメンテーションモジュールと、前記カテゴリ情報に基づいて、前記少なくとも１つのサンプル画像ブロックを分類し、Ｎカテゴリのサンプル画像ブロックを得るように構成される分類モジュールであって、Ｎは整数であり、且つＮ≧１である、分類モジュールと、前記Ｎカテゴリのサンプル画像ブロックをニューラルネットワークに入力して訓練を行うように構成される訓練モジュールと、を備える。

本願の実施例は、電子機器を提供する。前記電子機器は、プロセッサと、プロセッサによる実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、前記プロセッサは、前記コンピュータプログラムにより、上記ニューラルネットワーク訓練方法を実行するように構成される。

本願の実施例は、記憶媒体を提供する。前記記憶媒体にコンピュータプログラムが記憶されており、前記コンピュータプログラムは、実行される時に上記ニューラルネットワーク訓練方法を実行するように構成される。

本願の実施例は、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードは電子機器で実行されると、電子機器におけるプロセッサは、上記ニューラルネットワーク訓練方法を実行するように構成される。

上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。本願の他の特徴及び態様は、下記の図面に基づく例示的な実施例の詳細な説明を参照すれば明らかになる。

ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。
本願の実施例によるニューラルネットワーク訓練方法のシステムアーキテクチャを示す概略図である。本願の実施例によるニューラルネットワーク訓練方法の実現フローを示す図である。本願の実施例によるニューラルネットワーク訓練方法の適用を示す概略図である。本願の実施例によるニューラルネットワーク訓練装置を示す概略図である。本願の実施例による電子機器を示す概略図である。本願の実施例によるもう１つの電子機器を示す概略図である。

以下、図面を参照しながら本願の種々の例示的な実施例、特徴及び態様を詳しく説明する。図面における同一の符号は、同一または類似する機能を有する要素を示す。図面は、実施例の種々の態様を示しているが、特別な説明がない限り、必ずしも比率どおりの図面ではない。

ここで使用した「例示的」という用語は「例、実施例として用いられるか、または説明のためのものである」ことを意味する。ここで、「例示的なもの」として説明される如何なる実施例は、他の実施例より好適または有利であると必ずしも解釈されるべきではない。

本明細書において、用語「及び／又は」は、関連対象の関連関係を説明するためのものであり、３通りの関係が存在することを表す。例えば、Ａ及び／又はＢは、Ａのみが存在すること、ＡとＢが同時に存在すること、Ｂのみが存在するという３つの場合を表す。また、本明細書において、用語「少なくとも１つ」は、複数のうちのいずれか１つ又は複数のうちの少なくとも２つの任意の組み合わせを表す。例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選ばれるいずれか１つ又は複数の要素を含むことを表す。

なお、本願をより良く説明するために、以下の具体的な実施形態において具体的な細部を多く記載した。当業者は、これら具体的な詳細に関わらず、本開示は同様に実施可能であると理解すべきである。本発明の主旨を明確にするために、一部の実例において、当業者に熟知されている方法、手段、素子及び回路については詳しく説明しないことにする。

本願の実施例を更に詳しく説明する前に、まず、関連技術における欠点を説明する。

関連技術において、機械学習などの方法は、画像処理分野において広く適用されている。例えば、一般的な画像又は三次元画像の分類及び画像検出などの分野に適用可能である。

肺癌は、わが国ではよく見られる悪性腫瘍の１つであり、その死亡率は、都市又は農村、男性又は女性に関わらず、癌の中で第１位の死亡原因である。ここで、腺癌は、全ての肺癌の約４０％を占める。医用画像（例えば、肺部ＣＴ及び低線量ヘリカルＣＴ）を用いてスクリーニングを行うと、ますます多くの早期肺腺癌は、すりガラス型結節（Ｇｒｏｕｎｄ－ＧｌａｓｓＮｏｄｕｌｅ：ＧＧＮ）として発見されて表現される。腺癌は、前浸潤性腺癌異型腺腫様過形成（ＡｔｙｐｉｃａｌＡｄｅｎｏｍａｔｏｕｓＨｙｐｅｒｐｌａｓｉａＯｆＰｒｅｉｎｖａｓｉｖｅＡｄｅｎｏｃａｒｃｉｎｏｍａ：ＡＡＨＯＰＡ）、上皮内腺癌（ＡｄｅｎｏｃａｒｃｉｎｏｍａＩｎＳｉｔｕ：ＡＩＳ）、微小浸潤腺癌（ＭｉｎｉｍａｌｌｙＩｎｖａｓｉｖｅＡｄｅｎｏｃａｒｃｉｎｏｍａ：ＭＩＡ）及び浸潤性腺癌（ＩｎｖａｓｉｖｅＡｄｅｎｏｃａｒｃｉｎｏｍａ：ＩＡ）に分けられる。腺癌のＧＧＮカテゴリは、前浸潤性腺癌異型腺腫様過形成結節、上皮内腺癌結節、微小浸潤腺癌結節及び浸潤性腺癌結節を含む。腫瘍の大きさの増加に伴い、生存期間は著しく低減する。これは、早期発見及び診断が患者の死亡率を低下させるための有効かつ重要な方法であることを表す。従って、手術前に、浸潤性特徴を早期に発見することは、臨床的に重要であり、臨床的意思決定のためのガイダンスを提供することができる。

医用画像処理において、肺部医用画像（例えば、肺部ＣＴ）の分類及び検出は、医学的スクリーニング及び肺炎、肺癌などの診断において、重要な役割を果たしている。関連技術において、機械学習などの方式で、疾患カテゴリの決定及び病変領域の検出などを行うことができる。例えば、入力された結節画像が悪性腫瘍であるかそれとも良性腫瘍であるかを予測する。しかしながら、関連技術において、予測結果に対して細かい分類を行っていない。また、早期癌の典型的な放射線医学的特徴（肺胞が明瞭であり、胸膜が収縮するなど等）が欠けているため、臨床的に、専門医師又は放射線科医は、ＣＴ画像から、亜型ＧＧＮカテゴリを正確に鑑別診断することが困難である。この場合、人工知能に基づいたコンピュータ支援診断は、結節の浸潤性を評価するためのより有効な方法であり、臨床的な評価タスクに重要な役割を果たすことが望まれている。

図１を参照すると、図１は、本願の実施例によるニューラルネットワーク訓練方法のシステムアーキテクチャを示す概略図である。図１に示すように、該システムアーキテクチャに、ＣＴ装置１００、サーバ２００、ネットワーク３００及び端末装置４００が備えられる。１つの例示的な適用をサポートすることを実現させるために、ＣＴ装置１００は、ネットワーク３００を介して端末装置４００に接続され、端末装置４００は、ネットワークを介してサーバ２００に接続され、ＣＴ装置１００は、ＣＴ画像を収集するために用いられ、例えば、Ｘ線ＣＴ装置又はγ線ＣＴ装置などのような、人体の部位の一定の厚さの層面を走査できる端末であってもよい。端末装置４００は、ノートパソコン、タブレット、デスクトップコンピュータ、専用メッセージング装置などのような、画面表示機能を有する装置であってもよい。ネットワーク３００は、広域ネットワークまたはローカルエリアネットワークであってもよく、又は両者の組み合わせであってもよい。これは、無線リンクによりデータ伝送を実現させる。

サーバ２００は、本願の実施例で提供されるニューラルネットワーク訓練方法に基づいて、設計された三次元分類フレームワークにより、取得した訓練用医学的映像ピクチャにおける各病理学的に証明された肺結節領域を小さい画像ブロックに裁断し、更に画像ブロックに対して分類を行い、訓練データを得て、訓練データをニューラルネットワークに入力して訓練を行う。これにより、ニューラルネットワークは、訓練用医用映像ピクチャに対して細かい分類を行う。訓練を完了した後に、訓練されたニューラルネットワークモデルを得る。医用映像ピクチャは、病院、健康診断センタなどの機構のＣＴ装置１００により収集された患者又は身体検査者の肺部ＣＴ画像であってもよい。サーバ２００は、端末装置４００から、ＣＴ装置１００により収集された医用映像ピクチャを取得して訓練用医用映像ピクチャとすることができ、ＣＴ装置から、訓練用医用映像ピクチャを取得することもでき、ネットワークから、訓練用医用映像ピクチャを取得することもできる。

サーバ２００は、独立した物理サーバであってもよく、複数の物理サーバからなるサーバカテゴリタ又は分散型システムであってもよく、クラウド技術に基づいたクラウドサーバであってもよい。クラウド技術は、広域ネットワークまたはローカルエリアネットワークにおいて、ハードウェア、ソフトウェア、ネットワークなどの一連のリソースを統合し、データの演算、記憶、処理及び共有を実現させるホスティング技術である。本願の実施例において、サーバ２００がクラウドサーバである場合、提供される人工知能クラウドサービスは、ニューラルネットワークモデルを含んでもよい。また、細かく分類された訓練データに基づいてニューラルネットワークを訓練する。これにより、ニューラルネットワークは、医用映像ピクチャに対して細かい分類を行う。

一例として、サーバ２００は、処理されるべき医用映像ピクチャ（例えば、肺部ＣＴ画像）を受信した後、訓練されたニューラルネットワークに基づいて、医用映像ピクチャに対して、分類、セグメンテーションなどの処理を行い、細かく分類された病巣領域を得る。続いて、サーバ２００は、医療従事者による検討のために、得られた細かく分類された病巣領域を端末装置４００に返信して表示する。

本願の幾つかの実施例において、サーバ２００は、訓練を完了した後、訓練されたニューラルネットワークを端末装置４００に送信し、端末装置４００により、収集された処理されるべき医用映像ピクチャ（例えば、肺部ＣＴ画像）に対して分類、セグメンテーション等の処理を行い、細かく分類された病巣領域を得て、医療従事者による検討のために、得られた細かく分類された病巣領域を自己のディスプレイに表示する。

本願の幾つかの実施例において、ニューラルネットワーク訓練方法のシステムアーキテクチャに、ＣＴ装置１００、ネットワーク３００及び端末装置４００が備えられる。端末装置４００により、訓練用医用映像ピクチャを訓練し、訓練されたニューラルネットワークを得る。端末装置４００により、収集された医用映像ピクチャ（例えば、肺部ＣＴ画像）に対して分類、セグメンテーションなどの処理を行い、細かく分類された病巣領域を得て、医療従事者による検討のために、得られた細かく分類された病巣領域を自己のディスプレイに表示する。

本願の実施例は、ニューラルネットワーク訓練方法を提供する。前記方法は、ニューラルネットワーク訓練装置に適用され、前記ニューラルネットワーク訓練装置は、サーバであってもよく、ニューラルネットワークモデルを訓練し、訓練されたニューラルネットワークモデルに基づいて画像を分類するために用いられる。本願の実施例で提供される方法は、コンピュータプログラムにより実現してもよい。該コンピュータプログラムが実行されると、本願の実施例で提供されるニューラルネットワーク訓練方法における各ステップを完了する。幾つかの実施例において、該コンピュータプログラムは、プロセッサにより実行されてもよい。図２は、本願の実施例によるニューラルネットワーク訓練方法の実現フローを示す図である。図２に示すように、前記方法は以下を含む。

ステップＳ１１において、サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を取得する。

ステップＳ１２において、前記サンプル画像におけるターゲット領域の位置情報に基づいてセグメンテーションを行い、少なくとも１つのサンプル画像ブロックを得る。

ステップＳ１３において、前記カテゴリ情報に基づいて、前記少なくとも１つのサンプル画像ブロックを分類し、Ｎカテゴリのサンプル画像ブロックを得て、Ｎは整数であり、且つＮ≧１である。

ステップＳ１４において、前記Ｎカテゴリのサンプル画像ブロックをニューラルネットワークに入力して訓練を行う。

本願の幾つかの実施例において、前記ニューラルネットワーク訓練方法は、端末装置及び他の処理装置により実行されてもよい。ここで、端末装置は、ユーザ装置（ＵｓｅｒＥｑｕｉｐｍｅｎｔ：ＵＥ）、携帯機器、ユーザ端末、端末、セルラー電話、コードレス電話機、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ：ＰＤＡ）、ハンドヘルドデバイス、コンピューティングデバイス、車載機器、ウェアラブル機器などであってもよい。他の処理装置は、サーバ又はクラウドサーバであってもよい。本願の幾つかの実施例において、該ニューラルネットワーク訓練方法は、プロセッサによりメモリに記憶されているコンピュータプログラムを呼び出すことで実現することができる。

本願の幾つかの実施例において、前記サンプル画像は、医用映像ピクチャであり、例えば、肺部ＣＴ画像などである。サンプル画像ブロックは、サンプル画像における、ターゲット領域を含む画像ブロックであってもよい。例において、サンプル画像は、アノテーション（例えば、カテゴリアノテーション及び分割アノテーション）された三次元医用画像であってもよく、サンプル画像ブロックは、三次元医用画像における、結節を含む画像ブロックであってもよい。

本願の幾つかの実施例において、ステップＳ１１において、サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を決定し、ニューラルネットワークを訓練するためのサンプル画像ブロックを取得し、サンプル画像ブロックに対してアノテーションを行うことができる。ステップＳ１１は、医用映像ピクチャにおけるターゲット領域に対して位置決めを行い、前記ターゲット領域の位置情報を得ることと、前記医用映像ピクチャに関連する病理学的ピクチャを取得することと、前記病理学的ピクチャにおける各ターゲット領域の病理学的情報に基づいて、前記医用映像ピクチャにおけるターゲット領域のカテゴリ情報を決定することと、を含む。前記病理学的ピクチャは、診断された、病理学的情報を含むピクチャであり、医用画像データベースから取得されてもよく、又は、医者などの専門家が端末において手動でアノテーションした後にニューラルネットワーク訓練装置に送信されてもよい。

本願の幾つかの実施例において、サンプル画像に対してリサンプリング処理を行い、解像度が１×１×１である三次元画像を得ることができる。また、該三次元画像に対してセグメンテーションを行う。例えば、肺部三次元医用画像において、一部の肺実質以外の領域が存在することがある。肺結節などの病巣は、一般的に肺実質内に存在するため、肺実質が位置する画像ブロックを切り出し（即ち、セグメンテーション）、該画像ブロックに対して正規化処理を行う。正規化処理された三次元画像におけるターゲット領域（例えば、病巣領域）に対して位置決めを行い、ターゲット領域の位置情報を得る。例えば、位置決めのための畳み込みニューラルネットワークにより、ターゲット領域の位置情報を決定することができ、又は、医者などの専門者により、ターゲット領域の位置情報を確認することができる。本願の実施例は、位置決め方式を限定しない。

本願の幾つかの実施例において、医用映像ピクチャは、医用映像ピクチャにおける病巣のカテゴリの決定に用いられる関連病理学的ピクチャを有してもよい。例えば、病巣のカテゴリは、すりガラス型結節（Ｇｒｏｕｎｄ－ＧｌａｓｓＮｏｄｕｌｅ：ＧＧＮ）を含んでもよい。腺癌は、前浸潤性腺癌異型腺腫様過形成（ＡｔｙｐｉｃａｌＡｄｅｎｏｍａｔｏｕｓＨｙｐｅｒｐｌａｓｉａＯｆＰｒｅｉｎｖａｓｉｖｅＡｄｅｎｏｃａｒｃｉｎｏｍａ：ＡＡＨＯＰＡ）、上皮内腺癌（ＡｄｅｎｏｃａｒｃｉｎｏｍａＩｎＳｉｔｕ：ＡＩＳ）、微小浸潤腺癌（ＭｉｎｉｍａｌｌｙＩｎｖａｓｉｖｅＡｄｅｎｏｃａｒｃｉｎｏｍａ：ＭＩＡ）及び浸潤性腺癌（ＩｎｖａｓｉｖｅＡｄｅｎｏｃａｒｃｉｎｏｍａ：ＩＡ）に分けられ、本願の実施例は、病巣のカテゴリを限定しない。

本願の幾つかの実施例において、病理学的ピクチャに基づいて、各ターゲット領域の病理学的情報を得ることができる。例えば、病理学的ピクチャは、専門的に診断されたピクチャであってもよく、各病巣に対する分析記述を有してもよい。病理学的ピクチャに基づいて、各ターゲット領域の病理学的情報を得て、更に、医用映像ピクチャにおける各ターゲット領域のカテゴリ情報を決定することができる。

本願の幾つかの実施例において、医用映像ピクチャから、病巣領域を含む画像ブロックを切り出すことができ、つまり、サンプル画像ブロックを切り出し、ターゲット領域のカテゴリ情報に基づいて、Ｎカテゴリのサンプル画像ブロックを得る。例えば、結節寸法の統計により、サンプル画像ブロックの寸法を６４×６４×６４と決定することができる。切り出し及び分類により、４カテゴリ（ＡＡＨＯＰＡ、ＡＩＳ、ＭＩＡ及びＩＡ）のサンプル画像ブロックを得る。

本願の幾つかの実施例において、医用映像ピクチャの数が少なく、且つアノテーションの困難度が大きく、コストが高いため、三次元画像を複数の二次元画像に分割すると、空間情報を損失し、性能低下を招く。サンプル画像ブロックに対して回転、並進、ミラーリング、スケーリングなどの操作を行い、サンプルの数を増加させることができ、また、増加したサンプル画像ブロックを用いてニューラルネットワークを訓練することで、ニューラルネットワークの汎化能力を向上させ、オーバーフィッティングを防止することができる。本願の実施例において、ポジティブサンプルとネガティブサンプルのバランスを取ることもできる。例において、前浸潤性腺癌異型腺腫様過形成、上皮内腺癌、微小浸潤腺癌などの良性結節及び浸潤性腺癌などの悪性結節のサンプル数が大きく相違している。上記方法により、数が少ないサンプルを増加させ、ポジティブサンプルとネガティブサンプルの数のバランスを取ることができる。本願の実施例は、サンプル数の増加方式を限定しない。

本願の幾つかの実施例において、サンプル画像ブロックをバッチに分けてニューラルネットワークに入力することができる。ここで、ステップＳ１４は、いずれか１つのサンプル画像ブロックを前記ニューラルネットワークに入力して処理を行い、サンプル画像ブロックのカテゴリ予測情報及び予測ターゲット領域を得ることと、少なくとも前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、分類損失を決定することと、前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、セグメンテーション損失を決定することと、前記分類損失及び前記セグメンテーション損失に基づいて、前記ニューラルネットワークを訓練することと、を含んでもよい。

本願の幾つかの実施例において、前記ニューラルネットワークは、共有特徴抽出ネットワーク、分類ネットワーク及びセグメンテーションネットワークを含んでもよい。共有特徴抽出ネットワークにより、サンプル画像ブロックに対して特徴抽出を行い、サンプル画像ブロックのサンプルターゲット特徴を得て、分類ネットワークにより、サンプル画像ブロックのカテゴリ予測情報を得ることができる。カテゴリ予測情報に誤差が存在する可能性がある。サンプル予測カテゴリ情報及びサンプル画像ブロックのカテゴリアノテーション情報に基づいて、ニューラルネットワークの分類損失を決定することができる。

本願の幾つかの実施例において、前記カテゴリ予測情報及び前記サンプル画像ブロックのアノテーション情報に基づいて、分類損失を決定することは、前記カテゴリ予測情報及び前記サンプル画像ブロックのアノテーション情報に基づいて、第１分類損失を決定することと、前記カテゴリ予測情報及び前記サンプル画像ブロックが属するカテゴリのカテゴリセンターのカテゴリ情報に基づいて、第２分類損失を決定することと、前記第１分類損失及び前記第２分類損失に対して加重加算処理を行い、前記分類損失を得ることと、を含む。

本願の幾つかの実施例において、サンプル画像ブロックのアノテーション情報は、カテゴリアノテーション情報を含んでもよい。例えば、カテゴリアノテーション情報は、サンプル画像ブロックにおける結節のカテゴリを表す情報であってもよい。例において、前記カテゴリ予測情報は、ベクトルなどの形式で表されるカテゴリ情報であってもよい。確率辞書などにより、該ベクトルで表される処理されるべき画像ブロックが各カテゴリに属する確率の分布を決定し、更に、処理されるべき画像ブロックが属するカテゴリを決定することができる。又は、カテゴリ予測情報のベクトルは、処理されるべき画像ブロックの確率を直接的に表すことができる。例において、該ベクトルの各要素はそれぞれ、処理されるべき画像ブロックが属するカテゴリの確率を表す。

本願の幾つかの実施例において、カテゴリ予測情報及びサンプル画像ブロックのカテゴリアノテーション情報に基づいて、第１分類損失を決定することができる。例えば、カテゴリ予測情報のベクトルとカテゴリアノテーション情報のベクトルとの間の特徴距離（例えば、ユークリッド距離、コサイン距離など）を決定し、特徴距離に基づいて、第１分類損失L_smを決定することができる。例えば、ｓｏｆｔｍａｘｌｏｓｓ損失関数に基づいて、第１分類損失L_smを算出することができる。例において、下記式（１）により、第１分類損失L_smを決定することができる。

（１）
ここで、x_iは、ｉ番目のサンプル画像ブロックのカテゴリ予測情報を表し、y_iは、ｉ番目のサンプル画像ブロックが属するカテゴリを表し、ｎは、カテゴリの数を表す。

は、全結合層におけるy_i番目のカテゴリの重みを表し、

は、全結合層におけるｊ番目のカテゴリの重みを表し、ｍは、各バッチでニューラルネットワークに入力されたサンプル画像ブロックの数を表し、

は、ｉ番目のサンプル画像ブロックが属するカテゴリのバイアス項を表し、b_jは、ｊ番目のカテゴリのバイアス項を表す。

本願の幾つかの実施例において、上記第１分類損失を用いて訓練を行うことで、異なるカテゴリのカテゴリ情報のカテゴリ間特徴距離を拡大することができる。これにより、分類ネットワークは、カテゴリが異なるサンプル画像ブロックを区分することができる。しかしながら、肺部の複数のカテゴリの結節間の差異が明らかではなく（例えば、上皮内腺癌と微小浸潤腺癌の結節の形状差異が大きくない）、同一のカテゴリの２つの結節の形状がそれぞれ異なる（例えば、浸潤性腺癌などの悪性結節の形状がそれぞれ異なる）ため、カテゴリ情報のカテゴリ間特徴距離が小さく、カテゴリ内特徴距離が大きいことを招き、第１分類損失L_smのみにより訓練された分類ネットワークの分類効果が高くないことを招く。

本願の幾つかの実施例において、上記問題について、第２分類損失により、分類ネットワークを訓練することができる。例において、複数のサンプル画像ブロックにおける各カテゴリのカテゴリセンターのカテゴリ情報を決定することができる。例えば、複数のサンプル画像ブロックのカテゴリセンターのカテゴリ情報に対して加重平均を行い、又は、サンプル画像ブロックのカテゴリ情報に対してカテゴリタリング処理を行い、カテゴリセンター特徴などを得ることができる。本願の実施例は、カテゴリセンターのカテゴリ情報を限定しない。

本願の幾つかの実施例において、サンプル画像ブロックのカテゴリ予測情報及びそれが属するカテゴリのカテゴリセンターのカテゴリアノテーション情報に基づいて、第２分類損失を決定することができる。例えば、カテゴリ予測情報とカテゴリセンターのカテゴリ情報との間の特徴距離を決定し、特徴距離に基づいて、第２分類損失L_ctを算出することができる。例えば、ｃｅｎｔｅｒｌｏｓｓ損失関数に基づいて、第２分類損失L_ctを算出することができる。第２分類損失L_ctにより、分類ネットワークを訓練することで、同一のカテゴリのサンプル画像ブロックのカテゴリ情報のカテゴリ内特徴距離を縮小し、同一のカテゴリの特徴情報を特徴空間において更に寄せ集め、サンプル画像ブロックのカテゴリの決定に寄与する。例において、下記式（２）により、第２分類損失L_ctを決定することができる。

（２）
ここで、

は、ｉ番目のサンプル画像ブロックが属するカテゴリのカテゴリセンターのカテゴリアノテーション情報である。

本願の幾つかの実施例において、第１分類損失及び第２分類損失により共同で分類損失を決定することができる。例えば、第１分類損失及び第２分類損失に対して加重加算処理を行い、分類損失を得ることができる。例えば、第１分類損失と第２分類損失との重み比が１：０．８であり、上記重み比に応じて加重加算を行った後、分類損失を得ることができる。本願の実施例は、重み比を限定しない。

このような方式で、訓練において、同一のカテゴリのサンプル画像ブロックのカテゴリ特徴をより寄せ集めることができ、カテゴリが異なるサンプル画像ブロックのカテゴリ情報間の距離をより大きくすることができ、分類性能の向上及び分類の正確率の向上に寄与する。

本願の幾つかの実施例において、セグメンテーションネットワークにより、サンプルターゲット特徴に対してセグメンテーション処理を行い、サンプル画像ブロックにおける予測ターゲット領域を得ることができる。該予測ターゲット領域は、誤差を有してもよい。予測ターゲット領域と前記サンプル画像ブロックのアノテーションターゲット領域との間の誤差に基づいて、セグメンテーション損失を決定し、更に、セグメンテーション損失により訓練を行うことができる。

本願の幾つかの実施例において、前記予測ターゲット領域及び前記サンプル画像ブロックのアノテーション情報に基づいて、セグメンテーション損失を決定することは、前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記予測ターゲット領域の第１重み及び前記サンプル画像ブロックにおけるサンプル背景領域の第２重みを決定することと、前記第１重み、第２重み、前記予測ターゲット領域及び前記サンプル画像ブロックのアノテーション情報に基づいて、前記セグメンテーション損失を決定することと、を含む。

本願の幾つかの実施例において、前記アノテーション情報は、アノテーションされたセグメンテーション領域を含み、予測ターゲット領域とアノテーションされたセグメンテーション領域との間の誤差に基づいてセグメンテーション損失を直接的に決定することができる。しかしながら、結節の直径が５ミリメートル（ｍｉｌｌｉｍｅｔｅｒ：ｍｍ）から３０ｍｍであり、サンプル画像ブロックにおける結節が位置する領域が占める割合と他の領域が占める割合との差が大きいため、ターゲット領域の画素数と非ターゲット領域の画素数のバランスが取られないことを招く。これにより、予測ターゲット領域の誤差がセグメンテーション損失に占める割合が小さくなり、ニューラルネットワークの最適化調整に不利であり、訓練効率が低く、訓練効果が低い。

本願の幾つかの実施例において、ターゲット領域の画素及び非ターゲット領域（即ち、サンプル背景領域）の画素に対して加重処理を行うことができる。例において、予測ターゲット領域の画素数がサンプル画像ブロックに占める第１割合に基づいて、予測ターゲット領域の第１重み及びサンプル画像ブロックにおけるサンプル背景領域の第２重みを決定することができる。更に、セグメンテーション損失を決定する場合、上記２つの領域の画素に対して加重処理を行うことで、ターゲット領域の損失と非ターゲット領域の損失のバランスを取る。

本願の幾つかの実施例において、サンプル画像ブロックは、予測ターゲット領域及び背景領域を含んでもよい。予測ターゲット領域の画素数が占める割合を統計し、更に、サンプル背景領域が占める割合を決定することができる。例えば、予測ターゲット領域の画素数が占める第１割合は、０．２であると、サンプル背景領域の画素数が占める第２割合は、０．８である。本願の実施例は、第１割合及び第２割合を限定しない。

本願の幾つかの実施例において、予測ターゲット領域とサンプル背景領域のバランスを取るために、第２割合を予測ターゲット領域の第１重みとして決定し、第１割合をサンプル背景領域の第２重みとして決定する。例えば、予測ターゲット領域の画素数が占める第１割合は、０．２であると、予測ターゲット領域の第１重みは、０．８である。サンプル背景領域の画素数が示す第２割合は、０．８であると、サンプル背景領域の第２重みは、０．２である。

本願の幾つかの実施例において、第１重み、第２重み、予測ターゲット領域及びサンプル画像ブロックのアノテーションターゲット領域に基づいて、セグメンテーション損失を決定することができる。例において、予測ターゲット領域とアノテーション情報におけるターゲット領域との差異に基づいて、セグメンテーション損失を決定することができる。例えば、予測ターゲット領域における画素点に対して加重処理を行い、重みを第１重みとし、サンプル背景領域における画素点に対して加重処理を行い、重みを第２重みとし、加重処理されたセグメンテーション損失L_dcを決定することができる。例えば、ｗｅｉｇｈｔｅｄＤｉｃｅｌｏｓｓ損失関数に基づいて、セグメンテーション損失L_dcを算出することができる。例において、下記式（３）によりセグメンテーション損失L_dcを決定することができる。

（３）
ここで、

である。y_k＝１である場合、ｋ番目の画素位置が予測ターゲット領域であることを表し、y_k＝０である場合、ｋ番目の画素位置がサンプル背景領域であることを表し、

は、セグメンテーションネットワークの、ｋ番目の画素位置での出力を表し、Ｗは、第１重みを表し、Ｙは、ｋ番目の画素位置のセグメンテーションアノテーションを表す。

本願の幾つかの実施例において、分類損失及びセグメンテーション損失に基づいて、共有特徴抽出ネットワーク、セグメンテーションネットワーク及び分類ネットワークの総合的ネットワーク損失を決定することができる。例えば、分類損失及びセグメンテーション損失に対して加重加算処理を行い、総合的ネットワーク損失を得ることができる。例において、下記式（４）により、総合的ネットワーク損失L_totalを決定することができる。

（４）
ここで、θ₁は、L_smの重みを表し、θ₂は、L_ctの重みを表し、θ₃は、L_dcの重みを表す。例えば、θ₁＝１．２、θ₂＝０．８、θ₃＝２である。本願の実施例は、分類損失及びセグメンテーション損失の重みを限定しない。

本願の幾つかの実施例において、総合的ネットワーク損失により、上記ニューラルネットワークのネットワークパラメータを逆調整することができる。例えば、勾配降下法により、ネットワークパラメータを調整し、ネットワークパラメータを最適化し、セグメンテーション及び分類の正確率を向上させることができる。

本願の幾つかの実施例において、上記訓練方法を複数回反復実行し、所定の学習率で訓練を行うことができる。例において、最初の２０個の訓練周期において、０．００１＊１．１^ｘ（ここで、ｘは、訓練周期を表す）の学習率で訓練を行うことができ、後続の訓練において、４０、８０及び１２０番目の……訓練周期において、学習率をそれぞれ半分にすることができる。訓練の初期段階で、訓練効率を向上させ、ネットワークパラメータを大幅に最適化することができる。また、後続の訓練において、学習率を段階的に低下させ、ネットワークパラメータを細かく調整し、ニューラルネットワークの精度を向上させ、分類処理及びセグメンテーション処理の正確率を向上させることができる。

本願の幾つかの実施例において、訓練条件を満たす場合、訓練を完了し、訓練された共有特徴抽出ネットワーク、セグメンテーションネットワーク及び分類ネットワークを得ることができる。前記訓練条件は、訓練回数を含んでもよい。つまり、所定の訓練回数に達した場合、訓練条件を満たす。前記訓練条件は、総合的ネットワーク損失が所定の閾値以下であるか又は所定の区間に収束することを含んでもよい。つまり、総合的ネットワーク損失が所定の閾値以下であるか又は所定の区間に収束する場合、ニューラルネットワークの精度が使用要件を満たすと認められ、訓練を完了することができる。本願の実施例は、訓練条件を限定しない。

本願の幾つかの実施例において、訓練を完了した後、訓練されたニューラルネットワークに対して試験を行うことができる。例えば、肺部三次元医用画像における、結節領域を含む三次元画像ブロックを上記ニューラルネットワークに入力し、出力されたセグメンテーション結果及び分類結果の正確率を統計することができる。例えば、三次元画像ブロックのアノテーション情報と比較し、セグメンテーション結果及び分類結果の正確率を決定することで、ニューラルネットワークの訓練効果を決定することができる。正確率が所定の閾値より高いと、訓練効果が高く、ニューラルネットワークの性能が高く、処理されるべき画像ブロックのカテゴリを取得し、セグメンテーションを行うことでターゲット領域を得るという処理に適用可能であると認められる。正確率が所定の閾値に達していないと、訓練効果が低く、他のサンプル画像ブロックを利用して引き続き訓練を行うと認められる。

本願の幾つかの実施例において、訓練されたニューラルネットワークは、処理されるべき画像ブロックにおけるターゲット領域及びカテゴリがいずれも未知である場合、処理されるべき画像ブロックのカテゴリ及びターゲット領域を得ることができ、処理されるべき画像ブロックのカテゴリが既知である場合、処理されるべき画像ブロックにおけるターゲット領域のみを取得することができ、又は、処理されるべき画像ブロックにおけるターゲット領域が既知である場合、処理されるべき画像ブロックのカテゴリを取得することもできる。本願の実施例は、ニューラルネットワークの使用方法を限定しない。

本願の幾つかの実施例において、上記訓練方法で訓練されたニューラルネットワークは、処理されるべき画像ブロックにおける病巣領域及び病巣カテゴリの決定に適用可能である。前記ニューラルネットワークは、共有特徴抽出ネットワーク、分類ネットワーク及びセグメンテーションネットワークを含み、前記方法は、処理されるべき画像ブロックを共有特徴抽出ネットワークに入力して処理を行い、処理されるべき画像ブロックのターゲット特徴を得ることであって、前記共有特徴抽出ネットワークは、Ｍ個の共有特徴抽出ブロックを備え、ｉ番目の共有特徴抽出ブロックの入力特徴は、最初のｉ－１個の共有特徴抽出ブロックの出力特徴を含み、ｉ及びＭは整数であり、且つ１＜ｉ≦Ｍである、ことと、前記ターゲット特徴を分類ネットワークに入力して分類処理を行い、前記処理されるべき画像ブロックのカテゴリ情報を得ることと、前記ターゲット特徴をセグメンテーションネットワークに入力してセグメンテーション処理を行い、前記処理されるべき画像ブロックにおけるターゲット領域を得ることと、を更に含む。

本願の幾つかの実施例において、前記処理されるべき画像ブロックは、処理されるべき画像における一部の領域であってもよい。例において、処理されるべき画像から、一部の領域を切り出すことができる。例えば、ターゲット対象を含む領域を切り出す。例えば、処理されるべき画像は、医用映像ピクチャである。医用映像ピクチャから、病巣を含む領域を切り出すことができる。例えば、処理されるべき画像は、肺部三次元医用画像（例えば、肺部ＣＴ画像）であってもよい。処理されるべき画像ブロックは、処理されるべき画像から切り出された病巣領域（例えば、結節を有する領域）の三次元画像ブロックであってもよい。本願の実施例は、処理されるべき画像及び処理されるべき画像ブロックのタイプを限定しない。

本願の幾つかの実施例において、医用映像ピクチャ（例えば、肺部三次元医用画像）において、医用画像ピクチャの寸法が大きくて解像度が高く、且つ医用映像ピクチャにおいて、正常組織の領域が多いため、医用映像ピクチャに対して前処理を行い、病巣を含む領域を切り出して処理を行い、処理効率を向上させることができる。

本願の幾つかの実施例において、まず、処理されるべき画像に対して前処理を行い、処理効率を向上させることができる。例えば、リサンプリング、正規化などの前処理を行うことができる。例において、肺部三次元医用画像に対してリサンプリング処理を行い、解像度が１×１×１（即ち、各画素は、１ｍｍ×１ｍｍ×１ｍｍの立方体のコンテンツを表す）である三次元画像を得ることができる。また、リサンプリングされた三次元画像の寸法に対して切り取りを行うことができる。例えば、肺部三次元医用画像において、一部の非肺部領域が存在する可能性がある。肺部が位置する領域を切り出することで、演算量を低減させ、処理効率を向上させることができる。

例において、切り取られた三次元画像に対して正規化を行い、三次元画像における各画素の画素値を０から１までの値域範囲内に正規化し、処理効率を向上させることができる。正規化処理を行った後、前記第１画像を得る。本願の実施例は、前処理の方法を限定しない。

本願の幾つかの実施例において、第１画像におけるターゲット領域を検出することができる。例えば、位置検出のための畳み込みニューラルネットワークにより、第１画像におけるターゲット領域を検出することができる。例において、畳み込みニューラルネットワークを利用して、肺部三次元医用画像における、結節を含む領域を検出することができる。

本願の幾つかの実施例において、ターゲット領域に対して切り取りを行い、処理されるべき画像ブロックを得ることができる。例えば、肺部三次元医用画像における、結節を含む領域に対して切り取りを行い、処理されるべき画像ブロックを得ることができる。例において、結節の寸法に基づいて、処理されるべき画像ブロックの寸法を決定し、切り取りを行うことができる。例えば、結節寸法の統計により、処理されるべき画像ブロックの寸法を６４×６４×６４と決定し、切り取りにより、１つ又は複数の処理されるべき画像ブロックを得ることができる。

本願の幾つかの実施例において、前記ニューラルネットワークにより、処理されるべき画像ブロックのカテゴリ情報を決定し、セグメンテーションを行うことでターゲット領域を得ることができる。例えば、処理されるべき画像ブロックは、処理されるべき画像ブロックは、肺部三次元医用画像から切り出された、結節を含む画像ブロックである。ニューラルネットワークにより、処理されるべき画像ブロックにおける結節の種類（例えば、ＡＡＨＯＰＡ、ＡＩＳ、ＭＩＡ及びＩＡ）を決定し、セグメンテーションを行い、結節が位置する領域を得ることができる。

本願の幾つかの実施例において、共有特徴抽出ネットワークにより、処理されるべき画像ブロックのターゲット特徴を抽出して分類及びセグメンテーション処理に用いることができる。処理されるべき画像ブロックを共有特徴抽出ネットワークに入力して処理を行い、処理されるべき画像ブロックのターゲット特徴を得ることは、処理されるべき画像ブロックに対して第１特徴抽出処理を行い、処理されるべき画像ブロックの第１特徴を得ることと、第１特徴を１番目の共有特徴抽出ブロックに入力し、１番目の共有特徴抽出ブロックの出力特徴を得て、１番目の共有特徴抽出ブロックの出力特徴を後続のＭ－１個の共有特徴抽出ブロックに出力することと、最初のｊ－１個の共有特徴抽出ブロックの出力特徴をｊ番目の共有特徴抽出ブロックに入力し、ｊ番目の共有特徴抽出ブロックの出力特徴を得ることと、Ｍ番目の共有特徴抽出ブロックの出力特徴に対して第２特徴抽出処理を行い、処理されるべき画像ブロックの第２特徴を得ることと、第２特徴に対してプーリング処理を行い、前記ターゲット特徴を得ることと、を含む。

本願の幾つかの実施例において、まず、第１特徴抽出処理を行うことができる。例えば、三次元畳み込み層（ＴｈｒｅｅＤｉｍｅｎｓｉｏｎａｌＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）、バッチ正規化層（Ｎｏｒｍａｌｉｚａｔｉｏｎ）及び活性化層（ＡｃｔｉｖｉａｔｉｏｎＬａｙｅｒ）を備えるネットワークモジュールにより、第１特徴抽出処理を行い、第１特徴を得ることができる。本願の実施例は、第１特徴抽出処理のネットワーク階層を限定しない。

本願の幾つかの実施例において、共有特徴抽出ネットワークは、複数の共有特徴抽出ブロックを含んでもよい。共有特徴抽出ブロックは、畳み込み層、活性化層などのような複数のネットワーク階層を含んでもよい。本願の実施例は、共有特徴抽出ブロックに含まれるネットワーク階層を限定しない。複数の共有特徴抽出ブロックにより、第１特徴に対して処理を行うことができる。例において、共有特徴抽出ブロックの数は、Ｍ個である。第１特徴を１番目の共有特徴抽出ブロックに入力することができる。つまり、１番目の共有特徴抽出ブロックは、第１特徴を入力特徴とし、入力特徴に対して特徴抽出処理を行い、出力特徴を得ることができる。第１共有特徴抽出ブロックの出力特徴は、後続の全ての共有特徴抽出ブロックにより共有されてもよい。つまり、１番目の共有特徴抽出ブロックの出力を、後続のＭ－１個の共有特徴抽出ブロックに入力し、後続のＭ－１個の共有特徴抽出ブロックの入力特徴とすることができる。

本願の幾つかの実施例において、２番目の共有特徴抽出ブロックの入力特徴は、１番目の共有特徴抽出ブロックの出力特徴である。２番目の共有特徴抽出ブロックは、入力された特徴に対して特徴抽出処理を行った後、その出力特徴を後続の３番目からＭ番目の共有特徴抽出ブロックに出力し、３番目からＭ番目の共有特徴抽出ブロックの入力特徴とすることができる。

本願の幾つかの実施例において、３番目の共有特徴抽出ブロックの入力特徴は、１番目の共有特徴抽出ブロックの出力特徴及び２番目の共有特徴抽出ブロックの出力特徴である。１番目の共有特徴抽出ブロックの出力特徴と２番目の共有特徴抽出ブロックの出力特徴を特徴フュージョン（例えば、平均値、最大値などの方式でフュージョンを行い、又は、全ての特徴チャネルを保留する）した後に、３番目の共有特徴抽出ブロックに入力することができる（つまり、３番目の共有特徴抽出ブロックの入力特徴は、１番目の共有特徴抽出ブロックの出力特徴と２番目の共有特徴抽出ブロックの出力特徴を特徴フュージョンした特徴であってもよい）。又は、３番目の共有特徴抽出ブロックは、直接的に、１番目の共有特徴抽出ブロックの出力特徴及び２番目の共有特徴抽出ブロックの出力特徴を入力特徴とし（例えば、３番目の共有特徴抽出ブロックは、特徴フュージョン層を含んでもよい。該層により特徴フュージョン処理を行い、又は、全ての特徴チャネルを保留することができる。また、全ての特徴チャネルの特徴に対して直接的に後続処理を行うことができる。つまり、１番目の共有特徴抽出ブロックの出力特徴及び２番目の共有特徴抽出ブロックの出力特徴に対して後続の処理を行う）、入力特徴に対して特徴抽出処理を行い（例えば、直接的に、全ての特徴チャネルの特徴に対して特徴抽出処理を行い、又は、フュージョンした特徴に対して特徴抽出処理を行う）、３番目の共有特徴抽出ブロックの出力特徴を得ることができる。３番目の共有特徴抽出ブロックの出力特徴を４番目からＭ番目の共有特徴抽出ブロックに入力して４番目からＭ番目の共有特徴抽出ブロックの入力特徴とすることができる。

本願の幾つかの実施例において、ｊ（ｊは整数であり、且つ１＜ｊ＜Ｍである）番目の共有特徴抽出ブロックを例として、最初のｊ－１個の共有特徴抽出ブロックの出力特徴を入力特徴としてｊ番目の共有特徴抽出ブロックに入力することができる。最初のｊ－１個の共有特徴抽出ブロックの出力特徴に対して特徴フュージョンを行った後、フュージョンした特徴をｊ番目の共有特徴抽出ブロックの入力特徴とすることができる。又は、直接的に、最初のｊ－１個の共有特徴抽出ブロックの出力特徴をｊ番目の共有特徴抽出ブロックの入力特徴とすることができる（例えば、ｊ番目の共有特徴抽出ブロックにおいてフュージョンを行う。又は、直接的に全ての特徴チャネルの特徴に対して後続の処理を行う。つまり、最初のｊ－１個の共有特徴抽出ブロックの出力特徴に対して後続の処理を行う）。ｊ番目の共有特徴抽出ブロックは、その入力特徴に対して特徴抽出そりを行い、ｊ番目の共有特徴抽出ブロックの出力特徴を得て、該出力特徴をｊ＋１番目からＭ番目の共有特徴抽出ブロックの入力特徴とすることができる。

本願の幾つかの実施例において、Ｍ番目の共有特徴抽出ブロックは、最初のＭ－１個の共有特徴抽出ブロックの出力特徴に基づいて、Ｍ番目の共有特徴抽出ブロックの出力特徴を得ることができる。また、共有特徴抽出ネットワークの後続のネットワーク階層により、第２特徴抽出処理を行うことができる。例えば、三次元畳み込み層、バッチ正規化層及び活性化層を備えるネットワークモジュールにより、Ｎ番目の共有特徴抽出ブロックの出力特徴に対して、第２特徴抽出処理を行い、第２特徴を得ることができる。本願の実施例は、第２特徴抽出処理のネットワーク階層を限定しない。

本願の幾つかの実施例において、第２特徴に対してプーリング処理を行うことができる。例えば、平均値プーリング層により、第２特徴に対してプーリング処理を行い、ターゲット特徴を得ることができる。本願の実施例は、プーリング処理のタイプを限定しない。

本願の幾つかの実施例において、上記処理を複数回行うことができる。例えば、複数の共有特徴抽出ネットワークを含んでもよい。１番目の共有特徴抽出ネットワークは、第１特徴を入力特徴とし、共有特徴抽出ブロックにより特徴抽出処理、第２特徴抽出処理及びプーリング処理を行った後、１番目の共有特徴抽出ネットワークの出力特徴を得ることができる。２番目の共有特徴抽出ネットワークは、１番目の共有特徴抽出ネットワークの出力特徴を入力特徴とし、共有特徴抽出ブロックにより特徴抽出処理、第２特徴抽出処理及びプーリング処理を行った後、２番目の共有特徴抽出ネットワークの出力特徴を得ることができる。複数の共有特徴抽出ネットワークにより処理を行い、最後の（例えば、４番目の）共有特徴抽出ネットワークの出力特徴をターゲット特徴とすることができる。本願の実施例は、共有特徴抽出ネットワークの数を限定しない。

このような方式で、共有特徴抽出ネットワークにより、ターゲット特徴を得ることができる。共有特徴抽出ネットワークの共有特徴抽出ブロックは、この前の全ての共有特徴抽出ブロックの出力特徴を得て、自己の出力特徴を後続の全ての共有特徴抽出ブロックに入力することができる。ネットワーク内の勾配移動を強化し、勾配消失減少を軽減すると同時に、特徴抽出及び学習能力を向上させることができる。入力された処理されるべき画像ブロックに対するより細かい分類及びセグメンテーション処理に寄与する。

本願の幾つかの実施例において、ターゲット特徴に基づいて、処理されるべき画像ブロックのカテゴリ情報を決定することができる。例えば、処理されるべき画像ブロックは、肺部三次元医用画像における、結節などの病巣を含む画像ブロックであり、ターゲット特徴に基づいて、結節のカテゴリを決定することができる。例において、結節のカテゴリが前浸潤性腺癌異型腺腫様過形成、上皮内腺癌、微小浸潤腺癌及び浸潤性腺癌のうちのどちらであるかを決定することができる。

本願の幾つかの実施例において、分類ネットワークによりターゲット特徴に対して分類処理を行い、ｓｙロ位されるべき画像ブロックのカテゴリ情報を得ることができる。例において、分類ネットワークは、例えば、畳み込み層、グローバル平均値プーリング層（ＧｌｏｂａｌＡｖｅｒａｇｅＰｏｏｌｉｎｇ）及び全結合層（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）等のような複数のネットワーク階層を含んでもよい。上記ネットワーク階層は、ターゲット特徴に対して分類処理を行い、カテゴリ情報を出力することができる。前記カテゴリ情報は、ベクトルなどの形式で表されるカテゴリ情報であってもよい。確率辞書などにより、該ベクトルで表される処理されるべき画像ブロックが各カテゴリに属する確率の分布を決定し、更に、処理されるべき画像ブロックのカテゴリ情報を決定することができる。又は、カテゴリ情報のベクトルは、処理されるべき画像ブロックの確率を直接的に表すことができる。例において、該ベクトルの各要素はそれぞれ、処理されるべき画像ブロックが属するカテゴリの確率を表す。例えば、（０．８、０．１、０．１）は、処理されるべき画像ブロックが１番目のカテゴリに属する確率が０．８であり、２番目のカテゴリに属する確率が０．１であり、３番目のカテゴリに属する確率が０．１であることを表し、確率が最も大きいカテゴリを処理されるべき画像ブロックのカテゴリと決定することができる。つまり、処理されるべき画像ブロックのカテゴリ情報を第１カテゴリと決定することができる。本願の実施例は、カテゴリ情報の表現方法を限定しない。

本願の幾つかの実施例において、ターゲット特徴に基づいて、処理されるべき画像ブロックのカテゴリ情報を決定することができる。例えば、処理されるべき画像ブロックは、肺部三次元医用画像における、結節などの病巣を含む画像ブロックである。ターゲット特徴に基づいて、結節の位置を決定し、それが位置する領域をセグメンテーションすることができる。

本願の幾つかの実施例において、セグメンテーションネットワークにより、セグメンテーション処理を行い、処理されるべき画像ブロックにおけるターゲット領域を得ることができる。例えば、セグメンテーションにより、ターゲット領域を得ることができる。例において、セグメンテーションネットワークは、例えば、アップサンプリング層（Ｕｐｓａｍｐｌｅ）、全結合層などのような複数のネットワーク階層を含んでもよい。例において、ターゲット特徴は、共有特徴抽出ネットワークにおいて処理されるべき画像ブロックにより特徴抽出、プーリング処理を行うことで得られた特徴マップである。ターゲット特徴の解像度は、処理されるべき画像ブロックの解像度より低くてもよい。アップサンプリング層により、アップサンプリング処理を行い、ターゲット特徴の特徴チャネルの数を減少させ、解像度を向上させ、セグメンテーションネットワークから出力された特徴マップの解像度を処理されるべき画像ブロックの解像度と一致させることができる。例えば、共有特徴抽出ネットワークは、４回のプーリング処理を行うと、アップサンプリング層により、４回のアップサンプリング処理を行い、セグメンテーションネットワークから出力された特徴マップの解像度を処理されるべき画像ブロックの解像度と一致させることができる。また、セグメンテーションネットワークから出力された特徴マップに対してセグメンテーションを行い、ターゲット領域を得ることができる。例えば、輪郭線又は輪郭面により、結節が位置するターゲット領域を決定することができる。本願の実施例は、セグメンテーションネットワークのネットワーク階層を限定しない。

本願の幾つかの実施例において、処理されるべき画像ブロックに対してセグメンテーションを行い、ターゲット領域を得た後、処理されるべき画像におけるターゲット領域の位置を決定することもできる。例えば、処理されるべき画像における処理されるべき画像ブロックの位置、及び処理されるべき画像ブロックにおけるターゲット領域の位置に基づいて、処理されるべき画像におけるターゲット領域の位置を還元することができる。例において、肺部医用画像において、セグメンテーションを行うことで、処理されるべき画像ブロックにおける結節の位置を得て、肺部医用画像における該結節の位置を還元することができる。

本願の実施例で提供されるニューラルネットワーク訓練方法によれば、サンプル画像ブロックに対して細かい分類を行うことができ、ニューラルネットワークに対して訓練を行う。これにより、ニューラルネットワークは画像に対して細かい分類を行うことができ、分類効率及び正確度を向上させることができる。また、共有特徴抽出ネットワークによりターゲット特徴を得ることができる。共有特徴抽出ネットワークの共有特徴抽出ブロックは、この前の全ての共有特徴抽出ブロックの出力特徴を得て、自己の出力特徴を後続の全ての共有特徴抽出ブロックに入力することができる。ネットワーク内の勾配移動を強化し、勾配消失減少を軽減すると同時に、特徴抽出及び学習能力を向上させることができる。入力された処理されるべき画像ブロックに対するより細かい分類及びセグメンテーション処理に寄与する。処理されるべき画像ブロックの細かいカテゴリ情報及びターゲット領域を得て、画像処理効率を向上させることができる。訓練において、同一のカテゴリのサンプル画像ブロックのカテゴリ情報をより寄せ集めることができ、カテゴリが異なるサンプル画像ブロックのカテゴリ情報間の特徴距離をより大きくすることができる。ターゲット領域の誤差と非ターゲット領域の誤差のバランスを取り、分類性能の向上及び分類の正確率の向上に寄与する。

図３は、本願の実施例によるニューラルネットワーク訓練方法の適用を示す概略図である。図３に示すように、サンプル画像３１は、医用映像ピクチャであり、サンプル画像ブロック３２は、医用映像ピクチャから切り出された、病巣（例えば、結節）を含む画像ブロックである。また、サンプル画像ブロックは、カテゴリアノテーションを有してもよく、例えば、サンプル画像ブロックは、ＡＡＨＯＰＡ、ＡＩＳ、ＭＩＡ及びＩＡという４つのカテゴリを含んでもよい。

本願の幾つかの実施例において、サンプル画像ブロック３２をニューラルネットワーク３３に入力し、ニューラルネットワーク３３に含まれる共有特徴抽出ネットワーク３３１は、各バッチのサンプル画像ブロックに対して特徴抽出を行い、サンプル画像ブロックのサンプルターゲット特徴を得て、ニューラルネットワーク３３に含まれる分類ネットワーク３３２により、サンプル画像ブロックのカテゴリ予測情報を得る。式（１）及び式（２）により、ニューラルネットワークの分類損失を得ることができる。本願の幾つかの実施例において、ニューラルネットワーク３３に含まれるセグメンテーションネットワーク３３３は、サンプル画像ブロック３２における予測ターゲット領域を得て、式（３）によりニューラルネットワークのセグメンテーション損失を得ることができる。セグメンテーション損失及び分類損失に対して加重加算を行い、ニューラルネットワークの総合的ネットワーク損失を得て、総合的ネットワーク損失によりニューラルネットワークを訓練することができる。訓練されたニューラルネットワークは、医用映像の画像ブロックにおける病巣領域及び病巣カテゴリの決定に用いられる。

本願の幾つかの実施例において、処理されるべき画像は、三次元肺部医用画像（例えば、肺部ＣＴ画像）であってもよく、処理されるべき画像ブロックは、処理されるべき画像から切り出された症例領域（例えば、結節を有する領域）の三次元画像ブロックであってもよい。

本願の幾つかの実施例において、三次元医用画像に対してリサンプリング処理を行い、解像度が１×１×１である三次元画像を得て、肺部が位置する領域を切り出し、更に、肺部が位置する領域に対して正規化を行うことができる。本願の幾つかの実施例において、肺部が位置する領域における結節が位置する領域を検出し、６４×６４×６４の寸法で、結節が位置する領域を含む複数の処理されるべき画像ブロックを切り出すことができる。

本願の幾つかの実施例において、複数の処理されるべき画像ブロックをバッチに分けて特徴抽出処理し、処理されるべき画像ブロックのターゲット特徴を得ることができる。例えば、まず、第１特徴抽出処理を行うことができる。例えば、三次元畳み込み層、バッチ正規化層及び活性化層を含むネットワークモジュールにより、第１特徴抽出処理を行い、第１特徴を得ることができる。

本願の幾つかの実施例において、第１特徴を共有特徴抽出ネットワークに入力することができる。共有特徴抽出ネットワークは、複数の共有特徴抽出ブロックを含んでもよい。例において、共有特徴抽出ブロックの数は、Ｍ個であり、第１特徴を１番目の共有特徴抽出ブロックに入力して処理を行うことができる。１番目の共有特徴抽出ブロックの出力特徴を後続のＭ－１個の共有特徴抽出ブロックに入力することができる。２番目の共有特徴抽出ブロックの入力特徴は、１番目の共有特徴抽出ブロックの出力特徴であり、また、２番目の共有特徴抽出ブロックは、その出力特徴を後続の３番目からＭ番目の共有特徴抽出ブロックに出力することができる。３番目の共有特徴抽出ブロックの入力特徴は、１番目の共有特徴抽出ブロックの出力特徴及び２番目の共有特徴抽出ブロックの出力特徴である。また、３番目の共有特徴抽出ブロックの出力特徴を４番目からＭ番目の共有特徴抽出ブロックに出力することができる。同様に、最初のｊ－１個の共有特徴抽出ブロックの出力特徴をｊ番目の共有特徴抽出ブロックに入力することができる。ｊ番目の共有特徴抽出ブロックの出力特徴をｊ＋１番目からＭ番目の共有特徴抽出ブロックに出力することができる。Ｍ番目の共有特徴抽出ブロックは、最初のＭ－１個の共有特徴抽出ブロックの出力特徴に基づいて、Ｍ番目の共有特徴抽出ブロックの出力特徴を得て、第２特徴抽出処理を行うことができる。例えば、三次元畳み込み層、バッチ正規化層及び活性化層を含むネットワークモジュールにより、Ｎ番目の共有特徴抽出ブロックの出力特徴に対して第２特徴抽出処理を行い、第２特徴を得ることができる。本願の幾つかの実施例において、第２特徴に対してプーリング（例えば、平均値プーリング（ＡｖｅｒａｇｅＰｏｏｌｉｎｇ））処理を行い、ターゲット特徴を得ることができる。

本願の幾つかの実施例において、上記処理を複数回（例えば、４回）行ってもよい。例えば、複数の共有特徴抽出ネットワークを含んでもよい。複数のカスケード接続された共有特徴抽出ネットワークによる処理により、ターゲット特徴を得ることができる。

本願の幾つかの実施例において、分類ネットワークは、ターゲット特徴に対して分類処理を行い、処理されるべき画像ブロックのカテゴリ情報を得ることができる。例えば、分類ネットワークは、畳み込み層、グローバル平均値プーリング層及び全結合層などにより、処理されるべき画像ブロックのカテゴリ情報を得ることができる。

本願の幾つかの実施例において、セグメンテーションネットワークは、ターゲット特徴に対してセグメンテーション処理を行い、ターゲット領域（即ち、結節が位置する領域）を得ることができる。例において、セグメンテーションネットワークは、アップサンプリング層により、４回のアップサンプリング処理を行い、セグメンテーションネットワークから出力された特徴マップの解像度を処理されるべき画像ブロックの解像度と一致させ、セグメンテーションネットワークから出力された特徴マップに対してセグメンテーションを行い、ターゲット領域を得ることができる。

本願の幾つかの実施例において、上記ニューラルネットワークは、処理されるべき画像ブロックにおけるターゲット領域及びカテゴリがいずれも未知である場合、処理されるべき画像ブロックのカテゴリ及びターゲット領域を得ることができ（例えば、セグメンテーションにより、結節が位置する領域を得て、結節のカテゴリを得る）、処理されるべき画像ブロックのカテゴリが既知である場合、処理されるべき画像ブロックにおけるターゲット領域のみを取得することができ（例えば、セグメンテーションにより、結節が位置する領域を得る）、又は、処理されるべき画像ブロックにおけるターゲット領域が既知である場合、処理されるべき画像ブロックのカテゴリを取得することもできる（例えば、結節のカテゴリを決定する）。

本願の幾つかの実施例において、前記画像処理方法は、肺部ＣＴ画像などの医用画像における症例領域に対してセグメンテーション及び分類を行うために用いられ、臨床的作業の効率を向上させ、診断漏れ及び誤診を減少させる。また、他の画像に対する分類及びターゲット領域のセグメンテーションにも適用可能である。本願の実施例は、前記画像処理方法の適用分野を限定しない。

本願の実施例で提供される上記各方法の実施例は、原理や論理から逸脱しない限り、互いに組み合わせることで組み合わせた実施例を構成することができることは理解されるべきである。なお、本願の実施例は、装置、電子機器、コンピュータ可読記憶媒体、プログラムを更に提供する。上記はいずれも、本願で提供されるいずれか１つの方法を実現させるためのものである。対応する技術的解決手段及び説明は、方法に関連する記述を参照されたい。上記方法の実施例において、各ステップの記述順番は、具体的な実行順番は、厳しい実行順番を意味して実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。

図４は、本願の実施例によるニューラルネットワーク訓練装置を示す概略図である。図４に示すように、前記装置は、サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を取得するように構成される取得モジュール１１と、前記サンプル画像におけるターゲット領域の位置情報に基づいてセグメンテーションを行い、少なくとも１つのサンプル画像ブロックを得るように構成される第１セグメンテーションモジュール１２と、前記カテゴリ情報に基づいて、前記少なくとも１つのサンプル画像ブロックを分類し、Ｎカテゴリのサンプル画像ブロックを得るように構成される分類モジュール１３であって、Ｎは整数であり、且つＮ≧１である、分類モジュール１３と、前記Ｎカテゴリのサンプル画像ブロックをニューラルネットワークに入力して訓練を行うように構成される訓練モジュール１４と、を備える。

本願の幾つかの実施例において、前記取得モジュール１１は更に、医用映像ピクチャにおけるターゲット領域に対して位置決めを行い、前記ターゲット領域の位置情報を得ることと、前記医用映像ピクチャに関連する病理学的ピクチャを取得することであって、前記病理学的ピクチャは、診断された、病理学的情報を含むピクチャである、ことと、前記病理学的ピクチャにおける各ターゲット領域の病理学的情報に基づいて、前記医用映像ピクチャにおけるターゲット領域のカテゴリ情報を決定することと、を実行するように構成される。

本願の幾つかの実施例において、前記訓練モジュール１４は更に、いずれか１つのサンプル画像ブロックを前記ニューラルネットワークに入力して処理を行い、サンプル画像ブロックのカテゴリ予測情報及び予測ターゲット領域を得て、少なくとも前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、分類損失を決定し、前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、セグメンテーション損失を決定し、前記分類損失及び前記セグメンテーション損失に基づいて、前記ニューラルネットワークを訓練するように構成される。

本願の幾つかの実施例において、前記訓練モジュール１４は更に、前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、第１分類損失を決定し、前記カテゴリ予測情報及び前記サンプル画像ブロックが属するカテゴリのカテゴリセンターのカテゴリ情報に基づいて、第２分類損失を決定し、前記第１分類損失及び前記第２分類損失に対して加重加算処理を行い、前記分類損失を得るように構成される。

本願の幾つかの実施例において、前記訓練モジュール１４は更に、前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記予測ターゲット領域の第１重み及び前記サンプル画像ブロックにおけるサンプル背景領域の第２重みを決定し、前記第１重み、第２重み、前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、前記セグメンテーション損失を決定するように構成される。

本願の幾つかの実施例において、前記訓練モジュール１４は更に、前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記サンプル画像ブロックにおけるサンプル背景領域の第２割合を決定し、前記第２割合を前記第１重みとして決定し、前記第１割合を第２重みとして決定するように構成される。

本願の幾つかの実施例において、前記ニューラルネットワークは、共有特徴抽出ネットワーク、分類ネットワーク及びセグメンテーションネットワークを含み、前記装置は、処理されるべき画像ブロックを前記共有特徴抽出ネットワークに入力して処理を行い、前記処理されるべき画像ブロックのターゲット特徴を得るように構成される取得モジュールであって、前記共有特徴抽出ネットワークは、Ｍ個の共有特徴抽出ブロックを備え、ｉ番目の共有特徴抽出ブロックの入力特徴は、最初のｉ－１個の共有特徴抽出ブロックの出力特徴を含み、ｉ及びＭは整数であり、且つ１＜ｉ≦Ｍである、取得モジュールと、前記ターゲット特徴を前記分類ネットワークに入力して分類処理を行い、前記処理されるべき画像ブロックのカテゴリ情報を得るように構成される分類モジュールと、前記ターゲット特徴を前記セグメンテーションネットワークに入力してセグメンテーション処理を行い、前記処理されるべき画像ブロックにおけるターゲット領域を得るように構成されるセグメンテーションモジュールと、を更に備える。

本願の幾つかの実施例において、前記取得モジュールは更に、前記処理されるべき画像ブロックに対して第１特徴抽出処理を行い、前記処理されるべき画像ブロックの第１特徴を得ることと、前記第１特徴を１番目の共有特徴抽出ブロックに入力し、前記１番目の共有特徴抽出ブロックの出力特徴を得て、前記１番目の共有特徴抽出ブロックの出力特徴を後続のＭ－１個の共有特徴抽出ブロックに出力することと、最初のｊ－１個の共有特徴抽出ブロックの出力特徴をｊ番目の共有特徴抽出ブロックに入力し、前記ｊ番目の共有特徴抽出ブロックの出力特徴を得ることであって、ｊは整数であり、且つ１＜ｊ＜Ｍである、ことと、Ｍ番目の共有特徴抽出ブロックの出力特徴に対して第２特徴抽出処理を行い、前記処理されるべき画像ブロックの第２特徴を得ることと、前記第２特徴に対してプーリング処理を行い、前記ターゲット特徴を得ることと、を実行するように構成される。

本願の幾つかの実施例において、前記装置は、処理されるべき画像に対して前処理を行い、第１画像を得るように構成される前処理モジュールと、前記第１画像におけるターゲット領域に対して位置決めを行い、前記第１画像におけるターゲット領域の位置情報を決定するように構成される位置決めモジュールと、前記第１画像におけるターゲット領域の位置情報に基づいて、セグメンテーションを行い、少なくとも１つの前記処理されるべき画像ブロックを得るように構成される第２セグメンテーションモジュールと、を更に備える。

幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法の実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法の実施例の説明を参照されたい。

本願の実施例はコンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムが実行されると、コンピュータに上記方法を実現実行させる。コンピュータ可読記憶媒体は不揮発性コンピュータ可読記憶媒体であってもよい。

本願の実施例は電子機器を更に提供する。該電子機器は、プロセッサと、プロセッサによる実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、前記プロセッサは、前記コンピュータプログラムにより上記方法を実行するように構成される。電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。

本願の実施例は、コンピュータプログラム製品を更に提供する。前記コンピュータプログラム製品は、コンピュータ可読コードを含み、コンピュータ可読コードは機器で実行されると、機器におけるプロセッサに、上記いずれか１つの実施例で提供されるニューラルネットワーク訓練方法の命令を実行させる。

本願の実施例は、もう１つのコンピュータプログラム製品を更に提供する。該コンピュータプログラム製品は、コンピュータ可読命令を記憶するように構成され、命令が実行されると、コンピュータに、上記いずれか１つの実施例で提供されるニューラルネットワーク訓練方法の操作を実行させる。

図６は、本願の実施例による電子機器を示す概略図である。例えば、電子機器８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージング装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタルアシスタントなどの端末であってもよい。図５を参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ：Ｉ／Ｏ）インタフェース８１２、センサコンポーネント８１４及び通信コンポーネント８１６のうちの１つ又は複数を備えてもよい。

処理コンポーネント８０２は一般的には、電子機器８００の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理コンポーネント８０２は、指令を実行するための１つ又は複数のプロセッサ８２０を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理コンポーネント８０２は、他のユニットとのインタラクションのために、１つ又は複数のモジュールを備えてもよい。例えば、処理コンポーネント８０２はマルチメディアモジュールを備えることで、マルチメディアコンポーネント８０８と処理コンポーネント８０２とのインタラクションに寄与する。

メモリ８０４は、各種のデータを記憶することで電子機器８００における操作をサポートするように構成される。これらのデータの例として、電子機器８００上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ８０４は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＳＲＡＭ）、電気的消去可能なプログラマブル読み出し専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＥＥＰＲＯＭ）、電気的に消去可能なプログラマブル読出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＥＰＲＯＭ）、プログラマブル読出し専用メモリ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＰＲＯＭ）、読出し専用メモリ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。

電源コンポーネント８０６は電子機器８００の様々なユニットに電力を提供する。電源コンポーネント８０６は、電源管理システム、１つ又は複数の電源、及び電子機器８００のための電力生成、管理、分配に関連する他のユニットを備えてもよい。

マルチメディアコンポーネント８０８は、上記電子機器８００とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：ＬＣＤ）及びタッチパネル（ＴｏｕｃｈＰａｎｅｌ：ＴＰ）を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する１つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアコンポーネント８０８は、フロントカメラ及び／又はリアカメラを備える。電子機器８００が、撮影モード又はビデオモードのような操作モードであれば、フロントカメラ及び／又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。

オーディオコンポーネント８１０は、オーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオコンポーネント８１０は、マイクロホン（Ｍｉｃｒｏｐｈｏｎｅ：ＭＩＣ）を備える。電子機器８００が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ８０４に記憶するか、又は通信コンポーネント８１６を経由して送信することができる。幾つかの実施例において、オーディオコンポーネント８１０は、オーディオ信号を出力するように構成されるスピーカーを更に備える。

Ｉ／Ｏインタフェース８１２は、処理コンポーネント８０２と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。

センサコンポーネント８１４は、１つ又は複数のセンサを備え、電子機器８００のために様々な状態の評価を行うように構成される。例えば、センサコンポーネント８１４は、電子機器８００のオン／オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが電子機器８００のディスプレイ及びキーパッドである。センサコンポーネント８１４は電子機器８００又は電子機器８００における１つのユニットの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位又は加速／減速及び電子機器８００の温度の変動を検出することもできる。センサコンポーネント８１４は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサコンポーネント８１４は、相補型金属酸化膜半導体（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ：ＣＭＯＳ）又は電荷結合素子（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ：ＣＣＤ）画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサコンポーネント８１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。

通信コンポーネント８１６は、電子機器８００と他の機器との有線又は無線方式の通信に寄与するように構成される。電子機器８００は、ＷｉＦｉ、２Ｇ又は３Ｇ、又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信コンポーネント８１６は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信コンポーネント８１６は、近接場通信（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ：ＮＦＣ）モジュールを更に備えることで近距離通信を促進する。例えば、ＮＦＣモジュールは、無線周波数識別（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ：ＲＦＩＤ）技術、赤外線データ協会（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ：ＩｒＤＡ）技術、超広帯域（ＵｌｔｒａＷｉｄｅＢａｎｄ：ＵＷＢ）技術、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ：ＢＴ）技術及び他の技術に基づいて実現される。

本願の幾つかの実施例において、電子機器８００は、１つ又は複数の特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ：ＡＳＩＣ）、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓ：ＤＳＰ）、デジタル信号処理機器（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓＤｅｖｉｃｅ：ＤＳＰＤ）、プログラマブルロジックデバイス（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ：ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ：ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。

本願の幾つかの実施例において、コンピュータプログラム命令を記憶したメモリ８０４のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０により実行され上記方法を完了する。

図６は、本願の実施例によるもう１つの電子機器を示す概略図である。例えば、電子機器１９００は、サーバとして提供されてもよい。図６を参照すると、電子機器１９００は、処理コンポーネント１９２２を備える。それは、１つ又は複数のプロセッサ、及びメモリ１９３２で表されるメモリリソースを更に備える。該メモリリソースは、アプリケーションプログラムのような、処理コンポーネント１９２２により実行される命令を記憶するためのものである。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する１つ又は１つ以上のモジュールを含んでもよい。なお、処理コンポーネント１９２２は、命令を実行して、上記方法を実行するように構成される。

電子機器１９００は、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６と、電子機器１９００をネットワークに接続するように構成される有線又は無線ネットワークインタフェース１９５０と、入力出力（Ｉ／Ｏ）インタフェース１９５８と、を更に備えてもよい。電子機器１９００は、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭ又は類似したもの等、メモリ１９３２に記憶されているオペレーティングシステムを実行することができる。

本願の幾つかの実施例において、例えば、コンピュータプログラム命令を含むメモリ１９３２のような不揮発性コンピュータ可読記憶媒体を更に提供する。上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２により実行されて上記方法を完了する。

本願は、システム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。

コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的なリスト）は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）、ＲＯＭ、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ）、ＳＲＡＭ、ポータブルコンパクトディスク読み出し専用メモリ（ＣｏｍｐａｃｔＤｉｓｋ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃ：ＤＶＤ）、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。

ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング／処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各コンピューティング／処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング／処理装置におけるコンピュータ可読記憶媒体に記憶する。

本願の操作を実行するように構成されるコンピュータプログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩｎｓｔｒｕｃｔｉｏｎＳｅｔＡｒｃｈｉｔｅｃｔｕｒｅ：ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は１つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、任意の種類のネットワーク（ローカルエリアネットワーク又はワイドエリアネットワークを含む）を通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる（例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する）。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、ＦＰＧＡ又はプログラマブル論理アレイ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＡｒｒａｙ：ＰＬＡ）のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本願の各態様を実現させることができる。

ここで、本願の実施例の方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら、本願の各態様を説明する。フローチャート及び／又はブロック図の各ブロック及びフローチャート及び／又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行されると、フローチャート及び／又はブロック図における１つ又は複数のブロック中で規定している機能／操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び／又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図おける１つ又は複数のブロック中で規定している機能／操作を実現する各態様の命令を含む製品を備える。

コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び／又はブロック図における１つ又は複数のブロック中で規定している機能／操作を実現させる。

図面におけるフローチャート及びブロック図は、本願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、プログラムセグメント又は命令の一部は、１つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。

該コンピュータプログラム製品は、ハードウェア、ソフトウェア又はその組み合わせにより実現してもよい。本願の実施例の１つの実施形態において、前記コンピュータプログラム製品は、コンピュータ記憶媒体として表現してもよい。もう１つの実施形態において、コンピュータプログラム製品は、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ：ＳＤＫ）などのソフトウェア製品として表現してもよい。

以上は本発明の各実施例を説明したが、前記説明は例示的なものであり、網羅するものではなく、且つ開示した各実施例に限定されない。説明した各実施例の範囲と趣旨から脱逸しない場合、当業者にとって、多くの修正及び変更は容易に想到しえるものである。本明細書に用いられる用語の選択は、各実施例の原理、実際の応用、或いは市場における技術の改善を最もよく解釈すること、或いは他の当業者が本明細書に開示された各実施例を理解できることを目的とする。

本願は、ニューラルネットワーク訓練方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を取得することと、ターゲット領域の位置情報に基づいてセグメンテーションを行い、少なくとも１つのサンプル画像ブロックを得ることと、カテゴリ情報に基づいて、少なくとも１つのサンプル画像ブロックを分類し、Ｎカテゴリのサンプル画像ブロックを得ることと、Ｎカテゴリのサンプル画像ブロックをニューラルネットワークに入力して訓練を行うことと、を含む。本願の実施例のニューラルネットワーク訓練方法によれば、サンプル画像ブロックに対して細かい分類を行うことができ、ニューラルネットワークに対して訓練を行う。これにより、ニューラルネットワークは画像に対して細かい分類を行うことができ、分類効率及び正確度を向上させることができる。

Claims

ニューラルネットワーク訓練方法であって、前記ニューラルネットワーク訓練方法は、ニューラルネットワークモデルを訓練し、訓練されたニューラルネットワークモデルにより、画像を分類するために用いられ、前記方法は、
サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を取得することと、
前記サンプル画像におけるターゲット領域の位置情報に基づいてセグメンテーションを行い、少なくとも１つのサンプル画像ブロックを得ることと、
前記カテゴリ情報に基づいて、前記少なくとも１つのサンプル画像ブロックを分類し、Ｎカテゴリのサンプル画像ブロックを得ることであって、Ｎは整数であり、且つＮ≧１である、ことと、
前記Ｎカテゴリのサンプル画像ブロックをニューラルネットワークに入力して訓練を行うことと、を含む、方法。
前記サンプル画像は、医用映像ピクチャであることを特徴とする
請求項１に記載の方法。
前記サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を取得することは、
前記医用映像ピクチャにおけるターゲット領域に対して位置決めを行い、前記ターゲット領域の位置情報を得ることと、
前記医用映像ピクチャに関連する病理学的ピクチャを取得することであって、前記病理学的ピクチャは、診断された、病理学的情報を含むピクチャである、ことと、
前記病理学的ピクチャにおける各ターゲット領域の病理学的情報に基づいて、前記医用映像ピクチャにおけるターゲット領域のカテゴリ情報を決定することと、を含むことを特徴とする
請求項２に記載の方法。
前記Ｎカテゴリのサンプル画像ブロックをニューラルネットワークに入力して訓練を行うことは、
いずれか１つのサンプル画像ブロックを前記ニューラルネットワークに入力して訓練を行い、サンプル画像ブロックのカテゴリ予測情報及び予測ターゲット領域を得ることと、
少なくとも前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、分類損失を決定することと、
前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、セグメンテーション損失を決定することと、
前記分類損失及び前記セグメンテーション損失に基づいて、前記ニューラルネットワークを訓練することと、を含むことを特徴とする
請求項１に記載の方法。
前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、分類損失を決定することは、
前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、第１分類損失を決定することと、
前記カテゴリ予測情報及び前記サンプル画像ブロックが属するカテゴリのカテゴリセンターのカテゴリ情報に基づいて、第２分類損失を決定することと、
前記第１分類損失及び前記第２分類損失に対して加重加算処理を行い、前記分類損失を得ることと、を含むことを特徴とする
請求項４に記載の方法。
前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、セグメンテーション損失を決定することは、
前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記予測ターゲット領域の第１重み及び前記サンプル画像ブロックにおけるサンプル背景領域の第２重みを決定することと、
前記第１重み、第２重み、前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、前記セグメンテーション損失を決定することと、を含むことを特徴とする
請求項４に記載の方法。
前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記予測ターゲット領域の第１重み及び前記サンプル画像ブロックにおけるサンプル背景領域の第２重みを決定することは、
前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記サンプル画像ブロックにおけるサンプル背景領域の第２割合を決定することと、
前記第２割合を前記第１重みとして決定し、前記第１割合を第２重みとして決定することと、を含むことを特徴とする
請求項６に記載の方法。
前記カテゴリ情報は、前浸潤性腺癌異型腺腫様過形成結節、上皮内腺癌結節、微小浸潤腺癌結節及び浸潤性腺癌結節を含むことを特徴とする
請求項１から７のうちいずれか一項に記載の方法。
前記ニューラルネットワークは、共有特徴抽出ネットワーク、分類ネットワーク及びセグメンテーションネットワークを含み、
前記方法は、
処理されるべき画像ブロックを前記共有特徴抽出ネットワークに入力して処理を行い、前記処理されるべき画像ブロックのターゲット特徴を得ることであって、前記共有特徴抽出ネットワークは、Ｍ個の共有特徴抽出ブロックを備え、ｉ番目の共有特徴抽出ブロックの入力特徴は、最初のｉ－１個の共有特徴抽出ブロックの出力特徴を含み、ｉ及びＭは整数であり、且つ１＜ｉ≦Ｍである、ことと、
前記ターゲット特徴を前記分類ネットワークに入力して分類処理を行い、前記処理されるべき画像ブロックのカテゴリ情報を得ることと、
前記ターゲット特徴を前記セグメンテーションネットワークに入力してセグメンテーション処理を行い、前記処理されるべき画像ブロックにおけるターゲット領域を得ることと、を更に含むことを特徴とする
請求項１から８のうちいずれか一項に記載の方法。
前記処理されるべき画像ブロックを前記共有特徴抽出ネットワークに入力して処理を行い、前記処理されるべき画像ブロックのターゲット特徴を得ることは、
前記処理されるべき画像ブロックに対して第１特徴抽出処理を行い、前記処理されるべき画像ブロックの第１特徴を得ることと、
前記第１特徴を１番目の共有特徴抽出ブロックに入力し、前記１番目の共有特徴抽出ブロックの出力特徴を得て、前記１番目の共有特徴抽出ブロックの出力特徴を後続のＭ－１個の共有特徴抽出ブロックに出力することと、
最初のｊ－１個の共有特徴抽出ブロックの出力特徴をｊ番目の共有特徴抽出ブロックに入力し、前記ｊ番目の共有特徴抽出ブロックの出力特徴を得ることであって、ｊは整数であり、且つ１＜ｊ＜Ｍである、ことと、
Ｍ番目の共有特徴抽出ブロックの出力特徴に対して第２特徴抽出処理を行い、前記処理されるべき画像ブロックの第２特徴を得ることと、
前記第２特徴に対してプーリング処理を行い、前記ターゲット特徴を得ることと、を含むことを特徴とする
請求項９に記載の方法。
前記方法は、
前記処理されるべき画像に対して前処理を行い、第１画像を得ることと、
前記第１画像におけるターゲット領域に対して位置決めを行い、前記第１画像におけるターゲット領域の位置情報を決定することと、
前記第１画像におけるターゲット領域の位置情報に基づいて、セグメンテーションを行い、少なくとも１つの前記処理されるべき画像ブロックを得ることと、を更に含むことを特徴とする
請求項９に記載の方法。
ニューラルネットワーク訓練装置であって、前記ニューラルネットワーク訓練装置は、ニューラルネットワークモデルを訓練し、訓練されたニューラルネットワークモデルにより、画像を分類するために用いられ、前記装置は、
サンプル画像におけるターゲット領域の位置情報及びカテゴリ情報を取得するように構成される取得モジュールと、
前記サンプル画像におけるターゲット領域の位置情報に基づいてセグメンテーションを行い、少なくとも１つのサンプル画像ブロックを得るように構成される第１セグメンテーションモジュールと、
前記カテゴリ情報に基づいて、前記少なくとも１つのサンプル画像ブロックを分類し、Ｎカテゴリのサンプル画像ブロックを得るように構成される分類モジュールであって、Ｎは整数であり、且つＮ≧１である、分類モジュールと、
前記Ｎカテゴリのサンプル画像ブロックをニューラルネットワークに入力して訓練を行うように構成される訓練モジュールと、を備える、装置。
前記サンプル画像は、医用映像ピクチャであることを特徴とする
請求項１２に記載の装置。
前記取得モジュールは更に、
医用映像ピクチャにおけるターゲット領域に対して位置決めを行い、前記ターゲット領域の位置情報を得ることと、
前記医用映像ピクチャに関連する病理学的ピクチャを取得することであって、前記病理学的ピクチャは、診断された、病理学的情報を含むピクチャである、ことと、
前記病理学的ピクチャにおける各ターゲット領域の病理学的情報に基づいて、前記医用映像ピクチャにおけるターゲット領域のカテゴリ情報を決定することと、を実行するように構成されることを特徴とする
請求項１３に記載の装置。
前記訓練モジュールは更に、
いずれか１つのサンプル画像ブロックを前記ニューラルネットワークに入力して処理を行い、サンプル画像ブロックのカテゴリ予測情報及び予測ターゲット領域を得て、
少なくとも前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、分類損失を決定し、
前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、セグメンテーション損失を決定し、
前記分類損失及び前記セグメンテーション損失に基づいて、前記ニューラルネットワークを訓練するように構成されることを特徴とする
請求項１２に記載の装置。
前記訓練モジュールは更に、
前記カテゴリ予測情報及び前記サンプル画像ブロックのカテゴリ情報に基づいて、第１分類損失を決定し、
前記カテゴリ予測情報及び前記サンプル画像ブロックが属するカテゴリのカテゴリセンターのカテゴリ情報に基づいて、第２分類損失を決定し、
前記第１分類損失及び前記第２分類損失に対して加重加算処理を行い、前記分類損失を得るように構成されることを特徴とする
請求項１５に記載の装置。
前記訓練モジュールは更に、
前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記予測ターゲット領域の第１重み及び前記サンプル画像ブロックにおけるサンプル背景領域の第２重みを決定し、
前記第１重み、第２重み、前記予測ターゲット領域及び前記サンプル画像ブロックの位置情報に基づいて、前記セグメンテーション損失を決定するように構成されることを特徴とする
請求項１５に記載の装置。
前記訓練モジュールは更に、
前記サンプル画像ブロックでの前記予測ターゲット領域の画素数の第１割合に基づいて、前記サンプル画像ブロックにおけるサンプル背景領域の第２割合を決定し、
前記第２割合を前記第１重みとして決定し、前記第１割合を第２重みとして決定するように構成されることを特徴とする
請求項１７に記載の装置。
前記カテゴリ情報は、前浸潤性腺癌異型腺腫様過形成結節、上皮内腺癌結節、微小浸潤腺癌結節及び浸潤性腺癌結節を含むことを特徴とする
請求項１２から１８のうちいずれか一項に記載の装置。
前記ニューラルネットワークは、共有特徴抽出ネットワーク、分類ネットワーク及びセグメンテーションネットワークを含み、
前記装置は、
処理されるべき画像ブロックを前記共有特徴抽出ネットワークに入力して処理を行い、前記処理されるべき画像ブロックのターゲット特徴を得るように構成される取得モジュールであって、前記共有特徴抽出ネットワークは、Ｍ個の共有特徴抽出ブロックを備え、ｉ番目の共有特徴抽出ブロックの入力特徴は、最初のｉ－１個の共有特徴抽出ブロックの出力特徴を含み、ｉ及びＭは整数であり、且つ１＜ｉ≦Ｍである、取得モジュールと、
前記ターゲット特徴を前記分類ネットワークに入力して分類処理を行い、前記処理されるべき画像ブロックのカテゴリ情報を得るように構成される分類モジュールと、
前記ターゲット特徴を前記セグメンテーションネットワークに入力してセグメンテーション処理を行い、前記処理されるべき画像ブロックにおけるターゲット領域を得るように構成されるセグメンテーションモジュールと、を更に備えることを特徴とする
請求項１２から１９のうちいずれか一項に記載の装置。
前記取得モジュールは更に、
前記処理されるべき画像ブロックに対して第１特徴抽出処理を行い、前記処理されるべき画像ブロックの第１特徴を得ることと、
前記第１特徴を１番目の共有特徴抽出ブロックに入力し、前記１番目の共有特徴抽出ブロックの出力特徴を得て、前記１番目の共有特徴抽出ブロックの出力特徴を後続のＭ－１個の共有特徴抽出ブロックに出力することと、
最初のｊ－１個の共有特徴抽出ブロックの出力特徴をｊ番目の共有特徴抽出ブロックに入力し、前記ｊ番目の共有特徴抽出ブロックの出力特徴を得ることであって、ｊは整数であり、且つ１＜ｊ＜Ｍである、ことと、
Ｍ番目の共有特徴抽出ブロックの出力特徴に対して第２特徴抽出処理を行い、前記処理されるべき画像ブロックの第２特徴を得ることと、
前記第２特徴に対してプーリング処理を行い、前記ターゲット特徴を得ることと、を実行するように構成されることを特徴とする
請求項２０に記載の装置。
前記装置は、
前記処理されるべき画像に対して前処理を行い、第１画像を得るように構成される前処理モジュールと、
前記第１画像におけるターゲット領域に対して位置決めを行い、前記第１画像におけるターゲット領域の位置情報を決定するように構成される位置決めモジュールと、
前記第１画像におけるターゲット領域の位置情報に基づいて、セグメンテーションを行い、少なくとも１つの前記処理されるべき画像ブロックを得るように構成される第２セグメンテーションモジュールと、を更に備えることを特徴とする
請求項２０に記載の装置。
電子機器であって、
プロセッサと、
プロセッサによる実行可能なコンピュータプログラムを記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記コンピュータプログラムにより、請求項１から１１のうちいずれか一項に記載の方法を実行するように構成される、電子機器。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、前記コンピュータプログラムが実行されると、コンピュータに請求項１から１１のうちいずれか一項に記載の方法を実行させる、コンピュータ可読記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードが電子機器で実行されると、電子機器におけるプロセッサに、請求項１から１１のうちいずれか一項に記載の方法を実行させる、コンピュータプログラム。