JP7195220B2

JP7195220B2 - 学習装置、学習装置の作動方法、および学習装置の作動プログラム

Info

Publication number: JP7195220B2
Application number: JP2019111818A
Authority: JP
Inventors: 隆史涌井
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2022-12-23
Anticipated expiration: 2039-06-17
Also published as: JP2020204863A

Description

本開示の技術は、学習装置、学習装置の作動方法、および学習装置の作動プログラムに関する。

ニューラルネットワークを利用して入力画像を解析することで、セマンティックセグメンテーションを実現する機械学習モデル（以下、単にモデルという）が知られている。セマンティックセグメンテーションとは、入力画像に含まれる複数のクラスの判別を画素単位で行って、判別したクラス毎に領域を区分けした出力画像を出力する、という画像解析手法である。クラスとは、入力画像に映る物体の種類である。例えば、コップ、本、携帯電話の３つの物体が映った入力画像を、セマンティックセグメンテーションを実施するためのモデルに与えた場合、理想的には、コップ、本、携帯電話が各々クラスとして判別され、かつコップ、本、携帯電話の輪郭を忠実に辿った輪郭線で画定される領域がクラス毎に識別可能に提示された出力画像が得られる。

セマンティックセグメンテーションを実施するためのモデルとしては、階層型のモデルが利用される。階層型のモデルは、入力画像を解析する複数の階層を有し、階層毎に、入力画像に含まれる空間周波数の周波数帯域が異なる特徴を抽出する。階層型のモデルには、例えば、Ｕ－Ｎｅｔ（Ｕ－ＳｈａｐｅｄＮｅｕｒａｌＮｅｔｗｏｒｋ）等の畳み込みニューラルネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）がある。なお、以下において、特に断りなく周波数帯域という場合、入力画像に含まれる空間周波数の周波数帯域を意味する。

階層型のモデルの各階層には、二次元に配列された複数の画素値をもつ入力データが入力される。そして、階層型のモデルでは、入力データにフィルタ（カーネルともいう）を適用して、注目画素の画素値と、注目画素に隣接する画素の画素値を畳み込むことにより、入力画像の特徴を表す画像特徴マップを抽出する畳み込み処理が行われる。初段の階層となる最上位の階層の入力データは、解析対象の入力画像である。入力画像を畳み込んだ画像特徴マップで表される特徴は、入力画像内の最も細かい微細構造の特徴である。このため、入力画像に対して畳み込み処理を行うことは、入力画像内において、周波数帯域が最も高い微細構造の特徴を抽出することに他ならない。

各階層においては、畳み込み処理の後、抽出された画像特徴マップの局所的な統計量を計算して画像特徴マップを圧縮することにより、画像サイズが縮小された画像特徴マップを出力するプーリング処理が行われる。次の階層では、画像サイズが縮小された画像特徴マップが入力データとして入力されて、畳み込み処理とプーリング処理とが繰り返される。

このように、上位の階層から下位の階層に向かうにつれて、各階層に入力される入力データは、画像サイズが段階的に縮小されて解像度が下げられる。例えば、中位の階層では、入力画像の１／２、１／４の画像サイズの画像特徴マップが入力され、下位の階層では、入力画像の１／８、１／１６の画像サイズの画像特徴マップが入力される。

中位の階層および下位の階層においても、入力画像の特徴を抽出するために、入力された画像特徴マップに対して畳み込み処理が行われる。しかし、入力画像よりも解像度が低い画像特徴マップにおいては、注目画素と隣接する画素といっても、元の入力画像内の画素の位置で考えれば、空間的に離れた画素になる。このため、下位の階層になるほど、入力画像内において、周波数帯域が比較的低い大域構造の特徴を抽出することになる。

このように、階層型のモデルでは、複数の階層を用いて、入力画像に含まれる周波数帯域が異なる特徴を抽出する。入力画像内の判別対象のクラスの周波数帯域は様々である。階層型のモデルは、階層毎に周波数帯域が異なる特徴を抽出することで、入力画像内の様々な周波数帯域のクラスを判別できるようにしている。

特許文献１には、セマンティックセグメンテーションに関するものではないが、畳み込みニューラルネットワークを用いた階層型のモデルで画像解析を行うことが記載されている。

特表２０１７－５１６９９２号公報

セマンティックセグメンテーションを実施するための階層型のモデルでは、クラスの判別精度を高めるために、学習データが与えられて学習が行われる（以下、学習フェーズという）。学習データは、学習用入力画像およびアノテーション画像の組で構成される。学習用入力画像は、入力画像と同様の画像であり、映った物体のクラスおよびその輪郭が未だ判別されていない画像である。アノテーション画像は、例えば、学習用入力画像に対して、ユーザにより手動でクラス毎に領域が指定されて区別された画像である。領域の指定は、ペンタブレット等を用いて輪郭線を描くことで行われる。また、領域の区別は、輪郭線内をクラス毎に色分けすることで行われる。

学習フェーズにおいて、階層型のモデルは、学習用入力画像にセマンティックセグメンテーションを実施して、学習用出力画像を出力する。学習用出力画像は、アノテーション画像と比較される。階層型のモデルのクラスの判別精度が高いほど、学習用出力画像とアノテーション画像との差異は小さくなる。つまり、アノテーション画像は、学習用出力画像とのいわば答え合わせを行うための画像である。

学習用出力画像とアノテーション画像との比較により、階層型のモデルのクラスの判別精度が評価される。そして、このクラスの判別精度の評価結果に応じて、階層型のモデルが更新される。これらの学習用入力画像のモデルへの入力と学習用出力画像のモデルからの出力、モデルのクラスの判別精度の評価、およびモデルの更新は、モデルのクラスの判別精度が予め設定されたレベルとなるまで、学習データが変更されつつ繰り返し実行される。

しかしながら、学習フェーズにおいては、学習データの判別対象のクラスの周波数帯域と、階層型のモデルが解析可能な周波数帯域とが整合していない場合、次に挙げる２つの問題があった。第１の問題は、適切なクラスの判別ができないという問題である。適切なクラスの判別ができないと、学習を繰り返してもクラスの判別精度が低いままとなってしまう。第２の問題は、畳み込み処理等の計算処理の無駄が多くなるという問題である。計算処理の無駄が多いと、結果としてメモリ等のリソースの消費量および計算時間の無駄も多くなる。

これらの問題が生じる原因の１つは、学習データを構成するアノテーション画像のクラスの領域の指定の仕方にある。アノテーション画像のクラスの領域の指定は、前述のようにユーザが手動で行うため、同じクラスであっても、指定の仕方の細かさに個人差によるばらつきが生じる。例えば、１画素単位で細かく領域が指定されたアノテーション画像もあれば、２画素から４画素単位で粗く領域が指定されたアノテーション画像もあり、アノテーション画像によって領域の指定の仕方の細かさが異なる。

領域の指定の仕方が細かいクラスは、周波数帯域が高くなる。逆に領域の指定の仕方が粗いクラスは、周波数帯域が低くなる。アノテーション画像において、例えば判別対象のクラスのほとんどの周波数帯域が低い場合は、階層型のモデルの上位の階層における微細構造の特徴を抽出する処理が不要な場合も生じる。この場合は、与えられた学習データに含まれるクラスの判別精度の向上に寄与しない不要な階層が、階層型のモデルに含まれていることになる。この不要な階層が階層型のモデルに含まれているという状態は、学習データの判別対象のクラスの周波数帯域と、階層型のモデルが解析可能な周波数帯域とが整合しない場合の一例である。このような不整合は、計算処理の無駄が多くなるという第２の問題を引き起こす。

また、階層型のモデルが解析可能な周波数帯域の範囲は当然ながら有限である。階層型のモデルにおいて、最上位の階層から最下位の階層までの間で画像サイズを縮小する縮小率は、予め設定されている。例えば、最上位の階層に入力画像が等倍（１／１）で入力され、最下位の階層に入力画像の１／１６の画像サイズの入力データが入力される場合、縮小率は１／１６である。このため、最上位の階層に入力される入力画像の解像度が高すぎる場合は、最下位の階層において、入力画像に含まれる、周波数帯域が低い大域構造の特徴が抽出しきれない場合もある。このように、最下位の階層において周波数帯域が低い大域構造の特徴が抽出しきれないという状態も、学習データの判別対象のクラスの周波数帯域と、階層型のモデルが解析可能な周波数帯域とが整合しない場合の一例である。このような不整合は、適切なクラスの判別ができないという第１の問題を引き起こす。

適切なクラスの判別ができないという第１の問題は、学習フェーズにおける階層型のモデルの学習効果を低下させる。このため、第１の問題は、終局的には、学習済みの階層型のモデルを用いて入力画像に対してセマンティックセグメンテーションを実施する運用フェーズにおける、クラスの判別精度の低下に繋がる。また、学習フェーズでは、大量の学習データを階層型のモデルに与えて繰り返し学習を行わせるため、計算処理の無駄が多くなるという第２の問題も看過できない。

本開示の技術は、クラスの適切な判別と、計算処理の無駄の削減に寄与することが可能な学習装置、学習装置の作動方法、および学習装置の作動プログラムを提供することを目的とする。

上記目的を達成するために、本開示の学習装置は、入力画像を解析する複数の階層を有する機械学習モデルであって、階層毎に、入力画像に含まれる空間周波数の周波数帯域が異なる特徴を抽出することにより、入力画像に含まれる複数のクラスの判別を画素単位で行うセマンティックセグメンテーションを実施するための機械学習モデルに、学習データを与えて学習させる学習装置であり、複数の周波数帯域のうち、学習に必要と推定される必要帯域、および学習において省略可能と推定される省略可能帯域のうちの少なくともいずれかの指定を受け付ける受付部と、機械学習モデルおよび学習データのうちの少なくともいずれかを、受付部において受け付けた指定に応じた態様に変更する変更部と、を備える。

変更部は、省略可能帯域に対応する省略可能階層の計算処理量を、必要帯域に対応する必要階層よりも減らすことが好ましい。

変更部は、必要帯域に対応する必要階層が機械学習モデルになかった場合、学習データを構成する画像の解像度を下げることが好ましい。

指定を受け付けるためのグラフィカルユーザインタフェースで構成される指定画面の表示を制御する表示制御部を備え、受付部は、指定画面を通じて指定を受け付けることが好ましい。

表示制御部は、複数の階層、または複数の階層のそれぞれに対応する複数の周波数帯域の少なくともいずれかを示す指標を指定画面に表示させ、受付部は、指標に対する指定操作を通じてなされた指定を受け付けることが好ましい。

表示制御部は、指定画面において、指標をクラス毎に表示させ、受付部は、指定操作を通じてなされたクラス毎の指定を受け付けることが好ましい。

学習データを構成する画像に含まれる周波数帯域を解析する解析部を備え、表示制御部は、解析部による周波数帯域の解析結果を、指定画面に表示させることが好ましい。この場合、表示制御部は、指標に解析結果を重畳表示させることが好ましい。

解析部は、学習データを構成する画像に含まれる周波数帯域をクラス毎に解析し、表示制御部は、指定画面において、解析結果をクラス毎に表示させることが好ましい。この場合も、表示制御部は、指標に解析結果を重畳表示させることが好ましい。

機械学習モデルは、階層毎に、フィルタを用いた畳み込み演算を行って、入力画像に含まれる周波数帯域が異なる特徴を表す画像特徴マップを抽出する畳み込み処理と、畳み込み処理で抽出された画像特徴マップの局所的な統計量を計算して画像特徴マップを圧縮することにより、画像サイズが縮小された画像特徴マップを出力するプーリング処理とを行い、かつ、次の階層においては、前の階層で出力され、かつ、縮小された画像特徴マップに対して畳み込み処理とプーリング処理とを繰り返すことにより、階層毎の画像特徴マップを抽出するエンコーダネットワークと、エンコーダネットワークにおいて出力された最小の画像サイズの画像特徴マップから、アップサンプリングによって画像特徴マップの画像サイズを段階的に拡大するアップサンプリング処理と、段階的に拡大された画像特徴マップと、エンコーダネットワークにおいて階層毎に抽出され、かつ、画像サイズが同じ画像特徴マップとを結合するマージ処理とを繰り返すことにより、クラス毎の領域がセグメンテーションされた出力画像を生成するデコーダネットワークと、を有する畳み込みニューラルネットワークで構成されることが好ましい。

入力画像は、培養中の複数の細胞を撮影した細胞画像であることが好ましい。

本開示の学習装置の作動方法は、入力画像を解析する複数の階層を有する機械学習モデルであって、階層毎に、入力画像に含まれる空間周波数の周波数帯域が異なる特徴を抽出することにより、入力画像に含まれる複数のクラスの判別を画素単位で行うセマンティックセグメンテーションを実施するための機械学習モデルに、学習データを与えて学習させる学習装置の作動方法であり、複数の周波数帯域のうち、学習に必要と推定される必要帯域、および学習において省略可能と推定される省略可能帯域のうちの少なくともいずれかの指定を受け付ける受付ステップと、機械学習モデルおよび学習データのうちの少なくともいずれかを、受付ステップにおいて受け付けた指定に応じた態様に変更する変更ステップと、を備える。

本開示の学習装置の作動プログラムは、入力画像を解析する複数の階層を有する機械学習モデルであって、階層毎に、入力画像に含まれる空間周波数の周波数帯域が異なる特徴を抽出することにより、入力画像に含まれる複数のクラスの判別を画素単位で行うセマンティックセグメンテーションを実施するための機械学習モデルに、学習データを与えて学習させる学習装置の作動プログラムであり、複数の周波数帯域のうち、学習に必要と推定される必要帯域、および学習において省略可能と推定される省略可能帯域のうちの少なくともいずれかの指定を受け付ける受付部と、機械学習モデルおよび学習データのうちの少なくともいずれかを、受付部において受け付けた指定に応じた態様に変更する変更部として、コンピュータを機能させる。

本開示の技術によれば、クラスの適切な判別と、計算処理の無駄の削減に寄与することが可能な学習装置、学習装置の作動方法、および学習装置の作動プログラムを提供することができる。

機械学習システムを示す図である。機械学習システムにおける処理の概要を示す図である。培養中の複数の細胞を撮影した細胞画像を示す図であり、図３Ａは学習用入力画像、図３Ｂはアノテーション画像をそれぞれ示す。モデルを示す図である。畳み込み処理の説明図である。画像特徴マップを示す図である。フィルタを使用した畳み込み処理を、畳み込みニューラルネットワークの概念に当てはめた説明図である。学習装置を構成するコンピュータを示すブロック図である。学習装置のＣＰＵの処理部を示すブロック図である。アノテーション画像のクラスの領域の指定の仕方のばらつきの例を示す図であり、図１０Ａは学習用入力画像、図１０Ｂはクラスの領域の仕方が比較的細かい場合、図１０Ｃはクラスの領域の仕方が比較的粗い場合をそれぞれ示す。指定画面を示す図である。階層が追加された指定画面を示す図である。指定画面における必要帯域の指定の一例を示す図である。変更部において、省略可能帯域に対応する省略可能階層の計算処理量を、必要帯域に対応する必要階層よりも減らす様子を示す図である。図１４の右側の表に示す設定とされたモデルを示す図である。指定画面における必要帯域の指定の別の例を示す図である。変更部において、学習用入力画像の解像度を下げる様子を示す図である。指定画面における必要帯域の指定のさらに別の例を示す図である。変更部において、学習用入力画像の解像度を下げ、かつ、省略可能帯域に対応する省略可能階層の計算処理量を、必要帯域に対応する必要階層よりも減らす様子を示す図である。学習装置の処理手順を示すフローチャートである。アノテーション画像に含まれる周波数帯域を解析する第２実施形態の概要を示す図である。解析部の処理内容を示す図である。画像ピラミッドを生成し、差分を算出する様子を示す図である。解析結果を示す図である。解析結果を表示させた指定画面を示す図である。クラス毎の指定バーを有する指定画面を示す図である。指定画面における必要帯域の指定の一例を示す図である。アノテーション画像に含まれる周波数帯域をクラス毎に解析する第４実施形態の概要を示す図である。解析結果をクラス毎に表示させた指定画面を示す図である。

［第１実施形態］
図１において、機械学習システム２は、画像内の複数のクラスの判別を画素単位で行うセマンティックセグメンテーションを実施するためのモデルＭ（図２参照）を用いるシステムである。機械学習システム２は、学習装置１０および運用装置１１を備える。学習装置１０および運用装置１１は、例えばデスクトップ型のパーソナルコンピュータである。学習装置１０および運用装置１１は、ネットワーク１２を介して相互に通信可能に接続されている。ネットワーク１２は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、もしくはインターネット、公衆通信網等のＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）である。

図２において、学習装置１０は、学習用入力画像ＩＩＬおよびアノテーション画像ＡＩの組で構成される学習データＬＤを有する。学習用入力画像ＩＩＬは、文字通り、クラスの判別精度を高める学習のためにモデルＭに入力される画像である。モデルＭは、学習用入力画像ＩＩＬにセマンティックセグメンテーションを実施して、学習用出力画像ＯＩＬを出力する。

アノテーション画像ＡＩは、学習用入力画像ＩＩＬに対して、クラス毎に領域が指定されて区別された画像である（図３Ｂ参照）。アノテーション画像ＡＩは、学習用出力画像ＯＩＬとのいわば答え合わせを行うための画像であり、学習用出力画像ＯＩＬと比較される。モデルＭのクラスの判別精度が高いほど、アノテーション画像ＡＩと学習用出力画像ＯＩＬとの差異は小さくなる。

学習装置１０は、アノテーション画像ＡＩと学習用出力画像ＯＩＬとを比較し、モデルＭのクラスの判別精度を評価する。そして、このクラスの判別精度の評価結果に応じて、モデルＭを更新する。学習装置１０は、学習用入力画像ＩＩＬのモデルＭへの入力と学習用出力画像ＯＩＬのモデルＭからの出力、モデルＭのクラスの判別精度の評価、およびモデルＭの更新を、学習データＬＤを変更しつつ行い、モデルＭのクラスの判別精度が予め設定されたレベルとなるまで繰り返す。学習装置１０は、クラスの判別精度が予め設定されたレベルとされたモデルＭを、学習済みモデルＴＭとして運用装置１１に出力する。

運用装置１１は、学習装置１０からの学習済みモデルＴＭを受信する。運用装置１１は、映った物体のクラスおよびその輪郭が未だ判別されていない入力画像ＩＩを学習済みモデルＴＭに与える。学習済みモデルＴＭは、入力画像ＩＩにセマンティックセグメンテーションを実施して、入力画像ＩＩに映る物体のクラスとその輪郭を判別し、その判別結果として出力画像ＯＩを出力する。運用装置１１は、出力画像ＯＩをディスプレイに表示する等して、ユーザの閲覧に供する。なお、運用装置１１に学習済みモデルＴＭを組み込んだ後も、学習済みモデルＴＭに学習データＬＤを与えて学習させてもよい。

図３Ａに示すように、学習用入力画像ＩＩＬは、本例においては、培養中の複数の細胞を位相差顕微鏡で撮影した細胞画像である。学習用入力画像ＩＩＬには、分化細胞、未分化細胞、死細胞、培地が映っている。この場合のアノテーション画像ＡＩは、図３Ｂに示すように、クラス１の分化細胞ＤＣ、クラス２の未分化細胞ＵＤＣ、クラス３の死細胞ＤＤＣ、クラス４の培地ＰＬの各々の領域が指定されて区別されたものとなる。各クラスの領域の指定は、ユーザがペンタブレット等を用いて輪郭線を描くことで行われる。また、領域の区別は、ユーザが輪郭線内をクラス毎に色分けすることで行われる。培地ＰＬの領域は、他の各細胞ＤＣ、ＵＤＣ、ＤＤＣの領域を指定することで自ずと指定される。なお、学習済みモデルＴＭに与えられる入力画像ＩＩも、学習用入力画像ＩＩＬと同じく、培養中の複数の細胞を位相差顕微鏡で撮影した細胞画像である。

図４に示すように、モデルＭは、入力画像を解析する複数の階層を有し、階層毎に、入力画像に含まれる空間周波数の周波数帯域が異なる特徴を抽出する、Ｕ－Ｎｅｔ等の畳み込みニューラルネットワークで構成された階層型のモデルである。本例のモデルＭは、第１階層、第２階層、第３階層、第４階層、第５階層の５つの階層を有する。なお、以下では、学習装置１０において、学習用入力画像ＩＩＬを入力画像としてモデルＭに与え、モデルＭから学習用出力画像ＯＩＬを出力させる場合を例に説明する。

モデルＭは、エンコーダネットワーク２０とデコーダネットワーク２１とで構成される。エンコーダネットワーク２０は、階層毎に、フィルタＦ（図５参照）を用いた畳み込み演算を行って、画像特徴マップＣＭＰを抽出する畳み込み処理を行う。デコーダネットワーク２１は、エンコーダネットワーク２０から出力された最小の画像特徴マップＣＭＰの画像サイズを段階的に拡大する。そして、段階的に拡大された画像特徴マップＣＭＰと、エンコーダネットワーク２０の各階層で出力された画像特徴マップＣＭＰとを結合して、学習用入力画像ＩＩＬと同じ画像サイズの学習用出力画像ＯＩＬを生成する。なお、画像特徴マップＣＭＰは、本開示の技術に係る「入力画像に含まれる空間周波数の周波数帯域が異なる特徴」の一例である。

エンコーダネットワーク２０には、階層毎に、二次元に配列された複数の画素値をもつ入力データＤＩ（図５参照）が入力される。エンコーダネットワーク２０は、各階層において、入力データＤＩに対して畳み込み処理を行って画像特徴マップＣＭＰを抽出する。エンコーダネットワーク２０の第１階層には、入力データＤＩとして学習用入力画像ＩＩＬが入力される。第１階層は、学習用入力画像ＩＩＬに畳み込み処理を行って、例えば、学習用入力画像ＩＩＬと同じ画像サイズの画像特徴マップＣＭＰを出力する。第２階層以下では、入力データＤＩとして、上位の各階層で出力された画像特徴マップＣＭＰが入力される。第２階層以下では、画像特徴マップＣＭＰに対して畳み込み処理が行われて、例えば、入力された画像特徴マップＣＭＰと同じ画像サイズの画像特徴マップＣＭＰが出力される。畳み込み処理は、図４において「ｃｏｎｖ（ｃｏｎｖｏｌｕｔｉｏｎ）」として示す。

図５において、畳み込み処理は、入力データＤＩに３×３のフィルタＦを適用して、入力データＤＩ内の注目画素Ｉｐの画素値ｅと、注目画素Ｉｐに隣接する８個の画素Ｉｓの画素値ａ、ｂ、ｃ、ｄ、ｆ、ｇ、ｈ、ｉを畳み込むことにより、入力データＤＩと同様に、二次元状に画素値が配列された出力データＤＩｃを得る。フィルタＦの係数をｒ、ｓ、ｔ、ｕ、ｖ、ｗ、ｘ、ｙ、ｚとした場合、注目画素Ｉｐに対する畳み込み演算の結果である、出力データＤＩｃの画素Ｉｃｐの画素値ｋは、例えば下記の（式１）を計算することで得られる。
ｋ＝ａｚ＋ｂｙ＋ｃｘ＋ｄｗ＋ｅｖ＋ｆｕ＋ｇｔ＋ｈｓ＋ｉｒ・・・（式１）

畳み込み処理では、入力データＤＩの各画素に対して上記のような畳み込み演算を行い、画素値ｋを出力する。こうして、二次元状に配列された画素値ｋをもつ出力データＤＩｃが出力される。出力データＤＩｃは、１個のフィルタＦに対して１つ出力される。種類が異なる複数のフィルタＦが使用された場合は、フィルタＦ毎に出力データＤＩｃが出力される。

図６に示すように、出力データＤＩｃは、二次元状に画素値ｋが配列されたデータであり、幅と高さをもつ。また、種類が異なる複数のフィルタＦを適用して、複数の出力データＤＩｃが出力された場合は、画像特徴マップＣＭＰは、複数の出力データＤＩｃの集合になる。画像特徴マップＣＭＰにおいて、フィルタＦの数はチャンネル数と呼ばれる。図６に示す画像特徴マップＣＭＰは、４個のフィルタＦを適用して出力された４つの出力データＤＩｃを有する、４チャンネルの画像特徴マップＣＭＰの例である。

図７は、こうしたフィルタＦを使用した畳み込み処理を、畳み込みニューラルネットワークＣＮＮの概念に当てはめた説明図である。まず、畳み込みニューラルネットワークＣＮＮが、複数のユニットＵをもつ入力層および中間層を有しているとする。この場合、入力層の各ユニットＵと中間層の各ユニットＵ同士の結合の強さを示す重みＷ１、Ｗ２、Ｗ３、・・・は、フィルタＦの係数ｒ～ｚに相当する。入力層の各ユニットＵには、入力データＤＩの各画素の画素値ａ、ｂ、ｃ、・・・が入力される。各画素値ａ、ｂ、ｃ、・・・と重みＷ１、Ｗ２、Ｗ３、・・・の積和が、中間層の各ユニットＵの出力値となる。この出力値が出力データＤＩｃの画素値ｋに相当する。モデルＭを学習させると、重みＷ１、Ｗ２、Ｗ３、・・・に相当するフィルタＦの係数ｒ～ｚが更新される。

図４において、各画像特徴マップＣＭＰの上に示す６４、１２８、２５６、５１２、１０２４の各数字は、各画像特徴マップＣＭＰが有するチャンネル数を示す。そして、第１階層から第５階層にそれぞれ付す括弧付きの１／１、１／２、１／４、１／８、１／１６は、最上位の入力画像である学習用入力画像ＩＩＬの画像サイズを基準とした、各階層で取り扱う画像サイズを示す。

本例のエンコーダネットワーク２０の第１階層においては、学習用入力画像ＩＩＬに対して２回の畳み込み処理が行われる。まず、学習用入力画像ＩＩＬに対して、６４個のフィルタＦを適用する畳み込み処理が行われて、６４チャンネルの画像特徴マップＣＭＰが出力される。そして、この画像特徴マップＣＭＰに対して、さらに６４個のフィルタＦを適用する畳み込み処理が行われて、第１階層においては、最終的に６４チャンネルの画像特徴マップＣＭＰが出力される。

エンコーダネットワーク２０において、第１階層が出力する画像特徴マップＣＭＰの幅と高さである画像サイズは、学習用入力画像ＩＩＬの画像サイズと同じである。このため、第１階層が取り扱う画像サイズは、学習用入力画像ＩＩＬと同じ、すなわち等倍を表す１／１である。

エンコーダネットワーク２０の第１階層において、２回の畳み込み処理で抽出された画像特徴マップＣＭＰに対して、図４において「ｐｏｏｌ（ｐｏｏｌｉｎｇ）」として示すプーリング処理が行われる。プーリング処理は、画像特徴マップＣＭＰの局所的な統計量を計算して画像特徴マップＣＭＰを圧縮する処理である。局所的な統計量としては、例えば、２×２の画素のブロック内における画素値の最大値または平均値が用いられる。最大値を計算するプーリング処理は最大値プーリング、平均値を計算するプーリング処理は平均値プーリングと呼ばれる。つまり、プーリング処理は、画像特徴マップＣＭＰの各画素の画素値から局所的な代表値を選択して、画像特徴マップＣＭＰの解像度を下げ、画像特徴マップＣＭＰの画像サイズを縮小する処理といえる。例えば、２×２の画素のブロックから代表値を選択するプーリング処理を１画素ずつずらして行うと、画像特徴マップＣＭＰは、元の画像サイズの半分に縮小される。モデルＭでは、第１階層において、例えば画像特徴マップＣＭＰの画像サイズを１／２にするプーリング処理が行われる。このため、エンコーダネットワーク２０の第２階層においては、学習用入力画像ＩＩＬを基準として、１／２の画像サイズに縮小された画像特徴マップＣＭＰが、入力データＤＩとして入力される。

第２階層においては、１２８個のフィルタＦを適用する畳み込み処理が２回行われて、１２８チャンネルの画像特徴マップＣＭＰが出力される。そして、１２８チャンネルの画像特徴マップＣＭＰに対して、画像サイズを半分にするプーリング処理が行われる。これにより、第２階層から第３階層には、学習用入力画像ＩＩＬの画像サイズを基準として、１／４の画像サイズに縮小された１２８チャンネルの画像特徴マップＣＭＰが、入力データＤＩとして入力される。

第３階層においては、２５６個のフィルタＦを適用する２回の畳み込み処理が行われて、２５６チャンネルの画像特徴マップＣＭＰが出力され、２５６チャンネルの画像特徴マップＣＭＰに対して、画像サイズをさらに半分にするプーリング処理が行われる。これにより、第３階層から第４階層には、学習用入力画像ＩＩＬを基準として、１／８の画像サイズに縮小された２５６チャンネルの画像特徴マップＣＭＰが、入力データＤＩとして入力される。

同様に、第４階層においては、５１２個のフィルタＦを適用する２回の畳み込み処理が行われて、５１２チャンネルの画像特徴マップＣＭＰが出力され、５１２チャンネルの画像特徴マップＣＭＰに対して、画像サイズをさらに半分にするプーリング処理が行われる。これにより、第４階層から第５階層には、学習用入力画像ＩＩＬを基準として、１／１６の画像サイズに縮小された５１２チャンネルの画像特徴マップＣＭＰが、入力データＤＩとして入力される。

最下位の階層の第５階層においては、１０２４個のフィルタを適用する２回の畳み込み処理が行われる。ただし、第５階層においては、畳み込み処理で抽出された画像特徴マップＣＭＰに対してはプーリング処理が行われない。

エンコーダネットワーク２０においては、各階層に入力される入力データＤＩ（学習用入力画像ＩＩＬまたは画像特徴マップＣＭＰ）は、最上位の第１階層から最下位の第５階層に向かって、画像サイズが段階的に縮小されて解像度が下げられる。本例においては、第１階層に入力される学習用入力画像ＩＩＬの画像サイズを基準に、第１階層は１／１（等倍）、第２階層は１／２、第３階層は１／４、第４階層は１／８、第５階層は１／１６のそれぞれの画像サイズの入力データＤＩが入力される。

エンコーダネットワーク２０の各階層は、階層毎に、解像度が異なる入力データＤＩに対してフィルタＦを適用して畳み込み処理を行う。第１階層では、各階層の入力データＤＩのうちで最も解像度が高い学習用入力画像ＩＩＬに対して畳み込み処理が行われる。このため、第１階層で抽出される画像特徴マップＣＭＰは、学習用入力画像ＩＩＬにおいて最も空間周波数が高い周波数帯域をもつ、最も微細な構造の特徴を表す。第２階層および第３階層では、学習用入力画像ＩＩＬよりも解像度が下げられた入力データＤＩに対して畳み込み処理が行われる。このため、第２階層および第３階層で抽出される画像特徴マップＣＭＰは、第１階層と比べて、空間周波数が低い周波数帯域をもつ、中域構造の特徴を表す。第４階層および第５階層では、さらに入力データＤＩの解像度が下がるため、第４階層および第５階層で抽出される画像特徴マップＣＭＰは、さらに空間周波数が低い周波数帯域をもつ、大域構造の特徴を表す。

エンコーダネットワーク２０においては、最上位の第１階層から最下位の第５階層の階層毎に、学習用入力画像ＩＩＬに含まれる周波数帯域が異なる画像の特徴を出力する。第１階層の１／１から第５階層の１／１６までの各画像サイズは、各階層が解析可能な周波数帯域を示す。すなわち、１／１は最も空間周波数が高い周波数帯域を示し、反対に１／１６は最も空間周波数が低い周波数帯域を示す。なお、エンコーダネットワーク２０において、階層が下るにつれて、フィルタＦの数を６４、１２８、２５６、・・・と増加させる理由は、画像サイズが小さくなる分、フィルタＦの数を増やして、学習用入力画像ＩＩＬに含まれる様々な特徴を抽出するためである。

エンコーダネットワーク２０の第１階層から第４階層は、それぞれが抽出した画像特徴マップＣＭＰを、デコーダネットワーク２１に対して送信する。この画像特徴マップＣＭＰをエンコーダネットワーク２０からデコーダネットワーク２１に送信する処理は、スキップレイヤ処理と呼ばれ、図４において「ｓｋｉｐ」で示す。デコーダネットワーク２１の各階層において、ハッチングで示す画像特徴マップＣＭＰが、エンコーダネットワーク２０から送信された画像特徴マップＣＭＰである。

デコーダネットワーク２１は、アップサンプリング処理とマージ処理とを繰り返す。アップサンプリング処理は、図４において「ｕｐｓｍｐ（ｕｐｓａｍｐｌｉｎｇ）」として示す。アップサンプリング処理は、エンコーダネットワーク２０から出力された最小の画像サイズの画像特徴マップＣＭＰの画像サイズを段階的に拡大する処理である。マージ処理は、アップサンプリング処理で段階的に拡大された画像特徴マップＣＭＰと、エンコーダネットワーク２０において階層毎に出力され、かつ、画像サイズが同じ画像特徴マップＣＭＰとを結合する処理である。デコーダネットワーク２１は、これらアップサンプリング処理とマージ処理とにより、学習用入力画像ＩＩＬ内のクラス毎の領域がセグメンテーションされた学習用出力画像ＯＩＬを生成する。

デコーダネットワーク２１は、エンコーダネットワーク２０の各階層と対応する第１階層から第５階層を有する。デコーダネットワーク２１の各階層で行われるアップサンプリング処理では、エンコーダネットワーク２０の対応する各階層の画像サイズと同じサイズになるように画像特徴マップＣＭＰが拡大される。

また、本例のアップサンプリング処理は、画像サイズを拡大することに加えて、フィルタＦを適用する畳み込み処理を伴う。こうした畳み込み処理を伴うアップサンプリング処理は、アップコンボリューション処理と呼ばれる。デコーダネットワーク２１の各階層においては、アップコンボリューション処理が終了した後に、マージ処理とさらなる畳み込み処理とが行なわれる。

デコーダネットワーク２１の第４階層は、まず、エンコーダネットワーク２０の最下位の第５階層から、１／１６という最小の画像サイズの画像特徴マップＣＭＰを受け取る。この画像特徴マップＣＭＰのチャンネル数は１０２４である。デコーダネットワーク２１の第４階層は、１／１６の画像サイズの画像特徴マップＣＭＰを、２倍の１／８の画像サイズに拡大し、かつ、５１２個のフィルタＦを適用する畳み込み処理を行って、チャンネル数を半分の５１２個に減らす。

デコーダネットワーク２１の第４階層においては、エンコーダネットワーク２０の第５階層から受け取った画像特徴マップＣＭＰと、エンコーダネットワーク２０の第４階層からスキップレイヤ処理で送信された画像特徴マップＣＭＰとを結合するマージ処理が行われる。第４階層において結合される画像特徴マップＣＭＰは、それぞれ１／８の画像サイズで、かつ、５１２チャンネルである。そのため、第４階層においては、マージ処理によって、１／８の画像サイズで、かつ、１０２４チャンネル（５１２＋５１２）の画像特徴マップＣＭＰが生成される。

さらに、第４階層においては、１０２４チャンネルの画像特徴マップＣＭＰに対して５１２個のフィルタＦを適用する畳み込み処理が２回行われて、１／８の画像サイズで、かつ、５１２チャンネルの画像特徴マップＣＭＰが生成される。第４階層においては、この１／８の画像サイズの画像特徴マップＣＭＰに対して、画像サイズを２倍の１／４に拡大し、かつ、チャンネル数を半分の２５６チャンネルにするアップコンボリューション処理が行われる。この結果、第４階層から第３階層に対して、１／４の画像サイズで、かつ、２５６チャンネルの画像特徴マップＣＭＰが出力される。

デコーダネットワーク２１の第３階層においては、第４階層から受け取った画像特徴マップＣＭＰと、エンコーダネットワーク２０の第３階層からスキップレイヤ処理で送信された画像特徴マップＣＭＰとを結合するマージ処理が行われる。第３階層において結合される画像特徴マップＣＭＰは、それぞれ１／４の画像サイズで、かつ、２５６チャンネルである。そのため、第３階層においては、マージ処理によって、１／４の画像サイズで、かつ、５１２チャンネル（２５６＋２５６）の画像特徴マップＣＭＰが生成される。

さらに、第３階層においては、５１２チャンネルの画像特徴マップＣＭＰに対して２５６個のフィルタＦを適用する畳み込み処理が２回行われて、１／４の画像サイズで、かつ、２５６チャンネルの画像特徴マップＣＭＰが生成される。第３階層においては、この１／４の画像サイズの画像特徴マップＣＭＰに対して、画像サイズを２倍の１／２に拡大し、かつ、チャンネル数を半分の１２８チャンネルにするアップコンボリューション処理が行われる。この結果、第３階層から第２階層に対して、１／２の画像サイズで、かつ、１２８チャンネルの画像特徴マップＣＭＰが出力される。

デコーダネットワーク２１の第２階層においては、第３階層から受け取った画像特徴マップＣＭＰと、エンコーダネットワーク２０の第２階層からスキップレイヤ処理で送信された画像特徴マップＣＭＰとを結合するマージ処理が行われる。第２階層において結合される画像特徴マップＣＭＰは、それぞれ１／２の画像サイズで、かつ、１２８チャンネルである。そのため、第２階層においては、マージ処理によって、１／２の画像サイズで、かつ、２５６チャンネル（１２８＋１２８）の画像特徴マップＣＭＰが生成される。

さらに、第２階層においては、２５６チャンネルの画像特徴マップＣＭＰに対して１２８個のフィルタＦを適用する畳み込み処理が２回行われて、１／２の画像サイズで、かつ、１２８チャンネルの画像特徴マップＣＭＰが生成される。第２階層においては、この１／２の画像サイズの画像特徴マップＣＭＰに対して、画像サイズを２倍の１／１に拡大し、かつ、チャンネル数を半分の６４チャンネルにするアップコンボリューション処理が行われる。この結果、最終的に、第２階層から第１階層に対して、１／１の画像サイズで、かつ、６４チャンネルの画像特徴マップＣＭＰが出力される。

デコーダネットワーク２１の第１階層においては、第２階層から受け取った画像特徴マップＣＭＰと、エンコーダネットワーク２０の第１階層からスキップレイヤ処理で送信された画像特徴マップＣＭＰとを結合するマージ処理が行われる。第１階層において結合される画像特徴マップＣＭＰは、それぞれ１／１の画像サイズで、かつ、６４チャンネルである。そのため、第１階層においては、マージ処理によって、１／１の画像サイズで、かつ、１２８チャンネル（６４＋６４）の画像特徴マップＣＭＰが生成される。

さらに、第１階層においては、１２８チャンネルの画像特徴マップＣＭＰに対して６４個のフィルタＦを適用する畳み込み処理が行われた後、１個のフィルタＦを適用する畳み込み処理が行われる。これにより、学習用入力画像ＩＩＬと同じ１／１の画像サイズの学習用出力画像ＯＩＬが生成される。

デコーダネットワーク２１においては、エンコーダネットワーク２０から出力された最小の画像サイズの画像特徴マップＣＭＰの画像サイズを段階的に拡大する。そして、画像特徴マップＣＭＰを拡大しながら、エンコーダネットワーク２０において階層毎に抽出された画像特徴マップＣＭＰを結合して学習用出力画像ＯＩＬを生成する。最小の画像サイズの画像特徴マップＣＭＰは、学習用入力画像ＩＩＬの最も空間周波数が低い大域構造の特徴を表すものである。デコーダネットワーク２１では、この最小の画像サイズの画像特徴マップＣＭＰを拡大することで、大域構造の特徴を拡大しつつ、エンコーダネットワーク２０からの画像特徴マップＣＭＰを結合することで、中域構造から微細構造までの特徴を取り込む。

モデルＭは、このようなエンコーダネットワーク２０とデコーダネットワーク２１とを用いることで、学習に際しては、学習用入力画像ＩＩＬに含まれるクラスを領域毎に区分けした学習用出力画像ＯＩＬを生成する。

図８において、学習装置１０を構成するコンピュータは、ストレージデバイス３０、メモリ３１、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３２、通信部３３、ディスプレイ３４、および入力デバイス３５を備えている。これらはバスライン３６を介して相互接続されている。

ストレージデバイス３０は、学習装置１０を構成するコンピュータに内蔵、またはケーブル、ネットワークを通じて接続されたハードディスクドライブである。もしくはストレージデバイス３０は、ハードディスクドライブを複数台連装したディスクアレイである。ストレージデバイス３０には、オペレーティングシステム等の制御プログラム、各種アプリケーションプログラム、およびこれらのプログラムに付随する各種データ等が記憶されている。なお、ハードディスクドライブに代えてソリッドステートドライブを用いてもよい。

メモリ３１は、ＣＰＵ３２が処理を実行するためのワークメモリである。ＣＰＵ３２は、ストレージデバイス３０に記憶されたプログラムをメモリ３１へロードして、プログラムにしたがった処理を実行することにより、コンピュータの各部を統括的に制御する。

通信部３３は、ネットワーク１２を介した各種情報の伝送制御を行うネットワークインターフェースである。ディスプレイ３４は各種画面を表示する。学習装置１０を構成するコンピュータは、各種画面を通じて、入力デバイス３５からの操作指示の入力を受け付ける。入力デバイス３５は、キーボード、マウス、タッチパネル等である。なお、図示は省略したが、運用装置１１を構成するコンピュータも、学習装置１０を構成するコンピュータと基本的には同じである。

図９において、学習装置１０のストレージデバイス３０には、作動プログラム４０が記憶されている。作動プログラム４０は、コンピュータを学習装置１０として機能させるためのアプリケーションプログラムである。すなわち、作動プログラム４０は、本開示の技術に係る「学習装置の作動プログラム」の一例である。

ストレージデバイス３０には、学習用入力画像ＩＩＬおよびアノテーション画像ＡＩの組で構成される学習データＬＤ、およびモデルＭも記憶されている。学習用入力画像ＩＩＬは、位相差顕微鏡から送信されて記憶したものである。アノテーション画像ＡＩは、学習装置１０において学習用入力画像ＩＩＬから事前に作成して記憶したものである。あるいは、アノテーション画像ＡＩは、学習装置１０とは別の装置において作成され、別の装置から送信されて記憶したものでもよい。モデルＭもアノテーション画像ＡＩと同様に、学習装置１０において作成して記憶したものでもよいし、別の装置において作成され、別の装置から送信されて記憶したものでもよい。

作動プログラム４０が起動されると、学習装置１０を構成するコンピュータのＣＰＵ３２は、メモリ３１等と協働して、リードライト（以下、ＲＷ（ＲｅａｄＷｒｉｔｅ）と略す）制御部４５、表示制御部４６、受付部４７、変更部４８、学習部４９、評価部５０、更新部５１、および送信制御部５２として機能する。

ＲＷ制御部４５は、ストレージデバイス３０への各種データの記憶、およびストレージデバイス３０内の各種データの読み出しを制御する。ＲＷ制御部４５は、作動プログラム４０、学習データＬＤ、モデルＭ等をストレージデバイス３０に記憶する。また、ＲＷ制御部４５は、ストレージデバイス３０から作動プログラム４０、学習データＬＤ、モデルＭ等を読み出す。

ＲＷ制御部４５は、学習データＬＤを変更部４８に出力する。また、ＲＷ制御部４５は、変更部４８で態様が変更された学習データＬＤをストレージデバイス３０に記憶する。ＲＷ制御部４５は、学習用入力画像ＩＩＬを学習部４９に、アノテーション画像ＡＩを評価部５０にそれぞれ出力する。

ＲＷ制御部４５は、モデルＭを、変更部４８、学習部４９、更新部５１、および送信制御部５２のいずれかに出力する。また、ＲＷ制御部４５は、変更部４８で態様が変更されたモデルＭをストレージデバイス３０に記憶する。さらに、ＲＷ制御部４５は、更新部５１で更新されたモデルＭをストレージデバイス３０に記憶する。

表示制御部４６は、ディスプレイ３４への各種画面の表示を制御する。各種画面には指定画面６０（図１１等参照）が含まれる。指定画面６０は、学習用入力画像ＩＩＬに含まれる空間周波数の複数の周波数帯域のうち、モデルＭの学習に必要と推定される必要帯域の指定を受け付けるためのグラフィカルユーザインタフェース（以下、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）と略す）で構成される画面である。

受付部４７は、指定画面６０を通じて必要帯域の指定を受け付ける。受付部４７は、必要帯域の指定の内容を示す指定情報ＳＩを生成し、指定情報ＳＩを変更部４８に出力する。

変更部４８は、モデルＭおよび学習データＬＤのうちの少なくともいずれかを、受付部４７において受け付けた指定、すなわち指定情報ＳＩに応じた態様に変更する。変更部４８は、態様を変更したモデルＭおよび学習データＬＤのうちの少なくともいずれかを、ＲＷ制御部４５に出力する。

学習部４９は、学習用入力画像ＩＩＬを学習データＬＤとしてモデルＭに与えて学習させる。これによりモデルＭから出力された学習用出力画像ＯＩＬを、学習部４９は評価部５０に出力する。

学習部４９は、例えばミニバッチデータを用いたミニバッチ学習をモデルＭに行わせる。ミニバッチデータは、学習用入力画像ＩＩＬとアノテーション画像ＡＩとを分割した複数の分割画像（例えば元の画像の１／１００のサイズの枠で分割した１万枚の分割画像）のうちの一部（例えば１００枚）で構成される。学習部４９は、こうしたミニバッチデータを複数組（例えば１００組）作成し、各組を順次モデルＭに与えて学習させる。

評価部５０は、アノテーション画像ＡＩと学習用出力画像ＯＩＬとを比較し、モデルＭのクラスの判別精度を評価する。より詳しくは、評価部５０は、損失関数を用いて、モデルＭのクラスの判別精度を評価する。損失関数は、アノテーション画像ＡＩと学習用出力画像ＯＩＬとの差異の程度を表す関数である。損失関数の算出値が０に近いほど、モデルＭのクラスの判別精度が高いことを示す。評価部５０は、評価結果を更新部５１に出力する。

更新部５１は、評価部５０からの評価結果に応じて、モデルＭを更新する。具体的には、更新部５１は、学習係数を伴う確率的勾配降下法等により、モデルＭの各種フィルタＦの係数を変化させる。学習係数は、モデルＭの各種フィルタＦの係数の変化幅を示す。すなわち、学習係数が比較的大きい値であるほど、各種フィルタＦの係数の変化幅は大きくなり、モデルＭの更新度合いも大きくなる。

これら学習部４９によるモデルＭの学習、評価部５０によるクラスの判別精度の評価、および更新部５１によるモデルＭの更新は、クラスの判別精度が予め設定されたレベルとなるまで、繰り返し続けられる。

送信制御部５２は、クラスの判別精度が予め設定されたレベルとされたモデルＭである学習済みモデルＴＭを、運用装置１１に送信する制御を行う。

図１０は、アノテーション画像ＡＩのクラスの領域の指定の仕方のばらつきの例を示す。図１０Ａは、１つの分化細胞ＤＣが映る学習用入力画像ＩＩＬの一部を示す。図１０Ｂおよび図１０Ｃは、図１０Ａと同じ部分のアノテーション画像ＡＩを示す。図１０Ｂに示すアノテーション画像ＡＩにおいては、ハッチングで示すようにほぼ１画素単位で細かく分化細胞ＤＣの領域が指定されており、分化細胞ＤＣの輪郭線に対してほぼ忠実な指定がなされている。対して図１０Ｃに示すアノテーション画像ＡＩにおいては、ハッチングで示すように２画素単位から４画素単位程度で粗く分化細胞ＤＣの領域が指定されており、分化細胞ＤＣの輪郭線からの逸脱が大きい。

アノテーション画像ＡＩのクラスの領域の指定はユーザが手動で行うため、図１０Ｂおよび図１０Ｃで示すようにばらつきが生じる。こうしたアノテーション画像ＡＩのクラスの領域の指定のばらつきは、学習データＬＤの判別対象のクラスの周波数帯域と、モデルＭが解析可能な周波数帯域との不整合を引き起こす原因の１つである。

すなわち、アノテーション画像ＡＩのクラスの領域の指定の仕方が細かい場合は、アノテーション画像ＡＩ内においてそのクラスを示す特徴は、周波数帯域が高い。逆に、アノテーション画像ＡＩのクラスの領域の指定の仕方が粗い場合は、アノテーション画像ＡＩ内においてそのクラスを示す特徴は、周波数帯域が低い。アノテーション画像ＡＩは、学習用出力画像ＯＩＬと比較される正解画像である。このため、図１０Ｃに示すアノテーション画像ＡＩのように、判別対象のクラスの周波数帯域が低い場合は、モデルＭにおいて細かな微細構造の特徴を抽出しても、クラスの判別精度にはなんら寄与しないという結果になることも考えられる。こうした場合は、与えられた学習データＬＤに含まれるクラスの判別精度の向上に寄与しない不要な階層が、モデルＭに含まれていることになる。

また、モデルＭが解析可能な周波数帯域の範囲は有限である。このため、最上位の第１階層に入力される学習用入力画像ＩＩＬの解像度が高すぎる場合は、最下位の第５階層において、学習用入力画像ＩＩＬに含まれる、周波数帯域が低い大域構造の特徴が抽出しきれない場合もある。

アノテーション画像ＡＩを自らの手で作成したユーザは、アノテーション画像ＡＩのクラスの領域の指定の仕方が細かいか粗いかは当然ながら把握している。したがって、ユーザは、学習用入力画像ＩＩＬに含まれる空間周波数の複数の周波数帯域のうち、モデルＭの学習に必要と推定される必要帯域も、ある程度把握していると考えられる。そこで、本開示の技術では、必要帯域をユーザに指定させ、モデルＭおよび学習データＬＤのうちの少なくともいずれかを、指定に応じた態様に変更する。

図１１において、指定画面６０は、アノテーション画像ＡＩを作成した後、モデルＭの学習を開始する前に、表示制御部４６によりディスプレイ３４に表示される。指定画面６０には、二点鎖線の枠および符号６１で示すように、モデルＭの各階層が表示される。また、指定画面６０には、二点鎖線の枠および符号６２で示すように、各階層のそれぞれに対応する各周波数帯域が表示される。なお、複数の階層６１および複数の周波数帯域６２は、少なくともいずれかが表示されていればよい。

指定画面６０は、必要帯域を指定するための指定バー６３を有する。指定バー６３は、第１階層および周波数帯域１／１に左端が、第５階層および周波数帯域１／１６に右端がそれぞれ配された横棒と、各階層および各周波数帯域の対応する位置に配された縦棒とで構成される。指定バー６３の縦棒の下部には、矢印６４が表示される。矢印６４は、例えば、マウスのカーソルで縦棒をダブルクリックすることで、表示、非表示が切り替わる。矢印６４が表示されている周波数帯域は必要帯域として指定される。反対に、矢印６４が非表示の周波数帯域は必要帯域として指定されない。この必要帯域として指定されない周波数帯域は、学習において省略可能と推定される省略可能帯域である。なお、指定バー６３が、本開示の技術に係る「複数の階層、または複数の階層のそれぞれに対応する複数の周波数帯域の少なくともいずれかを示す指標」の一例である。また、矢印６４の表示、非表示を切り替える操作が、本開示の技術に係る「指標に対する指定操作」の一例である。

指定画面６０の下部には、階層追加ボタン６５、キャンセルボタン６６、および適用ボタン６７が設けられている。階層追加ボタン６５が選択された場合、図１２に示すように、新たな階層が追加表示される。この階層の追加表示に伴い、指定バー６３の横棒の右端が伸ばされ、かつ縦棒が１つ追加される。図１２では、第６階層および周波数帯域１／３２が追加された場合を例示している。

キャンセルボタン６６が選択された場合、矢印６４による必要帯域の指定がキャンセルされ、指定画面６０の表示が消される。一方、適用ボタン６７が選択された場合、そのときに矢印６４が表示されていた周波数帯域が必要帯域として指定され、指定画面６０の表示が消される。

図１３は、指定画面６０における必要帯域の指定の一例を示す。指定画面６０によれば、第２階層および周波数帯域１／２と第３階層および周波数帯域１／４と第５階層および周波数帯域１／１６に、矢印６４が表示されている。一方、第１階層および周波数帯域１／１と第４階層および周波数帯域１／８には、矢印６４は表示されていない。この場合、指定情報ＳＩに示すように、第２階層と第３階層と第５階層は、必要帯域に対応する必要階層である。一方、第１階層と第４階層は、省略可能帯域に対応する省略可能階層である。

図１３で示した指定情報ＳＩの場合、変更部４８は、図１４に示すようにモデルＭの態様を変更する。具体的には、変更部４８は、省略可能帯域に対応する省略可能階層の計算処理量を、必要帯域に対応する必要階層よりも減らす。

図４で示したように、モデルＭのエンコーダネットワーク２０の各階層においては、畳み込み処理、プーリング処理、およびスキップレイヤ処理を行う。このため、図１４の左側の表に示すように、態様を変更する前のモデルＭ＿Ｂは、第１階層から第５階層までの全ての階層において、畳み込み処理、プーリング処理、およびスキップレイヤ処理を実行する設定となっている。

対して、図１４の右側の表に示すように、変更部４８は、必要階層である第２階層、第３階層、および第５階層は設定を変更しないが、省略可能階層である第１階層および第４階層については、畳み込み処理およびスキップレイヤ処理を実行せず、プーリング処理のみを実行する設定に変更する。省略可能階層である第１階層および第４階層は、畳み込み処理およびスキップレイヤ処理を実行しないので、必要階層である第２階層、第３階層、および第５階層よりも計算処理量は減る。

図１５は、図１４の右側の表に示す設定とされた、態様を変更された後のモデルＭ＿Ａを示す。図１５においては、図４の態様を変更する前のモデルＭ＿Ｂとの対照を容易にするため、変更部４８において設定を変更された処理の部分を二点鎖線の円で示している。詳しくは、エンコーダネットワーク２０における第１階層において、畳み込み処理およびスキップレイヤ処理が省略されている。スキップレイヤ処理が省略されることで、デコーダネットワーク２１の第１階層では、エンコーダネットワーク２０の第１階層から受け取る画像特徴マップＣＭＰがないため、マージ処理も省略される。同様に、第４階層においても、エンコーダネットワーク２０における畳み込み処理およびスキップレイヤ処理が省略される結果、デコーダネットワーク２１におけるマージ処理も省略される。学習部４９は、省略可能階層の計算処理量が必要階層よりも減らされたモデルＭ＿Ａを用いて、学習を行う。

図１６は、指定画面６０における必要帯域の指定の別の例を示す。指定画面６０によれば、第６階層および周波数帯域１／３２が追加されており、かつ、第１階層および周波数帯域１／１以外に、矢印６４が表示されている。この場合、指定情報ＳＩに示すように、第１階層は省略可能階層、第１階層以外の第２階層～第６階層は必要階層である。

図１６で示した指定情報ＳＩの場合、変更部４８は、図１７に示すようにモデルＭの態様を変更する。具体的には、変更部４８は、学習データＬＤを構成する画像、すなわち学習用入力画像ＩＩＬの解像度を下げる。

図１７において、モデルＭには、周波数帯域１／１の第１階層から周波数帯域１／１６の第５階層まではあるが、図１６で必要階層として指定された第６階層が存在しない。つまり、吹き出し７０に示すように、必要階層がモデルＭにない。この場合、変更部４８は、学習用入力画像ＩＩＬの解像度を下げて、画像サイズを１／２とする。これにより、モデルＭの第１階層には、１／１の画像サイズの学習用入力画像ＩＩＬが本来入力されるところ、１／２の画像サイズの学習用入力画像ＩＩＬが入力される。その結果、モデルＭの最下位の第５階層が解析可能な周波数帯域が、１／１６から１／３２に実質的に変更されることになる。学習部４９は、この解像度が下げられた学習用入力画像ＩＩＬを用いて、学習を行う。

図１６および図１７の例においては、周波数帯域１／１の第１階層は省略可能階層と指定されている。そのため、学習用入力画像ＩＩＬの微細構造の特徴の解析は不要である。モデルＭでは、解像度が低い学習用入力画像ＩＩＬの解析からスタートするため、クラスの判別に不要な微細構造の解析が省略される。加えて、モデルＭが解析可能な周波数帯域の範囲が予め設定されている場合は、学習用入力画像ＩＩＬの解像度を下げたことにより、最下位の第５階層において解析可能な周波数帯域が低くなる。その結果、周波数帯域１／３２等、より大域構造の特徴の解析が可能となる。

図１８は、指定画面６０における必要帯域の指定のさらに別の例を示す。指定画面６０によれば、第６階層および周波数帯域１／３２が追加されている。また、第１階層および周波数帯域１／１と第４階層および周波数帯域１／８以外に、矢印６４が表示されている。この場合、指定情報ＳＩに示すように、第１階層と第４階層は省略可能階層、それ以外の第２階層、第３階層、第５階層、第６階層は必要階層である。

図１８で示した指定情報ＳＩの場合、変更部４８は、学習用入力画像ＩＩＬの解像度を下げ、かつ、省略可能階層の計算処理量を必要階層よりも減らす。

変更部４８は、図１７で示した場合と同じく、学習用入力画像ＩＩＬの解像度を下げて、画像サイズを１／２とする。これにより、図１９の左側の表に示すように、モデルＭ＿Ｂの解析可能な周波数帯域は、第１階層の周波数帯域１／１が１／２、第２階層の周波数帯域１／２が１／４、第３階層の周波数帯域１／４が１／８、第４階層の周波数帯域１／８が１／１６、第５階層の周波数帯域１／１６が１／３２というように、実質的に解析可能な周波数帯域が変更される。

この解析可能な周波数帯域の変更に伴って、図１８で示した指定情報ＳＩにおける省略可能階層である第４階層は、モデルＭ＿Ｂにおいては第３階層に相当する。そのため、変更部４８は、図１９の右側の表に示すように、第３階層のスキップレイヤ処理を実行しない設定に変更する。こうして第３階層のスキップレイヤ処理を実行しない設定とされたモデルＭ＿Ａは、エンコーダネットワーク２０における第３階層において、スキップレイヤ処理が省略される。スキップレイヤ処理が省略されることで、デコーダネットワーク２１の第３階層におけるマージ処理も省略される。学習部４９は、省略可能階層の計算処理量が必要階層よりも減らされたモデルＭ＿Ａ、および解像度が下げられた学習用入力画像ＩＩＬを用いて学習を行う。

次に、上記構成による作用について、図２０のフローチャートを参照して説明する。まず、学習装置１０において作動プログラム４０が起動されると、図９で示したように、学習装置１０を構成するコンピュータのＣＰＵ３２は、ＲＷ制御部４５、表示制御部４６、受付部４７、変更部４８、学習部４９、評価部５０、更新部５１、および送信制御部５２として機能される。

学習装置１０では、表示制御部４６により、図１１で示した指定画面６０がディスプレイ３４に表示される（ステップＳＴ１００）。そして、指定画面６０を通じたユーザの必要帯域の指定が、受付部４７において受け付けられる（ステップＳＴ１１０）。受付部４７では、必要帯域の指定の内容を示す指定情報ＳＩが生成される。指定情報ＳＩは、受付部４７から変更部４８に出力される。なお、ステップＳＴ１１０は、本開示の技術に係る「受付ステップ」の一例である。

変更部４８には、ＲＷ制御部４５から、ストレージデバイス３０の学習データＬＤおよびモデルＭが受け渡される。変更部４８では、指定情報ＳＩに応じて、モデルＭおよび学習データＬＤのうちの少なくともいずれかの態様が変更される（ステップＳＴ１２０）。例えば図１４で示したように、変更部４８により、省略可能階層の計算処理量が必要階層よりも減らされる。また、図１７で示したように、学習用入力画像ＩＩＬの解像度が下げられる。あるいは、図１９で示したように、学習用入力画像ＩＩＬの解像度が下げられ、かつ、省略可能階層の計算処理量が必要階層よりも減らされる。なお、ステップＳＴ１２０は、本開示の技術に係る「変更ステップ」の一例である。

ここで、図示は省略したが、指定情報ＳＩが、モデルＭおよび学習データＬＤのうちの少なくともいずれかの態様を変更すべき内容でない場合は、変更部４８は、モデルＭおよび学習データＬＤのうちの少なくともいずれかの態様を変更しない。指定情報ＳＩが、モデルＭおよび学習データＬＤのうちの少なくともいずれかの態様を変更すべき内容でない場合とは、具体的には、第１階層～第５階層の全てが必要階層と指定された場合である。

学習部４９により、学習用入力画像ＩＩＬがモデルＭに与えられて学習される（ステップＳＴ１３０）。この際、変更部４８により省略可能階層の計算処理量が必要階層よりも減らされたモデルＭ＿Ａ、および変更部４８により解像度が下げられた学習用入力画像ＩＩＬのうちの少なくともいずれかが用いられる。これにより学習用出力画像ＯＩＬがモデルＭから出力される。学習用出力画像ＯＩＬは、学習部４９から評価部５０に出力される。

評価部５０により、アノテーション画像ＡＩと学習用出力画像ＯＩＬとが比較され、この比較結果に基づいて、モデルＭのクラスの判別精度が評価される（ステップＳＴ１４０）。評価結果は評価部５０から更新部５１に出力される。

モデルＭの判別精度が予め設定されたレベル未満であるという評価結果の内容であった場合（ステップＳＴ１５０でＮＯ）、更新部５１によりモデルＭが更新される（ステップＳＴ１６０）。そして、更新後のモデルＭを用いて、ステップＳＴ１３０、ステップＳＴ１４０が繰り返される。対して、モデルＭの判別精度が予め設定されたレベルであるという評価結果の内容であった場合（ステップＳＴ１５０でＹＥＳ）、ステップＳＴ１３０、ステップＳＴ１４０の繰り返し処理が終了される。判別精度が予め設定されたレベルとされたモデルＭは、学習済みモデルＴＭとして送信制御部５２により運用装置１１に送信される（ステップＳＴ１７０）。

以上説明したように、本開示の技術では、学習に必要と推定される必要帯域をユーザに指定させ、この必要帯域の指定を受付部４７で受け付ける。そして、変更部４８により、モデルＭおよび学習データＬＤのうちの少なくともいずれかを、指定に応じた態様に変更する。したがって、クラスの適切な判別と、計算処理の無駄の削減に寄与することが可能となる。

より詳しくは、必要階層がモデルＭになかった場合、変更部４８により、学習用入力画像ＩＩＬの解像度が下げられる。このため、モデルＭの最下位の階層において周波数帯域が低い大域構造の特徴が抽出しきれないという事態を避けることができる。したがって、学習データＬＤの判別対象のクラスの周波数帯域と、モデルＭが解析可能な周波数帯域とが整合していない場合の、適切なクラスの判別ができないという問題を解決することができる。

また、変更部４８により、省略可能階層の計算処理量が必要階層よりも減らされる。このため、学習データＬＤに含まれるクラスの判別精度の向上に寄与しない不要な階層の計算処理に不必要に注力するという事態を避けることができる。したがって、学習データＬＤの判別対象のクラスの周波数帯域と、モデルＭが解析可能な周波数帯域とが整合していない場合の、計算処理の無駄が多くなるという問題を解決することができる。

なお、変更部４８は、図１４では、省略可能階層の畳み込み処理およびスキップレイヤ処理を実行しない設定に変更しているが、図１９では、スキップレイヤ処理のみを実行しない設定に変更している。このように、省略可能階層の計算処理量を必要階層よりも減らす方法は複数通りあり、どの方法を採用するかは任意である。

表示制御部４６の制御の下、ディスプレイ３４に指定画面６０を表示させ、指定画面６０を通じて受付部４７にて必要帯域の指定を受け付けるので、ユーザは容易に必要帯域を指定することができる。また、表示制御部４６により、複数の階層６１および複数の周波数帯域６２を示す指標である指定バー６３を指定画面６０に表示させ、矢印６４を介した指定バー６３に対する指定操作を通じてなされた必要帯域の指定を、受付部４７にて受け付けるので、さらに必要帯域の指定が容易になる。

また、モデルＭは、エンコーダネットワーク２０とデコーダネットワーク２１を有する畳み込みニューラルネットワークＣＮＮで構成される。こうした畳み込みニューラルネットワークＣＮＮは、セマンティックセグメンテーションの信頼性が高く、広く利用されつつある。このため、モデルＭとしてこのような畳み込みニューラルネットワークＣＮＮを用いることで、運用装置１１において、入力画像ＩＩに対して信頼性の高いセマンティックセグメンテーションを実施することができる。

［第２実施形態］
図２１～図２５に示す第２実施形態では、学習データＬＤを構成する画像、すなわちアノテーション画像ＡＩに含まれる周波数帯域を解析し、その解析結果ＡＲ（図２１等参照）を指定画面８５（図２５参照）に表示させる。

図２１において、第２実施形態の学習装置を構成するコンピュータのＣＰＵは、上記第１実施形態の各処理部４５～５２（図２１では表示制御部４６のみ図示）に加えて、解析部８０として機能する。解析部８０は、アノテーション画像ＡＩに含まれる周波数帯域を解析する。解析部８０は、周波数帯域の解析結果ＡＲを表示制御部４６に出力する。

図２２に示すように、解析部８０は、まず、アノテーション画像ＡＩから画像ピラミッドＩＰＭを生成する。次いで、解析部８０は、画像ピラミッドＩＰＭを構成するボケ画像ＢＩ（図２３参照）の差分ΔＰを算出する。そして、解析部８０は、差分ΔＰに基づいて解析結果ＡＲを作成し、表示制御部４６に出力する。

図２３に示すように、画像ピラミッドＩＰＭは、アノテーション画像ＡＩと、アノテーション画像ＡＩの解像度を段階的に下げた、解像度が異なる複数のボケ画像ＢＩとで構成される。各ボケ画像ＢＩは、例えば、画像を平滑化するガウシアンフィルタを用いて、アノテーション画像ＡＩの解像度を段階的に下げた画像である。こうしたボケ画像ＢＩを含む画像ピラミッドＩＰＭは、ガウシアンピラミッドと呼ばれる。解像度を段階的に下げることにより、各ボケ画像ＢＩの画像サイズは、１／２、１／４、１／８、１／１６、・・・と徐々に縮小される。

解析部８０は、このような画像ピラミッドＩＰＭを生成した後、隣接する画像サイズの各ボケ画像ＢＩの差分ΔＰ（ΔＰ（１／１）、ΔＰ（１／２）、ΔＰ（１／４）、ΔＰ（１／８）、・・・）を算出し、各ボケ画像ＢＩの一致度を評価する。解析部８０は、差分ΔＰを算出する前処理として、各ボケ画像ＢＩの画像サイズを合わせるために、画像サイズの小さい方のボケ画像ＢＩを、画像サイズの大きい方のボケ画像ＢＩに合わせて拡大する。例えば１／８のボケ画像ＢＩと１／１６のボケ画像ＢＩの差分ΔＰ（１／８）を算出する場合、画像サイズの大きい方の１／８のボケ画像ＢＩに合わせて、画像サイズの小さい方の１／１６のボケ画像ＢＩの画像サイズを拡大する。ある１つの差分ΔＰは、例えば、２つのボケ画像ＢＩの各画素値の差分の絶対値の合計を、各差分ΔＰ（１／１）、ΔＰ（１／２）、ΔＰ（１／４）、ΔＰ（１／８）、・・・の比較が可能なように、予め設定された手法によって規格化した値である。

差分ΔＰは、アノテーション画像ＡＩに含まれる周波数帯域のそれぞれの空間周波数成分の量を示す。差分ΔＰが大きいほど、そのボケ画像ＢＩの画像サイズに対応する周波数帯域の空間周波数成分が多いと評価される。例えば、１／１の画像サイズのアノテーション画像ＡＩと、一旦画像サイズを１／２に縮小して１／１の画像サイズに拡大したボケ画像ＢＩとの差分ΔＰ（１／１）は、アノテーション画像ＡＩに含まれる周波数帯域のうち、最も高い周波数帯域の空間周波数成分の量を示す。同様に、差分ΔＰ（１／２）は、差分ΔＰ（１／１）よりも一段階低い周波数帯域の空間周波数成分の量を示し、差分ΔＰ（１／４）は、差分ΔＰ（１／２）よりもさらに一段階低い周波数帯域の空間周波数成分の量を示す。このように、各差分ΔＰ（１／１）、ΔＰ（１／２）、ΔＰ（１／４）、ΔＰ（１／８）、・・・を算出することで、アノテーション画像ＡＩにどのような周波数帯域が含まれており、相対的に量が多い周波数帯域はどの帯域であるかを把握することができる。

図２４に示すように、解析部８０は、差分ΔＰと予め設定された閾値Ｔｈとを比較する。解析部８０は、差分ΔＰが閾値Ｔｈ以上の周波数帯域を、必要帯域の候補（以下、必要帯域候補）とし、差分ΔＰが閾値Ｔｈ未満の周波数帯域を、省略可能帯域の候補（以下、省略可能帯域候補）とする。図２４では、差分ΔＰ（１／１）、ΔＰ（１／８）が閾値Ｔｈ未満で、周波数帯域１／１、１／１６が省略可能帯域候補とされた例を示している。

図２５において、第２実施形態の指定画面８５の指定バー６３の横棒には、強調枠８６が表示される。強調枠８６は、必要帯域候補に対応する横棒に表示され、省略可能帯域候補に対応する横棒には表示されない。この強調枠８６によって、解析結果ＡＲを指定画面６０に表示させていることになる。また、強調枠８６によって、複数の階層６１および複数の周波数帯域６２を示す指標である指定バー６３に、解析結果ＡＲを重畳表示させていることになる。

このように、第２実施形態では、アノテーション画像ＡＩに含まれる周波数帯域を解析し、その解析結果ＡＲを指定画面８５に表示させるので、解析結果ＡＲを必要帯域の指定の参考にすることができ、より妥当な必要帯域の指定に貢献することができる。また、指定バー６３に解析結果ＡＲを重畳表示させるので、ユーザは、どの周波数帯域を必要帯域として指定するのが妥当であるかが一目で分かる。

なお、解析結果ＡＲの表示方法は、例示した強調枠８６に限らない。必要帯域候補に対応する矢印６４は黒く塗り潰し、省略可能帯域候補に対応する矢印６４は白抜きにする等、矢印６４の表示形態を変更することで、解析結果ＡＲを表示してもよい。あるいは、指定バー６３に解析結果ＡＲを重畳表示させるのではなく、解析結果ＡＲを示す表を表示させてもよい。

［第３実施形態］
図２６および図２７に示す第３実施形態では、複数の階層６１および複数の周波数帯域６２を示す指標である指定バー６３＿１～６３＿４をクラス１～４毎に表示させ、クラス１～４毎に必要帯域の指定を受け付ける。

図２６において、第３実施形態の指定画面９０は、指定バー６３＿１、６３＿２、６３＿３、６３＿４を有する。指定バー６３＿１は、クラス１の分化細胞ＤＣの必要帯域を指定するためのＧＵＩであり、指定バー６３＿２は、クラス２の未分化細胞ＵＤＣの必要帯域を指定するためのＧＵＩである。また、指定バー６３＿３は、クラス３の死細胞ＤＤＣの必要帯域を指定するためのＧＵＩであり、指定バー６３＿４は、クラス４の培地の必要帯域を指定するためのＧＵＩである。各指定バー６３＿１～６３＿４の縦棒の下部には、上記各実施形態の指定画面６０、８５と同じく、矢印６４が表示される。指定画面９０では、上記各実施形態の指定画面６０、８５と同じく、矢印６４の表示、非表示を切り替えることで、必要帯域と省略可能帯域の指定が行われる。

図２７は、指定画面９０における必要帯域の指定の一例を示す。指定画面９０によれば、指定バー６３＿１～６３＿４の全てにおいて、第１階層および周波数帯域１／１に矢印６４が表示されていない。その他の階層および周波数帯域には、指定バー６３＿１～６３＿４のいずれかに矢印６４が表示されている。この場合、指定情報ＳＩに示すように、第１階層は省略可能階層で、その他の階層は必要階層である。

このように、第３実施形態では、複数の階層６１および複数の周波数帯域６２を示す指標である指定バー６３＿１～６３＿４クラス１～４毎に表示させ、クラス１～４毎に必要帯域の指定を受け付けるので、より詳細な必要帯域の指定が可能となる。アノテーション画像ＡＩにおけるクラスの領域の指定の仕方が、クラスによって異なる場合にも対応することができる。

［第４実施形態］
図２８および図２９に示す第４実施形態では、上記第２実施形態と上記第３実施形態を複合して実施する。具体的には、学習データＬＤを構成する画像、すなわちアノテーション画像ＡＩに含まれる周波数帯域をクラス１～４毎に解析し、その解析結果ＡＲを指定画面１０５（図２９参照）に表示させる。また、複数の階層６１および複数の周波数帯域６２を示す指標である指定バー６３＿１～６３＿４をクラス１～４毎に表示させ、クラス１～４毎に必要帯域の指定を受け付ける。

図２８において、第４実施形態の解析部１００は、アノテーション画像ＡＩに含まれる周波数帯域をクラス１～４毎に解析する。解析部１００は、上記第２実施形態で説明した画像ピラミッドＩＰＭを用いた手法と同じ手法で、各クラス１～４の各周波数帯域について、必要帯域候補であるか省略可能帯域候補であるかを解析する。このため、解析結果ＡＲは、クラス１～４毎に、各周波数帯域が必要帯域候補であるか省略可能帯域候補であるかを示すものとなる。なお、図２８では、必要帯域候補を「必要」、省略可能帯域を「省略可能」とそれぞれ略記している。続く図２９も同じである。

図２９において、第４実施形態の指定画面１０５は、上記第３実施形態の指定画面９０と同じく、指定バー６３＿１、６３＿２、６３＿３、６３＿４を有する。また、指定画面１０５の各指定バー６３＿１～６３＿４の、必要帯域候補に対応する横棒には、上記第２実施形態の指定画面８５と同じく、強調枠８６が表示される。この強調枠８６によって、解析結果ＡＲをクラス１～４毎に指定画面６０に表示させていることになる。また、強調枠８６によって、複数の階層６１および複数の周波数帯域６２を示す指標である指定バー６３＿１～６３＿４に、解析結果ＡＲを重畳表示させていることになる。

このように、第４実施形態では、アノテーション画像ＡＩに含まれる周波数帯域をクラス１～４毎に解析し、その解析結果ＡＲを指定画面１０５に表示させるので、上記第２実施形態と同じく、解析結果ＡＲを必要帯域の指定の参考にすることができ、より妥当な必要帯域の指定に貢献することができる。また、指定バー６３＿１～６３＿４に解析結果ＡＲを重畳表示させるので、ユーザは、どの周波数帯域を必要帯域として指定するのが妥当であるかが一目で分かる。

さらに、第４実施形態では、複数の階層６１および複数の周波数帯域６２を示す指標である指定バー６３＿１～６３＿４をクラス１～４毎に表示させ、クラス１～４毎に必要帯域の指定を受け付けるので、上記第３実施形態と同じく、より詳細な必要帯域の指定が可能となる。アノテーション画像ＡＩにおけるクラスの領域の指定の仕方が、クラスによって異なる場合にも対応することができる。

図４等で示したモデルＭは一例であり、フィルタＦのサイズ（図５の例では３×３）、フィルタＦの枚数（チャンネル数）、各階層の画像サイズの縮小率、階層の数等は適宜変更が可能である。また、畳み込み処理の前後において画像特徴マップＣＭＰの画像サイズが同じになるように処理しているが、畳み込み処理の後、画像特徴マップＣＭＰの画像サイズが僅かに小さくなるようにしてもよい。また、図４等で示した例では、エンコーダネットワーク２０とデコーダネットワーク２１の同じ階層において、画像サイズを完全に一致させているが、完全に一致させなくてもよい。例えば、エンコーダネットワーク２０とデコーダネットワーク２１の同一階層を比較した場合、デコーダネットワーク２０の画像サイズが僅かに小さくなるようにしてもよい。

上記各実施形態では、指定画面６０等を通じて必要帯域の指定を受け付けているが、これに限定されない。音声入力により必要帯域の指定を受け付けてもよい。

上記各実施形態では、矢印６４が表示されている周波数帯域を必要帯域として指定し、矢印６４が非表示の周波数帯域を省略可能帯域として指定しているが、逆に、矢印６４が表示されている周波数帯域を省略可能帯域として指定し、矢印６４が非表示の周波数帯域を必要帯域として指定してもよい。また、必要帯域を指定する矢印６４と省略可能帯域を指定する矢印６４を別々にする等、必要帯域と省略可能帯域の両方の指定を受け付けてもよい。要するに、必要帯域および省略可能帯域のうちの少なくともいずれかの指定を受け付ければよい。

上記各実施形態では、入力画像ＩＩおよび学習用入力画像ＩＩＬとして、培養中の複数の細胞を撮影した細胞画像を例示し、クラスとして分化細胞、培地等を例示したが、これに限定されない。例えばＭＲＩ（ＭａｇｎｅｔｉｃＲｅｓｏｎａｎｃｅＩｍａｇｉｎｇ）画像を入力画像ＩＩおよび学習用入力画像ＩＩＬとし、肝臓、腎臓といった臓器をクラスとしてもよい。また、モデルＭはＵ－Ｎｅｔに限らず、他の畳み込みニューラルネットワーク、例えばＳｅｇＮｅｔでもよい。

機械学習システム２を構成するコンピュータのハードウェア構成は種々の変形が可能である。例えば、学習装置１０と運用装置１１とを統合して、１台のコンピュータで構成してもよい。また、学習装置１０および運用装置１１のうちの少なくともいずれかを、処理能力および信頼性の向上を目的として、ハードウェアとして分離された複数台のコンピュータで構成することも可能である。例えば、学習装置１０のＲＷ制御部４５、表示制御部４６、受付部４７、および変更部４８の機能と、学習部４９、評価部５０、更新部５１、および送信制御部５２の機能とを、２台のコンピュータに分散して担わせる。この場合は２台のコンピュータで学習装置１０を構成する。

このように、機械学習システム２のコンピュータのハードウェア構成は、処理能力、安全性、信頼性等の要求される性能に応じて適宜変更することができる。さらに、ハードウェアに限らず、作動プログラム４０等のアプリケーションプログラムについても、安全性および信頼性の確保を目的として、二重化したり、あるいは、複数のストレージデバイスに分散して格納することももちろん可能である。

上記各実施形態において、例えば、ＲＷ制御部４５、表示制御部４６、受付部４７、変更部４８、学習部４９、評価部５０、更新部５１、送信制御部５２、解析部８０、１００といった各種の処理を実行する処理部（ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）のハードウェア的な構造としては、次に示す各種のプロセッサ（Ｐｒｏｃｅｓｓｏｒ）を用いることができる。各種のプロセッサには、上述したように、ソフトウェア（作動プログラム４０）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ３２に加えて、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ:ＰＬＤ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

１つの処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種または異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせ、および／または、ＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。

複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントおよびサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（ＳｙｓｔｅｍＯｎＣｈｉｐ:ＳｏＣ）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路（ｃｉｒｃｕｉｔｒｙ）を用いることができる。

以上の記載から、以下の付記項１に記載の発明を把握することができる。

［付記項１］
入力画像を解析する複数の階層を有する機械学習モデルであって、前記階層毎に、前記入力画像に含まれる空間周波数の周波数帯域が異なる特徴を抽出することにより、前記入力画像に含まれる複数のクラスの判別を画素単位で行うセマンティックセグメンテーションを実施するための機械学習モデルに、学習データを与えて学習させる学習装置であり、
複数の前記周波数帯域のうち、前記学習に必要と推定される必要帯域、および前記学習において省略可能と推定される省略可能帯域のうちの少なくともいずれかの指定を受け付ける受付プロセッサと、
前記機械学習モデルおよび前記学習データのうちの少なくともいずれかを、前記受付プロセッサにおいて受け付けた前記指定に応じた態様に変更する変更プロセッサと、
を備える学習装置。

本開示の技術は、上述の種々の実施形態と種々の変形例を適宜組み合わせることも可能である。また、上記各実施形態に限らず、要旨を逸脱しない限り種々の構成を採用し得ることはもちろんである。さらに、本開示の技術は、プログラムに加えて、プログラムを非一時的に記憶する記憶媒体にもおよぶ。

以上に示した記載内容および図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、および効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、および効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容および図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことはいうまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容および図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。

本明細書において、「Ａおよび／またはＢ」は、「ＡおよびＢのうちの少なくとも１つ」と同義である。つまり、「Ａおよび／またはＢ」は、Ａだけであってもよいし、Ｂだけであってもよいし、ＡおよびＢの組み合わせであってもよい、という意味である。また、本明細書において、３つ以上の事柄を「および／または」で結び付けて表現する場合も、「Ａおよび／またはＢ」と同様の考え方が適用される。

本明細書に記載された全ての文献、特許出願および技術規格は、個々の文献、特許出願および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

２機械学習システム
１０学習装置
１１運用装置
１２ネットワーク
２０エンコーダネットワーク
２１デコーダネットワーク
３０ストレージデバイス
３１メモリ
３２ＣＰＵ
３３通信部
３４ディスプレイ
３５入力デバイス
３６バスライン
４０作動プログラム（学習装置の作動プログラム）
４５リードライト制御部（ＲＷ制御部）
４６表示制御部
４７受付部
４８変更部
４９学習部
５０評価部
５１更新部
５２送信制御部
６０、８５、９０、１０５指定画面
６１複数の階層
６２複数の周波数帯域
６３、６３＿１～６３＿４指定バー（指標）
６４矢印
６５階層追加ボタン
６６キャンセルボタン
６７適用ボタン
７０吹き出し
８０、１００解析部
８６強調枠
ＡＩアノテーション画像
ＡＲ解析結果
ＢＩボケ画像
ＣＭＰ画像特徴マップ
ＣＮＮ畳み込みニューラルネットワーク
ＤＣ分化細胞
ＤＤＣ死細胞
ＤＩ入力データ
ＤＩｃ出力データ
Ｆフィルタ
Ｉｃｐ出力データの画素
ＩＩ入力画像
ＩＩＬ学習用入力画像
Ｉｐ注目画素
ＩＰＭ画像ピラミッド
Ｉｓ隣接する画素
ＬＤ学習データ
Ｍモデル
Ｍ＿Ａ態様を変更した後のモデル
Ｍ＿Ｂ態様を変更する前のモデル
ＯＩ出力画像
ＯＩＬ学習用出力画像
ＰＬ培地
ＳＩ指定情報
ＳＴ１００、ＳＴ１３０、ＳＴ１４０、ＳＴ１５０、ＳＴ１６０、ＳＴ１７０ステップＳＴ１１０ステップ（受付ステップ）
ＳＴ１２０ステップ（変更ステップ）
ＴＭ学習済みモデル
Ｕユニット
ＵＤＣ未分化細胞
ΔＰ差分

Claims

入力画像を解析する複数の階層を有する機械学習モデルであって、前記階層毎に、前記入力画像に含まれる空間周波数の周波数帯域が異なる特徴を抽出することにより、前記入力画像に含まれる複数のクラスの判別を画素単位で行うセマンティックセグメンテーションを実施するための機械学習モデルに、学習データを与えて学習させる学習装置であり、
複数の前記周波数帯域のうち、前記学習に必要と推定される必要帯域、および前記学習において省略可能と推定される省略可能帯域のうちの少なくともいずれかに関するユーザの指定を受け付ける受付部と、
前記機械学習モデルおよび前記学習データのうちの少なくともいずれかを、前記受付部において受け付けた前記指定に応じた態様に変更する変更部と、
を備える学習装置。
前記変更部は、前記省略可能帯域に対応する省略可能階層の計算処理量を、前記必要帯域に対応する必要階層よりも減らす請求項１に記載の学習装置。
前記変更部は、前記必要帯域に対応する必要階層が前記機械学習モデルになかった場合、前記学習データを構成する画像の解像度を下げる請求項１または請求項２に記載の学習装置。
前記指定を受け付けるためのグラフィカルユーザインタフェースで構成される指定画面の表示を制御する表示制御部を備え、
前記受付部は、前記指定画面を通じて前記指定を受け付ける請求項１から請求項３のいずれか１項に記載の学習装置。
前記表示制御部は、複数の前記階層、または複数の前記階層のそれぞれに対応する複数の前記周波数帯域の少なくともいずれかを示す指標を前記指定画面に表示させ、
前記受付部は、前記指標に対する指定操作を通じてなされた前記指定を受け付ける請求項４に記載の学習装置。
前記表示制御部は、前記指定画面において、前記指標を前記クラス毎に表示させ、
前記受付部は、前記指定操作を通じてなされた前記クラス毎の前記指定を受け付ける請求項５に記載の学習装置。
前記学習データを構成する画像に含まれる前記周波数帯域を解析する解析部を備え、
前記表示制御部は、前記解析部による前記周波数帯域の解析結果を、前記指定画面に表示させる請求項４から請求項６のいずれか１項に記載の学習装置。
請求項５を引用する請求項７に記載の学習装置において、
前記表示制御部は、前記指標に前記解析結果を重畳表示させる学習装置。
請求項６を引用する請求項７に記載の学習装置において、
前記解析部は、前記学習データを構成する画像に含まれる前記周波数帯域を前記クラス毎に解析し、
前記表示制御部は、前記指定画面において、前記解析結果を前記クラス毎に表示させる学習装置。
前記表示制御部は、前記指標に前記解析結果を重畳表示させる請求項９に記載の学習装置。
前記機械学習モデルは、
前記階層毎に、フィルタを用いた畳み込み演算を行って、前記入力画像に含まれる前記周波数帯域が異なる特徴を表す画像特徴マップを抽出する畳み込み処理と、前記畳み込み処理で抽出された前記画像特徴マップの局所的な統計量を計算して前記画像特徴マップを圧縮することにより、画像サイズが縮小された前記画像特徴マップを出力するプーリング処理とを行い、かつ、次の前記階層においては、前の前記階層で出力され、かつ、縮小された前記画像特徴マップに対して前記畳み込み処理と前記プーリング処理とを繰り返すことにより、前記階層毎の前記画像特徴マップを抽出するエンコーダネットワークと、
前記エンコーダネットワークにおいて出力された最小の画像サイズの前記画像特徴マップから、アップサンプリングによって前記画像特徴マップの画像サイズを段階的に拡大するアップサンプリング処理と、段階的に拡大された前記画像特徴マップと、前記エンコーダネットワークにおいて前記階層毎に抽出され、かつ、前記画像サイズが同じ前記画像特徴マップとを結合するマージ処理とを繰り返すことにより、前記クラス毎の領域がセグメンテーションされた出力画像を生成するデコーダネットワークと、
を有する畳み込みニューラルネットワークで構成される請求項１から請求項１０のいずれか１項に記載の学習装置。
前記変更部は、前記受付部において受け付けた指定に基づいて、前記畳み込み処理の一部を省略可能である請求項１１に記載の学習装置。
前記入力画像は、培養中の複数の細胞を撮影した細胞画像である請求項１から請求項１２のいずれか１項に記載の学習装置。
入力画像を解析する複数の階層を有する機械学習モデルであって、前記階層毎に、前記入力画像に含まれる空間周波数の周波数帯域が異なる特徴を抽出することにより、前記入力画像に含まれる複数のクラスの判別を画素単位で行うセマンティックセグメンテーションを実施するための機械学習モデルに、学習データを与えて学習させる学習装置の作動方法であり、
複数の前記周波数帯域のうち、前記学習に必要と推定される必要帯域、および前記学習において省略可能と推定される省略可能帯域のうちの少なくともいずれかに関するユーザの指定を受け付ける受付ステップと、
前記機械学習モデルおよび前記学習データのうちの少なくともいずれかを、前記受付ステップにおいて受け付けた前記指定に応じた態様に変更する変更ステップと、
を備える学習装置の作動方法。
入力画像を解析する複数の階層を有する機械学習モデルであって、前記階層毎に、前記入力画像に含まれる空間周波数の周波数帯域が異なる特徴を抽出することにより、前記入力画像に含まれる複数のクラスの判別を画素単位で行うセマンティックセグメンテーションを実施するための機械学習モデルに、学習データを与えて学習させる学習装置の作動プログラムであり、
複数の前記周波数帯域のうち、前記学習に必要と推定される必要帯域、および前記学習において省略可能と推定される省略可能帯域のうちの少なくともいずれかに関するユーザの指定を受け付ける受付部と、
前記機械学習モデルおよび前記学習データのうちの少なくともいずれかを、前記受付部において受け付けた前記指定に応じた態様に変更する変更部として、
コンピュータを機能させる学習装置の作動プログラム。