JP7167356B2 - LEARNING APPARATUS, LEARNING APPARATUS OPERATING METHOD, LEARNING APPARATUS OPERATING PROGRAM - Google Patents
LEARNING APPARATUS, LEARNING APPARATUS OPERATING METHOD, LEARNING APPARATUS OPERATING PROGRAM Download PDFInfo
- Publication number
- JP7167356B2 JP7167356B2 JP2021543951A JP2021543951A JP7167356B2 JP 7167356 B2 JP7167356 B2 JP 7167356B2 JP 2021543951 A JP2021543951 A JP 2021543951A JP 2021543951 A JP2021543951 A JP 2021543951A JP 7167356 B2 JP7167356 B2 JP 7167356B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- temporary
- model
- provisional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本開示の技術は、学習装置、学習装置の作動方法、学習装置の作動プログラムに関する。 The technology of the present disclosure relates to a learning device, a learning device operating method, and a learning device operating program.
入力画像内の複数のクラスの判別を画素単位で行うセマンティックセグメンテーションが知られている。クラスは、入力画像に映る物体の種類である。セマンティックセグメンテーションを実施する機械学習モデル(以下、単にモデルという)としては、U字型の畳み込みニューラルネットワーク(U-Net;U-Shaped Neural Network)等がある。 Semantic segmentation is known that distinguishes between multiple classes in an input image on a pixel-by-pixel basis. A class is the type of object appearing in the input image. A machine learning model (hereinafter simply referred to as a model) that implements semantic segmentation includes a U-shaped convolutional neural network (U-Net).
特開2019-016298号公報には、草、花、肌、髪等の比較的細かい複数のクラスの全てを最初に設定してモデルを学習させることが記載されている。特開2019-016298号公報では、ボケ量、像倍率といった入力画像の情報に基づきクラスの識別が困難であるか否かをクラス毎に判定している。そして、識別が困難なクラスは、例えば、草と花を「草花」、肌と髪を「顔」等、上位概念化したクラスに統合したうえで、モデルを再学習させている。 Japanese Patent Application Laid-Open No. 2019-016298 describes that all of a plurality of relatively detailed classes such as grass, flowers, skin, and hair are initially set to learn a model. In Japanese Patent Application Laid-Open No. 2019-016298, it is determined for each class whether or not class identification is difficult based on input image information such as the amount of blur and image magnification. Classes that are difficult to identify are integrated into higher-level classes, such as "grass and flowers" and "face" for skin and hair, and then the model is retrained.
セマンティックセグメンテーションを実施するモデルの学習においては、特開2019-016298号公報のように、最初に複数のクラスの全てを一度に学習させると、高い判別精度を得られないという問題があった。 In learning a model that implements semantic segmentation, there is a problem that high discrimination accuracy cannot be obtained if all of a plurality of classes are first learned at once, as in Japanese Patent Application Laid-Open No. 2019-016298.
本開示の技術は、複数のクラスの全てを一度に学習させる場合と比べて、クラスの判別精度が高い機械学習モデルを得ることが可能な学習装置、学習装置の作動方法、学習装置の作動プログラムを提供することを目的とする。 The technology of the present disclosure provides a learning device, a learning device operation method, and a learning device operation program that can obtain a machine learning model with higher class discrimination accuracy than when learning all of a plurality of classes at once. intended to provide
上記目的を達成するために、本開示の学習装置は、学習用入力画像と、学習用入力画像に対して、セマンティックセグメンテーションの対象となる3つ以上のクラスが指定されたアノテーション画像との組である学習データを取得する取得部と、アノテーション画像において指定された3つ以上のクラスのうちの少なくとも2つのクラスが統合され、アノテーション画像よりもクラス数が少ない仮アノテーション画像を生成する画像生成部と、学習用入力画像と仮アノテーション画像との組である仮学習データを用いて、仮アノテーション画像のクラス数に応じた構成を有する仮機械学習モデルを学習させ、仮機械学習モデルを学習済み仮機械学習モデルとする仮学習部と、学習済み仮機械学習モデルの少なくとも一部を用いて、アノテーション画像のクラス数に応じた構成を有する機械学習モデルを生成する機械学習モデル生成部と、学習データを用いて機械学習モデルを学習させ、機械学習モデルを学習済み機械学習モデルとする本学習部と、を備える。 In order to achieve the above object, the learning device of the present disclosure is a set of an input image for learning and an annotation image in which three or more classes to be subjected to semantic segmentation are specified for the input image for learning. an acquisition unit that acquires certain learning data; and an image generation unit that integrates at least two classes out of three or more classes specified in the annotation image and generates a temporary annotation image having fewer classes than the annotation image. , using temporary learning data, which is a set of an input image for learning and a temporary annotation image, to learn a temporary machine learning model having a configuration corresponding to the number of classes of temporary annotation images, and train the temporary machine learning model as a trained temporary machine A temporary learning unit as a learning model; a machine learning model generating unit that generates a machine learning model having a configuration corresponding to the number of classes of annotation images using at least a part of the trained temporary machine learning model; and a main learning unit that uses the machine learning model to learn and sets the machine learning model as a trained machine learning model.
仮機械学習モデルを生成する仮機械学習モデル生成部を備えることが好ましい。 It is preferable to include a temporary machine learning model generation unit that generates the temporary machine learning model.
アノテーション画像のクラス数をM、仮アノテーション画像のクラス数をNとした場合、画像生成部と仮学習部は、仮アノテーション画像を生成する処理と仮機械学習モデルを学習済み仮機械学習モデルとする処理を、仮アノテーション画像のクラス数Nを徐々に増やしつつ、かつ仮アノテーション画像のクラス数NがM-1となるまで複数回繰り返すことが好ましい。 When the number of classes of annotation images is M and the number of classes of temporary annotation images is N, the image generation unit and the temporary learning unit set the processing for generating temporary annotation images and the temporary machine learning model as a trained temporary machine learning model. It is preferable to repeat the process multiple times while gradually increasing the class number N of the temporary annotation images until the class number N of the temporary annotation images reaches M−1.
仮機械学習モデル生成部は、前回用いた仮機械学習モデルの少なくとも一部を用いて、今回用いる仮機械学習モデルを生成することが好ましい。 It is preferable that the temporary machine learning model generation unit generates the temporary machine learning model to be used this time, using at least part of the temporary machine learning model used last time.
仮学習部は、仮機械学習モデルのクラスの判別精度の評価に用いる損失関数を変更することが好ましい。この場合、仮学習部は、前回と共通するクラスに対する損失関数の重みを、今回新たに出現したクラスに対する損失関数の重みよりも小さくすることが好ましい。 It is preferable that the provisional learning unit changes the loss function used to evaluate the class discrimination accuracy of the provisional machine learning model. In this case, the provisional learning unit preferably makes the weight of the loss function for the class common to the previous time smaller than the weight of the loss function for the class newly appearing this time.
仮学習部と本学習部は、仮機械学習モデルを学習済み仮機械学習モデルとする処理と機械学習モデルを学習済み機械学習モデルとする処理において、予め指定された部分を更新しないことが好ましい。この場合、更新しない部分のユーザによる指定を受け付ける第1受付部を備えることが好ましい。 It is preferable that the provisional learning unit and the main learning unit do not update a pre-specified part in the process of converting the temporary machine learning model into the trained temporary machine learning model and the process of converting the machine learning model into the trained temporary machine learning model. In this case, it is preferable to provide a first reception unit that receives the user's designation of the portion not to be updated.
画像生成部は、予め指定された画像生成条件にしたがって仮アノテーション画像を生成することが好ましい。 It is preferable that the image generator generates the temporary annotation image according to image generation conditions specified in advance.
画像生成条件のユーザによる指定を受け付ける第2受付部を備えることが好ましい。 It is preferable to include a second reception unit that receives designation of image generation conditions by the user.
画像生成条件は、仮アノテーション画像の各クラスの面積が偏らないような内容であることが好ましい。また、画像生成条件は、仮アノテーション画像の各クラスの複雑度が偏らないような内容であることが好ましい。 It is preferable that the image generation conditions are such that the area of each class of the temporary annotation image is not biased. In addition, it is preferable that the image generation condition is such that the complexity of each class of the temporary annotation image is not biased.
仮アノテーション画像の各クラスの面積が偏らないような内容の画像生成条件とするか、仮アノテーション画像の各クラスの複雑度が偏らないような内容の画像生成条件とするかのユーザによる選択指示を受け付ける第3受付部を備えることが好ましい。 The user selects and instructs whether the image generation condition is such that the area of each class of the temporary annotation image is balanced or the image generation condition is such that the complexity of each class of the temporary annotation image is balanced. It is preferable to provide a third receiving section for receiving.
画像生成条件は、最大の面積をもつクラスは統合せずに1つのクラスのままとする、という内容であることが好ましい。また、画像生成条件は、最小の複雑度をもつクラスは統合せずに1つのクラスのままとする、という内容であることが好ましい。 It is preferable that the image generation condition is such that the class having the largest area is left as one class without being merged. Moreover, it is preferable that the image generation condition is such that the class with the lowest complexity is left as one class without being integrated.
最大の面積をもつクラスは統合せずに1つのクラスのままとする、という内容の画像生成条件とするか、最小の複雑度をもつクラスは統合せずに1つのクラスのままとする、という内容の画像生成条件とするかのユーザによる選択指示を受け付ける第4受付部を備えることが好ましい。 The image generation condition is that the class with the largest area is left as one class without being merged, or the class with the lowest complexity is left as one class without being merged. It is preferable to include a fourth reception unit that receives a selection instruction from the user as to whether the content is to be the image generation condition.
仮アノテーション画像を表示する制御を行う表示制御部を備えることが好ましい。 It is preferable to include a display control unit that controls display of the temporary annotation image.
画像生成部は、統合されたクラスが異なる複数種の仮アノテーション画像を生成し、表示制御部は、複数種の仮アノテーション画像を表示する制御を行い、複数種の仮アノテーション画像のうちの1つの仮アノテーション画像のユーザによる選択指示を受け付ける第5受付部を備え、仮学習部は、第5受付部において選択指示を受け付けた仮アノテーション画像を仮学習データとして用いることが好ましい。 The image generation unit generates multiple types of temporary annotation images of different integrated classes, the display control unit performs control to display the multiple types of temporary annotation images, and selects one of the multiple types of temporary annotation images. It is preferable that a fifth accepting unit that accepts a user's instruction to select a temporary annotation image is provided, and the temporary learning unit uses the temporary annotation image for which the fifth accepting unit has accepted the selection instruction as the temporary learning data.
学習用入力画像は、培養中の複数の細胞を撮影した細胞画像であることが好ましい。 The learning input image is preferably a cell image obtained by photographing a plurality of cells being cultured.
本開示の学習装置の作動方法は、学習用入力画像と、学習用入力画像に対して、セマンティックセグメンテーションの対象となる3つ以上のクラスが指定されたアノテーション画像との組である学習データを取得する取得ステップと、アノテーション画像において指定された3つ以上のクラスのうちの少なくとも2つのクラスが統合され、アノテーション画像よりもクラス数が少ない仮アノテーション画像を生成する画像生成ステップと、学習用入力画像と仮アノテーション画像との組である仮学習データを用いて、仮アノテーション画像のクラス数に応じた構成を有する仮機械学習モデルを学習させ、仮機械学習モデルを学習済み仮機械学習モデルとする仮学習ステップと、学習済み仮機械学習モデルの少なくとも一部を用いて、アノテーション画像のクラス数に応じた構成を有する機械学習モデルを生成する機械学習モデル生成ステップと、学習データを用いて機械学習モデルを学習させ、機械学習モデルを学習済み機械学習モデルとする本学習ステップと、を備える。 The operating method of the learning device of the present disclosure acquires learning data that is a set of an input image for learning and an annotation image in which three or more classes to be subjected to semantic segmentation are specified for the input image for learning. an image generation step of integrating at least two classes among three or more classes specified in the annotation image to generate a temporary annotation image having fewer classes than the annotation image; and an input image for learning and a temporary annotation image, a temporary machine learning model having a configuration corresponding to the number of classes of the temporary annotation image is trained, and the temporary machine learning model is a trained temporary machine learning model. A learning step, a machine learning model generating step of generating a machine learning model having a configuration corresponding to the number of annotation image classes using at least a part of the trained temporary machine learning model, and a machine learning model using the learning data and a main learning step of learning the machine learning model as a learned machine learning model.
本開示の学習装置の作動プログラムは、学習用入力画像と、学習用入力画像に対して、セマンティックセグメンテーションの対象となる3つ以上のクラスが指定されたアノテーション画像との組である学習データを取得する取得部と、アノテーション画像において指定された3つ以上のクラスのうちの少なくとも2つのクラスが統合され、アノテーション画像よりもクラス数が少ない仮アノテーション画像を生成する画像生成部と、学習用入力画像と仮アノテーション画像との組である仮学習データを用いて、仮アノテーション画像のクラス数に応じた構成を有する仮機械学習モデルを学習させ、仮機械学習モデルを学習済み仮機械学習モデルとする仮学習部と、学習済み仮機械学習モデルの少なくとも一部を用いて、アノテーション画像のクラス数に応じた構成を有する機械学習モデルを生成する機械学習モデル生成部と、学習データを用いて機械学習モデルを学習させ、機械学習モデルを学習済み機械学習モデルとする本学習部として、コンピュータを機能させる。 The operation program of the learning device of the present disclosure acquires learning data that is a set of an input image for learning and an annotation image in which three or more classes to be subjected to semantic segmentation are specified for the input image for learning. an acquisition unit that integrates at least two classes out of three or more classes specified in the annotation image, and an image generation unit that generates a temporary annotation image having fewer classes than the annotation image; and an input image for learning and a temporary annotation image, a temporary machine learning model having a configuration corresponding to the number of classes of the temporary annotation image is trained, and the temporary machine learning model is a trained temporary machine learning model. A learning unit, a machine learning model generating unit that generates a machine learning model having a configuration corresponding to the number of annotation image classes using at least a part of the trained temporary machine learning model, and a machine learning model using the learning data. is learned, and the computer functions as a main learning unit that uses the machine learning model as a trained machine learning model.
本開示の技術によれば、複数のクラスの全てを一度に学習させる場合と比べて、クラスの判別精度が高い機械学習モデルを得ることが可能な学習装置、学習装置の作動方法、学習装置の作動プログラムを提供することができる。 According to the technology of the present disclosure, a learning device capable of obtaining a machine learning model with higher class discrimination accuracy than when learning all of a plurality of classes at once, a method of operating the learning device, and a learning device An operating program can be provided.
[第1実施形態]
図1において、機械学習システム2は、入力画像内の複数のクラスの判別を画素単位で行うセマンティックセグメンテーションを実施するためのモデルを用いるシステムである。機械学習システム2は、学習装置10および運用装置11を備える。学習装置10および運用装置11は、例えばデスクトップ型のパーソナルコンピュータである。学習装置10および運用装置11は、ネットワーク12を介して相互に通信可能に接続されている。ネットワーク12は、例えば、LAN(Local Area Network)、もしくはインターネット、公衆通信網等のWAN(Wide Area Network)である。[First embodiment]
In FIG. 1, the
図2において、学習装置10は、仮学習および本学習を行う。仮学習においては、仮学習データ15を用いて仮モデル16を学習させ、仮モデル16を学習済み仮モデル16Tとする。仮学習データ15は、学習用入力画像17と仮アノテーション画像18との組である。仮アノテーション画像18は、アノテーション画像19から生成される。本学習においては、学習データ20を用いてモデル21を学習させ、モデル21を学習済みモデル21Tとする。モデル21は、学習済み仮モデル16Tから生成される。学習データ20は、学習用入力画像17とアノテーション画像19との組である。仮モデル16およびモデル21は、例えばU-Net等の畳み込みニューラルネットワークを含む(図4参照)。
In FIG. 2, the
学習装置10は、学習済みモデル21Tを運用装置11に送信する。運用装置11は、学習装置10からの学習済みモデル21Tを受信する。運用装置11は、映った物体のクラスおよびその輪郭が未だ判別されていない入力画像22を学習済みモデル21Tに与える。学習済みモデル21Tは、入力画像22にセマンティックセグメンテーションを実施して、入力画像22に映る物体のクラスとその輪郭を判別し、その判別結果として出力画像23を出力する。なお、運用装置11に学習済みモデル21Tを組み込んだ後も、学習済みモデル21Tに学習データ20を与えて学習させてもよい。
The
図3に示すように、学習用入力画像17は、本例においては、培養中の複数の細胞を位相差顕微鏡等で撮影した細胞画像である。学習用入力画像17には、分化細胞DC、未分化細胞UDC、死細胞DDC、および培地PLが映っている。この場合のアノテーション画像19は、分化細胞DC、未分化細胞UDC、死細胞DDC、培地PLが、各々クラス1、クラス2、クラス3、クラス4として指定されたものとなる。各クラス1~4の指定は、例えば、ユーザが手動により行う。クラス4の培地PLは、他のクラス1~3を指定することで自ずと指定される。なお、学習済みモデル21Tに与えられる入力画像22も、学習用入力画像17と同じく、培養中の複数の細胞を位相差顕微鏡等で撮影した細胞画像である。
As shown in FIG. 3, the learning
図4に示すように、仮モデル16およびモデル21は、入力画像を解析する複数の階層を有し、階層毎に、入力画像に含まれる空間周波数の周波数帯域が異なる特徴を抽出する、U-Net等の畳み込みニューラルネットワークで構成された階層型のモデルである。本例の場合は、第1階層、第2階層、第3階層、第4階層、第5階層の5つの階層を有する。なお、以下では、学習用入力画像17を入力画像としてモデル21に与え、モデル21から本学習用出力画像25(図28も参照)を出力させる場合を例に説明する。
As shown in FIG. 4, the
モデル21は、エンコーダネットワーク(以下、ENと略す)26、デコーダネットワーク(以下、DNと略す)27、および出力層28を含む。EN26は、階層毎に、フィルタを用いた畳み込み演算を行って、画像特徴マップCMPを抽出する畳み込み処理を行う。DN27は、EN26から出力された最小の画像特徴マップCMPの画像サイズを段階的に拡大する。そして、段階的に拡大された画像特徴マップCMPと、EN26の各階層で出力された画像特徴マップCMPとを結合して、学習用入力画像17と同じ画像サイズの最終出力データ29を生成する。
The
EN26には、階層毎に、二次元に配列された複数の画素値をもつ入力データが入力される。EN26は、各階層において、入力データに対して畳み込み処理を行って画像特徴マップCMPを抽出する。EN26の第1階層には、入力データとして学習用入力画像17が入力される。第1階層は、学習用入力画像17に畳み込み処理を行って、例えば、学習用入力画像17と同じ画像サイズの画像特徴マップCMPを出力する。第2階層以下では、入力データとして、上位の各階層で出力された画像特徴マップCMPが入力される。第2階層以下では、画像特徴マップCMPに対して畳み込み処理が行われて、例えば、入力された画像特徴マップCMPと同じ画像サイズの画像特徴マップCMPが出力される。畳み込み処理は、図4において「conv(convolutionの略)」として示す。
Input data having a plurality of pixel values arranged two-dimensionally is input to the
畳み込み処理は、入力データに例えば3×3のフィルタを適用して、入力データ内の注目画素の画素値eと、注目画素に隣接する8個の画素の画素値a、b、c、d、f、g、h、iを畳み込むことにより、入力データと同様に、二次元状に画素値が配列された出力データを得る。フィルタの係数をr、s、t、u、v、w、x、y、zとした場合、注目画素に対する畳み込み演算の結果である、出力データの画素の画素値kは、例えば下記の(式1)を計算することで得られる。
k=az+by+cx+dw+ev+fu+gt+hs+ir・・・(式1)In the convolution process, for example, a 3×3 filter is applied to the input data to obtain the pixel value e of the target pixel in the input data and the pixel values a, b, c, d, and d of eight pixels adjacent to the target pixel. By convolving f, g, h, and i, output data in which pixel values are arranged two-dimensionally is obtained in the same manner as the input data. When the coefficients of the filter are r, s, t, u, v, w, x, y, and z, the pixel value k of the pixel of the output data, which is the result of the convolution operation on the pixel of interest, is given by, for example, the following (formula It is obtained by calculating 1).
k=az+by+cx+dw+ev+fu+gt+hs+ir (equation 1)
畳み込み処理では、入力データの各画素に対して上記のような畳み込み演算を行い、画素値kを出力する。こうして、二次元状に配列された画素値kをもつ出力データが出力される。出力データは、1個のフィルタに対して1つ出力される。種類が異なる複数のフィルタが使用された場合は、フィルタ毎に出力データが出力される。画像特徴マップCMPは、こうした出力データで構成される。 In the convolution process, each pixel of the input data is subjected to the convolution operation as described above, and the pixel value k is output. In this way, output data having pixel values k arranged two-dimensionally is output. One output data is output for one filter. When multiple filters of different types are used, output data is output for each filter. The image feature map CMP is composed of such output data.
出力データは、二次元状に画素値kが配列されたデータであり、幅と高さをもつ。また、種類が異なる複数のフィルタを適用して、複数の出力データが出力された場合は、画像特徴マップCMPは、複数の出力データの集合になる。画像特徴マップCMPにおいて、フィルタの数はチャンネル数と呼ばれる。 The output data is data in which pixel values k are arranged two-dimensionally, and has width and height. Further, when a plurality of different types of filters are applied and a plurality of output data are output, the image feature map CMP becomes a set of the plurality of output data. In the image feature map CMP, the number of filters is called the number of channels.
各画像特徴マップCMPの上に示す64、128、256、512、1024の各数字は、各画像特徴マップCMPが有するチャンネル数を示す。そして、第1階層から第5階層にそれぞれ付す括弧付きの1/1、1/2、1/4、1/8、1/16は、最上位の入力画像である学習用入力画像17の画像サイズを基準とした、各階層で取り扱う画像サイズを示す。
The
本例のEN26の第1階層においては、学習用入力画像17に対して2回の畳み込み処理が行われる。まず、学習用入力画像17に対して、64個のフィルタを適用する畳み込み処理が行われて、64チャンネルの画像特徴マップCMPが出力される。そして、この画像特徴マップCMPに対して、さらに64個のフィルタを適用する畳み込み処理が行われて、第1階層においては、最終的に64チャンネルの画像特徴マップCMPが出力される。
In the first layer of the
EN26において、第1階層が出力する画像特徴マップCMPの幅と高さである画像サイズは、学習用入力画像17の画像サイズと同じである。このため、第1階層が取り扱う画像サイズは、学習用入力画像17と同じ、すなわち等倍を表す1/1である。
In
EN26の第1階層において、2回の畳み込み処理で抽出された画像特徴マップCMPに対して、図4において「pool(poolingの略)」として示すプーリング処理が行われる。プーリング処理は、画像特徴マップCMPの局所的な統計量を計算して画像特徴マップCMPを圧縮する処理である。局所的な統計量としては、例えば、2×2の画素のブロック内における画素値の最大値または平均値が用いられる。最大値を計算するプーリング処理は最大値プーリング、平均値を計算するプーリング処理は平均値プーリングと呼ばれる。つまり、プーリング処理は、画像特徴マップCMPの各画素の画素値から局所的な代表値を選択して、画像特徴マップCMPの解像度を下げ、画像特徴マップCMPの画像サイズを縮小する処理といえる。例えば、2×2の画素のブロックから代表値を選択するプーリング処理を1画素ずつずらして行うと、画像特徴マップCMPは、元の画像サイズの半分に縮小される。モデル21では、第1階層において、例えば画像特徴マップCMPの画像サイズを1/2にするプーリング処理が行われる。このため、EN26の第2階層においては、学習用入力画像17を基準として、1/2の画像サイズに縮小された画像特徴マップCMPが、入力データとして入力される。
In the first layer of the
第2階層においては、128個のフィルタを適用する畳み込み処理が2回行われて、128チャンネルの画像特徴マップCMPが出力される。そして、128チャンネルの画像特徴マップCMPに対して、画像サイズを半分にするプーリング処理が行われる。これにより、第2階層から第3階層には、学習用入力画像17の画像サイズを基準として、1/4の画像サイズに縮小された128チャンネルの画像特徴マップCMPが、入力データとして入力される。
In the second layer, convolution processing applying 128 filters is performed twice to output a 128-channel image feature map CMP. Then, a pooling process for halving the image size is performed on the 128-channel image feature map CMP. As a result, the 128-channel image feature map CMP reduced to 1/4 the image size of the learning
第3階層においては、256個のフィルタを適用する2回の畳み込み処理が行われて、256チャンネルの画像特徴マップCMPが出力され、256チャンネルの画像特徴マップCMPに対して、画像サイズをさらに半分にするプーリング処理が行われる。これにより、第3階層から第4階層には、学習用入力画像17を基準として、1/8の画像サイズに縮小された256チャンネルの画像特徴マップCMPが、入力データとして入力される。
In the third layer, two convolution processes applying 256 filters are performed, and a 256-channel image feature map CMP is output. A pooling process is performed to As a result, the 256-channel image feature map CMP reduced to 1/8 the image size of the learning
同様に、第4階層においては、512個のフィルタを適用する2回の畳み込み処理が行われて、512チャンネルの画像特徴マップCMPが出力され、512チャンネルの画像特徴マップCMPに対して、画像サイズをさらに半分にするプーリング処理が行われる。これにより、第4階層から第5階層には、学習用入力画像17を基準として、1/16の画像サイズに縮小された512チャンネルの画像特徴マップCMPが、入力データとして入力される。
Similarly, in the fourth layer, two convolution processes applying 512 filters are performed to output a 512-channel image feature map CMP. is further halved. As a result, the 512-channel image feature map CMP reduced to 1/16 of the image size of the learning
最下位の階層の第5階層においては、1024個のフィルタを適用する2回の畳み込み処理が行われる。ただし、第5階層においては、畳み込み処理で抽出された画像特徴マップCMPに対してはプーリング処理が行われない。 In the fifth layer, which is the lowest layer, two convolution processes applying 1024 filters are performed. However, in the fifth layer, the pooling process is not performed on the image feature map CMP extracted by the convolution process.
EN26においては、各階層に入力される入力データ(学習用入力画像17または画像特徴マップCMP)は、最上位の第1階層から最下位の第5階層に向かって、画像サイズが段階的に縮小されて解像度が下げられる。本例においては、第1階層に入力される学習用入力画像17の画像サイズを基準に、第1階層は1/1(等倍)、第2階層は1/2、第3階層は1/4、第4階層は1/8、第5階層は1/16のそれぞれの画像サイズの入力データが入力される。
In EN26, the input data (learning
EN26の各階層は、階層毎に、解像度が異なる入力データに対してフィルタを適用して畳み込み処理を行う。第1階層では、各階層の入力データのうちで最も解像度が高い学習用入力画像17に対して畳み込み処理が行われる。このため、第1階層で抽出される画像特徴マップCMPは、学習用入力画像17において最も空間周波数が高い周波数帯域をもつ、最も微細な構造の特徴を表す。第2階層および第3階層では、学習用入力画像17よりも解像度が下げられた入力データに対して畳み込み処理が行われる。このため、第2階層および第3階層で抽出される画像特徴マップCMPは、第1階層と比べて、空間周波数が低い周波数帯域をもつ、中域構造の特徴を表す。第4階層および第5階層では、さらに入力データの解像度が下がるため、第4階層および第5階層で抽出される画像特徴マップCMPは、さらに空間周波数が低い周波数帯域をもつ、大域構造の特徴を表す。
Each layer of the
EN26においては、最上位の第1階層から最下位の第5階層の階層毎に、学習用入力画像17に含まれる周波数帯域が異なる画像の特徴を出力する。第1階層の1/1から第5階層の1/16までの各画像サイズは、各階層が解析可能な周波数帯域を示す。すなわち、1/1は最も空間周波数が高い周波数帯域を示し、反対に1/16は最も空間周波数が低い周波数帯域を示す。なお、EN26において、階層が下るにつれて、フィルタの数を64、128、256、・・・と増加させる理由は、画像サイズが小さくなる分、フィルタの数を増やして、学習用入力画像17に含まれる様々な特徴を抽出するためである。
The
EN26の第1階層から第4階層は、それぞれが抽出した画像特徴マップCMPを、DN27に対して送信する。この画像特徴マップCMPをEN26からDN27に送信する処理は、スキップレイヤ処理と呼ばれ、図4において「skip」で示す。DN27の各階層において、ハッチングで示す画像特徴マップCMPが、EN26から送信された画像特徴マップCMPである。
The first to fourth hierarchies of
DN27は、アップサンプリング処理とマージ処理とを繰り返す。アップサンプリング処理は、図4において「upsmp(upsamplingの略)」として示す。アップサンプリング処理は、EN26から出力された最小の画像サイズの画像特徴マップCMPの画像サイズを段階的に拡大する処理である。マージ処理は、アップサンプリング処理で段階的に拡大された画像特徴マップCMPと、EN26において階層毎に出力され、かつ、画像サイズが同じ画像特徴マップCMPとを結合する処理である。DN27は、これらアップサンプリング処理とマージ処理とにより、最終出力データ29を出力する。
The
DN27は、EN26の各階層と対応する第1階層から第5階層を有する。DN27の各階層で行われるアップサンプリング処理では、EN26の対応する各階層の画像サイズと同じサイズになるように画像特徴マップCMPが拡大される。
The
また、本例のアップサンプリング処理は、画像サイズを拡大することに加えて、フィルタを適用する畳み込み処理を伴う。こうした畳み込み処理を伴うアップサンプリング処理は、アップコンボリューション処理と呼ばれる。DN27の各階層においては、アップコンボリューション処理が終了した後に、マージ処理とさらなる畳み込み処理とが行なわれる。
Also, the upsampling process of this example involves a convolution process that applies a filter in addition to enlarging the image size. Upsampling processing accompanied by such convolution processing is called upconvolution processing. In each layer of
DN27の第4階層は、まず、EN26の最下位の第5階層から、1/16という最小の画像サイズの画像特徴マップCMPを受け取る。この画像特徴マップCMPのチャンネル数は1024である。DN27の第4階層は、1/16の画像サイズの画像特徴マップCMPを、2倍の1/8の画像サイズに拡大し、かつ、512個のフィルタを適用する畳み込み処理を行って、チャンネル数を半分の512個に減らす。
The 4th hierarchy of DN27 first receives the image feature map CMP of the minimum image size of 1/16 from the lowest 5th hierarchy of EN26. This image feature map CMP has 1024 channels. The fourth layer of the
DN27の第4階層においては、EN26の第5階層から受け取った画像特徴マップCMPと、EN26の第4階層からスキップレイヤ処理で送信された画像特徴マップCMPとを結合するマージ処理が行われる。第4階層において結合される画像特徴マップCMPは、それぞれ1/8の画像サイズで、かつ、512チャンネルである。そのため、第4階層においては、マージ処理によって、1/8の画像サイズで、かつ、1024チャンネル(512+512)の画像特徴マップCMPが生成される。 In the fourth layer of DN27, merge processing is performed to combine the image feature map CMP received from the fifth layer of EN26 and the image feature map CMP transmitted from the fourth layer of EN26 by skip layer processing. The image feature maps CMP combined in the fourth layer are each 1/8 image size and 512 channels. Therefore, in the fourth layer, an image feature map CMP of 1/8 image size and 1024 channels (512+512) is generated by merge processing.
さらに、第4階層においては、1024チャンネルの画像特徴マップCMPに対して512個のフィルタを適用する畳み込み処理が2回行われて、1/8の画像サイズで、かつ、512チャンネルの画像特徴マップCMPが生成される。第4階層においては、この1/8の画像サイズの画像特徴マップCMPに対して、画像サイズを2倍の1/4に拡大し、かつ、チャンネル数を半分の256チャンネルにするアップコンボリューション処理が行われる。この結果、第4階層から第3階層に対して、1/4の画像サイズで、かつ、256チャンネルの画像特徴マップCMPが出力される。 Furthermore, in the fourth layer, the convolution process of applying 512 filters to the 1024-channel image feature map CMP is performed twice, resulting in a 1/8 image size and a 512-channel image feature map. CMP is generated. In the fourth layer, the image feature map CMP of 1/8 image size is doubled in size to 1/4 and the number of channels is halved to 256 channels by upconvolution processing. is done. As a result, an image feature map CMP of 1/4 image size and 256 channels is output for the fourth to third hierarchies.
DN27の第3階層においては、第4階層から受け取った画像特徴マップCMPと、EN26の第3階層からスキップレイヤ処理で送信された画像特徴マップCMPとを結合するマージ処理が行われる。第3階層において結合される画像特徴マップCMPは、それぞれ1/4の画像サイズで、かつ、256チャンネルである。そのため、第3階層においては、マージ処理によって、1/4の画像サイズで、かつ、512チャンネル(256+256)の画像特徴マップCMPが生成される。 In the third layer of DN27, merge processing is performed to combine the image feature map CMP received from the fourth layer and the image feature map CMP transmitted from the third layer of EN26 by skip layer processing. The image feature maps CMP combined in the third layer are each 1/4 image size and 256 channels. Therefore, in the third hierarchy, an image feature map CMP with a 1/4 image size and 512 channels (256+256) is generated by merge processing.
さらに、第3階層においては、512チャンネルの画像特徴マップCMPに対して256個のフィルタを適用する畳み込み処理が2回行われて、1/4の画像サイズで、かつ、256チャンネルの画像特徴マップCMPが生成される。第3階層においては、この1/4の画像サイズの画像特徴マップCMPに対して、画像サイズを2倍の1/2に拡大し、かつ、チャンネル数を半分の128チャンネルにするアップコンボリューション処理が行われる。この結果、第3階層から第2階層に対して、1/2の画像サイズで、かつ、128チャンネルの画像特徴マップCMPが出力される。 Furthermore, in the third layer, the convolution process of applying 256 filters to the 512-channel image feature map CMP is performed twice, resulting in a 1/4 image size and a 256-channel image feature map. CMP is generated. In the third layer, the image feature map CMP of the 1/4 image size is doubled in size to 1/2 and the number of channels is halved to 128 channels by upconvolution processing. is done. As a result, an image feature map CMP with half the image size and 128 channels is output from the third hierarchy to the second hierarchy.
DN27の第2階層においては、第3階層から受け取った画像特徴マップCMPと、EN26の第2階層からスキップレイヤ処理で送信された画像特徴マップCMPとを結合するマージ処理が行われる。第2階層において結合される画像特徴マップCMPは、それぞれ1/2の画像サイズで、かつ、128チャンネルである。そのため、第2階層においては、マージ処理によって、1/2の画像サイズで、かつ、256チャンネル(128+128)の画像特徴マップCMPが生成される。 In the second layer of DN27, merge processing is performed to combine the image feature map CMP received from the third layer and the image feature map CMP transmitted from the second layer of EN26 by skip layer processing. The image feature maps CMP combined in the second layer are each half the image size and 128 channels. Therefore, in the second layer, an image feature map CMP with half the image size and 256 channels (128+128) is generated by the merging process.
さらに、第2階層においては、256チャンネルの画像特徴マップCMPに対して128個のフィルタを適用する畳み込み処理が2回行われて、1/2の画像サイズで、かつ、128チャンネルの画像特徴マップCMPが生成される。第2階層においては、この1/2の画像サイズの画像特徴マップCMPに対して、画像サイズを2倍の1/1に拡大し、かつ、チャンネル数を半分の64チャンネルにするアップコンボリューション処理が行われる。この結果、最終的に、第2階層から第1階層に対して、1/1の画像サイズで、かつ、64チャンネルの画像特徴マップCMPが出力される。 Furthermore, in the second layer, the convolution process of applying 128 filters to the 256-channel image feature map CMP is performed twice, resulting in a 1/2 image size and a 128-channel image feature map. CMP is generated. In the second layer, up-convolution processing is performed to double the image size to 1/1 and to halve the number of channels to 64 channels for the image feature map CMP of this 1/2 image size. is done. As a result, an image feature map CMP of 1/1 image size and 64 channels is finally output from the second layer to the first layer.
DN27の第1階層においては、第2階層から受け取った画像特徴マップCMPと、EN26の第1階層からスキップレイヤ処理で送信された画像特徴マップCMPとを結合するマージ処理が行われる。第1階層において結合される画像特徴マップCMPは、それぞれ1/1の画像サイズで、かつ、64チャンネルである。そのため、第1階層においては、マージ処理によって、1/1の画像サイズで、かつ、128チャンネル(64+64)の画像特徴マップCMPが生成される。 In the first layer of DN27, merge processing is performed to combine the image feature map CMP received from the second layer and the image feature map CMP transmitted from the first layer of EN26 by skip layer processing. The image feature maps CMP combined in the first hierarchy are each 1/1 image size and 64 channels. Therefore, in the first layer, an image feature map CMP of 1/1 image size and 128 channels (64+64) is generated by the merging process.
さらに、第1階層においては、128チャンネルの画像特徴マップCMPに対して64個のフィルタを適用する畳み込み処理が行われた後、1個のフィルタを適用する畳み込み処理が行われる。これにより、学習用入力画像17と同じ1/1の画像サイズの最終出力データ29が生成される。
Furthermore, in the first layer, convolution processing is performed by applying 64 filters to the 128-channel image feature map CMP, and then convolution processing is performed by applying one filter. As a result, the
DN27においては、EN26から出力された最小の画像サイズの画像特徴マップCMPの画像サイズを段階的に拡大する。そして、画像特徴マップCMPを拡大しながら、EN26において階層毎に抽出された画像特徴マップCMPを結合して最終出力データ29を生成する。最小の画像サイズの画像特徴マップCMPは、学習用入力画像17の最も空間周波数が低い大域構造の特徴を表すものである。DN27では、この最小の画像サイズの画像特徴マップCMPを拡大することで、大域構造の特徴を拡大しつつ、EN26からの画像特徴マップCMPを結合することで、中域構造から微細構造までの特徴を取り込む。
In DN27, the image size of the minimum image size image feature map CMP output from EN26 is enlarged step by step. Then, while enlarging the image feature map CMP, the
出力層28は、最終出力データ29から、学習用入力画像17内のクラス毎の領域がセグメンテーションされた本学習用出力画像25を生成する。
The
図5において、学習装置10を構成するコンピュータは、ストレージデバイス30、メモリ31、CPU(Central Processing Unit)32、通信部33、ディスプレイ34、および入力デバイス35を備えている。これらはバスライン36を介して相互接続されている。
In FIG. 5, the computer that constitutes the
ストレージデバイス30は、学習装置10を構成するコンピュータに内蔵、またはケーブル、ネットワークを通じて接続されたハードディスクドライブである。もしくはストレージデバイス30は、ハードディスクドライブを複数台連装したディスクアレイである。ストレージデバイス30には、オペレーティングシステム等の制御プログラム、各種アプリケーションプログラム、およびこれらのプログラムに付随する各種データ等が記憶されている。なお、ハードディスクドライブに代えてソリッドステートドライブを用いてもよい。
The
メモリ31は、CPU32が処理を実行するためのワークメモリである。CPU32は、ストレージデバイス30に記憶されたプログラムをメモリ31へロードして、プログラムにしたがった処理を実行することにより、コンピュータの各部を統括的に制御する。
The memory 31 is a work memory for the
通信部33は、ネットワーク12を介した各種情報の伝送制御を行うネットワークインターフェースである。ディスプレイ34は各種画面を表示する。学習装置10を構成するコンピュータは、各種画面を通じて、入力デバイス35からの操作指示の入力を受け付ける。入力デバイス35は、キーボード、マウス、タッチパネル等である。
The communication unit 33 is a network interface that controls transmission of various information via the
図6において、ストレージデバイス30には、作動プログラム40が記憶されている。作動プログラム40は、コンピュータを学習装置10として機能させるためのアプリケーションプログラムである。すなわち、作動プログラム40は、本開示の技術に係る「学習装置の作動プログラム」の一例である。ストレージデバイス30には、画像群41、モデル群42、および画像生成条件43も記憶されている。
In FIG. 6, the
作動プログラム40が起動されると、学習装置10を構成するコンピュータのCPU32は、メモリ31等と協働して、リードライト(以下、RW(Read Write)と略す)制御部45、画像生成部46、仮モデル生成部47、仮学習部48、モデル生成部49、本学習部50、表示制御部51、受付部52、および送信制御部53として機能する。
When the
RW制御部45は、ストレージデバイス30への各種データの記憶、およびストレージデバイス30内の各種データの読み出しを制御する。RW制御部45は、本開示の技術に係る「取得部」の一例である。
The
画像生成部46は、画像生成条件43にしたがって、アノテーション画像19から仮アノテーション画像18を生成する。仮モデル生成部47は、仮モデル16を生成する。仮学習部48は、仮学習データ15を用いて仮モデル16を学習させ、仮モデル16を学習済み仮モデル16Tとする前述の仮学習を行う。
The
モデル生成部49は、学習済み仮モデル16Tからモデル21を生成する。本学習部50は、学習データ20を用いてモデル21を学習させ、モデル21を学習済みモデル21Tとする前述の本学習を行う。
The
表示制御部51は、ディスプレイ34に各種画面を表示する制御を行う。各種画面には、画像生成条件43を指定するための画像生成条件指定画面65(図11参照)等が含まれる。受付部52は、各種画面を通じたユーザによる各種操作指示を受け付ける。各種操作指示には、画像生成条件指定画面65を通じた画像生成条件43のユーザによる指定が含まれる。送信制御部53は、学習済みモデル21Tを運用装置11に送信する制御を行う。
The
図7に示すように、画像群41は、前述の学習用入力画像17、仮アノテーション画像18、およびアノテーション画像19を含む。また、図8に示すように、モデル群42は、前述の仮モデル16、学習済み仮モデル16T、モデル21、および学習済みモデル21Tと、これらのモデルの基礎となる基礎モデル60とを含む。
As shown in FIG. 7, the
図9の表63に示すように、本例においては、仮学習を第1回仮学習と第2回仮学習とに分けて行う。第1回仮学習は、クラス数N=2の仮アノテーション画像18_1(図20参照)を用いて行う。第2回仮学習は、第1回仮学習から1つ増やしたクラス数N=3(=M-1)の仮アノテーション画像18_2(図22参照)を用いて行う。なお、言うまでもないが、本学習は、クラス1~4が指定された、クラス数M=4のアノテーション画像19を用いて行う。
As shown in Table 63 of FIG. 9, in this example, provisional learning is divided into first provisional learning and second provisional learning. The first temporary learning is performed using the temporary annotation image 18_1 (see FIG. 20) with the number of classes N=2. The second provisional learning is performed using the provisional annotation image 18_2 (see FIG. 22) with the number of classes N=3 (=M−1), which is increased by one from the first provisional learning. Needless to say, this learning is performed using the
図10に示すように、画像生成条件43には、アノテーション画像19において指定されたクラス1~4のうちのいずれのクラスを統合するかが、仮学習の回毎に登録されている。図10では、第1回仮学習においてはクラス1~3(分化細胞DC、未分化細胞UDC、死細胞DDC)を統合する旨が、第2回仮学習においてはクラス1、2(分化細胞DC、未分化細胞UDC)を統合する旨が、それぞれ登録された例を示している。
As shown in FIG. 10, in the
図11において、画像生成条件指定画面65は、学習を開始する際に、表示制御部51によりディスプレイ34に表示される。画像生成条件指定画面65は、第1指定領域66および第2指定領域67を有する。第1指定領域66には、各クラス1~4のうち、第1回仮学習において統合するクラスを指定するためのチェックボックス68が配されている。チェックボックス68は、3つのクラスまでしかチェックを入れられないようになっている。第2指定領域67には、各クラス1~4のうち、第2回仮学習において統合するクラスを指定するためのチェックボックス69が配されている。チェックボックス69は、チェックボックス68においてチェックを入れられた3つのクラスのうち、2つのクラスまでしかチェックを入れられないようになっている。
In FIG. 11, an image generation
ユーザは、各指定領域66、67のチェックボックス68、69を適宜選択し、指定ボタン70を選択する。受付部52は、チェックボックス68、69の選択状態に応じた画像生成条件43を受け付ける。すなわち、受付部52は、本開示の技術に係る「第2受付部」の一例である。図11では、第1回仮学習においてクラス1~3が、第2回仮学習においてクラス1、2が、それぞれ選択された場合を例示している。なお、キャンセルボタン71が選択された場合、画像生成条件指定画面65の表示が消される。
The user appropriately selects the
受付部52は、画像生成条件43をRW制御部45に出力する。RW制御部45は、画像生成条件43をストレージデバイス30に記憶する。
The
以下に示す図12~図19は、図12~図14が第1回仮学習、図15~図17が第2回仮学習、図18および図19が本学習に関する内容である。 12 to 19 shown below, FIGS. 12 to 14 are for the first provisional learning, FIGS. 15 to 17 are for the second provisional learning, and FIGS. 18 and 19 are for the main learning.
図12に示すように、画像生成部46は、RW制御部45がストレージデバイス30から読み出したアノテーション画像19および画像生成条件43を、RW制御部45から受け取る。画像生成部46は、画像生成条件43にしたがって、アノテーション画像19から第1回仮学習に用いる仮アノテーション画像18_1を生成する。画像生成部46は、仮アノテーション画像18_1をRW制御部45に出力する。RW制御部45は、仮アノテーション画像18_1をストレージデバイス30に記憶する。
As shown in FIG. 12 , the
図13に示すように、仮モデル生成部47は、RW制御部45がストレージデバイス30から読み出した基礎モデル60を、RW制御部45から受け取る。仮モデル生成部47は、基礎モデル60から第1回仮学習に用いる仮モデル16_1を生成する。仮モデル生成部47は、仮モデル16_1をRW制御部45に出力する。RW制御部45は、仮モデル16_1をストレージデバイス30に記憶する。
As shown in FIG. 13 , the temporary
図14に示すように、仮学習部48は、RW制御部45がストレージデバイス30から読み出した仮学習データ15_1および仮モデル16_1を、RW制御部45から受け取る。仮学習データ15_1は、学習用入力画像17と仮アノテーション画像18_1との組である。仮学習部48は、仮学習データ15_1を用いて仮モデル16_1を学習させ、仮モデル16_1を学習済み仮モデル16T_1とする。仮学習部48は、学習済み仮モデル16T_1をRW制御部45に出力する。RW制御部45は、学習済み仮モデル16T_1をストレージデバイス30に記憶する。
As shown in FIG. 14 , the
図15に示すように、画像生成部46は、図12の場合と同じく、RW制御部45がストレージデバイス30から読み出したアノテーション画像19および画像生成条件43を、RW制御部45から受け取る。画像生成部46は、画像生成条件43にしたがって、アノテーション画像19から第2回仮学習に用いる仮アノテーション画像18_2を生成する。画像生成部46は、仮アノテーション画像18_2をRW制御部45に出力する。RW制御部45は、仮アノテーション画像18_2をストレージデバイス30に記憶する。
As shown in FIG. 15, the
図16に示すように、仮モデル生成部47は、RW制御部45がストレージデバイス30から読み出した学習済み仮モデル16T_1を、RW制御部45から受け取る。仮モデル生成部47は、学習済み仮モデル16T_1から第2回仮学習に用いる仮モデル16_2を生成する。仮モデル生成部47は、仮モデル16_2をRW制御部45に出力する。RW制御部45は、仮モデル16_2をストレージデバイス30に記憶する。
As shown in FIG. 16 , the temporary
図17に示すように、仮学習部48は、RW制御部45がストレージデバイス30から読み出した仮学習データ15_2および仮モデル16_2を、RW制御部45から受け取る。仮学習データ15_2は、学習用入力画像17と仮アノテーション画像18_2との組である。仮学習部48は、仮学習データ15_2を用いて仮モデル16_2を学習させ、仮モデル16_2を学習済み仮モデル16T_2とする。仮学習部48は、学習済み仮モデル16T_2をRW制御部45に出力する。RW制御部45は、学習済み仮モデル16T_2をストレージデバイス30に記憶する。
As shown in FIG. 17 , the
このように、画像生成部46と仮学習部48は、仮アノテーション画像18を生成する処理と仮モデル16を学習済み仮モデル16Tとする処理を、仮アノテーション画像18のクラス数Nを徐々に増やしつつ、かつ仮アノテーション画像18のクラス数NがM-1となるまで複数回繰り返す。
In this way, the
図18に示すように、モデル生成部49は、RW制御部45がストレージデバイス30から読み出した学習済み仮モデル16T_2を、RW制御部45から受け取る。モデル生成部49は、学習済み仮モデル16T_2からモデル21を生成する。モデル生成部49は、モデル21をRW制御部45に出力する。RW制御部45は、モデル21をストレージデバイス30に記憶する。
As shown in FIG. 18 , the
図19に示すように、本学習部50は、RW制御部45がストレージデバイス30から読み出した学習データ20およびモデル21を、RW制御部45から受け取る。本学習部50は、学習データ20を用いてモデル21を学習させ、モデル21を学習済みモデル21Tとする。本学習部50は、学習済みモデル21TをRW制御部45に出力する。RW制御部45は、学習済みモデル21Tをストレージデバイス30に記憶する。
As shown in FIG. 19 , the
仮学習部48および本学習部50は、例えばミニバッチデータを用いたミニバッチ学習を仮モデル16およびモデル21に行わせる。ミニバッチデータは、学習用入力画像17と仮アノテーション画像18、または学習用入力画像17とアノテーション画像19とを分割した複数の分割画像(例えば元の画像の1/100のサイズの枠で分割した1万枚の分割画像)のうちの一部(例えば100枚)で構成される。仮学習部48および本学習部50は、こうしたミニバッチデータを複数組(例えば100組)作成し、各組を順次仮モデル16およびモデル21に与えて学習させる。
The
図20において、本例の仮アノテーション画像18_1は、クラス1~3の分化細胞DC、未分化細胞UDC、死細胞DDCが、統合クラス1として統合された画像である。すなわち、仮アノテーション画像18_1は、アノテーション画像19において指定された4つのクラス1~4のうちの3つのクラス1~3が統合され、アノテーション画像19よりもクラス数が少ない画像である。
In FIG. 20, the provisional annotation image 18_1 of this example is an image in which
図21において、基礎モデル60は、仮モデル16およびモデル21と同じく、EN26、DN27、および出力層28で構成される。
In FIG. 21, the
出力層28は、存否確率マップ生成レイヤ80およびアクティベーションレイヤ81を有する。存否確率マップ生成レイヤ80は、DN27が出力した最終出力データ29から、存否確率マップPMPを生成する。存否確率マップPMPには、入力画像内のクラスの存否確率を示す数値が、画素毎に登録されている。存否確率マップPMPの画素は、出力画像の画素と一対一で対応する。存否確率マップ生成レイヤ80は、2つのクラス分の存否確率マップPMP1、PMP2を生成する。
The
アクティベーションレイヤ81は、存否確率マップPMP1、PMP2に基づいて、認定データAVDを出力する。アクティベーションレイヤ81は、出力画像の特定画素に対応する、各存否確率マップPMP1、PMP2の画素の各画素値のうちの例えば最大値(最高確率)をとる画素値のクラスを、特定画素が属するクラスとして認定する。こうして出力された認定データAVDは、出力画像の各画素が属するクラスを認定したデータとなる。
The
このように、基礎モデル60の出力層28は2つのクラス用である。そして、第1回仮学習においては、図9で示したように、仮アノテーション画像18_1のクラス数N=2である。すなわち、基礎モデル60は、仮アノテーション画像18_1のクラス数に応じた構成を有している。したがって、仮モデル生成部47は、基礎モデル60自体を仮モデル16_1として出力する。
Thus, the
なお、基礎モデル60の出力層28は、2つのクラス用に限定されない。出力層28が3つのクラス用の基礎モデル60であってもよい。仮アノテーション画像18_1のクラス数N=2で、基礎モデル60の出力層28が3つのクラス用のであった場合、仮モデル生成部47は、基礎モデル60の出力層28を、2つのクラス用の出力層28に置き換える。
Note that the
図22において、本例の仮アノテーション画像18_2は、クラス1、2の分化細胞DC、未分化細胞UDCが、統合クラス2として統合された画像である。すなわち、仮アノテーション画像18_2は、アノテーション画像19において指定された4つのクラス1~4のうちの2つのクラス1、2が統合され、アノテーション画像19よりもクラス数が少ない画像である。
In FIG. 22 , the provisional annotation image 18_2 of this example is an image in which
図23において、仮モデル生成部47は、第1回仮学習の学習済み仮モデル16T_1から第2回仮学習に用いる仮モデル16_2を生成する場合に、学習済み仮モデル16T_1のEN26およびDN27を、仮モデル16_2に持ち越す。つまり、仮モデル生成部47は、前回用いた学習済み仮モデル16T_1の少なくとも一部を用いて、今回用いる仮モデル16_2を生成する。
In FIG. 23, when the temporary
一方、仮モデル生成部47は、学習済み仮モデル16T_1の出力層28は持ち越さずに、出力層28_2に置き換える。出力層28_2は、存否確率マップ生成レイヤ86およびアクティベーションレイヤ87を有する。存否確率マップ生成レイヤ86は、3つのクラス分の存否確率マップPMP1、PMP2、PMP3を生成する。アクティベーションレイヤ87は、アクティベーションレイヤ81と同様にして、存否確率マップPMP1~PMP3から認定データAVDを出力する。すなわち、出力層28_2は3つのクラス用である。
On the other hand, the temporary
第2回仮学習においては、図9で示したように、仮アノテーション画像18_2のクラス数N=3である。しかし、学習済み仮モデル16T_1の出力層28は2つのクラス用である。そこで、仮モデル生成部47は、2つのクラス用の出力層28を、3つのクラス用の出力層28_2に置き換える。こうすることで、仮モデル生成部47は、仮アノテーション画像18_2のクラス数に応じた構成を有する仮モデル16_2を生成する。
In the second temporary learning, as shown in FIG. 9, the number of classes of the temporary annotation image 18_2 is N=3. However, the
図24に示すように、仮学習部48は、第1処理部90、第1評価部91、および第1更新部92を有する。第1処理部90は、学習用入力画像17を仮モデル16に与えて、仮モデル16から仮学習用出力画像93を出力させる。第1処理部90は、仮学習用出力画像93を第1評価部91に出力する。
As shown in FIG. 24 , the
第1評価部91は、仮アノテーション画像18と仮学習用出力画像93とを比較し、仮モデル16のクラスの判別精度を評価する。第1評価部91は、第1損失関数94を用いて仮モデル16のクラスの判別精度を評価する。第1損失関数94は、仮アノテーション画像18と仮学習用出力画像93とのクラスの指定の差異の程度を表す関数である。第1損失関数94の算出値が0に近いほど、仮モデル16のクラスの判別精度が高いことを示す。第1評価部91は、第1損失関数94による仮モデル16のクラスの判別精度の評価結果を第1更新部92に出力する。
The
第1更新部92は、第1評価部91からの評価結果に応じて、仮モデル16を更新する。例えば、第1更新部92は、学習係数を伴う確率的勾配降下法等により、仮モデル16のEN26およびDN27のフィルタの係数の値を変化させる。学習係数は、フィルタの係数の値の変化幅を示す。すなわち、学習係数が比較的大きい値であるほど、フィルタの係数の値の変化幅は大きくなり、仮モデル16の更新度合いも大きくなる。
The
仮学習部48は、これら第1処理部90による仮モデル16への学習用入力画像17の入力と第1評価部91への仮学習用出力画像93の出力、第1評価部91による仮モデル16のクラスの判別精度の評価、および第1更新部92による仮モデル16の更新を、仮モデル16のクラスの判別精度が予め設定されたレベルとなるまで、繰り返し続ける。そして、仮学習部48は、クラスの判別精度が予め設定されたレベルとなった仮モデル16を、学習済み仮モデル16Tとして出力する。
The
図25に示すように、第1回仮学習に用いる第1損失関数94_1は、クラス1~3を統合した統合クラス1(分化細胞DC、未分化細胞UDC、死細胞DDC)に対する損失関数に重み付け係数WAを乗算したものと、クラス4(培地PL)に対する損失関数に重み付け係数WBを乗算したものとの合計である。この場合、重み付け係数WA、WBには、例えば0.5等の同じ値が設定される。
As shown in FIG. 25, the first loss function 94_1 used for the first provisional learning is a loss function for integrated class 1 (differentiated cell DC, undifferentiated cell UDC, dead cell DDC) that integrates
対して図26に示すように、第2回仮学習に用いる第1損失関数94_2は、クラス1、2を統合した統合クラス2(分化細胞DC、未分化細胞UDC)に対する損失関数に重み付け係数WCを乗算したものと、クラス3(死細胞DDC)に対する損失関数に重み付け係数WDを乗算したものと、クラス4(培地PL)に対する損失関数に重み付け係数WBを乗算したものとの合計である。この場合、重み付け係数WBには、重み付け係数WC、WDよりも小さい値が設定される。例えば重み付け係数WC、WDには0.4が、重み付け係数WBには0.2がそれぞれ設定される。 On the other hand, as shown in FIG. 26, the first loss function 94_2 used for the second provisional learning is the weighting coefficient WC , the loss function for class 3 (dead cell DDC) multiplied by a weighting factor WD, and the loss function for class 4 (medium PL) multiplied by a weighting factor WB. In this case, the weighting factor WB is set to a smaller value than the weighting factors WC and WD. For example, the weighting factors WC and WD are set to 0.4, and the weighting factor WB is set to 0.2.
このように、仮学習部48は、仮モデル16のクラスの判別精度の評価に用いる第1損失関数94を変更する。また、仮学習部48は、前回と共通するクラスに対する損失関数の重みを、今回新たに出現したクラスに対する損失関数の重みよりも小さくする。図26の例では、クラス4が「前回と共通するクラス」に対応し、重み付け係数WBが「前回と共通するクラスに対する損失関数の重み」に対応する。また、統合クラス2およびクラス3が「今回新たに出現したクラス」に対応し、重み付け係数WC、WDが「今回新たに出現したクラスに対する損失関数の重み」に対応する。
In this manner, the
図27において、モデル生成部49は、第2回仮学習の学習済み仮モデル16T_2から本学習に用いるモデル21を生成する場合に、学習済み仮モデル16T_2のEN26およびDN27を、モデル21に持ち越す。つまり、モデル生成部49は、学習済み仮モデル16T_2の少なくとも一部を用いて、モデル21を生成する。
In FIG. 27, the
一方、モデル生成部49は、学習済み仮モデル16T_2の出力層28_2は持ち越さずに、出力層28_3に置き換える。出力層28_3は、存否確率マップ生成レイヤ101およびアクティベーションレイヤ102を有する。存否確率マップ生成レイヤ101は、4つのクラス分の存否確率マップPMP1、PMP2、PMP3、PMP4を生成する。アクティベーションレイヤ102は、アクティベーションレイヤ81、87と同様にして、存否確率マップPMP1~PMP4から認定データAVDを出力する。すなわち、出力層28_3は4つのクラス用である。
On the other hand, the
本学習においては、図9で示したように、アノテーション画像19のクラス数M=4である。しかし、学習済み仮モデル16T_2の出力層28_2は3つのクラス用である。そこで、モデル生成部49は、3つのクラス用の出力層28_2を、4つのクラス用の出力層28_3に置き換える。こうすることで、モデル生成部49は、アノテーション画像19のクラス数に応じた構成を有するモデル21を生成する。
In this learning, as shown in FIG. 9, the number of classes of the
図28に示すように、本学習部50は、第2処理部105、第2評価部106、および第2更新部107を有する。第2処理部105は、仮学習部48の第1処理部90と同様に、学習用入力画像17をモデル21に与えて、モデル21から本学習用出力画像25を出力させる。第2処理部105は、本学習用出力画像25を第2評価部106に出力する。
As shown in FIG. 28 , the
第2評価部106は、仮学習部48の第1評価部91と同様に、アノテーション画像19と本学習用出力画像25とを比較し、モデル21のクラスの判別精度を評価する。第2評価部106は、第2損失関数109を用いてモデル21のクラスの判別精度を評価する。第2損失関数109は、アノテーション画像19と本学習用出力画像25とのクラスの指定の差異の程度を表す関数である。第2損失関数109の算出値が0に近いほど、モデル21のクラスの判別精度が高いことを示す。第2評価部106は、第2損失関数109によるモデル21のクラスの判別精度の評価結果を第2更新部107に出力する。
The
第2更新部107は、仮学習部48の第1更新部92と同様に、第2評価部106からの評価結果に応じて、モデル21を更新する。
The
本学習部50は、仮学習部48と同様に、これら第2処理部105によるモデル21への学習用入力画像17の入力と第2評価部106への本学習用出力画像25の出力、第2評価部106によるモデル21のクラスの判別精度の評価、および第2更新部107によるモデル21の更新を、モデル21のクラスの判別精度が予め設定されたレベルとなるまで、繰り返し続ける。そして、本学習部50は、クラスの判別精度が予め設定されたレベルとなったモデル21を、学習済みモデル21Tとして出力する。
Similar to the
図29に示すように、第2損失関数109は、クラス1(分化細胞DC)に対する損失関数に重み付け係数WEを乗算したものと、クラス2(未分化細胞UDC)に対する損失関数に重み付け係数WFを乗算したものと、クラス3(死細胞DDC)に対する損失関数に重み付け係数WDを乗算したものと、クラス4(培地PL)に対する損失関数に重み付け係数WBを乗算したものとの合計である。この場合、重み付け係数WB、WDには、重み付け係数WE、WFよりも小さい値が設定される。例えば重み付け係数WE、WFには0.4が、重み付け係数WB、WDには0.1がそれぞれ設定される。
As shown in FIG. 29, the
このように、本学習部50は、モデル21のクラスの判別精度の評価に用いる第2損失関数109を、仮モデル16のクラスの判別精度の評価に用いる第1損失関数94から変更する。また、本学習部50は、仮学習と共通するクラスに対する損失関数の重みを、本学習において新たに出現したクラスに対する損失関数の重みよりも小さくする。図29の例では、クラス3、4が「仮学習と共通するクラス」に対応し、重み付け係数WB、WDが「仮学習と共通するクラスに対する損失関数の重み」に対応する。また、クラス1、2が「本学習において新たに出現したクラス」に対応し、重み付け係数WE、WFが「本学習において新たに出現したクラスに対する損失関数の重み」に対応する。
In this manner, the
図30は、第1回仮学習、第2回仮学習、および本学習の各学習のクラスの推移を、仮アノテーション画像18_1、18_2、およびアノテーション画像19を用いて示すものである。図30Aは、第1回仮学習に用いる、クラス数N=2(統合クラス1とクラス4)の仮アノテーション画像18_1を示す。図30Bは、第2回仮学習に用いる、クラス数N=3(統合クラス2、クラス3、クラス4)の仮アノテーション画像18_2を示す。図30Cは、本学習に用いる、クラス数M=4(クラス1~4)のアノテーション画像19を示す。こうしてクラス数が1ずつ増やされながら、第1回仮学習、第2回仮学習、および本学習の各学習が進められる。
FIG. 30 shows transition of each learning class of the first temporary learning, the second temporary learning, and the main learning using the temporary annotation images 18_1, 18_2, and the
次に、上記構成による作用について、図31のフローチャートを参照して説明する。まず、学習装置10において作動プログラム40が起動されると、図6で示したように、学習装置10のCPU32は、RW制御部45、画像生成部46、仮モデル生成部47、仮学習部48、モデル生成部49、本学習部50、表示制御部51、受付部52、および送信制御部53として機能される。
Next, the operation of the above configuration will be described with reference to the flow chart of FIG. First, when the
まず、表示制御部51により、図11で示した画像生成条件指定画面65がディスプレイ34に表示される(ステップST100)。ユーザにより各指定領域66、67のチェックボックス68、69が選択され、指定ボタン70が選択された場合、チェックボックス68、69の選択状態に応じた画像生成条件43が、受付部52において受け付けられる(ステップST110)。画像生成条件43は、受付部52からRW制御部45に出力され、RW制御部45によりストレージデバイス30に記憶される。
First, the image generation
図12で示したように、RW制御部45によりアノテーション画像19および画像生成条件43がストレージデバイス30から読み出される(ステップST120)。アノテーション画像19および画像生成条件43は、RW制御部45から画像生成部46に出力される。なお、ステップST120は、本開示の技術に係る「取得ステップ」の一例である。
As shown in FIG. 12, the
図20で示したように、画像生成部46では、画像生成条件43にしたがって、アノテーション画像19から第1回仮学習に用いる仮アノテーション画像18_1が生成される(ステップST130)。仮アノテーション画像18_1は、画像生成部46からRW制御部45に出力され、RW制御部45によってストレージデバイス30に記憶される。なお、ステップST130は、本開示の技術に係る「画像生成ステップ」の一例である。
As shown in FIG. 20, the
次いで、図13で示したように、RW制御部45により基礎モデル60がストレージデバイス30から読み出される。基礎モデル60は、RW制御部45から仮モデル生成部47に出力される。
Next, as shown in FIG. 13, the
図21で示したように、仮モデル生成部47では、基礎モデル60から第1回仮学習に用いる仮モデル16_1が生成される(ステップST140)。仮モデル16_1は、本例においては、基礎モデル60をそのまま利用したモデルであり、2つのクラス用の出力層28を有する。仮モデル16_1は、仮モデル生成部47からRW制御部45に出力され、RW制御部45によってストレージデバイス30に記憶される。
As shown in FIG. 21, the temporary
図14で示したように、RW制御部45により、学習用入力画像17と仮アノテーション画像18_1の組である仮学習データ15_1、および仮モデル16_1がストレージデバイス30から読み出される(ステップST150)。仮学習データ15_1および仮モデル16_1は、RW制御部45から仮学習部48に出力される。なお、ステップST150は、ステップST120と同じく、本開示の技術に係る「取得ステップ」の一例である。
As shown in FIG. 14, the
仮学習部48では、仮学習データ15_1を用いて仮モデル16_1の仮学習が行われる(ステップST160)。より詳しくは図24で示したように、第1処理部90において、学習用入力画像17が仮モデル16_1に与えられて、仮モデル16_1から仮学習用出力画像93が出力される。次いで、第1評価部91において、仮アノテーション画像18_1と仮学習用出力画像93とが比較され、図25で示した第1損失関数94_1を用いて、仮モデル16_1のクラスの判別精度が評価される。そして、第1更新部92によって、仮モデル16_1が更新される。これら第1処理部90による仮モデル16_1への学習用入力画像17の入力と第1評価部91への仮学習用出力画像93の出力、第1評価部91による仮モデル16_1のクラスの判別精度の評価、および第1更新部92による仮モデル16_1の更新は、仮モデル16_1のクラスの判別精度が予め設定されたレベルとなるまで、繰り返し続けられる。クラスの判別精度が予め設定されたレベルとなった仮モデル16_1は、学習済み仮モデル16T_1として仮学習部48からRW制御部45に出力され、RW制御部45によってストレージデバイス30に記憶される。なお、ステップST160は、本開示の技術に係る「仮学習ステップ」の一例である。
The
続いて、図15および図22で示したように、画像生成部46において、アノテーション画像19から第2回仮学習に用いる仮アノテーション画像18_2が生成される(ステップST170でNO、ステップST130)。次いで、図16および図23で示したように、仮モデル生成部47において、第1回仮学習の学習済み仮モデル16T_1から第2回仮学習に用いる仮モデル16_2が生成される(ステップST140)。仮モデル16_2は、学習済み仮モデル16T_1のEN26およびDN27が持ち越されたモデルであり、3つのクラス用の出力層28_2を有する。そして、図17および図24で示したように、仮学習部48において、学習用入力画像17と仮アノテーション画像18_2の組である仮学習データ15_2を用いて、仮モデル16_2の仮学習が行われる(ステップST160)。仮モデル16_2のクラスの判別精度の評価には、図26で示した第1損失関数94_2が用いられる。この第2回仮学習によりクラスの判別精度が予め設定されたレベルとなった仮モデル16_2は、学習済み仮モデル16T_2として仮学習部48からRW制御部45に出力され、RW制御部45によってストレージデバイス30に記憶される。
Subsequently, as shown in FIGS. 15 and 22, the
第2回仮学習の終了後(ステップST170でYES)、図18で示したように、RW制御部45により、第2回仮学習の学習済み仮モデル16T_2がストレージデバイス30から読み出される。学習済み仮モデル16T_2は、RW制御部45からモデル生成部49に出力される。
After completing the second provisional learning (YES in step ST170), the
図27で示したように、モデル生成部49では、学習済み仮モデル16T_2から、本学習に用いるモデル21が生成される(ステップST180)。モデル21は、学習済み仮モデル16T_2のEN26およびDN27が持ち越されたモデルであり、4つのクラス用の出力層28_3を有する。モデル21は、モデル生成部49からRW制御部45に出力され、RW制御部45によってストレージデバイス30に記憶される。なお、ステップST180は、本開示の技術に係る「機械学習モデル生成ステップ」の一例である。
As shown in FIG. 27, the
図19で示したように、RW制御部45により、学習用入力画像17とアノテーション画像19の組である学習データ20、およびモデル21がストレージデバイス30から読み出される(ステップST190)。学習データ20およびモデル21は、RW制御部45から本学習部50に出力される。なお、ステップST190は、ステップST120、ST150と同じく、本開示の技術に係る「取得ステップ」の一例である。
As shown in FIG. 19, the
本学習部50では、学習データ20を用いてモデル21の本学習が行われる(ステップST200)。より詳しくは図28で示したように、第2処理部105において、学習用入力画像17がモデル21に与えられて、モデル21から本学習用出力画像25が出力される。次いで、第2評価部106において、アノテーション画像19と本学習用出力画像25とが比較され、図29で示した第2損失関数109を用いて、モデル21のクラスの判別精度が評価される。そして、第2更新部107によって、モデル21が更新される。これら第2処理部105によるモデル21への学習用入力画像17の入力と第2評価部106への本学習用出力画像25の出力、第2評価部106によるモデル21のクラスの判別精度の評価、および第2更新部107によるモデル21の更新は、モデル21のクラスの判別精度が予め設定されたレベルとなるまで、繰り返し続けられる。クラスの判別精度が予め設定されたレベルとなったモデル21は、学習済みモデル21Tとして本学習部50からRW制御部45に出力され、RW制御部45によってストレージデバイス30に記憶される。なお、ステップST200は、本開示の技術に係る「本学習ステップ」の一例である。
In the
学習済みモデル21Tは、RW制御部45によりストレージデバイス30から読み出されて、RW制御部45から送信制御部53に出力される。学習済みモデル21Tは、送信制御部53により運用装置11に送信される(ステップST210)。
The learned
運用装置11では、図2で示したように、入力画像22が学習済みモデル21に与えられ、入力画像22に映る物体のクラスとその輪郭を判別した出力画像23が、学習済みモデル21から出力される。出力画像23は、運用装置11のディスプレイに表示される等して、ユーザの閲覧に供される。また、出力画像23は、例えば分化細胞DCの個数の計数といった細胞培養の評価に供される。
In the
以上説明したように、学習装置10は、取得部としてのRW制御部45と、画像生成部46と、仮学習部48と、モデル生成部49と、本学習部50とを備える。RW制御部45は、学習用入力画像17と、学習用入力画像17に対して、セマンティックセグメンテーションの対象となる3つ以上のクラスが指定されたアノテーション画像19との組である学習データ20を、ストレージデバイス30から読み出して取得する。画像生成部46は、アノテーション画像19において指定された3つ以上のクラスのうちの少なくとも2つのクラスが統合され、アノテーション画像19よりもクラス数が少ない仮アノテーション画像18を生成する。仮学習部48は、学習用入力画像17と仮アノテーション画像18との組である仮学習データ15を用いて、仮アノテーション画像18のクラス数に応じた構成を有する仮モデル16を学習させ、仮モデル16を学習済み仮モデル16Tとする。
As described above, the
モデル生成部49は、学習済み仮モデル16Tの少なくとも一部を用いて、アノテーション画像19のクラス数に応じた構成を有するモデル21を生成する。本学習部50は、学習データ20を用いてモデル21を学習させ、モデル21を学習済みモデル21Tとする。このように、学習装置10では、アノテーション画像19において指定されたクラスより少ない数のクラスで、モデル21を学習させる。したがって、複数のクラスの全てを一度に学習させる場合と比べて、クラスの判別精度が高い学習済みモデル21Tを得ることが可能となる。
The
学習装置10はさらに、仮モデル16を生成する仮モデル生成部47を備える。したがって、ユーザの手を煩わすことなく仮モデル16を生成することができる。
The
アノテーション画像19のクラス数をM、仮アノテーション画像18のクラス数をNとした場合、画像生成部46と仮学習部48は、仮アノテーション画像18を生成する処理と仮モデル16を学習済み仮モデル16Tとする処理を、仮アノテーション画像18のクラス数Nを徐々に増やしつつ、かつ仮アノテーション画像18のクラス数NがM-1となるまで複数回繰り返す。したがって、仮学習を複数段階に分けて細かく行うことができ、よりクラスの判別精度が高いモデル21を得ることが可能となる。
Assuming that the number of classes of the
仮モデル生成部47は、前回用いた仮モデル16の少なくとも一部を用いて、今回用いる仮モデル16を生成する。したがって、前回の仮学習の成果を、今回の仮学習、ひいては本学習に取り込むことができる。
The temporary
仮学習部48は、仮モデル16のクラスの判別精度の評価に用いる第1損失関数94を変更する。具体的には、仮学習部48は、前回と共通するクラスに対する損失関数の重みを、今回新たに出現したクラスに対する損失関数の重みよりも小さくする。前回と共通するクラスは、前回既に仮学習済みである。対して今回新たに出現したクラスは、今回はじめて仮学習する。このため、前回と共通するクラスに対する損失関数の重みを、今回新たに出現したクラスに対する損失関数の重みよりも小さくすれば、前回と共通するクラスに比べて、今回新たに出現したクラスを重点的に仮学習することができる。
The
画像生成部46は、予め指定された画像生成条件43にしたがって仮アノテーション画像18を生成する。したがって、仮アノテーション画像18を容易に生成することができる。
The
また、学習装置10は、画像生成条件43のユーザによる指定を受け付ける第2受付部としての受付部52を備える。したがって、ユーザの考えを反映させた仮アノテーション画像18を生成することができ、ユーザの指定通りに仮学習を行うことができる。
The
なお、第1損失関数94の種類を変更してもよい。例えばダイス係数を用いた第1損失関数94と、二乗誤差を用いた第1損失関数94とを選択的に用いる。同様に、第1損失関数94と第2損失関数109の種類を変更してもよい。
Note that the type of the
ここで、細胞培養の分野は、iPS(Induced Pluripotent Stem)細胞等の出現により、最近脚光を浴びている。このため、細胞画像内の細胞のクラスの判別をより正確に行う技術が要望されている。本開示の技術では、培養中の複数の細胞を撮影した細胞画像を入力画像22としている。したがって、本開示の技術は、最近の要望に応えることができる技術であるといえる。
Here, the field of cell culture has recently been in the limelight due to the emergence of iPS (Induced Pluripotent Stem) cells and the like. Therefore, there is a demand for a technique for more accurately discriminating the class of cells in a cell image. In the technology of the present disclosure, the
[第2実施形態]
図32~図34に示す第2実施形態では、仮学習部48による仮学習の処理および本学習部50による本学習の処理において、予め指定された部分を更新しない。[Second embodiment]
In the second embodiment shown in FIGS. 32 to 34, in the provisional learning process by the
図32は、表示制御部51によりディスプレイ34に表示される非更新部分指定画面120を示す。非更新部分指定画面120は、仮モデル16およびモデル21の更新しない部分(以下、非更新部分という)のユーザによる指定を受け付けるための画面である。非更新部分指定画面120は、第1指定領域121および第2指定領域122を有する。第1指定領域121には、EN26の各階層または全階層を非更新部分として指定するためのチェックボックス123が配されている。第2指定領域122には、DN27の各階層または全階層を非更新部分として指定するためのチェックボックス124が配されている。
FIG. 32 shows a non-updated
ユーザは、各指定領域121、122のチェックボックス123、124を適宜選択し、指定ボタン125を選択する。受付部52は、チェックボックス123、124の選択状態に応じた非更新部分指定条件127を受け付ける。すなわち、受付部52は、本開示の技術に係る「第1受付部」の一例である。図32では、EN26の全階層が非更新部分として選択された場合を例示している。なお、キャンセルボタン126が選択された場合、非更新部分指定画面120の表示が消される。
The user appropriately selects the
受付部52は、非更新部分指定条件127をRW制御部45に出力する。RW制御部45は、非更新部分指定条件127をストレージデバイス30に記憶する。
The receiving
図33に示すように、非更新部分指定条件127は、RW制御部45によりストレージデバイス30から読み出されて、RW制御部45から第1更新部92に出力される。第1更新部92は、非更新部分指定条件127にしたがって、仮モデル16(ここでは第1回仮学習に用いる仮モデル16_1)の非更新部分を更新しない。
As shown in FIG. 33 , the non-updated
また、図34に示すように、非更新部分指定条件127は、第2更新部107にも出力される。第2更新部107は、非更新部分指定条件127にしたがって、モデル21の非更新部分を更新しない。
In addition, as shown in FIG. 34, the non-updated
図33および図34では、図32の場合と同じく、EN26の全階層が非更新部分として指定された場合を例示している。この場合、第1更新部92および第2更新部107は、仮モデル16およびモデル21のDN27は更新するが、EN26は更新しない。
33 and 34 exemplify the case where all layers of EN26 are designated as non-updated portions, as in the case of FIG. In this case, the
このように、第2実施形態では、受付部52は、非更新部分のユーザによる指定を受け付ける。仮学習部48と本学習部50は、仮モデル16を学習済み仮モデル16Tとする処理とモデル21を学習済みモデル21Tとする処理において、非更新部分を更新しない。こうすれば、他の学習装置で学習されたモデルの一部を、大元の基礎モデル60に転用する、いわゆる転移学習を行った場合に、基礎モデル60に転用した、他の学習装置で学習された一部を非更新部分として指定して更新させなくすることができる。したがって、転移学習の成果を効果的に取り込むことができる。
Thus, in the second embodiment, the accepting
[第3実施形態]
図35に示す第3実施形態では、画像生成条件43を、仮アノテーション画像18の各クラスの面積が偏らないような内容とする。[Third embodiment]
In the third embodiment shown in FIG. 35, the
図35において、第3実施形態では、面積情報130がストレージデバイス30に記憶される。面積情報130には、アノテーション画像19における面積比率がクラス毎に登録されている。面積比率は、認定データAVDに基づいて、各クラスに属する画素の個数を計数し、計数した画素の個数をアノテーション画像19の全画素の個数で除算した値である。図35では、クラス1の分化細胞DCの面積比率が46%、クラス2の未分化細胞UDCの面積比率が11%、クラス3の死細胞DDCの面積比率が6%、クラス4の培地PLの面積比率が37%の場合を例示している。
In FIG. 35,
この場合の画像生成条件43は、第1回仮学習においてはクラス2~4(未分化細胞UDC、死細胞DDC、培地PL)を統合する旨が、第2回仮学習においてはクラス2、3(未分化細胞UDC、死細胞DDC)を統合する旨が、それぞれ登録されたものとなる。第1回仮学習においては、クラス1の分化細胞DCの面積比率が46%、クラス2~4の統合クラスの面積比率が11+6+37=54%であり、他の3つのクラスを統合した場合と比べて面積比率が偏っていない。また、第2回仮学習においては、クラス1の分化細胞DCの面積比率が46%、クラス4の培地PLの面積比率が37%、クラス2、3の統合クラスの面積比率が11+6=17%であり、クラス3、4、またはクラス2、4を統合した場合と比べて面積比率が偏っていない。
In this case, the
このように、第3実施形態では、画像生成条件43は、仮アノテーション画像18の各クラスの面積が偏らないような内容である。したがって、仮アノテーション画像18の各クラスの仮学習の負荷を平均化することができる。
Thus, in the third embodiment, the
[第4実施形態]
図36に示す第4実施形態では、画像生成条件43を、仮アノテーション画像18の各クラスの複雑度が偏らないような内容とする。[Fourth Embodiment]
In the fourth embodiment shown in FIG. 36, the
図36において、第4実施形態では、複雑度情報135がストレージデバイス30に記憶される。複雑度情報135には、アノテーション画像19における複雑度がクラス毎に登録されている。複雑度は、各クラスの面積、および/または、各クラスの境界線のジグザグの隣り合う山同士のピッチ等に応じて設定されたレベルの値である。複雑度のレベルの値が大きいほど、当該クラスが複雑であることを示している。図36では、クラス1の分化細胞DCの複雑度がレベル5、クラス2の未分化細胞UDCの複雑度がレベル6、クラス3の死細胞DDCの複雑度がレベル7、クラス4の培地PLの複雑度がレベル4の場合を例示している。
In FIG. 36, the
この場合の画像生成条件43は、第1回仮学習においてはクラス2~4(未分化細胞UDC、死細胞DDC、培地PL)を統合する旨が、第2回仮学習においてはクラス3、4(死細胞DDC、培地PL)を統合する旨が、それぞれ登録されたものとなる。第1回仮学習においては、クラス1の分化細胞DCの複雑度がレベル5、クラス2~4の統合クラスの複雑度がレベル5.7(≒(6+7+4)/3)であり、他の3つのクラスを統合した場合と比べて複雑度が偏っていない。また、第2回仮学習においては、クラス1の分化細胞DCの複雑度がレベル5、クラス2の未分化細胞UDCの複雑度がレベル6、クラス3、4の統合クラスの複雑度がレベル5.5(=(7+4)/2)であり、クラス2、3、またはクラス2、4を統合した場合と比べて複雑度が偏っていない。
In this case, the
このように、第4実施形態では、画像生成条件43は、仮アノテーション画像18の各クラスの複雑度が偏らないような内容である。したがって、上記第3実施形態の場合と同じく、仮アノテーション画像18の各クラスの仮学習の負荷を平均化することができる。
Thus, in the fourth embodiment, the
なお、図37に示すように、仮アノテーション画像18の各クラスの面積が偏らないような内容の上記第3実施形態の画像生成条件43とするか、仮アノテーション画像18の各クラスの複雑度が偏らないような内容の上記第4実施形態の画像生成条件43とするかのユーザによる選択指示を受け付けてもよい。
As shown in FIG. 37, the
図37において、画像生成条件指定画面140には、画像生成条件43を、仮アノテーション画像18の各クラスの面積が偏らないような内容とするか、仮アノテーション画像18の各クラスの複雑度が偏らないような内容とするかを、択一的に選択するためのラジオボタン141が設けられている。ユーザは、ラジオボタン141を選択して指定ボタン142を選択する。受付部52は、画像生成条件43を、仮アノテーション画像18の各クラスの面積が偏らないような内容とするという選択指示、または、画像生成条件43を、仮アノテーション画像18の各クラスの複雑度が偏らないような内容とするという選択指示を受け付ける。すなわち、受付部52は、本開示の技術に係る「第3受付部」の一例である。なお、キャンセルボタン143が選択された場合、画像生成条件指定画面140の表示が消される。
In FIG. 37, on the image generation
このように、受付部52において、仮アノテーション画像18の各クラスの面積が偏らないような内容の画像生成条件43とするか、仮アノテーション画像18の各クラスの複雑度が偏らないような内容の画像生成条件43とするかのユーザによる選択指示を受け付ければ、ユーザに適した内容の画像生成条件43に基づいて、画像生成部46において仮アノテーション画像18を生成することができる。なお、仮アノテーション画像18の各クラスの面積が偏らないような内容の画像生成条件43とするか、仮アノテーション画像18の各クラスの複雑度が偏らないような内容の画像生成条件43とするかを、択一的でなく両方選択可能としてもよい。
In this way, in the receiving
[第5実施形態]
図38に示す第5実施形態では、画像生成条件43を、最大の面積をもつクラスは統合せずに1つのクラスのままとする、という内容とする。[Fifth embodiment]
In the fifth embodiment shown in FIG. 38, the
図38において、第5実施形態では、第3実施形態と同じく、面積情報130がストレージデバイス30に記憶される。図38では、クラス1の分化細胞DCの面積比率が23%、クラス2の未分化細胞UDCの面積比率が7%、クラス3の死細胞DDCの面積比率が2%、クラス4の培地PLの面積比率が68%の場合を例示している。すなわち、最大の面積をもつクラスは、クラス4の培地PLである。
In FIG. 38, in the fifth embodiment,
この場合の画像生成条件43は、第1回仮学習においてはクラス1~3(分化細胞DC、未分化細胞UDC、死細胞DDC)を統合する旨が、第2回仮学習においてはクラス2、3(未分化細胞UDC、死細胞DDC)を統合する旨が、それぞれ登録されたものとなる。最大の面積をもつクラスであるクラス4の培地PLは、各回の仮学習において統合されずに1つのクラスのままとされる。また、クラス1~3のうちで最大の面積をもつクラスであるクラス1の分化細胞DCは、第2回仮学習において統合されずに1つのクラスとされる。
In this case, the
このように、第5実施形態では、画像生成条件43は、最大の面積をもつクラスは統合せずに1つのクラスのままとする、という内容である。こうして最大の面積をもつクラスを、早い段階で独立して仮学習することで、大局的な構造から微細な構造へ、という仮学習の流れを自然に作ることができる。したがって、よりクラスの判別精度が高い学習済みモデル21Tを得ることが可能となる。
As described above, in the fifth embodiment, the
[第6実施形態]
図39に示す第6実施形態では、画像生成条件43を、最小の複雑度をもつクラスは統合せずに1つのクラスのままとする、という内容とする。[Sixth Embodiment]
In the sixth embodiment shown in FIG. 39, the
図39において、第6実施形態では、第4実施形態と同じく、複雑度情報135がストレージデバイス30に記憶される。図39では、クラス1の分化細胞DCの複雑度がレベル8、クラス2の未分化細胞UDCの複雑度がレベル7、クラス3の死細胞DDCの複雑度がレベル6、クラス4の培地PLの複雑度がレベル3の場合を例示している。すなわち、最小の複雑度をもつクラスは、クラス4の培地PLである。
39, in the sixth embodiment, the
この場合の画像生成条件43は、第1回仮学習においてはクラス1~3(分化細胞DC、未分化細胞UDC、死細胞DDC)を統合する旨が、第2回仮学習においてはクラス1、2(分化細胞DC、未分化細胞UDC)を統合する旨が、それぞれ登録されたものとなる。最小の複雑度をもつクラスであるクラス4の培地PLは、各回の仮学習において統合されずに1つのクラスのままとされる。また、クラス1~3のうちで最小の複雑度をもつクラスであるクラス3の死細胞DDCは、第2回仮学習において統合されずに1つのクラスとされる。
The
このように、第6実施形態では、画像生成条件43は、最小の複雑度をもつクラスは統合せずに1つのクラスのままとする、という内容である。こうして最小の複雑度をもつクラスを、早い段階で独立して仮学習することで、上記第5実施形態と同じく、大局的な構造から微細な構造へ、という仮学習の流れを自然に作ることができ、よりクラスの判別精度が高い学習済みモデル21Tを得ることが可能となる。
Thus, in the sixth embodiment, the
なお、図40に示すように、最大の面積をもつクラスは統合せずに1つのクラスのままとする、という内容の上記第5実施形態の画像生成条件43とするか、最小の複雑度をもつクラスは統合せずに1つのクラスのままとする、という内容の上記第6実施形態の画像生成条件43とするかのユーザによる選択指示を受け付けてもよい。
As shown in FIG. 40, the
図40において、画像生成条件指定画面150には、画像生成条件43を、最大の面積をもつクラスは統合せずに1つのクラスのままとする、という内容とするか、最小の複雑度をもつクラスは統合せずに1つのクラスのままとする、という内容とするかを、択一的に選択するためのラジオボタン151が設けられている。ユーザは、ラジオボタン151を選択して指定ボタン152を選択する。受付部52は、画像生成条件43を、最大の面積をもつクラスは統合せずに1つのクラスのままとする、という内容とするという選択指示、または、画像生成条件43を、最小の複雑度をもつクラスは統合せずに1つのクラスのままとする、という内容とするという選択指示を受け付ける。すなわち、受付部52は、本開示の技術に係る「第4受付部」の一例である。なお、キャンセルボタン153が選択された場合、画像生成条件指定画面150の表示が消される。
In FIG. 40, on the image generation
このように、受付部52において、最大の面積をもつクラスは統合せずに1つのクラスのままとする、という内容の画像生成条件43とするか、最小の複雑度をもつクラスは統合せずに1つのクラスのままとする、という内容の画像生成条件43とするかのユーザによる選択指示を受け付ければ、図37の場合と同じく、ユーザに適した内容の画像生成条件43に基づいて、画像生成部46において仮アノテーション画像18を生成することができる。なお、最大の面積をもつクラスは統合せずに1つのクラスのままとする、という内容の画像生成条件43とするか、最小の複雑度をもつクラスは統合せずに1つのクラスのままとする、という内容の画像生成条件43とするかを、択一的でなく両方選択可能としてもよい。
In this way, in the receiving
[第7実施形態]
図41に示す第7実施形態では、仮アノテーション画像18を表示する。[Seventh embodiment]
In the seventh embodiment shown in FIG. 41, a
図41において、仮アノテーション画像表示画面160は、表示制御部51によりディスプレイ34に表示される。仮アノテーション画像表示画面160は、例えば図11で示した画像生成条件指定画面65により画像生成条件43が指定された場合に、画像生成条件指定画面65に代えて表示される。仮アノテーション画像表示画面160には、第1回仮学習に用いる仮アノテーション画像18_1、および第2回仮学習に用いる仮アノテーション画像18_2が表示される。ユーザは、表示された仮アノテーション画像18_1、18_2でよければ、確認ボタン161を選択する。確認ボタン161が選択された場合、仮アノテーション画像表示画面160の表示が消される。一方、ユーザは、表示された仮アノテーション画像18_1、18_2で満足がいかない場合、再指定ボタン162を選択する。再指定ボタン162が選択された場合、表示制御部51により、図11で示した画像生成条件指定画面65がディスプレイ34に再び表示され、画像生成条件43の再指定が可能となる。
In FIG. 41 , a temporary annotation
このように、第7実施形態では、仮アノテーション画像18を表示する。したがって、仮アノテーション画像18をユーザに確認させることができ、場合によっては画像生成条件43を再指定させることができる。
Thus, in the seventh embodiment, the
なお、図41では、仮アノテーション画像18_1、18_2を仮アノテーション画像表示画面160に並列表示させたが、これに限定されない。仮アノテーション画像18_1、18_2を1枚ずつ表示させてもよい。ただし、図41のように各回の仮学習に用いる仮アノテーション画像18を並列表示させたほうが、仮アノテーション画像18の変遷を確認することができるため好適である。
Although the temporary annotation images 18_1 and 18_2 are displayed side by side on the temporary annotation
[第8実施形態]
図42および図43に示す第8実施形態では、統合されたクラスが異なる複数種の仮アノテーション画像18を生成してこれらを表示し、複数種の仮アノテーション画像18のうちの1つの仮アノテーション画像18のユーザによる選択指示を受け付け、選択指示を受け付けた仮アノテーション画像18を仮学習データ15として用いる。[Eighth embodiment]
In the eighth embodiment shown in FIGS. 42 and 43, multiple types of
図42に示すように、画像生成部46は、統合されたクラスが異なる複数種の仮アノテーション画像18を生成する。図42では、第2回仮学習に用いる仮アノテーション画像18_2を複数種生成する場合を例示している。
As shown in FIG. 42, the
より具体的には、図42Aに示すように、画像生成部46は、クラス1の分化細胞DCとクラス2の未分化細胞UDCを統合するという内容の画像生成条件43Aにしたがって、クラス1の分化細胞DCとクラス2の未分化細胞UDCが統合クラスとして統合された仮アノテーション画像18_2Aを生成する。また、図42Bに示すように、画像生成部46は、クラス1の分化細胞DCとクラス3の死細胞DDCを統合するという内容の画像生成条件43Bにしたがって、クラス1の分化細胞DCとクラス3の死細胞DDCが統合クラスとして統合された仮アノテーション画像18_2Bを生成する。さらに、図42Cに示すように、画像生成部46は、クラス2の未分化細胞UDCとクラス3の死細胞DDCを統合するという内容の画像生成条件43Cにしたがって、クラス2の未分化細胞UDCとクラス3の死細胞DDCが統合クラスとして統合された仮アノテーション画像18_2Cを生成する。
More specifically, as shown in FIG. 42A , the
表示制御部51は、図43に示す仮アノテーション画像選択画面170をディスプレイ34に表示する。仮アノテーション画像選択画面170には、画像生成部46において生成された、複数種の仮アノテーション画像18_2A~18_2Cが表示される。これら複数種の仮アノテーション画像18_2A~18_2Cの下部には、ラジオボタン171が設けられている。ラジオボタン171は、仮アノテーション画像18_2A~18_2Cのうちの1つを選択するためのボタンである。
The
ユーザは、ラジオボタン171を選択して指定ボタン172を選択する。受付部52は、複数種の仮アノテーション画像18_2A~18_2Cのうちの1つの仮アノテーション画像18の選択指示を受け付ける。すなわち、受付部52は、本開示の技術に係る「第5受付部」の一例である。仮学習部48は、ラジオボタン171により選択された仮アノテーション画像18_2を、第2回仮学習の仮学習データ15_2として用いる。なお、キャンセルボタン173が選択された場合、仮アノテーション画像選択画面170の表示が消される。
The user selects the
図43では、ラジオボタン171により仮アノテーション画像18_2Bが選択された場合を例示している。この状態で指定ボタン172が選択された場合、仮学習部48は、仮アノテーション画像18_2Bを第2回仮学習の仮学習データ15_2として用いる。
FIG. 43 illustrates a case where the provisional annotation image 18_2B is selected with the
このように、第8実施形態では、画像生成部46は、統合されたクラスが異なる複数種の仮アノテーション画像18を生成する。表示制御部51は、複数種の仮アノテーション画像18を表示する制御を行う。受付部52は、複数種の仮アノテーション画像のうちの1つの仮アノテーション画像のユーザによる選択指示を受け付ける。仮学習部48は、受付部52において選択指示を受け付けた仮アノテーション画像18を仮学習データ15として用いる。したがって、ユーザは、複数種の仮アノテーション画像18を実際に確認しながら、仮学習データ15として用いる仮アノテーション画像18を選択することができる。
Thus, in the eighth embodiment, the
なお、第8実施形態では、仮アノテーション画像18の選択が画像生成条件43の設定と等価である。このため、図11で示した画像生成条件指定画面65等を用いた画像生成条件43の指定は不要である。
Note that in the eighth embodiment, selecting the
第1回仮学習においては、上記で例示したように必ず3つのクラスを統合しなければならないという訳ではない。例えばクラス1の分化細胞DCとクラス2の未分化細胞UDC、クラス3の死細胞DDCとクラス4の培地PLをそれぞれ統合し、トータルで2つのクラスとしてもよい。
In the first provisional learning, it is not always necessary to integrate the three classes as illustrated above. For example,
アノテーション画像19のクラス数Nは3つ以上であればよく、例示の4つに限らない。このため、仮学習の回数も、例示の2回に限らない。
The number of classes N of the
機械学習システム2を構成するコンピュータのハードウェア構成は種々の変形が可能である。例えば、学習装置10と運用装置11とを統合して、1台のコンピュータで構成してもよい。また、学習装置10および運用装置11のうちの少なくともいずれかを、処理能力および信頼性の向上を目的として、ハードウェアとして分離された複数台のコンピュータで構成することも可能である。例えば、学習装置10の画像生成部46、仮モデル生成部47、および仮学習部48の機能と、モデル生成部49および本学習部50の機能とを、2台のコンピュータに分散して担わせる。この場合は2台のコンピュータで学習装置10を構成する。
Various modifications are possible for the hardware configuration of the computer that constitutes the
このように、機械学習システム2のコンピュータのハードウェア構成は、処理能力、安全性、信頼性等の要求される性能に応じて適宜変更することができる。さらに、ハードウェアに限らず、作動プログラム40等のアプリケーションプログラムについても、安全性および信頼性の確保を目的として、二重化したり、あるいは、複数のストレージデバイスに分散して格納することももちろん可能である。
In this way, the hardware configuration of the computer of the
上記各実施形態では、学習用入力画像17として、培養中の複数の細胞を撮影した細胞画像を例示し、クラスとして細胞、培地等を例示したが、これに限定されない。例えばMRI(Magnetic Resonance Imaging)画像を学習用入力画像17とし、肝臓、腎臓といった臓器をクラスとしてもよい。
In each of the above-described embodiments, the learning
モデルはU-Netに限らず、他の畳み込みニューラルネットワーク、例えばSegNet、ResNet(Residual Network)等でもよい。 The model is not limited to U-Net, but may be other convolutional neural networks such as SegNet and ResNet (Residual Network).
上記各実施形態において、例えば、RW制御部45、画像生成部46、仮モデル生成部47、仮学習部48(第1処理部90、第1評価部91、第1更新部92)、モデル生成部49、本学習部50(第2処理部105、第2評価部106、第2更新部107)、表示制御部51、受付部52、および送信制御部53といった各種の処理を実行する処理部(Processing Unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(Processor)を用いることができる。各種のプロセッサには、上述したように、ソフトウェア(作動プログラム40)を実行して各種の処理部として機能する汎用的なプロセッサであるCPU32に加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
In each of the above embodiments, for example, the
1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、および/または、CPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。 One processing unit may be configured with one of these various processors, or a combination of two or more processors of the same or different type (for example, a combination of a plurality of FPGAs and/or a CPU and combination with FPGA). Also, a plurality of processing units may be configured by one processor.
複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。 As an example of configuring a plurality of processing units with a single processor, first, as represented by computers such as clients and servers, a single processor is configured by combining one or more CPUs and software. There is a form in which a processor functions as multiple processing units. Secondly, as typified by System On Chip (SoC), etc., there is a mode of using a processor that realizes the function of the entire system including multiple processing units with a single IC (Integrated Circuit) chip. be. In this way, the various processing units are configured using one or more of the above various processors as a hardware structure.
さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(circuitry)を用いることができる。 Further, as the hardware structure of these various processors, more specifically, an electric circuit in which circuit elements such as semiconductor elements are combined can be used.
以上の記載から、以下の付記項1に記載の発明を把握することができる。
From the above description, the invention described in the following
[付記項1]
学習用入力画像と、前記学習用入力画像に対して、セマンティックセグメンテーションの対象となる3つ以上のクラスが指定されたアノテーション画像との組である学習データを取得する取得プロセッサと、
前記アノテーション画像において指定された3つ以上のクラスのうちの少なくとも2つのクラスが統合され、前記アノテーション画像よりもクラス数が少ない仮アノテーション画像を生成する画像生成プロセッサと、
前記学習用入力画像と前記仮アノテーション画像との組である仮学習データを用いて、前記仮アノテーション画像のクラス数に応じた構成を有する仮機械学習モデルを学習させ、前記仮機械学習モデルを学習済み仮機械学習モデルとする仮学習プロセッサと、
前記学習済み仮機械学習モデルの少なくとも一部を用いて、前記アノテーション画像のクラス数に応じた構成を有する機械学習モデルを生成する機械学習モデル生成プロセッサと、
前記学習データを用いて前記機械学習モデルを学習させ、前記機械学習モデルを学習済み機械学習モデルとする本学習プロセッサと、
を備える学習装置。[Appendix 1]
an acquisition processor that acquires learning data that is a set of a learning input image and an annotation image in which three or more classes to be subjected to semantic segmentation are specified for the learning input image;
an image generation processor that integrates at least two classes out of three or more classes specified in the annotation image to generate a temporary annotation image having fewer classes than the annotation image;
A provisional machine learning model having a configuration corresponding to the number of classes of the provisional annotation image is learned using provisional learning data that is a set of the learning input image and the provisional annotation image, and the provisional machine learning model is learned. a provisional learning processor as a completed provisional machine learning model;
a machine learning model generation processor that uses at least part of the trained temporary machine learning model to generate a machine learning model having a configuration corresponding to the number of classes of the annotation image;
a learning processor that trains the machine learning model using the learning data and sets the machine learning model as a trained machine learning model;
A learning device with
本開示の技術は、上述の種々の実施形態と種々の変形例を適宜組み合わせることも可能である。また、上記各実施形態に限らず、要旨を逸脱しない限り種々の構成を採用し得ることはもちろんである。さらに、本開示の技術は、プログラムに加えて、プログラムを非一時的に記憶する記憶媒体にもおよぶ。 The technology of the present disclosure can also appropriately combine various embodiments and various modifications described above. Moreover, it is needless to say that various configurations can be employed without departing from the scope of the present invention without being limited to the above embodiments. Furthermore, the technology of the present disclosure extends to storage media that non-temporarily store programs in addition to programs.
以上に示した記載内容および図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、および効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、および効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容および図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことはいうまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容および図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。 The above description and illustration are detailed descriptions of the parts related to the technology of the present disclosure, and are merely examples of the technology of the present disclosure. For example, the above descriptions of configurations, functions, actions, and effects are descriptions of examples of configurations, functions, actions, and effects of portions related to the technology of the present disclosure. Therefore, unnecessary parts may be deleted, new elements added, or replaced with respect to the above-described description and illustration without departing from the gist of the technology of the present disclosure. Needless to say. In addition, in order to avoid complication and facilitate understanding of the portion related to the technology of the present disclosure, the descriptions and illustrations shown above require no particular explanation in order to enable implementation of the technology of the present disclosure. Descriptions of common technical knowledge, etc., that are not used are omitted.
本明細書において、「Aおよび/またはB」は、「AおよびBのうちの少なくとも1つ」と同義である。つまり、「Aおよび/またはB」は、Aだけであってもよいし、Bだけであってもよいし、AおよびBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「および/または」で結び付けて表現する場合も、「Aおよび/またはB」と同様の考え方が適用される。 As used herein, "A and/or B" is synonymous with "at least one of A and B." That is, "A and/or B" means that only A, only B, or a combination of A and B may be used. In addition, in this specification, when three or more matters are expressed by connecting with "and/or", the same idea as "A and/or B" is applied.
本明細書に記載された全ての文献、特許出願および技術規格は、個々の文献、特許出願および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。 All publications, patent applications and technical standards mentioned herein are expressly incorporated herein by reference to the same extent as if each individual publication, patent application and technical standard were specifically and individually noted to be incorporated by reference. incorporated by reference into the book.
Claims (21)
前記アノテーション画像において指定された3つ以上のクラスのうちの少なくとも2つのクラスが統合され、前記アノテーション画像よりもクラス数が少ない仮アノテーション画像を生成する画像生成部と、
前記学習用入力画像と前記仮アノテーション画像との組である仮学習データを用いて、前記仮アノテーション画像のクラス数に応じた構成を有する仮機械学習モデルを学習させ、前記仮機械学習モデルを学習済み仮機械学習モデルとする仮学習部と、
前記学習済み仮機械学習モデルの少なくとも一部を用いて、前記アノテーション画像のクラス数に応じた構成を有する機械学習モデルを生成する機械学習モデル生成部と、
前記学習データを用いて前記機械学習モデルを学習させ、前記機械学習モデルを学習済み機械学習モデルとする本学習部と、
を備える学習装置。an acquisition unit that acquires learning data that is a set of an input image for learning and an annotation image in which three or more classes to be subjected to semantic segmentation are specified for the input image for learning;
an image generating unit that integrates at least two classes out of three or more classes specified in the annotation image and generates a temporary annotation image having a smaller number of classes than the annotation image;
A provisional machine learning model having a configuration corresponding to the number of classes of the provisional annotation image is learned using provisional learning data that is a set of the learning input image and the provisional annotation image, and the provisional machine learning model is learned. a provisional learning unit as a completed provisional machine learning model;
a machine learning model generation unit that uses at least part of the trained temporary machine learning model to generate a machine learning model having a configuration corresponding to the number of classes of the annotation image;
a main learning unit that learns the machine learning model using the learning data and sets the machine learning model as a trained machine learning model;
A learning device with
前記仮機械学習モデル生成部は、前回用いた前記学習済み仮機械学習モデルの少なくとも一部を用いて、今回用いる前記仮機械学習モデルを生成する学習装置。In the learning device according to claim 3 citing claim 2,
The temporary machine learning model generation unit is a learning device that generates the temporary machine learning model to be used this time by using at least part of the trained temporary machine learning model used last time.
前記仮アノテーション画像の各クラスの面積が偏らないような内容の前記画像生成条件とするか、前記仮アノテーション画像の各クラスの複雑度が偏らないような内容の前記画像生成条件とするかのユーザによる選択指示を受け付ける第3受付部を備える学習装置。In the learning device according to claim 12 citing claim 11,
A user who selects whether the image generation condition is such that the area of each class of the temporary annotation image is balanced, or the image generation condition is such that the complexity of each class of the temporary annotation image is balanced. A learning device comprising a third reception unit that receives a selection instruction from.
最大の面積をもつ前記クラスは統合せずに1つのクラスのままとする、という内容の前記画像生成条件とするか、最小の複雑度をもつ前記クラスは統合せずに1つのクラスのままとする、という内容の前記画像生成条件とするかのユーザによる選択指示を受け付ける第4受付部を備える学習装置。In the learning device according to claim 15 citing claim 14,
The image generation condition is such that the class with the largest area is left as one class without being merged, or the class with the lowest complexity is left as one class without being merged. A learning device comprising a fourth reception unit that receives a user's selection instruction as to whether or not the image generation condition is to be set.
前記表示制御部は、複数種の前記仮アノテーション画像を表示する制御を行い、
複数種の前記仮アノテーション画像のうちの1つの仮アノテーション画像のユーザによる選択指示を受け付ける第5受付部を備え、
前記仮学習部は、前記第5受付部において前記選択指示を受け付けた仮アノテーション画像を前記仮学習データとして用いる請求項17に記載の学習装置。The image generation unit generates a plurality of types of temporary annotation images with different integrated classes,
The display control unit performs control to display a plurality of types of the temporary annotation images,
A fifth reception unit that receives a user's selection instruction for one of the plurality of types of temporary annotation images,
18. The learning device according to claim 17, wherein the provisional learning unit uses the provisional annotation image for which the selection instruction is received by the fifth reception unit as the provisional learning data.
前記アノテーション画像において指定された3つ以上のクラスのうちの少なくとも2つのクラスが統合され、前記アノテーション画像よりもクラス数が少ない仮アノテーション画像を生成する画像生成ステップと、
前記学習用入力画像と前記仮アノテーション画像との組である仮学習データを用いて、前記仮アノテーション画像のクラス数に応じた構成を有する仮機械学習モデルを学習させ、前記仮機械学習モデルを学習済み仮機械学習モデルとする仮学習ステップと、
前記学習済み仮機械学習モデルの少なくとも一部を用いて、前記アノテーション画像のクラス数に応じた構成を有する機械学習モデルを生成する機械学習モデル生成ステップと、
前記学習データを用いて前記機械学習モデルを学習させ、前記機械学習モデルを学習済み機械学習モデルとする本学習ステップと、
を備える学習装置の作動方法。an acquisition step of acquiring learning data that is a set of an input image for learning and an annotation image in which three or more classes to be subjected to semantic segmentation are specified for the input image for learning;
an image generating step of integrating at least two classes out of three or more classes specified in the annotation image and generating a temporary annotation image having a smaller number of classes than the annotation image;
A provisional machine learning model having a configuration corresponding to the number of classes of the provisional annotation image is learned using provisional learning data that is a set of the learning input image and the provisional annotation image, and the provisional machine learning model is learned. a provisional learning step as a completed provisional machine learning model;
A machine learning model generation step of generating a machine learning model having a configuration corresponding to the number of classes of the annotation image using at least part of the trained temporary machine learning model;
A main learning step of learning the machine learning model using the learning data and making the machine learning model a trained machine learning model;
A method of operating a learning device comprising:
前記アノテーション画像において指定された3つ以上のクラスのうちの少なくとも2つのクラスが統合され、前記アノテーション画像よりもクラス数が少ない仮アノテーション画像を生成する画像生成部と、
前記学習用入力画像と前記仮アノテーション画像との組である仮学習データを用いて、前記仮アノテーション画像のクラス数に応じた構成を有する仮機械学習モデルを学習させ、前記仮機械学習モデルを学習済み仮機械学習モデルとする仮学習部と、
前記学習済み仮機械学習モデルの少なくとも一部を用いて、前記アノテーション画像のクラス数に応じた構成を有する機械学習モデルを生成する機械学習モデル生成部と、
前記学習データを用いて前記機械学習モデルを学習させ、前記機械学習モデルを学習済み機械学習モデルとする本学習部として、
コンピュータを機能させる学習装置の作動プログラム。an acquisition unit that acquires learning data that is a set of an input image for learning and an annotation image in which three or more classes to be subjected to semantic segmentation are specified for the input image for learning;
an image generating unit that integrates at least two classes out of three or more classes specified in the annotation image and generates a temporary annotation image having a smaller number of classes than the annotation image;
A provisional machine learning model having a configuration corresponding to the number of classes of the provisional annotation image is learned using provisional learning data that is a set of the learning input image and the provisional annotation image, and the provisional machine learning model is learned. a provisional learning unit as a completed provisional machine learning model;
a machine learning model generation unit that generates a machine learning model having a configuration corresponding to the number of classes of the annotation image using at least part of the trained temporary machine learning model;
As a main learning unit that learns the machine learning model using the learning data and sets the machine learning model as a trained machine learning model,
An operating program for a learning device that makes a computer work.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019160694 | 2019-09-03 | ||
JP2019160694 | 2019-09-03 | ||
PCT/JP2020/018741 WO2021044671A1 (en) | 2019-09-03 | 2020-05-08 | Learning device, learning-device operating method, and learning-device operating program |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021044671A1 JPWO2021044671A1 (en) | 2021-03-11 |
JP7167356B2 true JP7167356B2 (en) | 2022-11-08 |
Family
ID=74853159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021543951A Active JP7167356B2 (en) | 2019-09-03 | 2020-05-08 | LEARNING APPARATUS, LEARNING APPARATUS OPERATING METHOD, LEARNING APPARATUS OPERATING PROGRAM |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7167356B2 (en) |
WO (1) | WO2021044671A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6947460B1 (en) * | 2021-03-24 | 2021-10-13 | 株式会社Novera | Programs, information processing equipment, and methods |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018018537A (en) | 2015-10-30 | 2018-02-01 | 株式会社モルフォ | Threshold change device |
JP2019029754A (en) | 2017-07-27 | 2019-02-21 | 日本電信電話株式会社 | Scene recognition apparatus, method, and program |
-
2020
- 2020-05-08 JP JP2021543951A patent/JP7167356B2/en active Active
- 2020-05-08 WO PCT/JP2020/018741 patent/WO2021044671A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018018537A (en) | 2015-10-30 | 2018-02-01 | 株式会社モルフォ | Threshold change device |
JP2019029754A (en) | 2017-07-27 | 2019-02-21 | 日本電信電話株式会社 | Scene recognition apparatus, method, and program |
Also Published As
Publication number | Publication date |
---|---|
WO2021044671A1 (en) | 2021-03-11 |
JPWO2021044671A1 (en) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7242882B2 (en) | Information processing device, information processing device operation method, information processing device operation program | |
CN109859233A (en) | The training method and system of image procossing, image processing model | |
WO2020066233A1 (en) | Learning device, learning device operation program, and learning device operation method | |
CN112465827A (en) | Contour perception multi-organ segmentation network construction method based on class-by-class convolution operation | |
JP2003018398A (en) | Method for generating a super-resolution image from pixel image | |
Zhang et al. | Digital circuit design using intrinsic evolvable hardware | |
CN111583285A (en) | Liver image semantic segmentation method based on edge attention strategy | |
CN110136067B (en) | Real-time image generation method for super-resolution B-mode ultrasound image | |
JP7167356B2 (en) | LEARNING APPARATUS, LEARNING APPARATUS OPERATING METHOD, LEARNING APPARATUS OPERATING PROGRAM | |
CN109903373A (en) | A kind of high quality human face generating method based on multiple dimensioned residual error network | |
Liu et al. | Decompose to manipulate: manipulable object synthesis in 3D medical images with structured image decomposition | |
Diame et al. | Deep learning architiectures for aided melanoma skin disease recognition: a review | |
JP7210301B2 (en) | DATA PROCESSING DEVICE, DATA PROCESSING METHOD, AND DATA PROCESSING PROGRAM | |
JP7195220B2 (en) | LEARNING DEVICE, METHOD OF OPERATION OF LEARNING DEVICE, AND OPERATION PROGRAM OF LEARNING DEVICE | |
JP2001087229A (en) | Method and device for image processing | |
KR102514727B1 (en) | Image processing method and system using super-resolution model based on symmetric series convolutional neural network | |
US8068657B2 (en) | Method of microcalcification detection in mammography | |
US11631160B2 (en) | Image processing apparatus, image processing method, and X-ray CT apparatus | |
CN117237196A (en) | Brain MRI super-resolution reconstruction method and system based on implicit neural characterization | |
JP7096362B2 (en) | Mini-batch learning device and its operation program and operation method | |
CN115100044B (en) | Endoscope super-resolution method and system based on three-generator generation countermeasure network | |
Rashid et al. | Single MR image super-resolution using generative adversarial network | |
WO2022163402A1 (en) | Learned model generation method, machine learning system, program, and medical image processing device | |
Okamoto et al. | Image segmentation of pyramid style identifier based on Support Vector Machine for colorectal endoscopic images | |
CN114862670A (en) | Super-resolution reconstruction device for Micro-CT (Micro-computed tomography) image of rat ankle bone fracture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7167356 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |