JP7346767B1 - Learning device and reasoning device - Google Patents
Learning device and reasoning device Download PDFInfo
- Publication number
- JP7346767B1 JP7346767B1 JP2023118774A JP2023118774A JP7346767B1 JP 7346767 B1 JP7346767 B1 JP 7346767B1 JP 2023118774 A JP2023118774 A JP 2023118774A JP 2023118774 A JP2023118774 A JP 2023118774A JP 7346767 B1 JP7346767 B1 JP 7346767B1
- Authority
- JP
- Japan
- Prior art keywords
- data
- image
- machine learning
- learning
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims abstract description 136
- 238000010801 machine learning Methods 0.000 claims abstract description 107
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 22
- 230000009466 transformation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 abstract description 6
- 230000007423 decrease Effects 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 17
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013434 data augmentation Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 230000006866 deterioration Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 229910003460 diamond Inorganic materials 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- QNRATNLHPGXHMA-XZHTYLCXSA-N (r)-(6-ethoxyquinolin-4-yl)-[(2s,4s,5r)-5-ethyl-1-azabicyclo[2.2.2]octan-2-yl]methanol;hydrochloride Chemical compound Cl.C([C@H]([C@H](C1)CC)C2)CN1[C@@H]2[C@H](O)C1=CC=NC2=CC=C(OCC)C=C21 QNRATNLHPGXHMA-XZHTYLCXSA-N 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】機械学習によるデータ処理において、元となる教師データの水増しを行って学習を行う際にも、より高品質のデータを準備して、機械学習モデルの学習効率の低下を確実に抑えることができる学習装置を提供する。【解決手段】学習装置は、元となる教師データの入力を受け付ける入力部110と、元となる教師データに基づいて加工された加工後教師データを作成するデータ加工部113と、学習対象の機械学習モデル111を用いて、少なくとも加工後教師データを含む教師データに基づいて、学習対象の機械学習モデル111における設定値を学習する処理を実行するための学習処理実行部101と、設定値を記憶する記憶部12と、を備える。この構成により、学習装置では、機械学習によるデータ処理において、元となる教師データの水増しを行って学習を行う際にも、より高品質のデータを準備して、機械学習モデル111の学習効率の低下を抑えることができる。【選択図】図2[Problem] In data processing using machine learning, even when performing learning by inflating the original teacher data, prepare higher quality data and reliably suppress the decline in learning efficiency of machine learning models. We provide a learning device that allows you to A learning device includes an input unit 110 that receives input of original teacher data, a data processing unit 113 that creates processed teacher data based on the original teacher data, and a machine to be learned. a learning process execution unit 101 for executing a process of learning setting values in the machine learning model 111 to be learned based on teacher data including at least post-processed teacher data using the learning model 111; and a learning process execution unit 101 for storing setting values. A storage unit 12 is provided. With this configuration, the learning device prepares higher quality data even when performing learning by inflating the original teacher data in data processing by machine learning, and improves the learning efficiency of the machine learning model 111. The decline can be suppressed. [Selection diagram] Figure 2
Description
本発明は、機械学習モデルを用いた学習装置及び推論装置に関し、特に、画像処理用の機械学習モデルを用いた学習装置及び推論装置に関する。 The present invention relates to a learning device and an inference device using a machine learning model, and particularly to a learning device and an inference device using a machine learning model for image processing.
従来より、機械学習によるデータ処理方法で、コンピュータのプログラムに対して、教師データとなるデータセットを与えて、プログラムのパラメータを学習することで、任意のデータに対してデータ処理を行うことができる学習済みモデルを生成する方法が知られている。 Conventionally, data processing methods using machine learning can perform data processing on arbitrary data by giving a data set that serves as training data to a computer program and learning the program's parameters. A method of generating a trained model is known.
例えば、機械学習を用いた「入力画像(教師データ)→学習用プログラム→出力画像(教師データ)」という処理において、入力画像と出力画像の誤差が一番小さくなるように学習用プログラムのパラメータを計算して「学習済みモデル」を生成する。そして、この「学習済モデル」を用いることで、「入力画像(任意のデータ:例えば低解像度画像)→学習済みモデル→出力画像(推論データ:例えば高解像度画像)」という、入力画像から出力画像を推論することで出力画像を生成することができる。 For example, in the process of "input image (teacher data) → learning program → output image (teacher data)" using machine learning, the parameters of the learning program are set so that the error between the input image and the output image is minimized. Calculate and generate a "trained model." By using this "trained model", the output image is converted from the input image to "input image (arbitrary data: e.g. low resolution image) → trained model → output image (inference data: e.g. high resolution image)". An output image can be generated by inferring.
近年、機械学習のうちニューラルネットワークを用いた機械学習が多くの分野に適用されている。特に画像認識、音声認識の分野にて、ニューラルネットワークを多層構造で使用したディープラーニング(Deep Learning;深層学習) が高い認識精度を発揮している。多層化したディープラーニングでも、入力の特徴を抽出する畳み込み層及びプーリング層を複数回使用した畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いた画像処理が行なわれている。 In recent years, among machine learning, machine learning using neural networks has been applied to many fields. Especially in the fields of image recognition and voice recognition, deep learning that uses a multilayered neural network has demonstrated high recognition accuracy. Even in multi-layered deep learning, image processing is performed using a convolutional neural network (CNN) that uses convolutional layers and pooling layers multiple times to extract features of the input.
そして、ニューラルネットワークを用いた画像処理としては、信号を高解像度化させる超解像装置(例えば、特許文献1参照)や疾患領域の違いを把握することを容易にして精度の高い診断支援を行う診断支援装置(例えば、特許文献2参照)などがある。また、デジタル画像に対する自由変形による劣化を回避したプログラム、画像処理方法及び画像処理装置も開示されている(例えば、特許文献3参照)。 Image processing using neural networks includes super-resolution devices that increase the resolution of signals (see, for example, Patent Document 1) and highly accurate diagnostic support that facilitates understanding of differences in disease areas. There are diagnostic support devices (for example, see Patent Document 2). Further, a program, an image processing method, and an image processing apparatus that avoid deterioration due to free deformation of digital images are also disclosed (for example, see Patent Document 3).
機械学習において、教師データの質と量は、そのまま機械学習モデルの性能に直結する。大量の高品質の学習用データセットを準備することは非常なる労力を有するため、少ない学習用データで、高い性能を得るために、学習データの水増し(Data Augmentation)が一般的に用いられている。 In machine learning, the quality and quantity of training data are directly linked to the performance of machine learning models. Preparing a large amount of high-quality training data sets requires a lot of effort, so data augmentation is commonly used to obtain high performance with a small amount of training data. .
例えば、少ない教師画像データから効率よく学習を行うために、拡大・縮小、回転、菱形・台形変形、シフト、カラーシフト、シャープネス・アンシャープネスなどの編集を教師用データに適用して、データ量の水増し(Data Augmentation)を行う。このうちの拡大・縮小、回転、菱形・台形変形、シフトは、小さい画像データをそのまま変形した場合にはボケやエイリアスを生じるので、データの水増しを行った場合は常に一定以上ボケやノイズが発生した水増しデータが新たに生成される。このため、従来のデータ水増しにおいては、画質のいい画像に含まれる微細な高周波データを切り捨てているので、このように画質の劣化した水増しデータを用いて学習すると、反って機械学習モデルの性能が悪化するという問題が生じる。 For example, in order to efficiently learn from a small amount of training image data, editing such as enlargement/reduction, rotation, diamond/trapezoid deformation, shift, color shift, sharpness/unsharpness, etc. can be applied to the training data to reduce the amount of data. Perform Data Augmentation. Among these, scaling up/down, rotation, rhombic/trapezoidal transformation, and shifting will cause blurring or aliasing if small image data is transformed as is, so if data is increased, blurring or noise will always occur above a certain level. New inflated data is generated. For this reason, in conventional data augmentation, minute high-frequency data included in images with good image quality are discarded, so learning using padded data with degraded image quality will warp the performance of the machine learning model. The problem arises that it gets worse.
そして、上記特許文献1乃至3においても少ない学習用データから高品質の学習用データを多量に準備するという内容に関しては開示されていない。 Furthermore, the above-mentioned Patent Documents 1 to 3 do not disclose the content of preparing a large amount of high-quality learning data from a small amount of learning data.
本発明は、上記課題に鑑みてなされたものであり、機械学習によるデータ処理において、元となる教師データの水増しを行って学習を行う際にも、より高品質のデータを準備して、機械学習モデルの学習効率の低下を確実に抑えることができる学習装置を提供することを目的とする。また、この機械学習モデルを用いた推論装置を提供することをも目的とする。 The present invention has been made in view of the above-mentioned problems, and even when performing learning by inflating the original teacher data in data processing by machine learning, it is possible to prepare higher quality data and use the machine learning method. It is an object of the present invention to provide a learning device that can reliably suppress a decrease in learning efficiency of a learning model. Another purpose is to provide an inference device using this machine learning model.
上記目的を達成するために本発明は、教師データに基づいて機械学習モデルにおける設定値を学習する学習装置であって、元となる教師データの入力を受け付ける入力部と、前記元となる教師データに基づいて加工された加工後教師データを作成するデータ加工部と、学習対象の機械学習モデルと、前記機械学習モデルを用いて、少なくとも前記加工後教師データを含む教師データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行部と、前記設定値を記憶する記憶部と、を備え、前記データ加工部では、前記加工後教師データの目標解像度を特定し、前記元となる教師データに基づいて前記目標解像度を有する画像の所定倍の大きさの暫定基準画像を獲得し、前記暫定基準画像に対する回転、移動又は変形を含む編集を受け付け、編集実行後の前記暫定基準画像に対し、前記所定倍よりも高い倍率のサンプリングレートでサンプリングし、当該サンプリング後の画像を、前記目標解像度を有する画像の大きさに変換したものを前記加工後教師データとすることを特徴とするものである。 In order to achieve the above object, the present invention provides a learning device that learns setting values in a machine learning model based on teaching data, comprising: an input unit that receives input of original teaching data; a data processing unit that creates processed training data based on the processing, a machine learning model to be learned, and the machine learning model to perform the learning based on the training data including at least the processed training data. The data processing unit includes a learning processing execution unit for executing a process of learning setting values in a target machine learning model, and a storage unit for storing the setting values, and the data processing unit calculates the target resolution of the processed teacher data. , obtain a provisional reference image that is a predetermined times the size of the image having the target resolution based on the original teacher data, accept editing including rotation, movement, or deformation of the provisional reference image, and edit the provisional reference image. The tentative standard image after execution is sampled at a sampling rate higher than the predetermined magnification, and the sampled image is converted to an image size having the target resolution, and the processed training data is It is characterized by the following.
この学習装置において、前記学習装置は、さらに、前記元となる教師データの周囲を予め自動生成してより大きな教師データを作成するアウトペインティングモデルを有し、前記データ加工部は、前記アウトペインティングモデルにより作成された教師データを、前記加工後教師データに変換することが好ましい。 In this learning device, the learning device further includes an outpainting model that automatically generates the surroundings of the original teaching data in advance to create larger teaching data, and the data processing unit Preferably, the training data created by the processing model is converted into the processed training data.
この学習装置において、前記データ加工部は、編集実行後の前記暫定基準画像に対し、前記編集に応じてオーバーサンプルのレートを前記所定倍よりも高い倍率以上で決定し、決定されたレートでオーバーサンプリングを行ない、オーバーサンプリングにより得られた画像を、前記加工後教師データへ変換することが好ましい。 In this learning device, the data processing unit determines an oversampling rate at a magnification higher than the predetermined multiple for the provisional reference image after editing, and oversamples at the determined rate. It is preferable to perform sampling and convert the image obtained by oversampling into the processed teacher data.
この学習装置において、前記学習装置は、さらに、前記元となる教師データの解像度が前記目標解像度の前記所定倍未満である場合、前記元となる教師データに基づいて前記所定倍の超解像画像を作成する超解像モデルを有し、前記データ加工部においては、前記超解像モデルで作成された当該超解像画像を前記暫定基準画像とすることが好ましい。 In this learning device, the learning device further comprises, when the resolution of the original teacher data is less than the predetermined times the target resolution, a super-resolution image of the predetermined times the original teacher data. It is preferable that the data processing unit has a super-resolution model for creating a super-resolution image, and that the data processing unit uses the super-resolution image created by the super-resolution model as the provisional reference image.
また、上記目的を達成するために本発明は、上記学習装置の学習処理実行部において前記設定値を学習された機械学習モデルの、少なくとも一部を損失関数として用いることを特徴とする学習装置である。 Further, in order to achieve the above object, the present invention provides a learning device characterized in that at least a part of a machine learning model that has learned the setting value in a learning processing execution unit of the learning device is used as a loss function. be.
また、上記目的を達成するために本発明は、機械学習モデルを用いて対象データに対して所定の推論処理を実行する推論装置であって、前記対象データの入力を受け付ける入力部と、前記入力部から対象データが入力される機械学習モデルと、推論処理を実行する機械学習モデルを用いて、対象データに対して所定の推論処理を実行する推論処理実行部と、を備え、前記機械学習モデルは、上記学習装置の学習処理実行部において前記設定値を学習された機械学習モデルであることを特徴とするものである。 Further, in order to achieve the above object, the present invention provides an inference device that executes a predetermined inference process on target data using a machine learning model, comprising an input unit that receives input of the target data; a machine learning model into which target data is input from the unit; and an inference processing execution unit that performs predetermined inference processing on the target data using the machine learning model that executes inference processing, the machine learning model is a machine learning model in which the setting value is learned by a learning processing execution unit of the learning device.
また、本発明は、コンピュータを上記記載の学習装置又は推論装置として動作させることを特徴とするコンピュータプログラムである。 Further, the present invention is a computer program that causes a computer to operate as the learning device or inference device described above.
また、上記目的を達成するために本発明は、教師データに基づいて機械学習モデルにおける設定値を学習する学習方法であって、元となる教師データの入力を受け付ける入力ステップと、前記元となる教師データに基づいて加工された加工後教師データを作成するデータ加工ステップと、学習対象の機械学習モデルと、前記機械学習モデルを用いて、少なくとも前記加工後教師データを含む教師データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行ステップと、前記設定値を記憶する記憶ステップと、を含み、前記データ加工ステップにおいては、前記加工後教師データの目標解像度を特定し、前記元となる教師データに基づいて前記目標解像度を有する画像の所定倍の大きさの暫定基準画像を獲得し、前記暫定基準画像に対する回転、移動又は変形を含む編集を受け付け、編集実行後の前記暫定基準画像に対し、前記所定倍よりも高い倍率のサンプリングレートでサンプリングし、当該サンプリング後の画像を、前記目標解像度を有する画像の大きさに変換したものを前記加工後教師データとすることを特徴とするものである。 Further, in order to achieve the above object, the present invention provides a learning method for learning setting values in a machine learning model based on teacher data, comprising an input step of receiving input of original teacher data; a data processing step of creating processed teacher data processed based on the teacher data, a machine learning model to be learned, and using the machine learning model, based on the teacher data including at least the processed teacher data, The data processing step includes a learning process execution step for performing a process of learning setting values in the machine learning model to be learned, and a storing step for storing the setting values, and in the data processing step, the processed teacher data specify a target resolution of the image, obtain a provisional reference image that is a predetermined times the size of the image having the target resolution based on the original training data, and perform editing including rotation, movement, or transformation on the provisional reference image. After receiving and editing, the provisional reference image is sampled at a sampling rate higher than the predetermined magnification, and the sampled image is converted to an image size having the target resolution, and the image is processed. This is characterized in that it is used as post-supervised data.
また、上記目的を達成するために本発明は、機械学習モデルを用いて対象データに対して所定の推論処理を実行する推論方法であって、前記対象データの入力を受け付ける入力ステップと、前記入力ステップから対象データが入力される機械学習モデルと、推論処理を実行する機械学習モデルを用いて、対象データに対して所定の推論処理を実行する推論処理実行ステップと、を含み、前記機械学習モデルは、上記学習処理実行ステップにおいて前記設定値を学習された機械学習モデルであることを特徴とするものである。 Further, in order to achieve the above object, the present invention provides an inference method for performing a predetermined inference process on target data using a machine learning model, comprising: an input step of receiving input of the target data; a machine learning model into which target data is input from the step, and an inference processing execution step of performing a predetermined inference process on the target data using the machine learning model that executes the inference process, the machine learning model is a machine learning model that has learned the setting value in the learning process execution step.
本発明に係る学習装置は、元となる教師データの入力を受け付ける入力部と、元となる教師データに基づいて加工された加工後教師データを作成するデータ加工部と、学習対象の機械学習モデルを用いて、少なくとも加工後教師データを含む教師データに基づいて、学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行部と、設定値を記憶する記憶部と、を備える。データ加工部では、(1)加工後教師データの目標解像度を特定し、(2)元となる教師データに基づいて目標解像度を有する画像の所定倍の大きさの暫定基準画像を獲得し、(3)暫定基準画像に対する回転、移動又は変形を含む編集を受け付け、(4)編集実行後の前記暫定基準画像に対し、所定倍よりも高い倍率のサンプリングレートでサンプリングし、(5)サンプリング後の画像を、目標解像度を有する画像の大きさに変換したものを加工後教師データとする。この構成により、本願発明に係る学習装置では、機械学習によるデータ処理において、元となる教師データの水増しを行って学習を行う際にも、より高品質のデータを準備して、機械学習モデルの学習効率の低下を確実に抑えることができる。 The learning device according to the present invention includes an input unit that receives input of original teacher data, a data processing unit that creates processed teacher data based on the original teacher data, and a machine learning model to be learned. a learning processing execution unit for performing a process of learning setting values in a machine learning model to be learned based on teacher data including at least post-processed teacher data using the learning process; and a storage unit for storing the setting values; Equipped with The data processing unit (1) specifies the target resolution of the processed training data, (2) obtains a provisional reference image that is a predetermined times the size of the image having the target resolution based on the original training data, and ( 3) Accept editing including rotation, movement, or transformation of the provisional reference image; (4) Sample the provisional reference image after editing at a sampling rate higher than a predetermined magnification; and (5) Edit the provisional reference image after sampling. An image converted to an image size having a target resolution is used as processed teacher data. With this configuration, the learning device according to the present invention can prepare higher quality data and use the machine learning model even when performing learning by inflating the original teacher data in data processing by machine learning. It is possible to reliably suppress the decline in learning efficiency.
(実施の形態)
本発明の実施の形態に係る画像処理装置について図1乃至図5を参照して説明する。本実施の形態において、画像処理装置は、所定の学習用画像データに基づいて機械学習モデルにおける設定値を学習する学習装置、又は機械学習モデルを用いて対象画像データに対して所定の推論処理を実行する推論装置の少なくとも一方としての機能を発揮する。
(Embodiment)
An image processing apparatus according to an embodiment of the present invention will be described with reference to FIGS. 1 to 5. In this embodiment, the image processing device is a learning device that learns setting values in a machine learning model based on predetermined learning image data, or a learning device that performs predetermined inference processing on target image data using a machine learning model. It functions as at least one of the inference devices that executes.
最初に、画像処理装置1に備わる各処理部に関して図1を参照しながら説明する。画像処理装置1は、図1に示すように、制御部10、画像処理部11、記憶部12、通信部13、表示部14、操作部15及び読取部16を備える。なお、画像処理装置1及び画像処理装置1における動作について以下では、1台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
First, each processing section included in the image processing apparatus 1 will be explained with reference to FIG. As shown in FIG. 1, the image processing device 1 includes a
制御部10は、CPUなどのプロセッサやメモリを用いて、装置の構成部を制御して各種機能を実現する。画像処理部11は、GPU又は専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行する。なお、制御部10及び画像処理部11は、CPU,GPU等のプロセッサ、メモリ、さらには記憶部12及び通信部13を集積した1つのハードウェア(SoC:System on a Chip)として構成されていてもよい。
The
記憶部12は、ハードディスクやフラッシュメモリを用いる。記憶部12には、画像処理プログラム1P、機械学習モデル(例えばCNN)としての機能を発揮させる機械学習ライブラリ1L、超解像モデル1M、及びアウトペインティングモデル1Nが記憶されている。また、記憶部12には、機械学習モデルを定義する定義データ、学習済み機械学習モデルにおける設定値等を含むパラメータなどが記憶される。画像処理部11は、記憶部12に記憶されている超解像モデル1Mに基づいて、解像度を元の解像度よりも高くしたデジタル画像を出力する。なお、アウトペインティングモデル1Nや超解像モデル1Mは機械学習モデルによって生成できる。
The
通信部13は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部13は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを用いる。
The
表示部14は、液晶パネル又は有機EL(Electro Luminescence)ディプレイ等を用いる。表示部14は、制御部10の指示による画像処理部11での処理によって画像を表示することが可能である。
The
操作部15は、キーボード又はマウス等のユーザインタフェースを含む。筐体に設けられた物理的ボタンを用いてもよい。操作部15はまた表示部14に表示されるソフトウェアボタン等を用いてもよい。操作部15は、ユーザによる操作情報を制御部10へ通知する。具体的には、操作部15は、元となる教師データの編集時において、ユーザから教師データに対する変形、例えば拡大・縮小、回転、左右方向へのシフト、輝度・彩度、コントラストの変更など、様々な変形方法の設定を受け付ける。
The
読取部16は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体2に記憶してある画像処理プログラム2P、機械学習ライブラリ2L、超解像モデル2М、及びアウトペインティングモデル2Nを読み取ることが可能である。記憶部12に記憶してある画像処理プログラム1P、機械学習ライブラリ1L、超解像モデル1M、及びアウトペインティングモデル1Nは、記録媒体2から読取部16が読み取った画像処理プログラム2P、機械学習ライブラリ2L、超解像モデル2M、アウトペインティングモデル2Nを制御部10が記憶部12に複製したものであってもよい。
The
次に、画像処理装置1の画像処理の機能に関して図2を参照しながら説明する。画像処理装置1の制御部10は学習処理実行部101及び推論処理実行部102を備える。
学習処理実行部101は、記憶部12に記憶してある機械学習ライブラリ1L、定義データ、パラメータ情報に基づき機械学習モデル(機械学習エンジン)として機能する。すなわち、学習処理実行部101は、学習対象の機械学習モデルを用いて、学習用画像データ又は学習用テキストデータに基づいて、学習対象の機械学習モデルにおける設定値(パラメータ等)を学習する処理を実行する。この設定値の学習は、例えばパラメータをミニバッチ勾配降下法で更新するなど入力データと解答データとの差分を最小化する処理である。また、学習処理実行部101は、操作部15を用いた操作に基づき、入力データである画像データを編集する画像処理実行部としての機能をも発揮する。
Next, the image processing function of the image processing device 1 will be explained with reference to FIG. 2. The
The learning
推論処理実行部102は、記憶部12に記憶してある画像処理プログラム1Pに基づき、画像処理を行う。すなわち、推論処理実行部102は、機械学習モデルを用いて、入力される対象データ(対象画像データや推論対象テキストデータ)に対して所定の推論処理を実行する。また、推論処理実行部102は、ユーザの操作部15を用いた操作に基づき、入力データである画像データを入力部110に入力する画像処理実行部としての機能をも発揮する。
The inference
画像処理部11は、入力部110、機械学習モデル111、機械学習モデル111としての生成器111aと判別器111b、出力部112、加工部113及び切出部114を備える。例えば、CNNなどの機械学習モデルは与えられた教師データを用いて学習し、生成器111aとして機能する定義データ及びパラメータ情報、判別器111bとして機能する定義データ及びパラメータ情報が記憶部12に記憶されてモデルが作成される。
The
機械学習モデルの学習例としては、典型的には、分類タスク(入力側の教師画像データ→機械学習モデル→出力ラベル⇔教師ラベル)、画像変換(入力側の教師画像データ→機械学習モデル→出力画像データ⇔出力側教師画像データ)、画像生成(入力側の教師テキストデータ→機械学習モデル→出力画像データ⇔出力側教師画像データ)が挙げられる。なお、ここでの→はデータの流れ、⇔は学習時の比較を示す。 Examples of machine learning model learning typically include classification tasks (input side teacher image data → machine learning model → output label ⇔ teacher label), image conversion (input side teacher image data → machine learning model → output) These include image data ⇔ output side teacher image data), and image generation (input side teacher text data → machine learning model → output image data ⇔ output side teacher image data). Note that → here indicates the flow of data, and ⇔ indicates comparison during learning.
入力部110は、教師用(学習用)の画像データや分類ラベル、テキストデータ、又は推論対象となる対象画像データや推論対象テキストデータ(図2の12a参照)の入力を受け付ける。また、これらのデータは記憶部12に記録・保持される。
The
データ加工部113は、教師データの水増し(Data Augmentation)のため加工処理を行う。具体的には、データ加工部113は、(1)加工後(水増し後)教師データの目標解像度を特定し、(2)入力部110に入力された元となる教師データに基づいて目標解像度を有する画像の所定倍の大きさの暫定基準画像を獲得し、(3)暫定基準画像に対する回転、移動又は変形を含む編集を受け付け、(4)編集実行後の暫定基準画像に対し、前記所定倍よりも高い倍率のサンプリングレートでサンプリングし、(5)サンプリング後の画像を、目標解像度を有する画像の大きさに変換したものを加工後教師データとする、処理を行う。
The
例えば、図3に示すように(1)元となる教師データ301に対する加工後教師データ304の目標解像度(ここでは等倍)を特定する。次に、(2)元となる教師データ301(ここでは112*112ピクセル)に対して、目標解像度の所定倍(ここでは2倍、すなわち224*224ピクセル)に暫定基準画像302が準備される。なお、暫定基準画像302の獲得には、例えば、記憶部12に予め記憶されている画像データや、画像処理部11が超解像モデル1Mに基づいて、元となる教師データの解像度をより高くした超解像画像を生成して一時的に記憶部12などに記憶する。
For example, as shown in FIG. 3, (1) the target resolution (here, same size) of the processed teacher data 304 with respect to the original teacher data 301 is specified. Next, (2) a provisional reference image 302 is prepared at a predetermined times the target resolution (here twice, that is, 224*224 pixels) with respect to the original teacher data 301 (here 112*112 pixels). . Note that in order to obtain the provisional reference image 302, for example, the image data stored in advance in the
次に、(3)暫定基準画像302に対する編集(ここでは回転)を受け付け、(4)編集後の暫定基準画像303を、当該所定倍(ここでは2倍)よりも高いサンプリングレートの設定(ここでは3倍)でサンプリングする。そして、(5)サンプリング後の画像を、目標解像度へ縮小処理して(ここでは回転により領域よりはみ出した画像を切り取り、且つ1/3倍にして)目標解像度を有する画像の大きさに変換したものを加工後教師データ304とする。 Next, (3) the editing (rotation in this case) for the provisional reference image 302 is accepted, and (4) the edited provisional reference image 303 is set at a sampling rate higher than the predetermined time (in this case, 2 times). Then sample at 3x). (5) The sampled image was reduced to the target resolution (here, the image that protruded from the area due to rotation was cut out and multiplied by 1/3) and converted to the size of the image having the target resolution. This data is used as the processed teacher data 304.
このように、目標となる画像(目標解像度の画像)の大きさよりも大きい(例えば2倍の)画像(暫定基準画像)を用意して、その画像に対して高いサンプリングレートで回転や移動を行ってから、目標のサイズに縮小すると画像が劣化しない。 In this way, you can prepare an image (temporary reference image) that is larger (for example, twice the size) than the target image (image with the target resolution), and then rotate or move that image at a high sampling rate. If you then reduce the image to the target size, the image will not deteriorate.
本実施の形態の説明において、目標解像度は元の教師データ301から加工後教師データ304への拡大の倍率であり、制御部10は初期的に、加工前のデジタル画像(オリジナル)と同一の解像度を目標解像度(等倍)として設定しても良い。また、編集にデータの拡大・縮小が含まれている場合、拡大・縮小後の画像データの解像度を目標解像度(1以上、又は1以下)として設定してもよい。さらに、編集に回転・変形が含まれている場合、回転する角度に合わせてサンプリングレートを設定しても良い。
In the description of this embodiment, the target resolution is the magnification of the original training data 301 to the processed training data 304, and the
目標解像度は必ず加工後の解像度に丁度合わせる必要はなく、近い値を設定してもよい。その場合、解像度が足りない分は劣化する。例えば、加工後教師データが大体元となる教師データの大きさに近ければ、目標解像度が等倍、暫定基準画像が2倍、オーバーサンプリングが3倍である。例えば、加工後教師データを元となる教師データより若干大きくする程度であれば、目標解像度を1.5倍、暫定基準画像が3倍、オーバーサンプリングが5倍である。この数値は画像ごとに設定されてもよいし、ピクセルごとに設定されてもよい。 The target resolution does not necessarily have to exactly match the resolution after processing, and may be set to a value close to it. In that case, the resolution will be degraded to compensate for the lack of resolution. For example, if the processed teacher data is close to the size of the original teacher data, the target resolution is equal to the same size, the temporary reference image is twice the size, and the oversampling is three times the same. For example, if the processed training data is to be slightly larger than the original training data, the target resolution is 1.5 times, the temporary reference image is 3 times, and the oversampling is 5 times. This value may be set for each image or for each pixel.
なお、データ加工部113は、 編集実行後の暫定基準画像に対し、編集に応じてオーバーサンプルのレートを所定倍よりも高い倍率以上で決定し、決定されたレートでオーバーサンプリングを行ない、オーバーサンプリングにより得られた画像を、加工後教師データへ変換してもよい。また、これらのデータ加工のための設定は記憶部12に記録・保持されてもよい。
Note that the
図3の例では、2倍の画像を用意して1/2に縮小することになるが、編集として回転が行われる場合は、縦横方向と斜め方向でサンプリングレートが異なるため、縦横方向ではサンプリングレートに対してサンプル数が減り、斜め方向ではサンプリングレートに対してサンプル数が超過する。このため、特に斜め方向ではエイリアスノイズが発生する。このノイズを抑制するためには、サンプリングレートを上げた状態で回転させた上で、目標のサイズに縮小すると、このノイズが発生しない。例を挙げると、目標のサイズの2倍の画像を、さらに1.5倍の大きさに拡大しつつ回転を行い、1/3に縮小する(3倍オーバーサンプル)、というような処理である。 In the example in Figure 3, an image that is twice the size is prepared and reduced to 1/2, but when rotation is performed as an edit, the sampling rate is different in the vertical and horizontal directions and diagonally, so the sampling rate is different in the vertical and horizontal directions. The number of samples decreases relative to the sampling rate, and in diagonal directions the number of samples exceeds the sampling rate. For this reason, alias noise occurs particularly in diagonal directions. In order to suppress this noise, this noise will not occur if the rotation is performed at a high sampling rate and then reduced to the target size. For example, an image that is twice the target size is further enlarged to 1.5 times, rotated, and reduced to 1/3 (3 times oversampling). .
また、画像変形の場合は画素ごとに大きくなったり小さくなったりするので、各々の画素が目標解像度よりも大きい暫定基準画像を持ち、且つ、それよりも高いサンプリングレートを持つように調整しても良い。各々の画素ごとに考えなくても、全ての画素が条件を満たすように一律で、十分に高い解像度の暫定基準画像と、十分に高いサンプリングレートを設定しても良い。例えば、拡大される部分に対応できるように高い解像度の暫定基準画像と、縮小される部分や回転する部分に対応できるように高いサンプリングレートを設定するなどである。 Also, in the case of image deformation, each pixel becomes larger or smaller, so even if each pixel has a provisional reference image that is larger than the target resolution and is adjusted to have a higher sampling rate than that, good. Without considering each pixel, a provisional reference image of sufficiently high resolution and a sufficiently high sampling rate may be set uniformly so that all pixels satisfy the conditions. For example, a provisional reference image with a high resolution is set to accommodate the enlarged portion, and a high sampling rate is set so as to accommodate the reduced or rotated portion.
ここで、編集に関して、画像処理装置1の制御部10は、記憶部12に記憶している画像処理プログラム1Pに基づき、画像データに対する編集を行う。特に制御部10は、画像処理プログラム1Pに基づいて操作部15を介してユーザの操作を受け付け、画像データへの編集を実現する。なお、ここでの編集とは、学習用データ水増しのために、操作部15を介して暫定基準画像に対する拡大・縮小、回転、菱形・台形変形、シフト、カラーシフト、シャープネス・アンシャープネスなどの加工を施すことである。
Regarding editing, the
次に、データの水増し加工に関して、図4及び図5を参照しながら説明する。図4に示すように、データ加工部113が元となる教師データ401に様々な加工を施すことで、学習時に使用される見かけ上の教師データ数を水増しした加工後教師データ402が生成される。この際、本実施の形態に係るデータ加工部113を用いることで、加工後教師データ402が劣化することが効果的に抑制され、水増し後の教師データの量と質を向上し、その結果、学習モデルの性能を飛躍的に向上できる。
Next, data padding will be explained with reference to FIGS. 4 and 5. As shown in FIG. 4, the
また、例えば、図5(II)に示すように、従来においては元となる教師データを水増しするために直接編集し、画像は同じ大きさのままでも回転や小数画素分の移動(シフト)を行うと水増し後の入力側教師画像データ503及び出力側教師画像データ504は劣化する。これは、画像には境界面など、急に変化して波形的な性質を示さない部分があるので、画像変形のような波形的な処理を行うと、その部分の信号が失われるためである。この結果、教師データを水増ししたとしても、入力側教師画像データ503及び出力側教師画像データ504自体が劣化しているので学習モデルの性能が悪くなってしまう。 For example, as shown in Figure 5 (II), in the past, the original training data was directly edited to inflate it, and even though the image remained the same size, it could be rotated or moved (shifted) by a fraction of a pixel. If this is done, the input side teacher image data 503 and output side teacher image data 504 after padding will deteriorate. This is because the image has parts such as boundary surfaces that change suddenly and do not exhibit waveform properties, so if waveform processing such as image transformation is performed, the signal in that part will be lost. . As a result, even if the teacher data is padded, the performance of the learning model deteriorates because the input side teacher image data 503 and the output side teacher image data 504 themselves have deteriorated.
一方、図5(I)に示すように、本実施の形態に係るデータ加工部113を用いると、水増し後の入力側教師画像データ501及び出力側教師画像データ502の品質が維持され、機械学習モデルの高い性能を実現できる。
On the other hand, as shown in FIG. 5(I), when the
一方、画像処理装置1が推論装置として機能する場合、機械学習モデルを用いて対象データに対して所定の推論処理を実行する推論装置であって、対象データの入力を受け付ける入力部110と、入力部110から対象データが入力される機械学習モデル111と、推論処理を実行する機械学習モデル111を用いて、対象データに対して所定の推論処理を実行する推論処理実行部102と、を備え、機械学習モデル111は上述した学習装置の学習処理実行部101において設定値を学習された機械学習モデル111である。
On the other hand, when the image processing device 1 functions as an inference device, it is an inference device that performs predetermined inference processing on target data using a machine learning model, and includes an
機械学習モデル111は、学習済みモデル使用時にはそれぞれ既に学習済のパラメータに基づいてデータの最適化処理(例えば高解像度化、クラス分けやノイズ除去、画像生成)を行う。推論時の機械学習モデル111がCNNとなる場合には、定義データにより定義される複数段の畳み込み層及びプーリング層と、全結合層とを含んでもよく、画像データの特徴量を取り出し、取り出された特徴量に基づいて画像加工処理を行う。
When using a learned model, the
具体的には、機械学習モデル111の推論時においては、機械学習モデル111に推論対象画像データや推論対象テキストデータを入力し、出力部112からの出力として推論後画像データを得ることができる。ここでの画像データは、YCbCrやRGBを用いて表現される画像データである。また、出力は画像データに限られずクラス分けの場合は特定されたクラスを出力する。出力部112は、画像データや分類クラスを記憶部12に出力する。なお、出力データを画像処理部11において画像として描画し、表示部14へ出力してもよい。
Specifically, during inference by the
次に、本実施の形態に係る学習装置における画像データのアウトペインティングに関して説明する。従来、画像データの水増しは、基本的に同じサイズの画像データを増やすものなので、拡大縮小や回転を掛けた場合は、切出部114で画像をカットしたり、穴埋めしたりして元のサイズに戻す。従来の画像の水増し操作では、変形後に画像が回転や縮小して穴が開いた部分は近くの色で埋めるなど周辺画素の画素値を用いた演算処理によって、画像の不自然さを軽減して、画質の劣化を抑止していた。
Next, outpainting of image data in the learning device according to this embodiment will be explained. Conventionally, inflating image data basically involves increasing image data of the same size, so when scaling or rotating the image, the image is cut or filled with holes in the
一方、本実施の形態に係る画像処理部11は、記憶部12に記憶されているアウトペインティングモデル1Nに基づいて、元となる教師データの周囲を予め自動生成してより大きな教師データを作成し、データ加工部113は、アウトペインティングモデル1Nにより作成された教師データを、加工後教師データに変換する。すなわち、従来の方法であれば加工後画像データに生じた穴は、近傍のデータで埋めたり、黒で埋めたりするが、その場合不自然な画像が生成されていたが、本実施の形態に係る画像処理装置1では、アウトペインティングモデル1Nを用いて、先に教師画像データの周りに自然に連続する画像を自動生成して大きくしておくことで、穴が生じないようにする。そして、これを上述のデータ加工部113の教師データの水増しの加工手法と併せて用いることで、より高品質の加工後教師データを獲得できるようになる。
On the other hand, the
以上の説明のように、画像処理装置1が教師データに基づいて機械学習モデル111における設定値を学習する学習装置をして機能する場合、当該学習装置は、元となる教師データの入力を受け付ける入力部110と、元となる教師データに基づいて加工された加工後教師データを作成するデータ加工部113と、学習対象の機械学習モデル111を用いて、少なくとも加工後教師データを含む教師データに基づいて、学習対象の機械学習モデル111における設定値を学習する処理を実行するための学習処理実行部101と、設定値を記憶する記憶部12と、を備える。データ加工部113では、(1)加工後教師データの目標解像度を特定し、(2)元となる教師データに基づいて目標解像度を有する画像の所定倍の大きさの暫定基準画像を獲得し、(3)暫定基準画像に対する回転、移動又は変形を含む編集を受け付け、(4)編集実行後の暫定基準画像に対し、所定倍よりも高い倍率のサンプリングレートでサンプリングし、(5)サンプリング後の画像を、目標解像度を有する画像の大きさに変換したものを加工後教師データとする。この構成により、学習装置では、機械学習によるデータ処理において、元となる教師データの水増しを行って学習を行う際にも、より高品質のデータを準備して、機械学習モデルの学習効率の低下を確実に抑えることができる。
As described above, when the image processing device 1 functions as a learning device that learns setting values in the
すなわち、画像処理装置1が学習装置として機能する際、データ加工部113は、元となる教師データの水増しの際に、超解像などの充分に大きな暫定基準画像を用いて変形などを行い、かつ、大きな倍率でのオーバーサンプリングを用いた後に加工後教師データを得る。これにより、変形後の加工後教師データも好適な画質を保つことが可能になり、そのデータで学習した機械学習モデルの性能も向上させることができる。また、この機械学習モデルを用いることで画像処理装置1が推論装置として機能する際、より高精度な推論後画像データの生成や分類を行うことができる。
That is, when the image processing device 1 functions as a learning device, the
(変形例)
本発明の実施の形態に係る画像処理装置1の変形例に関して図6を参照して説明する。本変形例では、学習処理実行部101により学習された機械学習モデル111を、損失関数として用い、当該損失関数は、例えばContent loss、Style lossである。例えば、図6(a)に示すように、構造を担保するコンテンツ画像601と、画風を担保するスタイル画像602の2つを入力にとり、前者の構造と後者の画風を併せ持つ合成画像を出力する仕組みであるCNNの一種であるstyle transferが知られている。
(Modified example)
A modification of the image processing device 1 according to the embodiment of the present invention will be described with reference to FIG. 6. In this modification, the
このstyle transferでは、まず、左右の訓練済VGG(Visual Geometry Group)ネットワークにコンテンツ画像601とスタイル画像602をそれぞれ入力し、その途中の特徴マップから各画像らしさを表すベクトルを抜き出して損失関数603を定義する。そして、その損失を最小化する形で最適化を進めていくが、ここで使用される機械学習モデルの一種である訓練済みVGGについて、コンテンツ画像601とスタイル画像602を上記実施の形態のデータ加工部113で生成された劣化していない画像で学習していれば、最適化が完了した時点において、高周波成分の特徴を捉えた(解像度が高い)図6(b)に例示するようなコンテンツとスタイルを組み合わせた合成画像604の生成が期待できる。
In this style transfer, first, a content image 601 and a style image 602 are input to the left and right trained VGG (Visual Geometry Group) networks, respectively, and a vector representing the likeness of each image is extracted from the intermediate feature map to create a loss function 603. Define. Then, optimization is carried out in a manner that minimizes the loss. Regarding the trained VGG, which is a type of machine learning model used here, the content image 601 and style image 602 are processed as the data in the above embodiment. If learning is performed using the undegraded images generated in the
なお、本実施の形態に係る画像処理装置1のハードウェア構成の内、通信部13、表示部14、及び読取部16は必須ではない。通信部13については、例えば記憶部12に記憶される画像処理プログラム1P、及び機械学習ライブラリ1Lを外部サーバ装置から取得する場合に一旦使用された後は使用しない場合がある。読取部16も同様に、画像処理プログラム1P、機械学習ライブラリ1Lを記憶媒体から読み出して取得した後は使用されない可能性がある。そして通信部13及び読取部16は、USB等のシリアル通信を用いた同一のデバイスであってもよい。
Note that in the hardware configuration of the image processing device 1 according to the present embodiment, the
画像処理装置1がWebサーバとして、上述の機械学習モデル111としての機能を、表示部及び通信部を備えるWebクライアント装置へ提供する構成としてもよい。この場合、通信部13は、Webクライアント装置からのリクエストを受信し、処理結果を送信するために使用される。
The image processing device 1 may function as a Web server and provide the function of the
学習時に用いる誤差は、二乗誤差、絶対値誤差、又は交差エントロピー誤差等、入出力されるデータ、学習目的に応じて適切な関数を用いるとよい。例えば、出力が分類である場合、交差エントロピー誤差を用いる。誤差関数を用いることに拘わらずその他の基準を用いるなど柔軟な運用が適用できる。この誤差関数自体に外部の機械学習モデルを用いて評価を行なってもよい。 As the error used during learning, an appropriate function such as a square error, absolute value error, or cross entropy error may be used depending on input/output data and the learning purpose. For example, if the output is a classification, use cross-entropy error. Regardless of using the error function, flexible operations such as using other criteria can be applied. This error function itself may be evaluated using an external machine learning model.
なお、本発明は、上記実施の形態の構成に限られず、発明の趣旨を変更しない範囲で種々の変形が可能である。また、本発明の目的を達成するために、本発明は、画像処理装置(学習装置及び推論装置)に含まれる特徴的な構成手段をステップとする画像処理方法(学習方法及び推論方法)としたり、それらの特徴的なステップを含むプログラムとして実現することもできる。そして、そのプログラムは、ROM等に格納しておくだけでなく、USBメモリ等の記録媒体や通信ネットワークを介して流通させることもできる。 Note that the present invention is not limited to the configuration of the above-described embodiments, and various modifications can be made without changing the spirit of the invention. Furthermore, in order to achieve the object of the present invention, the present invention provides an image processing method (a learning method and an inference method) whose steps are characteristic configuration means included in an image processing device (a learning device and an inference device). , it can also be realized as a program including those characteristic steps. The program can not only be stored in a ROM or the like, but can also be distributed via a recording medium such as a USB memory or a communication network.
また、本発明は、画像処理装置又はコンピュータプログラムに向けて入力データを送信し、画像処理装置又はコンピュータプログラムからの出力データを受信して利用するコンピュータシステムとしても実現できる。このシステムは、上述の処理により学習済みの機械学習モデルから得られるデータを利用した処理システムで、種々のサービスを提供できる。本システムに用いる装置は、表示部及び通信部を備えた画像処理装置又はコンピュータと情報を送受信できる情報処理装置などであり、例えば所謂PC、スマートフォン、携帯端末、ゲーム機器などである。 Furthermore, the present invention can be implemented as a computer system that transmits input data to an image processing device or computer program, and receives and uses output data from the image processing device or computer program. This system is a processing system that uses data obtained from a machine learning model that has been trained through the processing described above, and can provide various services. The device used in this system is an image processing device equipped with a display section and a communication section, or an information processing device capable of transmitting and receiving information to and from a computer, such as a so-called PC, a smartphone, a mobile terminal, a game device, and the like.
1 画像処理装置(学習装置及び推論装置)
10 制御部
12 記憶部(学習結果記憶部)
15 操作部
101 学習処理実行部
102 推論処理実行部
110 入力部
111 機械学習モデル
111a 生成器
111b 判別器
112 出力部
113 データ加工部
114 切出部
301,401 元となる教師データ
302 暫定基準画像
303 編集後の暫定基準画像
304,402 加工後教師データ
1 Image processing device (learning device and inference device)
10
15
Claims (11)
元となる教師データの入力を受け付ける入力部と、
前記元となる教師データに基づいて加工された加工後教師データを作成するデータ加工部と、
学習対象の機械学習モデルと、前記機械学習モデルを用いて、少なくとも前記加工後教師データを含む教師データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行部と、
前記設定値を記憶する記憶部と、を備え、
前記データ加工部では、
前記加工後教師データの目標解像度を特定し、
前記元となる教師データに基づいて前記目標解像度を有する画像の所定倍の大きさの暫定基準画像を獲得し、
前記暫定基準画像に対する回転、移動又は変形を含む編集を受け付け、
編集実行後の前記暫定基準画像に対し、前記所定倍よりも高い倍率のサンプリングレートでサンプリングし、
当該サンプリング後の画像を、前記目標解像度を有する画像の大きさに変換したものを前記加工後教師データとする、ことを特徴とする学習装置。 A learning device that learns setting values in a machine learning model based on training data,
an input section that accepts input of the original teacher data;
a data processing unit that creates processed teacher data based on the original teacher data;
learning to perform a process of learning setting values in the machine learning model to be learned, based on a machine learning model to be learned, and teacher data including at least the post-processed teacher data using the machine learning model; a processing execution unit;
comprising a storage unit that stores the setting value,
In the data processing department,
specifying a target resolution of the processed training data;
Obtaining a provisional reference image that is a predetermined times the size of the image having the target resolution based on the original teacher data;
Accepting edits including rotation, movement, or transformation of the provisional reference image;
sampling the provisional reference image after editing at a sampling rate higher than the predetermined magnification;
A learning device characterized in that the processed teacher data is obtained by converting the sampled image into the size of the image having the target resolution.
前記元となる教師データの周囲を予め自動生成してより大きな教師データを作成するアウトペインティングモデルを有し、
前記データ加工部は、前記アウトペインティングモデルにより作成された教師データを、前記加工後教師データに変換する、ことを特徴とする請求項1記載の学習装置。 The learning device further includes:
It has an outpainting model that automatically generates the surroundings of the original training data in advance to create larger training data,
The learning device according to claim 1, wherein the data processing unit converts the teacher data created by the outpainting model into the processed teacher data.
編集実行後の前記暫定基準画像に対し、前記編集に応じてオーバーサンプルのレートを前記所定倍よりも高い倍率以上で決定し、
決定されたレートでオーバーサンプリングを行ない、
オーバーサンプリングにより得られた画像を、前記加工後教師データへ変換する、ことを特徴とする請求項1記載の学習装置。 The data processing section is
Determining an oversampling rate at a magnification higher than the predetermined magnification for the provisional reference image after the editing is performed according to the editing;
Perform oversampling at the determined rate,
2. The learning device according to claim 1, further comprising converting an image obtained by oversampling into the processed teacher data.
前記元となる教師データの解像度が前記目標解像度の前記所定倍未満である場合、前記元となる教師データに基づいて前記所定倍の超解像画像を作成する超解像モデルを有し、
前記データ加工部においては、前記超解像モデルで作成された当該超解像画像を前記暫定基準画像とする、ことを特徴とする請求項1記載の学習装置。 The learning device further includes:
If the resolution of the original teacher data is less than the predetermined times the target resolution, the method includes a super-resolution model that creates a super-resolution image of the predetermined size based on the original teacher data;
2. The learning device according to claim 1, wherein the data processing unit uses the super-resolution image created using the super-resolution model as the provisional reference image.
前記対象データの入力を受け付ける入力部と、
前記入力部から対象データが入力される機械学習モデルと、
推論処理を実行する機械学習モデルを用いて、対象データに対して所定の推論処理を実行する推論処理実行部と、を備え、
前記機械学習モデルは、請求項1乃至4の何れか一項に記載の学習装置の学習処理実行部において前記設定値を学習された機械学習モデルである、ことを特徴とする推論装置。 An inference device that performs predetermined inference processing on target data using a machine learning model,
an input unit that accepts input of the target data;
a machine learning model into which target data is input from the input section;
an inference processing execution unit that executes a predetermined inference process on the target data using a machine learning model that executes the inference process,
An inference device, wherein the machine learning model is a machine learning model that has learned the setting value in a learning processing execution unit of the learning device according to any one of claims 1 to 4.
元となる教師データの入力を受け付ける入力ステップと、
前記元となる教師データに基づいて加工された加工後教師データを作成するデータ加工ステップと、
学習対象の機械学習モデルと、前記機械学習モデルを用いて、少なくとも前記加工後教師データを含む教師データに基づいて、前記学習対象の機械学習モデルにおける設定値を学習する処理を実行するための学習処理実行ステップと、
前記設定値を記憶する記憶ステップと、を含み、
前記データ加工ステップにおいては、
前記加工後教師データの目標解像度を特定し、
前記元となる教師データに基づいて前記目標解像度を有する画像の所定倍の大きさの暫定基準画像を獲得し、
前記暫定基準画像に対する回転、移動又は変形を含む編集を受け付け、
編集実行後の前記暫定基準画像に対し、前記所定倍よりも高い倍率のサンプリングレートでサンプリングし、
当該サンプリング後の画像を、前記目標解像度を有する画像の大きさに変換したものを前記加工後教師データとする、ことを特徴とする学習方法。 A learning method for learning setting values in a machine learning model based on training data, the method comprising:
an input step for accepting input of source teacher data;
a data processing step of creating processed teacher data based on the original teacher data;
learning to perform a process of learning setting values in the machine learning model to be learned, based on a machine learning model to be learned, and teacher data including at least the post-processed teacher data using the machine learning model; a processing execution step;
a storing step of storing the set value;
In the data processing step,
specifying a target resolution of the processed training data;
Obtaining a provisional reference image that is a predetermined times the size of the image having the target resolution based on the original teacher data;
Accepting edits including rotation, movement, or transformation of the provisional reference image;
sampling the provisional reference image after editing at a sampling rate higher than the predetermined magnification;
A learning method characterized in that the sampled image is converted to a size of an image having the target resolution and is used as the processed teacher data.
前記対象データの入力を受け付ける入力ステップと、
前記入力ステップから対象データが入力される機械学習モデルと、
推論処理を実行する機械学習モデルを用いて、対象データに対して所定の推論処理を実行する推論処理実行ステップと、を含み、
前記機械学習モデルは、前記請求項10に記載の学習処理実行ステップにおいて前記設定値を学習された機械学習モデルである、ことを特徴とする推論方法。 An inference method for performing predetermined inference processing on target data using a machine learning model,
an input step of accepting input of the target data;
a machine learning model into which target data is input from the input step;
an inference process execution step of executing a predetermined inference process on the target data using a machine learning model that executes the inference process,
An inference method characterized in that the machine learning model is a machine learning model that has learned the setting value in the learning process execution step according to claim 10.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023118774A JP7346767B1 (en) | 2023-07-21 | 2023-07-21 | Learning device and reasoning device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023118774A JP7346767B1 (en) | 2023-07-21 | 2023-07-21 | Learning device and reasoning device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7346767B1 true JP7346767B1 (en) | 2023-09-19 |
Family
ID=88021745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023118774A Active JP7346767B1 (en) | 2023-07-21 | 2023-07-21 | Learning device and reasoning device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7346767B1 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6570164B1 (en) * | 2018-11-28 | 2019-09-04 | 株式会社ツバサファクトリー | Computer program, image processing method, and image processing apparatus |
WO2021100818A1 (en) * | 2019-11-19 | 2021-05-27 | 学校法人関西学院 | Learning method and learning device employing augmentation |
JP2021111228A (en) * | 2020-01-14 | 2021-08-02 | キヤノン株式会社 | Learning device, learning method, and program |
JP2023078578A (en) * | 2021-11-26 | 2023-06-07 | 株式会社デンソーテン | Image processing system, learning system, and learning method |
-
2023
- 2023-07-21 JP JP2023118774A patent/JP7346767B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6570164B1 (en) * | 2018-11-28 | 2019-09-04 | 株式会社ツバサファクトリー | Computer program, image processing method, and image processing apparatus |
WO2021100818A1 (en) * | 2019-11-19 | 2021-05-27 | 学校法人関西学院 | Learning method and learning device employing augmentation |
JP2021111228A (en) * | 2020-01-14 | 2021-08-02 | キヤノン株式会社 | Learning device, learning method, and program |
JP2023078578A (en) * | 2021-11-26 | 2023-06-07 | 株式会社デンソーテン | Image processing system, learning system, and learning method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11915133B2 (en) | Techniques for smooth region merging in image editing | |
Ma et al. | Learning deep context-sensitive decomposition for low-light image enhancement | |
US9058699B2 (en) | System and method for image composition using non-destructive editing model and fast gradient solver | |
US9672646B2 (en) | System and method for image editing using visual rewind operation | |
JP3836527B2 (en) | Apparatus and method for image editing of structural images | |
KR20210119438A (en) | Systems and methods for face reproduction | |
CN110163237A (en) | Model training and image processing method, device, medium, electronic equipment | |
US11386589B2 (en) | Method and device for image generation and colorization | |
CN105374007A (en) | Generation method and generation device of pencil drawing fusing skeleton strokes and textural features | |
CN108989731B (en) | Method for improving video spatial resolution | |
JP2022125297A (en) | Line drawing automatic coloring program, line drawing automatic coloring apparatus, and program for graphical user interface | |
WO2021115403A1 (en) | Image processing method and apparatus | |
CN101606179A (en) | The universal front end that is used for shade, selection and path | |
Wu et al. | Palettenerf: Palette-based color editing for nerfs | |
CN112991171A (en) | Image processing method, image processing device, electronic equipment and storage medium | |
CN116097319A (en) | High resolution controllable facial aging using spatially aware conditional GAN | |
Zhao et al. | Cartoon image processing: a survey | |
CN115294055A (en) | Image processing method, image processing device, electronic equipment and readable storage medium | |
Liang et al. | Control Color: Multimodal Diffusion-based Interactive Image Colorization | |
Gal et al. | Breathing Life Into Sketches Using Text-to-Video Priors | |
JP7346767B1 (en) | Learning device and reasoning device | |
KR100534061B1 (en) | Method for creating automatically cartoon animation image and image creation grapic engine system | |
JP7195220B2 (en) | LEARNING DEVICE, METHOD OF OPERATION OF LEARNING DEVICE, AND OPERATION PROGRAM OF LEARNING DEVICE | |
JP2011070283A (en) | Face image resolution enhancement device and program | |
WO2023272414A1 (en) | Image processing method and image processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230724 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7346767 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |