JP2021047797A - Machine learning device, machine learning method, and program - Google Patents
Machine learning device, machine learning method, and program Download PDFInfo
- Publication number
- JP2021047797A JP2021047797A JP2019171493A JP2019171493A JP2021047797A JP 2021047797 A JP2021047797 A JP 2021047797A JP 2019171493 A JP2019171493 A JP 2019171493A JP 2019171493 A JP2019171493 A JP 2019171493A JP 2021047797 A JP2021047797 A JP 2021047797A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- geometric
- pixel
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 45
- 238000011156 evaluation Methods 0.000 claims abstract description 56
- 230000006870 function Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005452 bending Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、機械学習装置、機械学習方法、及びプログラムに関する。 The present invention relates to machine learning devices, machine learning methods, and programs.
近年、文書画像に対する文字認識により、当該文書画像における文字や幾何学的図形などを認識する技術が各種提案されている。 In recent years, various techniques for recognizing characters and geometric figures in a document image by character recognition have been proposed.
例えば、下記特許文献1には、機械学習を利用して文書画像の所定の領域の画素が文字を示す文字画素であるか否かを判定する技術が開示されている。当該技術では、文書画像を入力された機械学習モデルは、所定の領域内の画素が文字を示す画素である確率を示す文字確率に基づき、所定の領域が文字を示す領域であるか否かを判定する。
For example,
しかしながら、判定の目的が大まかに文字、あるいはその他の領域(幾何学的図形・背景)なのかを判別することにある場合においては、特許文献1の技術では、誤判定してしまうことがある。特許文献1の技術では、文字を1画素単位の細かな粒度で種別を判定していくためであり、例えば、文字と形状が似ていて紛らわしい幾何学的図形の一部が文字であると誤判定される。これとは逆に、文字が幾何学的図形の一部であると誤判定されることもある。
However, when the purpose of the determination is to roughly determine whether the character is a character or another area (geometric figure / background), the technique of
上述の課題を鑑み、本発明の目的は、学習済みモデルを用いて画像内の文字領域に属する画素と図形領域に属する画素との区別の精度を向上することが可能な機械学習装置、機械学習方法、及びプログラムを提供することにある。 In view of the above problems, an object of the present invention is a machine learning device and machine learning capable of improving the accuracy of distinguishing a pixel belonging to a character area and a pixel belonging to a graphic area in an image by using a trained model. To provide methods and programs.
上述の課題を解決するために、本発明の一態様に係る機械学習装置は、文字と幾何学的図形とを含む画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を推定する推定部と、前記画像に対応する教師データに基づき、前記推定部による推定結果を評価する評価部と、前記評価部による評価結果に基づき、前記画像における前記文字が含まれる所定の領域に存在する前記画素の前記要素種別を前記文字要素と判定することを前記推定部に学習させる学習制御部と、を備える。 In order to solve the above-mentioned problems, in the machine learning device according to one aspect of the present invention, whether the pixels in the image including the character and the geometric figure are character elements indicating the elements constituting the character, or geometry. An estimation unit that estimates the element type that distinguishes between a geometric element that indicates an element that constitutes a target figure and a background element that indicates an element that is not a character and a background that is not a geometric figure, and the image. An evaluation unit that evaluates the estimation result by the estimation unit based on the corresponding teacher data, and the element type of the pixel existing in a predetermined region including the character in the image based on the evaluation result by the evaluation unit. It includes a learning control unit that causes the estimation unit to learn to determine that it is a character element.
本発明の一態様に係る機械学習方法は、推定部が、文字と幾何学的図形とを含む画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を推定することと、評価部が、前記画像に対応する教師データに基づき、前記推定部による推定結果を評価することと、学習制御部が、前記評価部による評価結果に基づき、前記画像における前記文字が含まれる所定の領域に存在する前記画素の前記要素種別を前記文字要素と判定することを前記推定部に学習させることと、を含む。 In the machine learning method according to one aspect of the present invention, the estimation unit determines that the pixels in the image including the character and the geometric figure are character elements indicating the elements constituting the character, or the geometric figure is formed. Estimating the element type that distinguishes whether it is a geometric element indicating an element or a background element indicating an element constituting a background that is not a character or a geometric figure, and an evaluation unit corresponds to the image. Based on the teacher data, the estimation result by the estimation unit is evaluated, and the learning control unit evaluates the element of the pixel existing in a predetermined region including the character in the image based on the evaluation result by the evaluation unit. It includes having the estimation unit learn to determine the type as the character element.
本発明の一態様に係るプログラムは、コンピュータを、文字と幾何学的図形とを含む画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を推定する推定部と、前記画像に対応する教師データに基づき、前記推定部による推定結果を評価する評価部と、前記評価部による評価結果に基づき、前記画像における前記文字が含まれる所定の領域に存在する前記画素の前記要素種別を前記文字要素と判定することを前記推定部に学習させる学習制御部と、として機能させる。 In a program according to an aspect of the present invention, a computer indicates that a pixel in an image including a character and a geometric figure is a character element indicating an element constituting the character, or an element constituting the geometric figure. Based on the estimation unit that estimates the element type that distinguishes whether it is a geometric element or a background element that indicates an element that constitutes a background that is not a character or a geometric figure, and the teacher data corresponding to the image. Based on the evaluation unit that evaluates the estimation result by the estimation unit and the evaluation result by the evaluation unit, it is determined that the element type of the pixel existing in the predetermined region including the character in the image is determined as the character element. It functions as a learning control unit to be trained by the estimation unit.
本発明によれば、学習済みモデルを用いて画像内の文字領域に属する画素と図形領域に属する画素との区別の精度を向上することができる。 According to the present invention, it is possible to improve the accuracy of distinguishing between the pixels belonging to the character area and the pixels belonging to the graphic area in the image by using the trained model.
以下、図面を参照しながら本発明の実施形態について詳しく説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<機械学習装置の構成例>
まず、図1と図2を参照しながら、本実施形態に係る機械学習装置について説明する。図1は、本発明の実施形態に係る機械学習装置10の構成例を示すブロック図である。図2は、本発明の実施形態に係る各種データの入出力関係を示す図である。
<Configuration example of machine learning device>
First, the machine learning device according to the present embodiment will be described with reference to FIGS. 1 and 2. FIG. 1 is a block diagram showing a configuration example of the
機械学習装置10は、機械学習に用いられる学習済みモデルを生成する機能を有する装置である。以下では、機械学習により画像における画素ごとの要素種別を判定する際に用いられる学習済みモデルを機械学習装置10が生成する例について説明する。
The
要素種別とは、画像における各画素が如何なる種類を構成する要素であるかを示す情報であり、文字要素、線分要素、及び背景要素のいずれかを示す情報である。文字要素は、画素が画像における文字領域を構成する要素であることを示す。線分要素は、画素が画像における線分を構成する要素であることを示す。背景要素は、画素が画像における背景(線分ではなく、且つ文字領域ではないもの)を構成する要素であることを示す。ここで、線分要素は「幾何学要素」の一例である。 The element type is information indicating what kind of element each pixel in the image constitutes, and is information indicating any one of a character element, a line segment element, and a background element. The character element indicates that the pixel is an element that constitutes a character area in the image. The line segment element indicates that the pixel is an element that constitutes a line segment in the image. The background element indicates that the pixel is an element that constitutes the background (not a line segment and not a character area) in the image. Here, the line segment element is an example of a "geometric element".
文字領域は、画像における文字が含まれる領域(所定の領域)である。文字領域には、文字以外に背景が含まれてもよい。なお、1つの文字領域には、画像における文字が1つ含まれてもよいし、複数含まれていてもよい。文字領域の形状は、一例として矩形が挙げられるが、かかる例に限定されない。文字領域のサイズは、例えば、文字のサイズに応じたサイズが設定される。なお、画像における文字が含まれない領域は、以下では、図形領域とも称される。図形領域は、例えば、文字領域以外の領域である。 The character area is an area (predetermined area) including characters in the image. The character area may include a background in addition to the characters. It should be noted that one character area may include one character in the image, or may include a plurality of characters in the image. The shape of the character area is, for example, a rectangle, but is not limited to such an example. The size of the character area is set, for example, according to the size of the character. The area in the image that does not include characters is also referred to as a graphic area below. The graphic area is, for example, an area other than the character area.
学習済みモデルは、画像における各画素が画像に示されている如何なる内容を構成する要素であるか判定する装置(以下、「判定装置」とも称される)に用いられ得る。例えば、判定装置は、学習済みモデルを用いて画像における画素が文字とそれ以外の要素との何れであるかを判定する。ここで、それ以外の要素とは、例えば、幾何学的図形である。幾何学的図形とは、幾何学的な図形であって、例えば、線、線分、一定条件を満たす状態で配置された記号の群等である。 The trained model can be used as a device (hereinafter, also referred to as a “determination device”) for determining what kind of content each pixel in the image constitutes in the image. For example, the determination device uses the trained model to determine whether a pixel in an image is a character or another element. Here, the other elements are, for example, geometric figures. A geometric figure is a geometric figure, for example, a line, a line segment, a group of symbols arranged in a state satisfying a certain condition, and the like.
画像は、線、文字、及び背景を含む画像である。線が組み合わされる、或いは線の一部が屈曲(或いは湾曲)されることで、罫線や枠線等が構成される場合もある。画像は、判定装置による判定の対象となる画像である。すなわち、画像は、「対象画像」の一例である。 An image is an image that includes lines, characters, and a background. Ruled lines, borders, and the like may be formed by combining lines or by bending (or bending) a part of the lines. The image is an image to be determined by the determination device. That is, the image is an example of a "target image".
学習済みモデルは、対象画像(入力データ)が入力されると、対象画像における画素の要素種別を判定する。学習済みモデルは、入力された対象画像の画素の要素種別を判定するために、あらかじめ学習データを用いて機械学習を行うことで生成される。 When the target image (input data) is input, the trained model determines the element type of the pixel in the target image. The trained model is generated by performing machine learning in advance using the training data in order to determine the element type of the pixel of the input target image.
学習済みモデルの生成では、例えば、教師有り学習が行われる。教師有り学習では、学習モデルに学習用のデータセットを用いた学習を行わせる。データセットは、入力データと、当該入力データと対応する教師データのセットである。 In the generation of the trained model, for example, supervised learning is performed. In supervised learning, a learning model is trained using a learning data set. A data set is a set of input data and teacher data corresponding to the input data.
入力データは、学習時の入力となるデータである。本実施形態に係る入力データは、文字と幾何学的図形とを含む画像(以下、「入力画像」とも称される)であり、画像情報を有する。画像情報は、画素ごとに、画像に関する情報が対応付けられた情報であり、例えば、画素ごとのグレースケール値が示された情報、或いは、画素ごとのRGB値が示された情報などである。 The input data is data that is input during learning. The input data according to the present embodiment is an image including characters and geometric figures (hereinafter, also referred to as “input image”), and has image information. The image information is information in which information about an image is associated with each pixel, and is, for example, information showing a grayscale value for each pixel, information showing an RGB value for each pixel, and the like.
教師データは、入力データに基づき出力される出力データの正解を示すデータである。本実施形態に係る教師データは、入力画像の各画素に要素種別を示す情報を対応付けた情報である。また、教師データには、文字領域であることを示す情報も対応付けられてよい。 The teacher data is data indicating the correct answer of the output data output based on the input data. The teacher data according to the present embodiment is information in which information indicating an element type is associated with each pixel of the input image. Further, the teacher data may be associated with information indicating that it is a character area.
(DCNNの基本)
教師有り学習における学習済みモデルは、学習用のデータセットを用いてDCNN(Deep Convolutional Neural Network)などのモデルを学習させることにより生成される。DCNNは、Convolution(畳込み積分)層を主要部分に使用する深層形のニューラルネットワークである。画像認識においては、DCNNにて入力層に2次元のConvolution層を使用することにより、着目画素とその近傍にある画素の双方の情報を加味した画像特徴情報を効率よく認識できる。さらに2次元Convolutionを重ねて多層化して適用することにより、着目画素の近傍だけでなく、より離れた画素の情報も加味した大域的な画像特徴情報も認識できることが知られている。
(Basics of DCNN)
A trained model in supervised learning is generated by training a model such as DCNN (Deep Convolutional Neural Network) using a data set for learning. DCNN is a deep neural network that uses the Convolution layer as the main part. In image recognition, by using a two-dimensional Convolution layer as an input layer in DCNN, it is possible to efficiently recognize image feature information in which information of both a pixel of interest and a pixel in the vicinity thereof is added. Further, it is known that by superimposing two-dimensional Convolutions and applying them in multiple layers, it is possible to recognize not only the information of pixels in the vicinity of the pixel of interest but also the global image feature information including the information of pixels farther away.
(DCNNの学習)
Convolution層の計算は、数学的な線形変換式(y=<W,x>+b)で表現することができる。すなわち、これは微分可能な計算式である。微分可能な計算層は、誤差逆伝播法として知られているニューラルネットの教師有り学習の原理を使って、学習を実行することが可能である。
(Learning of DCNN)
The calculation of the Convolution layer can be expressed by a mathematical linear transformation formula (y = <W, x> + b). That is, this is a differentiable formula. The differentiable computational layer can perform learning using the principle of supervised learning of neural networks known as backpropagation.
DCNNでは、ある層のユニットから、より深い層のユニットにデータが出力される際に、ユニット同士を接続するノードの結合係数に応じた重みW、及びバイアス成分bが付与されたデータが出力される。学習モデルは、入力されたデータ(入力データ)に対し、各ユニット間の演算を行い、出力層から出力データを出力する。 In DCNN, when data is output from a unit in a certain layer to a unit in a deeper layer, data with a weight W corresponding to the coupling coefficient of the node connecting the units and a bias component b is output. The node. The learning model performs operations between each unit on the input data (input data), and outputs the output data from the output layer.
学習の過程において、学習モデルに、学習用のデータセットの入力データを入力させる。学習モデルは、入力データに対して出力層から出力されるデータ(出力データ)が、学習用のデータセットの出力(教師データ)に近づくように、学習モデルのパラメータ(重みW及びバイアス成分b)を調整することにより、学習モデルを学習させる。 In the process of learning, the learning model is made to input the input data of the data set for learning. In the learning model, the parameters (weight W and bias component b) of the learning model so that the data (output data) output from the output layer with respect to the input data approaches the output (teacher data) of the data set for training. The learning model is trained by adjusting.
例えば、DCNNモデルのパラメータ(重みW、及びバイアス成分b)の調整には、誤差逆伝播法が用いられる。誤差逆伝播法では、学習モデルの出力層から出力されるデータと、学習用のデータセットの出力との乖離度合いが、損失関数として表現される。ここでの乖離度合いには、任意の指標が用いられてよいが、例えば、誤差の二乗(二乗誤差)やクロスエントロピー等が用いられる。誤差逆伝播法では、出力層から入力層側に至る方向に、損失関数が最小となるように、重みWとバイアス成分bの値を決定(更新)する。これにより学習モデルを学習させ、判定の精度を向上させる。 For example, the backpropagation method is used to adjust the parameters (weight W and bias component b) of the DCNN model. In the back-propagation method, the degree of deviation between the data output from the output layer of the learning model and the output of the training data set is expressed as a loss function. Any index may be used for the degree of dissociation here, and for example, the square of the error (square error), cross entropy, or the like is used. In the back-propagation method, the values of the weight W and the bias component b are determined (updated) so that the loss function is minimized in the direction from the output layer to the input layer side. As a result, the learning model is trained and the accuracy of the judgment is improved.
なお、学習モデルは、DCNNに限定されることはない。学習モデルとして、例えば、決定木、階層ベイズ、SVM(Support Vector Machine)などの手法が用いられてもよい。 The learning model is not limited to DCNN. As the learning model, for example, a method such as a decision tree, hierarchical Bayes, or SVM (Support Vector Machine) may be used.
機械学習装置10は、学習済みモデルを生成する機能を実現するために、図1に示すように、推定部110、評価部120、及び学習制御部130を備える。
As shown in FIG. 1, the
(推定部110)
推定部110は、画像における画素の要素種別を推定する機能を有する。当該機能は、例えば、DCNNのような機械学習によって実現される。すなわち、推定部110の内部の計算過程は、学習によって変化するパラメータ群であるモデルパラメータ112によって支配されている。学習開始直後においては、推定部110のモデルパラメータ112の初期値にランダム値などが設定されており、要素種別を文字要素と推定するようにパラメータが調整されていないため、誤りを多く含む推定結果を出力する。学習が進むにつれて、学習制御部130によりパラメータが修正され、推定の誤りが減少していく。十分に誤りが小さくなったら、モデルパラメータ112を決定させ学習を完了する。こうして得られたパラメータ群のことを『学習済みモデル』という。
(Estimating unit 110)
The
具体的に、推定部110は、モデルパラメータ112に基づき、要素種別の推定を行う。モデルパラメータ112には、例えば、文字領域における画素の要素種別を文字要素と推定するように、学習により決定したパラメータが設定されている。これにより、推定部110は、入力された画像において、要素種別が文字要素である画素を領域単位で推定することができる。
Specifically, the
より具体的に、推定部110は、例えば、データセットの入力データである入力画像が有する画像情報をモデルパラメータ112へ入力することにより、モデルパラメータ112からの出力(要素種別)を取得する。モデルパラメータ112からの出力は、例えば、「文字要素である可能性が12%、線分要素である可能性が80%、背景要素である可能性が8%」など、各画素が要素種別のそれぞれである可能性を、確率(以下、「要素種別確率」とも称される)で示す情報である。推定部110は、学習モデルからの出力に基づいて、例えば、画素ごとの、最も高い確率で示される要素種別を、その画像における要素種別と推定する。
More specifically, the
推定後、推定部110は、各画素の要素種別を示す情報を推定結果として出力する。例えば、推定部110は、推定した要素種別を示す整数値が画素ごとに示された画像を生成する。要素種別を示す整数値が画素ごとに示された画像は、以下では、「ラベル画像」と称される。なお、推定部110が生成するラベル画像は、以下では、「推定ラベル画像」と称される。また、教師データであるラベル画像は、以下では、「教師ラベル画像」と称される。
After the estimation, the
また、要素種別を示す整数値は、以下では、「ラベル値」と称される。ラベル値には、任意の値が設定されてよく、各値には任意の定義が設定されてよい。本実施形態では、例えば、ラベル値に0〜2の値が設定され、0は背景を示すラベル値、1は図形を示すラベル値、2は文字領域を示すラベル値であると定義される。 Further, the integer value indicating the element type is hereinafter referred to as a "label value". An arbitrary value may be set for the label value, and an arbitrary definition may be set for each value. In the present embodiment, for example, a value of 0 to 2 is set for the label value, 0 is defined as a label value indicating a background, 1 is a label value indicating a figure, and 2 is a label value indicating a character area.
推定ラベル画像の生成後、推定部110は、生成した推定ラベル画像を評価部120へ入力する。
After generating the estimated label image, the
ここで、図2を参照して、推定部110におけるデータの入出力関係の例について説明する。本実施形態のデータセット20は、図2に示すように、入力データである入力画像30と対応する教師データである教師ラベル画像40で構成される。
Here, an example of the data input / output relationship in the
入力画像30は、「あいう」という文字と、矩形の枠である2つの幾何学的図形を含む画像である。当該入力画像30の各画素における要素種別を整数値に置き換えた画像が教師ラベル画像40である。教師ラベル画像40の文字要素が対応付けられた画素には、ラベル値として2が格納されている。また、教師ラベル画像40の線分要素が対応付けられた画素には、ラベル値として1が格納されている。さらに、教師ラベル画像40の背景要素が対応付けられた画素には、ラベル値として0が格納されている。
The
図2に示すように、入力画像30が推定部110へ入力されると、推定部110は、推定結果を示すラベル画像である推定ラベル画像50を評価部120へ出力する。ここでの推定ラベル画像50の定義は、上述した教師ラベル画像40の定義と同様である。なお、図2に示す例は、モデルパラメータ112の学習が不十分な段階であるため、推定部110は、誤ったラベル値を含む推定ラベル画像50を出力している。
As shown in FIG. 2, when the
(評価部120)
評価部120は、推定結果を評価する機能を有する。例えば、評価部120は、教師データに基づき、推定部110から入力される推定結果を評価する。具体的に、評価部120は、入力される教師ラベル画像と推定ラベル画像とを比較し、その乖離度合いを損失関数により表現した情報を評価値として算出する。ここでいう乖離度合いとは、例えば、教師ラベル画像と推定ラベル画像において、それぞれの画像の対応する位置における画素の要素種別が異なっている度合いである。
(Evaluation unit 120)
The
ここで、図2を参照して、評価部120におけるデータの入出力関係の例について説明する。図2に示すように、評価部120には、データセット20の教師ラベル画像40と、推定部110が生成した推定ラベル画像50が入力される。評価部120は、入力された教師ラベル画像40と推定ラベル画像50に基づき、評価値を算出する。そして、評価部120は、算出した評価値を評価結果として学習制御部130へ入力する。
Here, an example of the data input / output relationship in the
(学習制御部130)
学習制御部130は、機械学習装置10における機械学習を制御する機能を有する。例えば、学習制御部130は、評価部120から入力される評価結果に基づき、推定部110のモデルパラメータ112に学習させる。この時、学習制御部130は、評価結果を示す評価値に基づき、モデルパラメータ112を修正することで、モデルパラメータ112に学習させる。具体的に、学習制御部130は、誤差逆伝播法により、損失関数により表現された評価値が最小となるように決定したパラメータの値でモデルパラメータ112を修正する。このように、学習制御部130は、モデルパラメータ112に学習させることで、推定部110によるモデルパラメータ112に基づく推定の精度を向上することができる。
(Learning control unit 130)
The
具体的に、本実施形態の学習制御部130は、文字領域に存在する画素が、文字要素と判定されるように、推定部110に学習させる。例えば、推定部110が文字領域に存在する画素の文字要素の要素種別確率を他の要素種別確率よりも低く推定した場合、推定部110による推定結果は誤っているといえる。そこで、学習制御部130は、当該画素における文字要素の要素種別確率が他の要素種別確率よりも高くなるまで、モデルパラメータ112の修正を繰り返し行い、推定部110に繰り返し学習させる。
Specifically, the
また、本実施形態の学習制御部130は、文字領域以外の画素が線分要素又は背景要素と判定されるように、推定部110に学習させる。例えば、学習制御部130は、点線が含まれる所定の領域に存在する画素が、線分要素と判定されるように、推定部110に学習させる。また、学習制御部130は、画素の濃度が縦方向或いは横方向に沿った境界線により変化する領域に存在する画素が、線分要素と判定されるように、推定部110に学習させる。また、学習制御部130は、文字要素及び線分要素ではない画素が、背景要素と判定されるように、推定部110に学習させる。学習制御部130による学習のさせ方は、上述した、文字領域に存在する画素が、文字要素と判定されるように学習させる方法と同様であるため、その説明を省略する。
Further, the
学習制御部130は、入力画像30における文字領域に存在する画素の要素種別を文字要素と判定するようにモデルパラメータ112を修正して、推定部110に繰り返し推定させることにより、学習させる。これにより、モデルパラメータ112は、入力画像30が入力された際に、入力画像における文字が含まれる文字領域に存在する画素を文字要素であると判定することができるようになる。
The
ここで、図2を参照して、学習制御部130におけるデータの入出力関係の例について説明する。図2に示すように、学習制御部130には、評価部120から評価値が入力される。学習制御部130は、入力された評価値に基づき、モデルパラメータ112のパラメータを修正する。
Here, an example of the data input / output relationship in the
なお、図2に示した推定部110による要素種別の推定から学習制御部130によるモデルパラメータ112の修正までの処理は、繰り返し行われ得る。即ち、モデルパラメータ112におけるパラメータの修正と学習が繰り返される。学習開始直後においては、推定部110は、誤りを多く含む推定結果を出力する。しかし、学習が進むにつれてモデルパラメータ112が修正され、推定結果に含まれる誤りは減少していく。即ち、学習が繰り返されることでモデルパラメータ112における推定の精度が向上する。よって、学習を繰り返すことで、推定部110は、モデルパラメータ112に基づく要素種別の推定の精度を向上することができる。
The process from the estimation of the element type by the
また、学習を繰り返すことで、推定部110は、画素及びその周辺に存在する画素の配置パターン特徴に基づいて、当該画素の種別を推定するモデルパラメータ112を獲得することができる。
Further, by repeating the learning, the
なお、学習を繰り返し、推定結果に含まれる誤りが十分に少なくなった場合、推定部110は、学習を完了する。そして、この学習の繰り返しにより得られたモデルパラメータ112が「学習済みモデル」として用いられる。
When the learning is repeated and the number of errors included in the estimation result is sufficiently reduced, the
以上より、学習制御部130は、推定部110に学習を繰り返させることで、ランダムに初期値が設定されたモデルパラメータ112から、画像における文字領域に存在する画素の要素種別を文字要素と判定する学習済みモデルを生成することができる。
From the above, the
なお、モデルパラメータ112には、画像における文字領域に存在する画素の要素種別を文字要素と推定するための初期値があらかじめ設定されていてもよい。この場合、学習制御部130は、推定部110に学習を繰り返させることで、学習開始直後よりも文字要素の推定の精度を向上させたモデルパラメータ112を学習済みモデルとして生成することができる。
The
<処理の流れ>
以上、機械学習装置10の構成例について説明した。続いて、本実施形態に係る機械学習装置10における処理の流れについて説明する。図3は、本発明の実施形態に係る機械学習装置10における処理の流れを示すフローチャートである。以下では、1つのデータセットに基づくモデルパラメータの修正処理について説明する。
<Processing flow>
The configuration example of the
まず、機械学習装置10の推定部110は、入力データである入力画像における画素の要素種別を推定し、推定結果を示す推定ラベル画像を生成する(S102)。生成後、推定部110は、生成した推定ラベル画像を評価部120へ入力する。
First, the
次いで、機械学習装置10の評価部120は、教師データである教師ラベル画像に基づき、推定部110から入力された推定ラベル画像の評価を行い、評価値を算出する(S104)。算出後、評価部120は、算出した評価値を学習制御部130へ入力する。
Next, the
そして、機械学習装置10の学習制御部130は、評価部120に入力された評価値に基づき、推定部110のモデルパラメータ112を修正する(S106)。
Then, the
モデルパラメータ112の修正後、学習制御部130は、推定結果に含まれる誤りが十分に少なくなったか否かを判定する(S108)。
After modifying the
誤りが十分に少なくなった場合(S108/YES)、学習制御部130は、学習を完了し、処理を終了する。誤りが十分に少なくなっていない場合(S108/NO)、学習制御部130は、S102〜S106の処理を繰り返すことで、推定結果に含まれる誤りが十分に少なくなるまで推定部110に学習を繰り返させる。
When the number of errors is sufficiently small (S108 / YES), the
以上説明したように、本実施形態に係る機械学習装置10は、まず、文字と幾何学的図形とを含む画像における画素の要素種別を推定する。次いで、機械学習装置10は、画像に対応する教師データに基づき、推定結果を評価する。そして、機械学習装置10は、評価結果に基づき、画像における文字領域に存在する画素の要素種別を文字要素と判定することを学習する。かかる構成により、機械学習装置10は、要素種別が幾何学要素又は背景要素である画素を画素単位で判定し、要素種別が文字要素である画素を領域単位で判定するようになる。
As described above, the
これにより、機械学習装置10は、画像における文字を構成する要素である画素と図形を構成する要素である画素を明確に区別する学習済みモデルを生成することができる。よって、機械学習装置10は、学習済みモデルを用いて画像内の文字領域に属する画素と図形領域に属する画素との区別の精度を向上することができる。
As a result, the
以上、本発明の実施形態について説明した。なお、上述した実施形態における機械学習装置10をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
The embodiment of the present invention has been described above. The
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。 Although the embodiments of the present invention have been described in detail with reference to the drawings, the specific configuration is not limited to the above, and various design changes and the like can be made without departing from the gist of the present invention. It is possible to do.
10 機械学習装置
110 推定部
112 モデルパラメータ
120 評価部
130 学習制御部
10
Claims (5)
前記画像に対応する教師データに基づき、前記推定部による推定結果を評価する評価部と、
前記評価部による評価結果に基づき、前記画像における前記文字が含まれる所定の領域に存在する前記画素の前記要素種別を前記文字要素と判定することを前記推定部に学習させる学習制御部と、
を備える、機械学習装置。 A pixel in an image containing a character and a geometric figure is a character element indicating an element that constitutes a character, a geometric element that indicates an element that constitutes a geometric figure, or a character and a geometric figure. An estimation unit that estimates the element type that distinguishes whether it is a background element that indicates an element that constitutes a background that is not
An evaluation unit that evaluates the estimation result by the estimation unit based on the teacher data corresponding to the image, and an evaluation unit.
Based on the evaluation result by the evaluation unit, a learning control unit that causes the estimation unit to learn to determine the element type of the pixel existing in a predetermined region including the character in the image as the character element.
A machine learning device equipped with.
評価部が、前記画像に対応する教師データに基づき、前記推定部による推定結果を評価することと、
学習制御部が、前記評価部による評価結果に基づき、前記画像における前記文字が含まれる所定の領域に存在する前記画素の前記要素種別を前記文字要素と判定することを前記推定部に学習させることと、
を含む、機械学習方法。 Whether the pixel in the image containing the character and the geometric figure is a character element indicating an element constituting the character, or a geometric element indicating an element constituting the geometric figure, the character and the estimation unit. Estimating the element type that distinguishes whether it is a background element that indicates an element that constitutes a background that is not a geometric figure,
The evaluation unit evaluates the estimation result by the estimation unit based on the teacher data corresponding to the image.
To make the estimation unit learn that the learning control unit determines that the element type of the pixel existing in the predetermined region including the character in the image is the character element based on the evaluation result by the evaluation unit. When,
Machine learning methods, including.
文字と幾何学的図形とを含む画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を推定する推定部と、
前記画像に対応する教師データに基づき、前記推定部による推定結果を評価する評価部と、
前記評価部による評価結果に基づき、前記画像における前記文字が含まれる所定の領域に存在する前記画素の前記要素種別を前記文字要素と判定することを前記推定部に学習させる学習制御部と、
として機能させる、プログラム。 Computer,
A pixel in an image containing a character and a geometric figure is a character element indicating an element that constitutes a character, a geometric element that indicates an element that constitutes a geometric figure, or a character and a geometric figure. An estimation unit that estimates the element type that distinguishes whether it is a background element that indicates an element that constitutes a background that is not
An evaluation unit that evaluates the estimation result by the estimation unit based on the teacher data corresponding to the image, and an evaluation unit.
Based on the evaluation result by the evaluation unit, a learning control unit that causes the estimation unit to learn to determine the element type of the pixel existing in a predetermined region including the character in the image as the character element.
A program that functions as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019171493A JP2021047797A (en) | 2019-09-20 | 2019-09-20 | Machine learning device, machine learning method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019171493A JP2021047797A (en) | 2019-09-20 | 2019-09-20 | Machine learning device, machine learning method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021047797A true JP2021047797A (en) | 2021-03-25 |
Family
ID=74876440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019171493A Pending JP2021047797A (en) | 2019-09-20 | 2019-09-20 | Machine learning device, machine learning method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021047797A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022211064A1 (en) * | 2021-03-31 | 2022-10-06 | 株式会社デンソーウェーブ | Information reading device |
WO2023053718A1 (en) * | 2021-10-01 | 2023-04-06 | ソニーセミコンダクタソリューションズ株式会社 | Information processing device, information processing method, learning device, learning method, and computer program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04105186A (en) * | 1990-08-24 | 1992-04-07 | Sharp Corp | Automatic document input device |
JPH11261814A (en) * | 1998-03-13 | 1999-09-24 | Matsushita Electric Ind Co Ltd | Discrimination system for image attribute |
JP2018132953A (en) * | 2017-02-15 | 2018-08-23 | ソフネック株式会社 | Image processing method, and computer program |
-
2019
- 2019-09-20 JP JP2019171493A patent/JP2021047797A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04105186A (en) * | 1990-08-24 | 1992-04-07 | Sharp Corp | Automatic document input device |
JPH11261814A (en) * | 1998-03-13 | 1999-09-24 | Matsushita Electric Ind Co Ltd | Discrimination system for image attribute |
JP2018132953A (en) * | 2017-02-15 | 2018-08-23 | ソフネック株式会社 | Image processing method, and computer program |
Non-Patent Citations (1)
Title |
---|
中村 和明, 山本 眞司 伊藤 哲也: "ニューラルネットワークを用いた文書画像の領域分割", 画像電子学会誌, vol. 第28巻第2号(1999), JPN6023031674, 25 April 1999 (1999-04-25), JP, pages 106 - 115, ISSN: 0005123655 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022211064A1 (en) * | 2021-03-31 | 2022-10-06 | 株式会社デンソーウェーブ | Information reading device |
WO2023053718A1 (en) * | 2021-10-01 | 2023-04-06 | ソニーセミコンダクタソリューションズ株式会社 | Information processing device, information processing method, learning device, learning method, and computer program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6807471B2 (en) | Semantic segmentation model training methods and equipment, electronics, and storage media | |
CN109840531B (en) | Method and device for training multi-label classification model | |
US11468262B2 (en) | Deep network embedding with adversarial regularization | |
US11893781B2 (en) | Dual deep learning architecture for machine-learning systems | |
CN107111782B (en) | Neural network structure and method thereof | |
US11423297B2 (en) | Processing apparatus, processing method, and nonvolatile recording medium | |
US20170103308A1 (en) | Acceleration of convolutional neural network training using stochastic perforation | |
CN112633310A (en) | Method and system for classifying sensor data with improved training robustness | |
JP6946255B2 (en) | Learning device, estimation device, learning method and program | |
US20200042883A1 (en) | Dictionary learning device, dictionary learning method, data recognition method, and program storage medium | |
US20220067888A1 (en) | Image processing method and apparatus, storage medium, and electronic device | |
JP2021047797A (en) | Machine learning device, machine learning method, and program | |
Xie et al. | Rice: Refining instance masks in cluttered environments with graph neural networks | |
CN114187483A (en) | Method for generating countermeasure sample, training method of detector and related equipment | |
JP2021051589A5 (en) | ||
CN111242176B (en) | Method and device for processing computer vision task and electronic system | |
US20200151488A1 (en) | Storage medium having stored learning program, learning method, and learning apparatus | |
EP4174769A1 (en) | Method and apparatus for marking object outline in target image, and storage medium and electronic apparatus | |
JP2020177582A (en) | Leaning device, learning method, program, and recognition device | |
CN116580407A (en) | Training method of text detection model, text detection method and device | |
JP7431005B2 (en) | Learning data generation device, learning data generation method, and program | |
JP7376812B2 (en) | Data generation method, data generation device and program | |
CN113239909A (en) | Question processing method, device, equipment and medium | |
CN111402164A (en) | Training method and device for correcting network model, and text recognition method and device | |
JPWO2021038840A5 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191018 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220803 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231006 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240109 |