JP7377661B2 - Image semantic region segmentation device, region detection sensitivity improvement method, and program - Google Patents
Image semantic region segmentation device, region detection sensitivity improvement method, and program Download PDFInfo
- Publication number
- JP7377661B2 JP7377661B2 JP2019178591A JP2019178591A JP7377661B2 JP 7377661 B2 JP7377661 B2 JP 7377661B2 JP 2019178591 A JP2019178591 A JP 2019178591A JP 2019178591 A JP2019178591 A JP 2019178591A JP 7377661 B2 JP7377661 B2 JP 7377661B2
- Authority
- JP
- Japan
- Prior art keywords
- pixel
- image
- element type
- unit
- geometric
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000011218 segmentation Effects 0.000 title description 17
- 230000035945 sensitivity Effects 0.000 title description 8
- 238000001514 detection method Methods 0.000 title description 5
- 230000006872 improvement Effects 0.000 title description 2
- 230000013016 learning Effects 0.000 claims description 36
- 238000010801 machine learning Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Description
本発明は、画像の意味的領域分割装置、領域検知感度向上方法、及びプログラムに関する。 The present invention relates to an image semantic region segmentation device, a method for improving region detection sensitivity, and a program.
デジタル画像の意味的領域分割(または、セマンティック・セグメンテーションともいう)において、DCNN(Deep Convolutional Neural Network)を用いた機械学習によって、画像の特徴抽出を自動的に行わせる手法が、近年よく用いられる。 In recent years, in semantic region segmentation (also referred to as semantic segmentation) of digital images, a method of automatically extracting image features by machine learning using DCNN (Deep Convolutional Neural Network) has been frequently used.
例えば、書類をスキャナーやカメラ等によりデジタル画像化した文書画像を対象に、意味的領域分割を実施し、各画素のクラス(=要素種別)を判定するという課題がある。ここで、クラスとは、文字クラス、図形クラス、写真クラス、背景クラスなど、利用者が対象画像中で、意味的に区別したい分類種別に応じて定められるものである。 For example, there is a problem of performing semantic region segmentation on a document image obtained by converting the document into a digital image using a scanner, camera, etc., and determining the class (=element type) of each pixel. Here, the class is defined according to the classification type that the user wants to distinguish semantically in the target image, such as a character class, figure class, photograph class, or background class.
前記のDCNNにおける離散的2次元コンボリュージョン(Convolution、畳込み積分)演算は、画像パターンの空間的な形状の特徴を抽出するものである。例えば、DCNNにおけるConvolution演算は、水平なエッジ、垂直なエッジ、斜めのエッジ、矩形の角、円・・・等々の、画像を構成する基本的な形状特徴をそれぞれ抽出する手段となり得る。Convolution演算を用いることで、理想的には、あらゆる特徴パターンと、特徴の発生方向に対応した(全方向に対応した)特徴抽出力を持たせることができる。しかしながら、機械学習に基づく現実のConvolution(以下、学習型Convolutionともいう)においては、有限回の学習によって獲得した重みパラメータによって特徴抽出の特性が決まるため、完全に理想的なものにはならず、一定の偏りを含むのが普通である。一定の偏りとは、例えば、右45度のエッジに対する出力に比べて、左45度のエッジに対する出力がわずかに大きい、といった偏りである。 The discrete two-dimensional convolution (Convolution) operation in the DCNN described above is for extracting spatial shape features of an image pattern. For example, the Convolution operation in DCNN can be a means of extracting basic shape features constituting an image, such as horizontal edges, vertical edges, diagonal edges, rectangular corners, circles, etc. By using the convolution operation, it is ideally possible to have feature extraction power that is compatible with all feature patterns and the directions in which the features occur (compatible with all directions). However, in real convolution based on machine learning (hereinafter also referred to as learning-type convolution), the characteristics of feature extraction are determined by the weight parameters acquired through a finite number of learnings, so it is not completely ideal. It is normal to include a certain amount of bias. The constant bias is, for example, a bias in which the output for an edge at 45 degrees to the left is slightly larger than the output for an edge at 45 degrees to the right.
したがって、前記の学習型Convolutionを用いた意味的領域分割では、入力画像に対して、完全に線対称、あるいは回転対称な出力とはならないことがある。例えば、ある画像パターンAにおける領域分割結果と、パターンAを90度回転した画像における意味的領域分割結果は、理想的には一致すべきであるが、実際には、わずかに異なることがしばしば起こる。 Therefore, in the semantic region segmentation using the learning type convolution described above, the output may not be completely line-symmetric or rotationally symmetric with respect to the input image. For example, ideally, the region segmentation result for a certain image pattern A and the semantic region segmentation result for an image obtained by rotating pattern A by 90 degrees should match, but in reality, they often differ slightly. .
また、同様に、デジタル計算機上のConvolution計算は、離散的であるため、同じ入力画像パターンであっても、画像上の位置によって出力結果が異なる場合がある。例えば、あるパターンBの出力ラベルと、パターンBを1画素ずらした場合の出力ラベルが合致しないことがある。 Similarly, convolution calculations on a digital computer are discrete, so even if the input image pattern is the same, the output results may differ depending on the position on the image. For example, the output label of a certain pattern B may not match the output label of pattern B shifted by one pixel.
このような、機械学習によるConvolutionの現実的な特性により、意味的領域分割において、画像の回転や、上下反転、あるいは位置ずれ等が原因となり、本来検知されるべき画素が検知されないことがあり、結果的に検知感度の低下を招いている。 Due to the practical characteristics of convolution using machine learning, pixels that should be detected may not be detected due to rotation, vertical flipping, or positional shift of the image during semantic region segmentation. As a result, detection sensitivity is reduced.
特許文献1では、建築分野のコンクリート画像のセグメンテーション(領域分割)を、CNN(Convolutional Neural Network))を用いて実施しており、その精度を高めるために、第1の機械学習による画像特徴検出器と、第2機械学習による領域分割器を用いるという方法で対処している。
In
本発明が解決しようとする課題は、機械学習による画像の意味的領域分割において、離散的Convolutionに起因する、領域の検知感度の低下を防ぐことである。特に文書画像のような、比較的均一な背景の上に文字や図形などが配置された画像(=非自然画像)において顕著に効果を発揮することを狙いとしている。 The problem to be solved by the present invention is to prevent a decrease in region detection sensitivity due to discrete convolution in semantic region segmentation of an image using machine learning. The aim is to be particularly effective in images such as document images in which characters, figures, etc. are arranged on a relatively uniform background (=non-natural images).
特許文献1は、CNNを使ったセグメンテーション応用の例であるが、ここでは精度向上のために二つの機械学習器を使う方式である。二つの機械学習器を使用するため、その学習に要する計算時間やメモリ容量が肥大するという問題がある。また、同文献では、本件の背景技術で説明したような、機械学習によって得られる離散的Convolutionの特性をうまく活用していないという問題もある。
本発明では、前記のような離散的Convolutionの現実的な特性を考慮して上手く利用することにより、一つの機械学習器だけを用いて意味的領域分割の感度(精度ともいう)の向上を計る。 The present invention aims to improve the sensitivity (also called accuracy) of semantic region segmentation using only one machine learning machine by taking into account and effectively utilizing the realistic characteristics of discrete convolution as described above. .
本発明は、このような状況に鑑みてなされたもので、一つの機械学習器だけを用いて、意味的領域分割の感度を向上させることができる画像の意味的領域分割装置、領域検知感度向上方法、及びプログラムを提供する。 The present invention has been made in view of this situation, and provides an image semantic region segmentation device and region detection sensitivity improvement that can improve the sensitivity of semantic region segmentation using only one machine learning device. A method and program are provided.
本発明の上述した課題を解決するために、本発明は、文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得する取得部と、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素値を、画素がエッジである場合には第1画素値に変更し、画素がエッジでない場合には前記第1画素値とは異なる第2画素値に変更した変調画像を生成する生成部と、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、推定対象とする画像に関わらず同じ領域分割器を用いて推定する推定部(意味的領域分割を使用する部分)と、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける、画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素ごとの前記要素種別を決定する決定部と、を備える判定装置である。
本発明の上述した課題を解決するために、本発明は、文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得する取得部と、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素座標を移動させた変調画像を生成する生成部と、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、畳み込み積分層を有する学習済みモデルを用いて推定する推定する推定部(意味的領域分割を使用する部分)と、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける、画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素ごとの前記要素種別を決定する決定部と、を備える判定装置である。
In order to solve the above-mentioned problems of the present invention, the present invention includes an acquisition unit that acquires image information including pixel values for each pixel in a target image including characters and geometric figures; Based on the image information obtained, the pixel value of each pixel in the target image is changed to a first pixel value if the pixel is an edge, and the first pixel value is changed if the pixel is not an edge. a generation unit that generates a modulated image changed to a different second pixel value , and a pixel in the image is a character element indicating an element constituting a character or a geometric element indicating an element constituting a geometric figure; An estimation unit (meaning based on the result of estimating the element type for each pixel in each of the target image and the modulated image, which is estimated by the estimation unit. The determination device includes a determination unit that determines the element type.
In order to solve the above-mentioned problems of the present invention, the present invention includes an acquisition unit that acquires image information including pixel values for each pixel in a target image including characters and geometric figures; a generation unit that generates a modulated image by moving the pixel coordinates of each pixel in the target image based on the image information that has been The element type that distinguishes whether it is a geometric element that indicates an element that constitutes a geometric figure or a background element that indicates an element that constitutes a background that is not a character or a geometric figure has been learned with a convolution integral layer. An estimating unit that estimates using a model (a part that uses semantic region segmentation) estimates the element type for each pixel in each of the target image and the modulated image, which is estimated by the estimating unit. The determination device includes a determination unit that determines the element type for each pixel in the target image based on the result.
また、本発明は、上述の判定装置において、前記生成部は、前記対象画像における画素ごとの画素値を、当該画素がエッジであるか否かに応じて、予め定めた所定の画素値に変更する。 Further, in the above-mentioned determination device, the present invention provides that the generation unit changes the pixel value of each pixel in the target image to a predetermined pixel value depending on whether the pixel is an edge. do.
また、本発明は、上述の判定装置において、前記推定部は、学習済みモデルを用いて、画像における画素の前記要素種別を推定し、前記学習済みモデルは、学習用の画像である学習画像の画像情報と、前記学習画像における画素の前記要素種別とを対応付けた情報をデータセットとし、前記データセットを学習モデルに機械学習させた学習結果である。 Further, in the above-mentioned determination device, the present invention provides that the estimating unit estimates the element type of a pixel in an image using a trained model, and the trained model is a learning image that is a learning image. This is a learning result in which a data set is information that associates image information with the element type of a pixel in the learning image, and a learning model is subjected to machine learning on the data set.
また、本発明は、上述の判定装置において、前記決定部は、前記対象画像における所定画素の前記要素種別、及び前記変調画像における前記所定画素に対応する対応画素の前記要素種別のうち、少なくとも一方が前記文字要素である場合、前記所定画素の前記要素種別が前記文字要素であると決定し、所定画素の前記要素種別、及び前記対応画素の前記要素種別のうち、少なくとも一方が前記幾何学要素である場合、前記所定画素の前記要素種別が前記幾何学要素であると決定し、前記所定画素の前記要素種別、及び前記対応画素の前記要素種別が、共に前記背景要素である場合、前記所定画素の前記要素種別が前記背景要素であると決定する。 Further, in the above-mentioned determination device, the present invention provides at least one of the element type of a predetermined pixel in the target image and the element type of a corresponding pixel corresponding to the predetermined pixel in the modulated image. is the character element, the element type of the predetermined pixel is determined to be the character element, and at least one of the element type of the predetermined pixel and the element type of the corresponding pixel is the geometric element. If it is determined that the element type of the predetermined pixel is the geometric element, and the element type of the predetermined pixel and the element type of the corresponding pixel are both the background element, the predetermined The element type of the pixel is determined to be the background element.
また、本発明は、取得部が、文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得し、生成部が、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素値を、画素がエッジである場合には第1画素値に変更し、画素がエッジでない場合には前記第1画素値とは異なる第2画素値に変更した変調画像を生成し、推定部が、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、推定対象とする画像に関わらず同じ領域分割器を用いて推定し、決定部が、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素の前記要素種別を決定する判定方法である。
また、本発明は、取得部が、文字と幾何学的図形とを含む対象画像における、画素ごとの画素値を含む画像情報を取得し、生成部が、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素座標を移動させた変調画像を生成し、推定部が、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、畳み込み積分層を有する学習済みモデルを用いて推定し、決定部が、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素の前記要素種別を決定する判定方法である。
Further, the present invention provides an acquisition unit that acquires image information including a pixel value for each pixel in a target image including characters and geometric figures, and a generation unit that generates information about the image information acquired by the acquisition unit. , the pixel value of each pixel in the target image is changed to a first pixel value when the pixel is an edge, and a second pixel value different from the first pixel value when the pixel is not an edge. The estimator generates a modulated image changed to The determining unit estimates the element type to distinguish whether it is a background element indicating an element constituting a background that is not a geometric figure, using the same region divider regardless of the image to be estimated , and the determining unit This determination method determines the element type of a pixel in the target image based on the result of estimating the element type for each pixel in each of the target image and the modulated image.
Further, the present invention provides an acquisition unit that acquires image information including a pixel value for each pixel in a target image including characters and geometric figures, and a generation unit that generates information about the image information acquired by the acquisition unit. The estimator generates a modulated image in which the pixel coordinates of each pixel in the target image are moved based on A trained model with a convolutional integral layer is used to distinguish element types to distinguish between geometric elements indicating constituent elements and background elements indicating elements constituting backgrounds other than characters and geometric figures. and the determining unit determines the element type of the pixel in the target image based on the result of estimating the element type for each pixel in each of the target image and the modulated image, estimated by the estimating unit. This is a determination method.
また、本発明は、コンピュータを、上記に記載の判定装置として動作させるためのプログラムであって、前記コンピュータを前記判定装置が備える各部として機能させるためのプログラムである。 Further, the present invention is a program for causing a computer to operate as the determination device described above, and a program for causing the computer to function as each unit included in the determination device.
本発明によれば、画像内の文字と幾何学的図形とを区別することができる。 According to the present invention, characters and geometric figures in an image can be distinguished.
以下、発明の実施形態について図面を参照しながら説明する。 Embodiments of the invention will be described below with reference to the drawings.
領域分割装置10は、画像に示されている内容の意味的な種類ごとに、画像の領域を分割(意味的領域分割)する装置である。以下の説明では、意味的な種類として、画像に示されている、線、文字、背景の種類ごとに領域分割する場合を例示して説明する。しかしながら、画像に示される内容の意味的な種類は、これに限定されることはない。領域分割装置10は、線、文字、背景の他、例えば、画像、図形、記号、色、形状などの種別ごとに画像を領域分割してもよく、このような意味的な種類ごとに領域分割する場合にも、以下に説明する方法と同様な手法を適用することができる。
The region dividing
領域分割装置10は、画像の画素ごとに、当該画素が画像に示されている如何なる内容を構成する要素であるか判定し、判定した結果に基づいて、画像に示されている内容ごとに領域を分割する。すなわち、領域分割装置10は、画像における画素が画像に示されている如何なる内容を構成する要素であるか判定する、「判定装置」の一例である。例えば、領域分割装置10は、文字とそれ以外の要素との何れであるかを判定する。ここで、それ以外の要素とは、例えば、幾何学的図形である。幾何学的図形とは、幾何学的な図形であって、例えば、線、線分、一定条件を満たす状態で配置された記号の群などである。
The region dividing
図1は、実施形態に係る領域分割装置10の構成の例を示すブロック図である。領域分割装置10は、例えば、画像情報取得部11と、変調画像生成部12と、要素種別推定部13と、要素種別決定部14と、領域マップ生成部15と、マップ情報出力部16とを備える。ここで、画像情報取得部11は、「取得部」の一例である。変調画像生成部12は、「生成部」の一例である。要素種別推定部13は「推定部」の一例である。要素種別決定部14は、「決定部」の一例である。
FIG. 1 is a block diagram showing an example of the configuration of a
画像情報取得部11は、スキャン画像G11(図2参照)の画像情報を取得する。スキャン画像G11は、線、及び文字を含む画像である。線が組み合わされる、或いは線の一部が屈曲(或いは湾曲)されることで、罫線や枠線などが構成される場合もある。スキャン画像G11は、領域分割装置10による領域分割の対象とする画像である。すなわち、スキャン画像G11は、「対象画像」の一例である。
The image
スキャン画像G11は、例えばディスプレイやWeb上で表示される画像などを印刷した印刷画像G10(図2参照)をスキャナーで読み込むことにより作成された画像である。画像情報は、画素ごとに、画像に関する情報が対応付けられた情報であり、例えば、画素ごとのグレースケール値が示された情報、或いは、画素ごとのRGB値が示された情報などである。画像情報取得部11は、取得した画像情報を変調画像生成部12、及び要素種別推定部13に出力する。
The scanned image G11 is an image created by reading, for example, a printed image G10 (see FIG. 2), which is a printed image displayed on a display or the Web, with a scanner. The image information is information in which image-related information is associated with each pixel, such as information indicating a gray scale value for each pixel or information indicating RGB values for each pixel. The image
変調画像生成部12は、画像情報取得部11から取得した画像情報に基づいて、強調画像G12(図2参照)を生成する。強調画像G12は、スキャン画像G11における画素ごとの画素値(グレースケール値や、RGB値)を所定の変調条件に基づいて変更した画像であり、「変調画像」の一例である。
The modulated
変調画像生成部12は、例えば、スキャン画像G11のエッジを強調する強調処理を行った画像を強調画像G12として生成する。この場合、変調画像生成部12は、スキャン画像G11におけるエッジを検出する。変調画像生成部12は、従来行われている任意の手法によりエッジを検出する。例えば、変調画像生成部12は、スキャン画像G11にメディアンフィルタ処理を行ったものと、ガウシアンフィルタなどによる平滑化処理を行ったものとの差分を検出することにより、エッジを検出する。或いは、変調画像生成部12は、ラプラシアンフィルタやソーベル(Sobel)フィルタを適用することにより、スキャン画像G11におけるエッジを検出するようにしてもよい。
The modulated
変調画像生成部12は、検出したエッジをある特定の画素値(例えば、「黒」を示すグレースケール値や、RGB値)とし、その他のエッジとして検出されなかった画素の画素値を、別の特定の画素値(例えば、「白」を示すグレースケール値や、RGB値)に変更した強調画像G12を生成する。
The modulated
なお、強調画像G12は、上述したようなエッジを強調した画像に限定されることはない。強調画像G12は、所定の変調条件に応じて生成された画像であればよく、例えば、画像内の画素を、水平方向、又は/及び垂直方向に、所定の距離(例えば、所定の数の画素分に対応する距離)を移動させた画像であってもよい。変調画像生成部12は、生成した強調画像G12の画像情報を要素種別推定部13に出力する。
Note that the emphasized image G12 is not limited to an image with emphasized edges as described above. The emphasized image G12 may be any image generated according to predetermined modulation conditions, and for example, pixels within the image may be moved horizontally and/or vertically at a predetermined distance (for example, by a predetermined number of pixels). The image may also be an image that has been moved by a distance corresponding to minutes. The modulated
要素種別推定部13は、スキャン画像G11、及び強調画像G12のそれぞれについて、画素ごとの要素種別を推定する。要素種別は、画素が画像における如何なる種類を構成する要素であるかを示す情報であり、文字要素、線分要素、及び背景要素のいずれかを示す情報である。文字要素は、画素が画像における文字を構成する要素であることを示す。線分要素は、画素が画像における線分を構成する要素であることを示す。背景要素は、画素が画像における背景(線分ではなく、且つ文字ではないもの)を構成する要素であることを示す。ここで、線分要素は「幾何学要素」の一例である。
The element
要素種別推定部13は、例えば、機械学習の手法により画像における要素種別を推定する。例えば、要素種別推定部13は、学習済みモデルを用いて、画像における要素種別を推定する。学習済みモデルは、画像情報と、画素ごとの要素種別との関係を学習したモデルである。
The element
(DCNNの基本)
学習済みモデルの学習方法は、例えば、教師有り学習である。学習済みモデルは、学習用のデータセットを用いてDCNN(Deep Convolutional Neural Network)などのモデルを学習させることにより生成される。DCNNは、Convolution(畳込み積分)層を主要部分に使用する、深層形のニューラルネットワークである。画像認識においては、DCNNにて、入力層に2次元のConvolution層を使用する。これにより、着目画素とその近傍にある画素の双方の情報を加味した画像特徴情報を効率よく認識できる。画像認識においては、さらに、2次元Convolutionを重ねて多層化して適用する。これにより、着目画素の近傍だけでなく、より離れた画素の情報も加味した大域的な画像特徴情報も認識できる。
(DCNNの学習)
Convolution層の計算は、数学的な線形変換式(y=<W,x>+b)で表現することができる。すなわち、これは微分可能な計算式である。微分可能な計算層は、誤差逆伝播法として知られているニューラルネットの教師有り学習の原理を使って、学習を実行することが可能である。
(Basics of DCNN)
The learning method for the trained model is, for example, supervised learning. The trained model is generated by training a model such as a DCNN (Deep Convolutional Neural Network) using a training data set. DCNN is a deep neural network that mainly uses a convolution layer. In image recognition, a two-dimensional convolution layer is used as an input layer in DCNN. Thereby, image feature information that takes into account information about both the pixel of interest and pixels in its vicinity can be efficiently recognized. In image recognition, two-dimensional convolutions are further layered and applied. This makes it possible to recognize global image feature information that takes into account not only information in the vicinity of the pixel of interest but also information on pixels further away.
(Learning DCNN)
Convolution layer calculations can be expressed by a mathematical linear transformation formula (y=<W,x>+b). That is, this is a differentiable calculation formula. The differentiable computational layer can perform learning using the principle of supervised learning of neural networks known as error backpropagation.
DCNNでは、ある層のユニットから、より深い層のユニットにデータが出力される際に、ユニット同士を接続するノードの結合係数に応じた重みW、及びバイアス成分bが付与されたデータが出力される。学習モデルは、入力されたデータ(入力データ)に対し、各ユニット間の演算を行い、出力層から出力データを出力する。 In DCNN, when data is output from a unit in a certain layer to a unit in a deeper layer, the data is given a weight W according to the coupling coefficient of the node connecting the units and a bias component b. Ru. The learning model performs calculations between each unit on input data (input data), and outputs output data from the output layer.
本実施形態における学習用のデータセットは、入力としての画素情報と、その画素ごとの要素種別とを対応付けた情報である。 The learning data set in this embodiment is information that associates pixel information as input with an element type for each pixel.
学習の過程において、学習モデルに、学習用のデータセットの入力データを入力させる。学習モデルは、入力データに対して出力層から出力されるデータ(出力データ)が、学習用のデータセットの出力に近づくように、学習モデルのパラメータ(重みW及びバイアス成分b)を調整することにより、学習モデルを学習させる。 During the learning process, input data of a training dataset is input to the learning model. The learning model adjusts the parameters (weight W and bias component b) of the learning model so that the data output from the output layer (output data) with respect to the input data approaches the output of the training dataset. The learning model is trained.
例えば、DCNNモデルのパラメータ(重みW、及びバイアス成分b)の調整には、誤差逆伝搬法が用いられる。誤差逆伝搬法では、学習モデルの出力層から出力されるデータと、学習用データとセットの出力との乖離度合いが、損失関数として表現される。ここでの乖離度合いには、任意の指標が用いられてよいが、例えば、誤差の二乗(二乗誤差)やクロスエントロピー等が用いられる。誤差逆伝搬法では、出力層から入力層側に至る方向に、損失関数が最小となるように、重みWとバイアス成分bの値を決定(更新)する。これにより学習モデルを学習させ、推定の精度を向上させる。 For example, the error backpropagation method is used to adjust the parameters (weight W and bias component b) of the DCNN model. In the error backpropagation method, the degree of deviation between the data output from the output layer of the learning model and the output of the training data and set is expressed as a loss function. Any index may be used for the degree of deviation here, and for example, the square of the error (squared error), cross entropy, etc. may be used. In the error backpropagation method, the values of the weight W and the bias component b are determined (updated) so that the loss function is minimized in the direction from the output layer to the input layer side. This allows the learning model to learn and improves estimation accuracy.
なお、学習モデルは、DCNNに限定されることはない。学習モデルとして、例えば、CNN、決定木、階層ベイズ、SVM(Support Vector Machine)などの手法が用いられてもよい。 Note that the learning model is not limited to DCNN. As the learning model, for example, CNN, decision tree, hierarchical Bayes, SVM (Support Vector Machine), or other methods may be used.
要素種別推定部13は、学習済みモデルに画像情報を入力することにより、学習済みモデルからの出力(要素種別)を取得する。学習済みモデルからの出力は、例えば、「文字要素である可能性が12%、線分要素である可能性が80%、背景要素である可能性が8%」など、要素種別のそれぞれである可能性を、確立で示す情報である。変調画像生成部12は、学習済みモデルからの出力に基づいて、例えば、画素ごとの、最も高い確立で示される要素種別を、その画像における要素種別と推定する。
The element
要素種別推定部13は、学習済みモデルにスキャン画像G11の画像情報を入力することにより得られる出力に基づいて、スキャン画像G11における画素ごとの要素種別を推定し、推定結果を、要素種別決定部14に出力する。要素種別推定部13は、学習済みモデルに強調画像G12の画像情報を入力することにより得られる出力に基づいて、強調画像G12における画素ごとの要素種別を推定し、推定結果を、要素種別決定部14に出力する。
The element
なお、上記では、要素種別推定部13が機械学習の手法を用いて、画素ごとの要素種別を推定する場合を例に説明した。しかしながら、これに限定されることはない。要素種別推定部13は、機械学習の手法を用いない方法、例えば、ルールベースにより画素ごとの要素種別を推定するようにしてもよい。この場合、予め登録したルールに基づく推定がなされる。ここでのルールとは、画素の要素種別に応じた条件を規定するものであって、例えば、所定のグレースケール値の画素が、水平方向に所定の数、連続している場合、これらの画素を線分要素とする等のルールである。
Note that the above description has been made using an example in which the element
要素種別決定部14は、要素種別推定部13から取得した、スキャン画像G11及び強調画像G12の双方における、画素ごとの要素種別を推定した推定結果に基づいて、スキャン画像G11における要素種別を決定する。
The element
要素種別決定部14は、例えば、スキャン画像G11における所定の画素(所定画素)に対応する、強調画像G12の画素(対応画素)を取得する。所定画素と対応画素との関係は変調処理(所定の変調条件に対応する処理)に応じて任意に決定されてよい。例えば、変調処理がエッジを強調する処理である場合、所定画素と対応画素とは、それぞれの画像(スキャン画像G11と強調画像G12)において、それぞれの画像において同じ位置座標に位置する画素である。例えば、変調処理が、画像内の画素を、水平方向、又は/及び垂直方向に、所定の距離を移動させる処理である場合、所定画素と対応画素との関係は、所定画素の位置座標から所定の距離を移動させた位置が、対応画素の位置座標となる関係である。
The element
要素種別決定部14は、所定画素の推定結果と、対応画素の推定結果とに基づいて、所定画素の要素種別を推定する。要素種別決定部14は、所定画素の要素種別、及び対応画素の要素種別の少なくとも一方が文字要素であると推定されている場合、所定画素は文字要素であると決定する。すなわち、要素種別決定部14は、所定画素が文字要素と推定されている場合には、対応画素において推定された要素種別にかかわらず、当該所定画素を文字要素と決定する。また、要素種別決定部14は、対応画素が文字要素と推定されている場合には、所定画素において推定された要素種別にかかわらず、当該所定画素を文字要素と決定する。
The element
要素種別決定部14は、所定画素の要素種別、及び対応画素の要素種別の少なくとも一方が線分要素であると推定されている場合、所定画素は線分要素であると決定する。すなわち、要素種別決定部14は、所定画素が線分要素と推定されている場合には、対応画素において推定された要素種別にかかわらず、当該所定画素を線分要素と決定する。また、要素種別決定部14は、対応画素が線分要素と推定されている場合には、所定画素において推定された要素種別にかかわらず、当該所定画素を線分要素と決定する。
If at least one of the element type of the predetermined pixel and the element type of the corresponding pixel is estimated to be a line segment element, the element
要素種別決定部14は、所定画素の要素種別、及び対応画素の要素種別の双方が背景要素であると推定されている場合、所定画素は背景要素であると決定する。すなわち、要素種別決定部14は、所定画素が背景要素と推定され、且つ、対応画素が背景要素と推定されている場合に、当該所定画素を背景要素と決定する。要素種別決定部14は、スキャン画像G11において画素ごとに決定した要素種別を示す情報を、領域マップ生成部15に出力する。
The element
領域マップ生成部15は、要素種別決定部14からのスキャン画像G11において画素ごとに決定した要素種別を示す情報に基づいて、領域マップを生成する。領域マップは、画素に要素種別が対応づけられたマップ(画像)である。領域マップ生成部15は、例えば、要素種別ごとに領域マップを生成する。
領域マップ生成部15は、要素種別が文字要素である画素をある特定の色(例えば、黒)とし、文字要素ではない画素を、別の色(例えば、白)とすることにより、文字要素の領域マップを生成する。
領域マップ生成部15は、要素種別が線分要素である画素をある特定の色(例えば、黒)とし、線分要素ではない画素を、別の色(例えば、白)とすることにより、線分要素の領域マップを生成する。
領域マップ生成部15は、要素種別が背景要素である画素をある特定の色(例えば、黒)とし、背景要素ではない画素を、別の色(例えば、白)とすることにより、背景要素の領域マップを生成する。
領域マップ生成部15は、生成した領域マップを示す情報を記憶部(不図示)に記憶させる。
The area
The area
The area
The area
The area
マップ情報出力部16は、ユーザの操作などに応じて記憶部を参照し、所定の領域マップを示す情報を出力する。マップ情報出力部16は、領域分割装置10に接続されたディスプレイに領域マップを示す情報を出力することにより領域マップを表示させるようにしてもよい。また、マップ情報出力部16は、領域分割装置10に接続されたプリンタに領域マップを示す情報を出力することにより、領域マップを印刷するようにしてもよい。
The map information output unit 16 refers to the storage unit according to a user's operation and outputs information indicating a predetermined area map. The map information output unit 16 may display the area map by outputting information indicating the area map to a display connected to the
図2は、実施形態に係る領域分割装置10が行う処理を説明する図である。
図2に示すように、印刷画像G10は、例えば、「あいうえお」、「X」、「ABC」などの文字、及び、複数の線分が組み合わされた枠線が示されている画像である。この例に示すように、印刷画像G10には、太字や細字の文字が混在していてもよいし、文字の色や背景色が異なる文字が混在していてもよい。また、枠の中に文字が記載されていてもよいし、枠の中に更に枠線が描画されていてもよい。
スキャン画像G11(「対象画像」の一例)は、例えば、スキャナーによる読み取りの際に画像全体にノイズが生じ、印刷画像G10において白で示されていた部分が薄い灰色に、黒で示されていた文字や背景の色が濃い灰色に変化したような画像である。
FIG. 2 is a diagram illustrating processing performed by the
As shown in FIG. 2, the print image G10 is an image in which, for example, characters such as "AIUEO", "X", and "ABC" are shown, as well as a frame line that is a combination of a plurality of line segments. As shown in this example, the print image G10 may include a mixture of bold and thin characters, and may also include characters with different character colors and background colors. Furthermore, characters may be written within the frame, or a frame line may be further drawn within the frame.
In the scanned image G11 (an example of a "target image"), for example, noise occurred throughout the image when it was read by a scanner, and the parts shown in white in the printed image G10 were shown in light gray and black. This is an image in which the text and background appear to have changed to a dark gray color.
変調画像生成部12は、スキャン画像G11の画像情報に基づいて、所定の処理(ここでは「変調処理」と記載)を行うことにより、強調画像G12を生成する。強調画像G12は、例えば、文字のエッジ、及び枠線のエッジが共に強調された画像である。この例では、スキャン画像G11において太字で記載された文字は、その文字の色にかかわらず、強調画像G12において、いわゆる白抜き文字のように変換されている。また、スキャン画像G11において細字で示されていた文字は、強調画像G12でそのまま文字の形状に沿って示される。また、スキャン画像G11において太めのラインで描画されていた線分は、強調画像G12において二重の枠のように変換されている。
The modulated
要素種別推定部13(図2では、領域分割器(処理)と記載)は、スキャン画像G11、について、画素ごとの要素種別を推定する。要素種別推定部13は、推定結果としてのスキャン画像G11の推定領域マップM10を出力する。推定領域マップM10は、スキャン画像G11の画素ごとに、推定した要素種別が対応付けられたマップ(画像)である。このように、要素種別推定部13は、推定結果を、マップ(画像)の形式にて出力するようにしてもよい。
The element type estimating unit 13 (described as region divider (processing) in FIG. 2) estimates the element type for each pixel in the scan image G11. The element
また、要素種別推定部13は、強調画像G12について、画素ごとの要素種別を推定する。要素種別推定部13は、推定結果としての強調画像G12の推定領域マップM11を出力する。推定領域マップM11は、強調画像G12の画素ごとに、推定した要素種別が対応付けられたマップ(画像)である。このように、要素種別推定部13は、推定結果を、マップ(画像)の形式にて出力するようにしてもよい。
Furthermore, the element
要素種別決定部14は、推定領域マップM10、及びM11を合成することにより、スキャン画像G11の画素ごとの要素種別を決定する。ここでの合成は、上述したような、スキャン画像G11における所定画素の推定結果と、強調画像G12における対応画素の推定結果に応じて所定画素の要素種別が決定される処理が行われることを示している。
領域マップ生成部15は、要素種別決定部14により決定された、スキャン画像G11の画素ごとの要素種別に基づいて、スキャン画像G11の領域マップM12を生成する。
The element
The area
図3は、実施形態に係る領域分割装置10が行う処理の流れを示すフローチャートである。領域分割装置10の画像情報取得部11は、スキャン画像G11の画像情報を取得する(ステップS10)。変調画像生成部12は、スキャン画像G11の画像情報に基づいて、強調画像G12を生成する(ステップS11)。要素種別推定部13は、スキャン画像G11の画像情報に基づいて、スキャン画像G11における画素の要素種別を推定する(ステップS12)。要素種別推定部13は、強調画像G12の画像情報に基づいて、強調画像G12における画素の要素種別を推定する(ステップS13)。要素種別決定部14は、スキャン画像G11、及び強調画像G12における、それぞれの画素の要素種別の推定結果に基づいて、スキャン画像G11における画素ごとの要素種別を決定する(ステップS14)。領域マップ生成部15は、スキャン画像G11における画素ごとの要素種別に基づいて、要素種別ごとの領域マップM12を生成する(ステップS15)。
FIG. 3 is a flowchart showing the flow of processing performed by the
なお、上述したフローでは、ステップS12にて、スキャン画像G11における画素の要素種別を推定した後に、ステップS13にて、強調画像G12における画素の要素種別を推定する場合の例をしめしたが、ステップS13に示す処理が行われた後に、ステップS13に示す処理が行われてもよい。 Note that in the above-described flow, an example is shown in which the element type of the pixel in the scanned image G11 is estimated in step S12, and then the element type of the pixel in the emphasized image G12 is estimated in step S13. After the process shown in S13 is performed, the process shown in step S13 may be performed.
以上説明したように、実施形態の領域分割装置10は、画像情報取得部11と、変調画像生成部12と、要素種別推定部13と、要素種別決定部14とを備える。画像情報取得部11は、スキャン画像G11の画像情報を取得する。変調画像生成部12は、スキャン画像G11における画素ごとの画素値を、所定の変調条件に応じて変更した強調画像G12を生成する。要素種別推定部13は、画像における画素ごとの要素種別を推定する。要素種別決定部14は、画像における画素ごとの要素種別を推定した推定結果に基づいて、スキャン画像G11の要素種別を決定する。これにより、実施形態の領域分割装置10では、スキャン画像G11の要素種別として、文字要素と線分要素とを決定することができる。
As described above, the
ここで、比較例として、スキャン画像G11の推定結果のみを用いて、要素種別を決定する構成を考える。一般に、学習済みモデルを用いて推定を行う場合、学習用のデータセットと同じか、或いは類似する入力については精度よく推定を行うことができる。一方、学習用のデータセットにない入力について、精度よく推定を行うことが困難である。このため、スキャン画像G11の画像情報に、学習用のデータセットにはなかった画素の配置パターンが含まれていた場合、そのパターンに含まれる画素や、そのパターン周辺の画素の推定結果に誤りがある可能性が高い。学習済みモデルを学習し直さない限り、推定結果が変化することはないため、このような場合には、推定の精度を向上させることはできない。すなわち、スキャン画像G11の画像情報と、学習用のデータセットの内容とが乖離する部分について精度よく推定することが困難となってしまう。学習済みモデルの代わりにルールベースの推定(判定)結果を用いる場合でも同様である。 Here, as a comparative example, consider a configuration in which the element type is determined using only the estimation result of the scan image G11. Generally, when performing estimation using a trained model, it is possible to perform estimation with high accuracy for inputs that are the same as or similar to the training dataset. On the other hand, it is difficult to accurately estimate inputs that are not in the learning dataset. Therefore, if the image information of scanned image G11 includes a pixel arrangement pattern that was not in the training dataset, errors may occur in the estimation results for pixels included in that pattern or pixels around that pattern. There is a high possibility that there is. Since the estimation results will not change unless the trained model is retrained, the estimation accuracy cannot be improved in such a case. That is, it becomes difficult to accurately estimate a portion where the image information of the scan image G11 and the content of the learning data set deviate. The same holds true even when a rule-based estimation (determination) result is used instead of a learned model.
これに対し、本実施形態の領域分割装置10では、スキャン画像G11の推定結果と、強調画像G12の推定結果を用いて、スキャン画像G11の要素種別を決定する。強調画像G12は、スキャン画像G11に所定の変調処理を行うことで生成された画像である。こうすることで、スキャン画像G11の特定の画素について推定結果に誤りがある場合であっても、強調画像G12の対応する画素については精度よく推定することができる可能性がある。すなわち、スキャン画像G11の推定結果と、強調画像G12の推定結果を用いることで、スキャン画像G11の画像情報と、学習用のデータセットの内容とが乖離する部分についても、精度よく推定することが可能となる。すなわち、一つの機械学習器だけを用いて、意味的領域分割の感度を向上させることが可能である。
In contrast, in the
また、本実施形態の領域分割装置10では、変調画像生成部12は、スキャン画像G11における画素ごとの画素値を、当該画素がエッジであるか否かに応じて、予め定めた所定の画素値に変更する。これにより、実施形態の領域分割装置10は、文字要素、線分要素のエッジを強調させた強調画像G12を生成することができる。したがって、スキャン画像G11の画像情報のみでは精度のよい推定が困難となるような文字、或いは線分が存在する場合であっても、文字要素、及び線分要素を強調させた場合の推定結果を用いて、精度よく推定することが可能となる。
Furthermore, in the
また、本実施形態の領域分割装置10では、要素種別推定部13は、学習済みモデルを用いて、画像における画素の要素種別を推定する。学習済みモデルは、学習用の画像である学習画像の画像情報と、前記学習画像における画素の前記要素種別とを対応付けた情報をデータセットとし、データセットを学習モデルに機械学習させた学習結果である。これにより、本実施形態の領域分割装置10では、学習済みモデルに画像情報を入力するという容易な方法により、要素種別を推定することができる。
Furthermore, in the
また、本実施形態の領域分割装置10では、要素種別決定部14は、スキャン画像G11における所定画素の要素種別、及び強調画像G12における対応画素の要素種別のうち、少なくとも一方が文字要素である場合、所定画素が文字要素であると決定する。要素種別決定部14は、スキャン画像G11における所定画素の要素種別、及び強調画像G12における対応画素の要素種別のうち、少なくとも一方が線分要素である場合、所定画素が線分要素であると決定する。要素種別決定部14は、スキャン画像G11における所定画素の要素種別、及び強調画像G12における対応画素の要素種別が共に、背景要素である場合、所定画素が背景要素であると決定する。これにより、本実施形態の領域分割装置10では、スキャン画像G11の画像情報のみでは、精度のよい推定が困難となるような線分、或いは文字が存在する場合であっても、線分要素、及び文字要素を強調させた場合の推定結果を用いて、精度よく推定することが可能となる。
Furthermore, in the
上述した実施形態における領域分割装置10の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
All or part of the
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiments of the present invention have been described above in detail with reference to the drawings, the specific configuration is not limited to these embodiments, and includes designs within the scope of the gist of the present invention.
10…領域分割装置
11…画像情報取得部(取得部)
12…変調画像生成部(生成部)
13…要素種別推定部(推定部)
14…要素種別決定部(決定部)
15…領域マップ生成部
16…マップ情報出力部
10...
12...Modulated image generation unit (generation unit)
13... Element type estimation section (estimation section)
14...Element type determination section (determination section)
15... Area map generation unit 16... Map information output unit
Claims (7)
前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素値を、画素がエッジである場合には第1画素値に変更し、画素がエッジでない場合には前記第1画素値とは異なる第2画素値に変更した変調画像を生成する生成部と、
画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、推定対象とする画像に関わらず同じ領域分割器を用いて推定する推定部と、
前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける、画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素ごとの前記要素種別を決定する決定部と、
を備える判定装置。 an acquisition unit that acquires image information including pixel values for each pixel in a target image including characters and geometric figures;
Based on the image information acquired by the acquisition unit, the pixel value of each pixel in the target image is changed to the first pixel value when the pixel is an edge, and the pixel value is changed to the first pixel value when the pixel is not an edge. a generation unit that generates a modulated image changed to a second pixel value different from the first pixel value ;
Pixels in the image are character elements that represent elements that constitute characters, geometric elements that represent elements that constitute geometric figures, or elements that constitute background that are not characters or geometric figures. an estimation unit that estimates an element type to distinguish whether it is a background element using the same region divider regardless of the image to be estimated ;
a determining unit that determines the element type for each pixel in the target image based on the result of estimating the element type for each pixel in each of the target image and the modulated image, which is estimated by the estimating unit;
A determination device comprising:
前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素座標を移動させた変調画像を生成する生成部と、
画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、畳み込み積分層を有する学習済みモデルを用いて推定する推定部と、
前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける、画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素ごとの前記要素種別を決定する決定部と、
を備える判定装置。 an acquisition unit that acquires image information including pixel values for each pixel in a target image including characters and geometric figures;
a generation unit that generates a modulated image in which pixel coordinates in the target image are moved based on the image information acquired by the acquisition unit;
Pixels in the image are character elements that represent elements that constitute characters, geometric elements that represent elements that constitute geometric figures, or elements that constitute background that are not characters or geometric figures. an estimation unit that estimates an element type to distinguish whether it is a background element using a trained model having a convolutional integral layer ;
a determining unit that determines the element type for each pixel in the target image based on the result of estimating the element type for each pixel in each of the target image and the modulated image, which is estimated by the estimating unit;
A determination device comprising:
前記学習済みモデルは、学習用の画像である学習画像の画像情報と、前記学習画像における画素の前記要素種別とを対応付けた情報をデータセットとし、前記データセットを学習モデルに機械学習させた学習結果である、
請求項1に記載の判定装置。 The estimation unit estimates the element type of the pixel in the image using the learned model,
The trained model has a data set that includes image information of a learning image, which is a learning image, and information that associates the element type of a pixel in the learning image, and has the learning model perform machine learning on the data set. The learning result is
The determination device according to claim 1 .
前記対象画像における所定画素の前記要素種別、及び前記変調画像における前記所定画素に対応する対応画素の前記要素種別のうち、少なくとも一方が前記文字要素である場合、前記所定画素の前記要素種別が前記文字要素であると決定し、
所定画素の前記要素種別、及び前記対応画素の前記要素種別のうち、少なくとも一方が前記幾何学要素である場合、前記所定画素の前記要素種別が前記幾何学要素であると決定し、
前記所定画素の前記要素種別、及び前記対応画素の前記要素種別が、共に前記背景要素である場合、前記所定画素の前記要素種別が前記背景要素であると決定する、
請求項1から請求項3のいずれか一項に記載の判定装置。 The determining unit is
When at least one of the element type of the predetermined pixel in the target image and the element type of the corresponding pixel corresponding to the predetermined pixel in the modulated image is the character element, the element type of the predetermined pixel is It is determined that it is a character element,
If at least one of the element type of the predetermined pixel and the element type of the corresponding pixel is the geometric element, determining that the element type of the predetermined pixel is the geometric element,
When the element type of the predetermined pixel and the element type of the corresponding pixel are both the background element, determining that the element type of the predetermined pixel is the background element;
The determination device according to any one of claims 1 to 3.
生成部が、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素ごとの画素値を、画素がエッジである場合には第1画素値に変更し、画素がエッジでない場合には前記第1画素値とは異なる第2画素値に変更した変調画像を生成し、
推定部が、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、推定対象とする画像に関わらず同じ領域分割器を用いて推定し、
決定部が、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素の前記要素種別を決定する、
判定方法。 the acquisition unit acquires image information including a pixel value for each pixel in a target image including characters and geometric figures;
A generation unit changes the pixel value of each pixel in the target image to a first pixel value when the pixel is an edge, and when the pixel is not an edge, based on the image information acquired by the acquisition unit. generate a modulated image with a second pixel value different from the first pixel value ,
The estimation unit determines whether the pixels in the image are character elements representing elements that constitute a character, geometric elements representing elements that constitute a geometric figure, or constitute a background that is not a character or a geometric figure. The element type that distinguishes whether an element is a background element or not is estimated using the same region divider regardless of the image to be estimated ,
a determining unit determining the element type of the pixel in the target image based on the result of estimating the element type for each pixel in each of the target image and the modulated image, estimated by the estimating unit;
Judgment method.
生成部が、前記取得部により取得された前記画像情報に基づいて、前記対象画像における画素座標を移動させた変調画像を生成し、
推定部が、画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を、畳み込み積分層を有する学習済みモデルを用いて推定し、
決定部が、前記推定部により推定された、前記対象画像及び前記変調画像のそれぞれにおける画素ごとの前記要素種別を推定した結果に基づいて、前記対象画像における画素の前記要素種別を決定する、
判定方法。 the acquisition unit acquires image information including a pixel value for each pixel in a target image including characters and geometric figures;
a generation unit generates a modulated image in which pixel coordinates in the target image are moved based on the image information acquired by the acquisition unit;
The estimation unit determines whether the pixels in the image are character elements representing elements that constitute a character, geometric elements representing elements that constitute a geometric figure, or constitute a background that is not a character or a geometric figure. Estimating the element type that distinguishes whether the element is a background element or not using a trained model having a convolutional integral layer ,
a determining unit determining the element type of the pixel in the target image based on the result of estimating the element type for each pixel in each of the target image and the modulated image, estimated by the estimating unit;
Judgment method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178591A JP7377661B2 (en) | 2019-09-30 | 2019-09-30 | Image semantic region segmentation device, region detection sensitivity improvement method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178591A JP7377661B2 (en) | 2019-09-30 | 2019-09-30 | Image semantic region segmentation device, region detection sensitivity improvement method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021056721A JP2021056721A (en) | 2021-04-08 |
JP7377661B2 true JP7377661B2 (en) | 2023-11-10 |
Family
ID=75270894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019178591A Active JP7377661B2 (en) | 2019-09-30 | 2019-09-30 | Image semantic region segmentation device, region detection sensitivity improvement method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7377661B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002112022A (en) | 2000-09-28 | 2002-04-12 | Minolta Co Ltd | Image formation device, image formation method, and recording medium capable of reading computer recording image formation program |
JP2017118480A (en) | 2015-07-24 | 2017-06-29 | 株式会社リコー | Image processing device, image processing method and program |
-
2019
- 2019-09-30 JP JP2019178591A patent/JP7377661B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002112022A (en) | 2000-09-28 | 2002-04-12 | Minolta Co Ltd | Image formation device, image formation method, and recording medium capable of reading computer recording image formation program |
JP2017118480A (en) | 2015-07-24 | 2017-06-29 | 株式会社リコー | Image processing device, image processing method and program |
Also Published As
Publication number | Publication date |
---|---|
JP2021056721A (en) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8457403B2 (en) | Method of detecting and correcting digital images of books in the book spine area | |
JP5566811B2 (en) | Deblurring and surveillance adaptive thresholding for image evaluation of printed and scanned documents | |
US9928439B2 (en) | Facilitating text identification and editing in images | |
US10748023B2 (en) | Region-of-interest detection apparatus, region-of-interest detection method, and recording medium | |
Hua et al. | Extended guided filtering for depth map upsampling | |
JP6781406B2 (en) | Image processing equipment and computer programs | |
JP4772819B2 (en) | Image search apparatus and image search method | |
WO2019056346A1 (en) | Method and device for correcting tilted text image using expansion method | |
CN110503704B (en) | Method and device for constructing three-dimensional graph and electronic equipment | |
CN102737240B (en) | Method of analyzing digital document images | |
CN111062317A (en) | Method and system for cutting edges of scanned document | |
US20230162413A1 (en) | Stroke-Guided Sketch Vectorization | |
JP6542230B2 (en) | Method and system for correcting projected distortion | |
US11410278B2 (en) | Automatic artifact removal in a digital image | |
JP4214507B2 (en) | Data processing method, apparatus, program, and recording medium | |
JP2010074342A (en) | Image processing apparatus, image forming apparatus, and program | |
JP7377661B2 (en) | Image semantic region segmentation device, region detection sensitivity improvement method, and program | |
CN106056575B (en) | A kind of image matching method based on like physical property proposed algorithm | |
JP4857975B2 (en) | Image processing system and image processing program | |
Konya et al. | Adaptive methods for robust document image understanding | |
JP2021026729A (en) | Image processing apparatus and learned machine learning model | |
Soumya et al. | Enhancement and segmentation of historical records | |
JP6841254B2 (en) | Image processing equipment and computer programs | |
JP6879465B2 (en) | Image processing equipment and computer programs | |
JP2023005711A (en) | Information processing device, information processing method and program, and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191031 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220803 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231030 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7377661 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |