JP7431005B2 - 学習データ生成装置、学習データ生成方法、及びプログラム - Google Patents

学習データ生成装置、学習データ生成方法、及びプログラム Download PDF

Info

Publication number
JP7431005B2
JP7431005B2 JP2019171710A JP2019171710A JP7431005B2 JP 7431005 B2 JP7431005 B2 JP 7431005B2 JP 2019171710 A JP2019171710 A JP 2019171710A JP 2019171710 A JP2019171710 A JP 2019171710A JP 7431005 B2 JP7431005 B2 JP 7431005B2
Authority
JP
Japan
Prior art keywords
image
geometric
character
generation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019171710A
Other languages
English (en)
Other versions
JP2021047816A (ja
Inventor
美恵 大串
貴広 馬場
陽太 ▲高▼岡
英雄 寺田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Open Stream Inc
Original Assignee
Open Stream Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Open Stream Inc filed Critical Open Stream Inc
Priority to JP2019171710A priority Critical patent/JP7431005B2/ja
Publication of JP2021047816A publication Critical patent/JP2021047816A/ja
Application granted granted Critical
Publication of JP7431005B2 publication Critical patent/JP7431005B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、学習データ生成装置、学習データ生成方法、及びプログラムに関する。
近年、文書画像に対する文字認識により、当該文書画像における文字や幾何学的図形等を認識する技術が各種提案されている。
例えば、下記特許文献1には、機械学習を利用して文書画像の所定の領域の画素が文字を示す文字画素であるか否かを判定する技術が開示されている。当該技術では、文書画像を入力された機械学習モデルが文書画像の画素ごとに文字を示す画素であるか否かを判定し、文字を示す画素が所定の領域を占める範囲に応じて、所定の領域が文字を示す領域であるか否かを判定する。
特開2019-57803号公報
機械学習を利用した画像認識の精度は、機械学習モデルの学習時のデータ量が多いほど向上する。そのため、文書画像のレイアウトの認識の精度を向上するには、多様なレイアウトの画像データがより多く用意されることが望ましい。当該画像データは、例えば、文書画像等の印刷物をスキャンすることで生成される。そのため、多様なレイアウトの画像データを用意するには、多様なレイアウトの印刷物をより多く用意する必要がある。しかしながら、文書画像等のレイアウトは限りなく存在するため、多様なレイアウトの印刷物を用意することには時間と労力を要する。また、教師有り学習においては、画像データごとに教師データを用意する必要があるため、さらに時間と労力を要する。
上述の課題を鑑み、本発明の目的は、文書画像認識のための機械学習における多様な学習データを効率よく用意することが可能な学習データ生成装置、学習データ生成方法、及びプログラムを提供することにある。
上述の課題を解決するために、本発明の一態様に係る学習データ生成装置は、画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成する画像データ生成部と、生成された前記画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか1つを対応付けた情報を、前記機械学習における教師データとして生成する教師データ生成部と、を備える。
本発明の一態様に係る学習データ生成方法は、画像データ生成部が、画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成することと、教師データ生成部が、生成された前記画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか1つを対応付けた情報を、前記機械学習における教師データとして生成することと、を含む。
本発明の一態様に係るプログラムは、コンピュータを、画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成する画像データ生成部と、生成された前記画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか1つを対応付けた情報を、前記機械学習における教師データとして生成する教師データ生成部と、として機能させる。
本発明によれば、文書画像認識のための機械学習における多様な学習データを効率よく用意することができる。
本発明の実施形態に係る学習データ生成装置の構成例を示すブロック図である。 同実施形態に係る学習データの生成例を示す図である。 同実施形態に係る学習データ生成装置における処理の流れを示すフローチャートである。
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
<学習データ生成装置の構成例>
まず、図1を参照しながら、本実施形態に係る学習データ生成装置について説明する。図1は、本発明の実施形態に係る学習データ生成装置10の構成例を示すブロック図である。
学習データ生成装置10は、機械学習に用いられる学習データを生成する機能を有する装置である。以下では、画像における画素ごとの要素種別を判定する学習済みモデルを生成する際に用いられる学習データを学習データ生成装置10が生成する例について説明する。
要素種別とは、画像における各画素が如何なる種類を構成する要素であるかを示す情報であり、文字要素、線分要素、及び背景要素のいずれかを示す情報である。文字要素は、画素が画像における文字領域を構成する要素であることを示す。線分要素は、画素が画像における線分を構成する要素であることを示す。背景要素は、画素が画像における背景(線分ではなく、且つ文字領域ではないもの)を構成する要素であることを示す。ここで、線分要素は「幾何学要素」の一例である。
学習済みモデルは、画像における各画素が画像に示されている如何なる内容を構成する要素であるか判定する装置(以下、「判定装置」とも称される)に用いられ得る。例えば、判定装置は、画像における画素が文字とそれ以外の要素との何れであるかを判定する。ここで、それ以外の要素とは、例えば、幾何学的図形である。幾何学的図形とは、幾何学的な図形であって、例えば、線、線分、一定条件を満たす状態で配置された記号の群等である。
画像は、線、及び文字を含む画像である。線が組み合わされる、或いは線の一部が屈曲(或いは湾曲)されることで、罫線や枠線等が構成される場合もある。画像は、判定装置による判定の対象となる画像である。すなわち、画像は、「対象画像」の一例である。
学習済みモデルは、対象画像が入力されると、対象画像における画素の要素種別を判定する。学習済みモデルは、入力された対象画像の画素の要素種別を判定するために、あらかじめ学習データを用いた機械学習を行った上で生成される。当該学習データは、学習データ生成装置10によって生成される。
学習データ生成装置10は、例えば、教師有り学習における学習用のデータセットを生成する。データセットは、入力データと、当該入力データと対応する教師データのセットである。入力データは、学習時の入力となるデータである。本実施形態に係る入力データは、文字と幾何学的図形とを含む画像である。教師データは、入力データに基づき出力される出力データの正解を示すデータである。本実施形態に係る教師データは、入力データである画像の各画素と、当該画素の要素種別とを対応付けた情報である。
(DCNNの基本)
教師有り学習における学習済みモデルは、学習用のデータセットを用いてDCNN(Deep Convolutional Neural Network)などのモデルを学習させることにより生成される。DCNNは、Convolution(畳込み積分)層を主要部分に使用する深層形のニューラルネットワークである。画像認識においては、DCNNにて入力層に2次元のConvolution層を使用することにより、着目画素とその近傍にある画素の双方の情報を加味した画像特徴情報を効率よく認識できる。さらに2次元Convolutionを重ねて多層化して適用することにより、着目画素の近傍だけでなく、より離れた画素の情報も加味した大域的な画像特徴情報も認識できることが知られている。
(DCNNの学習)
Convolution層の計算は、数学的な線形変換式(y=<W,x>+b)で表現することができる。すなわち、これは微分可能な計算式である。微分可能な計算層は、誤差逆伝播法として知られているニューラルネットの教師有り学習の原理を使って、学習を実行することが可能である。
DCNNでは、ある層のユニットから、より深い層のユニットにデータが出力される際に、ユニット同士を接続するノードの結合係数に応じた重みW、及びバイアス成分bが付与されたデータが出力される。学習モデルは、入力されたデータ(入力データ)に対し、各ユニット間の演算を行い、出力層から出力データを出力する。
本実施形態における学習用のデータセットは、入力としての画像情報と、その画素ごとの要素種別とを対応付けた情報である。
学習の過程において、学習モデルに、学習用のデータセットの入力データを入力させる。学習モデルは、入力データに対して出力層から出力されるデータ(出力データ)が、学習用のデータセットの出力(教師データ)に近づくように、学習モデルのパラメータ(重みW及びバイアス成分b)を調整することにより、学習モデルを学習させる。
例えば、DCNNモデルのパラメータ(重みW、及びバイアス成分b)の調整には、誤差逆伝搬法が用いられる。誤差逆伝搬法では、学習モデルの出力層から出力されるデータと、学習用のデータセットの出力との乖離度合いが、損失関数として表現される。ここでの乖離度合いには、任意の指標が用いられてよいが、例えば、誤差の二乗(二乗誤差)やクロスエントロピー等が用いられる。誤差逆伝搬法では、出力層から入力層側に至る方向に、損失関数が最小となるように、重みWとバイアス成分bの値を決定(更新)する。これにより学習モデルを学習させ、判定の精度を向上させる。
なお、学習モデルは、DCNNに限定されることはない。学習モデルとして、例えば、決定木、階層ベイズ、SVM(Support Vector Machine)などの手法が用いられてもよい。
学習データ生成装置10は、学習データを生成する機能を実現するために、図1に示すように、画像データ生成部110及び教師データ生成部120を備える。
(画像データ生成部110)
画像データ生成部110は、生成条件に基づき、機械学習における入力用の画像データを生成する機能を有する。例えば、画像データ生成部110は、生成条件に基づき、文字と幾何学的図形とを含む画像を生成する。生成後、画像データ生成部110は、生成した画像を例えば記憶装置(不図示)へ出力し、記憶装置に画像を保存させる。
なお、生成条件は、ユーザにより設定されてもよいし、画像データ生成部110により自動で設定されてもよい。ユーザは、例えば、キーボードやタッチパネル等の入力インタフェースを介して生成条件を入力することで生成条件を設定する。画像データ生成部110は、例えば、設定項目をランダムに変更することで生成条件をランダムに設定してもよいし、ユーザに指定された条件に基づき生成条件を設定してもよい。
生成条件は、多様な条件の組み合わせにより設定される。主な生成条件の一例として、画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件が挙げられる。
画像生成条件は、具体的に、生成する画像のサイズの設定である。文字生成条件は、具体的に、生成する文字のフォント、サイズ、太さ、数、位置、及び反転の有無等の設定である。幾何学的図形生成条件は、具体的に、生成する幾何学的図形の種類、サイズ、数、太さ、位置、境界の線種(例えば実践、点線等)、塗りつぶしの条件(例えば白塗り、ベタ塗り等)、及びコーナーの形状(例えば角、ラウンド等)等の設定である。背景生成条件は、具体的に、背景パターンの有無及び背景の種類等の設定である。
画像データ生成部110は、上述した画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件の組み合わせに基づき、文字と幾何学的図形とを含む画像を入力用の画像データとして生成する。これにより、画像データ生成部110は、上述の条件が組み合わされた多様な生成条件に応じて、多様な画像を入力用の画像データとして生成することができる。
なお、生成条件は、かかる例に限定されず、その他の条件が設定されてもよい。例えば、ノイズの追加の有無が設定されてもよい。ノイズの追加が有りに設定された場合、画像データ生成部110は、ノイズの追加を行う設定も組み合わせた生成条件に基づき、文字と幾何学的図形に加えてノイズをさらに含む画像を生成する。これにより、画像データには、例えばスキャナーで印刷物がスキャンされた際に生じるノイズが再現される。よって、画像データ生成部110は、より現実的な画像データを生成することができる。
スキャンにより生じるノイズは、例えば、ドットや線状のもので、画像の全体に均等に生じたり、部分的に生じたりする。ノイズの種類は、一例として、ガウシアンノイズ、インパルスノイズ、スキャナーの読込部の汚れが原因で生じるノイズ等が挙げられる。
なお、生成条件は、画像データ生成部110による画像の生成後に、自動的に変更され得る。生成条件が変更された場合、画像データ生成部110は、変更された生成条件に基づく画像を生成する。さらに、生成条件の自動的な変更と、変更後の生成条件に基づく画像の生成は繰り返される。これにより、学習データ生成装置10は、自動的に多様な画像を大量に生成することができる。
(教師データ生成部120)
教師データ生成部120は、入力データと対応する教師データを生成する機能を有する。例えば、教師データ生成部120は、入力データとして生成された画像の画素と、当該画素の要素種別とを対応付けた情報を、機械学習における教師データとして生成する。例えば、教師データ生成部120は、画像の画素ごとに、文字要素、線分要素、又は背景要素のいずれか1つを要素種別として対応付ける。生成後、教師データ生成部120は、生成した教師データを例えば記憶装置(不図示)へ出力し、記憶装置に教師データを保存させる。
教師データ生成部120は、例えば、画像の生成時の生成条件を参照して、画素ごとの要素種別を取得し、取得した要素種別を各画素に対して対応付けた教師データを生成する。教師データ生成部120は、例えば、要素種別ごとに教師データを生成する。
教師データ生成部120は、要素種別が文字要素である画素をある特定の色(例えば黒)とし、文字要素ではない画素を、別の色(例えば白)とすることにより、文字要素が対応付けられた画素を示す教師データを生成する。
教師データ生成部120は、要素種別が線分要素である画素をある特定の色(例えば黒)とし、線分要素ではない画素を、別の色(例えば白)とすることにより、線分要素が対応付けられた画素を示す教師データを生成する。
教師データ生成部120は、要素種別が背景要素である画素をある特定の色(例えば黒)とし、背景要素ではない画素を、別の色(例えば白)とすることにより、背景要素が対応付けられた画素を示す教師データを生成する。
教師データ生成部120は、要素種別ごとに生成した教師データに基づき、教師データに対して領域情報をさらに設定してもよい。領域情報とは、各要素種別を示す画素が対応付けられている画像上の領域を示す情報である。教師データ生成部120は、例えば、要素種別ごとに教師データに領域情報を設定する。
教師データ生成部120は、文字要素が対応付けられた画素を示す教師データにおいて、特定の色(例えば黒)で示された文字要素である画素を含む領域を、文字領域と設定する。
教師データ生成部120は、線分要素が対応付けられた画素を示す教師データにおいて、特定の色(例えば黒)で示された線分要素である画素を含む領域を、線分領域と設定する。
教師データ生成部120は、背景要素が対応付けられた画素を示す教師データにおいて、特定の色(例えば黒)で示された背景要素である画素を含む領域を、背景領域と設定する。
なお、各要素種別の領域には、画素が1つのみ含まれてもよいし、同一の要素種別を示す隣接する画素が複数含まれてもよい。このように、要素種別ごとに領域情報が設定されることで、教師データは、各画素の要素種別の違いを領域単位で明確に示すことができる。
ここで、図2を参照して、学習データの生成例について説明する。図2は、本発明の実施形態に係る学習データの生成例を示す図である。上述したように、学習データには入力データと教師データが含まれ、入力データと対応する教師データが1つのデータセットとなっている。
例えば、図2に示すように、入力データ20-1と対応する3つの教師データ30-1、教師データ31-1、及び教師データ32-1が1つのデータセット40-1となっている。なお、教師データ30-1は、文字要素が対応付けられた画素を示す教師データであり、黒い領域が文字領域を示している。また、教師データ31-1は、線分要素が対応付けられた画素を示す教師データであり、黒い領域が線分領域を示している。また、教師データ32-1は、背景要素が対応付けられた画素を示す教師データであり、黒い領域が背景領域を示している。
また、図2に示すように、入力データ20-2と対応する3つの教師データ30-2、教師データ31-2、及び教師データ32-2が1つのデータセット40-2となっている。なお、教師データ30-2は、文字要素が対応付けられた画素を示す教師データであり、黒い領域が文字領域を示している。また、教師データ31-2は、線分要素が対応付けられた画素を示す教師データであり、黒い領域が線分領域を示している。また、教師データ32-2は、背景要素が対応付けられた画素を示す教師データであり、黒い領域が背景領域を示している。
<処理の流れ>
以上、学習データ生成装置10の構成例について説明した。続いて、本実施形態に係る学習データ生成装置10における処理の流れについて説明する。図3は、本発明の実施形態に係る学習データ生成装置10における処理の流れを示すフローチャートである。
まず、学習データ生成装置10の画像データ生成部110は、生成条件に基づき、入力用の画像データを生成する(S102)。
次いで、教師データ生成部120は、生成された画像データと対応する教師データを生成する(S104)。
以上説明したように、本実施形態に係る学習データ生成装置10は、まず、生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成する。また、学習データ生成装置は、入力データとして生成された画像の画素ごとに要素種別を対応付けた情報を、機械学習における教師データとして生成する。かかる構成により、学習データ生成装置10は、生成条件に基づき入力データと教師データを生成するため、生成条件が変更される度に変更後の生成条件に応じた多様な入力データと教師データを生成することができる。よって、学習データ生成装置10は、文書画像認識のための機械学習における多様な学習データを効率よく用意することができる。
以上、本発明の実施形態について説明した。なお、上述した実施形態における学習データ生成装置10をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
10…学習データ生成装置
110…画像データ生成部
120…教師データ生成部

Claims (5)

  1. 画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成する画像データ生成部と、
    生成された前記画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか1つを対応付けた情報を、前記機械学習における教師データとして生成する教師データ生成部と、
    を備える、学習データ生成装置。
  2. 前記教師データ生成部は、前記文字要素が対応付けられた前記画素を含む領域である文字領域を前記教師データに設定する、請求項1に記載の学習データ生成装置。
  3. 前記画像データ生成部は、前記生成条件に基づき、ノイズをさらに含む前記画像を生成する、請求項1又は請求項2に記載の学習データ生成装置。
  4. 画像データ生成部が、画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成することと、
    教師データ生成部が、生成された前記画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか1つを対応付けた情報を、前記機械学習における教師データとして生成することと、
    を含む、学習データ生成方法。
  5. コンピュータを、
    画像生成条件、文字生成条件、幾何学的図形生成条件、及び背景生成条件を組み合わせた生成条件に基づき、文字と幾何学的図形とを含む画像を機械学習における入力データとして生成する画像データ生成部と、
    生成された前記画像における画素が、文字を構成する要素を示す文字要素であるか、幾何学的図形を構成する要素を示す幾何学要素であるか、文字及び幾何学的図形ではない背景を構成する要素を示す背景要素であるかを区別する要素種別を前記生成条件に基づき取得し、前記画像の画素に対して前記文字要素、前記幾何学要素、又は前記背景要素のいずれか1つを対応付けた情報を、前記機械学習における教師データとして生成する教師データ生成部と、
    として機能させる、プログラム。
JP2019171710A 2019-09-20 2019-09-20 学習データ生成装置、学習データ生成方法、及びプログラム Active JP7431005B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019171710A JP7431005B2 (ja) 2019-09-20 2019-09-20 学習データ生成装置、学習データ生成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019171710A JP7431005B2 (ja) 2019-09-20 2019-09-20 学習データ生成装置、学習データ生成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021047816A JP2021047816A (ja) 2021-03-25
JP7431005B2 true JP7431005B2 (ja) 2024-02-14

Family

ID=74878535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019171710A Active JP7431005B2 (ja) 2019-09-20 2019-09-20 学習データ生成装置、学習データ生成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7431005B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7197042B1 (ja) 2022-03-18 2022-12-27 凸版印刷株式会社 教師データ自動生成装置、教師データ自動生成方法および教師データ自動生成プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018338A (ja) 2009-07-10 2011-01-27 Palo Alto Research Center Inc スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム
JP2018132953A (ja) 2017-02-15 2018-08-23 ソフネック株式会社 画像処理方法、及びコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018338A (ja) 2009-07-10 2011-01-27 Palo Alto Research Center Inc スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム
JP2018132953A (ja) 2017-02-15 2018-08-23 ソフネック株式会社 画像処理方法、及びコンピュータプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中村 和明, 山本 眞司, 伊藤 哲也,ニューラルネットワークを用いた文書画像の領域分割,画像電子学会誌,日本,画像電子学会,1999年04月25日,第28巻第2号(1999),pp. 106-115
比留川 翔哉, 丸山 一貴,紙面の色と見開きの歪みを考慮した光学文字認識の実装と評価,第18回情報科学技術フォーラム (FIT2019) 講演論文集 第3分冊,日本,2019年08月20日,CH-005,pp. 25-29

Also Published As

Publication number Publication date
JP2021047816A (ja) 2021-03-25

Similar Documents

Publication Publication Date Title
US10846524B2 (en) Table layout determination using a machine learning system
JP6441980B2 (ja) 教師画像を生成する方法、コンピュータおよびプログラム
US11631162B2 (en) Machine learning training method, system, and device
US10997464B2 (en) Digital image layout training using wireframe rendering within a generative adversarial network (GAN) system
CN111275129A (zh) 一种图像数据的增广策略选取方法及系统
EP3255586A1 (en) Method, program, and apparatus for comparing data graphs
JP2018535491A (ja) 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体
JP6612486B1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
JP2008537198A (ja) 人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート
CN113826119A (zh) 纯注意力的计算机视觉
US10846889B2 (en) Color handle generation for digital image color gradients using machine learning
CN111179159A (zh) 消除视频中目标影像的方法、装置、电子设备及存储介质
JP7431005B2 (ja) 学習データ生成装置、学習データ生成方法、及びプログラム
CN114120349A (zh) 基于深度学习的试卷识别方法及系统
JP2021047797A (ja) 機械学習装置、機械学習方法、及びプログラム
Silva et al. Multiview range image registration using the surface interpenetration measure
KR102051597B1 (ko) 내용 기반 영상 크기 조절 장치 및 방법
Zhang et al. A fast solution for Chinese calligraphy relief modeling from 2D handwriting image
Iglesias et al. Cuckoo search with Lévy flights for reconstruction of outline curves of computer fonts with rational Bézier curves
JP2020187583A (ja) 機械学習モデルのトレーニング方法、データ生成装置、および、学習済みの機械学習モデル
Dey Image Processing Masterclass with Python: 50+ Solutions and Techniques Solving Complex Digital Image Processing Challenges Using Numpy, Scipy, Pytorch and Keras (English Edition)
JP2019082847A (ja) データ推定装置、データ推定方法及びプログラム
JP7372591B2 (ja) 画像処理装置、および、学習済みの機械学習モデル
JP7262335B2 (ja) 予測装置、学習装置、予測方法、及びプログラム
US10984173B2 (en) Vector-based glyph style transfer

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191018

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220803

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240201

R150 Certificate of patent or registration of utility model

Ref document number: 7431005

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150