JP2023037360A - 画像処理プログラムおよび画像処理システム - Google Patents

画像処理プログラムおよび画像処理システム Download PDF

Info

Publication number
JP2023037360A
JP2023037360A JP2021144053A JP2021144053A JP2023037360A JP 2023037360 A JP2023037360 A JP 2023037360A JP 2021144053 A JP2021144053 A JP 2021144053A JP 2021144053 A JP2021144053 A JP 2021144053A JP 2023037360 A JP2023037360 A JP 2023037360A
Authority
JP
Japan
Prior art keywords
image
cropping
character
characters
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021144053A
Other languages
English (en)
Inventor
和樹 同前
Kazuki Domae
幸雄 岩崎
Yukio Iwasaki
淳 鈴木
Atsushi Suzuki
俊介 森
Shunsuke Mori
拓真 藤田
Takuma Fujita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Document Solutions Inc
Original Assignee
Kyocera Document Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Document Solutions Inc filed Critical Kyocera Document Solutions Inc
Priority to JP2021144053A priority Critical patent/JP2023037360A/ja
Priority to CN202211035324.XA priority patent/CN115331234A/zh
Priority to US17/900,915 priority patent/US20230071008A1/en
Publication of JP2023037360A publication Critical patent/JP2023037360A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/1607Correcting image deformation, e.g. trapezoidal deformation caused by perspective
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 文字検出モデルによる文字の位置の検出の精度を向上することができる画像処理プログラムおよび画像処理システムを提供する。【解決手段】 画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を検出する文字検出モデルの学習データを生成する画像処理システムは、画像をクロッピングしたクロッピング画像を生成し(S121)、分断された文字を含むクロッピング画像を学習データとして扱わず(S129)、分断された文字を含まないクロッピング画像を学習データとして扱う(S125)ことを特徴とする。【選択図】 図9

Description

本発明は、画像を処理する画像処理プログラムおよび画像処理システムに関する。
従来、画像に含まれる文書における文字を認識する技術が知られている(例えば、特許文献1、2参照。)。
特許第6722929号公報 特許第6795195号公報
しかしながら、従来の技術においては、画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を検出する文字検出モデルによる文字の位置の検出の精度が低いという問題がある。
そこで、本発明は、文字検出モデルによる文字の位置の検出の精度を向上することができる画像処理プログラムおよび画像処理システムを提供することを目的とする。
本発明の画像処理プログラムは、画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を少なくとも検出する文字検出モデルの学習データを生成するための画像処理プログラムであって、画像をクロッピングしたクロッピング画像をコンピューターに生成させ、分断された文字を含む前記クロッピング画像を前記コンピューターに前記学習データとして扱わせず、分断された文字を含まない前記クロッピング画像を前記コンピューターに前記学習データとして扱わせることを特徴とする。
この構成により、本発明の画像処理プログラムを実行するコンピューターは、画像をクロッピングしたクロッピング画像に基づいて学習データを生成するので、1つの画像から複数の学習データを生成することができ、その結果、文字検出モデルによる文字の位置の検出の精度を向上することができる。また、本発明の画像処理プログラムを実行するコンピューターは、分断された文字を含むクロッピング画像を学習データとして扱わず、分断された文字を含まないクロッピング画像を学習データとして扱うので、分断された文字を誤って学習することを防止することができ、その結果、文字検出モデルによる文字の位置の検出の精度を向上することができる。
本発明の画像処理プログラムは、分断された文字が前記クロッピング画像に含まれている場合に、分断された文字を前記クロッピング画像から除去した修正クロッピング画像を前記学習データとして前記コンピューターに扱わせても良い。
この構成により、本発明の画像処理プログラムを実行するコンピューターは、分断された文字がクロッピング画像に含まれている場合に、分断された文字をクロッピング画像から除去した修正クロッピング画像を学習データとして扱うので、学習データの生成を容易化することができる。
本発明の画像処理プログラムは、前記クロッピング画像がクロッピングされる予定の画像における手書きの線の画素を前記コンピューターに推論によって検出させ、前記コンピューターによって検出された前記画素を前記コンピューターに塗り潰させ、前記画素が前記コンピューターによって塗り潰された画像をクロッピングした前記クロッピング画像を前記コンピューターに生成させても良い。
この構成により、本発明の画像処理プログラムを実行するコンピューターは、画像における手書きの線の画素を推論によって検出し、検出した画素を塗り潰すので、掠れた文字が画像に含まれている場合に、掠れた文字を補正した画像をクロッピングしたクロッピング画像を生成することができ、その結果、文字検出モデルによる文字の位置の検出の精度を向上することができる。
本発明の画像処理システムは、画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を少なくとも検出する文字検出モデルの学習データを生成する画像処理システムであって、画像をクロッピングしたクロッピング画像を生成し、分断された文字を含む前記クロッピング画像を前記学習データとして扱わず、分断された文字を含まない前記クロッピング画像を前記学習データとして扱うことを特徴とする。
この構成により、本発明の画像処理システムは、画像をクロッピングしたクロッピング画像に基づいて学習データを生成するので、1つの画像から複数の学習データを生成することができ、その結果、文字検出モデルによる文字の位置の検出の精度を向上することができる。また、本発明の画像処理システムは、分断された文字を含むクロッピング画像を学習データとして扱わず、分断された文字を含まないクロッピング画像を学習データとして扱うので、分断された文字を誤って学習することを防止することができ、その結果、文字検出モデルによる文字の位置の検出の精度を向上することができる。
本発明の画像処理プログラムおよび画像処理システムは、文字検出モデルによる文字の位置の検出の精度を向上することができる。
1台のコンピューターによって構成される場合の本発明の一実施の形態に係る画像処理システムのブロック図である。 図1に示す画像処理システムによって実現されるOCR技術の流れを示す図である。 (a)図2に示す画像取り込み処理によって取り込まれた電子化画像の一例を示す図である。 (b)図2に示す文字検出処理によって検出された各文字の位置の一例を示す図である。 (c)図2に示す行検出処理によって検出された各行の位置の一例を示す図である。 (a)図2に示す文字認識処理によって認識された各文字の一例を示す図である。 (b)図2に示す文字認識処理によって特定された各行の文字列の一例を示す図である。 (a)図1に示す手書き画素検出モデルの学習に使用される学習データの一例を示す図である。 (b)図1に示す手書き画素検出モデルの学習に使用される正解データの一例を示す図である。 掠れ補正処理を実行する場合の図1に示す画像処理システムの動作のフローチャートである。 (a)図1に示す手書き画素検出モデルによって画素が検出される前の電子化画像の一例を示す図である。 (b)図1に示す手書き画素検出モデルによって検出された画素の一例を示す図である。 掠れた文字が図2に示す掠れ補正処理によって補正された後の電子化画像の一例を示す図である。 文字検出モデルの学習を実行する場合の図1に示す画像処理システムの動作のフローチャートである。 図1に示す文字検出モデルの学習のために用意された電子化画像の一例を示す図である。 図9に示す動作において生成されたクロッピング画像の一例を示す図である。 図9に示す動作において生成された修正クロッピング画像の一例を示す図である。
以下、本発明の実施の形態について、図面を用いて説明する。
まず、本発明の一実施の形態に係る画像処理システムの構成について説明する。
本実施の形態に係る画像処理システムは、例えば、MFP(Multifunction Peripheral)などの画像形成装置、PC(Personal Computer)など、1台のコンピューターによって構成されても良いし、複数台のコンピューターによって構成されても良い。
図1は、1台のコンピューターによって構成される場合の画像処理システム10のブロック図である。
図1に示すように、画像処理システム10は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部11と、種々の情報を表示する例えばLCD(Liquid Crystal Display)などの表示デバイスである表示部12と、LAN(Local Area Network)、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部13と、各種の情報を記憶する例えば半導体メモリー、HDD(Hard Disk Drive)などの不揮発性の記憶デバイスである記憶部14と、画像処理システム10全体を制御する制御部15とを備えている。
記憶部14は、画像処理プログラム14aを記憶している。画像処理プログラム14aは、例えば、画像処理システム10の製造段階で画像処理システム10にインストールされていても良いし、USB(Universal Serial Bus)メモリーなどの外部の記憶媒体から画像処理システム10に追加でインストールされても良いし、ネットワーク上から画像処理システム10に追加でインストールされても良い。
図2は、画像処理システム10によって実現されるOCR(Optical Character Recognition)技術の流れを示す図である。
制御部15は、画像処理プログラム14aを実行することによって、図2に示す処理を実現する。
図2に示すように、画像処理システム10によって実現されるOCR技術は、OCR技術のメインの処理であるメイン処理30と、メイン処理30の前に実行される前処理20と、メイン処理30の後に実行される後処理40とを含んでいる。
前処理20は、紙などの媒体に描かれた文書をスキャナー、カメラなどのデバイスによって電子化して画像(以下「電子化画像」という。)として取り込む画像取り込み処理21と、電子化画像に含まれる文書における文字、行などのレイアウトを解析するレイアウト解析処理22とを含んでいる。
画像取り込み処理21は、文字認識の精度の向上のために、例えば、電子化画像に対する台形補正、向きの補正など、電子化画像の形状の補正を実行したり、文字認識の精度の向上のために、例えば、電子化画像に含まれる網掛けの除去、電子化の際に電子化画像に映り込んだ影の除去など、文字認識に不要な情報の、電子化画像からの除去を実行したりするノイズ除去処理21aと、ノイズ除去処理21aが実行された電子化画像に含まれる、掠れた線を補正する掠れ補正処理21bとを含んでいる。掠れた線が電子化画像に含まれる場合としては、例えば、筆圧が弱かった手書き文字が電子化される場合が存在する。
なお、以上においては、ノイズ除去処理21aの実行の後に掠れ補正処理21bが実行されているが、掠れ補正処理21bの実行のタイミングは、ノイズ除去処理21aの実行の後でなくても良い。例えば、ノイズ除去処理21aの実行の途中で掠れ補正処理21bが実行されても良いし、掠れ補正処理21bの実行の後にノイズ除去処理21aが実行されても良い。
レイアウト解析処理22は、ノイズ除去処理21aおよび掠れ補正処理21bが実行された電子化画像に含まれる文書のレイアウトを解析する。レイアウト解析処理22は、電子化画像に含まれる文書における文字の、電子化画像における位置を検出する文字検出処理22aと、文字検出処理22aによって検出された文字によって構成される行の、電子化画像における位置を検出する行検出処理22bとを含んでいる。
図3(a)は、画像取り込み処理21によって取り込まれた電子化画像の一例を示す図である。図3(b)は、文字検出処理22aによって検出された各文字の位置の一例を示す図である。図3(c)は、行検出処理22bによって検出された各行の位置の一例を示す図である。
画像取り込み処理21によって取り込まれた電子化画像が例えば図3(a)に示すものである場合、文字検出処理22aは、図3(b)に示すように、電子化画像に含まれる文書における各文字の位置を検出する。電子化画像に含まれる文書における各文字の位置は、例えば、各文字を囲む矩形範囲の左上の端の座標など、各文字を囲む矩形範囲に対するいずれかの位置の座標(x,y)と、各文字を囲む矩形範囲の幅(width)および高さ(height)とによって表されても良いし、他の方法によって表されても良い。
画像取り込み処理21によって取り込まれた電子化画像が例えば図3(a)に示すものである場合、行検出処理22bは、図3(c)に示すように、電子化画像に含まれる文書における各行の位置を検出する。電子化画像に含まれる文書における各行の位置は、例えば、各行を囲む矩形範囲の左上の端の座標など、各行を囲む矩形範囲に対するいずれかの位置の座標(x,y)と、各行を囲む矩形範囲の幅(width)および高さ(height)とによって表されても良いし、他の方法によって表されても良い。
図2に示すように、メイン処理30は、文字検出処理22aによって位置が検出された各文字が具体的にどのような文字であるかを認識し、その結果、行検出処理22bによって位置が検出された各行が具体的にどのような文字列で構成されるかを特定する文字認識処理31を含んでいる。
図4(a)は、文字認識処理31によって認識された各文字の一例を示す図である。図4(b)は、文字認識処理31によって特定された各行の文字列の一例を示す図である。
文字検出処理22aによって検出された各文字の位置が例えば図3(b)に示すものである場合、文字認識処理31は、図4(a)に示すように、電子化画像に含まれる文書における各文字を認識する。そして、行検出処理22bによって検出された各行の位置が例えば図3(c)に示すものである場合、文字認識処理31は、図4(b)に示すように、電子化画像に含まれる文書における各行の文字列を特定する。
図2に示すように、後処理40は、例えば辞書に含まれる単語を使用するなどして、文字認識処理31による誤認識を修正する知識処理41を含んでいる。
図1に示すように、記憶部14は、掠れ補正処理21bにおいて手書きの線の画素を推論によって検出するモジュールとしての手書き画素検出モデル14bを記憶可能である。手書き画素検出モデル14bは、例えばU-Netをベースとする機械学習手法である。
記憶部14は、文字検出処理22aを実行するモジュールとしての文字検出モデル14cを記憶可能である。
制御部15は、例えば、CPU(Central Processing Unit)と、プログラムおよび各種のデータを記憶しているROM(Read Only Memory)と、制御部15のCPUの作業領域として用いられるメモリーとしてのRAM(Random Access Memory)とを備えている。制御部15のCPUは、記憶部14または制御部15のROMに記憶されているプログラムを実行する。
制御部15は、画像処理プログラム14aを実行することによって、例えば、手書き画素検出モデル14bの学習を実行する手書き画素検出モデル学習部15aと、掠れ補正処理21bを実行する掠れ補正処理部15bと、文字検出モデル14cの学習を実行する文字検出モデル学習部15cとを実現する。
次に、手書き画素検出モデル14bの学習を実行する場合の画像処理システム10の動作について説明する。
作業者は、掠れが存在する手書き文字の画像を学習データとして用意するとともに、この画像において手書き文字に掠れが存在しない場合の画像を正解データとして用意する。
図5(a)は、手書き画素検出モデル14bの学習に使用される学習データの一例を示す図である。図5(b)は、手書き画素検出モデル14bの学習に使用される正解データの一例を示す図である。
例えば、図5(a)に示す学習データは、図5(b)に示す正解データに対して、手動または自動でランダムに画素が例えば白色などの背景色で塗り潰されることによって生成されても良い。
作業者は、学習データおよび正解データを指定した手書き画素検出モデル14bの学習の指示を、例えば操作部11を介して画像処理システム10に入力する。手書き画素検出モデル学習部15aは、この指示が入力されると、この指示において指定された、学習データおよび正解データを使用して、手書き画素検出モデル14bの学習を実行する。
次に、掠れ補正処理21bを実行する場合の画像処理システム10の動作について説明する。
図6は、掠れ補正処理21bを実行する場合の画像処理システム10の動作のフローチャートである。
図6に示すように、掠れ補正処理部15bは、電子化画像に含まれる手書きの線の画素を手書き画素検出モデル14bによって検出する(S101)。
図7(a)は、手書き画素検出モデル14bによって画素が検出される前の電子化画像の一例を示す図である。図7(b)は、手書き画素検出モデル14bによって検出された画素の一例を示す図である。
図7(a)に示す電子化画像は、掠れた「い」の文字が含まれている。手書き画素検出モデル14bは、図7(a)に示す電子化画像が入力されることによって、図7(b)において太枠で囲まれている画素を、手書きの線の画素として推論する。
図6に示すように、掠れ補正処理部15bは、S101の処理の後、S101によって検出された画素を例えば黒色などの特定の色によって塗り潰すことによって、電子化画像に含まれる、掠れた線を補正して(S102)、図6に示す動作を終了する。
図8は、掠れた文字が掠れ補正処理21bによって補正された後の電子化画像の一例を示す図である。
S101によって図7(b)に示す画素が検出された場合、掠れ補正処理部15bは、図8に示す電子化画像をS102において生成する。
なお、図7および図8に示す例では、電子化画像には、1つの手書き文字のみが含まれている。しかしながら、掠れ補正処理21bの対象の電子化画像には、複数の手書き文字が含まれても良い。また、掠れ補正処理21bの対象の電子化画像には、手書き文字以外の手書きの線が含まれても良いし、手書きの線以外のものが含まれても良い。例えば、掠れ補正処理21bの対象の電子化画像には、手書き文字以外の文字と、手書きの線以外の罫線と、手書きの図形以外の図形との少なくとも1つが含まれても良い。また、掠れ補正処理21bの対象の電子化画像は、カラー画像でも良いが、掠れ補正処理21bにおける処理量の低減のために、カラー画像の場合にはモノクロ画像に変換されることが好ましい。
次に、文字検出モデル14cの学習を実行する場合の画像処理システム10の動作について説明する。
例えばA4サイズの画像など、サイズの大きな画像を学習データとして文字検出モデル14cの学習を実行する場合、学習データのデータ量が大きくなり過ぎて、画像処理システム10のハードウェアリソースを超過する可能性があるため、文字検出モデル14cの学習が正常に実行できない可能性がある。そのため、画像処理システム10は、画像から一部を適宜切り出して、すなわち、クロッピングしてデータ量が小さい学習データを生成する。
図9は、文字検出モデル14cの学習を実行する場合の画像処理システム10の動作のフローチャートである。
作業者は、例えばA4サイズなどの特定のサイズの画像(以下、図9に示す動作の説明において「対象画像」という。)と、この対象画像に含まれる文書における全ての文字の位置を示す正解データ(以下、図9に示す動作の説明において「対象正解データ」という。)とを用意し、対象画像および対象正解データを指定した文字検出モデル14cの学習の指示を、例えば操作部11を介して画像処理システム10に入力する。文字検出モデル学習部15cは、この指示が入力されると、図9に示す動作を実行する。
図9に示すように、文字検出モデル学習部15cは、対象画像における特定の位置から特定の高さおよび幅で対象画像をクロッピングした画像(以下「クロッピング画像」という。)を生成する(S121)。ここで、特定の高さおよび幅は、画像処理システム10のハードウェアリソース次第であるが、例えば、500ピクセル×500ピクセルである。
文字検出モデル学習部15cは、S121の処理の後、直前のS121において生成したクロッピング画像に、分断された文字が含まれているか否かを、対象正解データに基づいて判断する(S122)。ここで、分断された文字とは、直前のS121において生成したクロッピング画像に一部のみが含まれている文字である。
図10は、文字検出モデル14cの学習のために用意された対象画像50の一例を示す図である。図11は、S121において生成されたクロッピング画像60の一例を示す図である。
図11に示すクロッピング画像60は、図10に示す対象画像50から生成されたものである。図11に示すクロッピング画像60は、分断されていない文字61と、分断された文字62とを含んでいる。図11において、分断された文字62は、図10に示す「貼」である。「貼」のうち、「貝」の部分のみがクロッピング画像60に含まれている。図11に示すクロッピング画像60には、分断された文字62が1つのみ含まれている。しかしながら、分断された文字は、クロッピング画像に複数含まれても良い。
図9に示すように、文字検出モデル学習部15cは、直前のS121において生成したクロッピング画像に、分断された文字が含まれていないとS122において判断すると、このクロッピング画像に含まれる文字の数が特定の数以上であるか否かを、対象正解データに基づいて判断する(S123)。
文字検出モデル学習部15cは、直前のS121において生成したクロッピング画像に含まれる文字の数が特定の数以上であるとS123において判断すると、このクロッピング画像における全ての文字の位置を示す正解データを、対象正解データに基づいて生成する(S124)。
文字検出モデル学習部15cは、S124の処理の後、直前のS121において生成したクロッピング画像である学習データと、直前のS124において生成した正解データとを使用して、文字検出モデル14cの学習を実行する(S125)。
文字検出モデル学習部15cは、直前のS121において生成したクロッピング画像に、分断された文字が含まれているとS122において判断すると、このクロッピング画像に含まれる、分断されていない文字の数が特定の数以上であるか否かを、対象正解データに基づいて判断する(S126)。なお、S126における「特定の数」は、S123における「特定の数」と同じ数でも良い。
文字検出モデル学習部15cは、直前のS121において生成したクロッピング画像に含まれる、分断されていない文字の数が特定の数以上であるとS126において判断すると、このクロッピング画像に含まれる、分断された文字を、このクロッピング画像から除去した画像(以下「修正クロッピング画像」という。)を生成する(S127)。具体的には、文字検出モデル学習部15cは、このクロッピング画像に含まれる、分断された文字を、例えば白色など、このクロッピング画像の背景色で塗り潰すことによって、修正クロッピング画像を生成する。
図12は、S127において生成された修正クロッピング画像70の一例を示す図である。
図12に示す修正クロッピング画像70は、図11に示すクロッピング画像60から生成されたものである。修正クロッピング画像70は、分断された文字62(図11参照。)が白色で塗り潰されたものである。
図9に示すように、文字検出モデル学習部15cは、S127の処理の後、直前のS127において生成した修正クロッピング画像における全ての文字の位置を示す正解データを、対象正解データに基づいて生成する(S128)。すなわち、S128において生成される正解データには、直前のS121において生成されたクロッピング画像に含まれる、分断された文字の位置が含まれない。
文字検出モデル学習部15cは、S128の処理の後、直前のS127において生成した修正クロッピング画像である学習データと、直前のS128において生成した正解データとを使用して、文字検出モデル14cの学習を実行する(S129)。
文字検出モデル学習部15cは、S125またはS129の処理の後、今回の図9に示す動作において特定の回数の学習を実行したか否かを判断する(S130)。
文字検出モデル学習部15cは、直前のS121において生成したクロッピング画像に含まれる文字の数が特定の数以上ではないとS123において判断するか、このクロッピング画像に含まれる、分断されていない文字の数が特定の数以上ではないとS126において判断するか、今回の図9に示す動作において特定の回数の学習を実行していないとS130において判断すると、S121の処理を実行する。ここで、文字検出モデル学習部15cは、新たに実行されるS121の処理において、今回の図9に示す動作において生成されていないクロッピング画像を生成する。例えば、文字検出モデル学習部15cは、複数回のS121の処理によって、対象画像を升目状に区切った各升に対応する複数のクロッピング画像と、対象画像のランダムな位置からクロッピングした複数のクロッピング画像とを生成しても良い。
文字検出モデル学習部15cは、今回の図9に示す動作において特定の回数の学習を実行したとS130において判断すると、今回の図9に示す動作を終了する。
なお、クロッピング画像に含まれる文字の数が特定の数以上であるか否かをS123において判断したり、クロッピング画像に含まれる、分断されていない文字の数が特定の数以上であるか否かをS126において判断したりする理由は、特定の数以上の文字を含む画像を学習データとした学習のみを実行することによって、文字検出モデル14cの学習を効率的に実行するためである。したがって、S123およびS126の処理は、省略されても良い。すなわち、文字検出モデル学習部15cは、直前のS121において生成したクロッピング画像に、分断された文字が含まれていないとS122において判断した場合に直ちにS124の処理を実行するとともに、直前のS121において生成したクロッピング画像に、分断された文字が含まれているとS122において判断した場合に直ちにS127の処理を実行しても良い。
以上に説明したように、画像処理システム10は、画像をクロッピングしたクロッピング画像に基づいて学習データを生成する(S121~S130)ので、1つの画像から複数の学習データを生成することができ、その結果、文字検出モデル14cによる文字の位置の検出の精度を向上することができる。
画像処理システム10は、分断された文字を含むクロッピング画像を学習データとして扱わず(S129)、分断された文字を含まないクロッピング画像を学習データとして扱う(S125)ので、分断された文字を誤って学習することを防止することができ、その結果、文字検出モデル14cによる文字の位置の検出の精度を向上することができる。例えば、図11に示すクロッピング画像60を学習データとして文字検出モデル14cの学習が実行されると、「貼」を1文字として検出するのではなく「貼」のうちの「貝」および「占」の部分をそれぞれ1文字として検出する文字検出モデル14cが生成される可能性がある。しかしながら、画像処理システム10は、図11に示すクロッピング画像60から「貼」のうちの「貝」の部分を除去した修正クロッピング画像70(図12参照。)を学習データとして生成するので、「貼」のうちの「貝」および「占」の部分をそれぞれ1文字として検出する文字検出モデル14cが生成される可能性を低減することができる。
画像処理システム10は、分断された文字がクロッピング画像に含まれている場合(S122でYES)に、分断された文字をクロッピング画像から除去した修正クロッピング画像を学習データとして扱う(S127)ので、学習データの生成を容易化することができる。
なお、画像処理システム10は、分断された文字を含むクロッピング画像を学習データとして扱わない方法として、修正クロッピング画像を学習データとして扱う方法以外の方法を採用しても良い。例えば、画像処理システム10は、分断された文字がクロッピング画像に含まれている場合に、対象画像における位置、形および大きさの少なくとも1つを変更したクロッピング画像を生成し直しても良い。
以上において、掠れた文字の補正については、掠れ補正処理21bにおけるものについてのみ説明している。しかしながら、掠れた文字の補正は、文字検出モデル14cの学習データの生成の前処理としても応用可能である。すなわち、画像処理システム10は、図9に示す動作における対象画像になる予定の画像における手書きの線の画素を推論によって検出し、検出した画素を塗り潰した画像を対象画像として、S121~S130の処理を実行しても良い。これによって、画像処理システム10は、掠れた文字が対象画像に含まれている場合に、掠れた文字を補正した対象画像をクロッピングしたクロッピング画像を生成する(S121)ことができ、その結果、文字検出モデル14cによる文字の位置の検出の精度を向上することができる。
以上においては、文字検出モデル14cは、文字検出処理22aのみを実行するモジュールである。しかしながら、文字検出モデル14cは、文字検出処理22aに加えて、文字検出処理22a以外の処理を実行しても良い。例えば、文字検出モデル14cは、文字検出処理22aに加えて、行検出処理22bおよび文字認識処理31を実行しても良い。
10 画像処理システム(コンピューター)
14a 画像処理プログラム
14c 文字検出モデル
50 対象画像(画像)
60 クロッピング画像
62 文字(分断された文字)
70 修正クロッピング画像

Claims (4)

  1. 画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を少なくとも検出する文字検出モデルの学習データを生成するための画像処理プログラムであって、
    画像をクロッピングしたクロッピング画像をコンピューターに生成させ、
    分断された文字を含む前記クロッピング画像を前記コンピューターに前記学習データとして扱わせず、分断された文字を含まない前記クロッピング画像を前記コンピューターに前記学習データとして扱わせることを特徴とする画像処理プログラム。
  2. 分断された文字が前記クロッピング画像に含まれている場合に、分断された文字を前記クロッピング画像から除去した修正クロッピング画像を前記学習データとして前記コンピューターに扱わせることを特徴とする請求項1に記載の画像処理プログラム。
  3. 前記クロッピング画像がクロッピングされる予定の画像における手書きの線の画素を前記コンピューターに推論によって検出させ、
    前記コンピューターによって検出された前記画素を前記コンピューターに塗り潰させ、
    前記画素が前記コンピューターによって塗り潰された画像をクロッピングした前記クロッピング画像を前記コンピューターに生成させることを特徴とする請求項1または請求項2に記載の画像処理プログラム。
  4. 画像に含まれる文書における文字の認識のために、この画像における、この文字の位置を少なくとも検出する文字検出モデルの学習データを生成する画像処理システムであって、
    画像をクロッピングしたクロッピング画像を生成し、
    分断された文字を含む前記クロッピング画像を前記学習データとして扱わず、分断された文字を含まない前記クロッピング画像を前記学習データとして扱うことを特徴とする画像処理システム。
JP2021144053A 2021-09-03 2021-09-03 画像処理プログラムおよび画像処理システム Pending JP2023037360A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021144053A JP2023037360A (ja) 2021-09-03 2021-09-03 画像処理プログラムおよび画像処理システム
CN202211035324.XA CN115331234A (zh) 2021-09-03 2022-08-26 存储有图像处理程序的计算机可读取的非瞬时性记录介质、以及图像处理装置
US17/900,915 US20230071008A1 (en) 2021-09-03 2022-09-01 Computer-readable, non-transitory recording medium containing therein image processing program for generating learning data of character detection model, and image processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021144053A JP2023037360A (ja) 2021-09-03 2021-09-03 画像処理プログラムおよび画像処理システム

Publications (1)

Publication Number Publication Date
JP2023037360A true JP2023037360A (ja) 2023-03-15

Family

ID=83928376

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021144053A Pending JP2023037360A (ja) 2021-09-03 2021-09-03 画像処理プログラムおよび画像処理システム

Country Status (3)

Country Link
US (1) US20230071008A1 (ja)
JP (1) JP2023037360A (ja)
CN (1) CN115331234A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220383503A1 (en) * 2020-05-11 2022-12-01 Nec Corporation Determination device, determination method, and recording medium

Also Published As

Publication number Publication date
US20230071008A1 (en) 2023-03-09
CN115331234A (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
US8831350B2 (en) Generation of document fingerprints for identification of electronic document types
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
EP3002712A2 (en) Horizontal and vertical line detection and removal for document images
JP4217577B2 (ja) 受動的な埋め込み対話符号化
US11574489B2 (en) Image processing system, image processing method, and storage medium
US11983910B2 (en) Image processing system, image processing method, and storage medium each for obtaining pixels of object using neural network
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN112434690A (zh) 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质
JP2023037360A (ja) 画像処理プログラムおよび画像処理システム
EP2545498A2 (en) Resolution adjustment of an image that includes text undergoing an ocr process
De Nardin et al. Few-shot pixel-precise document layout segmentation via dynamic instance generation and local thresholding
CN109635798B (zh) 一种信息提取方法及装置
JP2023037359A (ja) 画像処理プログラムおよび画像処理システム
CN111079745A (zh) 公式识别方法、装置、设备及存储介质
US11496644B2 (en) Image processing system and non-transitory computer-readable recording medium having stored thereon image processing program
US20180068421A1 (en) Image analyzing apparatus and non-transitory storage medium storing instructions executable by the image analyzing apparatus
JP7267854B2 (ja) 帳票認識装置、帳票認識方法、及び帳票認識システム
JP6111796B2 (ja) 画像処理装置およびコンピュータプログラム
US10430927B2 (en) Image analyzing apparatus and non-transitory storage medium storing instructions executable by the image analyzing apparatus
US10878271B2 (en) Systems and methods for separating ligature characters in digitized document images
JP2800192B2 (ja) 高速文字図形分離装置
JP2022015969A (ja) データ生成システムおよびデータ生成プログラム
JP2023005711A (ja) 情報処理装置、情報処理方法およびプログラム、並びにシステム
Choudhary Optical Character Recognition using ANN
CN116386064A (zh) 图像文本的检测方法、装置、设备和可读存储介质