JP7259491B2 - 画像処理装置及びプログラム - Google Patents

画像処理装置及びプログラム Download PDF

Info

Publication number
JP7259491B2
JP7259491B2 JP2019070098A JP2019070098A JP7259491B2 JP 7259491 B2 JP7259491 B2 JP 7259491B2 JP 2019070098 A JP2019070098 A JP 2019070098A JP 2019070098 A JP2019070098 A JP 2019070098A JP 7259491 B2 JP7259491 B2 JP 7259491B2
Authority
JP
Japan
Prior art keywords
image
ruled
ruled line
surplus
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019070098A
Other languages
English (en)
Other versions
JP2020170261A (ja
Inventor
邦和 上野
真太郎 安達
聡之 山口
俊一 木村
洋 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019070098A priority Critical patent/JP7259491B2/ja
Priority to US16/722,105 priority patent/US11715018B2/en
Priority to CN202010081648.1A priority patent/CN111797667A/zh
Publication of JP2020170261A publication Critical patent/JP2020170261A/ja
Application granted granted Critical
Publication of JP7259491B2 publication Critical patent/JP7259491B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置及びプログラムに関する。
従来より、帳票画像から帳票に形成された情報、例えば、帳票画像から帳票に記入された文字を認識する画像処理装置が知られている。一方、帳票には記入内容に応じた罫線枠及び罫線が予め形成されており、これらの罫線枠及び罫線は文字を認識する場合に妨げになる。罫線枠及び罫線を考慮する技術として、帳票のフォーマットをデータ化して登録する場合に、帳票の読取画像から罫線枠及び罫線を認識した後に除去し、罫線枠と罫線が除去された画像から予め印刷された文字を認識する帳票登録装置が開示されている(例えば、特許文献1参照)。
特開2000-172780号公報
ところで、帳票には、複数の用紙各々に、ユーザにより記入された文字を形成するために、複数の用紙の間にカーボンコピー等の転写部材を挟んで、最上層の用紙に記入された文字を、下層の用紙に転写する場合がある。ところが、カーボンコピー等の転写部材より下層側の用紙には、ユーザにより記入された文字以外の情報、例えば、ひっかき傷や擦れ傷等の傷がノイズとなって重畳される場合がある。ひっかき傷や擦れ傷等の傷は、例えば、用紙をスキャンして得た画像から文字認識処理して文字情報等を得る際に障害となる。従って、ユーザにより記入された文字以外の、例えば傷が重畳された画像から、文字を認識するには改善の余地がある。
本発明は、余剰画像を含む画像であっても、ユーザにより記入された記入情報に対応する記入画像を抽出することができる画像処理装置及びプログラムを提供することを目的とする。
上記目的を達成するために、第1態様は、
記入情報が記入された1枚の第1用紙、及び前記記入情報に対応する記入画像が転写され、かつ予め定めた罫線画像を備えた第2用紙を含む複数枚の用紙が積層された用紙群における前記第2用紙から、前記罫線画像及び前記記入画像を含む第1画像を生成する第1画像生成部と、
前記罫線画像及び前記記入画像と異なる余剰画像を含む記入情報を示す入力画像と、前記入力画像に対応し、かつ前記余剰画像を含まない前記記入情報を示す正解画像とを用いて学習され、かつ入力された画像から前記罫線画像及び前記余剰画像を除去した画像を出力する第1学習モデルによって、前記第1画像生成部で生成された前記第1画像から、前記罫線画像及び前記余剰画像を除去した記入画像を含む第2画像を生成する記入画像生成部と、前記余剰画像を含む罫線画像と、前記余剰画像を含まない前記罫線画像を示す正解画像とを用いて学習され、かつ入力された画像から前記余剰画像を除去した罫線画像を出力する第2学習モデルによって、前記第1画像生成部で生成された前記第1画像から、前記余剰画像を除去した罫線画像を生成する罫線画像生成部と、を含む第2画像生成部と、
前記罫線画像生成部で生成された罫線画像の前記第2用紙上における位置を示す罫線位置情報に基づいて、前記記入画像生成部で生成された前記第2画像において前記罫線画像の位置が前記罫線位置情報による位置となるように前記第2画像の位置を調整し、かつ前記位置が調整された前記第2画像を認識処理して認識結果を示す情報を前記記入情報として出力する出力部と、
を備えた画像処理装置である。
第2態様は、第1態様の画像処理装置において、
前記第1学習モデルは、前記余剰画像を含む入力画像と、前記入力画像に対応する前記余剰画像を含まない元画像と、の組合せにより、前記入力画像から前記元画像を生成するように学習したモデルである
第3態様は、第1態様又は第2態様の画像処理装置において、
前記第1学習モデル及び第2学習モデルの各々は、敵対的生成ネットワークを用いて学習させることで生成されたモデルである。
前記画像処理装置は、前記第2画像生成部で生成された前記第2画像を認識処理して認識結果を示す情報を前記記入情報として出力する出力部を含む。
前記画像処理装置は、前記罫線画像の用紙上における予め定めた位置を示す罫線位置情報に基づいて、前記第2画像における罫線画像の位置が前記罫線位置情報による位置となるように前記第2画像の位置を調整する出力部を含む。
態様は、第態様から第3態様の何れか1態様の画像処理装置において、
前記出力部は、前記罫線画像の罫線枠により形成される領域への記入項目を示す前記罫線枠の属性情報が予め定められており、前記罫線枠により形成される領域について前記第2画像を認識処理し、前記領域の前記認識結果に前記罫線枠の属性情報を対応付けて出力する。
態様は、第1態様から第態様の何れか1態様の画像処理装置において、
前記記入画像は、筆記文字画像である。
態様は、第1態様から第態様の何れか1態様の画像処理装置において、
前記用紙群は、カーボンコピー層が形成された用紙を含む。
態様は、第1態様から第態様の何れか1態様の画像処理装置において、
前記余剰画像は、ひっかき傷及び擦れ傷の少なくとも一方の傷情報に対応する傷画像である。
態様は、
コンピュータを
記入情報が記入された1枚の第1用紙、及び前記記入情報に対応する記入画像が転写され、かつ予め定めた罫線画像を備えた第2用紙を含む複数枚の用紙が積層された用紙群における前記第2用紙から、前記罫線画像及び前記記入画像を含む第1画像を生成する第1画像生成部、
前記罫線画像及び前記記入画像と異なる余剰画像を含む記入情報を示す入力画像と、前記入力画像に対応し、かつ前記余剰画像を含まない前記記入情報を示す正解画像とを用いて学習され、かつ入力された画像から前記罫線画像及び前記余剰画像を除去した画像を出力する第1学習モデルによって、前記第1画像生成部で生成された前記第1画像から、前記罫線画像及び前記余剰画像を除去した記入画像を含む第2画像を生成する記入画像生成部と、前記余剰画像を含む罫線画像と、前記余剰画像を含まない前記罫線画像を示す正解画像とを用いて学習され、かつ入力された画像から前記余剰画像を除去した罫線画像を出力する第2学習モデルによって、前記第1画像生成部で生成された前記第1画像から、前記余剰画像を除去した罫線画像を生成する罫線画像生成部と、を含む第2画像生成部、および、
前記罫線画像生成部で生成された罫線画像の前記第2用紙上における位置を示す罫線位置情報に基づいて、前記記入画像生成部で生成された前記第2画像において前記罫線画像の位置が前記罫線位置情報による位置となるように前記第2画像の位置を調整し、かつ前記位置が調整された前記第2画像を認識処理して認識結果を示す情報を前記記入情報として出力する出力部、
として機能させるためのプログラムである。
第1態様、及び第態様によれば、余剰画像を含む画像であっても、ユーザにより記入された記入情報に対応する記入画像を抽出することができる、という効果を有する。
第2態様によれば、学習済みのモデルを用いない場合と比べて、記入画像をより正確に抽出することができる、という効果を有する。
第3態様によれば、敵対的生成ネットワークによる学習を用いない場合と比べて、記入画像をより正確に抽出することができる、という効果を有する。
なお、第1態様、及び第8態様によれば、出力部を具備しない場合と比べて、記入画像に対応する記入情報をより正確に出力することができる、という効果を有する。
また、罫線位置情報を用いずに第2画像を生成する場合と比べて、記入情報に対応する記入画像をより正確に認識することができる、という効果を有する。
態様によれば、罫線枠内の記入項目を考慮せずに認識結果を出力する場合と比べて、罫線枠の記入項目に対応して記入情報を出力することができる、という効果を有する。
態様によれば、ユーザによる筆記文字であっても筆記文字を抽出することができる、という効果を有する。
態様によれば、用紙群がカーボンコピー層が形成された用紙を含む場合であっても、記入情報に対応する記入画像を抽出することができる、という効果を有する。
態様によれば、用紙に傷が形成されている場合であっても、記入情報に対応する記入画像を抽出することができる、という効果を有する。
第1実施形態に係る画像処理装置の一実施形態の機能構成を示すブロック図である。 筆記文字抽出学習モデルを学習する学習処理の説明図である。 罫線抽出学習モデルを学習する学習処理の説明図である。 学習処理部をGANとして構成した場合の一例を示すブロック図である。 伝票画像の一例を示すイメージ図である。 筆記文字画像の一例を示すイメージ図である。 罫線画像の一例を示すイメージ図である。 筆記文字画像と、罫線画像とを組み合わせた画像の一例を示すイメージ図である。 筆記文字画像における罫線枠内の領域の認識に関する説明図である。 画像処理装置をコンピュータを含んで構成した場合の一例を示すブロック図である。 第1実施形態に係る画像処理の流れの一例を示すフローチャートである。 第2実施形態に係る画像処理装置の一実施形態の機能構成を示すブロック図である。 第2実施形態に係る画像処理の流れの一例を示すフローチャートである。 第3実施形態に係る画像処理装置の一実施形態の機能構成を示すブロック図である。
以下、図面を参照して本開示の技術を実現する実施形態を詳細に説明する。なお、作用、機能が同じ働きを担う構成要素及び処理には、全図面を通して同じ符合を付与し、重複する説明を適宜省略する場合がある。
(第1実施形態)
図1に、本開示の第1実施形態に係る画像処理装置1の構成の一例を示す。
なお、本実施形態では、入力される画像から文字を認識する画像処理に本開示の技術を適用した場合を説明する。
本実施形態では、複数の用紙の間にカーボンコピー等の転写部材を挟んで、上層の用紙に記入された文字や図形が、下層の用紙に転写される複数の用紙の何れかを、スキャナ等の画像読取装置により読み取って文字を認識する場合を一例として説明する。以降、積層された複数の用紙(用紙群)を帳票という。また、帳票に含まれる各々の用紙を伝票という。特に、上層の用紙に記入された文字や図形が転写された下層の被転写側の用紙を転写伝票という場合がある。
また、本実施形態に係る画像処理装置1は、伝票をスキャナ等の画像読取装置により読み取った伝票画像に含まれる筆記文字等の文字画像を認識して文字コードを出力する場合を説明する。
なお、本実施形態では、カーボンコピー等により転写された用紙を用いる場合を説明するが、用紙に付与された圧力に応じた濃度画像が出現する用紙を用いて、上層の用紙に記入された文字や図形を下層の用紙に複写する場合に本開示の技術が適用可能であることは勿論である。
また、帳票におけるカーボンコピー等の転写部材が形成された層より上層の伝票に筆記される文字や図形は、筆記する際の筆記具の線の太さに応じた線の太さになる。一方、カーボンコピー等により転写された伝票では、筆圧等の力に応じて線の太さが変化する。従って、カーボンコピー等の転写部材を挟んた上層の伝票に記入された文字や図形が下層の伝票に転写される文字や図形は、上層の伝票に記入された文字や図形の線の太さや大きさが同等になることに限定されない。
ここで、ユーザの記入によってカーボンコピー等により文字及び図形が転写される伝票には、筆記文字以外に、例えば、汚れ、ひっかき傷や擦れ傷等の傷が形成される場合がある。この汚れ、ひっかき傷や擦れ傷等の傷が形成されている伝票をスキャナ等の画像読取装置により読み取った伝票画像は、汚れ、ひっかき傷や擦れ傷等の傷が形成される以前の伝票画像より劣化した画像となり、汚れ、ひっかき傷や擦れ傷等の傷がノイズとなって劣化した画像は、標準的な認識部では画質劣化により認識できない場合がある。そこで、本実施形態の画像処理装置1は、汚れ、ひっかき傷や擦れ傷等の傷によって劣化した画像からノイズを除去して文字認識する機能を有する。
なお、本実施形態では、劣化した画像となる原因の、例えば、汚れ、及びひっかき傷や擦れ傷等の傷によるノイズは、予め形成されている罫線と、ユーザにより記入される文字及び図形(記入情報)との各々と異なる画像(余剰画像)と考えられる。この余剰画像は、ユーザによる文字及び図形(記入情報)の記入時以外の場面で、カーボンコピー等の転写部材に作用する力により形成される。従って、本実施形態におけるノイズとは、予め形成されている罫線と、ユーザにより記入される文字及び図形(記入情報)との各々と異なる画像をいう。なお、記入情報は、ユーザにより記入される情報を示し、文字情報等の情報に対応する文字画像等の記入画像を示す情報でもある。
例えば、1枚目の用紙と2枚目の用紙が積層される場合、記入情報が、1枚目の用紙及び2枚目の用紙の共に形成される情報であるのに対して、余剰画像は、1枚目には形成されずに2枚目以降に形成される情報(による画像)であると捉えることが可能である。具体的には、記入情報は住所や名前のように、ユーザにより記入される情報のことを指すため、例えば積層した用紙であれば、最上層にある用紙にも存在し、下層の用紙についても転写部材により記入される。一方、ひっかきや擦れに起因する余剰画像は、ひっかきや擦れ自体がペンなどの筆記具を用いていないため、最上層にある用紙には存在しないが、最上層より下層の用紙には転写部材により記入が行われる。つまり、記入情報は積層された用紙のどの用紙にも存在する一方、余剰画像は積層された用紙の最上層にある用紙には存在せず2枚目以降の下層の用紙に存在するものともいえる。さらに別の言い方をすれば、余剰画像は1枚目には何らかの情報による跡として残っているが、色を有する画像として存在はしておらず、2枚目以降に色を有する画像として存在するものともいえる。
また、例えば、帳票への記入の筆記具が例えばペンである場合、記入情報が、ペンによる印字の情報であるのに対して、余剰画像がペンによる印字とは異なる内容の情報(による画像)であると捉えることが可能である。具体的には、記入情報は住所や名前にように、筆記具やプリンタなどを用いて記入した情報であるため、概ね同じ圧力により記入されているといえる。そのため記入情報としての文字の太さ、形状は一つの伝票上では概ね同一となる。また、プリンタを利用した場合も同様である。一方、ひっかきや擦れから構成される余剰画像であれば、それらの圧力はまちまちであり、対応する太さや形状もまちまちである。この太さや形状が一定であるか、無いかをニューラルネット等の学習器により学習を行い、余剰画像であるか記入情報であるかの判断を行う。別の表現を用いれば、余剰画像はランダムに記入される情報に基づく画像ともいえる。
さらに、例えば、用紙に予め形成されている罫線を考慮すると、余剰画像は、記入情報や罫線を跨いで形成される情報(による画像)であると捉えることが可能である。具体的には、ひっかきや擦れから構成される余剰画像は、ユーザが記入する記入情報と異なり、他の記入情報や既に記載されている罫線情報を跨いで記載されることがある。つまり、罫線情報や記入情報に重なる、重畳されるように記載されるものは余剰画像と捉えることができる。罫線情報や記入情報に重なるもののみを余剰画像と捉えることも可能であり、重なる余剰画像から記入された画像の太さや形状を認識し、画像の太さや形状が類似する画像を余剰画像と認識したうえで罫線情報や記入情報を跨がない、重ならない画像であっても余剰画像と特定することも可能である。
また、記入情報はユーザが記入する情報であることから、住所や氏名の間違いを訂正するための訂正線(取り消し線)や品番を特定するための丸画像やチェック画像などの特定入力画像も記入情報として捉えられることは言うまでもない。これらの特定入力画像も重畳された帳票の1枚目に記入されている情報であるし、ペンなどの筆記具を用いて記入された太さや形状が同種の情報であることから、記入情報として区別することが可能である。
本実施形態では、罫線画像と記入画像とを含む画像(第1画像)から、余剰画像を除去することで、罫線画像及び記入情報に対応する、罫線画像のみ及び記入画像のみを含む画像(第2画像)が生成される。この記入画像は記入情報に対応する画像と、余剰画像を含む情報からなると捉えることが可能である。そして、罫線画像と余剰画像を含む記入画像とを含む画像(第1画像)から、余剰画像を除去することで、罫線画像及び記入情報に対応する罫線画像のみ及び記入画像のみを含む画像(第2画像)が生成されると捉えてもよい。
図1に示すように、画像処理装置1は、画像入力部2、文字罫線抽出部3、及び、文字認識部4を備えている。文字罫線抽出部3は筆記文字抽出部31、筆記文字抽出学習モデル32、罫線抽出部33、及び罫線抽出学習モデル34を含んでいる。文字認識部4は、筆記文字位置合わせ部41、登録帳票枠位置情報記憶部42、筆記枠位置検出部43、筆記文字認識部44、及び筆記文字認識辞書45を含んでいる。
画像入力部2は、1以上の伝票画像の入力を受け付けて、文字罫線抽出部3へ出力する。文字罫線抽出部3は、画像入力部2からの伝票画像を用いて筆記文字及び罫線を抽出して出力、すなわち、伝票画像から、中間生成物である筆記文字画像及び罫線画像を抽出する。文字認識部4は、文字罫線抽出部3において生成された中間生成物(筆記文字画像及び罫線画像)を用いて、伝票に形成されている筆記文字画像を認識し、認識結果を出力する。
具体的には、画像入力部2は、1以上の伝票画像の入力を受け付ける。この画像入力部2には、例えば、スキャナ等の画像読取装置によって帳票に含まれる複数の伝票の各々を画像スキャンして生成されたスキャン画像を伝票画像として入力される(例えば、図5に示す伝票画像)。
図5に示す例では、品物を送る場合の帳票に、ユーザが記入情報を記入する複数の記入欄が設けられている。具体的には、届け先及び依頼主それぞれの情報として、郵便番号、電話番号、住所、及び氏名の各々の項目を記入する欄と、品物の受け取りに関する情報として、受取希望日及び受け取り希望時間を記入する欄と、品物の内容を示す情報を記入する欄とが設けられている。
文字罫線抽出部3は、画像入力部2からの伝票画像を用いて、筆記文字及び罫線を抽出する。具体的には、筆記文字抽出部31は、筆記文字抽出学習モデル32を用いて、伝票画像から筆記文字画像を抽出し、抽出された筆記文字画像を中間生成物として出力する(例えば、図6に示す画像)。また、罫線抽出部33は、罫線抽出学習モデル34を用いて、伝票画像から罫線画像を抽出し、抽出された罫線画像を中間生成物として出力する(例えば、図7に示す画像)。
筆記文字抽出部31で抽出される筆記文字画像は、伝票画像から生成(或いは推定)される中間生成物である。また、罫線抽出部33で抽出される罫線画像も、伝票画像から生成(或いは推定)される中間生成物である。すなわち、文字罫線抽出部3は、ひっかき傷や擦れ傷等の傷によるノイズを含まない伝票画像における筆記文字画像及び罫線画像を生成(或いは推定)する。
次、文字罫線抽出部3について詳細に説明する。
文字罫線抽出部3において、筆記文字抽出学習モデル32は、学習済みの学習モデルであり、伝票画像(帳票である複数の用紙のうちの被転写側の伝票を読み取った画像)から、伝票に形成された筆記文字を含む記入情報に対応する記入画像を生成する学習を済ませたモデルである。筆記文字抽出学習モデル32は、例えば学習済みのニューラルネットワークを規定するモデルであり、例えばニューラルネットワークを構成するノード(ニューロン)同士の間の結合の重み(強度)の情報の集合として表現される。
筆記文字抽出学習モデル32は、学習処理部35(図2参照)の学習処理により生成される。学習処理部35は、ひっかき傷及び擦れ傷等の傷等のノイズで劣化した記入情報を示す入力画像と、その入力画像に対応する劣化前の記入情報を示す正解画像と、のペアを大量に用いて学習処理を行う。学習処理部35が行う学習処理については、後述する。
なお、本実施形態では、傷等のノイズにより劣化した記入情報を示す入力画像と、正解画像と、を用いて学習処理を行う場合を説明するが、劣化した画像は、汚れ、及びゆがみ等で劣化した画像を含めて学習してもよい。
罫線抽出学習モデル34は、学習済みの学習モデルであり、伝票画像から、伝票に形成された罫線を示す罫線画像を生成する学習を済ませたモデルである。罫線抽出学習モデル34は、例えば学習済みのニューラルネットワークを規定するモデルであり、例えばニューラルネットワークを構成するノード(ニューロン)同士の間の結合の重み(強度)の情報の集合として表現される。
また、罫線抽出学習モデル34は、学習処理部36(図3参照)の学習処理により生成される。学習処理部36は、ノイズで劣化した罫線を含んだ入力画像と、その入力画像に対応する罫線画像を示す正解画像と、のペアを大量に用いて学習処理を行う。学習処理部36が行う学習処理については、後述する。
次に、図4を参照して、学習処理部35、36について説明する。学習処理部35は、GAN(Generative adversarial networks:敵対的生成ネットワーク)を構成する生成器(ジェネレータ)350と識別器(ディスクリミネータ)352とを含む。
また、学習処理部35は、学習用データとして、入力画像200と正解画像202のペアを多数保持している。入力画像200は、図5に示すように、ひっかき傷や擦れ傷等の傷が形成されているノイズを含む伝票画像である。図5に例示する入力画像200では、ひっかき傷や擦れ傷等の傷によるノイズが伝票画像に現れている。ひっかき傷や擦れ傷等の傷によるノイズは、画像から文字認識する場合に障害となる。これに対して正解画像202は、図6に示すように、筆記文字のみの画像である。正解画像202は、文字認識が可能である。
図4に示す生成器350は、入力画像200から生成画像204を生成するニューラルネットワークである。生成画像204は、入力画像200に対応する正解画像202を推定した画像である。すなわち、生成器350は、ひっかき傷や擦れ傷等の傷が形成されているノイズを含む伝票画像200から、正解画像202に近い生成画像204を生成する。生成器350は、多数の入力画像200を用いて学習することで、より正解画像2020に近い生成画像204を生成できるようになる。
識別器352は、入力された画像が、入力画像200に対応する正解画像202、及び入力画像200から生成器350が生成した生成画像204、のうちの何れであるかを識別するニューラルネットワークである。学習処理部35は、正解画像202(とこれに対応する入力画像200)又は生成画像204(とこれに対応する入力画像200)を識別器352に入力する。これに応じて、識別器352は、入力された画像が正解画像202(正解:true)又は生成画像204(偽物:false)の何れであるかを識別し、その識別結果を示す信号を出力する。
学習処理部35は、識別器352に入力した画像が正解、偽物のいずれであるかと、その識別器352からの出力信号とを比較し、その比較結果に基づく損失信号を生成器350及び識別器352の各々のニューラルネットワークのノード間の結合の重みパラメータにフィードバックする。これにより、生成器350と識別器352が学習を行う。
GANを構成する生成器350及び識別器352は、前者が教師データ(正解画像202)になるべく近い偽物(生成画像204)を生成しようとし、後者がその偽物を正しく識別しようとするという形で、いわば互いに切磋琢磨しながら学習を進める。
学習処理部35には、例えば「pix2pix」というアルゴリズム(Phillip Iso1a他による論文「Image-to-Image Translation with Conditional Adversarial Networks」、Berkeley AI Research (BAIR) Laboratory, UC Berkeley参照)と同様の方式を用いてもよい。この場合、生成器350の学習のために、識別器352の損失信号に加え、正解画像202と生成画像204との差もフィードバックする。
また、他の例として、Cycle GANと呼ばれるGANを学習処理部35に用いてもよい。Cycle GANを用いた場合、入力画像のすべてに正解画像が用意されていない場合でも学習が可能である。
そして、本実施形態の画像処理装置では、以上に例示した手法により生成した学習済みの生成器350を学習済の筆記文字抽出学習モデル32として用いる。筆記文字抽出部31は、この学習済の筆記文字抽出学習モデル32を用いて、伝票画像から筆記文字を示す画像を生成(或いは推定)することで筆記文字画像を抽出する。
十分に学習した筆記文字抽出学習モデル32を用いれば、ひっかき傷や擦れ傷等の傷が形成されているノイズを含む伝票画像から、認識可能な筆記文字画像を抽出することも不可能ではない。
次に、学習処理部36について説明する。学習処理部36は、GANを構成する生成器(ジェネレータ)350と識別器(ディスクリミネータ)352とを含む(図4参照)。なお、学習処理部36は、上述の学習処理部35と同様のため、詳細な説明を省略する。学習処理部36は、学習処理部35と異なる部分は、正解画像202として、図7に示すように、罫線のみの画像を用いる点である。
本実施形態の画像処理装置では、学習済みの生成器350を学習済の罫線抽出学習モデル34として用いる。罫線抽出部33は、この学習済の罫線抽出学習モデル34を用いて、伝票画像から罫線を示す画像を生成(或いは推定)することで罫線画像を抽出する。
十分に学習した筆記文字抽出学習モデル32を用いれば、ひっかき傷や擦れ傷等の傷が形成されているノイズを含む伝票画像から、罫線画像を抽出することも不可能ではない。
次に、文字認識部4について説明する。
文字認識部4は、伝票に形成されている筆記文字を認識し、認識結果を出力する。具体的には、筆記文字位置合わせ部41は、登録帳票枠位置情報記憶部42に記憶されている、登録帳票枠位置情報を用いて筆記文字画像の位置合わせを行う。登録帳票枠位置情報記憶部42には、筆記枠位置検出部43で検出された罫線画像における筆記枠の位置、形状、及び大きさ等の罫線に関係する情報が、登録帳票枠位置情報として記憶される。筆記枠位置検出部43は、罫線抽出部33で抽出された罫線画像のうち枠内の領域を記入領域としてその記入領域の枠を筆記枠として検出する。従って、筆記文字位置合わせ部41は、登録帳票枠位置情報を用いて、筆記枠に対応するように筆記文字画像の位置合わせを行う。
具体的には、筆記文字位置合わせ部41における筆記文字画像の位置合わせでは、筆記枠位置検出部43は、罫線抽出部33で抽出された罫線画像を用いて、複数の罫線画像により形成される枠画像の位置、形状及び大きさを検出する。この枠画像により示される枠内の領域は、ユーザによって記入情報が記入されている記入領域に対応する。筆記枠位置検出部43は、当該記入領域を示す枠画像の位置、形状及び大きさによる筆記枠を示す筆記枠位置情報を登録帳票枠位置情報記憶部42に記憶する。一方、登録帳票枠位置情報記憶部42には、帳票に形成されている罫線を示す情報、すなわち、罫線枠画像の位置、形状及び大きさによる罫線枠を示す罫線枠位置情報が、登録帳票枠位置情報として、予め登録されている。
そして、筆記文字位置合わせ部41は、登録帳票枠位置情報記憶部42に記憶されている、筆記枠位置情報と、登録帳票枠位置情報とを用いて筆記文字画像の位置合わせを行う。具体的には、登録済みの登録帳票枠位置情報と、検出された筆記枠位置情報とを比較し、差分を計算することにより、位置ズレ量を算出する。筆記文字位置合わせ部41は、算出された位置ズレ量分だけ、筆記文字画像204Mと罫線画像204Kとの何れか一方を移動することで、罫線枠内に筆記文字画像が位置するように修正する。
例えば、図8に示すように、伝票画像200から、筆記文字抽出部31で抽出された筆記文字画像に、罫線抽出部33で抽出された筆記文字画像を重ね合わせると、罫線枠内に文字画像が配置される。筆記文字位置合わせ部41は、筆記文字抽出部31で抽出された筆記文字画像に、罫線抽出部33で検出された筆記枠を対応付ける。抽出された筆記文字画像を重ね合わせた画像では、品物の内容を示す罫線枠204K1内の領域204Aに、筆記文字画像204M1が位置している。
筆記文字認識部44は、筆記文字位置合わせ部41により位置合わせされた画像から、筆記文字認識辞書45を用いて、筆記文字画像を認識する。筆記文字認識辞書45には、筆記文字画像と、筆記文字画像に対応する標準文字の文字コードとの対応関係を示すデータベースが記憶される。すなわち、文字認識部4は、文字罫線抽出部3によってノイズを除去(又は抑制)することによって生成された筆記文字画像から記入情報に対応する文字コードを生成する。
この筆記文字画像の認識では、筆記文字認識部44は、筆記文字位置合わせ部41で位置合わせされた罫線枠内の領域毎に文字画像を認識する。具体的には、筆記文字認識部44は、例えば、図9に示すように、筆記文字画像204A1における罫線枠204K1内の領域204Aの部分筆記文字画像204A1について、筆記文字認識辞書45を用いて認識する。図9に示す例では、認識結果として「ゴルフクラブ」を示す文字コードが生成される。
ところで、伝票画像200には、罫線枠に対応して、ユーザが記入情報を記入する複数の記入欄が設けられている。この記入欄には、ユーザが記入する記入情報の項目ごとに設定されている。従って、罫線枠の領域毎の筆記文字画像の認識結果は、記入情報の項目に対応する。
そこで、筆記枠位置情報、又は登録帳票枠位置情報における罫線枠の領域毎に、記入情報の項目を示す情報を対応付けておくことで、筆記文字認識部44は、認識結果に記入情報の項目を示す情報を対応付けることが可能になる。図9に示す例では、認識結果として「ゴルフクラブ」を示す文字コードに、品物の内容を示す項目情報を属性情報として付与する。これにより、認識結果の文字が示す項目を特定可能になる。
なお、画像入力部は、本開示の第1画像生成部の一例である。また、筆記文字抽出部31及び文字罫線抽出部3は、本開示の第2画像生成部の一例である。また、文字認識部4は、本開示の出力部の一例である。
以上に例示した画像処理装置1は、例えば、コンピュータに上述の各機能を表すプログラムを実行させることにより実現可能である。
図10に、画像処理装置1の各種機能を実現する処理を実行する実行装置としてコンピュータを含んで構成した場合の一例を示す。
図10に示す画像処理装置1として機能するコンピュータは、コンピュータ本体100を備えている。コンピュータ本体100は、CPU102、揮発性メモリ等のRAM104、ROM106、ハードディスク装置(HDD)等の補助記憶装置108、及び入出力インターフェース(I/O)110を備えている。これらのCPU102、RAM104、ROM106、補助記憶装置108、及び入出力I/O110は、相互にデータ及びコマンドを授受可能にバス112を介して接続された構成である。また、入出力I/O110には、画像入力部2、通信インタフェース(I/F)114、及びディスプレイやキーボード等の操作表示部116が接続されている。
補助記憶装置108には、コンピュータ本体100を本開示の画像処理装置として機能させるための制御プログラム108Pが記憶される。CPU102は、制御プログラム108Pを補助記憶装置108から読み出してRAM104に展開して処理を実行する。これにより、制御プログラム108Pを実行したコンピュータ本体100は、本開示の情報処理装置として動作する。
なお、補助記憶装置108には、筆記文字抽出学習モデル32と罫線抽出学習モデル34とを含む学習モデル108M、及び登録帳票枠位置情報記憶部42と筆記文字認識辞書45とを含むデータ108Dが記憶される。制御プログラム108Pは、CD-ROM等の記録媒体により提供するようにしても良い。
次に、コンピュータにより実現された画像処理装置における画像処理について説明する。
図11に、コンピュータ本体100において、実行される制御プログラム108Pによる画像処理の流れの一例を示す。
図11に示す画像処理は、コンピュータ本体100に電源投入されると、CPU102により実行される。
まず、CPU102は、ステップS100で、画像入力部2から伝票画像200を取得し、次のステップS104で、筆記文字画像を抽出する。すなわち、筆記文字抽出学習モデル32を用いて、伝票画像200から、中間生成物である筆記文字画像204Mを抽出する。
次に、ステップS106では、罫線画像を抽出する。すなわち、罫線抽出学習モデル34を用いて、伝票画像200から、中間生成物である罫線画像204Kを抽出する。
次に、ステップS108では、伝票画像200における罫線枠の枠位置ずれ量を検出する。具体的には、まず、ステップS106で抽出された罫線画像を用いて、複数の罫線画像により形成される枠画像の位置、形状及び大きさを検出する。次に、枠画像の位置、形状及び大きさによる筆記枠を示す筆記枠位置情報を補助記憶装置108のデータ108Dに記憶する。なお、データ108Dには、帳票に形成されている罫線を示す情報、すなわち、罫線枠画像の位置、形状及び大きさによる罫線枠を示す罫線枠位置情報が、登録帳票枠位置情報として、予め登録されている。
次に、ステップS110では、罫線枠ごとに筆記文字の位置を修正する。具体的には、データ108Dに記憶されている、筆記枠位置情報と、登録帳票枠位置情報とを比較し、差分計算により、枠位置ズレ量を算出する。次に、算出された枠位置ズレ量分だけ、筆記文字画像204Mと罫線画像204Kとの何れか一方を移動することで、罫線枠内に筆記文字画像が位置するように修正する(図8も参照)。
次に、ステップS112では、筆記文字画像を認識する。具体的には、ステップS110で修正された罫線枠の領域毎の筆記文字画像を、筆記文字認識辞書45を用いて認識する。次のステップS114では、ステップS112の認識結果(例えば、文字コード)を出力し、本処理ルーチンを終了する。
なお、図11に示す画像処理は、本開示の画像処理装置で実行される処理の一例である。
(第2実施形態)
次に、第2実施形態を説明する。第2実施形態は、伝票画像に対して予め定めた前処理を施した後に文字を認識する画像処理を実行する場合に開示の技術を適用したものである。なお、第2実施形態は第1実施形態と略同様の構成のため、同一部分には同一符号を付して詳細な説明を省略する。
図12に、第2実施形態に係る画像処理装置12の構成の一例を示す。
図12に示すように、第2実施形態に係る画像処理装置12は、画像入力部2、前処理部5、文字罫線抽出部3、及び、文字認識部4を備えている。第2実施形態は、画像入力部2で受け付けた伝票画像を、前処理部5で前処理した後に、文字罫線抽出部3へ出力する点が第1実施形態と異なっている。
前処理部5は、前処理実行部50を備えている。前処理部5に具備された前処理実行部50は、画像入力部2からの伝票画像について、予め定めた前処理を施して出力する。前処理実行部50は、伝票画像に対して簡易な画像処理を施す実行部である。簡易な画像処理の一例には、色処理、階調補正処理、定型ノイズ処理、及び先鋭化処理が挙げられる。
色処理の一例には、伝票画像の背景色を除去する処理が挙げられる。例えば、帳票に含まれる伝票には、黒色インクによって文字や図形などの記入情報が筆記具で記入されることを想定し、青色背景による定型文字が形成される場合がある。この場合、前処理実行部50において、青色背景による文字を事前に除去することによって、文字罫線抽出部3に入力する伝票画像から、ユーザによって記入された文字とは異なる定型文字を、事前に除去することが可能になる。これによって、出力される認識結果の精度を向上することが可能になる。
階調補正処理の一例には、筆記文字画像の濃度を濃くする階調補正処理が挙げられる。例えば、ユーザによって記入された記入情報に対応する記入画像は、ユーザの筆圧やカーボンコピー層の転写力不足によって、予め想定した濃度より低い濃度で形成される場合がある。この場合、予め想定した濃度より低い記入画像の濃度を、予め定めた濃度だけ増加させる階調補正処理を行う。この階調補正処理によって、文字画像の認識率が向上、すなわち、出力される認識結果の精度を向上することが可能になる。
定型ノイズ処理の一例には、予め学習した学習モデルを用いることなく処理可能な簡易ノイズ除去処理が挙げられる。簡易ノイズ除去処理は、例えば、所定ピクセル以内の点画像が散在するノイズ(所謂ごま塩ノイズ)を除去する処理があり、簡易ノイズ除去処理を施すことで、伝票画像から記入情報に関係性が低い簡易ノイズ画像を事前に除去することが可能になる。これによって、出力される認識結果の精度を向上することが可能になる。
先鋭化処理の一例には、所謂ぼけた画像等のように濃度勾配を有する画像を、先鋭化する簡易画像処理が挙げられる。伝票画像に先鋭化処理を施すことで、伝票画像における記入画像を認識率を向上可能な画像に事前に処理することが可能になる。これによって、出力される認識結果の精度を向上することが可能になる。
図13に、本実施形態に係る画像処理の流れの一例を示す。
図13に示す画像処理の流れは、図11に示す画像処理の流れにおけるステップS100とステップS104の間に、ステップS102の処理を追加したもである。CPU102は、ステップS102において、画像入力部2から取得した伝票画像200に対して上述の前処理を施した後に、ステップS104へ処理を移行する。
なお、本実施形態では、伝票画像に対して予め定めた前処理を施した後に文字を認識する画像処理を実行するので、文字罫線抽出部3における筆記文字抽出学習モデル32及び罫線抽出学習モデル34は、予め定めた前処理を施した伝票画像を用いて学習処理することが好ましい。
(第3実施形態)
次に、第3実施形態を説明する。第3実施形態は、筆記文字を認識した認識結果を修正する処理を実行する場合に開示の技術を適用したものである。なお、第3実施形態は第1実施形態と略同様の構成のため、同一部分には同一符号を付して詳細な説明を省略する。
図14に、第3実施形態に係る画像処理装置13の構成の一例を示す。
図14に示すように、第3実施形態に係る画像処理装置12は、文字認識部4に認識修正部4Aをさらに備えている。第3実施形態は、文字認識部4の筆記文字認識部の認識結果を、認識修正部4Aで修正した後に、修正された認識結果を出力する点が第1実施形態と異なっている。
認識修正部4Aは、認識結果修正部46及びデータベース(DB)47を備えている。DB47の一例には、住所DBが挙げられる。住所DBは、都道府県及び市町村の名称が登録される。DB47の他例には、郵便番号DBが挙げられる。郵便番号DBは、郵便番号と住所DBとを対応付けたデータベースである。認識修正部4Aの認識結果修正部46は、DB47を用いて、筆記文字認識部44の認識結果を修正して出力する。
具体的には、認識結果修正部46は、筆記文字認識部44の認識結果と、認識結果に類似したデータをDB47に登録されているデータから抽出する。例えば、DB47として住所DBが登録されている場合、筆記文字認識部44の認識結果の住所の文字列に一致又は類似した文字列を抽出する。筆記文字認識部44の認識結果の住所の文字列と、住所DBから抽出した文字列とが一致する場合は、筆記文字認識部44の認識結果を出力する。
一方、筆記文字認識部44の認識結果の住所の文字列と、住所DBから抽出した文字列とが不一致の場合、すなわち、筆記文字認識部44の認識結果の文字列が住所DBに登録されていない場合、筆記文字認識部44の認識結果の文字列に誤認識の文字列が含まれている可能性が高い。このため、認識結果修正部46は、認識結果の住所の文字列と、住所DBから抽出した文字列とを比較して、誤認識文字を修正する。
例えば、認識結果の住所の文字列に一致度が高い文字列を、住所DBから抽出し、認識結果と置き換える。この一致度は、認識結果の住所の文字列と、住所DBから抽出した文字列とが一致する文字数の比率を用いればよい。この一致度が高い順に複数(例えば3つ)の文字列を住所DBから抽出し、複数(例えば3つ)の文字列から選択するようにしてもよい。この場合、抽出した複数(例えば3つ)の文字列各々に優先順位を付して、優先順位に従って、例えば最も一致度が高い文字列を自動的に設定するようにしてもよく、ユーザに選択させるようにしてもよい。
また、認識結果として、郵便番号と、住所とが得られる場合、両者を用いて、認識結果を修正してもよい。例えば、認識結果の郵便番号から、郵便番号DBを用いて認識結果の郵便番号に対応する住所を抽出し、認識結果の住所と比較する。比較結果の一致度から認識結果の住所を修正する。また、認識結果の住所から、郵便番号DBを用いて認識結果の住所に対応する郵便番号を抽出し、認識結果の郵便番号と比較する。比較結果の一致度から認識結果の郵便番号を修正する。なお、郵便番号と住所との組み合わせで一致度を求めて複数の候補を抽出し、抽出された候補の中から選択するようにしてもよい。
以上、各実施の形態を用いて説明したが、本開示の技術的範囲は上記実施形態に記載の範囲には限定されない。要旨を逸脱しない範囲で上記実施形態に多様な変更または改良を加えることができ、当該変更または改良を加えた形態も本開示の技術的範囲に含まれる。
また、上記実施形態では、検査処理を、フローチャートを用いた処理によるソフトウエア構成によって実現した場合について説明したが、これに限定されるものではなく、例えば各処理をハードウェア構成により実現する形態としてもよい。
また、画像処理装置の一部、例えば学習モデル等のニューラルネットワークを、ハードウエア回路として構成してもよい。
1、12、13画像処理装置
2 画像入力部
3 文字罫線抽出部
4 文字認識部
5 前処理部
31 筆記文字抽出部
32 筆記文字抽出学習モデル
33 罫線抽出部
34 罫線抽出学習モデル
35、36 学習処理部
41 筆記文字位置合わせ部
42 登録帳票枠位置情報記憶部
43 筆記枠位置検出部
44 筆記文字認識部
45 筆記文字認識辞書
108P 制御プログラム
200 伝票画像
202 正解画像
204 生成画像
350 生成器
352 識別器

Claims (8)

  1. 記入情報が記入された1枚の第1用紙、及び前記記入情報に対応する記入画像が転写され、かつ予め定めた罫線画像を備えた第2用紙を含む複数枚の用紙が積層された用紙群における前記第2用紙から、前記罫線画像及び前記記入画像を含む第1画像を生成する第1画像生成部と、
    前記罫線画像及び前記記入画像と異なる余剰画像を含む記入情報を示す入力画像と、前記入力画像に対応し、かつ前記余剰画像を含まない前記記入情報を示す正解画像とを用いて学習され、かつ入力された画像から前記罫線画像及び前記余剰画像を除去した画像を出力する第1学習モデルによって、前記第1画像生成部で生成された前記第1画像から、前記罫線画像及び前記余剰画像を除去した記入画像を含む第2画像を生成する記入画像生成部と、前記余剰画像を含む罫線画像と、前記余剰画像を含まない前記罫線画像を示す正解画像とを用いて学習され、かつ入力された画像から前記余剰画像を除去した罫線画像を出力する第2学習モデルによって、前記第1画像生成部で生成された前記第1画像から、前記余剰画像を除去した罫線画像を生成する罫線画像生成部と、を含む第2画像生成部と、
    前記罫線画像生成部で生成された罫線画像の前記第2用紙上における位置を示す罫線位置情報に基づいて、前記記入画像生成部で生成された前記第2画像において前記罫線画像の位置が前記罫線位置情報による位置となるように前記第2画像の位置を調整し、かつ前記位置が調整された前記第2画像を認識処理して認識結果を示す情報を前記記入情報として出力する出力部と、
    を備えた画像処理装置。
  2. 前記第1学習モデルは、前記余剰画像を含む入力画像と、前記入力画像に対応する前記余剰画像を含まない元画像と、の組合せにより、前記入力画像から前記元画像を生成するように学習したモデルである、
    請求項1に記載の画像処理装置。
  3. 前記第1学習モデル及び第2学習モデルの各々は、敵対的生成ネットワークを用いて学習させることで生成されたモデルである
    請求項1又は請求項2に記載の画像処理装置。
  4. 前記出力部は、前記罫線画像の罫線枠により形成される領域への記入項目を示す前記罫線枠の属性情報が予め定められており、前記罫線枠により形成される領域について前記第2画像を認識処理し、前記領域の認識結果に前記罫線枠の属性情報を対応付けて出力する、
    請求項1から請求項3の何れか1項に記載の画像処理装置。
  5. 前記記入画像は、筆記文字画像である、
    請求項1から請求項の何れか1項に記載の画像処理装置。
  6. 前記用紙群は、カーボンコピー層が形成された用紙を含む
    請求項1から請求項の何れか1項に記載の画像処理装置。
  7. 前記余剰画像は、ひっかき傷及び擦れ傷の少なくとも一方の傷情報に対応する傷画像である
    請求項1から請求項の何れか1項に記載の画像処理装置。
  8. コンピュータを
    記入情報が記入された1枚の第1用紙、及び前記記入情報に対応する記入画像が転写され、かつ予め定めた罫線画像を備えた第2用紙を含む複数枚の用紙が積層された用紙群における前記第2用紙から、前記罫線画像及び前記記入画像を含む第1画像を生成する第1画像生成部、
    前記罫線画像及び前記記入画像と異なる余剰画像を含む記入情報を示す入力画像と、前記入力画像に対応し、かつ前記余剰画像を含まない前記記入情報を示す正解画像とを用いて学習され、かつ入力された画像から前記罫線画像及び前記余剰画像を除去した画像を出力する第1学習モデルによって、前記第1画像生成部で生成された前記第1画像から、前記罫線画像及び前記余剰画像を除去した記入画像を含む第2画像を生成する記入画像生成部と、前記余剰画像を含む罫線画像と、前記余剰画像を含まない前記罫線画像を示す正解画像とを用いて学習され、かつ入力された画像から前記余剰画像を除去した罫線画像を出力する第2学習モデルによって、前記第1画像生成部で生成された前記第1画像から、前記余剰画像を除去した罫線画像を生成する罫線画像生成部と、を含む第2画像生成部、および、
    前記罫線画像生成部で生成された罫線画像の前記第2用紙上における位置を示す罫線位置情報に基づいて、前記記入画像生成部で生成された前記第2画像において前記罫線画像の位置が前記罫線位置情報による位置となるように前記第2画像の位置を調整し、かつ前記位置が調整された前記第2画像を認識処理して認識結果を示す情報を前記記入情報として出力する出力部、
    として機能させるためのプログラム。
JP2019070098A 2019-04-01 2019-04-01 画像処理装置及びプログラム Active JP7259491B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019070098A JP7259491B2 (ja) 2019-04-01 2019-04-01 画像処理装置及びプログラム
US16/722,105 US11715018B2 (en) 2019-04-01 2019-12-20 Image processing apparatus and non-transitory computer readable medium
CN202010081648.1A CN111797667A (zh) 2019-04-01 2020-02-06 图像处理设备、图像处理方法和非暂态计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019070098A JP7259491B2 (ja) 2019-04-01 2019-04-01 画像処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020170261A JP2020170261A (ja) 2020-10-15
JP7259491B2 true JP7259491B2 (ja) 2023-04-18

Family

ID=72606378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019070098A Active JP7259491B2 (ja) 2019-04-01 2019-04-01 画像処理装置及びプログラム

Country Status (3)

Country Link
US (1) US11715018B2 (ja)
JP (1) JP7259491B2 (ja)
CN (1) CN111797667A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7215242B2 (ja) * 2019-03-08 2023-01-31 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム
JP2021043775A (ja) * 2019-09-12 2021-03-18 富士ゼロックス株式会社 情報処理装置及びプログラム
US11176410B2 (en) * 2019-10-27 2021-11-16 John Snow Labs Inc. Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition
EP4228266A1 (en) 2020-10-08 2023-08-16 Riken Image processing device, image processing method, and non-transitory computer readable medium whereon image processing program is stored

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030644A (ja) 2001-07-12 2003-01-31 Glory Ltd 画像処理装置、画像処理方法およびこれらの方法をコンピュータに実行させるプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0660222A (ja) * 1992-08-12 1994-03-04 Toshiba Corp 文字認識装置
CA2134255C (en) * 1993-12-09 1999-07-13 Hans Peter Graf Dropped-form document image compression
US6104833A (en) * 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
US5861355A (en) * 1996-09-30 1999-01-19 Olson; David K. Multiple part recipe card assembly and method of construction and use of duplicate laminated recipe cards
US5863629A (en) * 1996-09-30 1999-01-26 Taiwan Hopax Chemicals Mfg., Co., Ltd. Writing system of stacked carbonless repositionable self-adhesive paper
US5944351A (en) * 1998-01-12 1999-08-31 Koploy; Randolph A. Binding for removable-sheet book
US6332032B1 (en) * 1998-12-03 2001-12-18 The United States Of America As Represented By The Secretary Of The Army Method for generating test files from scanned test vector pattern drawings
JP2000172780A (ja) 1998-12-10 2000-06-23 Toshiba Corp 帳票登録装置および図形認識装置
US6996295B2 (en) * 2002-01-10 2006-02-07 Siemens Corporate Research, Inc. Automatic document reading system for technical drawings
JP4861711B2 (ja) * 2005-07-27 2012-01-25 株式会社リコー 画像処理装置、画像圧縮方法、画像圧縮プログラム及び記録媒体
JP4443576B2 (ja) * 2007-01-18 2010-03-31 富士通株式会社 パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法
JP5303865B2 (ja) * 2007-05-23 2013-10-02 株式会社リコー 情報処理装置、及び、情報処理方法
JP5014284B2 (ja) * 2008-08-08 2012-08-29 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム
US8824785B2 (en) * 2010-01-27 2014-09-02 Dst Technologies, Inc. Segregation of handwritten information from typographic information on a document
US8788930B2 (en) * 2012-03-07 2014-07-22 Ricoh Co., Ltd. Automatic identification of fields and labels in forms
US9361536B1 (en) * 2014-12-16 2016-06-07 Xerox Corporation Identifying user marks using patterned lines on pre-printed forms
JP6648580B2 (ja) * 2016-03-18 2020-02-14 株式会社リコー 原稿種認識装置、画像形成装置、原稿種認識方法およびプログラム
JP6874387B2 (ja) * 2017-01-26 2021-05-19 株式会社リコー 画像処理装置、画像処理方法およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030644A (ja) 2001-07-12 2003-01-31 Glory Ltd 画像処理装置、画像処理方法およびこれらの方法をコンピュータに実行させるプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Vishwanath D ほか8名,Deep Reader: Information extraction from Document images via relation extraction and Natural Langage,arXiv,2018年12月14日,p.1-17

Also Published As

Publication number Publication date
US20200311883A1 (en) 2020-10-01
CN111797667A (zh) 2020-10-20
JP2020170261A (ja) 2020-10-15
US11715018B2 (en) 2023-08-01

Similar Documents

Publication Publication Date Title
JP7259491B2 (ja) 画像処理装置及びプログラム
CN110032938B (zh) 一种藏文识别方法、装置及电子设备
KR101446376B1 (ko) 고유 이미지 프로세스에 따른 미지 문서의 식별 및 검증
KR101515256B1 (ko) 동적 문서 식별 프레임워크를 사용한 문서 검증
JP5500480B2 (ja) 帳票認識装置及び帳票認識方法
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
CN114299528B (zh) 一种针对扫描文档的信息提取和结构化方法
US20090180694A1 (en) Method and apparatus for determining an orientation of a document including Korean characters
CN102737240B (zh) 分析数字文档图像的方法
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
CA2601144C (en) Method and system for adaptive recognition of distorted text in computer images
JP2021502628A (ja) 画像処理方法及び画像処理システム
JP2020144735A (ja) 画像処理装置及びプログラム
JPH11110481A (ja) フォームレンダリング及び文字抽出方法
JP2023127106A (ja) 印刷画像の欠陥判別装置、および判別方法
US11704352B2 (en) Automated categorization and assembly of low-quality images into electronic documents
JP7322468B2 (ja) 情報処理装置、情報処理方法及びプログラム
Tzogka et al. OCR Workflow: Facing Printed Texts of Ancient, Medieval and Modern Greek Literature.
US12033367B2 (en) Automated categorization and assembly of low-quality images into electronic documents
JPH0991385A (ja) 文字認識辞書追加方法及びこれを用いた端末ocr装置
US11798258B2 (en) Automated categorization and assembly of low-quality images into electronic documents
JP7452060B2 (ja) 情報処理装置及びプログラム
Gupta et al. A Practical Implementation of Automatic Document Analysis and Verification using Tesseract [1][2]
JP4083723B2 (ja) 画像処理装置
US11881041B2 (en) Automated categorization and processing of document images of varying degrees of quality

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230320

R150 Certificate of patent or registration of utility model

Ref document number: 7259491

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150