JP7259491B2

JP7259491B2 - 画像処理装置及びプログラム

Info

Publication number: JP7259491B2
Application number: JP2019070098A
Authority: JP
Inventors: 邦和上野; 真太郎安達; 聡之山口; 俊一木村; 洋劉
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2023-04-18
Anticipated expiration: 2039-04-01
Also published as: US20200311883A1; CN111797667A; JP2020170261A; US11715018B2

Description

本発明は、画像処理装置及びプログラムに関する。

従来より、帳票画像から帳票に形成された情報、例えば、帳票画像から帳票に記入された文字を認識する画像処理装置が知られている。一方、帳票には記入内容に応じた罫線枠及び罫線が予め形成されており、これらの罫線枠及び罫線は文字を認識する場合に妨げになる。罫線枠及び罫線を考慮する技術として、帳票のフォーマットをデータ化して登録する場合に、帳票の読取画像から罫線枠及び罫線を認識した後に除去し、罫線枠と罫線が除去された画像から予め印刷された文字を認識する帳票登録装置が開示されている（例えば、特許文献１参照）。

特開２０００－１７２７８０号公報

ところで、帳票には、複数の用紙各々に、ユーザにより記入された文字を形成するために、複数の用紙の間にカーボンコピー等の転写部材を挟んで、最上層の用紙に記入された文字を、下層の用紙に転写する場合がある。ところが、カーボンコピー等の転写部材より下層側の用紙には、ユーザにより記入された文字以外の情報、例えば、ひっかき傷や擦れ傷等の傷がノイズとなって重畳される場合がある。ひっかき傷や擦れ傷等の傷は、例えば、用紙をスキャンして得た画像から文字認識処理して文字情報等を得る際に障害となる。従って、ユーザにより記入された文字以外の、例えば傷が重畳された画像から、文字を認識するには改善の余地がある。

本発明は、余剰画像を含む画像であっても、ユーザにより記入された記入情報に対応する記入画像を抽出することができる画像処理装置及びプログラムを提供することを目的とする。

上記目的を達成するために、第１態様は、
記入情報が記入された１枚の第１用紙、及び前記記入情報に対応する記入画像が転写され、かつ予め定めた罫線画像を備えた第２用紙を含む複数枚の用紙が積層された用紙群における前記第２用紙から、前記罫線画像及び前記記入画像を含む第１画像を生成する第１画像生成部と、
前記罫線画像及び前記記入画像と異なる余剰画像を含む記入情報を示す入力画像と、前記入力画像に対応し、かつ前記余剰画像を含まない前記記入情報を示す正解画像とを用いて学習され、かつ入力された画像から前記罫線画像及び前記余剰画像を除去した画像を出力する第１学習モデルによって、前記第１画像生成部で生成された前記第１画像から、前記罫線画像及び前記余剰画像を除去した記入画像を含む第２画像を生成する記入画像生成部と、前記余剰画像を含む罫線画像と、前記余剰画像を含まない前記罫線画像を示す正解画像とを用いて学習され、かつ入力された画像から前記余剰画像を除去した罫線画像を出力する第２学習モデルによって、前記第１画像生成部で生成された前記第１画像から、前記余剰画像を除去した罫線画像を生成する罫線画像生成部と、を含む第２画像生成部と、
前記罫線画像生成部で生成された罫線画像の前記第２用紙上における位置を示す罫線位置情報に基づいて、前記記入画像生成部で生成された前記第２画像において前記罫線画像の位置が前記罫線位置情報による位置となるように前記第２画像の位置を調整し、かつ前記位置が調整された前記第２画像を認識処理して認識結果を示す情報を前記記入情報として出力する出力部と、
を備えた画像処理装置である。

第２態様は、第１態様の画像処理装置において、
前記第１学習モデルは、前記余剰画像を含む入力画像と、前記入力画像に対応する前記余剰画像を含まない元画像と、の組合せにより、前記入力画像から前記元画像を生成するように学習したモデルである。

第３態様は、第１態様又は第２態様の画像処理装置において、
前記第１学習モデル及び第２学習モデルの各々は、敵対的生成ネットワークを用いて学習させることで生成されたモデルである。

前記画像処理装置は、前記第２画像生成部で生成された前記第２画像を認識処理して認識結果を示す情報を前記記入情報として出力する出力部を含む。

前記画像処理装置は、前記罫線画像の用紙上における予め定めた位置を示す罫線位置情報に基づいて、前記第２画像における罫線画像の位置が前記罫線位置情報による位置となるように前記第２画像の位置を調整する出力部を含む。

第４態様は、第１態様から第３態様の何れか１態様の画像処理装置において、
前記出力部は、前記罫線画像の罫線枠により形成される領域への記入項目を示す前記罫線枠の属性情報が予め定められており、前記罫線枠により形成される領域について前記第２画像を認識処理し、前記領域の前記認識結果に前記罫線枠の属性情報を対応付けて出力する。

第５態様は、第１態様から第４態様の何れか１態様の画像処理装置において、
前記記入画像は、筆記文字画像である。

第６態様は、第１態様から第５態様の何れか１態様の画像処理装置において、
前記用紙群は、カーボンコピー層が形成された用紙を含む。

第７態様は、第１態様から第６態様の何れか１態様の画像処理装置において、
前記余剰画像は、ひっかき傷及び擦れ傷の少なくとも一方の傷情報に対応する傷画像である。

第８態様は、
コンピュータを
記入情報が記入された１枚の第１用紙、及び前記記入情報に対応する記入画像が転写され、かつ予め定めた罫線画像を備えた第２用紙を含む複数枚の用紙が積層された用紙群における前記第２用紙から、前記罫線画像及び前記記入画像を含む第１画像を生成する第１画像生成部、
前記罫線画像及び前記記入画像と異なる余剰画像を含む記入情報を示す入力画像と、前記入力画像に対応し、かつ前記余剰画像を含まない前記記入情報を示す正解画像とを用いて学習され、かつ入力された画像から前記罫線画像及び前記余剰画像を除去した画像を出力する第1学習モデルによって、前記第１画像生成部で生成された前記第１画像から、前記罫線画像及び前記余剰画像を除去した記入画像を含む第２画像を生成する記入画像生成部と、前記余剰画像を含む罫線画像と、前記余剰画像を含まない前記罫線画像を示す正解画像とを用いて学習され、かつ入力された画像から前記余剰画像を除去した罫線画像を出力する第２学習モデルによって、前記第１画像生成部で生成された前記第１画像から、前記余剰画像を除去した罫線画像を生成する罫線画像生成部と、を含む第２画像生成部、および、
前記罫線画像生成部で生成された罫線画像の前記第２用紙上における位置を示す罫線位置情報に基づいて、前記記入画像生成部で生成された前記第２画像において前記罫線画像の位置が前記罫線位置情報による位置となるように前記第２画像の位置を調整し、かつ前記位置が調整された前記第２画像を認識処理して認識結果を示す情報を前記記入情報として出力する出力部、
として機能させるためのプログラムである。

第１態様、及び第８態様によれば、余剰画像を含む画像であっても、ユーザにより記入された記入情報に対応する記入画像を抽出することができる、という効果を有する。
第２態様によれば、学習済みのモデルを用いない場合と比べて、記入画像をより正確に抽出することができる、という効果を有する。
第３態様によれば、敵対的生成ネットワークによる学習を用いない場合と比べて、記入画像をより正確に抽出することができる、という効果を有する。
なお、第１態様、及び第８態様によれば、出力部を具備しない場合と比べて、記入画像に対応する記入情報をより正確に出力することができる、という効果を有する。
また、罫線位置情報を用いずに第２画像を生成する場合と比べて、記入情報に対応する記入画像をより正確に認識することができる、という効果を有する。
第４態様によれば、罫線枠内の記入項目を考慮せずに認識結果を出力する場合と比べて、罫線枠の記入項目に対応して記入情報を出力することができる、という効果を有する。
第５態様によれば、ユーザによる筆記文字であっても筆記文字を抽出することができる、という効果を有する。
第６態様によれば、用紙群がカーボンコピー層が形成された用紙を含む場合であっても、記入情報に対応する記入画像を抽出することができる、という効果を有する。
第７態様によれば、用紙に傷が形成されている場合であっても、記入情報に対応する記入画像を抽出することができる、という効果を有する。

第１実施形態に係る画像処理装置の一実施形態の機能構成を示すブロック図である。筆記文字抽出学習モデルを学習する学習処理の説明図である。罫線抽出学習モデルを学習する学習処理の説明図である。学習処理部をＧＡＮとして構成した場合の一例を示すブロック図である。伝票画像の一例を示すイメージ図である。筆記文字画像の一例を示すイメージ図である。罫線画像の一例を示すイメージ図である。筆記文字画像と、罫線画像とを組み合わせた画像の一例を示すイメージ図である。筆記文字画像における罫線枠内の領域の認識に関する説明図である。画像処理装置をコンピュータを含んで構成した場合の一例を示すブロック図である。第１実施形態に係る画像処理の流れの一例を示すフローチャートである。第２実施形態に係る画像処理装置の一実施形態の機能構成を示すブロック図である。第２実施形態に係る画像処理の流れの一例を示すフローチャートである。第３実施形態に係る画像処理装置の一実施形態の機能構成を示すブロック図である。

以下、図面を参照して本開示の技術を実現する実施形態を詳細に説明する。なお、作用、機能が同じ働きを担う構成要素及び処理には、全図面を通して同じ符合を付与し、重複する説明を適宜省略する場合がある。

（第１実施形態）
図１に、本開示の第１実施形態に係る画像処理装置１の構成の一例を示す。
なお、本実施形態では、入力される画像から文字を認識する画像処理に本開示の技術を適用した場合を説明する。

本実施形態では、複数の用紙の間にカーボンコピー等の転写部材を挟んで、上層の用紙に記入された文字や図形が、下層の用紙に転写される複数の用紙の何れかを、スキャナ等の画像読取装置により読み取って文字を認識する場合を一例として説明する。以降、積層された複数の用紙（用紙群）を帳票という。また、帳票に含まれる各々の用紙を伝票という。特に、上層の用紙に記入された文字や図形が転写された下層の被転写側の用紙を転写伝票という場合がある。

また、本実施形態に係る画像処理装置１は、伝票をスキャナ等の画像読取装置により読み取った伝票画像に含まれる筆記文字等の文字画像を認識して文字コードを出力する場合を説明する。

なお、本実施形態では、カーボンコピー等により転写された用紙を用いる場合を説明するが、用紙に付与された圧力に応じた濃度画像が出現する用紙を用いて、上層の用紙に記入された文字や図形を下層の用紙に複写する場合に本開示の技術が適用可能であることは勿論である。

また、帳票におけるカーボンコピー等の転写部材が形成された層より上層の伝票に筆記される文字や図形は、筆記する際の筆記具の線の太さに応じた線の太さになる。一方、カーボンコピー等により転写された伝票では、筆圧等の力に応じて線の太さが変化する。従って、カーボンコピー等の転写部材を挟んた上層の伝票に記入された文字や図形が下層の伝票に転写される文字や図形は、上層の伝票に記入された文字や図形の線の太さや大きさが同等になることに限定されない。

ここで、ユーザの記入によってカーボンコピー等により文字及び図形が転写される伝票には、筆記文字以外に、例えば、汚れ、ひっかき傷や擦れ傷等の傷が形成される場合がある。この汚れ、ひっかき傷や擦れ傷等の傷が形成されている伝票をスキャナ等の画像読取装置により読み取った伝票画像は、汚れ、ひっかき傷や擦れ傷等の傷が形成される以前の伝票画像より劣化した画像となり、汚れ、ひっかき傷や擦れ傷等の傷がノイズとなって劣化した画像は、標準的な認識部では画質劣化により認識できない場合がある。そこで、本実施形態の画像処理装置１は、汚れ、ひっかき傷や擦れ傷等の傷によって劣化した画像からノイズを除去して文字認識する機能を有する。

なお、本実施形態では、劣化した画像となる原因の、例えば、汚れ、及びひっかき傷や擦れ傷等の傷によるノイズは、予め形成されている罫線と、ユーザにより記入される文字及び図形（記入情報）との各々と異なる画像（余剰画像）と考えられる。この余剰画像は、ユーザによる文字及び図形（記入情報）の記入時以外の場面で、カーボンコピー等の転写部材に作用する力により形成される。従って、本実施形態におけるノイズとは、予め形成されている罫線と、ユーザにより記入される文字及び図形（記入情報）との各々と異なる画像をいう。なお、記入情報は、ユーザにより記入される情報を示し、文字情報等の情報に対応する文字画像等の記入画像を示す情報でもある。

例えば、１枚目の用紙と２枚目の用紙が積層される場合、記入情報が、１枚目の用紙及び２枚目の用紙の共に形成される情報であるのに対して、余剰画像は、１枚目には形成されずに２枚目以降に形成される情報（による画像）であると捉えることが可能である。具体的には、記入情報は住所や名前のように、ユーザにより記入される情報のことを指すため、例えば積層した用紙であれば、最上層にある用紙にも存在し、下層の用紙についても転写部材により記入される。一方、ひっかきや擦れに起因する余剰画像は、ひっかきや擦れ自体がペンなどの筆記具を用いていないため、最上層にある用紙には存在しないが、最上層より下層の用紙には転写部材により記入が行われる。つまり、記入情報は積層された用紙のどの用紙にも存在する一方、余剰画像は積層された用紙の最上層にある用紙には存在せず２枚目以降の下層の用紙に存在するものともいえる。さらに別の言い方をすれば、余剰画像は１枚目には何らかの情報による跡として残っているが、色を有する画像として存在はしておらず、２枚目以降に色を有する画像として存在するものともいえる。

また、例えば、帳票への記入の筆記具が例えばペンである場合、記入情報が、ペンによる印字の情報であるのに対して、余剰画像がペンによる印字とは異なる内容の情報（による画像）であると捉えることが可能である。具体的には、記入情報は住所や名前にように、筆記具やプリンタなどを用いて記入した情報であるため、概ね同じ圧力により記入されているといえる。そのため記入情報としての文字の太さ、形状は一つの伝票上では概ね同一となる。また、プリンタを利用した場合も同様である。一方、ひっかきや擦れから構成される余剰画像であれば、それらの圧力はまちまちであり、対応する太さや形状もまちまちである。この太さや形状が一定であるか、無いかをニューラルネット等の学習器により学習を行い、余剰画像であるか記入情報であるかの判断を行う。別の表現を用いれば、余剰画像はランダムに記入される情報に基づく画像ともいえる。

さらに、例えば、用紙に予め形成されている罫線を考慮すると、余剰画像は、記入情報や罫線を跨いで形成される情報（による画像）であると捉えることが可能である。具体的には、ひっかきや擦れから構成される余剰画像は、ユーザが記入する記入情報と異なり、他の記入情報や既に記載されている罫線情報を跨いで記載されることがある。つまり、罫線情報や記入情報に重なる、重畳されるように記載されるものは余剰画像と捉えることができる。罫線情報や記入情報に重なるもののみを余剰画像と捉えることも可能であり、重なる余剰画像から記入された画像の太さや形状を認識し、画像の太さや形状が類似する画像を余剰画像と認識したうえで罫線情報や記入情報を跨がない、重ならない画像であっても余剰画像と特定することも可能である。

また、記入情報はユーザが記入する情報であることから、住所や氏名の間違いを訂正するための訂正線（取り消し線）や品番を特定するための丸画像やチェック画像などの特定入力画像も記入情報として捉えられることは言うまでもない。これらの特定入力画像も重畳された帳票の１枚目に記入されている情報であるし、ペンなどの筆記具を用いて記入された太さや形状が同種の情報であることから、記入情報として区別することが可能である。

本実施形態では、罫線画像と記入画像とを含む画像（第１画像）から、余剰画像を除去することで、罫線画像及び記入情報に対応する、罫線画像のみ及び記入画像のみを含む画像（第２画像）が生成される。この記入画像は記入情報に対応する画像と、余剰画像を含む情報からなると捉えることが可能である。そして、罫線画像と余剰画像を含む記入画像とを含む画像（第１画像）から、余剰画像を除去することで、罫線画像及び記入情報に対応する罫線画像のみ及び記入画像のみを含む画像（第２画像）が生成されると捉えてもよい。

図１に示すように、画像処理装置１は、画像入力部２、文字罫線抽出部３、及び、文字認識部４を備えている。文字罫線抽出部３は筆記文字抽出部３１、筆記文字抽出学習モデル３２、罫線抽出部３３、及び罫線抽出学習モデル３４を含んでいる。文字認識部４は、筆記文字位置合わせ部４１、登録帳票枠位置情報記憶部４２、筆記枠位置検出部４３、筆記文字認識部４４、及び筆記文字認識辞書４５を含んでいる。

画像入力部２は、１以上の伝票画像の入力を受け付けて、文字罫線抽出部３へ出力する。文字罫線抽出部３は、画像入力部２からの伝票画像を用いて筆記文字及び罫線を抽出して出力、すなわち、伝票画像から、中間生成物である筆記文字画像及び罫線画像を抽出する。文字認識部４は、文字罫線抽出部３において生成された中間生成物（筆記文字画像及び罫線画像）を用いて、伝票に形成されている筆記文字画像を認識し、認識結果を出力する。

具体的には、画像入力部２は、１以上の伝票画像の入力を受け付ける。この画像入力部２には、例えば、スキャナ等の画像読取装置によって帳票に含まれる複数の伝票の各々を画像スキャンして生成されたスキャン画像を伝票画像として入力される（例えば、図５に示す伝票画像）。

図５に示す例では、品物を送る場合の帳票に、ユーザが記入情報を記入する複数の記入欄が設けられている。具体的には、届け先及び依頼主それぞれの情報として、郵便番号、電話番号、住所、及び氏名の各々の項目を記入する欄と、品物の受け取りに関する情報として、受取希望日及び受け取り希望時間を記入する欄と、品物の内容を示す情報を記入する欄とが設けられている。

文字罫線抽出部３は、画像入力部２からの伝票画像を用いて、筆記文字及び罫線を抽出する。具体的には、筆記文字抽出部３１は、筆記文字抽出学習モデル３２を用いて、伝票画像から筆記文字画像を抽出し、抽出された筆記文字画像を中間生成物として出力する（例えば、図６に示す画像）。また、罫線抽出部３３は、罫線抽出学習モデル３４を用いて、伝票画像から罫線画像を抽出し、抽出された罫線画像を中間生成物として出力する（例えば、図７に示す画像）。

筆記文字抽出部３１で抽出される筆記文字画像は、伝票画像から生成（或いは推定）される中間生成物である。また、罫線抽出部３３で抽出される罫線画像も、伝票画像から生成（或いは推定）される中間生成物である。すなわち、文字罫線抽出部３は、ひっかき傷や擦れ傷等の傷によるノイズを含まない伝票画像における筆記文字画像及び罫線画像を生成（或いは推定）する。

次、文字罫線抽出部３について詳細に説明する。

文字罫線抽出部３において、筆記文字抽出学習モデル３２は、学習済みの学習モデルであり、伝票画像（帳票である複数の用紙のうちの被転写側の伝票を読み取った画像）から、伝票に形成された筆記文字を含む記入情報に対応する記入画像を生成する学習を済ませたモデルである。筆記文字抽出学習モデル３２は、例えば学習済みのニューラルネットワークを規定するモデルであり、例えばニューラルネットワークを構成するノード（ニューロン）同士の間の結合の重み（強度）の情報の集合として表現される。

筆記文字抽出学習モデル３２は、学習処理部３５（図２参照）の学習処理により生成される。学習処理部３５は、ひっかき傷及び擦れ傷等の傷等のノイズで劣化した記入情報を示す入力画像と、その入力画像に対応する劣化前の記入情報を示す正解画像と、のペアを大量に用いて学習処理を行う。学習処理部３５が行う学習処理については、後述する。

なお、本実施形態では、傷等のノイズにより劣化した記入情報を示す入力画像と、正解画像と、を用いて学習処理を行う場合を説明するが、劣化した画像は、汚れ、及びゆがみ等で劣化した画像を含めて学習してもよい。

罫線抽出学習モデル３４は、学習済みの学習モデルであり、伝票画像から、伝票に形成された罫線を示す罫線画像を生成する学習を済ませたモデルである。罫線抽出学習モデル３４は、例えば学習済みのニューラルネットワークを規定するモデルであり、例えばニューラルネットワークを構成するノード（ニューロン）同士の間の結合の重み（強度）の情報の集合として表現される。

また、罫線抽出学習モデル３４は、学習処理部３６（図３参照）の学習処理により生成される。学習処理部３６は、ノイズで劣化した罫線を含んだ入力画像と、その入力画像に対応する罫線画像を示す正解画像と、のペアを大量に用いて学習処理を行う。学習処理部３６が行う学習処理については、後述する。

次に、図４を参照して、学習処理部３５、３６について説明する。学習処理部３５は、ＧＡＮ（Generative adversarial networks：敵対的生成ネットワーク）を構成する生成器（ジェネレータ）３５０と識別器（ディスクリミネータ）３５２とを含む。

また、学習処理部３５は、学習用データとして、入力画像２００と正解画像２０２のペアを多数保持している。入力画像２００は、図５に示すように、ひっかき傷や擦れ傷等の傷が形成されているノイズを含む伝票画像である。図５に例示する入力画像２００では、ひっかき傷や擦れ傷等の傷によるノイズが伝票画像に現れている。ひっかき傷や擦れ傷等の傷によるノイズは、画像から文字認識する場合に障害となる。これに対して正解画像２０２は、図６に示すように、筆記文字のみの画像である。正解画像２０２は、文字認識が可能である。

図４に示す生成器３５０は、入力画像２００から生成画像２０４を生成するニューラルネットワークである。生成画像２０４は、入力画像２００に対応する正解画像２０２を推定した画像である。すなわち、生成器３５０は、ひっかき傷や擦れ傷等の傷が形成されているノイズを含む伝票画像２００から、正解画像２０２に近い生成画像２０４を生成する。生成器３５０は、多数の入力画像２００を用いて学習することで、より正解画像２０２０に近い生成画像２０４を生成できるようになる。

識別器３５２は、入力された画像が、入力画像２００に対応する正解画像２０２、及び入力画像２００から生成器３５０が生成した生成画像２０４、のうちの何れであるかを識別するニューラルネットワークである。学習処理部３５は、正解画像２０２（とこれに対応する入力画像２００）又は生成画像２０４（とこれに対応する入力画像２００）を識別器３５２に入力する。これに応じて、識別器３５２は、入力された画像が正解画像２０２（正解:true）又は生成画像２０４（偽物:false）の何れであるかを識別し、その識別結果を示す信号を出力する。

学習処理部３５は、識別器３５２に入力した画像が正解、偽物のいずれであるかと、その識別器３５２からの出力信号とを比較し、その比較結果に基づく損失信号を生成器３５０及び識別器３５２の各々のニューラルネットワークのノード間の結合の重みパラメータにフィードバックする。これにより、生成器３５０と識別器３５２が学習を行う。

ＧＡＮを構成する生成器３５０及び識別器３５２は、前者が教師データ（正解画像２０２）になるべく近い偽物（生成画像２０４）を生成しようとし、後者がその偽物を正しく識別しようとするという形で、いわば互いに切磋琢磨しながら学習を進める。

学習処理部３５には、例えば「pix2pix」というアルゴリズム（Phillip Iso1a他による論文「Image-to-Image Translation with Conditional Adversarial Networks」、Berkeley AI Research (BAIR) Laboratory, UC Berkeley参照）と同様の方式を用いてもよい。この場合、生成器３５０の学習のために、識別器３５２の損失信号に加え、正解画像２０２と生成画像２０４との差もフィードバックする。

また、他の例として、ＣｙｃｌｅＧＡＮと呼ばれるＧＡＮを学習処理部３５に用いてもよい。ＣｙｃｌｅＧＡＮを用いた場合、入力画像のすべてに正解画像が用意されていない場合でも学習が可能である。

そして、本実施形態の画像処理装置では、以上に例示した手法により生成した学習済みの生成器３５０を学習済の筆記文字抽出学習モデル３２として用いる。筆記文字抽出部３１は、この学習済の筆記文字抽出学習モデル３２を用いて、伝票画像から筆記文字を示す画像を生成（或いは推定）することで筆記文字画像を抽出する。

十分に学習した筆記文字抽出学習モデル３２を用いれば、ひっかき傷や擦れ傷等の傷が形成されているノイズを含む伝票画像から、認識可能な筆記文字画像を抽出することも不可能ではない。

次に、学習処理部３６について説明する。学習処理部３６は、ＧＡＮを構成する生成器（ジェネレータ）３５０と識別器（ディスクリミネータ）３５２とを含む（図４参照）。なお、学習処理部３６は、上述の学習処理部３５と同様のため、詳細な説明を省略する。学習処理部３６は、学習処理部３５と異なる部分は、正解画像２０２として、図７に示すように、罫線のみの画像を用いる点である。

本実施形態の画像処理装置では、学習済みの生成器３５０を学習済の罫線抽出学習モデル３４として用いる。罫線抽出部３３は、この学習済の罫線抽出学習モデル３４を用いて、伝票画像から罫線を示す画像を生成（或いは推定）することで罫線画像を抽出する。

十分に学習した筆記文字抽出学習モデル３２を用いれば、ひっかき傷や擦れ傷等の傷が形成されているノイズを含む伝票画像から、罫線画像を抽出することも不可能ではない。

次に、文字認識部４について説明する。

文字認識部４は、伝票に形成されている筆記文字を認識し、認識結果を出力する。具体的には、筆記文字位置合わせ部４１は、登録帳票枠位置情報記憶部４２に記憶されている、登録帳票枠位置情報を用いて筆記文字画像の位置合わせを行う。登録帳票枠位置情報記憶部４２には、筆記枠位置検出部４３で検出された罫線画像における筆記枠の位置、形状、及び大きさ等の罫線に関係する情報が、登録帳票枠位置情報として記憶される。筆記枠位置検出部４３は、罫線抽出部３３で抽出された罫線画像のうち枠内の領域を記入領域としてその記入領域の枠を筆記枠として検出する。従って、筆記文字位置合わせ部４１は、登録帳票枠位置情報を用いて、筆記枠に対応するように筆記文字画像の位置合わせを行う。

具体的には、筆記文字位置合わせ部４１における筆記文字画像の位置合わせでは、筆記枠位置検出部４３は、罫線抽出部３３で抽出された罫線画像を用いて、複数の罫線画像により形成される枠画像の位置、形状及び大きさを検出する。この枠画像により示される枠内の領域は、ユーザによって記入情報が記入されている記入領域に対応する。筆記枠位置検出部４３は、当該記入領域を示す枠画像の位置、形状及び大きさによる筆記枠を示す筆記枠位置情報を登録帳票枠位置情報記憶部４２に記憶する。一方、登録帳票枠位置情報記憶部４２には、帳票に形成されている罫線を示す情報、すなわち、罫線枠画像の位置、形状及び大きさによる罫線枠を示す罫線枠位置情報が、登録帳票枠位置情報として、予め登録されている。

そして、筆記文字位置合わせ部４１は、登録帳票枠位置情報記憶部４２に記憶されている、筆記枠位置情報と、登録帳票枠位置情報とを用いて筆記文字画像の位置合わせを行う。具体的には、登録済みの登録帳票枠位置情報と、検出された筆記枠位置情報とを比較し、差分を計算することにより、位置ズレ量を算出する。筆記文字位置合わせ部４１は、算出された位置ズレ量分だけ、筆記文字画像２０４Ｍと罫線画像２０４Ｋとの何れか一方を移動することで、罫線枠内に筆記文字画像が位置するように修正する。

例えば、図８に示すように、伝票画像２００から、筆記文字抽出部３１で抽出された筆記文字画像に、罫線抽出部３３で抽出された筆記文字画像を重ね合わせると、罫線枠内に文字画像が配置される。筆記文字位置合わせ部４１は、筆記文字抽出部３１で抽出された筆記文字画像に、罫線抽出部３３で検出された筆記枠を対応付ける。抽出された筆記文字画像を重ね合わせた画像では、品物の内容を示す罫線枠２０４Ｋ１内の領域２０４Ａに、筆記文字画像２０４Ｍ１が位置している。

筆記文字認識部４４は、筆記文字位置合わせ部４１により位置合わせされた画像から、筆記文字認識辞書４５を用いて、筆記文字画像を認識する。筆記文字認識辞書４５には、筆記文字画像と、筆記文字画像に対応する標準文字の文字コードとの対応関係を示すデータベースが記憶される。すなわち、文字認識部４は、文字罫線抽出部３によってノイズを除去（又は抑制）することによって生成された筆記文字画像から記入情報に対応する文字コードを生成する。

この筆記文字画像の認識では、筆記文字認識部４４は、筆記文字位置合わせ部４１で位置合わせされた罫線枠内の領域毎に文字画像を認識する。具体的には、筆記文字認識部４４は、例えば、図９に示すように、筆記文字画像２０４Ａ１における罫線枠２０４Ｋ１内の領域２０４Ａの部分筆記文字画像２０４Ａ１について、筆記文字認識辞書４５を用いて認識する。図９に示す例では、認識結果として「ゴルフクラブ」を示す文字コードが生成される。

ところで、伝票画像２００には、罫線枠に対応して、ユーザが記入情報を記入する複数の記入欄が設けられている。この記入欄には、ユーザが記入する記入情報の項目ごとに設定されている。従って、罫線枠の領域毎の筆記文字画像の認識結果は、記入情報の項目に対応する。

そこで、筆記枠位置情報、又は登録帳票枠位置情報における罫線枠の領域毎に、記入情報の項目を示す情報を対応付けておくことで、筆記文字認識部４４は、認識結果に記入情報の項目を示す情報を対応付けることが可能になる。図９に示す例では、認識結果として「ゴルフクラブ」を示す文字コードに、品物の内容を示す項目情報を属性情報として付与する。これにより、認識結果の文字が示す項目を特定可能になる。

なお、画像入力部は、本開示の第１画像生成部の一例である。また、筆記文字抽出部３１及び文字罫線抽出部３は、本開示の第２画像生成部の一例である。また、文字認識部４は、本開示の出力部の一例である。

以上に例示した画像処理装置１は、例えば、コンピュータに上述の各機能を表すプログラムを実行させることにより実現可能である。

図１０に、画像処理装置１の各種機能を実現する処理を実行する実行装置としてコンピュータを含んで構成した場合の一例を示す。

図１０に示す画像処理装置１として機能するコンピュータは、コンピュータ本体１００を備えている。コンピュータ本体１００は、ＣＰＵ１０２、揮発性メモリ等のＲＡＭ１０４、ＲＯＭ１０６、ハードディスク装置（ＨＤＤ）等の補助記憶装置１０８、及び入出力インターフェース（Ｉ／Ｏ）１１０を備えている。これらのＣＰＵ１０２、ＲＡＭ１０４、ＲＯＭ１０６、補助記憶装置１０８、及び入出力Ｉ／Ｏ１１０は、相互にデータ及びコマンドを授受可能にバス１１２を介して接続された構成である。また、入出力Ｉ／Ｏ１１０には、画像入力部２、通信インタフェース（Ｉ／Ｆ）１１４、及びディスプレイやキーボード等の操作表示部１１６が接続されている。

補助記憶装置１０８には、コンピュータ本体１００を本開示の画像処理装置として機能させるための制御プログラム１０８Ｐが記憶される。ＣＰＵ１０２は、制御プログラム１０８Ｐを補助記憶装置１０８から読み出してＲＡＭ１０４に展開して処理を実行する。これにより、制御プログラム１０８Ｐを実行したコンピュータ本体１００は、本開示の情報処理装置として動作する。

なお、補助記憶装置１０８には、筆記文字抽出学習モデル３２と罫線抽出学習モデル３４とを含む学習モデル１０８Ｍ、及び登録帳票枠位置情報記憶部４２と筆記文字認識辞書４５とを含むデータ１０８Ｄが記憶される。制御プログラム１０８Ｐは、ＣＤ－ＲＯＭ等の記録媒体により提供するようにしても良い。

次に、コンピュータにより実現された画像処理装置における画像処理について説明する。

図１１に、コンピュータ本体１００において、実行される制御プログラム１０８Ｐによる画像処理の流れの一例を示す。
図１１に示す画像処理は、コンピュータ本体１００に電源投入されると、ＣＰＵ１０２により実行される。

まず、ＣＰＵ１０２は、ステップＳ１００で、画像入力部２から伝票画像２００を取得し、次のステップＳ１０４で、筆記文字画像を抽出する。すなわち、筆記文字抽出学習モデル３２を用いて、伝票画像２００から、中間生成物である筆記文字画像２０４Ｍを抽出する。

次に、ステップＳ１０６では、罫線画像を抽出する。すなわち、罫線抽出学習モデル３４を用いて、伝票画像２００から、中間生成物である罫線画像２０４Ｋを抽出する。

次に、ステップＳ１０８では、伝票画像２００における罫線枠の枠位置ずれ量を検出する。具体的には、まず、ステップＳ１０６で抽出された罫線画像を用いて、複数の罫線画像により形成される枠画像の位置、形状及び大きさを検出する。次に、枠画像の位置、形状及び大きさによる筆記枠を示す筆記枠位置情報を補助記憶装置１０８のデータ１０８Ｄに記憶する。なお、データ１０８Ｄには、帳票に形成されている罫線を示す情報、すなわち、罫線枠画像の位置、形状及び大きさによる罫線枠を示す罫線枠位置情報が、登録帳票枠位置情報として、予め登録されている。

次に、ステップＳ１１０では、罫線枠ごとに筆記文字の位置を修正する。具体的には、データ１０８Ｄに記憶されている、筆記枠位置情報と、登録帳票枠位置情報とを比較し、差分計算により、枠位置ズレ量を算出する。次に、算出された枠位置ズレ量分だけ、筆記文字画像２０４Ｍと罫線画像２０４Ｋとの何れか一方を移動することで、罫線枠内に筆記文字画像が位置するように修正する（図８も参照）。

次に、ステップＳ１１２では、筆記文字画像を認識する。具体的には、ステップＳ１１０で修正された罫線枠の領域毎の筆記文字画像を、筆記文字認識辞書４５を用いて認識する。次のステップＳ１１４では、ステップＳ１１２の認識結果（例えば、文字コード）を出力し、本処理ルーチンを終了する。

なお、図１１に示す画像処理は、本開示の画像処理装置で実行される処理の一例である。

（第２実施形態）
次に、第２実施形態を説明する。第２実施形態は、伝票画像に対して予め定めた前処理を施した後に文字を認識する画像処理を実行する場合に開示の技術を適用したものである。なお、第２実施形態は第１実施形態と略同様の構成のため、同一部分には同一符号を付して詳細な説明を省略する。

図１２に、第２実施形態に係る画像処理装置１２の構成の一例を示す。

図１２に示すように、第２実施形態に係る画像処理装置１２は、画像入力部２、前処理部５、文字罫線抽出部３、及び、文字認識部４を備えている。第２実施形態は、画像入力部２で受け付けた伝票画像を、前処理部５で前処理した後に、文字罫線抽出部３へ出力する点が第１実施形態と異なっている。

前処理部５は、前処理実行部５０を備えている。前処理部５に具備された前処理実行部５０は、画像入力部２からの伝票画像について、予め定めた前処理を施して出力する。前処理実行部５０は、伝票画像に対して簡易な画像処理を施す実行部である。簡易な画像処理の一例には、色処理、階調補正処理、定型ノイズ処理、及び先鋭化処理が挙げられる。

色処理の一例には、伝票画像の背景色を除去する処理が挙げられる。例えば、帳票に含まれる伝票には、黒色インクによって文字や図形などの記入情報が筆記具で記入されることを想定し、青色背景による定型文字が形成される場合がある。この場合、前処理実行部５０において、青色背景による文字を事前に除去することによって、文字罫線抽出部３に入力する伝票画像から、ユーザによって記入された文字とは異なる定型文字を、事前に除去することが可能になる。これによって、出力される認識結果の精度を向上することが可能になる。

階調補正処理の一例には、筆記文字画像の濃度を濃くする階調補正処理が挙げられる。例えば、ユーザによって記入された記入情報に対応する記入画像は、ユーザの筆圧やカーボンコピー層の転写力不足によって、予め想定した濃度より低い濃度で形成される場合がある。この場合、予め想定した濃度より低い記入画像の濃度を、予め定めた濃度だけ増加させる階調補正処理を行う。この階調補正処理によって、文字画像の認識率が向上、すなわち、出力される認識結果の精度を向上することが可能になる。

定型ノイズ処理の一例には、予め学習した学習モデルを用いることなく処理可能な簡易ノイズ除去処理が挙げられる。簡易ノイズ除去処理は、例えば、所定ピクセル以内の点画像が散在するノイズ（所謂ごま塩ノイズ）を除去する処理があり、簡易ノイズ除去処理を施すことで、伝票画像から記入情報に関係性が低い簡易ノイズ画像を事前に除去することが可能になる。これによって、出力される認識結果の精度を向上することが可能になる。

先鋭化処理の一例には、所謂ぼけた画像等のように濃度勾配を有する画像を、先鋭化する簡易画像処理が挙げられる。伝票画像に先鋭化処理を施すことで、伝票画像における記入画像を認識率を向上可能な画像に事前に処理することが可能になる。これによって、出力される認識結果の精度を向上することが可能になる。

図１３に、本実施形態に係る画像処理の流れの一例を示す。
図１３に示す画像処理の流れは、図１１に示す画像処理の流れにおけるステップＳ１００とステップＳ１０４の間に、ステップＳ１０２の処理を追加したもである。ＣＰＵ１０２は、ステップＳ１０２において、画像入力部２から取得した伝票画像２００に対して上述の前処理を施した後に、ステップＳ１０４へ処理を移行する。

なお、本実施形態では、伝票画像に対して予め定めた前処理を施した後に文字を認識する画像処理を実行するので、文字罫線抽出部３における筆記文字抽出学習モデル３２及び罫線抽出学習モデル３４は、予め定めた前処理を施した伝票画像を用いて学習処理することが好ましい。

（第３実施形態）
次に、第３実施形態を説明する。第３実施形態は、筆記文字を認識した認識結果を修正する処理を実行する場合に開示の技術を適用したものである。なお、第３実施形態は第１実施形態と略同様の構成のため、同一部分には同一符号を付して詳細な説明を省略する。

図１４に、第３実施形態に係る画像処理装置１３の構成の一例を示す。

図１４に示すように、第３実施形態に係る画像処理装置１２は、文字認識部４に認識修正部４Ａをさらに備えている。第３実施形態は、文字認識部４の筆記文字認識部の認識結果を、認識修正部４Ａで修正した後に、修正された認識結果を出力する点が第１実施形態と異なっている。

認識修正部４Ａは、認識結果修正部４６及びデータベース（ＤＢ）４７を備えている。ＤＢ４７の一例には、住所ＤＢが挙げられる。住所ＤＢは、都道府県及び市町村の名称が登録される。ＤＢ４７の他例には、郵便番号ＤＢが挙げられる。郵便番号ＤＢは、郵便番号と住所ＤＢとを対応付けたデータベースである。認識修正部４Ａの認識結果修正部４６は、ＤＢ４７を用いて、筆記文字認識部４４の認識結果を修正して出力する。

具体的には、認識結果修正部４６は、筆記文字認識部４４の認識結果と、認識結果に類似したデータをＤＢ４７に登録されているデータから抽出する。例えば、ＤＢ４７として住所ＤＢが登録されている場合、筆記文字認識部４４の認識結果の住所の文字列に一致又は類似した文字列を抽出する。筆記文字認識部４４の認識結果の住所の文字列と、住所ＤＢから抽出した文字列とが一致する場合は、筆記文字認識部４４の認識結果を出力する。

一方、筆記文字認識部４４の認識結果の住所の文字列と、住所ＤＢから抽出した文字列とが不一致の場合、すなわち、筆記文字認識部４４の認識結果の文字列が住所ＤＢに登録されていない場合、筆記文字認識部４４の認識結果の文字列に誤認識の文字列が含まれている可能性が高い。このため、認識結果修正部４６は、認識結果の住所の文字列と、住所ＤＢから抽出した文字列とを比較して、誤認識文字を修正する。

例えば、認識結果の住所の文字列に一致度が高い文字列を、住所ＤＢから抽出し、認識結果と置き換える。この一致度は、認識結果の住所の文字列と、住所ＤＢから抽出した文字列とが一致する文字数の比率を用いればよい。この一致度が高い順に複数（例えば３つ）の文字列を住所ＤＢから抽出し、複数（例えば３つ）の文字列から選択するようにしてもよい。この場合、抽出した複数（例えば３つ）の文字列各々に優先順位を付して、優先順位に従って、例えば最も一致度が高い文字列を自動的に設定するようにしてもよく、ユーザに選択させるようにしてもよい。

また、認識結果として、郵便番号と、住所とが得られる場合、両者を用いて、認識結果を修正してもよい。例えば、認識結果の郵便番号から、郵便番号ＤＢを用いて認識結果の郵便番号に対応する住所を抽出し、認識結果の住所と比較する。比較結果の一致度から認識結果の住所を修正する。また、認識結果の住所から、郵便番号ＤＢを用いて認識結果の住所に対応する郵便番号を抽出し、認識結果の郵便番号と比較する。比較結果の一致度から認識結果の郵便番号を修正する。なお、郵便番号と住所との組み合わせで一致度を求めて複数の候補を抽出し、抽出された候補の中から選択するようにしてもよい。

以上、各実施の形態を用いて説明したが、本開示の技術的範囲は上記実施形態に記載の範囲には限定されない。要旨を逸脱しない範囲で上記実施形態に多様な変更または改良を加えることができ、当該変更または改良を加えた形態も本開示の技術的範囲に含まれる。

また、上記実施形態では、検査処理を、フローチャートを用いた処理によるソフトウエア構成によって実現した場合について説明したが、これに限定されるものではなく、例えば各処理をハードウェア構成により実現する形態としてもよい。

また、画像処理装置の一部、例えば学習モデル等のニューラルネットワークを、ハードウエア回路として構成してもよい。

１、１２、１３画像処理装置
２画像入力部
３文字罫線抽出部
４文字認識部
５前処理部
３１筆記文字抽出部
３２筆記文字抽出学習モデル
３３罫線抽出部
３４罫線抽出学習モデル
３５、３６学習処理部
４１筆記文字位置合わせ部
４２登録帳票枠位置情報記憶部
４３筆記枠位置検出部
４４筆記文字認識部
４５筆記文字認識辞書
１０８Ｐ制御プログラム
２００伝票画像
２０２正解画像
２０４生成画像
３５０生成器
３５２識別器

Claims

記入情報が記入された１枚の第１用紙、及び前記記入情報に対応する記入画像が転写され、かつ予め定めた罫線画像を備えた第２用紙を含む複数枚の用紙が積層された用紙群における前記第２用紙から、前記罫線画像及び前記記入画像を含む第１画像を生成する第１画像生成部と、
前記罫線画像及び前記記入画像と異なる余剰画像を含む記入情報を示す入力画像と、前記入力画像に対応し、かつ前記余剰画像を含まない前記記入情報を示す正解画像とを用いて学習され、かつ入力された画像から前記罫線画像及び前記余剰画像を除去した画像を出力する第１学習モデルによって、前記第１画像生成部で生成された前記第１画像から、前記罫線画像及び前記余剰画像を除去した記入画像を含む第２画像を生成する記入画像生成部と、前記余剰画像を含む罫線画像と、前記余剰画像を含まない前記罫線画像を示す正解画像とを用いて学習され、かつ入力された画像から前記余剰画像を除去した罫線画像を出力する第２学習モデルによって、前記第１画像生成部で生成された前記第１画像から、前記余剰画像を除去した罫線画像を生成する罫線画像生成部と、を含む第２画像生成部と、
前記罫線画像生成部で生成された罫線画像の前記第２用紙上における位置を示す罫線位置情報に基づいて、前記記入画像生成部で生成された前記第２画像において前記罫線画像の位置が前記罫線位置情報による位置となるように前記第２画像の位置を調整し、かつ前記位置が調整された前記第２画像を認識処理して認識結果を示す情報を前記記入情報として出力する出力部と、
を備えた画像処理装置。
前記第１学習モデルは、前記余剰画像を含む入力画像と、前記入力画像に対応する前記余剰画像を含まない元画像と、の組合せにより、前記入力画像から前記元画像を生成するように学習したモデルである、
請求項１に記載の画像処理装置。
前記第１学習モデル及び第２学習モデルの各々は、敵対的生成ネットワークを用いて学習させることで生成されたモデルである
請求項１又は請求項２に記載の画像処理装置。
前記出力部は、前記罫線画像の罫線枠により形成される領域への記入項目を示す前記罫線枠の属性情報が予め定められており、前記罫線枠により形成される領域について前記第２画像を認識処理し、前記領域の認識結果に前記罫線枠の属性情報を対応付けて出力する、
請求項１から請求項３の何れか１項に記載の画像処理装置。
前記記入画像は、筆記文字画像である、
請求項１から請求項４の何れか１項に記載の画像処理装置。
前記用紙群は、カーボンコピー層が形成された用紙を含む
請求項１から請求項５の何れか１項に記載の画像処理装置。
前記余剰画像は、ひっかき傷及び擦れ傷の少なくとも一方の傷情報に対応する傷画像である
請求項１から請求項６の何れか１項に記載の画像処理装置。
コンピュータを
記入情報が記入された１枚の第１用紙、及び前記記入情報に対応する記入画像が転写され、かつ予め定めた罫線画像を備えた第２用紙を含む複数枚の用紙が積層された用紙群における前記第２用紙から、前記罫線画像及び前記記入画像を含む第１画像を生成する第１画像生成部、
前記罫線画像及び前記記入画像と異なる余剰画像を含む記入情報を示す入力画像と、前記入力画像に対応し、かつ前記余剰画像を含まない前記記入情報を示す正解画像とを用いて学習され、かつ入力された画像から前記罫線画像及び前記余剰画像を除去した画像を出力する第1学習モデルによって、前記第１画像生成部で生成された前記第１画像から、前記罫線画像及び前記余剰画像を除去した記入画像を含む第２画像を生成する記入画像生成部と、前記余剰画像を含む罫線画像と、前記余剰画像を含まない前記罫線画像を示す正解画像とを用いて学習され、かつ入力された画像から前記余剰画像を除去した罫線画像を出力する第２学習モデルによって、前記第１画像生成部で生成された前記第１画像から、前記余剰画像を除去した罫線画像を生成する罫線画像生成部と、を含む第２画像生成部、および、
前記罫線画像生成部で生成された罫線画像の前記第２用紙上における位置を示す罫線位置情報に基づいて、前記記入画像生成部で生成された前記第２画像において前記罫線画像の位置が前記罫線位置情報による位置となるように前記第２画像の位置を調整し、かつ前記位置が調整された前記第２画像を認識処理して認識結果を示す情報を前記記入情報として出力する出力部、
として機能させるためのプログラム。