JP6620038B2 - 画像処理装置及び画像処理プログラム - Google Patents

画像処理装置及び画像処理プログラム Download PDF

Info

Publication number
JP6620038B2
JP6620038B2 JP2016038711A JP2016038711A JP6620038B2 JP 6620038 B2 JP6620038 B2 JP 6620038B2 JP 2016038711 A JP2016038711 A JP 2016038711A JP 2016038711 A JP2016038711 A JP 2016038711A JP 6620038 B2 JP6620038 B2 JP 6620038B2
Authority
JP
Japan
Prior art keywords
image
ruled line
area
image processing
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016038711A
Other languages
English (en)
Other versions
JP2017156920A (ja
Inventor
美保 西畑
美保 西畑
和樹 中島
和樹 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Information and Telecommunication Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information and Telecommunication Engineering Ltd filed Critical Hitachi Information and Telecommunication Engineering Ltd
Priority to JP2016038711A priority Critical patent/JP6620038B2/ja
Publication of JP2017156920A publication Critical patent/JP2017156920A/ja
Application granted granted Critical
Publication of JP6620038B2 publication Critical patent/JP6620038B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

本発明は、画像処理技術に関し、光学文字認識(OCR:Optical Character RecognitionまたはOptical Character Reader)等のために画像を補正する技術に関する。
従来の文字認識装置(以下、OCR装置と記載する場合がある)は、帳票等の用紙からスキャンにより画像読み取りを行う。文字認識装置は、画像読み取りにより成立した矩形の画像を前提として、予め登録されている読み取り位置で、文字認識を行っている。
会社や役所等における各種の申込受付業務では、受付者は、申込者から、身分証等の画像の記載を含む申込書等の帳票を受け付ける。そして、受付者は、スキャナ装置やOCR装置を用いて、申込書を画像データまたは文字データの形式として登録する場合がある。
身分証等の記載を含む帳票の文字認識や画像処理に関する先行技術例としては、特許第4309881号公報(特許文献1)が挙げられる。特許文献1には、身分証認識装置として、以下の旨が記載されている。その装置は、帳票の画像から文字認識を行って身分証の特徴文字を検出する。その装置は、検出した特徴文字の位置と、予め設定されている身分証の特徴文字の基準位置とに基づいて、身分証の画像の伸縮率や方向を求め、帳票の画像から身分証の画像を抽出する。
特許第4309881号公報
従来、身分証等の記載を含む申込書等の帳票の処理に文字認識装置等を用いる場合において、申込書の所定欄に記載される身分証画像が歪んでいる場合がある。例えば、所定欄に身分証を配置して画像読み取りを行う際に、所定欄の枠線方向に対して身分証の外形の線が傾いている場合がある。また、身分証を俯瞰で撮影した際に、撮影方向が面垂直方向に対して傾いていることにより、身分証画像が台形状に歪んでいる場合がある。それらの場合、その身分証画像等を用いて画像処理装置で文字認識を行うと、画像に歪みがあるため、文字に変換できない部分が生じる等、文字認識の精度が低下してしまう場合がある。
なお、特許文献1に記載の装置では、身分証の「年月日」等の文字の位置に基づいて、画像補正を行っている。しかし、領域に対して文字のサイズが小さいので、その分、文字の抽出はしにくい。また、身分証画像に歪みがある場合、「年月日」等の文字にも歪みが生じるので、その文字の読み取りが難しくなり、結果、画像補正が難しくなる。仮にその文字の読み取りができた場合でも、俯瞰画像等の場合には画像領域内の上下左右の位置に応じて異なる伸縮率等になっているため、適切な画像補正が難しい。
本発明の目的は、OCR等のために画像を補正する画像処理に関して、身分証等の画像に歪みがある場合でも、その歪みを修正して、文字認識や視認に適した画像が得られ、文字認識の精度や作業効率を高めることができる技術を提供することである。
本発明のうち代表的な実施の形態は、画像処理装置及び画像処理プログラムであって、以下に示す構成を有することを特徴とする。
一実施の形態の画像処理装置は、身分証または帳票の画像データを入力して、前記画像データに画像補正処理を行って、文字認識または視認に適した補正後画像データを出力する画像補正部を備え、前記画像補正部は、前記画像データの領域である第1領域から、前記身分証または前記帳票の領域である第2領域内にある罫線を検出し、前記第2領域内にある前記罫線から、前記身分証または前記帳票の基本レイアウトの罫線の情報との比較に基づいて、特定の罫線を含む第1罫線部を選択し、前記第1罫線部に基づいて、前記第2領域の位置を表す四点を決定し、前記四点を用いて、前記画像データに射影変換を行って、前記補正後画像データを得る。
一実施の形態の画像処理プログラムは、画像処理装置に画像処理を実行させる画像処理プログラムであって、身分証または帳票の画像データを入力して、前記画像データに画像補正処理を行って、文字認識または視認に適した補正後画像データを出力する画像補正部を実現するプログラムを備え、前記画像補正部は、前記画像データの領域である第1領域から、前記身分証または前記帳票の領域である第2領域内にある罫線を検出し、前記第2領域内にある前記罫線から、前記身分証または前記帳票の基本レイアウトの罫線の情報との比較に基づいて、特定の罫線を含む第1罫線部を選択し、前記第1罫線部に基づいて、前記第2領域の位置を表す四点を決定し、前記四点を用いて、前記画像データに射影変換を行って、前記補正後画像データを得る。
本発明のうち代表的な実施の形態によれば、OCR等のために画像を補正する画像処理に関して、身分証等の画像に歪みがある場合でも、その歪みを修正して、文字認識や視認に適した画像が得られ、文字認識の精度や作業効率を高めることができる。
本発明の実施の形態の画像処理装置である文字認識装置の構成を示す図である。 実施の形態で、身分証の構成例を示す図である。 実施の形態で、申込書の構成例を示す図である。 実施の形態で、申込書作成の第1の例を示す図である。 実施の形態で、申込書作成の第2の例を示す図である。 実施の形態の画像処理装置の機能ブロック構成を示す図である。 実施の形態の画像処理装置の全体の処理フローを示す図である。 実施の形態の画像処理装置の画像補正処理のフローを示す図である。 実施の形態で、入力画像の例を示す図である。 実施の形態で、横罫線情報検出を示す図である。 実施の形態で、縦罫線情報検出を示す図である。 実施の形態で、格子点情報検出を示す図である。 実施の形態で、罫線データ及び格子点データを示す図である。 実施の形態で、身分証領域位置検出を示す図である。 実施の形態で、罫線選択の詳細を示す図である。 実施の形態で、回転処理を示す図である。 実施の形態で、選択罫線チェックの詳細を示す図である。 実施の形態で、選択外枠罫線及び四点検出を示す図である。 実施の形態で、射影変換を示す図である。 実施の形態で、拡大及び位置合わせを示す図である。 実施の形態の第1変形例の画像処理装置における、向き誤りの場合の身分証画像の例を示す図である。 実施の形態の第2変形例の画像処理装置における、身分証画像の例を示す図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において同一部には原則として同一符号を付し、その繰り返しの説明は省略する。
図1〜図22を用いて、本発明の実施の形態の画像処理装置及び画像処理プログラムについて説明する。実施の形態の画像処理装置は、文字認識装置であり、スキャナ機能、OCR機能、及び所定の画像補正機能等を備える。実施の形態の画像処理プログラムは、実施の形態の画像処理装置で実行されるプログラムであり、実施の形態の画像処理装置に所定の画像処理を実行させるプログラムである。その画像処理は、所定の画像補正処理を含む。
[画像処理装置]
図1は、実施の形態の画像処理装置である文字認識装置1の構成を示す。申込者であるユーザは、自分の身分証2を持っている。申込者は、会社や役所等に対して、所定の申込の手続きを行う。この手続きは、所定の申込書3に、文字の記入や、身分証2の画像の記載が必要である。受付者であるユーザは、申込者に申込書3を提供する。例えば、申込者は、申込書3の所定欄に身分証2の画像を記載した形として申込書3を作成し、受付者へ提出する。受付者は、その申込書3を受領して、会社等のシステムに登録する。実施の形態の画像処理装置は、例えば、会社等の受付者であるユーザにより操作されて使用される。これにより、受付者は、申込書3の受付及び登録の業務を行う。なお、申込者であるユーザが、実施の形態の画像処理装置を操作して使用してもよい。
実施の形態の画像処理装置である文字認識装置1は、演算装置101、記憶装置102、通信インタフェース装置103、入出力インタフェース装置104、入力装置105、表示装置106、スキャナ装置107、外部記憶装置108等を備える。
演算装置101は、CPU、ROM、RAM等により実現され、画像処理装置の全体を制御する制御部を実現する。演算装置101は、ソフトウェアプログラム処理により実現される処理部として、画像読み取り部11、画像データ入力部12、画像補正部13、文字認識部14、文字データ出力部15、画像データ出力部16、設定部17を有する。演算装置101は、記憶装置102から画像処理プログラム121を読み出して実行することにより、画像補正部13等の各処理部を実現する。
記憶装置102には、実施の形態の画像処理プログラムである画像処理プログラム121、画像データ122、文字データ123、設定情報124等が格納されている。画像データ122は、身分証2または申込書3からの読み取り画像データや、その画像処理後の画像データ等である。文字データ123は、画像データ122に基づいてOCR処理により得た文字データ等である。設定情報124は、設定部17を通じて設定された情報である。
通信インタフェース装置103は、外部装置との間で、所定の通信インタフェースで、通信処理を行う。画像処理装置は、例えば、外部装置であるサーバと通信網を介して通信し、サーバから画像データ122等を受信して入力してもよいし、サーバへ文字データ123等を送信して登録してもよい。
入出力インタフェース装置104は、入出力インタフェースを有し、入力装置105、表示装置106、スキャナ装置107、外部記憶装置108等が接続されている。入力装置105及び表示装置106は、例えば操作パネルが挙げられる。ユーザは、入力装置105を通じて操作指示やユーザ設定等を入力可能である。ユーザは、表示装置106を通じて装置状態等を認識可能である。外部記憶装置108は、例えばディスク装置やメモリカード装置等が挙げられる。外部記憶装置108には、演算装置101からの制御に基づいて、画像データ122や文字データ123等のデータを格納可能である。また、画像処理装置は、入出力インタフェース装置104に接続された外部記憶装置108に格納されている画像データを、画像データ122として入力することも可能である。
スキャナ装置107は、セットされた申込書3等の紙をスキャンして画像を読み取る画像読み取り装置である。スキャナ装置107は、読み取った画像データを、画像データ122として、記憶装置102に格納する。
画像読み取り部11は、スキャナ装置107を制御して、紙から画像を読み取り、画像データ122として得る処理を行う。画像データ入力部12は、通信インタフェース装置103や入出力インタフェース装置104等を制御して、外部装置から画像データを入力して画像データ122として得る処理を行う。画像補正部13は、画像データ122に対し、特徴的な画像補正処理を行う部分である。文字認識部14は、画像補正処理後の画像データ122に対し、OCR処理を行って、文字データ123を得る部分である。文字データ出力部15は、OCR処理後の文字データ123を、外部装置やユーザへ出力する処理を行う。画像データ出力部16は、画像補正処理後の画像データ122を、外部装置やユーザへ出力する処理を行う。
設定部17は、管理者等のユーザの操作に基づいて、画像補正処理やOCR処理等に係わる設定処理を行う部分である。設定部17は、予め、処理対象とする身分証2の基本レイアウトや、基本レイアウトに基づいた条件の情報を、設定情報124として設定する。基本レイアウトの情報は、後述の罫線や格子点の情報を含む。条件の情報は、画像補正処理の際の判定条件等を含む。なお、設定情報124は、画像処理装置及び画像処理プログラムの設計情報として固定としてもよい。設定情報124に応じて、複数の種類の身分証2等に対応可能である。画像処理プログラム121は、設定情報124に従って処理を実行させる。
実施の形態の画像処理装置である文字認識装置1は、身分証2またはそれを含む申込書3の画像を得て、その画像にOCR処理を行う前に、その画像がOCR処理に適した内容となるように、その画像に画像補正処理を行う。文字認識装置1は、画像補正処理として、身分証2の画像の歪みが無くなるように、その画像の傾き、サイズ、位置等を補正する。文字認識装置1は、補正後の画像を用いて、OCR処理を行う。これにより、OCR処理では、文字認識の精度が高くなる。また、実施の形態の画像処理装置は、文字認識を行わずに、画像補正までを行い、画像データとして出力する場合でも、身分証2の画像の歪みが無く内容を視認しやすい状態として出力することができる。
文字認識装置1は、身分証2における基本レイアウトに含まれている罫線や罫線の交点の情報を利用して、身分証2の画像から、身分証2の領域の位置等を検出し、射影変換等を行う。文字認識装置1は、身分証2の画像から、身分証2の領域内にある罫線を抽出し、また、罫線同士が交わるまたは接続される点である格子点を抽出する。文字認識装置1は、抽出した罫線及び格子点を用いて、身分証2の基本レイアウトの罫線及び格子点の位置関係等に基づいて、身分証2の領域の位置、形状や傾き等を検出する。文字認識装置1は、身分証2の領域の位置等を表す、4本の外枠罫線や四点を検出する。文字認識装置1は、その4本の外枠罫線や四点を用いて、身分証2の画像に射影変換を行う。これにより、文字認識装置1は、身分証2の画像の歪みを修正して、文字認識や視認に適した矩形の画像を得る。
なお、実施の形態の画像処理装置は、文字認識装置に限らず適用可能であり、文字認識機能を持たないスキャナ装置や、印刷機能等の各種機能を持つ複合機、等にも適用可能である。変形例として、画像処理装置がスキャナ装置である場合の構成は、図1の構成のうちで、文字認識部14、文字データ出力部15、文字データ123等を持たない構成に相当する。そのスキャナ装置は、身分証2等の入力画像に対し、画像補正部13により画像補正処理を行い、その結果の画像データ122を得て出力する機能を有する。
[身分証]
図2は、身分証2の構成例として、運転免許証の場合の表面の基本レイアウトを示す。この身分証2は、概略的には矩形のカード媒体であり、矩形の角部は曲線となっている。身分証2の主面において、上から、氏名、生年月日、住所、交付、有効期限、番号、等の文字情報が記載されている。また、身分証2の主面において、右側に、本人写真画像領域も設けられている。
[申込書]
図3は、申込書3の構成例を示す。この申込書3は、文字入力欄301と、所定欄302とを含む。文字入力欄301は、住所、氏名等の文字情報が記載される欄である。所定欄302は、本人確認証貼付欄、言い換えると身分証配置欄である。所定欄302は、申込者の本人確認のための身分証2等の画像を記載及び配置するための欄である。図3では、所定欄302には、身分証2に対応する身分証画像303が貼り付け等により配置されている。図3の例では、所定欄302の中で、身分証画像303が、欄の線に対して少し傾いて角度を持つ状態で配置されている。なお、申込書3や他の書類によっては、身分証2ではなく、他のカードや帳票等の画像が記載される場合もある。
[申込書の作成方式]
実施の形態の画像処理装置の用途や前提、OCRの入力画像を得るための紙の画像読み取りや画像データ入力、申込書3の作成方式、等について以下である。申込者は、申込書3の文字入力欄301に、文字を記載する。申込者または受付者は、所定欄302内に、申込者の身分証2の画像を記載する。申込書3の作成方式として、以下のようにいくつかの方式がある。
(1) 申込者または受付者は、身分証2のみを、スキャナ装置等により画像読み取りを行い、紙に印刷出力する。申込者または受付者は、その身分証2の画像を含む紙を、切り貼りや拡大縮小等して、申込書3の所定欄302の中に配置する。
(2) 申込者または受付者は、申込書3の所定欄302の中に身分証2を配置した状態で、その申込書3を、スキャナ装置等により画像読み取りを行い、紙に印刷出力する。
(3) 申込者または受付者は、デジタルカメラ等を用いて、身分証2のみを撮影して、その撮影画像データを得る。申込者または受付者は、その身分証2の撮影画像データを、紙に印刷出力する。そして、申込者または受付者は、その身分証2の画像を含む紙を、切り貼りや拡大縮小等して、申込書3の所定欄302の中に配置する。
(4) 申込者は、デジタルカメラ等を用いて、身分証2のみを撮影し、その撮影画像データを得る。申込者は、受付者へ、その身分証2の画像データを提供する。この際、インターネットを介した電子的な手続きが可能である場合、申込者の端末から、受付者の端末へ、その身分証2の画像データを送信してもよい。また、インターネット上で、デジタル形式の申込書3が提供される場合、申込者は、端末の画面で、デジタル形式の申込書3に記入し、所定欄302に身分証2の画像データを貼り付けしてもよい。
受付者は、申込者から、上記身分証2の撮影画像データを取得した場合、その画像データを用いて、申込書3のデータを作成して登録する。受付者は、申込者から、上記身分証2の画像データを含む申込書3のデータを取得した場合、その申込書3のデータを登録する。
図4及び図5は、申込書3や身分証2に係わる、紙や画像データ等のいくつかの形態を示す。図4は第1の例、図5は第2の例を示す。
図4で、紙401は、物である身分証2のみをスキャナ装置等でスキャンして印刷した形態の身分証の紙を示す。この紙401は、紙面内で身分証画像の配置の傾きが有る場合を示す。紙402は、文字が未記載または記入済みの申込書3の紙を示す。紙403は、申込書3の紙402の所定欄内に、身分証の紙401を貼り付け等で配置した状態の申込書3の紙を示す。あるいは、紙403は、申込書3の紙402の所定欄内に、身分証の紙401を配置した状態で、スキャナ装置等でスキャンして印刷した形態の申込書3の紙を示す。この紙403では、所定欄内で身分証画像が傾いて配置されている。身分証画像の外形を構成するふちの線は、所定欄の枠線に対して傾きの角度がある。また、画像データ404は、申込書3の紙403を更にスキャナ装置等でスキャンして画像読み取りした形態の申込書3の画像データを示す。
図5で、画像データ405は、物である身分証2のみをデジタルカメラ等で撮影して画像読み取りした形態の身分証2の画像データを示す。この身分証2の画像データ405は、俯瞰画像であり、撮影による傾きが有る場合を示す。この例では、撮影時の撮影方向は、身分証2の表面の垂直方向に対して少し手前に傾いた方向である。これにより、画像データ405内の身分証領域は、台形状になっており、外形の左右辺は、画像データ405の外形の線に対して傾きの角度がある。また、デジタル形式の申込書データ406を示す。申込書データ406に文字等が記入され、所定欄には例えば身分証2の画像データ405が貼り付け等により配置される。これにより、申込書データ407が作成される。申込書データ407は、文字データ及び画像データを含んでいる。
上記例のように、受付者は、申込者から、身分証2の紙または画像データ、あるいは、身分証2の記載を含む申込書3の紙または画像データを取得する。受付者は、取得した紙または画像データを用いて、申込書3を得る。受付者は、スキャナ装置またはOCR装置を用いて、その申込書3の画像データまたは文字データを取得し、そのデータを会社等のシステムに登録する。会社等のシステムは、申込書3を、データの形態で管理することができる。
上記例のように、申込書3の作成方式、身分証2の画像を得る手段等の違いから、身分証2の画像には、傾き等、様々な歪みが発生し得る。例えば、紙401に示す歪みや、画像データ405に示す歪みが挙げられる。文字認識装置1は、それらの画像の歪みを解消するように画像補正を行う。文字認識装置1は、画像補正後の画像データから、OCR処理により文字データを得る。
なお、従来では、作成された申込書の所定欄の身分証画像に歪みがある場合、OCR処理で文字が認識しにくくなり、また、OCR処理を行わない場合でも内容の視認がしにくくなる。そのように身分証画像が不適切である場合、ユーザは修正作業が必要となる。即ち、申込者または受付者は、身分証画像を含む申込書を、再度作成する必要があり、手間がかかる。それに対し、実施の形態の画像処理装置では、身分証画像に歪みがある場合でも、自動的に画像補正処理を行って、OCR処理に適した内容にすることができる。そのため、ユーザの作業の手間が削減される。
[機能ブロック構成]
図6は、実施の形態の画像処理装置である文字認識装置1の機能ブロック構成を示す。図6では、図4及び図5のような各形態の紙や画像データの入力に対応可能である装置の場合の機能ブロック構成を示す。文字認識装置1は、身分証2の紙または画像データ、あるいは申込書3の紙または画像データを入力する。文字認識装置1は、例えば、申込書3の紙403、身分証2の紙401、申込書3の画像データ404、身分証2の画像データ405、デジタル形式の申込書データ407、等を入力可能である。
図6で、文字認識装置1は、図1の画像読み取り部11から画像データ出力部16までを有する。画像読み取り部11は、図1のスキャナ装置107に入力される申込書3の紙403または身分証2の紙401から画像を読み取り、読み取り画像データ601を、画像補正部13や画像データ出力部16へ出力する。出力先は、設定や指示入力に基づいて制御される。読み取り画像データ601は、図1の記憶装置102の画像データ122の一部として格納される。
画像データ入力部12は、図1の通信インタフェース装置103や入出力インタフェース装置104等を通じて、申込書3の画像データ404、身分証2の画像データ405、またはデジタル形式の申込書データ407を入力し、それらに対応する画像データ602を取得し、画像補正部13へ出力する。画像データ602は、図1の記憶装置102の画像データ122の一部として格納される。
画像補正部13は、入力される読み取り画像データ601または画像データ602を対象として、後述の画像補正処理を行い、その結果である補正後画像データ603を得て、文字認識部14や画像データ出力部16へ出力する。出力先は、設定や指示入力に基づいて制御される。補正後画像データ603は、図1の記憶装置102の画像データ122の一部として格納される。補正後画像データ603は、OCR処理や視認に適した内容となっている。
文字認識部14は、入力される補正後画像データ603から文字を認識し、その結果を文字データ604として出力する。文字データ604は、図1の記憶装置102の文字データ123として格納される。
文字データ出力部15は、文字データ604を、通信インタフェース装置103や入出力インタフェース装置104等を通じて、外部装置やユーザに対して出力する。文字データ出力部15は、設定や指示入力に応じて、文字データ604を出力する。文字データ出力部15は、例えば、文字データ604の内容を、表示装置106の画面に表示する。文字データ出力部15は、例えば、文字データ604を、所定のシステムへ送信する。
画像データ出力部16は、読み取り画像データ601や補正後画像データ603を、通信インタフェース装置103や入出力インタフェース部104等を通じて、外部装置やユーザに対して出力する。画像データ出力部16は、設定や指示入力に応じて、読み取り画像データ601や補正後画像データ603、あるいは画像データ602を出力する。画像データ出力部16は、例えば、補正後画像データ603を、表示装置106の画面に表示する。画像データ出力部16は、例えば、補正後画像データ603を、所定のシステムへ送信する。
なお、変形例の画像処理装置としては、紙の入力のみに対応した形態としてもよいし、画像データの入力のみに対応した形態としてもよい。
[全体処理フロー]
図7は、文字認識装置1における全体の処理フローを示す。図7のフローは、ステップS1〜S6を有する。このフローは、ユーザの操作や作業の手順も含む。以下、ステップの順に説明する。
(S1) 文字認識装置1は、処理対象の画像を入力する。文字認識装置1は、図6の例のように、対象の身分証画像を含む紙または画像データを入力する。文字認識装置1は、紙401等の入力の場合、画像読み取り部11により画像読み取りを行い、読み取り画像データ601を得る。文字認識装置1は、画像データ405等の入力の場合、画像データ入力部12により入力して画像データ602を得る。
図9は、S1の入力画像の例として、図5の身分証2の画像データ405に対応した身分証画像を示す。図9の身分証画像は、前述のように、撮影方向に応じた歪みがあり、身分証領域902が台形状になっている。図9の身分証画像は、外形が矩形の領域900であり、背景901の上に身分証領域902がある。領域900は、申込書3の所定欄302に対応した領域の場合もあるし、任意の領域の場合もある。背景901は、例えば白色とするが、撮影時の状況によっては他の色や模様の場合もある。
身分証領域902において、物としての身分証2の外形や輪郭の線を示す四辺のふち903がある。図9の例では、上辺及び下辺のふち903はX方向に平行である。左辺及び右辺のふち903は、領域900のY方向の直線に対して傾き910の角度がある。この傾き910は、撮影方向に応じたものである。この身分証画像では、身分証領域902の上下左右辺の位置の伸縮率が、紙からの読み取り画像の場合の伸縮率とは異なっている。身分証領域902は、台形の上辺が相対的に縮小、下辺が拡大されている。台形の左辺は、領域900の縦線に対して右に少し傾く角度があり、台形の右辺は、領域900の縦線に対して左に少し傾く角度がある。
身分証領域902内には、直線や曲線、文字908、本人写真画像領域909等の画像、等が含まれている。図9の身分証画像の例は、白黒の2値による画像を示す。身分証領域902内には、罫線として、横罫線904や縦罫線905がある。横罫線904は、身分証2の表面内においてX方向に平行な線である。縦罫線905は、身分証2の表面内においてY方向に平行な線である。図9では歪みがあるので、縦罫線905は、Y方向に対して傾きの角度を持つ線となっている。
身分証領域902内には、外枠罫線906がある。外枠罫線906は、身分証領域902内で、ふち903よりも内側にある複数の罫線のうち、最もふち903に近く、最外にあり、外枠を形成する罫線である。図9の例では、上下左右辺のふち903に対して内側に所定距離の位置に、上下左右辺の4本の外枠罫線906がある。
(S2) 文字認識装置1は、S1で得た入力画像の画像データに対し、画像補正部13により画像補正処理を行い、補正後画像データ603を得る。実施の形態の画像処理装置は、設定に基づいて自動的にS2の画像補正処理を行う。文字認識装置1は、S2の画像補正により、入力画像を、OCR処理等に適した内容となるように補正する。
(S3) S3では、実施の形態の画像処理装置が、OCR装置である文字認識装置1であるか、スキャナ装置であるか等によって、もしくは、OCR処理を行うか否かによって、処理を分岐する。スキャナ装置の場合、OCR機能を持たないので、OCR処理を行わない。OCR装置の場合またはOCR処理を行う場合(S3−Y)にはS4へ進み、スキャナ装置の場合またはOCR処理を行わない場合(S3−N)にはS5へ進む。
(S5) 実施の形態の画像処理装置は、画像データ出力部16により、補正後画像データ603を出力する。S5の後、S6へ進む。
(S4) 文字認識装置1は、補正後画像データ603に対して、文字認識部14により、OCR処理を行い、文字データ604を得る。S4は、ステップS41〜S44を含む。
(S41) 文字認識部14は、補正後画像データ603について、OCR対象領域に対応する読み取り位置を検出する。例えば、申込書3の文字入力欄301から文字を認識する場合、X−Y平面で、文字入力欄301に対応する矩形の左上の開始点及び右下の終了点の位置座標が指定される。また、所定欄302の身分証画像から文字を認識する場合、X−Y平面で、所定欄302に対応する矩形の開始点及び終了点の位置座標が指定される。OCR対象領域は、申込書3の全体領域にもできるし、所定欄302に限定することもできる。文字認識装置1は、設定機能の1つとして、OCR対象領域に対応する読み取り位置を指定する機能がある。
なお、実施の形態の画像処理装置では、後述の画像補正の結果、図19のように、身分証領域の位置を表す四点が得られる。その四点を、OCR対象領域の指定に用いることもできる。
(S42) 文字認識部14は、S41の読み取り位置に基づいて、文字認識を行う。即ち、文字認識部14は、OCR対象領域内の画像から文字へ変換する。例えば、氏名等の文字が得られる。
(S43) 文字認識部14は、S42で得た認識結果の文字について、後処理として補正等を行う。文字認識部14は、例えば、認識できない箇所を、類推処理により文字へ変換する。
(S44) 文字認識部14は、結果出力として、文字認識結果の文字データ604を出力する。文字認識装置1は、文字データ出力部15により、その文字データ604を出力する。
(S6) ユーザは、出力チェックを行う。実施の形態の画像処理装置は、S4の文字データあるいはS5の画像データを、例えば表示装置106の画面に表示する。ユーザは、出力された文字データあるいは画像データの内容を見て、適切な内容かをチェック、確認する。ユーザは、内容に問題が無い場合には、その文字データあるいは画像データを受領とし、システムに登録する。ユーザは、内容に問題が有る場合には、その文字データあるいは画像データを却下とし、作業をやり直す。あるいは、ユーザは、文字データ内の文字を、対応する申込書3に記載の文字と見比べて、誤っている文字等を正しい文字に修正する。
[画像補正処理フロー]
図8は、図7のうち、S2の画像補正処理の詳細のフローを示す。図8のフローは、ステップS101〜S112を有する。以下、ステップの順に説明する。なお、図8のフローは、図9のような身分証2の画像データを対象とする場合で説明するが、申込書3の画像を対象とする場合も同様に実現できる。
(S101) 画像補正部13は、入力画像の領域から、すべての罫線を、罫線情報として検出して出力する。画像補正部13は、検出した罫線情報を、罫線データとして、演算装置101または記憶装置102等の記憶領域に格納する。画像補正部13は、その罫線情報を、以降の処理のために出力する。画像補正部13は、入力画像の領域を、原点からX方向及びY方向で探索する。画像補正部13は、画像の画素の階調値を白黒の2値に区分し、例えば白領域と黒領域とに区分することにより、連続する黒領域として構成される罫線を検出する。
図10は、図9の画像からの横罫線の検出、及び横罫線情報の例を示す。図10で、太線は、横罫線を示す。例えば、横罫線1001は、上辺のふち903に対応した罫線である。横罫線1002は、下辺のふち903に対応した罫線である。なお、菱形の点は、罫線の端点である始点及び終点を示す。なお、画像補正部13は、曲線の部分については安定していないので、罫線としては検出しない。横罫線1001等は、ふち903の線であるが、最初は罫線として検出される。
横罫線1001の下には、上部5本の横罫線部1000がある。横罫線部1000には、上から順に、横罫線H1〜H5がある。例えば、横罫線H1は、上辺の外枠罫線に相当する罫線である。横罫線H1及び横罫線H2は、氏名及び生年月日の項目を構成している。横罫線H3〜H5は、住所及び交付の項目を構成している。横罫線1002の上には、横罫線H6がある。横罫線H6は、下辺の外枠罫線に相当する罫線である。また、他の横罫線としては、右側にある本人写真画像領域を構成する横罫線H7,H8や、左下にある番号等の項目を構成する横罫線H9〜H11がある。
図11は、図9の画像からの縦罫線の検出、及び縦罫線情報の例を示す。図11で、太線は、縦罫線を示す。例えば、縦罫線1101は、左辺のふち903に対応した罫線である。縦罫線1102は、右辺のふち903に対応した罫線である。横罫線部1000では、氏名等の項目を構成する縦罫線V1,V2,V4がある。縦罫線1101の右には、外枠罫線となる縦罫線V3がある。縦罫線1102の左には、外枠罫線となる縦罫線V5がある。他の縦罫線としては、本人写真画像領域を構成する縦罫線V7,V8や、番号等の項目を構成する縦罫線V6がある。縦罫線1101等は、ふち903の線であるが、最初は罫線として検出される。
(S102) 画像補正部13は、入力画像の領域から、すべての格子点を、格子点情報として検出して出力する。画像補正部13は、S101で検出した罫線と罫線の交点を、格子点として検出する。画像補正部13は、検出した格子点情報を、格子点データとして、演算装置101または記憶装置102等の記憶領域に格納する。画像補正部13は、その格子点情報を、以降の処理のために出力する。
図12は、図9の画像からの格子点の検出、及び格子点情報の例を示す。図12の格子点は、図10の横罫線と図11の縦罫線との交点に相当する。図12で、丸点は格子点を示す。格子点として、格子点P1〜P22がある。例えば、横罫線H1と縦罫線V1との交点が、格子点P1である。
図13は、罫線や格子点の定義、罫線データ及び格子点データの構成例を示す。画像補正部13は、罫線データ及び格子点データを作成及び管理する。1つの罫線は、2つの端点である始点及び終点の間を接続する直線として規定される。X−Y平面で、端点は、位置座標(x,y)を有する。格子点は、2つの罫線が交わるまたは接続される点として規定される。1つの格子点は、2つの罫線に属している。罫線の端点は、他の罫線と交わらない場合には格子点にはならず、他の罫線と交わる場合には格子点となる。端点での交わり方が、折れ曲がりの角点になる場合にも、その端点は格子点となる。罫線は、直線とし、曲線を除く。独立した端点は、検出の際に安定していないので、格子点には含めない。
罫線データとして、罫線ID、始点位置座標、終点位置座標を有する。罫線IDは、その罫線を一意に識別する情報であり、例えばK1で示す。始点位置座標は始点の位置座標であり、例えば(x1,y1)で示す。終点位置座標は終点の位置座標であり、例えば(x2,y2)で示す。
格子点データとして、格子点ID、位置座標、関係罫線ID、タイプを有する。格子点IDは、その格子点を一意に識別する情報であり、例えばk1で示す。位置座標は、その格子点の位置座標であり、例えば(x3,y3)で示す。関係罫線IDは、その格子点に関係付けられた、その格子点が属する2つの罫線の罫線IDを示す。例えば、格子点ID=k1の格子点は、罫線ID=K1の横罫線と、罫線ID=K2の縦罫線との交点であり、関係罫線ID=K1,K2である。
タイプは、その格子点の交わり方のタイプを表す値であり、後述の図17に示すタイプT1〜T9がある。タイプT1〜T4は、角点に相当する4つのタイプであり、1本の横罫線の端点と1本の縦罫線の端点とが90度で交わるタイプである。タイプT5〜T8は、T字形に相当する4つのタイプであり、1本の横罫線の途中の点に1本の縦罫線の端点が90度で交わるタイプ、または、1本の縦罫線の途中の点に1本の横罫線の端点が90度で交わるタイプである。タイプT9は、X字形に相当する1つのタイプであり、1本の横罫線の途中の点に1本の縦罫線の途中の点が90度で交わるタイプである。図13の例では、タイプT5を示す。
(S103) 画像補正部13は、S101の罫線情報及びS102の格子点情報を用いながら、身分証領域位置検出を行う。S103は、ステップS104〜S110を含む。身分証領域位置とは、所定欄302等に対応する図9の領域900内における身分証領域902の位置である。身分証領域位置とは、身分証画像の歪みによる傾きや形状を含めた、身分証領域を表す位置である。身分証領域位置とは、後述の図19のように、身分証領域の外枠罫線に基づいた四点{点Q1〜Q4}で示される位置である。
図14は、図9の画像を対象とした身分証領域位置検出の概要を示す。画像補正部13は、領域900の原点1400からX方向及びY方向で探索する。幅1421は領域900のX方向の幅を示す。幅1422は領域900のY方向の幅を示す。画像補正部13は、まず、上側の領域1411を探索する。画像補正部13は、その領域1411で、罫線情報のうち、上部5本の横罫線部1000の横罫線H1〜H5を選択する。また、画像補正部13は、領域1411で、罫線情報のうち、横罫線H1〜H5に関係している縦罫線V1も選択し、格子点情報のうち、横罫線H1〜H5に関係している格子点P1等も選択する。
次に、画像補正部13は、横罫線部1000の横罫線H1〜H5、縦罫線V1等、格子点P1等の情報に基づいて、上辺の外枠罫線1401を選択する。次に、画像補正部13は、横罫線部1000の情報に基づいて、左辺の外枠罫線1402、及び右辺の外枠罫線1403を選択する。次に、画像補正部13は、左辺の外枠罫線1402及び右辺の外枠罫線1403の情報に基づいて、下側の領域1412を探索し、下辺の外枠罫線1404を選択する。画像補正部13は、各外枠罫線の選択の際、ふち903に対応する罫線を除外する。
画像補正部13は、選択した4本の外枠罫線1401〜1404に基づいて、後述の図18のように、身分証領域位置を表す四点{点Q1〜Q4}を検出する。外枠罫線は、身分証領域内の複数の罫線のうちで、相対的に長く、安定して抽出しやすい罫線である。
(S104) 画像補正部13は、S101で検出した横罫線について、Y方向で上から順に調べることにより、身分証2の基本レイアウトの設定情報に対応した所定の横罫線を選択する。画像補正部13は、所定の横罫線として、例えば図10の上部5本の横罫線部1000の横罫線H1〜H5を選択する。画像補正部13は、ふち903に対応する横罫線1001を除外して、横罫線H1〜H5を選択する。
図15は、S104の横罫線選択等の罫線選択の詳細を示す。処理概要としては、画像補正部13は、検出罫線を、身分証2の基本レイアウトの罫線の位置関係と比較し、所定の条件を満たす罫線を選択する。画像補正部13は、基本レイアウトの罫線に対し、十分に近い罫線、ずれが許容範囲である罫線を選択する。
S104の詳細処理例は以下である。画像補正部13は、原点1400からY方向で上から順に、複数の横罫線を調べ、複数の横罫線の関係として以下の条件を満たすものを選択する。
(1) 画像補正部13は、第1条件として、複数の横罫線におけるそれぞれの横幅Hxが、所定の長さ以上であるかを判断する。即ち、第1条件は、横罫線の最小長さの条件である。画像補正部13は、入力画像の領域900の横幅1421に対して、着目する横罫線の横幅Hxが、所定の長さ以上であるものを、横罫線として選択する。例えば、横罫線H1〜H5の横幅をHx1〜Hx5とし、所定の長さをHx0とすると、Hx1≧Hx0,……,Hx5≧Hx0である。所定の長さ未満である横罫線の場合、正しい横罫線である可能性が低く、文字認識にも適さないので、非選択とする。これにより、処理効率を高めることができる。なお、この横幅の判断については、絶対値での判定としてもよいし、全体の横幅1421に対する比率での判定としてもよい。
なお、身分証領域902以外の背景901では、単一色とは限らず、短い線による模様等が存在する場合もあり得る。画像補正部13は、そのような背景の線を、罫線と混同して検出しないように、基本レイアウト及び条件に基づいて判定する。第1条件により、そのような模様も除外できる。
(2) 画像補正部13は、第2条件として、複数の横罫線の始点の位置が所定の関係を満たすかを判断する。画像補正部13は、まず、横罫線H1に対応する第1横罫線を、一旦選択する。第1横罫線の始点p1の位置座標を(X1,Y1)とする。画像補正部13は、次の横罫線H2に対応する第2横罫線を調べる。第2横罫線の始点p2の位置座標を(X2,Y2)とする。画像補正部13は、始点p2の位置座標(X2,Y2)を、始点p1の位置座標(X1,Y1)と比べる。画像補正部13は、位置X2が、位置X1を中心としたX方向の所定の範囲1501内に含まれている場合には、その位置X2の始点p2に対応する第2横罫線を許容し、含まれない場合には却下する。範囲1501は、条件判定のためのズレ許容範囲である。画像補正部13は、その始点p2の第2横罫線を一旦選択する。
画像補正部13は、第3横罫線、第4横罫線、第5横罫線についても、上記と同様に、第1横罫線との比較で、それぞれの始点が、範囲1501内に含まれるかを判定し、第5横罫線までを選択する。なお、第1横罫線を基準とする以外にも、変形例としては、Y方向で隣り合う横罫線同士での比較判定としてもよい。例えば、最初は第1横罫線と第2横罫線との比較であり、次は第2横罫線と第3横罫線との比較である。横罫線の終点についても、上記と同様に判定が可能である。なお、横罫線H5に対応する第5横罫線の終点については、所定位置の範囲内かで判定される。
第1横罫線から第5横罫線までが選択できない場合、最初に選択した第1横罫線が誤りである可能性がある。その場合、画像補正部13は、その第1横罫線を却下し、第2横罫線を新たな第1横罫線として処理をやり直す。
(3) 画像補正部13は、第3条件として、複数の横罫線のX方向の横幅Hxが所定の関係を満たすかを判断する。画像補正部13は、第1横罫線から第5横罫線までの横幅を、基本レイアウトの横幅の関係と比べて、所定の許容範囲内であるかを判断する。例えば、上部5本の横罫線H1〜H5は、基本レイアウトでは、横幅の比が、Xa:Xb:Xc:Xd:Xe、と規定されている。Xaは、横罫線H1の横幅である。例えば、Xa:Xb:Xc:Xd:Xe=1:1:1:A:B、Aは1より大きい所定値、Bは1より小さい所定値、である。画像補正部13は、各横罫線の横幅Hx1〜Hx5が、所定の横幅の比に対して、許容範囲内であるかどうかを確認する。画像補正部13は、第1横罫線を基準とした各横罫線との間で、あるいは隣接する横罫線同士で、横幅の比率が、所定の許容範囲内である場合には、その横罫線を許容する。画像補正部13は、許容範囲外である場合には、その横罫線を却下し、別の横罫線を選択し直して、判定をやり直す。
(4) 画像補正部13は、第4条件として、複数の横罫線のY方向の配置間隔が、所定の関係を満たすかを判断する。画像補正部13は、第1横罫線から第5横罫線までのY方向の配置間隔を、基本レイアウトの配置間隔の関係と比べて、所定の許容範囲内であるかを判断する。第1横罫線から第5横罫線のY方向の配置間隔をKa〜Kdで示す。Kaは、第1横罫線と第2横罫線との配置間隔を示す。例えば、上部5本の横罫線H1〜H5は、基本レイアウトでは、Y方向の配置間隔の比が、Ya:Yb:Yc:Yd、と規定されている。例えば、Yaは、横罫線H1と横罫線H2との間の配置間隔である。例えば、Ya:Yb:Yc:Yd=1:C:1:1、Cは1より小さい所定値、である。画像補正部13は、各横罫線の配置間隔が、所定の配置間隔の比に対して、許容範囲内であるかを確認する。画像補正部13は、第1横罫線を基準とした各横罫線との間で、あるいは隣接する横罫線同士で、配置間隔の比率が、所定の許容範囲内である場合には、その横罫線を許容する。画像補正部13は、許容範囲外である場合には、その横罫線を却下し、別の横罫線を選択し直して、判定をやり直す。
(S105) 画像補正部13は、S104の結果、所定の罫線、例えば上部5本の横罫線H1〜H5、を選択できた場合(S105−Y)にはS107へ進み、選択できない場合(S105−N)にはS106へ進む。
(S106) 基本レイアウトに対応した所定の罫線が選択できない場合、その理由としては、以下が挙げられる。即ち、図4の例のように、所定欄302等の領域内に、身分証領域が傾いて配置されている場合がある。そのために、横罫線が、領域のX方向の基準線に対して斜めになる角度を持っている場合がある。そのため、S106では、画像補正部13は、身分証領域の回転処理を行う。これにより、身分証領域の横罫線が、領域900のX方向の線に対して平行になるようにする。画像補正部13は、S106の後、S101へ戻り、回転後の画像データを用いて、処理をやり直す。
図16は、回転処理を示す。図16の上側は、入力画像の回転前の状態であり、画像データの全体である矩形の領域900内において、身分証領域902の横罫線は、X方向の基準線に対して、約5度、傾き1601が有る。画像補正部13は、入力画像を、例えば領域900のX方向及びY方向の中心点1600に基づいて、所定の角度単位で回転させる。図16の下側は、入力画像の回転後の状態であり、約−5度で回転させた状態である。結果、領域900内において、身分証領域902の横罫線は、X方向の基準線に対して、傾きが無く、平行になっている。
なお、S101で横罫線がうまく抽出できなかった場合にも、S106のような回転処理を行うようにしてもよい。
(S107) 画像補正部13は、S104で選択した所定の罫線、例えば上部5本の横罫線H1〜H5が、基本レイアウトに合った正しい罫線であるかを、縦罫線及び格子点情報を利用してチェックする。
図17は、S107に対応した選択罫線チェックの詳細を示す。基本レイアウトにおいて、複数の横罫線とそれに関係する縦罫線及び格子点は、所定の関係を持っている。各格子点は、所定の位置及びタイプを持っている。図17では、上部5本の横罫線部1000の横罫線H1〜H5におけるX方向右側一部を拡大で示し、関係する縦罫線V1,V2,V3、及び格子点P1〜P7を示す。
画像補正部13は、選択した横罫線H1〜H5について、関係する縦罫線及び格子点を、S101の罫線情報及びS102の格子点情報に基づいて参照する。まず、横罫線H1〜H5における格子点P1〜P5がある。基本レイアウトでは、格子点P1〜P5のタイプが{T5,T7,T5,T9,T7}となっている。縦罫線V1は、格子点P1と格子点P2とを接続する部分171から成る。縦罫線V2は、格子点P3,P4,P5を接続しており、格子点P3と格子点P4とを接続する部分172と、格子点P4と格子点P5とを接続する部分173とから成る。
画像補正部13は、条件として、関係する格子点が、所定のタイプであることを確認する。画像補正部13は、まず、横罫線H1の始点p1からX方向で右方にある第1格子点である格子点P1を参照する。格子点P1は、タイプT5であり、横罫線の途中から下に縦罫線が出るタイプである。画像補正部13は、参照した格子点がタイプT5であることを確認する。画像補正部13は、参照した格子点のタイプが正しい場合、その横罫線を許容し、タイプが正しくない場合、その横罫線を誤りとして却下する。
画像補正部13は、次に、横罫線H2の始点p2からX方向で右方にある第2格子点である格子点P2を参照する。格子点P2は、タイプT7であり、横罫線の途中から上に縦罫線が出るタイプである。画像補正部13は、同様に、参照した格子点のタイプがタイプT7であることを確認する。
また、画像補正部13は、条件として、隣接する横罫線における、隣接する格子点を接続する縦罫線の関係を判断する。画像補正部13は、横罫線H1の格子点P1から出る縦罫線の部分171と、横罫線H2の格子点P2から出る縦罫線の部分171とが、縦罫線V1を構成する共通の線であることを確認する。画像補正部13は、それらが縦罫線V1として共通である場合、それらの横罫線H1,H2及び縦罫線V1を、正しいものと判定し、共通でない場合、それらの横罫線及び縦罫線を、誤りと判定して却下する。画像補正部13は、同様に、横罫線H3〜H5における格子点P3〜P5及び縦罫線V2について、条件を判定して正しいか確認する。
(S108) 画像補正部13は、S107のチェック結果が正しい場合(S108−Y)、S109へ進み、正しくない場合(S108−N)、S104へ戻り、別の罫線を選択するように、処理をやり直す。
(S109) 画像補正部13は、S104〜S108で選択した所定の罫線に基づいて、外枠罫線を選択する。画像補正部13は、身分証画像における、選択した横罫線、縦罫線、及び格子点の分布、位置関係に基づいて、身分証領域902の複数の罫線から、4本の外枠罫線を選択する。画像補正部13は、前述の図14のように、横罫線部1000から上辺の外枠罫線1401を選択する。画像補正部13は、横罫線部1000から縦罫線への接続の判断に基づいて、左辺の外枠罫線1402及び右辺の外枠罫線1403を選択する。画像補正部13は、左辺の外枠罫線1402及び右辺の外枠罫線1403から下側の領域の探索に基づいて、下辺の外枠罫線1404を選択する。S109の詳細処理例は以下である。
(1) 画像補正部13は、まず、領域900のうち上側の領域1401における、上部5本の横罫線部1000の横罫線H1〜H5のうち、横罫線H1を、上辺の外枠罫線1401として選択する。
(2) 画像補正部13は、次に、左辺の外枠罫線1402を探索する。図14、図15、図17に示すように、左辺の外枠罫線1402は、横罫線部1000の始点に接続されている縦罫線V3が相当する。画像補正部13は、横罫線の始点と縦罫線との交わりの格子点について、基本レイアウトの関係と比較して確認することにより、条件を満たす縦罫線を、左辺の外枠罫線1402として選択する。
図17で、横罫線H4の始点は、縦罫線V3と交わる格子点P6となっている。横罫線H5の始点は、縦罫線V3と交わる格子点P7となっている。その縦罫線V3が、左辺の外枠罫線1402に相当する。横罫線H4の始点の格子点P6はタイプT8を持つ。横罫線H4の始点からX方向で右方にある格子点P4はタイプT9を持つ。横罫線H5の始点の格子点P7はタイプT8を持つ。横罫線H5の始点からX方向で右方にある格子点P5はタイプT7を持つ。縦罫線V3は、始点p6からY方向で下方の位置に格子点P6があり、更に下方の位置に格子点P7がある。縦罫線V3は、部分174、部分175、部分176等から構成される。
画像補正部13は、横罫線H4と縦罫線V3との格子点P6がタイプT8であることを確認し、横罫線H5と縦罫線V3との格子点P7がタイプT8であることを確認する。また、画像補正部13は、縦罫線V3の長さが、領域900のY方向の幅1422に対して、所定の長さ以上であることを確認する。画像補正部13は、それらが確認できた縦罫線V3を、左辺の外枠罫線1402として選択する。
(3) 画像補正部13は、次に、同様に、右辺の外枠罫線1403を探索する。図14、図15に示すように、右辺の外枠罫線1403は、横罫線部1000の終点に接続されている縦罫線V5が相当する。画像補正部13は、横罫線の終点と縦罫線との交わりの格子点について、基本レイアウトの関係と比較して確認することにより、条件を満たす縦罫線を、右辺の外枠罫線1403として選択する。
図15で、横罫線H4の終点は、縦罫線V5と交わる格子点P10となっている。その縦罫線V5が、右辺の外枠罫線1403に相当する。横罫線H4の終点の格子点P10はタイプT6を持つ。縦罫線V5は、始点からY方向で下方の位置に格子点P10がある。
画像補正部13は、横罫線H4と縦罫線V5との格子点P10がタイプT6であることを確認する。また、画像補正部13は、縦罫線V5の長さが、領域900のY方向の幅1422に対して、所定の長さ以上であることを確認する。画像補正部13は、それらが確認できた縦罫線V5を、右辺の外枠罫線1403として選択する。
(4) 画像補正部13は、次に、下辺の外枠罫線1404を探索する。図14で、画像補正部13は、左辺の外枠罫線1402の終点よりもY方向で下方の領域1412を探索する。基本レイアウトに基づいて、その領域1412内には、横罫線H6が存在する。画像補正部13は、横罫線H6の長さが、領域900のX方向の幅1421に対して、所定の長さ以上であることを確認する。画像補正部13は、その横罫線H6を、下辺の外枠罫線1404として選択する。
なお、外枠罫線の選択に関する他の処理例として、以下としてもよい。図9〜図12のように、基本レイアウトで、身分証領域902の左下付近には、複数の横罫線として横罫線H9,H10,H11がある。また、1本の縦罫線V6があり、複数の格子点として格子点P16〜P22がある。複数の横罫線は、比較的短い長さである。画像補正部13は、身分証領域902から、それらの罫線及び格子点を検出して利用する。画像補正部13は、それらの罫線及び格子点の近くに接続されている罫線を判定することにより、左辺の外枠罫線1402や下辺の外枠罫線1404を選択する。
(S110) 画像補正部13は、S109で選択した4本の外枠罫線に基づいて、身分証領域位置を表す四点を検出する。
図18は、S110に対応した選択外枠罫線及び四点検出を示す。S109で選択した4本の外枠罫線1401〜1404を太実線で示す。画像補正部13は、それぞれの外枠罫線を、当該罫線の延在方向において延長する。外枠罫線1401〜1404をそれぞれ延長した線である延長線1801〜1804を、点線で示す。外枠罫線の延長により、延長線同士の交点が生じる。画像補正部13は、外枠罫線の延長線の交点を、身分証領域位置を表す四点{点Q1〜Q4}として検出する。例えば、上辺の外枠罫線1401の延長線1801と、左辺の外枠罫線1402の延長線1802との交点が、点Q1である。同様に、各延長線の交点が、点Q2〜Q4である。それらの点Q1〜Q4が、身分証領域位置を表す四点である。四点の各点Q1〜Q4は、位置座標を有する。例えば、点Q1の位置座標が(Xq1,Yq1)である。
(S111) 画像補正部13は、S110で得た身分証領域位置を表す四点{点Q1〜Q4}を、射影変換用の入力値及び基準値として用いて、射影変換処理を行う。これにより、画像補正部13は、射影変換後の画像として、歪みが解消された矩形の画像を得る。射影変換は、公知の数学的処理であるため、説明を省略する。実施の形態の画像処理装置は、このS111の射影変換を、自動的に実行する。
図19は、射影変換を示す。図19の上側は、図18の結果に基づいた射影変換前の身分証画像である。直線1901〜1904は、外枠罫線に対応した、身分証領域位置を表す四点{点Q1〜Q4}の間を接続する四辺を示す。四点{点Q1〜Q4}及び四辺{直線1901〜1904}により構成される領域の形状は台形である。
図19の下側は、射影変換後の身分証画像である。四点{点Q1〜Q4}は、射影変換後、四点{点R1〜R4}になっている。四点の各点R1〜R4は、位置座標を有する。例えば、点R1の位置座標を(Xr1,Yr1)で示す。直線1911〜1914は、射影変換後の身分証領域位置を表す四点{点R1〜R4}の間を接続する四辺を示す。四点{点R1〜R4}及び四辺{直線1911〜1914}により構成される領域の形状は矩形であり、四点での角度は90度になっている。
なお、前述のように、四点{点R1〜R4}を、OCR対象領域の指定に用いることもできる。これにより、OCR処理をより効率化できる。
(S112) 画像補正部13は、S111で得た身分証画像について、必要の判断に応じて、拡大縮小処理、及び、所定欄302に対する位置合わせ処理を行う。画像補正部13は、例えば、S111の身分証領域902のX方向及びY方向のサイズと、所定欄302のX方向及びY方向のサイズとを比較する。そして、画像補正部13は、所定欄302のサイズに対する身分証領域902のサイズが、所定の比率以上で所定の比率以下の範囲に含まれるように、拡大または縮小を行う。また、画像補正部13は、例えば、拡大後の身分証領域902の中心位置を、所定欄302の中心位置に合わせるように、位置合わせとして身分証領域902の移動を行う。
図20は、拡大及び位置合わせの例を示す。図20の上側は、所定欄302に対応する領域2000に、射影変換後の身分証画像の領域900をそのまま配置した例を示す。身分証領域902のX方向及びY方向のサイズは、領域2000のX方向及びY方向のサイズに比べて小さい。身分証領域902の中心点2001は、領域2000の中心点2002からズレがある。
図20の下側は、身分証領域902を、X方向及びY方向のサイズ比を保ちながら拡大し、また、拡大後の身分証領域902の中心点2001を、領域2000の中心点2002に合わせるように平行移動した場合を示す。
身分証画像は、コピー機等を用いて拡大縮小等されている場合がある。所定欄302の大きさに比べて身分証画像の大きさが適切ではない場合、OCR処理等に適していない場合がある。そのため、S111では、身分証画像の拡大縮小や位置合わせにより、よりOCR処理等に適したサイズになるようにしている。
[効果等]
上述したように、実施の形態の画像処理装置によれば、OCR等のために画像を補正する画像処理に関して、身分証等の画像に歪みがある場合でも、その歪みを修正して、文字認識や視認に適した画像が得られ、文字認識の精度や作業効率を高めることができる。受付者は、申込書から画像データまたは文字データを取得する作業の際に、修正等の手間が削減される。
従来技術は、特許文献1の例のように、身分証画像から文字を検出して画像補正を行うが、それに比べ、実施の形態の画像処理装置では、身分証画像内にある比較的サイズが大きい罫線及び交点を検出して画像補正を行う。カメラで撮影した俯瞰画像等の歪みがある画像の場合においても、文字よりも罫線及び交点の方が、検出が容易であるため、身分証画像から身分証領域位置等を検出しやすい。そして、身分証領域位置等に基づいて、射影変換を含む変換により、好適な画像補正が可能である。
前述のように、実施の形態の画像処理装置は、身分証領域のうち、外形のふちの線を基本的に用いずに、ふちよりも内側にある罫線を用いて、身分証領域位置を表す四点を検出し、画像補正を行っている。ふちではなく罫線を用いる理由は以下である。身分証等の物には厚みがある。スキャナやカメラ等によって身分証の画像読み取りを行った場合に、ふちの線は明確に出る場合と出ない場合とがあり、安定していない。例えば、照明状態に応じて、厚さが影となる場合には、ふちの線が出る。ふちの線に比べて、面内にある罫線は、比較的安定して出る。
実施の形態の画像処理装置は、安定して出る罫線を用いて、画像補正を行う。実施の形態の画像処理装置は、ふちと罫線とを区別して両者を混同しないように、基本レイアウトに基づいて罫線を判定して検出する。実施の形態の画像処理装置は、横罫線、縦罫線、及び格子点の関係、特徴に基づいて、正しい外枠罫線を検出する。実施の形態の画像処理装置は、例えば、運転免許証における目立つ特徴である上部5本の横罫線等を利用して、外枠罫線を検出する。これにより、実施の形態の画像処理装置は、OCR処理等に適した身分証画像を得ることができる。
実施の形態では、処理対象の身分証2として運転免許証を用いる場合で説明した。処理対象としては、身分証2に限らず、罫線を含むカードや帳票等の物であれば、適用可能である。処理対象の身分証の基本レイアウトに応じて、罫線等の特徴を設定情報としておき、条件等を設定しておくことにより、各種の帳票等に対応可能である。例えば、面内の下部に特徴的な罫線が存在する帳票の場合、その帳票領域内の下部の特徴的な罫線を利用する形態とすればよい。
[第1変形例]
実施の形態の画像処理装置の変形例として以下も可能である。図21は、第1変形例として、画像補正の回転処理に関する他の処理例を示す。図21は、所定欄302に対応する領域900に、身分証2が、誤った向き、例えば逆さ向きで配置されている場合の画像を示す。図21の画像では、身分証領域902の罫線は、X方向及びY方向の基準線に平行になっている。画像補正部13は、X方向及びY方向の原点1400から前述のように探索して横罫線等を検出する。図21の画像の場合、領域900の上側で、基本レイアウトにあるような上部5本の横罫線は検出できない。また、検出できた罫線は、基本レイアウトの罫線の条件を満たさない。よって、その場合、画像補正部13は、身分証2が誤った向きで配置されている可能性があると判断できる。その場合、画像補正部13は、向きを変換するための回転処理を行う。
前述の図8のステップS106の回転処理では、罫線の斜めの傾きが基準線に平行になるように回転を行った。一方、第1変形例では、画像補正部13は、例えば、ステップS108のチェック結果が正しくない場合、向きを変換するための回転処理を行う。即ち、画像補正部13は、身分証領域902を、例えば、90度や180度の単位で回転させる。そして、画像補正部13は、回転後の画像を用いて、処理をやり直す。
[第2変形例]
実施の形態の画像処理装置では、身分証領域内の4本の外枠罫線を用いて、身分証領域位置を表す四点を検出した。これに限らず、第2変形例として、身分証領域内にある所定の複数の罫線を用いて、身分証領域位置を表す四点を検出してもよい。例えば、本人写真画像領域の4本の線及び四点を用いてもよい。身分証のふちに近接した罫線が無い場合でも、そのような線及び四点を用いて射影変換が可能である。
図22は、第2変形例に関する身分証画像の例を示す。所定欄302に対応する領域900内に、所定の身分証が配置された画像を示す。身分証領域2202とそのふち2203を示す。図22では、傾きが無い状態を示し、文字は省略して示す。身分証領域2202において、基本レイアウトでは、図示するような縦横の線が存在する。例として、横罫線2204、縦罫線2205、矩形の枠線2206、枠線2207、枠線2208がある。この身分証の例では、ふち2203の付近には、目立つ罫線が無い。
横罫線2204及び縦罫線2205は、例えば、色が異なる領域の間の境界線である。画像補正部13は、明確に罫線として引かれた線を検出するだけでなく、領域の色、即ち階調値の違いに基づいて、境界線を罫線として検出してもよい。
枠線2206は、例えばICチップ等の配置領域に相当する。枠線2207は、例えば本人写真画像領域に相当する。枠線2208は、例えばコードや番号等の記載領域を囲む線に相当する。画像補正部13は、身分証領域2202内で、上記のような枠線を含む罫線を検出し、格子点も検出する。例えば、枠線2207の四辺の罫線と、その四隅の格子点(点f1〜f4とする)の位置座標等が把握される。基本レイアウトにおいて、枠線2207及び格子点の位置は、他の罫線及び格子点の位置と所定の関係を持つ。画像補正部13は、その位置関係の判断に基づいて、所定の罫線及び格子点を検出する。画像補正部13は、所定の罫線に基づいて、身分証領域位置を表す四点を選択する。画像補正部13は、例えば、枠線2207の4つの格子点(点f1〜f4)を、その四点として選択する。画像補正部13は、その四点を用いて、身分証領域2202の全体に対する射影変換を行う。
また、変形例として、身分証領域2202内の複数の枠線を、身分証領域位置を表す点として選択してもよい。例えば、枠線2207の四点と、枠線2206の四点との合計八点を、身分証領域位置を表す点として選択してもよい。
また、変形例として、身分証領域2202内の所定の罫線及び格子点に基づいて、身分証領域2202の外枠罫線に相当する四辺及びその四隅の四点を、基本レイアウトに基づいた類推により決定してもよい。例えば、上記枠線2207の4つの格子点(点f1〜f4)に基づいて、外枠罫線に相当する四辺及び四点が決定される。そして、その四点が、身分証領域2202の全体に対する射影変換に用いられる。
以上、本発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されず、その要旨を逸脱しない範囲で種々変更可能である。
1…文字認識装置、2…身分証、3…申込書、11…画像読み取り部、12…画像データ入力部、13…画像補正部、14…文字認識部、15…文字データ出力部、16…画像データ出力部、17…設定部、107…スキャナ装置、121…画像処理プログラム、122…画像データ、123…文字データ、124…設定情報、601…読み取り画像データ、602…画像データ、603…補正後画像データ、604…文字データ。

Claims (10)

  1. 画像処理装置であって、
    身分証または帳票の画像データを入力して、前記画像データに画像補正処理を行って、文字認識または視認に適した補正後画像データを出力する画像補正部を備え、
    前記画像補正部は、
    前記画像データの領域である第1領域から、前記身分証または前記帳票の領域である第2領域内にある罫線を検出し、
    前記第2領域内にある前記罫線から、前記身分証または前記帳票の基本レイアウトの罫線の情報との比較に基づいて、特定の罫線を含む第1罫線部を選択し、
    前記第1罫線部に基づいて、前記第2領域の位置を表す四点を決定し、
    前記四点を用いて、前記画像データに射影変換を行って、前記補正後画像データを得る、
    画像処理装置。
  2. 請求項1記載の画像処理装置において、
    前記画像補正部は、前記第1領域から、前記第2領域内にある前記罫線同士が交わる点である格子点を検出し、前記検出した前記格子点を用いて、前記基本レイアウトの格子点の情報との比較に基づいて、特定の格子点に関係する前記特定の罫線を含む前記第1罫線部を選択する、
    画像処理装置。
  3. 請求項2記載の画像処理装置において、
    前記画像補正部は、前記第2領域から、前記罫線として、第1方向に延在する横罫線と、前記第1方向に交差する第2方向に延在する縦罫線とを検出し、前記第2領域から、前記横罫線と前記縦罫線とが交わる点である前記格子点を検出し、前記検出した前記格子点の交わり方のタイプを、前記基本レイアウトの前記格子点の交わり方のタイプを含む情報との比較に基づいて確認して、前記第1罫線部を選択する、
    画像処理装置。
  4. 請求項1記載の画像処理装置において、
    前記画像補正部は、前記第1罫線部として、前記第2領域内にある前記罫線のうち、前記身分証または前記帳票の外形を示すふちよりも内側にあり、前記ふちに最も近い位置にある外枠罫線を選択し、前記外枠罫線に基づいて、前記四点として、前記第2領域の四隅にある四点を決定する、
    画像処理装置。
  5. 請求項1記載の画像処理装置において、
    前記画像補正部は、前記第1領域の矩形の形状に対して、前記第2領域の形状に傾きを含む歪みがある場合に、前記第2領域の形状が矩形になるように、前記射影変換を行う、
    画像処理装置。
  6. 請求項1記載の画像処理装置において、
    前記画像補正部は、前記第1罫線部が選択できない場合、前記第2領域の画像を面内で回転させて、処理をやり直す、
    画像処理装置。
  7. 請求項1記載の画像処理装置において、
    前記画像補正部は、前記第2領域のサイズが所定のサイズ範囲内になるように前記第2領域の画像を拡大または縮小し、前記第1領域内での前記第2領域の位置を移動する、
    画像処理装置。
  8. 請求項1記載の画像処理装置において、
    前記画像補正部は、前記第1罫線部として、前記第2領域内にある前記罫線のうち、前記身分証または前記帳票の外形を示すふちよりも内側にあり、枠を構成する4本の罫線を選択し、前記4本の罫線に基づいて、前記四点として、前記枠の四隅にある四点を決定する、
    画像処理装置。
  9. 請求項1記載の画像処理装置において、
    文字変換部を備え、
    前記文字変換部は、前記補正後画像データを入力して、前記補正後画像データの領域内の画像から変換により文字を認識し、認識結果の文字データを出力する、
    画像処理装置。
  10. 画像処理装置に画像処理を実行させる画像処理プログラムであって、
    身分証または帳票の画像データを入力して、前記画像データに画像補正処理を行って、文字認識または視認に適した補正後画像データを出力する画像補正部を実現するプログラムを備え、
    前記画像補正部は、
    前記画像データの領域である第1領域から、前記身分証または前記帳票の領域である第2領域内にある罫線を検出し、
    前記第2領域内にある前記罫線から、前記身分証または前記帳票の基本レイアウトの罫線の情報との比較に基づいて、特定の罫線を含む第1罫線部を選択し、
    前記第1罫線部に基づいて、前記第2領域の位置を表す四点を決定し、
    前記四点を用いて、前記画像データに射影変換を行って、前記補正後画像データを得る、
    画像処理プログラム。
JP2016038711A 2016-03-01 2016-03-01 画像処理装置及び画像処理プログラム Active JP6620038B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016038711A JP6620038B2 (ja) 2016-03-01 2016-03-01 画像処理装置及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016038711A JP6620038B2 (ja) 2016-03-01 2016-03-01 画像処理装置及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2017156920A JP2017156920A (ja) 2017-09-07
JP6620038B2 true JP6620038B2 (ja) 2019-12-11

Family

ID=59809836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016038711A Active JP6620038B2 (ja) 2016-03-01 2016-03-01 画像処理装置及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP6620038B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7018372B2 (ja) * 2018-08-30 2022-02-10 株式会社Pfu 画像処理装置及び画像処理方法
JP2020053931A (ja) * 2018-09-28 2020-04-02 日本電産サンキョー株式会社 画像処理装置、イメージスキャナ、及び画像処理方法
CN112560586B (zh) * 2020-11-27 2024-05-10 国家电网有限公司大数据中心 一种杆塔标识牌结构化数据获得方法、装置及电子设备
JP7212207B1 (ja) * 2021-07-28 2023-01-24 楽天グループ株式会社 画像処理システム、画像処理方法、及びプログラム
WO2023007632A1 (ja) * 2021-07-28 2023-02-02 楽天グループ株式会社 画像処理システム、画像処理方法、及びプログラム
CN113657384B (zh) * 2021-09-02 2024-04-05 京东科技控股股份有限公司 证件图像的矫正方法及装置、存储介质及电子设备
CN115063913B (zh) * 2022-05-27 2023-05-30 平安银行股份有限公司 基于光学字符识别的身份信息录入方法、装置及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4752694B2 (ja) * 2006-09-13 2011-08-17 沖電気工業株式会社 画像抽出装置

Also Published As

Publication number Publication date
JP2017156920A (ja) 2017-09-07

Similar Documents

Publication Publication Date Title
JP6620038B2 (ja) 画像処理装置及び画像処理プログラム
US11087407B2 (en) Systems and methods for mobile image capture and processing
KR101292925B1 (ko) 촬상 대상물, 화상 처리 프로그램을 저장한 컴퓨터로 읽을 수 있는 기록 매체 및 화상 처리 방법
US8587818B2 (en) Captured image processing system and recording medium
US8532434B2 (en) Image processing method and apparatus for determining orientations based on reliabilities of a plurality of portions into which image has been divided or for determining orientations of portions of image divided by user's input so as to recognize characters for each divided portion of image, image forming apparatus, and storage medium
US9497355B2 (en) Image processing apparatus and recording medium for correcting a captured image
US8554012B2 (en) Image processing apparatus and image processing method for correcting distortion in photographed image
JP5387193B2 (ja) 画像処理システム、画像処理装置およびプログラム
CN110012185B (zh) 图像处理装置和图像处理装置的图像处理方法
JP4752694B2 (ja) 画像抽出装置
JP2022066321A (ja) 情報処理装置及びプログラム
JP2017212575A (ja) 画像読込み装置及びプログラム
CN113485618A (zh) 自定义识别模板的生成方法、证件的识别方法以及装置
US20210072930A1 (en) Printer and non-transitory computer readable storage medium therefore
US10298806B2 (en) Image processing apparatus and processing method for combining multiple images with accuracy verification thereof
JP2003058877A (ja) 歪み補正方法、歪み補正装置および歪み補正プログラム
JP2021034772A (ja) 画像処理装置、画像処理方法、画像処理装置用プログラム、および、書類管理システム
JP2000187705A (ja) 文書読取装置および方法および記憶媒体
JPH10339941A (ja) 原稿修正装置
JPH0973516A (ja) 帳票種類識別方法
JPH11109601A (ja) 原稿修正装置及び原稿修正を行うコンピュータ読み取り可能なプログラムを記録した記録媒体
JP2016178377A (ja) 画像処理装置、画像形成装置およびプログラム
JP2000228719A (ja) 画像処理装置及び画像処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191118

R150 Certificate of patent or registration of utility model

Ref document number: 6620038

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250