JP2016170677A - 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置 - Google Patents

文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置 Download PDF

Info

Publication number
JP2016170677A
JP2016170677A JP2015050696A JP2015050696A JP2016170677A JP 2016170677 A JP2016170677 A JP 2016170677A JP 2015050696 A JP2015050696 A JP 2015050696A JP 2015050696 A JP2015050696 A JP 2015050696A JP 2016170677 A JP2016170677 A JP 2016170677A
Authority
JP
Japan
Prior art keywords
character string
image
character
character strings
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015050696A
Other languages
English (en)
Other versions
JP6435934B2 (ja
Inventor
信吾 林
Shingo Hayashi
信吾 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2015050696A priority Critical patent/JP6435934B2/ja
Publication of JP2016170677A publication Critical patent/JP2016170677A/ja
Application granted granted Critical
Publication of JP6435934B2 publication Critical patent/JP6435934B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】認識対象の文書シートを整列させて撮像する必要をなくす。【解決手段】複数の文字列が記された複数の文書(例えば名刺)を一括で撮像した画像を処理して、各文書に記された文字列を認識するアプリケーションに処理対象の画像が入力されると、文字成分抽出部11および文字列抽出部12により、入力画像に含まれる文字列がその向きを表すデータと共に一列ずつ抽出される。文字列分類処理部13は、抽出された文字列を、あらかじめ定めた位置関係をもって分布しかつ互いの向きを表すデータの差が特定の値に近似する関係にある文字列群毎に分類する。名刺画像切り出し部14は、文字列分類処理部13により分類された文字列群毎に、その文字列群の文字列が分布する範囲に対応する画像を入力画像から切り出す。【選択図】図1

Description

本発明は、文字列が記された文書シートの画像(以下、「文書画像」という。)を処理する技術に関する。特に本発明は、それぞれ複数の文字列が記された文書シートを一括で撮像することにより生成された画像を処理対象として、この処理対象画像から各文書シートに対応する範囲の画像を個別に切り出すための技術、およびこの技術を用いた文字認識処理に関する。
光学文字認識処理(OCR)が導入された名刺管理用のアプリケーションとして、複数枚の名刺をスキャナ等により一回にまとめて撮像した後に、この撮像により生成された画像を個々の名刺毎に切り分けて名前や住所などの情報を読み取ることができるものがある(たとえば特許文献1を参照。)。
文書画像から認識対象の文字列を抽出するための技術も進歩し、大きさや方向が異なる複数の文字列が含まれる画像から個々の文字列の方向や高さなどを精度良く検出することが可能になっている(たとえば特許文献2を参照。)。
特開2012−49906号公報 特開2005−309771号公報
特許文献1に記載の発明は、名刺の大きさがほぼ同一であることを利用して、画像を均等に分割する方法で画像を切り分けるものである(特許文献1の段落0031〜0033,図3等を参照。)。このため、ユーザは、読み取り対象の名刺を整列させた状態で配置しなければならず、作業の負担が大きくなる。また、スキャナのカバーを閉じた際などに名刺の整列状態が崩れると、画像を正しく切り分けられず、認識精度が低下するという問題もある。
また、特許文献1に記載の発明では、名刺のように大きさが揃った文書シートでなければ、複数枚を一括撮像して得られた画像から自動的に文書シート毎の画像を切り分けることは不可能である。
本発明は上記の問題に着目し、撮像時に認識対象の文書シートを整列させなくとも、これらの文書シートを一括で撮像した画像から各文書シートの画像を個別に切り出せるようにすることを第1の課題とする。また本発明は、認識対象の文書シートの大きさが揃っていない場合でも、これらの文書シートを一括で撮像した画像から各文書シートの画像を個別に切り出せるようにすることを第2の課題とする。
本発明が適用されるプログラムは、それぞれ複数の文字列が記された複数の文書シートを一括で撮像することにより生成された画像が入力されるコンピュータに、当該入力画像から各文書シートの画像を個別に切り出す処理を実行させるためのもので、以下に示す文字列抽出手段、文字列分類手段、切り出し処理手段としてコンピュータを動作させる。
文字列抽出手段は、入力画像に含まれる文字列をその向きを表すデータと共に一列ずつ抽出する。文字列分類手段は、各文字列の間の前記向きを表すデータの差があらかじめ定めた特定の値に近似しかつ互いの文字列があらかじめ定めた位置関係をもって分布していることを条件として、文字列抽出手段により抽出された文字列を前記条件を満たす文字列群毎に分類する。切り出し処理手段は、文字列分類手段により分類された文字列群毎に、その文字列群の文字列が分布する範囲に対応する画像を入力画像から切り出す。
文書シートに複数の文字列が記される場合の通常の事例としては、各文字列が横書きに統一されている場合(ケース1)、各文字列が縦書きに統一されている場合(ケース2)、縦書き文字列と横書き文字列とが混在している場合(ケース3)の3通りが考えられる。ケース1やケース2では文字列の向きが統一されており、ケース3では横書き文字列の向きと縦書き文字列の向きとの間に約90度の差が生じるが、画像中の文書シートが傾いた場合でも、文字列間の向きの関係が変動することはない。
本発明は上記の点をふまえた条件に基づき画像中の文字列を文書シート毎に分類し、その分類結果に基づき、個々の文書シートに対応する画像を文書シート毎に精度良く切り出すものである。
本発明の一実施形態では、文字列分類手段は、互いの間の向きの差が0度に近似する関係にある複数の文字列が一定の距離範囲内に分布していることを前記条件として、文字列抽出手段により抽出された全ての文字列の中から当該条件を満たす関係にある文字列の組み合わせを抽出する。この実施形態は、大きさが均一でそれぞれにおける文字列の向きが一方向に揃っている複数の文書シートを認識対象とする場合(文書シート間における文字列の向きは異なってもよい。)に適用することができる。
本発明の第2の実施形態では、文字列分類手段は、互いの間の向きの差が0度または90度に近似する関係にある複数の文字列が一定の大きさの領域内に分布していることを前記条件として、文字列抽出手段により抽出された全ての文字列の中から当該条件を満たす関係にある文字列の組み合わせを抽出する。この実施形態は、形状や大きさが均一であるが、横書き文字列と縦書き文字列とが混在して記される可能性がある複数の文書シート(名刺など)を認識対象とする場合に適用することができる。
本発明による第3の実施形態では、文字列分類手段は、文字列抽出手段により抽出された各文字列をそれぞれの長さの降順に従って1つずつ処理対象として、処理対象の文字列に対して前記条件を満たす関係にある他の文字列を検索する。文字列が長いほど向きを表すデータを精度良く求めることができるので、その精度の高いデータを基準として、その基準データを有する文字列と同じ文書シートに含まれる文字列を精度良く抽出することができる。
本発明はさらに、上記の文字列抽出手段、文字列分類手段、および切り出し処理手段の各手段と共に、これらの手段の処理対象となる画像を入力する画像入力手段と、切り出し処理手段により切り出された各画像を出力する出力手段とを具備する画像処理装置を提供する。この画像処理装置によれば、複数の文書シートを一括して撮像することにより生成された画像から文書シート毎に画像を切り出し、これらの画像を既存の文字認識処理装置に提供して処理をさせることができる。
上記の文字認識装置が画像処理装置とは別の機械に組み込まれている場合や、出力された画像による画像データベースが構築される場合には、切り出し処理手段により切り出された各画像が出力手段により出力される前に、それぞれの画像に対応する文字列群の文字列の向きに基づき各画像の傾きを補正するのが望ましい。
さらに本発明は、上記の画像入力手段、文字列抽出手段、文字列分類手段、切り出し処理手段、および上記の傾き補正を行う補正手段と、補正後の画像毎に、その画像に含まれる文字列内の各文字を認識してその認識結果に基づき各文字列に対応するテキストデータを作成する文字認識手段とを具備する文字認識装置を提供する。この文字認識装置によれば、複数の文書シートを一括で撮像することにより生成された画像を入力することによって、文書シート毎に、画像の切り出し、傾きの補正、文字列の認識処理を自動的に進行させることができる。
本発明によれば、複数の文書シートを整列させることなく、適当に配置して一括で撮像するだけで、その一括撮像による画像から個々の文書シート毎の画像を切り出すことができるので、ユーザの作業負担を大幅に軽減することができる。また、文字列群を識別するための一つの条件である文字列間の位置関係について何らかの条件を設定することができれば、各文書シートの大きさが揃っていなくとも、文書シート毎に画像を切り出すことができ、利便性が大幅に高められる。
本発明が適用された名刺管理用のアプリケーションの構成を示す機能ブロック図である。 複数の名刺を一括して撮像して得られた画像の例を示す説明図である。 図2の画像を対象に文字列領域を抽出して、抽出された文字列領域を名刺毎に分類した結果を示す説明図である。 図3の結果に基づいて切り出され、回転補正が施された名刺画像を示す説明図である。 文字列分類処理の手順を示すフローチャートである。 文字列分類処理で実行されるサブルーチン(グループ内文字列検索)の手順を示すフローチャートである。 名刺画像切り出し処理の手順を示すフローチャートである。
図1は、本発明が適用されたプログラムによる名刺管理用のアプリケーションの構成例を示すものである。この実施例のアプリケーションは、多機能周辺装置(以下、略語の「MFP」を使用する。)との通信が可能なパーソナルコンピュータに組み込まれるもので、画像入力部2,前処理部1,文字認識部3,名刺情報認識部4,認識結果出力部5,認識用辞書6,解析用辞書7,名刺管理用データベース8などが含まれる。
画像入力部2は、MFPにより生成された名刺の画像(図2を参照。)を、MFPから図示しない入力インタフェースやオペレーションシステムを介して入力する。
図2に示す画像は、MFPの読み取り面に5枚の名刺を適当に配置した状態でスキャン(撮像)を実施することにより生成されたもので、画像中の名刺や文字列は様々な方向に傾いている。この画像が前処理部1により処理されることによって、撮像された名刺毎に、図4に示すような傾きが補正された全体画像(以下「名刺画像」という。)g1〜g5を得ることができる。
文字認識部3は、上記の名刺画像g1〜g5を1つずつ順に処理対象として、処理対象の画像に含まれる文字列に含まれる個々の文字画像を認識用辞書6と照合することにより、各文字画像に対応する文字を個別に認識する。さらに、個々の文字に対する認識結果に基づいて、各文字列を表すテキストデータを作成する。
名刺情報認識部4は、名刺画像毎に文字認識部3により作成されたテキストデータを受け付けて解析用辞書7を用いて解析し、各テキストデータをその情報種別(氏名、会社名、住所など)と共に認識する。認識されたテキストデータと情報種別との組み合わせは名刺毎にまとめられ、認識結果出力部5によって対応する名刺画像と共に名刺管理用データベース8に保存される。
なお、名刺管理用データベース8は、図1のアプリケーションが組み込まれたパーソナルコンピュータに限らず、外部のサーバ装置などに設けることもできる。また認識対象の画像を生成する機器はMFPに限らず、スキャナ装置やデジタルカメラなどでもよい。
前処理部1には、文字成分抽出部11,文字列抽出部12,文字列分類処理部13,名刺画像切り出し部14などが含まれる。文字成分抽出部11は、図2に示すような入力画像に対して、エッジ抽出処理や輪郭線追跡処理などを実行することによって文字成分の候補を抽出する。さらに、各候補の大きさや元の濃淡画像における背景画像との濃度差や輪郭部分の濃度勾配の強度などの要素をあらかじめ定めた条件と比較して、各条件を満たす候補のみに絞り込む。ここで絞り込まれた候補が文字成分として判別され、文字列抽出部12の処理に用いられる。
文字列抽出部12は、各文字成分の外接矩形の大きさ、輪郭線の幅、文字成分間の距離などの要素をそれぞれあらかじめ定めた条件と照合することによって、同一の文字列を構成する可能性が高い文字成分の組み合わせを抽出する。そして、抽出された組み合わせ毎にハフ変換を実施することにより個々の文字列の方向を特定し、特定された結果に基づき個々の文字列を抽出し、その抽出結果を示す文字列領域を設定する。
図3は、図2に示した入力画像に対する文字列領域の設定結果を、文字列を破線枠で囲むことによって模式的に示したものである。この実施例の文字列領域は、抽出された文字列に外接する矩形を若干拡大したものに相当する。各文字列領域の実際の設定結果は、それぞれの位置および大きさを表すデータ(たとえば左上頂点の座標とこの頂点を挟む2辺の長さ)や、文字列領域の向きを表すデータ(たとえば画像の左から右に向かう方向と文字列領域の長辺(文字の並び方向に対応))により表される。これらのデータは、各文字列領域に割り振られた固有の番号(以下「領域番号」という。)に紐付けられてメモリの作業領域に保存され、以下の文字列分類処理部13や名刺画像切り出し部14の処理に用いられる。
名刺に記される主要な文字情報は横書き文字列または縦書き文字列により表される。したがって、同じ名刺に記されている文字列であれば、名刺がどのように傾いても、平行な関係にある文字列は平行である。また、縦書き文字列と横書き文字列とが混在する名刺においても、それらの文字列がなす角度は常に約90度となる。これらの点に着目して、文字列分類処理部13は、文字列抽出部12により設定された文字列領域を、互いの間の向きの差が0度または90度に近似し、かつ名刺に相当する距離の範囲内に分布する文字列領域群ごとに分類する。分類された文字列領域群(以下「グループ」という。)にはそれぞれ固有の番号が割り振られる。以下、この番号を「グループ番号」という。文字列分類処理部13の処理によれば、名刺毎に1つずつ文字列領域のグループが形成されることになる。
名刺画像切り出し部14は、上記の処理により設定されたグループ毎に、そのグループの文字列領域が分布する範囲に合わせて名刺に相当する大きさの矩形領域(以下「名刺領域」という。)を設定する。図3では、図2に示した入力画像で設定された名刺領域を一点鎖線の矩形枠r1〜r5により表している。いずれの名刺領域r1〜r5も、対応するグループの文字列領域を全て含み、かつ文字列領域の向きに合わせて傾いた状態に設定されている。
名刺画像切り出し部14は、入力画像から各名刺領域r1〜r5の画像を個別に切り出し、さらに、これらの画像の傾きを補正することにより、図4に示すような名刺画像g1〜g5を取得する。名刺領域r1〜r5内の文字列領域も画像と共に補正される。
以下、この実施例の特徴である文字列分類処理部13および名刺画像切り出し部14の処理について、図5〜図7を参照して詳細に説明する。
図5は、文字列分類処理部13による一連の処理手順を示すものである。この処理は、文字列抽出部12により抽出された文字列に対応する文字列領域を分類の対象として、まず各文字列領域を長いものから順にソートして、ソート後の順序に基づき領域番号を更新する(ステップS1)。この処理により、入力画像の中で最も長い文字列領域に0番が割り当てられる。
この実施例の文字列分類処理では、各文字列領域は何度もソートされて、その都度、領域番号が変更されるが、最終的にステップS1で設定された番号に戻る仕組みになっている(その詳細は後述する。)。
各文字列領域には、領域番号のほか、所属する文字列領域のグループを表すグループ番号が割り当てられるが、文字列分類処理が開始された直後は、いずれの文字列領域にもグループ番号は設定されていない。
文字列分類処理部13は、グループ番号の設定値GNに初期値の0を設定し(ステップS2)、文字列領域を指定するためのカウンタnにも初期値の0を設定する(ステップS3)。そして、このnを領域番号とする文字列領域(n=0のときは一番長い文字列領域)を対象に、ステップS4からステップS7までの処理を実行する。
ステップS4では、n番目の文字列領域にグループ番号が設定されているかどうかをチェックする。n=0のときのステップS4は「NO」となるので、ステップS5に進み、ステップS2で設定されたGNの設定値の0がn番目の文字列領域のグループ番号に設定される。
ステップS6では、次の「グループ内文字列検索」(ステップS100)で使用される変数iにnの現在値がセットされる。ステップS100は、i番目の文字列領域と同じグループに含めるべき文字列領域を検索するためのサブルーチンである。このサブルーチンは、後の図6に示すように、条件をみたす文字列領域が見つかる都度、その見つかった文字列領域を対象に同様のサブルーチンが実施される入れ子構造になっている。
一連の「グループ内文字列検索」によって所定数の文字列領域にn番目の文字列領域と同一のグループ番号GNが割り当てられると、サブルーチンのステップS100が終了してメインルーチンに戻り、グループ番号GNが現在値に1を加算した値に更新される(ステップS7)。以下、nが最終の値Nに達するまでnの値が1ずつ更新され(ステップS8,S9)、更新後のnにより特定される文字列領域に対するステップS4〜S7を実行する手順が繰り返される。ただし、処理が進むにつれて、先に処理された文字列領域におけるグループ内文字列検索でグループ番号が設定された文字列領域が増える。その場合にはステップS4が「YES」となって、ステップS5〜S7はスキップされる。
ここで図6を参照して、図5に示すメインルーチンのステップS6からサブルーチンであるステップS100の「グループ内文字列検索」に移行した場合の処理の手順を説明する。
まず、最初のステップS101では、ステップS6で設定されたiの値により特定される文字列領域(n番目の文字列領域)を、以後の検索のための基準領域に設定する。つぎのステップS102で、この基準領域を含む全ての文字列領域の領域番号の現在値を保存した後に、これらの文字列領域を基準領域に対する距離の短い順にソートし、その結果に基づき各文字列領域の領域番号を更新する(ステップS103)。この領域番号の付け替えにより、基準領域の領域番号が0番となる。なお、ステップS103では、基準領域との距離として、基準領域の中点と他の文字列領域の中点との間の距離を算出する。算出された距離は、ソート終了後も領域番号に紐付けられて保存されて後のステップ106での判定に使用される。
この後は、基準領域と照合する対象の文字列領域を特定するための変数jに初期値の1を設定し(ステップS104)、このjが最大値Nに達するまでjの値を1ずつ更新しながら(ステップS113,S114)、毎時のjに対して以下の手順を実施する。
まず、ステップS105で、j番目の文字列領域のグループ番号が設定済みであるか否かがチェックされる。グループ番号が設定されていない場合には、ステップS105が「NO」となってステップS106に進み、基準領域との距離が所定のしきい値D0と比較される。なお、D0は、あらかじめモデルの名刺の画像から割り出された名刺の対角線の長さ(画素数で表される。)に所定のオフセット値を加えた値に設定されるが、他のパラメータを基準にD0を設定してもよい。
上記の距離がD0以内であれば、ステップS106が「YES」となってステップS107に進み、メモリから基準領域およびj番目の文字列領域の向きを表す角度が読み出され、これらの角度の差φが算出される。そして、つぎのステップS108において、φおよび(90−φ)の絶対値がしきい値φ0と比較される(ステップS108)。このしきい値φ0は、0に近似する値に設定される。φまたは(90−φ)の絶対値がφ以下であれば、ステップS108が「YES」となってステップS109に進み、メインルーチンで設定されたのと同じGNの値が着目中のj番目の文字列領域のグループ番号として設定される。
φおよび(90−φ)の絶対値がいずれもφ0より大きい場合には、ステップS108が「NO」となり、ステップS109および以下のステップS110〜S112はスキップされ、次の文字列領域との比較処理に進む。またj番目の文字列領域と基準領域との距離がしきい値D0を上回る場合(ステップS106が「NO」)や、j番目の文字列領域に既にグループ番号が設定されていた場合(ステップS105が「YES」)にも、ステップS109〜S112はスキップされる。
ステップS109が実行された場合には、その対象となった文字列領域の領域番号jが保存され(ステップS110)、さらにこのjの値がiにセットされ(ステップS111)、実行中のサブルーチンと同じプログラムによる「グループ内文字列検索処理」が開始される(ステップS100´)。この2番目の「グループ内文字列検索処理」では、直前に設定されたiにより特定される文字列領域(j番目の文字列領域)が基準領域に設定され(ステップS101)、一段階前のサブルーチンで設定された各文字列領域の領域番号が保存され(ステップS102)た後に、基準領域に対する距離に基づき各文字列領域の領域番号が更新される(ステップS103)。以下、一段階前のサブルーチンと同様の順序で検索処理が行われ、ステップS106およびS108の判定が共に「YES」となる文字列領域が見つかった場合には、この文字列領域にも、メインルーチンで設定されたグループ番号GNが設定される。そして、このグループ番号GNが設定された文字列領域を基準領域とする3番目の「グループ内文字列検索」が開始される。
このように、メインルーチンのステップS5で最初にグループ番号GNが設定された文字列領域を起点として、基準領域との距離がD0以内であるという第1条件(ステップS106)と基準領域との間の向きの差φが0°または90°に近似するという第2条件(ステップS108)とを満たす文字列領域を探す検索が実行される。そして第1条件および第2条件を共にみたす文字列領域が見つかると、その文字列領域に起点の文字領域と同じグループ番号GNが付与され、さらにこの新たに見つけた文字列領域に検索の基準を移動させて同様の検索が実行される。このように基準領域を変更しながら検索を続けることにより、同じ名刺に対応する文字列領域を精度良く抽出することができる。
ある時点で2つの条件を満たす文字列領域が見つからない状態になると、ステップS113が「NO」となって実行中の「グループ内文字列検索」のルーチンが終了し、一段階前の「グループ内文字列検索」のルーチンに戻って、そのルーチン内のステップS112に進む。ステップS112では、現ルーチンのステップS102やステップS110で保存された情報に基づき、一段階前のサブルーチンに移行したことにより書き換えられた各文字列領域の領域番号やjの値を、現在のルーチンで設定された値に復帰させる。その後は、復帰したjの値に1を加算して(ステップS114)、ステップS105に戻ることより、第1条件および第2条件を満たす文字列領域を検索する処理が再開される。
第1条件および第2条件を満たす文字列領域が全て抽出され、これらにメインルーチンで設定されたGNと同じ値がグループ番号として設定されると、各段階の「グループ内文字列検索」は開始されたのとは逆の順序で終了し、最終的にメインルーチンに復帰する。メインルーチンが終了したとき、各文字列領域は、開始時のステップS1で設定された領域番号と、一連の処理で設定されたグループ番号とが設定された状態になる。
上記の説明のとおり、この実施例の文字列分類処理では、入力画像に対して設定された複数の文字列領域に長いものから順に着目し、着目した文字列領域を起点として第1条件および第2条件を満たす文字列領域を抽出する。このように他の文字列領域より長い文字列領域を検索の起点とすることによって、分類処理のかなめの要素である文字列領域の向きについて精度の良い基準値を取得することができるので、毎回の「グループ内文字列検索」のステップS108における判定精度を確保することができる。
人の手で名刺が並べられる場合、仮に各名刺を整列させて並べたとしても、それぞれの向きを完全に一致させるのは難しく、通常、1〜2度ほどのずれが生じる。したがって、第2判定で用いられるしきい値φ0を0に近似する値に設定することで、隣り合う名刺の文字列領域が1つのグループに分類されるのを防ぐことができる。また、文字列領域の間の向きの差φのほか、90度とφとの差の絶対値をφ0と比較することにより、横書き文字列と縦書き文字列とが混在するタイプの名刺についても、支障なく、1枚の名刺に対応する文字列領域を1つのグループに分類することができる。
図7は、名刺画像切り出し部14により実行される処理の手順を示す。名刺画像切り出し部14は、グループ番号を表す変数GNを初期値の0から最大値まで1つずつ変更することによって、各グループに順に着目し(ステップS11,S18,S19)、着目中のグループについて以下のステップS12〜S17を実行する。
まずステップS12では、GNの現在値をグループ番号とする文字列領域を抽出する。ステップS13では、名刺の標準サイズに基づきあらかじめ設定された矩形枠(図3に示した名刺領域r1〜r5の輪郭を表すもの)を読み出し、この矩形枠の長辺が抽出されている文字列領域の向きに沿うように、矩形枠を回転させる。
ステップS14では、回転後の矩形枠を、ステップS12で抽出された文字列領域の分布範囲に設定し、文字列領域が全て枠内に含まれるように矩形枠の位置を調整する。この調整が完了したときの矩形枠により特定される領域が名刺領域となる。このときにステップS15が「YES」となってステップS16に進み、矩形枠の内部の画像が切り出される。
最後に、ステップS17では、切り出された画像と画像内の文字列領域との回転補正が行われる。ステップS17では、グループ内の文字列領域の長さ方向が水平方向に沿うように補正される。また、グループ内に直交する関係にある文字列領域が含まれる場合には、図4の画像g5の例に示すように、個数が多い方の文字列領域の長さ方向が水平方向に沿うように補正される。
何らかの誤判別が生じて処理対象のグループの文字列領域が矩形枠の内部に収まらなかった場合には、ステップS15が「NO」となり、図示しないエラー処理に進む。
以上、パーソナルコンピュータにおける名刺管理用アプリケーションに本発明を適用した例を説明したが、本発明は、このような実施形態に限定されるものではない。たとえば、図1の前処理部1に関する各機能を備える画像処理用のアプリケーションとして、複数枚の名刺の一括撮像により生成された画像から個々の名刺画像を切り出し、これらの名刺画像を既存の名刺管理用のアプリケーションに出力するように構成してもよい。その場合には、名刺画像や文字列領域の回転を補正する処理(図7のステップS17)は必ずしも必要ではなく、回転したままの名刺画像を出力し、外部のアプリケーションで補正処理を行うようにしてもよい。また、文字列の抽出結果である文字列領域の情報も名刺画像と共に出力するのが望ましいが、名刺画像のみを出力の対象としてもよい。
前処理部1のプログラムは、パーソナルコンピュータに限らず、名刺の撮像を行うMFPなどの機器に組み込むこともできる。または、スマートフォンやタブレット型端末装置のような撮像機能を有する携帯型情報機器にも、前処理部1のプログラムまたは図1に示したアプリケーション全体のプログラムを組み込むことができる。各種端末装置から画像の配信を受けるインターネットサーバにも、前処理部1のプログラムやそれを含む認識処理用のプログラムを組み込むことができる。
名刺以外のシート(たとえばチラシなど)に印刷された文字列についても、複数のシートを一括で撮像し、生成された画像に上記実施例と同様の処理を適用することにより、元の画像からシート毎の画像を切り出して、文字認識処理を実施することができる。1つのシート内の文字列が横書きまたは縦書きのいずれかに統一される場合には、グループ内文字列検索のステップS108では、文字列領域間の向きの差φのみを0度に近似するしきい値φ0と比較すればよい。
また、処理対象のシートの大きさが異なる場合であっても、それぞれのシートにおける文字列の間の距離やシートの最大面積など、文字列間の位置関係を何らかのデータにより定義できる場合には、そのデータが示す位置関係を持ち、かつ互いの向きを表す角度の差が0度または90度に近似する関係を持つことを分類の条件として、シート毎に文字列領域を分類し、その分類結果に基づき各シートの画像を個別に切り出すことができる。
1 前処理部
2 画像入力部
3 文字認識部
4 名刺情報認識部
5 認識結果出力部
11 文字成分抽出部
12 文字列抽出部
13 文字列分類処理部
14 名刺画像切り出し部
r1〜r5 名刺領域
g1〜g5 名刺画像

Claims (7)

  1. それぞれ複数の文字列が記された複数の文書シートを一括で撮像することにより生成された画像が入力されるコンピュータに、当該入力画像から各文書シートの画像を個別に切り出す処理を実行させるためのプログラムであって、
    前記入力画像に含まれる文字列をその向きを表すデータと共に一列ずつ抽出する文字列抽出手段、
    各文字列の間の前記向きを表すデータの差があらかじめ定めた特定の値に近似しかつ互いの文字列があらかじめ定めた位置関係をもって分布していることを条件として、前記文字列抽出手段により抽出された文字列を前記条件を満たす文字列群毎に分類する文字列分類手段、
    前記文字列分類手段により分類された文字列群毎に、その文字列群の文字列が分布する範囲に対応する画像を前記入力画像から切り出す切り出し処理手段、
    の各手段として、前記コンピュータを動作させる文書画像処理用のプログラム。
  2. 前記文字列分類手段は、互いの間の向きの差が0度に近似する関係にある複数の文字列が一定の距離範囲内に分布していることを前記条件として、前記文字列抽出手段により抽出された全ての文字列の中から当該条件を満たす関係にある文字列の組み合わせを抽出する、請求項1に記載された文書画像処理用のプログラム。
  3. 前記文字列分類手段は、互いの間の向きの差が0度または90度に近似する関係にある複数の文字列が一定の大きさの領域内に分布していることを前記条件として、前記文字列抽出手段により抽出された全ての文字列の中から当該条件を満たす関係にある文字列の組み合わせを抽出する、請求項1に記載された文書画像処理用のプログラム。
  4. 前記文字列分類手段は、前記文字列抽出手段により抽出された各文字列をそれぞれの長さの降順に従って1つずつ処理対象として、処理対象の文字列に対して前記条件を満たす関係にある他の文字列を検索する、請求項1〜3のいずれかに記載された文書画像処理用のプログラム。
  5. それぞれ複数の文字列が記された複数の文書シートを一括で撮像することにより生成された画像を入力する画像入力手段と、
    前記画像入力手段により入力された画像に含まれる文字列をその向きを表すデータと共に一列ずつ抽出する文字列抽出手段と、
    各文字列の間の前記向きを表すデータの差があらかじめ定めた特定の値に近似しかつ互いの文字列があらかじめ定めた位置関係をもって分布していることを条件として、前記文字列抽出手段により抽出された文字列を前記条件を満たす文字列群毎に分類する文字列分類手段と、
    前記文字列分類手段により分類された文字列群毎に、その文字列群の文字列が分布する範囲に対応する画像を前記入力画像から切り出す切り出し処理手段と、
    前記切り出し処理手段により切り出された各画像を出力する出力手段とを、具備する画像処理装置。
  6. 請求項5に記載された画像処理装置であって、
    前記切り出し処理手段により切り出された各画像が出力手段により出力される前に、それぞれの画像に対応する文字列群の前記向きを表すデータに基づき各画像の傾きを補正する補正手段を備える画像処理装置。
  7. それぞれ複数の文字列が記された複数の文書シートを一括で撮像することにより生成された画像を入力する画像入力手段と、
    前記画像入力手段により入力された画像に含まれる文字列をその向きを表すデータと共に一列ずつ抽出する文字列抽出手段と、
    各文字列の間の前記向きを表すデータの差があらかじめ定めた特定の値に近似しかつ互いの文字列があらかじめ定めた位置関係をもって分布していることを条件として、前記文字列抽出手段により抽出された文字列を前記条件を満たす文字列群毎に分類する文字列分類手段と、
    前記文字列分類手段により分類された文字列群毎に、その文字列群の文字列が分布する範囲に対応する画像を前記入力画像から切り出す切り出し手段と、
    前記切り出し手段により切り出された各画像を、それぞれの画像に対応する文字列群の前記向きを表すデータに基づき補正する補正手段と、
    前記補正手段により補正された画像毎に、その画像に含まれる文字列内の各文字を認識してその認識結果に基づき各文字列に対応するテキストデータを作成する文字認識手段とを、具備する文字認識装置。
JP2015050696A 2015-03-13 2015-03-13 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置 Expired - Fee Related JP6435934B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015050696A JP6435934B2 (ja) 2015-03-13 2015-03-13 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015050696A JP6435934B2 (ja) 2015-03-13 2015-03-13 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置

Publications (2)

Publication Number Publication Date
JP2016170677A true JP2016170677A (ja) 2016-09-23
JP6435934B2 JP6435934B2 (ja) 2018-12-12

Family

ID=56983833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015050696A Expired - Fee Related JP6435934B2 (ja) 2015-03-13 2015-03-13 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置

Country Status (1)

Country Link
JP (1) JP6435934B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608604A (zh) * 2017-09-26 2018-01-19 维沃移动通信有限公司 一种图像显示方法及移动终端
JP2019161440A (ja) * 2018-03-13 2019-09-19 富士ゼロックス株式会社 情報処理装置及びプログラム
CN110717483A (zh) * 2019-09-19 2020-01-21 浙江善政科技有限公司 网络图像识别处理方法,计算机可读存储介质和移动终端
JP2021504781A (ja) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム
JP2021153276A (ja) * 2020-03-24 2021-09-30 京セラドキュメントソリューションズ株式会社 画像処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038605A (ja) * 2002-07-04 2004-02-05 Oki Electric Ind Co Ltd 画像処理装置及び画像処理方法並びに画像処理装置の制御用プログラム
JP2008160339A (ja) * 2006-12-22 2008-07-10 Kyocera Mita Corp 画像形成装置
JP2012103755A (ja) * 2010-11-05 2012-05-31 Ntt Docomo Inc 文字列出力装置、文字認識システム、プログラム及び文字列出力方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038605A (ja) * 2002-07-04 2004-02-05 Oki Electric Ind Co Ltd 画像処理装置及び画像処理方法並びに画像処理装置の制御用プログラム
JP2008160339A (ja) * 2006-12-22 2008-07-10 Kyocera Mita Corp 画像形成装置
JP2012103755A (ja) * 2010-11-05 2012-05-31 Ntt Docomo Inc 文字列出力装置、文字認識システム、プログラム及び文字列出力方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608604A (zh) * 2017-09-26 2018-01-19 维沃移动通信有限公司 一种图像显示方法及移动终端
JP2021504781A (ja) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム
JP7289047B2 (ja) 2017-12-01 2023-06-09 インターナショナル・ビジネス・マシーンズ・コーポレーション ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム
JP2019161440A (ja) * 2018-03-13 2019-09-19 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7031389B2 (ja) 2018-03-13 2022-03-08 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN110717483A (zh) * 2019-09-19 2020-01-21 浙江善政科技有限公司 网络图像识别处理方法,计算机可读存储介质和移动终端
CN110717483B (zh) * 2019-09-19 2023-04-18 浙江善政科技有限公司 网络图像识别处理方法,计算机可读存储介质和移动终端
JP2021153276A (ja) * 2020-03-24 2021-09-30 京セラドキュメントソリューションズ株式会社 画像処理装置
JP7457903B2 (ja) 2020-03-24 2024-03-29 京セラドキュメントソリューションズ株式会社 画像処理装置

Also Published As

Publication number Publication date
JP6435934B2 (ja) 2018-12-12

Similar Documents

Publication Publication Date Title
US12019675B2 (en) Recognizing text in image data
RU2651144C2 (ru) Ввод данных с изображений документов с фиксированной структурой
RU2668717C1 (ru) Генерация разметки изображений документов для обучающей выборки
AU2014321165B2 (en) Image searching method and apparatus
US9626555B2 (en) Content-based document image classification
US8208765B2 (en) Search and retrieval of documents indexed by optical character recognition
JP6435934B2 (ja) 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置
US20180189592A1 (en) Systems and methods for optical character recognition
US10949610B2 (en) Computing machine and template management method
WO2018233055A1 (zh) 保单信息录入的方法、装置、计算机设备及存储介质
US11323577B2 (en) Image processing device for creating an album
CN111444795A (zh) 票据数据识别方法、电子设备、存储介质及装置
US20150294187A1 (en) Image search apparatus and control method thereof
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
US11574492B2 (en) Efficient location and identification of documents in images
CN105793867A (zh) 图像搜索方法及设备
CN109388935B (zh) 单证验证方法及装置、电子设备及可读存储介质
JP5623574B2 (ja) 帳票識別装置および帳票識別方法
CN112287763A (zh) 图像处理方法、装置、设备及介质
US12046067B2 (en) Optical character recognition systems and methods for personal data extraction
JP2006330872A (ja) 指紋照合装置、方法およびプログラム
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
JP2002342343A (ja) 文書管理システム
KR102425032B1 (ko) 문서종류의 자동 분류장치 및 그 방법
JPWO2020044537A1 (ja) 画像照合装置、画像照合方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181029

R150 Certificate of patent or registration of utility model

Ref document number: 6435934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees