JP7370733B2 - 情報処理装置、制御方法、及びプログラム - Google Patents

情報処理装置、制御方法、及びプログラム Download PDF

Info

Publication number
JP7370733B2
JP7370733B2 JP2019101280A JP2019101280A JP7370733B2 JP 7370733 B2 JP7370733 B2 JP 7370733B2 JP 2019101280 A JP2019101280 A JP 2019101280A JP 2019101280 A JP2019101280 A JP 2019101280A JP 7370733 B2 JP7370733 B2 JP 7370733B2
Authority
JP
Japan
Prior art keywords
character
characters
double
recognized
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019101280A
Other languages
English (en)
Other versions
JP2020194491A (ja
Inventor
英智 相馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019101280A priority Critical patent/JP7370733B2/ja
Publication of JP2020194491A publication Critical patent/JP2020194491A/ja
Application granted granted Critical
Publication of JP7370733B2 publication Critical patent/JP7370733B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本開示は、倍角文字が含まれる文書画像をOCR処理する技術に関する。
カメラまたはスキャナにより文書を読み込むことで得られる画像データに対し文字認識処理(OCR処理)を行い、認識された文字をテキストデータとして得る方法がある。
特許文献1には、行ごとに文字の倍角らしさの度合いを示す倍角尤度を算出し、倍角尤度に基づき、行内の文字認識を行う方法が記載されている。
特開2010―39615号公報
しかしながら、倍角文字は、行の一部の文字にのみ使用されたり、文書の一部に使用されたりする場合がある。そのような文書に対して、OCR処理を行い精度よく文字認識するには、文字ごとにその文字が倍角文字であるかを判定するため処理が必要になり処理負担が増す虞がある。
本開示の情報処理装置は、処理対象の画像に対して文字認識処理する文字認識手段と、前記文字認識手段が倍角文字を複数の文字として誤認識する誤認識文字列が少なくとも保持されているデータを取得する取得手段と、前記文字認識手段が前記処理対象の画像に対して前記文字認識処理することによって得られた認識文字列の中から、倍角文字を前記文字認識処理することによって得られた倍角認識文字を、前記データに基づき選定する選定手段と、前記認識文字列に対して、前記選定された倍角認識文字を修正するための処理をする修正手段と、前記修正手段によって前記処理が為された後の前記認識文字列から、正規表現で示される文字列パタンに対応する第1の検索文字列と、所定の文字列に対応する第2の検索文字列と、を検索し、当該検索された前記第1の検索文字列と前記第2の検索文字列との相対位置が所定の条件を満たす場合、前記認識文字列に含まれる前記第1の検索文字列が示す文字列を、項目値として抽出する情報抽出手段と、を有することを特徴とする。
本開示の技術によれば、倍角文字が含まれる文書のOCR処理による処理負担を抑制することができる。
情報処理装置のハードウェア構成を示す図である。 情報処理装置の機能構成の一例を示す図である。 文書画像の例を示す図である。 文書画像に対してOCR処理をした文字認識結果の例を示す図である。 テキスト検索規則と、レイアウト検索規則との例を示す図である。 情報抽出処理が行われた結果の比較例を示す図である。 誤認識パタンと、抽出用誤認識パタンの例を示す図である。 準備の処理の内容を示すフローチャートである。 OCR処理および情報抽出処理を示すフローチャートである。 選定処理および修正処理を示すフローチャートである。 文字画像に対する処理内容の内容を説明するための図である。 修正処理が行われた後の文字認識結果の例を示す図である。 選定処理および修正処理を示すフローチャートである。 誤認識パタンの例を示す図である。
以下、実施形態について図面を用いて説明する。なお、以下の実施形態において示す構成は一例に過ぎず、図示された構成に限定されるものではない。
<第1の実施形態>
[ハードウェア構成]
図1は、本実施形態に係る情報処理装置100の内部構成のハードウェア構成を示す図である。情報処理装置100は、CPU101と、ROM102と、RAM103と、入力部104と、バス105と、外部記憶部106と、NCU107と、GPU108と、表示部109と、SCNU110と、を有する。
CPU101は、RAM103をワークメモリとして、ROM102に格納されたプログラムを実行し、情報処理装置100の各部を統括的に制御するプロセッサである。また、CPU101は、複数の計算機プログラムを並列に動作させることもできる。
ROM102は、CPU101による実行されるプログラムおよびデータを格納する。RAM103は、CPU101が処理するための制御プログラムを格納するとともに、CPU101が各種制御を実行する際の様々なデータの作業領域を提供する。
入力部104は、ユーザによる各種入力操作環境を提供する。入力部104は、例えばキーボードおよびマウスである。他にも、ユーザからの各種入力操作環境を提供するものであれば、タッチパネル、スタイラスペン等が含まれてもよい。また、音声認識やジェスチャー操作による入力を受け付ける装置が含まれていてもよい。
バス105は、情報処理装置100の各部分に接続されているアドレスバス、またはデータバス等であり、その各部分間の情報交換・通信機能を提供する。これにより、各部分が連携して動作できるようにする。
外部記憶部106は、様々なデータ等を記憶するための装置である。外部記憶部106は、ハードディスク、フロッピーディスク、光ディスク、磁気ディスク、磁気テープ、不揮発性のメモリカード等の記録媒体と、記憶媒体を駆動し情報を記録するドライブとで構成される。保管されたプログラムやデータの一部は、入力部104を介して受け付けられる指示、またはプログラムの指示により必要な時にRAM103上に呼び出される。
NCU(Network Control Unit)107は、他の情報処理装置等と通信を行うための通信部である。NCU107は、LAN等のネットワークを介して、他の情報処理装置と通信することによりプログラムおよびデータを共有することが可能になる。NCU107には、任意の通信規格のものを使用することができる。例えば、RS232C、USB、IEEE1394、P1284、SCSI、モデム、Ethernet等の有線通信、またはBluetooth(登録商標)、赤外線通信、IEEE802.11a/b/n等が利用可能である。
GPU108は、バス105を経由してCPU101等と、表示指示や計算指示に従って表示内容の画像の作成や表示位置などの計算を行い、その計算結果を表示部109に描画させる。または、バス105を経由して、計算結果をCPU101に戻すことで、CPU101と連携した計算処理を行う場合もある。
表示部109は、入力操作の状態やそれに応じた計算結果などをユーザに対して表示する装置である。表示部109は、例えば液晶ディスプレイである。
SCNU(Scanning Unit)110は原稿を読取り画像データを生成する画像読取部であり、例えば、オーバーヘッド型のスキャナである。SCNU110は情報処理装置100とは別の装置として構成されてもよい。例えばSCNUは、NCU107の通信機能を介して接続してもよいし、それ以外の独自の外部I/Fを介して接続する形態でもよい。
以上述べてきた情報処理装置100のハードウェア構成は、あくまでも、本実施形態における一例であり、これに限定されるものでない。このハードウェア構成する部分は、ハードウェアである制限はなく、仮想的にソフトウェアで作り出されたものでもよい。図1のハードウェア構成を情報処理装置単体で実現する場合だけでなく、NCU107を利用した情報交換・共有等を行い連携させることで、サーバ・クライアントシステムを構成する方法で実現してもよい。ハードウェア構成の各部が異なる場所にあって、LANやインターネットなどを介して連携動作してもよいし、仮想的にソフトウェアで作り出されたものが含まれていてもよい。さらに、複数のサーバ・PCクライアント等の各システムの全部もしくは一部が動作するために、図1のハードウェア構成を共有するような利用方法であってもよい。
[機能構成]
図2は、情報処理装置100の機能構成の一例を示す図である。情報処理装置100は、取得部201と、文字認識部202と、選定部203と、変更部204と、修正部205と、情報抽出部206と、誤認識パタン生成部207と、を有する。これらの各部の機能の説明については後述する。図2の各部の機能は、CPUがROMに記憶されているプログラムコードをRAMに展開し実行することにより実現される。または、図2の各部の一部または全部の機能をASICや電子回路等のハードウェアで実現してもよい。
[OCR処理について]
図3は、文字認識処理(OCR処理)の対象となる文書の一例であるレシート301を示す図である。図3を用いて、情報処理装置100の文字認識部202によるOCR処理について説明する。レシート301の上側には、品物を購入したお店の名前、電話番号、購入日が記載されている。また、その下には、購入した物品とその価格が記載され、点線の罫線以下に、購入した物品の合計金額、支払い時に出した現金の金額、及びお釣りの金額が記載されている。
レシート301において、行302と行303では、文字が並んでいる方向(以下、単に横方向という)に長い形状のフォントである横倍角文字で印刷された文字が含まれている。行302は、合計金額を示す「合計」という項目名と、「¥360」という合計金額の値を示すための行であり、行302のうち「合計」の文字列のみが横倍角文字で印刷されている。購入者にとって合計金額が重要な情報であるため、その記載位置を購入者が見つけやすくするため「合計」の文字が横倍角文字で印刷されている。行303では「毎日1日は割引デー」というお店の宣伝が記載されている。宣伝は、お店にとって購入者の購買意欲を高める重要な情報であり、強調して購入者が宣伝を認識しやすくするため、横倍角文字で印刷されている。
レシートの印刷では、使用される文字のフォントの数が少ない場合がある。そのため、レシートの印刷する文字のうち、強調して表現したい文字には、レシート301のように倍角文字が利用されることが多い。また、レシートのように、強調して表現したい文字は一部に限られることが多い。このため例えば、レシート301の行302のように1行に倍角文字と倍角文字でない文字が混ざって使用されることがある。
図4は、文字認識部202によるOCR処理をした結果である文字認識結果の例を示す図である。文字認識結果400は、レシート301をSCNU110等で読み取ることで得られた画像データをOCR処理した結果が保持されているものとして説明する。文字認識結果400のレコード(テーブルの各行)には「番号」、「認識文字列」、「文字尤度」、「位置及び文字サイズ」の各項目の値またはテキストデータが保持され、レコード単位で対応付けられて管理されている。「番号」は、識別用の番号である。「認識文字列」はOCR処理した結果の認識した文字列のテキストデータである。「文字尤度」は認識文字列を構成するそれぞれの文字の信頼度を示す尤度の値である。「位置及び文字サイズ」は認識文字列を構成するそれぞれの文字の画像内の位置およびサイズを示す値である。
文字認識結果400の番号が406のレコードの「認識文字列」として保持されている文字列は、レシート301の行302をOCR処理した結果、認識された文字列である。その文字列は「合言十 ¥360」である。図3の行302で説明したように「合計」が横倍角文字で印刷されていることから、OCR処理において文字認識の誤り(誤認識)が発生している。このため「計」のOCR処理した結果、部首と旁で分離して文字認識され、「言」と「十」の2文字として文字認識処理されている。
文字認識結果400の番号が409のレコードの「認識文字列」として保持されている文字列は、レシート301の行303をOCR処理した結果である。その結果である文字列は「毎月1日は害リ弓1デー」である。レシート301の行303についても横倍角文字であることから、OCR処理において誤認識が発生している。即ち、「割」が「害」と「リ」に、「引」が「弓」と「1」に、部首と旁とがそれぞれ別の文字として認識され、1つの文字が、2文字として認識されている。
前述したように、倍角文字は文書全体の一部に使われているため、文書の大半を占める文字のフォントを基準にOCR処理をすると倍角文字は2文字以上の文字で認識されてしまうことがある。また、行ごとまた文字ごとはフォントを判定して、判定したフォントに基づきOCR処理することが考えられるが、倍角文字であるかを判定するための処理に時間がかかる。よって、処理負担が増す虞がある。
文字認識結果400の番号が406のレコードの「文字尤度」には「認識文字列」の文字列を構成する文字の順番に応じて、その文字の尤度がカンマを隔てて左から順に保持されている。例えば、「文字尤度」に保持されている一番左側の「80」は、同じレコードの「認識文字列」として保持されている文字列の一番左の文字「合」の信頼度を示す値(尤度)である。
本実施形態において信頼度は、対象文字の特徴量と、OCR処理の結果、認識した文字の特徴量との一致度を0~100で数値化したものである。尤度は、例えば、OCR処理された結果である認識文字列の各文字と、保存されている対応する標準文字との特徴量の一致率である。
信頼度の数値が高い文字は、信頼できる結果であることを示す。なお、信頼度は、各文字の文字認識結果の確からしさが客観的に比較できればよくその表現方法は問わない。
文字認識結果400の「位置及び文字サイズ」には「認識文字列」の文字列を構成する文字の順番に応じて、その文字の位置およびサイズがカンマを隔てて左から順に保持されている。例えば、番号が406のレコードの「位置及び文字サイズ」に保持されている「(130,40,16,28)」は、同じレコードの「認識文字列」に保持されている文字列の一番左の文字「合」の位置およびサイズ情報である。即ち、「合」の画像内の位置座標は縦130、横40であり、縦サイズが16、横サイズが28とであることを表している。この文書画像内の座標は原点が左上で、縦が下方向、横が右方向に延びる座標系を用いており、以下の説明においても同様に説明を行う。
[情報抽出処理について]
本実施形態の情報処理装置100は情報抽出部206を有する形態である。情報抽出部206は、OCR処理した文字認識結果400から、そのOCR処理の対象となった文書画像に含まれる電話番号、または購入金額の合計金額等の特定の情報を抽出する情報抽出処理をする。ここではその情報抽出処理について説明する。
図5(a)は「テキスト検索規則」を示す図である。テキスト検索規則から文字認識結果400の認識文字列に含まれる文字列を検索することで、文書画像に含まれる特定の情報(項目値)を抽出するための処理が行われる。
テキスト検索規則501では、「番号」と、「ラベル名」と、「検索文字列」と、の各データが、レコード単位で対応付けられている。「番号」は、識別用の番号である。「検索文字列」には、文字認識結果400に対して検索するための検索ワードの情報が保持されている。検索ワードの情報として、「検索文字列」には、抽出情報の項目値の候補を示す文字列または文字パタンと、項目値に関連する項目名である文字列と、のいずれかが保持されている。
番号が511~513のレコードにおける検索文字列には文字列のテキストデータそのものが保持されている。例えば、番号513のレコードの検索文字列には「TEL」を示すテキストデータが保持されており、情報抽出部206は、文字認識結果400の「認識文字列」を対象に「TEL」が含まれる文字列があるか検索する。文字認識結果400のうち、番号が402のレコードの認識文字列には検索文字列であるTELが含まれることから、文字認識結果400の番号が402のレコードが検索結果となる。
検索した結果、検索文字列が含まれる「認識文字列」がある場合、その検索文字列が属するテキスト検索規則501のレコードの「ラベル名」に保持されている文字列が、検索結果に紐に付けられて保存される。例えば、検索文字列が「TEL」である場合、対応するラベル名は「telKey」であるから、文字認識結果400のうちTELが含まれる認識文字列の番号である402の文字列と、ラベル名の「telKey」とが紐付けられて検索結果として保存される。
テキスト検索規則501の番号が518、519のレコードの「検索文字列」には、文字パタンが正規表現で指定されている。例えば、番号が518のレコードの検索文字列において保持されている「¥(d+)」は正規表現での記載であり、「¥」の後に数字が1個以上連続する文字パタンを検索文字列とすることを示している。番号が519のレコードの検索文字列において保持されている「(d+)-(d+)-(d+)」は、数字が1個以上連続する文字パタンが3個あり、かつ、その間に「―」があるという文字パタンを検索文字列とすることを示している。例えば、検索文字列が「(d+)-(d+)-(d+)」である場合、文字認識結果400の番号が402のレコードが「03-1234-5678」が含まれるため検索結果となる。このため検索結果である、「03-1234-5678」は「telValue」というラベルを付けて保存される。なお、1つの検索文字列に対して検索結果は複数ある場合もあるので、同一ラベルを持つ検索結果が複数保存されることがある。
図5(b)は「レイアウト検索規則」を示す図である。レイアウト検索規則502は、テキスト検索規則501を用いた検索結果から、情報抽出対象の項目値が含まれるか判定するために用いられるテーブルである。レイアウト検索規則502では、「番号」と、「ラベル名」と、「ラベル名1」と、「ラベル名2」と、「位置関係」と、の各データがレコード単位で対応付けられている。「番号」は、識別用の番号である。「ラベル名」は、テキスト検索規則によって検索された認識文字列の位置関係が所定の条件を満たすか判定し、その判定結果を識別するために判定結果に付与するラベル名である。「ラベル名1」と「ラベル名2」とには、テキスト検索規則501に保持されているラベル名のいずれかが保持されている。テキスト検索規則によって検索された認識文字列のうち、「ラベル名1」のラベルが付された文字列に対する「ラベル名2」のラベルが付された文字列の相対位置が、「位置関係」に保持されている位置の条件を満たすかが判定される。
文字認識結果400を用いて具体例を説明する。レイアウト検索規則502の番号が522のレコードにおいてラベル名1は「telKey」であり、ラベル名2は「telValue」である。文字認識結果400において、番号が402のレコードに保持されている認識文字列では、「TEL」の右側に「03-1234-5678」が位置する関係にある。
前述したように「TEL」は「telKey」のラベルを付して保存され、「03-1234-5678」は「telValue」のラベルを付して保存される。このため、文字認識結果400において、番号が402のレコードに保持されている認識文字列は、「telKey」ラベルが付された文字列の右側に「telValue」のラベルが付された文字列が位置する関係にある。この場合、情報抽出部206は、番号が402のレコードの認識文字列は、番号が521のレコードの「位置関係」に保持されている「右」と同じ位置関係であると判定する。同じ位置関係であると判定された場合、相対位置に保持されている「右」側の文字列である「telValue」のラベルが付されている「03-1234-5678」が「tel」のラベルを付与されて保存される。こうしてレシートの画像データから電話番号を示す項目値を抽出することができる。
実際は、ラベル名1のラベルが付けられた文字列と、ラベル名2のラベルが付けられた文字列とのすべての組合せに対して、「位置関係」に保持されている位置関係にあるかが判定される。相対位置関係で指定された位置関係にあるものがあれば、項目値として抽出される。
同様に、文字認識結果400から合計金額を項目値として抽出することができる。具体的には、「totalPriceKey」のラベルのついた文字列である「合計」または「合計金額」の右側に「totalPriceValue」のラベルのついた文字列があるような認識文字列が、文字認識結果400にあるか検索される。そのような認識文字列がある場合、その認識文字列において「totalPriceValue」のラベルが付されている文字列が「totalPrice」というラベルを付与して保存される。「totalPrice」のラベルが付された値を抽出することで、文書画像に含まれる合計金額の値を抽出できる。例えば、レシートの文書画像からレシートに記載されている合計金額の値を抽出することができる。
このため、文書画像から合計金額の値を抽出するには、項目値に対応する項目名である「合計」または「合計金額」が含まれる文字列を文字認識結果400から検索する必要がある。しかしながら前述したようにレシート301では「合計」は通常の文字サイズを横に拡大した、いわゆる横倍角文字が用いられることがある。このためOCR処理の結果では正しく「合計」の文字が認識されていないことがある。特に、項目名が倍角文字で表示されていると、項目名が正しく文字認識されないため、情報抽出処理も正しく行われないことになる。
図6は、情報抽出処理が行われた結果が保持されている情報抽出結果600の比較例である。情報抽出結果600では、識別のための「番号」と、「ラベル名」と、「抽出値」と、の各データが、レコード単位で対応付けられている。例えば、番号が602のレコードでは、ラベル名「telValue」の付加された抽出値として「03-1234-5678」が得られていることがわかる。つまり、レシートの文書画像をOCR処理および情報抽出処理をした結果、レシートに記載されている電話番号の情報が抽出されたことを示している。一方、図4のような文字認識結果400では、合計金額の項目名が正しく検索できない。よって、文書画像に含まれる合計金額の値である「¥360」が抽出されないことになる。このため、番号が601の「抽出値」は抽出された合計金額の値を保持するためのフィールドであるが、そのフィールドは空白となっている。
このため、本実施形態は、「合計」のような項目名が、誤認識しやすい倍角文字として使用されている文書画像をOCR処理する場合、その文字の領域を選定して、選定された領域を対象に文字認識処理された結果得られた文字を修正する形態である。
なお、テキスト検索規則と、レイアウト検索規則とは、図5の例に限られない。OCR処理を行う文書に応じて変更してもよいし、抽出する情報に応じて変更してもよい。
[誤認識パタンについて]
図7は、OCR処理によって誤認識された文字列を検出するための、誤認識パタンを示す図である。誤認識パタンは、処理対象の文字をOCR認識処理した結果、誤認識された場合の結果のパタン(パターン)が保持されているデータである。図7(a)のテーブルは、外部記憶部106に記憶されている誤認識パタン700の一例である。誤認識パタン700には、「番号」と、「誤認識文字列」と、「正解文字」と、の各データがレコード単位で対応付けられている。
「番号」は識別用の番号である。「誤認識文字列」は、「正解文字」の文字列をOCR処理する際に、複数の文字として誤認識するときの処理結果となりうる文字列である。本実施形態における誤認識パタンにはOCR処理対象の文字が倍角文字である場合の「誤認識文字列」が格納されている。例えば、番号が702のレコードでは、「計」が「正解文字」の文字として保持されている。このため、「計」をOCR処理した場合、「誤認識文字列」に保持されている「言」と「十」の2文字として誤認識して処理されることを示している。
図7(b)は誤認識パタン700の一部を抽出した情報抽出用の誤認識パタン750(以下、「抽出用誤認識パタン」という)の一例である。誤認識パタン700のデータ量が多いと、誤認識パタン700を検索範囲とする検索に時間がかかる。このため、予め誤認識パタン700から必要なデータを選別して抽出用誤認識パタン750を生成することで、検索時間を短縮することができる。
抽出用誤認識パタン750は、誤認識パタン700の一部のレコードが保持されているテーブルである。よって、抽出用誤認識パタン750の各列には、識別用の「番号」を示す値と、「誤認識文字列」の文字列と、「正解文字」の文字とが保持されており、誤認識パタン700と同じ構成となっている。
なお、文字認識結果400の認識文字列を構成する文字の内、複数の文字に誤認識が発生する可能性が十分に考えられる。例えば、「合計金額」をOCR処理する場合、「計」と「額」の2文字が誤認識する可能性がある。つまり、合計金額をOCR処理した場合、「合言十金額」(「計」が「言」と「十」)、「合計金客頁」(「額」が「客」と「頁」)、「合言十金客頁」(「計」が「言」と「十」、かつ、「額」が「客」と「頁」)の3通りで誤認識することが考えられる。このように抽出用誤認識パタン750に保持する誤認識文字列には、テキスト検索規則501の1つの検索文字列に対して、誤認識をする可能性のある複数の組合せを保持してもよい。
[準備処理について]
図8は、後述するOCR処理および情報抽出処理をするための準備処理を示すフローチャートである。図8のフローチャートで示される一連の処理は、CPUがROMに記憶されているプログラムコードをRAMに展開し実行することにより行われる。また、図7におけるステップの一部または全部の機能をASICや電子回路等のハードウェアで実現してもよい。なお、各処理の説明における記号「S」は、当該フローチャートにおけるステップであることを意味し、以後のフローチャートにおいても同様とする。本フローチャートでは、図5のテキスト検索規則501、図7の誤認識パタン700を用いて、抽出用誤認識パタン750を生成するものとして説明する。
S801において誤認識パタン生成部207は、外部記憶部106に記録されている誤認識パタン700を取得し、RAM103に保存して利用可能にする。
S802において誤認識パタン生成部207は、テキスト検索規則501の検索文字列に保持されている文字列を構成する文字が、誤認識パタン700の「正解文字」に含まれるかどうかを検索する。含まれている場合には、その「正解文字」とその正解文字に紐付けられている「誤認識文字列」とを、抽出用誤認識パタン750のレコードに追加して抽出用誤認識パタン750を生成する。生成された抽出用誤認識パタン750はRAM103に保存される。
図7(b)の抽出用誤認識パタン750の番号が712のレコードの正解文字は、「計」である。「計」は、テキスト検索規則501の番号が518と519とのレコードにおける検索文字列に保持されている「合計」「合計金額」に含まれる。このため、抽出用誤認識パタン750の番号が712のレコードは、本ステップによって、誤認識パタン700の番号が702のレコードを複写して保存されたものである。同様に、図7(b)の抽出用誤認識パタン750の番号が718のレコードの正解文字についても、テキスト検索規則501の番号が512の検索文字列には「額」が含まれるため、抽出されたものである。
つまり、本ステップでは、誤認識パタン700の中から、テキスト検索規則501の検索文字列内の文字が含まれる正解文字を抽出して抽出用誤認識パタン750が生成される。このため、抽出用誤認識パタン750のデータ数は誤認識パタン700に比べ少なくなる。よって、後続の処理において、抽出用誤認識パタン750を検索範囲として検索処理する場合、誤認識パタン700を検索範囲とする場合に比べて相対的に検索範囲を少なくすることができる。
また、本ステップでは、抽出用誤認識パタン750のデータを、より高速に検索できるように、検索用のインデックス情報を作成する。インデックス情報は検索時の高速性が保てるものを生成すればよい。検索用のインデックス情報を作成することで、検索処理自体は時間短縮されるが、検索用のインデックスを作成する時間が必要である。本実施形態では、OCR処理をする処理対象の文書に応じて、テキスト検索規則の文字列が決まっている。このため、事前に抽出用誤認識パタン750を作成することが可能となり、さらに事前に抽出用誤認識パタン750を検索するためのインデックス情報を作成することが可能となる。
[OCR処理および情報抽出処理]
図9は、本実施形態に係るOCR処理から情報抽出処理までの一連の処理を示すフローチャートである。本フローチャートが開始される前に、準備処理は終了しているものとして説明する。また、準備処理の結果、図7(b)の抽出用誤認識パタン750が生成されているものとして説明する。また本フローでは図5のテキスト検索規則501およびレイアウト検索規則502を用いて情報抽出処理を行うものとして説明する
S901において取得部201は、SCNU110により文書をスキャンすること等で得られた文書画像の画像データを取得し、外部記憶部106に格納する。
S902において文字認識部202は、取得した画像データに対して二値化処理を行うことで二値画像を生成し、その二値画像をRAM103に格納する。二値化処理とは、画像を白と黒の2階調に変換する処理のことである。例えば、閾値より濃い色の画素は黒画素、その閾値より薄い色の画素は白画素とする処理である。二値画像を生成する方法としては、その後の文字認識が可能な画像が生成されるであれば二値化処理の方法は問わない。例えば、文書画像全体のヒストグラムから閾値を決定して二値画像を作成する方法でよい。
S903において文字認識部202は、生成された二値画像に対して罫線除去を行う。罫線除去とは、二値画像内の罫線を検出し、罫線を二値画像から削除する処理である。除去対象の罫線としては、破線や実線、横方向や縦方向の罫線が存在する文書であれば、同様に除去する。
S904において文字認識部202は、罫線除去された二値画像に対してOCR処理を行う。文字認識部202はOCR処理の結果である、認識文字列、認識文字列の各文字の尤度、認識文字列の各文字の位置およびサイズを文字認識結果として、画像データと関連付けてRAM103に格納する。本フローの説明ではOCR処理の結果として文字認識結果400が生成されたものとして説明する。
S905では、文字認識結果400の認識文字列に含まれる倍角文字を処理した結果の文字である倍角認識文字が選定され、倍角認識文字を修正するための処理が行われる。本ステップにおける処理の詳細は、後述する。
次のS906~S908の処理は前述した情報抽出処理が行われる。S906において情報抽出部206は、S905で修正された文字認識結果の認識文字列を検索範囲として、テキスト検索規則501のそれぞれの検索文字列を含む認識文字列があるか検索する。情報抽出部206は、検索結果を、その検索文字列のラベル名を付してRAM103に格納する。
S907において情報抽出部206は、S906によって得られた検索結果に対して、レイアウト検索規則502に保持されている位置関係を満たす認識文字列があるか判定する。位置関係を満たす認識文字列がある場合、情報抽出部206は、その認識文字列のうちレイアウト検索規則502に保持されている相対位置にある文字列を項目値とする。項目値はラベル名を付してRAM103に格納される。S908において情報抽出部206は、S907で得られたラベル名と項目値とを、情報抽出結果としてRAM103に格納する。
図10はS905の倍角文字領域の選定処理および倍角文字領域において認識された文字列の修正処理の詳細を示すフローチャートである。図10を用いて選定処理および修正処理の詳細を説明する。
S1001において取得部201は、抽出用誤認識パタン750を取得する。選定部203は、文字認識結果400の認識文字列を構成する文字のうちの一続きの文字であり、その一続きの文字の順番と同じ順番である文字列が、抽出用誤認識パタン750の「誤認識文字列」として保持されているか検索する。選定部203は検索結果をRAM103に格納する。
この検索処理は、テキストデータに対する検索であるため、文字の画像データ、位置等の画像データ、または構造化したデータに対する検索に比べて相対的に高速に処理可能である。また、準備処理において作成した検索用のインデックス情報を活用することで、検索処理の速度を速くすることが可能である。さらに、抽出用誤認識パタン750が保持する正解文字は、情報抽出処理に必要な文字列に限定して抽出されたものである。このため、本ステップにおいて情報抽出処理に不要な誤認識文字列は検索されない。本ステップ後の処理ではS1001の検索の結果、誤認識文字列を含むと検索された認識文字列に対して処理が行われる。このため、抽出用誤認識パタン750を検索範囲とすることで以降の処理において処理する文字を少なくすることができる。
S1002ではS1001の処理の結果、検索結果があるか判定される。検索結果がない場合は本フローを終了する。検索結果がある場合はS1003へ進む。
なお、ここから先のステップは、誤認識文字列を含むと検索された認識文字列の全てを処理対象に行われるが、本フローチャートの説明では、ある認識文字列を処理単位とする例を用いて説明を行う。
S1003において選定部203は、OCR処理された画像のうち、「誤認識文字列」と一致する一続きの文字が認識された領域を少なくとも含む領域を選定領域として選定する。例えば、選定部203は、OCR処理された画像のうち、その一続きの文字が含まれる行の領域を選定領域として選定する。
選定部203は、選定領域において、行方向にシフトしながら行方向に垂直な方向の射影をとる。その結果、黒色の画素値を有する画素である黒画素の検出されたときの行方向の位置が連続している区間の長さを横方向の長さとして決定する。選定部203は、その横方向の長さが所定の値(所定値)以上であれば、その区間は倍角文字の領域(以下、倍角文字領域という)と選定する。
図11は、文字画像に対する本ステップの処理を説明するための図である。図11では、OCR処理対象の文書は横書きであるから、行方向は横方向である。領域1101は本ステップの処理対象の領域である選定領域である。即ち、抽出用誤認識パタン750には誤認識文字列として「言」と「十」の組み合わせが保持されている。また、文字認識結果400には、「言」と「十」との一続きの文字が含まれる認識文字列「合言十¥360」が保持されている。このため、「合言十¥360」が含まれる画像の領域1101が本ステップの処理の対象(選定領域)となっている。
グラフ1102は、領域1101の行方向に垂直な方向の射影をとった結果を示したグラフである。横軸は行方向の位置を示し、縦軸は行方向の位置において垂直方向に射影をとった結果、検出された黒画素の数を示している。これにより、「合」、「計」、「¥」、「3」、「6」、「0」の各文字の行方向については、黒画素が連続して検出されている。それぞれの黒画素が連続して検出された行方向における区間の長さ、即ち、グラフ1102において黒画素が連続して検出されている横軸の範囲が、それぞれの文字の行方向の区間の長さ(横方向の長さ)として導出されている。そして横方向の長さが所定値以上である場合、その黒画素が連続して検出されている区間が倍角文字領域として選定される。
選定部203は、黒画素が連続して検出された区間における認識文字列の文字の縦サイズ(縦方向の長さ)を文字認識結果400の「位置及び文字サイズ」から取得する。そして、所定値はその文字の縦方向の長さに基づき決定される。例えば、その文字の縦方向の長さの1.6倍の長さを所定値とする。つまり、黒画素が連続して検出された行方向の区間の長さ(横方向の長さ)が、その区間の認識文字列の文字の縦方向の長さの1.6倍以上であれば、選定領域内のその区間を倍角文字領域として選定する。このように、黒画素が連続して検出された区間の長さと、黒画素が連続して検出された区間における認識文字列の文字の行方向と垂直な方向の長さと、に基づき倍角文字領域が選定される。図11の場合では、「合」が示す領域と、「計」が示す領域が、倍角文字領域として選定される。
なお、倍角文字領域を選定する方法は、上記の方法に限られない。他の方法によって選定領域の行方向に黒画素が連なっている区間を求め、その区間に基づき倍角領域を決定してもよい。他にも例えば、2値画像を生成する際に黒画素の代わりに文字を示す別の画素値が用いられる場合は、その画素値に基づき、倍角文字領域を選定してもよい。
S1004では倍角文字領域が選定されたか判定される。倍角文字領域が選定されない場合は、その結果をRAM103に記録して本フローの処理を終了する。倍角文字領域が選定されたと判定した場合はその結果をRAM103に記録しS1005に進む。
S1005において変更部204は、RAM103に格納された倍角文字領域から、倍角文字領域を示す画像である部分画像を作成する。次に、変更部204は、その部分画像の縦横のサイズが略同じになるように画像サイズの拡大・縮小を行い、その画像(変更画像とよぶ)をRAM103に格納する。なお、変更画像のサイズは、文字認識部202が変更画像を誤認識して処理しないようなサイズであればよい。例えば、変更部204は、部分画像の縦横の比が所定の範囲内であるように拡大・縮小を行うことで変更画像を生成してもよい。
S1006において文字認識部202は、RAM103に格納された変更画像に対してOCR処理を行い、その結果認識された文字(変更認識文字)をRAM103に格納する。
S1007において修正部205は、RAM103に格納された変更認識文字の信頼度を導出する。修正部205は、倍角文字領域に対してS904のOCR処理した結果認識された文字である倍角認識文字の信頼度(尤度)を文字認識結果400から取得する、そして変更認識文字の信頼度との倍角認識文字の信頼度との比較を行う。例えば、文字認識結果400の番号が406における認識文字列に含まれる「言十」(倍角認識文字)を示す領域が倍角文字領域として選定され、変更画像をOCR処理した結果として「計」が変更認識文字として認識されたものとする。この場合、「計」の信頼度と、「言十」の信頼度が比較される。
S1008において変更認識文字の信頼度が倍角認識文字の信頼度より高いかが判定される。変更認識文字の信頼度が高くない場合は本フローを終了する。即ち、変更認識文字の信頼度が高くない場合、倍角文字領域を認識することで得られた倍角認識文字は誤認識されていない考えられるため、倍角認識文字は修正されない。変更認識文字の信頼度が高いと判定された場合は、変更認識文字がRAM103に格納されS1009に進む。
S1009において修正部205は、S904の処理で得られた文字認識結果400に含まれる倍角認識文字を、RAM103に格納された変更認識文字に置き換えることで、認識文字列の修正を行う。例えば、S1007の例では変更認識文字である「計」の信頼度が倍角認識文字である「言」「十」の信頼度より高かったものとする。この場合、文字認識結果400の番号が406における認識文字列にふくまれる倍角認識文字の「言」「十」が変更認識文字である「計」に置き換えられて認識文字列が修正される。以上が、本実施形態における選定処理および修正処理の詳細である。
S1001において認識文字列のうち誤認識文字列を含むと検索された文字は、「言十」のみであり、「言十」が認識された領域のみを倍角文字領域とすることもできる。しかし、OCR処理対象の画像には、図11の「合」のように、誤認識文字列である「言十」が認識された領域の近くにも倍角文字領域があることがある。倍角文字は誤認識される可能性が高いため、「合」のように抽出用誤認識パタン750に正解文字として保持されていない場合でも、倍角文字領域については修正のための処理がされるのが好ましい。本実施形態では、S1001において誤認識文字列を含むと検索された文字を含む行を選定領域とし、選定領域に基づき倍角文字領域が選定される。このため、選定部203は、抽出用誤認識パタン750に正解文字として保持されていない倍角文字についても、倍角文字領域と選定する可能性を高めることができる。反対に、抽出用誤認識パタン750の誤認識文字列に、偶然、合致してしまった認識文字列の文字については、S1003の処理を行うことにより、後続の修正処理する対象から除外することができる。
図12(a)は、図4の文字認識結果400から倍角文字領域が選定されて、修正処理が行われた後の文字認識結果1201の例である。本フローの処理を行うことにより、番号が406の認識文字列に含まれる「言」と「十」は「計」に修正されている。
図12(b)は、倍角文字の認識文字列が修正された文字認識結果1201を用いて、情報抽出処理された結果を示す情報抽出結果1202である。比較例である図6の情報抽出結果600と比べて、番号が601では、ラベル名「totalPrice」の付加された抽出値として「¥360」が得られている。これは図3の行302の合計金額の値となっており、合計金額が正しく抽出されたことを示している。
また、文字認識結果1201の番号が409の認識文字列は、誤認識されているものの、修正されていない。本実施形態では、情報抽出処理において用いられない文字を含む認識文字列については、倍角文字領域の選定対象とならないため修正も行われていない。このため、全ての認識文字列について倍角文字領域を選定して修正する場合に比べて、処理負担は軽減し処理時間も短縮することができる。
以上説明したように本実施形態では、OCR処理した結果である認識文字列に、抽出用誤認識パタンの誤認識文字列が含まれるか検索される。認識文字列に誤認識文字列が含まれている場合は、その文字列を含む領域に対して倍角文字領域があるかの選定が行われる。よって本実施形態によれば、1行に倍角文字と通常フォントの文字が含まれている場合でも、全ての文字が倍角文字領域であるかを判定することがないため、処理負担を抑制しながら、倍角文字に対して文字認識することができる。
また、本実施形態では、OCR処理した結果認識された認識文字列の文字が後続処理において修正されることを前提に、最初のOCR処理(S904)が行われる。このため最初のOCR処理では文書画像に倍角文字が含まれるかを考慮しないで文書画像全体に対してOCR処理が行われる。このため倍角文字が含まれることを考慮してOCR処理する場合に比べて、OCR処理そのものの処理負担、処理時間を、相対的に抑えることが可能である。
特に、本実施形態のようにOCR処理した結果から情報抽出処理を行う形態においては、その抽出対象の項目値に対応する項目名(例えば「合計」)に対するOCR処理の精度は高いことが望まれる。しかし、それ以外の部分(例えば、広告部分)ではOCR処理に高い精度は求められない。さらに、レシートのように横倍角文字で印刷されている部分が、項目名である場合が非常に少ないようなこともある。このような場合は、OCR処理の後続処理である修正処理の対象を項目名に絞ることにより修正処理の処理負担も抑制される。よって、精度よく情報抽出処理を行いつつ、OCR処理から情報抽出処理までの全体の処理における処理負担を抑制できる。このため処理に必要な計算機リソースの削減についても実現することができる。
なお、OCR処理される処理対象の画像データは、SCNU110によって文書を読み取ることにより得られた画像データに限られない。デジタルカメラなどの他の画像取得装置によって読み取られた画像データが用いられてもよし、NCU107等の通信装置から入力されてもよい。または、外部記憶部106に記憶されている画像データが用いられてもよい。
また、本実施形態は、OCR処理した結果から情報抽出処理を行うものとして説明したが、本実施形態は、情報抽出処理を行わない場合についても適用可能である。その場合は、例えば、S1001において取得部201は誤認識パタン700を取得し、選定部203は、文字認識結果400の認識文字列に含まれる一続きの文字が、誤認識パタン700の「誤認識文字列」に保持されているか検索する。その検索結果に基づき選定部203は倍角文字領域を選定してもよい。この場合、誤認識パタン700には少なくとも「誤認識文字列」が保持されていればよい。この場合でも、全ての文字が倍角文字領域であるかを判定することがないため、処理負担を抑制しながら倍角文字の文字認識することができる。
<第2の実施形態>
第1の実施形態では、倍角文字領域の選定のために、変更部204が修正のための画像を作成し、その画像に対して再度のOCR処理を行った結果に基づき修正部205が認識文字列の修正を行う形態を説明した。本実施形態では、変更部204による処理を行わないで認識文字列の修正を行う形態を説明する。本実施形態については、第1の実施形態からの差分を中心に説明する。特に明記しない部分については第1の実施形態と同じ構成および処理である。
図13は、本実施形態に係るS905の選定処理および修正処理の詳細を示すフローチャートである。S1301~S1302の処理はS1001~S1002の処理と同様であるため説明を省略する。
S1303において選定部203は、RAM103に格納されている抽出用誤認識パタン750の誤認識文字列と一致すると検索された一続きの文字の各文字の情報を文字認識結果400から取得する。具体的には、一続きの文字における各文字の、文字の高さ(縦サイズ)と文字の長さ(横サイズ)とが文字認識結果400の位置及び文字サイズから取得される。選定部203は、取得した一続きの文字の各文字の、縦サイズと横サイズとの比をそれぞれ算出する。
選定部203は、一続きの文字を構成する文字の全ての組み合わせについて、算出した比の差分を算出する。いずれの差分も所定の範囲内にある場合は、一続きの文字は統一性があると判定され結果がRAM103に格納される。所定の範囲は、例えば、縦サイズと横サイズとの比の平均値の一割の値である。
S1304において一続きの文字には統一性があったか判定される。倍角文字は誤認識される場合、2文字以上の複数の文字として認識される。この場合、誤認識された2文字のそれぞれサイズは、1つの倍角文字を等分にしたサイズとなる。このため誤認識された2文字のサイズは統一性があるため、統一性があれば、その一続きの文字は倍角文字を誤認識して処理された倍角認識文字と判定され、S1305へ進む。統一性がない場合は本フローを終了する。
S1305において修正部205は、抽出用誤認識パタン750のうち、倍角認識文字が誤認識文字列として保持されているレコードの正解文字を取得する。修正部205は、文字認識結果400に保持されている倍角認識文字を、取得した正解文字に置き換えることにより、倍角認識文字の修正を行う。
以上説明したように本実施形態によれば、処理対象の文書画像内に倍角文字と通常の文字が含まれている場合でも、全ての文字が倍角文字領域であるかを判定することがないため、処理負担を抑制しながら、倍角文字を文字認識することができる。
本実施形態は、変更部204が修正のための画像を作成し、文字認識部202その画像に対して再度のOCR処理を行わないため第1の実施形態よりも処理負担が少ない。また、レシートのような文書では他の文書に比べ、使用文字種やフォントが少なく横倍角文字を誤認識するバリエーションが限られる。さらに、レシートのような文書では情報抽出処理する際に使用される項目名が倍角文字で記載されていることが少ない。このような文書をOCR処理した結果である認識文字列に、誤認識パタン700または抽出用誤認識パタン750において保持されている誤認識文字列が含まれている場合は、その認識文字列に含まれる文字は誤認識されている可能性が高い。このため、本実施形態によっても、精度よく誤認識された文字を選定することができる。よって、本実施形態は、使用文字種やフォントが少ない文書、または情報抽出処理する際に使用される項目名が倍角文字で記載されていることが少ない文書を処理する際に特に有効である。
<第3の実施形態>
前述の実施形態では、レシート等の横書きの文書画像であって横倍角文字が含まれる文書画像に対しOCR処理をした結果を修正する形態であった。本実施形態は、前述の実施形態を、縦書きの文書画像であって縦倍角文字が含まれる文書画像に対しても適用する方法を説明する。
図14の誤認識パタン1401は、縦倍角文字に対してOCR処理した結果を修正するために使用される誤認識パタンの例である。縦倍角文字は、縦方向に長い形状のフォントである。誤認識パタン1401は、図7(a)の横倍角文字を誤認識するパタンが保持されている誤認識パタン700と同様の構成である。横倍角文字用の誤認識パタン700と異なり、誤認識パタン1401における誤認識文字列には、処理対象の1文字の漢字を、冠と脚と等の2文字以上の文字として誤認識する場合の文字列が保持されている。
また、縦倍角文字をOCR処理した結果に対して選定処理および修正処理する場合、S1003において選定部203は、選定された選定領域の行方向(縦方向)に垂直な方向の射影をとる。そして、選定部203は黒画素が連続して検出された行方向の区間の長さを文字の高さ(縦方向の長さ)として検出する。また、選定部203は、黒画素が連続して検出された行方向の区間における認識文字列の文字の横サイズ(横方向の長さ)を文字認識結果400から取得する。そして、黒画素が連続して検出された区間の長さである縦方向の長さが、その区間における認識文字列の文字の横方向の長さに基づく所定の値以上であれば、その区間は縦倍角文字の領域と選定する。所定の値は、例えば、その区間における認識文字列の文字の横方向の長さの1.6倍の値である。
このように、本実施形態においても、黒画素が連続して検出された行方向の区間の長さと、黒画素が連続して検出された区間における認識文字列の行方向と垂直な方向の長さと、に基づき倍角文字領域が選定される。
以上説明したように縦書きの文書画像であって縦倍角文字が含まれる文書画像に対して、処理負担を抑制しながら倍角文字を文字認識することができる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
100 情報処理装置
202 文字認識部
700 誤認識パタン
201 取得部
203 選定部
205 修正部

Claims (16)

  1. 処理対象の画像に対して文字認識処理する文字認識手段と、
    前記文字認識手段が倍角文字を複数の文字として誤認識する誤認識文字列が少なくとも保持されているデータを取得する取得手段と、
    前記文字認識手段が前記処理対象の画像に対して前記文字認識処理することによって得られた認識文字列の中から、倍角文字を前記文字認識処理することによって得られた倍角認識文字を、前記データに基づき選定する選定手段と、
    前記認識文字列に対して、前記選定された倍角認識文字を修正するための処理をする修正手段と、
    前記修正手段によって前記処理が為された後の前記認識文字列から、正規表現で示される文字列パタンに対応する第1の検索文字列と、所定の文字列に対応する第2の検索文字列と、を検索し、当該検索された前記第1の検索文字列と前記第2の検索文字列との相対位置が所定の条件を満たす場合、前記認識文字列に含まれる前記第1の検索文字列が示す文字列を、項目値として抽出する情報抽出手段と、
    を有することを特徴とする情報処理装置。
  2. 前記選定手段は、
    前記認識文字列を構成する文字のうちの一続きの文字が、前記一続きの文字の順番と同じ順番で、前記データの前記誤認識文字列として保持されているか検索し、前記検索の結果に基づき前記倍角認識文字を選定する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記選定手段は、
    前記一続きの文字が、前記データの前記誤認識文字列として保持されている場合、
    前記処理対象の画像における領域のうち、前記文字認識手段が前記一続きの文字を認識した領域を含む領域である選定領域において、文字を示す画素値が連続して検出される行方向の長さに基づき、前記文字認識手段が前記倍角認識文字を認識した領域である倍角文字領域を選定する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記選定手段は、
    前記選定領域において行方向と垂直な方向の射影をとり、黒色の画素値を有する画素である黒画素が検出されたときの行方向の位置が連続している区間の長さが、行方向と垂直な方向の文字の長さに基づく所定の値以上であれば、前記区間に対応する前記選定領域内の領域を前記倍角文字領域と選定す
    ことを特徴とする請求項3に記載の情報処理装置。
  5. 前記選定手段は、
    前記区間の長さが、前記行方向と垂直な方向の文字の長さの1.6倍以上の長さである場合、前記区間に対応する前記選定領域内の領域を前記倍角文字領域と選定す
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記倍角文字領域の画像の大きさを変更する変更手段をさらに有し、
    前記文字認識手段は、
    前記変更手段によって変更された変更画像に対して前記文字認識処理を行い、
    前記修正手段は、
    前記変更画像に対して前記文字認識処理をして得られた変更認識文字の尤度が、前記倍角認識文字の尤度より高い場合、前記倍角認識文字を、前記変更認識文字に置き換える
    ことを特徴とする請求項3から5のいずれか1項に記載の情報処理装置。
  7. 前記変更手段は、前記倍角文字領域の部分画像を生成し、前記部分画像の縦と横とが略同じ長さになるように変更して前記変更画像を生成する
    ことを特徴とする請求項6に記載の情報処理装置。
  8. 前記データは、
    前記誤認識文字列と、前記誤認識文字列に対応する正解文字と、が紐付けられて保持されており、
    前記選定手段は、
    前記一続きの文字が前記データの前記誤認識文字列として保持されており、かつ、前記一続きの文字のサイズに統一性がある場合、前記一続きの文字を前記倍角認識文字と選定し、
    前記修正手段は、
    前記倍角認識文字を、前記データにおいて前記一続きの文字と同一の前記誤認識文字列に紐付けられている前記正解文字に置き換える
    ことを特徴とする請求項2に記載の情報処理装置。
  9. 前記一続きの文字のサイズに前記統一性がある場合とは、
    前記一続きの各文字の横サイズと縦サイズとの比をそれぞれ決定し、前記比の差分が所定の範囲内の場合である
    ことを特徴とする請求項8に記載の情報処理装置。
  10. 前記誤認識文字列と、前記誤認識文字列に対応する正解文字と、が紐付けられて保持されている誤認識パタンから、前記第2の検索文字列に含まれる文字と同一の前記正解文字を抽出し、
    抽出された前記正解文字と、該正解文字に紐付けられている前記誤認識文字列と、に基づき前記データを生成する生成手段をさらに有し、
    前記選定手段は、前記生成手段によって生成された前記データに基づき、前記倍角認識文字を選定する
    ことを特徴とする請求項に記載の情報処理装置。
  11. 前記生成手段は、
    前記取得手段が前記データを取得する前に、前記データを生成する
    ことを特徴とする請求項10に記載の情報処理装置。
  12. 前記処理対象の画像は、二値化処理された画像である
    ことを特徴とする請求項1から11のいずれか1項に記載の情報処理装置。
  13. 前記倍角文字は、横倍角文字または縦倍角文字である
    ことを特徴とする請求項1から12のいずれか1項に記載の情報処理装置。
  14. 前記認識文字列を構成する文字は、該文字の尤度と、該文字のサイズと紐付けて管理されている
    ことを特徴とする請求項1から13のいずれか1項に記載の情報処理装置。
  15. 処理対象の画像に対して文字認識処理する文字認識ステップと、
    前記文字認識処理において倍角文字を複数の文字として誤認識する誤認識文字列が少なくとも保持されているデータを取得する取得ステップと、
    前記文字認識ステップにおいて、前記処理対象の画像に対して前記文字認識処理することによって得られた認識文字列の中から、倍角文字を前記文字認識処理することによって得られた倍角認識文字を、前記データに基づき選定する選定ステップと、
    前記認識文字列に対して、前記選定された倍角認識文字を修正するための処理をする修正ステップと、
    前記修正ステップによって前記処理が為された後の前記認識文字列から、正規表現で示される文字列パタンに対応する第1の検索文字列と、所定の文字列に対応する第2の検索文字列と、を検索し、当該検索された前記第1の検索文字列と前記第2の検索文字列との相対位置が所定の条件を満たす場合、前記認識文字列に含まれる前記第1の検索文字列が示す文字列を、項目値として抽出する情報抽出ステップと、
    を含むことを特徴とする制御方法。
  16. コンピュータを、請求項1から14のいずれか1項に記載の情報処理装置の各手段として機能させるためのプログラム。
JP2019101280A 2019-05-30 2019-05-30 情報処理装置、制御方法、及びプログラム Active JP7370733B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019101280A JP7370733B2 (ja) 2019-05-30 2019-05-30 情報処理装置、制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019101280A JP7370733B2 (ja) 2019-05-30 2019-05-30 情報処理装置、制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020194491A JP2020194491A (ja) 2020-12-03
JP7370733B2 true JP7370733B2 (ja) 2023-10-30

Family

ID=73546397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019101280A Active JP7370733B2 (ja) 2019-05-30 2019-05-30 情報処理装置、制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7370733B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004078531A (ja) 2002-08-16 2004-03-11 Ricoh Co Ltd 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラム
WO2007080642A1 (ja) 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02170292A (ja) * 1988-12-23 1990-07-02 Nippon Telegr & Teleph Corp <Ntt> 文字認識後処理方法
JPH02230484A (ja) * 1989-03-03 1990-09-12 Hitachi Eng Co Ltd 文字認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004078531A (ja) 2002-08-16 2004-03-11 Ricoh Co Ltd 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラム
WO2007080642A1 (ja) 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置

Also Published As

Publication number Publication date
JP2020194491A (ja) 2020-12-03

Similar Documents

Publication Publication Date Title
US10489682B1 (en) Optical character recognition employing deep learning with machine generated training data
US20160171627A1 (en) Processing electronic documents for invoice recognition
US8995768B2 (en) Methods and devices for processing scanned book&#39;s data
WO2018003153A1 (ja) 認識装置及び認識方法
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
Clausner et al. ICDAR2019 competition on recognition of early Indian printed documents–REID2019
JP2021043775A (ja) 情報処理装置及びプログラム
US9323726B1 (en) Optimizing a glyph-based file
US20120014612A1 (en) Document processing apparatus and computer readable medium
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2021140682A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7370733B2 (ja) 情報処理装置、制御方法、及びプログラム
JP4518212B2 (ja) 画像処理装置及びプログラム
US11508139B2 (en) Information processing apparatus and non-transitory computer readable medium
JP4517822B2 (ja) 画像処理装置及びプログラム
JP6682827B2 (ja) 情報処理装置及び情報処理プログラム
JP2005165978A (ja) 帳票ocrプログラム、方法及び装置
US20230099764A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
US20230140357A1 (en) Image processing apparatus, image processing method, and non-transitory storage medium
US11763582B2 (en) Information processing apparatus, control method of information processing apparatus, and non-transitory storage medium
US20230090313A1 (en) Autonomously removing scan marks from digital documents utilizing content-aware filters
US20240193217A1 (en) Information processing apparatus, method of controlling information processing apparatus, and storage medium
US20210056301A1 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231018

R151 Written notification of patent or utility model registration

Ref document number: 7370733

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151