JP2010039810A - 画像処理装置及び画像処理プログラム - Google Patents

画像処理装置及び画像処理プログラム Download PDF

Info

Publication number
JP2010039810A
JP2010039810A JP2008202741A JP2008202741A JP2010039810A JP 2010039810 A JP2010039810 A JP 2010039810A JP 2008202741 A JP2008202741 A JP 2008202741A JP 2008202741 A JP2008202741 A JP 2008202741A JP 2010039810 A JP2010039810 A JP 2010039810A
Authority
JP
Japan
Prior art keywords
character
pixel block
configuration
module
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008202741A
Other languages
English (en)
Inventor
Hironari Konno
裕也 今野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2008202741A priority Critical patent/JP2010039810A/ja
Publication of JP2010039810A publication Critical patent/JP2010039810A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】画像内の文字を認識する場合にあって、文字認識の対象となっている文字の周囲の影響による誤認識の発生を抑制するようにした画像処理装置を提供する。
【解決手段】画像処理装置の画素塊抽出手段は、画像から画素塊を抽出し、画素塊探索手段は、前記画素塊抽出手段によって抽出された画素塊の中で類似する画素塊を探索し、文字認識手段は、前記画像内の文字を認識し、対応付手段は、前記画素塊探索手段によって探索された類似する画素塊に関する情報を用いて、前記文字認識手段によって認識された文字と該文字を構成する該画素塊を対応付け、構成探索手段は、前記対応付手段によって対応付けされた文字毎の画素塊の構成の中で類似する構成を探索し、文字修正手段は、前記構成探索手段によって探索された類似する構成を有する文字を対象として、該文字を修正する。
【選択図】図1

Description

本発明は、画像処理装置及び画像処理プログラムに関する。
文書画像に対して文字認識を行う技術がある。その文字認識処理には、誤認識が起こる可能性がある。そのため、その誤認識に対して、様々な改善手法が用いられている。例えば、自然言語処理やマッチング辞書の充実を図ることが一般的に行われている。
これに関連する技術として、例えば、特許文献1には、走査された文字イメージのストリームに生じる判読困難な文字に類似した候補文字のセットを作成することによって判読困難な文字を識別する光学式文字読み取り処理を改善することを目的とし、文字認識処理は、単語(ワード)の綴りのチェック処理によって判読困難な文字に適合する正しい文字を推理して、不確定に決定された文字だけを置換し、文字を識別する順序は、より判読困難な文字を処理する前に、判読がより容易な文字を処理するような順序で、作為的に遂行され、判読困難な文字が識別されると、識別された文字は、対応する候補文字のセットによって決められた関係により、関連を持つが異なったテキスト的要素(ワード)中の同じ文字との置換を可能にし、同じ文字を含む他のワードの関係か、又は、同じワードに属するという関係によって判読困難な他の文字がより識別しやすくなることが開示されている。
また、例えば、特許文献2には、文字の認識精度を向上させることを課題とし、イメージデータから文字毎にデータ抽出を開始し、文字毎のイメージデータに基づいた認識パターンデータを作成し、認識パターンデータに対する一致パターンデータが検出されないときには、認識パターンデータと類似するパターンデータである候補文字を選択して表示し、文字が指定されたときには、この指定された文字を認識文字として設定すると共に、この文字のパターンデータを認識パターンデータで置き換え、その後、同じ文字のイメージデータが抽出されたときに、正しく文字認識を行うことが開示されている。
別の改善手法として、例えば、特許文献3には、文書画像から文字パターンを切り出し、該切り出された文字パターンの系列においてパターンイメージが類似していて、同一の文字と判断される類似パターンを抽出し、該抽出された類似パターン群を構成する各類似パターンが認識対象の第1文字である確信度をそれぞれ求め、該求められた第1文字についてのそれぞれの確信度を加算し、該加算した値を、前記類似パターン群が前記認識対象の第1文字である確信度とする処理を行い、前記処理を複数の認識対象の文字について行い、加算値が最大となる認識対象の文字を、前記類似パターン群が相当する文字であると決定することを特徴とする文字認識方法が開示されている。
また、例えば、特許文献4には、文字パターンがかすれたりつぶれたりしていても、他の文字との識別のために有効な特徴をあらわしている部位のみを文字種に適した方法で局所的に整形して、少ない処理時間で高精度な識別を行うことができる文字認識装置を提供することを目的とし、第1識別部から出力される候補文字の中でパターンの整形の必要性ありと判定された文字パターンについては、整形情報テーブル内の当該整形情報に基づいて局所整形部によりパターンの整形を行った後、第2特徴抽出部で再度特徴抽出が行われ、第2識別部で詳細識別が行われるので、かすれたりつぶれたりした文字パターンについても高精度に識別を行うことができ、また、整形情報テーブル内の整形情報を指定可能とする入力部を備えたことにより、柔軟でより高精度な識別が可能となることが開示されている。
特開平07−200744号公報 特開2002−230486号公報 特許第3260979号公報 特開平07−282194号公報
本発明は、画像内の文字を認識する場合にあって、文字認識の対象となっている文字の周囲からの影響による誤認識の発生を抑制するようにした画像処理装置及び画像処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、画像から画素塊を抽出する画素塊抽出手段と、前記画素塊抽出手段によって抽出された画素塊の中で類似する画素塊を探索する画素塊探索手段と、前記画像内の文字を認識する文字認識手段と、前記画素塊探索手段によって探索された類似する画素塊に関する情報を用いて、前記文字認識手段によって認識された文字と該文字を構成する該画素塊を対応付ける対応付手段と、前記対応付手段によって対応付けされた文字毎の画素塊の構成の中で類似する構成を探索する構成探索手段と、前記構成探索手段によって探索された類似する構成を有する文字を対象として、該文字を修正する文字修正手段を具備することを特徴とする画像処理装置である。
請求項2の発明は、前記対応付手段によって対応付けされた文字内の画素塊の構成に関する統計情報を抽出する統計情報抽出手段と、前記統計情報抽出手段によって抽出された統計情報を用いて、前記文字認識手段によって認識された文字の切り出し誤りを抽出する切出誤り抽出手段と、前記切出誤り抽出手段によって抽出された文字の切り出し誤りを修正する切出修正手段と、前記切出修正手段によって修正された文字の誤りを修正する切出文字修正手段をさらに具備することを特徴とする請求項1に記載の画像処理装置である。
請求項3の発明は、前記構成探索手段によって探索される構成は、前記文字の外接矩形内を区切り、該文字内の画素塊を囲む矩形の位置、大きさ又は該矩形間の関係であることを特徴とする請求項1又は2に記載の画像処理装置である。
請求項4の発明は、前記構成探索手段によって探索される構成は、前記文字内の画素塊の位置又は該位置間の関係であることを特徴とする請求項1又は2に記載の画像処理装置である。
請求項5の発明は、前記統計情報抽出手段は、前記文字内の予め定められた位置にある画素塊の構成に関する統計情報を抽出することを特徴とする請求項2に記載の画像処理装置である。
請求項6の発明は、前記切出文字修正手段は、前記切出修正手段によって修正された文字を認識することによって、文字の誤りを修正することを特徴とする請求項2から5のいずれか一項に記載の画像処理装置である。
請求項7の発明は、前記切出文字修正手段は、前記文字認識手段によって認識された文字又は前記切出修正手段によって修正された文字によって、文字の誤りを修正することを特徴とする請求項2から5のいずれか一項に記載の画像処理装置である。
請求項8の発明は、コンピュータを、画像から画素塊を抽出する画素塊抽出手段と、前記画素塊抽出手段によって抽出された画素塊の中で類似する画素塊を探索する画素塊探索手段と、前記画像内の文字を認識する文字認識手段と、前記画素塊探索手段によって探索された類似する画素塊に関する情報を用いて、前記文字認識手段によって認識された文字と該文字を構成する該画素塊を対応付ける対応付手段と、前記対応付手段によって対応付けされた文字毎の画素塊の構成の中で類似する構成を探索する構成探索手段と、前記構成探索手段によって探索された類似する構成を有する文字を対象として、該文字を修正する文字修正手段として機能させることを特徴とする画像処理プログラムである。
請求項1の画像処理装置によれば、画像内の文字を認識する場合にあって、文字認識の対象となっている文字の周囲の影響による誤認識の発生を抑制することができる。
請求項2の画像処理装置によれば、画像内の文字の切り出し誤りを抑制することができる。
請求項3の画像処理装置によれば、本構成を有していない場合に比較して、構成の探索をより高速に行うことができる。
請求項4の画像処理装置によれば、本構成を有していない場合に比較して、構成の探索をより高速に行うことができる。
請求項5の画像処理装置によれば、文字形状の特徴に応じて、文字切り出しの誤りに関する統計情報を抽出することができる。
請求項6の画像処理装置によれば、文字認識手段を再度利用することによって本発明の構成を削減することができる。
請求項7の画像処理装置によれば、文字認識を行う場合よりも高速に文字の誤りを修正することができる。
請求項8の画像処理プログラムによれば、画像内の文字を認識する場合にあって、文字認識の対象となっている文字の周囲の影響による誤認識の発生を抑制することができる。
まず、図22、図23等を用いて、文字認識の対象となっている文字の周囲からの影響による誤認識が発生する具体的な場合について説明する。
図22は、周囲にある文字の位置によって、文字切り出しの誤りが発生する例を示す説明図である。図22(b)は、文字が等間隔に並べられたものであり、文字切り出しの誤りが発生し難い例である。図22(a)は、文字間隔が近接しており、文字切り出しに誤りが発生しやすい例である。図22(c)は、文字間隔が異なるものであり、1文字の幅の推定を誤って、文字切り出しに誤りが発生しやすい例である。図22(d)は、文字の横並びの位置が異なるために、文字切り出しに誤りが発生しやすい例である。
図23は、周囲の文字認識結果を含む自然言語処理によって誤りが発生する例を示す説明図である。図23(a)は、「富土山」と認識されるべきところ、「土」と「士」が互いに誤認識しやすい文字であることから、自然言語処理を行った結果「富士山」と誤認識してしまう例である。図23(b)は、「束京」と認識されるべきところ、同様に自然言語処理によって「東京」と誤認識してしまう例である。
また、同じ文書に対して、同じスキャナでその文書画像を読み込んだ場合であっても、文字認識の処理結果が異なる場合がある。これも、スキャナによる読み込みの際に、文字の周囲に発生するノイズの影響が原因となっている。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。
以下、文字認識の対象画像として、文書画像を主に例示して説明する。なお、文書画像とは、文字及び場合によっては表、図形、写真等を含むデジタル画像であり、具体的にはビジネスに用いられる文書、書籍等の画像がある。
また、画素塊とは、画素(黒画素又は白画素のいずれであってもよい。以下、黒画素の例を示す)の連結(例えば、4連結又は8連結)する画素領域をいう。
本実施の形態は、図1に示すように、画像受付モジュール100、連結成分抽出モジュール105、類似成分探索モジュール110、文字認識モジュール115、文字・連結成分対応付モジュール120、構成探索モジュール125、文字認識結果修正モジュール130、構成情報集計モジュール135、切り出しミス抽出モジュール140、切り出し修正モジュール145、切り出し文字修正モジュール150、出力モジュール155を有している。
画像受付モジュール100は、連結成分抽出モジュール105と接続されている。対象となる文書画像を受け付け、その文書画像を連結成分抽出モジュール105に渡す。文書画像を受け付けるとは、例えば、ハードディスク(コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている文書画像を読み出すこと、スキャナ等で入力した文書画像を受け付けること、ファックスによって文書画像を受信すること等がある。
例えば、図3は、受け付けた文書画像内に含まれている文字を示しており、文字認識の対象となる文字である。
連結成分抽出モジュール105は、画像受付モジュール100、類似成分探索モジュール110と接続されている。画像受付モジュール100から文書画像を受け取り、その文書画像から画素塊を抽出する。抽出した画素塊に関する情報(例えば、その画素塊の位置、画素塊のラベル(その画素を一意に特定できるようにした識別子)、画素塊の画像等)を類似成分探索モジュール110に渡す。
例えば、図4は、連結成分抽出モジュール105による処理例を示す説明図である。図3の例に示した文字から画素塊を取り出し、その外接矩形を示したものである。例えば、「話」という文字は画素塊を囲む外接矩形411から外接矩形416が取り出され、「題」という文字は画素塊を囲む外接矩形421から外接矩形423が取り出される。そして、例えば、図5は連結成分抽出モジュール105による処理結果の例を示す説明図である。つまり、画素塊にラベルを付した結果を示したものであり、外接矩形411内の画素塊にはラベル1を付し、外接矩形412内の画素塊にはラベル2を付したものである。
類似成分探索モジュール110は、連結成分抽出モジュール105、文字認識モジュール115と接続されている。連結成分抽出モジュール105によって抽出された画素塊の中で類似する画素塊を探索する。ここで、類似する画素塊とは、同一の形状を有する画素塊同士を含み、異なる部分はあるが微少(後の処理に対して影響を及ぼさない程度)であるものを含む(以下、「類似」の用語は同等の意味で用いる)。そして、類似する画素塊群に対しては、同じグループID(その類似する画素塊のグループを一意に特定できるようにした識別子であり、例えば、そのグループ内で最も若い画素塊ラベルを用いてもよい)を付す。そして、探索結果を文字認識モジュール115(又は文字・連結成分対応付モジュール120)へ渡す。
例えば、図6は、類似成分探索モジュール110による処理結果の例を示す説明図である。つまり、画素塊にグループIDを付した結果を示したものであり、外接矩形411、413、414、441、443、444内の画素塊は、類似する画素塊であり、グループIDを1としたものである。
文字認識モジュール115は、類似成分探索モジュール110、文字・連結成分対応付モジュール120と接続されている。画像受付モジュール100によって受け付けられた画像内の文字を認識する。ここでの文字認識処理は、文字切り出し処理を含み、既存の文字認識処理を用いる。例えば、画像内から文字を切り出して、その文字毎に特徴を抽出し、予め用意された文字認識用辞書とのマッチングを行って、文字認識結果(その文字のテキスト情報(文字コード)、その文字の外接矩形の位置、大きさ等)を得る。そして、その文字認識結果を文字・連結成分対応付モジュール120に渡す。
例えば、図7は、文字認識モジュール115による文字切り出しの処理例を示す説明図である。図3の例に示した画像内の文字を切り出した結果、その文字を囲む文字矩形710から文字矩形750を抽出したものである。そして、文字矩形710に「話」の文字コードを割り振り、文字矩形720には「題」の文字コードを割り振る。その他に、文字矩形710の情報として、図8の例に示すような文字矩形710の左上座標711、幅712、高さ713を抽出する。これらは、文字・連結成分対応付モジュール120による処理を行うための文字矩形の情報である。
なお、連結成分抽出モジュール105と類似成分探索モジュール110による処理は、文字認識モジュール115の後に行ってもよい。
文字・連結成分対応付モジュール120は、文字認識モジュール115、構成探索モジュール125と接続されている。類似成分探索モジュール110によって探索された類似する画素塊に関する情報を用いて、文字認識モジュール115によって認識された文字とその文字を構成する画素塊を対応付ける。そして、対応付けの結果を構成探索モジュール125へ渡す。
例えば、図9は、文字・連結成分対応付モジュール120による処理例を示す説明図である。文字矩形内に含まれる画素塊を抽出し、その画素塊のグループIDで構成したものである。例えば、文字矩形710は、外接矩形411から外接矩形416内の画素塊を含み、その画素塊のグループIDは外接矩形411が1、外接矩形412が2、外接矩形413が1、外接矩形414が1、外接矩形415が5、外接矩形416が6となり、それらが文字矩形710内の文字と対応付けられる。
構成探索モジュール125は、文字・連結成分対応付モジュール120、文字認識結果修正モジュール130と接続されている。文字・連結成分対応付モジュール120によって対応付けされた文字毎の画素塊の構成の中で類似する構成を探索する。そして、その探索結果を文字認識結果修正モジュール130に渡す。ここでの探索される構成とは、文字の外接矩形内を区切り、その文字内の画素塊を囲む矩形の位置、大きさ又はその矩形間の関係である。なお、ここで、画素塊を囲む矩形とは、例えば、その画素塊の一部を含む矩形であって、必ずしも外接矩形とならなくてもよく、文字の外接矩形内を隙間が生じないように区切るものである。つまり、文字の外接矩形内を表構造と同等のものとして取り扱えるようにしたものである。また、その文字内の画素塊の位置又はその位置間の関係であってもよい。
そして、図10の例に示す構成情報とは、例えば、文字矩形710の構成情報は、構成要素1011から構成要素1016の位置(例えば、左上の座標)、大きさ(例えば、幅、高さ等)、位置関係(例えば、構成要素1011は左上にあり、下に構成要素1012、右に構成要素1016がある等)である。そして、各々のグループIDを含めるようにしてもよい。例えば、構成情報として画素塊の外接矩形の位置間の関係を採用した場合は、文字の外接矩形内で左上から下へ移動して、最下位へ移動したならば、その右上へ戻り、また下方向へなぞるようにしてグループIDを抽出したものであってもよい。具体的には、文字矩形710の構成情報は「1、2、1、1、5、6」のようになり、文字矩形740の構成情報も「1、2、1、1、5、6」のようになる。
そして、構成探索モジュール125は、構成情報が類似する文字を探索する。図10の例の場合、例えば、文字矩形710の構成情報(構成要素1011から構成要素1016の位置関係等)と類似する構成情報を有する文字を探索する。すると、文字矩形740が文字矩形710と同じ構成情報を有していることが判明する。つまり、構成要素1011のグループID:1と構成要素1041のグループIDは同じであり、その位置(文字の外接矩形内で左上に位置していること等)、又は大きさ等も同等であることから、文字矩形710と文字矩形740とは類似する構成情報を有する文字であると判断する。
また、例えば、図11、12は、図10の例に示した構成情報とは別の構成情報の抽出例を示す説明図である。つまり、その文字内の画素塊の位置又はその位置間の関係の例を示している。文字内の画素塊の位置としては、例えば、画素塊の中心位置、重心位置、左上位置、右下位置等、その画素塊の外接矩形の中心位置、重心位置、左上位置、右下位置等がある。なお、中心位置とは両端から等距離にある位置をいい、重心位置とは画素の重み(例えば、黒画素は1、白画素は0)を加味してバランスがとれる位置をいう。
図11は、図9の例に示した状態から各画素塊の外接矩形の中心を抽出したものである。つまり、例えば、外接矩形中心1111は図9の例に示した外接矩形411の中心であり、外接矩形中心1112は外接矩形412の中心である。なお、中心以外に画素塊の外接矩形の左上の座標、中心等であってもよい。
図12は、図11の例に示した状態から中心位置のみを取り出して示したものである。
そして、図12の例に示す構成情報とは、例えば、文字矩形710の構成情報は、外接矩形中心1111から外接矩形中心1116の位置、位置関係(例えば、外接矩形中心1111は左上にあり、下に外接矩形中心1112、右下に外接矩形中心1116がある等)である。そして、各々のグループIDを含めるようにしてもよい。例えば、構成情報として画素塊の中心の位置間の関係を採用した場合は、文字内の画素塊を左上から下へ移動して、最下位へ移動したならば、その右上へ戻り、また下方向へなぞるようにしてグループIDを抽出したものであってもよい。具体的には、文字矩形710の構成情報は「1、2、1、1、5、6」のようになり、文字矩形740の構成情報も「1、2、1、1、5、6」のようになる。
そして、構成探索モジュール125は、構成情報が類似する文字を探索する。図12の例の場合、例えば、文字矩形710の構成情報(外接矩形中心1111から外接矩形中心1116の位置関係等)と類似する構成情報を有する文字を探索する。すると、文字矩形740が文字矩形710と同じ構成情報を有していることが判明する。つまり、外接矩形中心1111のグループID:1と外接矩形中心1141のグループIDは同じであり、その位置(文字の外接矩形内で左上に位置していること等)、又は位置関係も同等であることから、文字矩形710と文字矩形740とは類似する構成情報を有する文字であると判断する。
文字認識結果修正モジュール130は、構成探索モジュール125、構成情報集計モジュール135と接続されている。構成探索モジュール125によって探索された類似する構成を有する文字を対象として、その文字を修正する。そして、修正した結果を構成情報集計モジュール135又は出力モジュール155へ渡す。
つまり、構成情報が類似しているものは、同じ文字であると判断し、文字認識モジュール115による認識結果を修正する。例えば、構成情報が類似しているものの認識結果(文字コード)毎に計数して、多い結果のものを認識結果として採用するものである(多数決による決定)。図10の例では、文字矩形710と文字矩形740が、類似する構成情報を有している。ここで、文字矩形710と文字矩形740は、共に「話」と認識されてているので修正は不要である。
構成情報集計モジュール135は、文字認識結果修正モジュール130、切り出しミス抽出モジュール140と接続されている。文字・連結成分対応付モジュール120によって対応付けされた文字内の画素塊の構成に関する統計情報を抽出する。また、その文字内の予め定められた位置にある画素塊の構成に関する統計情報を抽出するようにしてもよい。例えば、予め定められた位置とは、漢字の部首であるへん(その文字の左側にある)、つくり(その文字の右側にある)、かんむり(その文字の上側にある)等の位置をいう。そして、その抽出した統計情報を切り出しミス抽出モジュール140に渡す。
例えば、図10の例に示した構成情報のうち、図13の例に示すような文字内の構成情報の一部である構成要素1011から構成要素1015(グループIDの列として表現すると「1、2、1、1、5」)を対象として、同等の構成情報を文字矩形720以降の文字矩形の構成情報から検索する。その結果、このような構成情報は、図10の例に示したものの中では、2つ存在すること(文字矩形740内の構成要素1041から構成要素1045)が判明する。
そして、構成情報集計モジュール135は、複数あった構成情報の文字矩形内における位置情報を抽出する。位置情報としては、例えば、文字矩形内の左側、右側、上側等である。具体的には、構成要素1011から構成要素1015の構成情報は、文字矩形710、740においては、図14の例に示すように、文字矩形1400内の対象構成1410の位置、つまり左側(へん)にあることを抽出する。
そして、構成要素1011から構成要素1015の構成が、文字矩形内の予め定められた位置、例えば、図15(a)の例に示すように対象構成1510が文字矩形1500内の左側にあるものがいくつあるか、図15(b)の例に示すように対象構成1560が文字矩形1550内の中心にあるものがいくつあるかという統計情報を抽出する。
また、同様に、図16から図18を用いて説明する。例えば、図12の例に示した構成情報のうち、図16の例に示すような文字内の構成情報の一部である外接矩形中心1111から外接矩形中心1115(グループIDの列として表現すると「1、2、1、1、5」)を対象として、同等の構成情報を文字矩形720以降の文字矩形の構成情報から検索する。その結果、このような構成情報は、図12の例に示したものの中では、2つ存在すること(文字矩形740内の外接矩形中心1141から外接矩形中心1145)が判明する。
そして、構成情報集計モジュール135は、複数あった構成情報の文字矩形内における位置情報を抽出する。位置情報としては、例えば、文字矩形内の左側、右側、上側等である。具体的には、外接矩形中心1111から外接矩形中心1115の構成情報は、文字矩形710、740においては、図17の例に示すように、文字矩形1700内の対象構成1710の位置、つまり左側(へん)にあることを抽出する。
そして、外接矩形中心1111から外接矩形中心1115の構成が、文字矩形内の予め定められた位置、例えば、図18(a)の例に示すように対象構成1810が文字矩形1800内の左側にあるものがいくつあるか、図18(b)の例に示すように対象構成1860が文字矩形1850内の中心にあるものがいくつあるかという統計情報を抽出する。
切り出しミス抽出モジュール140は、構成情報集計モジュール135、切り出し修正モジュール145と接続されている。構成情報集計モジュール135によって抽出された統計情報を用いて、文字認識モジュール115によって認識された文字の切り出し誤りを抽出する。
例えば、対象としている構成情報が、文字矩形内の左側にあるもの(図15(a)、図18(a))の出現個数と、文字矩形内の中心にあるもの(図15(b)、図18(b))の出現個数とを比較して、その出現個数が少ないものを文字の切り出し誤りが発生している可能性があると判断する。例えば、文字矩形内の左側にあるものの出現回数が10回であり、文字矩形内の中心にあるものの出現回数が1回であるとすると、1回しか発生していない文字矩形内の中心にあるもの(図15(b)、図18(b))は、文字の切り出し誤りが発生している可能性があると判断する。そして、その文字矩形内の中心にあるものは、文字矩形内の左側にあるもの(へん)である可能性があると判断する。
切り出し修正モジュール145は、切り出しミス抽出モジュール140、切り出し文字修正モジュール150と接続されている。切り出しミス抽出モジュール140によって抽出された文字の切り出し誤りを修正する。そして、修正した文字切り出しの結果を切り出し修正モジュール145に渡す。
つまり、文字の切り出し誤りと判断された文字とその文字の前にある文字又は後にある文字とを組み合わせて、文字の切り出し誤りを修正する。例えば、へんである可能性があるもの(図19(a)の例に示す文字矩形1910)とつくりである可能性があるもの(図19(b)の例に示す文字矩形1920)とが連続している場合は、その2つの文字を組み合わせる(図20の例に示す文字矩形2010)。
切り出し文字修正モジュール150は、切り出し修正モジュール145、出力モジュール155と接続されている。切り出し修正モジュール145によって修正された文字の誤りを修正する。なお、切り出し修正モジュール145によって修正された文字を、再度文字認識モジュール115によって認識することによって、文字の誤りを修正するようにしてもよい。また、文字認識モジュール115によって認識された文字又は文字認識結果修正モジュール130によって修正された文字によって、文字の誤りを修正するようにしてもよい。つまり、文字の切り出し誤りが修正された文字内の構成情報と類似している構成情報を有しているものを探索して、その探索された文字の文字認識結果を、切り出し修正モジュール145から渡された文字の文字コードとしてもよい。そして、修正した結果を出力モジュール155へ渡す。
なお、構成情報集計モジュール135から切り出し文字修正モジュール150までの処理は、行われなくてもよい場合がある。例えば、操作者の指示(文字切り出しミスの修正処理が不要であるとの指示)に応じた場合、又は、文字認識モジュール115によって切り出された文字の幅が、その幅の平均の半分以下のものが含まれない場合(つまり、誤った文字切り出しによって文字の半分となったものが発生しない場合)等に、その処理を行わない。
出力モジュール155は、切り出し文字修正モジュール150と接続されており、切り出し文字修正モジュール150による修正が行われた文字の認識結果を出力する。また、文字認識結果修正モジュール130による修正が行われた文字の認識結果を出力するようにしてもよい。
また、画像受付モジュール100は、複数の画像を受け付けるようにしてもよい。そして、文字認識モジュール115は、既に文字認識を行った文書画像内にあった文字の認識結果等を記憶しておき、2ページ目以降の文書画像に対して、文字認識処理を行うときに、前ページまでの認識結果等を利用するようにしてもよい。
例えば、図21は、文字認識モジュール115が記憶する文字情報テーブル2100のデータ構造例を示す説明図である。文字情報テーブル2100は、文字欄2101、左上座標欄2102、右下座標欄2103、マッチング用データ欄2104、認識用特徴量A欄2105、認識用特徴量B欄2106等を有している。つまり、文字欄2101によって文字認識結果(文字コード)、左上座標欄2102、右下座標欄2103によって切り出した文字の位置、マッチング用データ欄2104によってその文字の画像、認識用特徴量A欄2105、認識用特徴量B欄2106によって文字認識で用いた特徴量を記憶する。
また、文字情報テーブル2100には、文字・連結成分対応付モジュール120によって対応付けられた文字内の構成情報を記憶するようにしてもよい。そして、類似成分探索モジュール110は、その文字情報テーブル2100を用いて、複数ページに渡って類似する画素塊を探索するようにしてもよい。
図2は、本実施の形態による処理例を示すフローチャートである。
ステップS202では、画像受付モジュール100が文書画像を受け付けて、連結成分抽出モジュール105がその文書画像内の画素の連結成分(画素塊)を抽出する。
ステップS204では、類似成分探索モジュール110が、ステップS202で文書画像内で抽出した連結成分(画素塊)で類似するものを探索する。
ステップS206では、類似成分探索モジュール110が、ステップS204で探索した類似する画素塊にグループIDを付して、その位置情報を保存する。つまり、画素塊の位置情報とグループIDとを対応させて記憶する。
ステップS208では、文字認識モジュール115が、文書画像に対して、文字認識処理を行う。
ステップS210では、文字認識モジュール115が、文字毎に、ステップS208での文字認識結果である文字コードとその文字矩形の位置情報とを対応付けて保存する。
ステップS212では、文字・連結成分対応付モジュール120が、認識対象である文字矩形の位置情報とグループIDが付された画素塊の位置情報とを対応付ける。
ステップS214では、構成探索モジュール125が、個々の認識対象である文字矩形内の構成情報が類似するものを探索する。
ステップS216では、文字認識結果修正モジュール130が、類似する構成情報を有する文字矩形に関する情報を保存する。
ステップS218では、文字認識結果修正モジュール130が、ステップS216で保存された類似する構成情報を有する文字に対して、多数決を用いて認識結果を修正する。
ステップS220では、構成情報集計モジュール135が、文字切り出しについての解析(文字切り出し誤りが発生しているか否かの解析)を行うか否かを判断する。かかる判断において解析を行うと判断した場合はステップS222へ進み、それ以外の場合は終了する(ステップS299)。
ステップS222では、構成情報集計モジュール135が、認識対象である文字の構成情報を集計する。例えば、類似する構成情報の文字矩形内での位置(へんである左側にあるか等)の集計を行う。
ステップS224では、切り出しミス抽出モジュール140が、ステップS222での集計結果より、その集計傾向にそぐわない文字切り出し結果の座標を抽出する。つまり、文字切り出し誤りが生じている可能性がある文字を抽出する。
ステップS226では、切り出し修正モジュール145が、ステップS224で抽出された文字について、その文字切り出しを修正して、切り出し文字修正モジュール150が、例えば、再度文字認識処理を行って、その認識結果を、その文字切り出しを修正した文字の文字コードとして採用する。
図24を参照して、本実施の形態のハードウェア構成例について説明する。図24に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部2417と、プリンタなどのデータ出力部2418を備えたハードウェア構成例を示している。
CPU(Central Processing Unit)2401は、前述の実施の形態において説明した各種のモジュール、すなわち、画像受付モジュール100、連結成分抽出モジュール105、類似成分探索モジュール110、文字・連結成分対応付モジュール120、構成探索モジュール125等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
ROM(Read Only Memory)2402は、CPU2401が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)2403は、CPU2401の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス2404により相互に接続されている。
ホストバス2404は、ブリッジ2405を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス2406に接続されている。
キーボード2408、マウス等のポインティングデバイス2409は、操作者により操作される入力デバイスである。ディスプレイ2410は、液晶表示装置又はCRT(Cathode Ray Tube)などがあり、各種情報をテキストやイメージ情報として表示する。
HDD(Hard Disk Drive)2411は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU2401によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、受け付けた画像、文字認識結果、文字情報テーブル2100などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ2412は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体2413に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース2407、外部バス2406、ブリッジ2405、及びホストバス2404を介して接続されているRAM2403に供給する。リムーバブル記録媒体2413も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート2414は、外部接続機器2415を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート2414は、インタフェース2407、及び外部バス2406、ブリッジ2405、ホストバス2404等を介してCPU2401等に接続されている。通信部2416は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部2417は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部2418は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
なお、図24に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図24に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図24に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blue−ray Disk)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態による処理例を示すフローチャートである。 画像内の対象とする文字を示す説明図である。 連結成分抽出モジュールによる処理例を示す説明図である。 連結成分抽出モジュールによる処理結果の例を示す説明図である。 類似成分探索モジュールによる処理結果の例を示す説明図である。 文字認識モジュールによる文字切り出しの処理例を示す説明図である。 文字・連結成分対応付モジュールによる処理を行うための文字矩形の情報例を示す説明図である。 文字・連結成分対応付モジュールによる処理例を示す説明図である。 構成情報の例を示す説明図である。 別の構成情報の抽出例を示す説明図である。 別の構成情報の抽出例を示す説明図である。 文字内の構成情報の例を示す説明図である。 文字内の構成情報の位置の例を示す説明図である。 統計情報の例を示す説明図である。 文字内の構成情報の例を示す説明図である。 文字内の構成情報の位置の例を示す説明図である。 統計情報の例を示す説明図である。 文字切り出しの誤りの例を示す説明図である。 文字切り出しの誤りを修正した文字の例を示す説明図である。 文字情報テーブルのデータ構造例を示す説明図である。 文字切り出しの誤りが発生する例を示す説明図である。 自然言語処理によって誤りが発生する例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
符号の説明
100…画像受付モジュール
105…連結成分抽出モジュール
110…類似成分探索モジュール
115…文字認識モジュール
120…文字・連結成分対応付モジュール
125…構成探索モジュール
130…文字認識結果修正モジュール
135…構成情報集計モジュール
140…切り出しミス抽出モジュール
145…切り出し修正モジュール
150…切り出し文字修正モジュール
155…出力モジュール

Claims (8)

  1. 画像から画素塊を抽出する画素塊抽出手段と、
    前記画素塊抽出手段によって抽出された画素塊の中で類似する画素塊を探索する画素塊探索手段と、
    前記画像内の文字を認識する文字認識手段と、
    前記画素塊探索手段によって探索された類似する画素塊に関する情報を用いて、前記文字認識手段によって認識された文字と該文字を構成する該画素塊を対応付ける対応付手段と、
    前記対応付手段によって対応付けされた文字毎の画素塊の構成の中で類似する構成を探索する構成探索手段と、
    前記構成探索手段によって探索された類似する構成を有する文字を対象として、該文字を修正する文字修正手段
    を具備することを特徴とする画像処理装置。
  2. 前記対応付手段によって対応付けされた文字内の画素塊の構成に関する統計情報を抽出する統計情報抽出手段と、
    前記統計情報抽出手段によって抽出された統計情報を用いて、前記文字認識手段によって認識された文字の切り出し誤りを抽出する切出誤り抽出手段と、
    前記切出誤り抽出手段によって抽出された文字の切り出し誤りを修正する切出修正手段と、
    前記切出修正手段によって修正された文字の誤りを修正する切出文字修正手段
    をさらに具備することを特徴とする請求項1に記載の画像処理装置。
  3. 前記構成探索手段によって探索される構成は、前記文字の外接矩形内を区切り、該文字内の画素塊を囲む矩形の位置、大きさ又は該矩形間の関係である
    ことを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記構成探索手段によって探索される構成は、前記文字内の画素塊の位置又は該位置間の関係である
    ことを特徴とする請求項1又は2に記載の画像処理装置。
  5. 前記統計情報抽出手段は、前記文字内の予め定められた位置にある画素塊の構成に関する統計情報を抽出することを特徴とする請求項2に記載の画像処理装置。
  6. 前記切出文字修正手段は、前記切出修正手段によって修正された文字を認識することによって、文字の誤りを修正する
    ことを特徴とする請求項2から5のいずれか一項に記載の画像処理装置。
  7. 前記切出文字修正手段は、前記文字認識手段によって認識された文字又は前記切出修正手段によって修正された文字によって、文字の誤りを修正する
    ことを特徴とする請求項2から5のいずれか一項に記載の画像処理装置。
  8. コンピュータを、
    画像から画素塊を抽出する画素塊抽出手段と、
    前記画素塊抽出手段によって抽出された画素塊の中で類似する画素塊を探索する画素塊探索手段と、
    前記画像内の文字を認識する文字認識手段と、
    前記画素塊探索手段によって探索された類似する画素塊に関する情報を用いて、前記文字認識手段によって認識された文字と該文字を構成する該画素塊を対応付ける対応付手段と、
    前記対応付手段によって対応付けされた文字毎の画素塊の構成の中で類似する構成を探索する構成探索手段と、
    前記構成探索手段によって探索された類似する構成を有する文字を対象として、該文字を修正する文字修正手段
    として機能させることを特徴とする画像処理プログラム。
JP2008202741A 2008-08-06 2008-08-06 画像処理装置及び画像処理プログラム Pending JP2010039810A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008202741A JP2010039810A (ja) 2008-08-06 2008-08-06 画像処理装置及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008202741A JP2010039810A (ja) 2008-08-06 2008-08-06 画像処理装置及び画像処理プログラム

Publications (1)

Publication Number Publication Date
JP2010039810A true JP2010039810A (ja) 2010-02-18

Family

ID=42012283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008202741A Pending JP2010039810A (ja) 2008-08-06 2008-08-06 画像処理装置及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP2010039810A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10146079B2 (en) 2016-08-29 2018-12-04 Japan Display Inc. Display device comprising a shield line that overlaps an intersection area in which a first semiconductor layer intersects a scanning line

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10146079B2 (en) 2016-08-29 2018-12-04 Japan Display Inc. Display device comprising a shield line that overlaps an intersection area in which a first semiconductor layer intersects a scanning line
US10359662B2 (en) 2016-08-29 2019-07-23 Japan Display Inc. Display device comprising a conductive contact portion having a first protrusion and a second protrusion electrically connected by a conductive connection
US10670932B2 (en) 2016-08-29 2020-06-02 Japan Display Inc. Array substrate comprising a conductive layer directly contacting a first protrusion and a second protrusion that respectively protrude from a scanning line and a metal line and display device having the same

Similar Documents

Publication Publication Date Title
JP6119952B2 (ja) 画像処理装置及び画像処理プログラム
US9280725B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
JP5862260B2 (ja) 情報処理装置及び情報処理プログラム
US10643097B2 (en) Image processing apparatuses and non-transitory computer readable medium
US8751214B2 (en) Information processor for translating in accordance with features of an original sentence and features of a translated sentence, information processing method, and computer readable medium
JP2009251872A (ja) 情報処理装置及び情報処理プログラム
JP6221220B2 (ja) 画像処理装置及び画像処理プログラム
JP4780184B2 (ja) 画像処理装置及び画像処理プログラム
JP2011248415A (ja) 画像処理装置及び画像処理プログラム
JP2010039810A (ja) 画像処理装置及び画像処理プログラム
JP5262778B2 (ja) 画像処理装置及び画像処理プログラム
JP5489894B2 (ja) 画像処理装置及び画像処理プログラム
JP2017010187A (ja) 画像処理装置及び画像処理プログラム
US20150043832A1 (en) Information processing apparatus, information processing method, and computer readable medium
JP5928714B2 (ja) 情報処理装置及び情報処理プログラム
JP2011008584A (ja) 情報処理装置及び情報処理プログラム
JP6187307B2 (ja) 画像処理装置及び画像処理プログラム
JP6003375B2 (ja) 画像処理装置及び画像処理プログラム
JP6323009B2 (ja) 画像処理装置及び画像処理プログラム
JP5888222B2 (ja) 情報処理装置及び情報処理プログラム
JP5949248B2 (ja) 情報処理装置及び情報処理プログラム
JP6409423B2 (ja) 画像処理装置及び画像処理プログラム
JP4973536B2 (ja) 画像処理装置及び画像処理プログラム
JP2008108153A (ja) 情報処理システムおよび情報処理プログラム
JP6003677B2 (ja) 画像処理装置及び画像処理プログラム