JP2006106903A - 画像処理装置 - Google Patents
画像処理装置 Download PDFInfo
- Publication number
- JP2006106903A JP2006106903A JP2004289370A JP2004289370A JP2006106903A JP 2006106903 A JP2006106903 A JP 2006106903A JP 2004289370 A JP2004289370 A JP 2004289370A JP 2004289370 A JP2004289370 A JP 2004289370A JP 2006106903 A JP2006106903 A JP 2006106903A
- Authority
- JP
- Japan
- Prior art keywords
- character
- image
- image data
- microelement
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【解決手段】この画像処理装置は、文書から読み取った画像データを入力する画像入力部1と、画像入力部1より入力された画像データを記憶する画像メモリ部2と、画像メモリ部2の画像データから文字列を認識するための文字列領域を検出するレイアウト解析部3と、文字認識用の辞書7と、レイアウト解析部3により検出された文字列領域に対して、辞書7を利用して文字認識を行うことで文字コードを得る文字認識部4と、文字コードに含まれる微小要素の情報が登録された微小要素データベース5と、文字認識結果の文字コードをキーにして微小要素データベース5を参照して文字コードに微小要素が含まれるか否かを判定し、微小要素が含まれる文字コードに対して微小要素を除外して画像メモリ部2の画像データからノイズ成分を除去する画像処理部6とを備える。
【選択図】図1
Description
この種の先行技術としては、例えば黒連結成分の矩形を抽出した後、文字の大きさを推定し、文字以外の矩形をノイズとして除去する技術が開示されている(例えば特許文献1参照)。
本発明の画像処理装置は、文書をイメージスキャンして得た画像データが記憶する画像データ記憶手段と、前記画像データ記憶手段に記憶された画像データから文字を認識するための文字領域を検出する文字領域検出手段と、前記文字列領域検出手段により検出された文字領域に対して、文字認識を行い認識結果として文字コードを出力する文字認識部と、文字毎に微小要素が含まれているか否かを示す情報が登録された微小要素データベースと、前記文字認識部による文字認識結果の文字列から、原文として適切な文字列を推定する原文推定部と、前記微小要素データベースを参照して、前記文字列領域検出手段により検出された文字領域に、前記原文推定部により推定された文字列の微小要素が存在するか否かを確認し、微小要素が存在しない場合、前記文字領域に対して該当する微小要素を付加する画像処理を行う画像修正手段とを具備したことを特徴とする。
なお、上記画像処理装置において、ノイズ成分が除去された画像データに含まれる文字に対する所定の処理を実行する文字処理手段を備えてもよい。文字処理手段として、例えばノイズ成分が除去された画像データに対して文字認識処理を実行する手段を備えることで、文字認識の精度を向上することができる。また、微小要素を考慮するだけではなく、さらに高度な文脈知識等の技術を組み合わせてノイズ除去による副作用を軽減してもよい。
図2はこの画像処理装置の第1動作例を示すフローチャートである。
この場合、画像入力部1は、文書の表面をイメージスキャン走査することで、文書の画像データを取り込み(S101)、文字情報を含む画像データ(イメージデータ)を画像メモリ部2に展開する。
レイアウト解析部3は、画像メモリ部2に展開された画像データに対して文字レイアウト情報を用いて文書中の文字のレイアウトを解析し(S102)、文字列領域を抽出する。
そして、画像処理部6は、微小要素が含まれている文字を認識した文字列領域については微小要素を残しつつノイズ成分を除去すると共に、残りの文字列領域(画像データ)については微小要素を考慮せずにノイズ成分を除去するノイズ除去処理を実行することで(S105)、ノイズを消去した画像データを生成し、ノイズ除去済みの画像データとして、画像データ(元画像)とは別にして画像メモリ部2へ記憶する。画像メモリ部2へ画像データ(元画像)とノイズ除去済みの画像データを別々に記憶するのは、それぞれ別個に加工できるようにするためである。
とを文字コードに対応付けて記憶している。例えば文字「太」を表現する文字コードに対応付けて、微小要素「、」が含まれていることの情報及びその微小要素が文字の中央したに位置するとの情報が記憶されている。また、アルファベットの小文字の「i」は中央上に微小要素が位置することを示す情報が記憶される。同様に文字「で」を表す文字コードに対応付けて、微小要素を含むことを示す情報と微小要素が文字の右上に位置する情報とを対応付けている。また、文字(記号)の「。」「、」「.」「・」、「:」、「,」「;」、「“」、「‘」、「゜」等を表現する文字コードには、微小要素を含むとの情報が対応付けられている。
レイアウト解析部3は、画像メモリ部2に展開された画像データに対して文字レイアウト情報を用いて文書中の文字のレイアウトを解析し(S202)、文字列領域を抽出する。
そして、画像処理部6は、文字列領域中の微小領域が含まれている文字に対しては微小要素部位を残すようなノイズ除去処理を行い、それ以外の文字列領域や文字列領域外に対しては通常のノイズ除去処理を実行することで(S205)、ノイズを消去した画像データを生成し、ノイズ除去済みの画像データとして、画像データ(元画像)とは別にして画像メモリ部2へ記憶する。画像メモリ部2へ画像データ(元画像)とノイズ除去済みの画像データを別々に記憶するのは、それぞれ別個に加工できるようにするためである。
文字認識部4は、ノイズなどの影響を受けて、文字を誤って区切ったり、誤った文字認識結果を出力する場合がある。
「晴」と「天」の間にあるノイズの影響で2つの文字が1つの文字として処理されたため、「晴天」という文字の認識に失敗している(図10で文字認識結果の□は文字認識に失敗したことを示す)。
また、文字認識の結果と語彙や文脈などの文書知識を用いることで、文書画像中の失われた微小要素を付加することも可能である。不適切にノイズ除去処理を施された文書画像や、複写機でコピーを繰り返した文書あるいはファクシミリ送信された文書などでは、微小要素が失われて画像入力される場合がある。このような場合でも、文書画像中の失われた微小要素が推定できる場合には、これらを画像処理で付加することで画像の補正や修正を行うことができる。
この場合、この画像処理装置に、文書中の前後の文字列の文脈、語彙を解析するための知識が記憶された知識データベースと、文字認識部4による文字認識結果の文字列に対して知識データベースを基に原文として適切な文字列を推定する原文推定部と、微小要素データベース5を参照して、レイアウト解析部3により検出された文字領域に、原文推定部により推定された文字列の微小要素が存在するか否かを確認し、微小要素が存在しない場合、文字領域に対して該当する微小要素を付加する画像処理を行う画像修正手段としての画像処理部6を備える。
そして、文字認識部4による文字認識結果の文字列として、例えば「フロクラム」が得られた場合、原文推定部は、知識データベースを参照し、文章中の前後の文脈や語彙から、「フロクラム」という文字列の原文として「プログラム」が適切であるものと推定する。この場合、画像処理部6は、画像中で「フロクラム」と認識された文字領域中の「フ」あるいは「ク」の右上領域を確認し、もしその領域に例えば濁点・半濁点等の微小要素が存在しない場合にはそれらの濁点・半濁点を画像処理によって文字認識結果の文字列に付加することにより画像を修正する。
これにより、ファクシミリ送信された文書等では、微小要素が失われていた入力画像についても、送信元の文章の記載内容を復元することができる。
Claims (4)
- 文書をイメージスキャンして得た画像データが記憶する画像データ記憶手段と、
前記画像データ記憶手段に記憶された画像データから文字を認識するための文字領域を検出する文字領域検出手段と、
前記文字列領域検出手段により検出された文字領域に対して、文字認識を行い認識結果として文字コードを出力する文字認識部と、
文字毎に微小要素が含まれているか否かを示す情報が登録された微小要素データベースと、
前記文字認識部による文字認識結果の文字コードをキーにして前記微小要素データベースを参照して文字コードが表現する文字に微小要素が含まれているか否かを判定する微小要素判定手段と、
前記微小要素判定手段による判定の結果、微小要素を含む文字コードを得た文字領域の微小要素部分をノイズ除去対象から外して前記画像データ記憶手段に記憶されていた画像データからノイズ成分を除去するノイズ除去手段と
を具備したことを特徴とする画像処理装置。 - 請求項1記載の画像処理装置において、
前記ノイズ除去手段によりノイズ成分が除去された画像データに含まれる文字に対する所定の処理を実行する文字処理手段を具備したことを特徴とする画像処理装置。 - 請求項2記載の画像処理装置において、
前記文字処理手段は、
前記ノイズ成分が除去された画像データに対して文字認識処理を実行する手段を具備したことを特徴とする画像処理装置。 - 文書をイメージスキャンして得た画像データが記憶する画像データ記憶手段と、
前記画像データ記憶手段に記憶された画像データから文字を認識するための文字領域を検出する文字領域検出手段と、
前記文字列領域検出手段により検出された文字領域に対して、文字認識を行い認識結果として文字コードを出力する文字認識部と、
文字毎に微小要素が含まれているか否かを示す情報が登録された微小要素データベースと、
前記文字認識部による文字認識結果の文字列から、原文として適切な文字列を推定する原文推定部と、
前記微小要素データベースを参照して、前記文字列領域検出手段により検出された文字領域に、前記原文推定部により推定された文字列の微小要素が存在するか否かを確認し、微小要素が存在しない場合、前記文字領域に対して該当する微小要素を付加する画像処理を行う画像修正手段と
を具備したことを特徴とする画像処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004289370A JP4083723B2 (ja) | 2004-09-30 | 2004-09-30 | 画像処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004289370A JP4083723B2 (ja) | 2004-09-30 | 2004-09-30 | 画像処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006106903A true JP2006106903A (ja) | 2006-04-20 |
JP4083723B2 JP4083723B2 (ja) | 2008-04-30 |
Family
ID=36376603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004289370A Expired - Lifetime JP4083723B2 (ja) | 2004-09-30 | 2004-09-30 | 画像処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4083723B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013025436A (ja) * | 2011-07-19 | 2013-02-04 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2014194599A (ja) * | 2013-03-28 | 2014-10-09 | Hammock:Kk | Ocrシステム |
JP2015205019A (ja) * | 2014-04-21 | 2015-11-19 | ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー | 画像処理装置、放射線断層撮影装置及びプログラム |
-
2004
- 2004-09-30 JP JP2004289370A patent/JP4083723B2/ja not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013025436A (ja) * | 2011-07-19 | 2013-02-04 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
US9047535B2 (en) | 2011-07-19 | 2015-06-02 | Fuji Xerox Co., Ltd. | Image processing apparatus, image processing method, and computer readable medium |
JP2014194599A (ja) * | 2013-03-28 | 2014-10-09 | Hammock:Kk | Ocrシステム |
JP2015205019A (ja) * | 2014-04-21 | 2015-11-19 | ジーイー・メディカル・システムズ・グローバル・テクノロジー・カンパニー・エルエルシー | 画像処理装置、放射線断層撮影装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4083723B2 (ja) | 2008-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4631133B2 (ja) | 文字認識処理のための装置、方法及び記録媒体 | |
US7796817B2 (en) | Character recognition method, character recognition device, and computer product | |
JP5121599B2 (ja) | 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体 | |
US20130308862A1 (en) | Image processing apparatus, image processing method, and computer readable medium | |
JP2835178B2 (ja) | 文書読取装置 | |
JP2010157107A (ja) | 業務文書処理装置 | |
JP2010250425A (ja) | 下線除去装置 | |
US7596270B2 (en) | Method of shuffling text in an Asian document image | |
JP4565396B2 (ja) | 画像処理装置および画像処理プログラム | |
JP2002015280A (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JP4083723B2 (ja) | 画像処理装置 | |
JP2021157460A (ja) | 情報処理装置、情報処理システム、及び情報処理プログラム | |
KR101498546B1 (ko) | 문서 디지털 복원 시스템 및 방법 | |
JP4420440B2 (ja) | 画像処理装置、画像処理方法、文字認識装置、プログラムおよび記録媒体 | |
JP4804433B2 (ja) | 画像処理装置、画像処理方法、及び、画像処理プログラム | |
JPH11272800A (ja) | 文字認識装置 | |
WO2001013324A1 (fr) | Procede de traitement de documents, support d'enregistrement d'un programme de traitement de documents et dispositif de traitement de documents | |
JP7406884B2 (ja) | 情報処理装置、プログラム及び制御方法 | |
JP2002024838A (ja) | 画像処理装置及び画像処理方法並びに記憶媒体 | |
JP6131765B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2009205209A (ja) | 文書画像処理装置、及び文書画像処理プログラム | |
JP2006072839A (ja) | 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体 | |
JP5146199B2 (ja) | 差分抽出装置及び差分抽出プログラム | |
JP7532124B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2006277509A (ja) | ドットテクスチャ重畳表記部形状回復方法及びそのためのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4083723 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130222 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140222 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |