JP4603807B2 - 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体 - Google Patents

文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP4603807B2
JP4603807B2 JP2004067728A JP2004067728A JP4603807B2 JP 4603807 B2 JP4603807 B2 JP 4603807B2 JP 2004067728 A JP2004067728 A JP 2004067728A JP 2004067728 A JP2004067728 A JP 2004067728A JP 4603807 B2 JP4603807 B2 JP 4603807B2
Authority
JP
Japan
Prior art keywords
character
image
line segment
area
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004067728A
Other languages
English (en)
Other versions
JP2005258683A (ja
Inventor
浩一 金元
裕 勝又
真一 江口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Ltd
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Fujitsu Frontech Ltd filed Critical Fujitsu Ltd
Priority to JP2004067728A priority Critical patent/JP4603807B2/ja
Priority to US10/912,234 priority patent/US7324692B2/en
Priority to DE602004022130T priority patent/DE602004022130D1/de
Priority to EP04019715A priority patent/EP1574987B1/en
Priority to CNB2004100787899A priority patent/CN1313963C/zh
Priority to KR1020040077435A priority patent/KR100625755B1/ko
Publication of JP2005258683A publication Critical patent/JP2005258683A/ja
Application granted granted Critical
Publication of JP4603807B2 publication Critical patent/JP4603807B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/88Image or video recognition using optical means, e.g. reference filters, holographic masks, frequency domain filters or spatial domain filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1429Identifying or ignoring parts by sensing at different wavelengths
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/01Solutions for problems related to non-uniform document background
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、例えば金融機関における帳票処理に用いて好適な、文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体であって、特に、カラー帳票に記載された文字の認識を行なうための文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体に関する。
金融機関等においては、帳票に記載された文字情報をイメージデータとして読み取ってから文字認識する装置として、光学文字読取装置(OCR(Optical Character Recognition)装置)等のイメージ読取装置が用いられ、このOCR装置を用いることにより業務の効率化を図っている。
従来のOCR手法では、帳票のイメージデータをモノクロの2値イメージとして取得して、その文字認識を行なっており、例えば、緑色や赤色等の予め定められたドロップアウト色で罫線やガイド文字等を印刷された帳票について、その文字認識対象領域(文字記入欄)にドロップアウト色以外の色(黒色等)で記載された文字を、OCR装置を用いてモノクロ2値画像として読み取り、この2値画像に基づいて文字認識処理を行なっている(下記特許文献1〜3参照)。
特開2000−322510号公報 特開2001−297303号公報 特開2003−196592号公報
ところで、帳票に記載された情報を見易くしたり、文字の記入をわかりやすくしたりするために、罫線や背景,ガイド文字等を種々の色を用いて印刷したカラー帳票が使用される場合がある。
従来のOCR手法においては、帳票のイメージデータをモノクロの2値画像として取得し、この2値画像に基づいて文字認識を行なっているので、上述のようにドロップアウト色以外の色で罫線や背景,ガイド文字等を印刷されたカラー帳票においては、記入された文字の近傍にこれらの罫線や背景,ガイド文字等があったり、又、これらの罫線や背景,ガイド文字に記入された文字が接触・交差していたりすると、その記入された文字についての文字認識が妨げられ文字認識率が低下するという課題がある。又、文字認識対象領域に背景色や網がけ等の面塗りが行なわれている場合にも、同様に、その文字認識が妨げられ文字認識率が低下する。
すなわち、従来のOCR手法においては、ドロップアウト色以外の色を用いて行なわれた面塗り内に記載された文字や、同じくドロップアウト色以外の色を用いられた罫線や背景,ガイド文字等の近傍もしくはこれらに接触・交差する文字については、文字認識を高精度で行なうことができない。
また、本来OCR装置による文字認識を前提とせずに、記入欄に種々の色で面塗りやガイド文字が記入されたカラー帳票について、その記入欄に記載された文字情報をOCR装置を用いて読み込むことができれば利便性が高い。
本発明は、このような課題に鑑み創案されたもので、カラー帳票に記載された文字を高精度で認識することができるようにした、文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体を提供することを目的とする。
このため、本発明の文字認識装置は、文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識装置であって、該原画像における所定サイズの領域を構成する各画素のR,G,Bの各色の階調値に基づいて算出した色値分散量に基づいて背景領域を認定し、色相又は輝度に関する度数分布に基づいて背景を認定する背景認定部と、該原画像における、該背景領域を構成する画素とは異なる色相又は輝度を有する画素の度数分布と、互いに同一の色を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定部と、該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、該原画像に基づいて拡大画像を作成する拡大画像作成部と、該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と、該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部とをそなえることを特徴としている。
なお、該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色相又は輝度と該文字外線分にかかる色相又は輝度との相違に基づいて該第2文字外線分除去画像の復元を行なう文字画像復元部とをそなえ、該第2文字領域認定部が、該文字画像復元部によって復元された該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色相を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定してもよい。
また、本発明の文字認識方法は、文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識方法であって、該原画像における所定サイズの領域を構成する各画素のR,G,Bの各色の階調値に基づいて算出した色値分散量に基づいて背景領域を認定し、色相又は輝度に関する度数分布に基づいて背景領域を認定する背景認定ステップと、該原画像における、該背景領域を構成する画素とは異なる色相又は輝度を有する画素の度数分布と、互いに同一の色を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定ステップと、該原画像において、該文字外線分認定ステップにおいて認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成ステップと、該第1文字外線分除去画像作成ステップにおいて作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定ステップと、該原画像に基づいて拡大画像を作成する拡大画像作成ステップと、該拡大画像作成ステップにおいて作成した該拡大画像において、該文字外線分認定ステップにおいて取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成ステップと、該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定ステップと、該第2文字領域認定ステップにおいて認定された文字領域を2値化して文字認識を行なう文字認識ステップとをそなえることを特徴としている。
なお、該文字外線分認定ステップにおいて取得された文字外線分情報と、該第1文字領域認定ステップにおいて認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断ステップと、該干渉判断ステップにおいて該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色相又は輝度と該文字外線分にかかる色相又は輝度との相違に基づいて該第2文字外線分除去画像の復元を行なう文字画像復元ステップとをそなえ、該第2文字領域認定ステップにおいて、該文字画像復元ステップにおいて復元された該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色相を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定してもよい。
さらに、本発明の媒体処理方法は、文字が記載された媒体から読み取った媒体画像に基づいて、文字認識を行なう媒体処理方法であって、該媒体画像に基づいて、該媒体画像のレイアウトの特徴を抽出して該レイアウトの構成を解析するレイアウト解析ステップと、該レイアウト解析ステップにおける解析結果に基づいて、文字認識を行なう対象となる文字画像をそなえた原画像を作成する原画像作成ステップと、該原画像における所定サイズの領域を構成する各画素のR,G,Bの各色の階調値に基づいて算出した色値分散量に基づいて背景領域を認定し、色相又は輝度に関する度数分布とに基づいて背景領域を認定する背景認定ステップと、該原画像における、該背景領域を構成する画素とは異なる色相又は輝度を有する画素の度数分布と、互いに同一の色を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定ステップと、該原画像において、該文字外線分認定ステップにおいて認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成ステップと、該第1文字外線分除去画像作成ステップにおいて作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定ステップと、該原画像に基づいて拡大画像を作成する拡大画像作成ステップと、該拡大画像作成ステップにおいて作成した該拡大画像において、該文字外線分認定ステップにおいて取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成ステップと、該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定ステップと、該第2文字領域認定ステップにおいて認定された文字領域を2値化して文字認識を行なう文字認識ステップとをそなえることを特徴としている。
なお、該文字外線分認定ステップにおいて取得された文字外線分情報と、該第1文字領域認定ステップにおいて認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断ステップと、該干渉判断ステップにおいて該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色相又は輝度と該文字外線分にかかる色相又は輝度との相違に基づいて該第2文字外線分除去画像の復元を行なう文字画像復元ステップとをそなえ、該第2文字領域認定ステップにおいて、該文字画像復元ステップにおいて復元された該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色相を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定してもよい。
また、本発明の文字認識プログラムは、文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識機能をコンピュータに実行させるための文字認識プログラムであって、該原画像における所定サイズの領域を構成する各画素のR,G,Bの各色の階調値に基づいて算出した色値分散量に基づいて背景領域を認定し、色相又は輝度に関する度数分布とに基づいて背景領域を認定する背景認定部と、該原画像における、該背景領域を構成する画素とは異なる色相又は輝度を有する画素の度数分布と、互いに同一の色を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定部と、該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、該原画像に基づいて拡大画像を作成する拡大画像作成部と、該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と、該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部として、該コンピュータを機能させることを特徴としている。
なお、該文字認識プログラムが、該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色相又は輝度と該文字外線分にかかる色相又は輝度との相違に基づいて該第2文字外線分除去画像の復元を行なう文字画像復元部として該コンピュータを機能させるとともに、該第2文字領域認定部として該コンピュータを機能させる際に、該文字画像復元部によって復元された該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色相を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定してもよい。
さらに、本発明のコンピュータ読取可能な記録媒体は、上述した文字認識プログラムを記録したものである。
本発明によれば、カラー帳票に記載された文字を高精度で認識することができる利点がある。
以下、図面を参照して本発明の実施の形態を説明する。
(A)実施形態の説明
図1は本発明の一実施形態としての帳票認識装置の構成を模式的に示す図、図2(a),(b),(c),(d)はそれぞれ本帳票認識装置によって識別される帳票を説明するための図であり、図2(a)は帳票を部分的に示す図、図2(b)はその文字部分を示す図、図2(c)はそのプレ印刷部分を示す図、図2(d)はその背景部分を示す図である。
本帳票認識装置(媒体処理装置,文字認識装置)1は、例えば金融機関で用いられる帳票(媒体)を読み取り、その所定の項目に記載された文字を認識するものであって、特に、罫線や背景,ガイド文字等からなるプレ印刷部分を、記入される文字色やドロップアウト色以外の色で構成したカラー帳票に記載された文字認識を行なうものである。
本帳票認識装置1においては、図2(a)に示すカラー帳票について、その色情報に基づいて、背景(図2(d)参照)やプレ印刷部分(図2(c)参照)を除いた文字部分(図2(b)参照)を抽出し、その文字認識を行なうようになっている。例えば、図2(a)〜(d)に示す例においては、プレ印刷部分を赤色で構成されたカラー帳票に青色の文字を記入した例を示しており、これらの色情報(色相,輝度)を用いて認識対象の文字画像を抽出して、その文字認識を行なうものである。なお、以下、本実施形態においては、カラー帳票のことを単に帳票という場合もある。
本帳票認識装置1は、図1に示すように、カラーイメージリーダ2,メモリ3,ハードディスク4,モニタ5,キーボート6およびCPU(Central Processing Unit)10をそなえたコンピュータシステム(情報処理装置)として構成され、CPU10が、メモリ3やハードディスク4に保存されたプログラム(文字認識プログラム,媒体処理プログラム)を実行することにより機能するようになっている。
カラーイメージリーダ2は、カラー帳票について、そのイメージデータ(媒体画像)を読み取るものであり、例えば、光学式文字読取装置(OCR装置)やイメージスキャナを用いることができる。そして、本帳票認識装置1においては、カラーイメージリーダ2は、カラー帳票のイメージデータをカラー画像もしくはグレースケール画像(多値画像)で読み取るようになっている。
ハードディスク4は、カラーイメージリーダ2によって読み取られた帳票のイメージデータを保存したり、前述したプログラムを保存したりするものである。又、このハードディスク4は、事前登録データベース22を保存するようになっている。
事前登録データベース22は、罫線レイアウト情報や文字認識の定義情報等の帳票に関する情報を予め登録して構成されるものである(図18参照)。罫線レイアウト情報としては、縦線や横線として形成される罫線の始点(開始位置)や終点(終了位置)の座標位置や、日付欄や金額記入欄等の帳票にそなえられる項目(罫線項目)の矩形座標等が用いられる。又、文字認識の定義情報としては、認識する矩形座標や識別カテゴリ(例えば,数字,英字,平仮名等の文字種別),記入枠を構成する罫線の線類や座標等が用いられる。
メモリ3は、CPU10が種々の処理を行なう際に、データを展開したり一時的に格納したりするものであり、又、このメモリ3に前述したプログラムを保存してもよい。モニタ5は、帳票の画像や文字認識の結果,オペレータが用いる操作画面等を表示するものであり、キーボード6はオペレータが種々の操作・入力を行なうものである。
CPU10は種々の演算処理を行なうものであり、図1に示すように、レイアウト解析部11,部分画像作成部(原画像作成部)12,背景認定部13,罫線抽出部(文字外線分認定部)14,第1文字領域認定部15,拡大画像作成部16,罫線除去部(第1文字外線分除去画像作成部,第2文字外線分除去画像作成部)17,干渉判断部18,文字画像復元部19,第2文字領域認定部20,文字認識部21として機能するようになっている。
レイアウト解析部11は、帳票のイメージデータ(媒体画像)に基づいて、そのイメージデータのレイアウトの特徴を抽出し、帳票のレイアウトの構成を解析するものであり、帳票のイメージデータに基づいて罫線レイアウト情報を抽出し、この抽出した罫線レイアウト情報と事前登録データベース22に登録されている罫線レイアウト情報とを照合して、文字認識の定義情報を取得するようになっている。なお、このレイアウト解析部11による処理は、例えば、特許番号第3088019号(名称:媒体処理装置及び媒体処理方法)に開示された手法によって実現することができる。
部分画像作成部(原画像作成部)12は、レイアウト解析部11による解析結果に基づいて、文字認識を行なう対象となる文字画像をそなえた部分画像(原画像)を作成するものであり、レイアウト解析部11によって取得された文字認識の対象である項目等の座標に基づいて、帳票のイメージデータから文字認識を行なう部分画像(原画像)を抽出することにより、この部分画像を作成するようになっている。
背景認定部13は、部分画像作成部12によって作成された部分画像における色成分の分散量と色情報に関する度数分布とに基づいて背景領域を認定するものである。
ここで、本帳票認識装置1の背景認定部13による背景色の決定手法を、図3,図4(a),(b)および図5(a),(b)を参照しながら、図6に示すフローチャート(ステップA10〜A70)に従って説明する。
なお、図3は縦軸を彩度S、横軸を明度Lとしたときの赤の色の彩度Sと明度Lとの関係を示す図、図4(a),(b),図5(a),(b)はそれぞれ本発明の一実施形態としての帳票認識装置1の背景認定部13によって作成されるヒストグラムの例を示す図であり、図4(a)は背景用の色相ヒストグラムの例を示す図、図4(b)は背景用の輝度ヒストグラムの例を示す図、図5(a)は背景以外用の色相ヒストグラムの例を示す図、図5(b)は背景以外用の輝度ヒストグラムの例を示す図である。なお、図4(a),(b)は、背景が白色である場合の例を示している。
背景認定部13は、部分画像の中の所定サイズの領域(本実施形態では8画素×8画素の矩形領域;以下、この8×8画素の矩形領域を画素ブロックという場合もある)において、この8×8の画素ブロックの各画素のR(Red),G(Green),B(Blue)の各色のデータ(階調値)の平均値RAVE,GAVE,BAVEを算出し、各画素のR,G,Bデータと、8×8画素領域のR,G,Bデータの平均値RAVE,GAVE,BAVEとの差分から、8×8画素領域の色値分散量を算出するようになっている。すなわち、背景認定部13は、8×8画素ブロック内の画素が均一か否か調べるために偏差を利用しているのである。
そして、背景認定部13は、これらのRAVE,GAVE,BAVE,R,G,Bの各値を用いて、画素ブロックにおける画素の色値分散量をそれぞれ下記の式(1)を用いて算出し(ステップA10)、更に、この色値分散量が小さいか否か、すなわち、予め設定された閾値(例えば10)以下であるか否かを判断するようになっている(ステップA20)。
色値分散量=max(ΔR,ΔG,ΔB) ・・・(1)
ただし、
ΔR=|RAVE−R|
ΔG=|GAVE−G|
ΔB=|BAVE−B|
なお、max()は、()内の各数値の最大値を表わすものとする。
また、背景認定部13は、各画素のR,G,B値に基づいて、下記式(2)を用いてHSV変換を行なって、色相Hと彩度Sと明度Lとからなるデータに変換し、各画素が有彩色であるか無彩色であるかを判断するようになっている。
S=(V−X)/V ・・・(2)
ただし、
V=max(R,G,B)
X=min(R,G,B)
であり、min()は、()内の各数値の最小値を表わすものとする。
また、Hは以下の式で表されるものとする。
R=Vの場合、H=(pi/3)*(b−g)
G=Vの場合、H=(pi/3)*(2+r−b)
B=Vの場合、H=(pi/3)*(4+g−r)
L=(max(R,G,B)+min(R,G,B))/2
ただし、
r=(V−R)/(V−X)
g=(V−G)/(V−X)
b=(V−B)/(V−X)
piは円周率
であり、
H:0〜360
S:0〜1
V:0〜1
L:0〜1
R,G,B:0〜1
とする。
ここで、色値分散量が小さい(例えば10以下)場合には(ステップA20のYESルート参照)、その画素が背景を構成するものであると判断し、色値分散量が大きい(例えば10よりも大きい)場合には(ステップA20のNOルート参照)、その画素が背景以外の領域を構成するものであると判断するようになっている。
また、背景認定部13は、部分画像について、背景を構成すると判断した画素と、背景以外の領域であると判断した画素とで、それぞれ別のヒストグラムを作成するようになっており、更に、これらのヒストグラムは有彩色と無彩色とでそれぞれ別のヒストグラム(色相ヒストグラム,輝度ヒストグラム)として作成されるようになっている(ステップA30,A40;図4(a),(b)および図5(a),(b)参照)。
図3においては、縦軸の彩度Sの値が大きくなるほど鮮やかな色を表し、横軸の明度Lの値が大きいほど明るい色を表す。又、2次曲線f1,f2は、それぞれ視覚特性上の有彩色の境界と無彩色の境界を示す曲線であり、2次曲線f1,f2の間の色は、有彩色、無彩色の何れとも判定できない不定色となる。
これらの2次曲線f1,f2は、以下の式(3),(4)のように表わすことができる。
f1=(1/4000)(255−LUM)2+10 ・・・(3)
f2=(1/2)(1/4000)(255−LUM)2+10 ・・・(4)
画素の彩度Sと明度L(LUM)が決まれば、上記の式(3)から、各明度における有彩色となる彩度Sの下限値を計算することができる。従って、彩度Sがその下限値以上か否かによりその画素が有彩色か否かを判定できる。また、上記の式(4)から、各明度における無彩色の上限値を計算することができる。従って、彩度Sが上限値以下か否により、その画素が無彩色か否かを判定できる。以下、上述の如く有彩色,無彩色および不定色を分類することを色相クラスタ分類という場合がある。
なお、有彩色の下限値を示す2次曲線f1の値と、無彩色の上限値を示す2次曲線f2の値とを各明度LUMについて予め計算して、有彩色の判定テーブルと無彩色の判定テーブルとをそれぞれ作成し、これらの判定テーブルを用いて判定してもよい。
背景認定部13は、画素が有彩色である場合には、図4(a),図5(a)に示すように、その画素の色相Hを色相ヒストグラムに反映させ、画素が無彩色である場合には、図4(b),図5(b)に示すように、その画素の輝度を輝度ヒストグラムに反映させるようになっている。すなわち、有彩色の各色相Hの値の出現回数を計数して色相ヒストグラム(有彩色の色相ヒストグラム)を作成し、又、無彩色の各輝度の値の出現回数を計数して輝度ヒストグラム(無彩色のヒストグラム)を作成するのである。
そして、背景認定部13は、8×8の画素ブロックを構成する全画素について上記ステップA10〜A40にかかる処理を行なうとともに、部分画像の全ての画素ブロックについて上記ステップA10〜A40にかかる処理を行なったか否かを判断して(ステップA50)、全ての画素ブロックについて処理を行なっていない場合には(ステップA50のNOルート参照)、ステップA10に戻る。全ての画素について処理を行なった場合には(ステップA50のYESルート参照)、背景認定部13は、背景用ヒストグラム(色相ヒストグラム,輝度ヒストグラム)に対してピーク値検出を行ない、出現回数がピーク値の色相や輝度を背景色と認定する(ステップA60)。
なお、図4(a),(b)に示す例においては、輝度ヒストグラムにおける白色を示す輝度においてピーク値が検出された状態を示しており、これにより、背景が白色であることがわかる。
本帳票認識装置1においては、上述したステップA30,A40において、画素が有彩色の場合には色相ヒストグラムを形成し、無彩色の場合には輝度ヒストグラムを形成することにより、白色等の無彩色の画素についてもその出現頻度を検出することができ、これにより、背景色が有彩色であっても無彩色であっても認定することができるのである。
次に、背景認定部13は、ステップA40において作成した背景以外用のヒストグラム(図5(a),(b)参照)に基づいて、その部分画素における背景以外の領域について、文字や罫線の識別に色相を用いた手法(色相分離;詳細は後述)を適用することができるか否かを判断する(ステップA70)。具体的には、背景認定部13は、背景以外用ヒストグラムに基づいて、ステップA60において背景として認定した色相値/輝度値以外のピーク値(ヒストグラムにおける山)を探索し、背景以外に、色相ヒストグラムに山が1つ以上あり、且つ、色相ヒストグラムと輝度ヒストグラムとを併せて2以上の山がある場合に、色相分離(色相処理;後述)を行なうことができると判断し、又、これらの背景以外用のヒストグラムにおいて山の数が上記条件を満たさない場合には、色相分離は不可能であり、後述する輝度値に基づく分離(グレー処理)を行なう必要があると判断する。
罫線抽出部(文字外線分認定部)14は、部分画像における、背景領域を構成する画素とは異なる色情報を有する画素の度数分布と、互いに同一の色特性を有する画素が所定数以上連続する連続画素とに基づいて文字以外の罫線(文字外線分)を認定するとともに、罫線情報(文字外線分情報)を取得・抽出するものである。
この罫線抽出部14は、部分画像の縦方向と横方向とについて、それぞれ、背景領域を構成する画素とは異なる色情報を有する画素の度数分布を求め、その結果において所定値以上の度数を有する位置を罫線の候補位置(文字外線分候補位置)と認定する罫線位置推定部(文字外線分位置推定部)23をそなえている。
さらに、罫線抽出部14は、この罫線位置推定部23によって認定された罫線の候補位置における色相ヒストグラム(色情報にかかる度数分布)に基づいてその罫線にかかる色相(色情報)を特定する色相特定部(色情報特定部)24をそなえるとともに、この色相特定部24によって特定された色相と同一の色相にかかる画素の連続性に基づいて罫線に関する罫線情報を取得する罫線情報取得部(文字外線分情報取得部)25をそなえている。
本帳票認識装置1における罫線抽出部14による罫線情報の抽出手法を、図7(a),(b),(c),図8,図9(a),(b)を参照しながら、図10に示すフローチャート(ステップB10〜B110)に従って説明する。なお、図7(a),(b),(c)は部分画像の縦方向および横方向におけるヒストグラムの例を示す図であり、図7(a)は部分画像の例を示す図、図7(b)は横方向における画素のヒストグラムの例を示す図、図7(c)は縦方向における画素のヒストグラムの例を示す図である。又、図8および図9(a),(b)はそれぞれ罫線(横線分)の作成手法を説明するための図であり、図8は線分情報の例を示す図、図9(a),(b)は図8に示した線分情報に基づいて線情報を作成する手法を説明するための図である。
罫線抽出部14は、部分画像作成部12によって作成された部分画像(図7(a)参照)について、この部分画像における背景以外の領域についての、画素の横方向のヒストグラム(図7(b)参照)と、縦方向のヒストグラム(図7(c)参照)とを作成する(ステップB10)。
そして、罫線抽出部14は、先ず、横方向のヒストグラム(図7(b)参照)において、所定量以上の出現度数がある位置(横位置)を探索し(ステップB20)、このような所定量以上の出現度数がある横位置が検出されたか否かを判断する(ステップB30)。横方向のヒストグラムにおいてこのような位置が検出された場合には(ステップB30のYESルート参照)、罫線位置推定部23が、部分画像におけるその横位置に罫線の候補が存在すると判断する(文字外線分位置推定ステップ)。そして、罫線抽出部14は、部分画像におけるその横位置で、その横位置に位置する各画素の色相ヒストグラムを作成し、色相特定部24が、その色相ヒストグラムにおいて最も出現頻度が多い色相値を罫線の色相として決定する(ステップB40;色情報特定ステップ)。
また、罫線情報取得部25が、ステップB40において罫線候補が存在すると判断された部分画像における前記横位置に存在する各画素について、ステップB40において決定された色相値の画素であって所定数以上連続する画素(連続画素)を、一定範囲毎に抽出し、これらの連続画素をそれぞれ横線分(線分,線分情報)として作成する(ステップB50;図8参照)。
なお、図8に示す例においては、罫線抽出部14は、連続画素を一定範囲(所定長)の線分情報として抽出することにより複数の線分を取得するようになっており、このように、所定長を有する線分情報を複数取得することにより、斜度の発生を防止し、罫線の位置ずれ等の発生を防止して読み取り品質を向上させることができる。
そして、罫線抽出部14は、ステップB50において作成された線分情報(図9(a)参照)をまとめて(連結して)、1つの罫線情報を作成して(ステップB60,図9(b)参照)、ステップB20に戻る。すなわち、罫線抽出部14は、ステップB50において作成された横線分に基づいて線情報を作成するのである(文字外線分情報取得ステップ)。
また、横方向のヒストグラムにおいて、所定量以上の出現頻度がある横位置の全てについての処理が完了し、罫線情報の作成等が未処理の横位置が検出されない場合には(ステップB30のNOルート参照)、今度は、縦方向のヒストグラム(図7(c)参照)において、所定量以上の出現度数がある位置(縦位置)を探索し(ステップB70)、このような所定量以上の出現度数がある縦位置が検出されたか否かを判断する(ステップB80)。縦方向のヒストグラムにおいてこのような位置が検出された場合には(ステップB80のYESルート参照)、罫線位置推定部23が、部分画像におけるその縦位置に罫線の候補が存在すると判断する。そして、罫線抽出部14は、部分画像におけるその縦位置で、その縦位置に位置する各画素の色相ヒストグラムを作成し、色相特定部24が、その色相ヒストグラムにおいて最も出現頻度が多い色相値を罫線の色相として決定する(ステップB90)。
さらに、罫線情報取得部25が、ステップB90において罫線候補が存在すると判断された部分画像における前記縦位置に存在する各画素について、今度はステップB90において決定された色相値の画素であって所定数以上連続する画素(連続画素)を、一定範囲毎に抽出し、これらの連続画素をそれぞれ縦線分(線分,線分情報)として作成する(ステップB100)。
そして、罫線抽出部14は、ステップB100において作成された線分情報をまとめて(連結して)、1つの罫線情報を作成し(ステップB110)、ステップB70に戻る。すなわち、罫線抽出部14は、ステップB100において作成された横線分に基づいて線情報を作成するのである。
一方、縦方向のヒストグラムにおいて、所定量以上の出現頻度がある縦位置の全てについての処理が完了し、罫線情報の作成等が未処理の縦位置が検出されない場合には(ステップB80のNOルート参照)、処理を終了する。
罫線除去部(第1文字外線分除去画像作成部,第2文字外線分除去画像作成部)17は、部分画像において、罫線抽出部14によって認定された罫線を、背景と同じ色成分を有する画素で置換することにより除去して、第1罫線除去画像(第1文字外線分除去画像)を作成するものである。
この罫線除去部17は、上述の手法を用いて部分画像から罫線を除去して第1罫線除去画像を作成する第1文字外線分除去画像作成部として機能する他、後述する拡大画像作成部16によって作成された拡大画像においても、同様に、その拡大画像から罫線を除去して第2罫線除去画像(第2文字外線分除去画像)を作成する第2文字外線分除去画像作成部として機能するようになっている。なお、以下、第1罫線除去画像の作成にかかる罫線の削除を1次除去といい、第2罫線除去画像の作成にかかる罫線の削除を2次除去という場合がある。
第1文字領域認定部15は、罫線除去部17によって作成された第1罫線除去画像において、その背景領域以外の領域であって、互いに同一の色相(色特性)を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定するとともに、その色相を文字の色相として認定するようになっている。
拡大画像作成部16は、部分画像に基づいて拡大画像を作成するものであり、本帳票認識装置1においては、拡大画像作成部16は部分画像を構成する画素のサブピクセル化を行なうことにより拡大画像を作成するようになっている。このサブピクセル化とは、部分画像を構成する各画素をそれぞれ複数の画素に仮想的に分ける、もしくは複数の画素に置換する処理をいう。
図11(a),(b)は本帳票認識装置1の拡大画像作成部16による拡大画像の作成手法の例を説明するための図であり、図11(a)は拡大前の画像の状態を示す図、図11(b)は拡大画像の状態の例を示す図である。図11(a)に示すような3×3画素の画像(元画像)を、サブピクセル化により図11(b)に示すような5×5画素の画像(拡大画像)に拡大する場合には、先ず、元画像を構成する各画素を、それぞれ隣合う画素間に所定数(図11(b)に示す例では1つ)の画素を配置できるような間隔をおいて配置(座標変換)することにより、拡大画像にコピーする。
そして、この拡大画像を構成する各画素間(隙間)の領域に補完を行なう。具体的には、これらの隙間の領域に配置する画素に、その隙間を形成する元画像の画素の平均値を画素値(色相)として設定する。例えば、図11(b)に示す例においては、丸付き数字で表す画素には、その左右方向において隣り合う画素(画素1−1,1−2)の平均値を設定し、丸付き数字で表す画素には、その上下方向において隣り合う画素(画素1−1,2−1)の平均値を設定する。又、丸付き数字で表す画素には、その画素を囲む画素(画素1−1,1−2,2−1,2−2)の平均値を設定する。すなわち、拡大画像作成部16は、これらの処理を部分画像を構成する各画素に対して行なうことにより、部分画像の拡大画像を作成するのである。
なお、拡大画像作成部16による拡大画像の作成手法は、上述した方法に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
干渉判断部18は、罫線抽出部14によって取得された罫線情報と、第1文字領域認定部15によって認定された文字領域とに基づいて、部分画像において文字と罫線とが干渉(接触もしくは重合)しているか否かを判断するものである。具体的には、罫線抽出部14によって取得された罫線情報と、第1文字領域認定部15によって認定された文字領域とを比較して、罫線と文字とが干渉していると思われる位置を特定した後に、拡大画像作成部16によって作成された拡大画像において、罫線と同じ色相の画素と文字と同じ色相の画素とが隣接している場所を文字と罫線とが干渉していると判断するようになっている。
文字画像復元部19は、干渉判断部18によって文字画像と罫線とが干渉していると判断された場合に、第2罫線除去画像における文字画像と罫線との干渉位置について、文字画像にかかる色相と罫線にかかる色相との相違に基づいて文字画像の復元を行なうものである。
本帳票認識装置1においては、文字画像と罫線とが干渉(重合)している場合(図12参照)に、罫線除去部17により拡大画像から罫線を除去すると、その第2罫線除去画像では、文字画像において罫線と重合していた部分(干渉位置)の文字画像が罫線とともに削除され、部分的に欠落した文字画像(図13参照)が形成される。文字画像復元部19は、このように部分的に削除された文字画像を、欠落がない状態に復元するものである。
具体的には、文字画像復元部19は、先ず、第2罫線除去画像を参照したり干渉判断部18による判断結果等を参照したりして、第2罫線除去画像において部分的に文字画像が削除された位置(文字と罫線とが干渉していた位置;以下、欠落位置という場合もある)を取得し、拡大文字画像を参照してその欠落位置における文字と罫線との色相の差を用いて、欠落位置における文字輪郭を復元するようになっている。
すなわち、文字画像復元部19は、拡大画像における欠落位置に相当する位置について、文字の色相と罫線の色相とが異なる部分が所定画素以上連続する部分を、文字と罫線との境界と認識して、その位置を拡大画像における欠落位置にプロットすることにより文字輪郭を設定し、更に、この文字輪郭をスプライン曲線で連結することにより、文字輪郭をなめらかに形成するようになっている。
そして、文字画像復元部19は、このようにして形成した文字輪郭の内側(文字内部)を、第1文字領域認定部15によって文字の色相として認定された色相と同一の色相の画素で埋めることにより、文字画像の復元を行なうようになっている。
本帳票認識装置1における罫線除去から文字画像の復元にかけての処理を図12〜図15を参照しながら、図16に示すフローチャート(ステップC10〜C60)に従って説明する。なお、図12〜図15はそれぞれその罫線除去の過程における文字画像の例を示す図である。
図12に示すように、罫線除去部17は、罫線の除去を行なう対象の画像(部分画像,拡大画像)において、罫線抽出部14によって認定された罫線を構成する各画素を、罫線情報取得部25によって取得された罫線情報に基づいて、背景と同じ色の画素で置換することにより、罫線領域を背景色で埋めて罫線を削除する(ステップC10)。
次に罫線除去部17は、2次除去であるか否かを判断し(ステップC20)、2次除去ではない場合には(ステップC20のNOルート参照)、処理を終了する。又、2次除去の場合には(ステップC20のYESルート参照)、干渉判断部18が、罫線抽出部14によって取得された罫線情報と、第1文字領域認定部15によって認定された文字領域とに基づいて、部分画像において文字と罫線とが干渉(接触もしくは重合)しているか否かを判断する(ステップC30)。
そして、部分画像において文字と罫線とが干渉(接触もしくは重合)しているか否かの判断結果に基づいて(ステップC40)、文字と罫線とが干渉している場合には(ステップC40のYESルート,図12参照)、ステップC10における罫線の削除により、部分的に欠落した文字画像が形成される(図13参照)。文字画像復元部19は、文字画像の復元を行なうとともに(ステップC50,図14参照)、その文字罫線との境界部分(図15(a)参照)をスプライン曲線により補完することによりなめらかな文字画像を作成する(ステップC60,図15(b)参照)。一方、文字と罫線とが干渉していない場合には(ステップC40のNOルート参照)、処理を終了する。
第2文字領域認定部20は、第2罫線除去画像において、背景領域以外の領域であって、同一の色相を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定するものであり、文字認識部21は、第2文字領域認定部20によって認定された文字領域について、文字画像復元部19によって復元された文字画像を2値化して文字認識を行なうものであり、例えば公知のOCR手法によって実現されるものである。
上述の如く構成された、本発明の一実施形態としての帳票認識装置1における文字認識処理を、図17に示すフローチャート(ステップD10〜D80)に従って説明する。
先ず、背景認定部13が、色相クラスタ分類等を用いて背景色を求め(ステップD10;背景認定ステップ)、罫線抽出部14が罫線情報を抽出する(ステップD20;文字外線分認定ステップ)。そして、罫線除去部17が、部分画像において罫線を除去(1除去)することにより第1罫線除去画像を作成し(ステップD30;第1文字外線分除去画像作成ステップ)、第1文字領域認定部15が、罫線除去部17によって作成された第1罫線除去画像において文字領域を認定するとともに、その文字の色相を認定する(ステップD40;第1文字領域認定ステップ)。
拡大画像作成部16が、部分画像に基づいて拡大画像を作成し(ステップD50;拡大画像作成ステップ)、罫線除去部17が、この拡大画像において罫線除去(2次除去)を行なうことにより、第2罫線除去画像を作成する(ステップD60;第2文字外線分除去画像作成ステップ)。又、この際、干渉判断部18により文字と罫線とが干渉していると判断された場合には(干渉判断ステップ)、文字画像復元部19が、2次除去によって部分的に欠落した文字画像の復元を行なう(文字画像復元ステップ)。
その後、第2文字領域認定部20が、文字領域の認定(抽出)を行ない(ステップD70;第2文字領域認定ステップ)、文字認識部21が、この第2文字領域認定部20によって認定された文字領域について、文字画像を2値化して文字認識を行なう(ステップD80;文字認識ステップ)。
本発明は上述した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
例えば、上述した実施形態においては、カラー帳票のイメージデータをカラー画像として取得し、その階調値(R,G,B)や、色相,輝度等を色成分や色情報として用いて、背景や罫線,文字画像の抽出を行なっているが、これに限定されるものではなく、カラー帳票のイメージデータをグレースケールデータ(単色の多階調画像)として取得し、その輝度を色情報として用いて背景や罫線,文字画像の抽出等を行なってもよい。
このように、カラー帳票のイメージデータをグレースケールデータとして取得する場合には、色相に代えて輝度(輝度階調)を色情報として用いることにより、上述した実施形態と同様の作用効果を得ることができる。又、図6に示した背景認定部13による背景色の決定手法をグレースケールイメージに基づいて行なう場合には、背景用ヒストグラムの輝度ヒストグラムのみ作成する。
ここで、本発明の一実施形態としての帳票認識装置1における帳票認識にかかる処理を図18に示すフローチャート(ステップE10〜E80)に従って説明する。本例においては、カラー帳票のイメージデータをカラー画像(カラーイメージ)で処理する場合と、カラー帳票のイメージデータをグレースケール画像(グレースケールイメージ)で処理する場合との2種類の手法の内から一方を選択して実施することができる。
カラー帳票のイメージデータをカラー画像(カラーイメージ)で処理する場合には、帳票認識装置1は、先ず、カラーイメージリーダ2によりカラー帳票のカラー画像を取得し(ステップE10)、この取得したカラー画像(R,G,B)からグレースケール画像(輝度)への変換を行なう(ステップE20)。なお、カラー画像のR,G,Bの各値から輝度Yを求める変換式には、例えば以下の式を用いることができる。
Y(輝度)=R×0.298912+G×0.586611+B×0.114478
その後、グレースケールイメージ(輝度)を2値イメージへの変換を行なう(ステップE30)。なお、グレースケールイメージから2値イメージへの変換(2値イメージ化)は、固定スライス法等の既知の手法を用いることにより実現することができる。
一方、カラー帳票のイメージデータをグレースケールで処理する場合には、帳票認識装置1は、カラーイメージリーダ2によりカラー帳票のグレースケール画像を取得し(ステップE80)、ステップE30に移行する。
その後、レイアウト解析部11が、例えば特許第3088019号に開示された手法を用いて、ステップE30において作成された2値化イメージに基づいて、罫線レイアウト情報の抽出を行なうとともに(ステップE40)、抽出したレイアウト情報と事前登録データベース22に予め登録されている罫線レイアウト情報とを照合して、文字認識の定義情報を取得する(ステップE50;レイアウト解析ステップ)。
そして、部分画像作成部12が、ステップE50において取得した定義情報に基づいて、帳票のイメージデータ(原画;カラーイメージもしくはグレースケールイメージ)上の座標を求めて、文字認識を行なう部分画像(部分イメージ)を作成する(ステップE60;原画像作成ステップ)。その後、この作成された部分画像について、背景認定部13,罫線抽出部14,第1文字領域認定部15,拡大画像作成部16,罫線除去部17,干渉判断部18,文字画像復元部19,第2文字領域認定部20および文字認識部21による文字認識処理(図17参照)を行なう(ステップE70)。
上述の如く、本発明の一実施形態としての帳票認識装置1によれば、カラー帳票のイメージデータをカラー画像として取得し、その階調値(R,G,B)や、色相,輝度等を色成分や色情報として用いて、背景や罫線,文字画像の抽出を行なうことにより、文字認識の阻害要件となり得る、罫線,背景,ガイド文字等を除去し、ノイズの無い文字認識イメージを抽出して、OCR認識を可能な帳票種類を拡大するとともに、文字認識精度を向上させることができる。
また、背景認定部13が部分画像における色相の分散量や出現頻度(色相ヒストグラム)に基づいて背景画素を容易且つ高速に検出することができ、又、罫線抽出部14(罫線位置推定部23)が、部分画像の縦方向と横方向とについて、それぞれ、背景領域を構成する画素とは異なる色情報を有する画素の度数分布を求め、その結果において所定値以上の度数を有する位置を罫線の候補位置と認定することにより、罫線の位置を容易且つ高速に認定することができる。
さらに、罫線抽出部14(色相特定部24)が、罫線位置推定部23によって認定された罫線の候補位置における色相ヒストグラムに基づいてその罫線にかかる色相を特定することにより、罫線の色相を容易且つ高速に特定することができる。
また、罫線抽出部14(罫線情報取得部25)が、色相特定部24によって特定された色相と同一の色相にかかる画素の連続性に基づいて罫線に関する罫線情報を取得することにより、罫線(罫線情報)を容易かつ確実に特定することができる。
第1文字領域認定部15が、罫線除去部17によって作成された第1罫線除去画像において、文字領域やその色相(輝度)を容易且つ高速に認定することができる。
拡大画像作成部16が、サブピクセル化手法により部分画像に基づいて拡大画像を作成し、この拡大画像に基づいて罫線除去や文字画像の復元を行なうので、文字画像と罫線とが干渉(重合)している場合においても、高精度な文字画像を抽出することができ、文字の認識精度を向上させることができる。
(B)その他
本帳票認識装置1においては、情報処理装置(コンピュータ)のCPU(Central Processing Unit)が、文字認識プログラム(媒体処理プログラム)を実行することにより、上述した、レイアウト解析部11,部分画像作成部(原画像作成部)12,背景認定部13,罫線抽出部(文字外線分認定部)14,第1文字領域認定部15,拡大画像作成部16,罫線除去部(第1文字外線分除去画像作成部,第2文字外線分除去画像作成部)17,干渉判断部18,文字画像復元部19,第2文字領域認定部20,文字認識部21として機能するようになっている。
なお、これらのレイアウト解析部11,部分画像作成部(原画像作成部)12,背景認定部13,罫線抽出部(文字外線分認定部)14,第1文字領域認定部15,拡大画像作成部16,罫線除去部(第1文字外線分除去画像作成部,第2文字外線分除去画像作成部)17,干渉判断部18,文字画像復元部19,第2文字領域認定部20,文字認識部21としての機能を実現するためのプログラム(文字認識プログラム,媒体処理プログラム)は、例えばフレキシブルディスク,CD−ROM,CD−R,CD−R/W,DVD,DVD−R,DVD−R/W,磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。又、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供するようにしてもよい。
レイアウト解析部11,部分画像作成部(原画像作成部)12,背景認定部13,罫線抽出部(文字外線分認定部)14,第1文字領域認定部15,拡大画像作成部16,罫線除去部(第1文字外線分除去画像作成部,第2文字外線分除去画像作成部)17,干渉判断部18,文字画像復元部19,第2文字領域認定部20,文字認識部21としての機能を実現する際には、内部記憶装置(本実施形態ではコンピュータのRAMやROM,ハードディスク等)に格納されたプログラムがコンピュータのマイクロプロセッサ(本実施形態ではCPU10)によって実行される。このとき、記録媒体に記録されたプログラムをコンピュータが読み取って実行するようにしてもよい。
なお、本実施形態において、コンピュータとは、ハードウェアとオペレーティングシステムとを含む概念であり、オペレーティングシステムの制御の下で動作するハードウェアを意味している。又、オペレーティングシステムが不要でアプリケーションプログラム単独でハードウェアを動作させるような場合には、そのハードウェア自体がコンピュータに相当する。ハードウェアは、少なくとも、CPU等のマイクロプロセッサと、記録媒体に記録されたコンピュータプログラムを読み取るための手段とをそなえており、本実施形態においては、帳票認識装置1がコンピュータとしての機能を有しているのである。
さらに、本実施形態における記録媒体としては、上述したフレキシブルディスク,CD−ROM,CD−R,CD−R/W,DVD,DVD−R,DVD−R/W,磁気ディスク,光ディスク,光磁気ディスクのほか、ICカード,ROMカートリッジ,磁気テープ,パンチカード,コンピュータの内部記憶装置(RAMやROMなどのメモリ),外部記憶装置等や、バーコードなどの符号が印刷された印刷物等のコンピュータ読取可能な種々の媒体を利用することができる。
図19は本発明の一実施形態としての帳票認識装置1における色相クラスタ分類手法を説明するための図であり、図2(a)に示した帳票の部分画像についての色相ヒストグラムの例を示す図である。
図2(a)に示す画像の同一の色相成分の色相ヒストグラムを作成すると、図19に示すように、入力された文字(図2(b)参照)の青の画素の色相ヒストグラム(図19の符号(i)参照)と、プレ印刷部分(図2(c)参照)の赤の画素の色相ヒストグラム(図19の符号(ii)参照)が作成できる。なお、図19の横軸は色相値、縦軸は色相値の出現回数を示している。
本帳票認識装置1においては、カラー帳票のイメージデータをカラー画像で処理する場合に、このような色相クラスタ分類を行なうことにより、背景部分や文字部分,プレ印刷部分の判定(色相分離,色相処理)を可能としている。
なお、数種類の色で印刷された帳票等の原稿をスキャナーで読み取った場合、読み取った画像は、図19に示すように印刷されたインクの濃淡のむら等により、色相値がわずかに異なる画素データが生成され、出現回数のピーク値の近傍に複数のピーク値が検出される。そこで、本実施の形態においては、同一色相の一定の色相値の幅の中に存在するピーク値を1つに統合している。その際、色相値の幅(図19のヒストグラムの横軸)が色相により異なるので、ピーク値の統合の基準となる幅を色相により個別に定めた統合判定テーブルを作成し、その統合判定テーブルを参照してピーク値を統合してもよい。
また、図20は本発明の一実施形態としての帳票認識装置1における輝度クラスタ分類手法を説明するための図であり、図2(a)に示した帳票の部分画像についての輝度ヒストグラムの例を示す図である。
図2(a)に示す画像の同一の輝度成分の輝度ヒストグラムを作成すると、図20に示すように、入力された文字(図2(b)参照)の輝度についての輝度ヒストグラム(図20の符号(i)参照)と、プレ印刷部分(図2(c)参照)の輝度の輝度ヒストグラム(図20の符号(ii)参照)および、背景部分(図2(d)参照)の輝度の輝度ヒストグラム(図20の符号(iii)参照)が作成できる。なお、図20の横軸は輝度値、縦軸は輝度値の出現回数を示している。
本帳票認識装置1においては、カラー帳票のイメージデータをグレースケール画像で処理する場合に、このような輝度クラスタ分類を行なうことにより、背景部分や文字部分,プレ印刷部分の判定(グレー処理)を可能としている。
なお、本発明の各実施形態が開示されていれば、本発明を当業者によって実施・製造することが可能である。
(C)付記
(付記1) 文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識装置であって、
該原画像における色成分の分散量と色情報に関する度数分布とに基づいて背景領域を認定する背景認定部と、
該原画像における、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布と、互いに同一の色特性を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定部と、
該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景
と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、
該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色特性を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、
該原画像に基づいて拡大画像を作成する拡大画像作成部と、
該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と、
該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、
該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像の復元を行なう文字画像復元部と、
該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色特性を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、
該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部とをそなえることを特徴とする、文字認識装置。
(付記2) 該文字外線分認定部が、
該原画像の縦方向と横方向とについて、それぞれ、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布を求め、その結果において所定値以上の度数を有する位置を文字外線分候補位置と認定する文字外線分位置推定部と、
該文字外線分位置推定部によって認定された文字外線分候補位置における色情報にかかる度数分布に基づいて該文字外線分にかかる色情報を特定する色情報特定部と、
該色情報特定部によって特定された該色情報と同一の色情報にかかる画素の連続性に基づいて該文字外線分に関する文字外線分情報を取得する文字外線分情報取得部とをそなえることを特徴とする、付記1記載の文字認識装置。
(付記3) 該文字画像復元部が、
該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像における文字輪郭をスプライン曲線で形成するとともに、
該文字輪郭によって囲まれる領域を前記文字画像にかかる色情報と同一の色情報を有する画素で埋めることを特徴とする、付記1又は付記2記載の文字認識装置。
(付記4) 文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識方法であって、
該原画像における色成分の分散量と色情報に関する度数分布とに基づいて背景領域を認定する背景認定ステップと、
該原画像における、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布と、互いに同一の色特性を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定ステップと、
該原画像において、該文字外線分認定ステップにおいて認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除
去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成ステップと、
該第1文字外線分除去画像作成ステップにおいて作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色特性を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定ステップと、
該原画像に基づいて拡大画像を作成する拡大画像作成ステップと、
該拡大画像作成ステップにおいて作成した該拡大画像において、該文字外線分認定ステップにおいて取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成ステップと、
該文字外線分認定ステップにおいて取得された文字外線分情報と、該第1文字領域認定ステップにおいて認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断ステップと、
該干渉判断ステップにおいて該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像の復元を行なう文字画像復元ステップと、
該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色特性を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定ステップと、
該第2文字領域認定ステップにおいて認定された文字領域を2値化して文字認識を行なう文字認識ステップとをそなえることを特徴とする、文字認識方法。
(付記5) 該文字外線分認定ステップが、
該原画像の縦方向と横方向とについて、それぞれ、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布を求め、その結果において所定値以上の度数を有する位置を文字外線分候補位置と認定する文字外線分位置推定ステップと、
該文字外線分位置推定ステップにおいて認定された文字外線分候補位置における色情報にかかる度数分布に基づいて該文字外線分にかかる色情報を特定する色情報特定ステップと、
該色情報特定ステップにおいて特定された該色情報と同一の色情報にかかる画素の連続性に基づいて該文字外線分に関する文字外線分情報を取得する文字外線分情報取得ステップとをそなえることを特徴とする、付記4記載の文字認識方法。
(付記6) 該文字画像復元ステップにおいて、
該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像における文字輪郭をスプライン曲線で形成するとともに、
該文字輪郭によって囲まれる領域を前記文字画像にかかる色情報と同一の色情報を有する画素で埋めることを特徴とする、付記4又は付記5記載の文字認識方法。
(付記7) 文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識機能をコンピュータに実行させるための文字認識プログラムであって、
該原画像における色成分の分散量と色情報に関する度数分布とに基づいて背景領域を認定する背景認定部と、
該原画像における、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布と、互いに同一の色特性を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定部と、
該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景
と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、
該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色特性を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、
該原画像に基づいて拡大画像を作成する拡大画像作成部と、
該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と、
該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、
該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像の復元を行なう文字画像復元部と、
該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色特性を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、
該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部として、該コンピュータを機能させることを特徴とする、文字認識プログラム。
(付記8) 該文字外線分認定部として該コンピュータを機能させる際に、
該原画像の縦方向と横方向とについて、それぞれ、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布を求め、その結果において所定値以上の度数を有する位置を文字外線分候補位置と認定する文字外線分位置推定部と、
該文字外線分位置推定部によって認定された文字外線分候補位置における色情報にかかる度数分布に基づいて該文字外線分にかかる色情報を特定する色情報特定部と、
該色情報特定部によって特定された該色情報と同一の色情報にかかる画素の連続性に基づいて該文字外線分に関する文字外線分情報を取得する文字外線分情報取得部として該コンピュータを機能させることを特徴とする、付記7記載の文字認識プログラム。
(付記9) 該文字画像復元部として該コンピュータを機能させる際に、
該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像における文字輪郭をスプライン曲線で形成するとともに、
該文字輪郭によって囲まれる領域を前記文字画像にかかる色情報と同一の色情報を有する画素で埋めるように該コンピュータを機能させることを特徴とする、付記7又は付記8記載の文字認識プログラム。
(付記10) 文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識機能をコンピュータに実行させるための文字認識プログラムを記録したコンピュータ読取可能な記録媒体であって、
該文字認識プログラムが、
該原画像における色成分の分散量と色情報に関する度数分布とに基づいて背景領域を認定する背景認定部と、
該原画像における、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布と、互いに同一の色特性を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得す
る文字外線分認定部と、
該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、
該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色特性を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、
該原画像に基づいて拡大画像を作成する拡大画像作成部と、
該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と、
該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、
該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像の復元を行なう文字画像復元部と、
該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色特性を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、
該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部として、該コンピュータを機能させることを特徴とする、文字認識プログラムを記録したコンピュータ読取可能な記録媒体。
(付記11) 該文字認識プログラムが、該文字外線分認定部として該コンピュータを機能させる際に、
該原画像の縦方向と横方向とについて、それぞれ、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布を求め、その結果において所定値以上の度数を有する位置を文字外線分候補位置と認定する文字外線分位置推定部と、
該文字外線分位置推定部によって認定された文字外線分候補位置における色情報にかかる度数分布に基づいて該文字外線分にかかる色情報を特定する色情報特定部と、
該色情報特定部によって特定された該色情報と同一の色情報にかかる画素の連続性に基づいて該文字外線分に関する文字外線分情報を取得する文字外線分情報取得部として該コンピュータを機能させることを特徴とする、付記10記載の文字認識プログラムを記録したコンピュータ読取可能な記録媒体。
(付記12) 文字が記載された媒体から読み取った媒体画像に基づいて、文字認識を行なう媒体処理装置であって、
該媒体画像に基づいて、該媒体画像のレイアウトの特徴を抽出して該レイアウトの構成を解析するレイアウト解析部と、
該レイアウト解析部による解析結果に基づいて、文字認識を行なう対象となる文字画像をそなえた原画像を作成する原画像作成部と、
該原画像における色成分の分散量と色情報に関する度数分布とに基づいて背景領域を認定する背景認定部と、
該原画像における、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布と、互いに同一の色特性を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定部と、
該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、
該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色特性を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、
該原画像に基づいて拡大画像を作成する拡大画像作成部と、
該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と、
該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、
該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像の復元を行なう文字画像復元部と、
該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色特性を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、
該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部とをそなえることを特徴とする、媒体処理装置。
(付記13) 該文字外線分認定部が、
該原画像の縦方向と横方向とについて、それぞれ、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布を求め、その結果において所定値以上の度数を有する位置を文字外線分候補位置と認定する文字外線分位置推定部と、
該文字外線分位置推定部によって認定された文字外線分候補位置における色情報にかかる度数分布に基づいて該文字外線分にかかる色情報を特定する色情報特定部と、
該色情報特定部によって特定された該色情報と同一の色情報にかかる画素の連続性に基づいて該文字外線分に関する文字外線分情報を取得する文字外線分情報取得部とをそなえることを特徴とする、付記12記載の媒体処理装置。
(付記14) 文字が記載された媒体から読み取った媒体画像に基づいて、文字認識を行なう媒体処理方法であって、
該媒体画像に基づいて、該媒体画像のレイアウトの特徴を抽出して該レイアウトの構成を解析するレイアウト解析ステップと、
該レイアウト解析ステップにおける解析結果に基づいて、文字認識を行なう対象となる文字画像をそなえた原画像を作成する原画像作成ステップと、
該原画像における色成分の分散量と色情報に関する度数分布とに基づいて背景領域を認定する背景認定ステップと、
該原画像における、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布と、互いに同一の色特性を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定ステップと、
該原画像において、該文字外線分認定ステップにおいて認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成ステップと、
該第1文字外線分除去画像作成ステップにおいて作成された該第1文字外線分除去画像
において、該背景領域以外の領域であって、互いに同一の色特性を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定ステップと、
該原画像に基づいて拡大画像を作成する拡大画像作成ステップと、
該拡大画像作成ステップにおいて作成した該拡大画像において、該文字外線分認定ステップにおいて取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成ステップと、
該文字外線分認定ステップにおいて取得された文字外線分情報と、該第1文字領域認定ステップにおいて認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断ステップと、
該干渉判断ステップにおいて該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像の復元を行なう文字画像復元ステップと、
該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色特性を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定ステップと、
該第2文字領域認定ステップにおいて認定された文字領域を2値化して文字認識を行なう文字認識ステップとをそなえることを特徴とする、媒体処理方法。
(付記15) 該文字外線分認定ステップが、
該原画像の縦方向と横方向とについて、それぞれ、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布を求め、その結果において所定値以上の度数を有する位置を文字外線分候補位置と認定する文字外線分位置推定ステップと、
該文字外線分位置推定ステップにおいて認定された文字外線分候補位置における色情報にかかる度数分布に基づいて該文字外線分にかかる色情報を特定する色情報特定ステップと、
該色情報特定ステップにおいて特定された該色情報と同一の色情報にかかる画素の連続性に基づいて該文字外線分に関する文字外線分情報を取得する文字外線分情報取得ステップとをそなえることを特徴とする、付記14記載の媒体処理方法。
(付記16) 文字が記載された媒体から読み取った媒体画像に基づいて、文字認識を行なう媒体処理機能をコンピュータに実行させるための媒体処理プログラムであって、
該媒体画像に基づいて、該媒体画像のレイアウトの特徴を抽出して該レイアウトの構成を解析するレイアウト解析部と、
該レイアウト解析部による解析結果に基づいて、文字認識を行なう対象となる文字画像をそなえた原画像を作成する原画像作成部と、
該原画像における色成分の分散量と色情報に関する度数分布とに基づいて背景領域を認定する背景認定部と、
該原画像における、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布と、互いに同一の色特性を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定部と、
該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、
該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色特性を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、
該原画像に基づいて拡大画像を作成する拡大画像作成部と、
該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と、
該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、
該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像の復元を行なう文字画像復元部と、
該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色特性を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、
該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部として、該コンピュータを機能させることを特徴とする、媒体処理プログラム。
(付記17) 該文字外線分認定部として該コンピュータを機能させる際に、
該原画像の縦方向と横方向とについて、それぞれ、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布を求め、その結果において所定値以上の度数を有する位置を文字外線分候補位置と認定する文字外線分位置推定部と、
該文字外線分位置推定部によって認定された文字外線分候補位置における色情報にかかる度数分布に基づいて該文字外線分にかかる色情報を特定する色情報特定部と、
該色情報特定部によって特定された該色情報と同一の色情報にかかる画素の連続性に基づいて該文字外線分に関する文字外線分情報を取得する文字外線分情報取得部として該コンピュータを機能させることを特徴とする、付記16記載の媒体処理プログラム。
(付記18) 文字が記載された媒体から読み取った媒体画像に基づいて、文字認識を行なう媒体処理機能をコンピュータに実行させるための媒体処理プログラムを記録したコンピュータ読取可能な記録媒体であって、
該媒体処理プログラムが、
該媒体画像に基づいて、該媒体画像のレイアウトの特徴を抽出して該レイアウトの構成を解析するレイアウト解析部と、
該レイアウト解析部による解析結果に基づいて、文字認識を行なう対象となる文字画像をそなえた原画像を作成する原画像作成部と、
該原画像における色成分の分散量と色情報に関する度数分布とに基づいて背景領域を認定する背景認定部と、
該原画像における、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布と、互いに同一の色特性を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定部と、
該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、
該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色特性を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、
該原画像に基づいて拡大画像を作成する拡大画像作成部と、
該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する
背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と、
該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、
該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像の復元を行なう文字画像復元部と、
該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色特性を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、
該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部として、該コンピュータを機能させることを特徴とする、媒体処理プログラムを記録したコンピュータ読取可能な記録媒体。
(付記19) 該媒体処理プログラムが、該文字外線分認定部として該コンピュータを機能させる際に、
該原画像の縦方向と横方向とについて、それぞれ、該背景領域を構成する画素とは異なる色情報を有する画素の度数分布を求め、その結果において所定値以上の度数を有する位置を文字外線分候補位置と認定する文字外線分位置推定部と、
該文字外線分位置推定部によって認定された文字外線分候補位置における色情報にかかる度数分布に基づいて該文字外線分にかかる色情報を特定する色情報特定部と、
該色情報特定部によって特定された該色情報と同一の色情報にかかる画素の連続性に基づいて該文字外線分に関する文字外線分情報を取得する文字外線分情報取得部として該コンピュータを機能させることを特徴とする、付記18記載の媒体処理プログラムを記録したコンピュータ読取可能な記録媒体。
(付記20) 該媒体処理プログラムが、該文字画像復元部として該コンピュータを機能させる際に、
該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色情報と該文字外線分にかかる色情報との相違に基づいて該文字画像における文字輪郭をスプライン曲線で形成するとともに、
該文字輪郭によって囲まれる領域を前記文字画像にかかる色情報と同一の色情報を有する画素で埋めるように該コンピュータを機能させることを特徴とする、付記18又は付記19記載の媒体処理プログラムを記録したコンピュータ読取可能な記録媒体。
複数色を用いて作成されたカラー原稿に記載された文字情報の認識にも適用できる。
本発明の一実施形態としての帳票認識装置の構成を模式的に示す図である。 (a),(b),(c),(d)はそれぞれ本帳票認識装置によって識別される帳票を説明するための図である。 赤の色の彩度Sと明度Lとの関係を示す図である。 (a),(b)はそれぞれ本発明の一実施形態としての帳票認識装置の背景認定部13によって作成される背景用ヒストグラムの例を示す図である。 (a),(b)はそれぞれ本発明の一実施形態としての帳票認識装置の背景認定部13によって作成される背景以外用ヒストグラムの例を示す図である。 本発明の一実施形態としての帳票認識装置の背景認定部による背景色の決定手法を説明するためのフローチャートである。 (a),(b),(c)は部分画像の縦方向および横方向におけるヒストグラムの例を示す図である。 本発明の一実施形態としての帳票認識装置における罫線(横線分)の作成手法を説明するための図である。 (a),(b)はそれぞれ本発明の一実施形態としての帳票認識装置における罫線(横線分)の作成手法を説明するための図である。 本発明の一実施形態としての帳票認識装置における罫線抽出部による罫線情報の抽出手法を説明するためのフローチャートである。 (a),(b)は本発明の一実施形態としての帳票認識装置の拡大画像作成部による拡大画像の作成手法の例を説明するための図である。 本発明の一実施形態としての帳票認識装置の罫線除去の過程における文字画像の例を示す図である。 本発明の一実施形態としての帳票認識装置の罫線除去の過程における文字画像の例を示す図である。 本発明の一実施形態としての帳票認識装置の罫線除去の過程における文字画像の例を示す図である。 (a),(b)は本発明の一実施形態としての帳票認識装置の罫線除去の過程における文字画像の例を示す図である。 本発明の一実施形態としての帳票認識装置における罫線除去から文字画像の復元にかけての処理を説明するためのフローチャートである。 本発明の一実施形態としての帳票認識装置における文字認識処理を説明するためのフローチャートである。 本発明の一実施形態としての帳票認識装置における帳票認識にかかる処理を説明するためのフローチャートである。 本発明の一実施形態としての帳票認識装置における色相クラスタ分類手法を説明するための図である。 本発明の一実施形態としての帳票認識装置における輝度クラスタ分類手法を説明するための図である。
符号の説明
1 帳票認識装置(媒体処理装置,文字認識装置)
2 カラーイメージリーダ
3 メモリ
4 ハードディスク
5 モニタ
6 キーボード
10 CPU
11 レイアウト解析部
12 部分画像作成部(原画像作成部)
13 背景認定部
14 罫線抽出部(文字外線分認定部)
15 第1文字領域認定部
16 拡大画像作成部
17 罫線除去部(第1文字外線分除去画像作成部,第2文字外線分除去画像作成部)
18 干渉判断部
19 文字画像復元部
20 第2文字領域認定部
21 文字認識部
22 事前登録データベース
23 罫線位置推定部(文字外線分位置推定部)
24 色相特定部(色情報特定部)
25 罫線情報取得部(文字外線分情報取得部)

Claims (10)

  1. 文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識装置であって、
    該原画像における所定サイズの領域を構成する各画素のR,G,Bの各色の階調値に基づいて算出した色値分散量に基づいて背景領域を認定し、色相又は輝度に関する度数分布に基づいて背景を認定する背景認定部と、
    該原画像における、該背景領域を構成する画素とは異なる色相又は輝度を有する画素の度数分布と、互いに同一の色を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定部と、
    該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、
    該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、
    該原画像に基づいて拡大画像を作成する拡大画像作成部と、
    該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と
    第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、
    該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部とをそなえることを特徴とする、文字認識装置。
  2. 該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、
    該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色相又は輝度と該文字外線分にかかる色相又は輝度との相違に基づいて該第2文字外線分除去画像の復元を行なう文字画像復元部とをそなえ、
    該第2文字領域認定部が、
    該文字画像復元部によって復元された該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色相を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定することを特徴とする、請求項1記載の文字認識装置。
  3. 文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識方法であって、
    該原画像における所定サイズの領域を構成する各画素のR,G,Bの各色の階調値に基づいて算出した色値分散量に基づいて背景領域を認定し、色相又は輝度に関する度数分布に基づいて背景を認定する背景認定ステップと、
    該原画像における、該背景領域を構成する画素とは異なる色相又は輝度を有する画素の度数分布と、互いに同一の色を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定ステップと、
    該原画像において、該文字外線分認定ステップにおいて認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成ステップと、
    該第1文字外線分除去画像作成ステップにおいて作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定ステップと、
    該原画像に基づいて拡大画像を作成する拡大画像作成ステップと、
    該拡大画像作成ステップにおいて作成した該拡大画像において、該文字外線分認定ステ
    ップにおいて取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成ステップと
    第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定ステップと、
    該第2文字領域認定ステップにおいて認定された文字領域を2値化して文字認識を行なう文字認識ステップとをそなえることを特徴とする、文字認識方法。
  4. 該文字外線分認定ステップにおいて取得された文字外線分情報と、該第1文字領域認定ステップにおいて認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断ステップと、
    該干渉判断ステップにおいて該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色相又は輝度と該文字外線分にかかる色相又は輝度との相違に基づいて該第2文字外線分除去画像の復元を行なう文字画像復元ステップとをそなえ、
    該第2文字領域認定ステップにおいて、
    該文字画像復元ステップにおいて復元された該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色相を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定することを特徴とする、請求項3記載の文字認識方法。
  5. 文字が記載された媒体から読み取った媒体画像に基づいて、文字認識を行なう媒体処理方法であって、
    該媒体画像に基づいて、該媒体画像のレイアウトの特徴を抽出して該レイアウトの構成を解析するレイアウト解析ステップと、
    該レイアウト解析ステップにおける解析結果に基づいて、文字認識を行なう対象となる文字画像をそなえた原画像を作成する原画像作成ステップと、
    該原画像における所定サイズの領域を構成する各画素のR,G,Bの各色の階調値に基づいて算出した色値分散量に基づいて背景領域を認定し、色相又は輝度に関する度数分布に基づいて背景を認定する背景認定ステップと、
    該原画像における、該背景領域を構成する画素とは異なる色相又は輝度を有する画素の度数分布と、互いに同一の色を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定ステップと、
    該原画像において、該文字外線分認定ステップにおいて認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成ステップと、
    該第1文字外線分除去画像作成ステップにおいて作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定ステップと、
    該原画像に基づいて拡大画像を作成する拡大画像作成ステップと、
    該拡大画像作成ステップにおいて作成した該拡大画像において、該文字外線分認定ステップにおいて取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成ステップと
    第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定ステップと、
    該第2文字領域認定ステップにおいて認定された文字領域を2値化して文字認識を行な
    う文字認識ステップとをそなえることを特徴とする、媒体処理方法。
  6. 該文字外線分認定ステップにおいて取得された文字外線分情報と、該第1文字領域認定ステップにおいて認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断ステップと、
    該干渉判断ステップにおいて該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色相又は輝度と該文字外線分にかかる色相又は輝度との相違に基づいて該第2文字外線分除去画像の復元を行なう文字画像復元ステップとをそなえ、
    該第2文字領域認定ステップにおいて、
    該文字画像復元ステップにおいて復元された該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色相を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定することを特徴とする、請求項5記載の媒体処理方法。
  7. 文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識機能をコンピュータに実行させるための文字認識プログラムであって、
    該原画像における所定サイズの領域を構成する各画素のR,G,Bの各色の階調値に基づいて算出した色値分散量に基づいて背景領域を認定し、色相又は輝度に関する度数分布に基づいて背景を認定する背景認定部と、
    該原画像における、該背景領域を構成する画素とは異なる色相又は輝度を有する画素の度数分布と、互いに同一の色を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定部と、
    該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、
    該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、
    該原画像に基づいて拡大画像を作成する拡大画像作成部と、
    該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と
    第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、
    該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部として、該コンピュータを機能させることを特徴とする、文字認識プログラム。
  8. 該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、
    該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色相又は輝度と該文字外線分にかかる色相又は輝度との相違に基づいて該第2文字外線分除去画像の復元を行なう文字画像復元部として該コンピュータを機能させるとともに、
    該第2文字領域認定部として該コンピュータを機能させる際に、
    該文字画像復元部によって復元された該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色相を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定することを特徴とする、請求項7記載の文字認識プログラム。
  9. 文字画像を含む原画像から該文字画像を抽出し、当該文字画像にかかる文字を認識する文字認識機能をコンピュータに実行させるための文字認識プログラムを記録したコンピュータ読取可能な記録媒体であって、
    該文字認識プログラムが、
    該原画像における所定サイズの領域を構成する各画素のR,G,Bの各色の階調値に基づいて算出した色値分散量に基づいて背景領域を認定し、色相又は輝度に関する度数分布に基づいて背景を認定する背景認定部と、
    該原画像における、該背景領域を構成する画素とは異なる色相又は輝度を有する画素の度数分布と、互いに同一の色を有する画素が所定数以上連続する連続画素とに基づいて該文字以外の文字外線分を認定するとともに、該文字外線分に関する文字外線分情報を取得する文字外線分認定部と、
    該原画像において、該文字外線分認定部によって認定された該文字外線分を、該背景と同じ色成分を有する画素で置換することにより、該原画像から該文字外線分を除去した第1文字外線分除去画像を作成する第1文字外線分除去画像作成部と、
    該第1文字外線分除去画像作成部によって作成された該第1文字外線分除去画像において、該背景領域以外の領域であって、互いに同一の色を有する画素が所定数以上連続する連続画素を含む領域を文字領域として認定する第1文字領域認定部と、
    該原画像に基づいて拡大画像を作成する拡大画像作成部と、
    該拡大画像作成部によって作成された該拡大画像において、該文字外線分認定部によって取得された該文字外線分情報に基づいて、該文字外線分を該背景と同じ色成分を有する背景画素で置換することにより、当該拡大画像から該文字外線分を除去した第2文字外線分除去画像を作成する第2文字外線分除去画像作成部と
    第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定する第2文字領域認定部と、
    該第2文字領域認定部によって認定された文字領域を2値化して文字認識を行なう文字認識部として、該コンピュータを機能させることを特徴とする、文字認識プログラムを記録したコンピュータ読取可能な記録媒体。
  10. 該文字認識プログラムが、
    該文字外線分認定部によって取得された文字外線分情報と、該第1文字領域認定部によって認定された文字領域とに基づいて、該原画像において該文字と該文字外線分とが干渉しているか否かを判断する干渉判断部と、
    該干渉判断部によって該文字画像と該文字外線分とが干渉していると判断された場合に、該第2文字外線分除去画像における前記文字画像と文字外線分との干渉位置について、該文字画像にかかる色相又は輝度と該文字外線分にかかる色相又は輝度との相違に基づいて該第2文字外線分除去画像の復元を行なう文字画像復元部として該コンピュータを機能させるとともに、
    該第2文字領域認定部として該コンピュータを機能させる際に、
    該文字画像復元部によって復元された該第2文字外線分除去画像において、該背景領域以外の領域であって、同一の色相を有する画素が所定数以上連続する連続画素を含む所定サイズ以上の領域を文字領域として認定することを特徴とする、請求項9記載の文字認識プログラムを記録したコンピュータ読取可能な記録媒体。
JP2004067728A 2004-03-10 2004-03-10 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体 Expired - Fee Related JP4603807B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2004067728A JP4603807B2 (ja) 2004-03-10 2004-03-10 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体
US10/912,234 US7324692B2 (en) 2004-03-10 2004-08-06 Character recognition method
DE602004022130T DE602004022130D1 (de) 2004-03-10 2004-08-19 Verfahren zur Zeichenerkennung
EP04019715A EP1574987B1 (en) 2004-03-10 2004-08-19 Character recognition method
CNB2004100787899A CN1313963C (zh) 2004-03-10 2004-09-17 字符识别装置和字符识别方法
KR1020040077435A KR100625755B1 (ko) 2004-03-10 2004-09-24 문자 인식 장치, 문자 인식 방법, 매체 처리 방법 및 문자 인식 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004067728A JP4603807B2 (ja) 2004-03-10 2004-03-10 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2005258683A JP2005258683A (ja) 2005-09-22
JP4603807B2 true JP4603807B2 (ja) 2010-12-22

Family

ID=34824584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004067728A Expired - Fee Related JP4603807B2 (ja) 2004-03-10 2004-03-10 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体

Country Status (6)

Country Link
US (1) US7324692B2 (ja)
EP (1) EP1574987B1 (ja)
JP (1) JP4603807B2 (ja)
KR (1) KR100625755B1 (ja)
CN (1) CN1313963C (ja)
DE (1) DE602004022130D1 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005073015A (ja) * 2003-08-26 2005-03-17 Canon Inc 画像処理装置及び画像処理方法及びコンピュータプログラム
EP1555804A3 (en) * 2004-01-19 2006-08-16 Ricoh Company, Ltd. Image processing apparatus, image processing program and storage medium
US7734089B2 (en) * 2005-08-23 2010-06-08 Trident Microsystems (Far East) Ltd. Method for reducing mosquito noise
JP4215038B2 (ja) * 2005-09-16 2009-01-28 セイコーエプソン株式会社 画像処理装置、画像処理方法、およびプログラム
CN100419781C (zh) * 2005-10-05 2008-09-17 三菱电机株式会社 图像识别装置
CN101154291B (zh) * 2006-09-29 2010-05-12 国际商业机器公司 图像数据压缩方法、图像显示方法及其相应装置
JP4443576B2 (ja) * 2007-01-18 2010-03-31 富士通株式会社 パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法
US7853074B2 (en) * 2007-02-26 2010-12-14 Eastman Kodak Company Multi-color dropout for scanned document
US8000535B2 (en) * 2007-06-18 2011-08-16 Sharp Laboratories Of America, Inc. Methods and systems for refining text segmentation results
US8041120B2 (en) * 2007-06-26 2011-10-18 Microsoft Corporation Unified digital ink recognition
US8315482B2 (en) 2007-06-26 2012-11-20 Microsoft Corporation Integrated platform for user input of digital ink
US8094939B2 (en) * 2007-06-26 2012-01-10 Microsoft Corporation Digital ink-based search
US8326028B2 (en) 2007-12-26 2012-12-04 Hitachi Computer Peripherals Co., Ltd. Dropout color processing method and processing apparatus using same
JP4909311B2 (ja) * 2008-03-31 2012-04-04 富士通フロンテック株式会社 文字認識装置
KR101023309B1 (ko) 2008-03-31 2011-03-18 후지츠 프론테크 가부시키가이샤 문자 인식 장치
JP5049920B2 (ja) * 2008-08-26 2012-10-17 キヤノン株式会社 画像処理装置及び画像処理方法
JP5229328B2 (ja) * 2008-11-12 2013-07-03 富士通株式会社 文字領域抽出装置,文字領域抽出機能を備えた撮像装置,および文字領域抽出プログラム
KR101114744B1 (ko) * 2009-02-12 2012-03-05 전남대학교산학협력단 영상으로부터 텍스트를 인식하는 방법
JP5182523B2 (ja) * 2009-03-04 2013-04-17 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4798236B2 (ja) 2009-03-06 2011-10-19 カシオ計算機株式会社 撮像装置、画像処理方法及びプログラム
WO2010113217A1 (ja) * 2009-03-31 2010-10-07 富士通フロンテック株式会社 文字認識装置及び文字認識方法
JP5332838B2 (ja) * 2009-04-07 2013-11-06 ソニー株式会社 情報処理装置、および実行制御方法
JP5337563B2 (ja) * 2009-04-08 2013-11-06 日立コンピュータ機器株式会社 帳票認識方法および装置
JP5279654B2 (ja) * 2009-08-06 2013-09-04 キヤノン株式会社 画像追尾装置、画像追尾方法、及びコンピュータプログラム
TWI408610B (zh) 2009-12-30 2013-09-11 Ind Tech Res Inst 姿勢辨識方法與系統,及其電腦程式產品
CN102136070B (zh) * 2010-01-22 2013-10-30 财团法人工业技术研究院 姿势辨识方法与系统,及其计算机程序产品
KR20110087620A (ko) * 2010-01-26 2011-08-03 광주과학기술원 레이아웃 기반의 인쇄매체 페이지 인식방법
CN101916327B (zh) * 2010-07-09 2011-11-09 北京商纳科技有限公司 一种生成错题本的方法及系统
CN102455628B (zh) * 2010-10-29 2014-08-13 京瓷办公信息系统株式会社 图像形成装置
JP5598325B2 (ja) * 2010-12-29 2014-10-01 コニカミノルタ株式会社 文字検出装置、文字検出方法、およびコンピュータプログラム
JP2011175663A (ja) * 2011-04-22 2011-09-08 Casio Computer Co Ltd 撮像装置、画像処理方法及びプログラム
JP5826081B2 (ja) * 2012-03-19 2015-12-02 株式会社Pfu 画像処理装置、文字認識方法及びコンピュータプログラム
JP2014002662A (ja) * 2012-06-20 2014-01-09 Hitachi Solutions Ltd 帳票印刷システム
JP5887242B2 (ja) * 2012-09-28 2016-03-16 日立オムロンターミナルソリューションズ株式会社 画像処理装置、画像処理方法、及びプログラム
JP5822865B2 (ja) 2013-04-25 2015-11-25 京セラドキュメントソリューションズ株式会社 画像処理装置、罫線判定方法、及び罫線判定プログラム
JP6444981B2 (ja) * 2014-02-28 2018-12-26 オリンパス株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP6350069B2 (ja) * 2014-07-22 2018-07-04 富士ゼロックス株式会社 情報処理システム、情報処理装置およびプログラム
JP2016110354A (ja) 2014-12-05 2016-06-20 三星ディスプレイ株式會社Samsung Display Co.,Ltd. 画像処理装置、画像処理方法、およびプログラム
US9811754B2 (en) * 2014-12-10 2017-11-07 Ricoh Co., Ltd. Realogram scene analysis of images: shelf and label finding
CN107025452A (zh) * 2016-01-29 2017-08-08 富士通株式会社 图像识别方法和图像识别设备
CN107346580B (zh) * 2016-05-05 2019-11-05 腾讯科技(深圳)有限公司 票据信息识别方法及装置
US10068132B2 (en) * 2016-05-25 2018-09-04 Ebay Inc. Document optical character recognition
CN109948507B (zh) * 2019-03-14 2021-05-07 北京百度网讯科技有限公司 用于检测表格的方法和装置
JP7379876B2 (ja) * 2019-06-17 2023-11-15 株式会社リコー 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
CN111145126B (zh) * 2019-12-31 2023-04-07 陈文海 一种图像文字快速抹除方法
CN111275051A (zh) * 2020-02-28 2020-06-12 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001297303A (ja) * 2000-02-09 2001-10-26 Ricoh Co Ltd 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335292A (en) 1988-12-21 1994-08-02 Recognition International Inc. Document processing system and method
JP2637541B2 (ja) 1989-02-02 1997-08-06 富士通株式会社 色識別方法及び装置
JPH0388019A (ja) * 1989-08-31 1991-04-12 Toshiba Corp データ処理装置
US5459797A (en) * 1991-03-30 1995-10-17 Kabushiki Kaisha Toshiba Character reading system
JP3258122B2 (ja) 1993-03-31 2002-02-18 株式会社東芝 画像処理装置
JPH0851540A (ja) * 1994-08-04 1996-02-20 Canon Inc 画像処理装置及び方法
JPH08123901A (ja) * 1994-10-26 1996-05-17 Nec Corp 文字抽出装置及び該装置を用いた文字認識装置
WO1997005561A1 (fr) 1995-07-31 1997-02-13 Fujitsu Limited Processeur de supports et procede de traitement de supports
JP3207338B2 (ja) * 1995-09-11 2001-09-10 沖電気工業株式会社 光学式文字読取り装置
JP2871590B2 (ja) * 1996-05-13 1999-03-17 日本電気株式会社 画像抽出方式
US6366699B1 (en) * 1997-12-04 2002-04-02 Nippon Telegraph And Telephone Corporation Scheme for extractions and recognitions of telop characters from video data
JP3895473B2 (ja) 1998-08-10 2007-03-22 株式会社リコー 記入情報抽出方法および記入情報抽出方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
JP3204245B2 (ja) 1999-04-27 2001-09-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 罫線除去方法および装置
JP2001092912A (ja) 1999-09-24 2001-04-06 Toshiba Corp データ入力装置及びデータ入力方法
JP2002342710A (ja) 2001-05-16 2002-11-29 Nec Corp 文字切出し装置及びそれに用いる文字切出し方法並びにそのプログラム
JP3949954B2 (ja) 2001-12-27 2007-07-25 富士通株式会社 ドロップアウトカラー識別処理プログラム、方法、および装置
JP3955467B2 (ja) 2001-12-27 2007-08-08 株式会社日立製作所 画像処理プログラム及び画像処理装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001297303A (ja) * 2000-02-09 2001-10-26 Ricoh Co Ltd 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
DE602004022130D1 (de) 2009-09-03
CN1667641A (zh) 2005-09-14
KR100625755B1 (ko) 2006-09-20
CN1313963C (zh) 2007-05-02
EP1574987A2 (en) 2005-09-14
KR20050090945A (ko) 2005-09-14
EP1574987B1 (en) 2009-07-22
JP2005258683A (ja) 2005-09-22
US20050201620A1 (en) 2005-09-15
US7324692B2 (en) 2008-01-29
EP1574987A3 (en) 2006-09-06

Similar Documents

Publication Publication Date Title
JP4603807B2 (ja) 文字認識装置,文字認識方法,媒体処理方法,文字認識プログラムおよび文字認識プログラムを記録したコンピュータ読取可能な記録媒体
KR100927528B1 (ko) 전자 워터마크 매립 장치 및 검출 장치
US6865290B2 (en) Method and apparatus for recognizing document image by use of color information
US8385643B2 (en) Determination of inputted image to be document or non-document
JP5830338B2 (ja) 帳票認識方法および帳票認識装置
JP2009535899A (ja) 走査されたカラー画像からの複調画像の生成
JP4558232B2 (ja) 画像処理方法、画像処理装置および画像処理方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5337563B2 (ja) 帳票認識方法および装置
US20210192262A1 (en) Apparatus for processing image, storage medium, and image processing method
JP4423333B2 (ja) 背景領域特定方法、背景領域特定システム、背景色決定方法、制御プログラム、および、記録媒体
US20080063271A1 (en) Character extracting apparatus, method, and program
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
US8810877B2 (en) Image processing apparatus, image processing method, and storage medium for eliminating blurring of scanned image
JP2010191724A (ja) 画像処理装置および制御プログラム
JP5005732B2 (ja) 画像形成装置及び画像処理方法
JP5887242B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP5929282B2 (ja) 画像処理装置及び画像処理プログラム
JP2010186246A (ja) 画像処理装置、方法、及び、プログラム
CN111311696B (zh) 一种基于高光谱解混技术的车牌真伪检测方法
US20100238470A1 (en) Document image processing system and document image processing method
KR100449486B1 (ko) 수직선 인접 그래프를 이용한 문서 인식 시스템 및 방법
JP4492258B2 (ja) 文字・図形の認識方法および検査方法
JP4631371B2 (ja) 画像処理装置
JP2003271973A (ja) 画像処理方法および画像処理プログラム
JP2005348279A (ja) 画像処理装置、画像処理方法、画像処理プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20091208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100921

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101004

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4603807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250