JP2007304864A - 文字認識処理システムおよび文字認識処理プログラム - Google Patents

文字認識処理システムおよび文字認識処理プログラム Download PDF

Info

Publication number
JP2007304864A
JP2007304864A JP2006132655A JP2006132655A JP2007304864A JP 2007304864 A JP2007304864 A JP 2007304864A JP 2006132655 A JP2006132655 A JP 2006132655A JP 2006132655 A JP2006132655 A JP 2006132655A JP 2007304864 A JP2007304864 A JP 2007304864A
Authority
JP
Japan
Prior art keywords
character recognition
character
area
region
recognition processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006132655A
Other languages
English (en)
Inventor
Etsuko Ito
悦子 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006132655A priority Critical patent/JP2007304864A/ja
Priority to US11/709,796 priority patent/US8059896B2/en
Publication of JP2007304864A publication Critical patent/JP2007304864A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

【課題】背景色のある文字領域(例えば、蛍光ペンによるマークを付けた文字領域部分)であっても、文字認識率を高めることができる文字認識処理システムおよび文字認識処理プログラムを提供する。
【解決手段】文字認識処理の確からしさを評価し、前記文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類し、前記分類された領域に対して、文字認識の確からしさが高いと評価された領域に関する情報に応じて文字と文字以外とを分離し、前記分離された文字領域に対して文字認識処理を行う。
【選択図】図1

Description

本発明は、文字認識処理システムおよび文字認識処理プログラムに関する。
紙文書を電子保存する場合、紙文書をスキャンして画像データ化した状態で保持(電子ファイリング)しておくことが行われている。その際、何らかの属性・キーワードを付与して、画像データ化した文書の活用性を高めることが一般的に行われている。その文書の活用性を考慮すると、上記属性・キーワードとして紙文書内の文字列を利用することが望ましい。
このような技術に関連するものとして、例えば、特許文献1には、イメージファイルを行う文書の登録を行うときあらかじめ業務に精通している者によってその文書の中の重要な部分(ポイント)に蛍光ペンによって印(マーク)を付けておき、イメージ読取り装置を用いてその文書の登録処理を行うとき、イメージ読取りを行うとともに文書中に蛍光ペンのマークを付けた部分が存在するか否かを判別し、マークを付けた部分がある場合はその部分について文字読取りを行って単語に分解し、その単語をキーワードとしてインデックス部に登録することによって、キーワードの登録作業を自動化することができ、従ってキーワードの登録作業時間を短縮して人件費を節減できることが記載されている。
また、例えば、特許文献2には、マーカ文字/図形を含む原稿画像をマーカ編集する際、地肌判定、文字/図形判定、マーカ色判定を行い、マーカかつ文字/図形と判定された画素は文字/図形として処理することが記載されている。
また、例えば、特許文献3には、下地、マーカ、文字の濃度ヒストグラムを参照し、各々のピークとピーク間の濃度幅から2値化閾値を算出することが記載されている。
また、例えば、特許文献4には、マーカ文字/図形を含む原稿画像をマーカ編集する際、白画素、黒画素、色画素に分けるとき、垂直方向、水平方向の順に同色画素の連結数を算出し、連結数の少ない色画素ノイズを判定し、マーカ編集のデータ色から外すことが記載されている。
特開平05−233705号公報 特開平06−205175号公報 特開平07−264390号公報 特開平08−125878号公報
背景色のある文字領域(例えば、蛍光ペンによるマークを付けた文字領域部分)であっても、文字認識率を高めることができる文字認識処理システムおよび文字認識処理プログラムを提供することを目的とする。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
[1] 文字認識処理の確からしさを評価する文字認識確からしさ評価手段と、
前記文字認識確からしさ評価手段によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類する領域分類手段と、
前記領域分類手段によって分類された領域に対して、前記文字認識確からしさ評価手段によって文字認識の確からしさが高いと評価された領域に関する情報に応じて文字と文字以外とを分離する文字分離手段と、
前記文字分離手段によって分離された文字領域に対して文字認識処理を行う文字認識手段
を具備することを特徴とする文字認識処理システム。
[2] 文字認識処理の確からしさを評価する文字認識確からしさ評価手段と、
前記文字認識確からしさ評価手段によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類する領域分類手段と、
前記領域分類手段によって分類された領域に対して、文字認識処理を行う文字認識手段と、
前記文字認識手段によって行われた文字認識処理の確からしさが高いものを文字として判断する文字認識判断手段
を具備することを特徴とする文字認識処理システム。
[3] 背景色のある文字画像を含む画像を取得する画像取得手段と、
前記画像取得手段によって取得された画像から背景色のある文字領域を取得する背景色文字領域取得手段と、
背景色文字領域取得手段によって取得された背景色のある文字領域から文字を切り出す文字切り出し手段と、
前記文字切り出し手段によって切り出された文字領域に対して文字認識を行う第1の文字認識手段と、
前記第1の文字認識手段によって行われた文字認識処理の確からしさを算出する文字認識確からしさ算出手段と、
前記文字認識確からしさ算出手段によって算出された文字認識処理の確からしさを評価する文字認識確からしさ評価手段と、
前記文字認識確からしさ評価手段によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった文字領域に対して複数の領域に分類する領域分類手段と、
前記領域分類手段によって分類された領域に対して、前記文字認識確からしさ評価手段によって文字認識の確からしさが高いと評価された領域に関する情報に応じて文字と文字以外とを分離する文字分離手段と、
前記文字分離手段によって分離された文字領域に対して文字認識処理を行う第2の文字認識手段
を具備することを特徴とする文字認識処理システム。
[4] 背景色のある文字画像を含む画像を取得する画像取得手段と、
前記画像取得手段によって取得された画像から背景色のある文字領域を取得する背景色文字領域取得手段と、
背景色文字領域取得手段によって取得された背景色のある文字領域から文字を切り出す文字切り出し手段と、
前記文字切り出し手段によって切り出された文字領域に対して文字認識を行う第1の文字認識手段と、
前記第1の文字認識手段によって行われた文字認識処理の確からしさを算出する文字認識確からしさ算出手段と、
前記文字認識確からしさ算出手段によって算出された文字認識処理の確からしさを評価する文字認識確からしさ評価手段と、
前記文字認識確からしさ評価手段によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった文字領域に対して複数の領域に分類する領域分類手段と、
前記領域分類手段によって分類された領域に対して、文字認識処理を行う第2の文字認識手段と、
前記第2の文字認識手段によって行われた文字認識処理の確からしさが高いものを文字として判断する文字認識判断手段
を具備することを特徴とする文字認識処理システム。
[5] 前記領域分類手段による分類は、色に応じて分類することを特徴とする[1],[2],[3]または[4]に記載の文字認識処理システム。
[6] 前記領域分類手段による分類は、彩度に応じて分類することを特徴とする[1],[2],[3]または[4]に記載の文字認識処理システム。
[7] 前記領域分類手段による分類は、彩度のエッジに応じて分類することを特徴とする[1],[2],[3]または[4]に記載の文字認識処理システム。
[8] 前記文字分離手段によって用いられる前記文字認識確からしさ評価手段によって文字認識の確からしさが高いと評価された領域は、分離する対象となっている文字領域が含まれる前記背景色文字領域取得手段によって取得された背景色のある文字領域である
ことを特徴とする[3],[5],[6]または[7]に記載の文字認識処理システム。
[9] 前記文字分離手段によって用いられる前記文字認識確からしさ評価手段によって文字認識の確からしさが高いと評価された領域に関する情報は、彩度情報である
ことを特徴とする[1],[3],[5],[6],[7]または[8]に記載の文字認識処理システム。
[10] 最終的な文字認識結果を、対象となっている画像のタイトルまたは属性として付加するタイトル属性付加手段
をさらに具備することを特徴とする[1],[2],[3],[4],[5],[6],[7],[8]または[9]に記載の文字認識処理システム。
[11] 文字認識処理の対象となる領域に対して複数の領域に分類する領域分類手段と、
前記領域分類手段によって分類された領域を、文字と文字以外とに分離する文字分離手段と、
前記文字分離手段によって分離された文字領域に対して文字認識処理を行う文字認識手段
を具備することを特徴とする文字認識処理システム。
[12] 文字認識処理の対象となる領域に対して複数の領域に分類する領域分類手段と、
前記領域分類手段によって分類されたそれぞれの領域に対して、文字認識処理を行う文字認識手段と、
前記文字認識手段によって行われた文字認識処理の確からしさが高いものを文字として判断する文字認識判断手段
を具備することを特徴とする文字認識処理システム。
[13] コンピュータに、
文字認識処理の確からしさを評価する文字認識確からしさ評価機能と、
前記文字認識確からしさ評価機能によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類する領域分類機能と、
前記領域分類機能によって分類された領域に対して、前記文字認識確からしさ評価機能によって文字認識の確からしさが高いと評価された領域に関する情報に応じて文字と文字以外とを分離する文字分離機能と、
前記文字分離機能によって分離された文字領域に対して文字認識処理を行う文字認識機能
を実現させることを特徴とする文字認識処理プログラム。
[14] コンピュータに、
文字認識処理の確からしさを評価する文字認識確からしさ評価機能と、
前記文字認識確からしさ評価機能によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類する領域分類機能と、
前記領域分類機能によって分類された領域に対して、文字認識処理を行う文字認識機能と、
前記文字認識機能によって行われた文字認識処理の確からしさが高いものを文字として判断する文字認識判断機能
を実現させることを特徴とする文字認識処理プログラム。
本発明にかかる文字認識処理システムおよび文字認識処理プログラムによれば、背景色のある文字領域(例えば、蛍光ペンによるマークを付けた文字領域部分)であっても、本発明の構成を有していない場合に比較して、文字認識率を高めることができる。特に、最終的な文字認識結果を、対象となっている画像のタイトルまたは属性として付加する発明にあっては、操作者にとって、容易にタイトルまたは属性を付加することができるようになり、操作性が向上する。
以下、図面に基づき本発明の好適な各種の実施の形態を説明する。
図1から図7は本発明の第1の実施の形態を示している。図1は、第1の実施の形態の概念的なモジュール構成例を示している。図2は、図1で示したモジュール構成を含む文字認識処理システム全体(画像の入力から文字認識の結果を出力するまで)の概念的なモジュール構成例を示している。図1、図2を用いて、第1の実施の形態の概念的なモジュール構成例を説明する。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはプログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、プログラム、システムおよび方法の説明をも兼ねている。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散または並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続を含む。
また、システムとは、複数のコンピュータ、ハードウェア、装置等がネットワーク等で接続されて構成されるほか、1つのコンピュータによって実現される場合も含まれる。
本実施の形態である文字認識処理システム全体は、図2に示すように、画像入力モジュール10、マーカ領域取得モジュール20、レイアウト解析&文字矩形切出モジュール30、文字認識モジュール40、文字認識スコア算出モジュール50、文字認識スコア評価モジュール60、文字分離認識モジュール70、文字認識結果出力モジュール80により構成されている。また、特に、文字認識スコア評価モジュール60、文字分離認識モジュール70、文字認識結果出力モジュール80は、図1に示すような関係になっている。文字分離認識モジュール70内は、限定色化モジュール71、文字分離モジュール78、文字認識モジュール79により構成されている。
画像入力モジュール10は、文字認識処理対象となる画像データ、すなわち文字画像を含む文書等の画像データを入力する。例えばスキャナによって読み取られた画像データ、通信回線を介して送信されてきた画像データあるいはハードディスクなどに格納された画像データのデータベースから検索した画像データ等である。なお、入力するデータには、画像データのほかに、テキストデータ、さらにレイアウト情報などの属性データなど様々なデータが含まれていてもよい。入力した画像データの一部の文字画像部分には、蛍光ペンで印(マーカ)付けがされており、背景色があるとする。すなわち、蛍光ペンは黒・白以外の色のインクであり、文字の上に塗られるが、その下の文字は読めるという状態を作り出すことができる。また、操作者により蛍光ペンにより印付けされた部分は、その文書のタイトルまたは属性として文書データベースに格納したいものとする。
マーカ領域取得モジュール20は、画像入力モジュール10によって入力された画像データから蛍光ペンで印(マーカ)がつけられた部分(以下、マーカ領域ともいう)を取得する。つまり、画像データから背景色のある文字領域を取得する。ここでの処理は、淡い色の画像領域を抽出することによって行われる。また、その領域にある一定の大きさ以下の黒画素領域があることを背景色のある文字領域であることの追加の条件としてもよい。さらに、淡い色の画像領域の形状がほぼ長方形となっていることを追加の条件としてもよい。ここでの領域の取得とは、例えば領域の左上の座標、右下の座標を抽出することである。ここでのマーカ領域には、文字とマーカと下地が含まれている状態である。限定色化モジュール71、文字分離モジュール78の処理によってマーカ領域内の文字領域を分離する。
レイアウト解析&文字矩形切出モジュール30は、マーカ領域取得モジュール20によって処理された画像データに対して、レイアウト解析および文字矩形の切り出しを行う。なお、画像入力モジュール10により入力された画像データに属性情報としてレイアウト情報が含まれる場合は、その情報を適用してもよい。レイアウト情報が含まれない場合は、画像データに基づいてレイアウト解析を実行する。レイアウト解析は、画像データに含まれる文字画像領域、図形画像領域、写真画像領域等の区分に分ける処理を行う。また、文字画像領域に対して、1行毎に分ける行分け処理、さらにタイトル、本文、注釈等の属性付け、縦書き・横書きの判定等を行ってもよい。
また、文字矩形の切り出しは、次の文字認識モジュール40による文字認識を行うために、文字画像領域に対して1文字毎の矩形に切り出す処理を行う。ここでの文字矩形切り出し処理は、例えば、縦方向に黒画素を数え、ヒストグラムを作成し、その黒画素塊毎に切り出す等の処理である。また、文字認識モジュール40による文字認識を行うために、2値化処理も行う。画像データを、予め設定された閾値を適用して2値化処理を行う、すなわち、例えば濃淡レベルを指定するある閾値を適用して、画像データについて、白[0]、黒[1]の2値化処理を実行する。
文字認識モジュール40は、レイアウト解析&文字矩形切出モジュール30によって切り出され、2値化された文字画像領域に対して、文字認識を行う。つまり、文字画像を認識し文字コード情報に変換する。
文字認識スコア算出モジュール50は、文字認識モジュール40によって実行された文字認識処理の確からしさを算出する。ここでの文字認識処理の確からしさとは、文字認識モジュール40の文字認識処理の結果として得られた文字コード情報の信頼度を示す値として算出される値である。例えば特許第2991779号公報に記載の文字の信頼度値を適用することができる。
文字認識スコア評価モジュール60は、文字認識スコア算出モジュール50によって算出された文字認識処理の確からしさを評価する。ここでの評価とは、例えば文字認識スコア算出モジュール50の算出した各文字コード情報の確からしさの値を予め定めた閾値と比較し、各文字毎の文字認識結果の確からしさについて、閾値以上の確からしさであるか閾値未満の確からしさであるかを判別する。
そして、その閾値以上の確からしさである場合は、その文字コード情報を文字認識結果出力モジュール80へ渡す。その閾値未満の確からしさである場合は、文字分離認識モジュール70の処理へと進む。
また、同一レイアウト内で確からしさが他と比較して低い場合、確からしさが低いと判断するようにしてもよい。同一レイアウト内か否かは、レイアウト解析&文字矩形切出モジュール30の結果を用いることによって判断する。
文字分離認識モジュール70による処理は、文字認識スコア評価モジュール60によって文字認識の確からしさが低いと評価された場合に行われる。ここでは、図1に示すように、限定色化モジュール71、文字分離モジュール78、文字認識モジュール79による処理が行われる。
限定色化モジュール71は、文字認識スコア評価モジュール60によって文字認識の確からしさが低いと評価された文字情報コードの対象となった画像領域に対して、画像入力モジュール10によって入力された画像データの色度(色相)情報を用いて、3つの領域(文字領域、マーカ領域、下地領域)に分ける。つまり、文字認識の確からしさが低いと評価された文字情報コードの対象となった画像領域は、蛍光ペンによる印付けの始端や終端のようにインクが濃くなり2値化処理した際に黒のノイズとして残ってしまったような場合である。そして、文字領域は黒やグレー、下地領域は白である場合が多く、マーカ領域は色付きであるので、色が明らかに3つで異なることとなる。そこで、元の画像入力モジュール10によって入力された画像データの色度情報または色相情報を用いて、3つの領域(文字領域、マーカ領域、下地領域)に分ける。この処理は、限定色化処理、減色化処理、インデックスカラー化処理などと言われている。つまり、4種類以上ある色度または色相を持つ画像を、似ている色度または色相の領域を統合して、3つの代表的な色領域に限定(減色、インデックス化)することである。なお、ここでは、下地領域は白であることから、下地であることは判明できるが、残りの2つの領域のうちどちらが文字領域であるか、マーカ領域であるかは判別できていない。なお、下地領域は白でなくてもよく、面積が一番大きい色を下地とするように認識してもよい。
文字分離モジュール78は、限定色化モジュール71によって3つの領域に分類された画像領域のうち、文字領域を分離する。分離する対象となっている文字領域が含まれるマーカ領域取得モジュール20によって取得された背景色のある文字領域、つまり同じマーカが付された領域内の文字の画像情報を用いる。そして、その文字領域内であって、文字認識スコア評価モジュール60によって文字認識の確からしさが高いと評価された文字領域の彩度に近い彩度を持つ画像領域を文字領域とする。つまり、既に確からしさが高い文字は、文字領域とマーカ領域とは明確に区別できている。そして、その文字領域が対象としている画像領域の近辺のものであれば、対象としている文字領域と同じ性質を有しているといえるはずである。そこで、分離する対象となっている文字領域が含まれるマーカ領域取得モジュール20によって取得された背景色のある文字領域内で、確からしさが高いと評価された文字領域の彩度を参照する。すなわち、参照される文字画像で2値化後に黒となった画素の元の画素の彩度に近い領域を文字領域、2値化で白となった画素の元の画素の彩度に近い領域をマーカ領域とする。
文字認識モジュール79は、文字分離モジュール78によって分離された文字領域に対して前述した文字認識モジュール40と同様の文字認識処理を行う。
また、文字分離モジュール78による処理を行わずに、限定色化モジュール71によって3つに分類された領域(文字領域、マーカ領域、下地領域)のうち、文字領域、マーカ領域に対して、文字認識モジュール79がそれぞれ文字認識を行ってもよい。そして、それぞれの文字認識処理の確からしさを算出し、確からしさの高い結果を文字認識結果として採用するようにしてもよい。
なお、限定色化モジュール71、文字分離モジュール78、文字認識モジュール79の処理については、図6を用いて後に詳述する。
文字認識結果出力モジュール80は、文字認識スコア評価モジュール60または文字認識モジュール79により文字認識結果である文字コード情報を受け取る。そして、文字コード情報を他のシステムに対して出力する。例えば、その文字認識結果を画像入力モジュール10により入力された原画像のタイトルまたは属性として付加して、ファイリングシステム等の文書システムのデータベースに格納する。
図3を参照して、実施の形態の文字認識処理システムのハードウェア構成例について説明する。図3に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成される文字認識処理システムであり、スキャナ等のデータ読み取り部531と、プリンタなどのデータ出力部532を備えたハード構成例を示している。
CPU(Central Processing Unit)501は、上述の実施の形態において説明した各種のモジュール、すなわち、文字認識スコア評価モジュール60、限定色化モジュール71、文字分離モジュール78、文字認識モジュール79、文字認識結果出力モジュール80等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムに従った処理を実行する制御部である。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interc onnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、操作者により操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージ情報として表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、入力された原本ドキュメントやOCR結果データ、さらに複数の異なる二値化手法(アルゴリズム)、複数の異なるOCRエンジンなどが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。リムーバブル記録媒体521も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート514は、外部接続機器522を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部531は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部532は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
なお、図3に示す文字認識処理システムのハードウェア構成は、1つの構成例を示すものであり、本実施の形態の文字認識処理システムは、図3に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェアで構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図3に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。
次に図4から図7を用いて、作用・働き(動作)を説明する。図4を用いて、蛍光ペンでマークされた文字列に対する文字認識結果の例について説明する。マーカ領域(原画像)401は、画像入力モジュール10によって入力された原画像の一部分であり、蛍光ペンでマークされている部分である。文字画像として「富士アイウエス」(造語)とあり、その上を蛍光ペンでマークされており、マークの始端、終端部分であるマーカ始端部(原画像)410a、マーカ終端部(原画像)410bは、他のマーク部分よりも濃くなっている。なお、図4では、マーカ部の濃い部分(マーカ始端部(原画像)410a、マーカ終端部(原画像)410b)は交差のハッチングで示し、一般的なマーカ部は斜線を用いたハッチングで示している。
これに対してレイアウト解析&文字矩形切出モジュール30による2値化処理と文字矩形切り出し処理を行うと、図4の下に示したマーカ領域(2値化後)402のようになる。つまり、マーカ領域(原画像)401は、2値化処理によって、各画素は白[0]、黒[1]のいずれかに変換されて、7つの文字矩形(第1文字目403から第7文字目409)に切り出される。つまり、第1文字目403の矩形には「富」の2値画像、第2文字目404の矩形には「士」の2値画像、第3文字目405の矩形には「ア」の2値画像、第4文字目406の矩形には「イ」の2値画像、第5文字目407の矩形には「ウ」の2値画像、第6文字目408の矩形には「エ」の2値画像、第7文字目409の矩形には「ス」の2値画像がそれぞれ切り出される。なお、第1文字目403、第7文字目409には、マーカのマーカ始端部(原画像)410a、マーカ終端部(原画像)410bの2値化処理の結果であるマーカ始端部(2値化後)411a、マーカ終端部(2値化後)411bが含まれている。
さらに、文字認識モジュール40による文字認識処理が実行され、その文字認識の確からしさ(図4では「OCRスコア」)は文字認識スコア算出モジュール50の処理によって、第1文字目403は43点、第2文字目404は98点、第3文字目405は99点、第4文字目406は93点、第5文字目407は91点、第6文字目408は94点、第7文字目409は30点と算出される。第1文字目403、第7文字目409には、マーカ始端部(2値化後)411a、マーカ終端部(2値化後)411bが含まれているため、確からしさは低い点数となる。
ここで、文字認識の確からしさが低い文字矩形の画像領域に対して、再度2値化を施して、再度文字認識モジュール40による文字認識処理を実行することもできる。ここでの再度の2値化は、最初の2値化処理とは異なるものであり、例えば浮動2値化処理と呼ばれるものである。浮動2値化処理は、局所領域ごとに2値化の閾値を変更する処理である。
ただし、再度の2値化を行っても文字認識の確からしさが向上しない場合もある。その場合について、図5を用いて説明する。図5は、第1文字目403の原画像の領域を浮動2値化処理した例である。マーカ始端部(原画像)410aの部分をできるだけ白にして、文字部分だけを黒にしようとするとマーカ始端部(再2値化後)412のように市松模様状になったり、文字部分に対しても薄い部分は、かすれ部413〜かすれ部416のように白くなってしまう。このような場合は、再度2値化処理を施しても、文字認識の確からしさを向上できない。そこで、本実施の形態では、図6に示すような処理を行う。
図6を用いて、限定色化モジュール71、文字分離モジュール78、文字認識モジュール79の処理について説明する。なお、図6では、マーカ部の濃い部分(例えば、マーカ始端部(原画像)410a)は交差のハッチングで示し、一般的なマーカ部は斜線を用いたハッチングで示している。
図6(a)は、文字認識スコア算出モジュール50によって算出された文字認識の確からしさが低かった第1文字目403の文字矩形の原画像である。つまり、画像入力モジュール10によって入力された画像の部分領域であり、2値化処理前の多値画像である。ここには、マーカ始端部(原画像)410aがあるため、文字認識の確からしさが低くなっている。
図6(a)の画像に対して、限定色化モジュール71は限定色化処理を行う。つまり、対象としている画像の色度を用いて、3色にグルーピングする。蛍光ペンによるマークが例えば緑色である場合、白色、黒色、緑色にグルーピングする。白色、黒色以外については、対象としている画像の色度から最も頻度の高い色度を採用する。そして、その色度に近い色度の画素を頻度の高い色度に変更する。3色に変更した後の画像は、図6(b)のようになる。マーカ始端部(原画像)410aも他のマーカ部(斜線のハッチング部)と同じ色に変換されている。つまり、図6(b)内の画素は、3色のいずれかである。図6(b)を色毎に分けると、図6(c)、図6(d)、図6(e)のようになる。
ここでは、下地以外の画像は、文字領域であるか、マーカ領域であるかは判別できていない。そこで、文字分離モジュール78が文字領域を分離する。つまり、図6(c)を文字領域、図6(d)をマーカ領域と判別する。その方法は、同じマーカ色が付されている文字であって、文字認識の確からしさが高い文字、例えば第3文字目405(確からしさ99点)の文字領域の彩度情報と近い彩度情報を持つ領域(図6(c))を文字領域と判別する。同じマーカ色が付されているか否かは、マーカ領域取得モジュール20またはレイアウト解析&文字矩形切出モジュール30の結果を用いる。
次に、文字分離モジュール78によって分離された文字領域に対して、文字認識モジュール79が文字認識を行う。
また、文字分離モジュール78による処理を行わずに、文字認識モジュール79が図6(c)、図6(d)の両方の画像を認識するようにしてもよい。この場合は、文字認識の確からしさが高い方の文字を採用する。
次に、図7を用いて、第1の実施の形態である文字認識処理システムで行われる文字認識処理について説明する。
ステップS701では、画像入力モジュール10が画像データを入力する。
ステップS702では、マーカ領域取得モジュール20が画像データ内で蛍光ペンでマークされた領域を取得する。
ステップS703では、レイアウト解析&文字矩形切出モジュール30が画像データのレイアウト解析を行う。そして、文字画像に対して1文字毎に文字認識処理を行うために矩形切り出しを行う。
ステップS704では、文字認識モジュール40がステップS703で切り出された画像の文字認識処理を行う。
ステップS705では、文字認識スコア算出モジュール50がステップS704で認識された文字認識の確からしさを算出する。
ステップS706では、文字認識スコア評価モジュール60が文字認識の確からしさから、既に信頼のおける結果であるか、ステップS707からステップS709の処理を行うべきかの判断を行う。
ステップS707は、ステップS706で「no」と判断された場合であり、限定色化モジュール71が文字認識の確からしさが低い文字画像に対して、限定色化処理を施して、3つの領域(文字領域、マーカ領域、下地領域)に分ける。
ステップS708では、3つの領域を文字領域、マーカ領域、下地領域に分類する。すなわち、もっとも面積が大きい領域、または白である領域を下地領域とし、文字分離モジュール78がステップS703、ステップS705の結果を用いて、3つの領域から文字領域を抽出する。
ステップS709では、文字認識モジュール79がステップS708で抽出された文字領域に対して文字認識処理を行う。
ステップS710では、文字認識結果出力モジュール80がステップS706で「yes」と判断された場合のステップS704の処理結果である文字コード情報、およびステップS709の処理結果である文字コード情報を受け取り、ステップS701で入力された画像データのタイトルまたは属性情報として文字コード情報を付加して、外部のシステムに対して出力する。
図8から図10は本発明の第2の実施の形態を示している。
本実施の形態では、第1の実施の形態の限定色化モジュール71を彩度領域分割モジュール72にしたものである。
なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
第2の実施の形態の文字認識処理システムの全体のモジュール構成例、ハードウェア構成例は、それぞれ図2、図3を用いて説明したものと同様である。
図8は、第2の実施の形態の概念的なモジュール構成例を示している。
文字認識スコア評価モジュール60、文字分離モジュール78、文字認識モジュール79、文字認識結果出力モジュール80は、第1の実施の形態と同様の処理を行う。
彩度領域分割モジュール72は、文字認識スコア評価モジュール60によって文字認識の確からしさが低いと評価された文字情報コードの対象となった画像領域に対して、画像入力モジュール10によって入力された画像データの彩度情報を用いて、3つの領域(文字領域、マーカ領域、下地領域)に分ける。つまり、例えばLab空間でのa*、b*を用いて、彩度のない文字領域、下地領域と彩度のあるマーカ領域に分ける。
さらに図9を用いて、彩度領域分割モジュール72、文字分離モジュール78、文字認識モジュール79の処理について説明する。なお、図9では、マーカ部の濃い部分(例えば、マーカ始端部(原画像)410a)は交差のハッチングで示し、一般的なマーカ部は斜線を用いたハッチングで示している。
図9(a)は、文字認識スコア算出モジュール50によって算出された文字認識の確からしさが低かった第1文字目403の文字矩形の原画像である。つまり、画像入力モジュール10によって入力された画像の部分領域であり、2値化処理前の多値画像である。
図9(a)の画像に対して、彩度領域分割モジュール72は彩度情報を用いた領域分割処理を行う。つまり、対象としている画像の彩度を用いて、彩度のない文字領域、下地領域と彩度のあるマーカ領域にグルーピングする。蛍光ペンによるマークが付された部分は彩度があるため、文字領域、下地領域とは区別することができる。彩度情報のみの画像は、図9(b)のようになる。なお、図9(b)では、彩度のある領域はハッチングで示している。マーカ領域は彩度が異なる領域があり、マーカ始端部(図9(b)では格子縞のハッチング部分)と一般的なマーカ部(図9(b)では縦線のハッチング部分)に分かれる。図9(b)の彩度で原画像(図9(a))を分けると、図9(c)、図9(d)、図9(e)のようになる。
ここでは、下地以外の画像は、文字領域であるか、マーカ領域であるかは判別できていない。そこで、文字分離モジュール78が文字領域を分離する。つまり、図9(c)を文字領域、図9(d)をマーカ領域と判別する。その方法は、第1の実施の形態の文字分離モジュール78と同じである。
次に、文字分離モジュール78によって分離された文字領域に対して、文字認識モジュール79が文字認識を行う。
また、文字分離モジュール78による処理を行わずに、文字認識モジュール79が図9(c)、図9(d)の両方の画像を認識するようにしてもよい。この場合は、文字認識の確からしさが高い方の文字を採用する。
次に、図10を用いて、第2の実施の形態である文字認識処理システムで行われる文字認識処理について説明する。
ステップS1001〜ステップS1006は、第1の形態のステップS701〜ステップS706と同様である。
ステップS1007では、ステップS1006で「no」と判断された場合であり、彩度領域分割モジュール72が文字認識の確からしさが低い文字画像に対して、彩度情報を用いて、3つの領域(文字領域、マーカ領域、下地領域)に分ける。
ステップS1008〜ステップS1010は、第1の形態のステップS708〜ステップS710と同様である。
図11から図13は本発明の第3の実施の形態を示している。
本実施の形態では、第1の実施の形態の限定色化モジュール71を彩度エッジ領域分割モジュール73にしたものである。
なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。
第3の実施の形態の文字認識処理システムの全体のモジュール構成例、ハードウェア構成例は、それぞれ図2、図3を用いて説明したものと同様である。
図11は、第3の実施の形態の概念的なモジュール構成例を示している。
文字認識スコア評価モジュール60、文字分離モジュール78、文字認識モジュール79、文字認識結果出力モジュール80は、第1の実施の形態と同様の処理を行う。
彩度エッジ領域分割モジュール73は、文字認識スコア評価モジュール60によって文字認識の確からしさが低いと評価された文字情報コードの対象となった画像領域に対して、画像入力モジュール10によって入力された画像データの彩度情報のエッジを用いて、3つの領域(文字領域、マーカ領域、下地領域)に分ける。つまり、例えばLab空間でのa*、b*を用いて彩度だけの画像にし、その彩度だけの画像に対してエッジのみを抽出する。そして、そのエッジによって分けられた領域を、文字領域、下地領域、マーカ領域に分ける。
さらに図12を用いて、彩度エッジ領域分割モジュール73、文字分離モジュール78、文字認識モジュール79の処理について説明する。なお、図12では、マーカ部の濃い部分(例えば、マーカ始端部(原画像))は交差のハッチングで示し、一般的なマーカ部は斜線を用いたハッチングで示している。
図12(a)は、文字認識スコア算出モジュール50によって算出された文字認識の確からしさが低かった文字矩形の原画像である(例として「一」の文字を用いた)。つまり、画像入力モジュール10によって入力された画像の部分領域であり、2値化処理前の多値画像である。
図12(a)の画像に対して、彩度エッジ領域分割モジュール73は彩度のエッジ情報を用いた領域分割処理を行う。つまり、対象としている画像の彩度のみの画像からエッジを取り出す。そのエッジ部分は、多値画像であるので、図12(b)のような画像である。なお、図12(b)では、エッジの中でその値が高くないものは横線のハッチングで示している。これを2値化すると、彩度のエッジの中で、はっきりとしているエッジのみが残ることになる。その状態が図12(c)のような画像である。つまり、マーカ始端部(原画像)の右側領域(図12(b)のハッチング部分)が消去される。これは、マーカ始端部右側は一般的なマーカ部と接しており、その一般的なマーカ部とは濃度差が顕著ではないためである。このエッジによって、原画像(図12(a))は3つの領域に分かれる。つまり、図12(d)、図12(e)、図12(f)のようになる。
ここでは、下地以外の画像は、文字領域であるか、マーカ領域であるかは判別できていない。そこで、文字分離モジュール78が文字領域を分離する。つまり、図12(d)を文字領域、図12(e)をマーカ領域と判別する。その方法は、第1の実施の形態の文字分離モジュール78と同じである。
次に、文字分離モジュール78によって分離された文字領域に対して、文字認識モジュール79が文字認識を行う。
また、文字分離モジュール78による処理を行わずに、文字認識モジュール79が図12(d)、図12(e)の両方の画像を認識するようにしてもよい。この場合は、文字認識の確からしさが高い方の文字を採用する。
次に、図13を用いて、第3の実施の形態である文字認識処理システムで行われる文字認識処理について説明する。
ステップS1301〜ステップS1306は、第1の形態のステップS701〜ステップS706と同様である。
ステップS1307では、ステップS1306で「no」と判断された場合であり、彩度エッジ領域分割モジュール73が文字認識の確からしさが低い文字画像に対して、彩度のエッジ情報を用いて、3つの領域(文字領域、マーカ領域、下地領域)に分ける。
ステップS1308〜ステップS1310は、第1の形態のステップS708〜ステップS710と同様である。
前記実施の形態においては、蛍光ペンにより印付け(マーカ)された文字を主に対象として示したが、蛍光ペンによる印付け以外に背景色のある文字領域であれば適用することができる。また、その背景色は特定色である必要はなく、濃淡が異なっていてもよい。
前記実施の形態において、文字分離モジュール78は、文字認識の確からしさが高い画像の彩度情報を用いるようにしているが、3つに分けられた領域の面積に応じて文字領域を分離するようにしてもよい。マーカ領域が大きな面積を占め、次に文字領域の面積となることが多いからである。また、3つに分けられた領域の外形の形状に応じて文字領域を分離するようにしてもよい。マーカ領域はほぼ矩形であり、下地領域は矩形の辺に沿っている等の特徴を利用するものである。
また、前記実施の形態においては、文字認識モジュール40、文字認識スコア算出モジュール50、文字認識スコア評価モジュール60による処理を行った後に、文字分離認識モジュール70の処理(第1の実施の形態では限定色化モジュール71、文字分離モジュール78、文字認識モジュール79の処理、第2の実施の形態では彩度領域分割モジュール72、文字分離モジュール78、文字認識モジュール79の処理、第3の実施の形態では彩度エッジ領域分割モジュール73、文字分離モジュール78、文字認識モジュール79の処理)を行っているが、文字認識モジュール40、文字認識スコア算出モジュール50、文字認識スコア評価モジュール60による処理を行わずに、レイアウト解析&文字矩形切出モジュール30の処理の後に文字分離認識モジュール70の処理を行うようにしてもよい。すなわち、限定色化モジュール71、彩度領域分割モジュール72、または彩度エッジ領域分割モジュール73は、文字認識処理の対象となる領域に対して複数の領域に分類する。文字分離モジュール78は、限定色化モジュール71、彩度領域分割モジュール72、または彩度エッジ領域分割モジュール73によって分類された領域を、文字と文字以外とに分離する。文字認識モジュール79は、文字分離モジュール78によって分離された文字領域に対して文字認識処理を行う。その際、限定色化モジュール71は色に応じて分類し、彩度領域分割モジュール72は彩度に応じて分類し、彩度エッジ領域分割モジュール73は彩度のエッジに応じて分類する。
さらに、次のようにすることもできる。限定色化モジュール71、彩度領域分割モジュール72、または彩度エッジ領域分割モジュール73は、文字認識処理の対象となる領域に対して複数の領域に分類する。文字認識モジュール79は、限定色化モジュール71、彩度領域分割モジュール72、または彩度エッジ領域分割モジュール73によって分類されたそれぞれの領域に対して、文字認識処理を行い、その文字認識処理の確からしさが高いものを文字として判断する。そして、限定色化モジュール71は色に応じて分類し、彩度領域分割モジュール72は彩度に応じて分類し、彩度エッジ領域分割モジュール73は彩度のエッジに応じて分類する。
なお、説明したプログラムについては、記録媒体に格納することも可能であり、その場合は、例えば以下の発明としても把握することができる。
コンピュータに、
文字認識処理の確からしさを評価する文字認識確からしさ評価機能と、
前記文字認識確からしさ評価機能によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類する領域分類機能と、
前記領域分類機能によって分類された領域に対して、前記文字認識確からしさ評価機能によって文字認識の確からしさが高いと評価された領域に関する情報に応じて文字と文字以外とを分離する文字分離機能と、
前記文字分離機能によって分離された文字領域に対して文字認識処理を行う文字認識機能
を実現させることを特徴とする文字認識処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
コンピュータに、
文字認識処理の確からしさを評価する文字認識確からしさ評価機能と、
前記文字認識確からしさ評価機能によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類する領域分類機能と、
前記領域分類機能によって分類された領域に対して、文字認識処理を行う文字認識機能と、
前記文字認識機能によって行われた文字認識処理の確からしさが高いものを文字として判断する文字認識判断機能
を実現させることを特徴とする文字認識処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、上記のプログラムまたはその一部は、上記記録媒体に記録して保存や流通等させることが可能である。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に乗せて搬送することも可能である。
さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。
文字認識処理システムの構成例を示すブロック図である。 文字認識処理システムの全体の構成例を示すブロック図である。 文字認識処理システムのハードウェア構成例について説明する図である。 マークされた文字列に対する文字認識結果の例について説明する図である。 閾値を変更して2値化した例について説明する図である。 限定色化を用いた文字分離の例について説明する図である。 文字認識処理システムで行われる文字認識処理について説明するフローチャートを示す図である。 文字認識処理システムの全体の構成例を示すブロック図である。 彩度情報を用いた文字分離の例について説明する図である。 文字認識処理システムで行われる文字認識処理について説明するフローチャートを示す図である。 文字認識処理システムの全体の構成例を示すブロック図である。 彩度エッジを用いた文字分離の例について説明する図である。 文字認識処理システムで行われる文字認識処理について説明するフローチャートを示す図である。
符号の説明
10…画像入力モジュール
20…マーカ領域取得モジュール
30…レイアウト解析&文字矩形切出モジュール
40…文字認識モジュール
50…文字認識スコア算出モジュール
60…文字認識スコア評価モジュール
70…文字分離認識モジュール
71…限定色化モジュール
72…彩度領域分割モジュール
73…彩度エッジ領域分割モジュール
78…文字分離モジュール
79…文字認識モジュール
80…文字認識結果出力モジュール

Claims (14)

  1. 文字認識処理の確からしさを評価する文字認識確からしさ評価手段と、
    前記文字認識確からしさ評価手段によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類する領域分類手段と、
    前記領域分類手段によって分類された領域に対して、前記文字認識確からしさ評価手段によって文字認識の確からしさが高いと評価された領域に関する情報に応じて文字と文字以外とを分離する文字分離手段と、
    前記文字分離手段によって分離された文字領域に対して文字認識処理を行う文字認識手段
    を具備することを特徴とする文字認識処理システム。
  2. 文字認識処理の確からしさを評価する文字認識確からしさ評価手段と、
    前記文字認識確からしさ評価手段によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類する領域分類手段と、
    前記領域分類手段によって分類された領域に対して、文字認識処理を行う文字認識手段と、
    前記文字認識手段によって行われた文字認識処理の確からしさが高いものを文字として判断する文字認識判断手段
    を具備することを特徴とする文字認識処理システム。
  3. 背景色のある文字画像を含む画像を取得する画像取得手段と、
    前記画像取得手段によって取得された画像から背景色のある文字領域を取得する背景色文字領域取得手段と、
    背景色文字領域取得手段によって取得された背景色のある文字領域から文字を切り出す文字切り出し手段と、
    前記文字切り出し手段によって切り出された文字領域に対して文字認識を行う第1の文字認識手段と、
    前記第1の文字認識手段によって行われた文字認識処理の確からしさを算出する文字認識確からしさ算出手段と、
    前記文字認識確からしさ算出手段によって算出された文字認識処理の確からしさを評価する文字認識確からしさ評価手段と、
    前記文字認識確からしさ評価手段によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった文字領域に対して複数の領域に分類する領域分類手段と、
    前記領域分類手段によって分類された領域に対して、前記文字認識確からしさ評価手段によって文字認識の確からしさが高いと評価された領域に関する情報に応じて文字と文字以外とを分離する文字分離手段と、
    前記文字分離手段によって分離された文字領域に対して文字認識処理を行う第2の文字認識手段
    を具備することを特徴とする文字認識処理システム。
  4. 背景色のある文字画像を含む画像を取得する画像取得手段と、
    前記画像取得手段によって取得された画像から背景色のある文字領域を取得する背景色文字領域取得手段と、
    背景色文字領域取得手段によって取得された背景色のある文字領域から文字を切り出す文字切り出し手段と、
    前記文字切り出し手段によって切り出された文字領域に対して文字認識を行う第1の文字認識手段と、
    前記第1の文字認識手段によって行われた文字認識処理の確からしさを算出する文字認識確からしさ算出手段と、
    前記文字認識確からしさ算出手段によって算出された文字認識処理の確からしさを評価する文字認識確からしさ評価手段と、
    前記文字認識確からしさ評価手段によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった文字領域に対して複数の領域に分類する領域分類手段と、
    前記領域分類手段によって分類された領域に対して、文字認識処理を行う第2の文字認識手段と、
    前記第2の文字認識手段によって行われた文字認識処理の確からしさが高いものを文字として判断する文字認識判断手段
    を具備することを特徴とする文字認識処理システム。
  5. 前記領域分類手段による分類は、色に応じて分類することを特徴とする請求項1,2,3または4に記載の文字認識処理システム。
  6. 前記領域分類手段による分類は、彩度に応じて分類することを特徴とする請求項1,2,3または4に記載の文字認識処理システム。
  7. 前記領域分類手段による分類は、彩度のエッジに応じて分類することを特徴とする請求項1,2,3または4に記載の文字認識処理システム。
  8. 前記文字分離手段によって用いられる前記文字認識確からしさ評価手段によって文字認識の確からしさが高いと評価された領域は、分離する対象となっている文字領域が含まれる前記背景色文字領域取得手段によって取得された背景色のある文字領域である
    ことを特徴とする請求項3,5,6または7に記載の文字認識処理システム。
  9. 前記文字分離手段によって用いられる前記文字認識確からしさ評価手段によって文字認識の確からしさが高いと評価された領域に関する情報は、彩度情報である
    ことを特徴とする請求項1,3,5,6,7または8に記載の文字認識処理システム。
  10. 最終的な文字認識結果を、対象となっている画像のタイトルまたは属性として付加するタイトル属性付加手段
    をさらに具備することを特徴とする請求項1,2,3,4,5,6,7,8または9に記載の文字認識処理システム。
  11. 文字認識処理の対象となる領域に対して複数の領域に分類する領域分類手段と、
    前記領域分類手段によって分類された領域を、文字と文字以外とに分離する文字分離手段と、
    前記文字分離手段によって分離された文字領域に対して文字認識処理を行う文字認識手段
    を具備することを特徴とする文字認識処理システム。
  12. 文字認識処理の対象となる領域に対して複数の領域に分類する領域分類手段と、
    前記領域分類手段によって分類されたそれぞれの領域に対して、文字認識処理を行う文字認識手段と、
    前記文字認識手段によって行われた文字認識処理の確からしさが高いものを文字として判断する文字認識判断手段
    を具備することを特徴とする文字認識処理システム。
  13. コンピュータに、
    文字認識処理の確からしさを評価する文字認識確からしさ評価機能と、
    前記文字認識確からしさ評価機能によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類する領域分類機能と、
    前記領域分類機能によって分類された領域に対して、前記文字認識確からしさ評価機能によって文字認識の確からしさが高いと評価された領域に関する情報に応じて文字と文字以外とを分離する文字分離機能と、
    前記文字分離機能によって分離された文字領域に対して文字認識処理を行う文字認識機能
    を実現させることを特徴とする文字認識処理プログラム。
  14. コンピュータに、
    文字認識処理の確からしさを評価する文字認識確からしさ評価機能と、
    前記文字認識確からしさ評価機能によって文字認識の確からしさが低いと評価された場合は、文字認識処理の対象となった領域に対して複数の領域に分類する領域分類機能と、
    前記領域分類機能によって分類された領域に対して、文字認識処理を行う文字認識機能と、
    前記文字認識機能によって行われた文字認識処理の確からしさが高いものを文字として判断する文字認識判断機能
    を実現させることを特徴とする文字認識処理プログラム。
JP2006132655A 2006-05-11 2006-05-11 文字認識処理システムおよび文字認識処理プログラム Pending JP2007304864A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006132655A JP2007304864A (ja) 2006-05-11 2006-05-11 文字認識処理システムおよび文字認識処理プログラム
US11/709,796 US8059896B2 (en) 2006-05-11 2007-02-23 Character recognition processing system and computer readable medium storing program for character recognition processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006132655A JP2007304864A (ja) 2006-05-11 2006-05-11 文字認識処理システムおよび文字認識処理プログラム

Publications (1)

Publication Number Publication Date
JP2007304864A true JP2007304864A (ja) 2007-11-22

Family

ID=38685205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006132655A Pending JP2007304864A (ja) 2006-05-11 2006-05-11 文字認識処理システムおよび文字認識処理プログラム

Country Status (2)

Country Link
US (1) US8059896B2 (ja)
JP (1) JP2007304864A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196369A (ja) * 2012-03-19 2013-09-30 Pfu Ltd 画像処理装置、文字認識方法及びコンピュータプログラム
JP2014071696A (ja) * 2012-09-28 2014-04-21 Omron Corp 画像処理システムおよび画像処理方法
US11361572B2 (en) 2018-05-25 2022-06-14 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4909216B2 (ja) * 2006-09-13 2012-04-04 株式会社キーエンス 文字切り出し装置、方法およびプログラム
JP5322517B2 (ja) * 2008-07-08 2013-10-23 キヤノン株式会社 画像処理装置および方法
TWI463415B (zh) * 2009-03-06 2014-12-01 Omnivision Tech Inc 以物件為基礎之光學字元辨識之預處理演算法
JP4821869B2 (ja) * 2009-03-18 2011-11-24 富士ゼロックス株式会社 文字認識装置、画像読取装置、およびプログラム
JP2010277168A (ja) * 2009-05-26 2010-12-09 Fuji Xerox Co Ltd データ入力システム、データ入力受付装置及びプログラム
JP5424858B2 (ja) * 2009-12-24 2014-02-26 キヤノン株式会社 画像処理装置及びその制御方法並びにプログラム
JP5645612B2 (ja) * 2010-11-09 2014-12-24 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、及び記憶媒体
KR101769543B1 (ko) * 2011-01-04 2017-08-31 인하대학교 산학협력단 선명도 및 색 채도를 이용한 영상 화질 개선을 위한 장치 및 방법
US9235499B2 (en) 2011-12-16 2016-01-12 General Electric Company System and method for identifying a character-of-interest
US8891872B2 (en) 2011-12-16 2014-11-18 General Electric Company System and method for identifying physical markings on objects
CN103679164A (zh) * 2012-09-21 2014-03-26 阿里巴巴集团控股有限公司 一种基于移动终端的标志识别处理方法和系统
US8942420B2 (en) * 2012-10-18 2015-01-27 Qualcomm Incorporated Detecting embossed characters on form factor
EP2963584B1 (en) * 2013-02-28 2020-07-15 Glory Ltd. Character recognition method and character recognition system
JP6094400B2 (ja) * 2013-06-25 2017-03-15 ソニー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
JP7030462B2 (ja) * 2017-09-21 2022-03-07 キヤノン株式会社 スキャン画像から文字情報を取得する画像処理装置、画像処理方法、及びプログラム
JP7135446B2 (ja) * 2018-05-30 2022-09-13 京セラドキュメントソリューションズ株式会社 電子機器
JP6678709B2 (ja) * 2018-08-24 2020-04-08 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US11321956B1 (en) * 2019-12-03 2022-05-03 Ciitizen, Llc Sectionizing documents based on visual and language models

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5272764A (en) * 1989-12-08 1993-12-21 Xerox Corporation Detection of highlighted regions
US5077805A (en) * 1990-05-07 1991-12-31 Eastman Kodak Company Hybrid feature-based and template matching optical character recognition system
JP2991779B2 (ja) 1990-06-11 1999-12-20 株式会社リコー 文字認識方法及び装置
JPH0772906B2 (ja) * 1991-07-10 1995-08-02 富士ゼロックス株式会社 文書認識装置
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
US5359673A (en) * 1991-12-27 1994-10-25 Xerox Corporation Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
JPH05233705A (ja) 1992-02-20 1993-09-10 Nec Corp イメージファイリングシステムにおけるインデックス作成方式
US5579407A (en) * 1992-04-21 1996-11-26 Murez; James D. Optical character classification
JPH06205175A (ja) 1993-01-04 1994-07-22 Fuji Xerox Co Ltd 画像処理装置
US5455872A (en) * 1993-04-26 1995-10-03 International Business Machines Corporation System and method for enhanced character recogngition accuracy by adaptive probability weighting
JPH07264390A (ja) 1994-03-23 1995-10-13 Toshiba Corp 画像形成装置
US5625711A (en) * 1994-08-31 1997-04-29 Adobe Systems Incorporated Method and apparatus for producing a hybrid data structure for displaying a raster image
US5805747A (en) * 1994-10-04 1998-09-08 Science Applications International Corporation Apparatus and method for OCR character and confidence determination using multiple OCR devices
JPH08125878A (ja) 1994-10-24 1996-05-17 Canon Inc 画像処理装置及び画像処理方法
US5821929A (en) * 1994-11-30 1998-10-13 Canon Kabushiki Kaisha Image processing method and apparatus
CA2167748A1 (en) * 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
US5764799A (en) * 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
JP4077919B2 (ja) * 1998-01-30 2008-04-23 キヤノン株式会社 画像処理方法及び装置及びその記憶媒体
JP2001297303A (ja) * 2000-02-09 2001-10-26 Ricoh Co Ltd 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
US6965695B2 (en) * 2000-03-23 2005-11-15 Ricoh Company, Ltd. Method and system for processing character edge area data
JP4613397B2 (ja) * 2000-06-28 2011-01-19 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
CA2417663C (en) * 2000-07-28 2008-09-30 Raf Technology, Inc. Orthogonal technology for multi-line character recognition
US7646921B2 (en) * 2006-09-11 2010-01-12 Google Inc. High resolution replication of document based on shape clustering

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196369A (ja) * 2012-03-19 2013-09-30 Pfu Ltd 画像処理装置、文字認識方法及びコンピュータプログラム
JP2014071696A (ja) * 2012-09-28 2014-04-21 Omron Corp 画像処理システムおよび画像処理方法
US11361572B2 (en) 2018-05-25 2022-06-14 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Also Published As

Publication number Publication date
US8059896B2 (en) 2011-11-15
US20070263930A1 (en) 2007-11-15

Similar Documents

Publication Publication Date Title
JP2007304864A (ja) 文字認識処理システムおよび文字認識処理プログラム
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
JP4208918B2 (ja) 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体
US8056001B2 (en) Method and apparatus for classifying elements of a document
US8155945B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
WO2010073540A1 (en) Business document processor
KR20210081267A (ko) 화상 처리 장치, 저장 매체, 및 화상 처리 방법
JP2006338578A (ja) 文字認識装置
US20080050016A1 (en) Image processing apparatus, image processing method, computer readable medium, and computer data signal
KR20090098650A (ko) 정보 처리 장치, 정보 처리 방법 및 컴퓨터 판독 가능한 기억 매체
JP5929282B2 (ja) 画像処理装置及び画像処理プログラム
JP4780184B2 (ja) 画像処理装置及び画像処理プログラム
JP5601027B2 (ja) 画像処理装置及び画像処理プログラム
JP6303671B2 (ja) 画像処理装置及び画像処理プログラム
JP6007720B2 (ja) 情報処理装置及び情報処理プログラム
US8542931B2 (en) Ruled line extraction technique based on comparision results and indentifying noise based on line thickness
JP4793429B2 (ja) 画像処理装置及び画像処理プログラム
JP6547301B2 (ja) 情報処理装置及び情報処理プログラム
JP2009223391A (ja) 画像処理装置及び画像処理プログラム
JP6260181B2 (ja) 情報処理装置及び情報処理プログラム
JP2009230604A (ja) 色抽出装置及びプログラム
JP5200993B2 (ja) 画像処理装置及び画像処理プログラム
JP4995507B2 (ja) 画像処理システム、文字認識システムおよび画像処理プログラム
JP3220226B2 (ja) 文字列方向判別方法
JP2001291058A (ja) 文字認識装置及び記録媒体