JP5672059B2 - 文字認識処理装置および方法並びに文字認識処理プログラム - Google Patents

文字認識処理装置および方法並びに文字認識処理プログラム Download PDF

Info

Publication number
JP5672059B2
JP5672059B2 JP2011037994A JP2011037994A JP5672059B2 JP 5672059 B2 JP5672059 B2 JP 5672059B2 JP 2011037994 A JP2011037994 A JP 2011037994A JP 2011037994 A JP2011037994 A JP 2011037994A JP 5672059 B2 JP5672059 B2 JP 5672059B2
Authority
JP
Japan
Prior art keywords
character
candidate
color separation
rectangle
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011037994A
Other languages
English (en)
Other versions
JP2012174163A (ja
Inventor
勝山 裕
裕 勝山
明洋 皆川
明洋 皆川
堀田 悦伸
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011037994A priority Critical patent/JP5672059B2/ja
Publication of JP2012174163A publication Critical patent/JP2012174163A/ja
Application granted granted Critical
Publication of JP5672059B2 publication Critical patent/JP5672059B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

画像に含まれる文字列を認識する技術に関する。
画像に含まれる文字列を認識する技術として様々な技法が提案されている。
例えば、背景とは異なる色を持つ文字列が表示された画像の文字認識は、背景とは異なる色を持つ部分を画像から切り出し、この切り出した部分について行われる(特許文献1参照)。
一方、テロップを含むテレビ放送のように、自然画像を背景として未特定の色を持つ文字列が表示される場合がある。このようなシーンを表すカラー画像では、背景の一部の色と文字列の色との峻別が困難な場合がある。
このようなカラー画像から、個々の画素が複数の色のいずれであるかに基づいて二値化した複数の色分解画像を生成し、これらの色分解画像についてそれぞれ文字認識を行う技術がある(特許文献2参照)。この技術では、各色分解画像から得られた候補文字のセットごとに、確信度の総和が求められる。そして、最も確信度の総和が大きい候補文字のセットが選択される。
特開2000−155804号公報 特開2009−199276号公報
上述した技法は、文字列の色が単一であることを前提として、各色分解画像からそれぞれ得られる候補文字のセットの中から1つを選択している。このため、例えば、1行分の文字列に複数の色で表された文字が混在している場合に、正しい文字列が得られない場合がある。
本件開示は、複数色が混在した複雑な画像を背景とした複数色の文字を含む文字列を認識可能な文字認識処理装置および方法並びに文字認識処理プログラムを提供することを目的とする。
一つの観点による文字認識処理装置および方法並びに文字認識処理プログラムは、文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成し、前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択し、前記選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する。
本件開示の文字認識処理装置および方法並びに文字認識処理プログラムによれば、複数色が混在した複雑な画像を背景とした複数色の文字を含む文字列を認識可能である。
文字認識処理装置の一実施形態を示す図である。 原稿および色分解画像の例を示す図である。 ノイズ除去処理後の色分解画像の例を示す図である。 文字認識結果を説明する図である。 コンピュータの機能ブロック図である。 文字認識処理を表す流れ図である。 選択部の処理の一例を表す流れ図である。 選択部の処理の別例を表す流れ図である。 文字色の連続性に基づく重みを付与する処理を表す流れ図である。 文字色の連続性に基づく重みを付与する処理を説明する図である。 文字認識処理の別例を表す流れ図である。 矩形情報テーブルの例を示す図である。 色分解画像をまたがるパスを許容して動的計画法を用いる処理を表す流れ図である。 動的計画法を用いた処理による評価結果に基づく文字列結合処理を表す流れ図である。 文字の配置の規則性を説明する図である。 色分解画像をまたがるパスを許容して動的計画法を用いる処理の別例を表す流れ図である。 パスの評価値を算出する処理の別例を表す流れ図である。 文字認識処理の別例を表す流れ図である。 組み合わせパターンに対応する候補文字を追加する処理を表す流れ図である。 組み合わせパターンを説明する図である。
以下、図面に基づいて、本件開示の文字認識処理装置および方法並びに文字認識処理プログラムの実施形態について詳細に説明する。
図1に、文字認識処理装置の一実施形態を示す。図1に例示する文字認識処理装置10は、文字認識部11と、選択部12と、結合部13とを有する。
図1に示した画像入力部2は、例えば、原稿1を読み込むことにより、カラー画像を生成する。色分解画像生成部3は、このカラー画像に対して色クラスタリングなどの色分解処理を行う。色分解画像生成部3は、例えば、原稿1に対応するカラー画像から、色クラスタリングで生成された各色クラスタに対応する色分解画像を生成する。各色クラスタに対応する色分解画像は、カラー画像に含まれる複数の画素のうち、色が当該色クラスタに属する画素について画素値「1」が設定され、他の画素に画素値「0」が設定された二値画像である。なお、入力端子Pinを介して入力される映像信号に基づいて、画像取得部6によって取得されたカラー画像を、色分解画像生成部3に入力してもよい。
ここで、図1に示した原稿1に含まれる文字列「提供富士研究所」は、文字列「提供」と文字列「富士」と文字列「研究所」とがそれぞれ異なる色で表されている。したがって、色分解画像生成部3は、文字列の表現に用いられている複数の色をそれぞれ含む複数の色クラスタに対応して色分解画像を生成することが望ましい。
図2に、原稿および色分解画像の例を示す。図2の例では、原稿1に対応するカラー画像から4つの異なる色クラスタに対応して生成された色分解画像Pb,Pg,Pd,Pwを示す。
図2に示した色分解画像Pbは、原稿1において、文字列「提供」の色を含む色クラスタに対応する。この色分解画像Pbには、文字列「提供」に含まれる各文字の字形を表す文字パターンに属する画素連結成分が含まれている。ここで、画素連結成分とは、画素値「1」である画素が連結した部分である。また、図2に示した色分解画像Pgは、原稿1において、文字列「富士」の色を含む色クラスタに対応する。この色分解画像Pgには、文字列「富士」に含まれる各文字を表す文字パターンに属する画素連結成分が含まれている。そして、図2に示した色分解画像Pwは、原稿1において、文字列「研究所」に含まれる各文字の色を含む色クラスタに対応する。この色分解画像Pwには、文字列「研究所」に含まれる各文字を表す文字パターンに属する画素連結成分が含まれている。一方、図2に示した色分解画像Pdは、原稿1において文字列「提供富士研究所」の背景となっている画像に含まれる多数の画素の色を含む色クラスタに対応している。
なお、原稿1において、文字列「提供」および文字列「富士」は、色分解画像Pwに対応する色クラスタに属する色で縁取られている。このため、色分解画像Pwには、更に、文字列「提供」および文字列「富士」に含まれる各文字の字形を白抜きで表す文字パターンに属する画素連結成分が現れる。この文字パターンに属する画素連結成分は、上述した各文字の縁取り部分に対応する画素連結成分である。また、原稿1において、文字列「研究所」に含まれる各文字は、色分解画像Pbに対応する色クラスタに属する色で縁取られている。これに対応して、色分解画像Pbには、文字列「研究所」に含まれる各文字の字形を白抜きで表す文字パターンに属する画素連結成分が現れる。この文字パターンに属する画素連結成分は、上述した各文字の縁取り部分に対応する画素連結成分である。
このように、カラー画像から生成された色分解画像に含まれる文字を表す部分は、個々の文字の字形を表す文字パターンである場合と、個々の文字の字形を白抜きで表す文字パターンである場合とがある。以下の説明では、上述した2つの場合を区別せずに、単に文字パターンと称する。
ノイズ除去部4は、上述した色分解画像生成部3によって生成された各色分解画像に対して、周辺ノイズを除去する処理を行う。周辺ノイズを除去する処理は、各色分解画像に含まれる画素連結成分のうち、各色分解画像の四方の境界に接する画素連結成分を周辺ノイズとして除去する処理である。
ここで、写真などの画像に重ねられた文字列は、画像の端から離れた位置に配置される場合が多い。このため、文字を表す文字パターンに属する画素連結成分の多くは、画像の周囲から離れて分布する。したがって、上述したようにして、各色分解画像の四方の境界に接する画素連結成分を除去する処理を行うことにより、文字パターンの形成に寄与しない画素連結成分を除去することができる。そして、周辺ノイズを除去した後の各色分解画像には、文字パターンに属する画素連結成分が高い確率で残っている。なお、ノイズ除去部4は、上述した周辺ノイズを除去する処理に加えて、公知のフィルタを用いてノイズ除去処理を行ってもよい。
この周辺ノイズを除去する処理により、図2に示した符号Ndや符号Nw1、Nw2,Nw3などのように、対応する色分解画像の境界にまで広がっている画素連結成分が、周辺ノイズとして除去される。
図3に、ノイズ除去処理後の色分解画像の例を示す。
図3に例示した色分解画像Pb,Pg,Pd,Pwは、図2に示した色分解画像Pb,Pg,Pd,Pwに対して上述した周辺ノイズ除去処理を行って得られる。例えば、図3に示した色分解画像Pdは、図2に示した色分解画像Pdから符号Ndで示した画素連結成分を除去して得られる。同様に、図3に示した色分解画像Pwは、図2に示した色分解画像Pwから符号Nw1、Nw2,Nw3で示した画素連結成分を含む複数の画素連結成分を除去して得られる。なお、図2に符号Nw1、Nw2で示した画素連結成分は、原稿1に含まれる文字列「提供富」の各文字の縁取り部分のうち、各文字の外形を表す部分に対応する画素連結成分を含んでいる。このため、図3に示した色分解画像Pwの例では、符号Nw1、Nw2で示した画素連結成分の除去に伴って、上述した各文字の縁取り部分のうち、文字の内側を表す部分に対応する画素連結成分が残されている。
周辺ノイズ除去後の色分解画像Pb,Pg,Pd,Pwは、図1に示した領域抽出部5に渡される。領域抽出部5は、周辺ノイズ除去後の色分解画像Pb,Pg,Pd,Pwについて、画素値「1」が設定された黒画素の分布の特徴を解析することにより、文字列の分布範囲を文字認識対象の領域として抽出する。
例えば、領域抽出部5は、周辺ノイズ除去後の色分解画像Pb,Pg,Pd,Pwについて、縦方向および横方向についての黒画素の分布数を示す投影ヒストグラムを生成する。生成した投影ヒストグラムに現れる局所ピークの位置および幅に基づいて、領域抽出部5は、各色分解画像Pb,Pg,Pd,Pwから、各行の文字列の分布範囲に相当する領域を切り出す。なお、各行における文字列の配列方向は、例えば、各行の文字列の分布範囲として切り出された領域の縦横比に基づいて決定してもよい。文字認識対象の領域抽出の詳細については、例えば、本出願人による特許出願(特開2009−199276号公報)などを参照されたい。
図3に示した例では、各色分解画像Pb,Pg,Pd,Pwに含まれる文字認識対象の領域Aを太い破線で囲んで示した。図3の例では、文字認識対象の領域Aは、左右方向に並んだ1行分の文字列の分布範囲に相当する。以下の説明では、文字列が左右方向に並んでいる場合を例として取り上げる。
各色分解画像Pb,Pg,Pd,Pwから切り出された文字認識対象の領域は、文字認識処理装置10の文字認識部11に渡される。文字認識部11は、各色分解画像Pb,Pg,Pd,Pwから切り出された文字認識対象の領域の画像について、それぞれ文字認識処理を行う。文字認識部11による文字認識処理は、公知の技術を用いて行われる。例えば、文字認識部11は、各色分解画像から切り出した少なくとも一つの文字パターンごとに、類似した特徴を持つ候補文字を特定する。文字認識部11は、各文字パターンについての文字認識結果として、候補文字とこの候補文字の確からしさを示す確信度ととともに、当該文字パターンに属する画素連結成分に外接する外接矩形が各色分解画像において占める位置を示す情報を生成する。なお、各候補文字の確信度は、文字認識の対象となる文字パターンの特徴と、候補文字を表す文字パターンの特徴との類似度に基づいて算出される。
図4に、文字認識結果を説明する図を示す。図4の例では、各色分解画像Pb,Pg,Pwから切り出された文字パターンに属する画素連結成分の外接矩形と、各文字パターンについて得られた認識結果とを対応させて示した。
図4に示した色分解画像Pbにおいて、符号RB1〜RB5で示す矩形は、色分解画像Pbから切り出された文字パターンに属する画素連結成分の外接矩形である。これらの外接矩形RB1〜RB5に対応して得られる認識結果を、符号QB1〜QB5に示す。これらの認識結果QB1〜QB5は、それぞれ候補文字「提」、「供」、「研」、「空」、「斯」と、それぞれの候補文字と対応する文字パターンとの類似度に基づいて算出された確信度(99)、(81)、(36)、(90)、(59)を含む。
図4に示した色分解画像Pbにおいて、符号RG1、RG2で示す矩形は、色分解画像Pgから切り出された文字パターンに属する画素連結成分の外接矩形である。これらの外接矩形RG1、RG2に対応して得られる認識結果を、符号QG1、QG2に示す。これらの認識結果QG1、QG2は、それぞれ候補文字「富」、「士」と、それぞれの候補文字について算出された確信度(98)、(99)を含む。
図4に示した色分解画像Pwにおいて、符号RW1〜RW6で示す矩形は、色分解画像Pwから切り出された文字パターンに属する画素連結成分の外接矩形である。これらの外接矩形RW1〜RW6に対応して得られる認識結果を、符号QW1〜QW6に示す。これらの認識結果QW1〜QW6は、それぞれ候補文字「庶」、「官」、「±」、「研」、「究」、「所」と、それぞれの候補文字について算出された確信度(34)、(76)、(81)、(89)、(97)、(90)を含む。
図4に示した例において、色分解画像Pb、Pwからそれぞれ得られた認識結果を比べると、外接矩形RB3〜RB5と外接矩形RW4〜RW6とが、原稿1に対応する画像において同一の相対位置に存在することが分かる。図4に例示した色分解画像Pbに含まれる外接矩形RB3〜RB5に含まれる文字パターンと、図4に例示した色分解画像Pwに含まれる外接矩形RW4〜RW6に含まれる文字パターンとは、いずれも、原稿1に含まれる同一の文字列「研究所」に対応する。このように、カラー画像から生成された色分解画像から、カラー画像において同一の相対位置にある文字に対応して、それぞれ文字パターンが切り出される場合がある。
図1に示した選択部12は、複数の色分解画像からそれぞれ得られた候補文字に対応する外接矩形が同一の相対位置にある場合に、これらの候補文字から一つを選択する処理を行う。例えば、選択部12は、まず、文字認識対象の領域の一端から文字の並び方向に従って、各色分解画像Pb,Pg,Pwから得られた候補文字の集合の中から、同じ相対位置にある文字パターンに対応する候補文字を探索する。この探索により、複数の候補文字が得られた場合に、選択部12は、得られた候補文字に対応する確信度を比較し、最も高い確信度を持つ候補文字を選択する。
例えば、選択部12は、探索処理の過程で、図4に示した色分解画像Pb内の外接矩形RB1と色分解画像Pw内の外接矩形RW1との位置の重なりを検出する。そして、選択部12は、外接矩形RB1に対応する候補文字「庶」の確信度(34)と外接矩形RW1に対応する候補文字「提」の確信度(99)とを比較する。この比較結果に基づいて、選択部12は、高い確信度を持つ候補文字「提」を選択する。
同様にして、選択部12は、探索処理の過程で、図4に示した色分解画像Pg内の外接矩形RG1と色分解画像Pw内の外接矩形RW2との位置の重なりを検出する。そして、選択部12は、外接矩形RG1に対応する候補文字「富」の確信度(98)と外接矩形RW2に対応する候補文字「官」の確信度(76)とを比較する。この比較結果に基づいて、選択部12は、高い確信度を持つ候補文字「富」を選択する。
同様に、選択部12は、探索処理の過程で、図4に示した色分解画像Pgに含まれる外接矩形RG2と色分解画像Pwに含まれる外接矩形RW3との位置の重なりを検出する。そして、選択部12は、外接矩形RG2に対応する候補文字「士」の確信度(99)と外接矩形RW3に対応する候補文字「±」の確信度(81)とを比較する。この比較結果に基づいて、選択部12は、高い確信度を持つ候補文字「士」を選択する。
更に、選択部12は、探索処理により、図4に示した色分解画像Pbに含まれる外接矩形RB3と色分解画像Pwに含まれる外接矩形RW4との位置の重なりを検出する。そして、選択部12は、外接矩形RB3に対応する候補文字「研」の確信度(36)と外接矩形RW4に対応する候補文字「研」の確信度(89)とを比較する。この比較結果に基づいて、選択部12は、高い確信度を持つ候補文字「研」を選択する。
同様にして、選択部12は、探索処理により、図4に示した色分解画像Pbに含まれる外接矩形RB4と色分解画像Pwに含まれる外接矩形RW5との位置の重なりを検出する。そして、選択部12は、外接矩形RB4に対応する候補文字「空」の確信度(90)と外接矩形RW5に対応する候補文字「究」の確信度(97)とを比較する。この比較結果に基づいて、選択部12は、高い確信度を持つ候補文字「究」を選択する。
また、選択部12は、探索処理により、図4に示した色分解画像Pbに含まれる外接矩形RB5と色分解画像Pwに含まれる外接矩形RW6との位置の重なりを検出する。そして、選択部12は、外接矩形RB5に対応する候補文字「斯」の確信度(59)と外接矩形RW6に対応する候補文字「所」の確信度(90)とを比較する。この比較結果に基づいて、選択部12は、高い確信度を持つ候補文字「所」を選択する。
なお、色分解画像Pb,Pwから得られた外接矩形の中には、色分解画像Pbに含まれる外接矩形RB2と位置が重なるものがない。このように、1つの色分解画像からのみ候補文字が得られた場合に、選択部12は、一つだけ得られた候補文字をそのまま選択する。
このようにして、選択部12は、複数の色分解画像において同一の相対位置にある文字パターンに対応してそれぞれ得られた候補文字から一つを選択することができる。なお、図4に示した例において、選択部12が選択した候補文字を含む認識結果を太い破線で囲んで示した。
選択部12によって選択された候補文字を含む認識結果は、結合部13に渡される。結合部13は、認識結果に含まれる外接矩形の位置を示す情報に基づいて、各候補文字を順に結合する。例えば、文字列の並び方向が左から右へ向かう方向である場合に、結合部13は、各候補文字を左から順に結合する。これにより、図4を用いて説明したようにして選択された候補文字の集合から、図1,2に示した原稿1に含まれている文字列と同等の文字列「提供富士研究所」を得ることができる。このようにして得られた文字列は、例えば、端子Poutを介して出力される。
このように、本件開示の文字認識処理装置によれば、自然画像などのように複数色が混在した複雑な画像を背景とした複数色の文字を含む文字列を認識することが可能である。なお、本件開示の文字認識処理装置が文字認識対象とするカラー画像は、図1,2に示した原稿1のような印刷物を読み取って得られたカラー画像に限られない。本件開示の文字認識処理装置は、例えば、テレビジョン放送による映像から取得したカラー画像や、ウェブサイトの表示画面などから取得したカラー画像を文字認識処理の対象とすることができる。
近年では、文字認識処理の対象が、雑誌などの誌面やウェブサイトの画面やテレビ画面をキャプチャして得られる画像などにも広がってきている。雑誌やウェブサイトの表示画面では、写真やイラストなどを背景として、複数の色の文字が混在するカラフルな文字列が配置される装飾的なレイアウトが採用されることも多い。また、テレビ放送で流されるテロップに含まれる文字列にも、複数の色が混在している場合がある。
本件開示の文字認識処理装置によれば、上述したような装飾的なレイアウトがなされた雑誌の誌面やウェブサイトの表示画面および複数の文字色が混在したテロップを含むテレビ画面に対応するカラー画像から、確実に文字列を認識することができる。
本件開示の文字認識処理装置は、コンピュータ装置を用いて実現することができる。
図5に、コンピュータ装置の機能ブロック図を示す。図5に示したコンピュータ装置は、プロセッサ21と、メモリ22と、ハードディスク装置(HDD:Hard Disk Drive)23と、表示制御部24と、表示装置25と、入力装置26とを含む。更に、コンピュータ装置は、光学ドライブ装置28と、通信制御部29を含む。
プロセッサ21と、メモリ22と、HDD23と、表示制御部24と、入力装置26と、光学ドライブ装置28と、通信制御部29とは、バスを介して接続される。また、通信制御部29は、ネットワーク30に接続される。また、コンピュータ装置は、例えば、カラースキャナやデジタルカメラなどの画像入力装置27を含んでもよい。
HDD23には、オペレーティングシステムおよび上述した文字認識処理を実行するためのアプリケーションプログラムが格納されている。アプリケーションプログラムは、本件開示の文字認識方法に含まれる各処理を実行するためのプログラムを含む。なお、上述した文字認識処理を実行するためのアプリケーションプログラムは、例えば、コンピュータ読取可能なリムーバブルディスク31に記録して頒布することができる。そして、このリムーバブルディスク31を光学ドライブ装置28に装着して読み込み処理を行うことにより、上述した文字認識処理を実行するためのアプリケーションプログラムは、HDD23にインストールされる。また、インターネットなどのネットワーク30と通信制御部29を介して、上述した文字認識処理を実行するためのアプリケーションプログラムをHDD23にインストールすることもできる。
図5に例示したコンピュータ装置は、上述したプロセッサ21、メモリ22などのハードウェアと、オペレーティングシステムおよびアプリケーションプログラムなどのプログラムとが有機的に協働することにより、上述した各種機能を実現する。
また、図1に示した文字認識部11、選択部12および結合部13は、それぞれ、プロセッサ21が対応するプログラムを実行することによって実現してもよい。同様に、図1に示した色分解画像生成部3、ノイズ除去部4および領域抽出部5は、それぞれ、プロセッサ21が対応するプログラムを実行することによって実現してもよい。また、図1に示した画像入力部2は、プロセッサ21と対応するプログラムと画像入力装置27との組み合わせによって実現してもよい。また、図1に示した各部の処理過程で生成される情報は、メモリ22あるいはHDD23などに格納される。
図6に、本件開示の文字認識処理を表す流れ図を示す。
ステップ301の処理に先立って、プロセッサ21は、以下の処理を行う。まず、例えば、画像入力装置27および画像読み取り処理のためのプログラムと協働することにより、原稿1の画像を取得する。また、プロセッサ21は、色分解画像生成処理のためのプログラムと協働することにより、上述した原稿1の画像から複数の色分解画像を生成する。次に、プロセッサ21は、ノイズ除去処理のためのプログラムと協働することにより、複数の色分解画像それぞれから周辺ノイズを除去する。更に、プロセッサ21は、文字認識対象の領域を抽出する処理のためのプログラムと協働することにより、ノイズ除去済みの各色分解画像から文字認識対象の領域を抽出する。
このようにして抽出された各色分解画像の認識対象の領域について、プロセッサ21は、上述したアプリケーションプログラムに含まれる文字認識部を実現するためのプログラムと協働することにより、文字認識処理を行う(ステップ301)。プロセッサ21は、ステップ301の処理で、各色分解画像から切り出した個々の外接矩形に対応して、この外接矩形内の画素連結成分が属する文字パターンに対応する候補文字および確信度と、当該外接矩形の位置を示す情報とを含む認識結果を生成する。なお、ステップ301の処理で、プロセッサ21は、外接矩形の位置を示す情報として、例えば、外接矩形の左上の画素および右下の画素の位置を示す座標などを含む認識結果を生成してもよい。
次いで、プロセッサ21は、上述したアプリケーションプログラムに含まれる選択部を実現するためのプログラムと協働することにより、位置が同じである候補文字から一つを選択する処理を行う(ステップ302)。ステップ302で、プロセッサ21は、例えば、ステップ301で各色分解画像について得られた認識結果から、外接矩形の位置が重なっている候補文字のセットを検出する。そして、プロセッサ21は、検出した候補文字のセットのうち、確信度が最大の候補文字を選択する。
次に、プロセッサ21は、上述したアプリケーションプログラムに含まれる結合部を実現するためのプログラムと協働することにより、ステップ302で選択された候補文字から文字列を生成する処理を行う(ステップ303)。プロセッサ21は、選択された外接矩形の位置を示す情報に基づいて、例えば、文字認識対象の領域の一端から文字の並び方向に従って順に候補文字を結合する。この処理により、プロセッサ21は、各色分解画像に分散して現れる文字パターンに対応してそれぞれ得られる候補文字を合成して文字列を生成する。
その後、プロセッサ21は、例えば、オペレーティングシステムと協働することにより、ステップ303で得られた文字列を、表示制御部24を介して表示装置25に表示させてもよい。
このようにして、図5に例示したコンピュータ装置により、自然画像などのように複数色が混在した複雑な画像を背景とした複数色の文字を含む文字列を認識する文字認識処理装置が実現される。
次に、本件開示の文字認識装置に含まれる選択部の処理について説明する。
図7に、選択部の処理の一例を表す流れ図を示す。図7に示したステップ311〜ステップ316は、プロセッサ21によって実行される。なお、ステップ311〜ステップ316は、図6に示したステップ302でプロセッサ21が実行するプログラムの一例である。また、以下の説明では、文字列が左から右へ並んでいる場合の処理を説明する。
ステップ311で、プロセッサ21は、各色分解画像について得られた候補文字の集合の中から一つの集合を選択する。図4に示した例で説明すると、色分解画像Pbから得られた認識結果QB1〜QB5と色分解画像Pgから得られた認識結果QG1〜QG2と色分解画像Pwから得られた認識結果QW1〜QW6とのいずれかに含まれる候補文字の集合が、ステップ311で選ばれる。
次に、プロセッサ21は、ステップ311で選択した候補文字の集合に含まれる候補文字の一つを注目候補文字として選択する(ステップ312)。プロセッサ21は、例えば、候補文字の集合に含まれる候補文字から、対応する外接矩形の位置が文字認識対象の領域の左端に近い順に選択する。図4に示した色分解画像Pbを例に取ると、プロセッサ21は、候補文字「提」から順に選択する。
次に、プロセッサ21は、注目候補文字に対応する外接矩形と位置が同じである外接矩形に対応する候補文字を、他の色分解画像に対応する候補文字の集合から検出する(ステップ313)。例えば、プロセッサ21は、認識結果に含まれる外接矩形の位置を示す情報に基づいて、2つの外接矩形が重複する面積が所定の閾値を超える場合に、これらの外接矩形に対応する候補文字の位置が同じであると判断する。図4に示した色分解画像Pbと色分解画像Pwを例に取ると、外接矩形RB1と同じ位置にある外接矩形として、プロセッサ21は、外接矩形RW1を検出する。この検出結果に基づいて、プロセッサ21は、外接矩形RB1に対応する候補文字「提」に位置が同じである候補文字として、外接矩形RW1に対応する候補文字「庶」を検出する。
次に、プロセッサ21は、注目候補文字とステップ312で検出した候補文字との中で、最も確信度の高い候補文字を選択する処理を行う(ステップ314)。ステップ314で、プロセッサ21は、注目候補文字に対応する確信度とステップ312で検出した候補文字に対応する確信度とを比較する。この比較結果に基づいて、プロセッサ21は、最大の確信度に対応する候補文字を選択する。図4に示した例では、候補文字「提」の確信度(99)に対して、候補文字「提」の外接矩形RB1と同じ位置にある外接矩形RW1に対応する候補文字「庶」の確信度は(34)である。この場合に、候補文字「提」の確信度(99)が最大となるので、プロセッサ21は、外接矩形RB1の位置についての文字認識結果として、候補文字「提」を選択する。このとき、プロセッサ21は、メモリ22あるいはHDD23に保持された候補文字「提」を含む認識結果にフラグなどをセットすることにより、この候補文字が選択されたことを示してもよい。また、プロセッサ21は、メモリ22あるいはHDD23から、選択されなかった候補文字を含む認識結果を削除することにより、選択された候補文字を含む認識結果のみを残してもよい。
次に、プロセッサ21は、ステップ311で選択した候補文字の集合に含まれる全ての候補文字を選択したか否かを判定する(ステップ315)。未選択の候補文字がある場合に(ステップ315の否定判定)、処理はステップ312に戻る。
プロセッサ21は、ステップ311で選択した候補文字の集合に含まれる全ての候補文字について、ステップ312〜ステップ314の処理を実行する。図4に示した色分解画像Pbの例では、上述した候補文字「提」に続いて、プロセッサ21は、候補文字「供」、「研」、「空」、「斯」を順に注目候補文字として選択する。そして、候補文字「研」、「空」、「斯」を注目候補文字として選択して行ったステップ313の処理で、プロセッサ21は、これらに対応して色分解画像Pwに対応する候補文字の集合から候補文字「研」、「究」、「所」をそれぞれ検出する。また、ステップ314の処理で、プロセッサ21は、これらの注目候補文字「研」、「空」、「斯」にそれぞれ対応する確信度と、検出された候補文字「研」、「究」、「所」にそれぞれ対応する確信度とを比較する。そして、これらの比較結果に基づいて、プロセッサ21は、色分解画像Pwから得られた候補文字「研」、「究」、「所」をそれぞれ選択する処理を行う。
このようにして、1つの色分解画像から得られた候補文字の集合に含まれる全ての候補文字について、ステップ312〜ステップ315の処理が完了したときに(ステップ315の肯定判定)、処理は、ステップ316に進む。ステップ316で、プロセッサ21は、色分解画像に対応して得られた候補文字の集合を全て選択したか否かを判定する。未選択の候補文字の集合がある場合に(ステップ316の否定判定)、処理は、ステップ311に戻る。この場合に、プロセッサ21は、未選択の候補文字の集合を選択して(ステップ311)、以降は、この候補文字の集合に含まれる候補文字について、ステップ312〜ステップ315の処理を繰り返す。
このように、プロセッサ21が、メモリ22やHDD23を利用して、プログラムに従う処理を行うことにより、本件開示の文字認識装置に含まれる選択部2の機能が実現される。つまり、プロセッサ21の処理により、複数の色分解画像から得られた候補文字の集合に含まれる、外接矩形の位置が同じ候補文字のうち、確信度が最大の候補文字を最終的な文字認識結果として選択することができる。
ところで、図1,2に示した原稿1の例からも分かるように、画像に重ねて配置される文字列は、連続する文字が同一の色で表現される場合が多い。このような文字色の連続性は、雑誌の誌面やテレビ映像で流れるテロップなどにも多くの場合に共通して見られる。
以下、上述した文字色の連続性を、複雑な画像を背景とする複数の色の文字が混在する文字列を対象とする文字認識処理に利用する方法について説明する。
図8に、選択部の処理の別例を表す流れ図を示す。なお、図8に示したステップのうち、図7に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する。図8に示した各ステップは、プロセッサ21によって実行される。図8に示した各ステップもまた、図6に示したステップ302でプロセッサ21が実行するプログラムの一例を示している。
図8に示した流れ図では、図7に示したステップ311〜ステップ316の処理の実行に先立って、プロセッサ21は、ステップ320の処理を実行する。ステップ320で、プロセッサ21は、各色分解画像から得られた候補文字のそれぞれに対応する確信度に、文字色の連続性に基づく重みを付与する。
図9に、文字色の連続性を確信度に反映する重みを付与する処理を表す流れ図を示す。なお、図9に示したステップ321〜ステップ330の処理は、プロセッサ21によって実行される。これらのステップ321からステップ330の処理は、図8に示したステップ320でプロセッサ21が実行するプログラムによる処理の一例である。
ステップ321で、プロセッサ21は、上述したステップ311と同様に、各色分解画像から得られた候補文字の集合を順に選択する。次いで、プロセッサ21は、選択した候補文字の集合に含まれる候補文字を、順次に注目候補文字P0として選択する(ステップ322)。
次に、プロセッサ21は、選択した候補文字の集合の中で、注目候補文字P0に対応する外接矩形から所定の距離にある他の外接矩形に対応する候補文字を検出する(ステップ323)。プロセッサ21は、注目候補文字P0に対応する外接矩形の位置を示す情報に基づいて候補文字の検出を行う。なお、ステップ323において、プロセッサ21が他の外接矩形を探索する範囲は、例えば、各色分解画像から得られた外接矩形のサイズの平均値などに基づいて決定してもよい。
ステップ323の処理で候補文字を検出した場合に(ステップ324の肯定判定)、プロセッサ21は、ステップ325〜ステップ328の処理を実行する。ステップ325で、プロセッサ21は、ステップ323で検出した候補文字の一つを参照候補文字P1として選択する。次いで、プロセッサ21は、この参照候補文字P1に対応する確信度が所定の閾値以上であるか否かを判定する(ステップ326)。この参照候補文字P1に対応する確信度が所定の閾値以上である場合に、プロセッサ21は、注目候補文字P0に隣接して同色の候補文字があると判断する(ステップ326の肯定判定)。この場合に、プロセッサ21は、注目候補文字P0に対応する確信度に所定の重みを加算する(ステップ327)。このとき、プロセッサ21は、注目候補文字P0の確信度に重みを加算した後の値を、確信度の最大値を上限として制限してもよい。
その後、プロセッサ21は、ステップ323で検出した全ての候補文字を参照候補文字P1として選択したか否かを判定する(ステップ328)。未選択の候補文字がある場合に(ステップ328の否定判定)、処理は、ステップ325に戻る。そして、新たに選択された参照候補文字P1に対応する確信度に応じて、プロセッサ21は、ステップ326、ステップ327の処理を実行する。ステップ325〜ステップ328を繰り返して、未選択の候補文字がなくなったときに(ステップ328の肯定判定)、処理は、ステップ329に進む。
このようにして、プロセッサ21は、例えば、注目候補文字に隣接して確信度の高い候補文字が得られている場合に、この注目候補文字に対応する確信度に、所定の重みを付与する。これにより、例えば、確信度が高い候補文字に挟まれた注目候補文字に対応する確信度を高くすることができる。つまり、プロセッサ21が、上述した処理を行うことにより、文字色の連続性に基づく重みを確信度に付与することができる。
一方、ステップ323の処理で候補文字が検出されなかった場合に(ステップ324の否定判定)、処理は、ステップ325〜ステップ328をスキップして、ステップ329に進む。この場合に、プロセッサ21は、注目文字候補の確信度に、文字色の連続性に基づく重みを付与することはない。
ステップ329で、プロセッサ21は、ステップ321で選択した候補文字の集合に含まれる全ての候補文字を注目候補文字として選択したか否かを判定する。未選択の候補文字がある場合に(ステップ329の否定判定)、処理は、ステップ322に戻る。そして、新たに選択された注目候補文字P0について、ステップ323〜ステップ329の処理が行われる。
そして、ステップ322からステップ329を繰り返して、未選択の候補文字がなくなったときに(ステップ329の肯定判定)、プロセッサ21は、未選択の候補文字の集合があるか否かを判定する(ステップ330)。ステップ330の肯定判定の場合に、処理は、ステップ321に戻る。この場合に、プロセッサ21は、新たに選択された候補文字の集合について、ステップ322からステップ330の処理を繰り返す。そして、全ての色分解画像から得られた候補文字の集合についての処理が完了したときに(ステップ330の肯定判定)、処理は終了する。
図10に、文字色の連続性に基づく重みの適用例を示す。なお、図10に示した要素のうち、図4に示した要素と同等のものについては、同一の符号を付して示し、その説明は省略する。図10に示した例は、各色分解画像から得られた認識結果に対して、図8に示したステップ320の処理として、図9に示した各ステップの処理を適用して得られる。
図10は、図4に示した各色分解画像から得られた候補文字の集合について、図9に示した重み付与処理を適用した例である。なお、図10の例では、上述したステップ326の閾値として数値80を用い、また、ステップ327で重み3を付与する場合を示した。また、各候補文字を含む認識結果QB1〜QB5,QG1,QG2,QW1〜QW6において、重み付与後の確信度を大括弧で囲んで示した。また、各候補文字に対応する確信度の値は、確信度の最大値(99)を上限として制限されている。
図10に示した色分解画像Pbについて得られた認識結果QB1〜QB5のうち、認識結果QB1、QB2、QB3、QB5に含まれる確信度には、文字色の連続性に基づく重みの付与が適用される。これにより、認識結果QB1、QB2、QB3、QB5に含まれる確信度の値(99)、(81)、(36)、(59)は、新たな値[99]、[84]、[39]、[62]にそれぞれ変化する。一方、認識結果QB4に含まれる候補文字「空」の両側の候補文字の確信度は、いずれも上述した閾値よりも低い。このため、この候補文字「空」の確信度(90)は、文字色の連続性に基づく重みの加算を受けることなく、元の値をそのまま維持する。
また、図10に示した色分解画像Pgについて得られた認識結果QG1、QG2に含まれる確信度(98)、(99)には、いずれも、文字色の連続性に基づく重みの付与が適用される。これにより、認識結果QG1、QG2に含まれる確信度はいずれも、上述した確信度の最大値(99)となる。
また、図10に示した色分解画像Pwについて得られた認識結果QW1〜QW6のうち、認識結果QW2〜QW6に含まれる確信度には、文字色の連続性に基づく重みの付与が適用される。なお、認識結果QW4、QW5に含まれる候補文字「研」、「究」は、いずれも、両側に確信度が閾値以上である候補文字が並んでいる。このため、これらの候補文字に対応する確信度(89)、(87)には、両側の候補文字を参照候補文字として上述したステップ327の処理を行った際にそれぞれ重みが付与される。したがって、認識結果QW4、QW5に含まれる候補文字「研」、「究」の新しい確信度は、元の確信度にそれぞれ合計6の重みを加算した値[95]、[93]となる。また、認識結果QW3、QW6に含まれる候補文字「±」、「所」に対応する新たな確信度の値は、元の確信度(81)、(90)にそれぞれ重み3を加算した値[84]、[93]となる。一方、色分解画像Pwから得られた認識結果の集合には、認識結果Q に含まれる候補文字「庶」に隣接する位置に外接矩形を持つ認識結果は含まれない。このため、この候補文字「庶」に対応する確信度は、文字色の連続性に基づく重みの加算を受けることなく、元の値(34)をそのまま維持する。
ここで、図10に示した各色分解画像から抽出された外接矩形のうち、色分解画像Pwに含まれる外接矩形RW5の部分は、図4において示した対応する外接矩形RW5と異なっている。図10に示した外接矩形RW5は、図4に示した対応する外接矩形RW5には含まれていない画素連結成分をいくつか含んでいる。これらの画素連結成分は、例えば、背景の画像に含まれる白色の部分に対応するものであり、候補文字「究」の認識に寄与しないノイズ成分である。そして、これらのノイズ成分の影響を受けて、図10に示した外接矩形RW5から得られる認識結果では、候補文字「究」に対応する確信度が、図4に示した確信度よりも低い値になっている。
このように、複数の色で表現された複雑な背景の上に配置された複数色の文字を含む文字列を認識する際には、文字内ノイズなどのために、望ましい候補文字に対応して最大の確信度が得られない場合がある。
このような場合にも、上述した文字色の連続性に基づく重みを適用することにより、近接した位置に同色で確信度の高い候補文字を持つ候補文字の確信度を引き上げることができる。
図10の例では、色分解画像Pwの認識結果に含まれる候補文字「究」に対応する確信度は、文字色の連続性に基づく重みによって引き上げられる。その結果、この候補文字「究」に対応する確信度は、同じ位置にある外接矩形RB4に対応する候補文字「空」に対応する確信度よりも大きい値となる。そして、このように調整された確信度に基づいて、同じ位置に外接矩形がある複数の候補文字の中から確信度が最大の候補文字を選択する処理を行うことにより、調整前に最大の確信度を持っていた候補文字「空」の代わりに、望ましい候補文字「究」を選択することができる。
このようにして、文字色の連続性に基づく重みを確信度に適用する処理を組み合わせることにより、より確からしい認識結果を得ることができる。
ところで、同じ位置にある複数の候補文字の中から確信度が最大の候補文字を選択する処理は、動的計画法(DP:Dynamic Programming)によって実現してもよい。
図11に、文字認識処理の別例を表す流れ図を示す。なお、図11に示したステップのうち、図6に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する。図11に示した各ステップは、プロセッサ21によって実行される。
図11に示した流れ図では、図6に示したステップ302,303の処理に代えて、プロセッサ21は、ステップ331,332の処理を実行する。
ステップ331で、プロセッサ21は、各色分解画像から得られた候補文字のすべてを対象として動的計画法を用いた処理を実行することにより、複数の色分解画像に跨るパスを含む各パスについて評価値を算出する。
プロセッサ21は、各色分解画像から抽出された全ての外接矩形に対応する認識結果を含む矩形情報テーブルを、動的計画法を用いた処理に用いてもよい。この矩形情報テーブルは、例えば、図5に示したメモリ22あるいはHDD23に格納される。
図12に、矩形情報テーブルの例を示す。図12に示した矩形情報テーブルは、図10に示した各色分解画像Pb,Pg,Pwから抽出された外接矩形RB1〜RB5,RG1,RG2,RW1〜RW6に対応する情報を含んでいる。
図12に示した矩形情報テーブルは、各外接矩形に対応して、矩形インデックス(INDEX)と、当該外接矩形が抽出された色分解画像を示す色IDと、当該外接矩形の位置を示す座標と、対応する候補文字の確信度とを、それぞれ示す情報を含んでいる。図12の例では、矩形インデックスB1〜B5で示される外接矩形RB1〜RB5の色IDとして、色分解画像Pbを示す「B」が矩形情報テーブルに格納される。また、矩形インデックスG1、G2で示される外接矩形RG1、RG2の色IDとして、色分解画像Pgを示す「G」が矩形情報テーブルに格納される。また、矩形インデックスW1〜W6で示される外接矩形RW1〜RW6の色IDとして、色分解画像Pwを示す「W」が矩形情報テーブルに格納される。また、各外接矩形の位置は、外接矩形の左上の画素の座標と右下の画素の座標との組で示してもよい。図12の例では、各外接矩形の左上の画素の座標を、座標(Xs,Ys)の各成分に、それぞれの矩形インデックスを添え字として付して示した。同様に、各外接矩形の右下の画素の座標を、座標(Xe,Ye)の各成分に、それぞれの矩形インデックスを添え字として付して示した。なお、上述した座標の例は、各色分解画像において、画素の左右の並び方向をX方向とし、画素の上下の並び方向をY方向とした場合である。また、画素の座標は、右側ほど大きな値を持つX成分で表され、また、下側ほど大きな値を持つY成分で表される。
更に、矩形情報テーブルは、各外接矩形に対応して、当該外接矩形までのパスの評価値と、当該外接矩形までのパスに含まれる外接矩形の数と、当該外接矩形の左側の外接矩形を示す左側矩形インデックスと、をそれぞれ示す情報を含む。図12の例では、各外接矩形に対応するパスの評価値を、評価値を示す文字「T」に各矩形インデックスを示す添え字を付して示した。各矩形インデックスに対応するパスの評価値、パスの矩形数および左側矩形インデックスは、ステップ331の動的計画法を用いた処理の過程において求められる。なお、図12において、「左/右端フラグ」で示した欄は、当該外接矩形が左端の矩形であるか否かを示す左端フラグまたは、当該外接矩形が右端の矩形であるか否かを示す右端フラグを示す情報に対応する。左端フラグおよび右端フラグについては、後述する。
このような矩形情報テーブルを用いて、プロセッサ21は、図11のステップ331において、例えば、パスに含まれる各外接矩形に対応する確信度の総和を評価値として、複数の色分解画像に跨るパスを許容して動的計画法を用いる処理を行う。なお、複数の色分解画像に跨るパスを許容して動的計画法を用いる処理の詳細については、後述する。
例えば、図10に示した各外接矩形について、プロセッサ21は、これらの外接矩形を左側から順に追跡する動的計画法を用いた処理を行う過程で、図10において矢印で示したような各パスについての評価値を算出する。プロセッサ21は、例えば、各パスによって接続された各外接矩形に対応する候補文字の確信度の総和を、当該パスの評価値として求める。なお、図10において太い実線の矢印で示したパスは、上述したパスの中で最も評価値が高いパスを示す。このパスによって接続される各外接矩形は、同じ位置にある複数の外接矩形の中で確信度が最大の候補文字に対応して選択された外接矩形に相当する。
次いで、プロセッサ21は、図11のステップ322において、評価値が最大のパスに含まれる候補文字を結合することにより、文字認識対象の領域に含まれる文字列を得る。
以下、色分解画像に跨るパスを許容して動的計画法を用いる処理について説明する。
図13に、色分解画像に跨るパスを許容して動的計画法を用いる処理を表す流れ図を示す。なお、図13に示したステップ341〜ステップ348の各処理は、プロセッサ21によって実行される。ステップ341〜ステップ348の各処理は、図11に示したステップ331の処理の一例である。
ステップ341において、まず、プロセッサ21は、矩形情報テーブルに格納された各外接矩形の位置を示す情報に基づいて、文字列の左端に対応する可能性がある左端矩形と、文字列の右端に対応する可能性がある右端矩形と、をそれぞれ検出する。プロセッサ21は、例えば、各外接矩形を順次に注目矩形として選択し、この注目矩形の左上の画素の位置を示す座標と、他の外接矩形の右下の画素の位置を示す座標との比較に基づいて、注目矩形が左端矩形であるか否かを判断してもよい。プロセッサ21は、他の外接矩形の右下の画素の座標の中に、注目矩形の左上の画素のX座標よりも小さい値を持つX座標が検出されない場合に、注目した外接矩形は左端矩形であると判断する。左端矩形として検出した外接矩形に対応して、プロセッサ21は、矩形情報テーブルに矩形数1を格納するとともに、左端フラグを設定する。同様に、プロセッサ21は、上述した処理と一緒に、注目矩形の右下の画素の位置を示す座標と、他の外接矩形の左上の画素の位置を示す座標との比較に基づいて、右端矩形であるか否かを判断してもよい。プロセッサ21は、他の外接矩形の左上の画素の座標の中に、注目矩形の右下の画素のX座標よりも大きい値を持つX座標が検出されない場合に、注目した外接矩形は右端矩形であると判断する。また、右端矩形として検出した外接矩形に対応して、プロセッサ21は、矩形情報テーブルに右端フラグを設定する。
図12に示した矩形情報テーブルの例では、外接矩形RB1、RW1を示す矩形インデックスB1、W1対応して左端フラグが設定されている。また、外接矩形RB5、RW6を示す矩形インデックスB5、W6対応して右端フラグが設定されている。
次に、プロセッサ21は、矩形情報テーブルに含まれる全ての外接矩形の中から一つを注目矩形Rcとして選択する(ステップ342)。例えば、プロセッサ21は、矩形情報テーブルに各外接矩形に対応して格納された左の画素の位置を示すX座標に基づいて、文字認識対象の領域の左端に近い外接矩形から順に注目矩形Rcを選択する。
次いで、プロセッサ21は、注目矩形Rcの左端よりも左側で所定の距離内にある別の外接矩形を矩形情報テーブルから検出する(ステップ343)。例えば、プロセッサ21は、注目矩形Rcの左上の画素のX座標Xcと、矩形情報テーブルに含まれる他の外接矩形の右下の画素のX座標Xpとの差に基づいて、ステップ342の検出処理を行う。例えば、プロセッサ21は、座標値Xpが座標値Xc以下であり、かつ、座標値の差(Xc−Xp)が注目矩形RcのX方向の幅に基づいて決定した所定の閾値Thx以下であるような他の外接矩形を全て検出する。
このようにして、プロセッサ21は、注目矩形Rcの左側に接続する可能性のある外接矩形の集合を検出する。このステップ343で検出された各外接矩形は、複数の色分解画像から注目矩形Rcに隣接する位置について得られた外接矩形である。つまり、これらの外接矩形は、同一の位置にある複数の候補文字に対応している。
次いで、プロセッサ21は、検出した集合に含まれる各外接矩形に対応して矩形情報テーブルにそれぞれ格納されている評価値に、注目矩形Rcに対応する文字候補の確信度Ccを加算する(ステップ344)。この処理により、プロセッサ21は、注目矩形Rcの左側に接続する可能性のある外接矩形それぞれから注目矩形Rcに接続するパスについて、注目矩形Rcまでの評価値の基本値を算出する。なお、ステップ342で選択した注目矩形Rcが左端矩形である場合に、プロセッサ21は、この注目矩形Rcに対応する候補文字の確信度Ccを、この注目矩形Rcを先頭とするパスに対応する評価値の基本値とする。
次に、プロセッサ21は、上述した集合に含まれる各外接矩形に対応して算出した評価値の基本値に、色の連続性に基づく重みを加算する(ステップ345)。例えば、プロセッサ21は、上述した集合に含まれる各外接矩形に対応して矩形情報テーブルに格納された色IDが注目矩形の色IDと一致する場合に、所定の重み(例えば、数値3)を上述した基本値に加算する。このようにして、プロセッサ21は、上述した集合に含まれる各外接矩形に対応する個々のパスの評価値に、色の連続性に基づく重みを反映する。
例えば、図10に示した外接矩形RB2が注目矩形Rcとして選択されている場合に、ステップ342の処理で、プロセッサ21は、2つの外接矩形RB1,RW1を検出する。そして、これらの外接矩形RB1,RW1と注目矩形Rcである外接矩形RB2を接続する2つのパスについて、プロセッサ21は、それぞれ評価値を算出する。外接矩形RB1と外接矩形RB2とを接続するパスの評価値を算出する過程で、プロセッサ21は、それぞれに対応する候補文字の確信度の和に、色の連続性に基づく重みを加算する。一方、外接矩形RW1と外接矩形RB2とを接続するパスの評価値を算出する過程では、色IDが不一致であるので、プロセッサ21は、それぞれに対応する候補文字の確信度の和をそのままパスの評価値とする。
次に、プロセッサ21は、上述した集合に含まれる各外接矩形の中から、ステップ345で算出したパスの評価値が最大であるパスに対応する外接矩形を、注目矩形Rcの左側矩形として選択する(ステップ346)。上述したように、ステップ343で検出された各外接矩形は、同一の位置にある複数の候補文字に対応している。したがって、ステップ346で左側矩形を選択する処理は、同一の位置にある複数の候補文字から、色の連続性に基づく重みを反映した上で、最大の確信度を持つ文字候補を選択する処理に相当する。図10に示した外接矩形RB2を注目矩形Rcとした例では、外接矩形RB1に接続するパスの評価値のほうが、外接矩形RW1に接続するパスの評価値よりも大きい。このため、プロセッサ21は、外接矩形RB1と外接矩形RB2とを接続するパスを、外接矩形RB2を注目矩形Rcとした処理での生き残りパスとして選択する。このとき、プロセッサ21は、注目矩形Rcである外接矩形RB2に生き残りパスで接続された外接矩形RB1を、外接矩形RB2の左側矩形として選択する。
次に、プロセッサ21は、ステップ346で検出した左側矩形に対応して矩形情報テーブルに格納された情報を用いて、注目矩形Rcに対応する情報を更新する(ステップ347)。例えば、プロセッサ21は、検出した左側矩形に対応して矩形情報テーブルに格納されている矩形数に1を加算した値を、注目矩形Rcに対応する矩形数として格納する。また、プロセッサ21は、検出した左側矩形を示す矩形インデックスを、注目矩形Rcに対応する左側矩形インデックスとして矩形情報テーブルに格納する。また、プロセッサ21は、ステップ346の処理の過程で検出したパスの評価値の最大値を、注目矩形Rcに対応するパスの評価値として矩形情報テーブルに格納する。
図10に示した外接矩形RB2を注目矩形Rcとした例では、ステップ346で左側矩形として選択された外接矩形RB1は左端矩形である。したがって、プロセッサ21は、外接矩形RB1に対応して矩形情報テーブルに格納された矩形数1に数値1を加算して、外接矩形RB2までの生き残りパスに含まれる矩形数2を求める。プロセッサ21は、得られた矩形数2と、ステップ345で生き残りパスについて算出された評価値と、上述した選択された外接矩形RB1を示す左側矩形インデックスとを、外接矩形RB2に対応して矩形情報テーブルに格納する。
次いで、プロセッサ21は、矩形情報テーブルに含まれる全ての外接矩形について、上述した処理を実行したか否かを判定する(ステップ348)。
注目矩形Rcとしてまだ選択されていない外接矩形がある場合に(ステップ348の否定判定)、処理は、ステップ342に戻る。この場合に、プロセッサ21は、例えば、上述した順に従って、図10に示した外接矩形RG1あるいは外接矩形RW1を次の注目矩形Rcとして選択し、この注目矩形Rcについての処理を開始する。
図10に示した外接矩形RG1あるいは外接矩形RW2を注目矩形Rcとした処理で、プロセッサ21は、上述した外接矩形RB1,RB2を結ぶパスを外接矩形RG1あるいは外接矩形RW2に延長したパスに対応する情報を矩形情報テーブルに反映する。次いで、図10に示した外接矩形RG2を注目矩形Rcとした処理で、プロセッサ21は、外接矩形RB1,RB2、RG1を接続するパスと外接矩形RB1,RB2、RW2を接続するパスとをそれぞれ外接矩形RG2まで延長した2つのパスの評価値を比較する。そして、この比較結果に基づいて、プロセッサ21は、前者のパスを生き残りパスとして選択し、この生き残りパスに対応する情報を矩形情報テーブルに反映する。同様に、図10に示した外接矩形RW3を注目矩形Rcとした処理でプロセッサ21は、外接矩形RB1,RB2、RG1を接続するパスと外接矩形RB1,RB2、RW2を接続するパスとをそれぞれ外接矩形RW3まで延長した2つのパスの評価値を比較する。そして、この比較結果に基づいて、プロセッサ21は、前者のパスを生き残りパスとして選択し、この生き残りパスに対応する情報を矩形情報テーブルに反映する。同様に、外接矩形RB3,RW4,RB4,RW5,RB5,RW6をそれぞれ注目矩形Rcとした処理が、プロセッサ21によって行われる。外接矩形RB3を注目矩形Rcとした処理の際に、プロセッサ21は、外接矩形RB1,RB2,RG1,RG2を接続するパスを外接矩形RB3まで延長したパスを生き残りパスとして選択する。また、外接矩形RW4を注目矩形Rcとした処理の際に、プロセッサ21は、外接矩形RB1,RB2,RG1,RG2を接続するパスを外接矩形RW4まで延長したパスを生き残りパスとして選択する。また、外接矩形RB4を注目矩形Rcとした処理の際に、プロセッサ21は、外接矩形RB1,RB2,RG1,RG2,RB3を接続するパスを外接矩形RB4まで延長したパスを生き残りパスとして選択する。一方、外接矩形RW5を注目矩形Rcとした処理の際に、プロセッサ21は、外接矩形RB1,RB2,RG1,RG2,RB3を接続するパスを外接矩形RW5まで延長したパスを生き残りパスとして選択する。そして、外接矩形RB5を注目矩形Rcとした処理の際に、プロセッサ21は、外接矩形RB1,RB2,RG1,RG2,RB3,RW5を接続するパスを外接矩形RB5まで延長したパスを生き残りパスとして選択する。一方、外接矩形RW6を注目矩形Rcとした処理の際に、プロセッサ21は、外接矩形RB1,RB2,RG1,RG2,RB3,RW5を接続するパスを外接矩形RW6まで延長したパスを生き残りパスとして選択する。上述したようにして、各外接矩形を注目矩形とした処理によって生き残りパスを選択する過程で、注目矩形の左側の位置に対応して各色分解画像から得られた複数の候補文字から一つを選択する処理が行われる。
このようにして、ステップ342からステップ348の処理を繰り返し、全ての外接矩形についての処理が完了したときに(ステップ348の肯定判定)、プロセッサ21は、動的計画法を用いた処理を終了する。
このとき、各右端矩形に対応して矩形情報テーブルに格納されている評価値は、当該右端矩形にいたるパスの中で最も高い評価値となっている。また、各右端矩形に対応して矩形情報テーブルに格納されている左側矩形インデックスは、上述した評価値を与えるパスによって当該右端矩形に接続されている外接矩形を示している。
次に、上述した動的計画法を用いた処理で得られた評価結果に基づいて、認識結果の文字列を生成する処理について説明する。
図14に、動的計画法を用いた処理による評価結果に基づいて文字列を生成する処理を表す流れ図を示す。なお、図14に示したステップ351〜ステップ354の各処理は、プロセッサ21によって実行される。ステップ351〜ステップ354の処理は、図11に示したステップ332の処理の一例である。
まず、プロセッサ21は、矩形情報テーブルに含まれる各右端矩形について、それぞれのパスに含まれる矩形数を用いて正規化した評価値を求める(ステップ351)。例えば、プロセッサ21は、各右端矩形に対応して矩形情報テーブルに格納されたパスの評価値を、それぞれのパスに含まれる矩形数で除算することにより、正規化した評価値を算出する。
このようにして得られた正規化された評価値の比較に基づいて、プロセッサ21は、最大の評価値を持つパスを選択する(ステップ352)。
図10に示した例では、外接矩形RB5に到る生き残りパスは、外接矩形RB1,RB2,RG1,RG2,RW4,RW5,RB5を接続するパスである。このパスの評価値TB5は、このパスで接続される外接矩形RB1,RB2,RG1,RG2,RW4,RW5,RB5に対応する各候補文字の確信度および色の連続性に基づく重みの総和となる。一方、図10に示した外接矩形RW6に到る生き残りパスは、外接矩形RB1,RB2,RG1,RG2,RW4,RW5,RW6を接続するパスである。このパスの評価値TW6は、このパスで接続される外接矩形RB1,RB2,RG1,RG2,RW4,RW5,RW6に対応する各候補文字の確信度および色の連続性に基づく重みの総和となる。
外接矩形RB5に到る生き残りパスと外接矩形RW6に到る生き残りパスとを比べれば分かるように、これらのパスの評価値の違いは、パスの末尾に接続された外接矩形に対応する候補文字の確信度と色の連続性に基づく重みである。したがって、プロセッサ21は、上述したステップ352の処理により、同じ位置に対応して色分解画像Pb、Pwからそれぞれ得られた候補文字から、色の連続性に基づく重みが付与された確信度に基づいて1つを選択することになる。つまり、動的計画法を適用した処理では、同じ位置について複数の色分解画像から得られた文字候補の集合から、色の連続性に基づく重みが付与された確信度に基づいて一つの候補文字を選択する処理は、評価値が最大のパスを選択することによって完了する。
次いで、プロセッサ21は、検出したパスを辿ることにより、このパスに含まれる各外接矩形に対応する候補文字を収集する(ステップ353)。例えば、プロセッサ21は、右端矩形に対応して矩形情報テーブルに格納された左側矩形インデックスに基づいて、この右端矩形の左側に接続する外接矩形を特定する。同様にして、プロセッサ21は、このパスを遡るように、左側矩形インデックスを辿ることにより、パスに含まれる全ての外接矩形を特定する。そして、プロセッサ21は、右端矩形に対応する候補文字に加えて、このようにして特定した外接矩形それぞれに対応する候補文字を収集する。
次いで、プロセッサ21は、このようにして収集した候補文字を、パスで接続された順に左側から結合することにより、文字列を生成する(ステップ354)。
上述したようにして、動的計画法を用いて、同じ位置について複数の色分解画像から得られた文字候補の集合から、色の連続性に基づく重みが付与された確信度に基づいて一つの候補文字を選択する処理を実現することができる。この選択処理によって選択された候補文字は、最大の評価値を持つパスによって接続された外接矩形に対応する候補文字のセットとして得られる。そして、得られた候補文字のセットを、上述したステップ353のようにして結合することにより、認識結果の文字列を得ることができる。
ところで、印刷物に印刷された文字列でも、テレビ放送のテロップなどの文字列でも、文字列に含まれる個々の文字の配置には規則性がある場合が多い。このことを利用して、文字認識精度の向上を図ることもできる。
図15に、文字の配置の規則性を説明する図を示す。図15の例では、近接する3つの外接矩形の中央に位置する注目矩形について、配置の規則性を考える。
図15に示した外接矩形Rと、その左側の外接矩形Rおよび右側の外接矩形Rとの配置が規則的である場合に、これらの外接矩形R,R,Rのサイズはほぼ同等で、かつ、互いの間隔Gap-LC, Gap-RCも同等である。
ここで、図15に示したように、外接矩形Rの左上の画素および右下の画素の座標をそれぞれ、(XminC,YminC)、(XmaxC,YmaxC)とする。また、外接矩形RLの左上の画素および右下の画素の座標をそれぞれ、(XminL,YminL)、(XmaxL,YmaxL)とする。また、外接矩形RRの左上の画素および右下の画素の座標をそれぞれ、(XminR,YminR)、(XmaxR,YmaxR)とする。これらの座標は、それぞれの外接矩形の左上の画素および右下の画素の座標として、上述した矩形情報テーブルに格納されている。
そして、外接矩形R,R,RのX,Y方向のサイズは、それぞれの右下の画素の座標の各成分と左上の画素の座標の各成分の差として得ることができる。そして、外接矩形R,Rのサイズの差に基づいて、これらのサイズの一致度と示す指標を算出することができる。同様に、外接矩形R,Rのサイズの差に基づいて、これらのサイズの一致度と示す指標を算出することができる。また、外接矩形R,R間の間隔Gap-LCは、外接矩形Rの左上の画素のX座標と外接矩形Rの右下の画素のX座標との差として得ることができる。同様に、外接矩形R,R間の間隔Gap-RCは、外接矩形Rの右下の画素のX座標と外接矩形Rの左上の画素のX座標との差として得ることができる。そして、2つの間隔Gap-LC, Gap-RCの差に基づいて、これらの間隔の一致度を示す指標を算出することができる。
次に、動的計画法を用いた処理の過程で、評価対象の各パスの評価値に上述したような配置の規則性を反映する方法について説明する。
図16に、複数の色分解画像にまたがるパスを許容して動的計画法を用いる処理の別例を表す流れ図を示す。なお、図16に示したステップのうち、図13に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する。また、図16に示した各ステップは、プロセッサ21によって実行される。図16に示した各ステップは、図11に示したステップ331の別例である。
図16に示した流れ図では、ステップ343の後に、プロセッサ21は、注目矩形の右側の近傍にある外接矩形を検出するステップ349の処理を実行する。また、図13に示したステップ344、345の処理に代えて、プロセッサ21は、色の連続性と配置の規則性の両方に基づく重みをパスの評価値に反映するステップ350の処理を実行する。
ステップ349において、プロセッサ21は、例えば、注目矩形Rcの右下の画素のX座標Xcと、矩形情報テーブルに含まれる他の外接矩形の左上の画素のX座標Xpとの差に基づいて、右側の近傍に位置する全ての外接矩形を検出する。例えば、プロセッサ21は、X座標XpがX座標Xc以上であり、かつ、座標値の差(Xp−Xc)が予め決定した所定の閾値Thx以下であるような他の外接矩形を全て検出する。なお、上述した閾値Thxの値は、例えば、注目矩形RcのX方向の幅に基づいて決定してもよい。
また、プロセッサ21は、ステップ350で、次のようにして、色の連続性と配置の規則性の両方に基づく重みを反映したパスの評価値を算出する。
図17に、パスの評価値を算出する処理の別例を表す流れ図を示す。なお、図17に示したステップ361からステップ371の処理は、プロセッサ21によって実行される。また、図17に示したステップ361からステップ371の処理は、図16に示したステップ350の処理に対応する。また、以下の説明では、上述したステップ343で検出された外接矩形を含む集合を左側参照矩形の集合と称する。また、ステップ349で検出された外接矩形を含む集合を右側参照矩形の集合と称する。
プロセッサ21は、上述したステップ343で検出された左側参照矩形の集合に含まれる外接矩形の中から左側の参照矩形Rを選択する。また、プロセッサ21は、この左側の参照矩形Rの評価値に注目矩形Rcの確信度Ccを加算することにより、左側の参照矩形Rと注目矩形とを接続するパスの評価値を求める(ステップ361)。
次に、プロセッサ21は、選択した左側の参照矩形Rと注目矩形Rcとの間の間隔Gap-LCおよびこれらの矩形のサイズの一致度に応じた重みWsを算出する処理を行う(ステップ362)。例えば、プロセッサ21は、左側の参照矩形Rと注目矩形Rcとに対応して矩形情報テーブルにそれぞれ格納された情報に基づいて、間隔Gap-LCと、左側の参照矩形Rおよび注目矩形Rcのサイズの差dLCを算出する。プロセッサ21は、算出したサイズの差dLCを所定の定数aから差し引いた値に所定の係数bを乗算することにより、重みWsを算出してもよい。このようにして算出された重みWsは、サイズの差dLCが小さいとき、すなわち、サイズの一致度が高いときに大きな値となる。
プロセッサ21は、上述したようにして算出した重みWsをステップ361で求めた評価値に加算する(ステップ363)。更に、プロセッサ21は、左側の参照矩形Rと注目矩形Rcとが同一の色分解画像から抽出された外接矩形である場合に、色の連続性に基づく重みWcを上述したパスの評価値に加算する(ステップ364)。なお、プロセッサ21は、ステップ363とステップ364とを逆の順番に実行してもよい。
次に、プロセッサ21は、上述したステップ349で検出された右側参照矩形の集合に含まれる外接矩形の中から右側の参照矩形Rを選択する(ステップ365)。そして、プロセッサ21は、選択した右側の参照矩形Rについて、上述したステップ362と同様にして、注目矩形Rcとの間の間隔Gap-RCおよびこれらの矩形のサイズの一致度に応じた重みWsRを算出する(ステップ366)。
次いで、プロセッサ21は、プロセッサ21は、右側の参照矩形Rと注目矩形Rcとが同一の色分解画像を示す色IDを持っている場合に、色の連続性に基づく重みWcを上述したパスの評価値に加算する(ステップ367)。更に、プロセッサ21は、ステップ365で求めたサイズの一致度に応じた重みWsRを、上述したパスの評価値に加算する(ステップ368)。また、プロセッサ21は、ステップ361とステップ366でそれぞれ求めた間隔Gap-LCと間隔Gap-RCとの一致度に応じた重みWgを、上述したパスの評価値に加算する(ステップ369)。例えば、プロセッサ21は、間隔Gap-LCと間隔Gap-RCとの差dGAPを所定の定数aから差し引いた値に所定の係数bを乗算することにより、重みWgを算出してもよい。このようにして算出された重みWgは、間隔の差dGAPが小さいとき、すなわち、間隔の一致度が高いときに大きな値となる。なお、プロセッサ21は、上述したステップ367からステップ369をどのような順序で実行してもよい。
次いで、プロセッサ21は、右側参照矩形の集合に含まれる全ての外接矩形を選択したか否かを判定する(ステップ370)。未選択の外接矩形がある場合に(ステップ370の否定判定)、プロセッサ21は、ステップ365の処理に戻って、新たな外接矩形を右側の参照矩形Rとして選択する。そして、新たに選択した右側の参照矩形Rについて、ステップ366からステップ370の処理を実行する。
このように、プロセッサ21は、上述したステップ365からステップ369の処理を、右側参照矩形の集合に含まれる全ての外接矩形について繰り返す。これにより、プロセッサ21は、ステップ361で選択した左側の参照矩形Rと注目矩形Rとを接続するパスの評価値に、右側参照矩形の集合に含まれる各外接矩形を右側の参照矩形Rとして評価した配置の規則性に基づく重みを反映する。
同様にして、注目矩形Rcと左側矩形とこの左側矩形について特定された左側矩形との配置の規則性に基づいて、注目矩形Rcへの重みを設定することも可能である。
ステップ370の肯定判定の場合に、プロセッサ21は、左側矩形の集合に含まれる全ての外接矩形について処理したか否かを判定する(ステップ371)。未処理の左側矩形がある場合に(ステップ371の否定判定)、プロセッサ21は、ステップ361の処理に戻って、新たな左側矩形Rを選択する。そして、上述したようにして、新たに選択した左側矩形Rと注目矩形Rとを接続するパスの評価値を算出する処理を実行する。
その後、左側矩形の集合に含まれる全ての外接矩形についての処理が完了したときに、プロセッサ21は、ステップ371の肯定判定として、パスの評価値を算出する処理を終了する。
このようにして、注目矩形Rにいたる全てのパスについて、個々のパスによって接続された左側矩形と右側に接続される可能性のある外接矩形との間の色の連続性および配置の規則性に基づく重みを反映した評価値を求めることができる。このようにして各パスの評価値を求めることにより、色の連続性や配置の規則性に基づいて、より確からしい候補文字を含むパスの評価値を引き上げることができる。
したがって、このようにして求められた各パスの評価値に基づいて、プロセッサ21が、図16に示したステップ346の処理を行うことにより、より確からしい文字認識結果を導くパスを選択することが可能となる。
更に、複数の色分解画像に跨るパスを許容する動的計画法を用いた処理の過程で、文字パターンの形成に寄与しない画素連結成分を除去することも可能である。
図18に、文字認識処理の別例を表す流れ図を示す。なお、図18に示したステップのうち、図11に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する。また、図18に示した各ステップの処理は、プロセッサ21によって実行される。
図18に示した流れ図では、プロセッサ21は、ステップ331の処理に先立って、認識対象の領域内に分布する画素連結成分を所定の条件で組み合わせて得られる組み合わせパターンに対応する候補文字を追加する処理を行う(ステップ333)。例えば、プロセッサ21は、認識対象の領域内で、文字認識処理で得られた各候補文字に対応する文字パターンと同等の大きさの領域ごとに、当該領域内に含まれる画素連結成分を組み合わせることにより、複数の組み合わせパターンを生成する。そして、プロセッサ21は、これらの組み合わせパターンについての文字認識処理で得られた候補文字を、ステップ301で既に得られている候補文字の集合に追加する。
図19に、組み合わせパターンに対応する候補文字を追加する処理を表す流れ図を示す。また、図20に、組み合わせパターンを説明する図を示す。なお、図19に示した各ステップの処理は、プロセッサ21によって実行される。また、図19に示した各ステップの処理は、図18に示したステップ333の処理の一例である。
図19に示したステップ381で、プロセッサ21は、図18のステップ301の処理によって各色分解画像から得られた認識結果に基づいて、高い確信度を持つ候補文字の中から、キー候補文字を決定する。例えば、プロセッサ21は、各色分解画像から得られた認識結果の中で、最も高い確信度を持つ候補文字を、キー候補文字として選択してもよい。また、プロセッサ21は、全ての色分解画像から得られた認識結果の中で、最も高い確信度を持つ候補文字を、全ての色分解画像に共通するキー候補文字としてもよい。
次いで、プロセッサ21は、決定したキー候補文字に対応する外接矩形に基づいて、窓矩形を生成する(ステップ382)。例えば、プロセッサ21は、キー候補文字に対応する外接矩形をX方向およびY方向について数画素ずつ拡大することにより、窓矩形を生成してもよい。
図20(A)に、色分解画像Pwから得られる認識結果に基づいて、窓矩形を生成する例を示す。図20(A)の例では、候補文字「研」がキー候補文字として選択されている。この場合に、プロセッサ21は、文字「研」を表す画素連結成分に対応する外接矩形Rを拡大した窓矩形Wrを生成する。
図19に示したステップ383で、プロセッサ21は、上述したようにして生成した窓矩形を走査しながら、この窓矩形内に包含される画素連結成分の集まりを検出する。例えば、プロセッサ21は、図20(B)に示すように、上述した窓矩形Wrを各色分解画像から抽出された文字認識対象の領域内で走査する。図20(B)の例では、窓矩形Wrが、候補文字「研」に対応する画素連結成分の外接矩形の位置から右側に走査される過程で、符号Wr〜Wrで示した位置で、画素連結成分の集まりが検出される様子を示した。なお、図20(B)の例では、符号Wr〜Wrで示した位置にある窓矩形Wrの範囲を分かりやすくするために、それぞれの位置での窓矩形WrをY方向にずらして示している。このようにして、プロセッサ21は、各色分解画像から、文字を表す可能性のある全ての画素連結成分の集まりを検出する。
図19に示したステップ384で、プロセッサ21は、上述した窓矩形Wrを走査する過程で検出された画素連結成分の集まりごとに、当該画素連結成分の集合の外接矩形を生成する。例えば、プロセッサ21は、図20(C)に符号Wr〜Wrで示した位置に窓矩形Wrがあるときに、ステップ383で検出された画素連結成分の集まりに対応して、外接矩形RW7〜RW10を生成する。
なお、図20(C)の例では、ステップ384で生成される外接矩形RW10は、図18のステップ301で色分解画像Pwから得られる候補文字「所」に対応する外接矩形RW6と重なりあっている。このように、ステップ383およびステップ384の処理で、プロセッサ21は、既に候補文字が得られている画素連結成分の集まりを含む画素連結成分の集まりに対応して外接矩形を生成する。
次に、プロセッサ21は、ステップ384で生成された外接矩形に含まれる画素連結成分を組み合わせることにより、複数の組み合わせパターンを生成する(ステップ385)。
図20(D)に、図20(C)に示した外接矩形RW10に含まれる画素連結成分を様々な組み合わせて生成される組み合わせパターンの例を示した。プロセッサ21は、複数の組み合わせパターンを生成する際に、外接矩形内の個々の画素連結成分を取捨選択する。例えば、図20(D)に示した左側の2つの例は、外接矩形RW6に含まれる画素連結成分のうち、候補文字「所」を表す文字パターンの形成に寄与しない孤立した画素連結成分を取り除いた組み合わせパターンである。図20(D)の例では、これらの組み合わせパターンに外接する外接矩形を符号RW10および符号RW11で示した。更に、プロセッサ21は、図20(D)に示した外接矩形RW12に含まれる組み合わせパターンのように、候補文字「所」の認識に寄与する画素連結成分の一部を取り除いた組み合わせパターンを生成してもよい。このとき、プロセッサ21は、生成した組み合わせパターンに外接する外接矩形が、元の外接矩形のサイズおよび形状と大きく異ならないように、組み合わせパターンに含める画素連結成分を取捨選択することが望ましい。例えば、プロセッサ21は、上述した画素連結成分の組み合わせによって派生する組み合わせパターンが外接する外接矩形の変形について予め許容範囲を設定しておいてもよい。そして、プロセッサ21は、生成した組み合わせパターンに対応する外接矩形の形状と元の外接矩形の形状との差が、この許容範囲に収まる場合に、当該組み合わせパターンを追加してもよい。
次に、プロセッサ21は、上述したようにして生成した組み合わせパターンのそれぞれを対象として、1文字単位の文字認識処理を行う(ステップ386)。そして、プロセッサ21は、各組み合わせパターンに対応する認識結果として得られる候補文字を、動的計画法を用いた処理の対象に追加する(ステップ387)。例えば、プロセッサ21は、ステップ386で得られた認識結果に基づいて、上述した矩形情報テーブルに、各組み合わせパターンに対応する情報を追加する。このとき、プロセッサ21は、ステップ384で生成した外接矩形の位置を示す情報を、この外接矩形に含まれる画素連結成分から派生した各組み合わせパターンに対応する外接矩形の位置を示す情報として矩形情報テーブルに格納する。例えば、プロセッサ21は、図20(D)に示した外接矩形RW10、RW11、RW12に共通する左上および右下の画素の座標を、これらの外接矩形の位置を示す情報として矩形情報テーブルに格納する。図20(C)の例では、外接矩形RW10、RW11、RW12を含む複数の外接矩形が重なり合っていることを、それぞれに対応する符号を羅列することによって示している。
このようにして、各色分解画像に含まれる文字を表す可能性がある画素連結成分の集まりに関する情報が漏れなく含む候補文字の集合を、色分解画像に跨るパスを許容する動的計画法を用いた処理の対象とすることができる。
このような候補文字の集合を対象とする色分解画像に跨るパスを許容する動的計画法を用いた処理において、プロセッサ21は、各色分解画像に分散して現れる配置の規則性を、個々のパスの評価値に反映することができる。例えば、図20(D)に示した様々な組み合わせパターンに対応する候補文字と、その両側に接続する可能性のある候補文字とについて、外接矩形のサイズの一致性や間隔の一致性などを評価した結果は、どの候補文字がより確からしいかを判断する指標となる。
このような指標の適用により、文字の一部である可能性のある画素連結成分を誤って除去した組み合わせパターンに対応する候補文字よりも、この画素連結成分を含んだ組み合わせパターンに対応する候補文字を含むパスが高く評価される可能性が高くなる。同様に、本来はノイズとして除去すべき画素連結成分を含む組み合わせパターンに対応する候補文字よりも、この画素連結成分をノイズとして除去した組み合わせパターンに対応する候補文字を含むパスが高く評価される可能性が高くなる。これにより、文字列認識結果として、望ましい文字に代わって文字の一部が欠けたパターンや逆に不要な点などを含むパターンで表される文字を含む文字列が出力されるおそれを低減することができる。
上述した本件開示の実施例は、様々な組み合わせで実施することができる。また、例えば、文字バイグラムに基づく重みなど、文字認識処理における公知技術と組み合わせて、本件開示の技術を実施することも可能である。
以上の説明に関して、更に、以下の各項を開示する。
(付記1) 文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成する文字認識部と、
前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択する選択部と、
前記選択部によって選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する結合部と、
を有することを特徴とする文字認識処理装置。
(付記2) 付記1に記載の文字認識処理装置において、
前記選択部は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
ことを特徴とする文字認識処理装置。
(付記3) 付記1に記載の文字認識処理装置において、
前記選択部は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、当該候補文字と同一の前記色分解画像から得られた候補文字の中に当該候補文字の位置から所定の範囲内に所定の閾値よりも高い確信度を持つ候補文字があることを条件として、前記確信度を高くする重みを与える
ことを特徴とする文字認識処理装置。
(付記4) 付記1ないし付記3のいずれか1に記載の文字認識処理装置において、
前記選択部は、
前記選択に先立って、前記相対位置が同じである候補文字それぞれが持つ確信度に、当該候補文字に隣接する候補文字と当該候補文字とが配置の規則性を満たしている度合いに応じて前記確信度を高くする重みを与える
ことを特徴とする文字認識処理装置。
(付記5) 文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成し、
前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択し、
前記選択処理で選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する、
ことを特徴とする文字認識処理方法。
(付記6) 付記5に記載の文字認識処理方法において、
前記候補文字を選択する処理は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
ことを特徴とする文字認識処理方法。
(付記7) 付記5に記載の文字認識処理方法において、
前記候補文字を選択する処理は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、当該候補文字と同一の前記色分解画像から得られた候補文字の中に当該候補文字の位置から所定の範囲内に所定の閾値よりも高い確信度を持つ候補文字があることを条件として、前記確信度を高くする重みを与える
ことを特徴とする文字認識処理方法。
(付記8) 付記5ないし付記7のいずれか1に記載の文字認識処理方法において、
前記候補文字を選択する処理は、
前記選択に先立って、前記相対位置が同じである候補文字それぞれが持つ確信度に、当該候補文字に隣接する候補文字と当該候補文字とが配置の規則性を満たしている度合いに応じて前記確信度を高くする重みを与える
ことを特徴とする文字認識処理方法。
(付記9) 文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成し、
前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択し、
前記選択処理で選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する、
処理をコンピュータに実行させる文字認識処理プログラム。
(付記10) 付記9に記載の文字認識処理プログラムにおいて、
前記候補文字を選択する処理は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
ことを特徴とする文字認識処理プログラム。
(付記11) 付記9に記載の文字認識処理プログラムにおいて、
前記候補文字を選択する処理は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、当該候補文字と同一の前記色分解画像から得られた候補文字の中に当該候補文字の位置から所定の範囲内に所定の閾値よりも高い確信度を持つ候補文字があることを条件として、前記確信度を高くする重みを与える
ことを特徴とする文字認識処理プログラム。
(付記12) 付記9ないし付記11のいずれか1に記載の文字認識処理方法において、
前記候補文字を選択する処理は、
前記選択に先立って、前記相対位置が同じである候補文字それぞれが持つ確信度に、当該候補文字に隣接する候補文字と当該候補文字とが配置の規則性を満たしている度合いに応じて前記確信度を高くする重みを与える
ことを特徴とする文字認識処理プログラム。
1…原稿;2…画像入力部;3…色分解画像生成部;4…ノイズ除去部;5…領域抽出部;10…文字認識処理装置;11…文字認識部;12…選択部;13…結合部;21…プロセッサ;22…メモリ;23…ハードディスク装置(HDD);24…表示制御部;25…表示装置;26…入力装置;27…画像入力装置;28…光学ドライブ;29…通信制御部;30…ネットワーク;31…リムーバブルディスク

Claims (6)

  1. 文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成する文字認識部と、
    前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ前記各色分解画像の候補文字について、最大の確信度を持つ候補文字を選択する選択部と、
    前記選択部によって選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する結合部と、
    を備えたことを特徴とする文字認識処理装置。
  2. 文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成する文字認識部と、
    前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択する選択部と、
    前記選択部によって選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する結合部と、を備え
    前記選択部は、
    前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
    ことを特徴とする文字認識処理装置。
  3. 請求項に記載の文字認識処理装置において、
    前記選択部は、
    前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
    ことを特徴とする文字認識処理装置。
  4. 請求項1ないし請求項3の何れか1項に記載の文字認識処理装置において
    前記選択部は
    前記選択に先立って、前記相対位置が同じである候補文字それぞれが持つ確信度に、当該候補文字に隣接する候補文字と当該候補文字とが配置の規則性を満たしている度合いに応じて前記確信度を高くする重みを与える
    ことを特徴とする文字認識処理装置
  5. 文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成し、
    前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択し、
    前記選択処理で選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成し、
    前記最大の確信度を持つ候補文字を選択する処理は、前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
    ことを特徴とする文字認識処理方法
  6. 文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成し、
    前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択し、
    前記選択処理で選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成し、
    前記最大の確信度を持つ候補文字を選択する処理は、前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
    処理をコンピュータに実行させる文字認識処理プログラム。
JP2011037994A 2011-02-24 2011-02-24 文字認識処理装置および方法並びに文字認識処理プログラム Expired - Fee Related JP5672059B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011037994A JP5672059B2 (ja) 2011-02-24 2011-02-24 文字認識処理装置および方法並びに文字認識処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011037994A JP5672059B2 (ja) 2011-02-24 2011-02-24 文字認識処理装置および方法並びに文字認識処理プログラム

Publications (2)

Publication Number Publication Date
JP2012174163A JP2012174163A (ja) 2012-09-10
JP5672059B2 true JP5672059B2 (ja) 2015-02-18

Family

ID=46976986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011037994A Expired - Fee Related JP5672059B2 (ja) 2011-02-24 2011-02-24 文字認識処理装置および方法並びに文字認識処理プログラム

Country Status (1)

Country Link
JP (1) JP5672059B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5547226B2 (ja) 2012-03-16 2014-07-09 株式会社東芝 画像処理装置、及び画像処理方法
JP6281309B2 (ja) * 2014-02-13 2018-02-21 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP6303671B2 (ja) * 2014-03-20 2018-04-04 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2017049911A (ja) * 2015-09-04 2017-03-09 株式会社東芝 文字認識装置、文字認識方法およびプログラム
WO2018090013A1 (en) * 2016-11-14 2018-05-17 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9027A (en) * 1852-06-15 Improvement in preparations of archil
JP3601658B2 (ja) * 1997-12-19 2004-12-15 富士通株式会社 文字列抽出装置及びパターン抽出装置
JP3661774B2 (ja) * 2001-02-09 2005-06-22 日本電気株式会社 文字列認識方法、文字認識装置およびプログラム
JP2004021765A (ja) * 2002-06-19 2004-01-22 Pfu Ltd 画像認識方法
JP5029412B2 (ja) * 2008-02-20 2012-09-19 富士通株式会社 テロップ文字パターン抽出プログラム、テロップ文字パターン抽出装置、およびテロップ文字パターン抽出方法

Also Published As

Publication number Publication date
JP2012174163A (ja) 2012-09-10

Similar Documents

Publication Publication Date Title
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
JP4525787B2 (ja) 画像抽出装置、及び画像抽出プログラム
JP5672059B2 (ja) 文字認識処理装置および方法並びに文字認識処理プログラム
JP5262493B2 (ja) 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
US9613299B2 (en) Method of identifying pattern training need during verification of recognized text
KR20110103844A (ko) 화상 속성 판별 장치, 속성 판별 지원 장치, 화상 속성 판별 방법, 속성 판별 지원 장치의 제어 방법, 및, 제어 프로그램
JP5229328B2 (ja) 文字領域抽出装置,文字領域抽出機能を備えた撮像装置,および文字領域抽出プログラム
US20130195360A1 (en) Lower modifier detection and extraction from devanagari text images to improve ocr performance
US9064179B2 (en) Region extraction apparatus, region extraction method, and computer program product
JP6030917B2 (ja) 文字切出装置及び文字切出方法並びに文字認識装置
US8452095B2 (en) Image processing for post-processing rate of character rectangle extraction and character recognition accuracy
JP2005148906A (ja) 岸線抽出装置及び岸線抽出方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム
JP5906788B2 (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
CN110210467A (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
JP6247103B2 (ja) 帳票項目認識方法、帳票項目認識装置及び帳票項目認識プログラム
JP2898562B2 (ja) ナンバープレート決定方法
JP2009277001A (ja) 画像処理装置
JP4228592B2 (ja) 文字認識装置
JP4692151B2 (ja) 画像認識方法及び画像認識装置
JP2003208568A (ja) 画像処理装置、画像処理方法、及び同方法に用いるプログラム
Hale Unsupervised threshold for automatic extraction of dolphin dorsal fin outlines from digital photographs in darwin (digital analysis and recognition of whale images on a network)
JP2005309772A (ja) 文字成分抽出装置
JP6513311B2 (ja) 文字認識装置および文字認識方法
US8432555B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141208

R150 Certificate of patent or registration of utility model

Ref document number: 5672059

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees