JP5672059B2

JP5672059B2 - 文字認識処理装置および方法並びに文字認識処理プログラム

Info

Publication number: JP5672059B2
Application number: JP2011037994A
Authority: JP
Inventors: 勝山　裕; 裕勝山; 明洋皆川; 堀田　悦伸; 悦伸堀田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-02-24
Filing date: 2011-02-24
Publication date: 2015-02-18
Anticipated expiration: 2031-02-24
Also published as: JP2012174163A

Description

画像に含まれる文字列を認識する技術に関する。

画像に含まれる文字列を認識する技術として様々な技法が提案されている。

例えば、背景とは異なる色を持つ文字列が表示された画像の文字認識は、背景とは異なる色を持つ部分を画像から切り出し、この切り出した部分について行われる(特許文献１参照)。

一方、テロップを含むテレビ放送のように、自然画像を背景として未特定の色を持つ文字列が表示される場合がある。このようなシーンを表すカラー画像では、背景の一部の色と文字列の色との峻別が困難な場合がある。
このようなカラー画像から、個々の画素が複数の色のいずれであるかに基づいて二値化した複数の色分解画像を生成し、これらの色分解画像についてそれぞれ文字認識を行う技術がある(特許文献２参照)。この技術では、各色分解画像から得られた候補文字のセットごとに、確信度の総和が求められる。そして、最も確信度の総和が大きい候補文字のセットが選択される。

特開２０００−１５５８０４号公報特開２００９−１９９２７６号公報

上述した技法は、文字列の色が単一であることを前提として、各色分解画像からそれぞれ得られる候補文字のセットの中から１つを選択している。このため、例えば、１行分の文字列に複数の色で表された文字が混在している場合に、正しい文字列が得られない場合がある。

本件開示は、複数色が混在した複雑な画像を背景とした複数色の文字を含む文字列を認識可能な文字認識処理装置および方法並びに文字認識処理プログラムを提供することを目的とする。

一つの観点による文字認識処理装置および方法並びに文字認識処理プログラムは、文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成し、前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択し、前記選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する。

本件開示の文字認識処理装置および方法並びに文字認識処理プログラムによれば、複数色が混在した複雑な画像を背景とした複数色の文字を含む文字列を認識可能である。

文字認識処理装置の一実施形態を示す図である。原稿および色分解画像の例を示す図である。ノイズ除去処理後の色分解画像の例を示す図である。文字認識結果を説明する図である。コンピュータの機能ブロック図である。文字認識処理を表す流れ図である。選択部の処理の一例を表す流れ図である。選択部の処理の別例を表す流れ図である。文字色の連続性に基づく重みを付与する処理を表す流れ図である。文字色の連続性に基づく重みを付与する処理を説明する図である。文字認識処理の別例を表す流れ図である。矩形情報テーブルの例を示す図である。色分解画像をまたがるパスを許容して動的計画法を用いる処理を表す流れ図である。動的計画法を用いた処理による評価結果に基づく文字列結合処理を表す流れ図である。文字の配置の規則性を説明する図である。色分解画像をまたがるパスを許容して動的計画法を用いる処理の別例を表す流れ図である。パスの評価値を算出する処理の別例を表す流れ図である。文字認識処理の別例を表す流れ図である。組み合わせパターンに対応する候補文字を追加する処理を表す流れ図である。組み合わせパターンを説明する図である。

以下、図面に基づいて、本件開示の文字認識処理装置および方法並びに文字認識処理プログラムの実施形態について詳細に説明する。

図１に、文字認識処理装置の一実施形態を示す。図１に例示する文字認識処理装置１０は、文字認識部１１と、選択部１２と、結合部１３とを有する。

図１に示した画像入力部２は、例えば、原稿１を読み込むことにより、カラー画像を生成する。色分解画像生成部３は、このカラー画像に対して色クラスタリングなどの色分解処理を行う。色分解画像生成部３は、例えば、原稿１に対応するカラー画像から、色クラスタリングで生成された各色クラスタに対応する色分解画像を生成する。各色クラスタに対応する色分解画像は、カラー画像に含まれる複数の画素のうち、色が当該色クラスタに属する画素について画素値「１」が設定され、他の画素に画素値「０」が設定された二値画像である。なお、入力端子Ｐｉｎを介して入力される映像信号に基づいて、画像取得部６によって取得されたカラー画像を、色分解画像生成部３に入力してもよい。

ここで、図１に示した原稿１に含まれる文字列「提供富士研究所」は、文字列「提供」と文字列「富士」と文字列「研究所」とがそれぞれ異なる色で表されている。したがって、色分解画像生成部３は、文字列の表現に用いられている複数の色をそれぞれ含む複数の色クラスタに対応して色分解画像を生成することが望ましい。

図２に、原稿および色分解画像の例を示す。図２の例では、原稿１に対応するカラー画像から４つの異なる色クラスタに対応して生成された色分解画像Ｐｂ，Ｐｇ，Ｐｄ，Ｐｗを示す。

図２に示した色分解画像Ｐｂは、原稿１において、文字列「提供」の色を含む色クラスタに対応する。この色分解画像Ｐｂには、文字列「提供」に含まれる各文字の字形を表す文字パターンに属する画素連結成分が含まれている。ここで、画素連結成分とは、画素値「１」である画素が連結した部分である。また、図２に示した色分解画像Ｐｇは、原稿１において、文字列「富士」の色を含む色クラスタに対応する。この色分解画像Ｐｇには、文字列「富士」に含まれる各文字を表す文字パターンに属する画素連結成分が含まれている。そして、図２に示した色分解画像Ｐｗは、原稿１において、文字列「研究所」に含まれる各文字の色を含む色クラスタに対応する。この色分解画像Ｐｗには、文字列「研究所」に含まれる各文字を表す文字パターンに属する画素連結成分が含まれている。一方、図２に示した色分解画像Ｐｄは、原稿１において文字列「提供富士研究所」の背景となっている画像に含まれる多数の画素の色を含む色クラスタに対応している。

なお、原稿１において、文字列「提供」および文字列「富士」は、色分解画像Ｐｗに対応する色クラスタに属する色で縁取られている。このため、色分解画像Ｐｗには、更に、文字列「提供」および文字列「富士」に含まれる各文字の字形を白抜きで表す文字パターンに属する画素連結成分が現れる。この文字パターンに属する画素連結成分は、上述した各文字の縁取り部分に対応する画素連結成分である。また、原稿１において、文字列「研究所」に含まれる各文字は、色分解画像Ｐｂに対応する色クラスタに属する色で縁取られている。これに対応して、色分解画像Ｐｂには、文字列「研究所」に含まれる各文字の字形を白抜きで表す文字パターンに属する画素連結成分が現れる。この文字パターンに属する画素連結成分は、上述した各文字の縁取り部分に対応する画素連結成分である。

このように、カラー画像から生成された色分解画像に含まれる文字を表す部分は、個々の文字の字形を表す文字パターンである場合と、個々の文字の字形を白抜きで表す文字パターンである場合とがある。以下の説明では、上述した２つの場合を区別せずに、単に文字パターンと称する。

ノイズ除去部４は、上述した色分解画像生成部３によって生成された各色分解画像に対して、周辺ノイズを除去する処理を行う。周辺ノイズを除去する処理は、各色分解画像に含まれる画素連結成分のうち、各色分解画像の四方の境界に接する画素連結成分を周辺ノイズとして除去する処理である。

ここで、写真などの画像に重ねられた文字列は、画像の端から離れた位置に配置される場合が多い。このため、文字を表す文字パターンに属する画素連結成分の多くは、画像の周囲から離れて分布する。したがって、上述したようにして、各色分解画像の四方の境界に接する画素連結成分を除去する処理を行うことにより、文字パターンの形成に寄与しない画素連結成分を除去することができる。そして、周辺ノイズを除去した後の各色分解画像には、文字パターンに属する画素連結成分が高い確率で残っている。なお、ノイズ除去部４は、上述した周辺ノイズを除去する処理に加えて、公知のフィルタを用いてノイズ除去処理を行ってもよい。

この周辺ノイズを除去する処理により、図２に示した符号Ｎｄや符号Ｎｗ１、Ｎｗ２，Ｎｗ３などのように、対応する色分解画像の境界にまで広がっている画素連結成分が、周辺ノイズとして除去される。

図３に、ノイズ除去処理後の色分解画像の例を示す。

図３に例示した色分解画像Ｐｂ，Ｐｇ，Ｐｄ，Ｐｗは、図２に示した色分解画像Ｐｂ，Ｐｇ，Ｐｄ，Ｐｗに対して上述した周辺ノイズ除去処理を行って得られる。例えば、図３に示した色分解画像Ｐｄは、図２に示した色分解画像Ｐｄから符号Ｎｄで示した画素連結成分を除去して得られる。同様に、図３に示した色分解画像Ｐｗは、図２に示した色分解画像Ｐｗから符号Ｎｗ１、Ｎｗ２，Ｎｗ３で示した画素連結成分を含む複数の画素連結成分を除去して得られる。なお、図２に符号Ｎｗ１、Ｎｗ２で示した画素連結成分は、原稿１に含まれる文字列「提供富」の各文字の縁取り部分のうち、各文字の外形を表す部分に対応する画素連結成分を含んでいる。このため、図３に示した色分解画像Ｐｗの例では、符号Ｎｗ１、Ｎｗ２で示した画素連結成分の除去に伴って、上述した各文字の縁取り部分のうち、文字の内側を表す部分に対応する画素連結成分が残されている。

周辺ノイズ除去後の色分解画像Ｐｂ，Ｐｇ，Ｐｄ，Ｐｗは、図１に示した領域抽出部５に渡される。領域抽出部５は、周辺ノイズ除去後の色分解画像Ｐｂ，Ｐｇ，Ｐｄ，Ｐｗについて、画素値「１」が設定された黒画素の分布の特徴を解析することにより、文字列の分布範囲を文字認識対象の領域として抽出する。

例えば、領域抽出部５は、周辺ノイズ除去後の色分解画像Ｐｂ，Ｐｇ，Ｐｄ，Ｐｗについて、縦方向および横方向についての黒画素の分布数を示す投影ヒストグラムを生成する。生成した投影ヒストグラムに現れる局所ピークの位置および幅に基づいて、領域抽出部５は、各色分解画像Ｐｂ，Ｐｇ，Ｐｄ，Ｐｗから、各行の文字列の分布範囲に相当する領域を切り出す。なお、各行における文字列の配列方向は、例えば、各行の文字列の分布範囲として切り出された領域の縦横比に基づいて決定してもよい。文字認識対象の領域抽出の詳細については、例えば、本出願人による特許出願(特開２００９−１９９２７６号公報)などを参照されたい。

図３に示した例では、各色分解画像Ｐｂ，Ｐｇ，Ｐｄ，Ｐｗに含まれる文字認識対象の領域Ａを太い破線で囲んで示した。図３の例では、文字認識対象の領域Ａは、左右方向に並んだ１行分の文字列の分布範囲に相当する。以下の説明では、文字列が左右方向に並んでいる場合を例として取り上げる。

各色分解画像Ｐｂ，Ｐｇ，Ｐｄ，Ｐｗから切り出された文字認識対象の領域は、文字認識処理装置１０の文字認識部１１に渡される。文字認識部１１は、各色分解画像Ｐｂ，Ｐｇ，Ｐｄ，Ｐｗから切り出された文字認識対象の領域の画像について、それぞれ文字認識処理を行う。文字認識部１１による文字認識処理は、公知の技術を用いて行われる。例えば、文字認識部１１は、各色分解画像から切り出した少なくとも一つの文字パターンごとに、類似した特徴を持つ候補文字を特定する。文字認識部１１は、各文字パターンについての文字認識結果として、候補文字とこの候補文字の確からしさを示す確信度ととともに、当該文字パターンに属する画素連結成分に外接する外接矩形が各色分解画像において占める位置を示す情報を生成する。なお、各候補文字の確信度は、文字認識の対象となる文字パターンの特徴と、候補文字を表す文字パターンの特徴との類似度に基づいて算出される。

図４に、文字認識結果を説明する図を示す。図４の例では、各色分解画像Ｐｂ，Ｐｇ，Ｐｗから切り出された文字パターンに属する画素連結成分の外接矩形と、各文字パターンについて得られた認識結果とを対応させて示した。

図４に示した色分解画像Ｐｂにおいて、符号Ｒ_Ｂ１〜Ｒ_Ｂ５で示す矩形は、色分解画像Ｐｂから切り出された文字パターンに属する画素連結成分の外接矩形である。これらの外接矩形Ｒ_Ｂ１〜Ｒ_Ｂ５に対応して得られる認識結果を、符号Ｑ_Ｂ１〜Ｑ_Ｂ５に示す。これらの認識結果Ｑ_Ｂ１〜Ｑ_Ｂ５は、それぞれ候補文字「提」、「供」、「研」、「空」、「斯」と、それぞれの候補文字と対応する文字パターンとの類似度に基づいて算出された確信度(９９)、(８１)、(３６)、(９０)、(５９)を含む。

図４に示した色分解画像Ｐｂにおいて、符号Ｒ_Ｇ１、Ｒ_Ｇ２で示す矩形は、色分解画像Ｐｇから切り出された文字パターンに属する画素連結成分の外接矩形である。これらの外接矩形Ｒ_Ｇ１、Ｒ_Ｇ２に対応して得られる認識結果を、符号Ｑ_Ｇ１、Ｑ_Ｇ２に示す。これらの認識結果Ｑ_Ｇ１、Ｑ_Ｇ２は、それぞれ候補文字「富」、「士」と、それぞれの候補文字について算出された確信度(９８)、(９９)を含む。

図４に示した色分解画像Ｐｗにおいて、符号Ｒ_Ｗ１〜Ｒ_Ｗ６で示す矩形は、色分解画像Ｐｗから切り出された文字パターンに属する画素連結成分の外接矩形である。これらの外接矩形Ｒ_Ｗ１〜Ｒ_Ｗ６に対応して得られる認識結果を、符号Ｑ_Ｗ１〜Ｑ_Ｗ６に示す。これらの認識結果Ｑ_Ｗ１〜Ｑ_Ｗ６は、それぞれ候補文字「庶」、「官」、「±」、「研」、「究」、「所」と、それぞれの候補文字について算出された確信度(３４)、(７６)、(８１)、(８９)、(９７)、(９０)を含む。

図４に示した例において、色分解画像Ｐｂ、Ｐｗからそれぞれ得られた認識結果を比べると、外接矩形Ｒ_Ｂ３〜Ｒ_Ｂ５と外接矩形Ｒ_Ｗ４〜Ｒ_Ｗ６とが、原稿１に対応する画像において同一の相対位置に存在することが分かる。図４に例示した色分解画像Ｐｂに含まれる外接矩形Ｒ_Ｂ３〜Ｒ_Ｂ５に含まれる文字パターンと、図４に例示した色分解画像Ｐｗに含まれる外接矩形Ｒ_Ｗ４〜Ｒ_Ｗ６に含まれる文字パターンとは、いずれも、原稿１に含まれる同一の文字列「研究所」に対応する。このように、カラー画像から生成された色分解画像から、カラー画像において同一の相対位置にある文字に対応して、それぞれ文字パターンが切り出される場合がある。

図１に示した選択部１２は、複数の色分解画像からそれぞれ得られた候補文字に対応する外接矩形が同一の相対位置にある場合に、これらの候補文字から一つを選択する処理を行う。例えば、選択部１２は、まず、文字認識対象の領域の一端から文字の並び方向に従って、各色分解画像Ｐｂ，Ｐｇ，Ｐｗから得られた候補文字の集合の中から、同じ相対位置にある文字パターンに対応する候補文字を探索する。この探索により、複数の候補文字が得られた場合に、選択部１２は、得られた候補文字に対応する確信度を比較し、最も高い確信度を持つ候補文字を選択する。

例えば、選択部１２は、探索処理の過程で、図４に示した色分解画像Ｐｂ内の外接矩形Ｒ_Ｂ１と色分解画像Ｐｗ内の外接矩形Ｒ_Ｗ１との位置の重なりを検出する。そして、選択部１２は、外接矩形Ｒ_Ｂ１に対応する候補文字「庶」の確信度(３４)と外接矩形Ｒ_Ｗ１に対応する候補文字「提」の確信度(９９)とを比較する。この比較結果に基づいて、選択部１２は、高い確信度を持つ候補文字「提」を選択する。

同様にして、選択部１２は、探索処理の過程で、図４に示した色分解画像Ｐｇ内の外接矩形Ｒ_Ｇ１と色分解画像Ｐｗ内の外接矩形Ｒ_Ｗ２との位置の重なりを検出する。そして、選択部１２は、外接矩形Ｒ_Ｇ１に対応する候補文字「富」の確信度(９８)と外接矩形Ｒ_Ｗ２に対応する候補文字「官」の確信度(７６)とを比較する。この比較結果に基づいて、選択部１２は、高い確信度を持つ候補文字「富」を選択する。

同様に、選択部１２は、探索処理の過程で、図４に示した色分解画像Ｐｇに含まれる外接矩形Ｒ_Ｇ２と色分解画像Ｐｗに含まれる外接矩形Ｒ_Ｗ３との位置の重なりを検出する。そして、選択部１２は、外接矩形Ｒ_Ｇ２に対応する候補文字「士」の確信度(９９)と外接矩形Ｒ_Ｗ３に対応する候補文字「±」の確信度(８１)とを比較する。この比較結果に基づいて、選択部１２は、高い確信度を持つ候補文字「士」を選択する。

更に、選択部１２は、探索処理により、図４に示した色分解画像Ｐｂに含まれる外接矩形Ｒ_Ｂ３と色分解画像Ｐｗに含まれる外接矩形Ｒ_Ｗ４との位置の重なりを検出する。そして、選択部１２は、外接矩形Ｒ_Ｂ３に対応する候補文字「研」の確信度(３６)と外接矩形Ｒ_Ｗ４に対応する候補文字「研」の確信度(８９)とを比較する。この比較結果に基づいて、選択部１２は、高い確信度を持つ候補文字「研」を選択する。

同様にして、選択部１２は、探索処理により、図４に示した色分解画像Ｐｂに含まれる外接矩形Ｒ_Ｂ４と色分解画像Ｐｗに含まれる外接矩形Ｒ_Ｗ５との位置の重なりを検出する。そして、選択部１２は、外接矩形Ｒ_Ｂ４に対応する候補文字「空」の確信度(９０)と外接矩形Ｒ_Ｗ５に対応する候補文字「究」の確信度(９７)とを比較する。この比較結果に基づいて、選択部１２は、高い確信度を持つ候補文字「究」を選択する。

また、選択部１２は、探索処理により、図４に示した色分解画像Ｐｂに含まれる外接矩形Ｒ_Ｂ５と色分解画像Ｐｗに含まれる外接矩形Ｒ_Ｗ６との位置の重なりを検出する。そして、選択部１２は、外接矩形Ｒ_Ｂ５に対応する候補文字「斯」の確信度(５９)と外接矩形Ｒ_Ｗ６に対応する候補文字「所」の確信度(９０)とを比較する。この比較結果に基づいて、選択部１２は、高い確信度を持つ候補文字「所」を選択する。

なお、色分解画像Ｐｂ，Ｐｗから得られた外接矩形の中には、色分解画像Ｐｂに含まれる外接矩形Ｒ_Ｂ２と位置が重なるものがない。このように、１つの色分解画像からのみ候補文字が得られた場合に、選択部１２は、一つだけ得られた候補文字をそのまま選択する。

このようにして、選択部１２は、複数の色分解画像において同一の相対位置にある文字パターンに対応してそれぞれ得られた候補文字から一つを選択することができる。なお、図４に示した例において、選択部１２が選択した候補文字を含む認識結果を太い破線で囲んで示した。

選択部１２によって選択された候補文字を含む認識結果は、結合部１３に渡される。結合部１３は、認識結果に含まれる外接矩形の位置を示す情報に基づいて、各候補文字を順に結合する。例えば、文字列の並び方向が左から右へ向かう方向である場合に、結合部１３は、各候補文字を左から順に結合する。これにより、図４を用いて説明したようにして選択された候補文字の集合から、図１，２に示した原稿１に含まれている文字列と同等の文字列「提供富士研究所」を得ることができる。このようにして得られた文字列は、例えば、端子Ｐoutを介して出力される。

このように、本件開示の文字認識処理装置によれば、自然画像などのように複数色が混在した複雑な画像を背景とした複数色の文字を含む文字列を認識することが可能である。なお、本件開示の文字認識処理装置が文字認識対象とするカラー画像は、図１，２に示した原稿１のような印刷物を読み取って得られたカラー画像に限られない。本件開示の文字認識処理装置は、例えば、テレビジョン放送による映像から取得したカラー画像や、ウェブサイトの表示画面などから取得したカラー画像を文字認識処理の対象とすることができる。

近年では、文字認識処理の対象が、雑誌などの誌面やウェブサイトの画面やテレビ画面をキャプチャして得られる画像などにも広がってきている。雑誌やウェブサイトの表示画面では、写真やイラストなどを背景として、複数の色の文字が混在するカラフルな文字列が配置される装飾的なレイアウトが採用されることも多い。また、テレビ放送で流されるテロップに含まれる文字列にも、複数の色が混在している場合がある。

本件開示の文字認識処理装置によれば、上述したような装飾的なレイアウトがなされた雑誌の誌面やウェブサイトの表示画面および複数の文字色が混在したテロップを含むテレビ画面に対応するカラー画像から、確実に文字列を認識することができる。

本件開示の文字認識処理装置は、コンピュータ装置を用いて実現することができる。

図５に、コンピュータ装置の機能ブロック図を示す。図５に示したコンピュータ装置は、プロセッサ２１と、メモリ２２と、ハードディスク装置(ＨＤＤ：Hard Disk Drive)２３と、表示制御部２４と、表示装置２５と、入力装置２６とを含む。更に、コンピュータ装置は、光学ドライブ装置２８と、通信制御部２９を含む。

プロセッサ２１と、メモリ２２と、ＨＤＤ２３と、表示制御部２４と、入力装置２６と、光学ドライブ装置２８と、通信制御部２９とは、バスを介して接続される。また、通信制御部２９は、ネットワーク３０に接続される。また、コンピュータ装置は、例えば、カラースキャナやデジタルカメラなどの画像入力装置２７を含んでもよい。

ＨＤＤ２３には、オペレーティングシステムおよび上述した文字認識処理を実行するためのアプリケーションプログラムが格納されている。アプリケーションプログラムは、本件開示の文字認識方法に含まれる各処理を実行するためのプログラムを含む。なお、上述した文字認識処理を実行するためのアプリケーションプログラムは、例えば、コンピュータ読取可能なリムーバブルディスク３１に記録して頒布することができる。そして、このリムーバブルディスク３１を光学ドライブ装置２８に装着して読み込み処理を行うことにより、上述した文字認識処理を実行するためのアプリケーションプログラムは、ＨＤＤ２３にインストールされる。また、インターネットなどのネットワーク３０と通信制御部２９を介して、上述した文字認識処理を実行するためのアプリケーションプログラムをＨＤＤ２３にインストールすることもできる。

図５に例示したコンピュータ装置は、上述したプロセッサ２１、メモリ２２などのハードウェアと、オペレーティングシステムおよびアプリケーションプログラムなどのプログラムとが有機的に協働することにより、上述した各種機能を実現する。

また、図１に示した文字認識部１１、選択部１２および結合部１３は、それぞれ、プロセッサ２１が対応するプログラムを実行することによって実現してもよい。同様に、図１に示した色分解画像生成部３、ノイズ除去部４および領域抽出部５は、それぞれ、プロセッサ２１が対応するプログラムを実行することによって実現してもよい。また、図１に示した画像入力部２は、プロセッサ２１と対応するプログラムと画像入力装置２７との組み合わせによって実現してもよい。また、図１に示した各部の処理過程で生成される情報は、メモリ２２あるいはＨＤＤ２３などに格納される。

図６に、本件開示の文字認識処理を表す流れ図を示す。

ステップ３０１の処理に先立って、プロセッサ２１は、以下の処理を行う。まず、例えば、画像入力装置２７および画像読み取り処理のためのプログラムと協働することにより、原稿１の画像を取得する。また、プロセッサ２１は、色分解画像生成処理のためのプログラムと協働することにより、上述した原稿１の画像から複数の色分解画像を生成する。次に、プロセッサ２１は、ノイズ除去処理のためのプログラムと協働することにより、複数の色分解画像それぞれから周辺ノイズを除去する。更に、プロセッサ２１は、文字認識対象の領域を抽出する処理のためのプログラムと協働することにより、ノイズ除去済みの各色分解画像から文字認識対象の領域を抽出する。

このようにして抽出された各色分解画像の認識対象の領域について、プロセッサ２１は、上述したアプリケーションプログラムに含まれる文字認識部を実現するためのプログラムと協働することにより、文字認識処理を行う(ステップ３０１)。プロセッサ２１は、ステップ３０１の処理で、各色分解画像から切り出した個々の外接矩形に対応して、この外接矩形内の画素連結成分が属する文字パターンに対応する候補文字および確信度と、当該外接矩形の位置を示す情報とを含む認識結果を生成する。なお、ステップ３０１の処理で、プロセッサ２１は、外接矩形の位置を示す情報として、例えば、外接矩形の左上の画素および右下の画素の位置を示す座標などを含む認識結果を生成してもよい。

次いで、プロセッサ２１は、上述したアプリケーションプログラムに含まれる選択部を実現するためのプログラムと協働することにより、位置が同じである候補文字から一つを選択する処理を行う(ステップ３０２)。ステップ３０２で、プロセッサ２１は、例えば、ステップ３０１で各色分解画像について得られた認識結果から、外接矩形の位置が重なっている候補文字のセットを検出する。そして、プロセッサ２１は、検出した候補文字のセットのうち、確信度が最大の候補文字を選択する。

次に、プロセッサ２１は、上述したアプリケーションプログラムに含まれる結合部を実現するためのプログラムと協働することにより、ステップ３０２で選択された候補文字から文字列を生成する処理を行う(ステップ３０３)。プロセッサ２１は、選択された外接矩形の位置を示す情報に基づいて、例えば、文字認識対象の領域の一端から文字の並び方向に従って順に候補文字を結合する。この処理により、プロセッサ２１は、各色分解画像に分散して現れる文字パターンに対応してそれぞれ得られる候補文字を合成して文字列を生成する。

その後、プロセッサ２１は、例えば、オペレーティングシステムと協働することにより、ステップ３０３で得られた文字列を、表示制御部２４を介して表示装置２５に表示させてもよい。

このようにして、図５に例示したコンピュータ装置により、自然画像などのように複数色が混在した複雑な画像を背景とした複数色の文字を含む文字列を認識する文字認識処理装置が実現される。

次に、本件開示の文字認識装置に含まれる選択部の処理について説明する。

図７に、選択部の処理の一例を表す流れ図を示す。図７に示したステップ３１１〜ステップ３１６は、プロセッサ２１によって実行される。なお、ステップ３１１〜ステップ３１６は、図６に示したステップ３０２でプロセッサ２１が実行するプログラムの一例である。また、以下の説明では、文字列が左から右へ並んでいる場合の処理を説明する。

ステップ３１１で、プロセッサ２１は、各色分解画像について得られた候補文字の集合の中から一つの集合を選択する。図４に示した例で説明すると、色分解画像Ｐｂから得られた認識結果Ｑ_Ｂ１〜Ｑ_Ｂ５と色分解画像Ｐｇから得られた認識結果Ｑ_Ｇ１〜Ｑ_Ｇ２と色分解画像Ｐｗから得られた認識結果Ｑ_Ｗ１〜Ｑ_Ｗ６とのいずれかに含まれる候補文字の集合が、ステップ３１１で選ばれる。

次に、プロセッサ２１は、ステップ３１１で選択した候補文字の集合に含まれる候補文字の一つを注目候補文字として選択する(ステップ３１２)。プロセッサ２１は、例えば、候補文字の集合に含まれる候補文字から、対応する外接矩形の位置が文字認識対象の領域の左端に近い順に選択する。図４に示した色分解画像Ｐｂを例に取ると、プロセッサ２１は、候補文字「提」から順に選択する。

次に、プロセッサ２１は、注目候補文字に対応する外接矩形と位置が同じである外接矩形に対応する候補文字を、他の色分解画像に対応する候補文字の集合から検出する(ステップ３１３)。例えば、プロセッサ２１は、認識結果に含まれる外接矩形の位置を示す情報に基づいて、２つの外接矩形が重複する面積が所定の閾値を超える場合に、これらの外接矩形に対応する候補文字の位置が同じであると判断する。図４に示した色分解画像Ｐｂと色分解画像Ｐｗを例に取ると、外接矩形Ｒ_Ｂ１と同じ位置にある外接矩形として、プロセッサ２１は、外接矩形Ｒ_Ｗ１を検出する。この検出結果に基づいて、プロセッサ２１は、外接矩形Ｒ_Ｂ１に対応する候補文字「提」に位置が同じである候補文字として、外接矩形Ｒ_Ｗ１に対応する候補文字「庶」を検出する。

次に、プロセッサ２１は、注目候補文字とステップ３１２で検出した候補文字との中で、最も確信度の高い候補文字を選択する処理を行う(ステップ３１４)。ステップ３１４で、プロセッサ２１は、注目候補文字に対応する確信度とステップ３１２で検出した候補文字に対応する確信度とを比較する。この比較結果に基づいて、プロセッサ２１は、最大の確信度に対応する候補文字を選択する。図４に示した例では、候補文字「提」の確信度(９９)に対して、候補文字「提」の外接矩形Ｒ_Ｂ１と同じ位置にある外接矩形Ｒ_Ｗ１に対応する候補文字「庶」の確信度は(３４)である。この場合に、候補文字「提」の確信度(９９)が最大となるので、プロセッサ２１は、外接矩形Ｒ_Ｂ１の位置についての文字認識結果として、候補文字「提」を選択する。このとき、プロセッサ２１は、メモリ２２あるいはＨＤＤ２３に保持された候補文字「提」を含む認識結果にフラグなどをセットすることにより、この候補文字が選択されたことを示してもよい。また、プロセッサ２１は、メモリ２２あるいはＨＤＤ２３から、選択されなかった候補文字を含む認識結果を削除することにより、選択された候補文字を含む認識結果のみを残してもよい。

次に、プロセッサ２１は、ステップ３１１で選択した候補文字の集合に含まれる全ての候補文字を選択したか否かを判定する(ステップ３１５)。未選択の候補文字がある場合に(ステップ３１５の否定判定)、処理はステップ３１２に戻る。

プロセッサ２１は、ステップ３１１で選択した候補文字の集合に含まれる全ての候補文字について、ステップ３１２〜ステップ３１４の処理を実行する。図４に示した色分解画像Ｐｂの例では、上述した候補文字「提」に続いて、プロセッサ２１は、候補文字「供」、「研」、「空」、「斯」を順に注目候補文字として選択する。そして、候補文字「研」、「空」、「斯」を注目候補文字として選択して行ったステップ３１３の処理で、プロセッサ２１は、これらに対応して色分解画像Ｐｗに対応する候補文字の集合から候補文字「研」、「究」、「所」をそれぞれ検出する。また、ステップ３１４の処理で、プロセッサ２１は、これらの注目候補文字「研」、「空」、「斯」にそれぞれ対応する確信度と、検出された候補文字「研」、「究」、「所」にそれぞれ対応する確信度とを比較する。そして、これらの比較結果に基づいて、プロセッサ２１は、色分解画像Ｐｗから得られた候補文字「研」、「究」、「所」をそれぞれ選択する処理を行う。

このようにして、１つの色分解画像から得られた候補文字の集合に含まれる全ての候補文字について、ステップ３１２〜ステップ３１５の処理が完了したときに(ステップ３１５の肯定判定)、処理は、ステップ３１６に進む。ステップ３１６で、プロセッサ２１は、色分解画像に対応して得られた候補文字の集合を全て選択したか否かを判定する。未選択の候補文字の集合がある場合に(ステップ３１６の否定判定)、処理は、ステップ３１１に戻る。この場合に、プロセッサ２１は、未選択の候補文字の集合を選択して(ステップ３１１)、以降は、この候補文字の集合に含まれる候補文字について、ステップ３１２〜ステップ３１５の処理を繰り返す。

このように、プロセッサ２１が、メモリ２２やＨＤＤ２３を利用して、プログラムに従う処理を行うことにより、本件開示の文字認識装置に含まれる選択部１２の機能が実現される。つまり、プロセッサ２１の処理により、複数の色分解画像から得られた候補文字の集合に含まれる、外接矩形の位置が同じ候補文字のうち、確信度が最大の候補文字を最終的な文字認識結果として選択することができる。

ところで、図１，２に示した原稿１の例からも分かるように、画像に重ねて配置される文字列は、連続する文字が同一の色で表現される場合が多い。このような文字色の連続性は、雑誌の誌面やテレビ映像で流れるテロップなどにも多くの場合に共通して見られる。

以下、上述した文字色の連続性を、複雑な画像を背景とする複数の色の文字が混在する文字列を対象とする文字認識処理に利用する方法について説明する。

図８に、選択部の処理の別例を表す流れ図を示す。なお、図８に示したステップのうち、図７に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する。図８に示した各ステップは、プロセッサ２１によって実行される。図８に示した各ステップもまた、図６に示したステップ３０２でプロセッサ２１が実行するプログラムの一例を示している。

図８に示した流れ図では、図７に示したステップ３１１〜ステップ３１６の処理の実行に先立って、プロセッサ２１は、ステップ３２０の処理を実行する。ステップ３２０で、プロセッサ２１は、各色分解画像から得られた候補文字のそれぞれに対応する確信度に、文字色の連続性に基づく重みを付与する。

図９に、文字色の連続性を確信度に反映する重みを付与する処理を表す流れ図を示す。なお、図９に示したステップ３２１〜ステップ３３０の処理は、プロセッサ２１によって実行される。これらのステップ３２１からステップ３３０の処理は、図８に示したステップ３２０でプロセッサ２１が実行するプログラムによる処理の一例である。

ステップ３２１で、プロセッサ２１は、上述したステップ３１１と同様に、各色分解画像から得られた候補文字の集合を順に選択する。次いで、プロセッサ２１は、選択した候補文字の集合に含まれる候補文字を、順次に注目候補文字Ｐ０として選択する(ステップ３２２)。

次に、プロセッサ２１は、選択した候補文字の集合の中で、注目候補文字Ｐ０に対応する外接矩形から所定の距離にある他の外接矩形に対応する候補文字を検出する(ステップ３２３)。プロセッサ２１は、注目候補文字Ｐ０に対応する外接矩形の位置を示す情報に基づいて候補文字の検出を行う。なお、ステップ３２３において、プロセッサ２１が他の外接矩形を探索する範囲は、例えば、各色分解画像から得られた外接矩形のサイズの平均値などに基づいて決定してもよい。

ステップ３２３の処理で候補文字を検出した場合に(ステップ３２４の肯定判定)、プロセッサ２１は、ステップ３２５〜ステップ３２８の処理を実行する。ステップ３２５で、プロセッサ２１は、ステップ３２３で検出した候補文字の一つを参照候補文字Ｐ１として選択する。次いで、プロセッサ２１は、この参照候補文字Ｐ１に対応する確信度が所定の閾値以上であるか否かを判定する(ステップ３２６)。この参照候補文字Ｐ１に対応する確信度が所定の閾値以上である場合に、プロセッサ２１は、注目候補文字Ｐ０に隣接して同色の候補文字があると判断する(ステップ３２６の肯定判定)。この場合に、プロセッサ２１は、注目候補文字Ｐ０に対応する確信度に所定の重みを加算する(ステップ３２７)。このとき、プロセッサ２１は、注目候補文字Ｐ０の確信度に重みを加算した後の値を、確信度の最大値を上限として制限してもよい。

その後、プロセッサ２１は、ステップ３２３で検出した全ての候補文字を参照候補文字Ｐ１として選択したか否かを判定する(ステップ３２８)。未選択の候補文字がある場合に(ステップ３２８の否定判定)、処理は、ステップ３２５に戻る。そして、新たに選択された参照候補文字Ｐ１に対応する確信度に応じて、プロセッサ２１は、ステップ３２６、ステップ３２７の処理を実行する。ステップ３２５〜ステップ３２８を繰り返して、未選択の候補文字がなくなったときに(ステップ３２８の肯定判定)、処理は、ステップ３２９に進む。

このようにして、プロセッサ２１は、例えば、注目候補文字に隣接して確信度の高い候補文字が得られている場合に、この注目候補文字に対応する確信度に、所定の重みを付与する。これにより、例えば、確信度が高い候補文字に挟まれた注目候補文字に対応する確信度を高くすることができる。つまり、プロセッサ２１が、上述した処理を行うことにより、文字色の連続性に基づく重みを確信度に付与することができる。

一方、ステップ３２３の処理で候補文字が検出されなかった場合に(ステップ３２４の否定判定)、処理は、ステップ３２５〜ステップ３２８をスキップして、ステップ３２９に進む。この場合に、プロセッサ２１は、注目文字候補の確信度に、文字色の連続性に基づく重みを付与することはない。

ステップ３２９で、プロセッサ２１は、ステップ３２１で選択した候補文字の集合に含まれる全ての候補文字を注目候補文字として選択したか否かを判定する。未選択の候補文字がある場合に(ステップ３２９の否定判定)、処理は、ステップ３２２に戻る。そして、新たに選択された注目候補文字Ｐ０について、ステップ３２３〜ステップ３２９の処理が行われる。

そして、ステップ３２２からステップ３２９を繰り返して、未選択の候補文字がなくなったときに(ステップ３２９の肯定判定)、プロセッサ２１は、未選択の候補文字の集合があるか否かを判定する(ステップ３３０)。ステップ３３０の肯定判定の場合に、処理は、ステップ３２１に戻る。この場合に、プロセッサ２１は、新たに選択された候補文字の集合について、ステップ３２２からステップ３３０の処理を繰り返す。そして、全ての色分解画像から得られた候補文字の集合についての処理が完了したときに(ステップ３３０の肯定判定)、処理は終了する。

図１０に、文字色の連続性に基づく重みの適用例を示す。なお、図１０に示した要素のうち、図４に示した要素と同等のものについては、同一の符号を付して示し、その説明は省略する。図１０に示した例は、各色分解画像から得られた認識結果に対して、図８に示したステップ３２０の処理として、図９に示した各ステップの処理を適用して得られる。

図１０は、図４に示した各色分解画像から得られた候補文字の集合について、図９に示した重み付与処理を適用した例である。なお、図１０の例では、上述したステップ３２６の閾値として数値８０を用い、また、ステップ３２７で重み３を付与する場合を示した。また、各候補文字を含む認識結果Ｑ_Ｂ１〜Ｑ_Ｂ５，Ｑ_Ｇ１，Ｑ_Ｇ２，Ｑ_Ｗ１〜Ｑ_Ｗ６において、重み付与後の確信度を大括弧で囲んで示した。また、各候補文字に対応する確信度の値は、確信度の最大値(９９)を上限として制限されている。

図１０に示した色分解画像Ｐｂについて得られた認識結果Ｑ_Ｂ１〜Ｑ_Ｂ５のうち、認識結果Ｑ_Ｂ１、Ｑ_Ｂ２、Ｑ_Ｂ３、Ｑ_Ｂ５に含まれる確信度には、文字色の連続性に基づく重みの付与が適用される。これにより、認識結果Ｑ_Ｂ１、Ｑ_Ｂ２、Ｑ_Ｂ３、Ｑ_Ｂ５に含まれる確信度の値(９９)、(８１)、(３６)、(５９)は、新たな値[９９]、[８４]、[３９]、[６２]にそれぞれ変化する。一方、認識結果Ｑ_Ｂ４に含まれる候補文字「空」の両側の候補文字の確信度は、いずれも上述した閾値よりも低い。このため、この候補文字「空」の確信度(９０)は、文字色の連続性に基づく重みの加算を受けることなく、元の値をそのまま維持する。

また、図１０に示した色分解画像Ｐｇについて得られた認識結果Ｑ_Ｇ１、Ｑ_Ｇ２に含まれる確信度(９８)、(９９)には、いずれも、文字色の連続性に基づく重みの付与が適用される。これにより、認識結果Ｑ_Ｇ１、Ｑ_Ｇ２に含まれる確信度はいずれも、上述した確信度の最大値(９９)となる。

また、図１０に示した色分解画像Ｐｗについて得られた認識結果Ｑ_Ｗ１〜Ｑ_Ｗ６のうち、認識結果Ｑ_Ｗ２〜Ｑ_Ｗ６に含まれる確信度には、文字色の連続性に基づく重みの付与が適用される。なお、認識結果Ｑ_Ｗ４、Ｑ_Ｗ５に含まれる候補文字「研」、「究」は、いずれも、両側に確信度が閾値以上である候補文字が並んでいる。このため、これらの候補文字に対応する確信度(８９)、(８７)には、両側の候補文字を参照候補文字として上述したステップ３２７の処理を行った際にそれぞれ重みが付与される。したがって、認識結果Ｑ_Ｗ４、Ｑ_Ｗ５に含まれる候補文字「研」、「究」の新しい確信度は、元の確信度にそれぞれ合計６の重みを加算した値[９５]、[９３]となる。また、認識結果Ｑ_Ｗ３、Ｑ_Ｗ６に含まれる候補文字「±」、「所」に対応する新たな確信度の値は、元の確信度(８１)、(９０)にそれぞれ重み３を加算した値[８４]、[９３]となる。一方、色分解画像Ｐｗから得られた認識結果の集合には、認識結果Ｑ_Ｗ１に含まれる候補文字「庶」に隣接する位置に外接矩形を持つ認識結果は含まれない。このため、この候補文字「庶」に対応する確信度は、文字色の連続性に基づく重みの加算を受けることなく、元の値(３４)をそのまま維持する。

ここで、図１０に示した各色分解画像から抽出された外接矩形のうち、色分解画像Ｐｗに含まれる外接矩形Ｒ_Ｗ５の部分は、図４において示した対応する外接矩形Ｒ_Ｗ５と異なっている。図１０に示した外接矩形Ｒ_Ｗ５は、図４に示した対応する外接矩形Ｒ_Ｗ５には含まれていない画素連結成分をいくつか含んでいる。これらの画素連結成分は、例えば、背景の画像に含まれる白色の部分に対応するものであり、候補文字「究」の認識に寄与しないノイズ成分である。そして、これらのノイズ成分の影響を受けて、図１０に示した外接矩形Ｒ_Ｗ５から得られる認識結果では、候補文字「究」に対応する確信度が、図４に示した確信度よりも低い値になっている。

このように、複数の色で表現された複雑な背景の上に配置された複数色の文字を含む文字列を認識する際には、文字内ノイズなどのために、望ましい候補文字に対応して最大の確信度が得られない場合がある。

このような場合にも、上述した文字色の連続性に基づく重みを適用することにより、近接した位置に同色で確信度の高い候補文字を持つ候補文字の確信度を引き上げることができる。

図１０の例では、色分解画像Ｐｗの認識結果に含まれる候補文字「究」に対応する確信度は、文字色の連続性に基づく重みによって引き上げられる。その結果、この候補文字「究」に対応する確信度は、同じ位置にある外接矩形Ｒ_Ｂ４に対応する候補文字「空」に対応する確信度よりも大きい値となる。そして、このように調整された確信度に基づいて、同じ位置に外接矩形がある複数の候補文字の中から確信度が最大の候補文字を選択する処理を行うことにより、調整前に最大の確信度を持っていた候補文字「空」の代わりに、望ましい候補文字「究」を選択することができる。

このようにして、文字色の連続性に基づく重みを確信度に適用する処理を組み合わせることにより、より確からしい認識結果を得ることができる。

ところで、同じ位置にある複数の候補文字の中から確信度が最大の候補文字を選択する処理は、動的計画法(ＤＰ：Dynamic Programming)によって実現してもよい。

図１１に、文字認識処理の別例を表す流れ図を示す。なお、図１１に示したステップのうち、図６に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する。図１１に示した各ステップは、プロセッサ２１によって実行される。

図１１に示した流れ図では、図６に示したステップ３０２，３０３の処理に代えて、プロセッサ２１は、ステップ３３１，３３２の処理を実行する。

ステップ３３１で、プロセッサ２１は、各色分解画像から得られた候補文字のすべてを対象として動的計画法を用いた処理を実行することにより、複数の色分解画像に跨るパスを含む各パスについて評価値を算出する。

プロセッサ２１は、各色分解画像から抽出された全ての外接矩形に対応する認識結果を含む矩形情報テーブルを、動的計画法を用いた処理に用いてもよい。この矩形情報テーブルは、例えば、図５に示したメモリ２２あるいはＨＤＤ２３に格納される。

図１２に、矩形情報テーブルの例を示す。図１２に示した矩形情報テーブルは、図１０に示した各色分解画像Ｐｂ，Ｐｇ，Ｐｗから抽出された外接矩形Ｒ_Ｂ１〜Ｒ_Ｂ５，Ｒ_Ｇ１，Ｒ_Ｇ２，Ｒ_Ｗ１〜Ｒ_Ｗ６に対応する情報を含んでいる。

図１２に示した矩形情報テーブルは、各外接矩形に対応して、矩形インデックス(INDEX)と、当該外接矩形が抽出された色分解画像を示す色ＩＤと、当該外接矩形の位置を示す座標と、対応する候補文字の確信度とを、それぞれ示す情報を含んでいる。図１２の例では、矩形インデックスＢ１〜Ｂ５で示される外接矩形Ｒ_Ｂ１〜Ｒ_Ｂ５の色ＩＤとして、色分解画像Ｐｂを示す「Ｂ」が矩形情報テーブルに格納される。また、矩形インデックスＧ１、Ｇ２で示される外接矩形Ｒ_Ｇ１、Ｒ_Ｇ２の色ＩＤとして、色分解画像Ｐｇを示す「Ｇ」が矩形情報テーブルに格納される。また、矩形インデックスＷ１〜Ｗ６で示される外接矩形Ｒ_Ｗ１〜Ｒ_Ｗ６の色ＩＤとして、色分解画像Ｐｗを示す「Ｗ」が矩形情報テーブルに格納される。また、各外接矩形の位置は、外接矩形の左上の画素の座標と右下の画素の座標との組で示してもよい。図１２の例では、各外接矩形の左上の画素の座標を、座標(Ｘｓ，Ｙｓ)の各成分に、それぞれの矩形インデックスを添え字として付して示した。同様に、各外接矩形の右下の画素の座標を、座標(Ｘｅ，Ｙｅ)の各成分に、それぞれの矩形インデックスを添え字として付して示した。なお、上述した座標の例は、各色分解画像において、画素の左右の並び方向をＸ方向とし、画素の上下の並び方向をＹ方向とした場合である。また、画素の座標は、右側ほど大きな値を持つＸ成分で表され、また、下側ほど大きな値を持つＹ成分で表される。

更に、矩形情報テーブルは、各外接矩形に対応して、当該外接矩形までのパスの評価値と、当該外接矩形までのパスに含まれる外接矩形の数と、当該外接矩形の左側の外接矩形を示す左側矩形インデックスと、をそれぞれ示す情報を含む。図１２の例では、各外接矩形に対応するパスの評価値を、評価値を示す文字「Ｔ」に各矩形インデックスを示す添え字を付して示した。各矩形インデックスに対応するパスの評価値、パスの矩形数および左側矩形インデックスは、ステップ３３１の動的計画法を用いた処理の過程において求められる。なお、図１２において、「左／右端フラグ」で示した欄は、当該外接矩形が左端の矩形であるか否かを示す左端フラグまたは、当該外接矩形が右端の矩形であるか否かを示す右端フラグを示す情報に対応する。左端フラグおよび右端フラグについては、後述する。

このような矩形情報テーブルを用いて、プロセッサ２１は、図１１のステップ３３１において、例えば、パスに含まれる各外接矩形に対応する確信度の総和を評価値として、複数の色分解画像に跨るパスを許容して動的計画法を用いる処理を行う。なお、複数の色分解画像に跨るパスを許容して動的計画法を用いる処理の詳細については、後述する。

例えば、図１０に示した各外接矩形について、プロセッサ２１は、これらの外接矩形を左側から順に追跡する動的計画法を用いた処理を行う過程で、図１０において矢印で示したような各パスについての評価値を算出する。プロセッサ２１は、例えば、各パスによって接続された各外接矩形に対応する候補文字の確信度の総和を、当該パスの評価値として求める。なお、図１０において太い実線の矢印で示したパスは、上述したパスの中で最も評価値が高いパスを示す。このパスによって接続される各外接矩形は、同じ位置にある複数の外接矩形の中で確信度が最大の候補文字に対応して選択された外接矩形に相当する。

次いで、プロセッサ２１は、図１１のステップ３２２において、評価値が最大のパスに含まれる候補文字を結合することにより、文字認識対象の領域に含まれる文字列を得る。

以下、色分解画像に跨るパスを許容して動的計画法を用いる処理について説明する。

図１３に、色分解画像に跨るパスを許容して動的計画法を用いる処理を表す流れ図を示す。なお、図１３に示したステップ３４１〜ステップ３４８の各処理は、プロセッサ２１によって実行される。ステップ３４１〜ステップ３４８の各処理は、図１１に示したステップ３３１の処理の一例である。

ステップ３４１において、まず、プロセッサ２１は、矩形情報テーブルに格納された各外接矩形の位置を示す情報に基づいて、文字列の左端に対応する可能性がある左端矩形と、文字列の右端に対応する可能性がある右端矩形と、をそれぞれ検出する。プロセッサ２１は、例えば、各外接矩形を順次に注目矩形として選択し、この注目矩形の左上の画素の位置を示す座標と、他の外接矩形の右下の画素の位置を示す座標との比較に基づいて、注目矩形が左端矩形であるか否かを判断してもよい。プロセッサ２１は、他の外接矩形の右下の画素の座標の中に、注目矩形の左上の画素のＸ座標よりも小さい値を持つＸ座標が検出されない場合に、注目した外接矩形は左端矩形であると判断する。左端矩形として検出した外接矩形に対応して、プロセッサ２１は、矩形情報テーブルに矩形数１を格納するとともに、左端フラグを設定する。同様に、プロセッサ２１は、上述した処理と一緒に、注目矩形の右下の画素の位置を示す座標と、他の外接矩形の左上の画素の位置を示す座標との比較に基づいて、右端矩形であるか否かを判断してもよい。プロセッサ２１は、他の外接矩形の左上の画素の座標の中に、注目矩形の右下の画素のＸ座標よりも大きい値を持つＸ座標が検出されない場合に、注目した外接矩形は右端矩形であると判断する。また、右端矩形として検出した外接矩形に対応して、プロセッサ２１は、矩形情報テーブルに右端フラグを設定する。

図１２に示した矩形情報テーブルの例では、外接矩形Ｒ_Ｂ１、Ｒ_Ｗ１を示す矩形インデックスＢ１、Ｗ１対応して左端フラグが設定されている。また、外接矩形Ｒ_Ｂ５、Ｒ_Ｗ６を示す矩形インデックスＢ５、Ｗ６対応して右端フラグが設定されている。

次に、プロセッサ２１は、矩形情報テーブルに含まれる全ての外接矩形の中から一つを注目矩形Ｒｃとして選択する(ステップ３４２)。例えば、プロセッサ２１は、矩形情報テーブルに各外接矩形に対応して格納された左上の画素の位置を示すＸ座標に基づいて、文字認識対象の領域の左端に近い外接矩形から順に注目矩形Ｒｃを選択する。

次いで、プロセッサ２１は、注目矩形Ｒｃの左端よりも左側で所定の距離内にある別の外接矩形を矩形情報テーブルから検出する(ステップ３４３)。例えば、プロセッサ２１は、注目矩形Ｒｃの左上の画素のＸ座標Ｘｃと、矩形情報テーブルに含まれる他の外接矩形の右下の画素のＸ座標Ｘｐとの差に基づいて、ステップ３４２の検出処理を行う。例えば、プロセッサ２１は、座標値Ｘｐが座標値Ｘｃ以下であり、かつ、座標値の差(Ｘｃ−Ｘｐ)が注目矩形ＲｃのＸ方向の幅に基づいて決定した所定の閾値Ｔｈｘ以下であるような他の外接矩形を全て検出する。

このようにして、プロセッサ２１は、注目矩形Ｒｃの左側に接続する可能性のある外接矩形の集合を検出する。このステップ３４３で検出された各外接矩形は、複数の色分解画像から注目矩形Ｒｃに隣接する位置について得られた外接矩形である。つまり、これらの外接矩形は、同一の位置にある複数の候補文字に対応している。

次いで、プロセッサ２１は、検出した集合に含まれる各外接矩形に対応して矩形情報テーブルにそれぞれ格納されている評価値に、注目矩形Ｒｃに対応する文字候補の確信度Ｃｃを加算する(ステップ３４４)。この処理により、プロセッサ２１は、注目矩形Ｒｃの左側に接続する可能性のある外接矩形それぞれから注目矩形Ｒｃに接続するパスについて、注目矩形Ｒｃまでの評価値の基本値を算出する。なお、ステップ３４２で選択した注目矩形Ｒｃが左端矩形である場合に、プロセッサ２１は、この注目矩形Ｒｃに対応する候補文字の確信度Ｃｃを、この注目矩形Ｒｃを先頭とするパスに対応する評価値の基本値とする。

次に、プロセッサ２１は、上述した集合に含まれる各外接矩形に対応して算出した評価値の基本値に、色の連続性に基づく重みを加算する(ステップ３４５)。例えば、プロセッサ２１は、上述した集合に含まれる各外接矩形に対応して矩形情報テーブルに格納された色ＩＤが注目矩形の色ＩＤと一致する場合に、所定の重み(例えば、数値３)を上述した基本値に加算する。このようにして、プロセッサ２１は、上述した集合に含まれる各外接矩形に対応する個々のパスの評価値に、色の連続性に基づく重みを反映する。

例えば、図１０に示した外接矩形Ｒ_Ｂ２が注目矩形Ｒｃとして選択されている場合に、ステップ３４２の処理で、プロセッサ２１は、２つの外接矩形Ｒ_Ｂ１，Ｒ_Ｗ１を検出する。そして、これらの外接矩形Ｒ_Ｂ１，Ｒ_Ｗ１と注目矩形Ｒｃである外接矩形Ｒ_Ｂ２を接続する２つのパスについて、プロセッサ２１は、それぞれ評価値を算出する。外接矩形Ｒ_Ｂ１と外接矩形Ｒ_Ｂ２とを接続するパスの評価値を算出する過程で、プロセッサ２１は、それぞれに対応する候補文字の確信度の和に、色の連続性に基づく重みを加算する。一方、外接矩形Ｒ_Ｗ１と外接矩形Ｒ_Ｂ２とを接続するパスの評価値を算出する過程では、色ＩＤが不一致であるので、プロセッサ２１は、それぞれに対応する候補文字の確信度の和をそのままパスの評価値とする。

次に、プロセッサ２１は、上述した集合に含まれる各外接矩形の中から、ステップ３４５で算出したパスの評価値が最大であるパスに対応する外接矩形を、注目矩形Ｒｃの左側矩形として選択する(ステップ３４６)。上述したように、ステップ３４３で検出された各外接矩形は、同一の位置にある複数の候補文字に対応している。したがって、ステップ３４６で左側矩形を選択する処理は、同一の位置にある複数の候補文字から、色の連続性に基づく重みを反映した上で、最大の確信度を持つ文字候補を選択する処理に相当する。図１０に示した外接矩形Ｒ_Ｂ２を注目矩形Ｒｃとした例では、外接矩形Ｒ_Ｂ１に接続するパスの評価値のほうが、外接矩形Ｒ_Ｗ１に接続するパスの評価値よりも大きい。このため、プロセッサ２１は、外接矩形Ｒ_Ｂ１と外接矩形Ｒ_Ｂ２とを接続するパスを、外接矩形Ｒ_Ｂ２を注目矩形Ｒｃとした処理での生き残りパスとして選択する。このとき、プロセッサ２１は、注目矩形Ｒｃである外接矩形Ｒ_Ｂ２に生き残りパスで接続された外接矩形Ｒ_Ｂ１を、外接矩形Ｒ_Ｂ２の左側矩形として選択する。

次に、プロセッサ２１は、ステップ３４６で検出した左側矩形に対応して矩形情報テーブルに格納された情報を用いて、注目矩形Ｒｃに対応する情報を更新する(ステップ３４７)。例えば、プロセッサ２１は、検出した左側矩形に対応して矩形情報テーブルに格納されている矩形数に１を加算した値を、注目矩形Ｒｃに対応する矩形数として格納する。また、プロセッサ２１は、検出した左側矩形を示す矩形インデックスを、注目矩形Ｒｃに対応する左側矩形インデックスとして矩形情報テーブルに格納する。また、プロセッサ２１は、ステップ３４６の処理の過程で検出したパスの評価値の最大値を、注目矩形Ｒｃに対応するパスの評価値として矩形情報テーブルに格納する。

図１０に示した外接矩形Ｒ_Ｂ２を注目矩形Ｒｃとした例では、ステップ３４６で左側矩形として選択された外接矩形Ｒ_Ｂ１は左端矩形である。したがって、プロセッサ２１は、外接矩形Ｒ_Ｂ１に対応して矩形情報テーブルに格納された矩形数１に数値１を加算して、外接矩形Ｒ_Ｂ２までの生き残りパスに含まれる矩形数２を求める。プロセッサ２１は、得られた矩形数２と、ステップ３４５で生き残りパスについて算出された評価値と、上述した選択された外接矩形Ｒ_Ｂ１を示す左側矩形インデックスとを、外接矩形Ｒ_Ｂ２に対応して矩形情報テーブルに格納する。

次いで、プロセッサ２１は、矩形情報テーブルに含まれる全ての外接矩形について、上述した処理を実行したか否かを判定する(ステップ３４８)。

注目矩形Ｒｃとしてまだ選択されていない外接矩形がある場合に(ステップ３４８の否定判定)、処理は、ステップ３４２に戻る。この場合に、プロセッサ２１は、例えば、上述した順に従って、図１０に示した外接矩形Ｒ_Ｇ１あるいは外接矩形Ｒ_Ｗ１を次の注目矩形Ｒｃとして選択し、この注目矩形Ｒｃについての処理を開始する。

図１０に示した外接矩形Ｒ_Ｇ１あるいは外接矩形Ｒ_Ｗ２を注目矩形Ｒｃとした処理で、プロセッサ２１は、上述した外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２を結ぶパスを外接矩形Ｒ_Ｇ１あるいは外接矩形Ｒ_Ｗ２に延長したパスに対応する情報を矩形情報テーブルに反映する。次いで、図１０に示した外接矩形Ｒ_Ｇ２を注目矩形Ｒｃとした処理で、プロセッサ２１は、外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２、Ｒ_Ｇ１を接続するパスと外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２、Ｒ_Ｗ２を接続するパスとをそれぞれ外接矩形Ｒ_Ｇ２まで延長した２つのパスの評価値を比較する。そして、この比較結果に基づいて、プロセッサ２１は、前者のパスを生き残りパスとして選択し、この生き残りパスに対応する情報を矩形情報テーブルに反映する。同様に、図１０に示した外接矩形Ｒ_Ｗ３を注目矩形Ｒｃとした処理でプロセッサ２１は、外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２、Ｒ_Ｇ１を接続するパスと外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２、Ｒ_Ｗ２を接続するパスとをそれぞれ外接矩形Ｒ_Ｗ３まで延長した２つのパスの評価値を比較する。そして、この比較結果に基づいて、プロセッサ２１は、前者のパスを生き残りパスとして選択し、この生き残りパスに対応する情報を矩形情報テーブルに反映する。同様に、外接矩形Ｒ_Ｂ３，Ｒ_Ｗ４，Ｒ_Ｂ４，Ｒ_Ｗ５，Ｒ_Ｂ５，Ｒ_Ｗ６をそれぞれ注目矩形Ｒｃとした処理が、プロセッサ２１によって行われる。外接矩形Ｒ_Ｂ３を注目矩形Ｒｃとした処理の際に、プロセッサ２１は、外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２，Ｒ_Ｇ１，Ｒ_Ｇ２を接続するパスを外接矩形Ｒ_Ｂ３まで延長したパスを生き残りパスとして選択する。また、外接矩形Ｒ_Ｗ４を注目矩形Ｒｃとした処理の際に、プロセッサ２１は、外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２，Ｒ_Ｇ１，Ｒ_Ｇ２を接続するパスを外接矩形Ｒ_Ｗ４まで延長したパスを生き残りパスとして選択する。また、外接矩形Ｒ_Ｂ４を注目矩形Ｒｃとした処理の際に、プロセッサ２１は、外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２，Ｒ_Ｇ１，Ｒ_Ｇ２，Ｒ_Ｂ３を接続するパスを外接矩形Ｒ_Ｂ４まで延長したパスを生き残りパスとして選択する。一方、外接矩形Ｒ_Ｗ５を注目矩形Ｒｃとした処理の際に、プロセッサ２１は、外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２，Ｒ_Ｇ１，Ｒ_Ｇ２，Ｒ_Ｂ３を接続するパスを外接矩形Ｒ_Ｗ５まで延長したパスを生き残りパスとして選択する。そして、外接矩形Ｒ_Ｂ５を注目矩形Ｒｃとした処理の際に、プロセッサ２１は、外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２，Ｒ_Ｇ１，Ｒ_Ｇ２，Ｒ_Ｂ３，Ｒ_Ｗ５を接続するパスを外接矩形Ｒ_Ｂ５まで延長したパスを生き残りパスとして選択する。一方、外接矩形Ｒ_Ｗ６を注目矩形Ｒｃとした処理の際に、プロセッサ２１は、外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２，Ｒ_Ｇ１，Ｒ_Ｇ２，Ｒ_Ｂ３，Ｒ_Ｗ５を接続するパスを外接矩形Ｒ_Ｗ６まで延長したパスを生き残りパスとして選択する。上述したようにして、各外接矩形を注目矩形とした処理によって生き残りパスを選択する過程で、注目矩形の左側の位置に対応して各色分解画像から得られた複数の候補文字から一つを選択する処理が行われる。

このようにして、ステップ３４２からステップ３４８の処理を繰り返し、全ての外接矩形についての処理が完了したときに(ステップ３４８の肯定判定)、プロセッサ２１は、動的計画法を用いた処理を終了する。

このとき、各右端矩形に対応して矩形情報テーブルに格納されている評価値は、当該右端矩形にいたるパスの中で最も高い評価値となっている。また、各右端矩形に対応して矩形情報テーブルに格納されている左側矩形インデックスは、上述した評価値を与えるパスによって当該右端矩形に接続されている外接矩形を示している。

次に、上述した動的計画法を用いた処理で得られた評価結果に基づいて、認識結果の文字列を生成する処理について説明する。

図１４に、動的計画法を用いた処理による評価結果に基づいて文字列を生成する処理を表す流れ図を示す。なお、図１４に示したステップ３５１〜ステップ３５４の各処理は、プロセッサ２１によって実行される。ステップ３５１〜ステップ３５４の処理は、図１１に示したステップ３３２の処理の一例である。

まず、プロセッサ２１は、矩形情報テーブルに含まれる各右端矩形について、それぞれのパスに含まれる矩形数を用いて正規化した評価値を求める(ステップ３５１)。例えば、プロセッサ２１は、各右端矩形に対応して矩形情報テーブルに格納されたパスの評価値を、それぞれのパスに含まれる矩形数で除算することにより、正規化した評価値を算出する。

このようにして得られた正規化された評価値の比較に基づいて、プロセッサ２１は、最大の評価値を持つパスを選択する(ステップ３５２)。

図１０に示した例では、外接矩形Ｒ_Ｂ５に到る生き残りパスは、外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２，Ｒ_Ｇ１，Ｒ_Ｇ２，Ｒ_Ｗ４，Ｒ_Ｗ５，Ｒ_Ｂ５を接続するパスである。このパスの評価値Ｔ_Ｂ５は、このパスで接続される外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２，Ｒ_Ｇ１，Ｒ_Ｇ２，Ｒ_Ｗ４，Ｒ_Ｗ５，Ｒ_Ｂ５に対応する各候補文字の確信度および色の連続性に基づく重みの総和となる。一方、図１０に示した外接矩形Ｒ_Ｗ６に到る生き残りパスは、外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２，Ｒ_Ｇ１，Ｒ_Ｇ２，Ｒ_Ｗ４，Ｒ_Ｗ５，Ｒ_Ｗ６を接続するパスである。このパスの評価値Ｔ_Ｗ６は、このパスで接続される外接矩形Ｒ_Ｂ１，Ｒ_Ｂ２，Ｒ_Ｇ１，Ｒ_Ｇ２，Ｒ_Ｗ４，Ｒ_Ｗ５，Ｒ_Ｗ６に対応する各候補文字の確信度および色の連続性に基づく重みの総和となる。

外接矩形Ｒ_Ｂ５に到る生き残りパスと外接矩形Ｒ_Ｗ６に到る生き残りパスとを比べれば分かるように、これらのパスの評価値の違いは、パスの末尾に接続された外接矩形に対応する候補文字の確信度と色の連続性に基づく重みである。したがって、プロセッサ２１は、上述したステップ３５２の処理により、同じ位置に対応して色分解画像Ｐｂ、Ｐｗからそれぞれ得られた候補文字から、色の連続性に基づく重みが付与された確信度に基づいて１つを選択することになる。つまり、動的計画法を適用した処理では、同じ位置について複数の色分解画像から得られた文字候補の集合から、色の連続性に基づく重みが付与された確信度に基づいて一つの候補文字を選択する処理は、評価値が最大のパスを選択することによって完了する。

次いで、プロセッサ２１は、検出したパスを辿ることにより、このパスに含まれる各外接矩形に対応する候補文字を収集する(ステップ３５３)。例えば、プロセッサ２１は、右端矩形に対応して矩形情報テーブルに格納された左側矩形インデックスに基づいて、この右端矩形の左側に接続する外接矩形を特定する。同様にして、プロセッサ２１は、このパスを遡るように、左側矩形インデックスを辿ることにより、パスに含まれる全ての外接矩形を特定する。そして、プロセッサ２１は、右端矩形に対応する候補文字に加えて、このようにして特定した外接矩形それぞれに対応する候補文字を収集する。

次いで、プロセッサ２１は、このようにして収集した候補文字を、パスで接続された順に左側から結合することにより、文字列を生成する(ステップ３５４)。

上述したようにして、動的計画法を用いて、同じ位置について複数の色分解画像から得られた文字候補の集合から、色の連続性に基づく重みが付与された確信度に基づいて一つの候補文字を選択する処理を実現することができる。この選択処理によって選択された候補文字は、最大の評価値を持つパスによって接続された外接矩形に対応する候補文字のセットとして得られる。そして、得られた候補文字のセットを、上述したステップ３５３のようにして結合することにより、認識結果の文字列を得ることができる。

ところで、印刷物に印刷された文字列でも、テレビ放送のテロップなどの文字列でも、文字列に含まれる個々の文字の配置には規則性がある場合が多い。このことを利用して、文字認識精度の向上を図ることもできる。

図１５に、文字の配置の規則性を説明する図を示す。図１５の例では、近接する３つの外接矩形の中央に位置する注目矩形について、配置の規則性を考える。

図１５に示した外接矩形Ｒ_Ｃと、その左側の外接矩形Ｒ_Ｌおよび右側の外接矩形Ｒ_Ｒとの配置が規則的である場合に、これらの外接矩形Ｒ_Ｃ，Ｒ_Ｌ，Ｒ_Ｒのサイズはほぼ同等で、かつ、互いの間隔Gap-LC, Gap-RCも同等である。

ここで、図１５に示したように、外接矩形Ｒ_Ｃの左上の画素および右下の画素の座標をそれぞれ、(XminC，YminC)、(XmaxC，YmaxC)とする。また、外接矩形Ｒ_Lの左上の画素および右下の画素の座標をそれぞれ、(XminL，YminL)、(XmaxL，YmaxL)とする。また、外接矩形Ｒ_Rの左上の画素および右下の画素の座標をそれぞれ、(XminR，YminR)、(XmaxR，YmaxR)とする。これらの座標は、それぞれの外接矩形の左上の画素および右下の画素の座標として、上述した矩形情報テーブルに格納されている。

そして、外接矩形Ｒ_Ｃ，Ｒ_Ｌ，Ｒ_ＲのＸ，Ｙ方向のサイズは、それぞれの右下の画素の座標の各成分と左上の画素の座標の各成分の差として得ることができる。そして、外接矩形Ｒ_Ｃ，Ｒ_Ｌのサイズの差に基づいて、これらのサイズの一致度と示す指標を算出することができる。同様に、外接矩形Ｒ_Ｃ，Ｒ_Ｒのサイズの差に基づいて、これらのサイズの一致度と示す指標を算出することができる。また、外接矩形Ｒ_Ｃ，Ｒ_Ｌ間の間隔Gap-LCは、外接矩形Ｒ_Ｃの左上の画素のＸ座標と外接矩形Ｒ_Ｌの右下の画素のＸ座標との差として得ることができる。同様に、外接矩形Ｒ_Ｃ，Ｒ_Ｒ間の間隔Gap-RCは、外接矩形Ｒ_Ｃの右下の画素のＸ座標と外接矩形Ｒ_Ｒの左上の画素のＸ座標との差として得ることができる。そして、２つの間隔Gap-LC, Gap-RCの差に基づいて、これらの間隔の一致度を示す指標を算出することができる。

次に、動的計画法を用いた処理の過程で、評価対象の各パスの評価値に上述したような配置の規則性を反映する方法について説明する。

図１６に、複数の色分解画像にまたがるパスを許容して動的計画法を用いる処理の別例を表す流れ図を示す。なお、図１６に示したステップのうち、図１３に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する。また、図１６に示した各ステップは、プロセッサ２１によって実行される。図１６に示した各ステップは、図１１に示したステップ３３１の別例である。

図１６に示した流れ図では、ステップ３４３の後に、プロセッサ２１は、注目矩形の右側の近傍にある外接矩形を検出するステップ３４９の処理を実行する。また、図１３に示したステップ３４４、３４５の処理に代えて、プロセッサ２１は、色の連続性と配置の規則性の両方に基づく重みをパスの評価値に反映するステップ３５０の処理を実行する。

ステップ３４９において、プロセッサ２１は、例えば、注目矩形Ｒｃの右下の画素のＸ座標Ｘｃと、矩形情報テーブルに含まれる他の外接矩形の左上の画素のＸ座標Ｘｐとの差に基づいて、右側の近傍に位置する全ての外接矩形を検出する。例えば、プロセッサ２１は、Ｘ座標ＸｐがＸ座標Ｘｃ以上であり、かつ、座標値の差(Ｘｐ−Ｘｃ)が予め決定した所定の閾値Ｔｈｘ以下であるような他の外接矩形を全て検出する。なお、上述した閾値Ｔｈｘの値は、例えば、注目矩形ＲｃのＸ方向の幅に基づいて決定してもよい。

また、プロセッサ２１は、ステップ３５０で、次のようにして、色の連続性と配置の規則性の両方に基づく重みを反映したパスの評価値を算出する。

図１７に、パスの評価値を算出する処理の別例を表す流れ図を示す。なお、図１７に示したステップ３６１からステップ３７１の処理は、プロセッサ２１によって実行される。また、図１７に示したステップ３６１からステップ３７１の処理は、図１６に示したステップ３５０の処理に対応する。また、以下の説明では、上述したステップ３４３で検出された外接矩形を含む集合を左側参照矩形の集合と称する。また、ステップ３４９で検出された外接矩形を含む集合を右側参照矩形の集合と称する。

プロセッサ２１は、上述したステップ３４３で検出された左側参照矩形の集合に含まれる外接矩形の中から左側の参照矩形Ｒ_Ｌを選択する。また、プロセッサ２１は、この左側の参照矩形Ｒ_Ｌの評価値に注目矩形Ｒｃの確信度Ｃｃを加算することにより、左側の参照矩形Ｒ_Ｌと注目矩形とを接続するパスの評価値を求める(ステップ３６１)。

次に、プロセッサ２１は、選択した左側の参照矩形Ｒ_Ｌと注目矩形Ｒｃとの間の間隔Gap-LCおよびこれらの矩形のサイズの一致度に応じた重みＷｓ_Ｌを算出する処理を行う(ステップ３６２)。例えば、プロセッサ２１は、左側の参照矩形Ｒ_Ｌと注目矩形Ｒｃとに対応して矩形情報テーブルにそれぞれ格納された情報に基づいて、間隔Gap-LCと、左側の参照矩形Ｒ_Ｌおよび注目矩形Ｒｃのサイズの差ｄ_ＬＣを算出する。プロセッサ２１は、算出したサイズの差ｄ_ＬＣを所定の定数ａ_１から差し引いた値に所定の係数ｂ_１を乗算することにより、重みＷｓ_Ｌを算出してもよい。このようにして算出された重みＷｓ_Ｌは、サイズの差ｄ_ＬＣが小さいとき、すなわち、サイズの一致度が高いときに大きな値となる。

プロセッサ２１は、上述したようにして算出した重みＷｓ_Ｌをステップ３６１で求めた評価値に加算する(ステップ３６３)。更に、プロセッサ２１は、左側の参照矩形Ｒ_Ｌと注目矩形Ｒｃとが同一の色分解画像から抽出された外接矩形である場合に、色の連続性に基づく重みＷｃ_Ｌを上述したパスの評価値に加算する(ステップ３６４)。なお、プロセッサ２１は、ステップ３６３とステップ３６４とを逆の順番に実行してもよい。

次に、プロセッサ２１は、上述したステップ３４９で検出された右側参照矩形の集合に含まれる外接矩形の中から右側の参照矩形Ｒ_Ｒを選択する(ステップ３６５)。そして、プロセッサ２１は、選択した右側の参照矩形Ｒ_Ｒについて、上述したステップ３６２と同様にして、注目矩形Ｒｃとの間の間隔Gap-RCおよびこれらの矩形のサイズの一致度に応じた重みＷｓ_Rを算出する(ステップ３６６)。

次いで、プロセッサ２１は、プロセッサ２１は、右側の参照矩形Ｒ_Ｒと注目矩形Ｒｃとが同一の色分解画像を示す色ＩＤを持っている場合に、色の連続性に基づく重みＷｃ_Ｒを上述したパスの評価値に加算する(ステップ３６７)。更に、プロセッサ２１は、ステップ３６５で求めたサイズの一致度に応じた重みＷｓ_Rを、上述したパスの評価値に加算する(ステップ３６８)。また、プロセッサ２１は、ステップ３６１とステップ３６６でそれぞれ求めた間隔Gap-LCと間隔Gap-RCとの一致度に応じた重みＷｇを、上述したパスの評価値に加算する(ステップ３６９)。例えば、プロセッサ２１は、間隔Gap-LCと間隔Gap-RCとの差ｄ_ＧＡＰを所定の定数ａ_２から差し引いた値に所定の係数ｂ_２を乗算することにより、重みＷｇを算出してもよい。このようにして算出された重みＷｇは、間隔の差ｄ_ＧＡＰが小さいとき、すなわち、間隔の一致度が高いときに大きな値となる。なお、プロセッサ２１は、上述したステップ３６７からステップ３６９をどのような順序で実行してもよい。

次いで、プロセッサ２１は、右側参照矩形の集合に含まれる全ての外接矩形を選択したか否かを判定する(ステップ３７０)。未選択の外接矩形がある場合に(ステップ３７０の否定判定)、プロセッサ２１は、ステップ３６５の処理に戻って、新たな外接矩形を右側の参照矩形Ｒ_Ｒとして選択する。そして、新たに選択した右側の参照矩形Ｒ_Ｒについて、ステップ３６６からステップ３７０の処理を実行する。

このように、プロセッサ２１は、上述したステップ３６５からステップ３６９の処理を、右側参照矩形の集合に含まれる全ての外接矩形について繰り返す。これにより、プロセッサ２１は、ステップ３６１で選択した左側の参照矩形Ｒ_Ｌと注目矩形Ｒ_Ｃとを接続するパスの評価値に、右側参照矩形の集合に含まれる各外接矩形を右側の参照矩形Ｒ_Ｒとして評価した配置の規則性に基づく重みを反映する。

同様にして、注目矩形Ｒｃと左側矩形とこの左側矩形について特定された左側矩形との配置の規則性に基づいて、注目矩形Ｒｃへの重みを設定することも可能である。

ステップ３７０の肯定判定の場合に、プロセッサ２１は、左側矩形の集合に含まれる全ての外接矩形について処理したか否かを判定する(ステップ３７１)。未処理の左側矩形がある場合に(ステップ３７１の否定判定)、プロセッサ２１は、ステップ３６１の処理に戻って、新たな左側矩形Ｒ_Ｌを選択する。そして、上述したようにして、新たに選択した左側矩形Ｒ_Ｌと注目矩形Ｒ_Ｃとを接続するパスの評価値を算出する処理を実行する。

その後、左側矩形の集合に含まれる全ての外接矩形についての処理が完了したときに、プロセッサ２１は、ステップ３７１の肯定判定として、パスの評価値を算出する処理を終了する。

このようにして、注目矩形Ｒ_Ｃにいたる全てのパスについて、個々のパスによって接続された左側矩形と右側に接続される可能性のある外接矩形との間の色の連続性および配置の規則性に基づく重みを反映した評価値を求めることができる。このようにして各パスの評価値を求めることにより、色の連続性や配置の規則性に基づいて、より確からしい候補文字を含むパスの評価値を引き上げることができる。

したがって、このようにして求められた各パスの評価値に基づいて、プロセッサ２１が、図１６に示したステップ３４６の処理を行うことにより、より確からしい文字認識結果を導くパスを選択することが可能となる。

更に、複数の色分解画像に跨るパスを許容する動的計画法を用いた処理の過程で、文字パターンの形成に寄与しない画素連結成分を除去することも可能である。

図１８に、文字認識処理の別例を表す流れ図を示す。なお、図１８に示したステップのうち、図１１に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する。また、図１８に示した各ステップの処理は、プロセッサ２１によって実行される。

図１８に示した流れ図では、プロセッサ２１は、ステップ３３１の処理に先立って、認識対象の領域内に分布する画素連結成分を所定の条件で組み合わせて得られる組み合わせパターンに対応する候補文字を追加する処理を行う(ステップ３３３)。例えば、プロセッサ２１は、認識対象の領域内で、文字認識処理で得られた各候補文字に対応する文字パターンと同等の大きさの領域ごとに、当該領域内に含まれる画素連結成分を組み合わせることにより、複数の組み合わせパターンを生成する。そして、プロセッサ２１は、これらの組み合わせパターンについての文字認識処理で得られた候補文字を、ステップ３０１で既に得られている候補文字の集合に追加する。

図１９に、組み合わせパターンに対応する候補文字を追加する処理を表す流れ図を示す。また、図２０に、組み合わせパターンを説明する図を示す。なお、図１９に示した各ステップの処理は、プロセッサ２１によって実行される。また、図１９に示した各ステップの処理は、図１８に示したステップ３３３の処理の一例である。

図１９に示したステップ３８１で、プロセッサ２１は、図１８のステップ３０１の処理によって各色分解画像から得られた認識結果に基づいて、高い確信度を持つ候補文字の中から、キー候補文字を決定する。例えば、プロセッサ２１は、各色分解画像から得られた認識結果の中で、最も高い確信度を持つ候補文字を、キー候補文字として選択してもよい。また、プロセッサ２１は、全ての色分解画像から得られた認識結果の中で、最も高い確信度を持つ候補文字を、全ての色分解画像に共通するキー候補文字としてもよい。

次いで、プロセッサ２１は、決定したキー候補文字に対応する外接矩形に基づいて、窓矩形を生成する(ステップ３８２)。例えば、プロセッサ２１は、キー候補文字に対応する外接矩形をＸ方向およびＹ方向について数画素ずつ拡大することにより、窓矩形を生成してもよい。

図２０(Ａ)に、色分解画像Ｐｗから得られる認識結果に基づいて、窓矩形を生成する例を示す。図２０(Ａ)の例では、候補文字「研」がキー候補文字として選択されている。この場合に、プロセッサ２１は、文字「研」を表す画素連結成分に対応する外接矩形Ｒ_ｋを拡大した窓矩形Wrを生成する。

図１９に示したステップ３８３で、プロセッサ２１は、上述したようにして生成した窓矩形を走査しながら、この窓矩形内に包含される画素連結成分の集まりを検出する。例えば、プロセッサ２１は、図２０(Ｂ)に示すように、上述した窓矩形Wrを各色分解画像から抽出された文字認識対象の領域内で走査する。図２０(Ｂ)の例では、窓矩形Wrが、候補文字「研」に対応する画素連結成分の外接矩形の位置から右側に走査される過程で、符号Ｗｒ_１〜Ｗｒ_４で示した位置で、画素連結成分の集まりが検出される様子を示した。なお、図２０(Ｂ)の例では、符号Ｗｒ_１〜Ｗｒ_４で示した位置にある窓矩形Ｗｒの範囲を分かりやすくするために、それぞれの位置での窓矩形ＷｒをＹ方向にずらして示している。このようにして、プロセッサ２１は、各色分解画像から、文字を表す可能性のある全ての画素連結成分の集まりを検出する。

図１９に示したステップ３８４で、プロセッサ２１は、上述した窓矩形Ｗｒを走査する過程で検出された画素連結成分の集まりごとに、当該画素連結成分の集合の外接矩形を生成する。例えば、プロセッサ２１は、図２０(Ｃ)に符号Ｗｒ_１〜Ｗｒ_４で示した位置に窓矩形Ｗｒがあるときに、ステップ３８３で検出された画素連結成分の集まりに対応して、外接矩形Ｒ_Ｗ７〜Ｒ_Ｗ１０を生成する。

なお、図２０(Ｃ)の例では、ステップ３８４で生成される外接矩形Ｒ_Ｗ１０は、図１８のステップ３０１で色分解画像Ｐｗから得られる候補文字「所」に対応する外接矩形Ｒ_Ｗ６と重なりあっている。このように、ステップ３８３およびステップ３８４の処理で、プロセッサ２１は、既に候補文字が得られている画素連結成分の集まりを含む画素連結成分の集まりに対応して外接矩形を生成する。

次に、プロセッサ２１は、ステップ３８４で生成された外接矩形に含まれる画素連結成分を組み合わせることにより、複数の組み合わせパターンを生成する(ステップ３８５)。

図２０(Ｄ)に、図２０(Ｃ)に示した外接矩形Ｒ_Ｗ１０に含まれる画素連結成分を様々な組み合わせて生成される組み合わせパターンの例を示した。プロセッサ２１は、複数の組み合わせパターンを生成する際に、外接矩形内の個々の画素連結成分を取捨選択する。例えば、図２０(Ｄ)に示した左側の２つの例は、外接矩形Ｒ_Ｗ６に含まれる画素連結成分のうち、候補文字「所」を表す文字パターンの形成に寄与しない孤立した画素連結成分を取り除いた組み合わせパターンである。図２０(Ｄ)の例では、これらの組み合わせパターンに外接する外接矩形を符号Ｒ_Ｗ１０および符号Ｒ_Ｗ１１で示した。更に、プロセッサ２１は、図２０(Ｄ)に示した外接矩形Ｒ_Ｗ１２に含まれる組み合わせパターンのように、候補文字「所」の認識に寄与する画素連結成分の一部を取り除いた組み合わせパターンを生成してもよい。このとき、プロセッサ２１は、生成した組み合わせパターンに外接する外接矩形が、元の外接矩形のサイズおよび形状と大きく異ならないように、組み合わせパターンに含める画素連結成分を取捨選択することが望ましい。例えば、プロセッサ２１は、上述した画素連結成分の組み合わせによって派生する組み合わせパターンが外接する外接矩形の変形について予め許容範囲を設定しておいてもよい。そして、プロセッサ２１は、生成した組み合わせパターンに対応する外接矩形の形状と元の外接矩形の形状との差が、この許容範囲に収まる場合に、当該組み合わせパターンを追加してもよい。

次に、プロセッサ２１は、上述したようにして生成した組み合わせパターンのそれぞれを対象として、１文字単位の文字認識処理を行う(ステップ３８６)。そして、プロセッサ２１は、各組み合わせパターンに対応する認識結果として得られる候補文字を、動的計画法を用いた処理の対象に追加する(ステップ３８７)。例えば、プロセッサ２１は、ステップ３８６で得られた認識結果に基づいて、上述した矩形情報テーブルに、各組み合わせパターンに対応する情報を追加する。このとき、プロセッサ２１は、ステップ３８４で生成した外接矩形の位置を示す情報を、この外接矩形に含まれる画素連結成分から派生した各組み合わせパターンに対応する外接矩形の位置を示す情報として矩形情報テーブルに格納する。例えば、プロセッサ２１は、図２０(Ｄ)に示した外接矩形Ｒ_Ｗ１０、Ｒ_Ｗ１１、Ｒ_Ｗ１２に共通する左上および右下の画素の座標を、これらの外接矩形の位置を示す情報として矩形情報テーブルに格納する。図２０(Ｃ)の例では、外接矩形Ｒ_Ｗ１０、Ｒ_Ｗ１１、Ｒ_Ｗ１２を含む複数の外接矩形が重なり合っていることを、それぞれに対応する符号を羅列することによって示している。

このようにして、各色分解画像に含まれる文字を表す可能性がある画素連結成分の集まりに関する情報が漏れなく含む候補文字の集合を、色分解画像に跨るパスを許容する動的計画法を用いた処理の対象とすることができる。

このような候補文字の集合を対象とする色分解画像に跨るパスを許容する動的計画法を用いた処理において、プロセッサ２１は、各色分解画像に分散して現れる配置の規則性を、個々のパスの評価値に反映することができる。例えば、図２０(Ｄ)に示した様々な組み合わせパターンに対応する候補文字と、その両側に接続する可能性のある候補文字とについて、外接矩形のサイズの一致性や間隔の一致性などを評価した結果は、どの候補文字がより確からしいかを判断する指標となる。

このような指標の適用により、文字の一部である可能性のある画素連結成分を誤って除去した組み合わせパターンに対応する候補文字よりも、この画素連結成分を含んだ組み合わせパターンに対応する候補文字を含むパスが高く評価される可能性が高くなる。同様に、本来はノイズとして除去すべき画素連結成分を含む組み合わせパターンに対応する候補文字よりも、この画素連結成分をノイズとして除去した組み合わせパターンに対応する候補文字を含むパスが高く評価される可能性が高くなる。これにより、文字列認識結果として、望ましい文字に代わって文字の一部が欠けたパターンや逆に不要な点などを含むパターンで表される文字を含む文字列が出力されるおそれを低減することができる。

上述した本件開示の実施例は、様々な組み合わせで実施することができる。また、例えば、文字バイグラムに基づく重みなど、文字認識処理における公知技術と組み合わせて、本件開示の技術を実施することも可能である。

以上の説明に関して、更に、以下の各項を開示する。
(付記１) 文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成する文字認識部と、
前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択する選択部と、
前記選択部によって選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する結合部と、
を有することを特徴とする文字認識処理装置。
(付記２) 付記１に記載の文字認識処理装置において、
前記選択部は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
ことを特徴とする文字認識処理装置。
(付記３) 付記１に記載の文字認識処理装置において、
前記選択部は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、当該候補文字と同一の前記色分解画像から得られた候補文字の中に当該候補文字の位置から所定の範囲内に所定の閾値よりも高い確信度を持つ候補文字があることを条件として、前記確信度を高くする重みを与える
ことを特徴とする文字認識処理装置。
(付記４) 付記１ないし付記３のいずれか１に記載の文字認識処理装置において、
前記選択部は、
前記選択に先立って、前記相対位置が同じである候補文字それぞれが持つ確信度に、当該候補文字に隣接する候補文字と当該候補文字とが配置の規則性を満たしている度合いに応じて前記確信度を高くする重みを与える
ことを特徴とする文字認識処理装置。
(付記５) 文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成し、
前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択し、
前記選択処理で選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する、
ことを特徴とする文字認識処理方法。
(付記６) 付記５に記載の文字認識処理方法において、
前記候補文字を選択する処理は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
ことを特徴とする文字認識処理方法。
(付記７) 付記５に記載の文字認識処理方法において、
前記候補文字を選択する処理は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、当該候補文字と同一の前記色分解画像から得られた候補文字の中に当該候補文字の位置から所定の範囲内に所定の閾値よりも高い確信度を持つ候補文字があることを条件として、前記確信度を高くする重みを与える
ことを特徴とする文字認識処理方法。
(付記８) 付記５ないし付記７のいずれか１に記載の文字認識処理方法において、
前記候補文字を選択する処理は、
前記選択に先立って、前記相対位置が同じである候補文字それぞれが持つ確信度に、当該候補文字に隣接する候補文字と当該候補文字とが配置の規則性を満たしている度合いに応じて前記確信度を高くする重みを与える
ことを特徴とする文字認識処理方法。
(付記９) 文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成し、
前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択し、
前記選択処理で選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する、
処理をコンピュータに実行させる文字認識処理プログラム。
(付記１０) 付記９に記載の文字認識処理プログラムにおいて、
前記候補文字を選択する処理は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
ことを特徴とする文字認識処理プログラム。
(付記１１) 付記９に記載の文字認識処理プログラムにおいて、
前記候補文字を選択する処理は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、当該候補文字と同一の前記色分解画像から得られた候補文字の中に当該候補文字の位置から所定の範囲内に所定の閾値よりも高い確信度を持つ候補文字があることを条件として、前記確信度を高くする重みを与える
ことを特徴とする文字認識処理プログラム。
(付記１２) 付記９ないし付記１１のいずれか１に記載の文字認識処理方法において、
前記候補文字を選択する処理は、
前記選択に先立って、前記相対位置が同じである候補文字それぞれが持つ確信度に、当該候補文字に隣接する候補文字と当該候補文字とが配置の規則性を満たしている度合いに応じて前記確信度を高くする重みを与える
ことを特徴とする文字認識処理プログラム。

１…原稿；２…画像入力部；３…色分解画像生成部；４…ノイズ除去部；５…領域抽出部；１０…文字認識処理装置；１１…文字認識部；１２…選択部；１３…結合部；２１…プロセッサ；２２…メモリ；２３…ハードディスク装置(ＨＤＤ)；２４…表示制御部；２５…表示装置；２６…入力装置；２７…画像入力装置；２８…光学ドライブ；２９…通信制御部；３０…ネットワーク；３１…リムーバブルディスク

Claims

文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成する文字認識部と、
前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ前記各色分解画像の候補文字について、最大の確信度を持つ候補文字を選択する選択部と、
前記選択部によって選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する結合部と、
を備えたことを特徴とする文字認識処理装置。
文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成する文字認識部と、
前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択する選択部と、
前記選択部によって選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成する結合部と、を備え、
前記選択部は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
ことを特徴とする文字認識処理装置。
請求項１に記載の文字認識処理装置において、
前記選択部は、
前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
ことを特徴とする文字認識処理装置。
請求項１ないし請求項３の何れか１項に記載の文字認識処理装置において、
前記選択部は、
前記選択に先立って、前記相対位置が同じである候補文字それぞれが持つ確信度に、当該候補文字に隣接する候補文字と当該候補文字とが配置の規則性を満たしている度合いに応じて前記確信度を高くする重みを与える
ことを特徴とする文字認識処理装置。
文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成し、
前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択し、
前記選択処理で選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成し、
前記最大の確信度を持つ候補文字を選択する処理は、前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
ことを特徴とする文字認識処理方法。
文字列を含むカラー画像から生成される、それぞれ異なる色に対応する二値画像である複数の色分解画像それぞれに対して文字認識処理を行うことにより、前記複数の色分解画像それぞれに含まれるパターンに類似した文字を示す候補文字と当該候補文字の確からしさを示す確信度と当該候補文字の前記色分解画像における位置を示す情報とを含む認識結果を生成し、
前記複数の色分解画像から得られた候補文字の集合に含まれる、相対位置が同じ複数の候補文字について、最大の確信度を持つ候補文字を選択し、
前記選択処理で選択された候補文字を、前記相対位置に従って結合して、前記文字列を生成し、
前記最大の確信度を持つ候補文字を選択する処理は、前記選択に先立って、前記候補文字の集合に含まれる各候補文字が持つ確信度に、前記文字列に含まれる各文字の色の連続性を反映する重みを与える
処理をコンピュータに実行させる文字認識処理プログラム。