JP5754065B2

JP5754065B2 - 光学文字認識されるテキスト画像のテキスト解像度の改善方法及びシステム

Info

Publication number: JP5754065B2
Application number: JP2012557155A
Authority: JP
Inventors: ガーリック，ササ; ニジェムセヴィック，ジョルジェ; ドレセヴィック，ボーダン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2010-03-10
Filing date: 2011-03-07
Publication date: 2015-07-22
Anticipated expiration: 2031-03-07
Also published as: WO2011112522A3; CN102782706A; US8526732B2; KR20130016213A; JP2013527513A; CN102782706B; US20110222768A1; EP2545499B1; WO2011112522A2; EP2545499A4; CA2790402A1; ES2773719T3; KR101795823B1; EP2545499A2

Description

本発明は、光学文字認識に関し、具体的には、テキスト画像のテキスト解像度の改善に関する。

[0001]光学文字認識（ＯＣＲ）は、計算機を基本としたテキスト画像の変換であって、計算機上で編集可能なテキストとして通常の標準符号化方式であるデジタル形式へ変換する。この処理は、計算機システムに文書を手動で入力する必要性を省く。粗悪な画像品質、スキャン処理によって生じる不完全性などによって、異なる多くの問題が生じ得る。従来のＯＣＲエンジンは、例えば、テキストページをスキャンするフラットベッドスキャナーと接続され得る。ページがスキャナーのスキャン面に対し同一平面上に置かれるため、スキャナーによって生成される画像は、典型的に明暗差や輝度が等しい、スキューや歪みを抑えた高い解像度を示す。その結果、ＯＣＲエンジンは、画像中のテキストを容易に計算機上で編集可能なテキストへ変換可能となる。しかし画像が、明暗差、輝度、歪みなどに関して、より低品質である場合、ＯＣＲエンジン性能の低下が起こり得、画像中の画素すべてを処理するための実行時間も長くなり得る。これは、例えば、画像が撮像装置を基本とするスキャナーによって生成されたときに起こり得る。理由は、テキスト／画像が、遠くからスキャンされたり、様々な方向からスキャンされたり、様々な照明の中でスキャンされるためである。たとえスキャンの処理性能が良くても、相対的に低い品質のテキストページがスキャンされた場合、ＯＣＲエンジン性能の低下は起こり得る。

本発明の目的は、原文のテキスト行を含んでいる画像を受信することによって開始する、光学文字認識されるテキストの画像解像度の改善方法及びシステムを提供することである。

[0002]原画像の背景が検出されてフィルタリングされた場合でも、一方で残りのテキスト画素が統合され、ＯＣＲの処理精度が大幅に改善され得る。１つの実施例において、背景及びテキストの色分析結果を算出することによって背景が検出されてフィルタリングされる。その後、テキストの一画（ストローク）の画素を高精度で識別するストローク回復技術を利用し、テキストの解像度改善が実行される。

[0003]特定の一実施例において、光学文字認識されるテキストの画像解像度を改善する方法が、原文（ネイティブ）のテキスト行を含んでいる画像を受信することによって開始される。画像中の原文の行に沿って、背景の平均明度を表す背景の行分析結果が決定される。同様に、画像中の原文の行に沿って、文字表示部分（前景）の背景の平均明度を表す前景の行分析結果が決定される。背景の行分析結果及び前景の行分析結果の少なくとも一部に基づいて、画像中の画素が、画像の背景部分か前景部分かどちらか一方に割り当てられる。画像の背景部分に指定された画素の明度が、テキストを含んでいない画像部分を表す最大明度に調節される。

[0004]更に、別の特定の実施例において、背景及び前景の行分析結果が決定された後、画像中のテキストを表す連結部分のストロークの幅の平均値又は中央値が決定される。ストロークの幅の平均値又は中央値が閾値よりも小さい場合、テキストの品質が改善される
。テキストの品質が、例えば、画像補間を実行し、画像解像度を改善することによって改善され得る。

[0005]更に「発明を実施するための形態」に後述した概念の選択を簡易形式で紹介するために、この「課題を解決するための手段」を提供する。この「課題を解決するための手段」は、請求項記載対象の重要な特色も本質的な特徴も特定することも意図しておらず、請求項記載対象の範囲を決定するときの支援として使用されることも意図していない。

[0006]光学文字認識のシステムの一実例を示している。 [0007]処理に不適切なテキスト行の例を示している。 [0008]ＯＣＲ処理にとってより適切な図２のテキスト行の変換を示している。 [0009]テキストが背景よりも暗色であることを保証する画像変換を示している。 [0010]エッジ空間におけるテキスト行の表現例を示している。 [0011]図２の画像のグレースケール版である。 [0012]図６の原文の行の最左部分を示していて、局所的処理が大きさ２＊ｈ×ｈを有する矩形の上で実行される。 [0013]図７の原文のエッジ空間において表した行を示している。 [0014] 図８に示した連結部分を囲むボックスを示していて、エッジを含んでいる（暗色の）領域及びエッジを含んでいない（明色の）別の領域を定義している。 [0015]（ａ）図７の矩形の局所的領域に関する明度のヒストグラムである。（ｂ）図９のダークグレー領域に関するそれらの色の明度に対する画素の分布を例示しているヒストグラムである。（ｃ）図１０（ａ）のヒストグラムの換算値から図１０（ｂ）の２番目のヒストグラムの値を差引くことによって得られたヒストグラムである。 [0016]図６のテキスト行に対し算出される背景の行分析結果（上のライン）及び前景の行分析結果（下のライン）を示している。 [0017]暗色の背景上の明色のテキストに対し反転演算子を適用した結果を示している。 [0018]低品質のテキスト画像の例を示している。 [0019]図１３に示した画像に閾値化手順を適用した結果を示している。 [0020]前景の矢印が出ている単一の画素に対する局所的なストロークの幅を決定する方法を示している。 [0021]マッピングされる画像中の画素を示していて、補間される４つの画素集合である。 [0022]補間処理の歩みを例示している。 [0023]図の上部に表したテキスト画像に補間処理を適用した結果を例示している。 [0024]テキスト解像度を改善する処理が適用される語句を例示している。 [0025]テキストの解像度改善の処理を図２０に示した語句の最初の文字に画素を追加することによって表している。 [0026]（ａ）連結部分の例を示している。（ｂ）図２１（ａ）の連結部分に関するエッジ画素を示している。（ｃ）図２１（ａ）の連結部分のスケルトンを示している。 [0027]画素追加処理を図２０の連結部分のスケルトンに適用した結果を示している。 [0028]テキスト解像度を改善する処理を図１３に示した画像に適用した結果を示している。 [0029]光学文字認識されるテキスト画像に対しテキスト解像度を改善する処理を実行し得る画像処理装置の一例を示している。 [0030]光学文字認識されるテキストの画像解像度を改善する方法全体の一例を示す流れ図である。

[0031]図１は、画像中の光学文字認識（ＯＣＲ）システム（５）の例示的な一例を示していて、文書（１５）の画像を生成するデータキャプチャ設備（例えばスキャナー（１０））を含んでいる。スキャナー（１０）は、画像センサーとして電荷結合素子を利用して画像を生成する撮像装置を基本としたスキャナーであり得る。スキャナー（１０）が、画像を処理し、入力データを生成し、入力データを画像内部の文字を認識する処理に関する設備（例えばＯＣＲエンジン（２０））へ送信する。この特定の例において、ＯＣＲエンジン（２０）がスキャナー（１０）に組み込まれる。しかしながら、別の例において、ＯＣＲエンジン（２０）は、例えば、スタンドアロン装置のような個別の装置か又はＰＣ、サーバーのような別の装置に組み込まれる装置などがある。

[0032]原画像の背景が検出されてフィルタリングされた場合でも、一方で残りのテキスト画素が統合され、ＯＣＲの処理精度が大幅に改善され得る。以下、詳述する背景及びテキストの色分析結果を算出することによって背景が検出されてフィルタリングされる。その後、テキストのストロークの画素を高精度で識別するストローク回復技術を利用し、テキストの解像度改善が実行される。

[0033]このテキスト解像度を改善する処理に対する入力は、原文のテキスト行の画像である（「原文の行」の定義に関しては以下参照）。しかしながら、実際の処理を説明する前に数学的な概念をいくつか導入する。本発明の理解を容易にし、場合によっては説明をいくらか定式化するために、この論述を通して一般的なこれらの概念を利用する。

[0034]定義１．幅ｗ及び高さｈのデジタルカラー画像は、２つの独立変数のベクトル関数

である。ここで

であって、×はデカルト積を示している。
[0035]この定義はＲＧＢカラーシステムから導かれ、

の成分ｒ、ｇ、ｂはそれぞれ、赤、緑、及び青の成分に対応している。
[0036]定義２．幅Ｗ及び高さＨのグレースケールのデジタル画像は、２つの独立変数のスカラー関数

である。ここでＧＳは以下の場合がある。
−ＧＳ＝[ｇｌ，ｇ２]であって、グレースケール画像を２進、２レベル、又は２つの色調の画像として参照する。

−ＧＳ＝[ｇ１，ｇ２，ｇ３，．．．，ｇ１６]であって、グレースケール画像を１６レベルのグレースケール画像として参照する。
−ＧＳ＝[ｇｌ，ｇ２，ｇ３，．．．，ｇ２５６]であって、グレースケール画像を２５６レベルのグレースケール画像として参照する。

[0037]この段階で本明細書を通して使用される１つの慣習を導入する必要がある。画像を関数として考えるため、そのグラフィック表示の座標系を定義する必要がある。通常、画像の左上端を基準点として見なす。本明細書でもこの慣習に倣う。従って画像の左上端が原点として配置されているように扱う。

[0038]定義３．３つのペア（Ｉ（ｘ，ｙ），ｘ，ｙ）を画素と呼ぶ。ペア（ｘ，ｙ）を画素座標と呼ぶが、一方、Ｉ（ｘ，ｙ）を画素値と呼ぶ。
[0039]通常、座標、値、並びに座標及び値双方に関して用語「画素」を互換的に使用する。この様にいかなる混乱も生じることがないような場合、本明細書において用語「画素」を使用し、さもなければ、正確な用語を使用する。いかなる混乱も生じることがないような場合、記法Ｉ（ｘ，ｙ）も互換的に使用する。

[0040]上記３つの定義は、デジタル画像が何であるかに関する理解を与える。通常の画像処理タスクは、様々な結論を導き得る更なる解析をするための、より好都合な原画像表現をいくつかもたらす一連の変換である。以下の定義は、これらの変換を定式化する数学的手段を提供する。

[0041]定義４．Ωを大きさｗ及びｈを有する画像すべての集合とする。関数

をｎ変数の画像演算子と呼ぶ。ｎ＝１の場合、演算子は１変数であるが、ｎ＝２の場合、演算子は２変数である。
[0042]上記の定義は、演算子が変換規則の集合をいくつか使用し、画像（又はいくつかの画像）を別の画像へ変換する関数であることを意味している。最も重要な画像演算子は、フィルター基本演算子である。（カーネル又はマスクと呼ぶこともある）フィルターは、大きさがｎ×ｍのマトリクスＡ_ｎｍ

である。通常、ｎとｍは等しく、奇数であって、例えば、３×３、５×５、７×７のフィルターをもたらす。出力画像中の画素Ｉ_０（ｘ，ｙ）が、式

を使用して算出される規則を利用し、フィルター基本演算子が入力画像を変換する。ここで除算はすべて整数除算である。
[0043]言い換えると、出力画像中の画素は、フィルターを用いて入力画像中の対応する画素の近傍を畳み込むことによって構築される。

[0044]定義５．Ｉを幅ｗ及び高さｈの画像とし、Ｉ（ｘ，ｙ）を任意の画素とする。画素の集合｛Ｉ（ｘ＋１，ｙ），Ｉ（ｘ−１，ｙ），Ｉ（ｘ，ｙ＋１），Ｉ（ｘ，ｙ−１）｝をＩ（ｘ，ｙ）の４近傍と呼ぶ。同様に、画素の集合｛Ｉ（ｘ＋１，ｙ），Ｉ（ｘ−１，ｙ），Ｉ（ｘ，ｙ＋１），Ｉ（ｘ，ｙ−１），Ｉ（ｘ−１，ｙ−１），Ｉ（ｘ−１，ｙ＋１），Ｉ（ｘ＋１，ｙ−１），Ｉ（ｘ＋１，ｙ＋１）｝をＩ（ｘ，ｙ）の８近傍と呼ぶ。

[0045]近傍に関し文字通りの異なる定義が存在するが、しかしながら、これが後述するために最も好都合なため、以下の定義を使用する。
[0046]定義６．Ｉ（ｘ_２，ｙ_２）がＩ（ｘ_１，ｙ_１）の８近傍集合の要素であって、それらの画素値が「類似」している場合、２つの画素Ｉ（ｘ_ｌ，ｙ_１）及びＩ（ｘ_２，ｙ_２）は隣接している。

[0047]類似性に関する厳密な定義が存在しないため、引用に語句「類似」を使用する。もっと正確に言えば、この定義は、特定用途の要求に従って採用される。例えば、２つの画素値が同一である場合、これらは類似していると言うことができる。別の定義で言及されていない場合、本明細書を通してこの定義を想定する。

[0048]定義７．ｉ＝１，２，．．．，ｎ−１に対しＩ（ｘ_ｉ，ｙ_ｉ）とＩ（ｘ_ｉ＋１，ｙ_ｉ＋１）とが隣接している集合

が存在する場合、２つの画素Ｉ（ｘ_１，ｙ_１）とＩ（ｘ_ｎ，ｙ_ｎ）が連結される。
[0049]定義８．連結部分は画素の部分集合であって、集合にある画素それぞれが、集合にある残りの画素すべてと連結される。

[0050]テキスト画像中の背景をフィルタリングするために、きれいな汚れのない（例えば白色の）背景上にグレースケールのテキストを提供するための、テキストと背景との関係を理解する必要がある。図１を参照し、この要件を明確にできる。

[0051]図２に示したテキスト行の画像は、次に続く処理をするためには適切でない。その画像が図３に示した画像に変換され得る場合、ＯＣＲ処理におけるその次のステップが、より単純かつ、より正確になり得る。更に、テキストは、背景よりも暗色であると仮定
する方が好都合である。実際、テキストがこのような場合、テキストと背景の組み合わせすべてが一様に処理され得る。従って、必要なときに図４に示した画像変換が実行される必要がある。

[0052]テキスト画像の背景をフィルタリングするためにテキストと背景との（色に関する）関係が決定される必要があることと、テキストの解像度を改善する処理が暗色のテキストが白の背景に提示される画像を製造することと、が前述から明らかであろう。以下の節において、テキストと背景との関係に関する検出を記載する。
テキスト行の分析
[0053]最初に留意するべきことは、テキスト行の画像が、テキストから成るものと、背景から成るものと、の２つの画素タイプを有していることである。テキストと背景との間のエッジには、急激な色変化も存在する。これが、エッジ空間においてテキスト行が観測され得る結果をもたらす。様々な周知のエッジ検出技法のいずれかを利用し、エッジ空間における行の表現を取得し得る。図５にエッジ空間における行の表現例を示している。

[0054]図５にテキストの重要な特徴すべてが維持されていることは明らかである。文字は主に、エッジ空間において連結部分として表されている。更に、エッジ空間におけるテキストの特徴表現は、テキストと背景との関係とは無関係である（例えば、どちらがより暗色か無関係である）。従って、以下の定義を定式化できる。

[0055]定義９．原文の行は、テキスト行の画像のエッジ空間において、すべて連結した部分の集合となる。
[0056]ＣＣ_ｉはｉ番目の連結部分であって、ｎｌが原文の行の場合、行は

を保持している。
[0057]原文の行に対する行の分析手順を開始し、以下の定義式に定義される行の分析結
果を生成する。

[0058]定義１０．ｎｌを原文の行とし、

を、対応する幅ｗ及び高さｈを有する原文の行の画像とする。
以下の条件

を満足している場合、関数

及び

である。ここで

及び

を前景の行分析結果及び背景の行分析結果と呼ぶ。ここでＦＰ（ｘ_０）は、座標ｘ＝ｘ_０を有する原文の行の画像にある前景の画素すべての集合であって、ＢＰ（ｘ_０）は、座標ｘ＝ｘ_０を有する原文の行の画像にある背景の画素すべての集合である。

[0059]つまり分析関数は、特定の画像の欄に対する背景又は前景の平均明度を反映している。
[0060]図２の画像のグレースケール版である図６を参照した後、行の分析結果を導入する重要性を明確にする必要がある。多くの場合、テキストの色の明度及び背景色明度が水平軸に沿ってほぼ一様であることが妥当な想定であるが、図６の場合、この仮定は成立しない。画像の左側の背景の平均明度は約１９０であるが、一方、画像の右側の平均明度は（差がグレースケール範囲全体０〜２５５の３分の１よりも大きい）約１００である。

[0061]かくして図６の場合、単一の値を有する背景明度を画像全体に渡った近似は、精度において大きな損失を生じ、その後の処理段階において、最も信頼できる情報が取得できないことになる。これが行の分析結果を導入する理由である。行の分析手順は、行の分析結果を評価するための方法であってこれを後述する。

[0062]この段階において処理中の前景の画素及び背景の画素に関する情報不足のため、特定の公式を使用して定義１０に導入した行の分析結果を算出することは難しい。したが
って、ある種の見積りを実行する必要がある。

[0063]原文の行全体に色の大きな変化が存在し得るが、最初に観測するべきことは、比較的小さな局所的領域に渡って色がほとんど一定なことである。その局所的領域、例えば、ｈの数倍に等しい幅と、ｈと等しい高さ（ここでｈは行の高さ）とを有する矩形が選定された場合、その小さな部分に対する局所的な処理が実行され得る。

[0064]色の変化は、数文字の幅に比例した距離に渡って相対的に大きくあり得ない、という仮定に従って矩形の大きさが選定される。局所的処理は、矩形上で実行した処理が支配的な背景色に関するものと支配的な前景色に関するものと、の２つの値を生じることを意味している。対応している矩形全域に渡って行の分析結果の値を近似するためにこれら２つの結果を利用する。このような矩形の一例を図７に示している。

[0065]図７は、図６の原文の行の最左部分を示していて、選定した矩形は、２＊ｈ×ｈの大きさを有している。局所的処理が、支配的な前景色及び背景色としてｄｆ及びｄｂそれぞれを生じた場合、以下の近似

が利用される。
[0066]この近似は、行の分析に関する階段状の近似をもたらす。ｄｆ及びｄｂの値を算出するためには、図８に示したエッジ空間において図７の矩形が表されなければならない。別の近似も使用され得る。例えば、区分的な線形近似は、多くの処理時間を要求し得るが、より良好な結果を与え得る。

[0067]図８の３つの内部の矩形は、連結部分の表示ボックスに対応している。これらのボックスは異なる２つの領域を定義していて、１つがエッジを含んでいる領域でもう１つがエッジを含んでいない領域である。これらの領域を図９に例示する。図９のダークグレーの領域はエッジ領域に対応しているが、一方のライトグレーの領域は非エッジ領域に対応している。

[0068]次に図７の矩形の局所的領域に対し、それらの色の明度に関する画素分布を例示するヒストグラムが算出される。図９のグレー領域だけに対し、それらの色の明度に関する画素分布を例示する別のヒストグラムが算出される。第１のヒストグラムの換算値から第２のヒストグラムの値を差し引くことによって更に別のヒストグラムが得られる。算出されたヒストグラムを図１０ａ、１０ｂ、及び１０ｃに示している。

[0069]図１０ｃのヒストグラムは、図９のライトグレーの領域のヒストグラムである（これは前述した減算処理によってヒストグラムが生成された理由による）。エッジが文字と背景との境界だけに見つかるため、これはエッジを含んでいない領域であって、文字のない領域を意味している。つまり、これが背景に対応している領域である。図１０ａ及び１０ｂのヒストグラムを更に詳細に論述することによってこれを例証する。

[0070]図１０ａのヒストグラムは、図７の矩形全体に関する画素明度の分布を表してい
る。示したように、背景の画素によってもたらされる１つのピークが存在する。厳密に言うと、この支配的なピークの存在は規則的ではないので（十分に線が太いテキストを考えられたい）、これが実際に背景を表しているとはまだ仮定されない。テキスト及び背景並びにこれらの混合によってもたらされるピークの左側に比較的変化が少ないヒストグラムの一部が存在する。

[0071]ヒストグラム１０ｂは、図９に示した矩形内部のエッジ領域に対応している画素に関する明度分布を表す。このヒストグラムは、背景のピークが十分に支配的ではないことを除くと、１０ａのピークと非常に類似して見える。３番目のヒストグラム（図１０ｃ）が最も重要である。前述したように、これが背景の画素に対応している。テキストとテキストの背景との混合から生じた部分は、ヒストグラムの減算処理によって完全に打ち消される（図１０ａには、変化が少ない領域が存在していないことに留意されたい）。ヒストグラム中、最大のピークに対応している特定の値の範囲（瓶）が、背景色の支配的な明度を与える。これは、この例において１９０である。

[0072]背景のダイナミックレンジも図１０ｃのヒストグラムから取得され得る。明度を０から始めて検査し、０でない画素数を有する最初の瓶に関する明度値を発見することによって、ダイナミックレンジを見出し得る。図１０ｃにおいて、この値は１５０である。その後、画素数が０に戻るその次の瓶に関する明度値を見出す。図１０ｃにおいて、この値は２３０である。かくして、ダイナミックレンジは[１５０，２３０]である。この範囲外にあるヒストグラム１０ｂの明度値が、前景のテキスト画素によってもたらされる。前景の画素から生じた二次のピークの最大値に対応している図１０ｂのヒストグラムの瓶は、この例において４７であって、支配的な背景色の明度に対応している。

[0073]この処理を、原文の行の局所的領域（例えば図７の矩形）それぞれに適用することによって、前景及び背景の行分析結果に関する見積りが取得され得る。これらの見積りを取得するために必要な処理すべてが、単純なヒストグラム操作、すなわち、ヒストグラムの算出、ヒストグラムの減算、及び最大値の抽出に依存していることに留意されたい。いかなる複雑な動作（例えば、ピーク検出、ピーク幅評価、変化が少ない領域検出）も実行されず、かくして複雑な解析から生じる可能性があるエラーに関する余地もほとんど残さない。図６のテキスト行に関して算出された背景及び前景の行分析結果を図１１に表す。ここで上側の行が背景の行分析結果を表していて下位の行が前景の行分析結果を表している。

[0074]この段階で追加的な１つのステップを実行する必要がある。すなわち、テキストと背景との関係が容易に抽出され得、２つの行の分析結果の間の関係を観測することによって、どれがより暗色か決定し得る。暗色の背景上に明色のテキストが見つかった場合、画像反転演算子

が適用され得る。
この演算子は

として定義される。
[0075]この演算子を適用した結果を図１２に示している。この反転が実行された後は、必要なときに明色の背景上に暗色のテキストが現れていることを支障なく仮定できる。背景及び前景の行分析結果が、一旦算出（必要なときに画像反転が実行）されると、後述する閾値化を利用し、背景がフィルタリングされ得る。
閾値化
[0076]行の分析結果が、一旦算出されると、背景のフィルタリング処理は非常に簡単である。

関数

が、画素それぞれに適用され、

として定義される。
[0077]つまり、前景及び背景の分析結果の平均値よりも小さな画素明度値を有する画素それぞれが、そのまま残っているが、一方、その他の画素は変更され、それらが最大密度を有しているように見える。すなわち、これらは白色に変更される。この種の閾値化は、画素の画素値に基づいてそれらを前景か背景として分類する処理として見なされ得る。画素が前景の画素として分類された場合、その値は変更されず、画素が背景の画素として分類された場合、その値は白に変更される。

[0078]実施例の中には、前景及び背景の分析結果の平均として閾値を確立する代わりに、より一般に、前景及び背景の分析結果から決定される別のパラメーターがいくつか選定され得るものもある。

[0079]図３に示した画像は、前述の閾値化技法を使用して取得されている。この技法は非常に良好な結果を生じる。しかしながら、低品質の画像に対するその適用は、常に条件を満足するわけでなくて、このような画像には、後述されるテキストの解像度改善技法がいくつか適用される。
低品質のテキスト解像度の改善
[0080]図１３は低品質のテキスト画像の例を示している。この画像に対し前述の閾値化手順を適用した結果を図１４に示す。明らかに結果の画像は低品質である。画像が人間にとっても大部分が読みにくいため、その後、いずれかの処理段階で最終的に間違った決定をすることになる。不十分な結果となる理由は明確である。図１３において、テキストのストロークを構成する画素値は大きな変化を有している。これらのいくつかは、前景の画
素よりも背景の画素とより類似していて、ノイズ画素の中に前景の画素値と類似した値を有しているものもある。加えて、ストロークの幅は極度に小さく、完全なテキストの状態をもたらさない。

[0081]前述した閾値化の手順は、局所的な背景及び前景の分析の途中で閾値化関数に対する定数値を使用する。低品質のテキスト画像に関連する課題の克服に向けた一アプローチは、異なる画像に対する閾値を調節可能なように、閾値化手順をより適応型にすることである。残念ながらこれを効果的に達成するためには、普通はより多くの文脈情報が必要である。閾値化処理に対する一代替手段は、より知的（かつ、より集約的）な処理を使用し、低品質の画像を検出し、より良質な背景のフィルタリングを提供することを含んでいる。低品質のテキスト画像の検出方法を論述した後、このような代替処理を記載する。
低品質のテキスト検出
[0082]低品質のテキスト画像を検出するときの最初のステップは、このような画像の品質を低くする特徴を識別することを含んでいる。このようなテキスト画像は、前述したようなストロークの小さな幅及びテキストの色の大きな変化によって特徴付けられる。ストロークの幅がより大きい場合、前述した閾値化処理が「細字」の文字表示を生じるが、しかしながらそれらは、依然として判読可能である。これは、色の小さな変化に関しても当てはまる。低品質のテキスト画像の主な特徴は、色の明度の大きな変化と組み合わせたストロークの小さな幅であると結論づけられ得る。

[0083]もうひとつ留意するべきことは、図１４に示した閾値化手順の結果である。文字の一部において小さな（典型的に２〜３の画素よりも小さな）幅を有するストロークをこの手順が生じることは明らかである。この画像上の「ストローク」の幅の中央値を算出することによってテキストの品質は評価され得る。

[0084]ストロークの幅を評価するための手順を説明するためには以下の定義が必要である。
[0085]定義１１．

を連結部分とする。

それぞれが、（ｘ_ｉ，ｙ_ｉ）のｃｃのエッジ画素と呼ばれる８近傍集合に属している

が存在する。
[0086]図１４の前景の画素のエッジすべてに関する局所的なストロークの幅を算出することによってストロークの幅の評価手順を始める。これは、図１５に例示した前景の矢印
が出ている単一の画素に対して可能なすべての方向のストロークの幅を算出することによって達成され得る。

[0087]前景の選定した画素で始まる、９０度の向きの隣接した画素が検査される。背景の画素に達する前に連続した一連の３つの前景の画素が垂直方向に存在する。同様に、０度方向に２つの前景の画素があって、４５度方向に１つの前景の画素があって、１３５度方向に３つの前景の画素が広がっている。これら４つの値の間から最小値（この場合１）が、選定した画素に対する局所的なストロークの幅として選定される。この同一の手順がエッジ画素すべてに適用され、その結果、局所的なストロークの幅の集合を生成する。テキストのストロークの幅全体の良好な評価は、この値の集合の中央値であって、ＳＷ_ｏｒで示されている。

[0088]ＳＷ_ｏｒが一旦算出されると、テキスト画像の品質を調査するために必要なデータすべてが利用可能である。ＳＷ_ｏｒが、ある所定の閾値ＳＷ_ｔｒよりも小さい場合、その画像は低品質の画像であると考えられ得る。ＳＷ_ｔｒの選択は残りの処理に影響を及ぼす。ＳＷ_ｔｒに対してより小さな値が選択されると、原文の行の少数の画像が低品質であると見なされる。これは、より少ないその後の処理を意味しているが、同時に原文の行の画像のいくつか解像度を「改善しないまま」にしておくことを意味している。一方、ＳＷ_ｔｒに関してより大きな値が選択された場合、より大きな処理能力に相当する代償を払ってより多くの原文の行の解像度が改善される。実施例の中には、範囲

の中に適切な妥協値があるものもある。
[0089]低品質の画像が、一旦検出されると、テキストの解像度を改善する方法が適用され得る。テキストの解像度を改善するための例示的な２つの方法を後述する。第１の方法は、要求される処理能力が非常に正確であるが、しかしながら高価であって、一方、第２の方法は、より効率的であるが、しかしながらいくらか精度が落ちる。
テキストの正確な解像度改善
[0090]テキストの解像度改善コンポーネントへ渡される画像は、ストロークの幅ＳＷ_ｏｒを有していて、所定のいくつかの閾値よりも小さい。これは、処理時にわずかな自由度しかないことを意味している。この課題を克服するための一方法は、画像補間を実行することである。画像補間は、画像解像度を改善するための技法である。多くの補間技法が利用可能であるが、適切な一例は、双線形補間であって非常に単純であるが、それにもかかわらず、テキストの解像度改善処理に関する必要性に応えるためには十分強力である。

[0091]例として解像度が、係数によって双方向（ｘ方向及びｙ方向）に大きくなるように補間される画像を仮定されたい。これは、元の画像中の画素それぞれが、補間される画像中の４つの画素集合へマッピングされることを意味している。この処理を図１６に例示する。

[0092]双線形補間処理における第１段階は、原画像中の座標（ｘ，ｙ）における画素値を、出力画像中の座標（２ｘ，２ｙ）へマッピングすることである。この処理を図１７ａに示す。少し陰影のある矩形を含んでいる画素は、割り当てられた値を持たない画素である。このようにして出力画素の４分の１が適切な画素値が割り当てられる。マッピング又は複製が割り当てられた２つの画素の間に位置付けられている（これらは、少なくとも１つの等しい座標を有する画素である）画素をいくつか出力画像中に生じることに留意されたい。これらの画素値は、それらに隣接した画素に割り当てられた平均値として算出され
得る（図１７ｂ参照）。現段階では出力画像中、奇数の座標を有する画素だけが割り当てられていないままである。これらの画素値が、４近傍集合の中の画素の画素値すべての平均として算出され得る。双線形補間処理のこの最終段階は、補間された画像（図１７ｃ）をもたらす。図１７ｃの最終的な画像は、画素値が図に示していない画素値と関係しているため、割り当てられた値をまったく持たない画素をいくつか有する。

[0093]図１８の下部には、補間処理を図の上部に示したテキスト画像に適用した結果を示している。
[0094]画像補間を低品質のテキスト画像に適用することによって生じる好都合な一副作用は、補間処理の影響の本質的な平滑化である。これがテキストの色の明度において、よりわずかな差異を有する画像を生じ、低品質のテキストを持つ課題の１つであった。

[0095]現段階では、テキストの解像度改善処理において補間画像に関する以下の情報が既知である。
−背景の行分析結果ＢＬＰ（ｘ）
−前景の行分析結果ＦＬＰ（ｘ）
−ストロークの幅ＳＷ_ｔｒ＝２＊ＳＷ_ｏｒ＋１
[0096]閾値化アルゴリズムが、テキストを損なっている版を製造するため、（ＢＬＰ（ｘ）＋ＦＬＰ（ｘ））/２よりも小さな画素すべてはテキストの一部であると支障なく見みなされ得、０の値が割り当てられ得る。同様に、ＢＬＰ（ｘ）よりも大きな値を有する画素は背景の画素として分類され得、２５５の値が割り当てられ得る。しかしながら、（（ＢＬＰ（ｘ）＋ＦＬＰ（ｘ））／２からＢＬＰ（ｘ））＝（Ｌ_１（ｘ），Ｌ_２（ｘ））の範囲内の値を有する画素は、分類に関しては疑わしく、それらがテキスト又は背景に属しているか否か決定するための付加的な処理がいくつか必要である。

[0097]これらの画素を処理しやすい、かつ、便利な方法で分類するために画素の色解像度を方程式

を使用し、前述した不確定な範囲全域に渡って有限数の明度間隔ｎに分割可能である。
ここで

かつ

である。
[0098]明度間隔の大きさを決定するパラメーターはｎであって、少数の明度間隔を生成
するように選択される必要がある。実施例の中には、例えば、良好な選択が

であり得るものもある。図１９及び図２０に関連して記載した方法で明度をｎ個の間隔に分割することによって、色の解像度の低減が使用され得、テキストの品質を改善する。
[0099]ここでテキストの解像度改善処理が図１９の文字Ｆに適用される。図２０は、この文字に画素を追加することによる処理を示している。第１の間隔ΔＩ内の明度を持った画素が、図２０の最左の文字に追加される。第２の間隔ΔＩ内の明度を持った画素が、図２０の左から２番目の文字に追加される。より高い次の明度間隔それぞれの範囲内の画素を図中の次の文字それぞれに追加することによってこの処理を繰り返す。

[00100]図２０は、この様にして画素を追加した結果を明確に例示している。具体的には、画素が追加されるにつれて、文字Ｆが、ますますはっきりするようになる。個別の文字の解像度を改善するか又は再構築するために、この処理を使用することは明らかであるが一方、文字が背景の中に「リーク」し始めたときか又は他方に接触し始めたとき、問題が生じる。これを回避するために、追加の画素を追加する必要がなくなるタイミングを決定する、ある種の停止基準を使用する必要がある。以下の定義は、適切な停止基準を取得するとき、有用である。

[00101]定義１２．ｃｃを連結部分とする。異なる２つのｃｃのエッジ画素から等しい距離にある連結部分に属する画素集合をｃｃのスケルトンと呼ぶ。
[00102]図２１ａは、連結部分の例を示している。図２１ｂにおいて、より暗色の画素が、この連結部分に対するエッジ画素であって、図２１ｃにおいて斜交平行の画素が連結部分のスケルトンを表している。

[00103]観察するべき１つは、画素の追加処理が、そのスケルトンに何の影響も与えないことである。図２０の画素追加処理に対応する連結部分のスケルトンを示している図２２において、これを確かめることができる。画素を追加するステップそれぞれにおいて連結部分のスケルトンは、大部分が同一のままである。変化したことは、スケルトン画素とエッジ画素との間の距離である。追加される画素が多ければ多いほど、スケルトン画素とエッジ画素との間の距離は大きくなる。

[00104]現段階で、この連結部分のストロークの幅ＳＷ_hｒが既に算出されていることを再度呼び出すことが重要である。あるスケルトン画素が、わずかでもエッジ画素からの距離ＳＷ_hｒ／２を超えた場合、画素の追加処理を終了する要求を出すことが妥当である。この値を超えた場合、連結部分が背景の中に「リーク」し始める。したがって、この段階でそれ以上の画素を文字に追加する必要がない。

[00105]上述を踏まえると、テキストの解像度改善アルゴリズムは、以下のように定式化され得る。
１）低品質のテキスト画像を２倍の高解像度で補間する。

２）テキスト画像の色解像度を有限数の明度間隔を定義することによって小さくする。
３）画像中の最暗色の画素（例えば、０の明度を持った画素）だけから形成される連結部分すべてを識別する。これらの連結部分を基線となる連結部分として参照する。

４）基線となる連結部分それぞれに対し、以下のステップを実行する。
ａ．連結部分のスケルトンを算出する。
ｂ．スケルトン中の画素がエッジ画素から距離ＳＷ_ｔｒ／２よりも近くにある場合、次の明度間隔（現在のＩ＋ΔＩ）に属する隣接した画素を現在の連結部分に追加することによって、新たな連結部分を生成する。

ｃ．停止基準の条件が満たされるまでステップａ及びステップｂを繰り返す。すなわち、エッジ画素からＳＷ_ｔｒ／２よりも離れたスケルトン画素が存在している場合、処理を停止する。

[00106]基線となる連結部分すべてが、一旦処理されると、この様にしてテキストの解像度改善処理が終了する。この処理を図１３で示した画像に適用した結果を図２３に例示する。
効率的なテキスト解像度の改善
[00107]ストロークの回復を使用し、テキストの画像解像度を改善するための前述のアルゴリズムは、多くの場合、非常に良好な結果を提供し得る。しかしながら、欠点の１つがアルゴリズムの計算量である。この節では、（処理能力に関し）安価なアルゴリズムの一変形であるが、しかしながら同程度の品質を有するアルゴリズムを記載する。

[00108]前述のアプローチに見られるように、このアプローチは、前述した方法で画像補間を実行し、色解像度を有限数の間隔に分割する。しかしながら、前節に記載したアルゴリズムは、基線となる連結部分に適用される再帰的処理がスケルトン算出を含んでいるために時間がかかる。スケルトンが欠くことのできない停止基準の一部であるため、アルゴリズムの計算量を減少させるための別の異形の停止基準が使用され得るものもある。
一アプローチを後述する。

[00109]色解像度を小さくした後も色集合がわずかに残っている。２５５の明度を持った画素（白い画素）すべてが背景の一部であると見なされる。明度０を有する画素（黒い画素）すべてがテキスト画素であると見なされる。疑わしいものはグレーの画素である。再度、図１９を参照すると、厳密なスケルトン算出を実行する必要性を回避する一方法は、評価結果を取得する間、完全な白色でない画素から成る（グレーの画素それぞれに対し）その画素の中心にある最大の矩形を見出すことである。ａ（ｘ，ｙ）を画素Ｉ（ｘ，ｙ）に関する矩形の大きさとする。条件

を満たす矩形を有する画素すべては、ほぼ確実にテキストの一部か又は背景の変化が少ないノイズ領域である。この集合を

として示す。ここで画素すべては

のような

である。ここで

が集合に追加されている。つまり、集合Ａ内の画素付近にある画素すべてが追加されるが、これは前述したアルゴリズムで画素を追加する手順に対する代替手段である。集合Ａは、背景の中に「リーク」が生じないことを確実にするためにフィルタリングされ得る。この様にして集合にある画素は、最も近くのエッジから画素までの距離がＳＷ_ｔｒよりも大きい場合、除去され得る。この様にしてテキストから変化が少ないノイズ領域が除去される。

[00110]このアルゴリズムは、より正確な前述のアルゴリズムと類似している。しかしながら、再帰的な計算を実行する代わりにワンステップ近似が、ある間隔範囲内にある画素集合それぞれが追加される前に適用され、より短い処理時間をもたらす。このアルゴリズムを低品質のテキスト画像に適用することによって達成される結果は、図２３に示した正確なアルゴリズムを適用することによって達成される結果と類似することがわかっている。

[00111]図２４は、光学文字認識されるテキスト画像に対し、前述したテキストの解像度改善処理を実行し得る画像処理装置（３００）の一例を示している。ＯＣＲエンジンに組み込まれ得る装置は、原文のテキスト行を有する入力画像を受信するための入力コンポーネント（２０２）を含んでいる。装置は、背景及び前景の行分析コンポーネント（２０４）、画質検出コンポーネント（２０６）、閾値化コンポーネント（２０８）、及びストローク解像度改善コンポーネント（２１０）も含む。その後、ＯＣＲエンジンのコンポーネントによって使用され得る出力コンポーネント（２１２）が、出力として解像度を改善した画像を生成する。

[00112]図２５は、光学文字認識されるテキストの画像解像度を改善するための方法全体の一例を示す流れ図である。本方法は、図２４に示した画像処理装置によって実施され得る。本方法は、ステップ（３０５）において、原文のテキスト行の画像が入力コンポーネント（２０２）によって受信されたとき、開始する。その後、ステップ（３１０）において、行分析コンポーネント（２０４）は、原文の行に対しエッジ検出を実行し、原文の行のエッジ空間における表現を生成する。ステップ（３１５）において、次に行分析コンポーネント（２０４）は、エッジ空間において原文の行の表現に生じた連結部分それぞれを識別する。ステップ（３１０）及び（３１５）で取得された情報を使用し、ステップ（３２０）において、行分析コンポーネント（２０４）が、前述した方法によって背景及び前景の行分析結果を決定する。行の分析結果が、一旦決定されると、ステップ（３２５）において、画質検出コンポーネント（２０６）が、画像の品質が十分か決定し、行の分析結果に基づいて画素を画像の背景部分又は前景部分に割り当てる。前述したように画質を決定するために使用され得る一評価基準が連結部分のストロークの幅である。決定ステップ（３３０）で画質が十分に高いことを見出した場合、ステップ（３３５）において、閾値化コンポーネント（２０８）は、画素が画像の前景部分か背景部分のどちらか一方に割
り当てる。一方、画質が十分に高くない場合、ステップ（３４０）において、連結部分のストロークの幅の解像度を改善するストローク解像度改善コンポーネント（２１０）が実行され、画像解像度が改善される。最後にステップ（３４５）において、その後、ＯＣＲエンジンのコンポーネントが使用し得る出力コンポーネント（２１２）が、解像度を改善した画像を生成する。

[00113]本出願において使用した用語「コンポーネント」、「モジュール」、「システム」、「装置」、「インターフェース」などは、一般に、計算機に関連する実体、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアを参照するように意図されている。例えば、コンポーネントは、プロセッサー上で実行するプロセス、プロセッサー、オブジェクト、実行可能オブジェクト、実行スレッド、プログラム、及び／又は計算機であり得るがこれらに限定しない。例示によってコントローラー上で実行するアプリケーション及びコントローラー双方はコンポーネントであり得る。１つ以上のコンポーネントがプロセス及び／又は実行スレッド内部に常駐し得、コンポーネントは、１つの計算機上で局所化され得、及び／又は２つ以上の計算機の間に分散され得る。

[00114]更に、請求項記載対象は、開示した対象項目を実施するための計算機を制御するためのソフトウェア、ファームウェア、ハードウェア、又はその任意の組み合わせを製造する標準プログラミング及び／又はエンジニアリング技法を使用した方法、装置、又は製品として実装され得る。本明細書において使用した用語「製品」は、任意の計算機可読装置、搬送装置、又は媒体からアクセス可能な計算機プログラムを包含するように意図されている。計算機可読媒体は、例えば、磁気記憶装置（例えば、ハードディスク、フロッピーディスク、磁気ストライプなど）、光学式ディスク（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）など）、スマートカード、及びフラッシュメモリー装置（例えば、カード、スティック、キードライブなど）を含み得るがこれらに限定しない。当然のこととして当業者は、請求項記載対象の範囲及び趣旨から逸脱せずに、この構成に対する多くの修正が実行されることを認めよう。

[00115]対象項目が構造的な機能及び／又は方法論的な動作に対し特定の言語で記述されているが、添付の請求項に定義した対象項目は、必ずしも前述した特定の機能又は動作に限定されるわけではないことが理解されよう。より具体的に言うと、本請求項の実施形式の例として前述した特定の機能及び動作が開示されている。

５光学文字認識（ＯＣＲ）システム
１０スキャナー
１５文書
２０ＯＣＲエンジン
２０２入力コンポーネント
２０４分析コンポーネント
２０６画質検出コンポーネント
２０８閾値化コンポーネント
２１０解像度改善コンポーネント
２１２出力コンポーネント
３００画像処理装置

Claims

光学文字認識されるテキスト画像の解像度を改善するための方法であって、
原文のテキスト行を含んでいる画像を受け取るステップと、
前記画像中の前記原文の行に沿って、平均の背景明度を表す背景の行分析結果を決定するステップと、
前記画像中の前記原文の行に沿って、平均の前景明度を表す前景の行分析結果を決定するステップと、
前記画像中のテキストを表す連結部分のストロークの幅の平均値又は中央値を推定するステップと、
前記ストロークの幅の平均値又は中央値が閾値よりも小さい場合、テキスト品質を改善するステップと
を含み、前記改善するステップは、
選定したパラメーターよりも小さな明度を持った前記画像中の画素を前記画像の前景部分に割り当てるステップであって、前記選定したパラメーターが、前記背景の行分析結果及び前記前景の行分析結果から少なくとも部分的に決定される、ステップと、
前記背景の行分析結果よりも大きな明度を持った前記画像中の画素を前記画像の背景部分に割り当てるステップと、
前記選定したパラメーターと前記背景の行分析結果との間の明度を持った選定された画素をエッジ空間において表される前記原文の行の基線となる連結部分に割り当てるステップと
を含む方法。
前記前景の明度値に割り当てられた各々の画素に対する局所的なストロークの幅を決定することによって、前記画像中のテキストを表す前記連結部分のストロークの幅の平均値又は中央値を推定し、前記ストロークの幅の平均値又は中央値が閾値よりも小さい場合、テキスト品質を改善するステップをさらに含む請求項１に記載の方法。
前記テキスト品質を改善するステップが、画像解像度を改善するための画像補間を実行するステップを含む請求項１又は２に記載の方法。
前記画像補間が、前記画像中の各画素を少なくとも２つの画素の集合にマッピングする双線形補間である請求項３に記載の方法。
前記選定したパラメーターと前記背景の行分析結果との間の明度を持った選定された画素を割り当てるステップは、次第に高くなる明度内の画素集合を次第に追加することによって実行され、各集合が、明度間隔の有限集合のうち１つの範囲内の明度を持った画素を定義している、ステップと
をさらに含む請求項１〜４のいずれか一項に記載の方法。
前記基線となる連結部分のエッジ画素とスケルトン画素との間の距離が、前記ストロークの幅の平均値又は中央値の２分の１よりも大きい場合、選定した画素を前記基線となる連結部分の少なくとも１つに割り当てることを終了するステップをさらに含む請求項５に記載の方法。
光学文字認識されるテキスト画像の解像度を改善する、プロセッサー及び記憶装置を備えるシステムであって、
原文のテキスト行を有する入力画像を受け取る、前記記憶装置に格納されて前記プロセッサーによって実行される入力コンポーネントと、
前記画像中の平均の背景及び前景の明度をそれぞれ表す背景及び前景の行分析結果を決定する、前記記憶装置に格納されて前記プロセッサーによって実行される背景及び前景の行分析コンポーネントと、
ストロークの幅の平均値又は中央値に基づいて及び前記背景及び前景の明度の変化に基づいて、前記画像の品質が閾値を満たすか否か決定する、前記記憶装置に格納されて前記プロセッサーによって実行される画質検出コンポーネントと、
前記背景及び前景の行分析結果に基づいて、画素を前記画像の背景部分か前景部分のどちらか一方に割り当てる、前記記憶装置に格納されて前記プロセッサーによって実行される閾値化コンポーネントと、
前記画質検出コンポーネントが、前記画像の品質が閾値を満たすことを決定した場合、前記画像中のテキストを表している連結部分のストロークの解像度を改善する、前記記憶装置に格納されて前記プロセッサーによって実行されるストローク解像度改善コンポーネントと
を具備するシステム。
前記画質検出コンポーネントが、前記画像中のテキストを表している前記連結部分のストロークの幅の平均値又は中央値を推定し、ストロークの幅の平均値又は中央値を閾値と比較することによって、前記画像の品質を決定する請求項７に記載のシステム。
前記背景及び前景の行分析コンポーネントが、エッジ空間において表された前記原文の行の各々に沿って、複数の局所的領域に対する複数の背景及び前景の明度値を決定するようにさらに構成され、各局所的領域が、所定の値よりも小さいか又は等しい大きさを有する請求項７又は８に記載のシステム。
前記背景及び前景の行分析コンポーネントが、
各局所的領域について、それぞれの局所的領域に配置される連結部分をそれぞれが囲む境界ボックス内の画素の明度値のヒストグラムを用意することであって、前記ヒストグラムは定義された範囲内の明度を有する画素を含む支配的なピークを有する、ヒストグラムを用意することと、
各境界ボックスについて、前記定義された範囲内の明度値を有する画素を前記背景の明度値に割り当て、残りの画素を前記前景の明度値に割り当てることと
によって、前記複数の局所的領域についての前記複数の背景及び前景の明度値を決定するようにさらに構成される請求項９に記載のシステム。