JP5754065B2 - 光学文字認識されるテキスト画像のテキスト解像度の改善方法及びシステム - Google Patents

光学文字認識されるテキスト画像のテキスト解像度の改善方法及びシステム Download PDF

Info

Publication number
JP5754065B2
JP5754065B2 JP2012557155A JP2012557155A JP5754065B2 JP 5754065 B2 JP5754065 B2 JP 5754065B2 JP 2012557155 A JP2012557155 A JP 2012557155A JP 2012557155 A JP2012557155 A JP 2012557155A JP 5754065 B2 JP5754065 B2 JP 5754065B2
Authority
JP
Japan
Prior art keywords
image
text
background
foreground
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012557155A
Other languages
English (en)
Other versions
JP2013527513A (ja
JP2013527513A5 (ja
Inventor
ガーリック,ササ
ニジェムセヴィック,ジョルジェ
ドレセヴィック,ボーダン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2013527513A publication Critical patent/JP2013527513A/ja
Publication of JP2013527513A5 publication Critical patent/JP2013527513A5/ja
Application granted granted Critical
Publication of JP5754065B2 publication Critical patent/JP5754065B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/01Solutions for problems related to non-uniform document background
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、光学文字認識に関し、具体的には、テキスト画像のテキスト解像度の改善に関する。
[0001]光学文字認識(OCR)は、計算機を基本としたテキスト画像の変換であって、計算機上で編集可能なテキストとして通常の標準符号化方式であるデジタル形式へ変換する。この処理は、計算機システムに文書を手動で入力する必要性を省く。粗悪な画像品質、スキャン処理によって生じる不完全性などによって、異なる多くの問題が生じ得る。従来のOCRエンジンは、例えば、テキストページをスキャンするフラットベッドスキャナーと接続され得る。ページがスキャナーのスキャン面に対し同一平面上に置かれるため、スキャナーによって生成される画像は、典型的に明暗差や輝度が等しい、スキューや歪みを抑えた高い解像度を示す。その結果、OCRエンジンは、画像中のテキストを容易に計算機上で編集可能なテキストへ変換可能となる。しかし画像が、明暗差、輝度、歪みなどに関して、より低品質である場合、OCRエンジン性能の低下が起こり得、画像中の画素すべてを処理するための実行時間も長くなり得る。これは、例えば、画像が撮像装置を基本とするスキャナーによって生成されたときに起こり得る。理由は、テキスト/画像が、遠くからスキャンされたり、様々な方向からスキャンされたり、様々な照明の中でスキャンされるためである。たとえスキャンの処理性能が良くても、相対的に低い品質のテキストページがスキャンされた場合、OCRエンジン性能の低下は起こり得る。
本発明の目的は、原文のテキスト行を含んでいる画像を受信することによって開始する、光学文字認識されるテキストの画像解像度の改善方法及びシステムを提供することである。
[0002]原画像の背景が検出されてフィルタリングされた場合でも、一方で残りのテキスト画素が統合され、OCRの処理精度が大幅に改善され得る。1つの実施例において、背景及びテキストの色分析結果を算出することによって背景が検出されてフィルタリングされる。その後、テキストの一画(ストローク)の画素を高精度で識別するストローク回復技術を利用し、テキストの解像度改善が実行される。
[0003]特定の一実施例において、光学文字認識されるテキストの画像解像度を改善する方法が、原文(ネイティブ)のテキスト行を含んでいる画像を受信することによって開始される。画像中の原文の行に沿って、背景の平均明度を表す背景の行分析結果が決定される。同様に、画像中の原文の行に沿って、文字表示部分(前景)の背景の平均明度を表す前景の行分析結果が決定される。背景の行分析結果及び前景の行分析結果の少なくとも一部に基づいて、画像中の画素が、画像の背景部分か前景部分かどちらか一方に割り当てられる。画像の背景部分に指定された画素の明度が、テキストを含んでいない画像部分を表す最大明度に調節される。
[0004]更に、別の特定の実施例において、背景及び前景の行分析結果が決定された後、画像中のテキストを表す連結部分のストロークの幅の平均値又は中央値が決定される。ストロークの幅の平均値又は中央値が閾値よりも小さい場合、テキストの品質が改善される
。テキストの品質が、例えば、画像補間を実行し、画像解像度を改善することによって改善され得る。
[0005]更に「発明を実施するための形態」に後述した概念の選択を簡易形式で紹介するために、この「課題を解決するための手段」を提供する。この「課題を解決するための手段」は、請求項記載対象の重要な特色も本質的な特徴も特定することも意図しておらず、請求項記載対象の範囲を決定するときの支援として使用されることも意図していない。
[0006]光学文字認識のシステムの一実例を示している。 [0007]処理に不適切なテキスト行の例を示している。 [0008]OCR処理にとってより適切な図2のテキスト行の変換を示している。 [0009]テキストが背景よりも暗色であることを保証する画像変換を示している。 [0010]エッジ空間におけるテキスト行の表現例を示している。 [0011]図2の画像のグレースケール版である。 [0012]図6の原文の行の最左部分を示していて、局所的処理が大きさ2*h×hを有する矩形の上で実行される。 [0013]図7の原文のエッジ空間において表した行を示している。 [0014] 図8に示した連結部分を囲むボックスを示していて、エッジを含んでいる(暗色の)領域及びエッジを含んでいない(明色の)別の領域を定義している。 [0015](a)図7の矩形の局所的領域に関する明度のヒストグラムである。(b)図9のダークグレー領域に関するそれらの色の明度に対する画素の分布を例示しているヒストグラムである。(c)図10(a)のヒストグラムの換算値から図10(b)の2番目のヒストグラムの値を差引くことによって得られたヒストグラムである。 [0016]図6のテキスト行に対し算出される背景の行分析結果(上のライン)及び前景の行分析結果(下のライン)を示している。 [0017]暗色の背景上の明色のテキストに対し反転演算子を適用した結果を示している。 [0018]低品質のテキスト画像の例を示している。 [0019]図13に示した画像に閾値化手順を適用した結果を示している。 [0020]前景の矢印が出ている単一の画素に対する局所的なストロークの幅を決定する方法を示している。 [0021]マッピングされる画像中の画素を示していて、補間される4つの画素集合である。 [0022]補間処理の歩みを例示している。 [0023]図の上部に表したテキスト画像に補間処理を適用した結果を例示している。 [0024]テキスト解像度を改善する処理が適用される語句を例示している。 [0025]テキストの解像度改善の処理を図20に示した語句の最初の文字に画素を追加することによって表している。 [0026](a)連結部分の例を示している。(b)図21(a)の連結部分に関するエッジ画素を示している。(c)図21(a)の連結部分のスケルトンを示している。 [0027]画素追加処理を図20の連結部分のスケルトンに適用した結果を示している。 [0028]テキスト解像度を改善する処理を図13に示した画像に適用した結果を示している。 [0029]光学文字認識されるテキスト画像に対しテキスト解像度を改善する処理を実行し得る画像処理装置の一例を示している。 [0030]光学文字認識されるテキストの画像解像度を改善する方法全体の一例を示す流れ図である。
[0031]図1は、画像中の光学文字認識(OCR)システム(5)の例示的な一例を示していて、文書(15)の画像を生成するデータキャプチャ設備(例えばスキャナー(10))を含んでいる。スキャナー(10)は、画像センサーとして電荷結合素子を利用して画像を生成する撮像装置を基本としたスキャナーであり得る。スキャナー(10)が、画像を処理し、入力データを生成し、入力データを画像内部の文字を認識する処理に関する設備(例えばOCRエンジン(20))へ送信する。この特定の例において、OCRエンジン(20)がスキャナー(10)に組み込まれる。しかしながら、別の例において、OCRエンジン(20)は、例えば、スタンドアロン装置のような個別の装置か又はPC、サーバーのような別の装置に組み込まれる装置などがある。
[0032]原画像の背景が検出されてフィルタリングされた場合でも、一方で残りのテキスト画素が統合され、OCRの処理精度が大幅に改善され得る。以下、詳述する背景及びテキストの色分析結果を算出することによって背景が検出されてフィルタリングされる。その後、テキストのストロークの画素を高精度で識別するストローク回復技術を利用し、テキストの解像度改善が実行される。
[0033]このテキスト解像度を改善する処理に対する入力は、原文のテキスト行の画像である(「原文の行」の定義に関しては以下参照)。しかしながら、実際の処理を説明する前に数学的な概念をいくつか導入する。本発明の理解を容易にし、場合によっては説明をいくらか定式化するために、この論述を通して一般的なこれらの概念を利用する。
[0034]定義1.幅w及び高さhのデジタルカラー画像は、2つの独立変数のベクトル関数
Figure 0005754065
である。ここで
Figure 0005754065
であって、×はデカルト積を示している。
[0035]この定義はRGBカラーシステムから導かれ、
Figure 0005754065
の成分r、g、bはそれぞれ、赤、緑、及び青の成分に対応している。
[0036]定義2.幅W及び高さHのグレースケールのデジタル画像は、2つの独立変数のスカラー関数
Figure 0005754065
である。ここでGSは以下の場合がある。
−GS=[gl,g2]であって、グレースケール画像を2進、2レベル、又は2つの色調の画像として参照する。
−GS=[g1,g2,g3,...,g16]であって、グレースケール画像を16レベルのグレースケール画像として参照する。
−GS=[gl,g2,g3,...,g256]であって、グレースケール画像を256レベルのグレースケール画像として参照する。
[0037]この段階で本明細書を通して使用される1つの慣習を導入する必要がある。画像を関数として考えるため、そのグラフィック表示の座標系を定義する必要がある。通常、画像の左上端を基準点として見なす。本明細書でもこの慣習に倣う。従って画像の左上端が原点として配置されているように扱う。
[0038]定義3.3つのペア(I(x,y),x,y)を画素と呼ぶ。ペア(x,y)を画素座標と呼ぶが、一方、I(x,y)を画素値と呼ぶ。
[0039]通常、座標、値、並びに座標及び値双方に関して用語「画素」を互換的に使用する。この様にいかなる混乱も生じることがないような場合、本明細書において用語「画素」を使用し、さもなければ、正確な用語を使用する。いかなる混乱も生じることがないような場合、記法I(x,y)も互換的に使用する。
[0040]上記3つの定義は、デジタル画像が何であるかに関する理解を与える。通常の画像処理タスクは、様々な結論を導き得る更なる解析をするための、より好都合な原画像表現をいくつかもたらす一連の変換である。以下の定義は、これらの変換を定式化する数学的手段を提供する。
[0041]定義4.Ωを大きさw及びhを有する画像すべての集合とする。関数
Figure 0005754065
をn変数の画像演算子と呼ぶ。n=1の場合、演算子は1変数であるが、n=2の場合、演算子は2変数である。
[0042]上記の定義は、演算子が変換規則の集合をいくつか使用し、画像(又はいくつかの画像)を別の画像へ変換する関数であることを意味している。最も重要な画像演算子は、フィルター基本演算子である。(カーネル又はマスクと呼ぶこともある)フィルターは、大きさがn×mのマトリクスAnm
Figure 0005754065
である。通常、nとmは等しく、奇数であって、例えば、3×3、5×5、7×7のフィルターをもたらす。出力画像中の画素I(x,y)が、式
Figure 0005754065
を使用して算出される規則を利用し、フィルター基本演算子が入力画像を変換する。ここで除算はすべて整数除算である。
[0043]言い換えると、出力画像中の画素は、フィルターを用いて入力画像中の対応する画素の近傍を畳み込むことによって構築される。
[0044]定義5.Iを幅w及び高さhの画像とし、I(x,y)を任意の画素とする。画素の集合{I(x+1,y),I(x−1,y),I(x,y+1),I(x,y−1)}をI(x,y)の4近傍と呼ぶ。同様に、画素の集合{I(x+1,y),I(x−1,y),I(x,y+1),I(x,y−1),I(x−1,y−1),I(x−1,y+1),I(x+1,y−1),I(x+1,y+1)}をI(x,y)の8近傍と呼ぶ。
[0045]近傍に関し文字通りの異なる定義が存在するが、しかしながら、これが後述するために最も好都合なため、以下の定義を使用する。
[0046]定義6.I(x,y)がI(x,y)の8近傍集合の要素であって、それらの画素値が「類似」している場合、2つの画素I(x,y)及びI(x,y)は隣接している。
[0047]類似性に関する厳密な定義が存在しないため、引用に語句「類似」を使用する。もっと正確に言えば、この定義は、特定用途の要求に従って採用される。例えば、2つの画素値が同一である場合、これらは類似していると言うことができる。別の定義で言及されていない場合、本明細書を通してこの定義を想定する。
[0048]定義7.i=1,2,...,n−1に対しI(x,y)とI(xi+1,yi+1)とが隣接している集合
Figure 0005754065
が存在する場合、2つの画素I(x,y)とI(x,y)が連結される。
[0049]定義8.連結部分は画素の部分集合であって、集合にある画素それぞれが、集合にある残りの画素すべてと連結される。
[0050]テキスト画像中の背景をフィルタリングするために、きれいな汚れのない(例えば白色の)背景上にグレースケールのテキストを提供するための、テキストと背景との関係を理解する必要がある。図1を参照し、この要件を明確にできる。
[0051]図2に示したテキスト行の画像は、次に続く処理をするためには適切でない。その画像が図3に示した画像に変換され得る場合、OCR処理におけるその次のステップが、より単純かつ、より正確になり得る。更に、テキストは、背景よりも暗色であると仮定
する方が好都合である。実際、テキストがこのような場合、テキストと背景の組み合わせすべてが一様に処理され得る。従って、必要なときに図4に示した画像変換が実行される必要がある。
[0052]テキスト画像の背景をフィルタリングするためにテキストと背景との(色に関する)関係が決定される必要があることと、テキストの解像度を改善する処理が暗色のテキストが白の背景に提示される画像を製造することと、が前述から明らかであろう。以下の節において、テキストと背景との関係に関する検出を記載する。
テキスト行の分析
[0053]最初に留意するべきことは、テキスト行の画像が、テキストから成るものと、背景から成るものと、の2つの画素タイプを有していることである。テキストと背景との間のエッジには、急激な色変化も存在する。これが、エッジ空間においてテキスト行が観測され得る結果をもたらす。様々な周知のエッジ検出技法のいずれかを利用し、エッジ空間における行の表現を取得し得る。図5にエッジ空間における行の表現例を示している。
[0054]図5にテキストの重要な特徴すべてが維持されていることは明らかである。文字は主に、エッジ空間において連結部分として表されている。更に、エッジ空間におけるテキストの特徴表現は、テキストと背景との関係とは無関係である(例えば、どちらがより暗色か無関係である)。従って、以下の定義を定式化できる。
[0055]定義9.原文の行は、テキスト行の画像のエッジ空間において、すべて連結した部分の集合となる。
[0056]CCはi番目の連結部分であって、nlが原文の行の場合、行は
Figure 0005754065
を保持している。
[0057]原文の行に対する行の分析手順を開始し、以下の定義式に定義される行の分析結
果を生成する。
[0058]定義10.nlを原文の行とし、
Figure 0005754065
を、対応する幅w及び高さhを有する原文の行の画像とする。
以下の条件
Figure 0005754065
Figure 0005754065
を満足している場合、関数
Figure 0005754065
及び
Figure 0005754065
である。ここで
Figure 0005754065
及び
Figure 0005754065
を前景の行分析結果及び背景の行分析結果と呼ぶ。ここでFP(x)は、座標x=xを有する原文の行の画像にある前景の画素すべての集合であって、BP(x)は、座標x=xを有する原文の行の画像にある背景の画素すべての集合である。
[0059]つまり分析関数は、特定の画像の欄に対する背景又は前景の平均明度を反映している。
[0060]図2の画像のグレースケール版である図6を参照した後、行の分析結果を導入する重要性を明確にする必要がある。多くの場合、テキストの色の明度及び背景色明度が水平軸に沿ってほぼ一様であることが妥当な想定であるが、図6の場合、この仮定は成立しない。画像の左側の背景の平均明度は約190であるが、一方、画像の右側の平均明度は(差がグレースケール範囲全体0〜255の3分の1よりも大きい)約100である。
[0061]かくして図6の場合、単一の値を有する背景明度を画像全体に渡った近似は、精度において大きな損失を生じ、その後の処理段階において、最も信頼できる情報が取得できないことになる。これが行の分析結果を導入する理由である。行の分析手順は、行の分析結果を評価するための方法であってこれを後述する。
[0062]この段階において処理中の前景の画素及び背景の画素に関する情報不足のため、特定の公式を使用して定義10に導入した行の分析結果を算出することは難しい。したが
って、ある種の見積りを実行する必要がある。
[0063]原文の行全体に色の大きな変化が存在し得るが、最初に観測するべきことは、比較的小さな局所的領域に渡って色がほとんど一定なことである。その局所的領域、例えば、hの数倍に等しい幅と、hと等しい高さ(ここでhは行の高さ)とを有する矩形が選定された場合、その小さな部分に対する局所的な処理が実行され得る。
[0064]色の変化は、数文字の幅に比例した距離に渡って相対的に大きくあり得ない、という仮定に従って矩形の大きさが選定される。局所的処理は、矩形上で実行した処理が支配的な背景色に関するものと支配的な前景色に関するものと、の2つの値を生じることを意味している。対応している矩形全域に渡って行の分析結果の値を近似するためにこれら2つの結果を利用する。このような矩形の一例を図7に示している。
[0065]図7は、図6の原文の行の最左部分を示していて、選定した矩形は、2*h×hの大きさを有している。局所的処理が、支配的な前景色及び背景色としてdf及びdbそれぞれを生じた場合、以下の近似
Figure 0005754065
Figure 0005754065
が利用される。
[0066]この近似は、行の分析に関する階段状の近似をもたらす。df及びdbの値を算出するためには、図8に示したエッジ空間において図7の矩形が表されなければならない。別の近似も使用され得る。例えば、区分的な線形近似は、多くの処理時間を要求し得るが、より良好な結果を与え得る。
[0067]図8の3つの内部の矩形は、連結部分の表示ボックスに対応している。これらのボックスは異なる2つの領域を定義していて、1つがエッジを含んでいる領域でもう1つがエッジを含んでいない領域である。これらの領域を図9に例示する。図9のダークグレーの領域はエッジ領域に対応しているが、一方のライトグレーの領域は非エッジ領域に対応している。
[0068]次に図7の矩形の局所的領域に対し、それらの色の明度に関する画素分布を例示するヒストグラムが算出される。図9のグレー領域だけに対し、それらの色の明度に関する画素分布を例示する別のヒストグラムが算出される。第1のヒストグラムの換算値から第2のヒストグラムの値を差し引くことによって更に別のヒストグラムが得られる。算出されたヒストグラムを図10a、10b、及び10cに示している。
[0069]図10cのヒストグラムは、図9のライトグレーの領域のヒストグラムである(これは前述した減算処理によってヒストグラムが生成された理由による)。エッジが文字と背景との境界だけに見つかるため、これはエッジを含んでいない領域であって、文字のない領域を意味している。つまり、これが背景に対応している領域である。図10a及び10bのヒストグラムを更に詳細に論述することによってこれを例証する。
[0070]図10aのヒストグラムは、図7の矩形全体に関する画素明度の分布を表してい
る。示したように、背景の画素によってもたらされる1つのピークが存在する。厳密に言うと、この支配的なピークの存在は規則的ではないので(十分に線が太いテキストを考えられたい)、これが実際に背景を表しているとはまだ仮定されない。テキスト及び背景並びにこれらの混合によってもたらされるピークの左側に比較的変化が少ないヒストグラムの一部が存在する。
[0071]ヒストグラム10bは、図9に示した矩形内部のエッジ領域に対応している画素に関する明度分布を表す。このヒストグラムは、背景のピークが十分に支配的ではないことを除くと、10aのピークと非常に類似して見える。3番目のヒストグラム(図10c)が最も重要である。前述したように、これが背景の画素に対応している。テキストとテキストの背景との混合から生じた部分は、ヒストグラムの減算処理によって完全に打ち消される(図10aには、変化が少ない領域が存在していないことに留意されたい)。ヒストグラム中、最大のピークに対応している特定の値の範囲(瓶)が、背景色の支配的な明度を与える。これは、この例において190である。
[0072]背景のダイナミックレンジも図10cのヒストグラムから取得され得る。明度を0から始めて検査し、0でない画素数を有する最初の瓶に関する明度値を発見することによって、ダイナミックレンジを見出し得る。図10cにおいて、この値は150である。その後、画素数が0に戻るその次の瓶に関する明度値を見出す。図10cにおいて、この値は230である。かくして、ダイナミックレンジは[150,230]である。この範囲外にあるヒストグラム10bの明度値が、前景のテキスト画素によってもたらされる。前景の画素から生じた二次のピークの最大値に対応している図10bのヒストグラムの瓶は、この例において47であって、支配的な背景色の明度に対応している。
[0073]この処理を、原文の行の局所的領域(例えば図7の矩形)それぞれに適用することによって、前景及び背景の行分析結果に関する見積りが取得され得る。これらの見積りを取得するために必要な処理すべてが、単純なヒストグラム操作、すなわち、ヒストグラムの算出、ヒストグラムの減算、及び最大値の抽出に依存していることに留意されたい。いかなる複雑な動作(例えば、ピーク検出、ピーク幅評価、変化が少ない領域検出)も実行されず、かくして複雑な解析から生じる可能性があるエラーに関する余地もほとんど残さない。図6のテキスト行に関して算出された背景及び前景の行分析結果を図11に表す。ここで上側の行が背景の行分析結果を表していて下位の行が前景の行分析結果を表している。
[0074]この段階で追加的な1つのステップを実行する必要がある。すなわち、テキストと背景との関係が容易に抽出され得、2つの行の分析結果の間の関係を観測することによって、どれがより暗色か決定し得る。暗色の背景上に明色のテキストが見つかった場合、画像反転演算子
Figure 0005754065
が適用され得る。
この演算子は
Figure 0005754065
として定義される。
[0075]この演算子を適用した結果を図12に示している。この反転が実行された後は、必要なときに明色の背景上に暗色のテキストが現れていることを支障なく仮定できる。背景及び前景の行分析結果が、一旦算出(必要なときに画像反転が実行)されると、後述する閾値化を利用し、背景がフィルタリングされ得る。
閾値化
[0076]行の分析結果が、一旦算出されると、背景のフィルタリング処理は非常に簡単である。
関数
Figure 0005754065
が、画素それぞれに適用され、
Figure 0005754065
として定義される。
[0077]つまり、前景及び背景の分析結果の平均値よりも小さな画素明度値を有する画素それぞれが、そのまま残っているが、一方、その他の画素は変更され、それらが最大密度を有しているように見える。すなわち、これらは白色に変更される。この種の閾値化は、画素の画素値に基づいてそれらを前景か背景として分類する処理として見なされ得る。画素が前景の画素として分類された場合、その値は変更されず、画素が背景の画素として分類された場合、その値は白に変更される。
[0078]実施例の中には、前景及び背景の分析結果の平均として閾値を確立する代わりに、より一般に、前景及び背景の分析結果から決定される別のパラメーターがいくつか選定され得るものもある。
[0079]図3に示した画像は、前述の閾値化技法を使用して取得されている。この技法は非常に良好な結果を生じる。しかしながら、低品質の画像に対するその適用は、常に条件を満足するわけでなくて、このような画像には、後述されるテキストの解像度改善技法がいくつか適用される。
低品質のテキスト解像度の改善
[0080]図13は低品質のテキスト画像の例を示している。この画像に対し前述の閾値化手順を適用した結果を図14に示す。明らかに結果の画像は低品質である。画像が人間にとっても大部分が読みにくいため、その後、いずれかの処理段階で最終的に間違った決定をすることになる。不十分な結果となる理由は明確である。図13において、テキストのストロークを構成する画素値は大きな変化を有している。これらのいくつかは、前景の画
素よりも背景の画素とより類似していて、ノイズ画素の中に前景の画素値と類似した値を有しているものもある。加えて、ストロークの幅は極度に小さく、完全なテキストの状態をもたらさない。
[0081]前述した閾値化の手順は、局所的な背景及び前景の分析の途中で閾値化関数に対する定数値を使用する。低品質のテキスト画像に関連する課題の克服に向けた一アプローチは、異なる画像に対する閾値を調節可能なように、閾値化手順をより適応型にすることである。残念ながらこれを効果的に達成するためには、普通はより多くの文脈情報が必要である。閾値化処理に対する一代替手段は、より知的(かつ、より集約的)な処理を使用し、低品質の画像を検出し、より良質な背景のフィルタリングを提供することを含んでいる。低品質のテキスト画像の検出方法を論述した後、このような代替処理を記載する。
低品質のテキスト検出
[0082]低品質のテキスト画像を検出するときの最初のステップは、このような画像の品質を低くする特徴を識別することを含んでいる。このようなテキスト画像は、前述したようなストロークの小さな幅及びテキストの色の大きな変化によって特徴付けられる。ストロークの幅がより大きい場合、前述した閾値化処理が「細字」の文字表示を生じるが、しかしながらそれらは、依然として判読可能である。これは、色の小さな変化に関しても当てはまる。低品質のテキスト画像の主な特徴は、色の明度の大きな変化と組み合わせたストロークの小さな幅であると結論づけられ得る。
[0083]もうひとつ留意するべきことは、図14に示した閾値化手順の結果である。文字の一部において小さな(典型的に2〜3の画素よりも小さな)幅を有するストロークをこの手順が生じることは明らかである。この画像上の「ストローク」の幅の中央値を算出することによってテキストの品質は評価され得る。
[0084]ストロークの幅を評価するための手順を説明するためには以下の定義が必要である。
[0085]定義11
Figure 0005754065
を連結部分とする。
Figure 0005754065
それぞれが、(x,y)のccのエッジ画素と呼ばれる8近傍集合に属している
Figure 0005754065
が存在する。
[0086]図14の前景の画素のエッジすべてに関する局所的なストロークの幅を算出することによってストロークの幅の評価手順を始める。これは、図15に例示した前景の矢印
が出ている単一の画素に対して可能なすべての方向のストロークの幅を算出することによって達成され得る。
[0087]前景の選定した画素で始まる、90度の向きの隣接した画素が検査される。背景の画素に達する前に連続した一連の3つの前景の画素が垂直方向に存在する。同様に、0度方向に2つの前景の画素があって、45度方向に1つの前景の画素があって、135度方向に3つの前景の画素が広がっている。これら4つの値の間から最小値(この場合1)が、選定した画素に対する局所的なストロークの幅として選定される。この同一の手順がエッジ画素すべてに適用され、その結果、局所的なストロークの幅の集合を生成する。テキストのストロークの幅全体の良好な評価は、この値の集合の中央値であって、SWorで示されている。
[0088]SWorが一旦算出されると、テキスト画像の品質を調査するために必要なデータすべてが利用可能である。SWorが、ある所定の閾値SWtrよりも小さい場合、その画像は低品質の画像であると考えられ得る。SWtrの選択は残りの処理に影響を及ぼす。SWtrに対してより小さな値が選択されると、原文の行の少数の画像が低品質であると見なされる。これは、より少ないその後の処理を意味しているが、同時に原文の行の画像のいくつか解像度を「改善しないまま」にしておくことを意味している。一方、SWtrに関してより大きな値が選択された場合、より大きな処理能力に相当する代償を払ってより多くの原文の行の解像度が改善される。実施例の中には、範囲
Figure 0005754065
の中に適切な妥協値があるものもある。
[0089]低品質の画像が、一旦検出されると、テキストの解像度を改善する方法が適用され得る。テキストの解像度を改善するための例示的な2つの方法を後述する。第1の方法は、要求される処理能力が非常に正確であるが、しかしながら高価であって、一方、第2の方法は、より効率的であるが、しかしながらいくらか精度が落ちる。
テキストの正確な解像度改善
[0090]テキストの解像度改善コンポーネントへ渡される画像は、ストロークの幅SWorを有していて、所定のいくつかの閾値よりも小さい。これは、処理時にわずかな自由度しかないことを意味している。この課題を克服するための一方法は、画像補間を実行することである。画像補間は、画像解像度を改善するための技法である。多くの補間技法が利用可能であるが、適切な一例は、双線形補間であって非常に単純であるが、それにもかかわらず、テキストの解像度改善処理に関する必要性に応えるためには十分強力である。
[0091]例として解像度が、係数によって双方向(x方向及びy方向)に大きくなるように補間される画像を仮定されたい。これは、元の画像中の画素それぞれが、補間される画像中の4つの画素集合へマッピングされることを意味している。この処理を図16に例示する。
[0092]双線形補間処理における第1段階は、原画像中の座標(x,y)における画素値を、出力画像中の座標(2x,2y)へマッピングすることである。この処理を図17aに示す。少し陰影のある矩形を含んでいる画素は、割り当てられた値を持たない画素である。このようにして出力画素の4分の1が適切な画素値が割り当てられる。マッピング又は複製が割り当てられた2つの画素の間に位置付けられている(これらは、少なくとも1つの等しい座標を有する画素である)画素をいくつか出力画像中に生じることに留意されたい。これらの画素値は、それらに隣接した画素に割り当てられた平均値として算出され
得る(図17b参照)。現段階では出力画像中、奇数の座標を有する画素だけが割り当てられていないままである。これらの画素値が、4近傍集合の中の画素の画素値すべての平均として算出され得る。双線形補間処理のこの最終段階は、補間された画像(図17c)をもたらす。図17cの最終的な画像は、画素値が図に示していない画素値と関係しているため、割り当てられた値をまったく持たない画素をいくつか有する。
[0093]図18の下部には、補間処理を図の上部に示したテキスト画像に適用した結果を示している。
[0094]画像補間を低品質のテキスト画像に適用することによって生じる好都合な一副作用は、補間処理の影響の本質的な平滑化である。これがテキストの色の明度において、よりわずかな差異を有する画像を生じ、低品質のテキストを持つ課題の1つであった。
[0095]現段階では、テキストの解像度改善処理において補間画像に関する以下の情報が既知である。
−背景の行分析結果BLP(x)
−前景の行分析結果FLP(x)
−ストロークの幅SWtr=2*SWor+1
[0096]閾値化アルゴリズムが、テキストを損なっている版を製造するため、(BLP(x)+FLP(x))/2よりも小さな画素すべてはテキストの一部であると支障なく見みなされ得、0の値が割り当てられ得る。同様に、BLP(x)よりも大きな値を有する画素は背景の画素として分類され得、255の値が割り当てられ得る。しかしながら、((BLP(x)+FLP(x))/2からBLP(x))=(L(x),L(x))の範囲内の値を有する画素は、分類に関しては疑わしく、それらがテキスト又は背景に属しているか否か決定するための付加的な処理がいくつか必要である。
[0097]これらの画素を処理しやすい、かつ、便利な方法で分類するために画素の色解像度を方程式
Figure 0005754065
を使用し、前述した不確定な範囲全域に渡って有限数の明度間隔nに分割可能である。
ここで
Figure 0005754065
かつ
Figure 0005754065
である。
[0098]明度間隔の大きさを決定するパラメーターはnであって、少数の明度間隔を生成
するように選択される必要がある。実施例の中には、例えば、良好な選択が
Figure 0005754065
であり得るものもある。図19及び図20に関連して記載した方法で明度をn個の間隔に分割することによって、色の解像度の低減が使用され得、テキストの品質を改善する。
[0099]ここでテキストの解像度改善処理が図19の文字Fに適用される。図20は、この文字に画素を追加することによる処理を示している。第1の間隔ΔI内の明度を持った画素が、図20の最左の文字に追加される。第2の間隔ΔI内の明度を持った画素が、図20の左から2番目の文字に追加される。より高い次の明度間隔それぞれの範囲内の画素を図中の次の文字それぞれに追加することによってこの処理を繰り返す。
[00100]図20は、この様にして画素を追加した結果を明確に例示している。具体的には、画素が追加されるにつれて、文字Fが、ますますはっきりするようになる。個別の文字の解像度を改善するか又は再構築するために、この処理を使用することは明らかであるが一方、文字が背景の中に「リーク」し始めたときか又は他方に接触し始めたとき、問題が生じる。これを回避するために、追加の画素を追加する必要がなくなるタイミングを決定する、ある種の停止基準を使用する必要がある。以下の定義は、適切な停止基準を取得するとき、有用である。
[00101]定義12.ccを連結部分とする。異なる2つのccのエッジ画素から等しい距離にある連結部分に属する画素集合をccのスケルトンと呼ぶ。
[00102]図21aは、連結部分の例を示している。図21bにおいて、より暗色の画素が、この連結部分に対するエッジ画素であって、図21cにおいて斜交平行の画素が連結部分のスケルトンを表している。
[00103]観察するべき1つは、画素の追加処理が、そのスケルトンに何の影響も与えないことである。図20の画素追加処理に対応する連結部分のスケルトンを示している図22において、これを確かめることができる。画素を追加するステップそれぞれにおいて連結部分のスケルトンは、大部分が同一のままである。変化したことは、スケルトン画素とエッジ画素との間の距離である。追加される画素が多ければ多いほど、スケルトン画素とエッジ画素との間の距離は大きくなる。
[00104]現段階で、この連結部分のストロークの幅SWhrが既に算出されていることを再度呼び出すことが重要である。あるスケルトン画素が、わずかでもエッジ画素からの距離SWhr/2を超えた場合、画素の追加処理を終了する要求を出すことが妥当である。この値を超えた場合、連結部分が背景の中に「リーク」し始める。したがって、この段階でそれ以上の画素を文字に追加する必要がない。
[00105]上述を踏まえると、テキストの解像度改善アルゴリズムは、以下のように定式化され得る。
1)低品質のテキスト画像を2倍の高解像度で補間する。
2)テキスト画像の色解像度を有限数の明度間隔を定義することによって小さくする。
3)画像中の最暗色の画素(例えば、0の明度を持った画素)だけから形成される連結部分すべてを識別する。これらの連結部分を基線となる連結部分として参照する。
4)基線となる連結部分それぞれに対し、以下のステップを実行する。
a.連結部分のスケルトンを算出する。
b.スケルトン中の画素がエッジ画素から距離SWtr/2よりも近くにある場合、次の明度間隔(現在のI+ΔI)に属する隣接した画素を現在の連結部分に追加することによって、新たな連結部分を生成する。
c.停止基準の条件が満たされるまでステップa及びステップbを繰り返す。すなわち、エッジ画素からSWtr/2よりも離れたスケルトン画素が存在している場合、処理を停止する。
[00106]基線となる連結部分すべてが、一旦処理されると、この様にしてテキストの解像度改善処理が終了する。この処理を図13で示した画像に適用した結果を図23に例示する。
効率的なテキスト解像度の改善
[00107]ストロークの回復を使用し、テキストの画像解像度を改善するための前述のアルゴリズムは、多くの場合、非常に良好な結果を提供し得る。しかしながら、欠点の1つがアルゴリズムの計算量である。この節では、(処理能力に関し)安価なアルゴリズムの一変形であるが、しかしながら同程度の品質を有するアルゴリズムを記載する。
[00108]前述のアプローチに見られるように、このアプローチは、前述した方法で画像補間を実行し、色解像度を有限数の間隔に分割する。しかしながら、前節に記載したアルゴリズムは、基線となる連結部分に適用される再帰的処理がスケルトン算出を含んでいるために時間がかかる。スケルトンが欠くことのできない停止基準の一部であるため、アルゴリズムの計算量を減少させるための別の異形の停止基準が使用され得るものもある。
一アプローチを後述する。
[00109]色解像度を小さくした後も色集合がわずかに残っている。255の明度を持った画素(白い画素)すべてが背景の一部であると見なされる。明度0を有する画素(黒い画素)すべてがテキスト画素であると見なされる。疑わしいものはグレーの画素である。再度、図19を参照すると、厳密なスケルトン算出を実行する必要性を回避する一方法は、評価結果を取得する間、完全な白色でない画素から成る(グレーの画素それぞれに対し)その画素の中心にある最大の矩形を見出すことである。a(x,y)を画素I(x,y)に関する矩形の大きさとする。条件
Figure 0005754065
を満たす矩形を有する画素すべては、ほぼ確実にテキストの一部か又は背景の変化が少ないノイズ領域である。この集合を
Figure 0005754065
として示す。ここで画素すべては
Figure 0005754065
のような
Figure 0005754065
である。ここで
Figure 0005754065
が集合に追加されている。つまり、集合A内の画素付近にある画素すべてが追加されるが、これは前述したアルゴリズムで画素を追加する手順に対する代替手段である。集合Aは、背景の中に「リーク」が生じないことを確実にするためにフィルタリングされ得る。この様にして集合にある画素は、最も近くのエッジから画素までの距離がSWtrよりも大きい場合、除去され得る。この様にしてテキストから変化が少ないノイズ領域が除去される。
[00110]このアルゴリズムは、より正確な前述のアルゴリズムと類似している。しかしながら、再帰的な計算を実行する代わりにワンステップ近似が、ある間隔範囲内にある画素集合それぞれが追加される前に適用され、より短い処理時間をもたらす。このアルゴリズムを低品質のテキスト画像に適用することによって達成される結果は、図23に示した正確なアルゴリズムを適用することによって達成される結果と類似することがわかっている。
[00111]図24は、光学文字認識されるテキスト画像に対し、前述したテキストの解像度改善処理を実行し得る画像処理装置(300)の一例を示している。OCRエンジンに組み込まれ得る装置は、原文のテキスト行を有する入力画像を受信するための入力コンポーネント(202)を含んでいる。装置は、背景及び前景の行分析コンポーネント(204)、画質検出コンポーネント(206)、閾値化コンポーネント(208)、及びストローク解像度改善コンポーネント(210)も含む。その後、OCRエンジンのコンポーネントによって使用され得る出力コンポーネント(212)が、出力として解像度を改善した画像を生成する。
[00112]図25は、光学文字認識されるテキストの画像解像度を改善するための方法全体の一例を示す流れ図である。本方法は、図24に示した画像処理装置によって実施され得る。本方法は、ステップ(305)において、原文のテキスト行の画像が入力コンポーネント(202)によって受信されたとき、開始する。その後、ステップ(310)において、行分析コンポーネント(204)は、原文の行に対しエッジ検出を実行し、原文の行のエッジ空間における表現を生成する。ステップ(315)において、次に行分析コンポーネント(204)は、エッジ空間において原文の行の表現に生じた連結部分それぞれを識別する。ステップ(310)及び(315)で取得された情報を使用し、ステップ(320)において、行分析コンポーネント(204)が、前述した方法によって背景及び前景の行分析結果を決定する。行の分析結果が、一旦決定されると、ステップ(325)において、画質検出コンポーネント(206)が、画像の品質が十分か決定し、行の分析結果に基づいて画素を画像の背景部分又は前景部分に割り当てる。前述したように画質を決定するために使用され得る一評価基準が連結部分のストロークの幅である。決定ステップ(330)で画質が十分に高いことを見出した場合、ステップ(335)において、閾値化コンポーネント(208)は、画素が画像の前景部分か背景部分のどちらか一方に割
り当てる。一方、画質が十分に高くない場合、ステップ(340)において、連結部分のストロークの幅の解像度を改善するストローク解像度改善コンポーネント(210)が実行され、画像解像度が改善される。最後にステップ(345)において、その後、OCRエンジンのコンポーネントが使用し得る出力コンポーネント(212)が、解像度を改善した画像を生成する。
[00113]本出願において使用した用語「コンポーネント」、「モジュール」、「システム」、「装置」、「インターフェース」などは、一般に、計算機に関連する実体、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、又は実行中のソフトウェアを参照するように意図されている。例えば、コンポーネントは、プロセッサー上で実行するプロセス、プロセッサー、オブジェクト、実行可能オブジェクト、実行スレッド、プログラム、及び/又は計算機であり得るがこれらに限定しない。例示によってコントローラー上で実行するアプリケーション及びコントローラー双方はコンポーネントであり得る。1つ以上のコンポーネントがプロセス及び/又は実行スレッド内部に常駐し得、コンポーネントは、1つの計算機上で局所化され得、及び/又は2つ以上の計算機の間に分散され得る。
[00114]更に、請求項記載対象は、開示した対象項目を実施するための計算機を制御するためのソフトウェア、ファームウェア、ハードウェア、又はその任意の組み合わせを製造する標準プログラミング及び/又はエンジニアリング技法を使用した方法、装置、又は製品として実装され得る。本明細書において使用した用語「製品」は、任意の計算機可読装置、搬送装置、又は媒体からアクセス可能な計算機プログラムを包含するように意図されている。計算機可読媒体は、例えば、磁気記憶装置(例えば、ハードディスク、フロッピーディスク、磁気ストライプなど)、光学式ディスク(例えば、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)など)、スマートカード、及びフラッシュメモリー装置(例えば、カード、スティック、キードライブなど)を含み得るがこれらに限定しない。当然のこととして当業者は、請求項記載対象の範囲及び趣旨から逸脱せずに、この構成に対する多くの修正が実行されることを認めよう。
[00115]対象項目が構造的な機能及び/又は方法論的な動作に対し特定の言語で記述されているが、添付の請求項に定義した対象項目は、必ずしも前述した特定の機能又は動作に限定されるわけではないことが理解されよう。より具体的に言うと、本請求項の実施形式の例として前述した特定の機能及び動作が開示されている。
5 光学文字認識(OCR)システム
10 スキャナー
15 文書
20 OCRエンジン
202 入力コンポーネント
204 分析コンポーネント
206 画質検出コンポーネント
208 閾値化コンポーネント
210 解像度改善コンポーネント
212 出力コンポーネント
300 画像処理装置

Claims (10)

  1. 光学文字認識されるテキスト画像の解像度を改善するための方法であって、
    原文のテキスト行を含んでいる画像を受け取るステップと、
    前記画像中の前記原文の行に沿って、平均の背景明度を表す背景の行分析結果を決定するステップと、
    前記画像中の前記原文の行に沿って、平均の前景明度を表す前景の行分析結果を決定するステップと、
    前記画像中のテキストを表す連結部分のストロークの幅の平均値又は中央値を推定するステップと、
    前記ストロークの幅の平均値又は中央値が閾値よりも小さい場合、テキスト品質を改善するステップと
    を含み、前記改善するステップは、
    選定したパラメーターよりも小さな明度を持った前記画像中の画素を前記画像の前景部分に割り当てるステップであって、前記選定したパラメーターが、前記背景の行分析結果及び前記前景の行分析結果から少なくとも部分的に決定される、ステップと、
    前記背景の行分析結果よりも大きな明度を持った前記画像中の画素を前記画像の背景部分に割り当てるステップと、
    前記選定したパラメーターと前記背景の行分析結果との間の明度を持った選定された画素をエッジ空間において表される前記原文の行の基線となる連結部分に割り当てるステップと
    を含む方法。
  2. 前記前景の明度値に割り当てられた各々の画素に対する局所的なストロークの幅を決定することによって、前記画像中のテキストを表す前記連結部分のストロークの幅の平均値又は中央値を推定し、前記ストロークの幅の平均値又は中央値が閾値よりも小さい場合、テキスト品質を改善するステップをさらに含む請求項1に記載の方法。
  3. 前記テキスト品質を改善するステップが、画像解像度を改善するための画像補間を実行するステップを含む請求項1又は2に記載の方法。
  4. 前記画像補間が、前記画像中の各画素を少なくとも2つの画素の集合にマッピングする双線形補間である請求項3に記載の方法。
  5. 前記選定したパラメーターと前記背景の行分析結果との間の明度を持った選定された画素を割り当てるステップは、次第に高くなる明度内の画素集合を次第に追加することによって実行され、各集合が、明度間隔の有限集合のうち1つの範囲内の明度を持った画素を定義している、ステップと
    をさらに含む請求項1〜4のいずれか一項に記載の方法。
  6. 前記基線となる連結部分のエッジ画素とスケルトン画素との間の距離が、前記ストロークの幅の平均値又は中央値の2分の1よりも大きい場合、選定した画素を前記基線となる連結部分の少なくとも1つに割り当てることを終了するステップをさらに含む請求項5に記載の方法。
  7. 光学文字認識されるテキスト画像の解像度を改善する、プロセッサー及び記憶装置を備えるシステムであって、
    原文のテキスト行を有する入力画像を受け取る、前記記憶装置に格納されて前記プロセッサーによって実行される入力コンポーネントと、
    前記画像中の平均の背景及び前景の明度をそれぞれ表す背景及び前景の行分析結果を決定する、前記記憶装置に格納されて前記プロセッサーによって実行される背景及び前景の行分析コンポーネントと、
    ストロークの幅の平均値又は中央値に基づいて及び前記背景及び前景の明度の変化に基づいて、前記画像の品質が閾値を満たすか否か決定する、前記記憶装置に格納されて前記プロセッサーによって実行される画質検出コンポーネントと、
    前記背景及び前景の行分析結果に基づいて、画素を前記画像の背景部分か前景部分のどちらか一方に割り当てる、前記記憶装置に格納されて前記プロセッサーによって実行される閾値化コンポーネントと、
    前記画質検出コンポーネントが、前記画像の品質が閾値を満たすことを決定した場合、前記画像中のテキストを表している連結部分のストロークの解像度を改善する、前記記憶装置に格納されて前記プロセッサーによって実行されるストローク解像度改善コンポーネントと
    を具備するシステム。
  8. 前記画質検出コンポーネントが、前記画像中のテキストを表している前記連結部分のストロークの幅の平均値又は中央値を推定し、ストロークの幅の平均値又は中央値を閾値と比較することによって、前記画像の品質を決定する請求項7に記載のシステム。
  9. 前記背景及び前景の行分析コンポーネントが、エッジ空間において表された前記原文の行の各々に沿って、複数の局所的領域に対する複数の背景及び前景の明度値を決定するようにさらに構成され、各局所的領域が、所定の値よりも小さいか又は等しい大きさを有する請求項7又は8に記載のシステム。
  10. 前記背景及び前景の行分析コンポーネントが、
    各局所的領域について、それぞれの局所的領域に配置される連結部分をそれぞれが囲む境界ボックス内の画素の明度値のヒストグラムを用意することであって、前記ヒストグラムは定義された範囲内の明度を有する画素を含む支配的なピークを有する、ヒストグラムを用意することと、
    各境界ボックスについて、前記定義された範囲内の明度値を有する画素を前記背景の明度値に割り当て、残りの画素を前記前景の明度値に割り当てることと
    によって、前記複数の局所的領域についての前記複数の背景及び前景の明度値を決定するようにさらに構成される請求項9に記載のシステム。
JP2012557155A 2010-03-10 2011-03-07 光学文字認識されるテキスト画像のテキスト解像度の改善方法及びシステム Active JP5754065B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/720,732 US8526732B2 (en) 2010-03-10 2010-03-10 Text enhancement of a textual image undergoing optical character recognition
US12/720,732 2010-03-10
PCT/US2011/027439 WO2011112522A2 (en) 2010-03-10 2011-03-07 Text enhancement of a textual image undergoing optical character recognition

Publications (3)

Publication Number Publication Date
JP2013527513A JP2013527513A (ja) 2013-06-27
JP2013527513A5 JP2013527513A5 (ja) 2014-03-20
JP5754065B2 true JP5754065B2 (ja) 2015-07-22

Family

ID=44560016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012557155A Active JP5754065B2 (ja) 2010-03-10 2011-03-07 光学文字認識されるテキスト画像のテキスト解像度の改善方法及びシステム

Country Status (8)

Country Link
US (1) US8526732B2 (ja)
EP (1) EP2545499B1 (ja)
JP (1) JP5754065B2 (ja)
KR (1) KR101795823B1 (ja)
CN (1) CN102782706B (ja)
CA (1) CA2790402A1 (ja)
ES (1) ES2773719T3 (ja)
WO (1) WO2011112522A2 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11610653B2 (en) * 2010-09-01 2023-03-21 Apixio, Inc. Systems and methods for improved optical character recognition of health records
US20120106845A1 (en) * 2010-10-30 2012-05-03 Prakash Reddy Replacing word with image of word
US9053361B2 (en) * 2012-01-26 2015-06-09 Qualcomm Incorporated Identifying regions of text to merge in a natural image or video frame
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US8606011B1 (en) * 2012-06-07 2013-12-10 Amazon Technologies, Inc. Adaptive thresholding for image recognition
JP2014006614A (ja) * 2012-06-22 2014-01-16 Sony Corp 画像処理装置、画像処理方法、並びにプログラム
US9183458B2 (en) 2012-07-19 2015-11-10 Qualcomm Incorporated Parameter selection and coarse localization of interest regions for MSER processing
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US8787702B1 (en) * 2012-11-30 2014-07-22 Accusoft Corporation Methods and apparatus for determining and/or modifying image orientation
US9256798B2 (en) * 2013-01-31 2016-02-09 Aurasma Limited Document alteration based on native text analysis and OCR
GB2514410A (en) 2013-05-24 2014-11-26 Ibm Image scaling for images including low resolution text
JPWO2015071923A1 (ja) * 2013-11-12 2017-03-09 三菱電機株式会社 運転支援画像生成装置、運転支援画像表示装置、運転支援画像表示システム、及び運転支援画像生成プログラム
KR102159389B1 (ko) 2014-03-17 2020-09-24 삼성디스플레이 주식회사 디지털 비디오 데이터를 보정하기 위한 보정 데이터 산출방법과 이를 이용하여 생성한 룩-업 테이블을 포함하는 유기전계발광 표시장치
US9536161B1 (en) 2014-06-17 2017-01-03 Amazon Technologies, Inc. Visual and audio recognition for scene change events
CN105718926A (zh) * 2014-12-03 2016-06-29 夏普株式会社 一种文本检测的方法和装置
JP2016143310A (ja) * 2015-02-04 2016-08-08 ソニー株式会社 情報処理装置、画像処理方法及びプログラム
CN106156766B (zh) 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
CN105245756B (zh) 2015-09-28 2018-05-29 珠海奔图电子有限公司 图像处理方法及系统
US9916492B1 (en) * 2017-03-21 2018-03-13 SkySlope, Inc. Image processing and analysis for UID overlap avoidance
RU2657181C1 (ru) * 2017-09-01 2018-06-08 Общество с ограниченной ответственностью "Аби Продакшн" Способ улучшения качества распознавания отдельного кадра
CN110533049B (zh) * 2018-05-23 2023-05-02 富士通株式会社 提取印章图像的方法和装置
CN111986095B (zh) * 2019-05-22 2024-03-19 上海哔哩哔哩科技有限公司 基于边缘提取的图像处理方法及图像处理装置
CN111080554B (zh) * 2019-12-20 2023-08-04 成都极米科技股份有限公司 一种投影内容中字幕区域增强方法、装置及可读存储介质
US11205084B2 (en) * 2020-02-17 2021-12-21 Wipro Limited Method and system for evaluating an image quality for optical character recognition (OCR)
US11386687B2 (en) 2020-03-30 2022-07-12 Wipro Limited System and method for reconstructing an image
CN111507352B (zh) * 2020-04-16 2021-09-28 腾讯科技(深圳)有限公司 一种图像处理方法、装置、计算机设备以及存储介质
CN111753832B (zh) * 2020-07-02 2023-12-08 杭州睿琪软件有限公司 图像处理方法、图像处理装置、电子设备和存储介质
US11494944B2 (en) 2020-11-18 2022-11-08 Disney Enterprises, Inc. Automatic low contrast detection
US11544828B2 (en) 2020-11-18 2023-01-03 Disney Enterprises, Inc. Automatic occlusion detection
CN112906686A (zh) * 2021-03-11 2021-06-04 北京小米移动软件有限公司 文字识别方法、装置、电子设备及存储介质
JP7137170B1 (ja) * 2021-03-22 2022-09-14 楽天グループ株式会社 情報処理装置、情報処理方法およびプログラム
CN113793403B (zh) * 2021-08-19 2023-09-22 西南科技大学 一种模拟绘画过程的文本合成图像方法
US11749006B2 (en) * 2021-12-15 2023-09-05 Intuit Inc. Optical character recognition quality evaluation and optimization
CN116071763B (zh) * 2023-03-06 2023-06-16 山东薪火书业有限公司 基于文字识别的教辅图书智能校编系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0256688A (ja) * 1988-08-23 1990-02-26 Toyota Central Res & Dev Lab Inc 文字切出し装置
US5513304A (en) 1993-04-19 1996-04-30 Xerox Corporation Method and apparatus for enhanced automatic determination of text line dependent parameters
US5384864A (en) 1993-04-19 1995-01-24 Xerox Corporation Method and apparatus for automatic determination of text line, word and character cell spatial features
US5915039A (en) 1996-11-12 1999-06-22 International Business Machines Corporation Method and means for extracting fixed-pitch characters on noisy images with complex background prior to character recognition
KR100480024B1 (ko) 1997-12-31 2005-08-01 엘지전자 주식회사 획의두께정보를이용한모음인식방법
US6301386B1 (en) * 1998-12-09 2001-10-09 Ncr Corporation Methods and apparatus for gray image based text identification
JP2002157552A (ja) * 2000-11-22 2002-05-31 Oki Electric Ind Co Ltd 光学式文字読取装置
JP2003203205A (ja) * 2002-01-08 2003-07-18 Ricoh Co Ltd 文字認識装置、文字認識方法、およびその方法をコンピュータに実行させるプログラム、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20030198386A1 (en) 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
JP4118749B2 (ja) * 2002-09-05 2008-07-16 株式会社リコー 画像処理装置、画像処理プログラムおよび記憶媒体
JP4350778B2 (ja) * 2002-09-05 2009-10-21 株式会社リコー 画像処理装置、画像処理プログラムおよび記録媒体
JP2004199622A (ja) * 2002-12-20 2004-07-15 Ricoh Co Ltd 画像処理装置、画像処理方法、記録媒体およびプログラム
US7236632B2 (en) 2003-04-11 2007-06-26 Ricoh Company, Ltd. Automated techniques for comparing contents of images
JP4259950B2 (ja) * 2003-08-08 2009-04-30 株式会社リコー 画像認識装置、画像認識プログラムおよび記録媒体
US8086050B2 (en) * 2004-08-25 2011-12-27 Ricoh Co., Ltd. Multi-resolution segmentation and fill
TWI248754B (en) 2004-11-08 2006-02-01 Avision Inc Image acquiring device with background filtering function
US7953295B2 (en) 2006-06-29 2011-05-31 Google Inc. Enhancing text in images
JP2008187327A (ja) 2007-01-29 2008-08-14 Sharp Corp 画像処理装置およびこれを備えた画像形成装置
US8223395B2 (en) * 2007-07-20 2012-07-17 Sharp Laboratories Of America, Inc. Methods and systems for refining text color in a digital image
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR

Also Published As

Publication number Publication date
WO2011112522A3 (en) 2011-11-03
CN102782706A (zh) 2012-11-14
US8526732B2 (en) 2013-09-03
KR20130016213A (ko) 2013-02-14
JP2013527513A (ja) 2013-06-27
CN102782706B (zh) 2014-07-23
US20110222768A1 (en) 2011-09-15
EP2545499B1 (en) 2020-01-08
WO2011112522A2 (en) 2011-09-15
EP2545499A4 (en) 2017-08-30
CA2790402A1 (en) 2011-09-15
ES2773719T3 (es) 2020-07-14
KR101795823B1 (ko) 2017-11-08
EP2545499A2 (en) 2013-01-16

Similar Documents

Publication Publication Date Title
JP5754065B2 (ja) 光学文字認識されるテキスト画像のテキスト解像度の改善方法及びシステム
US8417033B2 (en) Gradient based background segmentation and enhancement of images
JP6100744B2 (ja) 自動修復を用いたカラー文書画像セグメンテーション及び二値化
CA2789813C (en) Document page segmentation in optical character recognition
US8200012B2 (en) Image determination apparatus, image search apparatus and computer readable recording medium storing an image search program
EP1910994B1 (en) Binarization of an image
JP2014057306A (ja) 画像位相一致を用いた文書画像の二値化及び分割
JP2016521890A (ja) 文書バウンダリ検知方法
JP5488530B2 (ja) 画像処理装置及び画像処理プログラム
US8306335B2 (en) Method of analyzing digital document images
US8989493B1 (en) Method and apparatus for identifying regions of an image to be filtered during processing of the image
US20240086661A1 (en) Method and apparatus for processing graphic symbol and computer-readable storage medium
JP4857975B2 (ja) 画像処理システムおよび画像処理プログラム
JP3906221B2 (ja) 画像処理方法及び画像処理装置
JP5979008B2 (ja) 画像処理装置、画像処理方法及びプログラム
US7599556B2 (en) Apparatus, system, and method for scanning segmentation
Som et al. Application of threshold techniques for readability improvement of Jawi historical manuscript images
CN109934215B (zh) 一种身份证识别方法
CN113569859A (zh) 一种图像处理方法、装置、电子设备及存储介质
Boiangiu et al. Bitonal image creation for automatic content conversion
Cooksey et al. Rapid image binarization with morphological operators
Das et al. Adaptive method for multi colored text binarization
CN112991470B (zh) 一种复杂背景下的证件寸照背景颜色检查方法及其系统
Elmaleeh et al. Detection and removal of cracks in digitized paintings via digital image processing
KR100514734B1 (ko) 디지털 화질 개선방법 및 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140128

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150410

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150508

R150 Certificate of patent or registration of utility model

Ref document number: 5754065

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250