JP2017515222A - ライン・セグメント化方法 - Google Patents

ライン・セグメント化方法 Download PDF

Info

Publication number
JP2017515222A
JP2017515222A JP2016562596A JP2016562596A JP2017515222A JP 2017515222 A JP2017515222 A JP 2017515222A JP 2016562596 A JP2016562596 A JP 2016562596A JP 2016562596 A JP2016562596 A JP 2016562596A JP 2017515222 A JP2017515222 A JP 2017515222A
Authority
JP
Japan
Prior art keywords
character
width
error
widths
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016562596A
Other languages
English (en)
Other versions
JP6693887B2 (ja
Inventor
コレット、フレデリク
オート、ジョルディ
ドウ、ミシェル
ミューレナエーレ、ピエール デ
ミューレナエーレ、ピエール デ
デュポン、オリヴィエール
ヘンスゲス、ギュンター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IRIS SA
Original Assignee
IRIS SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IRIS SA filed Critical IRIS SA
Publication of JP2017515222A publication Critical patent/JP2017515222A/ja
Application granted granted Critical
Publication of JP6693887B2 publication Critical patent/JP6693887B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/196Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本発明は、第1の出発ポイント座標を決定するステップと、データベースに記憶される最大文字幅と、その最大文字幅に対応するテキストのラインの部分の特性とに応じた、可能性のある文字幅のリストを生成するステップとを用いて開始されるライン・セグメント化方法に関する。本方法は、可能性のある文字幅のリストの上で、第1の出発ポイント座標と、第1の幅とに対応するテキストのラインの第2の部分を決定する。第2の部分の上に対して、分類方法が適用されて、第1の幅についてのエラーの可能性と、文字候補とを提供する。エラーの可能性は、速度と正確さとの間のトレードオフによって決定される第1のしきい値と比較され、第1の幅に対応するエラーの可能性が、しきい値の値よりも低い場合に、候補文字が、セグメントが知られていることを意味する文字として選択される。

Description

本発明は、ライン・セグメント化方法に関し、より詳細には、OCRシステム内で使用されるライン・セグメント化方法に関する。
光学式文字認識(OCR:Optical Character Recognition)システムが、知られている。これらのシステムは、紙の文書を検索可能なテキスト文書へと自動的に変換する。OCRシステムは、一般的に、3つの主要なステップから、すなわち、ライン・セグメント化と、特徴抽出と、文字分類とから構成される。しかし、図1に示されるように、特徴抽出は、多くの場合、文字分類の一部分として提示される。そのようにして、文字ストリングの画像から出発して、知られている光学式文字認識システムは、個別の文字の画像になるようにライン・セグメント化を最初に適用し、その後に、文字分類ステップが実行されて、文字を識別する。文字分類技法は、ここ数年で非常に堅固になっているのに対し、ライン・セグメント化は、とりわけアジア・テキストの場合には、依然としてOCRの決定的に重要なステップのままである。
ライン・セグメント化についての種々のアプローチが、存在している(多くの場合に文字セグメント化とも呼ばれている)。テキスト・ラインを表す画像は、文字画像を構成する個別の部分画像へと分解される。種々の方法を使用して、ラインをセグメント化することができる。知られているライン・セグメント化方法は、個別の文字を分離するやり方として文字間の切断部、又は単語の切断部(ラテン文字に適合される)を検出するものである。これは、例えば、WO2011128777及びWO201126755に記載される。
例えば、WO2011142977に記載される、別の知られているライン・セグメント化方法は、文字を分離するラインを識別するために後で処理されるチョップ・ラインを使用している。例えば、EP0138445B1におけるさらに他の方法は、文字の間の一定のピッチを仮定している。
上記で説明されるライン・セグメント化方法は、ダイセクション方法(dissection methods)として知られている。このタイプの方法は、アジア・テキストと、ラテン・テキストと組み合わされたアジア・テキストとの場合には、あまり効率の良いものではない。その理由は、そのタイプのテキストにおいては、多くの場合に文字の間に明確な切断部又はピッチが存在しておらず、またアジア文字は、単一の接続された構成部分から作られておらず、ほとんどの場合はいくつかの接続された構成部分(例えば、漢字の部首)から作られているためである。
ライン・セグメント化の別のタイプの方法は、特定のアルファベットにおけるクラスにマッチする画像の中の構成部分の認識に基づいている。そのような方法は、しかしながら、長い計算時間を必要とする。
第3のタイプのセグメント化技法は、最初の2つの組合せを使用しており、「オーバーセグメント化」方法として、知られている。画像は、図2に示されるように異なるダイセクション方法を用いて、オーバーセグメント化される。いくつかの妥当と思われるセグメント化の問題解決手法が、同じ、又は異なる文字分類方法によって分析され、次いで最良のセグメント化の問題解決手法が選択される。例えば、アジア文字の場合におけるように、セグメント化が困難になるときには、多数の可能性のあるセグメント化の問題解決手法が評価され、その結果、入力ストリング画像を分析するために非常に長い計算時間がかかる。
WO2011128777 WO201126755 WO2011142977 EP0138445B1
ラインの高速且つ正確なセグメント化を提供する、文字ストリング画像の中の文字をセグメント化するための方法を提供することが、本発明の目的である。
これらの目的は、第1の独立請求項の技術的特性を示す、文字ストリング画像の中の文字をセグメント化するための方法を用いた本発明に従って達成される。本発明による文字ストリング画像の中の文字をセグメント化する方法は、
a)背景と対照を成すピクセルの第1の出発ポイント座標を決定するステップと、
b)最大文字幅と、最大文字幅に対応する文字ストリング画像の部分の特性とに応じた、可能性のある文字幅のリストを生成するステップと、
c)第1の出発ポイント座標と、第1の幅とに対応する文字ストリング画像の第2の部分を決定するステップと、
d)文字ストリング画像の第2の部分に対して分類方法を適用して、第1の幅についてのエラーの可能性(likelihood of error)と、候補文字とを提供するステップと、
e)速度と正確さとの間のトレードオフによって決定される第1のしきい値と、エラーの可能性を比較するステップと、
f)第1の幅に対応するエラーの可能性が、しきい値の値よりも低い場合に、第1の幅に対応する文字として候補文字を選択するステップと
を含んでいる。
この方法の利点は、ライン・セグメント化と、文字分類とが、文字ごとに組み合わされたプロセスにされることである。文字ストリング画像のライン・セグメント化と、文字分類とを実行するステップの必要とされる数が、著しく低減されるので、これは、低減された算出時間の形の大きな利点を生み出す。その結果は、本方法の速度と、正確さとの増大である。
本発明による他の実施例においては、本方法は、第1のしきい値の値よりも高い第2のしきい値の値とエラーの可能性を比較するステップをさらに含んでおり、第1のしきい値の値とエラーの可能性を比較するステップは、エラーの可能性が、第2のしきい値の値よりも低い場合にだけ実行される。
第2のしきい値の値は、肯定的な結果をもたらす機会を有していない候補についての高速なフィルタリングを可能にするという利点を有する。
本発明による別の実施例においては、本方法は、第1の幅に対応するエラーの可能性が、第2のしきい値の値よりも低い場合に、次の文字についての出発ポイントを算出するステップと、次の文字の算出された出発ポイントをメモリに保持するステップとをさらに含む。
本発明による別の実施例においては、本方法は、第1の幅に対応するエラーの可能性が、第1のしきい値の値よりも低い場合に、データベースに含まれる文字統計値をアップデートするステップをさらに含んでいる。
このデータベースは、テキストの中の文字と、参照文字とについての最大サイズと平均サイズとについての情報を含んでいる。これらの値は、可能性のある文字幅のリストの生成における文字の幅を推定するときに、本方法の速度と正確さとを改善するために使用される。
本発明による別の実施例においては、可能性のある文字幅のリストは、最も可能性の高いものから、より可能性の低いものへとソートされ、最も可能性の高い幅は、データベースに記憶される文字についての推定された最大幅よりも大きくない、最大数の接続された構成部分を含む最も広い幅であるような幅である。
本発明による別の実施例においては、可能性のある文字幅のリストのうちの2つのより可能性の低い幅は、平均グローバル幅と、平均グローバル幅の2分の1とであり、平均グローバル幅は、文字ストリング画像の中の第1の文字についての文字ストリング画像の高さであり、また平均グローバル幅は、文字ストリング画像の中の後続の文字についての、データベースに記憶される以前の平均グローバル幅と平均文字幅とに基づいて、算出される。
これの利点は、アジア文字のサイズが、ラテン文字のサイズのおおよそ2倍であるため、平均グローバル幅は、アジア文字を識別するのに対し、平均グローバル幅の2分の1は、ラテン文字を識別し、それゆえに、この手段により、ライン・セグメント化方法を、ラテン文字と、アジア文字と、それらの組合せとに適用できることである。
本発明による別の実施例においては、可能性のある文字幅のリストの以前の幅に対応するエラーの可能性が、第2のしきい値の値よりも高い場合に、本方法は、
a)出発ポイント座標に対応し、且つリストの次の幅に対応する文字ストリング画像の第2の部分を決定するステップと、
b)文字ストリング画像の第2の部分に分類方法を適用して、この幅についてのエラーの可能性を提供と、候補文字とを提供するステップと、
c)データベースに記憶されるしきい値の値とエラーの可能性を比較するステップと、
d)この幅に対応するエラーの可能性が、しきい値の値よりも低くなるまで、又は可能性のある文字幅のリストの中に含まれるすべての幅が処理されてしまうまで、ステップa)と、ステップb)と、ステップc)とを反復するステップと、
e)幅に対応するエラーの可能性が、第1のしきい値の値よりも低い場合に、幅に対応する文字として文字候補を選択するステップと
をさらに含む。
問題解決手法が見出されていない限り、また問題解決手法が見出されるまで、ライン・セグメント化と、文字分類とが、次々に、組み合わされ、実行される。これは、そのような方法を実行するために必要とされるステップの数を低減させることを可能にしており、また本方法の正確さを改善させもする。
本発明による別の実施例においては、文字ストリング画像は、縦方向の文字ストリング画像であり、すべての幅は、高さである。
アジア文字は、ラインに沿って書かれるが、列に沿って書かれる可能性もある。本方法は、確かにラインだけには限定されず、また文字の幅を高さに変更することだけにより、ラインに簡単に適合される可能性があり、また逆の場合も同様である。
別の実施例においては、本方法は、成功した反復時に平均グローバル幅値で文字統計データベースをアップデートするステップをさらに含んでいる。
本発明による別の実施例においては、可能性のある文字幅のリストを生成するステップは、与えられたポイント・サイズと、最大の参照文字の幅と、参照文字の平均幅と、参照文字の間の平均間隔のサイズとについて、参照文字を含むデータベースから取り出されるデータに基づいている。
本発明の別の実施例においては、データベースは、それらの文字の統計値についての推定値をさらに含んでおり、データベースは、成功した反復のたびにアップデートされる。
本発明の別の実施例においては、最大の文字幅は、アジア文字についての最大文字幅である。
本発明の別の実施例においては、コンピュータ・プログラム製品は、コンピューティング・デバイスに、入力画像の中の文字ストリング画像をセグメント化させるための制御ロジックを記憶しているコンピュータ使用可能媒体を備えており、その制御ロジックは、
a)背景と対照を成すピクセルの第1の出発ポイント座標を決定するための第1の制御読取り可能プログラム・コード手段と、
b)最大文字幅と、最大文字幅に対応する文字ストリング画像の部分の特性とに応じた、可能性のある文字幅のリストを生成するための第2の制御読取り可能プログラム・コード手段と、
c)可能性のある文字幅のリストの上の第1の出発ポイント座標と第1の幅とに対応する文字ストリング画像の第2の部分を決定するための第3の制御読取り可能プログラム・コード手段と、
d)文字ストリング画像の第2の部分に対して分類方法を適用して、第1の幅についてのエラーの可能性と、候補文字とを提供するための第4の制御読取り可能プログラム・コード手段と、
e)速度と正確さとの間のトレードオフによって決定される第1のしきい値とエラーの可能性を比較するための第5の制御読取り可能プログラム・コード手段と、
f)第1の幅に対応するエラーの可能性が、しきい値の値よりも低い場合に、第1の幅に対応する文字として候補文字を選択するための第6の制御読取り可能プログラム・コード手段と
を備えている。
本発明は、さらに、以下の説明と、添付の図面とを用いて、明らかにされる。
先行技術による光学式文字認識プロセスにおける種々のステップを示す図である。 オーバーセグメント化として知られている最先端技術におけるライン・セグメント化のタイプを示す図である。 本発明の一実施例によるライン・セグメント化方法を示す図である。 文字統計データベースを有するライン・セグメント化方法を示す図である。
本発明は、特定の実施例に関して、ある図面を参照して説明されることになるが、本発明は、それに限定されず、特許請求の範囲だけによって限定される。説明される図面は、概略的なものにすぎず、また非限定的である。それらの図面においては、要素のいくつかのサイズは、誇張されることもあり、また例示の目的のために縮尺して描かれてはいない。それらの寸法と、相対的な寸法とは、必ずしも、本発明の実践に合わせた実際の縮小に対応しているとは限らない。
さらに、本説明及び特許請求の範囲における第1の、第2の、及び第3の、などの用語は、類似した要素を区別するために使用され、また必ずしも逐次的順序又は時間的順序を説明するために使用されるとは限らない。それらの用語は、適切な状況の下で交換可能であり、また本発明の実施例は、本明細書において説明又は例示される以外の他の順番でも動作することができる。
さらに、本説明及び特許請求の範囲における最上部、最低部、上の、及び下の、などの用語は、説明の目的のために使用され、必ずしも相対的な位置を説明するために使用されるとは限らない。そのように使用される用語は、適切な状況の下で交換可能であり、また本明細書において説明される本発明の実施例は、本明細書において説明又は例示される以外の他の向きにおいても動作することができる。
さらに、様々な実施例は、「好ましい」と称されるが、本発明の範囲を限定するものとしてではなく、本発明が実装され得る例示的なやり方として解釈されるべきである。
特許請求の範囲において使用される用語「含んでいる/備えている(comprising)」は、それ以降にリストアップされる要素又はステップだけに限定されるように解釈されるべきではなく、その用語は、他の要素又はステップを除外しない。用語「含んでいる/備えている」は、述べられた特徴、整数、ステップ、又はコンポーネントの存在を言及されるように指定するように解釈される必要があるが、1つ又は複数の他の特徴、整数、ステップ又はコンポーネント、或いはそのグループの存在又は追加を除外することはしない。それゆえに、表現「AとBとを備えているデバイス」の範囲は、コンポーネントAとBとだけから構成されるデバイスだけに限定されるべきではなく、本発明に関して言えば、デバイスの列挙されたコンポーネントが、AとBとだけであり、またさらに、請求項は、これらのコンポーネントの均等物を含むように解釈されるべきである。
図3を参照すると、図3は、本発明の一実施例による光学式文字認識(OCR)方法の流れ図を示すものである。本方法の入力は、文字ストリング画像110である。第1のステップにおいて、ライン・セグメント化120が、文字ストリング画像110に実行される。分析される文字の可能性のある幅についての予備情報が、算出される。文字の可能性のある幅についてのこの予備情報は、OCR方法の速度を改善する、ステップの新しい順番を可能にする。オーバーセグメント化が、依然として使用されるが、必ずしもすべての可能性のある問題解決手法(210、220、230)が、OCR方法によって体系的に分析される必要があるとは限らない。可能性のある問題解決手法は、候補文字幅のリストを用いて生成され(310)、最も可能性の高いものから、より可能性の低いものへとソートされる。OCR方法は、最初に最も可能性の高い見込みのある問題解決手法210を分析する。測定エラーに対する条件が満たされる(320)場合、文字は分類され(150)、その他の可能性のある問題解決手法は、切り捨てられ、次の文字が分析される。測定エラーに対する条件が満たされない(330)場合、次の最も可能性の高い可能性のある問題解決手法が分析される(220)。このプロセスは、分類に成功した文字がない限り、又はすべての可能性のある問題解決手法が評価されてしまうまで、繰り返し反復される。
本方法は、ここで説明されるように、テキストのラインをセグメント化するために適用される。しかしながら、同じ方法を使用して、アジア・テキストの場合にしばしばそうであるように、テキストの列をセグメント化することができる。
上記で説明したように、最も可能性の高いものから、より可能性の低いものへと発生するように順序付けられる候補文字幅のリストが、文字画像の分析の前に、生成される(310)。候補文字幅のこのリストの生成は、本出願において後で説明する。リストは、N+2個の候補幅を含んでおり、ここで、最初のN個の幅は、切断が、文字を抽出するために文字ストリング画像110において実行されるべきでない幅であり、また最後の2つの幅は、切断が、文字ストリング画像110において文字を分離させ、また抽出するために実行される必要がある幅である。
出発ポイントは、分析すべき新しい文字画像の位置を規定するx座標である。初期の出発ポイントのリストが、アルゴリズムの最初に作成され、ここでは、リストの最初の初期出発ポイントは、画像の左側の第1の黒色ピクセルに対応する。他の所定の出発ポイントは、ラインの端部、又は最も右側のピクセルに対応する。他の出発ポイントが、OCRプロセス中に、出発ポイントのリストに追加される。本方法は、リストの中に存在するすべての出発ポイントが処理されることを保証する。
文字画像は、接続された構成部分のリストに関連づけられる出発ポイント座標と幅とによって完全に規定される。ラインの高さは、すべての文字について同じである。OCRプロセスの終わりに、文字が分類される。
可能性のある問題解決手法が作成されると、文字分類方法140が、可能性のある問題解決手法に適用されて、文字が、この可能性のある問題解決手法について、分類され得るかどうかを決定する。本発明の一実施例においては、文字分類方法140は、ガボール(Gabor)関数に基づいたものである。
文字分類方法140は、本発明の一実施例によれば、2つの入力、すなわち、
− 文字nの出発ポイント座標SPであって、出発ポイント座標は、分析すべき文字の左下の文字の第1のピクセルの(x)座標である、出発ポイント座標SPと、
− 文字nについての候補文字幅のリストから取られる候補幅w
を必要とする。
出力は、文字Cを計算するために使用されるエラーの可能性Perrである。エラーの可能性Perrは、2つのしきい値パラメータ、すなわち、エラーの低い可能性を有するしきい値Tlerrと、エラーの高い可能性を有するしきい値Therrと比較される。Tlerrと、Therrとの値は、速度対正確さの要件に応じて、調整することができる。本発明の好ましい一実施例においては、TlerrとTherrとの値は、Tlerr=20%とTherr=99.9%とに設定される。エラーの低い可能性を有するしきい値Tlerrは、分類が成功した文字を有する条件を規定する。
本発明の一実施例によるライン・セグメント化方法は、図4に示されるように文字統計データベース400を使用している。次にそのデータベースの要素をリストアップする。どのようにして要素のうちのそれぞれが使用されるかについてのより詳細な説明が、本出願において、さらに続く。データベースは、
− メモリに記憶される、アジア文字とラテン文字とについての、また選択されたポイント・サイズについての基準サイズ(高さ及び幅)のライブラリと、
− メモリに記憶される、選択されたポイント・サイズについてのアジア文字とラテン文字とについての基準最大サイズ、それぞれ、wMax,A,r、及びwMax,L,rと、
− 選択されたポイント・サイズについての、アジア・テキストとラテン・テキストとについて同じである基準平均文字間間隔、Sと、
− 分析されているテキストの中のアジア文字とラテン文字との推定最大幅、それぞれ、wMax,A,t、及びwMax,L,tと、
− 分析されているテキストの中のアジア文字とラテン文字とについての平均文字間間隔、sと、
− 分類済みの文字だけについて算出される、対応する参照文字の幅を表す、アジア文字及びラテン文字nの幅のローカル推定値、それぞれLn,A及びLn,Lであって、文字nの実際の幅と値とを使用して計算される文字のポイント・サイズの測定値である、アジア文字及びラテン文字nの幅のローカル推定値、それぞれLn,A及びLn,Lと、
− 分類済みの文字だけについて算出される、対応する参照文字の幅を表す、文字の幅のグローバル推定値、G
を含む。Gの値は、以前に測定されたローカル推定値Lの移動平均であり、それゆえに、平均文字ポイント・サイズのより正確な測定値である。この値は、間違って分類された文字に対してより許容性があるので、より信頼できるものである。
図4を参照すると、図4は、本発明の一実施例によるライン・セグメント化プロセスの流れ図を示すものである。プロセスは、文字Cのセグメント化について例示される。文字CについてのすべてのN+2個の候補文字幅のリスト310が生成され、第1の候補文字幅wが、候補文字幅のリストから取られる。これらの2つの値、SPとwとは、ステップ420における文字分類方法140のための入力410である。ステップ420の出力は、エラーの可能性Perrである。
errの値に応じて、2つのオプションが可能である。エラーの可能性Perrが、エラーの高い可能性を有するエラーについてのしきい値Therrよりも低い(421)場合は、文字Cが、可能性のある問題解決手法である。第1の候補幅wに対応する文字Cは、次いで、メモリに保持され、次の文字の出発ポイントが算出され、必要に応じて処理されるように出発ポイントのリストに追加され、すなわち、SPn+1=SP+w+sA,tとなる(425)。さらに、エラーの可能性Perrがまた、エラーの低い可能性を有するエラーについてのしきい値Tlerrよりも低い(422)場合、文字Cは、分類が成功したと考えることができ、本説明において後で説明されるように文字統計データベースがアップデートされる(400)。本方法は、次の出発ポイントSPn+1へと移動(405)して、現在の出発ポイントSPについて他の幅を処理することなしに、次の文字Cn+1を決定することができる。エラーの可能性Perrが、エラーの低い可能性を有するエラーについてのしきい値Tlerrよりも高い(423)場合、文字分類方法は、以下で説明されるように、次の候補幅i,wを用いて実行される(430)。
しかしながら、エラーの可能性Perrが、エラーの高い可能性を有するエラーについてのしきい値Therrよりも高い(424)場合には、候補幅1,wに対応する文字Cは、メモリに保持されず、新しい出発ポイントは、算出されない。
文字分類方法は、次の候補幅i,wを用いて実行される(430)。この場合にも、Perrの値に応じて、2つのオプションが存在している。PerrがTherrよりも低い(431)場合、文字Cは、幅wとともに記憶され、次の文字の出発ポイントが算出され、必要に応じて処理されるべき出発ポイント(405)のリストに追加され、また、PerrがまたTlerrよりも低い(432)場合は、文字統計データベースがアップデートされる(400)。しかしながら、PerrがTlerr及び/又はTherrよりも高い(435、433)場合、文字分類方法は、リストのすべての幅が処理されてしまう(i=N)まで、或いは文字の分類が成功する(Perr<Tlerr)まで、次の候補幅i+1,wi+1を用いて、実行される。
i=N+1では、同じプロセスが反復されるが、今や幅wN+1は、第1の切断が、幅の値wN+1=wMax,A,tについて実行されるような幅になっている(440)。文字が、i=N+1についてエラーの低い可能性Perr<Tlerrを用いて分類されていない(443又は445)場合、そのときにはプロセスは、i=N+2について反復され、ここでwN+2=wMax,L,t(450)であり、この場合にも、452を伴う451や453又は454を伴う451など、異なる経路が可能である。
オーバーセグメント化の必ずしもすべての問題解決手法は分析しないようにするために、文字n(C)についてのすべてのN+2個の候補幅{w}のリストは、以下のように生成され、すなわち、候補幅は、最も可能性の高いものから、より可能性の低いものへとソートされ、また候補幅の数は、接続された構成部分の数を用いて測定される可能性のある文字の形状に応じて、文字ごとに変化する。観察に基づいて、アジア文字の幅は、そのときにより小さな幅を有する数少ない文字を除いて、ほとんどの文字に共通であると仮定される。本発明の一実施例によれば、最も可能性の高い幅は、より広いアジア文字の推定幅(wMax,A,t)に文字間の推定平均間隔(s)を加えたものよりも広くない、接続された構成部分の最大の組を含む幅に対応する。
文字は、非接触形(non-touching)、又は接触形(touching)である可能性がある。非接触形文字は、より高い発生確率を有しており、それゆえに、最初に考慮されるべきである。
非接触形文字では、(切断は必要でなく)、ピクセル単位で算出されるインデックスiを有する候補幅(w)は、最も幅の広いアジア文字(wMax,A,t)よりも小さいp(p≧0)個の接続された構成部分の組に文字の間の平均推定間隔(s)を加えたものを有するi番目の最大の幅となる。幅wは、p個の接続された構成部分を有しており、幅wi+1は、p個又はそれより少ない接続された構成部分を有しており、またwi+1≦wとなる。
最も幅の広いアジア文字(wMax,A,t)と、文字の間の推定間隔(s)とは、文字統計データベースにおいて評価される。N個の可能性のある非接触形文字が、存在している。
2つの隣接する文字が、接触形である場合に、切断が実行される必要があり、それらの文字は、文字Cについての以前の反復(n−1)時にアップデートされた文字統計データベースにおいて見出され得る文字の平均グローバル幅Gn−1から算出される、最も可能性の高い場所において切断される。インデックスN+1を有する幅wN+1は、アジア文字の平均グローバル幅Gn−1と、平均間隔sとの合計に対応する。インデックスN+2を有する幅wN+2は、ラテン文字の平均幅Gn−1/2と、平均間隔sとの合計に対応する。ラテン文字の幅は、アジア文字の幅の2分の1であることが、仮定される。
要約すると、反復ごとに、文字nの入力候補幅のリストは、
=p個の接続された構成部分のi番目に大きい組の幅(w=wMax+s,i=1,...,N;N≧0)
N+1=Gn−1+s
N+2=Gn−1/2+s
によって与えられ、式中で、wMax,A,t、Gn−1、s、sは、文字が分類された(すなわちPerr<Tlerr)たびにアップデートされる文字統計データベースに由来する値である。
データベースは、参照文字のライン及びライブラリから抽出される文字情報、並びにこれらの文字についての統計値を記憶するデータ構造を含んでいる。単一のデータ構造が、プロセスの最初に作成され、その構造は、そのときには空である。メモリに記憶されるデータ構造は、反復ごとにアップデートされ、またその構造は、グラフに類似している。
データベースのすべてのパラメータは、以下の表、すなわち、

に要約され、またデータベースの種々のパラメータの評価が、次に説明される。
最大のアジア文字とラテン文字との幅は、


のように評価され、ここで、比例比率は、テキストの中の文字のポイント・サイズに対するライブラリの中の文字のポイント・サイズの変換を表している。
同じことが、アジア文字とラテン文字との平均サイズについて行われ、それぞれ、


となる。この値は、文字nの幅のローカル推定値を表しており、この値をさらに使用して、ステップnにおいて文字の幅のグローバル推定値を評価する。
ステップnにおける文字の幅のグローバル推定値Gは、以下の式、

を使用して算出され、式中で、Gn−1は、ステップn−1においてアップデートされる文字の平均幅のグローバル推定値であり、Lは、ステップnにおける文字の平均サイズのローカル推定値であり、nは、本方法の現在のステップのインデックスであり、またGは、ラインの高さである(アジア文字は正方形と仮定される)。この式は、アジア文字とラテン文字とについて有効である。ラテン文字では、幅のグローバル推定値は、アジア文字のグローバル推定値の2分の1であると仮定される。
最後に、同じ比例関係が、テキストの中の文字間間隔sを推定するために適用され、テキストのポイント・サイズが、参照文字のポイント・サイズとは異なるときには、すなわち、

となる。
この実施例は、ライン・セグメント化方法の場合を示しているが、本方法は、ラインに限定されない。アジア・テキストはまた、列の中に書かれる可能性もあり、同じ方法が使用されることが可能である。その場合には、文字の幅は、文字の高さに置き換えられる必要があり、また出発ポイント座標は、文字ストリング画像の最上部における文字の第1のピクセルの(y)座標になる。

Claims (14)

  1. 文字ストリング画像の中の文字をセグメント化するための方法であって、
    背景と対照を成すピクセルの第1の出発ポイント座標を決定するステップと、
    最大文字幅と、前記最大文字幅に対応する前記文字ストリング画像の部分の特性とに応じた、可能性のある文字幅のリストを生成するステップと、
    可能性のある文字幅の前記リストで、前記第1の出発ポイント座標と、前記第1の幅とに対応する前記文字ストリング画像の第2の部分を決定するステップと、
    前記文字ストリング画像の前記第2の部分に対して分類方法を適用して、前記第1の幅についてのエラーの可能性と、候補文字とを提供するステップと、
    速度と正確さとの間のトレードオフによって決定される第1のしきい値と、エラーの前記可能性を比較するステップと、
    前記第1の幅に対応するエラーの前記可能性が、前記しきい値の値よりも低い場合に、前記第1の幅に対応する前記文字として前記候補文字を選択するステップと
    を含む方法。
  2. 前記第1のしきい値の値よりも高い第2のしきい値の値とエラーの前記可能性を比較するステップ
    をさらに含んでおり、
    前記第1のしきい値の値とエラーの前記可能性を比較するステップは、エラーの前記可能性が、前記第2のしきい値の値よりも低い場合にだけ実行される、請求項1に記載の方法。
  3. 前記第1の幅に対応するエラーの前記可能性が、前記第2のしきい値の値よりも低い場合に、次の文字についての出発ポイントを算出するステップと、
    次の文字の算出された出発ポイントをメモリに保持するステップと
    をさらに含む、請求項1に記載の方法。
  4. 前記第1の幅に対応するエラーの前記可能性が、前記第1のしきい値の値よりも低い場合に、データベースに含まれる文字統計値をアップデートするステップ
    をさらに含む、請求項1に記載の方法。
  5. 可能性のある文字幅の前記リストは、最も可能性の高いものから、より可能性の低いものへとソートされ、
    前記最も可能性の高い幅は、文字についての推定された最大幅よりも大きくない、最大数の接続された構成部分を含む最も広い幅であるような幅である、請求項1に記載の方法。
  6. 可能性のある文字幅の前記リストのうちの前記2つのより可能性の低い幅は、平均グローバル幅と、前記平均グローバル幅の2分の1とであり、前記平均グローバル幅は、前記文字ストリング画像の中の第1の文字についての前記文字ストリング画像の高さであり、前記平均グローバル幅は、前記文字ストリング画像の中の後続の文字についての以前の平均グローバル幅と平均文字幅とに基づいて、算出される、請求項5に記載の方法。
  7. 可能性のある文字幅の前記リストの前記第1の幅に対応するエラーの前記可能性が、前記第2のしきい値の値よりも高い場合に、前記方法は、
    a)前記出発ポイント座標に対応し、且つ可能性のある文字幅の前記リストの上の次の幅に対応する前記文字ストリング画像の第3の部分を決定するステップと、
    b)前記文字ストリング画像の前記第3の部分に分類方法を適用して、前記次の幅についてのエラーの可能性と、次の候補文字とを提供するステップと、
    c)前記第1のしきい値の値と前記次の幅についてのエラーの前記可能性を比較するステップと、
    d)幅に対応するエラーの前記可能性が、前記しきい値の値よりも低くなるまで、又は可能性のある文字幅の前記リストの中に含まれるすべての前記幅が処理されてしまうまで、ステップa)と、ステップb)と、ステップc)とを反復するステップと、
    e)前記幅に対応するエラーの前記可能性が、前記第1のしきい値の値よりも低い場合に、前記幅に対応する前記文字として前記文字候補を選択するステップと
    をさらに含む、請求項1に記載の方法。
  8. 前記文字ストリング画像は、縦方向の文字ストリング画像であり、すべての幅は、高さである、請求項1に記載の方法。
  9. 成功した反復時に前記平均グローバル幅の値で文字統計データベースをアップデートするステップをさらに含む、請求項6に記載の方法。
  10. 可能性のある文字幅のリストを生成するステップは、与えられたポイント・サイズと、最大の参照文字の前記幅と、前記参照文字の平均幅と、前記参照文字の間の平均間隔のサイズとについて、前記参照文字を含むデータベースから取り出されるデータに基づいている、請求項1に記載の方法。
  11. 前記データベースは、前記文字の統計値についての推定値をさらに含む、請求項10に記載の方法。
  12. 前記データベースは、成功した反復時にアップデートされる、請求項11に記載の方法。
  13. 前記最大文字幅は、アジア文字についての最大文字幅である、請求項1に記載の方法。
  14. コンピューティング・デバイスに、入力画像の中の文字ストリング画像をセグメント化させるための制御ロジックを記憶しているコンピュータ使用可能媒体を備えているコンピュータ・プログラム製品であって、前記制御ロジックは、
    a)背景と対照を成すピクセルの第1の出発ポイント座標を決定するための第1の制御読取り可能プログラム・コード手段と、
    b)最大文字幅と、前記最大文字幅に対応する前記文字ストリング画像の部分の特性とに応じた、可能性のある文字幅のリストを生成するための第2の制御読取り可能プログラム・コード手段と、
    c)可能性のある文字幅の前記リストの上の前記第1の出発ポイント座標と前記第1の幅とに対応する前記文字ストリング画像の第2の部分を決定するための第3の制御読取り可能プログラム・コード手段と、
    d)前記文字ストリング画像の前記第2の部分に対して分類方法を適用して、前記第1の幅についてのエラーの可能性と、候補文字とを提供するための第4の制御読取り可能プログラム・コード手段と、
    e)速度と正確さとの間のトレードオフによって決定される第1のしきい値とエラーの前記可能性を比較するための第5の制御読取り可能プログラム・コード手段と、
    f)前記第1の幅に対応するエラーの前記可能性が、前記しきい値の値よりも低い場合に、前記第1の幅に対応する前記文字として前記候補文字を選択するための第6の制御読取り可能プログラム・コード手段と
    を備えている、コンピュータ・プログラム製品。
JP2016562596A 2014-04-16 2015-04-15 ライン・セグメント化方法 Active JP6693887B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/254,096 2014-04-16
US14/254,096 US9183636B1 (en) 2014-04-16 2014-04-16 Line segmentation method
PCT/EP2015/058181 WO2015158781A1 (en) 2014-04-16 2015-04-15 Line segmentation method

Publications (2)

Publication Number Publication Date
JP2017515222A true JP2017515222A (ja) 2017-06-08
JP6693887B2 JP6693887B2 (ja) 2020-05-13

Family

ID=53051796

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016562596A Active JP6693887B2 (ja) 2014-04-16 2015-04-15 ライン・セグメント化方法

Country Status (6)

Country Link
US (1) US9183636B1 (ja)
JP (1) JP6693887B2 (ja)
KR (1) KR102345498B1 (ja)
CN (1) CN106255979B (ja)
BE (1) BE1025503B1 (ja)
WO (1) WO2015158781A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2836962A4 (en) * 2012-04-12 2016-07-27 Tata Consultancy Services Ltd SYSTEM AND METHOD FOR DETECTION AND SEGMENTATION OF CHARACTERISTIC MATTERS FOR OPTICAL CHARACTER RECOGNITION (OCR)
US9798943B2 (en) * 2014-06-09 2017-10-24 I.R.I.S. Optical character recognition method
JP6352695B2 (ja) * 2014-06-19 2018-07-04 株式会社東芝 文字検出装置、方法およびプログラム
CN106156766B (zh) 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
US9836646B2 (en) 2015-10-15 2017-12-05 I.R.I.S. Method for identifying a character in a digital image
CN110135426B (zh) * 2018-02-09 2021-04-30 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
US11151371B2 (en) 2018-08-22 2021-10-19 Leverton Holding, Llc Text line image splitting with different font sizes
CN110858317B (zh) * 2018-08-24 2024-06-14 北京搜狗科技发展有限公司 手写识别方法及装置
CN114241090B (zh) * 2021-12-31 2022-11-04 广州朗国电子科技股份有限公司 一种基于ocr的电子白板直线绘制方法、系统、设备及介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4562594A (en) 1983-09-29 1985-12-31 International Business Machines Corp. (Ibm) Method and apparatus for segmenting character images
US5060277A (en) * 1985-10-10 1991-10-22 Palantir Corporation Pattern classification means using feature vector regions preconstructed from reference data
JPH04270485A (ja) * 1991-02-26 1992-09-25 Sony Corp 印刷文字認識装置
JPH05128307A (ja) * 1991-10-31 1993-05-25 Toshiba Corp 文字認識装置
US6041141A (en) * 1992-09-28 2000-03-21 Matsushita Electric Industrial Co., Ltd. Character recognition machine utilizing language processing
CN1145872C (zh) * 1999-01-13 2004-04-14 国际商业机器公司 手写汉字自动分割和识别方法以及使用该方法的系统
JP2001195544A (ja) * 2000-01-07 2001-07-19 Fujitsu Ltd 文字切出し装置
US7734636B2 (en) * 2005-03-31 2010-06-08 Xerox Corporation Systems and methods for electronic document genre classification using document grammars
JP2007058803A (ja) 2005-08-26 2007-03-08 Canon Inc オンライン手書き文字認識装置及びオンライン手書き文字認識方法
JP4424309B2 (ja) * 2006-01-23 2010-03-03 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、文字判定プログラム、および文字判定方法
JP4662066B2 (ja) * 2006-07-12 2011-03-30 株式会社リコー 画像処理装置、画像形成装置、画像配信装置、画像処理方法、プログラム及び記録媒体
JP4860574B2 (ja) * 2006-09-13 2012-01-25 株式会社キーエンス 文字切り出し装置、方法およびプログラム
CN101398894B (zh) * 2008-06-17 2011-12-07 浙江师范大学 机动车车牌自动识别方法及其实现装置
CN101770576A (zh) * 2008-12-31 2010-07-07 北京新岸线网络技术有限公司 字符提取方法和装置
DE102009029186A1 (de) 2009-09-03 2011-03-10 BSH Bosch und Siemens Hausgeräte GmbH Geschirrspülmaschine mit einem Flottenspeicher sowie zugehöriges Verfahren
US8385652B2 (en) 2010-03-31 2013-02-26 Microsoft Corporation Segmentation of textual lines in an image that include western characters and hieroglyphic characters
US8571270B2 (en) 2010-05-10 2013-10-29 Microsoft Corporation Segmentation of a word bitmap into individual characters or glyphs during an OCR process
US8606010B2 (en) * 2011-03-18 2013-12-10 Seiko Epson Corporation Identifying text pixels in scanned images
JP5075997B2 (ja) * 2011-03-30 2012-11-21 株式会社東芝 電子機器、プログラムおよび文字列認識方法
US8611662B2 (en) * 2011-11-21 2013-12-17 Nokia Corporation Text detection using multi-layer connected components with histograms
JP5547226B2 (ja) * 2012-03-16 2014-07-09 株式会社東芝 画像処理装置、及び画像処理方法
US9330070B2 (en) * 2013-03-11 2016-05-03 Microsoft Technology Licensing, Llc Detection and reconstruction of east asian layout features in a fixed format document

Also Published As

Publication number Publication date
US20150302598A1 (en) 2015-10-22
BE1025503A1 (fr) 2019-03-20
US9183636B1 (en) 2015-11-10
KR20170004983A (ko) 2017-01-11
KR102345498B1 (ko) 2021-12-31
BE1025503B1 (fr) 2019-03-27
WO2015158781A1 (en) 2015-10-22
JP6693887B2 (ja) 2020-05-13
CN106255979B (zh) 2019-07-12
CN106255979A (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
JP6693887B2 (ja) ライン・セグメント化方法
US10853638B2 (en) System and method for extracting structured information from image documents
US10936862B2 (en) System and method of character recognition using fully convolutional neural networks
Sabbour et al. A segmentation-free approach to Arabic and Urdu OCR
JP5071914B2 (ja) 認識グラフ
CN110114776B (zh) 使用全卷积神经网络的字符识别的系统和方法
US9836646B2 (en) Method for identifying a character in a digital image
US9286527B2 (en) Segmentation of an input by cut point classification
US11270143B2 (en) Computer implemented method and system for optical character recognition
US20180330018A1 (en) Methods and systems for part geometry extraction
US20140184610A1 (en) Shaping device and shaping method
JP2018081674A (ja) 手書きテキスト画像に対する行及び単語切り出し方法
JP7244223B2 (ja) 電子文書における強調テキストの識別
CN108170806B (zh) 敏感词检测过滤方法、装置和计算机设备
WO2019092868A1 (ja) 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体
Mohammad et al. Contour-based character segmentation for printed Arabic text with diacritics
Shanjana et al. Offline recognition of malayalam handwritten text
RU2597163C2 (ru) Сравнение документов с использованием достоверного источника
US9418281B2 (en) Segmentation of overwritten online handwriting input
CN110826488B (zh) 一种针对电子文档的图像识别方法、装置及存储设备
Boillet et al. Confidence estimation for object detection in document images
US20230096728A1 (en) System and method for text line and text block extraction
Hakro et al. A Study of Sindhi Related and Arabic Script Adapted languages Recognition
CN111488870A (zh) 文字识别方法和文字识别装置
Mishchenko et al. Model-Based Recognition and Extraction of Information from Chart Images.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180413

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190508

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200416

R150 Certificate of patent or registration of utility model

Ref document number: 6693887

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250