JP5600723B2 - 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム - Google Patents

様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム Download PDF

Info

Publication number
JP5600723B2
JP5600723B2 JP2012245617A JP2012245617A JP5600723B2 JP 5600723 B2 JP5600723 B2 JP 5600723B2 JP 2012245617 A JP2012245617 A JP 2012245617A JP 2012245617 A JP2012245617 A JP 2012245617A JP 5600723 B2 JP5600723 B2 JP 5600723B2
Authority
JP
Japan
Prior art keywords
character
characters
division
width
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012245617A
Other languages
English (en)
Other versions
JP2013101616A (ja
Inventor
ルオ ジャオハイ
リー シーアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2013101616A publication Critical patent/JP2013101616A/ja
Application granted granted Critical
Publication of JP5600723B2 publication Critical patent/JP5600723B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Description

本発明の分野
本発明は、光学式文字認識に関するものであり、より詳しくは、様々な文字幅を有するテキスト行の文字を分割するための方法及びシステムに関するものである。
関連技術の説明
光学式文字認識(OCR)システムでは、一般的には、OCR処理は、図3のフローチャートで示されるように実行される。まず、スキャナあるいはカメラ、あるいは他の手段によって取得される文書画像(文書イメージ)が入力される。次に、複数のテキスト行を含む文書画像は、テキスト行画像に分割される。各テキスト行画像に対して、そのテキスト行内の文字に対して文字分割が実行される。その後、文字分割の結果に基づいて、文字認識が実行されて、文字認識結果を生成する。
一般的には、文字分割ステップでは、テキスト行画像は、まず、黒画素投影に基づいて文字に分割されることになる。平均文字幅(ACW)は、文字幅、高さ、及び行の高さ等についての統計的情報に従って計算される。オプションとしては、この時点で、連結成分方法による文字分割が実行されても良い。分割文字の幅が平均文字幅よりも大きい場合、平均文字幅に従う、あるいは特開平5−128307号公報に開示されるような境界追跡方法による、強制分割がなされることになる。次に、平均文字幅に従う様々な分割パターン(パス)を作成することによって、文字の断片が結合される。そして、すべてのパターンにおける文字が認識され、異なる分割パターンから最高の分割結果が、文字分割結果として選択される。
以下のフローでは、平均文字幅は、文字領域が、いくつかの実際の文字を含んでいるか、あるいは文字の一部、あるいは文字群の一部であるかを判定するためのかなり重要な基準である。文字を分割する処理あるいは妥当な分割パターンを作成する処理においても、平均文字幅は、重要な判定基準である。
しかしながら、本発明の発明者は、文書内のテキスト行が他の文字と異なる幅を有する文字で構成されている場合、時には、一定の平均文字幅がテキスト行の文字のすべてに対して適合できないことを発見した。平均文字幅が「幅広」文字に対してのみ適している場合、いくつかの連結文字は正しく分割されない可能性があり、あるいは、いくつかの文字は間違って1つの文字として結合される可能性がある。「幅広」平均文字幅は、多くの取り得る分割パターンをもたらすものでもあり、これには、より多くの計算時間あるいは複雑性が関与する。平均文字幅が「幅狭」文字にのみ適している場合、いくつかの「幅広」文字は、間違って断片に分割されることになる。この両側面は、OCR精度を低下させることになる。
従来技術にある不備を説明するための、いくつかの例が図4A及び図4Bに示されている。
図4Aでは、テキスト行は、いくつかの全角文字とくつかの半角文字(例えば、アルファベット、数字、あるいは全角文字の左/右成分)を同時に含んでいる。文字を分割するために一定の平均文字幅を使用する場合、文字分割の結果が図4Aに示される。従来技術の例では、いくつかの文字分割エラーが発生し、例えば、漢字「特開」は間違って断片に分割される。
図4Bでは、従来技術を使用する文字分割結果が示されている。同一の書体と同一のフォントサイズを用いている場合でさえ、例として日本語を取り上げると、いくつかのかなの幅は、他のかな及び漢字の少なくとも一方と異なる。例えば、異なる幅の、かな「れる」(図4Bで示される第2行)は間違って分割される。
加えて、テキスト行にはいくつかの連結文字が存在するので、平均文字幅に基づいてのみ、最高の分割結果を検出することを難しい。例えば、図4Bのかな「バイ」(第1行)と「た」(第3行)は連結文字の例であり、これらは、従来技術に従うと間違って分割される。
それゆえ、OCR精度が改善されるように、全角文字と半角文字とを含む、あるいは様々な文字幅を備えるかなと漢字を含むテキスト行の文字を分割することができる技術が必要とされている。また、連結成分の文字を分割することができる技術が必要とされている。
上述の従来技術において存在する技術的な課題を考慮して、様々な文字幅を有するテキスト行の文字を分割するための、新規の方法及びシステムが提供される。
本発明の要約
本発明の一態様に従えば、様々な文字幅を有するテキスト行の文字を分割するための方法が提供される。この方法は、
投影法に基づいて、前記テキスト行を第1の文字のセットに分割する第1の分割ステップと、
前記第1の文字のセットに基づいて第1の平均文字幅を計算する計算ステップと、
計算された前記第1の平均文字幅に基づいて、前記第1の文字のセットの幅広文字を強制分割して、第2の文字のセットを取得する強制分割ステップと、
前記第2の文字のセット文字に対して、前記テキスト行に隣接する行の平均文字幅または隣接する文字群の文字高さに基づいて第2の平均文字幅を設定する設定ステップと、
前記第1及び第2の平均文字幅に従って、前記第2の文字のセットの文字を結合して複数の分割パターンを作成し、それぞれの分割パターンの文字認識結果に基づいて1つの分割パターンを選択する結合ステップと
を有する。
本発明の別の態様に従えば、様々な文字幅を有するテキスト行の文字を分割するためのシステムが提供される。このシステムは、
投影法に基づいて、前記テキスト行を第1の文字のセットに分割するように構成されている第1の分割ユニットと、
前記第1の文字のセットに基づいて第1の平均文字幅を計算するように構成されている計算ユニットと、
計算された前記第1の平均文字幅に基づいて、前記第1の文字のセットの幅広文字を強制分割して、第2の文字のセットを取得するように構成されている強制分割ユニットと、
前記第2の文字のセット文字に対して、前記テキスト行に隣接する行の平均文字幅または隣接する文字群の文字高さに基づいて第2の平均文字幅を設定するように構成されている設定ユニットと、
前記第1及び第2の平均文字幅に従って、前記第2の文字のセットの文字を結合して複数の分割パターンを作成し、それぞれの分割パターンの文字認識結果に基づいて1つの分割パターンを選択するように構成されている結合ユニットと
を備える。
従来技術に従う、図4A及び図4Bにおける間違った分割結果に対して、図20A及び図20Bは、本発明に従う方法を適用した分割結果を示している。図20Aの分割結果からは、全角文字(漢字)と半角文字(文字及び数字)を含むテキスト行の文字が正しく分割されていることを明確に確認することができる。図20Bの分割結果からは、かな「バイ」(第1の行)と「た。」(第3の行)のような連結成分を有する文字を含むテキスト行の文字も正しく分割されていることを明確に確認することができる。
正しい文字分割結果に基づいて、光学的文字認識の精度は、全角文字及び半角文字を含む、あるいは、様々な文字幅を有するかなと漢字を含む、あるいは、連結成分を有する文字を含む、テキスト行に対して大幅に改善されることになる。
また、本発明の特徴的な構成及び効果は、以下の説明及び図面から明らかになるであろう。
本発明に従う、様々な文字幅を有するテキスト行の文字を分割するためのコンピュータデバイスの構成を示すブロック図である。 本発明の実施形態に従う、様々な文字幅を有するテキスト行の文字を分割するためのシステムの一般的な構成を示す機能ブロック図である。 光学式文字認識における、本発明のアプリケーションを示すフローチャートである。 従来技術に従う、様々な文字幅を有するテキスト行における文字に対する文字分割結果の例を示す図である。 従来技術に従う、様々な文字幅を有するテキスト行における文字に対する文字分割結果の例を示す図である。 本発明の実施形態に従って、様々な文字幅を有するテキスト行の文字を分割するための方法を示すフローチャートである。 本発明の実施形態に従う、文字分割方法の各ステップの分割結果を示すテーブルである。 強制分割処理を必要とするテキスト行の例を示す図である。 強制分割処理で使用される分割グループの例を示す図である。 新規の分割点を追加することを必要とする強制分割の例を示す図である。 本発明の実施形態に従う、図5の方法のステップS200の処理を示すフローチャートである。 本発明の実施形態に従う、図5の方法のステップS300の処理を示すフローチャートである。 本発明の実施形態に従う、図5の方法のステップS400の処理を示すフローチャートである。 平均文字幅に基づいて、1つの分割グループ内の分割点を検出する一方法のフローチャートである。 どのようにして分割グループに検索位置を設定するかを示す図である。 動的に決定される点を検索するための検索範囲を示すテーブルである。 ステップS400の後の強制分割結果を示す図である。 本発明の一実施形態に従う、図5の方法のステップS500の処理を示すフローチャートである。 本発明の別の実施形態に従う、図5の方法のステップS500の処理を示すフローチャートである。 図17のステップS530の処理の詳細を示す図である。 本発明に従う方法を適用した後の、様々な文字幅を有するテキスト行の文字に対する文字分割結果の例を示す図である。 本発明に従う方法を適用した後の、様々な文字幅を有するテキスト行の文字に対する文字分割結果の例を示す図である。
本発明の実施形態を、図面を参照して詳細に説明する。
本記載において、用語「左」及び「右」は、本明細書を読む際に人が通常に行うような方法で画像を見る場合の左側及び右側を示すものである。
本記載において、用語「文字」は、分割結果の個々の要素を示し、これは、実際の文字、実際の文字の一部、句読点、あるいはそれらの組み合わせである場合がある。
本記載では、特に示さない限り、すべてのサイズ(例えば、高さあるいは幅)は、「画素」の単位である。例えば、L<5は、Lが5画素未満であることを意味している。
図1は、本発明に従って、様々な文字幅を有するテキスト行の文字を分割するためのシステムを実現するためのコンピュータデバイスの構成を示すブロック図である。説明を簡単にするために、システムは、単一のコンピュータデバイスで構築されるように示されている。しかしながら、そのシステムが単位のコンピュータデバイスで構築されている、あるいはネットワークシステムとして複数のコンピュータデバイスで構築されているかに関わらず、システムは有効である。
図1に示されるように、コンピュータデバイス100は、様々な文字幅を有するテキスト行の文字を分割する処理を実現するために使用される。コンピュータデバイス100は、CPU101、チップセット102、RAM103、記憶コントローラ104、ディスプレイコントローラ105、ハードディスクドライブ106、CD−ROMドライブ107及びディスプレイ108とを備えている。コンピュータデバイスは、更に、信号線111を備え、これは、CPU101とチップセット102との間で接続される。また、信号線112を備え、これは、チップセット102とRAM103との間で接続される。また、周辺デバイスバス113を備え、これは、チップセット102と、様々な周辺デバイスとの間で接続される。また、信号線114を備え、これは、記憶コントローラ104とハードディスクドライブ106との間で接続される。また、信号線115を備え、これは、記憶コントローラ104とCD−ROMドライブ107との間で接続される。また、信号線116を備え、これは、ディスプレイコントローラ105とディスプレイ108との間で接続される。
クライアント120は、コンピュータデバイス100と直接あるいはネットワーク130を介して接続される。クライアント120は、文字分割タスクをコンピュータデバイス100へ送信して、コンピュータデバイス100は分割結果をクライアント120へ返信する。
図2は、各モジュールユニットからなる、様々な文字幅を有するテキスト行の文字を分割するためのシステムの一般的な構成を示すブロック図である。
図2に示されるように、文字分割システム200は、投影法に基づいて、テキスト行を第1の文字のセットに分割するように構成されている第1の分割ユニット201と、第1の文字のセットに基づいて、平均文字幅を計算するように構成されている計算ユニット203と、オプションとして、連結成分方法を使用して第1の文字のセットの幅広文字を分割し、第3の文字のセットを取得するように構成されている第2の分割ユニット205と、計算された平均文字幅に基づいて、第3の文字のセットの幅広文字を強制分割して、第2の文字のセットを取得するように構成されている強制分割ユニット207と、第2の文字のセットの種々の文字に対して様々な平均文字幅を設定するように構成されている設定ユニット209と、設定された様々な平均文字に従って様々な分割パターンを作成し、そして、最高の分割パターンを選択することによって、第2の文字のセットの文字を結合するように構成されている結合ユニット211とを備えている。
文字分割システム200では、第2の分割ユニット205は、光学式文字認識の精度を更に改善するために使用され、また、一実施形態では省略することができる。そのために、第2の分割ユニット205は、破線によって示される。第2の分割ユニット205が省略される場合、強制分割ユニット207は、第1の分割ユニット201によって取得される第1の文字のセットの幅広文字を、計算された平均文字幅に基づいて、直接、強制分割して、第2の文字のセットを取得するように構成されている。
上述のユニット群は、以下で説明される処理を実現するための例示の好適なモジュール群であり、ハードウェアあるいはソフトウェアによって実現することができる。様々なステップを実現するためのモジュール群は、上記では完全には説明されていない。しかしながら、一定の処理を実行するステップが存在する場合、同一の処理を実現するための、対応する機能モジュールあるいはユニットが存在する。
図5は、本発明の実施形態に従って、様々な文字幅を有するテキスト行の文字を分割するための方法を示すフローチャートである。この方法は、投影法に基づいて、テキスト行を第1の文字のセットに分割する第1の分割ステップ(S100)と、第1の文字のセットに基づいて平均文字幅を計算するステップ(S200)と、連結成分法を使用して、第1の文字のセットの幅広文字を分割して、第3の文字のセットを取得する、オプションの第2の分割ステップ(S300)と、計算された平均文字幅に基づいて、第3の文字のセットの幅広文字を強制分割して、第2の文字のセットを取得する強制分割ステップ(S400)と、第2の文字のセットの種々の文字に対して、様々な平均文字幅を設定する設定ステップ(S500)と、設定された様々な平均文字幅に従って、様々な分割パターンを作成し、そして、最高の分割パターンを選択することによって、第2の文字のセットの文字群を結合する結合ステップ(S600)とを備える。
図5では、第2の分割ステップS300は、光学式文字認識の精度を更に改善するためのものであり、また、一実施形態では省略することができる。そのために、ステップS300は、破線によって示されている。第2の分割ステップS300が省略される場合、強制分割ステップS400は、第1の分割ステップS100で取得される第1の文字のセットの幅広文字を、計算された平均文字幅に基づいて、直接、強制分割して、第2の文字のセットを取得する。
ステップS100では、オリジナルのテキスト行画像に基づいて、テキスト行の文字群が投影法を使用して分割され、第1の文字のセットを取得する。ここで、投影法は、黒画素投影、白画素投影等を含んでいて、これらは、光学式文字認識の分野で周知の文字分割方法であるので、詳細は記載しない。第1の文字のセットの文字数は、V1として計算される。図6は、本発明の実施形態に従う文字分割方法の各ステップの分割結果を示すテーブルである。図6のテキスト行が投影法によって分割される場合、テーブルの第1行が取得される。この場合、V1=14となる。
ステップS100では、連結文字と、左成分と右成分とを有する文字が、間違って分割される可能性がある。例えば、テーブルの第1行の漢字「能」は間違って分割される。
ステップS200では、テキスト行全体に対する平均文字幅が、第1の文字のセットに基づいて計算される。ステップS200の詳細は、以下で説明する。
一実施形態では、光学文字認識の精度を更に改善するために、本発明に従う文字分割方法は、ステップS300を含めることができる。ステップS300では、第1の文字のセットの幅広文字が、連結成分法を使用して分割され、第3の文字のセットを取得する。ここで、連結成分法も、光学式文字認識の分野で周知の文字分割方法であるので、詳細は記載しない。いわゆる「幅広」文字は、閾値TH0よりも大きい幅を有する文字を示している。TH0は、0.9×ACWより大きく、そして、例えば、THO=1.1×ACWとなる。第3の文字のセットの文字数は、V2として計算される。図6のテキスト行が連結成分法で分割される場合、テーブルの第2行が取得される。この場合、V2=16である。連結成分法による分割ですら、いくつかの連結文字が依然として分割されず、例えば、図4Bではかな「バイ」である。ステップS300の詳細は、以下で説明する。
ステップS400では、第3の文字のセット(あるいは第1の文字のセット、ステップS300が省略される場合)の幅広文字が、計算された平均文字幅に基づいて強制分割されて、第2の文字のセットを取得する。オプションのステップS300の後でさえも、閾値TH0よりも大きい幅広文字がテキスト行に依然として存在する。そのため、強制分割が必要となる。第2の文字のセットの文字数は、V3として計算される。図6のテキスト行が強制分割によって分割される場合、テーブルの第3行が取得される。この場合、V3=27となる。ステップS400の詳細は、以下で説明する。
ステップ500では、様々な平均文字幅が、第2の文字のセットの種々の文字に対して設定される。1つ(大きい方)のACWは幅広文字(あるいは全角文字)に対して設定され、また、別のACWが通常の文字(あるいは半角文字)に対して設定される。ステップS500の詳細は、以下で説明する。
ステップS600では、設定された様々な平均文字幅に従って、様々な分割パターンを作成し、そして、最高の分割パターンを選択することによって、第2の文字のセットの文字群が結合される。
手短にいえば、強制分割によって取得される第2の文字のセットの文字は、実際の文字の断片である場合がある(例えば、漢字「能」は、2つの成分に分割される)。実際の文字を取得するために、これらの断片の多くの取り得る組み合わせが存在し、これらは、分割パターンと呼ばれる。分割パターンは、第2の文字のセットの隣接文字の組み合わせを示している。平均文字幅は、妥当なパターンを作成する際のかなり重要な条件である。単一の平均文字幅は、同一テキスト行の幅広文字及び幅狭文字の両方に対して適合しないので、パターンを制限することになる。ここで、適切な平均文字幅とは、妥当でないパターンを除外して、正しいパターンを含んでいることを意味し、これは、計算量を削減し、OCRの精度を改善する。本発明は、主に、単一のテキスト行に対して様々な平均文字幅をいつ、どのようにして計算するかについて着目している。パターンを制限するために、計算済の平均文字幅を使用する方法は光学的文字認識の分野で周知であり、その詳細説明の1つは、1996年7月の、パターン解析及びマシーンインテリジェンスにおけるIEEE議事録、Vol.18、No.7の、リチャード ジー.ケイシーとエリック リコリネットによる、「文字分割の方法及びストラテジーの概説」で参照することができる。
図10は、本発明の実施形態に従う図5の方法のステップS200の処理を示すフローチャートである。
ステップS210では、第1の文字のセットの大まかな平均文字幅ACW1が計算される。つまり、この計算では、(テキスト行の)第1の文字のセットの文字のすべてが考慮される。次に、計算された平均文字幅ACW1が適切であるかどうかを判定するために、ACW1の信頼度が以下のように計算される。
3つのタイプの文字が計数される。第1の文字のセットの文字のすべてが、値C1として計数される。幅−高さ−比率が妥当である文字は、値C2として計数される。幅−高さ−比率が妥当であり、また、幅がACW1に近い文字は、値C3として計数される。ここで、文字の幅−高さ−比率が妥当であると見なされる場合、1−TH16<幅−高さ−比率<1+TH16を満足することを必要とする。ここで、TH16は、例えば、0.1から0.5の間で変化する閾値であり、好ましくは、TH16=0.1である。文字の幅がACW1に近いと見なされる場合、(1−TH16)*ACW1<文字幅<(1+TH16)*ACW1を満足することを必要とする。値C1、C2及びC3を取得した後、ACW1の信頼度=Minimum(C2/C1,C3/C2)であり、ここで、Minimum(A,B)は、A及びBの最小値を意味する。
ACW1の計算された信頼度が閾値TH1未満である場合(TH1は、例えば、0.6よりも大きく、好ましくは、TH1=0.75)、これは、AC1が十分に適切でないことを意味し、この場合、処理はステップS220へ継続する。そうでなければ、ACW1は、テキスト行全体のACWとして使用される。
ステップS220では、第1の文字のセットから選択される、所定の範囲内の幅−高さ−比率の文字の平均文字幅ACW2が計算される。例えば、幅−高さ−比率の所定の範囲は、[1−TH17,1+TH17](TH17は、0から0.4の範囲である)であり、好ましくは、[0.9,1.1]である。これらの選択された文字の平均文字幅ACW2が計算される。ACW2の信頼度は、C3の計算において、ACW1がACW2に置き換わる以外は、ステップS210の方法と同様方の方法で計算される。計算されたACW2の信頼度が閾値TH1未満である場合、これは、ACW2が十分に適していないことを意味し、そして、処理は、ステップS230へ継続する。そうでなければ、ACW2は、テキスト行全体のACWとして使用される。
ステップS230では、平均文字幅ACW3が、直前あるいは次のテキスト行の平均文字幅に従って計算される。特に、現在のテキスト行に隣接する(直前あるいは次の)テキスト行が文書画像内に存在し、そして、現在のテキスト行と隣接するテキストとの間の高さの差が閾値TH2より小さいことを判定する。ここで、TH2=X*cLineHeightとpLineHeightの大きい方、Xは0.1から0.5の間で変化し、cLineHeightは現在のテキスト行の最大文字高さであり、pLineHeightは隣接するテキスト行の最大文字高さである。判定の結果が否定である場合、処理はステップS240へ継続する。判定の結果が肯定である場合、隣接するテキスト行の平均文字幅の信頼度が計算される。信頼度が閾値TH1未満である場合、処理はステップS240へ継続し、そうでなければ、以下の式によって、隣接するテキスト行の平均文字幅に従って、現在のテキスト行の平均文字幅ACW3を計算する。
ここで、coeffは0から1の間で変化し、好ましくは、0.7であり、ACWCurrentLine=ACW1あるいはACW2である。
ステップS240では、平均文字幅ACW4は、テキスト行の高さに一定値を乗算することによって計算される。テキスト行の高さに一定値を乗算することによって、平均文字幅ACW4が取得される。ACW4の信頼度は、C3の計算において、ACW1がACW4に置き換わる以外は、ステップS210の方法と同様方の方法で計算される。計算された信頼度が閾値TH1未満である場合、ACW1はテキスト行全体のACWとして使用される。そうでなければ、ACW4は、テキスト行全体のACWとして使用される。
図10は、本発明に従う行全体の平均文字幅を計算するための好適な方法だけを示している。簡略化した実施形態では、図10における連鎖(カスケード)方法に基づいて、信頼度を計算して、平均文字幅を取得することは必要とせず、平均文字幅は、以下の方法の1つで直接計算されても良い。第1の文字のセットの平均文字幅を計算すること、第1の文字のセットから選択される、所定の範囲内の幅−高さ−比率を有する文字の平均文字幅を計算すること、直前あるいは次のテキスト行の平均文字幅に従って平均文字幅を計算すること、あるいはテキスト行の高さに一定値を乗算することによって平均文字幅を計算することである。
図11は、本発明の実施形態に従う図5の方法のステップS300の処理を示すフローチャートである。図5の方法では、ステップS300はオプションである。
ステップS310では、閾値TH0より大きい文字幅を有する第1の文字のセットの各文字に対して(即ち、幅広文字である)、幅広文字が連結成分法を使用して分割される。ここで、TH0=X*ACWであり、Xは、例えば、0.9より大きく、好ましくは、X=1.1である。ステップS310の後、第3の文字のセットが取得される。第3の文字のセットの文字数は、V2として計算される。図6のテキスト行が連結成分法によって分割される場合、テーブルの第2行が取得される。
ステップS320では、ステップS310でより多くの文字に分割し過ぎられている場合、つまり、V2/V1が閾値T4より大きい場合(TH4が1.1より大きく、好ましくは、TH4=1.3である)場合、ステップS210で記載される方法を使用して平均文字幅を再計算する。
図12は、本発明の実施形態に従う図5の方法のステップS400の処理を示すフローチャートである。
ステップS300はオプションであるので、ステップS400への入力は、ステップS300が省略される場合は、第1の文字のセット(投影法による分割の結果)となり得る、あるいはステップS300が含まれる場合は、第3の文字のセット(連結成分法による分割の結果)となり得る。説明を簡単にするために、前者の場合だけを、例として説明する。しかし、当業者は、本願が後者の場合にも同様に適用できることを理解するであろう。
ステップS410では、第1の文字のセットの各文字に対して、文字が閾値TH5よりも大きい幅を有しているかどうか(つまり、幅広すぎるか)を判定する。ここで、TH5=X*ACWであり、Xは1より大きく、かつ好ましくは、X=1.1である。判定の結果が肯定である場合、文字は、ステップS420−450を使用する強制分割の対象となる。図7は、強制分割処理を必要とするテキスト行の例を示している。例えば、図7のテキスト行画像が処理され、そして、ステップS200で計算される平均文字幅が78であると仮定する。ステップS100の後(ステップS300の後でもさえ)、図7において円でマークされている文字は正しく分割することができず、また、このマークされている文字の幅は104である。104>1.1*7.8であるので、このマークされている文字は幅広文字であり、そして、強制分割されることになる。
ステップS420では、幅広文字に対して、幅広文字、あるいは、幅広文字と隣接する文字との組み合わせからなる複数の分割グループが生成され、平均文字幅に基づいて、各分割グループにおける取り得る分割点が検索され、そして、各分割点のスコアが取得される。
例として図7の文字幅を採用すると、4つの分割グループが図8で示されるように生成される。図8は、強制分割処理で使用される分割グループの例を示している。図8の左から右へと、4つの分割グループが、現在の文字だけ、現在の文字と直前の文字の組み合わせ、現在の文字と次の文字との組み合わせ、そして、現在の文字、直前の文字、及び次の文字の組み合わせとして、連続して示されている。次に、平均文字幅に基づいて、各分割グループの左端から、及び各分割グループの右端から別々に、各分割グループにおける取り得る分割点が検索され、そして、各分割点のスコアが取得される。
ここで、ステップS420の処理の詳細を、図13を参照して説明する。図13は、平均幅文字に基づいて、1つの分割グループ内の分割点を検出する方法の1つのフローチャートである。
ステップS421では、分割グループ内の1つ以上の検索位置が、平均文字幅に従って設定される。検索位置は、分割グループの左端と右端の両方から位置(N*ACW)に配置され、ここで、N=1,2,...,INT(分割グループ/ACWの幅)であり、また、INT(X)はXの整数部分に等しい。例として図8の4つの分割グループを採用すると、すべての検索位置が図14で示される。図14は、どのようにして検索位置を分割グループに設定するかを示している。図14では、4つの行は、図8の4つの分割グループそれぞれに対応し、左側は、取り得る分割点が分割グループの左端から検索される場合を示していて、右側は、取り得る分割点が分割グループの右端から検索される場合を示している。
ステップS422では、各検索位置に対して、平均文字幅倍の幅と、検索位置が配置されている分割グループの幅の差に従って、その検索位置が中心に置かれる、分割点に対する検索範囲を動的に決定する。具体的には、取り得る分割点は各位置の近辺で検索される。分割点の検索範囲が、ACW倍の幅と分割グループの幅の差に従って動的に決定される。分割点の検索範囲は、[−TH7,TH7]であり、これは、検索位置が中心に置かれる。例えば、TH7=5%*ACWである。Ratio(比率)=“分割グループの幅”MOD“ACW”/“ACW”である(MODは、剰余を求める演算子を意味する)。Ratioが85%より大きい場合あるいは15%より小さい場合、TH7は10%*ACWまで拡大される。図14の場合、最初の3つの分割グループに対する検索位置が中心に置かれる検索範囲が図15のテーブルで示されている。図15では、テーブルの第3の分割グループに対して、Ratioが91%であり、これは、85%よりも大きいので、TH7は動的に10%*ACWまで拡大される。つまり、この分割グループに対する検索範囲は、この分割グループ内の検索位置を中心にして[−10%*ACW,10%ACW]である。この場合において、固定の検索範囲が使用される場合、正しい分割点は検出することができない。
ステップS423では、各検索範囲では、各画素列(あるいは行)に対する分割スコアを計算し、そして、検索範囲内の分割点として、最小分割スコアを有する画素列(あるいは行)を選択する。ここでは、一見したところ、テキスト行が水平である場合、分割点は画素列であり、また、テキスト行が垂直である場合、分割点は画素行となる。例えば、スコアは、画素列(あるいは行)の黒画素投影量と、隣接する画素列(あるいは行)の他の黒画素に連結されている黒画素数との総和である。
ステップS424では、検索地点の各検索範囲に対して、最小分割スコアを有する画素列(あるいは行)が、自身の分割点として選択される。
ステップS425では、各分割グループに対して、自身の分割点とこれらの分割点のスコアが取得される。
ここで、図12に戻る。ステップS430では、各分割グループに対するスコアは、分割グループの各分割点のスコアに基づいて計算される。特に、各分割グループに対しては、2つのスコアが存在する。1つは(Score1(スコア1))、左端から分割点を検索するためのスコアであり、もう1つは(Score2(スコア2))は、右端から分割点を検索するためのスコアである。Score1は、左端からの分割グループのすべての分割点の平均スコアである。Score2は、右端からの分割グループのすべての分割点の平均スコアである。分割グループの最終スコアは、Score1とScore2の最小値である。
ステップS440では、すべてのグループから、最小スコアを有する分割グループが強制分割結果として選択される。一実施形態では、強制分割処理は、ステップS440の後で終了しても良い。
別の実施形態では、更なる判定が、ステップS440の後に行われても良い。ステップS450では、選択された分割グループのスコアが閾値より大きい場合、投影法に基づいて、現在の文字幅の中間に新規の分割点を追加する。特に、最高の分割パターンのスコアが依然として閾値TH6よりも大きい場合、新規の分割点が、投影法に従って、現在の文字幅の中間に追加される。新規の分割点は、以下の条件を満足しなければならない。
a)分割点の黒画素投影量が範囲Aの最小値であり、範囲Aが、文字の1/4幅から3.4幅までの、文字の中間部分であること
b)分割点の黒画素投影量が、範囲Aの黒画素投影量の最大値の1/3よりも小さいこと
c)分割点に対応する画素列(あるいは行)内に1つの黒画素ブロックだけが存在すること、黒画素ブロックは、連続する黒画素のグループを意味する
図9は、新規の分割点を追加する必要がある強制分割の例を示す図である。図9では、文字分割結果の場合が示されている。垂直線2は、平均文字幅に基づく検索位置である。正しい分割点は、分割点に対する検索範囲外になっている。垂直線1は、ステップS410−S440を実行することによって検出される分割位置である。また、垂直線3は、ステップS450で追加される新規の分割点である。
図17は、本発明の実施形態に従う図5の方法のステップS500の処理を示すフローチャートである。図17の処理に対して、ステップS400の強制分割によって取得される第2の文字のセットと、ステップS200で取得される平均文字幅が入力される。
ステップS510では、第1の文字のセット(つまり、ステップS100における投影法の分割結果)の文字間の平均スペースが計算される。
ステップS520では、第1の文字のセットの文字の数と、第2の文字のセットの文字の数と、平均スペースに従って、テキスト行が、様々な幅を有する大量数の文字を含んでいるかを判定する。特に、以下の条件に合致するかが判定される。
条件1:強制分割法(ステップS400)で分割されているたくさんの文字が存在する、即ち、例えば、(V3−V1)/V1>TH18、TH18=3/7である。
条件2:ステップS100の投影法によって分割される文字間の平均スペースが十分に大きい、即ち、平均スペースが、閾値TH8より大きい(TH8=ACW/Xであり、Xは8より大きく、また、好ましくは、X=10である)。
ステップS300が含まれる場合において、上述の判定がなされる際には、第3の文字のセットの数を考慮することができる。特に、この場合、条件1は、例えば、(V3−V1)/V1>TH18、(V2−V1)/V1>TH19、TH19=3/20である。
ステップS530では、ステップS520における判定結果が肯定である場合、強制分割によって分割された幅広文字に対して別の平均文字幅が設定される。特に、この肯定の判定結果は、多くの幅広文字がこのテキスト行にあり、かつ強制分割されていることを表している。強制分割法(ステップS400)によって分割される文字は、間違って分割された幅広文字と見なされる。この点では、幅広文字は強制分割されているので、幅広文字に対して別の平均文字幅を設定することは、幅広文字の第1の断片が別の平均文字幅で設定されることを示している。
図19は、図17のステップS530の処理の詳細を示している。ステップS531では、現在のテキスト行に類似する高さを有する隣接するテキスト行が、類似行として検索される。この類似行は、以下の条件を満足しなければならない。
i)隣接する行の文字の数が、閾値TH3より大きい、例えば、TH13>10であり、好ましくは、TH13=20(これは、そのACWに信頼性があることを意味する)
ii)2つの行の間の行の高さの差が閾値TH14より小さい、例えば、TH14=X*現在の行の高さあるいは隣接する行の高さの大きい方、ここで、X<0.5であり、好ましくは、X=3/10である。
類似行が検出される場合、処理はステップS532へ継続する。ステップS532では、類似行の平均文字幅が、別の平均文字幅を設定するために使用される。特に、以下の式が、幅広文字に対する別のACWを設定するために使用される。
ここで、b>aであり、好ましくは、a=1、及びb=4である。
類似行が検出されない場合、処理は、ステップS533へ継続する。ステップS533では、ステップS200で計算される平均文字幅が、別の平均文字幅を設定するために、直接、パラメータと乗算される。特に、以下の式が、幅広文字に対する別のACWを設定するために使用される。
ここで、TH15>1.1であり、好ましくは、TH15>7/5である。
図6のテーブルでは、幅広文字に対する別のACWの実例が示されている。この場合、文字間の平均スペースは、約10画素である。ステップS500(S530)の後、幅広文字のACWは、約60画素となり、他の文字のACWは変更しない。このテーブルで挙げられている値は、本発明の様々な実装に従う非限定的な例である。
図18は、本発明の別の実施形態に従う、図5の方法のステップS500の処理を示すフローチャートである。図18の処理に対しては、ステップS400の強制分割によって取得される第2の文字のセットと、ステップS200で取得される平均文字幅が入力される。
ステップS540では、強制分割によってのみ分割される隣接する文字の対象のグループであって、その対象のグループの最後の文字とその次の文字との間のスペースが閾値TH10より大きいスペースとなっている対象のグループが検索される。ここで、TH10=ACW/X、X<10、好ましくは、X=7であり、ACWはステップS200で計算される。図16は、ステップS400の後の強制分割結果を示している。図16の分割結果では、隣接する文字の2つのグループが検出され、「グループ1」と「グループ2」としてマークされている。この場合、スペース1は21に等しく、スペース2は25に等しく、ACWは、63に等しい(半角文字の幅)、つまり、グループ1とグループ2は、ステップS540で挙げられる条件を満足する。対象のグループが検出される場合、処理はステップS550へ継続し、そうでなければ、処理は、別の平均文字幅を設定することなくステップS600へ進む。
ステップS550では、対象の文字グループの幅−高さ−比率WHRが計算される。図16に示される場合では、グループ1の幅、高さ及びWHRは、それぞれ109、105及び1.04であり、グループ2の幅、高さ及びWHRは、それぞれ95、104及び0.91である。
ステップS560では、対象のグループの幅−高さ−比率が閾値より小さい場合、対象のグループの第1の文字に対して、別の平均文字幅が設定される。特に、対象の文字グループのWHRが閾値TH1より小さい場合(例えば、TH11>1であり、好ましくは、TH11=1.1である)、対象の文字グループの第1の文字のACWは値TH12として設定される(例えば、TH12=X*対象の文字グループの高さ、X>1であり、好ましくは、X=1.1である)。WHR<1.1である場合、これは、対象の文字グループがもともと全角の幅の実際の文字であり、ステップS400での強制分割によって間違って分割されたことを意味することに注意すべきである。
図17及び図18は、図5のステップS500を実現するための2つの実施形態を示している。図17の処理は、長いテキスト行に対して適していて、一方、図18の処理は、例えば、文書の最後の段落のような、短いテキスト行に対して適している。図17及び図18における処理は、上述のように単独で使用することができ、また、それらを組み合わせて使用することができる。これは、2つの処理が、ステップS500を構成するためにシーケンスで実行することができることを意味する。
ステップS500の後、2つのACW(1つは、通常の文字に対するものであり、もう1つは幅広文字に対するものである)が、様々な幅の文字に対して設定される。ステップS600では、ステップS400で取得される文字分割結果(第2の文字のセット)と、2つの異なるACWとに基づいて、第2の文字のセットの文字群が、様々な平均文字幅に従って様々な分割パターンを作成し、最高の分割パターンを選択することによって、従来技術に従って、結合される。そして、例えば、本発明に従う方法を適用した後の、様々な文字幅を有する、テキスト行の文字に対する正しい文字分割結果が、図20A及び図20Bで示される。
本記載では、閾値のすべての値は、単なる例であり、限定するものではない。
本記載では、本発明に従って、様々な文字幅を有する、テキスト上の文字を分割するための方法及びシステムを記載するための例として日本語が使用されている。しかしながら、日本語に限定されるものではなく、本発明が、例えば、中国語、日本語及び韓国語等の他の言語にも適用できることを予期することができる。
本記載では、テキスト行画像は、水平行として示されている。このテキスト行は、本発明を説明するための例として使用されている。しかしながら、本発明は、垂直列として記述されるテキスト行にも適用できることを予期することができる。つまり、本記載の用語「テキスト行(テキストライン)(text line)」は、テキストの行(text row)を必ずしも意味するものではない。
本発明の方法及びシステムは多くの方法で実行することができる。例えば、本発明の方法及びシステムは、ソフトウェア、ハードウェア、ファームウェア、あるいはそれらの任意の組み合わせを通じて実行することができる。方法に対する上述のステップの順序は例示することだけを意図するものであり、本発明の方法のステップは、特に、言及しない限り、上述の特定の順序に制限されるものではない。むしろ、いくつかの実施形態では、本発明は、記録媒体に記録されるプログラムとして実現されても良く、この記録媒体は、本発明に従う方法を実現するためのマシーン可読命令を含んでいる。つまり、本発明は、本発明に従う方法を実現するためのプログラムを記憶する記録媒体を包含する。
本発明のいくつかの特定の実施形態を例示を用いて詳細に示しているが、上述の例は単なる説明であることだけを意図するものであり、本発明の範囲を制限するものでないことを、当業者は理解するべきである。本発明の範囲及び精神を逸脱することなく、上述の実施形態を変形することができることを当業者は理解するべきである。本発明の範囲は、添付の請求項によって定義される。

Claims (18)

  1. 様々な文字幅を有するテキスト行の文字を分割するための方法であって、
    投影法に基づいて、前記テキスト行を第1の文字のセットに分割する第1の分割ステップと、
    前記第1の文字のセットに基づいて第1の平均文字幅を計算する計算ステップと、
    計算された前記第1の平均文字幅に基づいて、前記第1の文字のセットの幅広文字を強制分割して、第2の文字のセットを取得する強制分割ステップと、
    前記第2の文字のセット文字に対して、前記テキスト行に隣接する行の平均文字幅または隣接する文字群の文字高さに基づいて第2の平均文字幅を設定する設定ステップと、
    前記第1及び第2の平均文字幅に従って、前記第2の文字のセットの文字を結合して複数の分割パターンを作成し、それぞれの分割パターンの文字認識結果に基づいて1つの分割パターンを選択する結合ステップと
    を有することを特徴とする方法。
  2. 前記強制分割ステップは、
    幅が閾値より大きい幅広文字それぞれに対して、前記幅広文字、あるいは、該幅広文字と隣接する文字との組み合わせからなる複数の分割グループを生成し、前記平均文字幅に基づいて、各分割グループにおける取り得る分割点を検索し、そして、各分割点のスコアを取得するステップと、
    前記分割グループにおける各分割点の前記スコアに基づいて、各分割グループに対するスコアを計算するステップと、
    前記強制分割の結果として、すべての分割グループから、最小のスコアを有する前記分割グループを選択するステップと
    を有する
    ことを特徴とする請求項1に記載の方法。
  3. 前記強制分割ステップは、
    選択された前記分割グループのスコアが閾値より大きい場合、投影法に基づいて、現在の文字幅の中間に新規の分割点を追加するステップを有する
    ことを特徴とする請求項2に記載の方法。
  4. 前記各分割グループにおける取り得る分割点を検索し、そして、各分割点のスコアを取得するステップは、
    前記第1の平均文字幅に従って、分割グループ内の1つ以上の検索位置を設定するステップと、
    各検索位置に対して、前記第1の平均文字幅倍の幅と、前記検索位置が配置されている分割グループの幅の差に従って該検索位置の中心に置かれる分割点に対する検索範囲を動的に決定するステップと、
    各検索範囲において、前記テキスト行が水平である場合には、各画素列に対する分割スコアを計算して、前記検索範囲内の分割点として、最小分割スコアを有する前記画素列を選択し、前記テキスト行が垂直である場合には、各画素行に対する分割スコアを計算して、前記検索範囲内の分割点として、最小分割スコアを有する前記画素行を選択するステップと、
    各検索範囲に対して、最小分割スコアを有する前記画素列あるいは前記画素行を、自身の分割点として選択するステップと、
    各分割グループに対して、自身の分割点とこれらの分割点のスコアを取得するステップと
    を有する
    ことを特徴とする請求項3に記載の方法。
  5. 前記設定ステップは、
    前記第1の文字のセットの文字間の平均スペースを計算するステップと、
    前記第1の文字のセットの文字の数と、前記第2の文字のセットの文字の数と、前記平均スペースに従って、前記テキスト行が、様々な幅を有する大量数の文字を含んでいるかを判定するステップと、
    前記判定の結果が肯定である場合、強制分割によって分割した幅広文字に対して前記第2の平均文字幅を設定するステップと
    を有する
    ことを特徴とする請求項1に記載の方法。
  6. 前記設定ステップは、
    前記強制分割によってのみ分割される隣接する文字の対象のグループであって、その対象のグループの最後の文字とその次の文字との間のスペースが閾値より大きいスペースとなっている対象のグループを検索するステップと、
    前記対象のグループが検出される場合、前記対象のグループの幅−高さ−比率を計算するステップと、
    前記対象のグループの幅−高さ−比率が閾値より小さい場合、前記対象のグループの第1の文字に対して前記第2の平均文字幅を設定するステップと
    を有する
    ことを特徴とする請求項1に記載の方法。
  7. 前記強制分割によって分割した幅広文字に対して前記第2の平均文字幅を設定するステップは、
    現在のテキスト行に類似する高さを有する隣接するテキスト行を、類似行として検索するステップと、
    前記類似行が検出される場合、前記類似行の平均文字幅を使用して、前記第2の平均文字幅を設定するステップと、
    前記類似行が検出されない場合、前記計算するステップで計算される前記第1の平均文字幅に、直接、パラメータを乗算することによって、前記第2の平均文字幅を設定するステップと
    を有する
    ことを特徴とする請求項5に記載の方法。
  8. 前記分割パターンは、前記第2の文字のセットの隣接する文字群の組み合わせを示している
    ことを特徴とする請求項1に記載の方法。
  9. 前記計算ステップにおいて、前記第1の平均文字幅は、
    前記第1の文字のセットの平均文字幅を計算すること、
    前記第1の文字のセットから選択される、所定の範囲内の幅−高さ−比率を有する文字の平均文字幅を計算すること、
    直前あるいは次のテキスト行の平均文字幅に従って平均文字幅を計算すること、
    前記テキスト行の高さに一定値を乗算することによって平均文字幅を計算すること
    の内の1つで計算される
    ことを特徴とする請求項1に記載の方法。
  10. 様々な文字幅を有するテキスト行の文字を分割するためのシステムであって、
    投影法に基づいて、前記テキスト行を第1の文字のセットに分割するように構成されている第1の分割ユニットと、
    前記第1の文字のセットに基づいて第1の平均文字幅を計算するように構成されている計算ユニットと、
    計算された前記第1の平均文字幅に基づいて、前記第1の文字のセットの幅広文字を強制分割して、第2の文字のセットを取得するように構成されている強制分割ユニットと、
    前記第2の文字のセット文字に対して、前記テキスト行に隣接する行の平均文字幅または隣接する文字群の文字高さに基づいて第2の平均文字幅を設定するように構成されている設定ユニットと、
    前記第1及び第2の平均文字幅に従って、前記第2の文字のセットの文字を結合して複数の分割パターンを作成し、それぞれの分割パターンの文字認識結果に基づいて1つの分割パターンを選択するように構成されている結合ユニットと
    を備えることを特徴とするシステム。
  11. 前記強制分割ユニットは、
    幅が閾値より大きい幅広文字それぞれに対して、前記幅広文字、あるいは、該幅広文字と隣接する文字との組み合わせからなる複数の分割グループを生成し、前記第1の平均文字幅に基づいて、各分割グループにおける取り得る分割点を検索し、そして、各分割点のスコアを取得するように構成されているユニットと、
    前記分割グループにおける各分割点の前記スコアに基づいて、各分割グループに対するスコアを計算するように構成されているユニットと、
    前記強制分割の結果として、すべての分割グループから、最小のスコアを有する前記分割グループを選択するように構成されているユニットと
    を備える
    ことを特徴とする請求項10に記載のシステム。
  12. 前記強制分割ユニットは、更に、
    選択された前記分割グループのスコアが閾値より大きい場合、投影法に基づいて、現在の文字幅の中間に新規の分割点を追加するように構成されているユニットを有する
    ことを特徴とする請求項11に記載のシステム。
  13. 前記第1の平均文字幅に基づいて、前記各分割グループにおける取り得る分割点を検索し、そして、各分割点のスコアを取得するように構成されているユニットは、
    前記第1の平均文字幅に従って、分割グループ内の1つ以上の検索位置を設定するように構成されているユニットと、
    各検索位置に対して、前記第1の平均文字幅倍の幅と、前記検索位置が配置されている分割グループの幅の差に従って該検索位置の中心に置かれる分割点に対する検索範囲を動的に決定するように構成されているユニットと、
    各検索範囲において、前記テキスト行が水平である場合には、各画素列に対する分割スコアを計算して、前記検索範囲内の分割点として、最小分割スコアを有する前記画素列を選択し、前記テキスト行が垂直である場合には、各画素行に対する分割スコアを計算して、前記検索範囲内の分割点として、最小分割スコアを有する前記画素行を選択するように構成されているユニットと、
    各検索範囲に対して、最小分割スコアを有する前記画素列あるいは前記画素行を、自身の分割点として選択するように構成されているユニットと、
    各分割グループに対して、自身の分割点とこれらの分割点のスコアを取得するように構成されているユニットと
    を備える
    ことを特徴とする請求項12に記載のシステム。
  14. 前記設定ユニットは、
    前記第1の文字のセットの文字間の平均スペースを計算するように構成されているユニットと、
    前記第1の文字のセットの文字の数と、前記第2の文字のセットの文字の数と、前記平均スペースに従って、前記テキスト行が、様々な幅を有する大量数の文字を含んでいるかを判定するように構成されているユニットと、
    前記判定の結果が肯定である場合、強制分割によって分割した幅広文字に対して前記第2の平均文字幅を設定するように構成されているユニットと
    を備える
    ことを特徴とする請求項10に記載のシステム。
  15. 前記設定ユニットは、
    前記強制分割によってのみ分割される隣接する文字の対象のグループであって、その対象のグループの最後の文字とその次の文字との間のスペースが閾値より大きいスペースとなっている対象のグループを検索するように構成されているユニットと、
    前記対象のグループが検出される場合、前記対象のグループの幅−高さ−比率を計算するように構成されているユニットと、
    前記対象のグループの幅−高さ−比率が閾値より小さい場合、前記対象のグループの第1の文字に対して前記第2の平均文字幅を設定するように構成されているユニットと
    を備える
    ことを特徴とする請求項10に記載のシステム。
  16. 前記強制分割によって分割した幅広文字に対して前記第2の平均文字幅を設定するように構成されているユニットは、
    現在のテキスト行に類似する高さを有する隣接するテキスト行を、類似行として検索するように構成されているユニットと、
    前記類似行が検出される場合、前記類似行の平均文字幅を使用して、前記第2の平均文字幅を設定するように構成されているユニットと、
    前記類似行が検出されない場合、前記計算するユニットで計算される前記第1の平均文字幅に、直接、パラメータを乗算することによって、前記第2の平均文字幅を設定するように構成されているユニットと
    を備える
    ことを特徴とする請求項14に記載のシステム。
  17. 前記分割パターンは、前記第2の文字のセットの隣接する文字群の組み合わせを示している
    ことを特徴とする請求項10に記載のシステム。
  18. 前記計算ユニットにおいて、前記平均文字幅は、
    前記第1の文字のセットの平均文字幅を計算すること、
    前記第1の文字のセットから選択される、所定の範囲内の幅−高さ−比率を有する文字の平均文字幅を計算すること、
    直前あるいは次のテキスト行の平均文字幅に従って平均文字幅を計算すること、
    前記テキスト行の高さに一定値を乗算することによって平均文字幅を計算すること
    の内の1つで計算される
    ことを特徴とする請求項10に記載のシステム。
JP2012245617A 2011-11-09 2012-11-07 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム Active JP5600723B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110352060.6 2011-11-09
CN201110352060.6A CN103106406B (zh) 2011-11-09 2011-11-09 用于切分具有不同字符宽度的文本行中的字符的方法和系统

Publications (2)

Publication Number Publication Date
JP2013101616A JP2013101616A (ja) 2013-05-23
JP5600723B2 true JP5600723B2 (ja) 2014-10-01

Family

ID=48314254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012245617A Active JP5600723B2 (ja) 2011-11-09 2012-11-07 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム

Country Status (2)

Country Link
JP (1) JP5600723B2 (ja)
CN (1) CN103106406B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636744A (zh) * 2013-11-11 2015-05-20 方正国际软件(北京)有限公司 一种数字切分方法及系统
CN105046254A (zh) * 2015-07-17 2015-11-11 腾讯科技(深圳)有限公司 字符识别方法及装置
TWI702504B (zh) * 2017-09-27 2020-08-21 毅 牛 一種實現圖像漢字拼接成詞的系統及移動終端
CN108710601B (zh) * 2018-05-14 2022-04-01 广州腾讯科技有限公司 一种文本显示方法及其设备、存储介质、电子设备
CN110728129B (zh) * 2019-09-03 2023-06-23 北京字节跳动网络技术有限公司 对图片中的文本内容进行排版的方法、装置、介质和设备
CN111783781B (zh) * 2020-05-22 2024-04-05 深圳赛安特技术服务有限公司 基于产品协议字符识别的恶意条款识别方法、装置、设备
US11367296B2 (en) 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis
CN113936181B (zh) * 2021-08-01 2024-03-26 北京工业大学 一种粘连手写英文字符的识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2995818B2 (ja) * 1990-08-10 1999-12-27 ソニー株式会社 文字切り出し方法
JPH06215183A (ja) * 1993-01-18 1994-08-05 Canon Inc 文字認識装置
JPH07105311A (ja) * 1993-10-04 1995-04-21 Fuji Facom Corp 日本語文書における接触文字の切り出し方法
JPH0950488A (ja) * 1995-05-31 1997-02-18 Fuji Facom Corp 異サイズ混在文字列の読取り方法
JP2004038321A (ja) * 2002-06-28 2004-02-05 Fujitsu Ltd 文書レイアウト解析プログラム、文書レイアウト解析装置および文書レイアウト解析方法
CN101251892B (zh) * 2008-03-07 2010-06-09 北大方正集团有限公司 一种字符切分方法和装置
CN102169542B (zh) * 2010-02-25 2012-11-28 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法

Also Published As

Publication number Publication date
CN103106406B (zh) 2016-10-05
JP2013101616A (ja) 2013-05-23
CN103106406A (zh) 2013-05-15

Similar Documents

Publication Publication Date Title
JP5600723B2 (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
CN102982330B (zh) 文字图像中字符识别方法和识别装置
US20160210507A1 (en) Image processing system with layout analysis and method of operation thereof
US8571270B2 (en) Segmentation of a word bitmap into individual characters or glyphs during an OCR process
US10740899B2 (en) Image processing apparatus for identifying region within image, information processing method, and storage medium
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JP5523537B2 (ja) 文書画像の行分割方法及び行分割システム
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2569103B2 (ja) 文字検出方法
US11710331B2 (en) Systems and methods for separating ligature characters in digitized document images
JP2821303B2 (ja) 掠れ文字結合方式
Fadeel An efficient segmentation algorithm for arabic handwritten characters recognition system
JPH10214308A (ja) 文字判別方法
JP3842992B2 (ja) 文字列読み取り装置及び文字列読み取り方法
JP2982221B2 (ja) 文字読み取り装置
JPH07160810A (ja) 文字認識装置
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JPH1185905A (ja) 書体識別装置および書体識別方法および情報記憶媒体
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템
JP3880091B2 (ja) 情報処理装置及び方法
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3712825B2 (ja) 画像処理方法、装置および記録媒体
JP2520174B2 (ja) 文字自動抽出装置
JPH10162104A (ja) 文字認識装置
JP2009053826A (ja) 文書処理装置及び文書処理プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140818

R151 Written notification of patent or utility model registration

Ref document number: 5600723

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151