JP6046982B2 - 文字幅を判定する方法及び装置、文字集合を分割する装置、及びコンピュータプログラム - Google Patents

文字幅を判定する方法及び装置、文字集合を分割する装置、及びコンピュータプログラム Download PDF

Info

Publication number
JP6046982B2
JP6046982B2 JP2012239440A JP2012239440A JP6046982B2 JP 6046982 B2 JP6046982 B2 JP 6046982B2 JP 2012239440 A JP2012239440 A JP 2012239440A JP 2012239440 A JP2012239440 A JP 2012239440A JP 6046982 B2 JP6046982 B2 JP 6046982B2
Authority
JP
Japan
Prior art keywords
character
width
character width
candidates
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012239440A
Other languages
English (en)
Other versions
JP2013101610A5 (ja
JP2013101610A (ja
Inventor
シュー メイファン
シュー メイファン
ルオ ジャオハイ
ルオ ジャオハイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN201110355148.3A external-priority patent/CN103093224B/zh
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2013101610A publication Critical patent/JP2013101610A/ja
Publication of JP2013101610A5 publication Critical patent/JP2013101610A5/ja
Application granted granted Critical
Publication of JP6046982B2 publication Critical patent/JP6046982B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Description

本発明は、文書画像(特に、テキスト行又はテキスト列)の文字を分割する文字分割方法及び装置に関し、特に、文書画像のテキスト行又はテキスト列の平均文字幅を判定する方法及び装置により取得された平均文字幅を使用することによって文字分割を実行する方法及び装置に関する。
光学式文字認識(OCR)システムにおいて、通常、例えば「黒画素投影」の方法を使用することにより文字分割は実行される。しかし、この方法を使用する場合、2種類の分割エラーが現れる。一方の種類は、「連結された文字の分割点を検出できない」というエラーであり、他方の種類は、「左右又は上下に分かれた構造を有する文字のように、少なくとも2つの部分から構成され、それら2つの部分の間にスペースがある文字(以下の説明中、簡潔にするため、そのような文字は指定構造を有する文字と呼ばれる)を2つ以上の部分に分割してしまう」エラーである。例えば、上記の「連結された文字」及び「指定構造を有する文字」は漢字に現れる場合が多い。図12は、誤って分割されたいくつかの文字を例示的に示す。
以上のことを考慮して、文書画像中のテキスト段落又はテキスト行/列が基本的に互いに一致する幅を有する文字を含む場合に、連結された文字を更に分割し且つ指定構造を有する文字の各部分を結合するために、効果的な補助手段として平均文字幅(ACW)が使用されることが多い。
詳細には、連結された文字の場合、画像ベース分割方法(例えば、投影、プロファイル又は隣接列の黒画素連結性など)は、閾値を調整することにより分割点を検出可能である。しかし、そのような方法をとっても、偽分割点は現れる。多くの場合、正しい分割点は検出されるすべての分割点のうちの少数にすぎない。何の考慮もなしにすべての分割点を処理した場合、OCRの動作速度は著しく低下する。この点で、平均文字幅は分割点の数及び位置を大まかに推定できるので、多くの偽分割点は放棄されるだろう。これにより、OCRの動作速度を大幅に改善できる。更に、指定構造を有する文字の場合、誤って分離された2つ以上の部分がOCRエンジンにより支援される文字であるか、又は相対的に高い認識信頼度を有する類似する形状の文字である場合、認識信頼度に基づく分割後処理方法によって正しい分割パターンを発見するのは困難である。この点で、そのような文字の幅と平均文字幅との差を使用して、現在の行/列においてどの分割パターンが妥当であるかを判断することができるので、文字分割の精度を有効に向上できる。
従って、誤って分離された文字又は誤って組み合わされた文字を修正するために、高い精度で平均文字幅を計算することが望ましい。平均文字幅が不正確であると、分割エラーが発生し、その結果OCRの精度は低下する。
現在、平均文字幅を計算する方法は2つある。
第1の方法(「METHOD1」とも呼ばれる)は、本明細書において、行高さ方法と呼ばれ、この方法によれば、文字の幅と高さとの比はある特定の制限に従うという仮定に基づき、テキスト行の高さ(以下、行高さと呼ばれる)をある特定の係数と乗算することにより、そのテキスト行の平均文字幅を取得する。この方法により取得される平均文字幅は、多くは上記の分割条件を満たすが、この方法で、表題やページの見出しなどで多く見られる幅が広すぎる文字又は幅が狭すぎる文字を処理するのは困難である。
第2の方法(「METHOD2」とも呼ばれる)は、本明細書において、幅高さ比(WHRと略される)範囲方法と呼ばれ、この方法によれば、「黒画素投影」などの一般的な分割方法により取得された分割結果に基づき、妥当な幅高さ比(WHR)を有する文字が選択され、その後、それらの選択された文字の幅の平均値がテキスト行の平均文字幅として使用される。しかし、第2の方法を適用した場合、幅高さ比の範囲を設定するのが困難である。詳細には、幅高さ比の制限が厳密であると、先の方法と同様に幅が広すぎる文字又は幅が狭すぎる文字を処理することができない。逆に制限を弱めると、特にテキスト行が短い場合又は指定構造を有する文字が多い場合に、一部の誤って分割された文字は、平均文字幅の精度に影響を及ぼす。
以上のことから、2つの方法ですべての状況に対応するのは不可能であることがわかる。すなわち、上記の方法により取得される平均文字幅は、必ずしもすべての状況で正確又は厳密であるとはいえない(文字の実際の幅を反映するとは限らない)。
日本特許公開第2000‐040122号は、文字分割方法を開示する。詳細には、この方法において、文字分割を実行し、大まかな分割結果を得た後、個別の文字の幅ヒストグラムが計算され、最大の文字カウントを有する文字幅が標準文字幅とみなされる。この方法では、個別の文字の幅の分布が利用され、先に説明されたMETHOD2にやや類似している。
日本特許公開第H05‐114048号は、文字を認識する方法及び装置を開示する。文字分割は、投影を利用する方法により実行され、分割結果に従って平均文字幅が計算される。個別の文字の幅が平均文字幅より大きい場合、その文字は境界追跡方法により再び分割される。しかし、この方法は、平均文字幅をどのようにして計算するかではなく、平均文字幅をどのようにして利用するかにのみ焦点を当てている。
しかし、取得された平均文字幅が適切であるか否かを判定する効果的な方法は欠落している。更に、取得された平均文字幅が不適切である場合、適切な平均文字幅を取得する方法が必要である。
本発明は、上述のような問題を解決することを目指す。本発明の目的は、上述の問題のうちいずれか又はそのすべてに対応する方法と装置を提供することである。
本発明の第1の態様によれば、文字集合を構成する文字の文字幅を判定する装置であって、
第1の文字幅計算方法により前記文字集合を構成する文字の第1の文字幅を取得する第1の文字幅取得手段と、
前記文字集合を1文字の文字候補の単位に分割する分割手段と、
分割された前記文字候補を用いて信頼度計算方法により前記第1の文字幅の信頼度を取得する信頼度取得手段と、
前記第1の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第1の文字幅であるかを判定する文字幅判定手段と、
前記文字集合を構成する文字の文字幅が第1の文字幅ではないと判定された場合、前記第1の文字幅計算方法とは異なる第2の文字幅計算方法により、前記文字集合を構成する文字の第2の文字幅を取得する第2の文字幅取得手段と
を備え、
前記信頼度計算方法は、
前記第1の文字幅を中心値とする文字幅範囲を第1の範囲として設定し、
前記分割手段によって分割された前記文字候補から、前記第1の範囲内の幅を有する文字候補を選択し、
該選択された前記文字候補の幅の平均値と前記第1の文字幅との比を前記第1の文字幅の信頼度として計算するように構成される方法である
ことを特徴とする。
本発明の更なる特徴と利点は、添付の図面を参照して以下の説明から明らかになるだろう。
本明細書に組み込まれ且つ本明細書の一部を構成する添付の図面は、本発明の実施形態を例示し、以下の説明と共に本発明の原理を説明するためのものである。図中、同一の図中符号は、同様の要素を示すために使用される。
図1は、文字集合の平均文字幅を判定する装置を実現する計算デバイスの構成を示すブロック図である。 図2A及び図2Bは、テキスト行及びテキスト列の「行高さ」と、「行幅」と、「文字幅」又は「文字の幅」(本明細書において使用される)とをそれぞれ例示的に示す説明図である。 図3は、本発明の第1の実施形態に係る文字集合の平均文字幅を判定する方法を実現する手順を示すフローチャートである。 図4は、1つの信頼度計算方法の例示的な手順を示すフローチャートである。 図5は、別の信頼度計算方法の例示的な手順を示すフローチャートである。 図6は、更に別の信頼度計算方法の例示的な手順を示すフローチャートである。 図7は、本発明に係る隣接文字集合(直前の文字集合又は次の文字集合)を参照する平均文字計算方法の例示的な手順を示すフローチャートである。 図8は、本発明の第6の実施形態に係るいくつかの異なるACW計算方法を組み合わせることにより混成ACW計算方法を実現する例示的な手順を示すフローチャートである。 図9は、本発明に係る文字集合の平均文字幅を判定する装置を示すブロック図である。 図10は、本発明に係る文字集合の平均文字幅を判定する別の装置を示すブロック図である。 図11は、図11A、図11B及び図11Cを含み、本発明の分割結果と従来の技術の分割結果との比較を示す図である。 図12は、誤って分割されたいくつかの文字を例示的に示す図である。 図13は、いくつかの文字の例示的な黒画素投影を示す図である。
図面を参照して、本発明の実施形態を以下に詳細に説明する。
本発明において、テキスト行に関して特に文書画像で使用される場合、図2Aに示されるように、「行高さ」(Hで示される)及び「行幅」(Wで示される)という用語はテキスト行の高さ及び幅をそれぞれ示し、「文字幅」又は「文字の幅」(hで示される)という用語は文字の幅を示す。テキスト列に関しては、図2Bに示されるように、「行高さ」(Hで示される)及び「行幅」(Wで示される)という用語は、テキスト列の高さ及び幅をそれぞれ示し、「文字幅」又は「文字の幅」(hで示される)という用語は文字の高さを示す。この場合、テキスト行及びテキスト列に関して、テキスト行は、含まれる文字がほぼ水平に順次配列されていることを示し、テキスト列は、含まれる文字がほぼ垂直に順次配列されていることを示す。しかし、その定義は単なる例であり、互いに互換性を有する。
更に、本明細書と特許請求の範囲において、「黒画素投影」という用語は、当業者には周知であるように、投影により取得されたテキスト行の中の画素列又はテキスト列の画素行の黒画素の数を示す。
本明細書と特許請求の範囲において、「左」及び「右」という用語は、通常、本又は文書を読む際に普通にページを見る場合の左側及び右側をさす。
以下の説明中、テキスト行を例にとって説明するが、本発明がテキスト列にも同様に適用可能であることは当業者には理解されるだろう。
更に、文字集合(例えば、テキスト行)の平均文字幅は、その文字集合に含まれる文字の幅の平均値である。例えば、文字集合中の文字の幅がそれぞれ12、13、11、14、12、10(例えば、画素単位)である場合、その文字集合の平均文字幅は12である。更に、文字集合体に対応する1つの平均文字幅の信頼度は、その文字集合体の平均文字幅と実際の平均文字幅との近似度を表すために使用される。
図1は、本発明に係る文字集合の平均文字幅を判定する装置を実現するための計算デバイスの構成を示すブロック図である。簡潔にするため、装置は単一の計算デバイスに内蔵されるものとして示される。しかし、装置が単一の計算デバイスに内蔵されるか又は複数の計算デバイスにネットワークシステムとして設置されるかにかかわらず、装置は有効である。
図1に示されるように、計算デバイス100は、文字集合の平均文字幅を判定する処理を実現するために使用される。計算デバイス100は、CPU101と、チップセット102と、RAM103と、記憶装置コントローラ104と、ディスプレイコントローラ105と、ハードディスクドライブ106と、CD‐ROMドライブ107と、ディスプレイ108とを備える。計算デバイス100は、CPU101とチップセット102との間に接続された信号線111、チップセット102とRAM103との間に接続された信号線112、チップセット102と種々の周辺装置との間に接続された周辺装置バス113、記憶装置コントローラ104とハードディスクドライブ106との間に接続された信号線114、記憶装置コントローラ104とCD‐ROMドライブ107との間に接続された信号線115及びディスプレイコントローラ105とディスプレイ108との間に接続された信号線116を更に備える。
クライアント120は、計算デバイス100に直接接続されるか又はネットワーク130を介して接続される。クライアント120は、例えば文字集合の平均文字幅を判定する処理により要求される命令及び/又はパラメータを計算デバイス100へ送出し、計算デバイス100は、クライアント120に情報を返送するか又はディスプレイ108に情報を表示する。
[第1の実施形態]
図3を参照して、第1の実施形態を詳細に説明する。図3は、本発明の第1の実施形態に係る文字集合の平均文字幅を判定する方法を実現する手順を示すフローチャートである。以下に、図3を詳細に説明する。
ステップ301において、現在の文字集合(例えば、現在のテキスト行)のACW(「第1の平均文字幅」と呼ばれ、ACW1と略される)がACW計算方法(第1のACW計算方法と呼ばれる)により取得される。この場合、取得されるACW1は大まかな平均文字幅である。
例えば、大まかな平均文字幅は、例えば画像ベース分割方法により取得される初期分割結果の文字幅を平均することによって取得されてもよい。別の例として、大まかな平均文字幅は、前述のMETHOD1とMETHOD2のうち一方により計算されるか、あるいは他の何らかの方法により計算されてもよい。
詳細には、例えばMETHOD1の場合、ACWは、現在の文字集合の行高さに特定の係数、例えば0.8〜1.2の範囲(例えば、0.9)の係数を乗算することにより取得されてもよい。
更に、例えばMETHOD2の場合、ACWは、テキスト行の文字の文字幅と文字高さとの比がある特定の値であると仮定して、文字幅と文字高さとの比の範囲を設定し(すなわち、例えば、[0.5,2.0])、WHRがその範囲内にある現在の文字集合中の文字(例えば、先の分割処理により取得された分割文字)を選択し、選択された文字の幅の平均値をACWとして計算するという処理により取得されてもよい。
更に、ACW1を取得する前に、分割方法を使用することにより、現在の文字集合中の文字を分割する処理がまず実行されるのが好ましい。このようにして、分割文字(「第1の分割結果」とも呼ばれる初期分割結果)が取得される。尚、第1の分割方法は、投影、プロファイル又は隣接列の黒画素連結性などの画像ベース分割方法であるが、それに限定されない。この場合、上記の画像ベース分割方法は、投影分割方法、例えば黒画素投影方法である。上記の分割処理により、大まかな文字分割結果、すなわちいくつかの不正確に分割された文字も含む分割結果が取得されてもよい。
次に、ステップ302において、ACW1と現在の文字集合(テキスト行又はテキスト列であってもよいが、以下に、テキスト行の例について説明する)の実際の平均文字幅との近似度を表現するために使用されるACW1の信頼度が信頼度計算方法(後述する)により取得される。次に、ステップ303へ進む。
ステップ303は、現在の文字集合の最終平均文字幅(「第2の平均文字幅」と呼ばれ、「ACW2」と略される)を判定するために使用され、ステップ3031、ステップ3032、ステップ3033を含む。まず、ステップ3031において、ACW1の信頼度が第1の閾値(「TH1」と略され、例えば、0.4である)以上であるか否かが判定される。第1の閾値以上である場合、ステップ3032へ進む。ステップ3032において、ACW1は、現在の文字集合の最終平均文字幅として判定される。これに対し、第1の閾値以上ではない場合、ステップ3033へ進み、同時に、上記の第1のACW計算方法とは異なるACW計算方法(第2のACW計算方法と呼ばれる)により取得された第2の平均幅が現在の文字集合の最終平均文字幅として判定される。
この場合、第2のACW計算方法も、METHOD1、METHOD2、又は他の何らかのACW計算方法を使用する。すなわち、第2のACW計算方法は、本発明において例示される方法を含むが、それに限定されない。しかし、異なるACWを取得するように、第1のACW計算方法と第2のACW計算方法とは互いに異なっていなければならない。
更に、ACWを再計算する場合、例えば初期分割結果の文字カウントが特定の閾値より大きいか否か、再計算されたACWの信頼度がある特定の値を上回っているか否かのような判断条件も考慮される。この判断条件に関しては、以下に例によって説明する。
ここまでで、テキスト行(現在の文字集合)の最終平均文字幅が上述の手順により判定された。尚、説明中、閾値の値(先に挙げた第1の閾値と、後述する閾値とを含む)は単なる例であり、例示的な実施形態に示される値に限定されない。
本発明の第1の実施形態によれば、大まかな平均文字幅は、その信頼度により、すなわち現在の文字集合の実際の平均文字幅を真に又は厳密に反映しているか否かに従って判断され、実際の平均文字幅を高い精度で反映できない場合、更に精度の高い平均文字幅を得ようと試みるために他のACW計算方法が使用される。従って、連結された文字の分割点が検出不可能であり且つ/又は指定構造を有する文字が少なくとも2つの部分に誤って分割されている場合、第2のACW計算方法により再計算された第2の平均文字幅を使用することにより、正しい分割点を容易に発見でき且つ/又は文字が少なくとも2つの部分に誤って分割されるような事態を防止できるので、OCRの精度は向上する。これに対し、本実施形態において、ACW1の精度が高いか又は許容しうるレベルであると判定された場合、更なる処理は不要になるので、OCRは高速化される。
[第2の実施形態]
本発明に係る第2の実施形態は、第1の実施形態又は信頼度を計算することが要求される他のあらゆる例において使用可能な1つの信頼度計算方法を示す。図4は、本発明に係る1つの信頼度計算方法の例示的な手順を示すフローチャートである。以下に、この信頼度計算方法を詳細に説明する。
まず、上記のACW1又はACW2などの特定のACWが、いずれか1つの種類のACW計算方法を使用することにより得られる。
ステップ401において、中心値がその特定のACWである文字幅範囲(「第1の範囲」と呼ばれる)が設定される。
例えば、第1の範囲は次の式により表される。
式中、「minCharWidth」及び「maxCharWidth」は、それぞれ第1の範囲の下限及び上限であり、「coeffl」は0〜1の範囲で変化し、例えば0.75であり、「coeffu」は1〜2の範囲で変化し、例えば1.25であり、「sAveCharWidth」は特定のACWの値である。尚、第1の範囲は上記の式に限定されず、当業者には周知である他のあらゆる式も使用可能である。
次に、ステップ402において、第1の範囲内の幅を有する文字が初期分割結果から選択される。
次に、ステップ403において、選択された文字の幅の平均値を特定のACWで除算することにより、特定のACWの信頼度が計算される。
上記の例示的な信頼度計算方法により、取得された平均文字幅が通常は推定幅により表される実際の平均文字幅に十分に近似しているか否かが判断される。これにより、現在の文字集合について取得されたACW1を使用すべきか又は現在の文字集合のACWを再計算すべきかを判断できる。
[第3の実施形態]
本発明の第3の実施形態は、図5を参照して、先に説明した平均文字幅判定方法で使用可能な別の信頼度計算方法を示す。図5は、本発明に係る別の信頼度計算方法の例示的な手順を示すフローチャートである。以下に、この信頼度計算方法を詳細に説明する。
まず、第2の実施形態と同様に、特定の平均文字幅は既に取得されている。ステップ501において、クラスタリング方法を使用することにより、前述の初期分割結果中の文字が文字の幅に従って複数の異なる群にクラスタリングされる。この場合、クラスタリングの方法は、特定の方法に限定されず、文字を種々の群に分割することが可能なあらゆるクラスタリング方法を本発明に適用可能である。理解しやすくするために、以下にクラスタリング方法の一例を説明する。
例えば、テキスト行に、幅w1、w2、w3、w4、w5、w6、w7、w8、w9、w10をそれぞれ有する10個の文字が含まれていると仮定する。まず、w2とw1との比が計算される。この比がある範囲(例えば、[0.8,1.2])の中にある場合、w2は、w1とw2とから構成される群にクラスタリングされる。そうでない場合、すなわち比が範囲を超える場合、w2はそのまま保持される。w2〜w10がすべて比較されるまで、他の幅をw1と比較し続ける(すなわち、w1は基準として使用される)。このようにして、例えばw1、w2、w4、w5、w8、w9から構成される第1の群と、w3、w6、w7、w10から構成される第2の群との2つの群が取得されたと仮定する。次に、w6、w7、w10とw3との比較が実行される(すなわち、w3が基準として使用される)。これにより、新たな群が取得される。例えば、新たな第2の群はw3、w6、w10から構成され、第3の群はw7のみから構成される。最終的に、それらの幅を有する文字は、3つの群[w1、w2、w4、w5、w8、w9]、[w3、w6、w10]、[w7]にクラスタリングされることになる。
尚、種々のクラスタリング方法があり、本発明においてそれらは特に限定されることはない。
次に、ステップ502において、各群の文字の幅の平均値がその群のACWとして計算される。
次に、ステップ503において、各群の個別の文字に重みが割り当てられ、更に各群の重み付き文字カウントが取得される。例えば、1つの群が重み[0.6,1.4,1.4,1.4,0.6,1.4]を有する6個の文字を含む場合、その群の重み付き文字カウントは、値0.6、1.4、1.4、1.4、0.6、1.4をすべて加算することにより6.8として取得される。
次に、ステップ504において、それらの群のうち最大の重み付き文字カウントを有する群が選択される。
次に、ステップ505において、選択された群の平均文字幅を特定の平均文字幅で除算することにより、特定の平均文字幅の信頼度が計算される(すなわち、選択された群のACW/特定のACW)。
最大の重み付き文字カウントを有する群が少なくとも2つある場合、それら少なくとも2つの群のACWの信頼度が計算され、それら少なくとも2つの群のうち、最大の重み付き文字カウントを有すると共に最大の信頼度を有する群が選択された群として選択される。
群に含まれる文字に重みを割り当てる方法に関して、次の2つの点が考慮される。その群の1つの文字が適切な境界点を有する場合(すなわち、例えば左境界及び右境界で黒画素投影が小さい場合)、例えば1より大きいが2より小さい(例えば、1.5)値を有する重みがその文字に割り当てられる。これに対し、その群の1つの文字が不適切な境界点を有する場合(すなわち、例えば左境界及び右境界で黒画素投影が大きい場合)、例えば、1より小さいが0より大きい(例えば、0.5)値を有する重みがその文字に割り当てられる。
詳細には、1つの文字の2つの境界(詳細には、テキスト行にある文字の場合は左境界及び右境界、テキスト列にある文字の場合は上境界及び下境界)における黒画素投影が共にトラフ(最小値)であるか否かが判定される。図13は、黒画素投影を例示的に示す。図13において、第1の文字(文字1)の2つの境界における黒画素投影は、共に最小値に属さない。図13に示される第3の文字(文字3)は、2つの境界で共にトラフを有する。文字の2つの境界における黒画素投影が共にトラフである場合、例えば1より大きいが2より小さい重み(例えば、1.5)がその文字に割り当てられる。トラフではない場合、例えば1より小さいが0より大きい重み(例えば、0.5)が文字に割り当てられる。この場合、1つの大きな重み及び1つの小さな重みが割り当てられるだけである。あるいは、複数の大きな重み及び複数の小さな重みが割り当てられてもよい。更に、本発明において、重みの値は上記にて説明したそれに限定されない。
以上例示的に説明した信頼度計算方法により、取得された平均文字幅が通常は推定幅により現される実際の平均文字幅に十分に近似しているか否かが判定される。これにより、文字を分割するために、取得された平均文字幅を使用するのが適切であるか否かを判断できる。更に、平均文字幅を使用するのが適切ではない場合、更に正確なACWを取得するために他のACW計算方法が使用される。
[第4の実施形態]
本発明の第4の実施形態は、図6を参照して、先に説明した平均文字幅判定方法で使用可能な更に別の信頼度計算方法を示す。図6は、本発明に係る更に別の信頼度計算方法の例示的な手順を示すフローチャートである。以下に、この信頼度計算方法を詳細に説明する。
ステップ601において、中心値が先に取得されていた特定の平均文字幅(「SACW」と呼ばれる)である文字幅範囲(「第2の範囲」と呼ばれる)が設定される。例えば第2の範囲は、[0.8*SACW,1.2*SACW]である。
次に、ステップ602において、第2の範囲内の幅を有する文字が初期分割結果から第1の文字群として選択される。
次に、ステップ603において、第1の文字群の文字カウントが第1の文字カウントC1として計算される。
次に、ステップ604において、特定の平均文字幅に従って、第2の範囲の上限より大きい幅を有する文字(大きな文字と呼ばれる)が文字片に分割される。この時点で、ステップ604で分割されるべき文字は、1つの完全な形の文字及び1つ以上の文字片を含むような文字である場合が多く、1つの完全な形の文字は、分割されるべき文字の左側部分又は右側部分である。従って、そのような文字を文字片に分割する場合、1つの完全な形の文字はそのまま保持され、その文字から他の文字片のみが分割される。例えば、1つの完全な形の文字が左側部分に位置している場合、分割処理は特定の平均文字幅に従って左から右に向かって実行され、その結果、右側で正しい分割点が発見されるので、そこから文字片が更に分割される。これに対し、1つの完全な形の文字が右側部分に位置している場合、分割処理は特定の平均文字幅に従って右から左に向かって実行され、その結果、左側で正しい分割点が発見されるので、そこから文字片が更に分割される。
大きな文字をどのように分割するかに関して、その処理の一例を以下に詳細に示す。まず、大きな文字の左側境界から右側に向かう方向に、左側境界とのずれが特定の平均文字幅であるような位置を第1の抽出位置として抽出し、左側境界とこの第1の抽出位置との間の領域が第1の分割文字として使用される。次のステップでは、n番目の分割文字(nは1以上の整数である)の右側境界からその右側に向かう方向に、n番目の分割文字の前記右側境界とのずれが特定の平均文字幅であるような位置を(n+1)番目の抽出位置として抽出し、n番目の分割文字の右側境界と(n+1)番目の抽出位置との間の領域が(n+1)番目の分割文字であり、n=n+1と設定する。その後、大きな文字の中の残る領域の幅が特定の平均文字幅より小さくなるまで、このステップを繰り返す。SACWより小さい幅を有する残りの領域は、1つの文字片とみなされる。
尚、以上説明した分割方向は単なる例であり、大きな文字の右側境界から開始して、逆方向に沿って文字を分割することも可能である。更に、上述の左側境界及び右側境界も単なる例であり、上境界及び下境界に関する動作も上述の動作と同様である。
更に本発明は、ここで例示された処理に限定されず、同様の結果を実現できるのであれば他の処理も採用されてもよい。
次に、ステップ605において、新たな文字を形成するために、分割された文字片(上述のような完全な形の文字は除く)は、第2の範囲の下限より小さい幅を有する文字(小さな文字と呼ばれる)と組み合わされる。
以下に、文字片を組み合わせる例示的な処理を説明する。まず、分割された文字片及び上述のような小さな文字を文字片とみなし、互いに隣接する文字片の間に挟まれた完全な形の文字を除いて、隣接する文字片(すなわち、隣接する文字片は連続している)を隣接文字片群として判定し、それにより現在の文字集合の中のすべての隣接文字片群(1つ以上の隣接文字片群)を発見する。次に、それらの隣接文字片群の中の隣接文字片群ごとに、いずれか2つ以上の隣接文字片を組み合わせた場合、中心値が例えば[0.8*SACW,1.2*SACW]である特定平均文字幅である第2の範囲のような範囲内に組み合わせ後の文字片の幅が含まれるのであれば、それらの隣接文字片を組み合わせる。その後、隣接文字片群の中に組み合わせ可能な文字片がなくなるまで、文字片の組み合わせが継続される。すなわち、隣接文字片群の残る文字片の中に、いずれか2つ以上の隣接文字片を発見できない場合、組み合わせ手順は終了する。
次に、ステップ606において、第2の範囲内の幅を有する新たな文字が第2の文字群として選択される。
次に、ステップ607において、第2の文字群の文字カウントが第2の文字カウントC2として計算される。
次に、ステップ608において、第1の文字カウントC1と第2の文字カウントC2との和を上述の初期分割結果中の文字の総数Cで除算することにより、特定の平均文字幅の信頼度が計算される(すなわち、(C1+C2)/C)。
これにより、取得された平均文字幅が文字を分割するために使用するのに適切であるか否かを判断できる。更に、適切ではない場合、更に正確なACWを取得するために、他のACW計算方法が使用される。
[第5の実施形態]
第5の実施形態において、図7を参照して、現在の文字集合の隣接(前又は次)文字集合(そのような隣接文字集合が存在する場合)の平均文字幅に基づく平均文字幅計算方法(METHOD3と略される)が説明される。図7は、本発明に係るACW計算方法の手順を例示的に示すフローチャートである。以下に、図7を詳細に説明する。
図7の手順は、図3のステップ3033に続いて実行される。
ステップ701において、まず選択された隣接文字集合が判定され、選択された隣接文字集合のACWの信頼度が計算される。このACWの信頼度は、選択された隣接文字集合の平均文字幅と実際の平均文字幅との近似度を表すために使用され、上記の信頼度計算方法のうちいずれか1つの方法により取得される。
選択された隣接文字集合を判定する際、現在の文字集合が隣接文字集合を1つしか持たない(直前の文字集合又は次に続く文字集合のみを有する)場合、その1つの隣接文字集合が選択された隣接文字集合として選択される。
これに対し、選択された隣接文字集合を判定する際、現在の文字集合が2つの隣接文字集合(例えば、直前のテキスト行と次に続くテキスト行、又は直前のテキスト列と次に続くテキスト列)を有する場合、隣接文字集合の平均文字幅の信頼度の中で平均文字幅の信頼度が高いほうの隣接文字集合が選択された隣接文字集合として選択されてもよい。あるいは、本発明によれば、2つの隣接文字集合と現在の文字集合との行高さの差に従って、2つの隣接文字集合から1つの隣接文字集合が選択されてもよい。例えば、一方の隣接文字集合と現在の文字集合との行高さの差が他方の隣接文字集合と現在の文字集合との行高さの差より小さい場合、前者の隣接文字集合が選択される。選択方法が上述の方法に限定されないことは、当業者には理解されるだろう。
次に、ステップ702において、例えば選択された隣接テキスト行である選択された隣接文字集合の行高さと例えば現在のテキスト行である現在の文字集合の行高さとの差が取得される。
次に、ステップ703において、行高さの差が第3の閾値(「TH3」と略される)以上であるか否かが判定される。この第3の閾値TH3は、現在のテキスト行と選択された隣接テキスト行とに含まれるすべての文字の中の最大文字高さによって決まる。例えば、閾値TH3は、次の式(1)により計算される。
式中、「cLineHeight」は、現在のテキスト行の最大文字高さであり、「sLineHeight」は、選択された隣接テキスト行の最大文字高さであり、「toeff」は、0〜1の範囲で変化する係数である。例えば、「toeff」は、0.3などのように0.2〜0.4の範囲で定められたものである。
差がTH3以上である場合、第1の平均文字幅が現在のテキスト行の平均文字幅として使用され(ステップ7042)、手順は終了する。差がTH3未満である場合、選択された隣接テキスト行の平均文字幅の信頼度が第4の閾値(「TH4」と略される)以上であるか否かが判定される(ステップ7041)。閾値TH4は、選択された隣接テキスト行の文字カウントによって決まる。例えば閾値TH4は、次の式(2)により計算される。
式中、「sCharCount」は、選択された隣接テキスト行の文字カウントである。
選択された隣接テキスト行の平均文字幅の信頼度がTH4以上である場合、ステップ7051へ進み、ステップ7051において、第3の平均文字幅(ACW3)が取得され、現在のテキスト行の最終平均文字幅(ACW2)として判定される。第3の平均文字幅は、現在のテキスト行の第1の平均文字幅と選択された隣接テキスト行の平均文字幅とに基づいて計算される(以下に説明する)。
選択された隣接テキスト行の平均文字幅の信頼度がTH4未満である場合、第1の平均文字幅が現在のテキスト行の平均文字幅として使用される(ステップ7052)。
詳細には、上記の第3の平均文字幅は、第1の平均文字幅と選択された隣接文字集合の平均文字幅とを加重平均することにより、すなわち以下の式(3)により取得される。
式中、「nWidth」は、選択された隣接文字集合の第3の平均文字幅であり、「cWidth」は、選択された隣接文字集合の第1の平均文字幅であり、「sWidth」は、選択された隣接文字集合の平均文字幅であり、「coeff」は、0〜1の範囲で変化し、例えば0.7の調整係数である。
本発明に係るこの第5の実施形態は、先に取得されていた現在の文字集合の平均文字幅を更に修正し、それにより、分割精度を向上するために、現在の文字集合に隣接する(直前の又は次の)文字集合の平均文字幅を十分に利用する。これは、特に文書画像のテキスト段落に含まれる文字が基本的に互いに整合性を有する場合、隣接するテキスト行が有意味の基準になりうることもあるからである。
[第6の実施形態]
第6の実施形態において、種々の状況に適応するように、いくつかの異なるACW計算方法が信頼度により組み合わされる。図8は、本発明に係るそのような方法を実現する手順を示すフローチャートである。以下に、図8を詳細に説明する。
ステップ801において、例えば先に説明した初期分割結果中の文字の幅を平均することにより、ACW1が取得される。
次のステップ802は、図3のステップ302と同様である。すなわち、上述の信頼度計算方法のうちいずれか1つの方法により、ACW1の信頼度が取得される。
次に、ステップ803において、現在のテキスト行(現在の文字集合)の初期分割結果の文字カウントが第2の閾値(「TH2」と略される)以上であるか否かが判定される。文字カウントがTH2以上である場合、ステップ804へ進む。これに対し、文字カウントがTH2未満である場合、ステップ8062へ進む。
ステップ804において、1つのテキスト行の文字の文字幅と文字高さとの比がある特定の値であると仮定して、文字幅と文字高さとの比の範囲(すなわち、第3の範囲、例えば、[0.5,2.0])が設定され、次に、現在のテキスト行の中のWHRが第3の範囲内にある文字が選択される。次に、選択された文字の幅の平均値が第4の平均文字幅(ACW4)として計算され、更に、上述の信頼度計算方法のうちいずれか1つの方法により、ACW4の信頼度が取得される。その後、ステップ805へ進む。
ステップ805において、図3のステップ3031と同様に、ACW4の信頼度が第5の閾値(「TH5」と略される、例えば、0.75)以上であるか否かが判定される。ACW4の信頼度が第5の閾値以上である場合、ステップ8061において、ACW4は、現在のテキスト行の最終平均文字幅(ACW2)として判定され、手順は終了する。これに対し、ACW4の信頼度が第5の閾値未満である場合、ステップ8062へ進む。
ステップ8062、807、808、8081の処理は、図7のステップ701、702、703、7041、7051の処理と同様である。詳細には、ACW5を取得するために、METHOD3が使用される。現在のテキスト行の行高さと選択された隣接テキスト行の行高さとの差が第6の閾値(「TH6」と略される)未満であり、選択された隣接テキスト行のACWの信頼度が第7の閾値(「TH7」と略される)以上である場合、ACW5が現在のテキスト行の最終平均文字幅(ACW2)として判定される。この場合、閾値TH6、TH7は、先に説明したTH3、TH4と同様にそれぞれ判定される。ACW5はACW3と同様に判定される。それ以外の場合、ステップ8082へ進む。
ステップ8082は、第1の実施形態の場合と同様に、METHOD1に従って第6の平均文字幅を取得するために使用される。詳細には、ステップ8082において、ACW6は、現在のテキスト行の行高さに0.8〜1.2の範囲(例えば、0.9)の特定の値を乗算することで得られる。
次に、ステップ8083において、上述の信頼度計算方法のうちいずれか1つ又は他の何らかの信頼度計算方法により、ACW6の信頼度が取得される。
次に、ステップ8084において、ACW6の信頼度が第8の閾値(「TH8」と略される)、例えば0.75以上であるか否かが判定される。ACW6の信頼度が「TH8」以上である場合、ACW6は、現在のテキスト行の最終平均文字幅(ACW2)として判定され(ステップ8086)、そこで手順は終了する。そうでない場合、現在のテキスト行の最終平均文字幅(ACW2)としてACW1が判定され(ステップ8085)、その後、手順は終了する。
本実施形態において、種々の状況に適応するように、信頼度を使用することにより、いくつかの異なるACW計算方法が組み合わされる。すなわち、初期分割処理による大まかな分割結果から取得された平均文字幅を更に修正するために、それらの計算方法の利点が十分に利用される。第6の実施形態によれば、分割精度、従ってOCRの精度は大幅に向上する。
尚、本実施形態は、3つの方法の組み合わせの一例(METHOD1+METHOD2+METHOD3の順序)を示したが、それら3つの方法の異なる種類の組み合わせも適切である。例えば、METHOD1+METHOD3+METHOD2の組み合わせも、本発明に適用可能である。実際、第2の平均文字幅計算方法が第1の平均文字幅計算方法と異なっているのであれば、いくつかの方法(ここで説明した方法に限定されない)の種々の組み合わせを本発明に適用できる。例えば、METHOD1とMETHOD2との組み合わせ、METHOD1とMETHOD3との組み合わせ、METHOD2とMETHOD3との組み合わせなどの2つの方法の組み合わせも、現在の文字集合のACWを計算するために使用可能である。尚、いくつかの方法の組み合わせは、いくつかの方法の配列順序に関連する、組み合わされた解決法を有する。例えば、METHOD1とMETHOD2との組み合わせとして、「METHOD1+METHOD2」と、「METHOD2+METHOD1」が考えられるが、現在の文字集合のACWを計算する解決法としては、それらは、互いに異なる方法である。しかし、本発明は、いくつかの方法の配列順序を特に限定するものではない。逆に、それらの方法又は類似する方法が信頼度及び/又は前述のような判断条件によって組み合わされるのであれば、配列順序の変更も本発明の範囲内にすべて含まれることが意図される。
[第7の実施形態]
本実施形態は、本発明に係る現在の文字集合の平均文字幅を判定する装置(ACW判定装置とも呼ばれる)を示す。以下に、図9を参照して、本実施形態を詳細に説明する。
図9に示されるように、ACW判定装置901は、第1のACW取得ユニット902と、信頼度取得ユニット903と、ACW判定ユニット904とを備える。
第1のACW判定ユニット902は、第1の平均文字幅計算構成要素により第1の平均文字幅(ACW1)を取得するように構成される。信頼度取得ユニット903は、信頼度計算構成要素により第1の平均文字幅の信頼度を取得するように構成される。ACW判定ユニット904は、ACW1の信頼度に基づいて、現在の文字集合の最終平均文字幅がACW1であるか又は第2の平均計算構成要素により得られる第2の平均文字幅(ACW2)であるかを判定するように構成される。詳細には、図3のステップ303と同様に、ACW判定ユニット904は、ACW1の信頼度が第1の閾値(「TH1」と略される、例えば、0.4)以上であるか否かを判定し、TH1以上である場合、ACW1を現在の文字集合の最終平均文字幅として判定し、そうでない場合、第2の平均文字幅(ACW2)が現在のテキスト行の最終平均文字幅として判定される。
本発明の第7の実施形態によれば、第1の平均文字幅計算構成要素により得られる大まかな平均文字幅は、その信頼度によって判定され、現在の文字集合の実際の文字幅を真に又は厳密に反映しているか否かが判定される。実際の文字幅を正確に反映できていない場合、新たな平均文字幅が取得される。従って、連結された文字の分割点を検出不可能であり且つ/又は指定構造を有する文字が少なくとも2つの部分に誤って分割されている場合、第2の平均文字幅によって、正しい分割点を容易に発見でき且つ/又は文字が少なくとも2つの部分に誤って分割される事態を防止できるので、OCRの精度を向上できる。しかし、本実施形態において、ACW1の信頼度を許容しうると判定された場合は、更なる処理は不要であり、従ってOCRの動作を高速化できる。
[第8の実施形態]
本実施形態は、本発明に係る現在の文字集合の平均文字幅を判定する別の装置(ACW判定装置とも呼ばれる)を示す。図10を参照して、本実施形態を詳細に説明する。図10において、図9と同一の図中符号は、図9と同様の構成要素を示す。従って、それらの構成要素に関する説明は省略される。
第1の分割ユニット1002は、画像ベース分割方法などの分割方法を使用することにより、現在の文字集合(例えば、テキスト行又はテキスト列)を分割し、それにより、初期分割結果を取得するように構成される。
第7の実施形態のACW判定装置901とは異なり、ACW判定装置1001は、METHOD1を使用する行高さベースACW計算ユニット1004と、METHOD2を使用するWHR(幅対高さ比)範囲ベースACW計算ユニット1003と、METHOD3を使用する隣接文字集合ベースACW計算ユニット1005とを更に備える。これらの計算ユニットは、1つ以上のオプションのセレクタにより切り替えられる。これにより、3つの計算ユニットが任意に組み合わされるので、新たな平均文字幅を計算するために上記の3つの方法を任意に組み合わせ可能であることが当業者には理解されるだろう。
本発明の第8の実施形態によれば、装置は、分割精度を改善し、それによりOCRの精度を向上し且つ/又はOCRの動作を高速化できる。
[本発明と従来の技術の比較の結果]
以下に、本発明の効果を示すために、図11を参照して、本発明と従来の技術の比較の結果を説明する。尚、方法の組み合わせを含み、比較を行うのに好都合な実施形態であるという理由により、図8に示される第6の実施形態を使用して本発明と従来の技術とを比較する。
図11は、図11A、図11B、図11Cを含み、本発明の分割結果と従来の技術の分割結果との比較を示す。
詳細には、図11Aは、現在のテキスト行に含まれる文字の幅が非常に狭い場合の「背景技術」で挙げたMETHOD1の分割結果と本発明による分割結果との比較を示す。上の行はMETHOD1の分割結果であり、下の行は本発明の分割結果である。METHOD1では、テキスト行の平均文字幅は45(画素単位)であると計算される。しかし、本発明によれば、テキスト行の平均文字幅は、図8のステップ804において13(画素単位)と判定される。文字の実際の幅は、[14,14,14,14,13,13,13,13,5,14,14,14,14,13,13,13,8,8,12,13,11,12,10,11,12,13]である。本発明により取得された平均文字幅は、実際の平均文字幅に非常に近いことがわかる。
図11Bは、現在のテキスト行が短く、隣接行を持たない場合の「背景技術」で挙げたMETHOD1の分割結果と本発明による分割結果との比較を示す。上の行は、METHOD1の分割結果であり、下の行は本発明の分割結果である。METHOD1では、テキスト行の平均文字幅は29(画素単位)であると計算される。しかし、本発明によれば、テキスト行の平均文字幅は、図8のステップ8082において58(画素単位)と判定される。2つの文字の実際の幅は[63,61]である。本発明により得られる平均文字幅は、実際の平均文字幅に非常に近いことがわかる。
図11Cは、文字が列として配列され、現在の列が隣接列を有する場合の「背景技術」で挙げたMETHOD2の分割結果と本発明による分割結果との比較を示す。左側はMETHOD2の分割結果であり、右側は本発明の分割結果である。METHOD2では、テキスト列(2つの列のうち左側の列)の平均文字高さは、24(画素単位)であると計算される。しかし、本発明によれば、テキスト列(2つの列のうち左側の列)の平均文字高さは、図8のステップ8081において34(画素単位)と判定される。テキスト列の文字の実際の高さは、[40,37,38,39,38,38,38,40]である。本発明により得られる平均文字高さは、実際の平均文字高さに非常に近いことがわかる。この場合、本発明により取得される正確な平均文字高さは、直前のテキスト列(2つの列のうち右側の列)の情報を利用する。
以上の比較結果から、本発明が提供する方法により、従来の技術よりはるかに優れた分割結果が取得されることがわかる。
添付の図面を参照して説明したが、方法及び/又はユニットは、本明細書において説明された方法及び/又はユニットに限定されず、他の方法及び/又はユニットも本発明に適用可能であることは当業者には理解されるだろう。更に、実施形態の中で示される閾値は単なる例であり、記載されている値に限定されない。
更に、分割装置は、先に説明したようなACW判定装置を使用することにより平均文字幅を得た後に、取得された平均文字幅に従って現在の文字集合を分割するように構成される。文字集合を分割する方法は、現在の文字集合の平均文字幅を判定するために、平均文字幅を判定する方法を使用することと、次に、取得された平均文字幅に従って現在の文字集合を分割することとを備える。
また、本発明の方法と装置は多くの方法で実現可能である。例えば、ソフトウェア、ハードウェア、ファームウェア又はそれらの何らかの組み合わせによって、本発明の方法と装置を実現可能である。先に説明した方法のステップの順序は、単に例示を目的とするだけであり、本発明の方法のステップは、特に指示のない限り、先に説明した具体的な順序に限定されない。いくつかの実施形態において、本発明は、本発明に係る方法を実現するための機械可読命令を含む、記録媒体に記録されたプログラムとしても実現可能である。従って、本発明は、本発明に係る方法を実現するためのプログラムを記憶した記録媒体も含む。
本発明のいくつかの特定の実施形態を例によって詳細に説明したが、上記の例は単に例示を目的とするだけであり、本発明の範囲を限定することを意図しないことは当業者には理解されるべきである。本発明の範囲と精神から逸脱することなく上記の実施形態を変形できることは当業者には理解されるべきである。本発明の範囲は、添付の特許請求の範囲により定義される。

Claims (18)

  1. 文字集合を構成する文字の文字幅を判定する装置であって、
    第1の文字幅計算方法により前記文字集合を構成する文字の第1の文字幅を取得する第1の文字幅取得手段と、
    前記文字集合を1文字の文字候補の単位に分割する分割手段と、
    分割された前記文字候補を用いて信頼度計算方法により前記第1の文字幅の信頼度を取得する信頼度取得手段と、
    前記第1の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第1の文字幅であるかを判定する文字幅判定手段と、
    前記文字集合を構成する文字の文字幅が第1の文字幅ではないと判定された場合、前記第1の文字幅計算方法とは異なる第2の文字幅計算方法により、前記文字集合を構成する文字の第2の文字幅を取得する第2の文字幅取得手段と
    を備え、
    前記信頼度計算方法は、
    前記第1の文字幅を中心値とする文字幅範囲を第1の範囲として設定し、
    前記分割手段によって分割された前記文字候補から、前記第1の範囲内の幅を有する文字候補を選択し、
    該選択された前記文字候補の幅の平均値と前記第1の文字幅との比を前記第1の文字幅の信頼度として計算するように構成される方法である
    ことを特徴とする装置。
  2. 文字集合を構成する文字の文字幅を判定する装置であって、
    第1の文字幅計算方法により前記文字集合を構成する文字の第1の文字幅を取得する第1の文字幅取得手段と、
    前記文字集合を1文字の文字候補の単位に分割する分割手段と、
    分割された前記文字候補を用いて信頼度計算方法により前記第1の文字幅の信頼度を取得する信頼度取得手段と、
    前記第1の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第1の文字幅であるかを判定する文字幅判定手段と、
    前記文字集合を構成する文字の文字幅が第1の文字幅ではないと判定された場合、前記第1の文字幅計算方法とは異なる第2の文字幅計算方法により、前記文字集合を構成する文字の第2の文字幅を取得する第2の文字幅取得手段と
    を備え、
    前記信頼度計算方法は、
    前記分割手段によって分割された前記文字候補の幅に従って、クラスタリングアルゴリズムにより前記文字候補を複数の異なる群にクラスタリングし、
    各群の文字候補の幅の平均値を該群の平均文字幅として計算し、
    各群の前記文字候補に重みを割り当て、各群の重み付き文字候補の数を計算し、
    前記各群から最大の重み付き文字候補の数を有する1つの群を選択し、
    前記選択された群の平均文字幅と前記第1の文字幅との比を前記第1の文字幅の信頼度として計算するように構成される方法である
    ことを特徴とする装置。
  3. 前記信頼度計算方法は、
    各群の文字候補ごとに分割点としての2つの境界における黒画素投影が共にトラフである場合、1より大きく且つ2より小さい重みを前記文字候補に割り当て、分割点としての2つの境界における黒画素投影のいずれかがトラフでない場合、0より大きく且つ1より小さい重みを前記文字候補に割り当てるように更に構成される方法であることを特徴とする請求項2に記載の装置。
  4. 文字集合を構成する文字の文字幅を判定する装置であって、
    第1の文字幅計算方法により前記文字集合を構成する文字の第1の文字幅を取得する第1の文字幅取得手段と、
    前記文字集合を1文字の文字候補の単位に分割する分割手段と、
    分割された前記文字候補を用いて信頼度計算方法により前記第1の文字幅の信頼度を取得する信頼度取得手段と、
    前記第1の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第1の文字幅であるかを判定する文字幅判定手段と、
    前記文字集合を構成する文字の文字幅が第1の文字幅ではないと判定された場合、前記第1の文字幅計算方法とは異なる第2の文字幅計算方法により、前記文字集合を構成する文字の第2の文字幅を取得する第2の文字幅取得手段と
    を備え、
    前記信頼度計算方法は、
    前記第1の文字幅を中心値とする文字幅範囲を第1の範囲として設定し、
    前記分割手段によって分割された前記文字候補から、前記第1の範囲内の幅を有する文字候補を第1の文字候補群として選択し、前記第1の文字候補群の文字候補の数を第1の文字候補数として計算し、
    前記分割手段によって分割された前記文字候補であって、前記第1の範囲の上限より大きい幅を有する前記文字候補を、前記第1の文字幅を有する文字候補と文字片とに分割し、前記文字片と前記第1の範囲の下限より小さい幅を有する前記文字候補と組み合わせることによって、新たな文字候補を形成し、
    該形成された新たな文字候補から、前記第1の範囲内の幅を有する文字候補を第2の文字候補群として選択し、前記第2の文字候補群の文字候補の数を第2の文字候補数として計算し、
    前記第1の文字候補数と前記第2の文字候補数との和と前記分割手段によって分割された前記文字候補の数との比を前記第1の文字幅の信頼度として算出するように構成される方法である
    ことを特徴とする装置。
  5. 前記第1の文字幅計算方法は、
    前記分割手段によって分割された前記文字候補の幅の平均値を前記文字集合を構成する文字の前記第1の文字幅として計算するように構成される方法であることを特徴とする請求項1乃至4のいずれか1項に記載の装置。
  6. 前記第1の文字幅計算方法は、
    前記文字集合の行高さと第1の特定の係数との積を前記文字集合を構成する文字の前記第1の文字幅として計算するように構成される方法であることを特徴とする請求項1乃至4のいずれか1項に記載の装置。
  7. 前記第1の文字幅計算方法は、
    文字幅と文字高さとの比の範囲を第の範囲として設定し、
    前記分割手段によって分割された前記文字候補の文字幅と文字高さとの比が前記第の範囲内である前記文字候補を選択し、
    選択された前記文字候補の幅の平均値を前記文字集合を構成する文字の前記第1の文字幅として計算するように構成される方法であることを特徴とする請求項1乃至4のいずれか1項に記載の装置。
  8. 前記第2の文字幅計算方法は、
    前記分割手段によって分割された前記文字候補が第1の閾値以上である場合、
    文字幅と文字高さとの比の範囲を第の範囲として設定し、
    前記分割手段によって分割された前記文字候補の文字幅と文字高さとの比が前記第の範囲内である前記文字候補を選択し、
    選択された前記文字候補の幅の平均値を前記文字集合を構成する文字の第3の文字幅として取得し、
    前記信頼度計算方法により前記第3の文字幅の信頼度を取得し、
    前記第1の文字幅の信頼度と前記第3の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第の文字幅であるか又は前記第3の文字幅であるかを判定するように構成される方法であることを特徴とする請求項1乃至7のいずれか1項に記載の装置。
  9. 前記第2の文字幅計算方法は、
    前記文字集合が2つの隣接文字集合を有する場合、前記信頼度計算方法により前記2つの隣接文字集合を構成する文字の文字幅の信頼度を取得し且つ前記2つの隣接文字集合のうち文字幅の信頼度が大きいほうの一方の隣接文字集合を選択された隣接文字集合として使用し、前記文字集合が1つの隣接文字集合を有する場合、前記1つの隣接文字集合を選択された隣接文字集合として使用し且つ前記信頼度計算方法により前記選択された隣接文字集合の文字幅の信頼度を取得し、
    前記文字集合の行高さと前記選択された隣接文字集合の行高さとの差を取得し、
    前記差が第2の閾値以上である場合、前記第1の文字幅を前記第2の文字幅として設定し、
    前記差が前記第2の閾値未満である場合
    前記第1の文字幅と前記選択された隣接文字集合の文字幅とを加重平均することにより第4の文字幅を取得し、
    前記選択された隣接文字集合の前記文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第の文字幅であるか又は前記第4の文字幅であるかを判定するように構成される方法であることを特徴とする請求項1乃至7のいずれか1項に記載の装置。
  10. 前記第2の文字幅計算方法は、
    前記文字集合の行高さを第2の特定の係数と乗算することにより第5の文字幅を取得し、
    前記分割手段によって分割された前記文字候補が第3の閾値未満である場合、前記第5の文字幅を前記第2の文字幅として設定し、
    前記分割手段によって分割された前記文字候補が前記第3の閾値以上である場合
    前記信頼度計算方法により前記第5の文字幅の信頼度を取得し、
    前記第5の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第の文字幅であるか又は前記第5の文字幅であるかを判定するように構成される方法であることを特徴とする請求項1乃至7のいずれか1項に記載の装置。
  11. 前記文字集合を構成する文字の幅互いに一致することを特徴とする請求項1乃至10のいずれか1項に記載の装置。
  12. 文字集合を分割する装置であって、
    請求項1乃至11のいずれか1項に記載の装置により、前記文字集合を構成する文字の文字幅を判定し、
    前記文字集合を構成する文字前記文字幅に従って前記文字集合の文字分割と文字結合を実行するように構成されることを特徴とする装置。
  13. 文字集合を構成する文字の文字幅を判定する方法であって、
    第1の文字幅計算方法により前記文字集合を構成する文字の第1の文字幅を取得する第1の文字幅取得ステップと、
    前記文字集合を1文字の文字候補の単位に分割する分割ステップと、
    分割された前記文字候補を用いて信頼度計算方法により前記第1の文字幅の信頼度を取得する信頼度取得ステップと、
    前記第1の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第1の文字幅であるかを判定する文字幅判定ステップと、
    前記文字集合を構成する文字の文字幅が第1の文字幅ではないと判定された場合、前記第1の文字幅計算方法とは異なる第2の文字幅計算方法により、前記文字集合を構成する文字の第2の文字幅を取得する第2の文字幅取得ステップと
    を備え、
    前記信頼度計算方法は、
    前記第1の文字幅を中心値とする文字幅範囲を第1の範囲として設定し、
    前記分割ステップによって分割された前記文字候補から、前記第1の範囲内の幅を有する文字候補を選択し、
    該選択された前記文字候補の幅の平均値と前記第1の文字幅との比を前記第1の文字幅の信頼度として計算するように構成される方法である
    ことを特徴とする方法。
  14. 文字集合を構成する文字の文字幅を判定する方法であって、
    第1の文字幅計算方法により前記文字集合を構成する文字の第1の文字幅を取得する第1の文字幅取得ステップと、
    前記文字集合を1文字の文字候補の単位に分割する分割ステップと、
    分割された前記文字候補を用いて信頼度計算方法により前記第1の文字幅の信頼度を取得する信頼度取得ステップと、
    前記第1の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第1の文字幅であるかを判定する文字幅判定ステップと、
    前記文字集合を構成する文字の文字幅が第1の文字幅ではないと判定された場合、前記第1の文字幅計算方法とは異なる第2の文字幅計算方法により、前記文字集合を構成する文字の第2の文字幅を取得する第2の文字幅取得ステップと
    を備え、
    前記信頼度計算方法は、
    前記分割ステップによって分割された前記文字候補の幅に従って、クラスタリングアルゴリズムにより前記文字候補を複数の異なる群にクラスタリングし、
    各群の文字候補の幅の平均値を該群の平均文字幅として計算し、
    各群の前記文字候補に重みを割り当て、各群の重み付き文字候補の数を計算し、
    前記各群から最大の重み付き文字候補の数を有する1つの群を選択し、
    前記選択された群の平均文字幅と前記第1の文字幅との比を前記第1の文字幅の信頼度として計算するように構成される方法である
    ことを特徴とする方法。
  15. 文字集合を構成する文字の文字幅を判定する方法であって、
    第1の文字幅計算方法により前記文字集合を構成する文字の第1の文字幅を取得する第1の文字幅取得ステップと、
    前記文字集合を1文字の文字候補の単位に分割する分割ステップと、
    分割された前記文字候補を用いて信頼度計算方法により前記第1の文字幅の信頼度を取得する信頼度取得ステップと、
    前記第1の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第1の文字幅であるかを判定する文字幅判定ステップと、
    前記文字集合を構成する文字の文字幅が第1の文字幅ではないと判定された場合、前記第1の文字幅計算方法とは異なる第2の文字幅計算方法により、前記文字集合を構成する文字の第2の文字幅を取得する第2の文字幅取得ステップと
    を備え、
    前記信頼度計算方法は、
    前記第1の文字幅を中心値とする文字幅範囲を第1の範囲として設定し、
    前記分割ステップによって分割された前記文字候補から、前記第1の範囲内の幅を有する文字候補を第1の文字候補群として選択し、前記第1の文字候補群の文字候補の数を第1の文字候補数として計算し、
    前記分割ステップによって分割された前記文字候補であって、前記第1の範囲の上限より大きい幅を有する前記文字候補を、前記第1の文字幅を有する文字候補と文字片とに分割し、前記文字片と前記第1の範囲の下限より小さい幅を有する前記文字候補と組み合わせることによって、新たな文字候補を形成し、
    該形成された新たな文字候補から、前記第1の範囲内の幅を有する文字候補を第2の文字候補群として選択し、前記第2の文字候補群の文字候補の数を第2の文字候補数として計算し、
    前記第1の文字候補数と前記第2の文字候補数との和と前記分割ステップによって分割された前記文字候補の数との比を前記第1の文字幅の信頼度として算出するように構成される方法である
    ことを特徴とする方法。
  16. 文字集合を構成する文字の文字幅を判定する方法をコンピュータに実行させるためのコンピュータプログラムであって、
    前記コンピュータに、
    第1の文字幅計算方法により前記文字集合を構成する文字の第1の文字幅を取得する第1の文字幅取得ステップと、
    前記文字集合を1文字の文字候補の単位に分割する分割ステップと、
    分割された前記文字候補を用いて信頼度計算方法により前記第1の文字幅の信頼度を取得する信頼度取得ステップと、
    前記第1の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第1の文字幅であるかを判定する文字幅判定ステップと、
    前記文字集合を構成する文字の文字幅が第1の文字幅ではないと判定された場合、前記第1の文字幅計算方法とは異なる第2の文字幅計算方法により、前記文字集合を構成する文字の第2の文字幅を取得する第2の文字幅取得ステップと
    を実行させるためのコンピュータプログラムであり、
    前記信頼度計算方法は、
    前記第1の文字幅を中心値とする文字幅範囲を第1の範囲として設定し、
    前記分割ステップによって分割された前記文字候補から、前記第1の範囲内の幅を有する文字候補を選択し、
    該選択された前記文字候補の幅の平均値と前記第1の文字幅との比を前記第1の文字幅の信頼度として計算するように構成される方法である
    ことを特徴とするコンピュータプログラム。
  17. 文字集合を構成する文字の文字幅を判定する方法をコンピュータに実行させるためのコンピュータプログラムであって、
    前記コンピュータに、
    第1の文字幅計算方法により前記文字集合を構成する文字の第1の文字幅を取得する第1の文字幅取得ステップと、
    前記文字集合を1文字の文字候補の単位に分割する分割ステップと、
    分割された前記文字候補を用いて信頼度計算方法により前記第1の文字幅の信頼度を取得する信頼度取得ステップと、
    前記第1の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第1の文字幅であるかを判定する文字幅判定ステップと、
    前記文字集合を構成する文字の文字幅が第1の文字幅ではないと判定された場合、前記第1の文字幅計算方法とは異なる第2の文字幅計算方法により、前記文字集合を構成する文字の第2の文字幅を取得する第2の文字幅取得ステップと
    を実行させるためのコンピュータプログラムであり、
    前記信頼度計算方法は、
    前記分割ステップによって分割された前記文字候補の幅に従って、クラスタリングアルゴリズムにより前記文字候補を複数の異なる群にクラスタリングし、
    各群の文字候補の幅の平均値を該群の平均文字幅として計算し、
    各群の前記文字候補に重みを割り当て、各群の重み付き文字候補の数を計算し、
    前記各群から最大の重み付き文字候補の数を有する1つの群を選択し、
    前記選択された群の平均文字幅と前記第1の文字幅との比を前記第1の文字幅の信頼度として計算するように構成される方法である
    ことを特徴とするコンピュータプログラム。
  18. 文字集合を構成する文字の文字幅を判定する方法をコンピュータに実行させるためのコンピュータプログラムであって、
    前記コンピュータに、
    第1の文字幅計算方法により前記文字集合を構成する文字の第1の文字幅を取得する第1の文字幅取得ステップと、
    前記文字集合を1文字の文字候補の単位に分割する分割ステップと、
    分割された前記文字候補を用いて信頼度計算方法により前記第1の文字幅の信頼度を取得する信頼度取得ステップと、
    前記第1の文字幅の信頼度に従って、前記文字集合を構成する文字の文字幅が前記第1の文字幅であるかを判定する文字幅判定ステップと、
    前記文字集合を構成する文字の文字幅が第1の文字幅ではないと判定された場合、前記第1の文字幅計算方法とは異なる第2の文字幅計算方法により、前記文字集合を構成する文字の第2の文字幅を取得する第2の文字幅取得ステップと
    を実行させるためのコンピュータプログラムであり、
    前記信頼度計算方法は、
    前記第1の文字幅を中心値とする文字幅範囲を第1の範囲として設定し、
    前記分割ステップによって分割された前記文字候補から、前記第1の範囲内の幅を有する文字候補を第1の文字候補群として選択し、前記第1の文字候補群の文字候補の数を第1の文字候補数として計算し、
    前記分割ステップによって分割された前記文字候補であって、前記第1の範囲の上限より大きい幅を有する前記文字候補を、前記第1の文字幅を有する文字候補と文字片とに分割し、前記文字片と前記第1の範囲の下限より小さい幅を有する前記文字候補と組み合わせることによって、新たな文字候補を形成し、
    該形成された新たな文字候補から、前記第1の範囲内の幅を有する文字候補を第2の文字候補群として選択し、前記第2の文字候補群の文字候補の数を第2の文字候補数として計算し、
    前記第1の文字候補数と前記第2の文字候補数との和と前記分割ステップによって分割された前記文字候補の数との比を前記第1の文字幅の信頼度として算出するように構成される方法である
    ことを特徴とするコンピュータプログラム。
JP2012239440A 2011-11-08 2012-10-30 文字幅を判定する方法及び装置、文字集合を分割する装置、及びコンピュータプログラム Active JP6046982B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110355148.3 2011-11-08
CN201110355148.3A CN103093224B (zh) 2011-11-08 确定平均字符宽度的方法和装置及字符切分方法和设备

Publications (3)

Publication Number Publication Date
JP2013101610A JP2013101610A (ja) 2013-05-23
JP2013101610A5 JP2013101610A5 (ja) 2015-11-26
JP6046982B2 true JP6046982B2 (ja) 2016-12-21

Family

ID=48205772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012239440A Active JP6046982B2 (ja) 2011-11-08 2012-10-30 文字幅を判定する方法及び装置、文字集合を分割する装置、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6046982B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682666A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 用于非常见字体ocr识别的特征模板制备方法
CN113836865A (zh) * 2021-08-18 2021-12-24 广州维梦科技有限公司 基于文件扫描的文字识别方法、终端及存储装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59158479A (ja) * 1983-03-01 1984-09-07 Nec Corp 文字分離装置
JP3344062B2 (ja) * 1994-03-18 2002-11-11 富士通株式会社 カタカナ手書き文字切り出し回路
JP3548234B2 (ja) * 1994-06-29 2004-07-28 キヤノン株式会社 文字認識方法及び装置
JPH1069522A (ja) * 1996-08-28 1998-03-10 Matsushita Electric Ind Co Ltd 文字認識装置及び文字認識方法並びに文字認識方法を記録した記録媒体
JP4004189B2 (ja) * 1999-07-30 2007-11-07 株式会社リコー 文字切り出し方法
JP2002063548A (ja) * 2001-06-18 2002-02-28 Hitachi Software Eng Co Ltd 手書き文字認識方法
JP5322517B2 (ja) * 2008-07-08 2013-10-23 キヤノン株式会社 画像処理装置および方法

Also Published As

Publication number Publication date
CN103093224A (zh) 2013-05-08
JP2013101610A (ja) 2013-05-23

Similar Documents

Publication Publication Date Title
EP3189469B1 (en) A method for selecting frames from video sequences based on incremental improvement
JP6277750B2 (ja) 画像処理装置及び方法
US10748023B2 (en) Region-of-interest detection apparatus, region-of-interest detection method, and recording medium
JP5695257B1 (ja) 画像処理装置、画像処理方法、および画像処理プログラム
WO2014131339A1 (zh) 字符识别方法和字符识别装置
JP5600723B2 (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
JP6307873B2 (ja) 対象線検出装置、方法、及びプログラム
CN101286230B (zh) 图像处理设备和图像处理方法
US20180165815A1 (en) Distance measurement device and distance measurement method
CN105261021A (zh) 去除前景检测结果阴影的方法及装置
Liang et al. A new wavelet-Laplacian method for arbitrarily-oriented character segmentation in video text lines
JP2013030183A (ja) 環境認識装置及びプログラム
KR101377910B1 (ko) 화상 처리 방법 및 화상 처리 장치
JP5523537B2 (ja) 文書画像の行分割方法及び行分割システム
WO2018194158A1 (ja) 軌道識別装置、プログラム、および軌道識別方法
JP6046982B2 (ja) 文字幅を判定する方法及び装置、文字集合を分割する装置、及びコンピュータプログラム
JP2015115067A (ja) 画像から歪んだ直線を抽出する方法及び装置
JP2009151759A (ja) 画像処理方法及び画像処理装置
JP2011165170A (ja) 対象物検出装置及びプログラム
US9531969B2 (en) Image processing apparatus, image processing method, and storage medium
JP5672828B2 (ja) 画像処理装置及び画像処理プログラム
JP4685711B2 (ja) 画像処理方法及び装置及びプログラム
JP6468880B2 (ja) 文字領域抽出装置及びプログラム
JP2015135576A (ja) 帳票項目認識方法、帳票項目認識装置及び帳票項目認識プログラム
KR101866867B1 (ko) 동공 중심 검출 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151006

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151006

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161021

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161118

R151 Written notification of patent or utility model registration

Ref document number: 6046982

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151