JP2011233160A - 画像データの特徴を特定する方法 - Google Patents

画像データの特徴を特定する方法 Download PDF

Info

Publication number
JP2011233160A
JP2011233160A JP2011153366A JP2011153366A JP2011233160A JP 2011233160 A JP2011233160 A JP 2011233160A JP 2011153366 A JP2011153366 A JP 2011153366A JP 2011153366 A JP2011153366 A JP 2011153366A JP 2011233160 A JP2011233160 A JP 2011233160A
Authority
JP
Japan
Prior art keywords
font
feature
language
distribution
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011153366A
Other languages
English (en)
Other versions
JP5214775B2 (ja
Inventor
Richard John Campbell
ジョン キャンベル リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2011233160A publication Critical patent/JP2011233160A/ja
Application granted granted Critical
Publication of JP5214775B2 publication Critical patent/JP5214775B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

【課題】電子文書の言語または言語ファミリといった画像の特徴を特定する方法を提供する。
【解決手段】本発明に係る方法の一形態では、画像データの所定の領域に含まれる複数の字体要素について、特徴点の数に対応する字体要素の出現回数を、特徴点の数をビンとした度数分布として積算し、該度数分布から対象分布特性を求め、対象分布特性と、見本分布特性とを比較することにより文字の言語または言語ファミリを特定する。
【選択図】図8

Description

本発明は画像データの特徴を特定するための方法及びシステムに関するものである。
電子文書のページ方向は、原稿がスキャンされた方向、読み取り装置のローラに対する原稿の方向、またはその他の要因によって、便宜的に決められた名目上のページ方向である「原稿のページ方向」とは対応していないことがある。この電子文書のページ方向と名目上のページ方向との不一致は、電子文書を処理する場合において、好ましくない、予期しない、または最善ではない等の結果をもたらす。例えば、電子文書を印刷した物に最終処理を行う時、この方向の違いは好ましくない結果をもたらす。典型的な最終処理として紐で綴じる、またはステープルで綴じる等の処理がある。さらに許容できるレベルの正確さで、ある画像処理操作、例えば光学文字認識(optical character recognition :OCR)を行うために、具体的な方向に関するデータの入力が必要になる。加えて、もし名目上のページ方向に対応する電子文書のページ方向が不明であれば、例えばコンピュータのモニタ、携帯用のディスプレイ、及びその他の表示装置において、表示されるべき適切な方向を得ることができない。
特許文献1にはOCR技術を用い文字認識を行い、読み取った原稿のページ方向を特定する方法が記載されている。これによると、原稿内の一文字一文字を切り出し、切り出した文字をパターン化する。切り出した文字パターンの特徴とデータベース化された文字パターン情報とを比較する。マッチングの方法としては、データベース化された文字パターンに切り出した文字パターンを重ね合わせ、画素毎の白黒を比較し、全てが合致した時のデータベース化された文字パターンをその文字であると判別する。全てが合致する文字パターンがない場合、マッチングする画素が最も多い文字パターンの文字であると判別する。尚、所定のマッチング割合に達しなければ判別不能と判断する。上記の処理を、切り出された文字パターンを90°、180°、270°回転させたものについて同様に行う。文字パターンの回転角毎に判別可能な文字数の比較を行い、判別可能な文字数が最も多い回転角を文字の方向とすることにより、原稿のページ方向を特定することができる。
特開平6−189083(平成6年7月8日公開)
しかしながら、上記従来の方法では、文字パターン情報を記録するデータベースが大きくなるという問題を生じる。切り出した文字をマッチングするためには文字数分のパターンデータが必要となり、パターンデータ用のメモリサイズが大きくなってしまう。またこのデータベースは文書に書かれた文字の言語が不明であるときはさらに増大する。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、字体のマッチングのためのパターンデータを格納するメモリサイズを削減できる、電子文書のページ方向、及び言語または言語ファミリ等を特定する方法及びシステムを実現することにある。
本発明に係る文字の言語または言語ファミリを特定する方法は、(a)画像データから2値化された画像データを生成する第1ステップと、(b)上記2値化された画像データの中の字体要素を決定する第2ステップと、(c)字体の特徴を示す所定のパターンにマッチする、上記字体要素の特徴点の数を算出する第3ステップと、(d)上記画像データの所定の領域に含まれる複数の上記字体要素について、上記特徴点の数に対応する上記字体要素の出現回数を、上記特徴点の数を横軸とした度数分布として積算する第4ステップと、(e)上記度数分布を上記字体要素あたりの分布として正規化することにより得られる対象分布特性を算出する第5ステップと、(f)所定の言語または言語ファミリのトレーニング画像データに対して、上記第1から第5ステップと同じ手順を用いて得られる見本分布特性を取得する第6ステップと、(g)上記対象分布特性と、上記見本分布特性とを比較することにより文字の言語または言語ファミリを特定する第7ステップと、を有することを特徴としている。
これにより、字体のマッチングのために必要となるパターンデータ数は、字体の特徴の種類の数ですむので、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、言語または言語ファミリを特定することができる。
本発明に係る文字の言語または言語ファミリを特定する方法は、(a)画像データから2値化された画像データを生成する第1ステップと、(b)上記2値化された画像データの中の字体要素を決定する第2ステップと、(c)字体の特徴を示す所定のパターンにマッチする、上記字体要素の特徴点の数を算出する第3ステップと、(d)上記画像データの所定の領域に含まれる複数の上記字体要素について、上記特徴点の数に対応する上記字体要素の出現回数を、上記特徴点の数を横軸とした度数分布として積算する第4ステップと、(e)上記度数分布を上記字体要素あたりの分布として正規化することにより得られる対象分布特性を算出する第5ステップと、(f)所定の言語または言語ファミリのトレーニング画像データに対して、上記第1から第5ステップと同じ手順を用いて得られる見本分布特性を取得する第6ステップと、(g)上記対象分布特性と、上記見本分布特性とを比較することにより文字の言語または言語ファミリを特定する第7ステップと、を有することを特徴としている。
これにより、字体のマッチングのために必要となるパターンデータ数は、字体の特徴の種類の数ですむので、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、言語または言語ファミリを特定することができる。
(A)は「読める方向」にある典型的なテキストを示す図であり、(B)は(A)を時計回りに90°回転させた典型的なテキスト文書を示す図であり、(C)は(A)を時計回りに180°回転させた典型的なテキスト文書を示す図であり、(D)は(A)を反時計回りに90°回転させた典型的なテキスト文書を示す図である。 ページ方向の修正を含む本発明に係る実施形態を示すフロー図である。 画像の2値化処理の後に非テキストブロック除去処理を含む本発明に係る実施形態を示すフロー図である。 要素フィルタリング処理を含む本発明に係る実施形態を示すフロー図である。 (A)は字体要素の境界線の中心を字体要素の参照点とする典型的な字体要素を示す図であり、(B)は字体要素の重心を字体要素の参照点とする典型的な字体要素を示す図である。 (A)は上向き特徴部といわれる字体の特徴に対応する典型的な画素パターンを示し、(B)は右向き特徴部といわれる字体の特徴に対応する典型的な画素パターンを示し、(C)は下向き特徴部といわれる字体の特徴に対応する典型的な画素パターンを示し、(D)は左向き特徴部といわれる字体の特徴に対応する典型的な画素パターンを示し、(E)は右上開口特徴部といわれる字体の特徴に対応する典型的な画素パターンを示し、(F)は右下開口特徴部といわれる字体の特徴に対応する典型的な画素パターンを示し、(G)は左下開口特徴部といわれる字体の特徴に対応する典型的な画素パターンを示し、(H)は左上開口特徴部といわれる字体の特徴に対応する典型的な画素パターンを示す図である。 典型的な字体要素を示す図である。 特徴数の集計処理を含む本発明に係る実施形態を示すフロー図である。 ページ方向検出のための教師付きトレーニングを含む本発明に係る実施形態を示すフロー図である。 言語検出のための教師付きトレーニングを含む本発明に係る実施形態を示すフロー図である。 特徴/見本比較処理を含む本発明に係る実施形態を示すフロー図である。 本発明に係る画像特徴特定システムを示すブロック図である。
本発明の実施形態は、字体の特徴の分布を測定することにより画像データ中のテキスト方向を特定する方法及びシステムからなる。また本発明の他の実施形態は、字体の特徴の分布を測定することにより、電子文書のテキストの言語または言語ファミリを特定する方法及びシステムからなる。本発明のいくつかの実施形態は、トレーニングデータサンプルのセットのページまたはテキスト領域に渡って、字体の特徴の見本分布を生成する教師付きトレーニング(supervised-training)法を使用した方法及びシステムからなる。
本発明の上述及び他の目的、特徴、及び優位性についてさらに理解を深めるため、以下に本発明のいくつかの実施形態について図1〜11に基づいて説明する。
本発明の実施形態は以下に示す図1〜11を参照することにより、理解することができる。尚、図中の各部に数字の符号を付している。
本発明の構成要素は一般に図中に記述及び記載されているように、様々な異なる形態に変更及び組み合わせることができる。それゆえ、以下に本発明における方法及びシステムの実施形態を詳細に記述することは、本発明の範囲を限定するものではなく、単に本発明の好ましい実施形態を記述するためのものである。
本発明の実施形態の要素は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせにより具現化できる。ここで扱う典型的な実施形態はこれらの形態のうちの一つでのみ記載されるが、当業者は本発明の請求項に示される範囲に基づきこれらの形態のどんな形態でも実施することができるだろう。
電子文書(文書画像、テキスト画像、または画像ともみなされる)のページ方向は、名目上のページ方向である「原稿のページ方向」と対応していないことがある。これはスキャン方向、スキャナローラに対する原稿の方向、及び他の要因によるものである。電子文書におけるページ方向と名目上のページ方向との不一致は、電子文書を処理する場合において、好ましくない、予期しない、または最善ではない等の結果をもたらしうる。例えば、電子文書を印刷した物に最終処理を行う時、この方向の違いは好ましくない結果をもたらしうる。典型的な最終処理としては紐で綴じる、またはステープルで綴じる等の処理がある。さらに許容できるレベルの正確さで、ある画像処理操作、例えば光学文字認識(optical character recognition :OCR)を行うために、具体的な方向に関するデータの入力が必要になる。加えて、もし名目上のページ方向に対応する電子文書のページ方向が不明であれば、例えばコンピュータのモニタ、携帯用のディスプレイ、及びその他の表示装置において表示される適切な方向を得ることができない。
本発明のいくつかの実施形態は、電子文書における最有力のテキスト方向の自動検出に関するものである。テキスト方向は名目上のページ方向に関係していることがある。
スキャン、コピー、及び他のデジタル画像処理をする際、文書は画像処理装置のローラ、またはドキュメントフィーダ上に標準ではない方向に置かれることがある。スキャン等の電子画像は通常の読める方向から逆向き、または回転したものになっていることがある。
図1(A)〜(D)は、上方向を読める方向とみなし、読める方向に関する、数種類の文書方向を描いたものである。図1(A)は、読める方向に置かれた典型的なテキスト文書2を示している。これは0°方向とみなされる。図1(B)は、90°回転した方向に置かれた典型的なテキスト文書4を示している。これは時計回りに90°回転した方向、時計逆周りに270°回転した方向、右に90°回転した方向または左に270°回転した方向であるともみなされる。図1(C)は、180°回転した方向に置かれた典型的なテキスト文書6を示している。これは逆方向であるとみなされる。図1(D)は270°回転した方向に置かれた典型的なテキスト文書8を示している。これは時計回りに270°回転した方向、時計逆周りに90°回転した方向、右に270°回転した方向、左に90°回転した方向であるともみなされる。
スキャンした場合、回転した電子文書のページに対しては、コピーケースの中の原稿を物理的に回転させる、または文書ビューアまたは他の画像・文書処理アプリケーションの中でページを逆向けたり回転させることによって、ユーザが手動で修正する必要がある。
本発明のいくつかの実施形態は、電子文書が読める方向か、90°回転しているか、180°回転しているか、270°回転しているかを特定することができる。本発明のいくつかの実施形態は、ページ上のテキストの言語または言語ファミリを特定することができる。
本発明のいくつかの実施形態は、字体(グリフ)の特徴の分布を測定することにより電子文書のページ方向を特定することができる。本発明の他の実施形態は、字体の特徴の分布を測定することにより電子文書のテキストの言語または言語ファミリを特定することができる。本発明のいくつかの実施形態は、トレーニングデータサンプルのセットのページまたはテキスト領域に渡って、字体の特徴の見本分布を生成する教師付きトレーニング法を利用することがある。それぞれのトレーニングサンプルにおいて、トレーニングサンプル中のテキストの方向及びテキストの言語または言語ファミリはあらかじめ与えられている。トレーニングデータは、見本となるページまたは他の領域の特徴分布のライブラリを形成する。本発明の実施形態はデータのページまたは他の領域の特徴分布とマッチングするために、見本となるページまたは他の領域の特徴分布のライブラリを利用することができる。
本発明のいくつかの実施形態は、2値化した角部のパターンを使用し、文字の非対称性をコード化するために、字体の参照位置に関係する象限(四象限)の位置のコード化をする。本発明のいくつかの実施形態は、テキストデータの言語または言語ファミリを検出し分類するために、字体の2値化した角部のパターンの度数分布を利用する。本発明のいくつかの実施形態は、分類処理部をトレーニングし、ページ方向の見本を生成するために、2値化した角部のパターンを利用する。
本発明のいくつかの実施形態に関して図2を参照して説明する。電子文書画像は2値化される(処理10)。典型的な2値化の方法は局所的に適応する2値化法及びグローバル2値化法からなる。局所2値化法は、Bernsen、ChowとKaneko、Eikvil他、MardiaとHainsworth、Niblack、Taxt他、YanowitzとBruckstein、Parker、WhiteとRohrerの動的閾値アルゴリズム、WhiteとRohrerの積分関数アルゴリズム、による局所2値化法、及び他の局所法を含む。グローバル2値化法は、Abutaleb、Kapur他、KittlerとIllingworth、Otsu、によるグローバル2値化法、及び他のグローバル法からなる。本発明のいくつかの実施形態では、32×32画素のブロックを用いるブロックベースOtsu(大津)2値化法によって2値化処理を行う。画像データの2値化は、画像データの背景画素とそれ以外(字体要素)とを区別できるようにするために行う。
2値化の次に字体要素決定が行われる(処理12)。字体(グリフ)は、記述された言語において使用される個々の文字またはシンボルである。字体要素決定の間、2値化の結果は字体要素を識別するための接続要素アルゴリズムによって処理される。字体要素決定はまた字体要素の特性の計算を含む。典型的な字体要素の特性は、字体要素の外接矩形、字体要素面積、字体要素の重心、字体要素の外接矩形面積、字体要素の外接矩形中心、及び他の特性を含む。ここで字体要素の外接矩形とは字体要素に外接するような矩形である。一つの字体要素は一つの字体文字を有している。しかし画像ノイズまたは他の要因により、一つの字体要素が多数の字体文字または非字体要素を含む、または一つの字体文字が多数の要素に分割されることがある。
字体要素及び字体要素の特性からページ方向を決定する(処理14)。電子文書画像は、電子文書画像が読める方向または他の望みの方向に配置されるよう、検出されたページ方向にしたがって電子文書画像が修正される(処理16)。
本発明のいくつかの実施形態に関して図3を参照して説明すると、非テキストブロックを除去するための非テキストブロック除去が、2値化の後、字体要素決定の前に行われる(処理11)。本発明のいくつかの実施形態では、非テキストブロック除去は、ブロック内の、コントラスト基準に満たないブロック、またはクラスの分離度が基準に満たないブロックを除去する工程を有する。
本発明のいくつかの実施形態に関して図4を参照して説明すると、ノイズかもしれない字体要素を除去するための要素フィルタリングが、字体要素決定の後、ページ方向特定の前に行われる(処理13)。本発明のいくつかの実施形態では、要素フィルタリングは、サイズ基準に満たない字体要素を除去する工程を有する。典型的なサイズ基準は、要素面積のサイズの平均に基づくサイズ下限値及びサイズ上限値、字体幅の下限値、及び他のサイズ基準を含む。
本発明のいくつかの実施形態は、非テキストブロック除去処理及び要素フィルタリング処理の両方を有してもよい。
本発明のいくつかの実施形態では、ページ方向特定は、2値化された字体要素の参照点(参照位置)に対する字体要素の特徴点の分布(特徴配置)に基づいている。本発明のいくつかの実施形態に関して図5(A)を参照して説明すると、字体要素30の参照点は、字体要素外接矩形34の中心32であってもよい。(c、c)で示される、字体要素外接矩形34の中心32は、下記の式によって決定される。
Figure 2011233160
ここで{glyph}は字体要素40を含む画素の組の座標を示している。
本発明の他方の実施形態に関して図5(B)を参照して説明すると、字体要素40の参照点は、字体要素40の重心42であってもよい。(c、c)で示される、字体要素40の重心42は、下記の式によって決定される。
Figure 2011233160
ここでareaは字体要素40を含む画素数(面積)を示している。
本発明のいくつかの実施形態では、字体要素の参照点と比較して、字体要素の特徴点の相対的な配置(相対位置)が記述される。本発明のいくつかの実施形態では、字体要素の特徴点の配置は、特徴点が位置する象限によって記述される。本発明の典型的なものでは、字体要素の参照点は、四象限に分解した原点であってもよい。
図5(A)において、参照点32は字体要素外接矩形34の中心であってもよい。画像の左上に原点をとり、画像の水平位置を対応する正のX座標、画像の垂直位置を対応する正のY座標で記述する典型的なラスタスキャン座標系において、(fx、fy)で示される特徴点の象限は、以下の式によって決定される。
Figure 2011233160
本発明のいくつかの実施形態では、特徴点が象限を分割する線31,33上に載っていた場合、特徴点は両方の象限に位置するとみなされる。本発明の他方の実施形態では、特徴点が象限を分割する線31,33上に載っていた場合、その特徴点は分割線に関するあらかじめ決められた象限に位置するとみなされる。
本発明のいくつかの実施形態では、特徴点が字体要素参照点32上に載っていた場合、特徴点は4つの象限全てに位置するとみなされる。本発明の他方の実施形態では、特徴点が字体要素参照点32上に載っていた場合、その特徴点はあらかじめ決められた象限に位置するとみなされる。
図5(B)において、参照点42は字体要素40の重心であってもよい。画像の左上に原点をとり、画像の水平位置を対応する正のX座標、画像の垂直位置を対応する正のY座標で記述する典型的なラスタスキャン座標系において、(fx、fy)で示される特徴点の象限は、以下の式によって決定される。
Figure 2011233160
本発明のいくつかの実施形態では、特徴点が象限を分割する線41,43上に載っていた場合、特徴点は両方の象限に位置するとみなされる。本発明の他方の実施形態では、特徴点が象限を分割する線41,43上に載っていた場合、その特徴点は分割線に関するあらかじめ決められた象限に位置するとみなされる。
本発明のいくつかの実施形態では、特徴点が字体要素参照点42上に載っていた場合、特徴点は4つの象限全てに位置するとみなされる。本発明の他方の実施形態では、特徴点が字体要素参照点42上に載っていた場合、その特徴点はあらかじめ決められた象限に位置するとみなされる。
本発明のいくつかの実施形態では、画素パターンに基づく特徴がページ方向を特定するために使用される。図6(A)〜(H)に、8種類の典型的なパターン特徴に関する3×3画素の典型的なパターンを12個示してある。図6(A)に示されるパターン60、62は”上向き特徴部(upward pointing)”といわれる字体の特徴に関係している。図6(B)に示されるパターン64,66は”右向き特徴部(rightward pointing)”といわれる字体の特徴に関係している。図6(C)に示されるパターン68,70は”下向き特徴部(downward pointing)”といわれる字体の特徴に関係している。図6(D)に示されるパターン72,74は”左向き特徴部(leftward pointing)”といわれる字体の特徴に関係している。図6(E)に示されるパターン76は”右上開口特徴部(up-right open)”といわれる字体の特徴に関係している。図6(F)に示されるパターン78は”右下開口特徴部(down-right open)”といわれる字体の特徴に関係している。図6(G)に示されるパターン80は”左下開口特徴部(down-left open)”といわれる字体の特徴に関係している。図6(H)に示されるパターン82は”左上開口特徴部(up-left open)”といわれる字体の特徴に関係している。
字体要素の中のある画素とその周囲の8つの近接する画素とが、字体についての特定の特徴を示すパターンとマッチしたとき、その画素はその特定の特徴と関係がある特徴点であるとみなされる。その画素は特徴パターンの中心画素であるとみなされる。字体要素中の背景画素に対応する画素、字体要素中の字体画素に対応する画素、及び字体要素中の”無関係(don't care)画素”とでもいうべき、字体でも背景でもかまわない部分に対応する画素によって、特徴に関係するパターンが表される。図6(A)〜(H)に示される典型的なパターンにおいて、パターン中の背景画素を白い四角(例えば55)で示す。パターン中の灰色の四角(例えば56)で示す画素は字体要素中の字体画素に対応する。パターン中の斜線のハッチングの四角(例えば57)で示す画素は字体または背景画素のどちらでもよい画素に対応する。ここで、字体の特徴を示すパターンは、字体の角部(鋭角または鈍角の角部)または字体の頂点を示すパターンとしてもよい。この場合、字体の角部または頂点が向いている方向の種類によって複数のパターンにわけてもよい。より具体的には、字体の鋭角の角部または頂点に位置する字体画素を基準画素としたとき、当該基準画素に隣接する背景画素の当該基準画素に対する方向、及び、当該基準画素に隣接する字体画素の当該基準画素に対する方向の組み合わせに応じたパターンであってもよい。例えば、図6(A)に示すように、基準画素に隣接する背景画素の当該基準画素に対する方向が上方向及び左方向、または、上方向及び右方向であり、基準画素に隣接する字体画素の当該基準画素に対する方向が下方向である組み合わせを、字体の特徴を示す一つのパターンとすればよい。また字体の鈍角の角部を示すパターンは、字体の鈍角の角部に位置する背景画素を基準画素とし、当該基準画素に隣接する背景画素の当該基準画素に対する方向、及び、当該基準画素に隣接する字体画素の当該基準画素に対する方向の組み合わせに応じたパターンであってもよい。例えば、図6(E)に示すように、基準画素に隣接する背景画素の当該基準画素に対する方向が上方向及び右方向であり、基準画素に隣接する字体要素の当該基準画素に対する方向が下方向及び左方向である組み合わせを、字体の特徴を示す一つのパターンとすればよい。
上述の特徴点を、図7に示される典型的な字体要素90とともに図示する。背景画素は白い四角(例えば91)で示される部分であり、字体画素は網模様の四角(例えば92)で示される部分である。画素93は上向き特徴部と左向き特徴部との両方に関する特徴点である。画素94は上向き特徴部と右向き特徴部との両方に関する特徴点である。画素95は下向き特徴部と左向き特徴部との両方に関する特徴点である。画素96は下向き特徴部と右向き特徴部との両方に関する特徴点である。画素97は左下開口特徴部に関する特徴点である。画素98は右下開口特徴部に関する特徴点である。画素99は下向き特徴部と右向き特徴部との両方に関する特徴点である。画素100は下向き特徴部と左向き特徴部との両方に関する特徴点である。
本発明のいくつかの実施形態では、字体要素における画素パターンに基づく特徴の出現回数とその相対的な位置の出現回数とは、領域またはページ毎の統計を作るために他の字体要素の特徴の出現回数とその相対的な位置の出現回数と結合される。領域またはページ毎の統計から、ページ方向のより確かな評価を得ることができる。
本発明のいくつかの実施形態では、画素パターンに基づく特徴の出現回数とその相対的な位置の出現回数とは、出現位置の象限を示す添字を行毎に付し、出現した画素パターンに基づく特徴を示す添字を列ごとに付した分布マトリクス(度数分布)に蓄積される。字体要素をgで示し、その字体要素の分布マトリクスをdmで示すと、その字体要素中のそれぞれの特徴の出現について、字体要素の分布マトリクスの中の対応する要素が蓄積される。
上述した図6(A)〜(H)に示される8種類の典型的な画素パターン特徴について、分布マトリクスdmは下記の形式で与えられる。
Figure 2011233160
ここでdmの要素ei,jは、字体要素gにおいて画素パターンに基づく特徴jが象限iに現れた回数を示す。ここで各jは8種類の画素パターンに基づく特徴の一つに対応する。k番目の領域について、蓄積された分布マトリクスをDMで示すと、領域R中の全ての字体要素gの分布マトリクスdmを各要素に関して和をとったものが総和分布マトリクスDMである。総和分布マトリクスDMは下記の式で表される。
Figure 2011233160
字体要素の分布マトリクスdmと、字体要素が回転したものからなる字体要素の分布マトリクスとの間にはある関係がある。上述の図6(A)〜(H)に示される8種類の典型的な画素パターン特徴と、図5(A)〜(B)に示される典型的な四象限に分解したものとに関して、字体要素が時計回りに90°回転したものを表すためには、字体要素の分布マトリクスの要素を以下のように並べ替えればよい。
Figure 2011233160
字体要素が時計回りに180°回転したものを表すためには、字体要素の分布マトリクスの要素を以下のように並べ替えればよい。
Figure 2011233160
字体要素が時計回りに270°回転したものを表すためには、字体要素の分布マトリクスの要素を以下のように並べ替えればよい。
Figure 2011233160
ここで特徴1(マトリクスの1列目に相当)は上向き特徴部に対応し、特徴2(マトリクスの2列目に相当)は右向き特徴部に対応し、特徴3(マトリクスの3列目に相当)は下向き特徴部に対応し、特徴4(マトリクスの4列目に相当)は左向き特徴部に対応し、特徴5は右上開口特徴部に対応し、特徴6は右下開口特徴部に対応し、特徴7は左下開口特徴部に対応し、特徴8は左上開口特徴部に対応する。
本発明のいくつかの実施形態では、分布マトリクス同士の間にある関係のために、トレーニング法を用いる場合において、一つの文書方向についてトレーニングすれば、4つの方向全ての分布マトリクスを得ることができる。
本発明のいくつかの実施形態では、画素パターンに基づく特徴を使って、文書の言語または言語ファミリを特定することができる。言語または言語ファミリの決定のための有効な統計は、対象の領域中またはページ中に渡った字体要素にみられる画素パターンに基づく特徴の数の分布である。種々の言語ファミリにおいて、それぞれ異なる言語で書かれた字体要素の組からは、字体要素あたりの特徴の数の分布について、それぞれ異なる分布が得られる。例えば、ラテン語系のアルファベットでは、アジアの言語に比べ、文字あたりの画素パターンに基づく特徴の数がより少なくなる傾向にある。
図8に示される本発明のいくつかの実施形態では、字体要素あたりの特徴の数の分布が決定される。2値化(処理110)の後、字体要素決定(処理112)、及び特徴決定(処理114)がそれぞれの字体要素について行われる。その後、それぞれの字体要素について特徴数の集計が行われ(処理116)、対象領域またはページについて字体要素あたりの特徴数の積算が行われ(処理118)、対象領域またはページの分布特性が得られる。上記積算結果の配列はヒストグラムとみなされ、また分布ベクトルDV(distribution vector)ともみなせる。ここでヒストグラムのそれぞれのビン(値域)、またはベクトルの要素は、画素パターンに基づく特徴の数が、そのビンに対応する数である字体要素の数を対象領域またはページについて積算したものにあたる。分布ベクトルは以下の式で決定される。
Figure 2011233160
ここで上式における=は代入演算子であり、/**/に挟まれているのはコメントである。
分布特性は、本発明のいくつかの実施形態において、電子文書中のテキストの言語または言語ファミリを決めるために使用される。
図9に示される本発明のいくつかの実施形態は、教師付きトレーニング(supervised-training)法に基づいてテキスト方向(ページ方向)を特定する。これらの実施形態では、トレーニングデータセットについて特徴が測定される(処理120)。次にトレーニングデータセットとあらかじめわかっているトレーニングデータの方向に関するデータとから作られた測定結果を使って分類処理部をトレーニングする(処理122)。そして文書画像の特徴が測定され(処理124)、トレーニングされた分類処理部と文書画像の特徴とを使用して文書方向(ページ方向)が特定される(処理126)。
図10に示される本発明のいくつかの実施形態は、教師付きトレーニング法に基づいてテキストの言語を決定する。これらの実施形態では、トレーニングデータセットについて特徴が測定される(処理130)。次にトレーニングデータセットとあらかじめわかっているトレーニングデータの言語に関するデータとから作られた測定結果を使って分類処理部をトレーニングする(処理132)。そして文書画像の特徴が測定され(処理134)、トレーニングされた分類処理部と文書画像の特徴とを使用して文書の言語が特定される(処理136)。
本発明のいくつかの実施形態では、それぞれの言語ファミリの見本分布マトリクス及び見本分布ベクトルが分類処理部のトレーニングに使用される。これらの典型的な分布(見本分布マトリクス)は、各言語ファミリの典型的な文書に基づく教師付きトレーニングによって得られる。
典型的な分布は、それぞれの言語のトレーニングデータセットに渡って得られた分布を正規化し、この正規化された分布を平均することによって得られる。本発明のいくつかの実施形態では、トレーニングデータについての方向と言語に関するデータは、トレーニングデータの2値化された画像データの部分に関係するメタデータとして備えられる。本発明のいくつかの実施形態では、トレーニング法によって、参照方向(例えば通常上方向とみなされる読める方向)からのトレーニングデータが正規化される。この分布マトリクスは、参照方向であるn番目のトレーニングサンプルについて、DMn,D=Uで示される。トレーニングサンプルは文書画像のある領域またはページからなる。言語についてのそれぞれのトレーニング分布マトリクスを正規化することにより、正規化された分布マトリクスが得られる。ここで正規化された分布マトリクスをNDMn,D=Uで示す。DMn,D=UとNDMn,D=Uの関係は以下の式で示される。
Figure 2011233160
ここでen i,jの上付添字nは、n番目のトレーニングデータサンプルについてのei,jであることを示す。また添字D=Uは、ページ方向(direction)が上向き(up)のものであることを示す。
他方の実施形態では、以下の式に示されるように、正規化された分布マトリクスは、各要素の和が1(unity)ではない値をとってもよい。
Figure 2011233160
ここでCはあらかじめ決められた定数である。
見本分布マトリクスは、言語または言語ファミリについての複数のトレーニングサンプルに渡って、上記の正規化された分布マトリクスのそれぞれの要素の平均をとることにより得られる。ここで言語ファミリを示す添字をFとすると、言語ファミリFに対応する見本分布マトリクスは以下の式で示される。
Figure 2011233160
ここで添字nは、参照方向の言語ファミリFについてのn番目のトレーニングサンプルであることを示す。またnTは平均をとるサンプルの数である。
他の方向の見本分布マトリクスは、参照方向に対応する見本分布マトリクスからの並べ替えに基づいて決定される。本発明のいくつかの実施形態では、参照方向は読める方向である。他方の実施形態では、参照方向は読める方向以外の方向である。また上記の実施形態においては、各言語に対するそれぞれの見本分布マトリクスとして32個のデータ(8種類の特徴×4象限)が必要であるのみであり、必要とするデータベースを小さくすることができる。したがって計算に必要なメモリサイズを大きく削減することが可能となる。
本発明のいくつかの実施形態では、それぞれの言語ファミリについての見本分布ベクトルNDVは、トレーニングサンプルから以下の式によって決定される。
Figure 2011233160
ここで添字nは、言語ファミリFについてのn番目のトレーニングサンプルであることを示し、またDVはn番目のトレーニングサンプルについての分布ベクトルを示す。またnTは平均をとるサンプルの数である。見本分布ベクトルは多数のトレーニングサンプルに渡って平均をとることによって得られる。分布ベクトルはページ方向とは無関係である。
本発明のいくつかの実施形態では、分類処理部がマッチングを検出する際の最良の検出手段となる。ページ方向、言語または言語ファミリ、及び信頼度を特定するためのトレーニングデータから計算された見本分布(見本分布マトリクスまたは見本分布ベクトル)はページ方向検出モジュールによって利用される。分類処理部は見本分布と、文書画像から得られた分布特性とを比較することにより、ページ方向、言語または言語ファミリ、及びその信頼度を特定する。
本発明のいくつかの実施形態では、信頼度は、評価されたページ方向結果の信頼性が低い場合にそのページ方向結果を排除するために利用される。他方の実施形態では、ページ方向マッチングの段階で計算された情報が、方向に関する他の情報源から得られる情報と併せて利用される。そのようなページ方向マッチングの段階で計算される典型的な情報は、似たようなマッチングの全てについて信頼度を測定したものからなる。
本発明のいくつかの実施形態は、図11に示される関係で表される。文書画像は2値化され(140)、字体要素の候補が決定される(142)。2値化された字体要素の候補は、期待する字体要素構造に一致しない要素を排除するため要素フィルタリングされる(144)。その結果、字体要素からなる2値化字体マップが得られる。この字体マップから正規化された分布NDM及びNDVを生成することにより文書画像の特徴を抽出する(146)。文書画像の特徴を示すこれらの分布(分布特性)は、あらかじめ一連のトレーニング手順で計算された言語及びページ方向に関する見本分布と比較される(148)。ここでNDM及びNDVは字体要素の特徴の出現数(ΣΣi,j)でそれぞれDM及びDVを割り正規化したものである。
本発明のいくつかの実施形態では、この比較によって、測定された分布NDMと見本分布NDMF,Dとの積和演算結果NDM・NDMF,Dに応じたマッチング値が得られる。この積和演算結果は、2つのマトリクスの要素同士の積の和をとったもので、次式で定義される。
Figure 2011233160
正規化されたマトリクスについての上記マッチング値は0から1までの値をとり、0はもっとも悪いマッチング結果を、1はもっともよいマッチング結果であることを表している。すなわち、これは、文書画像から得られた分布マトリクスと見本分布から得られた分布マトリクスとの特性が近ければ値が大きくなる、信頼度というべきものである。積和演算によってページ方向と、言語または言語ファミリとの全ての組み合わせについて上記のマッチング値を算出する。そしてその中からもっともふさわしい結果が次式の選択条件により決定される。
Figure 2011233160
ここでDはページ方向を、Fは言語ファミリを示す。このようにして測定データと最も高い相関(マッチング値)を示すページ方向、及び言語または言語ファミリの見本分布(d、f)が特定される。
本発明の他方の実施形態では、マッチング値は次式で与えられるように、2つのマトリクスの差分の絶対値の和に応じたものとして得られる。
Figure 2011233160
本実施形態では、マッチング値は0がもっともよいマッチング結果であり、2がもっとも悪いマッチング結果であることを示す。すなわち、これは、文書画像から得られた分布マトリクスと見本分布から得られた分布マトリクスとの特性が近ければ値が小さくなる、信頼度というべきものである。上記演算によってページ方向と、言語または言語ファミリとの全ての組み合わせについて上記のマッチング値を算出する。そしてその中からもっともふさわしい結果が次式の選択条件により決定される。
Figure 2011233160
ここでDはページ方向を、Fは言語ファミリを示す。このようにして測定データと最も小さい差分(マッチング値)を示すページ方向、及び言語または言語ファミリの見本分布(d、f)が特定される。
本発明のいくつかの実施形態では、見本分布をあらかじめメモリ等の記録媒体に保存しておき、そこから取得するようにしてもよい。また、見本分布をインターネット等のネットワークまたは電気信号回線を経由して取得してもよい。
本発明のいくつかの実施形態では、分布ベクトルを利用して言語または言語ファミリを特定するためのマッチング値は、積和演算結果NDV・NDVによって与えられる。上記の演算はベクトルの内積である。他方の実施形態では、マッチング値は分布ベクトルの各要素同士の差分の絶対値の和Σ|NDV−NDV|によって与えられる。ここでΣはベクトルの各要素(成分)についての和である。もっともふさわしい言語を特定するための選択条件はそれぞれ、積和演算結果については(f)=max(NDV・NDV)であり、差分の絶対値の和については(f)=min(Σ|NDV−NDV|)である。
本発明のいくつかの実施形態では、言語の分類はページ方向の検出に先立って行われる。これらの実施形態では、ページ方向の検出に使用される言語ファミリの範囲は、前もって分類された言語に基づいて限定されたものとなる。
本発明の他方の実施形態では、言語の決定とページ方向の検出は、平行して行われる。そして分布マトリクスのマッチング結果と、マッチング結果から最適なものを選択するための選択条件とは、ページ方向の特定及び言語ファミリの特定の両方に役立つ情報を返す。この情報は限定された言語ファミリのマッチング結果と組み合わされる。すなわち、分布マトリクスは複数の言語ファミリの見本分布マトリクスと比較され、そのマッチング結果の中から、選択条件により最もマッチング結果がよいものを選び出し、言語ファミリ及びページ方向が特定される。一方の実施形態では、最もマッチング結果がよいものを選択する際に、各マッチング結果は重みをつけて評価される。他方の実施形態では、マッチング値は分類処理部に入力される。
本発明のいくつかの実施形態は上述した最適マッチングの検出処理として記述できる。本発明の他方の実施形態は、パターン認識法に基づく分類処理部からなる。
本発明のいくつかの実施形態は、上述の各実施形態を実現するシステムとして提供される。図12を参照しながら本実施形態の画像特徴特定システム150に関して以下に説明する。画像特徴特定システム150に、スキャナ等により読み取られた画像データが入力される。入力された画像データは2値化画像生成部151に入力され、2値化された画像データが生成される。画像データの2値化は、画像データの背景画素とそれ以外(字体要素)とを区別できるようにするために行う。上記2値化された画像データは字体要素決定部152に入力され、2値化された画像データの中の字体要素が決定される。上記字体要素を含む2値化された画像データは参照位置決定部153に入力され、字体要素の参照位置が決定される。上記参照位置は上記字体要素の重心、または上記字体要素の外接矩形の中心、としてもよい。また上記字体要素を含む2値化された画像データは特徴配置決定部154に入力され、字体要素の中の、字体の特徴を示す所定のパターンにマッチする、特徴点の位置(特徴配置)が決定される。特徴点の位置は字体要素の、パターンにマッチする部分の中心としてもよい。字体要素の上記参照位置と上記特徴点の位置とを示すデータは相対位置決定部155に入力され、参照位置に対する特徴点の相対的な位置(相対位置)が決定される。上記相対的な位置は、字体要素を参照点を原点として四象限に分け、上記特徴点の位置が位置する象限を示すデータとしてもよい。相対位置を示すデータは画像特徴特定部156に入力され、上記相対位置に基づき画像の特徴(ページ方向、言語または言語ファミリ等)が特定される。画像特徴特定部156が行う処理として以下に具体例を記す。画像特徴特定部156は、上記画像データの所定の領域に含まれる複数の上記字体要素について、上記字体の特徴及び上記相対位置毎に、上記字体の特徴の出現回数を度数分布として積算し、上記度数分布を上記字体要素あたりの分布として正規化することにより得られる対象分布特性を算出し、上記対象分布特性と、上記見本分布特性とを比較することにより画像のページ方向、言語または言語ファミリを特定する。上記見本分布特性は、所定のページ方向、言語または言語ファミリのトレーニング画像データに対して、対象分布特性と同様の手順を用いることで算出することができる。見本分布はあらかじめメモリ等の記録媒体に保存しておき、そこから取得するようにしてもよい。また、見本分布をインターネット等のネットワークまたは電気信号回線を経由して取得してもよい。
ニューラルネットワーク(Neural Networks)、サポートベクターマシン(Support Vector Machines)(SVM)、Hidden Markovモデル、及びその他の方法を含むトレーニング方法を、画素パターンに基づく特徴、及びページ方向と言語とを決定するための上述した演算方法、と連携させて使用してもよい。
上の明細書中で使用した用語及び表現は、説明するために使用したものであり、範囲を限定するものではない。また図示及び記述された特徴と同等のものを排除する用語及び表現の使用を意図するものでもない。本発明の範囲は、特許請求の範囲に示した請求項でのみ定義及び限定されるべきものである。
最後に、画像特徴特定システム150の各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、画像特徴特定システム150は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラム及び各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである画像特徴特定システム150の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記画像特徴特定システム150に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、画像特徴特定システム150を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
(変形例)
本発明の一形態に係る画像の特徴を特定する方法は、a)画像データから2値化された画像データを生成するステップと、b)上記2値化された画像データの中の字体要素を決定するステップと、c)上記字体要素の参照位置を決定するステップと、d)上記字体要素の特徴配置を決定するステップと、e)上記特徴配置の、上記参照位置に対する相対位置を決定するステップと、f)上記相対位置に基づき画像の特徴を特定するステップと、を有することを特徴としている。
これにより、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、画像の特徴を特定することができる。
上記参照位置は上記字体要素の重心であってもよい。
上記参照位置を決定するステップは、a)上記字体要素の外接矩形を決定するステップと、b)上記外接矩形の中心を決定するステップと、を有してもよい。
上記相対位置を決定するステップは、上記参照位置に基づき上記特徴配置を象限に分解するステップを有してもよい。
上記画像の特徴は、方向の特徴であってもよい。
これにより、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、電子文書のページ方向を特定することができる。
上記画像の特徴は、言語の特徴であってもよい。
これにより、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、言語または言語ファミリを特定することができる。
また本発明の一形態に係る画像の特徴を特定する方法は、a)画像データから2値化された画像データを生成するステップと、b)上記2値化された画像データの中の第1の字体要素を決定するステップと、c)上記第1の字体要素の第1の参照位置を決定するステップと、d)上記第1の字体要素の中の、第1の特徴に対応する第1の特徴配置を決定するステップと、e)上記第1の特徴配置の、上記第1の参照位置に対する第1の相対位置を決定するステップと、f)上記第1の特徴及び上記第1の相対位置に関して、その出現回数を第1の度数分布として積算するステップと、g)上記第1の度数分布に基づいた分布特性に基づき、画像の特徴を特定するステップと、を有することを特徴としている。
これにより、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、画像の特徴を特定することができる。
上記画像の特徴に対応する信頼度を決定するステップをさらに有してもよい。
これにより、特定された画像の特徴の信頼性を高めることができる。
上記の画像の特徴を決定するステップは、上記分布特性をあらかじめトレーニングされた分類処理部に入力するステップを有してもよい。
a)上記第1の字体要素の中の、第2の特徴に対応する第2の特徴配置を決定するステップと、b)上記第2の特徴配置の、上記第1の参照位置に対する第2の相対位置を決定するステップと、c)上記第2の特徴及び上記第2の相対位置に関して、その出現回数を上記第1の度数分布に積算するステップと、をさらに有してもよい。
上記第1の参照位置は、上記第1の字体要素の重心であってもよい。
上記第1の参照位置を決定するステップは、a)上記第1の字体要素の第1の外接矩形を決定するステップと、b)上記第1の外接矩形の中心を決定するステップと、を有してもよい。
上記第1の相対位置を決定するステップは、上記第1の参照位置に基づき上記第1の特徴配置を象限に分解するステップを有してもよい。
上記画像の特徴は、方向の特徴であってもよい。
これにより、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、電子文書のページ方向を特定することができる。
上記画像の特徴は、言語の特徴であってもよい。
これにより、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、言語または言語ファミリを特定することができる。
a)上記2値化された画像データの中の第2の字体要素を決定するステップと、b)上記第2の字体要素の第2の参照位置を決定するステップと、c)上記第2の字体要素の中の、上記第1の特徴に対応する第2の特徴配置を決定するステップと、d)上記第2の特徴配置の、上記第2の参照位置に対する第2の相対位置を決定するステップと、e)上記第1の特徴及び上記第2の相対位置に関して、その出現回数を第2の度数分布として積算するステップと、をさらに有してもよい。
上記分布特性を生成するために、上記第2の度数分布と上記第1の度数分布とを結合するステップをさらに有してもよい。
複数の字体要素について度数分布を積算し、結合することにより、より正確に画像の特徴を特定することができる。
本発明の一形態に係る画像の特徴を特定するシステムは、a)画像データから2値化された画像データを生成する2値化画像生成手段と、b)上記2値化された画像データの中の字体要素を決定する字体要素決定手段と、c)上記字体要素の参照位置を決定する参照位置決定手段と、d)上記字体要素の中の特徴配置を決定する特徴配置手段と、e)上記特徴配置の、上記参照位置に対する相対位置を決定する相対位置決定手段と、f)上記相対位置に基づき画像の特徴を特定する画像特徴特定手段と、を備えることを特徴としている。
これにより、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、画像の特徴を特定することができる。
上記画像の特徴は、方向の特徴であってもよい。
これにより、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、電子文書のページ方向を特定することができる。
上記画像の特徴は、言語の特徴であってもよい。
これにより、字体のマッチングのためのパターンデータを格納するメモリサイズを削減しながら、言語または言語ファミリを特定することができる。
本発明の一形態に係る画像のページ方向を特定する方法は、a)画像データから2値化された画像データを生成する第1ステップと、b)上記2値化された画像データの中の字体要素を決定する第2ステップと、c)上記字体要素の重心、または上記字体要素の外接矩形の中心、を参照位置として決定する第3ステップと、d)上記参照位置を原点として字体要素を四象限に分割する第4ステップと、e)字体の特徴を示す所定のパターンにマッチする、上記字体要素の特徴点の位置を決定する第5ステップと、f)上記特徴点の位置が、上記四象限のいずれに位置するかを示す相対位置を決定する第6ステップと、g)上記画像データの所定の領域に含まれる複数の上記字体要素について、上記字体の特徴及び上記相対位置毎に、上記字体の特徴の出現回数を度数分布として積算する第7ステップと、h)上記度数分布を上記字体要素あたりの分布として正規化することにより得られる対象分布特性を算出する第8ステップと、i)所定のページ方向のトレーニング画像データに対して、上記第1から第8ステップと同じ手順を用いて得られる見本分布特性を取得する第9ステップと、j)上記対象分布特性と、上記見本分布特性とを比較することにより画像のページ方向を特定する第10ステップと、を有することを特徴としている。
これにより、字体のマッチングのために必要となるパターンデータ数は、字体の特徴の種類の数ですみ、また各言語に対するそれぞれの見本分布特性として「字体の特徴の数×象限の数」のデータが必要であるのみであり、必要とするデータを格納するメモリサイズを削減しながら、電子文書のページ方向を特定することができる。
本発明の一形態に係る文字の言語または言語ファミリを特定する方法は、a)画像データから2値化された画像データを生成する第1ステップと、b)上記2値化された画像データの中の字体要素を決定する第2ステップと、c)上記字体要素の重心、または上記字体要素の外接矩形の中心、を参照位置として決定する第3ステップと、d)上記参照位置を原点として字体要素を四象限に分割する第4ステップと、e)字体の特徴を示す所定のパターンにマッチする、上記字体要素の特徴点の位置を決定する第5ステップと、f)上記特徴点の位置が、上記四象限のいずれに位置するかを示す相対位置を決定する第6ステップと、g)上記画像データの所定の領域に含まれる複数の上記字体要素について、上記字体の特徴及び上記相対位置毎に、上記字体の特徴の出現回数を度数分布として積算する第7ステップと、h)上記度数分布を上記字体要素あたりの分布として正規化することにより得られる対象分布特性を算出する第8ステップと、i)所定の言語または言語ファミリのトレーニング画像データに対して、上記第1から第8ステップと同じ手順を用いて得られる見本分布特性を取得する第9ステップと、j)上記対象分布特性と、上記見本分布特性とを比較することにより文字の言語または言語ファミリを特定する第10ステップと、を有することを特徴としている。
これにより、字体のマッチングのために必要となるパターンデータ数は、字体の特徴の種類の数ですみ、また各言語に対するそれぞれの見本分布特性として「字体の特徴の数×象限の数」のデータが必要であるのみであり、必要とするデータを格納するメモリサイズを削減しながら、言語または言語ファミリを特定することができる。
スキャン、コピー、及びデジタル画像処理における電子文書の最有力のテキスト方向またはテキスト言語の自動特定に利用できる。
2,4,6,8 テキスト文書
10、110 2値化処理(2値化画像生成)
12、112 字体要素決定処理
14 ページ方向特定処理
16 ページ方向修正処理
30 字体要素
32 中心(参照点)
34 字体要素外接矩形(外接矩形)
35,36,37,38 象限
40 字体要素
42 重心(参照点)
44,45,46,47 象限
55 背景画素
56 字体画素
57 無関係画素
90 字体要素
114 特徴決定処理
116 特徴数の集計処理
118 特徴数の積算処理
120 トレーニングデータセットについて特徴を測定
122 分類処理部をトレーニング
124 文書画像の特徴を測定
126 文書画像の特徴を使用してページ方向を特定
150 画像特徴特定システム
151 2値化画像生成部
152 字体要素決定部
153 参照位置決定部
154 特徴配置決定部
155 相対位置決定部
156 画像特徴特定部

Claims (1)

  1. 画像データの中の文字の言語または言語ファミリを特定する方法において、
    a)画像データから2値化された画像データを生成する第1ステップと、
    b)上記2値化された画像データの中の字体要素を決定する第2ステップと、
    c)字体の特徴を示す所定のパターンにマッチする、上記字体要素の特徴点の数を算出する第3ステップと、
    d)上記画像データの所定の領域に含まれる複数の上記字体要素について、上記特徴点の数に対応する上記字体要素の出現回数を、上記特徴点の数をビンとした度数分布として積算する第4ステップと、
    e)上記度数分布を正規化することにより得られる対象分布特性を算出する第5ステップと、
    f)所定の言語または言語ファミリのトレーニング画像データに対して、上記第1から第5ステップと同じ手順を用いて得られる見本分布特性を取得する第6ステップと、
    g)上記対象分布特性と、上記見本分布特性とを比較することにより文字の言語または言語ファミリを特定する第7ステップと、
    を有することを特徴とする文字の言語または言語ファミリを特定する方法。
JP2011153366A 2007-07-10 2011-07-11 画像データの特徴を特定する方法 Expired - Fee Related JP5214775B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/775,773 2007-07-10
US11/775,773 US8340430B2 (en) 2007-07-10 2007-07-10 Methods and systems for identifying digital image characteristics

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008179231A Division JP4902603B2 (ja) 2007-07-10 2008-07-09 画像データの特徴を特定する方法及びシステム

Publications (2)

Publication Number Publication Date
JP2011233160A true JP2011233160A (ja) 2011-11-17
JP5214775B2 JP5214775B2 (ja) 2013-06-19

Family

ID=40253160

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008179231A Expired - Fee Related JP4902603B2 (ja) 2007-07-10 2008-07-09 画像データの特徴を特定する方法及びシステム
JP2011153366A Expired - Fee Related JP5214775B2 (ja) 2007-07-10 2011-07-11 画像データの特徴を特定する方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2008179231A Expired - Fee Related JP4902603B2 (ja) 2007-07-10 2008-07-09 画像データの特徴を特定する方法及びシステム

Country Status (2)

Country Link
US (1) US8340430B2 (ja)
JP (2) JP4902603B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7856142B2 (en) * 2007-01-26 2010-12-21 Sharp Laboratories Of America, Inc. Methods and systems for detecting character content in a digital image
US8682056B2 (en) * 2008-06-30 2014-03-25 Ncr Corporation Media identification
CN101931731B (zh) * 2009-06-26 2012-09-26 北京大学 一种文稿方向的检测方法和装置
US8620078B1 (en) 2009-07-14 2013-12-31 Matrox Electronic Systems, Ltd. Determining a class associated with an image
US8543577B1 (en) * 2011-03-02 2013-09-24 Google Inc. Cross-channel clusters of information
JP2014215752A (ja) * 2013-04-24 2014-11-17 株式会社東芝 電子機器および手書きデータ処理方法
CN103488798B (zh) * 2013-10-14 2016-06-15 大连民族学院 一种甲骨文自动识别方法
JP2017151493A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 画像処理装置、画像読み取り装置及びプログラム
CN106407976B (zh) * 2016-08-30 2019-11-05 百度在线网络技术(北京)有限公司 图像字符识别模型生成和竖列字符图像识别方法和装置
CN106529497A (zh) * 2016-11-25 2017-03-22 浙江大华技术股份有限公司 一种图像采集设备的定位方法及装置
CN108564035B (zh) * 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
US11495014B2 (en) 2020-07-22 2022-11-08 Optum, Inc. Systems and methods for automated document image orientation correction

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5837777A (ja) * 1981-08-31 1983-03-05 Ricoh Co Ltd 活字/手書き識別方法
JPH076206A (ja) * 1993-04-19 1995-01-10 Xerox Corp 自動文字分類装置
JPH0721320A (ja) * 1993-04-19 1995-01-24 Xerox Corp 自動スクリプト決定装置
JPH0721319A (ja) * 1993-04-19 1995-01-24 Xerox Corp 自動アジア言語決定装置
JPH08123905A (ja) * 1994-10-28 1996-05-17 Canon Inc 文字認識装置及び方法
JPH10224595A (ja) * 1997-02-07 1998-08-21 Minolta Co Ltd 画像入力装置
JPH11338977A (ja) * 1998-05-28 1999-12-10 Canon Inc 文字処理方法及び装置、記憶媒体
JP2003209643A (ja) * 2002-01-11 2003-07-25 Sharp Corp 画像処理装置

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721817B2 (ja) 1986-03-26 1995-03-08 株式会社日立製作所 文書画像処理方法
JPH01250184A (ja) 1987-12-09 1989-10-05 Ricoh Co Ltd 文字認識方法及び文字の回転角度判定方法
US5031225A (en) * 1987-12-09 1991-07-09 Ricoh Company, Ltd. Character recognition method for recognizing character in an arbitrary rotation position
EP0325233B1 (en) * 1988-01-18 1994-07-27 Kabushiki Kaisha Toshiba Character string recognition system
US5060276A (en) * 1989-05-31 1991-10-22 At&T Bell Laboratories Technique for object orientation detection using a feed-forward neural network
US5191438A (en) * 1989-12-12 1993-03-02 Sharp Kabushiki Kaisha Facsimile device with skew correction and text line direction detection
US5168147A (en) * 1990-07-31 1992-12-01 Xerox Corporation Binary image processing for decoding self-clocking glyph shape codes
US5077811A (en) * 1990-10-10 1991-12-31 Fuji Xerox Co., Ltd. Character and picture image data processing system
JPH04195485A (ja) * 1990-11-28 1992-07-15 Hitachi Ltd 画像情報入力装置
US5235651A (en) * 1991-08-06 1993-08-10 Caere Corporation Rotation of images for optical character recognition
US5251268A (en) * 1991-08-09 1993-10-05 Electric Power Research Institute, Inc. Integrated method and apparatus for character and symbol recognition
JP3251959B2 (ja) * 1991-10-17 2002-01-28 株式会社リコー 画像形成装置
US5276742A (en) * 1991-11-19 1994-01-04 Xerox Corporation Rapid detection of page orientation
US5245165A (en) * 1991-12-27 1993-09-14 Xerox Corporation Self-clocking glyph code for encoding dual bit digital values robustly
US6574375B1 (en) * 1992-04-06 2003-06-03 Ricoh Company, Ltd. Method for detecting inverted text images on a digital scanning device
JP2723118B2 (ja) * 1992-08-31 1998-03-09 インターナショナル・ビジネス・マシーンズ・コーポレイション 2次元オブジェクトの認識に用いるためのニューラル・ネットワーク及び光学式文字認識装置
EP0587450B1 (en) * 1992-09-11 2004-11-17 Canon Kabushiki Kaisha Image processing method and apparatus
US5319722A (en) * 1992-10-01 1994-06-07 Sony Electronics, Inc. Neural network for character recognition of rotated characters
JPH06131496A (ja) 1992-10-16 1994-05-13 Fujitsu Ltd パターン正規化処理方法
CA2116600C (en) * 1993-04-10 1996-11-05 David Jack Ittner Methods and apparatus for inferring orientation of lines of text
JP3050007B2 (ja) * 1993-08-26 2000-06-05 ミノルタ株式会社 画像読取装置およびこれを備えた画像形成装置
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
JP3533696B2 (ja) * 1994-03-22 2004-05-31 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
IL109268A (en) * 1994-04-10 1999-01-26 Advanced Recognition Tech Method and system for image recognition
US5930001A (en) * 1994-10-25 1999-07-27 Canon Kabushiki Kaisha Copier which rotates an image based on the recognition of an extracted character from various directions
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
JPH08194780A (ja) * 1994-11-18 1996-07-30 Ricoh Co Ltd 特徴抽出方法
JPH08249422A (ja) * 1995-03-08 1996-09-27 Canon Inc 文字処理装置及び方法
US5689585A (en) * 1995-04-28 1997-11-18 Xerox Corporation Method for aligning a text image to a transcription of the image
US5889884A (en) * 1995-05-23 1999-03-30 Minolta Co., Ltd. Image forming apparatus capable of recognizing top and bottom of document image
DE69638207D1 (de) * 1995-07-31 2010-08-05 Fujitsu Ltd Prozessor und Verarbeitungsverfahren für Dokumente
US6137905A (en) * 1995-08-31 2000-10-24 Canon Kabushiki Kaisha System for discriminating document orientation
US5828771A (en) * 1995-12-15 1998-10-27 Xerox Corporation Method and article of manufacture for determining whether a scanned image is an original image or fax image
US6473196B2 (en) * 1996-09-19 2002-10-29 Canon Kabushiki Kaisha Image forming apparatus and method
US6304681B1 (en) * 1996-09-26 2001-10-16 Canon Kabushiki Kaisha Image processing apparatus for executing image processing in correspondence with portrait and landscape types
US6173088B1 (en) * 1996-10-01 2001-01-09 Canon Kabushiki Kaisha Image forming method and apparatus
GB9625284D0 (en) * 1996-12-04 1997-01-22 Canon Kk A data processing method and apparatus for identifying a classification to which data belongs
JP3728040B2 (ja) * 1996-12-27 2005-12-21 キヤノン株式会社 画像形成装置及び方法
KR100247970B1 (ko) * 1997-07-15 2000-03-15 윤종용 문서 영상의 방향 교정방법
JP4160140B2 (ja) 1998-01-07 2008-10-01 株式会社東芝 パターン認識方法、パターン認識辞書作成方法及びパターン認識装置
US6064767A (en) * 1998-01-16 2000-05-16 Regents Of The University Of California Automatic language identification by stroke geometry analysis
US6151423A (en) * 1998-03-04 2000-11-21 Canon Kabushiki Kaisha Character recognition with document orientation determination
JP3422924B2 (ja) * 1998-03-27 2003-07-07 富士通株式会社 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6804414B1 (en) * 1998-05-01 2004-10-12 Fujitsu Limited Image status detecting apparatus and document image correcting apparatus
TW457458B (en) * 1998-06-01 2001-10-01 Canon Kk Image processing method, device and storage medium therefor
US6798905B1 (en) * 1998-07-10 2004-09-28 Minolta Co., Ltd. Document orientation recognizing device which recognizes orientation of document image
US6256398B1 (en) * 1998-08-22 2001-07-03 Kenneth H. P. Chang Encoding and decoding a message within an image
US6624905B1 (en) * 1998-09-29 2003-09-23 Canon Kabushiki Kaisha Image formation apparatus having image direction discrimination function
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6597809B1 (en) * 1999-03-19 2003-07-22 Raf Technology, Inc. Rollup functions for efficient storage presentation and analysis of data
JP2001043310A (ja) * 1999-07-30 2001-02-16 Fujitsu Ltd 文書画像補正装置および補正方法
JP3854024B2 (ja) * 1999-11-30 2006-12-06 株式会社Pfu 文字認識前処理装置及び方法並びにプログラム記録媒体
US6714677B1 (en) * 1999-12-17 2004-03-30 Xerox Corporation Use of correlation histograms for improved glyph decoding
JP4228530B2 (ja) * 2000-02-09 2009-02-25 富士通株式会社 画像処理方法及び画像処理装置
US6993205B1 (en) * 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US6546215B2 (en) * 2001-09-10 2003-04-08 Toshiba Tec Kabushiki Kaisha Image forming apparatus and method having document orientation control
US6567628B1 (en) 2001-11-07 2003-05-20 Hewlett-Packard Development Company L.P. Methods and apparatus to determine page orientation for post imaging finishing
US7215828B2 (en) * 2002-02-13 2007-05-08 Eastman Kodak Company Method and system for determining image orientation
CN1183436C (zh) * 2002-04-03 2005-01-05 摩托罗拉公司 用于手写字符的方向确定及其识别
US7167279B2 (en) * 2002-05-08 2007-01-23 Kabushiki Kaisha Toshiba Image forming apparatus
US20040001606A1 (en) * 2002-06-28 2004-01-01 Levy Kenneth L. Watermark fonts
JP2004272798A (ja) * 2003-03-11 2004-09-30 Pfu Ltd 画像読み取り装置
JP4350414B2 (ja) * 2003-04-30 2009-10-21 キヤノン株式会社 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US7565030B2 (en) * 2003-06-26 2009-07-21 Fotonation Vision Limited Detecting orientation of digital images using face detection information
US7335695B2 (en) * 2003-07-18 2008-02-26 Engelhard Corporation Powder coating precursors and the use thereof in powder coating compositions
JP4678712B2 (ja) 2003-07-31 2011-04-27 株式会社リコー 言語識別装置、プログラム及び記録媒体
US7286718B2 (en) * 2004-01-26 2007-10-23 Sri International Method and apparatus for determination of text orientation
JP4697387B2 (ja) 2004-06-07 2011-06-08 富士ゼロックス株式会社 原稿画像判定装置、原稿画像判定方法及びそのプログラム
JP4553241B2 (ja) * 2004-07-20 2010-09-29 株式会社リコー 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
EP1843275A3 (en) 2004-08-10 2007-12-19 Océ-Technologies B.V. Outlier detection during scanning
JP4607633B2 (ja) * 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US7545529B2 (en) * 2005-03-24 2009-06-09 Kofax, Inc. Systems and methods of accessing random access cache for rescanning
US20060287848A1 (en) * 2005-06-20 2006-12-21 Microsoft Corporation Language classification with random feature clustering

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5837777A (ja) * 1981-08-31 1983-03-05 Ricoh Co Ltd 活字/手書き識別方法
JPH076206A (ja) * 1993-04-19 1995-01-10 Xerox Corp 自動文字分類装置
JPH0721320A (ja) * 1993-04-19 1995-01-24 Xerox Corp 自動スクリプト決定装置
JPH0721319A (ja) * 1993-04-19 1995-01-24 Xerox Corp 自動アジア言語決定装置
JPH08123905A (ja) * 1994-10-28 1996-05-17 Canon Inc 文字認識装置及び方法
JPH10224595A (ja) * 1997-02-07 1998-08-21 Minolta Co Ltd 画像入力装置
JPH11338977A (ja) * 1998-05-28 1999-12-10 Canon Inc 文字処理方法及び装置、記憶媒体
JP2003209643A (ja) * 2002-01-11 2003-07-25 Sharp Corp 画像処理装置

Also Published As

Publication number Publication date
JP5214775B2 (ja) 2013-06-19
JP2009020884A (ja) 2009-01-29
US20090016611A1 (en) 2009-01-15
US8340430B2 (en) 2012-12-25
JP4902603B2 (ja) 2012-03-21

Similar Documents

Publication Publication Date Title
JP5214775B2 (ja) 画像データの特徴を特定する方法
JP4902697B2 (ja) デジタル画像の特徴判定方法およびシステム
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US8249343B2 (en) Representing documents with runlength histograms
US9158986B2 (en) Character segmentation device and character segmentation method
US8144986B2 (en) Method and apparatus for binarization threshold calculation
JP4796169B2 (ja) デジタル画像の向きの判定方法
US20130011067A1 (en) Adaptive partial character recognition
US8300942B2 (en) Area extraction program, character recognition program, and character recognition device
JP7058941B2 (ja) 辞書生成装置、辞書生成方法、及びプログラム
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
Lin et al. Reconstruction of shredded document based on image feature matching
US8300937B2 (en) Image segmentation method and system based on region features of pixels
JP2009246930A (ja) 画像判別装置、画像検索装置、画像検索プログラムおよび記録媒体
Akhtar et al. Optical character recognition (OCR) using partial least square (PLS) based feature reduction: an application to artificial intelligence for biometric identification
CN111507344A (zh) 从图像中识别出文字的方法和装置
JP3851742B2 (ja) 帳票処理方法及び装置
JP7384603B2 (ja) 文書フォームの識別
García et al. Supervised texture classification by integration of multiple texture methods and evaluation windows
US20050271260A1 (en) Device, method and program for removing pores
Kumar et al. Quad: Quality assessment of documents
US6694059B1 (en) Robustness enhancement and evaluation of image information extraction
Benjelil et al. Complex documents images segmentation based on steerable pyramid features
Hesham et al. A zone classification approach for arabic documents using hybrid features

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130227

R150 Certificate of patent or registration of utility model

Ref document number: 5214775

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees