JP2023051732A

JP2023051732A - 方法、コンピュータ可読プログラムおよびシステム

Info

Publication number: JP2023051732A
Application number: JP2022110306A
Authority: JP
Inventors: プレブルティム; Prebble Tim
Original assignee: Konica Minolta Business Solutions USA Inc
Current assignee: Konica Minolta Business Solutions USA Inc
Priority date: 2021-09-30
Filing date: 2022-07-08
Publication date: 2023-04-11
Anticipated expiration: 2042-07-08
Also published as: US20230094651A1; US12062246B2; JP7402931B2

Abstract

【課題】電子画像からテキスト文字を抽出する効率、精度を改善する方法及びプログラムを提供する。【解決手段】方法は、入力画像からエッジマスクを生成し、エッジマスクから得られるエッジ画像を生成し、エッジマスク内で１または複数の推定テキスト領域を識別し、推定テキスト領域は、マークされたピクセルの所定の割合が潜在的な水平または垂直テキストライン内にあるポリゴンであり、エッジ画像のうち推定テキスト領域のそれぞれに対応する１または複数の推定テキスト部分のそれぞれに対して第１の光学文字認識（ＯＣＲ）操作を実行することによってテキスト文字の第１のセットを抽出し、第１のＯＣＲ操作によって抽出されたテキスト文字の第１のセットに対応する画像文字を入力画像から消去することによって修正画像を生成し、修正画像上に抽出されたテキスト文字の前記第１のセットを重ね合わせることによって文書を生成する。【選択図】図１

Description

画像からのテキスト抽出。

デジタル画像は、カメラに由来する自然画像であろうと、コンピュータによって生成される合成画像であろうと、テキスト情報を含み得る。物理的文書のデジタル表現は、画像、例えばスキャニングプロセスの結果に基づくことができる。これらの画像からテキスト文字を抽出して、それらをコンピュータアルゴリズムによってさらに処理することができるようにすることは、しばしば有用である。画像を含むが、画像からテキストを編集することができる文書を生成するために、デジタル画像からテキスト文字を抽出することも有用であることが多い。光学文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）操作では、自然または合成デジタル画像に埋め込まれたテキストを抽出するとき、高品質の結果を生成することができないことが多い。

一般的に、本発明の１または複数の実施形態は、入力画像からテキストを抽出して文書を生成する方法に関する。この方法は、前記入力画像からエッジマスクを生成することと、ここで、前記エッジマスクは前記入力画像内の特徴のエッジをマーキングする二値画像を含み、前記エッジマスクから得られるエッジ画像を生成することと、前記エッジマスク内で、１または複数の推定テキスト領域を識別することと、ここで、前記推定テキスト領域は、マークされたピクセルの所定の割合が潜在的な水平または垂直テキストライン内にあるポリゴンであり、前記エッジ画像のうち、前記推定テキスト領域のそれぞれに対応する、１または複数の推定テキスト部分のそれぞれに対して、第１の光学文字認識（ＯＣＲ）操作を実行することによって、テキスト文字の第１のセットを抽出することと、前記第１のＯＣＲ操作によって抽出されたテキスト文字の前記第１のセットに対応する画像文字を、前記入力画像から消去することによって修正画像を生成することと、前記修正画像上に、抽出されたテキスト文字の前記第１のセットを重ね合わせることによって文書を生成することとを含む。

一般的に、本発明の１または複数の実施形態は、入力画像からテキストを抽出し、ドキュメントを生成するためのコンピュータ可読プログラムに関する。コンピュータ可読プログラムは、前記入力画像からエッジマスクを生成し、ここで、前記エッジマスクは前記入力画像内の特徴のエッジをマーキングする二値画像を含み、前記エッジマスクから得られるエッジ画像を生成し、前記エッジマスク内で、１または複数の推定テキスト領域を識別し、ここで、前記推定テキスト領域は、マークされたピクセルの所定の割合が潜在的な水平または垂直テキストライン内にあるポリゴンであり、前記エッジ画像のうち、前記推定テキスト領域のそれぞれに対応する、１または複数の推定テキスト部分のそれぞれに対して、第１の光学文字認識（ＯＣＲ）操作を実行することによって、テキスト文字の第１のセットを抽出し、前記第１のＯＣＲ操作によって抽出されたテキスト文字の前記第１のセットに対応する画像文字を、前記入力画像から消去することによって修正画像を生成し、前記修正画像上に、抽出されたテキスト文字の前記第１のセットを重ね合わせることによって文書を生成することをコンピュータに実行させる。

一般的に、本発明の１または複数の実施形態は、入力画像からテキストを抽出し、ドキュメントを生成するシステムに関する。システムは、メモリと、メモリに接続されたプロセッサとを備える。プロセッサは、前記入力画像からエッジマスクを生成し、ここで、前記エッジマスクは前記入力画像内の特徴のエッジをマーキングする二値画像を含み、前記エッジマスクから得られるエッジ画像を生成し、前記エッジマスク内で、１または複数の推定テキスト領域を識別し、ここで、前記推定テキスト領域は、マークされたピクセルの所定の割合が潜在的な水平または垂直テキストライン内にあるポリゴンであり、前記エッジ画像のうち、前記推定テキスト領域のそれぞれに対応する、１または複数の推定テキスト部分のそれぞれに対して、第１の光学文字認識（ＯＣＲ）操作を実行することによって、テキスト文字の第１のセットを抽出し、前記第１のＯＣＲ操作によって抽出されたテキスト文字の前記第１のセットに対応する画像文字を、前記入力画像から消去することによって修正画像を生成し、前記修正画像上に、抽出されたテキスト文字の前記第１のセットを重ね合わせることによって文書を生成する。

本発明の他の態様は、以下の説明および添付の特許請求の範囲から明らかになるのであろう。

本発明の１または複数の実施形態に係る、画像からテキストを抽出し、文書を生成するための方法のフローチャートを示す。本発明の１または複数の実施形態に係る、推定テキスト領域を識別するための方法のフローチャートを示す。本発明の１または複数の実施形態に係る入力画像の図を示す。本発明の１または複数の実施形態に係るエッジマスクの図を示す。本発明の１または複数の実施形態に係るエッジ画像の図を示す。本発明の１または複数の実施形態に係る、エッジマスク上で識別されたテキストの水平ライン候補および垂直ライン候補の図を示す。本発明の１または複数の実施形態に係る、エッジマスク上で識別された推定テキスト領域の図を示す。本発明の１または複数の実施形態に係る修正画像の図を示す。本発明の１または複数の実施形態に係るコンピューティングシステムを示す。

ここで、本発明の特定の実施形態を、添付の図面を参照して詳細に説明する。様々な図における同様の要素は、一貫性のために同様の参照番号によって示される。

本発明の実施形態の以下の詳細な説明では、本発明のより完全な理解を提供するために、多数の具体的な詳細が記載される。しかしながら、本発明がこれらの具体的な詳細なく、実施され得ることは、当業者には明らかであろう。他の例では、説明を不必要に複雑にすることを回避するために、周知の特徴は詳細には説明されていない。

本出願を通して、序数（例えば、第１、第２、第３）は要素（すなわち、本出願における任意の名詞）の形容詞として使用され得る。序数の使用は「前」、「後」、「単一」、および他のそのような用語の使用などによって、明示的に開示されない限り、要素の特定の順序付けを暗示するまたは作成することも、任意の要素を単一の要素のみに限定することもない。むしろ、序数は、要素を区別するために使用される。一例として、第１の要素は第２の要素とは別個であり、第１の要素は２つ以上の要素を包含することができ、要素の順序付けにおいて第２の要素に続く（または先行する）ことができる。

一般的に、本発明の実施形態は、入力画像からテキストを抽出し、抽出されたテキストが編集可能なテキストとして再生される文書を生成するための方法、非一時的コンピュータ可読媒体（ＣＲＭ：Ｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）、およびシステムを提供する。入力画像は、任意選択で、コンテンツのクラスに対応する領域にセグメント化される。画像に対応する（または画像として処理されるように設計された他のコンテンツクラスに対応する）領域は、ＯＣＲ操作がこれらの領域からテキストを抽出する有効精度を改善するために処理される。具体的には、エッジマスク、または特徴のエッジをマーキングする二値画像が入力画像から生成される。エッジマスクはエッジ画像を生成するために使用され、ここでは、エッジマスクと同じエッジをマークするが、マーキングは入力画像から色付けされたピクセルである。エッジマスク内で、テキストを含む可能性の高い推定テキスト領域、またはポリゴナル領域が、テキストのライン候補のグループを識別し、次いで、マークされたピクセルの所定の割合がテキストのライン候補内に生じることをチェックすることによって、識別される。次いで、ＯＣＲ操作が、推定テキスト領域に対して実行される。言い換えれば、画像クラスとして分類された領域内にテキストを含む可能性が高いポリゴナル領域を識別し、これらの領域にＯＣＲ操作を限定することによって、ＯＣＲ操作は、画像領域内のテキストを首尾よく抽出する可能性がより高い。

図１は本発明の１または複数の実施形態に係る、画像からテキストを抽出し、文書を生成するための方法のフローチャートを示す。本発明の１または複数の実施形態では、図１に示されるステップのうちの１または複数のステップが図１に示される順序とは異なる順序で、組み合わされ、省略され、反復され、および／または実行され得る。したがって、本発明の範囲は、図１に示されるステップの特定の配置に限定されると見なされるべきではない。

任意選択のステップＳ１００において、入力画像は、任意選択で、１または複数の初期領域にセグメント化される。セグメンテーションの前に、入力画像３００は任意のソース（ｓｏｕｒｃｅ）から取得（例えば、ダウンロード、スキャン、キャプチャ、撮像など）され得る。入力画像３００は、写真、コンピュータ生成画像、文書、物理的文書のスキャン、または任意の他のタイプの画像であってもよい。初期領域は、様々なタイプのコンテンツを含む入力画像のポリゴナル領域であり、様々なタイプのコンテンツは、画像、テキスト、表、チャート、フローチャート、およびベクトルグラフィックを含むが、これらに限定されない。

任意選択のステップＳ１０５において、初期領域の各々は、領域内に含まれるコンテンツのタイプに対応する様々なコンテンツクラスに分類される。可能なコンテンツクラスは、画像クラス、テキストクラス、テーブルクラス、チャートクラス、フローチャートクラス、およびベクトルグラフィックスクラスを含み得る。１または複数の実施形態では、上に列挙されたクラスのいくつかまたはすべては必要ではなく、同様に、上に列挙されたクラスに対する追加のクラスも含まれ得る。

ステップＳ１１０において、入力画像からエッジマスクが生成される。エッジマスクは、入力画像内の特徴のエッジをマークする二値画像（バイナリイメージ）である。二値画像は、画像の各ピクセルが２つのみの可能な値のうちの１つを有する画像であり、典型的には白黒画像として表されるが、他の表現も使用され得る。

エッジマスクは任意のエッジ発見プロセスによって生成され得るが、１または複数の実施形態ではプロセスは以下の通りである。

入力画像はグレースケールに変換される。ここでは、白ピクセルは白として出力され、非白ピクセルはグレーの濃淡として表現される。言い換えれば、各ピクセルは、ゼロから最大ピクセル値までの範囲の値を有する。最大ピクセル値は白を表し、ゼロは黒を表し、ゼロと最大ピクセル値との間の値はグレーの濃淡を表す。

このグレースケール画像は、次に反転され、反転されたグレースケール画像の各ピクセルが最大ピクセル値からグレースケール画像のピクセル値を減算した値を有するようにする。すなわち、白ピクセルが黒ピクセルとなり、黒ピクセルが白ピクセルとなり、グレーの濃淡を含むピクセルが最大ピクセル値に対してグレーの補完的な色合いとなる。

次いで、適応閾値処理を適用することによって、反転されたグレースケール画像から二値画像が生成される。具体的には、反転したグレースケール画像から対応するピクセルの値が閾値より大きい場合には、二値画像の各ピクセルが最大値に設定される。ここで、閾値は反転したグレースケール画像の各ピクセルについて決定される。そうでない場合、ピクセルはゼロの値に設定される。閾値は様々な方法で決定することができるが、１または複数の実施形態では、隣り合うピクセルのガウシアン重み付け合計（Ｇａｕｓｓｉａｎ－ｗｅｉｇｈｔｅｄｓｕｍ）を実行し、この合計から小さな負の定数値を減算することによって閾値が決定される。小さい定数値は、様々な値であるように選択されてもよい。１または複数の実施形態では、最大ピクセル値は２５５であり、定数値は－１５に設定されてもよい。ガウシアン重み付け合計に含まれる隣り合うピクセルは、様々なメトリックス（ｍｅｔｒｉｘ）によって選択され得る。１または複数の実施形態では、画像の最小寸法の２％のサイズのピクセルの正方形ブロック内にある、隣り合うピクセルが選択され得る。代替的に、画像のサイズに依存せずに、多数の隣り合うピクセルが選択されてもよい。上記の方法で閾値を決定することによって（ガウシアン重みづけ合計を使用し、この和から小さな負の定数を減算する）、テキスト文字を含む入力画像について、鮮明で、高コントラスト境界を有するエッジが、一定またはほぼ一定の色値（ｃｏｌｏｒｖａｌｕｅ）で満たされた領域にわたって広くマークされる傾向がある。

二値画像は、さらに処理され、最終エッジマスクを作成するためにノイズを除去してもよい。接続されたコンポーネント、または互いに連続して接続されているマークされたピクセルを識別し、接続されたコンポーネントのうちの小さいもの（たとえば、２、または３以下のピクセル、または３以下の接続されているマークされたピクセル）を除去することによって、ノイズを除去することができる。

ステップＳ１１５では、エッジ画像が生成される。ここで、エッジ画像はエッジマスクから得られる。１または複数の実施形態では、得られたエッジ画像がエッジマスクと同じであってもよい。

１または複数の実施形態では、得られたエッジ画像もまた、入力画像のピクセルを、ブランクバックグラウンド上の、エッジマスク内のマークされたエッジに対応する位置に配置することによって生成され得る。言い換えれば、入力画像からのカラーまたはグレースケールの値は、エッジマスクのマークされた各ピクセルに挿入され、エッジマスクのカラーバージョンまたはグレースケールバージョンを生成する。カラー化又はグレースケールのエッジは、典型的には白色であるように選択されるブランクバックグラウンド上に設定される。

ステップＳ１２０において、１または複数の推定テキスト領域がエッジマスク内で識別される。推定テキスト領域は、マークされたピクセルの所定の割合が潜在的な水平および垂直テキストライン内にあるポリゴンである。以下の図２の説明において、推定テキスト領域の識別についてのさらなる情報が提供される。

ステップＳ１２５において、第１のＯＣＲ操作を実行することによって、テキスト文字の第１のセットが抽出される。第１のＯＣＲ操作は、得られたエッジ画像のうち、推定テキスト領域の各々に対応する１または複数の推定テキスト部分の各々に対して実行される。言い換えれば、第１のＯＣＲ操作は、エッジ画像に対して、かつエッジマスクの推定テキスト領域に対応するエッジ画像の部分においてのみ実行される。上述のように、１または複数の実施形態では、エッジ画像がエッジマスクと同じであってもよく、他の実施形態ではエッジ画像がエッジマスクのカラー化バージョンである。このように、第１のＯＣＲ操作を、テキストを含む可能性が高いと判断されたエッジ画像の個々の部分内でのみ実行されるように制限することによって、ＯＣＲ操作の結果をより正確にすることができる。ＯＣＲ操作は、任意の光学文字認識プロセス、任意のインテリジェント文字認識（ＩＣＲ：Ｉｎｔｅｌｌｉｇｅｎｔｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）プロセス、または画像からテキスト文字を抽出する任意の他のプロセスであり得る。

１または複数の実施形態では、ステップＳ１２５が、オプションのステップＳ１０５において画像クラスとして分類された入力画像の初期領域の境界内にもあるエッジ画像の推定テキスト部分内でのみ実行される。他の実施形態では、入力画像全体が画像クラスの初期領域の一つとして扱われてもよく、したがって、ステップＳ１２５が入力画像全体に適用される。

任意選択のステップＳ１３０では、得られたエッジ画像の１または複数の初期部分の各々に対して第２のＯＣＲ操作を実行することによって、テキスト文字の第２のセットが抽出される。これらの初期部分の各々は、１）画像クラス以外のコンテンツクラスのうちの１つとして分類され、および２）画像クラスとして処理されるように選択された、入力画像の初期領域に対応する。ステップＳ１２５の第１のＯＣＲ操作とは対照的に、第２のＯＣＲ操作は、推定テキスト領域のみを用いて実行されるように制約されない。代わりに、第２のＯＣＲ操作は、画像クラスとして処理されるように選択された各初期領域に対応するエッジ画像の全体部分に対して実行される。１または複数の実施形態では、初期領域のコンテンツクラスによって判定された、テキスト抽出処理が試みられて失敗するときに、これらの非画像初期領域が画像クラスとして処理されるように選択される。すなわち、例えば、初期領域をフローチャートクラスに分類したが、フローチャートテキスト抽出処理が失敗した場合に、画像として処理するように選択されてもよい。このような場合、第２のＯＣＲ操作は、フローチャートクラスの初期領域全体に対応するエッジ画像の一部に対して実行される。

ステップＳ１３５では、第１および第２のＯＣＲ操作によって抽出された第１および第２のテキスト文字セットに対応する画像文字を入力画像から消去することによって、修正画像が生成される。すなわち、ステップＳ１２５およびステップＳ１３０で抽出された各テキスト文字に対応する入力画像内の文字が、入力画像から消去される。このステップでは任意の消去処理を使用することができるが、１または複数の実施形態では以下の処理が使用される。ＯＣＲによって抽出されたテキスト文字に対応する画像内の各文字について、バウンディングボックスは、画像文字を囲む矩形ボックスとして定義される。バウンディングボックス内で、カラーまたはグレースケールの値は、バウンディングボックスのすぐ外側のピクセルに適用される補間処理によって決定される。例えば、座標（ｘ、ｙ）の左上コーナーを含むとともに、右下コーナーの座標（ｘ＋ｗ、ｙ＋ｈ）を含まない文字バウンディングボックスが与えられると、ピクセル（ｘ＋ｊ、ｙ＋ｉ）の新しい値（０≦ｊ＜ｗおよび０≦ｉ＜ｈ）は、バウンディングボックスの４つのコーナーのすぐ外側のピクセルの値に基づく補間関数の値に設定される。このようにして、文字の下のバックグラウンドの外観を維持しながら、画像文字が元の入力画像から除去される。

ステップＳ１４０では、抽出された第１および第２のテキスト文字セットを修正画像上に重ね合わせることによって、新しい文書が生成される。１または複数の実施形態では、これはテキスト文字および修正画像の両方を保持するためのコンテナを生成することを伴い得る。例えば、１または複数の実施形態では、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｏｒｄ文書を生成することができ、修正画像を、ステップＳ１２５で抽出された特定の推定テキスト領域に対応するテキスト文字のブロックを有するグループに配置することができる。同様に、特定の非画像クラスの初期領域に対応するテキスト文字の別のブロックを、ＭｉｃｒｏｓｏｆｔＷｏｒｄ文書のグループに配置することもできる。このようにして、テキストブロックおよび修正画像の位置は、入力画像上の元の文字の位置に近似するように、互いに相対的に位置決めされ得る。

図２は、本発明の１または複数の実施形態に係る、ステップＳ１２０の推定テキスト領域を識別するための方法のフローチャートを示す。本発明の１または複数の実施形態では、図２に示されるステップのうちの１または複数のステップが図２に示される順序とは異なる順序で、組み合わされ、省略され、反復され、および／または実行され得る。したがって、本発明の範囲は、図２に示されるステムの特定の配置に限定されると見なされるべきではない。

ステップＳ２００では、テキストの水平ライン候補およびテキストの垂直ライン候補がエッジマスク内で識別される。テキストのライン候補は、テキストの典型的な水平または垂直配列に配置されたテキスト文字のラインに対応し得る任意の単一ラインである。当業者にはテキストのラインを識別するためのいくつかの既知のプロセスがあり、これらのうちのいずれかを使用して、テキストの水平および垂直ラインの候補を識別することができることを認識するのであろう。

ステップＳ２０５では、所定のピクセル数よりも小さい幅または高さを有するテキストの任意の水平ライン候補が除去され、それによって、実際のテキストを含むには小さすぎるテキストの水平ライン候補が減る。同様に、所定のピクセル数よりも小さい幅または高さを有するテキストの任意の垂直ライン候補が除去され、それによって、テキストを含むには小さすぎるテキストの垂直ライン候補が減る。１または複数の実施形態ではこの所定ピクセル数を６ピクセルの幅および高さとして選択することができるが、他のピクセル数を選択することもできる。

ステップＳ２１０では、隣り合った、または重なり合った残りのテキストの水平ライン候補および垂直ライン候補が、１または複数のグループ候補にグループ化される。言い換えれば、ステップＳ２０５において小さなテキストの水平ライン候補および垂直ライン候補を除去した後、残されたライン候補は、それらが傍にある、近くにある、または接触している場合、一緒にグループ化される。このようにして、入力画像内のテキストのブロックの一部であるテキスト文字は、グループにまとめられる傾向がある。

ステップＳ２１５では、ステップＳ２１０のグループから１または複数のポリゴン候補が生成される。ステップＳ２１０のグループ内のテキストの水平ライン候補およびテキストの垂直ライン候補は、一緒に結合され、ライン候補が重なっているまたは交差している任意のデュプリケートセクション（ｄｕｐｌｉｃａｔｅｓｅｃｔｉｏｎ）が除去される。このようにして、テキストを含み得るエッジマスクの領域を画定するポリゴン候補が生成される。

ステップＳ２２０では、ステップＳ２１５のポリゴン候補の各々がテキストを含みそうかどうかが判定される。各ポリゴン候補がテキストを含みそうかどうかを判定するために、潜在的な水平テキストラインおよび潜在的な垂直テキストラインが各ポリゴン候補内で識別される。水平および垂直テキストラインは、それぞれ、水平または垂直テキストを有する可能性があるポリゴン候補内の領域である。潜在的な水平および垂直テキストラインの識別は、画像内のテキストラインを識別するための様々なプロセスによってなされ得るが、１または複数の実施形態ではこれらのテキストラインが膨張（ｄｉｌａｔｉｏｎ）および収縮（ｅｒｏｓｉｏｎ）操作を使用して識別される。

具体的には、潜在的な水平テキストラインを識別するために、ワイドカーネルが使用され得る。ここで、カーネルは、膨張および収縮操作を実行するための形状を定義する小さなバイナリアレイである。したがって、ワイドカーネルはアレイである（この場合、１のアレイのサイズは、高さよりも幅が大きい１アレイロウ）。膨張および収縮操作の場合、ルールが画像のすべてのピクセルに適用され、カーネルは、ルールの基礎となる近傍ピクセルの近さを定義する。膨張では、特定のピクセルの近傍内のいずれかのピクセルがマークされる場合、特定のピクセルが、膨張操作後にマークされる。収縮では、特定のピクセルの近傍内のいずれかのピクセルがマークされていない場合、ピクセルは、収縮操作後にマークされない。このようにして、次の１または複数の膨張操作は、水平に分散されたテキスト文字を１つのワイドライン形状に組み合わせる傾向があり、次の収縮操作は、ラインの水平サイズをテキストラインの元のサイズに戻して減らす傾向がある。

潜在的な垂直テキストラインは潜在的な水平テキストラインと同様の方法で見つけることができるが、幅よりも高さの大きいカーネル（すなわち、１のアレイのサイズは、幅よりも高さが大きいアレイカラム）を使用する。代替的に、エッジマスク又はエッジマスクの領域は、代わりに、幅および高さ寸法が逆となるように転置し、効果的に、垂直テキストラインを水平テキストラインにしてもよい。このようにして、潜在的な垂直テキストラインも、潜在的な水平テキストラインを識別するために使用される処理と同じ処理を使用して識別され得る。

各ポリゴン候補内で、第２の所定数のピクセルよりも小さい高さまたは幅を有する潜在的な水平および垂直テキストラインが除去される。第２の所定数のピクセルは任意の数であるように選択され得るが、１または複数の実施形態では第２の所定数のピクセルは１～３ピクセルであるように選択される。

ポリゴン候補の各々が水平テキストを含みそうかどうかは、ポリゴン候補内のマークされたピクセルの所定の割合が残りの潜在的な水平テキストライン内にもあるかどうかを決定することによって、判定される。同様に、ポリゴン候補の各々が垂直テキストを含みそうかどうかも、ポリゴン候補内のマークされたピクセルの所定の割合が残りの潜在的な垂直テキストライン内にもあるかどうかを決定することによって、判定される。所定の割合は様々な値であるように選択することができるが、１または複数の実施形態では所定の割合が４５％であるように選択することができる。このようにして、ポリゴン候補内のピクセルの４５％以上が、ポリゴン候補に関連する潜在的な水平または垂直テキストラインのいずれかに含まれる場合、ポリゴン候補がテキストを含む可能性が高い。しかしながら、この基準を満たすような、ポリゴン候補内のマークされたピクセルが４５％未満である場合、ポリゴン候補がテキストを含む可能性は低い。ポリゴン候補内のコンテンツが高い割合でテキストのロウまたはカラムの大まかなジオメトリに適合しないためである。この場合、ポリゴン候補は、自然画像またはベクトルグラフィックスなどの非テキストコンテンツを含む可能性がより高い。

ステップＳ２２５において、テキストを含みそうであると判定されなかったポリゴン候補が除去される。このようにして、ステップＳ１２０の推定テキスト領域のセットが識別される。

図３は、本発明の１または複数の実施形態に係る入力画像３００の図を示す。この例では、入力画像がいくつかのテキストクラス領域３１０、またはテキストクラスとして分類された初期領域を含む。入力画像はまた、いくつかの画像クラス領域３２０、または画像クラスとして分類される初期領域を含む。入力画像３００は、この図に類似する画像に限定されない。入力画像は、任意の数の入力領域およびコンテンツクラスの任意の組み合わせを含む任意のタイプの画像であり得り、画像クラスとして分類された１の初期領域のみを有する場合を含む。

図４は、本発明の１または複数の実施形態に係り、上述のステップＳ１１０によって生成され得るエッジマスクの図を示す。エッジマスクは二値画像であり、１または複数の実施形態では、バックグラウンドピクセルが黒に設定され、入力画像３００内の任意の特徴のエッジが白色ピクセルとしてマークされる。

図５は、本発明の１または複数の実施形態に係るエッジ画像５００の図を示す。ステップＳ１１５で説明したように、エッジ画像はエッジマスク４００から得られ、１または複数の実施形態では、エッジマスクと同じであってもよい。他の実施形態では、エッジマスクが、エッジマスクのカラー化バージョンであってもよく、これはカラー値またはグレースケール値が入力画像３００から取得される。この例では、入力画像３００が白色のバックグラウンド上に黒色の特徴を有しているので、得られたエッジ画像５００は白色のバックグラウンド上にマークされた黒色のエッジとして示される。

図６は、本発明の１または複数の実施形態に係る、エッジマスク４００上に示される例示的なテキストの水平ライン候補６１０および例示的なテキストの垂直ライン候補６２０の図６００を示す。これらの例示的なテキストの水平ライン６１０および垂直ライン６２０は、ステップＳ２００で説明したように識別される。

図７は、本発明の１または複数の実施形態に係る、エッジマスク４００上に示される例示的な推定テキスト領域７１０の図７００を示す。これらの例示的な推定テキスト領域は、ステップＳ２００～Ｓ２２５で説明したように識別される。

図８は、本発明の１または複数の実施形態に係る例示的な修正画像８００の図を示す。修正画像８００は入力画像３００から得られ、ここでは、ステップＳ１３５に従って、ステップＳ１２５およびＳ１３０で抽出されたテキスト文字に対応する入力画像３００内の文字が消去されている。入力画像３００に酷似するが、テキストの編集可能である文書を生成するため、ステップＳ１４０に従って、ステップＳ１２５およびＳ１３０で抽出されたテキスト文字のブロックが修正画像８００上に重ね合わされてもよい。

本発明の実施形態は、使用されているプラットフォームにかかわらず、事実上任意のタイプのコンピューティングシステム上で実装され得る。例えば、コンピューティングシステムは１または複数のモバイルデバイス（例えば、ラップトップコンピュータ、スマートフォン、携帯情報端末（ＰＤＡ：Ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｓ）、タブレットコンピュータ、または他のモバイルデバイス）、デスクトップコンピュータ、サーバ、サーバシャーシ内のブレード、または本発明の１または複数の実施形態を実行するための少なくとも最小処理能力、メモリ、および入出力デバイスを含む任意の他のタイプのコンピューティングデバイスであり得る。たとえば、図９に示すように、コンピューティングシステム（９００）は１または複数のコンピュータプロセッサ（９０２）、関連メモリ（９０４）（たとえば、ランダムアクセスメモリ（ＲＡＭ）、キャッシュメモリ、フラッシュメモリなど）、１または複数の記憶デバイス（９０６）（たとえば、ハードディスク、コンパクトディスク（ＣＤ：Ｃｏｍｐａｃｔｄｉｓｋ）ドライブまたはデジタル多用途ディスク（ＤＶＤ：Ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）ドライブなどの光ドライブ、フラッシュメモリスティックなど）および多数の他の要素および機能を含んでいてもよい。コンピュータプロセッサ（９０２）は、命令を処理するための集積回路であってもよい。たとえば、コンピュータプロセッサは、プロセッサの１または複数のコア、またはマイクロコアであり得る。コンピューティングシステム（９００）はまた、タッチスクリーン、キーボード、マウス、マイクロフォン、タッチパッド、電子ペン、または任意の他のタイプの入力デバイスなど、１または複数の入力デバイス（９０８）を含み得る。さらに、コンピューティングシステム（９００）はスクリーン（たとえば、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ）、プラズマディスプレイ、タッチスクリーン、陰極線管（ＣＲＴ：Ｃａｔｈｏｄｅｒａｙｔｕｂｅ）モニタ、プロジェクタ、または他のディスプレイデバイス）、プリンタ、外部記憶装置、または任意の他の出力デバイスなど、１または複数の出力デバイス（９１０）を含み得る。出力デバイスのうちの１または複数は、入力デバイスと同じであってもよく、または異なっていてもよい。コンピューティングシステム（９００）はネットワークインターフェース接続（図示せず）を介して、ネットワーク（９１２）（例えば、ローカルエリアネットワーク（ＬＡＮ：Ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、インターネットなどのワイドエリアネットワーク（ＷＡＮ：Ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、モバイルネットワーク、または任意の他のタイプのネットワーク）に接続され得る。入力および出力デバイスは、局所的に、または、離れて（たとえば、ネットワーク（９１２）を介して）、コンピュータプロセッサ（９０２）、メモリ（９０４）、および記憶デバイス（９０６）に接続され得る。多くの異なるタイプのコンピューティングシステムが存在し、前述の入出力デバイスは、他の形態をとり得る。

本発明の実施形態を実行するためのコンピュータ可読プログラムコードの形式のソフトウェア命令は、ＣＤ、ＤＶＤ、記憶デバイス、ディスケット、テープ、フラッシュメモリ、フィジカルメモリ、または任意の他のコンピュータ可読記憶媒体などの非一時的コンピュータ可読媒体に、全体的にまたは部分的に、一時的にまたは永続的に記憶され得る。具体的には、ソフトウェア命令がコンピュータ可読プログラムコードに対応し得り、これは、プロセッサによって実行されたときに本発明の実施形態を実行するように構成される。

さらに、前述のコンピューティングシステム（９００）の１または複数の要素は、離れた位置に配置され、ネットワーク（９１２）を介して他の要素に接続され得る。さらに、本発明の１または複数の実施形態は、複数のノードを有する分散システム上で実装され得り、ここでは、本発明の各部分が分散システム内の異なるノード上に位置し得る。１または複数の実施形態では、ノードが異なるコンピューティングデバイスに対応する。あるいは、ノードが、関連フィジカルメモリを有するコンピュータプロセッサに対応してもよい。ノードは、代替的に、コンピュータプロセッサまたは、共有メモリおよび／またはリソースを有するコンピュータプロセッサのマイクロコアに対応し得る。

本発明の実施形態のうちの１または複数の実施形態は画像からテキストを抽出するための従来の技術に対する以下の利点および改善点のうちの１つまたは複数を有し得る。自然画像、写真、コンピュータ生成画像、または任意のタイプの電子画像からテキスト文字を抽出する際の効率および精度を改善すること。それぞれが異なるクラスのコンテンツを含む画像内の複数の領域を有する画像からテキスト文字を抽出する際の効率および精度を改善すること。さらなるコンピュータ処理のために画像内からテキストを利用するための性能を改善すること。テキストが編集可能であるが、文書が元の画像の画像特性を保持する文書を生成すること。上記の利点のうちの１つまたは複数は画像または文書内のテキストデータを理解し、分析し、操作するユーザの能力を向上させることができる。

限定された数の実施形態に関して本開示を説明してきたが、本開示の恩恵を受ける当業者は本発明の範囲から逸脱することなく、様々な他の実施形態が考案され得ることを理解するのであろう。したがって、本発明の範囲は、添付の特許請求の範囲によってのみ限定されるべきである。

Claims

入力画像からテキストを抽出し、文書を生成するための方法であって、
前記入力画像からエッジマスクを生成することと、ここで、前記エッジマスクは前記入力画像内の特徴のエッジをマーキングする二値画像を含み、
前記エッジマスクから得られるエッジ画像を生成することと、
前記エッジマスク内で、１または複数の推定テキスト領域を識別することと、ここで、前記推定テキスト領域は、マークされたピクセルの所定の割合が潜在的な水平または垂直テキストライン内にあるポリゴンであり、
前記エッジ画像のうち、前記推定テキスト領域のそれぞれに対応する、１または複数の推定テキスト部分のそれぞれに対して、第１の光学文字認識（ＯＣＲ）操作を実行することによって、テキスト文字の第１のセットを抽出することと、
前記第１のＯＣＲ操作によって抽出されたテキスト文字の前記第１のセットに対応する画像文字を、前記入力画像から消去することによって修正画像を生成することと、
前記修正画像上に、抽出されたテキスト文字の前記第１のセットを重ね合わせることによって文書を生成することとを含む方法。
得られた前記エッジ画像が前記エッジマスクと同じである請求項１に記載の方法。
得られた前記エッジ画像は、入力画像のピクセルをブランクバックグラウンド上の、前記エッジマスク内のマークされた前記エッジに対応する位置に配置することによって生成される請求項１に記載の方法。
１または複数の前記推定テキスト領域を識別することは、さらに、
前記エッジマスク内のテキストの水平ライン候補およびテキストの垂直ライン候補を識別することと、
第１の所定数のピクセルよりも小さい幅または高さを有するテキストの前記水平ライン候補を除去すること、および、前記第１の所定数のピクセルよりも小さい幅または高さを有するテキストの前記垂直ライン候補を除去することと、
隣り合った、または重なり合った残りの水平ライン候補および垂直ライン候補を、１または複数のグループ候補へグルーピングすることと、
１または複数のポリゴン候補を生成することと、ここで、前記ポリゴン候補の各々は、１の前記グループ候補から前記水平ライン候補および前記垂直ライン候補を結合し、水平ライン候補および垂直ライン候補が重なり合っているデュプリケートセクションを除去することによって生成され、
前記ポリゴン候補の各々がテキストを含みそうかどうかを判定することと、
テキストを含みそうであると判定されなかった前記ポリゴン候補の各々を除去することとをさらに含み、
前記ポリゴン候補の各々がテキストを含みそうかどうかを判定することは、
前記ポリゴン候補の各々の中で、前記潜在的な水平テキストラインおよび前記潜在的な垂直テキストラインを識別することと、
前記ポリゴン候補の各々の中で、第２の所定数のピクセルよりも小さい幅または高さを有する前記潜在的な水平ラインおよび前記潜在的な垂直テキストラインを除去することと、
前記ポリゴン候補に対応する、得られた前記エッジ画像のポリゴナル部分の中でマークされたピクセルの前記所定の割合が、残りの潜在的な水平テキストラインの中にあるかどうかを決定することによって、前記ポリゴン候補の各々が水平テキストを含みそうかどうかを判定することと、
前記ポリゴン候補に対応する、得られた前記エッジ画像の前記ポリゴナル部分の中でマークされたピクセルの前記所定の割合が、残りの潜在的な垂直テキストラインの中にあるかどうかを決定することによって、前記ポリゴン候補の各々が垂直テキストを含みそうかどうかを判定することとをさらに含む請求項１～３のいずれかに記載の方法。
前記入力画像を、１または複数の初期領域へセグメント化することと、
前記初期領域の各々を複数のコンテンツクラスのうちの１つに分類することと、ここで、複数の前記コンテンツクラスは画像クラスを含み、
得られた前記エッジ画像のうち、前記初期領域のそれぞれに対応する、１または複数の初期部分のそれぞれに対して、第２のＯＣＲ操作を実行することによって、テキスト文字の第２のセットを抽出することとをさらに含み、前記初期部分は、
前記画像クラス以外の前記コンテンツクラスの１つに分類され、
前記画像クラスとして処理されるように選択され、
テキスト文字の前記第１のセットを抽出することは、得られた前記エッジ画像のうち、前記画像クラスとして分類された前記初期領域のそれぞれの中にある前記推定テキスト部分内でのみ実行され、
前記修正画像を生成することは、
前記第２のＯＣＲ操作によって抽出されたテキスト文字の前記第２のセットに対応する画像文字を前記入力画像から消去することをさらに含み、
前記文書を生成することは、
前記修正画像上に、テキスト文字の前記第２のセットを重ね合わせることをさらに含む請求項１に記載の方法。
複数の前記コンテンツクラスは、
テキストクラス、
テーブルクラス、
チャートクラス、
フローチャートクラスおよび、
ベクトルグラフィッククラスをさらに含む請求項５に記載の方法。
前記初期領域のコンテンツクラスによって判定されたテキストの抽出処理が試みられて失敗するとき、前記初期領域が前記画像クラスとして処理されるように選択される請求項５に記載の方法。
入力画像からテキストを抽出し、文書を生成するためのコンピュータ可読プログラムであって、
前記入力画像からエッジマスクを生成し、ここで、前記エッジマスクは前記入力画像内の特徴のエッジをマーキングする二値画像を含み、
前記エッジマスクから得られるエッジ画像を生成し、
前記エッジマスク内で、１または複数の推定テキスト領域を識別し、ここで、前記推定テキスト領域は、マークされたピクセルの所定の割合が潜在的な水平または垂直テキストライン内にあるポリゴンであり、
前記エッジ画像のうち、前記推定テキスト領域のそれぞれに対応する、１または複数の推定テキスト部分のそれぞれに対して、第１の光学文字認識（ＯＣＲ）操作を実行することによって、テキスト文字の第１のセットを抽出し、
前記第１のＯＣＲ操作によって抽出されたテキスト文字の前記第１のセットに対応する画像文字を、前記入力画像から消去することによって修正画像を生成し、
前記修正画像上に、抽出されたテキスト文字の前記第１のセットを重ね合わせることによって文書を生成することをコンピュータに実行させるコンピュータ可読プログラム。
得られた前記エッジ画像が前記エッジマスクと同じである請求項８に記載のコンピュータ可読プログラム。
得られた前記エッジ画像は、入力画像のピクセルをブランクバックグラウンド上の、前記エッジマスク内のマークされた前記エッジに対応する位置に配置することによって生成される請求項８に記載のコンピュータ可読プログラム。
１または複数の前記推定テキスト領域を識別することでは、前記コンピュータ可読プログラムが、さらに、
前記エッジマスク内のテキストの水平ライン候補およびテキストの垂直ライン候補を識別し、
第１の所定数のピクセルよりも小さい幅または高さを有するテキストの前記水平ライン候補を除去し、および、前記第１の所定数のピクセルよりも小さい幅または高さを有するテキストの前記垂直ライン候補を除去し、
隣り合った、または重なり合った残りの水平ライン候補および垂直ライン候補を、１または複数のグループ候補へグルーピングし、
１または複数のポリゴン候補を生成し、ここで、前記ポリゴン候補の各々は、１の前記グループ候補から前記水平ライン候補および前記垂直ライン候補を結合し、水平ライン候補および垂直ライン候補が重なり合っているデュプリケートセクションを除去することによって生成され、
前記ポリゴン候補の各々がテキストを含みそうかどうかを判定し、
テキストを含みそうであると判定されなかった前記ポリゴン候補の各々を除去することとをさらに前記コンピュータにさらに実行させ、
前記ポリゴン候補の各々がテキストを含みそうかどうかを判定することは、
前記ポリゴン候補の各々の中で、前記潜在的な水平テキストラインおよび前記潜在的な垂直テキストラインを識別することと、
前記ポリゴン候補の各々の中で、第２の所定数のピクセルよりも小さい幅または高さを有する前記潜在的な水平ラインおよび前記潜在的な垂直テキストラインを除去することと、
前記ポリゴン候補に対応する、得られた前記エッジ画像のポリゴナル部分の中でマークされたピクセルの前記所定の割合が、残りの潜在的な水平テキストラインの中にあるかどうかを決定することによって、前記ポリゴン候補の各々が水平テキストを含みそうかどうかを判定することと、
前記ポリゴン候補に対応する、得られた前記エッジ画像の前記ポリゴナル部分の中でマークされたピクセルの前記所定の割合が、残りの潜在的な垂直テキストラインの中にあるかどうかを決定することによって、前記ポリゴン候補の各々が垂直テキストを含みそうかどうかを判定することとをさらに含む請求項８～１０のいずれかに記載のコンピュータ可読プログラム。
前記入力画像を、１または複数の初期領域へセグメント化し、
前記初期領域の各々を複数のコンテンツクラスのうちの１つに分類し、ここで、複数の前記コンテンツクラスは画像クラスを含み、
得られた前記エッジ画像のうち、前記初期領域のそれぞれに対応する、１または複数の初期部分のそれぞれに対して、第２のＯＣＲ操作を実行することによって、テキスト文字の第２のセットを抽出することを前記コンピュータにさらに実行させ、前記初期部分は、
前記画像クラス以外の前記コンテンツクラスの１つに分類され、
前記画像クラスとして処理されるように選択され、
テキスト文字の前記第１のセットを抽出することは、得られた前記エッジ画像のうち、前記画像クラスとして分類された前記初期領域のそれぞれの中にある前記推定テキスト部分内でのみ実行され、
前記修正画像を生成することは、
前記第２のＯＣＲ操作によって抽出されたテキスト文字の前記第２のセットに対応する画像文字を前記入力画像から消去することをさらに含み、
前記文書を生成することは、
前記修正画像上に、テキスト文字の前記第２のセットを重ね合わせることをさらに含む請求項８に記載のコンピュータ可読プログラム。
複数の前記コンテンツクラスは、
テキストクラス、
テーブルクラス、
チャートクラス、
フローチャートクラスおよび、
ベクトルグラフィッククラスをさらに含む請求項１２に記載のコンピュータ可読プログラム。
前記初期領域のコンテンツクラスによって判定されたテキストの抽出処理が試みられて失敗するとき、前記初期領域が前記画像クラスとして処理されるように選択される請求項１２に記載のコンピュータ可読プログラム。
入力画像からテキストを抽出し、文書を生成するためのシステムであって、
メモリと、
前記メモリに接続されたプロセッサとを備え、前記プロセッサは、
前記入力画像からエッジマスクを生成し、ここで、前記エッジマスクは前記入力画像内の特徴のエッジをマーキングする二値画像を含み、
前記エッジマスクから得られるエッジ画像を生成し、
前記エッジマスク内で、１または複数の推定テキスト領域を識別し、ここで、前記推定テキスト領域は、マークされたピクセルの所定の割合が潜在的な水平または垂直テキストライン内にあるポリゴンであり、
前記エッジ画像のうち、前記推定テキスト領域のそれぞれに対応する、１または複数の推定テキスト部分のそれぞれに対して、第１の光学文字認識（ＯＣＲ）操作を実行することによって、テキスト文字の第１のセットを抽出し、
前記第１のＯＣＲ操作によって抽出されたテキスト文字の前記第１のセットに対応する画像文字を、前記入力画像から消去することによって修正画像を生成し、
前記修正画像上に、抽出されたテキスト文字の前記第１のセットを重ね合わせることによって文書を生成するシステム。
得られた前記エッジ画像が前記エッジマスクと同じである請求項１５に記載のシステム。
得られた前記エッジ画像は、入力画像のピクセルをブランクバックグラウンド上の、前記エッジマスク内のマークされた前記エッジに対応する位置に配置することによって生成される請求項１５に記載のシステム。
１または複数の前記推定テキスト領域を識別することでは、前記プロセッサは、さらに、
前記エッジマスク内のテキストの水平ライン候補およびテキストの垂直ライン候補を識別し、
第１の所定数のピクセルよりも小さい幅または高さを有するテキストの前記水平ライン候補を除去し、および、前記第１の所定数のピクセルよりも小さい幅または高さを有するテキストの前記垂直ライン候補を除去し、
隣り合った、または重なり合った残りの水平ライン候補および垂直ライン候補を、１または複数のグループ候補へグルーピングし、
１または複数のポリゴン候補を生成し、ここで、前記ポリゴン候補の各々は、１の前記グループ候補から前記水平ライン候補および前記垂直ライン候補を結合し、水平ライン候補および垂直ライン候補が重なり合っているデュプリケートセクションを除去することによって生成され、
前記ポリゴン候補の各々がテキストを含みそうかどうかを判定し、
テキストを含みそうであると判定されなかった前記ポリゴン候補の各々を除去し、
前記ポリゴン候補の各々がテキストを含みそうかどうかを判定することは、
前記ポリゴン候補の各々の中で、前記潜在的な水平テキストラインおよび前記潜在的な垂直テキストラインを識別することと、
前記ポリゴン候補の各々の中で、第２の所定数のピクセルよりも小さい幅または高さを有する前記潜在的な水平ラインおよび前記潜在的な垂直テキストラインを除去することと、
前記ポリゴン候補に対応する、得られた前記エッジ画像のポリゴナル部分の中でマークされたピクセルの前記所定の割合が、残りの潜在的な水平テキストラインの中にあるかどうかを決定することによって、前記ポリゴン候補の各々が水平テキストを含みそうかどうかを判定することと、
前記ポリゴン候補に対応する、得られた前記エッジ画像の前記ポリゴナル部分の中でマークされたピクセルの前記所定の割合が、残りの潜在的な垂直テキストラインの中にあるかどうかを決定することによって、前記ポリゴン候補の各々が垂直テキストを含みそうかどうかを判定することとをさらに含む請求項１５～１７のいずれかに記載のシステム。
前記プロセッサは、さらに
前記入力画像を、１または複数の初期領域へセグメント化し、
前記初期領域の各々を複数のコンテンツクラスのうちの１つに分類し、ここで、複数の前記コンテンツクラスは画像クラスを含み、
得られた前記エッジ画像のうち、前記初期領域のそれぞれに対応する、１または複数の初期部分のそれぞれに対して、第２のＯＣＲ操作を実行することによって、テキスト文字の第２のセットを抽出し、前記初期部分は、
前記画像クラス以外の前記コンテンツクラスの１つに分類され、
前記画像クラスとして処理されるように選択され、
テキスト文字の前記第１のセットを抽出することは、得られた前記エッジ画像のうち、前記画像クラスとして分類された前記初期領域のそれぞれの中にある前記推定テキスト部分内でのみ実行され、
前記修正画像を生成することは、
前記第２のＯＣＲ操作によって抽出されたテキスト文字の前記第２のセットに対応する画像文字を前記入力画像から消去することをさらに含み、
前記文書を生成することは、
前記修正画像上に、テキスト文字の前記第２のセットを重ね合わせることをさらに含む請求項１５に記載のシステム。
前記初期領域のコンテンツクラスによって判定されたテキストの抽出処理が試みられて失敗するとき、前記初期領域が前記画像クラスとして処理されるように選択される請求項１９に記載のシステム。