JP7486574B2

JP7486574B2 - コンテキスト・フリーの再帰的な文書分解による拡張性のある構造学習

Info

Publication number: JP7486574B2
Application number: JP2022515803A
Authority: JP
Inventors: ゴヤル、ムニシュ; アリア、アヴィナーシュ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-09-16
Filing date: 2020-09-15
Publication date: 2024-05-17
Anticipated expiration: 2040-09-15
Also published as: GB202203443D0; WO2021053510A1; US11188748B2; US20210081662A1; JP2022547962A; CN114365202B; GB2602229B; GB2602229A; DE112020003002T5; CN114365202A

Description

現在の文書処理システムは、企業文書のキャプチャ、認識、および分類を合理化して、重要な情報を抽出する。文書処理システムは、光学文字認識（ＯＣＲ：ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）、自然言語処理、テキスト分析、および機械学習技術を使用して、非構造化文書または可変の文書から内容を自動的に識別、分類、および抽出する。

一部の文書処理システムは、教師ありまたは半教師あり機械学習技術を使用して、スキャンされたファイルまたはＰＤＦファイルからテキストおよび文書構造を抽出する。他の文書処理システムは、人間に文書のフィンガー・プリントを作成することを要求し、これを使用して同様のタイプの文書から情報を抽出する。さらに他の文書処理システムは、人間による監督（ｈｕｍａｎｓｕｐｅｒｖｉｓｉｏｎ）と深層学習との組み合わせを使用して、マイニングを行い、テキスト境界を学習し、オントロジーを構築し、その情報を使用することによって、同様のタイプの文書から情報を抽出することを試みる。これらの各文書処理システムは、信頼性の高いテキスト抽出、テキスト内容の理解、および文書のコンテキストの理解に依存している。

本開示の一実施形態によれば、手法が提供され、この手法は、ビットマップ画像からの画素値のセットを行総和値のセットおよび列総和値のセットに集約する。ビットマップ画像は、文書の画素化された表現である。この手法は、局所フーリエ変換（ｌｏｃａｌｉｚｅｄＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）を行総和値のセットおよび列総和値のセットに適用して、行総和値のセットおよび周波数総和値のセットの周波数表現を生成する。この手法は、周波数表現のセットで識別される少なくとも１つの分離位置に基づいてビットマップ画像を画像部分のセットに分解し、画像部分のセットをテキスト認識システムに送信する。

上記は概要であるので、当然ながら簡略化、一般化、および詳細の省略を含み、そのため、当業者は、本概要が例示にすぎず、決して限定を意図していないことを理解するであろう。特許請求の範囲によってのみ定義される本開示の他の態様、発明の特徴、および利点は、以下に記載する非限定的かつ詳細な説明において明らかになろう。

添付の図面を参照することによって、本開示はよりよく理解され得、その多くの目的、特徴、および利点が当業者に明らかにされ得る。

本明細書に記載の方法を実装することができるデータ処理システムのブロック図である。本明細書に記載の方法が、ネットワーク化された環境で動作する多種多様な情報ハンドリング・システム上で実行できることを示す、図１に示す情報ハンドリング・システム環境の拡張を提供する図である。文書をビットマップ画像にデジタル化し、ビットマップ画像を、テキスト認識システムに供給する画像部分に再帰的に分解するコンピュータ・システムを示す例示的な図である。分解する準備ができている請求書文書を示す例示的な図である。画像部分に分解されたビットマップ画像を示す例示的な図である。文書をビットマップ画像に変換し、ビットマップ画像を画像部分に再帰的に分解するために取られるステップを示す例示的なフローチャートである。画像部分を再帰的に分解するか否かを評価するために取られるステップを示す例示的なフローチャートである。ビットマップ画像分解を説明するための様々な図を示す例示的な図である。画像部分と、画像部分にフーリエ変換を適用することによって生成される時間ヒストグラムとを示す例示的な図である。画像部分のスペクトル表現を示す例示的な図である。

本明細書で使用する用語は、特定の実施形態を説明するためのものにすぎず、本開示を限定することを意図するものではない。本明細書で使用する場合、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈がそうでないことを明確に示さない限り、複数形も含むものとする。本明細書で使用する場合、「備える（ｃｏｍｐｒｉｓｅｓ）」または「備える（ｃｏｍｐｒｉｓｉｎｇ）」あるいはその両方の用語は、記述した特徴、整数、ステップ、動作、要素、もしくは構成要素、またはそれらの組み合わせの存在を示すものであるが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、またはそれらのグループ、あるいはそれらの組み合わせの存在または追加を排除するものではないということはさらに理解されよう。

以下の特許請求の範囲における全てのミーンズまたはステップ・プラス・ファンクション要素の対応する構造、材料、行為、および均等物は、明確に特許請求した他の特許請求要素と組み合わせて機能を実行するための任意の構造、材料、または行為を含むものとする。本開示の説明は、例示および説明の目的で提示しているが、網羅的であることも、開示した形態の開示に限定されることも意図したものではない。本開示の範囲および思想から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本開示の原理および実際の応用を最もよく説明し、企図した特定の用途に適した様々な修正を有する様々な実施形態について本開示を当業者が理解できるようにするために、実施形態を選び、説明している。

本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであり得る。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）を含み得る。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持および記憶可能な有形のデバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、限定はしないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ポータブル式のコンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ：ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、デジタル・バーサタイル・ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）、メモリー・スティック（Ｒ）、フレキシブル・ディスク、命令が記録されたパンチ・カードまたは溝の隆起構造などの機械的にコード化されたデバイス、およびこれらの任意の適切な組み合わせが含まれる。コンピュータ可読記憶媒体は、本明細書で使用する場合、たとえば、電波または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を伝搬する電磁波（たとえば、光ファイバ・ケーブルを通過する光パルス）、または有線で伝送される電気信号などの一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいは、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはそれらの組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング／処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ：ｉｎｓｔｒｕｃｔｉｏｎ－ｓｅｔ－ａｒｃｈｉｔｅｃｔｕｒｅ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または類似のプログラミング言語などの手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードまたはオブジェクト・コードであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、あるいは完全にリモート・コンピュータまたはサーバ上で実行され得る。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ：ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）またはワイド・エリア・ネットワーク（ＷＡＮ：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得、または（たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータへの接続がなされ得る。一部の実施形態では、たとえば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行することによって、電子回路を個人向けにし得る。

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装できることは理解されよう。

これらのコンピュータ可読プログラム命令を、コンピュータまたは他のプログラム可能データ処理装置のプロセッサに提供して、それらの命令がコンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行された場合に、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為を実装するための手段が生成されるようなマシンを生成し得る。また、これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定の方法で機能するように指示することが可能なコンピュータ可読記憶媒体に記憶して、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為の態様を実装する命令を含む製造品を構成するようにし得る。

また、コンピュータ可読プログラム命令をコンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードして、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させることによって、それらの命令がコンピュータ、他のプログラム可能装置、または他のデバイス上で実行された場合に、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／行為が実装されるようなコンピュータ実装処理を生成し得る。

図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能（複数可）を実装するための１つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的な実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した２つのブロックは、実際には１つのステップとして実現され、同時に実行され、実質的に同時に実行され、部分的にまたは完全に時間的に重なる方法で実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは行為を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。以下の詳細な説明は概して上記の本開示の概要に従い、必要に応じて本開示の様々な態様および実施形態の定義をさらに説明および拡張する。

図１は、本明細書に記載のコンピューティング動作を実行することが可能なコンピュータ・システムの簡略化した例である情報ハンドリング・システム１００を示している。情報ハンドリング・システム１００は、プロセッサ・インターフェース・バス１１２に結合された１つまたは複数のプロセッサ１１０を含む。プロセッサ・インターフェース・バス１１２は、プロセッサ１１０をノースブリッジ１１５に接続し、ノースブリッジ１１５は、メモリ・コントローラ・ハブ（ＭＣＨ：ＭｅｍｏｒｙＣｏｎｔｒｏｌｌｅｒＨｕｂ）としても知られている。ノースブリッジ１１５は、システム・メモリ１２０に接続され、プロセッサ（複数可）１１０がシステム・メモリにアクセスするための手段を提供する。グラフィック・コントローラ１２５もノースブリッジ１１５に接続される。一実施形態では、ペリフェラル・コンポーネント・インターコネクト（ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）Ｅｘｐｒｅｓｓ（Ｒ）バス１１８は、ノースブリッジ１１５をグラフィック・コントローラ１２５に接続する。グラフィック・コントローラ１２５は、コンピュータ・モニタなどのディスプレイ・デバイス１３０に接続される。

ノースブリッジ１１５およびサウスブリッジ１３５は、バス１１９を使用して相互に接続される。いくつかの実施形態では、このバスは、ノースブリッジ１１５とサウスブリッジ１３５との間で各方向に高速でデータを転送するダイレクト・メディア・インターフェース（ＤＭＩ：ＤｉｒｅｃｔＭｅｄｉａＩｎｔｅｒｆａｃｅ）バスである。いくつかの実施形態では、ＰＣＩバスが、ノースブリッジとサウスブリッジとを接続する。入力／出力（Ｉ／Ｏ：Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）コントローラ・ハブ（ＩＣＨ：Ｉ／ＯＣｏｎｔｒｏｌｌｅｒＨｕｂ）としても知られているサウスブリッジ１３５は、ノースブリッジによって提供される機能よりも低速で動作する機能を一般的に実装するチップである。サウスブリッジ１３５は、典型的には、様々なコンポーネントを接続するために使用される様々なバスを提供する。これらのバスには、たとえば、ＰＣＩおよびＰＣＩＥｘｐｒｅｓｓ（Ｒ）バス、ＩＳＡバス、システム管理バス（ＳＭＢｕｓまたはＳＭＢ）、またはロー・ピン・カウント（ＬＰＣ：ＬｏｗＰｉｎＣｏｕｎｔ）バス、あるいはそれらの組み合わせが含まれる。ＬＰＣバスは、ブートＲＯＭ１９６および「レガシー」Ｉ／Ｏデバイス（「スーパーＩ／Ｏ」チップを使用）などの低帯域幅デバイスを接続することが多い。「レガシー」Ｉ／Ｏデバイス（１９８）には、たとえば、シリアル・ポートおよびパラレル・ポート、キーボード、マウス、またはフレキシブル・ディスク・コントローラ、あるいはそれらの組み合わせを含めることができる。サウスブリッジ１３５に含まれることが多い他のコンポーネントには、ダイレクト・メモリ・アクセス（ＤＭＡ：ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓ）コントローラ、プログラマブル割り込みコントローラ（ＰＩＣ：ＰｒｏｇｒａｍｍａｂｌｅＩｎｔｅｒｒｕｐｔＣｏｎｔｒｏｌｌｅｒ）、およびストレージ・デバイス・コントローラが含まれ、これらはバス１８４を使用してハード・ディスク・ドライブなどの不揮発性ストレージ・デバイス１８５にサウスブリッジ１３５を接続する。

ＥｘｐｒｅｓｓＣａｒｄ（Ｒ）１５５は、ホットプラグ可能なデバイスを情報ハンドリング・システムに接続するスロットである。ＥｘｐｒｅｓｓＣａｒｄ（Ｒ）１５５は、サウスブリッジ１３５への接続時にＵＳＢおよびＰＣＩＥｘｐｒｅｓｓ（Ｒ）バスの両方を使用してＰＣＩＥｘｐｒｅｓｓ（Ｒ）およびユニバーサル・シリアル・バス（ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）の両方の接続をサポートする。サウスブリッジ１３５は、ＵＳＢに接続されるデバイスへのＵＳＢ接続を提供するＵＳＢコントローラ１４０を含む。これらのデバイスには、ウェブカメラ（カメラ）１５０、赤外線（ＩＲ：ｉｎｆｒａｒｅｄ）レシーバー１４８、キーボードおよびトラックパッド１４４、ならびにＢｌｕｅｔｏｏｔｈ（Ｒ）デバイス１４６が含まれ、これらはワイヤレス・パーソナル・エリア・ネットワーク（ＰＡＮ：ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）を提供する。ＵＳＢコントローラ１４０は、たとえば、マウス、リムーバブル不揮発性ストレージ・デバイス１４５、モデム、ネットワーク・カード、統合サービス・デジタル・ネットワーク（ＩＳＤＮ：ＩｎｔｅｇｒａｔｅｄＳｅｒｖｉｃｅｓＤｉｇｉｔａｌＮｅｔｗｏｒｋ）コネクタ、ファックス、プリンタ、ＵＳＢハブ、および他の多くのタイプのＵＳＢ接続デバイスなど、他の種々のＵＳＢ接続デバイス１４２へのＵＳＢ接続も提供する。リムーバブル不揮発性ストレージ・デバイス１４５は、ＵＳＢ接続デバイスとして示しているが、リムーバブル不揮発性ストレージ・デバイス１４５は、Ｆｉｒｅｗｉｒｅ（Ｒ）インターフェースなどの異なるインターフェースを使用して接続することができる。

ワイヤレス・ローカル・エリア・ネットワーク（ＬＡＮ）デバイス１７５は、ＰＣＩまたはＰＣＩＥｘｐｒｅｓｓ（Ｒ）バス１７２を介してサウスブリッジ１３５に接続される。ＬＡＮデバイス１７５は、典型的には、情報ハンドリング・システム１００と他のコンピュータ・システムまたはデバイスとの間でワイヤレス通信を行うために全て同じプロトコルを使用する、無線変調技術の電気電子技術者協会（ＩＥＥＥ：ｔｈｅＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃＥｎｇｉｎｅｅｒｓ）．８０２．１１規格の１つを実装する。光学ストレージ・デバイス１９０は、シリアル・アナログ・テレフォン・アダプタ（ＡＴＡ：ＡｎａｌｏｇＴｅｌｅｐｈｏｎｅＡｄａｐｔｅｒ）（ＳＡＴＡ：ＳｅｒｉａｌＡＴＡ）バス１８８を使用してサウスブリッジ１３５に接続される。シリアルＡＴＡアダプタおよびデバイスは、高速シリアル・リンクを介して通信する。シリアルＡＴＡバスは、サウスブリッジ１３５をハード・ディスク・ドライブなどの他の形態のストレージ・デバイスにも接続する。サウンド・カードなどのオーディオ回路１６０は、バス１５８を経由してサウスブリッジ１３５に接続される。オーディオ回路１６０はまた、オーディオ・ライン入力および光デジタル・オーディオ入力ポート１６２、光デジタル出力およびヘッドフォン・ジャック１６４、内蔵スピーカー１６６、および内蔵マイクロフォン１６８などのオーディオ・ハードウェアに関連する機能を提供する。Ｅｔｈｅｒｎｅｔ（Ｒ）コントローラ１７０は、ＰＣＩまたはＰＣＩＥｘｐｒｅｓｓ（Ｒ）バスなどのバスを使用してサウスブリッジ１３５に接続される。Ｅｔｈｅｒｎｅｔ（Ｒ）コントローラ１７０は、情報ハンドリング・システム１００を、ローカル・エリア・ネットワーク（ＬＡＮ）、インターネット、および他のパブリックおよびプライベート・コンピュータ・ネットワークなどのコンピュータ・ネットワークに接続する。

図１は１つの情報ハンドリング・システムを示しているが、情報ハンドリング・システムは多くの形態を取り得る。たとえば、情報ハンドリング・システムは、デスクトップ、サーバ、ポータブル、ラップトップ、ノートブックの形態、または他のフォーム・ファクタのコンピュータまたはデータ処理システムの形態を取り得る。また、情報ハンドリング・システムは、パーソナル・デジタル・アシスタント（ＰＤＡ：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、ゲーム・デバイス、現金自動預払機（ＡＴＭ：ＡｕｔｏｍａｔｅｄＴｅｌｌｅｒＭａｃｈｉｎｅ）、携帯電話デバイス、通信デバイス、またはプロセッサおよびメモリを含む他のデバイスなどの他のフォーム・ファクタを取り得る。

図２は、本明細書に記載の方法が、ネットワーク化された環境で動作する多種多様な情報ハンドリング・システム上で実行できることを示す、図１に示す情報ハンドリング・システム環境の拡張を提供する。情報ハンドリング・システムのタイプは、ハンドヘルド・コンピュータ／携帯電話２１０などの小型のハンドヘルド・デバイスから、メインフレーム・コンピュータ２７０などの大型のメインフレーム・システムにまで及ぶ。ハンドヘルド・コンピュータ２１０の例には、パーソナル・デジタル・アシスタント（ＰＤＡ）、パーソナル・エンターテインメント・デバイス、たとえば、ムービング・ピクチャー・エキスパート・グループ・レイヤ３オーディオ（ＭＰ３）プレーヤー、ポータブル・テレビ、およびコンパクト・ディスク・プレーヤーなどが含まれる。情報ハンドリング・システムの他の例には、ペンまたはタブレット・コンピュータ２２０、ラップトップまたはノートブック・コンピュータ２３０、ワークステーション２４０、パーソナル・コンピュータ・システム２５０、およびサーバ２６０が含まれる。図２に個別に示していない他のタイプの情報ハンドリング・システムは、情報ハンドリング・システム２８０によって表される。図示のように、様々な情報ハンドリング・システムは、コンピュータ・ネットワーク２００を使用して一緒にネットワーク化することができる。様々な情報ハンドリング・システムを相互接続するために使用することができるコンピュータ・ネットワークのタイプには、ローカル・エリア・ネットワーク（ＬＡＮ）、ワイヤレス・ローカル・エリア・ネットワーク（ＷＬＡＮ：ＷｉｒｅｌｅｓｓＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネット、公衆交換電話網（ＰＳＴＮ：ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）、他のワイヤレス・ネットワーク、および情報ハンドリング・システムを相互接続するために使用することができる他の任意のネットワーク・トポロジが含まれる。情報ハンドリング・システムの多くは、ハード・ドライブまたは不揮発性メモリあるいはその両方などの不揮発性データ・ストアを含む。図２に示す情報ハンドリング・システムの実施形態は、別々の不揮発性データ・ストアを含む（より具体的には、サーバ２６０は不揮発性データ・ストア２６５を利用し、メインフレーム・コンピュータ２７０は不揮発性データ・ストア２７５を利用し、情報ハンドリング・システム２８０は不揮発性データ・ストア２８５を利用する）。不揮発性データ・ストアは、様々な情報ハンドリング・システムに外付けするか、情報ハンドリング・システムの１つに内蔵することができるコンポーネントとすることができる。また、リムーバブル不揮発性ストレージ・デバイス１４５は、リムーバブル不揮発性ストレージ・デバイス１４５を情報ハンドリング・システムのＵＳＢポートまたは他のコネクタに接続するなど、様々な技術を使用して、２つ以上の情報ハンドリング・システム間で共有することができる。

上述のように、従来の文書処理システムは、信頼性の高いテキスト抽出、テキスト内容の理解、および文書のコンテキストの理解に依存している。しかしながら、企業の要求が様々なソースからの数百万の文書に拡張することである場合、同じコンテキスト内（たとえば、金銭関連の文書）であっても、コンテキスト内で様々な文書構造に一貫性がないので（たとえば、異なる構成、異なる行／列フィールドなど）、従来の文書処理システムは適切に機能しない。したがって、コンテキスト・フリーであり（文書のコンテキストによらず）、信頼性高く複数の文書／文書タイプに拡張する文書処理システムを手に入れる必要がある。

市販のＯＣＲエンジンは、文書または適度な解像度の画像からテキストを抽出する。しかしながら、ＯＣＲエンジンでは、文書構造（たとえば、「５３４５」が請求書番号なのか、電話番号なのか、金額なのか、など）が失われるので、抽出されたテキストは、データ分析の観点からは使用に適さない。多くの企業の問題では、たとえば、請求書、履歴書、注文書、チケットなどの場合、文書構造の理解も必要となるので、抽出は重要である。現在の文書処理システムでは、学習または訓練処理が必要であり、これにより抽出処理の拡張が困難になる。さらに、各文書およびそのソース（たとえば、異なるベンダーの請求書）は、その構造が固有である。その結果、サンプル文書セットでの学習は、構造が異なる大規模な文書に対しては信頼性が低いことが多い。

図３から図１０は、文書をビットマップ画像にデジタル化し、フーリエ変換により文書の構造を識別することに基づいて、ビットマップ画像を画像部分に再帰的に分解する手法を示している。この手法は、文書の内容を理解することに依存せず、文書をビットマップ画像として扱い、文書の根底にある構造を抽出して文書画像を分解する。次いで、この手法は、分解された画像部分をテキスト認識システムに提供し、標準的なＯＣＲ技術を使用して画像部分を信頼性高く解析することによって、非常に信頼性の高い抽出を行う。この手法は、元の文書に対応する分解された画像部分ごとに背景（均一な背景）および組版（ｔｙｐｅｓｅｔｔｉｎｇ）を除去することによって、信頼性を向上させる。本明細書で説明するように、テキスト認識システムは、画像に含まれるテキストを認識する任意のシステムである。

本明細書で論じるように、この手法は、（ｉ）文書ビットマップ画像および文書正規化の集約強度信号を測定し、（ｉｉ）局所フーリエ変換を使用して、文書の周波数スペクトルを推定し、画像の低周波（行／列間でのビットマップ値の変化が小さい）部分および高周波（行／列間でのビットマップ値の変化が大きい）部分を分析し、（ｉｉｉ）フーリエ・スペクトルベースの決定木分割方法を使用して、情報内容がばらばらの画像部分へと画像を分解し、（ｉｖ）決定木ベースの分解停止方法を使用して過剰な分解を回避し、（ｖ）分解された文書をセルのマトリックス（たとえば、スプレッドシート）にマッピングする。

図３は、文書３１０をビットマップ画像３４０にデジタル化し、ビットマップ画像３４０を、テキスト認識システム３７０に供給する画像部分３６０に再帰的に分解するコンピュータ・システム３２０を示す例示的な図である。本明細書で論じるように、コンピュータ・システム３２０は、（ｉ）自動で拡張性のあるコンテキスト・フリーの文書構造の抽出と、（ｉｉ）同じ文書内で様々な背景を有する文書３１０からのテキストの信頼性の高い抽出（知られているテキスト抽出器の平均的な動作を克服する）と、（ｉｉｉ）カラー・シェード（ｃｏｌｏｒｓｈａｄｅｓ）と、を提供することによって現在のコグニティブ・デジタイゼーション製品を強化し、文書の文言に関係なく低品質のソース文書で信頼性高く機能する。

コンピュータ・システム３２０は、文書ストア３００から文書３１０を取り出す。文書３１０は、たとえば、図４に示すような請求書であり得る。コンピュータ・システム３２０は、ビットマップ生成器３３０を使用して、文書３１０の白黒のビットマップ画像３４０を作成する。一実施形態では、ビットマップ生成器３３０は、再帰的分解器３５０によって処理する前に、ビットマップ画像の画素強度を正規化する（さらなる詳細については、図６および対応するテキストを参照されたい）。

再帰的分解器３５０は、正規化された画素値を行／列ごとに行総和値（ＲＳＶ：ｒｏｗｓｕｍｖａｌｕｅ）および列総和値（ＣＳＶ：ｃｏｌｕｍｎｓｕｍｖａｌｕｅ）に集約する。次いで、再帰的分解器３５０は、行総和値を行総和信号にグループ化し、列総和値を列総和信号にグループ化し、行総和信号および列総和信号に局所フーリエ変換（たとえば、短時間フーリエ変換（ＳＴＦＴ：Ｓｈｏｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ））を適用して、行総和信号および列総和信号の周波数表現を生成する（さらなる詳細については、図６、図８、および対応するテキストを参照されたい）。

再帰的分解器３５０は、局所フーリエ変換の結果に基づいて、境界をトリミングし（たとえば、余白を除去し）、画像を２つの画像部分３６０に切断する。再帰的分解器３５０は、画像部分３６０がそれ以上分解不可能なサイズに達するまで画像部分３６０を再帰的に分解し、その時点で画像部分３６０はさらなる処理のためにテキスト認識システム３７０に送信される。

たとえば、テキスト認識システム３７０は、各画像部分３６０に個別に光学文字認識（ＯＣＲ）を適用し得る。このため、テキスト認識システム３７０は従来のＯＣＲエンジンよりも有利であり、その理由は、分解された文書の各構成要素が均一な背景および組版を有するので、各画像部分３６０に個別にＯＣＲを適用することにより、テキスト認識システム３７０がより信頼性高く情報を抽出するためである。また、本明細書で論じる手法は、各属性に意味を割り当てる必要なく、テキスト認識システム３７０が関連付けルールを発見するのを支援する。たとえば、テキスト認識システム３７０は、「請求書番号」という見出しに対応する数字が常にその見出しと同じセルにあるか、もしくはそのセルの右側のセルにあるか、または所与のセルの下のセルにあるかという関連付けルールを発見し得る。

図４は、本明細書で論じる手法を使用して分解する準備ができている請求書文書を示す例示的な図である。文書３１０は、様々な量の情報を含む請求書である。文書３１０は、以前に評価された請求書とは異なる文書構造を有し得、これは本明細書で論じる手法とは無関係であり、その理由は、コンピュータ・システム３２０が、文書のコンテキストではなく、文書構造に基づいて各文書を個別に分解するためである（さらなる詳細については、図５および対応するテキストを参照されたい）。

図５は、画像部分に分解されたビットマップ画像を示す例示的な図である。図３に示すように、ビットマップ生成器３３０は、文書３１０からビットマップ画像３４０を作成する。次いで、再帰的分解器３５０は、画像部分３６０を生成する。図５は図４に示す文書３１０に対応する画像部分３６０の詳細を示しており、これらは画像部分５００、５１０、５２０、５３０、５４０、５５０、および５６０である。

本明細書で論じるように、画像の分解の最初の通過によって、さらに分解できる画像部分が生成された場合、再帰的分解器３５０は、その画像部分をさらに分解するためのステップを実行する。その結果、再帰的分解器３５０は、画像部分５６０を後続の再帰的分解（１回または複数回）において別々の画像部分５６５、５７０、５７５、５８０、および５９０に分解する（さらなる詳細については、図６、図７、および対応するテキストを参照されたい）。

図６は、文書をビットマップ画像に変換し、ビットマップ画像を画像部分に再帰的に分解するために取られるステップを示す例示的なフローチャートである。処理は６００から始まり、次いでステップ６１０において、処理は文書を取り出し、文書を黒／白のビットマップ画像に変換する。ステップ６２０において、処理は黒／白のビットマップ画像の画素強度を正規化する。この時点で、一実施形態では、各画素は「１」（黒画素）または「０」（白画素）のいずれかで表される。

ステップ６２５において、処理は正規化された画素値を行／列ごとに行総和値（ＲＳＶ）および列総和値（ＣＳＶ）に集約する。たとえば、行が１，０００画素を含むと仮定すると、黒い線の行総和は１，０００個の「１」の総和＝１，０００であり、白いスペースの行総和は１，０００個の「０」の総和＝０である。ステップ６３０において、処理は行総和値を行総和信号にグループ化し、列総和値を列総和信号にグループ化する（さらなる詳細については、図８および対応するテキストを参照されたい）。

ステップ６３５において、処理は行総和信号および列総和信号に局所フーリエ変換を適用する。一実施形態では、処理は局所フーリエ変換として短時間フーリエ変換（ＳＴＦＴ）を使用する。

ここで、
ｘ（ｎ）＝時刻ｎでの入力信号
ｗ（ｎ）＝長さＭの窓関数（たとえば、ハミング窓）
Ｘｍ（ｗ）＝時刻ｍＲを中心として窓掛けされたデータのＤＴＦＴ（離散時間フーリエ変換：ＤｉｓｃｒｅｔｅＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）
Ｒ＝連続するＤＴＦＴ間のサンプルのホップ・サイズ

この実施形態では、窓の長さＭは、一般的には文書に対して固定されており、典型的には行間隔の倍数に等しく設定される。行間隔は、ピークの純粋なゼロ周波数信号が得られるまで窓の長さをゆっくりと増加させることによって導出される。窓の長さが長いと、ＤＴＦＴポイントが増えて、周波数分解能が高くなるが、時間の精度は低下する。窓の長さが短いと、タイム・スライスが増えて、時間の精度が高くなるが、周波数分解能は低下する。

ステップ６４０において、処理は境界（たとえば、余白）をトリミングして、最大スパンのゼロ周波数信号を除去する。ゼロ周波数信号は、同じ行／列総和値を有する連続した行の塊（たとえば、行１のＲＳＶ＝１，０００、行２のＲＳＶ＝１，０００、．．．）に対応する。ステップ６５０において、処理は、隣接する行／列の値が変化しない領域（たとえば、白いスペース）であるゼロ周波数信号の分離位置で画像を２つの画像部分に切断する。複数のゼロ周波数信号がある場合、一実施形態では、処理は最も長いスパンを有するゼロ周波数信号の分離位置を選択する。ステップ６６０において、処理は２つの画像部分をスタック・ストア６６５にスタック（記憶）し、それらの相対位置を登録し、親画像を削除する。

事前定義された処理６７０において、処理は画像部分を分析して、画像部分の一方または両方がさらに分解可能であるか否かを判定する（処理の詳細については図７および対応するテキストを参照されたい）。ステップ６７５において、処理はこれ以上分解できない画像部分を「ポップ」し、それらをレジスタ・ストア６８０にマークする。

処理は、６７０の結果に基づいて、さらに分解できる画像部分がまだあるか否かを判定する（判定６８５）。さらなる分解が可能な画像部分がある場合、判定６８５は「ｙｅｓ」の分岐に分岐し、次いで、ステップ６９０において、処理はさらなる分解のために識別された画像部分のうちの１つの画素値を行／列総和値に集約する。次いで、処理は上記のステップ６３０から６７５に従って、行／列総和値を処理する。

このループは、さらなる分解が可能な画像部分がなくなるまで続き、その時点で判定６８５は「ｎｏ」の分岐に分岐してループを抜ける。その後、図６の処理は６９５で終了する。

図７は、画像部分を再帰的に分解するか否かを評価するために取られるステップを示す例示的なフローチャートである。処理は７００から開始され、次いでステップ７１０において、処理はスタック・ストア６６５の最初の画像部分を選択する。下記で論じる以下の手順は、選択された画像部分の行総和信号（ＲＳＳ：ｒｏｗｓｕｍｓｉｇｎａｌ）ヒストグラムを評価して、その行間隔およびフォント・サイズを特定し、これは、画像があまりに「細く」分解されないようにするための停止基準として機能する。画像があまりに細く分解されると、たとえば、文字「Ｉ」は、画像の高さがフォント・サイズに近い場合に黒線に見え、その結果、その文字で画像が分割される。

ステップ７２０において、処理は選択された画像部分の行総和信号（ＲＳＳ）ヒストグラムを評価し、ゼロ周波数信号スパン・サイズを決定する。一実施形態では、処理は図６で生成されたＲＳＳヒストグラムを分離位置で２つのヒストグラムに分離して、評価中の２つの画像部分を表すようにする。たとえば、図９のＲＳＳヒストグラム９００は、画像部分５１０に対応し、複数のゼロ周波数信号スパン（ｘ軸の値２５～６０、１４５～１５５、１８０～２００など）を示している。ステップ７３０において、処理は選択された画像部分のＲＳＳヒストグラムを評価し、非ゼロ周波数信号スパン・サイズ（たとえば、ゼロ周波数信号間のスパン）を決定する。たとえば、図９のＲＳＳヒストグラム９００は、複数の非ゼロ周波数行信号スパン（ｘ軸の値６０～８０、１５６～１７５など）を示している。

処理は、選択された画像部分の高さが、ゼロ周波数信号スパン・サイズと非ゼロ周波数信号スパン・サイズとの最小の線形結合と同等のサイズであるか否かを判定する（判定７４０）。ある時点での最小の線形結合は、テキスト行の間のスペース（行間隔）と、最小の非ゼロ周波数信号スパン・サイズ（フォント・サイズ）とになる。一実施形態では、処理は「高さバッファ」を追加して、画像部分の高さがフォント・サイズに匹敵するサイズまで減少しないようにする。たとえば、処理は、「画像の高さ＜１．５＊最小のゼロ周波数信号スパン・サイズ＋１＊２つの連続するゼロ周波数信号スパン・サイズの間の最小のスパン（非ゼロ周波数信号スパン）の長さである場合に画像分割を停止する」という停止ルールを使用し得る。

選択された画像部分の高さが、最小のゼロ周波数信号スパン・サイズと最小の非ゼロ周波数行信号スパンとの線形結合と同等のサイズである場合、判定７４０は「ｙｅｓ」の分岐に分岐し、次いでステップ７５０において、処理は選択された画像部分を最終的な画像部分の分解としてマークする。

一方、選択された画像部分の高さが、最小のゼロ周波数信号スパン・サイズと最小の非ゼロ周波数行信号スパンとの線形結合と同等のサイズでない場合、判定７５０は「ｎｏ」の分岐に分岐する。

処理は、特定の分析ラウンド中に分析すべき画像部分がまだあるか否かを判定する（判定７６０）。分析すべき画像部分がまだある場合、判定７６０は「ｙｅｓ」の分岐に分岐し、この分岐はループ・バックして、次の画像部分を選択および処理する。このループは、特定の分析ラウンド中に分析すべき画像部分がなくなるまで続き、その時点で判定７６０は「ｎｏ」の分岐に分岐してループを抜ける。その後、図７の処理は、７９５で呼び出し元のルーチン（図６を参照）に戻る。

図８は、ビットマップ画像分解を説明するための様々な図を示す例示的な図である。図解８００は、再帰的分解器３５０がビットマップ画像値を行総和値８１０および列総和値８２０に集約する方法のグラフィカルなビューを示している。各行総和値８１０は、対応する行の画素値を集約したものである。同様に、各列総和値８２０は、対応する列の画素値を集約したものである。図解８００に示す値は、説明を目的としたものであり、ビットマップ画像３４０の実際の値とは相関していない。

次いで、再帰的分解器３５０は、行総和値８１０を行総和信号（ＲＳＳ）８１５にまとめて、本明細書で論じた局所フーリエ変換に供給することによって、行総和値８１０間の差の周波数表現を生成し、これをＲＳＳヒストグラム８３０に示し、以下で論じる。同様に、再帰的分解器３５０は、列総和値８２０を列総和信号（ＣＳＳ：ｃｏｌｕｍｎｓｕｍｓｉｇｎａｌ）８２５にまとめて、本明細書で論じた局所フーリエ変換に供給することによって、列総和値８２０間の差の周波数表現を生成し、これをＣＳＳヒストグラム８５５に示し、以下で論じる。

ＲＳＳヒストグラム８３０はゼロ周波数領域８３５および８４０を示しており、これらは、ステップ６４０（図６）の間にトリミングされる文書３１０内の上部および下部のビットマップ境界領域（マージン）に対応する。領域８４５は、文書３１０の水平ラインに対応するいくつかの高いバーを示している。領域８５０は、「合計」の行の後の最後の水平ラインと、文書３１０の下部にある取引条件の文言との間の領域に対応するゼロ周波数領域を示している（図４を参照）。

ＣＳＳヒストグラム８５５はゼロ周波数領域８６０および８７０を示しており、これらは、ステップ６４０（図６）の間にトリミングされる文書３１０内の左側および右側のビットマップ境界領域（マージン）に対応する。領域８８０は、文書３１０の垂直ラインに対応するいくつかの高いバーを示している。時間ヒストグラム８３０および８５５に基づいて、再帰的分解器３５０は、それらに応じてビットマップ画像３４０を画像部分３６０に分解する。たとえば、再帰的分解器３５０は、領域８５０の中央の分離位置を選択してビットマップ画像を分離し得る。図９は、画像部分３６０の１つのさらなる分析を示している。

図９は、画像部分５１０と、画像部分５１０にフーリエ変換を適用することによって生成される時間ヒストグラム９００および９５０とを示す例示的な図である。画像部分５１０は、本明細書で論じているように、ビットマップ画像３４０から分解される。再帰的分解器３５０は、画像部分５１０に対応する行総和信号および列総和信号に局所フーリエ変換を適用し、ＲＳＳヒストグラム９００およびＣＳＳヒストグラム９５０を生成する。

ＲＳＳヒストグラム９００は、画像５１０の高さに対応し、画像部分５１０内の水平ラインに対応する高いバー９１０、９２０、および９３０を示す。ＲＳＳヒストグラム９００に基づいて、再帰的分解器３５０は、本明細書で論じているように、高いバー９１０、９２０、および９３０に基づいて画像部分５１０がさらに垂直方向に分解可能であると判定する。

ＣＳＳヒストグラム９５０は画像５１０の幅に関するものであり、高いバー９６０およびゼロ周波数領域９７０を示し、これらはそれぞれ、位置０の垂直ラインと、位置３７５～５００のブランク領域とに対応する。時間ヒストグラム９５０に基づいて、再帰的分解器３５０は、画像部分５１０がさらに垂直方向に分解可能ではないと判定する。

図１０は、幅（Ｘ軸）に沿った文書空間（時間として表される）と、高さ（Ｙ軸）に沿った周波数成分と、大きさ（Ｚ軸）に沿った周波数の大きさまたは強度とを有する画像部分の時間スペクトル表現１０００を示す例示的な図である。一実施形態では、スペクトル表現１０００は、行総和信号（ＲＳＳ）および列総和信号（ＣＳＳ）などの信号を結合したものの短時間フーリエ変換（ＳＴＦＴ）である。

本開示の特定の実施形態を図示および説明してきたが、本開示およびそのより広い態様から逸脱することなく、本明細書の教示に基づいて変更および修正が行われ得ることは当業者には明らかであろう。したがって、添付の特許請求の範囲は、本開示の範囲内にある全てのそのような変更および修正をその範囲内に包含するものとする。導入する請求項要素の特定の数を意図する場合、そのような意図はその請求項に明示的に記載し、そのような記載がない場合、そのような制限は存在しないことが当業者によって理解されよう。非限定的な例では、理解を助けるものとして、以下の添付の特許請求の範囲は、請求項要素を導入するための導入語句「少なくとも１つ」および「１つまたは複数」の使用を含む。しかしながら、そのような語句の使用は、同じ請求項が「１つまたは複数」または「少なくとも１つ」という導入語句および「ａ」または「ａｎ」などの不定冠詞を含む場合であっても、不定冠詞「ａ」または「ａｎ」による請求項要素の導入が、そのような導入した請求項要素を含む特定の請求項を、そのような要素をただ１つ含む開示に限定することを意味すると解釈されるべきではなく、特許請求の範囲での定冠詞の使用についても同じことが言える。

Claims

文書を処理する方法であって、
前記文書を、該文書を画素値のセットとして表すビットマップ画像に変換することと、
前記ビットマップ画像からの画素値のセットを行総和値のセットおよび列総和値のセットに集約することと、
局所フーリエ変換を前記行総和値のセットおよび前記列総和値のセットに適用して前記行総和値のセットおよび前記列総和値のセットの周波数表現のセットを生成することと、
前記周波数表現のセットで識別される少なくとも１つの分離位置に基づいて、前記ビットマップ画像を画像部分のセットに分解することと、
前記画像部分のセットをテキスト認識システムに送信することと、
を含む、方法。
前記行総和値のセットを行総和信号にまとめることと、
前記列総和値のセットを列総和信号にまとめることと、
前記局所フーリエ変換を前記行総和信号に適用して行周波数表現を生成し、前記局所フーリエ変換を前記列総和信号に適用して列周波数表現を生成することと、
をさらに含む、請求項１に記載の方法。
前記行周波数表現においてゼロ周波数領域を識別することであって、前記ゼロ周波数領域は、前記ビットマップ画像内の隣接する行の間で前記行総和値のセットのサブセットに変化がないことに対応する、識別することと、
前記ゼロ周波数領域内で前記分離位置を選択することと、
をさらに含む、請求項２に記載の方法。
前記分解することの前に、前記方法は、
前記ビットマップ画像の第１のビットマップ境界領域のセットに対応する前記列周波数表現における第１のゼロ周波数領域のセットを識別することと、
前記ビットマップ画像の第２のビットマップ境界領域のセットに対応する前記行周波数表現における第２のゼロ周波数領域のセットを識別することと、
前記ビットマップ画像から前記第１のビットマップ境界領域のセットおよび前記第２のビットマップ境界領域のセットを除去することと、
をさらに含む、請求項２に記載の方法。
前記画像部分のセットは第１の画像部分および第２の画像部分を含み、前記方法は、
前記第１の画像部分からの画素値のサブセットを行総和値のサブセットおよび列総和値のサブセットに集約することと、
前記局所フーリエ変換を前記行総和値のサブセットおよび前記列総和値のサブセットに適用して周波数表現のサブセットを生成することと、
前記周波数表現のサブセットで識別される少なくとも１つの異なる分離位置に基づいて、前記第１の画像部分を第３の画像部分および第４の画像部分に再帰的に分解することと、
をさらに含む、請求項１～４のいずれか一項に記載の方法。
前記周波数表現のセットは、前記行総和値のセットに対応する行周波数表現を含み、前記画像部分のセットは第１の画像部分および第２の画像部分を含み、前記方法は、
前記第１の画像部分に対応する前記行周波数表現の部分を評価することと、
前記評価することから、ゼロ周波数信号スパン・サイズと非ゼロ周波数信号スパン・サイズとの最小の線形結合を特定することと、
前記最小の線形結合が前記第１の画像部分の高さに近いか否かを判定することと、
前記最小の線形結合が前記第１の画像部分の高さに近いと判定したことに応答して、前記第１の画像部分の分解を終了することと、
をさらに含む、請求項１～５のいずれか一項に記載の方法。
前記テキスト認識システムによって、前記画像部分のセットのそれぞれに光学文字認識を適用してテキスト部分のセットを生成することであって、前記テキスト部分のセット内の各テキスト部分は、前記画像部分の１つに対応する、生成すること
をさらに含む、請求項１～６のいずれか一項に記載の方法。
前記文書を変換することは、
画素強度のセットを含む黒／白の画像に前記文書を変換することと、
前記画素強度のセットを正規化して前記ビットマップ画像の前記画素値のセットを生成することと、
を含む、請求項１～７のいずれか一項に記載の方法。
１つまたは複数のプロセッサと、
前記プロセッサのうちの少なくとも１つに結合されたメモリと、
前記メモリに記憶され、アクションを実行することによって文書を処理するために前記プロセッサのうちの少なくとも１つによって実行されるコンピュータ・プログラム命令のセットと、
を含む情報ハンドリング・システムであって、前記アクションは、
前記文書を、該文書を画素値のセットとして表すビットマップ画像に変換することと、
前記ビットマップ画像からの画素値のセットを行総和値のセットおよび列総和値のセットに集約することであって、前記ビットマップ画像は文書の画素化された表現である、集約することと、
局所フーリエ変換を前記行総和値のセットおよび前記列総和値のセットに適用して前記行総和値のセットおよび前記列総和値のセットの周波数表現のセットを生成することと、
前記周波数表現のセットで識別される少なくとも１つの分離位置に基づいて、前記ビットマップ画像を画像部分のセットに分解することと、
前記画像部分のセットをテキスト認識システムに送信することと、
を含む、情報ハンドリング・システム。
前記プロセッサは、
前記行総和値のセットを行総和信号にまとめることと、
前記列総和値のセットを列総和信号にまとめることと、
前記局所フーリエ変換を前記行総和信号に適用して行周波数表現を生成し、前記局所フーリエ変換を前記列総和信号に適用して列周波数表現を生成することと、
を含む追加のアクションを実行する、請求項９に記載の情報ハンドリング・システム。
前記プロセッサは、
前記行周波数表現においてゼロ周波数領域を識別することであって、前記ゼロ周波数領域は、前記ビットマップ画像内の隣接する行の間で前記行総和値のセットのサブセットに変化がないことに対応する、識別することと、
前記ゼロ周波数領域内で前記分離位置を選択することと、
を含む追加のアクションを実行する、請求項１０に記載の情報ハンドリング・システム。
前記分解することの前に、前記プロセッサは、
前記ビットマップ画像の第１のビットマップ境界領域のセットに対応する前記列周波数表現における第１のゼロ周波数領域のセットを識別することと、
前記ビットマップ画像の第２のビットマップ境界領域のセットに対応する前記行周波数表現における第２のゼロ周波数領域のセットを識別することと、
前記ビットマップ画像から前記第１のビットマップ境界領域のセットおよび前記第２のビットマップ境界領域のセットを除去することと、
を含む追加のアクションを実行する、請求項１０に記載の情報ハンドリング・システム。
前記画像部分のセットは第１の画像部分および第２の画像部分を含み、前記プロセッサは、
前記第１の画像部分からの画素値のサブセットを行総和値のサブセットおよび列総和値のサブセットに集約することと、
前記局所フーリエ変換を前記行総和値のサブセットおよび前記列総和値のサブセットに適用して周波数表現のサブセットを生成することと、
前記周波数表現のサブセットで識別される少なくとも１つの異なる分離位置に基づいて、前記第１の画像部分を第３の画像部分および第４の画像部分に再帰的に分解することと、
を含む追加のアクションを実行する、請求項９～１２のいずれか一項に記載の情報ハンドリング・システム。
前記周波数表現のセットは、前記行総和値のセットに対応する行周波数表現を含み、前記画像部分のセットは第１の画像部分および第２の画像部分を含み、前記プロセッサは、
前記第１の画像部分に対応する前記行周波数表現の部分を評価することと、
前記評価することから、ゼロ周波数信号スパン・サイズと非ゼロ周波数信号スパン・サイズとの最小の線形結合を特定することと、
前記最小の線形結合が前記第１の画像部分の高さに近いか否かを判定することと、
前記最小の線形結合が前記第１の画像部分の高さに近いと判定したことに応答して、前記第１の画像部分の分解を終了することと、
を含む追加のアクションを実行する、請求項９～１３のいずれか一項に記載の情報ハンドリング・システム。
前記プロセッサは、
前記テキスト認識システムによって、前記画像部分のセットのそれぞれに光学文字認識を適用してテキスト部分のセットを生成することであって、前記テキスト部分のセット内の各テキスト部分は、前記画像部分の１つに対応する、生成すること
を含む追加のアクションを実行する、請求項９～１４のいずれか一項に記載の情報ハンドリング・システム。
請求項１～８のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータ・プログラムを記憶したコンピュータ可読記憶媒体。
命令を含むコンピュータ・プログラムであって、前記命令は、前記プログラムがコンピュータによって実行された場合に、請求項１～８のいずれか一項に記載の方法を前記コンピュータに実行させる、コンピュータ・プログラム。