JP2008537198A

JP2008537198A - 人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート

Info

Publication number: JP2008537198A
Application number: JP2007556411A
Authority: JP
Inventors: ポッツ，ウェズリー，エフ; アンダーソン，ブライアン，ジー; ロジャーズ，ジェイソン，エル; ハーン，フマーユーン，エイチ; クーンズ，スコット，ティー，アール
Original assignee: パーセプティヴソフトウェア，インコーポレイテッド
Priority date: 2005-02-22
Filing date: 2006-02-22
Publication date: 2008-09-11
Also published as: HK1108958A1; EP1854051A2; KR20070115908A; CA2598686A1; MX2007010180A; US7653244B2; US20070009155A1; CA2598686C; WO2006091626A3; EP1854051A4; ATE553448T1; WO2006091626A2; EP1854051B1; DK1854051T3

Abstract

外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポートのプロセスは、外来のアプリケーションで表示されるスクリーンの前に指定された領域からのラスタデータの抽出、文字のラスタデータの有望なセットへのラスタデータのセグメント化、候補となる文字を発生するためにそれぞれのラスタ、特徴、及びベクトルの人工ニューラルネットワークへの入力として文字ラスタデータから導出される文字のラスタデータ及び特徴データセット及びベクトルデータセットの印加、候補となる文字から文字のラスタデータにより表現される文字を識別するために投票プロセスの使用、ニューラルネットワークにより認識された残りの文字のキーへのアセンブリ、及び、その後、外来のアプリケーションで表示されるスクリーンとの関連で記憶され、検索される外部のデータファイルとキーの関連付けを含む。

Description

本発明は、人工ニューラルネットワークの使用による個別のプロセスにおける「外来の“foreign”」又は無関係のアプリケーションのユーザインタフェースをもつ文書管理及び画像形成システムを統合するプロセスに関する。

本出願は、２００５年２月２２日に提出された“INTELLIGENT IMPORTATION OF INFORMATION FROM FOREIGN APPLICATION USER INTERFACE BY LAYERED APPLICATION UTILIZING ARTIFICIAL INTELLIGENCE”と題された米国特許仮出願番号60/655,065、及び２００６年２月２１日に提出された“INTELLIGENT IMPORTATION OF INFORMATION FROM FOREIGN APPLICATION USER INTERFACE UTILIZING ARTIFICIAL INTELLIGENCE”と題された米国特許出願に基づいて、35U.S.C. 119(e)及び37C.F.R. 1.78(a)(4)の下での優先権を主張するものである。

全ての形態のビジネスは、従業員、顧客、サプライヤ、サービスプロバイダ、在庫、トランザクション、請求書、支払い等に関する記録を保持することを必要とする。係る記録の保持について、大部分の会社は、カレンダー及び財務上の機能と共にデータベース管理機能を典型的に含むビジネスアプリケーションソフトウェアを利用する。従来のタイプのデータベースレコードに加えて、注文、請求書、報告書、伝表、写真、図面、入札、契約書、否認声明書等のようなサポーティングドキュメントのレコードを保持することも必要である。多くの既存のビジネスアプリケーションは、紙のコピーが記憶される必要により、係るサポーティングドキュメントのデジタル化されたコピーにアクセス又は管理するビルトイン機能を有さない。一般に、画像の管理機能を追加するために既存のビジネスアプリケーションを変更することは望まれず、ソフトウェアのライセンスの観点で反する。代替的に、ビルトイン画像管理機能をもつ新たなソフトウェアをインストールすること、及びそれを使用するために従業員をトレーニングすることに係るコスト及び混乱は、相当なものとなる。これらの理由のため、既存のビジネスアプリケーションを「イメージイネーブルにする“image enable”」ための技術が開発されている。

現在のデスクトップコンピュータ及びオペレーティングシステムは、マルチタスク機能、すなわち複数のプログラムを同時に実行するか、少なくとも複数のプログラムを同時に開くこと及び迅速にアクセス可能にする機能を有する。したがって、ビジネスアプリケーション及び画像管理プログラムを一般に利用可能なコンピュータで同時に実行することが可能である。ビジネスアプリケーションは、ビジネスレコードを処理するために使用される。画像管理プログラムは、ビジネスレコードをサポートするドキュメントの記憶されたデジタル画像へのアクセスを提供する。画像のイネーブルメントの目標は、ビジネスレコードとそれらのレコードに関連する特定の画像ファイルとの間で便利なリンクを提供することである。

画像へのビジネスレコードのエレメントのリンクは、デジタル画像のファイル名へのビジネスレコードの特定のデータフィールドのコンテンツのキーイングを含む。たとえば、レコードの適切なデータフィールドに現れる顧客の口座番号、請求書番号、住所又は電話番号、社会保険番号等は、関連される画像へのキーとして使用される。キャラクタストリングの開始でカーソルを配置する画像管理ソフトウェアにより、又はストリングをハイライト表示することにより、データフィールドのコンテンツは自動的に選択される。画像管理ソフトウェアは、特定のキーストロークのコンビネーション、若しくはツールバー又はタスクバーでのアイコンのマウスクリックのいずれかによりアクチベートされ、サポーティングドキュメントのスキャンされた画像は、データフィールドのコンテンツ、おそらくスクリーンのデータフィールドの位置のような他の情報と共に保存される。リンキングソフトウェアは、ディスプレイバッファから読み取るか、又はコンピュータディスプレイに出力されるときにデータを傍受することで、データフィールドコンテンツを取得する。サポーティングドキュメントの画像は、適切なデータフィールドの変数を選択すること、画像管理ソフトウェアをアクチベートして、次いでデータフィールド変数が関連付けされる画像ファイルを検索し、画像を表示することで、関連されるレコードが表示されるときに再び呼び出される。係る画像のイネーブルメント技術のプロセスは、米国特許出願５，５８６，２４０号で詳細に説明され、引用により本明細書に盛り込まれる。

テキストキャラクタは、ＡＳＣＩＩコードにおけるように標準的なやり方で典型的にエンコードされるので、上述された画像イネーブルメントプロセスは、テキストベースであるビジネスアプリケーションに適している。しかし、幾つかのアプリケーションは、幾つかのグラフィックをもつテキストフォーマットで表示データを出力しないが、完全にグラフィックスフォーマットで出力する。これは、様々な種類のグラフィックに沿って選択されたポイントサイズ及び色の任意のフォント数でテキストを示す、ラスタライズされた又はピクセルフォーマットデータによる「スクリーンのペインティング“painting the screen”」と呼ばれることがある。係るディスプレイによりビジネスアプリケーションは、画像イネーブルメントの従来のプロセスに適していない。

本発明は、ホストアプリケーションからの情報を、リンク画像又は２つの異なるアプリケーション間のドキュメントに記憶されるデータに変換する改善された手段を提供する。本発明を実施する技術は、外部画像及びドキュメントが、ホストアプリケーションの動作に影響を及ぼすことなしにノンＡＮＣＩＩな、ラスタライズされるテキストフォーマットで表示されるホストアプリケーションにおけるデータと関連付けされるため、ホストアプリケーションに適用される。

本発明は、コンピュータシステムでの処理の境界にわたるデータの取得の方法に関する。本発明は、アプリケーションプログラムの動作に影響を及ぼすことなしに、そのラスタ表現としてデータを表示し、１以上の人工のニューラルネットワークを使用してＡＳＣＩＩテキストデータのような別の形式にラスタデータを変換するアプリケーションプログラムから選択されたデータを抽出するためのインテリジェントインポートプロセス（intelligent importation process）に向けられる。

インテリジェントインポートプロセスは、データが抽出されるデータレコードのような、アプリケーションにより表示されるスクリーンの１以上のエリアの選択により特定のアプリケーションについてセットアップされる。たとえばエリアは、係るデータレコードのデータフィールドに対応し、画像管理システムにおける画像のようなホストアプリケーションの外部によりファイルに関連されるキーとして使用されるテキストデータを含む。選択されたスクリーンエリアの座標は、処理により記憶される。実際のデータレコードをポピュレートするテキストデータは、ラスタライズされた又はピクセルフォーマットで表示される。インテリジェントインポートプロセスは、ラスタライズされたテキストデータで表示される文字を区別又はセグメント化し、１以上の人工ニューラルネットワークを使用して文字を認識するためにトレーニングされる。ひとたびプロセスがトレーニングされ、セットアップされると、アプリケーションの動作に影響を与えることなしに、ホストアプリケーションにより表示される抽出かつ認識されたラスタライズされたデータに基づいて動作を実行するために使用することができる。本発明では、このプロセスは、特定のデータレコードと関連される画像の記憶及び検索をイネーブルにすることでホストアプリケーションを「イメージエネーブルにする」ために使用される。本発明は、画像ファイルとキーを関連付けする観点で主に記載されるが、ホストアプリケーションの外部にある他のタイプのファイルは、サウンドファイル、ビデオファイル及び外部のテキストファイルのようなデータレコードとの関連のためにキーイングされることが認識される。係るタイプのデータファイルは、ホストアプリケーションが係るファイルからデータを直接のレンダリング、すなわち係る外部のデータファイルからの可能ではない点で、ホストアプリケーションに対して「外部にある」と考えられる。係る他のタイプのデータファイルは、画像ファイルに機能的に等価であると考えられ、本発明により包含されることが意図される。

一般に、本発明は、３つの処理方法及び３つの方法をそれぞれ利用する３つのフェーズに分割される。３つの処理方法は、ラスタ処理、特徴処理、及びベクトル処理を含む。３つのフェーズは、トレーニングフェーズ、テスティングフェーズ、及びプロダクションフェーズを含む。人工知能アルゴリズム及びデータ構造の使用により、そのアプリケーションにより表示されるラスタ表現に基づいてアプリケーション又はプログラムからデータが抽出される。人工知能の使用、並びにラスタ表現が前処理及び後処理される手段は、本発明の統合された部分である。

本発明のトレーニングフェーズでは、人工的なニューラルネットワークは、同じデータ値として異なる入力セットを認識するために調整され、ラスタ入力は、異なるニューラルネットワークにより検討される入力セットに変形されるために処理される。トレーニングフェーズは、それぞれのラスタ領域が表現するデータの情報を含むトレーニングロジックの多数の実行から構成される。人工のニューラルネットワークがそれぞれのデータ出力について発生するスコアに基づいて、ネットワークにおけるデシジョンポイントは、そのネットワークを正解の近くに移動させるために調整される。このプロセスは、「フィードフォワード」及び「バックプロパゲーション」と呼ばれる。

画像のラスタ表現の前処理は、人工のニューラルネットワークにより認識されるべきエリアを分離することで開始する。このケースでは、それは一度に１つのデータアイテムとなる。典型的なデータアイテムは、英数文字のピクセル又はラスタ表現であるが、句読点のシンボル、非英語文字等のような他のシンボルも使用することができる。ひとたび領域は分離されると、次いで、アプリケーションにおけるバックグランドのノイズから関心のある画素を区別する閾値アルゴリズムを実行する。このステップの結果は、認識されるべき領域のバイナリラスタ表現である。閾値ステップに続いて、セグメンテーションループが開始される。トレーニングフェーズでは、この処理は制限される。それは、人工ニューラルネットワークをトレーニングするため、一度にアイテムのトレーニングセットのうちの単一のデータアイテムのみが一度に引き出されるためである。

このポイントで、セグメント化されたラスタ表現が保存され、３つの処理方法に関連する異なる人工ニューラルネットワークに変化する入力を提供するために異なるやり方で、ラスタデータを処理するのを可能にするため、コピーが作成される。第一のネットワークは、ラスタの人工ニューラルネットワークである。これらの入力に適合するためにラスタデータを変形するため、バイキュービック補間を使用してコモンサイズにスケーリングされる必要がある。すなわち、関心のあるラスタデータのピクセルグリッドは、デジタル画像のサイズを拡大及び縮小するために一般的な技術である、いわゆるバイキュービック補間を使用して標準的なサイズに寸法的にスケーリングされる必要がある。本発明で好適な２つの標準的なサイズは、ラスタ処理の人工ニューラルネットワークへの２５６入力と１４４入力のそれぞれのネットワークに対応する、１６×１６及び１２×１２画素である。これらは、ラスタの人工ニューラルネットワークへの入力のまさに２つの可能な実施の形態であり、特許請求の範囲で定義された本発明の範囲を制限することが意図されない。バイキュービック補間を実行する間、バイナリラスタデータは、２５６レベルのグレイスケールデータに変換される。そのデータは、−１と１との間で変換され、０のグレイスケール値は−１に等しく、２５６グレイスケール値は１に等しい。

次いで、それぞれのデータアイテムが処理され、トレーニングロジックは、フィードフォワード及びバックプロパゲーションと同様に実行される。このプロセスでは、入力セットにわたり認識関数の最良の近似を捕捉する局所的な最小値にプロセスが近くなるとき、デシジョンポイント又はニューロンウェイトが変更されるレートは調整される。二乗平均誤差が増加するとき、デジションポイント又はニューロンウェイトが変更される量が低減される。逆に、二乗平均誤差が減少するとき、それぞれのバックプロパゲーションでのデシジョンポイント又はニューロンウェイトが調整される量は増加される。このネットワークは、利用される他のネットワークタイプとは独立にトレーニングされる。

データアイテムのセグメント化されたラスタ表現のコピーは、第二の処理方法である特徴に基づいた処理について使用される。このとき、データは、特徴に基づいた人工のニューラルネットワークへの入力について変換される。更なる処理は、これらの特徴を抽出する前に行われる。はじめに、画像は、５０×５０画素のラスタ表現及びスケルトンサイズにスケーリングされ、ステアケース除去アルゴリズムが利用され、フォントに依存しない一貫した表現にまでパターンをきれいに洗い落とし、（入力を制限するために９×９画像グリッドに基づいて）垂直及び水平ヒストグラム、エンドポイントロケーション及び交点のロケーションとして係る文字“feature”について分析される。ラスタネットワークにおけるのと同様にして、これらの特徴は、ラスタケースと同じフィードフォワード、バックプロパゲーション方法における文字を認識するためにトレーニングされる人工ニューラルネットワークへの入力に変換される。

第三の処理方法は、データアイテムのセグメント化されたラスタ表現のコピーで開始するベクトルに基づいた処理である。このとき、データはベクトル表現に変換され、境界を付ける正弦波は、フーリエ変換を使用して計算される。一般に、文字の粗いアウトラインは、ランレングスの大きさ及びたとえば３０の係るセグメントといったアウトラインのセグメントの方向を有するベクトル系列からなる。最初の３０のフーリエ係数は、変換、回転、及びスケーリング不変であるように処理され、次いで、ベクトルの人工ニューラルネットワーク認識システムの入力として使用される。次いで、これらの入力は、ラスタ及び特徴に基づいたケースと同じフィードフォワード、バックプロパゲーション方法において文字を認識するためにトレーニングされる人工ニューラルネットワークに供給される。

ひとたび、トレーニングフェーズが終了すると（すなわち上記エンジンのそれぞれがトレーニングセットを正しく識別し、許容可能な二乗平均誤差を有する）、次いで、それぞれのエンジンは、トレーニングセットに含まれないデータアイテムのテスティングセットを実行する。所定の文字について認識レート及び成功レートに基づいて、ラスタ、特徴及びベクトル処理の出力を受けるボーティング構造がセットアップされる。

このように別のプロセスからデータを抽出するため、スクリーンが学習される。ユーザは、データが抽出されるべきアプリケーション、及びデータをアプリケーションで発見することができるエリアを識別する必要がある。ひとたび、アプリケーションのエリアが分離されると、認識プロセスを始動することができる。この領域のラスタ表現は、アプリケーションから抽出され、領域の周囲のボックスのような外部の画素を除くために閾値方法を実行し、バイナリラスタ表現に変換する。次いで、認識ループが始動される。典型的に、選択されたラスタ表現は、認識され、ホストアプリケーションの外部にある画像又はドキュメントと関連付けされるデータアイテム又は文字のストリングを含む。第一のデータアイテムは、全体の領域の垂直ヒストグラムに従って最も可能性のあるポイントでセグメント化され、そのラスタ表現は、トレーニングフェーズで識別される人工ニューラルネットワークの瞬間を通して、それぞれのフェーズにおける認識のために概説される方法を通して処理される。次いで、異なるネットワークの出力ベクトルは、手動によりコンフォギュレーションの設定に基づいて比較され、最も可能性の高い文字について投票が行われる。投票の信頼が予め決定されたレベル以下である場合、ラスタ表現は、その領域に配置され、新たなセグメンテーションポイントは、垂直のヒストグラムに基づいて採取され、データエレメントの最大の可能なラスタレシオを超えるまで、又は許容可能な認識が行われるまで、プロセスが繰り返される。このフェーズは、アプリケーションのラスタ表現を文書管理システムにより使用されるデータに変換するため、全ての前処理、認識及び後処理ステップを使用する。

本発明の目的及び利点は、本発明の例示的な所定の実施の形態により説明される、添付図面と共に行われる以下の説明から明らかとなるであろう。
図面は、本明細書の一部を構成し、本発明の例示的な実施の形態を含み、本発明の様々な目的及び特徴を例示する。

必要に応じて、本発明の詳細な実施の形態は本明細書で開示されるが、しかし、開示される実施の形態は、様々な形式で実施される場合がある本発明の単なる例示であることを理解されたい。したがって、本明細書で開示される特定の構造的及び機能的な詳細は限定するものとして解釈されるべきではなく、特許請求の範囲を基礎とし、仮想的に適切に詳細な構造で本発明を様々に利用するため、当業者を教示するための代表的な基礎とするべきである。

更に詳細に図面を参照して、参照符号１は、人工知能を使用して外来又はホストアプリケーション３のユーザインタフェース又はラスタディスプレイ２（図１）からの情報の知的なインポートのためのプロセスを一般的に示している。プロセス１は、多数のソリューションへのアプリケーションのポテンシャルを有し、本発明では、ホストアプリケーションによりラスタライズされた形式で表示されたデータに、画像４のような外部ファイルをキーイングするホストアプリケーション３をイメージイネーブルするために使用される。ホストアプリケーション３は、たとえばオラクルファイナンシャル（Oracle Corporation of Redwood Shores, CA, www.oracle.com）のような多数のソフトウェアアプリケーションである場合がある。プロセス１は、個別の画像管理システム５を共同し、画像４を記憶及び検索するか、係る画像管理システムを内部に組み込んでいる場合がある。以下に詳細に説明されるように、プロセス１は、テキスト文字又はシンボルを認識するためにトレーニングされる必要があり、特定のホストアプリケーション３についてセットアップされる必要がある。

ホストアプリケーション３は、スタンドアロンアプリケーション又はクライアント／サーバタイプのソフトウェアである。ホストアプリケーション３、又はそのクライアントコンポーネントは、バックグランドで実行するプロセスで実行される。図２を参照して、ステップ１０で、ユーザは、ホストアプリケーション３におけるデータレコードにアクセスする。ユーザが前に記憶された画像４を見るのを必要とするか、画像を記憶するのを必要とする場合、ステップ１２で、ユーザは、キーストロークのコンビネーションによるか、若しくはディスプレイ２のアイコン又はボタンをマウスでクリックすることによるように、インテリジェントインポーテーション（ＩＩ）プロセス１をアクチベートする。プロセス１は、ステップ１４で、ディスプレイ２の前に指定されたディスプレイエリアから現在のラスタデータをコピーする。ステップ１６で、プロセス１は、記憶された画像４に前に関連付けされたキーを形成するため、画像管理システム５により記憶されるべき画像と関連付けされるべきキーを形成するためにラスタデータから文字データを抽出する。プロセス１は、以下に更に詳細に説明されるように、１以上の人工ニューラルネットワーク１８，１９及び２０（図３）を使用してラスタデータから文字データを抽出する。ステップ２２で、プロセス１は、画像管理システム５にキーを送出し、このシステムは、ステップ２４で画像４を記憶するか、又はステップ２６で画像を検索して画像を表示させる。

図３は、本発明のインテリジェントインポートプロセス１のコアとなる抽出処理のコンポーネント２８を説明する。コアとなるコンポーネント２８は、人工ニューラルネットワーク１８〜２０を含む。一般に、本発明で使用されるような人工ニューラルネットワークは、様々なデータのパターンを認識するためにトレーニング可能であるようなやり方で、相互接続される式により定義されるシミュレートされたニューロンからなるシステムである。ラスタデータのパターンは、多くのやり方で分析され、同じラスタパターンと関連されるデータの固有のセットを発生する。既知のパターンの係るデータのセットは、ネットワークをトレーニングしてパターンを認識するためにニューラルネットワークへの入力として印加される。その後、ラスタデータの未知のパターンのデータのセットは、認識のためにネットワークの入力に印加される。

本発明は、ラスタパターンデータを分析又は処理する３つの方法を含み、それぞれの方法の人工ニューラルネットワークを提供する。第一の方法は、文字の画素の直交座標及びそれぞれの画素のバイナリカラー（黒又は白）の分析である。図６は、大文字“ｉ”のような文字のラスタパターン３２を例示する。第二の処理方法は、ラスタパターン３２の所定の特徴を分析し、特徴のニューラルネットワーク１９を使用する。図８ａ及び図８ｂは、特徴のニューラルネットワーク１９に入力される図６に示されるラスタパターン３２の垂直方向のヒストグラム３４及び水平方向のヒストグラム３６をそれぞれ例示している。第三の処理方法は、ベクトル処理であり、ベクトルのニューラルネットワーク２０を利用して、文字４０のアウトライン３８又は大文字“ｉ”を記述するベクトルを分析する。

ニューラルネットワーク１８〜２０は、従来のニューラルネットワークの実現であり、マルチレイヤフィードフォワードパーセプション（又はパーセプトロン）として知られるタイプである。好適なニューラルネットワーク１８〜２０は、１つの入力レイヤ、２つの隠されたレイヤ、及び１つの出力レイヤを含む。例示されるネットワーク１８〜２０のレイヤのノード又はシミュレートされたニューロンコンテンツは、たとえば、１４４、９４、７０及び９４のそれぞれであるが、本発明は、係るノードコンテンツに制限されることが意図されない。この一般的なタイプのニューラルネットワークの更なる理解は、米国特許４，９１８，６１８号を引用することで得ることができ、引用により本明細書に盛り込まれる。

図３に戻り、前に指定されたディスプレイエリアからのラスタデータ４４は、ニューラルネットワーク１８〜２０の入力への印加の前に、一般の前処理動作４６に印加される。一般的に、一般の前処理動作４６の目的は、ラスタデータを個々の文字にセグメント化し、標準のサイズ及び方向でラスタデータ４０をレンダリングすることである。これら一般の前処理ステップ４６は、初期セグメンテーションと同様に、バイナリカラーへの変換、リサイジング、デスキューイング、スケルトニゼーションを含む。更に特定の前処理動作４８，４９及び５０は、ラスタパターン３２に印加され、ニューラルネットワーク１８〜２０のそれぞれにとって適切であって有効であるラスタデータからデータセットを導出する。特定の前処理動作４８〜５０は、どのニューラルネットワーク１８〜２０で結果的に得られるデータセットが印加されるかに依存して異なる。ラスタニューラルネットワーク１８について、ラスタ前処理動作４８は、ラスタニューラルネットワーク１８への入力として印加されるべき標準的なサイズの画素マトリクス内のラスタパターン３２の（図６で“Ｘ”でマークされる）黒の画素の座標を導出する。なお、図６〜図８ｂに例示される画素マトリクスが１０×１０画素アレイであるが、これは例示するためのものであり、実際のマトリクスサイズは、それぞれ特定のニューラルネットワークについて適切なサイズである。特徴のニューラルネットワーク１９について、特徴の前処理ステップは、エンドポイントの座標及びパターン３２からのストロークの交点と共に、垂直及び水平方向のヒストグラム３４及び３６における黒の画素の列及び行のカウントにより、特徴のニューラルネットワークへの入力のための入力データセットを形成する。最後に、ベクトルのニューラルネットワーク２０について、入力データセットは、ラスタパターン３２又はそのバリエーションにより形成される文字４０のアウトライン３８を記述するベクトルに印加されるフーリエ変換から得られる、最初の３０のようなフーリエ係数のセットを導出することで、ベクトル前処理ステップ５０により形成される。

ニューラルネットワーク１８〜２０は、英数字及び所定の句読点シンボルを認識するためにトレーニングされる。それぞれの前処理ステップ４８〜５０により提供されるデータセットを処理することによる、ニューラルネットワーク１８〜２０のそれぞれからの出力は、候補となる文字のセット、たとえば３の候補となる文字といった、それぞれの候補となる文字の数字の確率、及びオリジナルのラスタデータ４４における外部の画素の可能な存在を評価するそれぞれの候補の文字についての信号対雑音比である。ラスタ、特徴及びベクトルのニューラルネットワーク１８，１９及び２０とそれぞれ関連される後処理ステップ５４，５５及び５６では、それぞれのニューラルネットワーク１８〜２０のそれぞれの文字の候補の確率及び信号対雑音比は、特定の閾値に対して評価される。候補となる文字の値が閾値テストに失敗した場合、異なる処理規準を使用して、図３に例示されたリトライライン５８により示されるように、リトライが実行される。閾値のテストの失敗を引き起こす１つの可能な問題は、不正確なセグメント化である。これを克服するため、ラスタパターンのセグメント化処理に対して調節が行われ、候補となる文字について確率及び信号対雑音比を改善するために、制限された数のリトライが行われる。

ひとたび確率及び信号対雑音比が閾値テストを通過すると、後処理ステップ５４〜５６は、高さ、幅及び距離の変更されていない文字のメトリクスを、最良の候補となる文字、信号対雑音比及び確率のスコアと同様に、前の文字から抽出する。最良の候補となる文字の更なる後処理は、文字メトリクス（画素における全体のディメンジョン）からの候補となる文字のケースを決定するため、文字の環境から大文字“ｉ”（Ｉ）及び小文字“Ｌ”（ｌ）のように曖昧な文字を区別するために使用される。後処理ステップ５４〜５６のそれぞれの結果は、最終的な結果６２を決定する投票プロセス６０に印加される。要約すると、プロセス１のデータ抽出コンポーネント２８は、３つの効果的に並列な抽出プロセス、ラスタ処理６６、特徴処理６７及びベクトル処理６８を利用して、ラスタデータ４４で表現されるそれぞれの文字でそれらの最良の推測を行い、結果６２を判定するためにそれら候補となる文字に投票する。結果６２は、画像管理システム５における画像４と関連するキーであるか、又は関連するであろうキーを形成する。

図４ａ，図４ｂ及び図５は、図２におけるよりも更に詳細にインテリジェントインポートプロセス１のコンポーネントステップを例示する。図４ａを参照して、ユーザは、データレコードのような前にセットアップされたアプリケーションにおけるスクリーンにアクセスし、キーストロークコンビネーションを動作すること又は特定のアイコンをクリックすることでプロセス１をアクチベートすることで、ステップ７２でホストアプリケーション３におけるキーに基づいて画像のルックアップを開始する。これにより、プロセス１は、ステップ１４で、ホストアプリケーションユーザインタフェース（ＵＩ）又はディスプレイ２の前に指定されたキー領域からラスタデータ４４を抽出する。これは、ディスプレイバッファ（図示せず）の前に指定された座標レンジに現在記憶されている画素データの読取り及び記憶を引き起こすプロセス１により行われる。抽出されたラスタデータ４４は、ステップ７４で、ラスタ領域がカラー又はグレイスケールにレンダリングされるかを判定するためにチェックされる。ラスタ領域がカラーである場合、ステップ７６で２５６レベルのグレイスケールに変換される。ステップ７８で、グレイスケールのラスタデータは、大部分の共通の色がバックグランドであるという仮定に基づいて、「バイナリカラー」、すなわち黒及び白に境界付けする。ステップ７４，７６及び７８の全体的な目的は、如何なる色の組み合わせの選択されたラスタ領域のラスタデータを白のバックグランドの黒のテキストに変換して、ニューラルネットワーク１８〜２０への入力を簡単にすることである。選択されたラスタ領域からのラスタデータは、ステップ８０でセグメント化され、表示される個々の文字のラスタデータにラスタ領域のラスタデータを分離する。

セグメント化８０に続いて、それぞれの文字のラスタデータは、図３における処理コンポーネント２８を参照して記載されたように、ラスタ、特徴及びベクトル処理ステップ８２，８３及び８４に印加され、ラスタ処理、特徴処理及びベクトル処理により表現される異なるグラフィック規準に従ってラスタ領域内の未知の文字を記述するそれぞれのデータセットを導出する。そのように導出されたデータセットは、ステップ８８でのラスタニューラルネットワーク１８、ステップ８９での特徴ニューラルネットワーク１９、及びステップ９０でのベクトルニューラルネットワーク２０への入力として印加される。ニューラルネットワーク８８〜９０の出力は、図３の後処理コンポーネント５４、５５及び５６及び投票手順６０により記載されるように、それぞれの後処理ステップ９２（図４ｂ）に印加される。

図５は、後処理ステップ９２を更に詳細に示す。ステップ１００で、スケーリングされていない文字の高さが決定される。これは、前処理の前のオリジナルのラスタ領域からの文字の高さである。ステップ１００から進み、ステップ１０２で、バックグランドにおける外部の画素の数が文字を不明確にするか又は「疑いの」文字であるかを判定するために、文字ブロックについて信号対雑音比のチェックが行われる。疑いの文字であると判定した場合、ステップ１０４で、文字は、アスタリスクのような指定された疑いのある文字で置き換えられる。文字が疑いの文字でない場合、ステップ１０６で、文字の高さは前処理された文字の最大の高さの２画素内にあるかを判定することで、大文字の確認チェックが行われる。大文字でない場合、ステップ１０８で、文字が大文字のバージョンに変化される。このテスト１０６／１０８は、大文字：Ｃ，Ｏ，Ｓ，Ｕ，Ｖ，Ｗ，Ｘ及びＺにより特に重要である。幾分類似の小文字の確認チェック１１０は、文字の高さが最大の高さの１画素内であるかを判定する。１画素内であると判定された場合、ステップ１１２で、文字の大文字のバージョンに文字が変化される。ステップ１１０及び１１２は、小文字：ｃ，ｏ，ｓ，ｕ，ｖ，ｗ，ｘ及びｚについて特に重要である。分析中の文字がテスト１１４での（文字間スペースと対照的に）語間スペースとして認識される場合、キーシーケンスにおけるスペースは、ステップ１１６で付加される。後処理ステップ１００〜１１６は、ラスタ領域で検出されたテキストのそれぞれの文字についてステップ１１８で全て繰り返される。

ステップ１２０，１２２及び１２４は、これらの文字がオリジナルのラスタ領域に生じる環境に基づいて、すなわち数字“１”（イチ）、大文字“ｉ”（アイ）及び小文字“Ｌ”（エル）といった、曖昧な文字“１”，“ｉ”及び“ｌ”間で区別することに対処する。１つの変換ステップ１２０で、全てのスタンドアロンのステップは、文字“ｉ”に変化される。大文字“ｉ”の変換ステップ１２２で、以下の環境の条件の何れかが当てはまる場合に、それぞれの小文字“Ｌ”は大文字“ｉ”に変化される。文字が語の最初の文字である場合、又は文字が大文字で囲まれている場合、又は文字がスペースで先行される場合、文字が２つの大文字又は大文字及びスペースにより先行される場合、小文字“Ｌ”の変換ステップ１２４で、文字が小文字により先行される場合に、それぞれの大文字“ｉ”は小文字“Ｌ”に変化される。

図４ｂに戻り、テスト１２８により決定されたように、ラスタ領域で認識するために更なる文字が存在する場合、認識された後処理された文字、又は疑いの文字は、ステップ１３０で保存され、ラスタデータの前に処理された部分は移動され、及び／又はセグメント化８０は、ステップ１３２でラスタ領域の残りで実行される。後処理９２の結果は、オリジナルのセグメント化８０が不正確であることを示し、ラスタ領域で表現されるシーケンシャルな文字間の分離を発見しようとする、再セグメント化での更なる試みが行われる。テスト１２８により示されるように、所与のラスタ領域について全てのラスタデータが処理されたとき、認識された文字列は、ステップ１３４で、画像管理システム５における画像４へのキーとして保存される。認識されたキーが１以上の疑いのある文字又は認識されていない文字を含む場合、プロセス１は、ユーザの介入を必要とするメッセージを好ましくは表示して、不完全なキーの指摘された識別を確認するか、又は指定されたラスタ領域の文字コンテンツをキーとしてタイプする。

テスト１３６で決定されたように、ホストアプリケーション３のアクセスされたスクリーン又はレコードがスクリーンの更なる領域をポピュレートする更なるキーを含む場合、プロセス１は、初期化ステップ７２に戻る（図４ａ）。さもなければ、画像管理システム５の画像データベースは、ステップ１３８で、前に指定されたラスタ領域から導出された１又は複数のキーに関連される１又は複数の画像について問合せされ、ステップ１４０で表示される。図２を参照して記載されるように、画像は、図４ａ、図４ｂ及び図５に例示されるのと同様のステップを使用して、指定された領域に入力された特定のテキストに関連付けされ、画像管理システム５で記憶される。

本発明で使用される幾つかの観点の更なる理解のため、用語集が以下に提供される。
［用語集］
人工ニューラルネットワーク（ＡＮＮ）：ニューラルネットワークは、人間の脳の動作を近似するプログラム及びデータ構造のシステムである。ニューラルネットワークは、通常、並列に動作する多数のプロセッサを含み、それぞれはそれ自身の小さな知識の範囲（small sphere of knowledge）及びそのローカルメモリにおけるデータのアクセスを持つ。典型的に、ニューラルネットワークは、はじめにトレーニングされるか、大量のデータ及びデータ関係に関するルールが供給される（たとえば、「母は娘よりも年を取っている」）。プログラムは、次いで、外部の刺激（たとえばネットワークと対話しているコンピュータユーザからの入力）に応答してどのように振舞うかをネットワークに伝えるか、（外部の世界にそのアクセスの制限内で）それ自身のアクティビティを開始する。

判定をなすにおいて、ニューラルネットワークは、勾配に基づいたトレーニング、ファジーロジック、ジェネリックアルゴリズム、及びベイジアン方法を含む幾つかの原理を使用する。ニューラルネットワークは、一般に、深いレイヤを有する更に複雑なネットワークをもつナレッジレイヤの観点で記載されることがある。フィードフォワードシステムでは、データに関する学習された関係は、ナレッジの上位レイヤにフィードフォワードすることができる。ニューラルネットワークは、一時的なコンセプトをも学習し、信号処理及び時系列分析で広く使用される。

バイキュービック補間：数値解析、数学のブランチでは、バイキュービック補間は、２次元における最も一般的な補間方法のうちの１つである。この方法では、ポイント（ｘ，ｙ）での関数ｆの値ｆ（ｘ，ｙ）は、矩形のグリッド（４×４アレイ）における最も近傍にある１６の画素の重み付けされた平均として計算される。

バイナリ：バイナリは、それぞれのデジット０と１について２つのみの可能な値が存在するナンバリングスキームを説明する。用語は、正確に２つの可能な状態が存在する任意のデジタル符号化／復号化システムを示す。デジタルデータメモリ、ストレージ、処理及び通信では、０と１の値は、「ロウ」及び「ハイ」とそれぞれ呼ばれることがある。

フーリエ変換：ジョセフ・フーリエの後に命名されたフーリエ変換は、正弦波に基づいた関数の観点で、ある関数を再表現する、すなわち幾つかの係数（「振幅」）により乗算される正弦波関数の総和又は積分とする積分変換である。

グレイスケール：計算において、グレイスケール又はグレイスケールデジタル画像は、それぞれの画素の値が単一のサンプルである画像である。この種類の表示された画像は、原理的にサンプルは任意の色の会長として表示されるか、又は異なる強度の様々な色で符号化されるが、最も弱い強度での黒から最も強い強度での白に変化するグレイの階調から典型的に構成される。グレイスケール画像は、コンピュータ画像形成の環境では、白と黒である２つのみの色を持つ画像である白黒の画像とは別個であり、グレイスケール画像は、その間で多くのグレイの階調を有する。

ヒストグラム：ヒストグラムは、統計で使用される特別のグラフ又はプロットである。その最も一般的な形式では、独立の変数は、水平軸に沿ってプロットされ、従属の変数（通常はパーセンテージ）は、垂直軸に沿ってプロットされる。独立の変数は、連続の値の範囲よりも有限の多数の離散値（たとえば５）のみを達成する。従属の変数は、連続のレンジにわたる。

ラスタデータ：ラスタグラフィックスは、所与のスペースのサンプルのセットとして、（たとえば写真でスキャニングすることで）作成又は捕捉されるデジタル画像である。ラスタは、ディスプレイスクリーンのｘ及びｙ座標のグリッドである（３次元画像について、ｚ座標）。ラスタ画像ファイルは、これらの座標のうちのどれをモノクロ又はカラー値で表示するかを識別する。ラスタファイルは、ディスプレイグリッドに直接マッピングされる情報を含むために、ビットマップと呼ばれることがある。

セグメント化：画像分析では、セグメント化は、幾つかの規準に従うデジタル画像の多数の領域（画素のセット）への区分である。セグメント化の目的は、典型的に、画像で示される関心のある所定のオブジェクトを配置することである。したがって、セグメント化は、コンピュータビジョンの問題として見ることができる。残念ながら、多くの重要なセグメント化アルゴリズムは、余りにシンプルであり、この問題を正確に解くことができず、それらアルゴリズムは、それらの予測可能性、一般性及び効率性でこの制約を補償する。

ベクトルデータ：ベクトルグラフィックス又は幾何学的なモデリングは、ポイント、ライン、カーブ及び多角形のような幾何学的なプリミティブの使用である。画素（ドット）の集合として画像の表現である、用語「ラスタグラフィックス」と対照的に使用される。

本発明は、文字の認識のために人工のニューラルネットワークへの入力としての使用のためにラスタデータにより表現される文字を記述する固有なデータセットを導出する特定の技術を記述するものであるが、係る技術は、本発明の例示的な実施の形態として本明細書で提供される。しかし、固有のデータセットを導出するために他の公知の技術が存在すること、本発明で有効に利用することができることが予測される。したがって、本発明の所定の形態が例示され、本明細書で記載されるが、記載され図示される部分の特定の形式又は構成に限定されるべきではない。

本発明を実施する外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポートのプロセスの動作の環境の原理となるコンポーネントを説明する簡略化されたブロック図である。本発明のインテリジェントインポートシステムの原理となる機能的動作を説明する簡略化されたフローチャートである。本発明のインテリジェントインポートプロセスを原理となる機能的コンポーネントを説明するブロック図である。図４ａ及び図４ｂは本発明のプロセスにおける原理となるステップを説明するフローチャートである。本発明のプロセスにおける後処理ステップを説明するフローチャートである。本発明におけるトレーニング又は認識のための人工ニューラルネットワークへの入力として印加される１０×１０画素マトリクスで示される大文字“ｉ”のラスタダイアグラムである。本発明におけるトレーニング又は認識のための人工ニューラルネットワークに印加される係数を発生するため、フーリエ変換を使用した処理のための大文字“ｉ”の図である。図８ａは本発明のトレーニング又は認識のための人工ニューラルネットワークへの入力として適用することができる図６に示される大文字“ｉ”の垂直方向のヒストグラムであり、図８ｂは本発明のトレーニング又は認識のための人工ニューラルネットワークへの入力として適用することができる図６に示される大文字“ｉ”の水平方向のヒストグラムである。

Claims

グラフィック表現として選択されたデータを表示するアプリケーションプログラムから前記選択されたデータを抽出するインテリジェントインポート方法であって、
前記抽出は、前記アプリケーションプログラムの動作に影響を与えることなしに、前記アプリケーションプログラムとのユーザインタラクションなしに行われ、
当該方法は、
（ａ）前記アプリケーションプログラムの実行の間に前記アプリケーションプログラムにより表示された表示データを検索するステップと、前記表示データは前記選択されたデータのグラフィック表現を含み、
（ｂ）前記表示データを一時的に記憶するステップと、
（ｃ）前記選択されたデータのグラフィック表現から前記選択されたデータを認識するためにトレーニングされた人工ニューラルネットワークを通して前記表示データを処理するステップと、
（ｄ）前記選択されたデータのグラフィック表現から認識された前記選択されたデータを非グラフィックフォーマットで記憶するステップと、
を含む方法。
（ａ）前記アプリケーションプログラムの外部にある外部のデータファイルと前記選択されたデータを関連付けするステップと、前記アプリケーションプログラムは、前記外部のデータファイルからデータを直接レンダリングすることが不可能であり、
（ｂ）前記外部データファイルを記憶するステップと、
（ｃ）（１）前記選択されたデータのグラフィック表現を含む前記アプリケーションプログラムにより表示されるスクリーンを選択し、（２）前記人工ニューラルネットワークを通して前記選択されたデータの前記グラフィック表現を含む前記表示データを処理し、前記選択されたデータを認識することで、前記アプリケーションプログラムの実行の間に記憶された外部データファイルを検索するステップと、
（ｄ）前記選択されたデータに関連される前記記憶された外部データファイルを検索するステップと、
（ｅ）前記外部データファイルのデータをレンダリングするステップと、
を含む請求項１記載の方法。
（ａ）前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
（ｂ）前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現から前記選択されたデータを認識するためにトレーニングされる、
請求項１記載の方法。
（ａ）前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
（ｂ）前記ラスタ表現は、前記選択されたデータのベクトル表現に処理され、
（ｃ）前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現の前記ベクトル表現から前記選択されたデータを認識するためにトレーニングされる、
請求項１記載の方法。
（ａ）前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
（ｂ）前記ラスタ表現は、前記選択されたデータのベクトル表現に処理され、
（ｃ）前記ベクトル表現は、フーリエ変換により処理され、前記ベクトル表現に関連されるフーリエ係数のセットが発生され、
（ｄ）前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現の前記ベクトル表現に関連される前記フーリエ係数のセットから前記選択されたデータを認識するためにトレーニングされる、
請求項１記載の方法。
（ａ）前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
（ｂ）前記ラスタ表現のグラフィックの特徴のセットは、前記ラスタ表現から抽出され、
（ｃ）前記人工ニューラルネットワークは、前記ラスタ表現の前記グラフィックの特徴のセットから前記選択されたデータを認識するためにトレーニングされる、
請求項１記載の方法。
（ａ）前記グラフィックの特徴は、選択された方向における前記選択されたデータの前記ラスタ表現の画素のカウントのリストにより形成されるヒストグラムを含む、
請求項１記載の方法。
（ａ）前記グラフィックの特徴は、前記選択されたデータの前記ラスタ表現の文字ストロークのエンドポイントの直交座標のセットを含む、
請求項１記載の方法。
（ａ）前記グラフィックの特徴は、前記選択されたデータの前記ラスタ表現の文字ストロークの交点の位置の直交座標のセットを含む、
請求項１記載の方法。
前記選択されたデータの前記グラフィック表現は、前記選択されたデータの第一の表現を含み、
（ａ）前記選択されたデータの前記第一の表現から前記選択されたデータの第二の表現を導出するステップと、
（ｂ）前記第一の表現と前記第二の表現からそれぞれ前記選択されたデータを認識するためにトレーニングされる第一の人工ニューラルネットワークと第二の人工ニューラルネットワークを通して、前記選択されたデータの前記第一の表現と前記第二の表現を処理するステップと、
を含む請求項１記載の方法。
（ａ）前記第一及び第二のニューラルネットワークの出力を投票手順に印加し、前記選択されたデータの前記グラフィック表現からの前記選択されたデータの抽出における精度を増加させるステップを含む、
請求項１０記載の方法。
選択されたデータのグラフィック表現として前記選択されたデータを表示するアプリケーションプログラムから前記選択されたデータを抽出するインテリジェントインポート方法であって、
前記抽出は、前記アプリケーションの動作に影響を与えることなしに、前記アプリケーションプログラムとのユーザインタラクションなしに行われ、
当該方法は、
（ａ）前記アプリケーションプログラムの実行の間に前記アプリケーションプログラムにより表示された表示データを検索するステップと、前記表示データは前記選択されたデータのグラフィック表現である前記選択されたデータの第一の表現を含み、
（ｂ）前記選択されたデータの前記第一の表現から前記選択されたデータの第二の表現を導出するステップと、
（ｃ）前記表示データの前記第一の表現及び前記第二の表現を一時的に記憶するステップと、
（ｄ）第一の人工ニューラルネットワークと第二の人工ニューラルネットワークのそれぞれを通して前記表示データの第一及び第二の表現を処理するステップと、人工ニューラルネットワークのそれぞれは、前記第一及び第二の表現からの前記選択されたデータを認識するためにトレーニングされ、
（ｅ）前記第一及び第二のニューラルネットワークの出力を投票手順に印加して、前記グラフィック表現の前記第一及び第二の表現から前記選択されたデータを集合的に識別するステップと、
（ｆ）前記投票手順から認識された前記選択されたデータを記憶するステップと、
（ｇ）前記選択されたデータを前記アプリケーションプログラムの外部にある外部データファイルと関連付けするステップと、前記アプリケーションプログラムは、前記外部データファイルからデータを直接的にレンダリングするのが不可能であり、
（ｈ）前記表示可能なデータファイルを記憶するステップと、
（ｉ）その後、（１）前記選択されたデータのグラフィック表現である前記選択されたデータの第一の表現を含む前記アプリケーションプログラムにより表示されるスクリーンを選択し、（２）前記第一の表現から前記選択されたデータの前記第二の表現を導出し、（３）前記第一及び第二の人工ニューラルネットワークを通して前記選択されたデータの前記第一及び第二の表現を処理し、（４）前記第一及び第二のニューラルネットワークの出力を投票手順に印加して、前記グラフィック表現の前記第一及び第二の表現から前記選択されたデータを集合的に識別することで、前記アプリケーションプログラムの実行の間に外部データファイルを検索するステップと、
（ｊ）前記選択されたデータと関連される前記記憶された外部データファイルを検索するステップと、
（ｋ）前記外部データファイルのデータをレンダリングするステップと、
を含む方法。
実行の間に、画素のラスタパターンとして実質的に全体的なユーザインタフェースの表示を提供し、前記外部データファイルにおけるデータを直接にレンダリングすることが不可能であるアプリケーションプログラムに外部データファイルをリンクするインテリジェントインポート方法であって、
前記リンクは、前記アプリケーションプログラムの動作に影響を与えることなしに、前記アプリケーションプログラムとのユーザインタラクションなしに行われ、
当該方法は、
（ａ）前記アプリケーションプログラムの実行の間に前記アプリケーションプログラムにより表示された表示データを検索するステップと、前記表示データは前記選択されたデータのグラフィック表現を含み、
（ｂ）前記表示データを一時的に記憶するステップと、
（ｃ）前記選択されたデータのグラフィック表現から前記選択されたデータを認識するためにトレーニングされた人工ニューラルネットワークを通して前記表示データを処理するステップと、
（ｄ）前記選択されたデータのグラフィック表現から認識された前記選択されたデータを非グラフィックフォーマットで記憶するステップと、
を含む方法。
（ａ）前記アプリケーションプログラムの外部にある外部のデータファイルと前記選択されたデータを関連付けするステップと、前記アプリケーションプログラムは、前記外部のデータファイルからデータを直接レンダリングすることが不可能であり、
（ｂ）前記外部データファイルを記憶するステップと、
（ｃ）（１）前記選択されたデータのグラフィック表現を含む前記アプリケーションプログラムにより表示されるスクリーンを選択し、（２）前記人工ニューラルネットワークを通して前記選択されたデータの前記グラフィック表現を含む前記表示データを処理し、前記選択されたデータを認識することで、前記アプリケーションプログラムの実行の間に記憶された外部データファイルを検索するステップと、
（ｄ）前記選択されたデータに関連される前記記憶された外部データファイルを検索するステップと、
（ｅ）前記外部データファイルのデータをレンダリングするステップと、
を含む請求項１３記載の方法。
（ａ）前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
（ｂ）前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現から前記選択されたデータを認識するためにトレーニングされる、
請求項１３記載の方法。
（ａ）前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
（ｂ）前記ラスタ表現は、前記選択されたデータのベクトル表現に処理され、
（ｃ）前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現の前記ベクトル表現から前記選択されたデータを認識するためにトレーニングされる、
請求項１３記載の方法。
（ａ）前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
（ｂ）前記ラスタ表現は、前記選択されたデータのベクトル表現に処理され、
（ｃ）前記ベクトル表現は、フーリエ変換により処理され、前記ベクトル表現に関連されるフーリエ係数のセットが発生され、
（ｄ）前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現の前記ベクトル表現に関連される前記フーリエ係数のセットから前記選択されたデータを認識するためにトレーニングされる、
請求項１３記載の方法。
（ａ）前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
（ｂ）前記ラスタ表現のグラフィックの特徴のセットは、前記ラスタ表現から抽出され、
（ｃ）前記人工ニューラルネットワークは、前記ラスタ表現の前記グラフィックの特徴のセットから前記選択されたデータを認識するためにトレーニングされる、
請求項１３記載の方法。
（ａ）前記グラフィックの特徴は、選択された方向における前記選択されたデータの前記ラスタ表現の画素のカウントのリストにより形成されるヒストグラムを含む、
請求項１３記載の方法。
（ａ）前記グラフィックの特徴は、前記選択されたデータの前記ラスタ表現の文字ストロークのエンドポイントの直交座標のセットを含む、
請求項１３記載の方法。
（ａ）前記グラフィックの特徴は、前記選択されたデータの前記ラスタ表現の文字ストロークの交点の位置の直交座標のセットを含む、
請求項１３記載の方法。
前記選択されたデータの前記グラフィック表現は、前記選択されたデータの第一の表現を含み、
（ａ）前記選択されたデータの前記第一の表現から前記選択されたデータの第二の表現を導出するステップと、
（ｂ）前記第一の表現と前記第二の表現からそれぞれ前記選択されたデータを認識するためにトレーニングされる第一の人工ニューラルネットワークと第二の人工ニューラルネットワークを通して、前記選択されたデータの前記第一の表現と前記第二の表現を処理するステップと、
を含む請求項１３記載の方法。
（ａ）前記第一及び第二のニューラルネットワークの出力を投票手順に印加し、前記選択されたデータの前記グラフィック表現からの前記選択されたデータの抽出における精度を増加させるステップを含む、
請求項２２記載の方法。
実行の間に、画素のラスタパターンとして実質的に全体的なユーザインタフェースの表示を提供し、前記外部データファイルにおけるデータを直接にレンダリングすることが不可能であるアプリケーションプログラムに外部データファイルをリンクするインテリジェントインポート方法であって、
前記リンクは、前記アプリケーションプログラムの動作に影響を与えることなしに、前記アプリケーションプログラムとのユーザインタラクションなしに行われ、
当該方法は、
（ａ）前記アプリケーションプログラムの実行の間に前記アプリケーションプログラムにより表示された表示データを検索するステップと、前記表示データは前記選択されたデータのグラフィック表現である前記選択されたデータの第一の表現を含み、
（ｂ）前記選択されたデータの前記第一の表現から前記選択されたデータの第二の表現を導出するステップと、
（ｃ）前記表示データの前記第一の表現及び前記第二の表現を一時的に記憶するステップと、
（ｄ）第一の人工ニューラルネットワークと第二の人工ニューラルネットワークのそれぞれを通して前記表示データの第一及び第二の表現を処理するステップと、人工ニューラルネットワークのそれぞれは、前記第一及び第二の表現からの前記選択されたデータを認識するためにトレーニングされ、
（ｅ）前記第一及び第二のニューラルネットワークの出力を投票手順に印加して、前記グラフィック表現の前記第一及び第二の表現から前記選択されたデータを集合的に識別するステップと、
（ｆ）前記投票手順から認識された前記選択されたデータを記憶するステップと、
（ｇ）前記選択されたデータを前記アプリケーションプログラムの外部にある外部データファイルと関連付けするステップと、前記アプリケーションプログラムは、前記外部データファイルからデータを直接的にレンダリングするのが不可能であり、
（ｈ）前記表示可能なデータファイルを記憶するステップと、
（ｉ）その後、（１）前記選択されたデータのグラフィック表現である前記選択されたデータの第一の表現を含む前記アプリケーションプログラムにより表示されるスクリーンを選択し、（２）前記第一の表現から前記選択されたデータの前記第二の表現を導出し、（３）前記第一及び第二の人工ニューラルネットワークを通して前記選択されたデータの前記第一及び第二の表現を処理し、（４）前記第一及び第二のニューラルネットワークの出力を投票手順に印加して、前記グラフィック表現の前記第一及び第二の表現から前記選択されたデータを集合的に識別することで、前記アプリケーションプログラムの実行の間に記憶されている外部データファイルを検索するステップと、
（ｊ）前記選択されたデータと関連される前記記憶された外部データファイルを検索するステップと、
（ｋ）前記外部データファイルのデータをレンダリングするステップと、
を含む方法。