JP2008537198A - 人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート - Google Patents

人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート Download PDF

Info

Publication number
JP2008537198A
JP2008537198A JP2007556411A JP2007556411A JP2008537198A JP 2008537198 A JP2008537198 A JP 2008537198A JP 2007556411 A JP2007556411 A JP 2007556411A JP 2007556411 A JP2007556411 A JP 2007556411A JP 2008537198 A JP2008537198 A JP 2008537198A
Authority
JP
Japan
Prior art keywords
representation
selected data
data
raster
application program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007556411A
Other languages
English (en)
Inventor
ポッツ,ウェズリー,エフ
アンダーソン,ブライアン,ジー
ロジャーズ,ジェイソン,エル
ハーン,フマーユーン,エイチ
クーンズ,スコット,ティー,アール
Original Assignee
パーセプティヴ ソフトウェア,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パーセプティヴ ソフトウェア,インコーポレイテッド filed Critical パーセプティヴ ソフトウェア,インコーポレイテッド
Publication of JP2008537198A publication Critical patent/JP2008537198A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Nitrogen And Oxygen Or Sulfur-Condensed Heterocyclic Ring Systems (AREA)
  • Information Transfer Systems (AREA)

Abstract

外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポートのプロセスは、外来のアプリケーションで表示されるスクリーンの前に指定された領域からのラスタデータの抽出、文字のラスタデータの有望なセットへのラスタデータのセグメント化、候補となる文字を発生するためにそれぞれのラスタ、特徴、及びベクトルの人工ニューラルネットワークへの入力として文字ラスタデータから導出される文字のラスタデータ及び特徴データセット及びベクトルデータセットの印加、候補となる文字から文字のラスタデータにより表現される文字を識別するために投票プロセスの使用、ニューラルネットワークにより認識された残りの文字のキーへのアセンブリ、及び、その後、外来のアプリケーションで表示されるスクリーンとの関連で記憶され、検索される外部のデータファイルとキーの関連付けを含む。

Description

本発明は、人工ニューラルネットワークの使用による個別のプロセスにおける「外来の“foreign”」又は無関係のアプリケーションのユーザインタフェースをもつ文書管理及び画像形成システムを統合するプロセスに関する。
本出願は、2005年2月22日に提出された“INTELLIGENT IMPORTATION OF INFORMATION FROM FOREIGN APPLICATION USER INTERFACE BY LAYERED APPLICATION UTILIZING ARTIFICIAL INTELLIGENCE”と題された米国特許仮出願番号60/655,065、及び2006年2月21日に提出された“INTELLIGENT IMPORTATION OF INFORMATION FROM FOREIGN APPLICATION USER INTERFACE UTILIZING ARTIFICIAL INTELLIGENCE”と題された米国特許出願に基づいて、35U.S.C. 119(e)及び37C.F.R. 1.78(a)(4)の下での優先権を主張するものである。
全ての形態のビジネスは、従業員、顧客、サプライヤ、サービスプロバイダ、在庫、トランザクション、請求書、支払い等に関する記録を保持することを必要とする。係る記録の保持について、大部分の会社は、カレンダー及び財務上の機能と共にデータベース管理機能を典型的に含むビジネスアプリケーションソフトウェアを利用する。従来のタイプのデータベースレコードに加えて、注文、請求書、報告書、伝表、写真、図面、入札、契約書、否認声明書等のようなサポーティングドキュメントのレコードを保持することも必要である。多くの既存のビジネスアプリケーションは、紙のコピーが記憶される必要により、係るサポーティングドキュメントのデジタル化されたコピーにアクセス又は管理するビルトイン機能を有さない。一般に、画像の管理機能を追加するために既存のビジネスアプリケーションを変更することは望まれず、ソフトウェアのライセンスの観点で反する。代替的に、ビルトイン画像管理機能をもつ新たなソフトウェアをインストールすること、及びそれを使用するために従業員をトレーニングすることに係るコスト及び混乱は、相当なものとなる。これらの理由のため、既存のビジネスアプリケーションを「イメージイネーブルにする“image enable”」ための技術が開発されている。
現在のデスクトップコンピュータ及びオペレーティングシステムは、マルチタスク機能、すなわち複数のプログラムを同時に実行するか、少なくとも複数のプログラムを同時に開くこと及び迅速にアクセス可能にする機能を有する。したがって、ビジネスアプリケーション及び画像管理プログラムを一般に利用可能なコンピュータで同時に実行することが可能である。ビジネスアプリケーションは、ビジネスレコードを処理するために使用される。画像管理プログラムは、ビジネスレコードをサポートするドキュメントの記憶されたデジタル画像へのアクセスを提供する。画像のイネーブルメントの目標は、ビジネスレコードとそれらのレコードに関連する特定の画像ファイルとの間で便利なリンクを提供することである。
画像へのビジネスレコードのエレメントのリンクは、デジタル画像のファイル名へのビジネスレコードの特定のデータフィールドのコンテンツのキーイングを含む。たとえば、レコードの適切なデータフィールドに現れる顧客の口座番号、請求書番号、住所又は電話番号、社会保険番号等は、関連される画像へのキーとして使用される。キャラクタストリングの開始でカーソルを配置する画像管理ソフトウェアにより、又はストリングをハイライト表示することにより、データフィールドのコンテンツは自動的に選択される。画像管理ソフトウェアは、特定のキーストロークのコンビネーション、若しくはツールバー又はタスクバーでのアイコンのマウスクリックのいずれかによりアクチベートされ、サポーティングドキュメントのスキャンされた画像は、データフィールドのコンテンツ、おそらくスクリーンのデータフィールドの位置のような他の情報と共に保存される。リンキングソフトウェアは、ディスプレイバッファから読み取るか、又はコンピュータディスプレイに出力されるときにデータを傍受することで、データフィールドコンテンツを取得する。サポーティングドキュメントの画像は、適切なデータフィールドの変数を選択すること、画像管理ソフトウェアをアクチベートして、次いでデータフィールド変数が関連付けされる画像ファイルを検索し、画像を表示することで、関連されるレコードが表示されるときに再び呼び出される。係る画像のイネーブルメント技術のプロセスは、米国特許出願5,586,240号で詳細に説明され、引用により本明細書に盛り込まれる。
テキストキャラクタは、ASCIIコードにおけるように標準的なやり方で典型的にエンコードされるので、上述された画像イネーブルメントプロセスは、テキストベースであるビジネスアプリケーションに適している。しかし、幾つかのアプリケーションは、幾つかのグラフィックをもつテキストフォーマットで表示データを出力しないが、完全にグラフィックスフォーマットで出力する。これは、様々な種類のグラフィックに沿って選択されたポイントサイズ及び色の任意のフォント数でテキストを示す、ラスタライズされた又はピクセルフォーマットデータによる「スクリーンのペインティング“painting the screen”」と呼ばれることがある。係るディスプレイによりビジネスアプリケーションは、画像イネーブルメントの従来のプロセスに適していない。
本発明は、ホストアプリケーションからの情報を、リンク画像又は2つの異なるアプリケーション間のドキュメントに記憶されるデータに変換する改善された手段を提供する。本発明を実施する技術は、外部画像及びドキュメントが、ホストアプリケーションの動作に影響を及ぼすことなしにノンANCIIな、ラスタライズされるテキストフォーマットで表示されるホストアプリケーションにおけるデータと関連付けされるため、ホストアプリケーションに適用される。
本発明は、コンピュータシステムでの処理の境界にわたるデータの取得の方法に関する。本発明は、アプリケーションプログラムの動作に影響を及ぼすことなしに、そのラスタ表現としてデータを表示し、1以上の人工のニューラルネットワークを使用してASCIIテキストデータのような別の形式にラスタデータを変換するアプリケーションプログラムから選択されたデータを抽出するためのインテリジェントインポートプロセス(intelligent importation process)に向けられる。
インテリジェントインポートプロセスは、データが抽出されるデータレコードのような、アプリケーションにより表示されるスクリーンの1以上のエリアの選択により特定のアプリケーションについてセットアップされる。たとえばエリアは、係るデータレコードのデータフィールドに対応し、画像管理システムにおける画像のようなホストアプリケーションの外部によりファイルに関連されるキーとして使用されるテキストデータを含む。選択されたスクリーンエリアの座標は、処理により記憶される。実際のデータレコードをポピュレートするテキストデータは、ラスタライズされた又はピクセルフォーマットで表示される。インテリジェントインポートプロセスは、ラスタライズされたテキストデータで表示される文字を区別又はセグメント化し、1以上の人工ニューラルネットワークを使用して文字を認識するためにトレーニングされる。ひとたびプロセスがトレーニングされ、セットアップされると、アプリケーションの動作に影響を与えることなしに、ホストアプリケーションにより表示される抽出かつ認識されたラスタライズされたデータに基づいて動作を実行するために使用することができる。本発明では、このプロセスは、特定のデータレコードと関連される画像の記憶及び検索をイネーブルにすることでホストアプリケーションを「イメージエネーブルにする」ために使用される。本発明は、画像ファイルとキーを関連付けする観点で主に記載されるが、ホストアプリケーションの外部にある他のタイプのファイルは、サウンドファイル、ビデオファイル及び外部のテキストファイルのようなデータレコードとの関連のためにキーイングされることが認識される。係るタイプのデータファイルは、ホストアプリケーションが係るファイルからデータを直接のレンダリング、すなわち係る外部のデータファイルからの可能ではない点で、ホストアプリケーションに対して「外部にある」と考えられる。係る他のタイプのデータファイルは、画像ファイルに機能的に等価であると考えられ、本発明により包含されることが意図される。
一般に、本発明は、3つの処理方法及び3つの方法をそれぞれ利用する3つのフェーズに分割される。3つの処理方法は、ラスタ処理、特徴処理、及びベクトル処理を含む。3つのフェーズは、トレーニングフェーズ、テスティングフェーズ、及びプロダクションフェーズを含む。人工知能アルゴリズム及びデータ構造の使用により、そのアプリケーションにより表示されるラスタ表現に基づいてアプリケーション又はプログラムからデータが抽出される。人工知能の使用、並びにラスタ表現が前処理及び後処理される手段は、本発明の統合された部分である。
本発明のトレーニングフェーズでは、人工的なニューラルネットワークは、同じデータ値として異なる入力セットを認識するために調整され、ラスタ入力は、異なるニューラルネットワークにより検討される入力セットに変形されるために処理される。トレーニングフェーズは、それぞれのラスタ領域が表現するデータの情報を含むトレーニングロジックの多数の実行から構成される。人工のニューラルネットワークがそれぞれのデータ出力について発生するスコアに基づいて、ネットワークにおけるデシジョンポイントは、そのネットワークを正解の近くに移動させるために調整される。このプロセスは、「フィードフォワード」及び「バックプロパゲーション」と呼ばれる。
画像のラスタ表現の前処理は、人工のニューラルネットワークにより認識されるべきエリアを分離することで開始する。このケースでは、それは一度に1つのデータアイテムとなる。典型的なデータアイテムは、英数文字のピクセル又はラスタ表現であるが、句読点のシンボル、非英語文字等のような他のシンボルも使用することができる。ひとたび領域は分離されると、次いで、アプリケーションにおけるバックグランドのノイズから関心のある画素を区別する閾値アルゴリズムを実行する。このステップの結果は、認識されるべき領域のバイナリラスタ表現である。閾値ステップに続いて、セグメンテーションループが開始される。トレーニングフェーズでは、この処理は制限される。それは、人工ニューラルネットワークをトレーニングするため、一度にアイテムのトレーニングセットのうちの単一のデータアイテムのみが一度に引き出されるためである。
このポイントで、セグメント化されたラスタ表現が保存され、3つの処理方法に関連する異なる人工ニューラルネットワークに変化する入力を提供するために異なるやり方で、ラスタデータを処理するのを可能にするため、コピーが作成される。第一のネットワークは、ラスタの人工ニューラルネットワークである。これらの入力に適合するためにラスタデータを変形するため、バイキュービック補間を使用してコモンサイズにスケーリングされる必要がある。すなわち、関心のあるラスタデータのピクセルグリッドは、デジタル画像のサイズを拡大及び縮小するために一般的な技術である、いわゆるバイキュービック補間を使用して標準的なサイズに寸法的にスケーリングされる必要がある。本発明で好適な2つの標準的なサイズは、ラスタ処理の人工ニューラルネットワークへの256入力と144入力のそれぞれのネットワークに対応する、16×16及び12×12画素である。これらは、ラスタの人工ニューラルネットワークへの入力のまさに2つの可能な実施の形態であり、特許請求の範囲で定義された本発明の範囲を制限することが意図されない。バイキュービック補間を実行する間、バイナリラスタデータは、256レベルのグレイスケールデータに変換される。そのデータは、−1と1との間で変換され、0のグレイスケール値は−1に等しく、256グレイスケール値は1に等しい。
次いで、それぞれのデータアイテムが処理され、トレーニングロジックは、フィードフォワード及びバックプロパゲーションと同様に実行される。このプロセスでは、入力セットにわたり認識関数の最良の近似を捕捉する局所的な最小値にプロセスが近くなるとき、デシジョンポイント又はニューロンウェイトが変更されるレートは調整される。二乗平均誤差が増加するとき、デジションポイント又はニューロンウェイトが変更される量が低減される。逆に、二乗平均誤差が減少するとき、それぞれのバックプロパゲーションでのデシジョンポイント又はニューロンウェイトが調整される量は増加される。このネットワークは、利用される他のネットワークタイプとは独立にトレーニングされる。
データアイテムのセグメント化されたラスタ表現のコピーは、第二の処理方法である特徴に基づいた処理について使用される。このとき、データは、特徴に基づいた人工のニューラルネットワークへの入力について変換される。更なる処理は、これらの特徴を抽出する前に行われる。はじめに、画像は、50×50画素のラスタ表現及びスケルトンサイズにスケーリングされ、ステアケース除去アルゴリズムが利用され、フォントに依存しない一貫した表現にまでパターンをきれいに洗い落とし、(入力を制限するために9×9画像グリッドに基づいて)垂直及び水平ヒストグラム、エンドポイントロケーション及び交点のロケーションとして係る文字“feature”について分析される。ラスタネットワークにおけるのと同様にして、これらの特徴は、ラスタケースと同じフィードフォワード、バックプロパゲーション方法における文字を認識するためにトレーニングされる人工ニューラルネットワークへの入力に変換される。
第三の処理方法は、データアイテムのセグメント化されたラスタ表現のコピーで開始するベクトルに基づいた処理である。このとき、データはベクトル表現に変換され、境界を付ける正弦波は、フーリエ変換を使用して計算される。一般に、文字の粗いアウトラインは、ランレングスの大きさ及びたとえば30の係るセグメントといったアウトラインのセグメントの方向を有するベクトル系列からなる。最初の30のフーリエ係数は、変換、回転、及びスケーリング不変であるように処理され、次いで、ベクトルの人工ニューラルネットワーク認識システムの入力として使用される。次いで、これらの入力は、ラスタ及び特徴に基づいたケースと同じフィードフォワード、バックプロパゲーション方法において文字を認識するためにトレーニングされる人工ニューラルネットワークに供給される。
ひとたび、トレーニングフェーズが終了すると(すなわち上記エンジンのそれぞれがトレーニングセットを正しく識別し、許容可能な二乗平均誤差を有する)、次いで、それぞれのエンジンは、トレーニングセットに含まれないデータアイテムのテスティングセットを実行する。所定の文字について認識レート及び成功レートに基づいて、ラスタ、特徴及びベクトル処理の出力を受けるボーティング構造がセットアップされる。
このように別のプロセスからデータを抽出するため、スクリーンが学習される。ユーザは、データが抽出されるべきアプリケーション、及びデータをアプリケーションで発見することができるエリアを識別する必要がある。ひとたび、アプリケーションのエリアが分離されると、認識プロセスを始動することができる。この領域のラスタ表現は、アプリケーションから抽出され、領域の周囲のボックスのような外部の画素を除くために閾値方法を実行し、バイナリラスタ表現に変換する。次いで、認識ループが始動される。典型的に、選択されたラスタ表現は、認識され、ホストアプリケーションの外部にある画像又はドキュメントと関連付けされるデータアイテム又は文字のストリングを含む。第一のデータアイテムは、全体の領域の垂直ヒストグラムに従って最も可能性のあるポイントでセグメント化され、そのラスタ表現は、トレーニングフェーズで識別される人工ニューラルネットワークの瞬間を通して、それぞれのフェーズにおける認識のために概説される方法を通して処理される。次いで、異なるネットワークの出力ベクトルは、手動によりコンフォギュレーションの設定に基づいて比較され、最も可能性の高い文字について投票が行われる。投票の信頼が予め決定されたレベル以下である場合、ラスタ表現は、その領域に配置され、新たなセグメンテーションポイントは、垂直のヒストグラムに基づいて採取され、データエレメントの最大の可能なラスタレシオを超えるまで、又は許容可能な認識が行われるまで、プロセスが繰り返される。このフェーズは、アプリケーションのラスタ表現を文書管理システムにより使用されるデータに変換するため、全ての前処理、認識及び後処理ステップを使用する。
本発明の目的及び利点は、本発明の例示的な所定の実施の形態により説明される、添付図面と共に行われる以下の説明から明らかとなるであろう。
図面は、本明細書の一部を構成し、本発明の例示的な実施の形態を含み、本発明の様々な目的及び特徴を例示する。
必要に応じて、本発明の詳細な実施の形態は本明細書で開示されるが、しかし、開示される実施の形態は、様々な形式で実施される場合がある本発明の単なる例示であることを理解されたい。したがって、本明細書で開示される特定の構造的及び機能的な詳細は限定するものとして解釈されるべきではなく、特許請求の範囲を基礎とし、仮想的に適切に詳細な構造で本発明を様々に利用するため、当業者を教示するための代表的な基礎とするべきである。
更に詳細に図面を参照して、参照符号1は、人工知能を使用して外来又はホストアプリケーション3のユーザインタフェース又はラスタディスプレイ2(図1)からの情報の知的なインポートのためのプロセスを一般的に示している。プロセス1は、多数のソリューションへのアプリケーションのポテンシャルを有し、本発明では、ホストアプリケーションによりラスタライズされた形式で表示されたデータに、画像4のような外部ファイルをキーイングするホストアプリケーション3をイメージイネーブルするために使用される。ホストアプリケーション3は、たとえばオラクルファイナンシャル(Oracle Corporation of Redwood Shores, CA, www.oracle.com)のような多数のソフトウェアアプリケーションである場合がある。プロセス1は、個別の画像管理システム5を共同し、画像4を記憶及び検索するか、係る画像管理システムを内部に組み込んでいる場合がある。以下に詳細に説明されるように、プロセス1は、テキスト文字又はシンボルを認識するためにトレーニングされる必要があり、特定のホストアプリケーション3についてセットアップされる必要がある。
ホストアプリケーション3は、スタンドアロンアプリケーション又はクライアント/サーバタイプのソフトウェアである。ホストアプリケーション3、又はそのクライアントコンポーネントは、バックグランドで実行するプロセスで実行される。図2を参照して、ステップ10で、ユーザは、ホストアプリケーション3におけるデータレコードにアクセスする。ユーザが前に記憶された画像4を見るのを必要とするか、画像を記憶するのを必要とする場合、ステップ12で、ユーザは、キーストロークのコンビネーションによるか、若しくはディスプレイ2のアイコン又はボタンをマウスでクリックすることによるように、インテリジェントインポーテーション(II)プロセス1をアクチベートする。プロセス1は、ステップ14で、ディスプレイ2の前に指定されたディスプレイエリアから現在のラスタデータをコピーする。ステップ16で、プロセス1は、記憶された画像4に前に関連付けされたキーを形成するため、画像管理システム5により記憶されるべき画像と関連付けされるべきキーを形成するためにラスタデータから文字データを抽出する。プロセス1は、以下に更に詳細に説明されるように、1以上の人工ニューラルネットワーク18,19及び20(図3)を使用してラスタデータから文字データを抽出する。ステップ22で、プロセス1は、画像管理システム5にキーを送出し、このシステムは、ステップ24で画像4を記憶するか、又はステップ26で画像を検索して画像を表示させる。
図3は、本発明のインテリジェントインポートプロセス1のコアとなる抽出処理のコンポーネント28を説明する。コアとなるコンポーネント28は、人工ニューラルネットワーク18〜20を含む。一般に、本発明で使用されるような人工ニューラルネットワークは、様々なデータのパターンを認識するためにトレーニング可能であるようなやり方で、相互接続される式により定義されるシミュレートされたニューロンからなるシステムである。ラスタデータのパターンは、多くのやり方で分析され、同じラスタパターンと関連されるデータの固有のセットを発生する。既知のパターンの係るデータのセットは、ネットワークをトレーニングしてパターンを認識するためにニューラルネットワークへの入力として印加される。その後、ラスタデータの未知のパターンのデータのセットは、認識のためにネットワークの入力に印加される。
本発明は、ラスタパターンデータを分析又は処理する3つの方法を含み、それぞれの方法の人工ニューラルネットワークを提供する。第一の方法は、文字の画素の直交座標及びそれぞれの画素のバイナリカラー(黒又は白)の分析である。図6は、大文字“i”のような文字のラスタパターン32を例示する。第二の処理方法は、ラスタパターン32の所定の特徴を分析し、特徴のニューラルネットワーク19を使用する。図8a及び図8bは、特徴のニューラルネットワーク19に入力される図6に示されるラスタパターン32の垂直方向のヒストグラム34及び水平方向のヒストグラム36をそれぞれ例示している。第三の処理方法は、ベクトル処理であり、ベクトルのニューラルネットワーク20を利用して、文字40のアウトライン38又は大文字“i”を記述するベクトルを分析する。
ニューラルネットワーク18〜20は、従来のニューラルネットワークの実現であり、マルチレイヤフィードフォワードパーセプション(又はパーセプトロン)として知られるタイプである。好適なニューラルネットワーク18〜20は、1つの入力レイヤ、2つの隠されたレイヤ、及び1つの出力レイヤを含む。例示されるネットワーク18〜20のレイヤのノード又はシミュレートされたニューロンコンテンツは、たとえば、144、94、70及び94のそれぞれであるが、本発明は、係るノードコンテンツに制限されることが意図されない。この一般的なタイプのニューラルネットワークの更なる理解は、米国特許4,918,618号を引用することで得ることができ、引用により本明細書に盛り込まれる。
図3に戻り、前に指定されたディスプレイエリアからのラスタデータ44は、ニューラルネットワーク18〜20の入力への印加の前に、一般の前処理動作46に印加される。一般的に、一般の前処理動作46の目的は、ラスタデータを個々の文字にセグメント化し、標準のサイズ及び方向でラスタデータ40をレンダリングすることである。これら一般の前処理ステップ46は、初期セグメンテーションと同様に、バイナリカラーへの変換、リサイジング、デスキューイング、スケルトニゼーションを含む。更に特定の前処理動作48,49及び50は、ラスタパターン32に印加され、ニューラルネットワーク18〜20のそれぞれにとって適切であって有効であるラスタデータからデータセットを導出する。特定の前処理動作48〜50は、どのニューラルネットワーク18〜20で結果的に得られるデータセットが印加されるかに依存して異なる。ラスタニューラルネットワーク18について、ラスタ前処理動作48は、ラスタニューラルネットワーク18への入力として印加されるべき標準的なサイズの画素マトリクス内のラスタパターン32の(図6で“X”でマークされる)黒の画素の座標を導出する。なお、図6〜図8bに例示される画素マトリクスが10×10画素アレイであるが、これは例示するためのものであり、実際のマトリクスサイズは、それぞれ特定のニューラルネットワークについて適切なサイズである。特徴のニューラルネットワーク19について、特徴の前処理ステップは、エンドポイントの座標及びパターン32からのストロークの交点と共に、垂直及び水平方向のヒストグラム34及び36における黒の画素の列及び行のカウントにより、特徴のニューラルネットワークへの入力のための入力データセットを形成する。最後に、ベクトルのニューラルネットワーク20について、入力データセットは、ラスタパターン32又はそのバリエーションにより形成される文字40のアウトライン38を記述するベクトルに印加されるフーリエ変換から得られる、最初の30のようなフーリエ係数のセットを導出することで、ベクトル前処理ステップ50により形成される。
ニューラルネットワーク18〜20は、英数字及び所定の句読点シンボルを認識するためにトレーニングされる。それぞれの前処理ステップ48〜50により提供されるデータセットを処理することによる、ニューラルネットワーク18〜20のそれぞれからの出力は、候補となる文字のセット、たとえば3の候補となる文字といった、それぞれの候補となる文字の数字の確率、及びオリジナルのラスタデータ44における外部の画素の可能な存在を評価するそれぞれの候補の文字についての信号対雑音比である。ラスタ、特徴及びベクトルのニューラルネットワーク18,19及び20とそれぞれ関連される後処理ステップ54,55及び56では、それぞれのニューラルネットワーク18〜20のそれぞれの文字の候補の確率及び信号対雑音比は、特定の閾値に対して評価される。候補となる文字の値が閾値テストに失敗した場合、異なる処理規準を使用して、図3に例示されたリトライライン58により示されるように、リトライが実行される。閾値のテストの失敗を引き起こす1つの可能な問題は、不正確なセグメント化である。これを克服するため、ラスタパターンのセグメント化処理に対して調節が行われ、候補となる文字について確率及び信号対雑音比を改善するために、制限された数のリトライが行われる。
ひとたび確率及び信号対雑音比が閾値テストを通過すると、後処理ステップ54〜56は、高さ、幅及び距離の変更されていない文字のメトリクスを、最良の候補となる文字、信号対雑音比及び確率のスコアと同様に、前の文字から抽出する。最良の候補となる文字の更なる後処理は、文字メトリクス(画素における全体のディメンジョン)からの候補となる文字のケースを決定するため、文字の環境から大文字“i”(I)及び小文字“L”(l)のように曖昧な文字を区別するために使用される。後処理ステップ54〜56のそれぞれの結果は、最終的な結果62を決定する投票プロセス60に印加される。要約すると、プロセス1のデータ抽出コンポーネント28は、3つの効果的に並列な抽出プロセス、ラスタ処理66、特徴処理67及びベクトル処理68を利用して、ラスタデータ44で表現されるそれぞれの文字でそれらの最良の推測を行い、結果62を判定するためにそれら候補となる文字に投票する。結果62は、画像管理システム5における画像4と関連するキーであるか、又は関連するであろうキーを形成する。
図4a,図4b及び図5は、図2におけるよりも更に詳細にインテリジェントインポートプロセス1のコンポーネントステップを例示する。図4aを参照して、ユーザは、データレコードのような前にセットアップされたアプリケーションにおけるスクリーンにアクセスし、キーストロークコンビネーションを動作すること又は特定のアイコンをクリックすることでプロセス1をアクチベートすることで、ステップ72でホストアプリケーション3におけるキーに基づいて画像のルックアップを開始する。これにより、プロセス1は、ステップ14で、ホストアプリケーションユーザインタフェース(UI)又はディスプレイ2の前に指定されたキー領域からラスタデータ44を抽出する。これは、ディスプレイバッファ(図示せず)の前に指定された座標レンジに現在記憶されている画素データの読取り及び記憶を引き起こすプロセス1により行われる。抽出されたラスタデータ44は、ステップ74で、ラスタ領域がカラー又はグレイスケールにレンダリングされるかを判定するためにチェックされる。ラスタ領域がカラーである場合、ステップ76で256レベルのグレイスケールに変換される。ステップ78で、グレイスケールのラスタデータは、大部分の共通の色がバックグランドであるという仮定に基づいて、「バイナリカラー」、すなわち黒及び白に境界付けする。ステップ74,76及び78の全体的な目的は、如何なる色の組み合わせの選択されたラスタ領域のラスタデータを白のバックグランドの黒のテキストに変換して、ニューラルネットワーク18〜20への入力を簡単にすることである。選択されたラスタ領域からのラスタデータは、ステップ80でセグメント化され、表示される個々の文字のラスタデータにラスタ領域のラスタデータを分離する。
セグメント化80に続いて、それぞれの文字のラスタデータは、図3における処理コンポーネント28を参照して記載されたように、ラスタ、特徴及びベクトル処理ステップ82,83及び84に印加され、ラスタ処理、特徴処理及びベクトル処理により表現される異なるグラフィック規準に従ってラスタ領域内の未知の文字を記述するそれぞれのデータセットを導出する。そのように導出されたデータセットは、ステップ88でのラスタニューラルネットワーク18、ステップ89での特徴ニューラルネットワーク19、及びステップ90でのベクトルニューラルネットワーク20への入力として印加される。ニューラルネットワーク88〜90の出力は、図3の後処理コンポーネント54、55及び56及び投票手順60により記載されるように、それぞれの後処理ステップ92(図4b)に印加される。
図5は、後処理ステップ92を更に詳細に示す。ステップ100で、スケーリングされていない文字の高さが決定される。これは、前処理の前のオリジナルのラスタ領域からの文字の高さである。ステップ100から進み、ステップ102で、バックグランドにおける外部の画素の数が文字を不明確にするか又は「疑いの」文字であるかを判定するために、文字ブロックについて信号対雑音比のチェックが行われる。疑いの文字であると判定した場合、ステップ104で、文字は、アスタリスクのような指定された疑いのある文字で置き換えられる。文字が疑いの文字でない場合、ステップ106で、文字の高さは前処理された文字の最大の高さの2画素内にあるかを判定することで、大文字の確認チェックが行われる。大文字でない場合、ステップ108で、文字が大文字のバージョンに変化される。このテスト106/108は、大文字:C,O,S,U,V,W,X及びZにより特に重要である。幾分類似の小文字の確認チェック110は、文字の高さが最大の高さの1画素内であるかを判定する。1画素内であると判定された場合、ステップ112で、文字の大文字のバージョンに文字が変化される。ステップ110及び112は、小文字:c,o,s,u,v,w,x及びzについて特に重要である。分析中の文字がテスト114での(文字間スペースと対照的に)語間スペースとして認識される場合、キーシーケンスにおけるスペースは、ステップ116で付加される。後処理ステップ100〜116は、ラスタ領域で検出されたテキストのそれぞれの文字についてステップ118で全て繰り返される。
ステップ120,122及び124は、これらの文字がオリジナルのラスタ領域に生じる環境に基づいて、すなわち数字“1”(イチ)、大文字“i”(アイ)及び小文字“L”(エル)といった、曖昧な文字“1”,“i”及び“l”間で区別することに対処する。1つの変換ステップ120で、全てのスタンドアロンのステップは、文字“i”に変化される。大文字“i”の変換ステップ122で、以下の環境の条件の何れかが当てはまる場合に、それぞれの小文字“L”は大文字“i”に変化される。文字が語の最初の文字である場合、又は文字が大文字で囲まれている場合、又は文字がスペースで先行される場合、文字が2つの大文字又は大文字及びスペースにより先行される場合、小文字“L”の変換ステップ124で、文字が小文字により先行される場合に、それぞれの大文字“i”は小文字“L”に変化される。
図4bに戻り、テスト128により決定されたように、ラスタ領域で認識するために更なる文字が存在する場合、認識された後処理された文字、又は疑いの文字は、ステップ130で保存され、ラスタデータの前に処理された部分は移動され、及び/又はセグメント化80は、ステップ132でラスタ領域の残りで実行される。後処理92の結果は、オリジナルのセグメント化80が不正確であることを示し、ラスタ領域で表現されるシーケンシャルな文字間の分離を発見しようとする、再セグメント化での更なる試みが行われる。テスト128により示されるように、所与のラスタ領域について全てのラスタデータが処理されたとき、認識された文字列は、ステップ134で、画像管理システム5における画像4へのキーとして保存される。認識されたキーが1以上の疑いのある文字又は認識されていない文字を含む場合、プロセス1は、ユーザの介入を必要とするメッセージを好ましくは表示して、不完全なキーの指摘された識別を確認するか、又は指定されたラスタ領域の文字コンテンツをキーとしてタイプする。
テスト136で決定されたように、ホストアプリケーション3のアクセスされたスクリーン又はレコードがスクリーンの更なる領域をポピュレートする更なるキーを含む場合、プロセス1は、初期化ステップ72に戻る(図4a)。さもなければ、画像管理システム5の画像データベースは、ステップ138で、前に指定されたラスタ領域から導出された1又は複数のキーに関連される1又は複数の画像について問合せされ、ステップ140で表示される。図2を参照して記載されるように、画像は、図4a、図4b及び図5に例示されるのと同様のステップを使用して、指定された領域に入力された特定のテキストに関連付けされ、画像管理システム5で記憶される。
本発明で使用される幾つかの観点の更なる理解のため、用語集が以下に提供される。
[用語集]
人工ニューラルネットワーク(ANN):ニューラルネットワークは、人間の脳の動作を近似するプログラム及びデータ構造のシステムである。ニューラルネットワークは、通常、並列に動作する多数のプロセッサを含み、それぞれはそれ自身の小さな知識の範囲(small sphere of knowledge)及びそのローカルメモリにおけるデータのアクセスを持つ。典型的に、ニューラルネットワークは、はじめにトレーニングされるか、大量のデータ及びデータ関係に関するルールが供給される(たとえば、「母は娘よりも年を取っている」)。プログラムは、次いで、外部の刺激(たとえばネットワークと対話しているコンピュータユーザからの入力)に応答してどのように振舞うかをネットワークに伝えるか、(外部の世界にそのアクセスの制限内で)それ自身のアクティビティを開始する。
判定をなすにおいて、ニューラルネットワークは、勾配に基づいたトレーニング、ファジーロジック、ジェネリックアルゴリズム、及びベイジアン方法を含む幾つかの原理を使用する。ニューラルネットワークは、一般に、深いレイヤを有する更に複雑なネットワークをもつナレッジレイヤの観点で記載されることがある。フィードフォワードシステムでは、データに関する学習された関係は、ナレッジの上位レイヤにフィードフォワードすることができる。ニューラルネットワークは、一時的なコンセプトをも学習し、信号処理及び時系列分析で広く使用される。
バイキュービック補間:数値解析、数学のブランチでは、バイキュービック補間は、2次元における最も一般的な補間方法のうちの1つである。この方法では、ポイント(x,y)での関数fの値f(x,y)は、矩形のグリッド(4×4アレイ)における最も近傍にある16の画素の重み付けされた平均として計算される。
バイナリ:バイナリは、それぞれのデジット0と1について2つのみの可能な値が存在するナンバリングスキームを説明する。用語は、正確に2つの可能な状態が存在する任意のデジタル符号化/復号化システムを示す。デジタルデータメモリ、ストレージ、処理及び通信では、0と1の値は、「ロウ」及び「ハイ」とそれぞれ呼ばれることがある。
フーリエ変換:ジョセフ・フーリエの後に命名されたフーリエ変換は、正弦波に基づいた関数の観点で、ある関数を再表現する、すなわち幾つかの係数(「振幅」)により乗算される正弦波関数の総和又は積分とする積分変換である。
グレイスケール:計算において、グレイスケール又はグレイスケールデジタル画像は、それぞれの画素の値が単一のサンプルである画像である。この種類の表示された画像は、原理的にサンプルは任意の色の会長として表示されるか、又は異なる強度の様々な色で符号化されるが、最も弱い強度での黒から最も強い強度での白に変化するグレイの階調から典型的に構成される。グレイスケール画像は、コンピュータ画像形成の環境では、白と黒である2つのみの色を持つ画像である白黒の画像とは別個であり、グレイスケール画像は、その間で多くのグレイの階調を有する。
ヒストグラム:ヒストグラムは、統計で使用される特別のグラフ又はプロットである。その最も一般的な形式では、独立の変数は、水平軸に沿ってプロットされ、従属の変数(通常はパーセンテージ)は、垂直軸に沿ってプロットされる。独立の変数は、連続の値の範囲よりも有限の多数の離散値(たとえば5)のみを達成する。従属の変数は、連続のレンジにわたる。
ラスタデータ:ラスタグラフィックスは、所与のスペースのサンプルのセットとして、(たとえば写真でスキャニングすることで)作成又は捕捉されるデジタル画像である。ラスタは、ディスプレイスクリーンのx及びy座標のグリッドである(3次元画像について、z座標)。ラスタ画像ファイルは、これらの座標のうちのどれをモノクロ又はカラー値で表示するかを識別する。ラスタファイルは、ディスプレイグリッドに直接マッピングされる情報を含むために、ビットマップと呼ばれることがある。
セグメント化:画像分析では、セグメント化は、幾つかの規準に従うデジタル画像の多数の領域(画素のセット)への区分である。セグメント化の目的は、典型的に、画像で示される関心のある所定のオブジェクトを配置することである。したがって、セグメント化は、コンピュータビジョンの問題として見ることができる。残念ながら、多くの重要なセグメント化アルゴリズムは、余りにシンプルであり、この問題を正確に解くことができず、それらアルゴリズムは、それらの予測可能性、一般性及び効率性でこの制約を補償する。
ベクトルデータ:ベクトルグラフィックス又は幾何学的なモデリングは、ポイント、ライン、カーブ及び多角形のような幾何学的なプリミティブの使用である。画素(ドット)の集合として画像の表現である、用語「ラスタグラフィックス」と対照的に使用される。
本発明は、文字の認識のために人工のニューラルネットワークへの入力としての使用のためにラスタデータにより表現される文字を記述する固有なデータセットを導出する特定の技術を記述するものであるが、係る技術は、本発明の例示的な実施の形態として本明細書で提供される。しかし、固有のデータセットを導出するために他の公知の技術が存在すること、本発明で有効に利用することができることが予測される。したがって、本発明の所定の形態が例示され、本明細書で記載されるが、記載され図示される部分の特定の形式又は構成に限定されるべきではない。
本発明を実施する外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポートのプロセスの動作の環境の原理となるコンポーネントを説明する簡略化されたブロック図である。 本発明のインテリジェントインポートシステムの原理となる機能的動作を説明する簡略化されたフローチャートである。 本発明のインテリジェントインポートプロセスを原理となる機能的コンポーネントを説明するブロック図である。 図4a及び図4bは本発明のプロセスにおける原理となるステップを説明するフローチャートである。 本発明のプロセスにおける後処理ステップを説明するフローチャートである。 本発明におけるトレーニング又は認識のための人工ニューラルネットワークへの入力として印加される10×10画素マトリクスで示される大文字“i”のラスタダイアグラムである。 本発明におけるトレーニング又は認識のための人工ニューラルネットワークに印加される係数を発生するため、フーリエ変換を使用した処理のための大文字“i”の図である。 図8aは本発明のトレーニング又は認識のための人工ニューラルネットワークへの入力として適用することができる図6に示される大文字“i”の垂直方向のヒストグラムであり、図8bは本発明のトレーニング又は認識のための人工ニューラルネットワークへの入力として適用することができる図6に示される大文字“i”の水平方向のヒストグラムである。

Claims (24)

  1. グラフィック表現として選択されたデータを表示するアプリケーションプログラムから前記選択されたデータを抽出するインテリジェントインポート方法であって、
    前記抽出は、前記アプリケーションプログラムの動作に影響を与えることなしに、前記アプリケーションプログラムとのユーザインタラクションなしに行われ、
    当該方法は、
    (a)前記アプリケーションプログラムの実行の間に前記アプリケーションプログラムにより表示された表示データを検索するステップと、前記表示データは前記選択されたデータのグラフィック表現を含み、
    (b)前記表示データを一時的に記憶するステップと、
    (c)前記選択されたデータのグラフィック表現から前記選択されたデータを認識するためにトレーニングされた人工ニューラルネットワークを通して前記表示データを処理するステップと、
    (d)前記選択されたデータのグラフィック表現から認識された前記選択されたデータを非グラフィックフォーマットで記憶するステップと、
    を含む方法。
  2. (a)前記アプリケーションプログラムの外部にある外部のデータファイルと前記選択されたデータを関連付けするステップと、前記アプリケーションプログラムは、前記外部のデータファイルからデータを直接レンダリングすることが不可能であり、
    (b)前記外部データファイルを記憶するステップと、
    (c)(1)前記選択されたデータのグラフィック表現を含む前記アプリケーションプログラムにより表示されるスクリーンを選択し、(2)前記人工ニューラルネットワークを通して前記選択されたデータの前記グラフィック表現を含む前記表示データを処理し、前記選択されたデータを認識することで、前記アプリケーションプログラムの実行の間に記憶された外部データファイルを検索するステップと、
    (d)前記選択されたデータに関連される前記記憶された外部データファイルを検索するステップと、
    (e)前記外部データファイルのデータをレンダリングするステップと、
    を含む請求項1記載の方法。
  3. (a)前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
    (b)前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現から前記選択されたデータを認識するためにトレーニングされる、
    請求項1記載の方法。
  4. (a)前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
    (b)前記ラスタ表現は、前記選択されたデータのベクトル表現に処理され、
    (c)前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現の前記ベクトル表現から前記選択されたデータを認識するためにトレーニングされる、
    請求項1記載の方法。
  5. (a)前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
    (b)前記ラスタ表現は、前記選択されたデータのベクトル表現に処理され、
    (c)前記ベクトル表現は、フーリエ変換により処理され、前記ベクトル表現に関連されるフーリエ係数のセットが発生され、
    (d)前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現の前記ベクトル表現に関連される前記フーリエ係数のセットから前記選択されたデータを認識するためにトレーニングされる、
    請求項1記載の方法。
  6. (a)前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
    (b)前記ラスタ表現のグラフィックの特徴のセットは、前記ラスタ表現から抽出され、
    (c)前記人工ニューラルネットワークは、前記ラスタ表現の前記グラフィックの特徴のセットから前記選択されたデータを認識するためにトレーニングされる、
    請求項1記載の方法。
  7. (a)前記グラフィックの特徴は、選択された方向における前記選択されたデータの前記ラスタ表現の画素のカウントのリストにより形成されるヒストグラムを含む、
    請求項1記載の方法。
  8. (a)前記グラフィックの特徴は、前記選択されたデータの前記ラスタ表現の文字ストロークのエンドポイントの直交座標のセットを含む、
    請求項1記載の方法。
  9. (a)前記グラフィックの特徴は、前記選択されたデータの前記ラスタ表現の文字ストロークの交点の位置の直交座標のセットを含む、
    請求項1記載の方法。
  10. 前記選択されたデータの前記グラフィック表現は、前記選択されたデータの第一の表現を含み、
    (a)前記選択されたデータの前記第一の表現から前記選択されたデータの第二の表現を導出するステップと、
    (b)前記第一の表現と前記第二の表現からそれぞれ前記選択されたデータを認識するためにトレーニングされる第一の人工ニューラルネットワークと第二の人工ニューラルネットワークを通して、前記選択されたデータの前記第一の表現と前記第二の表現を処理するステップと、
    を含む請求項1記載の方法。
  11. (a)前記第一及び第二のニューラルネットワークの出力を投票手順に印加し、前記選択されたデータの前記グラフィック表現からの前記選択されたデータの抽出における精度を増加させるステップを含む、
    請求項10記載の方法。
  12. 選択されたデータのグラフィック表現として前記選択されたデータを表示するアプリケーションプログラムから前記選択されたデータを抽出するインテリジェントインポート方法であって、
    前記抽出は、前記アプリケーションの動作に影響を与えることなしに、前記アプリケーションプログラムとのユーザインタラクションなしに行われ、
    当該方法は、
    (a)前記アプリケーションプログラムの実行の間に前記アプリケーションプログラムにより表示された表示データを検索するステップと、前記表示データは前記選択されたデータのグラフィック表現である前記選択されたデータの第一の表現を含み、
    (b)前記選択されたデータの前記第一の表現から前記選択されたデータの第二の表現を導出するステップと、
    (c)前記表示データの前記第一の表現及び前記第二の表現を一時的に記憶するステップと、
    (d)第一の人工ニューラルネットワークと第二の人工ニューラルネットワークのそれぞれを通して前記表示データの第一及び第二の表現を処理するステップと、人工ニューラルネットワークのそれぞれは、前記第一及び第二の表現からの前記選択されたデータを認識するためにトレーニングされ、
    (e)前記第一及び第二のニューラルネットワークの出力を投票手順に印加して、前記グラフィック表現の前記第一及び第二の表現から前記選択されたデータを集合的に識別するステップと、
    (f)前記投票手順から認識された前記選択されたデータを記憶するステップと、
    (g)前記選択されたデータを前記アプリケーションプログラムの外部にある外部データファイルと関連付けするステップと、前記アプリケーションプログラムは、前記外部データファイルからデータを直接的にレンダリングするのが不可能であり、
    (h)前記表示可能なデータファイルを記憶するステップと、
    (i)その後、(1)前記選択されたデータのグラフィック表現である前記選択されたデータの第一の表現を含む前記アプリケーションプログラムにより表示されるスクリーンを選択し、(2)前記第一の表現から前記選択されたデータの前記第二の表現を導出し、(3)前記第一及び第二の人工ニューラルネットワークを通して前記選択されたデータの前記第一及び第二の表現を処理し、(4)前記第一及び第二のニューラルネットワークの出力を投票手順に印加して、前記グラフィック表現の前記第一及び第二の表現から前記選択されたデータを集合的に識別することで、前記アプリケーションプログラムの実行の間に外部データファイルを検索するステップと、
    (j)前記選択されたデータと関連される前記記憶された外部データファイルを検索するステップと、
    (k)前記外部データファイルのデータをレンダリングするステップと、
    を含む方法。
  13. 実行の間に、画素のラスタパターンとして実質的に全体的なユーザインタフェースの表示を提供し、前記外部データファイルにおけるデータを直接にレンダリングすることが不可能であるアプリケーションプログラムに外部データファイルをリンクするインテリジェントインポート方法であって、
    前記リンクは、前記アプリケーションプログラムの動作に影響を与えることなしに、前記アプリケーションプログラムとのユーザインタラクションなしに行われ、
    当該方法は、
    (a)前記アプリケーションプログラムの実行の間に前記アプリケーションプログラムにより表示された表示データを検索するステップと、前記表示データは前記選択されたデータのグラフィック表現を含み、
    (b)前記表示データを一時的に記憶するステップと、
    (c)前記選択されたデータのグラフィック表現から前記選択されたデータを認識するためにトレーニングされた人工ニューラルネットワークを通して前記表示データを処理するステップと、
    (d)前記選択されたデータのグラフィック表現から認識された前記選択されたデータを非グラフィックフォーマットで記憶するステップと、
    を含む方法。
  14. (a)前記アプリケーションプログラムの外部にある外部のデータファイルと前記選択されたデータを関連付けするステップと、前記アプリケーションプログラムは、前記外部のデータファイルからデータを直接レンダリングすることが不可能であり、
    (b)前記外部データファイルを記憶するステップと、
    (c)(1)前記選択されたデータのグラフィック表現を含む前記アプリケーションプログラムにより表示されるスクリーンを選択し、(2)前記人工ニューラルネットワークを通して前記選択されたデータの前記グラフィック表現を含む前記表示データを処理し、前記選択されたデータを認識することで、前記アプリケーションプログラムの実行の間に記憶された外部データファイルを検索するステップと、
    (d)前記選択されたデータに関連される前記記憶された外部データファイルを検索するステップと、
    (e)前記外部データファイルのデータをレンダリングするステップと、
    を含む請求項13記載の方法。
  15. (a)前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
    (b)前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現から前記選択されたデータを認識するためにトレーニングされる、
    請求項13記載の方法。
  16. (a)前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
    (b)前記ラスタ表現は、前記選択されたデータのベクトル表現に処理され、
    (c)前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現の前記ベクトル表現から前記選択されたデータを認識するためにトレーニングされる、
    請求項13記載の方法。
  17. (a)前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
    (b)前記ラスタ表現は、前記選択されたデータのベクトル表現に処理され、
    (c)前記ベクトル表現は、フーリエ変換により処理され、前記ベクトル表現に関連されるフーリエ係数のセットが発生され、
    (d)前記人工ニューラルネットワークは、前記選択されたデータの前記ラスタ表現の前記ベクトル表現に関連される前記フーリエ係数のセットから前記選択されたデータを認識するためにトレーニングされる、
    請求項13記載の方法。
  18. (a)前記選択されたデータの前記グラフィック表現は、前記選択されたデータのラスタ表現を含み、
    (b)前記ラスタ表現のグラフィックの特徴のセットは、前記ラスタ表現から抽出され、
    (c)前記人工ニューラルネットワークは、前記ラスタ表現の前記グラフィックの特徴のセットから前記選択されたデータを認識するためにトレーニングされる、
    請求項13記載の方法。
  19. (a)前記グラフィックの特徴は、選択された方向における前記選択されたデータの前記ラスタ表現の画素のカウントのリストにより形成されるヒストグラムを含む、
    請求項13記載の方法。
  20. (a)前記グラフィックの特徴は、前記選択されたデータの前記ラスタ表現の文字ストロークのエンドポイントの直交座標のセットを含む、
    請求項13記載の方法。
  21. (a)前記グラフィックの特徴は、前記選択されたデータの前記ラスタ表現の文字ストロークの交点の位置の直交座標のセットを含む、
    請求項13記載の方法。
  22. 前記選択されたデータの前記グラフィック表現は、前記選択されたデータの第一の表現を含み、
    (a)前記選択されたデータの前記第一の表現から前記選択されたデータの第二の表現を導出するステップと、
    (b)前記第一の表現と前記第二の表現からそれぞれ前記選択されたデータを認識するためにトレーニングされる第一の人工ニューラルネットワークと第二の人工ニューラルネットワークを通して、前記選択されたデータの前記第一の表現と前記第二の表現を処理するステップと、
    を含む請求項13記載の方法。
  23. (a)前記第一及び第二のニューラルネットワークの出力を投票手順に印加し、前記選択されたデータの前記グラフィック表現からの前記選択されたデータの抽出における精度を増加させるステップを含む、
    請求項22記載の方法。
  24. 実行の間に、画素のラスタパターンとして実質的に全体的なユーザインタフェースの表示を提供し、前記外部データファイルにおけるデータを直接にレンダリングすることが不可能であるアプリケーションプログラムに外部データファイルをリンクするインテリジェントインポート方法であって、
    前記リンクは、前記アプリケーションプログラムの動作に影響を与えることなしに、前記アプリケーションプログラムとのユーザインタラクションなしに行われ、
    当該方法は、
    (a)前記アプリケーションプログラムの実行の間に前記アプリケーションプログラムにより表示された表示データを検索するステップと、前記表示データは前記選択されたデータのグラフィック表現である前記選択されたデータの第一の表現を含み、
    (b)前記選択されたデータの前記第一の表現から前記選択されたデータの第二の表現を導出するステップと、
    (c)前記表示データの前記第一の表現及び前記第二の表現を一時的に記憶するステップと、
    (d)第一の人工ニューラルネットワークと第二の人工ニューラルネットワークのそれぞれを通して前記表示データの第一及び第二の表現を処理するステップと、人工ニューラルネットワークのそれぞれは、前記第一及び第二の表現からの前記選択されたデータを認識するためにトレーニングされ、
    (e)前記第一及び第二のニューラルネットワークの出力を投票手順に印加して、前記グラフィック表現の前記第一及び第二の表現から前記選択されたデータを集合的に識別するステップと、
    (f)前記投票手順から認識された前記選択されたデータを記憶するステップと、
    (g)前記選択されたデータを前記アプリケーションプログラムの外部にある外部データファイルと関連付けするステップと、前記アプリケーションプログラムは、前記外部データファイルからデータを直接的にレンダリングするのが不可能であり、
    (h)前記表示可能なデータファイルを記憶するステップと、
    (i)その後、(1)前記選択されたデータのグラフィック表現である前記選択されたデータの第一の表現を含む前記アプリケーションプログラムにより表示されるスクリーンを選択し、(2)前記第一の表現から前記選択されたデータの前記第二の表現を導出し、(3)前記第一及び第二の人工ニューラルネットワークを通して前記選択されたデータの前記第一及び第二の表現を処理し、(4)前記第一及び第二のニューラルネットワークの出力を投票手順に印加して、前記グラフィック表現の前記第一及び第二の表現から前記選択されたデータを集合的に識別することで、前記アプリケーションプログラムの実行の間に記憶されている外部データファイルを検索するステップと、
    (j)前記選択されたデータと関連される前記記憶された外部データファイルを検索するステップと、
    (k)前記外部データファイルのデータをレンダリングするステップと、
    を含む方法。
JP2007556411A 2005-02-22 2006-02-22 人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート Pending JP2008537198A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US65506505P 2005-02-22 2005-02-22
US11/358,436 US7653244B2 (en) 2005-02-22 2006-02-21 Intelligent importation of information from foreign applications user interface
PCT/US2006/006180 WO2006091626A2 (en) 2005-02-22 2006-02-22 Intelligent importation of information from foreign application user interface using artificial intelligence

Publications (1)

Publication Number Publication Date
JP2008537198A true JP2008537198A (ja) 2008-09-11

Family

ID=36927963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007556411A Pending JP2008537198A (ja) 2005-02-22 2006-02-22 人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート

Country Status (10)

Country Link
US (1) US7653244B2 (ja)
EP (1) EP1854051B1 (ja)
JP (1) JP2008537198A (ja)
KR (1) KR20070115908A (ja)
AT (1) ATE553448T1 (ja)
CA (1) CA2598686C (ja)
DK (1) DK1854051T3 (ja)
HK (1) HK1108958A1 (ja)
MX (1) MX2007010180A (ja)
WO (1) WO2006091626A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014507801A (ja) * 2011-01-19 2014-03-27 東京エレクトロン株式会社 ツール操作パラメータ及び材料測定と分光情報を関連付けることによるツール性能の改良
JP2015187807A (ja) * 2014-03-27 2015-10-29 日本電気株式会社 重要度算出装置、重要度算出装置方法、及び重要度算出装置システム

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4553241B2 (ja) * 2004-07-20 2010-09-29 株式会社リコー 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
US20100254606A1 (en) * 2005-12-08 2010-10-07 Abbyy Software Ltd Method of recognizing text information from a vector/raster image
US9799098B2 (en) 2007-04-24 2017-10-24 Massachusetts Institute Of Technology Method and apparatus for image processing
US8983170B2 (en) * 2008-01-18 2015-03-17 Mitek Systems, Inc. Systems and methods for developing and verifying image processing standards for mobile deposit
US9842331B2 (en) 2008-01-18 2017-12-12 Mitek Systems, Inc. Systems and methods for mobile image capture and processing of checks
US9292737B2 (en) 2008-01-18 2016-03-22 Mitek Systems, Inc. Systems and methods for classifying payment documents during mobile image processing
US10685223B2 (en) 2008-01-18 2020-06-16 Mitek Systems, Inc. Systems and methods for mobile image capture and content processing of driver's licenses
US8533182B1 (en) * 2012-05-31 2013-09-10 David P. Charboneau Apparatuses, systems, and methods for efficient graph pattern matching and querying
US9536139B2 (en) 2013-03-15 2017-01-03 Mitek Systems, Inc. Systems and methods for assessing standards for mobile image quality
US10055390B2 (en) * 2015-11-18 2018-08-21 Google Llc Simulated hyperlinks on a mobile device based on user intent and a centered selection of text
US9843657B1 (en) * 2016-10-27 2017-12-12 W. Jason Guzek Mobile computing/communicating attachment device
US10592751B2 (en) * 2017-02-03 2020-03-17 Fuji Xerox Co., Ltd. Method and system to generate targeted captions and summarize long, continuous media files
US10783394B2 (en) * 2017-06-20 2020-09-22 Nvidia Corporation Equivariant landmark transformation for landmark localization
US11461702B2 (en) 2018-12-04 2022-10-04 Bank Of America Corporation Method and system for fairness in artificial intelligence based decision making engines
RU2726185C1 (ru) * 2020-01-21 2020-07-09 Общество с ограниченной ответстсвенностью «Аби Продакшн» Детектирование и идентификация объектов на изображениях
US11481704B2 (en) 2021-03-09 2022-10-25 Togal.Ai Inc. Methods and apparatus for artificial intelligence conversion of change orders into an actionable interface
US11475174B2 (en) 2021-03-09 2022-10-18 Togal.Ai Inc. Methods and apparatus for artificial intelligence conversion of a two-dimensional reference into an actionable interface
US11797733B2 (en) 2021-03-09 2023-10-24 Togal.Ai Inc Artificial intelligence determination of building metrics for code compliance

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512345A (ja) * 1991-06-28 1993-01-22 Toshiba Corp 画像記憶装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4553206A (en) 1983-10-03 1985-11-12 Wang Laboratories, Inc. Image storage and retrieval
US4817050A (en) 1985-11-22 1989-03-28 Kabushiki Kaisha Toshiba Database system
US4819156A (en) 1986-06-13 1989-04-04 International Business Machines Corporation Database index journaling for enhanced recovery
JPS6482275A (en) 1987-09-25 1989-03-28 Minolta Camera Kk Digital image processor
US5208905A (en) 1987-11-16 1993-05-04 Canon Kabushiki Kaisha Document processing apparatus
US5025483A (en) 1987-12-18 1991-06-18 International Business Machines Corporation System for scanning documents without loss of image data
JPH0636182B2 (ja) 1988-02-06 1994-05-11 大日本スクリーン製造株式会社 画像ファイリング・検索方法および装置
WO1991006057A1 (en) 1989-10-20 1991-05-02 Hitachi, Ltd. Image display/processing method of formatted document and apparatus therefor
US5133024A (en) * 1989-10-24 1992-07-21 Horst Froessl Image data bank system with selective conversion
US5022091A (en) 1990-02-28 1991-06-04 Hughes Aircraft Company Image processing technique
US5337370A (en) * 1992-02-28 1994-08-09 Environmental Research Institute Of Michigan Character recognition method employing non-character recognizer
US5586240A (en) * 1992-03-11 1996-12-17 Genesis Software, Inc. Image generation and retrieval system integrated with arbitrary application using layered interface
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
US5521985A (en) * 1992-08-13 1996-05-28 International Business Machines Corporation Apparatus for recognizing machine generated or handprinted text
US5475768A (en) * 1993-04-29 1995-12-12 Canon Inc. High accuracy optical character recognition using neural networks with centroid dithering
WO1994027251A1 (en) * 1993-05-18 1994-11-24 Massachusetts Institute Of Technology Automated reading system and method
JPH0756956A (ja) * 1993-07-22 1995-03-03 Xerox Corp 人間の作成したイメージに基づくデータアクセス方法
JP2673871B2 (ja) * 1993-08-26 1997-11-05 日本アイ・ビー・エム株式会社 ニューラル・ネットワークによるパターン認識方法及び装置
US5884296A (en) * 1995-03-13 1999-03-16 Minolta Co., Ltd. Network and image area attribute discriminating device and method for use with said neural network
US5835633A (en) * 1995-11-20 1998-11-10 International Business Machines Corporation Concurrent two-stage multi-network optical character recognition system
JPH09270902A (ja) * 1996-01-31 1997-10-14 Ricoh Co Ltd 画像ファイリング方法および画像ファイリング装置
US7653600B2 (en) * 1997-05-30 2010-01-26 Capital Security Systems, Inc. Automated document cashing system
US6446119B1 (en) * 1997-08-07 2002-09-03 Laslo Olah System and method for monitoring computer usage
US6985643B1 (en) * 1998-04-30 2006-01-10 Anoto Group Ab Device and method for recording hand-written information
JP3756719B2 (ja) * 2000-01-20 2006-03-15 理想科学工業株式会社 文書修飾装置及び画像処理装置
US20040181815A1 (en) * 2001-11-19 2004-09-16 Hull Jonathan J. Printer with radio or television program extraction and formating
US7016529B2 (en) * 2002-03-15 2006-03-21 Microsoft Corporation System and method facilitating pattern recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0512345A (ja) * 1991-06-28 1993-01-22 Toshiba Corp 画像記憶装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014507801A (ja) * 2011-01-19 2014-03-27 東京エレクトロン株式会社 ツール操作パラメータ及び材料測定と分光情報を関連付けることによるツール性能の改良
JP2015187807A (ja) * 2014-03-27 2015-10-29 日本電気株式会社 重要度算出装置、重要度算出装置方法、及び重要度算出装置システム

Also Published As

Publication number Publication date
KR20070115908A (ko) 2007-12-06
WO2006091626A2 (en) 2006-08-31
DK1854051T3 (da) 2012-07-16
CA2598686A1 (en) 2006-08-31
US7653244B2 (en) 2010-01-26
MX2007010180A (es) 2008-01-11
WO2006091626A3 (en) 2009-04-23
HK1108958A1 (en) 2008-05-23
EP1854051B1 (en) 2012-04-11
EP1854051A2 (en) 2007-11-14
US20070009155A1 (en) 2007-01-11
EP1854051A4 (en) 2010-07-14
ATE553448T1 (de) 2012-04-15
CA2598686C (en) 2014-12-09

Similar Documents

Publication Publication Date Title
US7653244B2 (en) Intelligent importation of information from foreign applications user interface
US11657602B2 (en) Font identification from imagery
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
RU2699687C1 (ru) Обнаружение текстовых полей с использованием нейронных сетей
CN114155543B (zh) 神经网络训练方法、文档图像理解方法、装置和设备
US20190294921A1 (en) Field identification in an image using artificial intelligence
WO2022033095A1 (zh) 一种文本区域的定位方法及装置
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
CN109919077B (zh) 姿态识别方法、装置、介质和计算设备
CN111797886A (zh) 通过解析pdl文件为神经网络生成ocr用训练数据
CN114120349B (zh) 基于深度学习的试卷识别方法及系统
JP2016206837A (ja) オブジェクト検出方法及び画像検索システム
CN111651361A (zh) 一种基于可视化页面的无脚本自动化测试方法
CN115187456A (zh) 基于图像强化处理的文本识别方法、装置、设备及介质
CN116912604A (zh) 模型训练方法、图像识别方法、装置以及计算机存储介质
Choudhary et al. A neural approach to cursive handwritten character recognition using features extracted from binarization technique
Edan Cuneiform symbols recognition based on k-means and neural network
Chooi et al. Handwritten character recognition using convolutional neural network
WO2022125127A1 (en) Detection of image space suitable for overlaying media content
KR20190085584A (ko) 인공지능기반 휴대용 디스플레이 시스템과 연계된 문자래스터 매핑시스템
CN112329744B (zh) 一种图片文字识别方法和装置
Dharsini et al. Devanagri character image recognition and conversion into text using long short term memory
Nguyen-Tan et al. Handwriting recognition using B-Spline curve
Siranjeevi et al. Enhancing Hand Script Digitization using Deep Learning
CN117710208A (zh) 自适应模型的自我训练系统及使其进行自我训练的方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110322

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110622

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110629

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111206