JP2022549974A

JP2022549974A - ロボティックプロセスオートメーションのための文書処理フレームワーク

Info

Publication number: JP2022549974A
Application number: JP2020552804A
Authority: JP
Inventors: グリガンイオアナ; パラオポール
Original assignee: UiPath Inc
Current assignee: UiPath Inc
Priority date: 2019-09-30
Filing date: 2020-08-28
Publication date: 2022-11-30
Also published as: EP3798956A1

Abstract

ロボティックプロセスオートメーション（ＲＰＡ）のための文書処理フレームワーク（ＤＰＦ）を提供する。ＤＰＦは、同じプラットフォーム上で異なるベンダー製品をプラグアンドプレイで使用することができ、ユーザーは文書処理と文書理解ワークフローのための基本的なスキーマを設定し得る。ＤＰＦは、ユーザーが、タクソノミを定義すること、ファイルをデジタル化すること、ファイルを１または複数の文書タイプに分類すること、分類を検証すること、データを抽出すること、抽出されたデータを確認すること、分類子を訓練すること、および／または抽出子を訓練することを可能にし得る。ソフトウェア開発者がＤＰＦを管理し、独自の分類子および抽出子のコンポーネントを構築するためにソフトウェア開発者が使用するパブリックパッケージが提供され得る。【選択図】図１

Description

（関連出願への相互参照）
本出願は、２０１９年９月３０日に出願された米国非仮特許出願第１６／５８７，３８６号の利益を主張する。先に提出された本出願の主題は、その全体を参照することにより、本明細書に組み込まれる。

本発明は、一般に、ロボティックプロセスオートメーション（ＲＰＡ）に関し、より具体的には、ＲＰＡのための文書処理フレームワーク（ＤＰＦ）に関する。

市販の電子文書処理ツールのほとんどは、単一のプラットフォーム上で文書処理を行う。また、文書処理分野のほとんどのベンダーは、サードパーティ製の製品とコンポーネントを交換できないブラックボックスソリューションを提供する。この制限のため、複数のベンダーを使用したいお客は、２つ以上の並列統合を設定し、２つ以上の異なるツールを使用するための従業員の訓練を行い、これらの業務を実行するためのそれぞれのユーザーインターフェースを用意する必要がある。この問題は、文書処理のための複数の技術を統合することを目的としたソリューションに存在し、必ずしもＲＰＡ固有のものではない。確かに、ベンダーごとに別途ワークフローが必要になる。

さらに、独自のカスタム文書処理アルゴリズムを使用したいユーザーは、エンドツーエンドのプロセスでそれらを統合して使用できるようにするために、インフラストラクチャ全体を自分で構築する必要がある。そのような文書処理アルゴリズムには、複数のＯＣＲベンダーを使用したデジタル化の処理、異なるソリューション間でのタクソノミマッピングの処理、異なるベンダーの文書処理アルゴリズムの統合および構成、統一されたデータフォーマットの下での複数のベンダーからの結果の統合などが含まれるが、これらに限定されるものではない。以上のことを考えると、改善された文書処理フレームワークソリューションが有益であり得る。

本発明の特定の実施形態は、現在のコンピュータベースの文書処理技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、ＲＰＡ用のＤＰＦに関する。

実施形態では、コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体上に具現化される。プログラムは、少なくとも１つのプロセッサに、ＲＰＡワークフロー内の１または複数の分類子を使用してファイルを１または複数の文書タイプに自動的に分類させ、自動分類の結果を分類データ構造体に格納するように構成される。プログラムはまた、少なくとも１つのプロセッサに、ＲＰＡワークフロー内の１または複数の抽出子を使用して分類ファイルからデータを自動的に抽出させ、自動的に抽出されたデータを抽出データ構造体に格納させるように構成される。プログラムは、少なくとも１つのプロセッサに、自動的に抽出されたデータを出力させるようにさらに構成される。

別の実施形態では、コンピュータ実装方法は、コンピューティングシステムによって、定義された文書タイプのリストと定義された文書タイプのそれぞれのための関連するフィールドをタクソノミマネージャから受信し、コンピューティングシステムによって、文書タイプのリストと関連するフィールドとをマスタータクソノミデータ構造体内に格納することを含む。コンピュータ実装方法はまた、コンピューティングシステムによって、ＲＰＡワークフロー内で１または複数の分類子を使用して、ファイルを１または複数の文書タイプに自動的に分類し、コンピューティングシステムによって、自動分類の結果を分類データ構造体に格納することを含む。コンピュータ実装方法はさらに、コンピューティングシステムにより、自動分類の結果を出力することを含む。

さらに別の実施形態では、システムは、コンピュータプログラム命令を格納するメモリと、コンピュータプログラム命令を実行するように構成された少なくとも１つのプロセッサとを含む。命令は、少なくとも１つのプロセッサが、タクソノミマネージャから、定義された文書タイプのリストと定義された文書タイプのそれぞれに関連するフィールドを受信するように構成される。命令はまた、少なくとも１つのプロセッサが、ＲＰＡワークフローにおけるデジタル化アクティビティを実行し、ファイルのテキストバージョンとドキュメントオブジェクトモデル（ＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ））を出力するように構成される。命令はさらに、少なくとも１つのプロセッサが、ファイルを、ＲＰＡワークフロー内の１または複数の分類子を使用して１または複数の文書タイプに自動的に分類し、ＲＰＡワークフロー内の１または複数の抽出子を使用して、分類された文書からデータを自動的に抽出するように構成される。さらに、命令はさらに、少なくとも１つのプロセッサが、自動的に抽出されたデータを出力するように構成される。

本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。

本発明の実施形態による、ＲＰＡシステムを示すアーキテクチャ図である。

本発明の実施形態による、展開したＲＰＡシステムを示すアーキテクチャ図である。

本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。

本発明の実施形態による、ＲＰＡ用のＤＰＦを提供するように構成されたコンピューティングシステムを示すアーキテクチャ図である。

本発明の実施形態による、タクソノミマネージャを示すスクリーンショットである。

本発明の実施形態による、タクソノミマネージャの文書タイプ定義インターフェースを示すスクリーンショットである。

本発明の実施形態による、タクソノミマネージャの文書タイプ詳細インターフェースを示すスクリーンショットである。

本発明の実施形態による、タクソノミマネージャの編集フィールドインターフェースを示すスクリーンショットである。

本発明の実施形態による、デジタル化アクティビティを伴うＲＰＡワークフローを示すスクリーンショットである。

本発明の実施形態による、デジタル化アクティビティを伴うＲＰＡワークフローの一部の拡大図である。

本発明の実施形態による、分類文書範囲のワークフローを示すスクリーンショットである。

本発明の実施形態による、分類子構成インターフェースを示すスクリーンショットである。

本発明の実施形態による、データ抽出範囲のワークフローを示すスクリーンショットである。

本発明の実施形態による、抽出子構成インターフェースを示すスクリーンショットである。

本発明の実施形態による、抽出子構成インターフェースの文書タイプおよびフィールドペインを示すスクリーンショットである。

本発明の実施形態による、抽出子構成インターフェースのＦｌｅｘｉＣａｐｔｕｒｅ（商標）抽出子ペインを示すスクリーンショットである。

本発明の実施形態による、抽出子構成インターフェースの固定形態の抽出子ペインを示すスクリーンショットである。

本発明の実施形態による、分類子および抽出子の訓練ワークフローを示すスクリーンショットである。

本発明の実施形態による、分類子訓練構成インターフェースを示すスクリーンショットである。

本発明の実施形態による、ＲＰＡ用のＤＰＦを実装するためのプロセスを示すフローチャートである。

（実施形態の詳細な説明）
いくつかの実施形態は、ロボティックプロセスオートメーション（ＲＰＡ）のための文書処理フレームワーク（ＤＰＦ）に関連する。いくつかの実施形態では、ＤＰＦは、同じプラットフォーム上で異なるベンダー製品をプラグアンドプレイで使用することができ、ユーザーは文書処理と文書理解ワークフローのための基本的なスキーマを設定し得る。したがって、ＤＰＦは、限定されないが、デジタル化、文書分類、およびデータ抽出などのタスクのために、ユーザーがアプリケーション内のアルゴリズムまたはサードパーティのアルゴリズムを使用して、フロー全体を通して文書を処理することを可能にし得る。これにより、統一された経験が提供され、ベンダーのロックインを回避し得る。いくつかの実施形態のＤＰＦは、このプラグアンドプレイアプローチにより、各使用ケースのニーズに基づいて文書処理技術の組み合わせ、置換、優先順位付け、およびフィルタリングをサポートし、それにより、解決すべき各特定の問題に対して適切なソリューションを選択する際の柔軟性を提供する。

いくつかの実施形態では、ＤＰＦは、ユーザーが、（１）タクソノミ（すなわち、文書タイプの収集）を定義し、（２）機械読み取り可能なテキストを得るためにファイルを処理してデジタル化し、（３）文書分類のための利用可能なアルゴリズムの組み合わせを使用して、文書タイプとページの範囲を各分類結果に割り当てることにより、ファイルを１または複数の文書タイプに分類し、（４）人がファイルの分解と分類を確認／修正／手動で行うことができるツールを介して確認を検証し、（５）データ抽出のための利用可能なアルゴリズムの組み合わせを使用して文書内またはページの範囲から識別された値を要求されたフィールドに割り当てることによってデータを抽出し、（６）人がデータ抽出を確認／修正／手動で行うことができるツールを介して抽出を確認し、（７）分類アルゴリズムが、人のフィードバックを受信し、必要に応じてフィードバックループをトリガするように構成されていることを確認することにより分類子を訓練し、および／または（８）抽出アルゴリズムが、人のフィードバックを受信し、必要に応じてフィードバックループをトリガするように構成されていることを確認することにより抽出子を訓練するようにする。

いくつかの実施形態のＤＰＦはまた、ソフトウェア開発者（例えば、サードパーティ企業の開発者または個人の貢献者）がＤＰＦを管理し、分類子および抽出子コンポーネントを含むがこれらに限定されない独自の文書処理コンポーネントを構築するために使用することができる公開パッケージを含む。いくつかの実施形態における公開パッケージは、以下を含むが、これらに限定されない。（１）タクソノミ、文書、および抽出結果のデータ構造体と共にこれらの管理を支援する機能、（２）カスタム分類子および抽出子コンポーネントを構築するために使用される抽象的なクラスおよびインターフェース、ならびに／または（３）分類またはデータ抽出の出力を報告する際に使用されるデータ抽出および分類の入出力データ構造体およびコントラクト。この公開パッケージは、ＤＰＦ全体が完全にスケーラブルでオープンであり、サードパーティがＤＰＦと完全に互換性のある統一された方法で使用ケース固有のコンポーネントまたはソリューション固有のコンポーネントを開発するために使用できることを保証し得る。

図１は、本発明の実施形態による、ＲＰＡシステム１００を示すアーキテクチャ図である。ＲＰＡシステム１００は、開発者がワークフローを設計して実装することを可能にするデザイナ１１０を含む。デザイナ１１０は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術（ＩＴ）タスク、およびビジネスＩＴプロセスを自動化する。デザイナ１１０は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ１１０は、ワークフローおよびロボットの開発およびデプロイメントを容易にする。

自動化プロジェクトは、本明細書で「アクティビティ」と定義されるワークフローで開発されたカスタムセットのステップ間の実行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ１１０の実施形態の商業的な一例は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。

ワークフローのタイプには、シーケンス、フローチャート、有限状態機械（ＦＳＭ）、および／またはグローバル例外ハンドラなどがあるが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフローに特に適し得る。ＦＳＭは、条件（すなわち、遷移）またはアクティビティによってトリガされる有限の数の状態をそれらの実行中に使用し得る。グローバル例外ハンドラは、実行エラーに遭遇したときのワークフローの動作を決定したり、プロセスをデバッグしたりするのに特に適し得る。

ワークフローがデザイナ１１０内で開発されると、ビジネスプロセスの実行は、コンダクタ１２０によって調整され、デザイナ１１０内で開発されたワークフローを実行する１または複数のロボット１３０を調整する。コンダクタ１２０の実施形態の商業的な一例は、ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）である。コンダクタ１２０は、環境におけるリソースの生成、監視、およびデプロイメントの管理を容易にする。コンダクタ１２０は、サードパーティのソリューションおよびアプリケーションとの統合ポイントとして動作し得る。

コンダクタ１２０は、全てのロボット１３０を管理し得、ロボット１３０を集中ポイントから接続して実行する。管理され得るロボット１３０のタイプには、アテンディッドロボット１３２、アンアテンディッドロボット１３４、開発ロボット（アンアテンディッドロボット１３４と同様であるが、開発およびテストの目的で使用される）、および非生産ロボット（アテンディッドロボット１３２と同様であるが、開発およびテストの目的で使用される）が含まれるが、これらに限定されない。アテンディッドロボット１３２は、ユーザーイベントによってトリガされ、同じコンピューティングシステム上で人と並んで動作する。アテンディッドロボット１３２は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ１２０とともに使用され得る。アテンディッドロボット１３２は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによってトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ１２０から開始することができず、および／またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット１３２は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット１３２は、いくつかの実施形態では、人の監督下で動作することが好ましい。

アンアテンディッドロボット１３４は、仮想環境で無人で動作し、多くのプロセスを自動化し得る。アンアテンディッドロボット１３４は、リモート実行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ１１０で実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、ＶＭ、エンタープライズアプリケーション（例えば、ＳＡＰ（登録商標）、ＳａｌｅｓＦｏｒｃｅ（登録商標）、Ｏｒａｃｌｅ（登録商標）などによって生成されたもの）、およびコンピューティングシステムアプリケーション（例えば、デスクトップおよびラップトップアプリケーション、モバイル装置アプリケーション、ウェアラブルコンピュータアプリケーションなど）を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。

コンダクタ１２０は、プロビジョニング、デプロイメント、構成、キューイング、監視、ロギング、および／または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット１３０とコンダクタ１２０（例えば、ウェブアプリケーション）との間の接続を作成し、維持することを含み得る。デプロイメントは、実行のために割り当てられたロボット１３０へのパッケージバージョンの正しい配信を保証することを含み得る。構成は、ロボット環境およびプロセス構成のメンテナンスおよび配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの識別データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース（例えば、ＳＱＬデータベース）および／または別のストレージメカニズム（例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）へのログの保存およびインデックス作成を含み得る。コンダクタ１２０は、サードパーティのソリューションおよび／またはアプリケーションのための通信の集中点として動作することにより、相互接続性を提供し得る。

ロボット１３０は、デザイナ１１０で構築されたワークフローを実行する実行エージェントである。ロボット（複数可）１３０のいくつかの実施形態の１つの商業的な例は、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）である。いくつかの実施形態では、ロボット１３０は、デフォルトで、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｉｃｅＣｏｎｔｒｏｌＭａｎａｇｅｒ（ＳＣＭ）管理サービスをインストールする。その結果、このようなロボット１３０は、ローカルシステムアカウントの下でインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開くことができ、Ｗｉｎｄｏｗｓ（登録商標）サービスの権利を有し得る。

いくつかの実施形態では、ロボット１３０は、ユーザーモードで設置され得る。このようなロボット１３０については、所定のロボット１３０が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各機械を最大限に全活用することを保証する高密度（ＨＤ）ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット１３０は、ＨＤ環境で構成され得る。

いくつかの実施形態におけるロボット１３０は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、ＳＣＭ管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。ＳＣＭ管理ロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と実行ホスト（すなわち、ロボット１３０が実行されるコンピューティングシステム）との間のプロキシとして動作する。これらのサービスは、ロボット１３０の資格情報を信頼して管理する。コンソールアプリケーションは、ローカルシステム下のＳＣＭによって起動される。

いくつかの実施形態におけるユーザーモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と実行ホストとの間のプロキシとして動作する。ユーザーモードのロボットサービスは、ロボット１３０の資格情報を信頼して管理し得る。ＳＣＭ管理ロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動され得る。

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッションの下で与えられたジョブを実行し得る（つまり、ワークフローを実行し得る。エグゼキュータは、モニタ毎のドットパーインチ（ＤＰＩ）設定を意識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであり得る。エージェントはサービスのクライアントとなり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。

上で説明したように、ロボット１３０のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが何を実行しているかをより容易に実行し、識別し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な動作を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのＤＰＩ設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのＤＰＩで実行し得る。また、いくつかの実施形態では、デザイナ１１０からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。ＤＰＩを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではＤＰＩを無効にし得る。

図２は、本発明の実施形態による、展開したＲＰＡシステム２００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム２００は、図１のＲＰＡシステム１００であってもよく、またはその一部であってもよい。クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション２１０は、エグゼキュータ２１２、エージェント２１４、およびデザイナ２１６を含む。しかし、いくつかの実施形態では、デザイナ２１６は、コンピューティングシステム２１０上で実行されていなくてもよい。エグゼキュータ２１２はプロセスを実行する。図２に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント２１４（例えば、Ｗｉｎｄｏｗｓ（登録商標）サービス）は、本実施形態では、全てのエグゼキュータ２１２のための単一の接続ポイントである。この実施形態における全てのメッセージは、コンダクタ２３０に記録され、コンダクタ２３０は、データベースサーバー２４０、インデクササーバー２５０、またはその両方を介して、それらをさらに処理する。図１に関して上述したように、エグゼキュータ２１２は、ロボットコンポーネントであり得る。

いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数の対話型セッションをサポートするコンピューティングシステム（Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ２０１２など）では、複数のロボットが同時に実行され、それぞれが一意のユーザー名を使用して別々のＷｉｎｄｏｗｓ（登録商標）セッションで実行され得る。これは、上記のＨＤロボットと呼ばれる。

エージェント２１４はまた、ロボットの状態を送信し（例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する）、実行されるパッケージの必要なバージョンをダウンロードすることにも責任を負う。エージェント２１４とコンダクタ２３０との間の通信は、いくつかの実施形態では、常にエージェント２１４によって開始される。通知シナリオでは、エージェント２１４は、後にコンダクタ２３０によってロボットにコマンド（例えば、開始、停止など）を送信するために使用されるＷｅｂＳｏｃｋｅｔチャネルを開いてもよい。

サーバー側には、プレゼンテーション層（ウェブアプリケーション２３２、オープンデータプロトコル（ＯＤａｔａ）代表状態転送（ＲＥＳＴ）アプリケーションプログラミングインターフェース（ＡＰＩ）エンドポイント２３４、通知および監視２３６）、サービス層（ＡＰＩ実装／ビジネスロジック２３８）、永続層（データベースサーバー２４０、インデクササーバー２５０）が含まれる。コンダクタ２３０は、ウェブアプリケーション２３２、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４、通知および監視２３６、ならびにＡＰＩ実装／ビジネスロジック２３８を含む。いくつかの実施形態では、ユーザーがコンダクタ２３０のインターフェース（例えば、ブラウザ２２０を介して）で実行するほとんどのアクションは、様々なＡＰＩを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加／削除、アンアテンディッドで実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション２３２は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション２３２は、ハイパーテキストマークアップ言語（ＨＴＭＬ）およびジャバスクリプト（ＪＳ）を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ２３０を制御するための様々な動作を実行するために、本実施形態ではブラウザ２２０を介してウェブアプリケーション２３２からのウェブページと対話する。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および／またはプロセス毎のログを解析し、ロボットを起動しおよび停止し得る。

ウェブアプリケーション２３２に加えて、コンダクタ２３０は、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。ＲＥＳＴＡＰＩは、ウェブアプリケーション２３２とエージェント２１４の両方によって消費される。エージェント２１４は、本実施形態では、クライアントコンピュータ上の１または複数のロボットのスーパーバイザである。

本実施形態のＲＥＳＴＡＰＩは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングＲＥＳＴエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントＲＥＳＴエンドポイントは、コンダクタ２３０においてジョブ開始コマンドが使用された場合に実行されるべきパッケージのバージョンを問い合わせるためにロボットによって使用されてもよい。キューイングＲＥＳＴエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。

ＲＥＳＴエンドポイントの監視は、ウェブアプリケーション２３２およびエージェント２１４を監視してもよい。通知および監視ＡＰＩ２３６は、エージェント２１４の登録、エージェント２１４への構成設定の配信、およびサーバーとエージェント２１４との間の通知の送受信に使用されるＲＥＳＴエンドポイントであってもよい。通知および監視ＡＰＩ２３６は、いくつかの実施形態では、ＷｅｂＳｏｃｋｅｔ通信を使用してもよい。

永続層は、本実施形態では、一対のサーバー－データベースサーバー２４０（例えば、ＳＱＬサーバー）およびインデクササーバー２５０－を含む。本実施形態におけるデータベースサーバー２４０は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション２３２を介して管理される。データベースサーバー２４０は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー２４０は、ロボットによって記録されたメッセージを（インデクササーバー２５０に加えて、またはインデクササーバー２５０に代えて）格納してもよい。

いくつかの実施形態では任意であるが、インデクササーバー２５０は、ロボットによって記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー２５０は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー２５０は、オープンソースプロジェクトの全文検索エンジンであるＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）を使用する。ロボットによって記録されたメッセージ（例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して）は、ロギングＲＥＳＴエンドポイント（複数可）を介してインデクササーバー２５０に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。

図３は、本発明の実施形態による、デザイナ３１０、アクティビティ３２０、３３０、およびドライバ３４０の間の関係３００を示すアーキテクチャ図である。以上のように、開発者は、デザイナ３１０を用いて、ロボットによって実行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ３２０およびＵＩ自動化アクティビティ３３０を含んでもよい。いくつかの実施形態では、画像中の非テキストの視覚的コンポーネントを識別することができ、これは、本明細書ではコンピュータビジョン（ＣＶ）と呼ばれる。このようなコンポーネントに関連するいくつかのＣＶアクティビティは、クリック、タイプ、テキストを取得、ホバー、要素の有無を検出、スコープの更新、ハイライトなどを含むが、これらに限定されない。いくつかの実施形態では、クリックは、例えば、ＣＶ、光学的文字認識（ＯＣＲ）、ファジーテキストマッチング、およびマルチアンカーを使用して要素を識別し、それをクリックする。タイプは、上記および要素内のタイプを用いて要素を識別してもよい。テキストの取得は、特定のテキストの場所を特定し、ＯＣＲを使用してそれをスキャンし得る。ホバーは、要素を識別し、その上にホバーし得る。要素の有無の検出は、上述した技術を用いて、画面上に要素の有無を検出するかどうかを確認し得る。いくつかの実施形態では、デザイナ３１０に実装され得る数百または数千でさえのアクティビティが存在してもよい。しかし、本発明の範囲を逸脱することなく、いずれかの数および／またはアクティビティのタイプを利用することができる。

ＵＩ自動化アクティビティ３３０は、低レベルのコード（例えば、ＣＶアクティビティ）で記述され、画面との対話を促進する特別な低レベルのアクティビティのサブセットである。ＵＩ自動化アクティビティ３３０は、ロボットが所望のソフトウェアと対話することを可能にするドライバ３４０を介して、これらの対話を促進する。例えば、ドライバ３４０は、ＯＳドライバ３４２、ブラウザドライバ３４４、ＶＭドライバ３４６、エンタープライズアプリケーションドライバ３４８などを含んでもよい。

ドライバ３４０は、フックを探したり、キーを監視したりするなど、低レベルでＯＳと対話してもよい。それらは、Ｃｈｒｏｍｅ（登録商標）、ＩＥ（登録商標）、Ｃｉｔｒｉｘ（登録商標）、ＳＡＰ（登録商標）などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ３４０を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。

図４は、本発明の実施形態による、ＲＰＡシステム４００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム４００は、図１および／または図２のＲＰＡシステム１００および／または２００であってもよいし、それを含んでもよい。ＲＰＡシステム４００は、ロボットを実行する複数のクライアントコンピューティングシステム４１０を含む。コンピューティングシステム４１０は、その上で実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム４２０と通信することができる。コンダクタコンピューティングシステム４２０は、順番に、データベースサーバー４３０および任意のインデクササーバー４４０と通信することができる。

図１および図３に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、いずれかの適切なクライアント／サーバーソフトウェアを使用することができることに留意すべきである。例えば、コンダクタは、クライアントコンピューティングシステム上で、非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバーサイドアプリケーションを実行してもよい。

図５は、本発明の実施形態による、ＲＰＡ用のＤＰＦを提供するように構成されたコンピューティングシステム５００を示すアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム５００は、本明細書に描かれたおよび／または記載された１または複数のコンピューティングシステムであってもよい。コンピューティングシステム５００は、情報を通信するためのバス５０５または他の通信機構と、情報を処理するためのバス５０５に結合されたプロセッサ（複数可）５１０とを含む。プロセッサ（複数可）５１０は、中央処理ユニット（ＣＰＵ）、特定用途集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックスプロセッシングユニット（ＧＰＵ）、それらの複数のインスタンス、および／またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ（複数可）５１０はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも１つのプロセッサ（複数可）５１０は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。

コンピューティングシステム５００は、プロセッサ（複数可）５１０によって実行される情報および命令を格納するためのメモリ５１５をさらに含む。メモリ５１５は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらの組み合わせのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ（複数可）５１０によってアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。

さらに、コンピューティングシステム５００は、無線および／または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信装置５２０を含む。いくつかの実施形態では、通信装置５２０は、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅ）通信、汎用パケット無線サービス（ＧＰＲＳ：ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）、ユニバーサル移動体通信システム（ＵＭＴＳ：ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ：ＷｉｄｅｂａｎｄＣＤＭＡ）、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速アップリンクパケットアクセス（ＨＳＵＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速パケットアクセス（ＨＳＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓ）、ロングタームエボリューション（ＬＴＥ：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥアドバンスト（ＬＴＥ－Ａ：ＬＴＥＡｄｖａｎｃｅｄ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、Ｚｉｇｂｅｅ、超広帯域無線（ＵＷＢ：Ｕｌｔｒａ－ＷｉｄｅＢａｎｄ）、８０２．１６ｘ、８０２．１５、ＨｏｍｅＮｏｄｅ－Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、無線ＩＤタグ（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、近距離無線通信（ＮＦＣ：Ｎｅａｒ－ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ）、第５世代（５Ｇ）、ＮｅｗＲａｄｉｏ（ＮＲ）、それらのいずれかの組み合わせ、および／または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および／またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信装置５２０は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および／またはいずれかの他のアンテナ構成である１または複数のアンテナを含み得る。

プロセッサ（複数可）５１０は、バス５０５を介して、プラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、電界放出ディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、フレキシブルＯＬＥＤディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細ディスプレイ、Ｒｅｔｉｎａ（登録商標）ディスプレイ、ＩＰＳ（Ｉｎ－ＰｌａｎｅＳｗｉｔｃｈｉｎｇ）ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ５２５にさらに結合されている。ディスプレイ５２５は、抵抗方式、静電容量方式、表面弾性波（ＳＡＷ）静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ（ハプティック）ディスプレイ、３次元（３Ｄ）タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示装置およびハプティックＩ／Ｏを使用することができる。

コンピュータマウス、タッチパッドなどのようなキーボード５３０およびカーソル制御装置５３５は、ユーザーがコンピューティングシステムとインターフェースすることを可能にするために、バス５０５にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ５２５および／またはタッチパッド（図示せず）のみを介してデバイスと対話することができる。入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力装置および／またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム５００と通信している別のコンピューティングシステムを介してリモートでコンピューティングシステム５００と対話してもよいし、コンピューティングシステム５００は自律的に動作してもよい。

メモリ５１５は、プロセッサ（複数可）５１０によって実行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム５００のためのオペレーティングシステム５４０を含む。モジュールはさらに、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成されたＤＰＦモジュール５４５を含む。コンピューティングシステム５００は、付加的な機能を含む１または複数の付加的な機能モジュール５５０を含み得る。

当業者であれば、「システム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」によって実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技術と整合性のあるローカライズされた形態および分散された形態で実装されてもよい。

本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積（ＶＬＳＩ）回路またはゲートアレイ、ロジックチップ、トランジスタ、または他のディスクリート構成要素のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジック装置、グラフィックス処理ユニットなどのプログラマブルハードウェア装置に実装され得る。

モジュールまたは、様々なタイプのプロセッサによって実行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、識別された実行可能コードの単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の１または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、実行可能な識別されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュ装置、ＲＡＭ、テープ、および／または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかのそのような非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。

実際、実行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリ装置間に分散されていてもよい。同様に、操作データは、モジュール内で識別され、ここで示されてもよく、いずれかの適切なタイプのデータ構造体内でいずれかの適切な形態で具現化され、組織化され得る。操作データは、単一のデータセットとして収集されてもよいし、または異なる記憶装置にわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。

タクソノミの定義および管理

文書処理のためのワークフローを設計する前に、いくつかの実施形態のＤＰＦは、ユーザーが、分類およびデータ抽出の対象となる文書タイプのリストを、文書タイプのそれぞれのための関連するフィールド（すなわち、文書および関連するタイプの中で検索されるべき情報）とともに定義することを可能にする。これは、いくつかの実施形態では、タクソノミマネージャを使用して達成されてもよい。定義されたタクソノミ情報は、ソフトウェア開発者およびＲＰＡ開発者の両方がタクソノミーオブジェクトを操作するためにプログラム的に使用できるように、パブリックパッケージ内のクラスとして定義されたパブリックプロプライエタリデータ構造体内のマスタータクソノミとして格納されていてもよい。いくつかの実施形態では、このクラスは、例えば、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）のＤｏｃｕｍｅｎｔＴａｘｏｎｏｍｙであってもよい。

図６Ａ～図６Ｄは、本発明の実施形態による、タクソノミマネージャ６００を示すスクリーンショットである。タクソノミマネージャ６００は、文書タイプ定義インターフェース６１０（図６Ｂも参照）、文書タイプ詳細インターフェース６２０（図６Ｃも参照）、および編集フィールドインターフェース６３０（図６Ｄも参照）を含む。集合的に、インターフェース６１０、６２０、６３０は、ユーザーが文書タイプのリストを定義し、文書タイプの詳細を提供し、そして文書タイプのフィールドを編集することを可能にする。

文書タイプ定義インターフェース６１０は、ユーザーが新しい文書タイプを追加したり、または既存の文書タイプを編集もしくは削除したりすることを可能にする。インターフェースは、グループおよびカテゴリを選択する機能ならびにグループおよびカテゴリを検索する機能も提供する。グループおよびカテゴリは、本実施形態では、タクソノミにおける文書タイプの収集をよりよく整理するために使用される。インターフェース６１０におけるこれらの設定に基づいて、グループフィルタリングおよびカテゴリフィルタリングが利用可能であり得る（図６Ｂも参照）。各文書タイプは、インターフェース６２０を介してグループおよびカテゴリに割り当てられ得る（図６Ｃも参照）。文書処理メタデータを取り込むという同じ目的を保持しながら、タクソノミ組織（例えば、グループ、カテゴリ、文書タイプ、フィールドなどによる）は、時間の経過とともに変化してもよい。さらに、データ構造、ユーザーインターフェース、および公的機関が締結する契約も、設計、パッケージング、コンテンツ、機能性などで進化し得る。

文書タイプ詳細インターフェース６２０は、ユーザーが文書タイプに名前を提供することを可能にするとともに、文書タイプのグループおよびカテゴリを選択することを可能にする。文書タイプコードを任意に指定することもできる。文書タイプに関連付けられたフィールドが表示され、ユーザーはフィールドを追加、編集、または削除し得る。

編集フィールドインターフェース６３０は、ユーザーが所定のフィールドのプロパティを編集することを可能にする。利用可能なプロパティは、フィールドタイプ、カテゴリ、グループなどを含むがこれらに限定されない複数の要因に基づいて異なり得る。

ファイルのデジタル化

いくつかの実施形態では、ファイルのデジタル化は、処理されたファイルのテキストバージョンをドキュメントオブジェクトモデル（ＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ））とともに出力するＲＰＡツール７００（例えば、ＵｉＰａｓｔＳｔｕｄｉｏ（商標））のワークフロー内のデジタル化アクティビティ７１０を使用して実行されてもよい。図７Ａおよび７Ｂを参照のこと。ＤＯＭは、パブリックパッケージ内のクラスとして定義され得るＲＰＡツールのプロプライエタリデータ構造体に取り込まれ得る。このクラスは、ソフトウェア開発者およびＲＰＡ開発者がＤＯＭオブジェクトを操作するためにプログラム的に使用され得る。ＤＯＭは、タイプされたセクション（例えば、段落、表、列、縦書きテキスト、ヘッダー、見出し、フッターなど）、タイプされた単語グループ（文章、表のセルなど）、および単語レベルの情報（例えば、各ページ上での絶対位置、ＯＣＲの信頼度、内容など）を含む、ファイルが各ページに何を含んでいるかについての情報を取り込み、全てが回転、スキュー、相対的な幅および高さの情報などで拡張する。

ファイルデジタル化コンポーネントは、文書処理フレームワークによって強制される定義された契約を尊重したいずれかの適切なＯＣＲエンジンの実装を使用することができるように、使用されるＯＣＲエンジンに関連するプラグアンドプレイ機能を使用して構築され得る。デジタル化コンポーネントはまた、複数のＯＣＲエンジンの使用を可能にし、使用された全てのエンジンの最良の結合結果を報告する投票システムを実装するように強化されてもよい。例えば、最もＯＣＲエンジンが同意した結果が選択され得る。特定の実施形態では、そのような結果は、所定のＯＣＲシステムの精度に基づいて重み付けされてもよい。しかしながら、いくつかの実施形態では、投票／ＯＣＲ結果統合アルゴリズムは、本発明の範囲から逸脱することなく、利用可能な最良のテキスト出力を決定して報告するために、人のフィードバックに基づいているか否かにかかわらず、いずれかのタイプのメトリックまたは信頼度計算を採用してもよいことに留意すべきである。

ファイルを１または複数の文書タイプに分類する

この機能により、ユーザーは、文書の分類のために１または複数の所望の分類子アルゴリズムを使用し得る。分類アルゴリズムの例は、限定されないが、レイアウトベースの分類、感情ベースの分類、特徴ベースの分類、自然言語処理（ＮＬＰ）ベースの分類、機械学習（ＭＬ）ベースの分類、深層学習ベースの分類、画像ベースの分類、キーワードベースの分類、およびカラーベースの分類である。ユーザーは、いくつかの実施形態では、いずれかの数の分類子実装をプラグインとして追加したり、削除したり、変更したり、交換したり、分類子の順序を変更したりすることができる。特定の実施形態では、同じタイプの複数の異なる分類子（例えば、複数の画像ベースの分類子）が使用されてもよい。いくつかの実施形態では、ユーザーは、使用される各分類子の最小信頼度しきい値に基づいて受け入れ基準を定義し得る。

いくつかの実施形態では、ユーザーは、統一された方法で全てのデータを共通の分母に持ってくる目的で、マスタータクソノミ（例えば、いくつかの実施形態ではタクソノミマネージャを使用して設計され定義されたもの）と、与えられた分類子のためのいずれかの内部タクソノミからのタクソノミマッピングを実行し得る。この機能は、ある分類子が、マスタータクソノミにマッピング（翻訳）されるべき分類の結果として、「クラス」（例えば、文書タイプ）の内部セットを報告している場合に使用される。例えば、ある分類子は、受信文書が請求書である場合、クラス「ＩＮＶ」を報告してもよいが、マスタータクソノミは「ＥｘｐｅｎｓｅＩｎｖｏｉｃｅ（経費請求書）」と呼ばれる文書タイプを含んでいてもよい。この機能により、分類子から報告された「ＩＮＶ」がマスタータクソノミで定義された「ＥｘｐｅｎｓｅＩｎｖｏｉｃｅ（経費請求書）」に該当することを指定することができる。

特定の実施形態では、ユーザーは、使用される各分類子コンポーネントからの結果の優先度を決定し得る。いくつかの実施形態では、ユーザーはまた、どの分類子コンポーネントが特定の文書タイプを解決することを許可され、どの分類子コンポーネントが解決することを制限されるかを決定することができる。この機能は、特定の使用ケースで使用される各分類子の実装（すなわち、コンポーネント）の既知の特色および制限を考慮して、文書の分類を微調整することができる。

文書分類機能は、デジタル化されたファイルとタクソノミに基づいて使用される分類子（複数可）に関係なく、同じタイプの出力を保証することもできる。文書分類機能の出力は、パブリックパッケージのクラスとして定義されるプロプライエタリデータ構造体に取り込まれてもよい。クラスは、ソフトウェア開発者およびＲＰＡ開発者が分類結果オブジェクトを操作するためにプログラム的に使用され得る。いくつかの実施形態では、これらのクラスは、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）の公開データ契約パッケージで定義されたＣｌａｓｓｉｆｉｅｒＲｅｓｕｌｔおよびＣｌａｓｓｉｆｉｃａｔｉｏｎＲｅｓｕｌｔであり得る。特定の実施形態では、どの結果がより良いかを自動的に決定するために、異なる分類子コンポーネント間のより複雑な結果仲介システムの実装、および異なるページ範囲のための異なる分類子コンポーネントからの結果を結合するためのシステムを含んでもよい。この機能は、ファイルを複数の論理文書に分割する際に使用され得る。例えば、同一ＰＤＦファイル内に文書が次々とスキャンされていく文書のパッケージが単一のファイルに含まれている場合である。

図８Ａは、本発明の実施形態による、分類文書範囲のワークフロー８００を示すスクリーンショットである。ワークフロー８００は、キーワードベースの分類子アクティビティ８０２と固定形式の分類子アクティビティ８０４とを含む。ユーザーは、構成分類子リンク８０６をクリックすることにより、ワークフロー８００内の分類子を構成し得る。分類文書範囲コンポーネントは、いくつかの実施形態では、いずれかの所望の数の分類子を用いて構成され得る。

構成分類子リンク８０６をクリックすると、図８Ｂの分類子構成インターフェース８１０が開き、これは、構成テーブルの最初の列で処理され得る文書タイプ８２０のリストを提供し、次の列はそれぞれ、それらが範囲コンポーネントで構成された順に、範囲で使用される１つの分類子に対応する。この例では、キーワードベースの分類子構成ペイン８３０と固定形式の分類子構成ペイン８４０により、ユーザーは、それぞれの最小信頼度８３２、８４２を設定することができる。各分類子からの分類結果は、各分類子に対して個別に設定された最小信頼度しきい値に基づいてフィルタリングされてもよい。ユーザーはまた、分類子構成（ここでは、キーワードベースの分類子構成ペイン８３０および固定形式の分類子構成ペイン８４０）のチェックボックスを介して、各文書タイプに分類子を適用するか、両方適用するか、または適用しないかを選択することができる。ユーザーはまた、各分類子が内部タクソノミを使用している文書タイプのための内部タクソノミ固有のＩＤを、チェックボックスの横のテキストフィールドに任意に入力し得る。

いくつかの実施形態では、分類文書範囲アクティビティは、分類子ごとだけでなく、分類子および文書タイプのレベルで最小信頼度しきい値を設定することを可能にしてもよい。特定の実施形態では、分類文書範囲アクティビティ、分類子構成、優先順位付けアルゴリズム、ユーザーインターフェース、データ構造、および公的機関が締結する契約は、オープンで拡張可能なフレームワークで文書の分類を容易にするという同じ目的を維持しながら、変更および調整を経験し得る。

自動分類の確認

いくつかの実施形態では、分類確認モジュールは、分類のためのファイルをレビュー、修正、および／または手動で処理するためのユーザーインターフェースを提供する。ユーザーは、処理されたファイルのページ範囲と自動的に関連付けられた文書タイプを表示することによって自動分類をレビューしたり、ページ範囲と文書タイプの両方のレベルで修正を実行したり、関連付けられた文書タイプを有する新しいセクションを削除もしくは追加したり、および／または必要に応じて完全に手動で文書を処理したりすることができ得る。

いくつかの実施形態のユーザーインターフェースは、簡単に使用することができ、ファイル内の個々のページを理解して判断するための視覚的なアプローチを提供する。いくつかの実施形態におけるユーザーインターフェースは、前の自動分類フェーズで使用された分類コンポーネントから独立して使用することができ、文書分類レビューおよび処理のための単一の統一された最先端のユーザーインターフェースを提供する。このアプローチにより、人が文書分類のために採用される分類技術に応じて異なる画面を学習したり使用したりする必要がなくなり、これによって全体的な経験を統一し、文書処理に必要な学習曲線および全体的な時間を短縮し得る。

文書からのデータの自動抽出

いくつかの実施形態では、自動データ抽出機能は、ワークフロー内の抽出子を互換的に使用することを可能にする。そのような実施形態は、標準入力、標準出力、抽出子間の仲介、およびフォールバック機構を確保してもよい。抽出子の例は、テンプレートベースの抽出子、レイアウトベースの抽出子、キーワードベースの抽出子、正規表現ベースの抽出子、コンテキストベースの抽出子、ラベル／アンカーベースの抽出子、パターンベースの抽出子、自然言語処理ベースの抽出子、機械学習ベースの抽出子、メタデータベースの抽出子などを含み得るが、これらに限定されない。

いくつかの実施形態では、ユーザーは、プラグインとして所望の数の抽出子実装を追加し得る。特定の実施形態では、ユーザーは、抽出子の削除、変更、交換、および順序の変更を行うことができる。いくつかの実施形態では、ユーザーは、使用される各抽出子の最小信頼度しきい値に基づいて受け入れ基準を定義し得る。いくつかの実施形態では、ユーザーはフィールド／抽出子の組み合わせの最小信頼度しきい値に基づいて受け入れ基準を定義し得る。

いくつかの実施形態では、ユーザーは、統一された方法で全てのデータを共通の分母に持ってくる目的で、マスタータクソノミ（例えば、いくつかの実施形態ではタクソノミマネージャを使用して設計され定義されたもの）と、１または複数の抽出子内部タクソノミからのタクソノミマッピングを実行し得る。この機能は、ある抽出子が、マスタータクソノミにマッピング（翻訳）されるべきデータ抽出の結果として、「能力」（すなわち、抽出子が抽出できるフィールド）の内部セットを報告する場合に使用され得る。ユーザーは、使用する各抽出子の結果の優先度を決定してもよい。例えば、抽出子は、請求書を処理する際に「ＩＮＶ－ＮＯ」と呼ばれるフィールドの値を報告してもよいが、マスタータクソノミは「インボイス番号」と呼ばれるフィールドを含んでもよい。この機能により、抽出子から報告された「ＩＮＶ－ＮＯ」が、マスタータクソノミで定義された「インボイス番号」に対応することを指定し得る。

ユーザーはまた、どの抽出子コンポーネントが特定のフィールドを解決することを許可され、どの抽出子コンポーネントが解決することを制限されるかを決定することができる。これら機能は、特定の使用ケースで使用される各抽出子の実装（すなわち、コンポーネント）の既知の特色および制限を考慮して、文書の抽出を微調整することができる。抽出子は、いくつかの実施形態では、ＲＰＡワークフローのアクティビティとして実装され得る。

図９Ａは、本発明の実施形態による、データ抽出範囲のワークフロー９００を示すスクリーンショットである。ワークフロー９００は、ＦｌｅｘｉＣａｐｔｕｒｅ（商標）抽出子アクティビティ９０２および固定形式の抽出子アクティビティ９０４を含む。ユーザーは、構成抽出子リンク９０６をクリックすることにより、ワークフロー９００内の抽出子を構成し得る。

構成抽出子リンク９０６をクリックすると、図９Ｂの抽出子構成インターフェース９１０が開く。マスタータクソノミからの文書タイプおよびフィールドは、文書タイプおよびフィールドペイン９２０（図９Ｃも参照）で見ることができ、ここで、フィールド（例えば、「インボイス番号」）は、それぞれの文書タイプ（例えば、「インボイス」）の下にグループ化される。抽出子は、各抽出子のペイン（例えば、本実施例ではＦｌｅｘｉＣａｐｔｕｒｅ（商標）抽出子ペイン９３０（図９Ｄも参照））および固定形式抽出子ペイン９４０（図９Ｅも参照）で対応するチェックボックスを選択することにより、フィールドごとに適用される。最小信頼度パーセンテージはまた、抽出子固有のペイン（例えば、ＦｌｅｘｉＣａｐｔｕｒｅ（商標）抽出子ペイン９３０および固定形式抽出子ペイン９４０）内のテキストフィールド９３２、９４２を介して指定され得る。

本実施形態の文書抽出機能は、デジタル化されたファイルとタクソノミに基づいて使用される抽出子に関係なく、同じタイプの出力を保証する。例えば、ＦｌｅｘｉＣａｐｔｕｒｅ（商標）は、独自の内部タクソノミを持つサードパーティ製ツールである。全ての抽出子を共通の分母に持ってくるために、本実施形態ではエイリアスを追加することができる。例えば、以下に示すように、ＦｌｅｘｉＣａｐｔｕｒｅ（商標）抽出子ペイン９３０のインボイス番号フィールドは、固定形式抽出子ペイン９４０の「ｉｎｖ－ｎｏ」に等しい。これは、一度だけ構成されることを必要とし得、データ抽出範囲の出力は、その後、常に開発者が定義したマスタータクソノミに従ってデータを抽出するようにしてもよい。文書抽出機能の出力は、ソフトウェア開発者とＲＰＡ開発者の両方が抽出結果オブジェクトを操作するためにプログラム的に使用され得るパブリックパッケージ内のクラスとして定義されたプロプライエタリデータ構造体に取り込まれてもよい。

いくつかの実施形態では、これらのクラスは、例えば、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）の公開データ契約パッケージで定義されたＥｘｔｒａｃｔｏｒＲｅｓｕｌｔおよびＥｘｔｒａｃｔｉｏｎＲｅｓｕｌｔであり得る。特定の実施形態では、どの結果がより良いかを自動的に決定するために、異なる抽出子コンポーネント間のより複雑な結果仲介システムの実装、および同じフィールドのための異なる抽出子コンポーネントからの抽出子処理を結合または連鎖させるためのシステムを含んでもよい。この機能は、より大きな識別部からの細目データの識別に使用され得る。例えば、いくつかの実施形態では、第１抽出子は、文全体を抽出してもよく、一方で連鎖した第２抽出子は、第１抽出子によって識別された文から特定の情報の識別をターゲットにしてもよい。

要するに、いくつかの実施形態のＤＰＦは、ファイルとページ境界を持つ分類結果を受け取り、関連する各フィールドのデータを特定しようとし、ワークフローに含まれる抽出アルゴリズムを使用し、結果を収集し、そして信頼性、順序付け、および抽出子連鎖に基づいて、各フィールドの最良の結果を報告する。図９Ａ～Ｅの例では、２つの抽出子－ＦｌｅｘｉＣａｐｔｕｒｅ（商標）抽出子９０２および固定形式抽出子９０４－が使用される。本実施形態の文書抽出モジュールは、ワークフロー９００内のこれら２つのプラグインの間でＲＰＡ開発者によって選択された順序に起因して、固定形式抽出子９０４よりもＦｌｅｘｉＣａｐｔｕｒｅ（商標）抽出子９０２によって返される結果を優先する。文書抽出モジュールは、設定された信頼値（例えば、ユーザーがこの値を最小信頼度フィールド９３２に設定した場合、ＦｌｅｘｉＣａｐｔｕｒｅ（商標）抽出子９０２によって報告された結果に対して７０％）を下回るいずれかの報告された抽出を受け入れないことがあり得、一方で、それは、最小信頼度フィールド９４２が０％に設定されている場合、固定形式抽出子９０４によって報告されたいずれかの分類を受け入れることがある。文書抽出モジュールは、ＦｌｅｘｉＣａｐｔｕｒｅ（商標）抽出子９０２によって実行された許容可能な抽出を探し、許容可能であれば、その結果を報告してもよい。ＦｌｅｘｉＣａｐｔｕｒｅ（商標）抽出子９０２によって許容可能な抽出が報告されない場合、文書抽出モジュールは、固定形式抽出子９０４によって実行される許容可能な抽出を探してもよい。

いくつかの実施形態では、抽出結果は、ビジネス固有の情報または確認、特定のフォーマット化、および／または他の後処理によってさらに強化されてもよい。特定の実施形態では、自動データ抽出コンポーネントの出力は、いずれかの所望の組み合わせで利用可能ないずれかの他のＲＰＡワークフローアクティビティを使用して、チェック／修正／強化されてもよい。これらのアクティビティは、自動データ抽出の出力を操作するために使用することができ、結果に含まれる特定の値を追加、削除、または変更することができる。これは、例えば、抽出されたデータを、その時点で処理された単一ファイルに対して外部にあるデータベースまたは他のソースからの情報で強化する必要がある複雑な使用ケースに使用され得る。

自動データ抽出の確認

いくつかの実施形態では、データ抽出確認モジュールは、データ抽出モジュールによって報告されたデータポイント（すなわち、抽出された情報）をレビュー、修正、および／または手動で処理するためのユーザーインターフェースを提供する。ユーザーは、自動データ抽出からの結果を、以下の方法でレビューし得る：（１）文書の処理された部分（例えば、分類に係る特定のページ範囲）から、値、証拠、文書内で抽出された値が発見された位置、抽出された値の信頼性等を閲覧すること、（２）正しく報告された値のＯＣＲエラーを編集すること、報告された値の位置を修正すること、報告された値を完全に置き換えること、自動処理によって見逃した値を追加すること、および／もしくは自動処理によって誤って特定された値を削除することによる修正を実行すること。（３）元のファイルビュー上で直接、範囲、領域、単語（複数可）などを選択して操作を実行することにより、処理中の元のファイルのグラフィカル表示と直接対話すること、（４）文書のテキストバージョンを表示して操作を実行すること、ならびに／または（５）所望の場合には、完全に手動で文書を処理すること。

いくつかの実施形態のユーザーインターフェースは、簡単に使用することができ、ファイル内で識別され、抽出される個々のフィールドおよびデータの断片について理解し、判断を下すための視覚的なアプローチを提供する。特定の実施形態におけるユーザーインターフェースは、以前の自動分類およびデータ抽出フェーズで使用されたデータ抽出コンポーネントとは独立して使用できるようにすることができ、文書データ抽出レビューおよび処理のための単一の統一された最先端のユーザーインターフェースを提供する。このアプローチにより、人がデータ確認のために採用されるデータ確認技術に応じて異なる画面を学習したり使用したりする必要がなくなり、これによって全体的な経験を統一し、文書処理のための学習曲線および全体的な時間を短縮し得る。いくつかの実施形態のデータ確認コンポーネントは、文書検証機能を介して処理された文書を人が提出することを可能にする前にチェックされ得るカスタム確認ルールの定義および使用を可能にする。このように、モジュールは完全な拡張性を確保し、カバーされるビジネス使用ケースに応じてカスタム実装をオープンにし得る。

分類子および抽出子の訓練

いくつかの実施形態では、分類子トレーニングモジュールは、人のフィードバックから学習することができる分類子のためのフィードバックループの完了を容易にする。分類子訓練モジュールは、人によって確認されたデータおよび人のフィードバックからアルゴリズムが学習することを可能にする情報が、各分類子によって（例えば、タクソノミマッピング機能を使用することによって）理解可能な形式でかつ正しい権限が有効にされた状態で（例えば、訓練分類子フィールドレベルの起動機能を使用することによって）起動した抽出子に到達することを、統一された方法で確実にしてもよい。このアプローチは、使用される分類子（複数可）に依存しないフィードバックループを閉じるための統一された経験を提供することができ、また、実際のファイル分類に使用される分類子コンポーネントに依存しなくてもよい。これにより、ＲＰＡ開発者は、例えば、実際のファイル分類のために起動される前に分類子を訓練することができ、「その場で」の訓練が可能になり、各分類コンポーネントに固有の大量のアノテーションファイルを前もって用意する必要がなくなる。

いくつかの実施形態では、抽出子訓練モジュールは、人のフィードバックから学習することができる分類子のためのフィードバックループの完了を容易にする。抽出子訓練モジュールは、人によって確認されたデータおよび人のフィードバックからアルゴリズムが学習することを可能にする情報が、抽出子（複数可）によって（例えば、タクソノミマッピング機能を使用することによって）理解可能な形式でかつ正しい権限が有効にされた状態で（例えば、訓練抽出子フィールドレベルの起動機能を使用することによって）起動した抽出子（複数可）に到達することを、統一された方法で確実にしてもよい。このアプローチは、どの抽出子コンポーネント（複数可）が使用されるかに依存しない、フィードバックループを閉じるための統一された経験を提供してもよく、また、データ抽出のための実際のファイル処理に使用される抽出子コンポーネントに依存しなくてもよい。これにより、ＲＰＡ開発者は、例えば、実際の文書データ抽出のために抽出子を起動する前に抽出子を訓練することができ、それにより「その場で」訓練を行うことができ、抽出コンポーネントごとに固有の大量のアノテーションファイルを前もって用意する必要がなくなる。

図１０は、本発明の実施形態による、分類子および抽出子の訓練ワークフロー１０００を示すスクリーンショットである。この例では、訓練分類子スコープアクティビティ１０１０は、構成分類子リンク１０１４をクリックすることによって構成可能なキーワードベースの分類子１０１２を含む。分類子訓練構成インターフェースの機能は、いくつかの実施形態では最小信頼度しきい値を設定する必要がないことを除いて、図８Ｂの分類子構成インターフェース８１０と類似していてもよい。このような分類子訓練構成インターフェース１１００は、図１１に示されている。しかしながら、特定の実施形態では、分類子訓練構成インターフェースは、文書タイプおよび分類子固有のものであってもよい訓練設定パラメータをさらに含んでもよい。同様に、抽出子訓練構成インターフェースの機能は、図９Ｂの抽出子構成インターフェース９１０に類似していてもよく、特定の実施形態では、追加の訓練設定パラメータが含まれていてもよい。

図１２は、本発明の実施形態による、ＲＰＡ用のＤＰＦを実装するためのプロセス１２００を示すフローチャートである。プロセスは、１２１０で一般的なタクソノミを定義して格納することである。いくつかの実施形態では、これは、分類およびデータ抽出の対象となる文書タイプのリストの定義を容易にするインターフェースを提供するタクソノミマネージャを実行し、文書タイプのそれぞれについての関連フィールドとともに、文書タイプの定義されたリストおよび定義された文書タイプのそれぞれについての関連フィールドを受信し、そして文書タイプのリストおよび関連フィールドをマスタータクソノミデータ構造体内に格納することを含んでもよい。

次に、ＲＰＡワークフローでデジタル化アクティビティが実行され、１２２０でファイルのテキストバージョンとＤＯＭデータ構造に格納されたドキュメントオブジェクトモデル（ＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ））が出力される。いくつかの実施形態では、ＤＯＭは、ファイル内における、回転、スキュー、および相対的な幅および高さの情報で増強されたタイプされたセクション、タイプされたワードグループ、およびワードレベル情報に関連する情報を含む。特定の実施形態では、デジタル化アクティビティは、複数のＯＣＲエンジンを使用し、デジタル化アクティビティは、複数のＯＣＲエンジンの投票システムを実装し、複数のＯＣＲエンジンから最良の組み合わせ結果を出力することを含む。

ファイルをＲＰＡワークフローの１または複数の分類子を用いて１または複数の文書タイプに分類し、自動分類情報を１２３０で出力する。この情報は、いくつかの実施形態では、分類データ構造体に格納され得る。いくつかの実施形態では、１または複数の分類子は、レイアウトベースの分類、感情ベースの分類、特徴ベースの分類、自然言語処理（ＮＬＰ）ベースの分類、機械学習（ＭＬ）ベースの分類、深層学習ベースの分類、画像ベースの分類、キーワードベースの分類、カラーベースの分類、それらのいずれかの組み合わせ、またはいずれかの他の文書分類方法を実行するように構成される。特定の実施形態では、分類は、１または複数の分類子のそれぞれについての最小信頼度しきい値に基づいた受入れ基準を使用することを含む。いくつかの実施形態では、分類は、１または複数の分類子のために、それぞれの分類子のマスタータクソノミおよび内部タクソノミをマッピングすることを含む。特定の実施形態では、分類は、ＲＰＡワークフローにおける分類子の順序に基づいて各分類子からの結果に優先順位を付け、文書のタイプに基づいて分類で使用するための１または複数の分類子のうちの分類子を選択し、１または複数の分類子の少なくとも１つに最小信頼度フィールドを割り当てる、またはそれらのいずれかの組み合わせを行うことを含む。

分類のためのファイルをレビュー、修正、および／または手動で処理するためのインターフェースを提供する分類確認モジュールが実行され、自動分類情報が１２４０で出力される。１または複数の分類子のフィードバックループの完了を促進する分類子訓練モジュールが１２５０で実行される。そして、ＲＰＡワークフロー内の１または複数の抽出子を用いて、分類された文書からデータを抽出し、自動的に抽出されたデータを１２６０で出力する。この抽出データは、いくつかの実施形態では、抽出データ構造体に格納され得る。いくつかの実施形態では、抽出は、ＲＰＡワークフローにおける抽出子の順序に基づいて各抽出子からの結果に優先順位を付け、文書のタイプに基づいて抽出で使用するための１または複数の抽出子のうちの抽出子を選択し、１または複数の抽出子の少なくとも１つに最小信頼度フィールドを割り当てる、またはそれらのいずれかの組み合わせを行うことを含む。

データ抽出からのデータポイントを修正および／または手動で処理するためのインターフェースを提供するデータ抽出確認モジュールが実行され、確認された抽出データが１２７０で出力される。１または複数の抽出子のフィードバックループの完了を促進する抽出子訓練モジュールが１２８０で実行される。そして、分類結果と抽出された情報を含む処理データは、１２９０で書き出される。タクソノミが定義されると、使用ケースのニーズに基づいて、いくつかの実施形態では、１または複数のステップ１２２０～１２９０が任意であってもよいことに留意すべきである。

プロセス１２００が完了した後、確認された情報は、他のシステムで使用できるようになる。例えば、データベースやエクセル（登録商標）ファイルに情報を挿入したり、特定の値の通知を電子メールなどで送信したりしてもよい。非限定的な例として、図１２のプロセス１２００は、ＰＤＦファイルから始まり、そのファイルがインボイスであり、そのインボイスに書かれた合計金額が４２ドルであり、ベンダーが「ＸＹＺ書店」であり、購入日が２０１９年７月２３日であることを知った状態で終了してもよい。これらの値は、今や例えば会計システムにプログラムで挿入できる。

図１２で実行されるプロセスステップは、本発明の実施形態に従って、図１２で説明したプロセスの少なくとも一部を実行するようにプロセッサ（複数可）への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に具現化されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュ装置、ＲＡＭ、テープ、および／またはデータを格納するために使用される他のいずれかのそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、図１２に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム（例えば、図５のコンピューティングシステム５００のプロセッサ（複数可）５１０）のプロセッサ（複数可）を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。

コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに操作可能な通信を行うモジュールで構成され得、情報または命令をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ＡＳＩＣ、またはいずれかの他の好適な装置で動作するように構成され得る。

本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。

本明細書を通して記載された本発明の特色、構造、または特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも１つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、１または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。

本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態にあることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも１つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。

さらに、本発明の記載された特色、利点、および特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術に熟練した人は、本発明が、１または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の実施形態では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれない特定の実施形態では認識され得る。

本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および／または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。

Claims

非一時的なコンピュータ読み取り可能な媒体上に具現化されたコンピュータプログラムであって、前記プログラムは、少なくとも１つのプロセッサが、
ロボティックプロセスオートメーション（ＲＰＡ）ワークフローにおいて、１または複数の分類子を使用して、ファイルを１または複数の文書タイプに自動的に分類し、
前記自動分類の結果を分類データ構造体に格納し、
前記ＲＰＡワークフロー内の１または複数の抽出子を使用して、前記分類されたファイルからデータを自動的に抽出し、
前記自動的に抽出されたデータを抽出データ構造体に格納し、
前記自動的に抽出されたデータを出力する、ように構成される、コンピュータプログラム。
前記１または複数の分類子は、レイアウトベースの分類、感情ベースの分類、特徴ベースの分類、自然言語処理（ＮＬＰ）ベースの分類、機械学習（ＭＬ）ベースの分類、深層学習ベースの分類、画像ベースの分類、キーワードベースの分類、カラーベースの分類、またはそれらのいずれかの組み合わせを実行するように構成される、請求項１に記載のコンピュータプログラム。
前記自動分類は、前記１または複数の分類子のそれぞれについての最小信頼度しきい値に基づいた受入れ基準を使用することを含む、請求項１に記載のコンピュータプログラム。
前記自動分類は、マスタータクソノミおよび内部タクソノミを、前記１または複数の分類子のそれぞれの分類子にマッピングすることを含む、請求項１に記載のコンピュータプログラム。
前記プログラムはさらに、前記少なくとも１つのプロセッサが、
前記ＲＰＡワークフローにおける分類子の順序に基づいて各分類子からの結果に優先順位を付け、前記文書のタイプに基づいて前記自動分類で使用するための前記１または複数の分類子を選択し、前記１または複数の分類子の少なくとも１つに最小信頼度しきい値を割り当てる、またはそれらのいずれかの組み合わせを行うように、構成される、請求項１に記載のコンピュータプログラム。
前記プログラムはさらに、前記少なくとも１つのプロセッサが、
前記自動分類のためのファイルをレビュー、修正、および／または手動で処理するためのインターフェースを提供する分類確認モジュールを実行するように、構成される、請求項１に記載のコンピュータプログラム。
前記１または複数の抽出子は、テンプレートベースの抽出、レイアウトベースの抽出、キーワードベースの抽出、正規表現ベースの抽出、コンテキストベースの抽出、ラベル／アンカーベースの抽出、パターンベースの抽出、自然言語処理ベースの抽出、機械学習抽出、深層学習抽出、メタデータベースの抽出、またはそれらのいずれかの組み合わせを実行するように、構成される、請求項１に記載のコンピュータプログラム。
前記自動データ抽出は、前記１または複数の抽出子のそれぞれについての最小信頼度しきい値に基づいた受入れ基準を使用することを含む、請求項１に記載のコンピュータプログラム。
前記自動データ抽出は、前記１または複数の抽出子のそれぞれの抽出子の前記マスタータクソノミおよび内部タクソノミをマッピングすることを含む、請求項１に記載のコンピュータプログラム。
前記プログラムはさらに、前記少なくとも１つのプロセッサが、
前記ＲＰＡワークフローにおける抽出子の順序に基づいて各抽出子からの結果に優先順位を付け、前記文書のタイプに基づいて前記自動抽出で使用するための前記１または複数の抽出子のうちの抽出子を選択し、前記１または複数の抽出子の少なくとも１つに最小信頼度しきい値を割り当てる、またはそれらのいずれかの組み合わせを行うように、構成される、請求項１に記載のコンピュータプログラム。
前記プログラムはさらに、前記少なくとも１つのプロセッサが、
前記自動抽出からのデータポイントを修正および／または手動で処理するためのインターフェースを提供するデータ抽出確認モジュールを実行するように、構成される、請求項１に記載のコンピュータプログラム。
前記プログラムはさらに、前記少なくとも１つのプロセッサが、
前記１または複数の抽出子のフィードバックループの完了を促進する抽出子訓練モジュールを実行するように、構成される、請求項１に記載のコンピュータプログラム。
前記プログラムは、前記少なくとも１つのプロセッサが、
前記１または複数の分類子のフィードバックループの完了を促進する分類子訓練モジュールを実行するように、構成される、請求項１に記載のコンピュータプログラム。
前記プログラムはさらに、少なくとも１つのプロセッサが、
前記自動分類および自動データ抽出の対象となる文書タイプのリストの定義を容易にするインターフェースを提供するタクソノミマネージャを、前記文書タイプごとに関連するフィールドとともに実行し、
前記タクソノミマネージャを介して、前記定義された文書タイプのリストと前記定義された文書タイプのそれぞれに関連するフィールドを受信し、
前記文書タイプのリストと前記関連するフィールドをマスタータクソノミのデータ構造体に格納するように、構成される、請求項１に記載のコンピュータプログラム。
前記プログラムはさらに、前記少なくとも１つのプロセッサが、
ロボティックプロセスオートメーション（ＲＰＡ）ワークフローでデジタル化活動を実行し、
ドキュメントオブジェクトモデル（ＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ））データ構造体に格納されたファイルのテキストバージョンおよびＤＯＭを出力するように、構成された、請求項１に記載のコンピュータプログラム。
前記ＤＯＭは、前記ファイル内における、回転、スキュー、相対的な幅および高さの情報、またはそれらのいずれかの組み合わせで増強されたタイプされたセクション、タイプされたワードグループ、およびワードレベル情報に関連する情報を含む、請求項１５に記載のコンピュータプログラム。
前記デジタル化アクティビティが複数の光学的文字認識（ＯＣＲ）エンジンを使用しており、さらに
前記複数のＯＣＲエンジンのための投票システムを実装し、
前記複数のＯＣＲエンジンから最適な組み合わせの結果を出力することを含む、請求項１５に記載のコンピュータプログラム。
前記プログラムはさらに、前記少なくとも１つのプロセッサが、
他のシステムで使用するために、前記自動分類の結果と前記自動的に抽出されたデータとを書き出すように、構成される、請求項１に記載のコンピュータプログラム。
タクソノミマネージャから、前記定義された文書タイプのリストと前記定義された文書タイプのそれぞれに関連するフィールドをコンピューティングシステムにより受信し、
前記コンピューティングシステムにより、前記文書タイプのリストと前記関連するフィールドをマスタータクソノミのデータ構造体に格納し、
ロボティックプロセスオートメーション（ＲＰＡ）ワークフローにおいて、１または複数の分類子を使用して、前記コンピューティングシステムにより、前記ファイルを１または複数の文書タイプに自動的に分類し、
前記コンピューティングシステムにより、前記自動分類の結果を分類データ構造体に格納し、
前記コンピューティングシステムにより、前記自動分類の結果を出力することを含む、コンピュータ実装方法。
前記コンピューティングシステムによって、前記ＲＰＡワークフロー内でデジタル化アクティビティを実行し、
前記コンピューティングシステムにより、ドキュメントオブジェクトモデル（ＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ））データ構造体に格納されたファイルのテキストバージョンおよびＤＯＭを出力することをさらに含み、
前記ＤＯＭは、前記ファイル内における、回転、スキュー、相対的な幅および高さの情報、またはそれらのいずれかの組み合わせで増強されたタイプされたセクション、タイプされたワードグループ、およびワードレベル情報に関連する情報を含む、請求項１９に記載のコンピュータ実装方法。
前記コンピューティングシステムにより、前記１または複数の分類子のフィードバックループの完了を促進する分類子訓練モジュールを実行することをさらに含む、請求項１９に記載のコンピュータ実装方法。
前記コンピューティングシステムにより、前記自動分類のためのファイルをレビュー、修正、および／または手動で処理するためのインターフェースを提供する分類確認モジュールを実行することをさらに含む、請求項１９に記載のコンピュータ実装方法。
前記コンピューティングシステムにより、前記ＲＰＡワークフロー内の１または複数の抽出子を使用して、前記分類された文書からデータを自動的に抽出し、
前記コンピューティングシステムにより、前記自動的に抽出されたデータを抽出データ構造体に格納することをさらに含む、請求項１９に記載のコンピュータ実装方法。
前記コンピューティングシステムにより、前記１または複数の抽出子のフィードバックループの完了を促進する抽出子訓練モジュールを実行することをさらに含む、請求項２３に記載のコンピュータ実装方法。
前記コンピューティングシステムにより、前記自動抽出からのデータポイントを修正および／または手動で処理するためのインターフェースを提供するデータ抽出確認モジュールを実行することをさらに含む、請求項２３に記載のコンピュータ実装方法。
コンピュータプログラム命令を格納するメモリと、
前記コンピュータプログラム命令を実行するように構成された少なくとも１つのプロセッサとを含み、前記命令は、前記少なくとも１つのプロセッサが、
タクソノミマネージャから、前記定義された文書タイプのリストと前記定義された文書タイプのそれぞれに関連するフィールドを受信し、
ロボティックプロセスオートメーション（ＲＰＡ）ワークフローでデジタル化アクティビティを実行し、ファイルのテキストバージョンとドキュメントオブジェクトモデル（ＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ））を出力し、
前記ＲＰＡワークフローにおいて、１または複数の分類子を使用して、前記ファイルを１または複数の文書タイプに自動的に分類し、
前記ＲＰＡワークフロー内の１または複数の抽出子を使用して、前記分類された文書からデータを自動的に抽出し、
前記自動的に抽出されたデータを出力する、ように構成される、システム。
前記自動分類は、前記ＲＰＡワークフローにおける分類子の順序に基づいて各分類子からの結果に優先順位を付け、前記文書のタイプに基づいて前記自動分類で使用するための前記１または複数の分類子のうちの分類子を選択し、前記１または複数の分類子の少なくとも１つに最小信頼度しきい値を割り当てる、またはそれらのいずれかの組み合わせを行うことをさらに含み、
前記自動抽出は、前記ＲＰＡワークフローにおける抽出子の順序に基づいて各抽出子からの結果に優先順位を付け、前記文書のタイプに基づいて前記自動抽出で使用するための前記１または複数の抽出子のうちの抽出子を選択し、前記１または複数の抽出子の少なくとも１つに最小信頼度しきい値を割り当てる、またはそれらのいずれかの組み合わせを行うことをさらに含む、請求項２６に記載のシステム。
前記命令はさらに、前記少なくとも１つのプロセッサが、
前記１または複数の抽出子のフィードバックループの完了を促進する抽出子訓練モジュールを実行するように、構成される、請求項２６に記載のシステム。
前記命令はさらに、前記少なくとも１つのプロセッサが、
前記自動分類のためのファイルをレビュー、修正、および／または手動で処理するためのインターフェースを提供する分類確認モジュールを実行するように、構成される、請求項２６に記載のシステム。
前記命令はさらに、前記少なくとも１つのプロセッサが、
前記１または複数の抽出子のフィードバックループの完了を促進する抽出子訓練モジュールを実行するように、構成される、請求項２６に記載のシステム。
前記命令はさらに、前記少なくとも１つのプロセッサが、
前記自動抽出からのデータポイントを修正および／または手動で処理するためのインターフェースを提供するデータ抽出確認モジュールを実行するように、構成される、請求項２６に記載のシステム。