JP2023541548A

JP2023541548A - ロボティックプロセスオートメーションのためのユーザーインターフェース（ｕｉ）マッパー

Info

Publication number: JP2023541548A
Application number: JP2023513196A
Authority: JP
Inventors: グリゴア，ミルセラ; ヴォイク，コスミン
Original assignee: UiPath Inc
Current assignee: UiPath Inc
Priority date: 2020-09-14
Filing date: 2021-07-07
Publication date: 2023-10-03
Also published as: WO2022055605A1; US11385777B2; CN116324697A; US20220083181A1; EP4211550A1

Abstract

ロボティックプロセスオートメーションのためのユーザーインターフェース（ＵＩ）マッパー（ＲＰＡ）が開示される。ＵＩマッパーは、最初にＵＩ要素をキャプチャして、後で使用するためにＵＩ要素をより高速にフェッチし、ＲＰＡ開発者がアプリケーションを自動化するためのＵＩ要素を「マッピング」できるようにし得る。これにより、プログラミングの知識がない可能性のある後の開発者が、これらの定義済みの「ターゲット」ＵＩ要素を使用してＲＰＡワークフローを構築できるようになり得る。

Description

（関連出願への相互参照）
本出願は、２０２０年９月１４日に出願された米国非仮特許出願第１７／０１９，６７９号の利益を主張する。先に提出された本出願の主題は、その全体を参照することにより、本明細書に組み込まれる。

本発明は概して、ロボティックプロセスオートメーション（ＲＰＡ）に関し、およびより具体的には、ＲＰＡのためのユーザーインターフェース（ＵＩ）マッパーに関する。

ユーザーインターフェース（ＵＩ）でのＲＰＡオートメーションの場合、開発者は通常、ＵＩアクションごとに記述子（例えば、セレクタ）を構築する。しかし、当初は一般的に記述子または他のＵＩオブジェクトがない。ＵＩオブジェクトのリポジトリを有機的に（すなわち、アイテムごとに、プロセスごとに、および記録ごとに）成長させることは遅い。したがって、改良されたアプローチが有益であり得る。

本発明の特定の実施形態は、現在のＲＰＡ技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、ＲＰＡ用のＵＩマッパーに関する。

実施形態では、ＵＩ要素をマッピングするように構成されたＵＩマッパーを提供するためのコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体上に格納される。コンピュータプログラムは、少なくとも１つのプロセッサが、アプリケーションの画面におけるＵＩ要素の指示を容易にするインターフェースを提供するように構成される。また、コンピュータプログラムは、少なくとも１つのプロセッサが、画面内のＵＩ要素の１または複数の指示を受信し、１または複数の指示されたＵＩ要素をアプリケーションのＵＩツリーに含むように構成される。ＵＩマッパーは、インターフェースを提供し、かつ画面上のＵＩ要素の指示を受信するライブモードで動作するように構成される。ＵＩマッパーはまた、オフラインモードで動作するように構成され、ＵＩマッパーは異なる画面の選択を容易にする。

別の実施形態では、ＲＰＡのためのＵＩ要素をマッピングするためのコンピュータ実装方法は、ＵＩマッパーによって、アプリケーションの画面におけるＵＩ要素の指示を容易にするインターフェースを提供することを含む。コンピュータ実装方法はまた、ＵＩマッパーによって、画面内のＵＩ要素の１または複数の指示を受信し、ＵＩマッパーによって、アプリケーションのＵＩツリーに、１または複数の示されたＵＩ要素を含めることを含む。コンピュータ実装方法はさらに、ＵＩマッパーまたはＵＩオブジェクトブラウザにより、後の再利用のために、１または複数の示されたＵＩ要素をオブジェクトリポジトリに追加することを含む。ＵＩマッパーは、１または複数のアプリケーション、アプリケーションごとの１または複数のそれぞれの画面、およびＵＩツリーに含まれる画面ごとの１または複数のそれぞれのＵＩ要素によって構成されるＵＩ記述子ペイン含む。

さらに別の実施形態では、ＵＩ要素をマッピングするように構成されたＵＩマッパーを提供するためのコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体上に格納される。コンピュータプログラムは、少なくとも１つのプロセッサが、アプリケーションの画面におけるＵＩ要素の指示を容易にするインターフェースを提供するように構成される。また、コンピュータプログラムは、少なくとも１つのプロセッサが、画面内のＵＩ要素の１または複数の指示を受信し、１または複数の指示されたＵＩ要素をアプリケーションのＵＩツリーに含むように構成される。コンピュータプログラムはさらに、少なくとも１つのプロセッサが、選択されたアプリケーション、画面、またはＵＩ要素のプロパティを含むプロパティペインを表示するように構成される。ＵＩ要素が選択されたとき、プロパティペインは、ターゲットＵＩ要素およびターゲットＵＩ要素を特定するための１または複数のＵＩ記述子のプロパティを含む。

本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。

本発明の実施形態による、ロボティックプロセスオートメーション（ＲＰＡ）システムを示すアーキテクチャ図である。

本発明の実施形態による、展開したＲＰＡシステムを示すアーキテクチャ図である。

本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。

本発明の実施形態による、ＲＰＡシステムを示すアーキテクチャ図である。

本発明の実施形態による、ＲＰＡ用のＵＩマッパーを提供するように構成されたコンピューティングシステムを示すアーキテクチャ図である。

本発明の実施形態による、折り畳みモード（ｃｏｌｌａｐｓｅｄｍｏｄｅ）でのＵＩマッパーを示す。

本発明の実施形態による、拡張モード（ｅｘｐａｎｄｅｄｍｏｄｅ）でのＵＩマッパーを示す。

本発明の実施形態による、ＵＩ要素が選択されていないライブアプリケーション画面を示す。

本発明の実施形態による、ターゲットおよびアンカーＵＩ要素が選択された後のライブアプリケーション画面を示す。

本発明の実施形態による、ＵＩマッパーのプロセスを示すフローチャートである。

別段の記載がない限り、類似の参照文字は、添付の図面全体で一貫して対応する特徴を示す。

（実施形態の詳細な説明）
いくつかの実施形態は、ＲＰＡのためのＵＩマッパーに関する。ＵＩマッパーは、後で使用するためにＵＩ要素をより速くフェッチするために、最初にＵＩ要素をキャプチャし得る。ＵＩマッパーは、ＲＰＡ開発者がアプリケーションを自動化するためのＵＩ要素を「マッピング」し、プログラミング知識を持たない可能性のある後の開発者が、これらの定義済み「ターゲット」ＵＩ要素を使用してＲＰＡワークフローを構築できるようにし得る。

画面上のＵＩ要素（例えば、テキストフィールド、ボタン、ラベル、メニュー、チェックボックスなど）は、アプリケーション、アプリケーションバージョン、アプリケーション画面、およびＵＩ要素の収集によってグループ化され得る。各画面は通常、複数のＵＩ要素を有する。本明細書で使用される場合、「画面」は、アプリケーションのある状態を指す。この状態は、ある時点では特定の画像または外観を有し得、ＵＩ要素、コンテナなど、要素の階層的な構造が「内部（ｕｎｄｅｒｔｈｅｈｏｏｄ）」に存在し得る。「アプリケーション」または所定のアプリケーションのバージョンは、このコンテキストでは画面の組み合わせであってもよい。各ＵＩ要素は、いくつかの実施形態では、１または複数のＵＩ記述子によって記述され得る。

ＵＩ要素、アプリケーション、およびアプリケーション画面は、ＵＩオブジェクトである。ＵＩ要素、アプリケーション、およびアプリケーション画面は、いくつかの実施形態では、特定の秩序化された構造を有し得る。例えば、アプリケーションはアプリケーション画面を有し得、アプリケーション画面はＵＩ要素を有し得る。いくつかの実施形態では、アプリケーションは、複数のアプリケーション画面を有し得、各画面は、複数のＵＩ要素を有し得る。いくつかの実施形態では、ＵＩ要素および画面は、特定のタイプのＵＩ要素（例えば、ボタン、チェックボックス、テキストフィールドなど）および画面（例えば、トップウィンドウ、モーダルウィンドウ、ポップアップウィンドウなど）にさらに区別されてもよい。

ＵＩオブジェクトブラウザは、アプリケーション、アプリケーションバージョン、アプリケーション画面、ＵＩ要素の収集、それらの組み合わせなどによってグループ化され得るＵＩオブジェクトのライブラリにアクセスし得る。いくつかの実施形態では、ＵＩオブジェクトライブラリは、ＵＩオブジェクトリポジトリに格納され得る。本明細書で使用される場合、ＵＩオブジェクトリポジトリは、ＵＩオブジェクトライブラリの収集である。いくつかの実施形態では、ＵＩオブジェクトリポジトリは、ＮｕＧｅｔ（商標）フィード、ウェブサービスなどであり得る。

ＵＩオブジェクトブラウザは、いくつかの実施形態では、ＵＩオブジェクトリポジトリにおけるＵＩオブジェクトライブラリを案内、管理、および編集するために使用され得る。いくつかの実施形態におけるＵＩオブジェクトライブラリのＵＩオブジェクトリポジトリは、プロジェクトにおけるＵＩ記述子の管理、再利用、および信頼性の向上を容易にし得る。いくつかの実施形態では、ＵＩ記述子はＵＩライブラリに追加され、ＵＩオブジェクトリポジトリでグローバルに再利用するために公開または再公開され得る。ＵＩオブジェクトブラウザは、ＵＩオブジェクトリポジトリおよびそのＵＩオブジェクトライブラリへのアクセスを提供することにより、ＵＩ要素特定フレームワークおよびその派生物の再利用を容易にし得る。

ＵＩオブジェクトを再利用可能にするために、ＲＰＡ処理で参照可能なＵＩオブジェクトライブラリに抽出され得る。例えば、アプリケーションの新しいバージョンが原因でセレクタまたは他のＵＩ記述子が変更された場合、ライブラリは、変更されたＵＩ記述子を含めるために再作製（または再公開）され得る。次いで、ＵＩオブジェクトライブラリを使用するＲＰＡプロセスは、変更されたＵＩ記述子のバージョンを呼び出し得る。新しいライブラリに関連する新しいアプリケーションプログラミングインターフェース（ＡＰＩ）への参照は、開発者がＲＰＡプロセスのために手動で変更することも、ソフトウェアツール（例えば、ＲＰＡプロセスを経て、セレクタまたはその他のコンポーネントが変更されたときにＵＩ記述子参照を更新するツール）を介して変更することも、またはいくつかの実施形態では任意の適切なメカニズムによって自動的に変更することもできる。

いくつかの実施形態では、ＵＩオブジェクトのパッケージが依存関係として添付され得る（例えば、ＮｕＧｅｔ（商標）パッケージ）。しかしながら、特定の実施形態では、ＵＩオブジェクトは、ウェブサービスへの１または複数のＡＰＩ呼び出しを介して取得され得る。これにより、ＵＩオブジェクトをリモートで格納し、自動化の間に取得して使用し得る。

ＵＩオブジェクトライブラリに追加されたＵＩ要素は、ＲＰＡワークフローで使用するセレクタを表し得る。ＵＩでの特定のアクションを自動化するために、ＲＰＡロボットは、さまざまなウィンドウ、ボタン、ドロップダウンリスト、および／またはその他のグラフィカル要素とインタラクションし得る。通常、これは、ＵＩ要素の予想される画面位置を使用して行われる。しかし、これは信頼できない。

いくつかの実施形態は、ＵＩ要素およびその親の属性を拡張マークアップ言語（ＸＭＬ）フラグメントに格納することで、固定座標特定に関連する問題を克服するセレクタを使用する。ＵＩが静的であるいくつかの実施形態では、セレクタは自動的に生成されてもよいが、いくつかのウェブアプリケーションなどのいくつかのソフトウェアプログラムでは、レイアウトが変化し、揮発性値を有する属性ノードが存在する。これらの変更は容易に予測できない場合があり、これは以前はいくつかのセレクタを手動で生成することを要求した。しかし、いくつかの実施形態のオブジェクトブラウザは、この問題を克服し得る。

セレクタは、いくつかの実施形態においてＵＩ要素を検出するために使用され得るＵＩ記述子のタイプである。セレクタは、いくつかの実施形態では、以下の構造を有する。
＜ｎｏｄｅ＿１／＞＜ｎｏｄｅ＿２／＞．．．＜ｎｏｄｅ＿Ｎ／＞

最後のノードは対象のＧＵＩ要素を表し、それ以前の全てのノードはその要素の親を表す。＜ｎｏｄｅ＿１＞は通常ルートノードと呼ばれアプリケーションのトップウィンドウを表す。

各ノードは、選択されたアプリケーションの特定のレベルの正しい特定を支援する１または複数の属性を有してもよい。各ノードは、いくつかの実施形態では、以下の形式を有する。
＜ｕｉ＿ｓｙｓｔｅｍａｔｔｒ＿ｎａｍｅ＿１＝’ａｔｔｒ＿ｖａｌｕｅ＿１’．．．ａｔｔｒ＿ｎａｍｅ＿Ｎ＝’ａｔｔｒ＿ｖａｌｕｅ＿Ｎ’／＞

全ての属性は、割り当てられた値を有し得、一定の値を有する属性が選択され得る。これは、アプリケーションが起動するたびに属性の値を変更すると、セレクタが関連する要素を正しく特定できなくなる可能性があるからである。

ＵＩオブジェクトライブラリ記述子は、ＲＰＡワークフローアクティビティに直接追加され得、さもなくばアクティビティ用のカスタムセレクタを作製するために必要とされ得る開発者の時間を節約する。オブジェクトブラウザは、作成されたセレクタをオブジェクトライブラリに格納するデータベースを提供して、ＵＩ記述子の再利用を可能にすることができる。オブジェクトライブラリは、アプリケーションの特定のバージョンから１または複数の画面に対応するＵＩ記述子の収集として本明細書で定義される。ＵＩ記述子とは、ＵＩ要素を見つけるための命令のセットである。いくつかの実施形態におけるＵＩ記述子は、ＵＩ要素セレクタ（複数可）、アンカーセレクタ（複数可）、コンピュータビジョン（ＣＶ）記述子（複数可）、統合されたターゲット記述子（複数可）、画面イメージキャプチャ（コンテキスト）、要素イメージキャプチャ、他のメタデータ（例えば、アプリケーションおよびアプリケーションバージョン）、それらの組み合わせなどを含むカプセル化されたデータ／構造フォーマットである。カプセル化されたデータ／構造フォーマットは、プラットフォームへの将来のアップデートによって拡張可能であってもよく、上記の定義に限定されるものではない。画面上のＵＩ要素を特定するためのＵＩ記述子としては、本発明の範囲を逸脱することなく、任意の好適なものを使用することができる。統合されたターゲット記述子は、複数のタイプのＵＩ記述子を連結する。統合されたターゲット記述子は、有限状態機械（ＦＳＭ）のように機能し得、第１のコンテキストでは、第１のＵＩ記述子メカニズムが適用され、第２のコンテキストでは、第２のＵＩ記述子が適用される、などである。

いくつかの実施形態では、ＲＰＡデザイナアプリケーションは、ユーザーが自動化を計画しているアプリケーションのタイプ（複数可）をユーザーに尋ね得る。例えば、ユーザーはＥｘｃｅｌ（登録商標）、Ｗｏｒｋｄａｙ（登録商標）、ＳＡＰ（登録商標）などを指定し得る。ＲＰＡアプリケーションには、これらのアプリケーションのためのＵＩオブジェクトライブラリに画面記述子が既に含まれているため、これらのアプリケーションを自動化する方法に関するロジックでアプリケーションがプログラムされ得る。これらのアプリケーションのさまざまなバージョンのすぐに使えるセレクタが利用可能であり、ユーザーは自動化するバージョン（複数可）を指定することができ得る。

いくつかの実施形態では、ファジーマッチングが採用されてもよく、ここでは、文字列メトリック（例えば、レーベンシュタイン距離、ハミング距離、ジャロ・ウィンクラー距離など）、それらの組み合わせなどを使用して、１または複数の属性が、一定の範囲内で、一定の精度（例えば、７０％一致、８０％一致、９９％一致など）で一致しなければならない。当業者であれば、類似度測定は、類似度の量だけでなく、２つの属性値の間の不一致の量を定量化することができることを理解するであろう。さらに、様々な実施形態では、類似度しきい値は、不一致の最大量または一致に要求される類似度の最小量を表してもよい。

類似度測定値を計算する選択された方法に応じて、類似度しきい値は様々な解釈を有し得る。例えば、類似度しきい値は、２つの文字列の間で異なり得る文字の最大カウント数を示してもよいし、文字の合計カウント数（例えば、結合された文字列の長さ）の割合として計算された不一致の分数の程度を示してもよい。いくつかの実施形態では、類似度しきい値は、０と１の間、０と１００の間、７と３４の間などの所定の間隔に再スケーリングされてもよい。１つの非限定的な例では、比較的高い類似度しきい値（例えば、１または１００％に近い）は、ほぼ完全一致の要件、すなわち、実行時間ターゲットにおけるファジー属性の値が、設計時間ターゲットにおける各属性の値から非常にわずかに逸脱することしか許されないことを示す。一方、類似度しきい値が比較的低い（例えば、０に近い）場合には、それぞれのファジー属性のほぼ全ての値が一致するとみなされる。

特定の実施形態では、マッチング許容差は属性の基準ごとに異なっていてもよい。例えば、１または複数の属性に対して完全一致が要求されてもよく（例えば、特定の正確な名前を見つけることが望まれてもよい）、１または複数の他の属性に対してファジーマッチングが実行されてもよい。各グラフィカル要素検出技術から使用される属性の数および／またはタイプは、いくつかの実施形態では、ＲＰＡ開発者によってカスタム指定されてもよい。

いくつかの実施形態では、属性は、属性－値のペアおよび／または属性－値－許容差のペア（例えば、ファジーマッチング）として格納されてもよい。属性－値のペアは、いくつかの実施形態では、それぞれのノードによって表されるＵＩ要素の名前とタイプを示し得る。しかしながら、当業者は、本発明の範囲から逸脱することなく、属性－値のペアのリスト以外に、ＵＩツリー内の特定のノードの位置を表現する複数の方法があり得ることを理解するであろう。

これらの属性－値のペアおよび／または属性－値－許容差のペアは、いくつかの実施形態ではタグに格納されてもよく、各タグは、実装固有の区切り文字（例えば、「＜」で始まり「／＞」で終わる）によってブックエンドされたシーケンスを有する文字の列を含み得る。属性－値のペアは、いくつかの実施形態では、それぞれのノードによって表されるＵＩ要素の名前とタイプを示し得る。しかしながら、当業者は、本発明の範囲から逸脱することなく、属性－値のペアのリスト以外に、ＵＩツリー内の特定のノードの位置を表現する複数の方法があり得ることを理解するであろう。

ＲＰＡロボットによる成功的かつ理想的に曖昧さのない特定を可能にするために、いくつかの実施形態では、それぞれのＵＩ要素を特徴づける要素ＩＤを使用して各ＵＩ要素を表現する。いくつかの実施形態では、要素ＩＤは、ＵＩツリー内のターゲットノードの位置を示し、ここで、ターゲットノードはそれぞれのＵＩ要素を表す。例えば、要素ＩＤは、ターゲットノード／ＵＩ要素を、選択されたノードのサブセットのメンバーとして特定してもよい。選択されたノードのサブセットは、系図、すなわち、各ノードが別のノードの先祖または子孫のいずれかであるＵＩツリーを介した下降線を形成することができる。

いくつかの実施形態では、要素ＩＤは、ノードインジケータの順序付けされたシーケンスを含み、シーケンスはＵＩツリーを介して系図的な経路を追跡し、経路はそれぞれのターゲットノード／ＵＩ要素で終わる。各ノードインジケータは、それぞれのＵＩのオブジェクト階層のメンバーと、それぞれの階層と一致するシーケンス内のその位置を表してもよい。例えば、シーケンスの各メンバーは、前のメンバーの子孫（例えば、子ノード）を表し、次のメンバーを子孫（例えば、子ノード）としてもよい。１つのハイパーテキストマークアップ言語（ＨＴＭＬ）の例では、個々のフォームフィールドを表す要素ＩＤは、それぞれのフォームフィールドがＨＴＭＬフォームの子であることを示してもよく、その子は、順番にウェブページの特定のセクションなどの子である。系図は、いくつかの実施形態では完全である必要はない。

いくつかの実施形態では、１または複数のマルチアンカーマッチング属性を使用してもよい。アンカーは、ターゲットＵＩ要素を一意に特定するのを助けるために使用され得る他のＵＩ要素である。例えば、ＵＩに複数のテキストフィールドが含まれている場合、テキストフィールドを検索するだけでは、与えられたテキストフィールドを一意に特定するには不十分である。したがって、いくつかの実施形態では、与えられたＵＩ要素を一意に特定するために、追加の情報を探す。テキストフィールドの例を使用すると、「ファーストネーム（ＦｉｒｓｔＮａｍｅ）」というラベルの右側に、ファーストネームを入力するためのテキストフィールドが表示される場合があり得る。このファーストネームラベルは、「ターゲット」であるテキストフィールドを一意に特定するのに役立つように、「アンカー」として設定してもよい。

いくつかの実施形態では、ターゲットとアンカーの間の様々な位置および／または幾何学的な関連付けが、ターゲットを一意に特定するために、潜在的に１または複数の許容差内で使用される可能性がある。例えば、アンカーとターゲットのバウンディングボックスの中心が線セグメントを定義するために使用されてもよい。次いで、この線セグメントは、ターゲット／アンカーペアを使用してターゲットを一意に特定するために、許容差内の特定の長さおよび／または許容差内の傾きを有することが要求され得る。しかしながら、ターゲットおよび／またはアンカーに関連付けられた位置の任意の所望の位置は、本発明の範囲から逸脱することなく、いくつかの実施形態において使用され得る。例えば、線セグメントを描画するための点は、バウンディングボックス特性に関連して特定される、バウンディングボックスの境界上の中央、左上隅、右上隅、左下隅、右下隅、他の任意の位置、バウンディングボックス内の任意の位置、バウンディングボックスの外側の位置内などにあり得る。特定の実施形態では、ターゲットおよび１または複数のアンカーは、幾何学的マッチングのために使用されるそれらのバウンディングボックス内またはバウンディングボックス外の異なる位置を有してもよい。

以上のように、画面上のターゲット要素を一定の信頼性をもって一意に特定するためには、単一のアンカーだけでは必ずしも十分ではない場合がある。例えば、画面上の異なる位置にある「ファーストネーム」というラベルのそれぞれの右側に、ファーストネームを入力するための２つのテキストフィールドが表示されているウェブフォームを考えてみる。この例では、１または複数の追加のアンカーは、所与のターゲットを一意に特定するのに有用であり得る。アンカーとターゲットとの間の幾何学的特性（例えば、許容差を有する線セグメントの長さ、角度、および／または相対位置）は、ターゲットを一意に特定するために使用されてもよい。ユーザーは、ターゲットに対する一致強度がしきい値を超えるまでアンカーを追加し続けることが要求されてもよい。

本明細書で使用されるように、用語「ユーザー」および「開発者」は互換的に使用される。ユーザー／開発者は、プログラミングおよび／または技術的な知識を持っている場合と持っていない場合がある。例えば、いくつかの実施形態では、ユーザー／開発者は、手動でコーディングすることなく、ＲＰＡワークフロー内のアクティビティを構成することにより、ＲＰＡワークフローを作成し得る。特定の実施形態では、これは、例えば、様々な機能をクリックしてドラッグアンドドロップすることによって行われてもよい。

ＲＰＡワークフロー内のアクティビティからＵＩ記述子が抽出され、ＵＩアプリケーション、画面、およびＵＩ要素ごとにＵＩ記述子をグループ化する構造化スキーマに追加され得る。ＵＩ記述子は、いくつかの実施形態では、広く再利用するための１つのプロジェクトの一部、テスト目的のためのグローバルリポジトリの一部、またはグローバルなプロジェクト間共有のためのＵＩオブジェクトライブラリの一部とし得る。いくつかの実施形態におけるオブジェクトライブラリは、アプリケーション、アプリケーションバージョン、および画面によってグループ化されたＵＩ記述子のカプセル化である。ＵＩ記述子が定義され、オブジェクトライブラリに追加され得、これは、いくつかの実施形態では、公開後に依存物として他のプロジェクトにインストールされ得る。これにより、ＵＩ記述子のオブジェクトライブラリは、再利用が可能になる。いくつかの実施形態におけるＵＩアプリケーションは、各バージョンが複数の画面を有する複数のバージョンを有するターゲットアプリケーションである。

ＵＩオブジェクトリポジトリとＵＩ記述子の再利用は、さまざまな理由で有益であり得る。例えば、アプリケーション内のＵＩ要素の位置、外観、および／または機能が変更された場合、ＵＩ記述子が変更され得、その変更は、次いでＵＩ記述子を使用するアクティビティに伝搬され得る。このように、再利用性は、ＵＩにおけるグラフィカル要素の特定のレベルで提供され得る。

これは、アプリケーションの新しいバージョンに対応するために、特に有益であり得る。新バージョンの場合、ソフトウェア開発者は、ＵＩ記述子を更新し、および／または少数の新しいセレクタを一から開発する必要があるだけでよく、開発時間を大幅に短縮することができる。例えば、ウェブページの場合、ハイパーテキストマークアップ言語（ＨＴＭＬ）が検査されて、対応するセレクタのためのＵＩ要素へのパスを取得し得る。対応するＵＩ要素のセレクタは、異なるウェブブラウザおよび／または同じウェブブラウザの異なるバージョンで異なる場合がある。この概念はまた、ビジュアルデスクトップ、サーバー、スマートフォン、およびタブレットのアプリケーションに適用されてもよい。ＵＩオブジェクトライブラリは、アプリケーションのための実際のセレクタを含むことができ、これは、上記のとおり、ＵＩ記述子の１つのタイプに過ぎない。ＵＩオブジェクトライブラリは、１または複数のアプリケーションのために、異なるタイプの複数のＵＩ記述子を持ち得る。ＵＩ記述子は、アプリケーションが構築された異なる技術を参照し得る。例えば、スタンドアロンのデスクトップ、ウェブ、およびモバイルアプリケーションのために、異なるＵＩ記述子が作製され、使用され得る。ある技術では、あなたはセレクタを使用したい場合があり、別ではあなたはＣＶ記述子を使用したい場合などがある。

ＵＩ記述子は、いくつかの実施形態では、画像の検出および定義が実行される全てのＵＩ検出メカニズムを包含する統合されたターゲットと協働してもよい。統合されたターゲットは、ＵＩ要素を特定して自動化する複数の技術を、単一のまとまりのあるアプローチに併合してもよい。統合されたターゲットは、セレクタベースおよびドライバベースのＵＩ検出メカニズムを優先し、ＣＶにフォールバックして、最初の２つのメカニズムが成功しない場合に画像を見つけ得る。いくつかの実施形態では、統合されたターゲットを支持するようにセレクタエディタおよびＵＩエクスプローラが構成され得る。

いくつかの実施形態では、デザイナアプリケーションは、１または複数のソースからオブジェクトライブラリをロードする「オブジェクトブラウザ」としてセクションまたはパネルを含む。このオブジェクトブラウザを使用すると、ユーザーはＵＩオブジェクトセット全体を視覚化し、ドラッグアンドドロップ、およびウィザード、またはコンテキストアクションを介して任意のＵＩ記述子を使用し得る。これにより、ユーザーは、クリック、テキストの取得、入力など、ＲＰＡワークフローアクティビティで実行されるアクションを選択できるようになり得る。

オブジェクトライブラリの構造例を以下に示す。
・ＳＡＰ
・バージョン１
・画面１
・オブジェクト１
・オブジェクト２
・…
・画面２…
・…
・バージョン２…
・…
・セールスフォース…
・…

上記の階層は、例としてのみ提供されていることに留意されたい。本発明の範囲から逸脱することなく、階層内の任意の所望の数のレベルおよび各レベルに関連する要素が使用され得る。特定の実施形態では、ユーザーは、アプリケーションマップを彼または彼女が所望するように定義し得る。さらに、ツリー内のいくつかのノードは、いくつかの実施形態では、管理的な役割のみを果たし、機能的な役割は果たさないかもしれない。例えば、ＵＩ要素は、ＵＩ記述子を持たないコンテナに一緒にグループ化され得る。コンテナは、いくつかの実施形態では、グループ化の目的だけのために存在し得る。

いくつかの実施形態では、ＯＬＤＢがＵｉＰａｔｈＳｔｕｄｉｏ（商標）で構成される場合、例えば、「画面上に表示」は、ＯＬＤＢを調べて、利用可能であればＵＩ記述子をピックアップし得る。ＵＩ記述子が利用できない場合、ＵＩ記述子は、欠落しているＵＩ要素を示すことによってユーザーにより定義され得る。次に、ＵＩ記述子が生成され、ＵＩオブジェクトライブラリで公開され得る。

いくつかの実施形態におけるＵＩ記述子およびＵＩオブジェクトリポジトリの使用は、さらに拡張され得る関係およびデータを作成する。いくつかの実施形態では、自動化プロセスからのＵＩステップが単一の画面にマッピングされ得る。例えば、ユーザーがいくつかのデータを追加および取得してから送信を押すフォームを含む画面は、画面キャプチャとその画面で実行される各ＵＩステップを含む１つのスクリーンショットで文書化され得る。例えば、次のようになる：（１）コピーされた量；（２）コピーされた番号；（３）追加された名前；（４）「ＯＫ」をクリックする。

ユーザーインターフェース（ＵＩ）マッパー

ある画面が多数の異なるＵＩ要素を有する場合、画面ごとに１つずつそれらをフェッチするのは時間がかかり得る。したがって、いくつかの実施形態は、アプリケーションの画面から複数のＵＩオブジェクトを１回でキャプチャするＵＩマッパーを採用する。これにより、後の画面のＵＩオブジェクトのフェッチをより高速に行い得る。いくつかの実施形態では、コンピュータビジョン（ＣＶ）を用いて画面をオブジェクトリポジトリに自動的にキャプチャし、ＵＩマッパーを用いて画面からオブジェクトリポジトリにＵＩ要素を追加し得る。

最初のフェーズでは、ユーザーがＵＩ要素を手動でキャプチャし得るおよび／またはコンピュータビジョン（ＣＶ）を使用して画面上のＵＩ要素を検出し、ユーザーにそれらを提案し得る。ユーザーは、ＵＩ要素を並べ替える、ウィンドウにそれらをグループ化する、画面レベル以外のＵＩ要素スコープを提供するなどして、ＵＩ要素を管理し得る。他のＵＩ要素スコープの使用に関して、ユーザーは、アプリケーション画面全体ではなく、そのグループ化されたコンポーネントの１または複数のコンテナを使用することを望む状況が発生し得る。例えば、コンテナは、画面内の個々のペイン、メニューのドロップダウンなどである。

いくつかの実施形態では、ＵＩマッパーは、ＲＰＡ開発者がＵＩオブジェクトのリポジトリを迅速に構築し、アプリケーションおよび画面の階層にそれらを配置して、ＵＩオブジェクトが後の自動化で容易に使用され得るようにするツールである。いくつかの実施形態では、ＵＩマッパーは、オブジェクトブラウザのツールバーから起動され得る。ＵＩマッパーツールは、高度な視点からでは、オブジェクトブラウザと選択画面とを組み合わせたようなものである。オブジェクトブラウザは、整理目的でライブラリ／ツリーとして使用され得るが、選択画面およびプロパティペイン（別名、「ヘルパー」）は個々のターゲットを構成するために使用される。リポジトリへのオブジェクトの追加は、いくつかの実施形態では、一括してまたは個別に行われ得る。どちらの手法も、ＵＩオブジェクトの高度な設定の編集を可能にし得る。いくつかの実施形態では、ユーザーは、アプリケーション、画面、および他の組織的なグループ分けの追加、ＵＩ要素の一括または１つずつの追加、ＵＩオブジェクト（例えば、ＵＩ要素、画面、アプリケーション、グループなど）の削除、既存のＵＩ要素の編集（例えば、アンカーの追加／削除、選択子の編集など）、ＵＩ要素の強調（例えば、１つのＵＩ要素、複数のＵＩ要素、全ＵＩ要素など）、ターゲットアプリケーションとのインタラクションなどを行うことができ得る。

特定の実施形態は、ロボティックプロセスオートメーション（ＲＰＡ）に採用されてもよい。図１は、本発明の実施形態による、ＲＰＡシステム１００を示すアーキテクチャ図である。ＲＰＡシステム１００は、開発者がワークフローを設計して実装することを可能にするデザイナ１１０を含む。デザイナ１１０は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術（ＩＴ）タスク、およびビジネスＩＴプロセスを自動化する。デザイナ１１０は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ１１０は、ワークフローおよびロボットの開発および展開を容易にする。

自動化プロジェクトは、本明細書で「アクティビティ」と定義されるワークフローで開発されたステップのカスタムセット間の遂行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ１１０の実施形態の商業的な一例は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。

ワークフローのタイプには、シーケンス、フローチャート、ＦＳＭ、および／またはグローバル例外ハンドラなどを含み得るが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフローに特に適し得る。ＦＳＭは、条件（すなわち、遷移）またはアクティビティによりトリガされる有限の数の状態をそれらの遂行中に使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を決定したり、プロセスをデバッグしたりするのに特に適し得る。

ワークフローがデザイナ１１０内で開発されると、ビジネスプロセスの遂行は、コンダクタ１２０によって調整され、デザイナ１１０内で開発されたワークフローを遂行する１または複数のロボット１３０を調整する。コンダクタ１２０の実施形態の商業的な一例は、ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）である。コンダクタ１２０は、環境におけるリソースの生成、監視、および展開の管理を容易にする。コンダクタ１２０は、サードパーティのソリューションおよびアプリケーションとの統合ポイント、または統合ポイントの１つとして動作し得る。

コンダクタ１２０は、全てのロボット１３０を管理し得、ロボット１３０を集中ポイントから接続して遂行する。管理され得るロボット１３０のタイプには、アテンディッドロボット１３２、アンアテンディッドロボット１３４、開発ロボット（アンアテンディッドロボット１３４と同様であるが、開発およびテストの目的で使用される）、および非生産ロボット（アテンディッドロボット１３２と同様であるが、開発およびテストの目的で使用される）が含まれるが、これらに限定されない。アテンディッドロボット１３２は、ユーザーイベントによってトリガされてもよいし、自動的に発生するようにスケジュールされてもよく、同じコンピューティングシステム上で人と並んで動作し得る。アテンディッドロボット１３２は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ１２０とともに使用され得る。アテンディッドロボット１３２は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによってトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ１２０から開始することができず、および／またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット１３２は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット１３２は、いくつかの実施形態では、人の監督下で動作することが好ましい。

アンアテンディッドロボット１３４は、仮想環境または物理マシン上で無人で動作し、多くのプロセスを自動化することができる。アンアテンディッドロボット１３４は、リモート遂行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ１１０から実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、ＶＭ、エンタープライズアプリケーション（例えば、ＳＡＰ（登録商標）、ＳａｌｅｓＦｏｒｃｅ（登録商標）、Ｏｒａｃｌｅ（登録商標）などにより生成されたもの）、およびコンピューティングシステムアプリケーション（例えば、デスクトップおよびラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど）を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。

コンダクタ１２０は、プロビジョニング、展開、バージョニング、構成、キューイング、監視、ロギング、および／または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット１３０とコンダクタ１２０（例えば、ウェブアプリケーション）との間の接続を作成し、維持することを含み得る。展開は、遂行のために割り当てられたロボット１３０へのパッケージバージョンの正しい配信を保証することを含み得る。バージョニングは、いくつかの実施形態では、いくつかのプロセスまたは構成の固有のインスタンスの管理を含んでもよい。構成は、ロボット環境およびプロセス構成の維持および配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの特定データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース（例えば、ＳＱＬデータベース）および／または別のストレージメカニズム（例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標））へのログの保存およびインデックス作成を含み得る。コンダクタ１２０は、サードパーティのソリューションおよび／またはアプリケーションのための通信の集中点として操作することにより、相互接続性を提供し得る。

ロボット１３０は、デザイナ１１０で構築されたワークフローを実行する遂行エージェントである。ロボット（複数可）１３０のいくつかの実施形態の１つの商業的な例は、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）である。いくつかの実施形態では、ロボット１３０は、デフォルトで、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｉｃｅＣｏｎｔｒｏｌＭａｎａｇｅｒ（ＳＣＭ）管理サービスをインストールする。その結果、このようなロボット１３０は、ローカルシステムアカウントの下でインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開くことができ、Ｗｉｎｄｏｗｓ（登録商標）サービスの権利を有し得る。

いくつかの実施形態では、ロボット１３０は、ユーザーモードで設置され得る。このようなロボット１３０については、所定のロボット１３０が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各マシンを最大限に全活用することを保証する高密度（ＨＤ）ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット１３０は、ＨＤ環境で構成され得る。

いくつかの実施形態におけるロボット１３０は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、ＳＣＭ管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。ＳＣＭ管理ロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と遂行ホスト（すなわち、ロボット１３０が遂行されるコンピューティングシステム）との間のプロキシとして動作する。これらのサービスは、ロボット１３０の資格情報を任されて管理する。コンソールアプリケーションは、ローカルシステム下のＳＣＭにより起動される。

いくつかの実施形態におけるユーザーモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と遂行ホストとの間のプロキシとして動作する。ユーザーモードロボットサービスは、ロボット１３０の資格情報を任されて管理し得る。ＳＣＭ管理ロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動され得る。

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッションの下で与えられたジョブを遂行し得る（つまり、ワークフローを遂行し得る。エグゼキュータは、モニタ毎のドットパーインチ（ＤＰＩ）設定を意識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであり得る。エージェントはサービスのクライアントであり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。

上で説明したように、ロボット１３０のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが遂行していることをより容易に実行し、特定し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な挙動を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのＤＰＩ設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのＤＰＩで遂行し得る。また、いくつかの実施形態では、デザイナ１１０からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。ＤＰＩを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではＤＰＩを無効にし得る。

図２は、本発明の実施形態による、展開したＲＰＡシステム２００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム２００は、図１のＲＰＡシステム１００であってもよく、またはその一部であってもよい。クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション２１０は、エグゼキュータ２１２、エージェント２１４、およびデザイナ２１６を含む。しかし、いくつかの実施形態では、デザイナ２１６は、コンピューティングシステム２１０上で実行されていなくてもよい。エグゼキュータ２１２はプロセスを実行している。図２に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント２１４（例えば、Ｗｉｎｄｏｗｓ（登録商標）サービス）は、本実施形態では、全てのエグゼキュータ２１２のための単一の接続ポイントである。この実施形態における全てのメッセージは、コンダクタ２３０に記録され、それは、データベースサーバー２４０、インデクササーバー２５０、またはその両方を介して、それらをさらに処理する。図１に関して上述したように、エグゼキュータ２１２は、ロボットコンポーネントであり得る。

いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブセッションをサポートするコンピューティングシステム（Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ２０１２など）では、複数のロボットが同時に実行され得、それぞれが一意のユーザー名を使用して別々のＷｉｎｄｏｗｓ（登録商標）セッションで実行され得る。これは、上記のＨＤロボットと呼ばれる。

エージェント２１４はまた、ロボットの状態を送信し（例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する）、遂行されるパッケージの要求されるバージョンをダウンロードすることにも責任を負う。エージェント２１４とコンダクタ２３０との間の通信は、いくつかの実施形態では、常にエージェント２１４によって開始される。通知シナリオでは、エージェント２１４は、後にコンダクタ２３０によってロボットにコマンド（例えば、開始、停止など）を送信するために使用されるＷｅｂＳｏｃｋｅｔチャネルを開いてもよい。

サーバー側には、プレゼンテーション層（ウェブアプリケーション２３２、オープンデータプロトコル（ＯＤａｔａ）代表状態転送（ＲＥＳＴ）アプリケーションプログラミングインターフェース（ＡＰＩ）エンドポイント２３４、通知および監視２３６）、サービス層（ＡＰＩ実装／ビジネスロジック２３８）、永続層（データベースサーバー２４０、インデクササーバー２５０）が含まれる。コンダクタ２３０は、ウェブアプリケーション２３２、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４、通知および監視２３６、ならびにＡＰＩ実装／ビジネスロジック２３８を含む。いくつかの実施形態では、ユーザーがコンダクタ２２０のインターフェース（例えば、ブラウザ２２０を介して）で実行するほとんどのアクションは、様々なＡＰＩを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加／削除、無人で実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション２３２は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション２３２は、ハイパーテキストマークアップ言語（ＨＴＭＬ）およびジャバスクリプト（ＪＳ）を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ２３０を制御するための様々な動作を実行するために、本実施形態ではブラウザ２２０を介してウェブアプリケーション２３２からのウェブページとインタラクションする。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および／またはプロセス毎のログを解析し、ロボットを起動しおよび停止などし得る。

ウェブアプリケーション２３２に加えて、コンダクタ２３０は、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。ＲＥＳＴＡＰＩは、ウェブアプリケーション２３２とエージェント２１４の両方により消費される。エージェント２１４は、本実施形態では、クライアントコンピュータ上の１または複数のロボットのスーパーバイザである。

本実施形態のＲＥＳＴＡＰＩは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングＲＥＳＴエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントＲＥＳＴエンドポイントは、コンダクタ２３０においてジョブ開始コマンドが使用された場合に遂行されるべきパッケージのバージョンを問い合わせるためにロボットにより使用されてもよい。キューイングＲＥＳＴエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。

ＲＥＳＴエンドポイントの監視は、ウェブアプリケーション２３２およびエージェント２１４を監視してもよい。通知および監視ＡＰＩ２３６は、エージェント２１４の登録、エージェント２１４への構成設定の配信、ならびにサーバーおよびエージェント２１４からの通知の送受信に使用されるＲＥＳＴエンドポイントであってもよい。通知および監視ＡＰＩ２３６は、いくつかの実施形態では、ＷｅｂＳｏｃｋｅｔ通信を使用してもよい。

永続層は、本実施形態では、一対のサーバー－データベースサーバー２４０（例えば、ＳＱＬサーバー）およびインデクササーバー２５０を含む。本実施形態におけるデータベースサーバー２４０は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション２３２を介して管理される。データベースサーバー２４０は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー２４０は、ロボットにより記録されたメッセージを（インデクササーバー２５０に加えて、またはそれに代えて）格納してもよい。

いくつかの実施形態では任意であるが、インデクササーバー２５０は、ロボットにより記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー２５０は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー２５０は、オープンソースプロジェクトの全文検索エンジンであるＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）を使用する。ロボットにより記録されたメッセージ（例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して）は、ロギングＲＥＳＴエンドポイント（複数可）を介してインデクササーバー２５０に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。

図３は、本発明の実施形態による、デザイナ３１０、アクティビティ３２０、３３０、およびドライバ３４０の間の関係３００を示すアーキテクチャ図である。以上のように、開発者は、デザイナ３１０を用いて、ロボットによって遂行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ３２０およびＵＩオートメーションアクティビティ３３０を含んでもよい。いくつかの実施形態では、画像中の非テキストの視覚的コンポーネントを特定することができ、これは、本明細書ではコンピュータビジョン（ＣＶ）と呼ばれる。このようなコンポーネントに関連するいくつかのＣＶアクティビティは、クリック、タイプ、テキストを取得、ホバー、要素の有無を検出、スコープの更新、ハイライトなどを含み得るが、これらに限定されない。いくつかの実施形態では、クリックは、例えば、ＣＶ、光学的文字認識（ＯＣＲ）、ファジーテキストマッチング、およびマルチアンカーを使用して要素を特定し、それをクリックする。タイプは、上記および要素内のタイプを用いて要素を特定してもよい。テキストの取得は、特定のテキストの場所を特定し、ＯＣＲを使用してそれをスキャンし得る。ホバーは、要素を特定し、その上にホバーし得る。要素の有無の検出は、上述した技法を用いて、画面上に要素の有無を検出するかどうかを確認し得る。いくつかの実施形態では、デザイナ３１０に実装され得る数百または数千もののアクティビティが存在してもよい。しかし、本発明の範囲を逸脱することなく、いずれかの数および／またはアクティビティのタイプを利用することができる。

ＵＩオートメーションアクティビティ３３０は、低レベルのコード（例えば、ＣＶアクティビティ）で記述され、ＵＩ層を介したアプリケーションとのインタラクションを促進する特別な低レベルのアクティビティのサブセットである。特定の実施形態では、ＵＩオートメーションアクティビティ３００は、例えば、ウィンドウメッセージなどを介したユーザー入力をシミュレートしてもよい。ＵＩオートメーションアクティビティ３３０は、ロボットが所望のソフトウェアとインタラクションすることを可能にするドライバ３４０を介して、これらのインタラクションを促進する。例えば、ドライバ３４０は、ＯＳドライバ３４２、ブラウザドライバ３４４、ＶＭドライバ３４６、エンタープライズアプリケーションドライバ３４８などを含んでもよい。

ドライバ３４０は、フックを探したり、キーを監視したりするなど、低レベルでＯＳとインタラクションしてもよい。それらは、Ｃｈｒｏｍｅ（登録商標）、ＩＥ（登録商標）、Ｃｉｔｒｉｘ（登録商標）、ＳＡＰ（登録商標）などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ３４０を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。

図４は、本発明の実施形態による、ＲＰＡシステム４００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム４００は、図１および／または図２のＲＰＡシステム１００および／または２００であってもよいし、それを含んでもよい。ＲＰＡシステム４００は、ロボットを実行する複数のクライアントコンピューティングシステム４１０を含む。コンピューティングシステム４１０は、その上で実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム４２０と通信することができる。コンダクタコンピューティングシステム４２０は、順番に、データベースサーバー４３０および任意のインデクササーバー４４０と通信することができる。

図１および図３に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、いずれかの適切なクライアントおよび／またはサーバーソフトウェアを使用することができることに留意すべきである。例えば、コンダクタは、クライアントコンピューティングシステム上で、非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバーサイドアプリケーションを実行してもよい。

図５は、本発明の実施形態による、ＲＰＡ用のＵＩマッパーを提供するように構成されたコンピューティングシステム５００を示すアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム５００は、本明細書に描かれたおよび／または記載された１または複数のコンピューティングシステムであってもよい。コンピューティングシステム５００は、情報を通信するためのバス５０５または他の通信機構と、情報を処理するためのバス５０５に結合されたプロセッサ（複数可）５１０とを含む。プロセッサ（複数可）５１０は、中央処理ユニット（ＣＰＵ）、特定用途集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックスプロセッシングユニット（ＧＰＵ）、それらの複数のインスタンス、および／またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ（複数可）５１０はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも１つのプロセッサ（複数可）５１０は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。

コンピューティングシステム５００は、プロセッサ（複数可）５１０によって遂行される情報および命令を格納するためのメモリ５１５をさらに含む。メモリ５１５は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ（複数可）５１０によりアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。

さらに、コンピューティングシステム５００は、無線および／または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信デバイス５２０を含む。いくつかの実施形態では、通信デバイス５２０は、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅ）通信、汎用パケット無線サービス（ＧＰＲＳ：ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）、ユニバーサル移動体通信システム（ＵＭＴＳ：ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ：ＷｉｄｅｂａｎｄＣＤＭＡ）、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速アップリンクパケットアクセス（ＨＳＵＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速パケットアクセス（ＨＳＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓ）、ロングタームエボリューション（ＬＴＥ：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥアドバンスト（ＬＴＥ－Ａ：ＬＴＥＡｄｖａｎｃｅｄ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、Ｚｉｇｂｅｅ、超広帯域無線（ＵＷＢ：Ｕｌｔｒａ－ＷｉｄｅＢａｎｄ）、８０２．１６ｘ、８０２．１５、ＨｏｍｅＮｏｄｅ－Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、無線ＩＤタグ（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、近距離無線通信（ＮＦＣ：Ｎｅａｒ－ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ）、第５世代（５Ｇ）、ＮｅｗＲａｄｉｏ（ＮＲ）、それらのいずれかの組み合わせ、および／または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および／またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信デバイス５２０は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および／またはいずれかの他のアンテナ構成である１または複数のアンテナを含み得る。

プロセッサ（複数可）５１０は、バス５０５を介して、プラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、電界放出ディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、フレキシブルＯＬＥＤディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細ディスプレイ、Ｒｅｔｉｎａ（登録商標）ディスプレイ、ＩＰＳ（Ｉｎ－ＰｌａｎｅＳｗｉｔｃｈｉｎｇ）ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ５２５にさらに結合されている。ディスプレイ５２５は、抵抗方式、静電容量方式、表面弾性波（ＳＡＷ）静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ（ハプティック）ディスプレイ、３次元（３Ｄ）タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示デバイスおよびハプティックＩ／Ｏを使用することができる。

コンピュータマウス、タッチパッドなどのようなキーボード５３０およびカーソル制御デバイス５３５は、ユーザーがコンピューティングシステム５００とインターフェースすることを可能にするために、バス５０５にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ５２５および／またはタッチパッド（図示せず）のみを介してデバイスとインタラクションすることができる。任意の入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力デバイスおよび／またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム５００と通信している別のコンピューティングシステムを介してリモートでそれとインタラクションしてもよいし、コンピューティングシステム５００は自律的に動作してもよい。

メモリ５１５は、プロセッサ（複数可）５１０により遂行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム５００のためのオペレーティングシステム５４０を含む。モジュールはさらに、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成されたＵＩマッピングモジュール５４５を含む。コンピューティングシステム５００は、付加的な機能を含む１または複数の付加的な機能モジュール５５０を含み得る。

当業者であれば、「システム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」により実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技法と整合性のあるローカライズされた形態および分配された形態で実装されてもよい。コンピューティングシステムは、ローカルエリアネットワーク（ＬＡＮ）、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、パブリッククラウドまたはプライベートクラウド、ハイブリッドクラウド、サーバーファーム、それらのいずれかの組み合わせなどの一部またはその他の方法でアクセス可能であり得る。本発明の範囲から逸脱することなく、任意の局所または分散アーキテクチャが使用され得る。

本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積（ＶＬＳＩ）回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックス処理ユニットなどのプログラマブルハードウェアデバイスに実装され得る。

モジュールはまた、様々なタイプのプロセッサにより遂行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、遂行可能コードの特定された単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の１または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、遂行可能な特定されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープのような非一時的なコンピュータ読み取り可能な媒体、および／または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかの非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。

実際、遂行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリデバイス間に分散されていてもよい。同様に、動作データは、モジュール内で特定され、ここで示されてもよく、いずれかの適切なタイプのデータ構造体内でいずれかの適切な形態で具現化され、組織化され得る。動作データは、単一のデータセットとして収集されてもよいし、または異なる記憶デバイスにわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。

いくつかの実施形態では、ＵＩマッパーは、ライブモード（本明細書では「レコーダーモード」とも呼ばれる）またはオフラインモード（本明細書では「ナビゲートモード」とも呼ばれる）で動作する。オフラインモードでは、ユーザーが記録されたアプリケーションの画面間で移動することができ、ライブモードは、ユーザーが所定の画面のＵＩ要素を指示すことができるため、ライブモードおよびオフラインモードは相互に排他的であり得る。いくつかの実施形態では、オフラインモードのとき、ライブアプリケーション画面およびそのオーバーレイを停止および／または非表示にすることができる。この機能は、以下の図６Ａ～図６Ｄに関してさらに詳細に説明される。

図６Ａは、本発明の実施形態による、折り畳みモードでのＵＩマッパー（Ｍａｐｐｅｒ）６００を示す。ＵＩマッパー６００は、いくつかの実施形態では、ＲＰＡデザイナアプリケーションのＵＩオブジェクトブラウザから起動され得る。ＵＩマッパー６００は、アプリケーション（Ａｐｐｌｉｃａｔｉｏｎ）６１２、画面（Ｓｃｒｅｅｎ）６１４、およびＵＩ要素（ＵＩＥｌｅｍｅｎｔ）６１６によって構成されるＵＩツリー構造を有するプロジェクトＵＩ記述子ペイン（ＰｒｏｊｅｃｔＵＩＤｅｓｃｒｉｐｔｏｒｓ）６１０を含む。いくつかの実施形態では、新しいアプリケーションおよび画面は、ツールバーのボタンから、または追加ボタンをクリックすることによって、またはその両方によって追加され得る。例えば、ユーザーが追加ボタン６０２または所定のツリーアイテムに関連するホバー専用の追加ボタン（＋）（例えば、追加ボタン６１５）をクリックした場合、関連するアプリケーションまたは画面が追加され得る。

本実施形態では、１つのアプリケーション６１２、画面６１４、およびＵＩ要素が示される。しかし、本発明の範囲を逸脱しない範囲で、アプリケーションの性質に基づいて、任意の数のアプリケーション、画面、およびＵＩ要素が使用され、構成され得る。ＵＩ要素のペインなど、他のＵＩ要素のスコープが指定されている場合、このコンテナはアプリケーションまたは画面の子として現れ得る。画面が複数の画面で使用されるＵＩ要素に使用される場合、この一般画面もツリー内の独自のレベルで、または他の画面と同じレベルで現れ得る。

新しいアプリケーションが選択された場合、次に、新しいアプリケーションおよび画面が適切な位置のＵＩツリーに作成されてもよく、およびＵＩ要素のプロパティがプロパティペイン（例えば、図６Ｂのプロパティペイン６２０を参照）に表示されてもよい。「名前」フィールド（例えば、図６Ｂの名前フィールド６２２）は、例えば、セレクタ情報におけるコンポーネントの名前に基づいて予め記入されてもよく、また、ユーザーによって編集可能であってもよい。新しいアプリケーションを選択すると、ユーザーがアプリケーション画面にＵＩ要素を指示し得るいくつかの実施形態におけるアプリケーションの「ライブ」モードを同時に開始し得る。例えば、図６Ｂ～図６Ｄを参照。

アプリケーションを指示した後、該当する場合、アプリケーションパスおよび引数が収集および格納され、実行時データを含む新しい画面が作成される。これは、例えば、アプリケーションパスおよび引数（例えば、その特定のファイルでアプリケーションを開くためのファイル名およびパス）、ならびにセレクタを含み得る。この情報のセットは、画面を作成するために使用され得る。

いくつかの実施形態では、アプリケーションを指示した後に、ＵＩツリーにアプリケーションを作成せずに、新しい独立した画面が作成され得る。ユーザーが特定のアプリケーションに属さない画面、および／または特定の画面に属さないＵＩ要素を持ちたい場合を考えてみる。例えば、特定のボタンが複数の画面または他のアプリケーションの状態で現れる場合、そのようなすべての画面で同じボタンの個別のＵＩ記述子インスタンスを使用しても意味がない場合がある。ユーザーは、このようなボタンを、特定のアプリケーション状態ではない一般的な画面内のＵＩ要素として指定し得る。

図６Ａおよび図６Ｂの実施形態では、ライブモードとオフラインモードの２つの編集モードがある。図６Ａでは、ＵＩマッパー６００はオフラインモードであり、および図６Ｂでは、ＵＩマッパー６００はライブモードである。これらのモードでは、ユーザーが新しい要素を追加したり、既存の要素を修正したりすることができる。ライブモード（本明細書では「レコーダーモード」とも呼ばれる）は、レコーダーモードボタン６０４を介して呼び出され得、これはナビゲートボタン６０６を無効化する。逆に、ナビゲートボタン６０６をクリックすると、レコーダーモードボタン６０４が無効となり、ユーザーはオフラインモードで動作し得る。本実施形態におけるライブモードとオフラインモードの主な違いは、ライブモードではインタラクションがＵＩ要素をリポジトリに追加するだけなのでアプリケーション自体が動作され得ないのに対し、ナビゲートモードではインタラクションがアプリケーションに送られるので、アプリケーションでそれらを指示することによって新しいＵＩ要素が追加され得ない。

図６Ｂ～図６Ｄに目を向けると、レコーダーモードでは、ライブアプリケーション画面６４０に対して指示機能が開始される。図６Ｃおよび図６Ｄで分かるように、ライブアプリケーション画面６４０は、チェックボックスおよびラジオボタンによって構成される様々なオプション、ならびにテキストフィールドを含む。当初、ライブアプリケーション画面６４０では、ＵＩ要素は指示されていない。図６Ｃを参照。ユーザーはＵＩ要素をクリックしてＵＩ記述子情報を提供することにより手動でＵＩ要素をキャプチャし得る、またはＣＶを用いて自動的にＵＩ要素の特定を試み、ユーザーに提案を与え得る。例えば、ボタン、フォームフィールド、ドロップダウンメニューなど、目に見える要素をキャプチャするようにＣＶが提案し得る。

図６Ｄに目を向けると、ユーザーは、マルチアンカーアプローチを使用してターゲットＵＩ要素６４２を一意に特定するために、ターゲットＵＩ要素６４２および２つのアンカー６４４、６４６を選択する。ターゲットＵＩ要素６４２が指示された後、ターゲットＵＩ要素６４２のプロパティは、例えば、ユーザーが編集ボタン６１７にカーソルを合わせてクリックすると、プロパティペイン６２０に追加されてユーザーに表示され得る。本実施形態では、プロパティは、ＵＩ要素名６２２、説明６２３、トップレベルセレクタ（ＴｏｐＬｅｖｅｌＳｅｌｅｃｔｏｒ）６２６、ターゲット（Ｔａｒｇｅｔ）プロパティ６３０およびアンカー（Ａｎｃｈｏｒ）プロパティ６２８を含む。アンカープロパティ６２８を拡張すると、いくつかの実施形態では、ターゲットプロパティ６３０に対するそれぞれのアンカーを見つけるためのＵＩ記述子のオプションの同様のセットを示し得る。

ターゲットプロパティ６３０は、所望するＵＩ要素検出技術（複数可）、すなわち、本実施形態ではそれぞれセレクタ、ファジーセレクタ、および画像マッチングを選択するためのチェックボックス６３２、６３４、６３８を含む。ユーザーは、テキストエリア６３３、６３５をそれぞれ使用して、セレクタ技術およびファジーセレクタ技術の属性を手動で修正し得る。ユーザーは、スライダを使用して、または手動で値を入力することによって、セレクタ精度（ＳｅｌｅｃｔｏｒＡｃｃｕｒａｃｙ）６３６を修正し得る。画像精度（ＩｍａｇｅＡｃｃｕｒａｃｙ）６３９は、それぞれのスライダを使用して、または手動で値を入力することによって修正され得る。

プロパティペイン６２０を使用して、ユーザーは、アンカーの削除、ターゲットの削除、セレクタの編集、ＵＩ要素名および説明の編集などを含むがこれらに限定されない、それぞれのＵＩ要素に対する様々なプロパティを修正することができる。いくつかの実施形態では、ユーザーがアンカーを追加するために、ＵＩマッパーはライブモードである必要がある。プロジェクトＵＩ記述子ペイン６１０を使用して、ユーザーは、現在選択されているＵＩ要素６１６をツリー階層内の異なる位置に移動させ得る。ＵＩ要素の構成が終了すると、ユーザーは、次の所望のＵＩ要素および／または画面をキャプチャするためにレコーディングプロセスを再開する要素確認ボタン６２４をクリックし得る。

いくつかの実施形態では、ユーザーは、プロジェクトＵＩ記述子ペイン６１０のＵＩツリーにおいて、任意の所望のＵＩ要素６１６をクリックし得る。有効な場合（例えば、ＵＩ記述子（複数可）がライブアプリケーション画面内でターゲットＵＩ要素を見つけることができた）、図６Ｄに示すように、ターゲットＵＩ要素はライブアプリケーション画面６４０上で強調され、ＵＩ要素の設定はさらに所望に応じて編集され得る。ターゲットＵＩ要素が有効でない場合、いくつかの実施形態では、ターゲットＵＩ要素のプロパティはまだ表示され、編集され得るが、エラー（複数可）が訂正されるまで新しい要素（ターゲット／アンカー）が追加され得ない。また、編集が行われた場合、再度検証も行われ得る。

また、ユーザーは、ＵＩツリーの画面６１４内をクリックし得る。いくつかの実施形態では、このアクションに対する視覚的な応答がない場合があるが、次に追加される要素は、前の画面ではなく選択された画面に追加される場合がある。ＵＩ要素、画面、およびアプリケーションは、いくつかの実施形態では、それぞれの要素を右クリックし、削除オプション（図示せず）を選択することによって削除され得る。ユーザーは、ツールバーのナビゲートボタン６０６をクリックすることによって記録を停止し得る。

図６Ａのナビゲート（オフライン）モードにおけるオフライン編集は、ライブアプリケーション画面６４０における要素の強調およびライブ検証、ならびにアンカーの追加が行われ得ないこと除いて、図６Ｂのライブモードと同様であってよい。プロパティペイン６２０は、ナビゲートモードにおいても、図６Ｂに示されたプロパティの手動編集を可能にし得る。ユーザーは、レコーダーモードボタン６０４を介して、ライブモードに戻ることができる。

要素の強調は、ハイライトボタン６０８を用いて実行され得る。これは、いくつかの実施形態では、単一のＵＩ要素またはすべてのＵＩ要素に対して開始され得る。１つのＵＩ要素の場合、ＵＩ要素の強調はそれを検索することを意味する場合があるので、このアクションは、ナビゲートモードからレコーディングモードにモードを切り替えることができる。ライブアプリケーション画面６４０では、対象のＵＩ要素が自動的に強調される場合がある。

ユーザーが画面を強調した場合、画面内のすべてのＵＩ要素が検索され、およびターゲットが強調され得る。画面のために、ハイライトボタン６０８はトグルボタンのように動作得、ユーザーが再度それを押すまでオンのままである。この状態で、必要に応じて、ユーザーはレコーディングモードに切り替えて、他のＵＩ要素を追加／編集し得る。要素の検索中に、キャンセル可能な「トースター」が表示される場合があり、プロセスの終了まで待機するのではなく、見つかったときに各ＵＩ要素が表示される場合がある。

図７は、本発明の実施形態による、ＵＩマッパーのプロセス７００を示すフローチャートである。プロセスは、７０５で、アプリケーションの画面内のＵＩ要素の指示を容易にするインターフェースを提供することから始まる。７１０でユーザーが新しいアプリケーションを選択すると、ＵＩツリー内に新しいアプリケーションおよび画面が作成され、７１５でアプリケーションのアプリケーションパスおよび引数が収集されて格納される。

画面上でＣＶが実行されてＵＩ要素が自動的に特定され、７２０で自動的に特定されたＵＩ要素を使用して１または複数のＵＩ要素の提案が提供される。画面内のＵＩ要素の１または複数の指示が７２５で受信され、１または複数の指示されたＵＩ要素が７３０でアプリケーションのＵＩツリーに含まれる。

いくつかの実施形態では、ＵＩマッパーは、インターフェースを提供し、かつ画面上のＵＩ要素の指示を受信するレコーダーモードで動作するように構成される。特定の実施形態では、ＵＩマッパーは、ナビゲートモードで動作するように構成され、ＵＩマッパーは異なる画面の選択を容易にする。いくつかの実施形態では、ＵＩマッパーは、両方のモードで動作するように構成される。レコーダーモードとナビゲートモードは、特定の実施形態では相互に排他的である。

いくつかの実施形態では、ＵＩマッパーは、ＲＰＡデザイナアプリケーションのＵＩオブジェクトブラウザから起動される。特定の実施形態では、ＵＩマッパーは、１または複数のアプリケーション、アプリケーションごとの１または複数のそれぞれの画面、およびＵＩツリーに含まれる画面ごとの１または複数のそれぞれのＵＩ要素によって構成されるＵＩ記述子ペイン含む。いくつかの実施形態では、ＵＩ要素が選択されたとき、プロパティペインは、ターゲットＵＩ要素およびターゲットＵＩ要素を特定するための１または複数のＵＩ記述子のプロパティを含む。特定の実施形態では、プロパティペインは、ターゲットＵＩ要素に関連付けられた少なくとも１つのアンカーをさらに含む。いくつかの実施形態では、ＵＩマッパーは、プロパティペインを介して、アンカーの削除ターゲットＵＩ要素の削除、１または複数のＵＩ記述子の編集、ターゲットＵＩ要素の名前および説明の編集、あるいはそれらの組み合わせを容易にするように構成される。

いくつかの実施形態は、例えば、ユーザーが画面上で選択されたＵＩ要素を検索したい場合、またはすべてのＵＩ要素を見たい場合、７３５でハイライトモード機能を実装する。ハイライトモード機能は、前者については、ＵＩマッパーにおけるＵＩ要素の選択を受信し、かつ選択されたＵＩ要素を画面内で検索すること、および／または、後者については、画面の選択を受信し、かつ画面内で見つかった各ＵＩ要素を表示することを含み得る。いくつかの実施形態では、アプリケーションの複数の画面に共通する１または複数のＵＩ要素を含む少なくとも１つの新しい独立した画面が７４０で作成される。

いくつかの実施形態では、画面のための１または複数のコンテナが７４５で提供される。１または複数のコンテナは、画面のサブセットを含む。選択されたアプリケーション、画面、またはＵＩ要素のプロパティを含むプロパティペインが７５０に表示される。例えば、図６Ｂを参照。１または複数の指示されたＵＩ要素は、７５５において、後の再利用のためにオブジェクトリポジトリに追加される。

７５５でユーザーがアプリケーションの別の画面に移動したい場合、ユーザーはＵＩマッパーをナビゲートモードにし、次の画面を選択し、レコーダーモードに戻り、そしてその画面のためにステップ７２０に戻ることができる。いくつかの実施形態では、ユーザーは、異なるアプリケーションを選択し、そのアプリケーションのためにステップ７０５に進むことができる。これ以上、画面またはアプリケーションを表示しない場合は、次に処理を終了する。

図７で実行されるプロセスステップは、本発明の実施形態に従って、図７で説明したプロセス（複数可）の少なくとも一部を実行するようにプロセッサ（複数可）への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープ、および／またはデータを格納するために使用される他のそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、図７に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム（例えば、図５のコンピューティングシステム５００のプロセッサ（複数可）５１０）のプロセッサ（複数可）を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。

コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに動作可能な通信を行うモジュールで構成され得、情報または指示をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ＡＳＩＣ、またはいずれかの他の好適なデバイスで動作するように構成され得る。

本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。

本明細書を通して記載された本発明の特色、構造、または特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも１つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、１または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。

本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態であることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも１つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。

さらに、本発明の記載された特色、利点、および特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術の当業者は、本発明が、１または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の例では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれないが特定の実施形態では認識され得る。

本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および／または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。

Claims

非一時的なコンピュータ読み取り可能な媒体上に格納されたＵＩ要素をマッピングするように構成されたユーザーインターフェース（ＵＩ）マッパーを提供するためのコンピュータプログラムであって、前記コンピュータプログラムは、少なくとも１つのプロセッサが、
アプリケーションの画面におけるＵＩ要素の指示を容易にするインターフェースを提供し、
前記画面の前記ＵＩ要素の１または複数の指示を受信し、
指示された前記１または複数のＵＩ要素を前記アプリケーションのＵＩツリーに含むように構成され、
前記ＵＩマッパーは、前記インターフェースを提供し、かつ前記画面上の前記ＵＩ要素の前記指示を受信するライブモードで動作するように構成され、
前記ＵＩマッパーは、オフラインモードで動作するように構成され、前記ＵＩマッパーは異なる画面の選択を容易にする、コンピュータプログラム。
前記ライブモードおよび前記オフラインモードは、相互に排他的である、請求項１に記載のコンピュータプログラム。
前記ＵＩマッパーは、ＲＰＡデザイナアプリケーションのＵＩオブジェクトブラウザから起動される、請求項１に記載のコンピュータプログラム。
前記ＵＩマッパーは、１または複数のアプリケーション、アプリケーションごとの１または複数のそれぞれの画面、および前記ＵＩツリーに含まれる画面ごとの１または複数のそれぞれのＵＩ要素によって構成されるＵＩ記述子ペイン含む、請求項１に記載のコンピュータプログラム。
前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
ユーザーが新しいアプリケーションを選択すると、前記ＵＩツリーに前記新しいアプリケーションおよび画面を作成するように構成される、請求項１に記載のコンピュータプログラム。
前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
前記アプリケーションのアプリケーションパスおよび引数を収集しかつ格納するように構成される、請求項１に記載のコンピュータプログラム。
前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
前記アプリケーションの異なる画面に共通する１または複数のＵＩ要素を含む少なくとも１つの新しい独立した画面を作成するように構成される、請求項１に記載のコンピュータプログラム。
前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
前記画面上でコンピュータビジョン（ＣＶ）を実行し、ＵＩ要素を自動的に特定し、
自動的に特定された前記ＵＩ要素を使用して、１または複数のＵＩ要素の提案を提供するように構成される、請求項１に記載のコンピュータプログラム。
前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
選択されたアプリケーション、画面、またはＵＩ要素のプロパティを含むプロパティペインを表示するように構成される、請求項１に記載のコンピュータプログラム。
ＵＩ要素が選択されたとき、前記プロパティペインは、ターゲットＵＩ要素および前記ターゲットＵＩ要素を特定するための１または複数のＵＩ記述子のプロパティを含む、請求項９に記載のコンピュータプログラム。
前記プロパティペインは、前記ターゲットＵＩ要素に関連付けられた少なくとも１つのアンカーをさらに含む、請求項１０に記載のコンピュータプログラム。
前記ＵＩマッパーは、前記プロパティペインを介して、アンカーの削除、前記ターゲットＵＩ要素の削除、前記１または複数のＵＩ記述子の編集、前記ターゲットＵＩ要素の名前および説明の編集、あるいはそれらの組み合わせを容易にするように構成される、請求項１０に記載のコンピュータプログラム。
前記ＵＩマッパーはハイライト機能を含み、前記ハイライト機能が有効であるとき、前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
前記ＵＩマッパーにおいてＵＩ要素の選択を受信しかつ選択された前記ＵＩ要素を前記画面内で検索し、画面の選択を受信しかつ前記画面上で見つかった各ＵＩ要素を表示し、またはその両方を行うように構成される、請求項１に記載のコンピュータプログラム。
前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
前記画面用の１または複数のコンテナを提供し、前記１または複数のコンテナは、前記画面のサブセットを含むように構成される、請求項１に記載のコンピュータプログラム。
前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
後の再利用のために、指示された前記１または複数のＵＩ要素をオブジェクトリポジトリに追加するように構成される、請求項１に記載のコンピュータプログラム。
ロボティックプロセスオートメーション（ＲＰＡ）のためのユーザーインターフェース（ＵＩ）要素をマッピングするためのコンピュータ実装方法であって、
ＵＩマッパーによるアプリケーションの画面内のＵＩ要素の指示を容易にするインターフェースを提供し、
前記ＵＩマッパーにより、前記画面内の前記ＵＩ要素の１または複数の指示を受信し、
前記ＵＩマッパーにより、指示された前記１または複数のＵＩ要素を前記アプリケーションのＵＩツリーに含め、
前記ＵＩマッパーまたはＵＩオブジェクトブラウザにより、後の再利用のために、指示された前記１または複数のＵＩ要素をオブジェクトリポジトリに追加することを含み、
前記ＵＩマッパーは、１または複数のアプリケーション、アプリケーションごとの１または複数のそれぞれの画面、および前記ＵＩツリーに含まれる画面ごとの１または複数のそれぞれのＵＩ要素によって構成されるＵＩ記述子ペイン含む、コンピュータ実装方法。
前記ＵＩマッパーは、前記インターフェースを提供し、かつ前記画面上の前記ＵＩ要素の前記指示を受信するライブモードで動作するように構成され、
前記ＵＩマッパーは、オフラインモードで動作するように構成され、前記ＵＩマッパーは異なる画面の選択を容易にする、請求項１６に記載のコンピュータ実装方法。
前記ＵＩマッパーがハイライト機能を含み、前記ハイライト機能が有効であるとき、前記方法はさらに、
前記ＵＩマッパーにおいてＵＩ要素の選択を受信しかつ選択された前記ＵＩ要素を前記画面内で検索し、画面の選択を受信しかつ前記画面上で見つかった各ＵＩ要素を表示し、またはその両方を行うことを含む、請求項１６に記載のコンピュータ実装方法。
非一時的なコンピュータ読み取り可能な媒体上に格納されたＵＩ要素をマッピングするように構成されたユーザーインターフェース（ＵＩ）マッパーを提供するためのコンピュータプログラムであって、前記コンピュータプログラムは、少なくとも１つのプロセッサが、
アプリケーションの画面におけるＵＩ要素の指示を容易にするインターフェースを提供し、
前記画面の前記ＵＩ要素の１または複数の指示を受信し、
指示された前記１または複数のＵＩ要素を前記アプリケーションのＵＩツリーに含め、
選択されたアプリケーション、画面、またはＵＩ要素のプロパティを含むプロパティペインを表示するように構成され、
ＵＩ要素が選択されたとき、前記プロパティペインは、ターゲットＵＩ要素および前記ターゲットＵＩ要素を特定するための１または複数のＵＩ記述子のプロパティを含む、コンピュータプログラム。
前記ＵＩマッパーは、前記プロパティペインを介して、アンカーの削除、前記ターゲットＵＩ要素の削除、前記１または複数のＵＩ記述子の編集、前記ターゲットＵＩ要素の名前および説明の編集、あるいはそれらの組み合わせを容易にするように構成される、請求項１９に記載のコンピュータプログラム。