JP2022551933A

JP2022551933A - ロボティック・プロセス・オートメーションのためのアクティビティ対象選択のシステム及び方法

Info

Publication number: JP2022551933A
Application number: JP2022521760A
Authority: JP
Inventors: ヴィー．ヴォイク，コスミン; エイチ．ボボリー，ドラゴス; マイロン，アイオン; リパ，ボグダン; シー．パウネル，イリー
Original assignee: UiPath Inc
Current assignee: UiPath Inc
Priority date: 2019-10-14
Filing date: 2020-08-12
Publication date: 2022-12-14
Also published as: WO2021076204A1; CN113015956A; WO2021076205A1; EP4046011A1; CN113015956B

Abstract

ソフトウェアロボットは、ユーザーインターフェースの対象要素（例えば、ボタン、入力フィールドなど）上でアクティビティ（例えば、マウスクリック、テキスト入力など）を実行するように設計される。ロボットのコード指定は、対象要素の画面上画像、及び対象要素によって表示されるテキストを含むように構成される。ロボットは、ユーザーインターフェースのソースコードで指定された要素ＩＤに従って、実行時に対象要素を自動的に識別し、そのような識別に失敗した場合、ロボットのコードに記憶されたテキスト及び画像に従って対象要素を識別するように構成される。

Description

本発明は、ロボティック・プロセス・オートメーション（ＲＰＡ）に関し、特に、マウスクリック又はテキスト入力などのアクティビティの対象となるユーザーインターフェース要素を自動的に識別するシステム及び方法に関する。

ＲＰＡは、反復的なコンピューティングタスクをオートメーション化することによって生産性を改善させることを目的とした情報技術の新興分野であり、したがって人間のオペレータは、知的に洗練された及び／又は創造的なアクティビティを自由に実施することができる。オートメーション化の対象となる注目すべきタスクは、文書から構造化データを抽出することと、とりわけ、例えばフォームに記入するためにユーザーインターフェースとインタラクトすることと、を含む。

ＲＰＡ開発の明確な方針は、ソフトウェアロボットのプログラミング及び管理を単純化することに向けられており、高度なプログラミングスキル又はトレーニングを欠くユーザーに、ＲＰＡ技術の範囲を拡大するという最終的な目標がある。ＲＰＡのアクセスを容易にする１つの方法は、コーディング自体ではなく、グラフィカル・ユーザー・インターフェース（ＧＵＩ）ツールを介してロボットのプログラミングを可能にするＲＰＡ指向の統合開発環境（ＩＤＥ）の開発である。

しかしながら、ユーザーインターフェースとのインタラクションをオートメーション化することは、例えばボタン又はフォームフィールドなどの対象要素を明確に識別する、実質的な技術的課題を提起する。更に、ＲＰＡアプリケーションは、それぞれのソフトウェアロボットの設計と実行時との間で生じるインターフェース（例えば、様々な要素の位置付け、配色、フォントなど）の外観の変化のために失敗する可能性がある。したがって、そのような変化に影響されない堅牢でスケーラブルなソフトウェアロボットを開発することに継続的な関心がある。

一態様によれば、方法は、コンピュータシステムの少なくとも１つのハードウェアプロセッサを採用することを含み、コンピュータシステムの少なくとも１つのハードウェアプロセッサは、対象機能のセット及びアンカー機能のセットを備えるＲＰＡスクリプトの受取りに応答して、コンピュータシステムによって公開された実行時ユーザーインターフェース（ＵＩ）内の対象要素の実行時インスタンスを自動的に識別することであって、対象機能が、対象ＵＩの対象要素の特性であり、アンカー機能が、対象ＵＩのアンカー要素の特性である、識別することを実施する。方法は、人間のオペレータと対象要素の実行時インスタンスとのインタラクションの結果を再現する操作を自動的に実行することであって、操作が、ＲＰＡスクリプトに従って決定される、実行することを更に含む。対象機能のセットは、対象ＵＩのツリー表現内の対象要素の位置を示す対象ＩＤと、対象ＵＩ内の対象要素の画像を備える対象画像と、対象ＵＩ内の対象要素によって表示される一連の文字を備える対象テキストと、を備える。アンカー機能のセットは、対象ＵＩのツリー表現内のアンカー要素の位置を示すアンカーＩＤと、対象ＵＩ内のアンカー要素の画像を備えるアンカー画像と、対象ＵＩ内のアンカー要素によって表示される一連の文字を備えるアンカーテキストと、を備える。本方法は、対象ＩＤ、対象画像、対象テキスト、アンカーＩＤ、アンカー画像、及びアンカーテキストに従って、対象要素の実行時インスタンスを識別することを含む。

別の態様によれば、コンピュータシステムは、オートメーション化対象アプリケーション及びＲＰＡロボットを遂行するように構成された少なくとも１つのハードウェアプロセッサを備える。オートメーション化対象アプリケーションは、実行時ＵＩを公開するように構成される。ＲＰＡロボットは、対象機能のセット及びアンカー機能のセットを備えるＲＰＡスクリプトの受取りに応答して、コンピュータシステムによって公開された実行時ＵＩ内の対象要素の実行時インスタンスを自動的に識別することであって、対象機能が、対象ＵＩの対象要素の特性であり、アンカー機能が、対象ＵＩのアンカー要素の特性である、識別することを実施するように構成される。ＲＰＡロボットは、人間のオペレータと対象要素の実行時インスタンスとのインタラクションの結果を再現する操作を自動的に実行することであって、操作が、ＲＰＡスクリプトに従って決定される、実行することを実施するように更に構成される。対象機能のセットは、対象ＵＩのツリー表現内の対象要素の位置を示す対象ＩＤと、対象ＵＩ内の対象要素の画像を備える対象画像と、対象ＵＩ内の対象要素によって表示される一連の文字を備える対象テキストと、を備える。アンカー機能のセットは、対象ＵＩのツリー表現内のアンカー要素の位置を示すアンカーＩＤと、対象ＵＩ内のアンカー要素の画像を備えるアンカー画像と、対象ＵＩ内のアンカー要素によって表示される一連の文字を備えるアンカーテキストと、を備える。対象要素の実行時インスタンスを自動的に識別することは、対象ＩＤ、対象画像、対象テキスト、アンカーＩＤ、アンカー画像、及びアンカーテキストに従って、対象要素の実行時インスタンスを識別することを含む。

別の態様によれば、非一時的コンピュータ可読媒体は、命令を記憶し、その命令は、実行時ＵＩを公開するように構成されたコンピュータシステムの少なくとも１つのハードウェアプロセッサによって遂行された場合、コンピュータシステムに、対象機能のセット及びアンカー機能のセットを備えるＲＰＡスクリプトの受取りに応答して、コンピュータシステムによって公開された実行時ＵＩ内の対象要素の実行時インスタンスを自動的に識別することであって、対象機能が、対象ＵＩの対象要素の特性であり、アンカー機能が、対象ＵＩのアンカー要素の特性である、識別することを実施させる。命令は更に、コンピュータシステムに、人間のオペレータと対象要素の実行時インスタンスとのインタラクションの結果を再現する操作を自動的に実行することであって、操作が、ＲＰＡスクリプトに従って決定される、実行することを更に実施させる。対象機能のセットは、対象ＵＩのツリー表現内の対象要素の位置を示す対象ＩＤと、対象ＵＩ内の対象要素の画像を備える対象画像と、対象ＵＩ内の対象要素によって表示される一連の文字を備える対象テキストと、を備える。アンカー機能のセットは、対象ＵＩのツリー表現内のアンカー要素の位置を示すアンカーＩＤと、対象ＵＩ内のアンカー要素の画像を備えるアンカー画像と、対象ＵＩ内のアンカー要素によって表示される一連の文字を備えるアンカーテキストと、を備える。対象要素の実行時インスタンスを自動的に識別することは、対象ＩＤ、対象画像、対象テキスト、アンカーＩＤ、アンカー画像、及びアンカーテキストに従って、対象要素の実行時インスタンスを識別することを含む。

本発明の前述の態様及び利点は、以下の詳細な説明を読み、図面を参照すると、良好に理解されるであろう。

本発明のいくつかの実施形態による、例示的なロボティック・プロセス・オートメーション（ＲＰＡ）システムを示す図である。

本発明のいくつかの実施形態による、ＲＰＡクライアント上で遂行される例示的なソフトウェアを示す図である。

本発明のいくつかの実施形態による、複数のＵＩ要素を備える例示的なユーザーインターフェース（ＵＩ）を示す図である。

本発明のいくつかの実施形態による、スクリプト作成アプリケーションによって実施される例示的な一連のステップを示す図である。

本発明のいくつかの実施形態による、例示的なユーザーインターフェース、対象要素、及び複数の候補アンカー要素を示す図である。

本発明のいくつかの実施形態による、対象要素に関連するアンカー要素を自動的に決定するために実行される例示的な一連のステップを示す図である。

本発明のいくつかの実施形態による、例示的なユーザーインターフェース、対象要素、及び複数の候補アンカー配置を示す図である。

本発明のいくつかの実施形態による、対象要素に関連するアンカー要素を自動的に識別するためにスクリプト作成アプリケーションによって実行される代替の一連のステップを示す図である。

本発明のいくつかの実施形態による、例示的なＵＩツリー、及びＵＩツリーのノードを特徴付ける例示的な要素ＩＤを示す図である。

本発明のいくつかの実施形態による、ＵＩ要素を特徴付けるデータの様々なタイプを示す図である。

本発明のいくつかの実施形態による、ＲＰＡロボットによって実施される例示的な一連のステップを示す図である。

本発明のいくつかの実施形態による、実行時対象ＵＩ要素を識別するためにＲＰＡロボットによって実行される例示的な一連のステップを示す図である。

本発明のいくつかの実施形態による、例示的な要素間距離のセットを示す図である。

本発明のいくつかの実施形態による、例示的な要素間距離の別のセットを示す図である。

本発明のいくつかの実施形態による、例示的な要素間角度を示す図である。

本発明のいくつかの実施形態による、２つのＵＩ要素間の例示的な重複度を示す図である。

本明細書に記載の方法を実行するように構成されたコンピューティングデバイスの例示的な実施形態を示す図である。

以下の説明では、構造間の列挙されたすべての接続が、直接的な動作接続、又は中間構造を介した間接的な動作接続であり得ることが理解される。要素のセットは、１つ又は複数の要素を含む。要素の列挙は、少なくとも１つの要素を指すと理解される。複数の要素は、少なくとも２つの要素を含む。「又は」の任意の使用は、否定排他的論理和を意味する。別段の要求がない限り、記載した方法ステップは、必ずしも特定の例示された順序で実施される必要はない。第２の要素から導出された第１の要素（例えば、データ）は、第２の要素に等しい第１の要素、並びに第２の要素及び任意選択的な他のデータを処理することによって生成された第１の要素を包含する。パラメータに従って決定又は判断を行うことは、パラメータに従って、及び任意選択で他のデータに従って、決定又は判断を行うことを包含する。別段の指定がない限り、いくつかの量／データのインジケータは、量／データ自体、又は量／データ自体とは異なるインジケータであってもよい。コンピュータプログラムは、タスクを実行する一連のプロセッサ命令である。本発明のいくつかの実施形態で説明されるコンピュータプログラムは、スタンドアロンのソフトウェアエンティティ、又は他のコンピュータプログラムのサブエンティティ（例えば、サブルーチン、ライブラリ）であってもよい。「データベース」という用語は、本明細書では、組織化された検索可能なデータの集合を示すために使用される。コンピュータ可読媒体は、磁気、光学、及び半導体記憶媒体（例えば、ハードドライブ、光ディスク、フラッシュメモリ、ＤＲＡＭ）などの非一時的媒体、並びに導電ケーブル及び光ファイバリンクなどの通信リンクを包含する。いくつかの実施形態によれば、本発明は、とりわけ、本明細書に記載の方法を実施するようにプログラムされたハードウェア（例えば、１つ又は複数のプロセッサ）と、本明細書に記載の方法を実施する命令を符号化したコンピュータ可読媒体と、を備えるコンピュータシステムを提供する。

以下の説明は、本発明の実施形態を例として示しており、必ずしも限定するものではない。

図１は、本発明のいくつかの実施形態による、例示的なロボティック・プロセス・オートメーション・システムを示している。複数のＲＰＡクライアント１０ａ～ｅの各々は、少なくともハードウェアプロセッサと、メモリユニットと、それぞれのＲＰＡクライアントがコンピュータネットワーク及び／又は他のコンピューティングデバイスへの接続を可能にするネットワークアダプタと、を有するコンピューティングデバイスを表す。例示的なＲＰＡクライアント１０ａ～ｅは、とりわけ、パーソナルコンピュータ、ラップトップ及びタブレットコンピュータ、並びにモバイル通信デバイス（例えば、スマートフォン）を含む。例示的な使用事例シナリオでは、ＲＰＡクライアント１０ａ～１０ｄは、企業の会計又は人事部に属するデスクトップコンピュータを表す。図示のＲＰＡクライアント１０ａ～ｄは、ローカル・エリア・ネットワーク（ＬＡＮ）を備え得るローカル通信ネットワーク１２によって相互接続される。クライアント１０ａ～ｄは、広域ネットワーク（ＷＡＮ）及び／又はインターネットを備え得る拡張ネットワーク１４に更にアクセスし得る。図１の構成例では、ＲＰＡクライアント１０ｅは、拡張ネットワーク１４に直接接続されている。そのようなクライアントは、様々なアクセスポイントでネットワーク１４に接続するラップトップ、タブレットコンピュータ、又は携帯電話などのモバイルコンピュータを表し得る。

典型的なＲＰＡシナリオでは、会社の従業員は、例えば様々なビジネスクライアントに請求書を発行するために、ビジネスアプリケーション（例えば、ワードプロセッサ、スプレッドシートエディタ、ブラウザ、電子メールアプリケーション）を使用して、反復的なタスクを実施する。それぞれのタスクを実際に実行するために、従業員は、一連の操作／アクションを実施し、これは、本明細書ではビジネスプロセスと見なされる。請求書発行ビジネスプロセスの一部を形成する例示的な操作は、ＭｉｃｒｏｓｏｆｔＥｘｃｅｌ（登録商標）スプレッドシートを開くことと、クライアントの会社の詳細を検索することと、それぞれの詳細を請求書テンプレートにコピーすることと、購入された商品を示す請求書フィールドに記入することと、電子メールアプリケーションに切り替えることと、それぞれのクライアントへの電子メールメッセージを作成することと、新規に作成した請求書をそれぞれの電子メールメッセージに添付することと、「送信」ボタンをクリックすることと、を含んでもよい。従業員のコンピュータ上で遂行されるＲＰＡソフトウェアは、それぞれのタスクを実行する過程で、それぞれの人間のオペレータによって実施される操作のセットを模倣することによって、それぞれのビジネスプロセスをオートメーション化し得る。そのようなオートメーション化を典型的に対象とする例示的なプロセスは、支払いの処理、請求書発行、ビジネスクライアントとの通信（例えば、社報及び／又は製品の提供物の配布）、内部通信（例えば、メモ、会議及び／又はタスクのスケジューリング）、給与処理などを含む。

人間の操作／アクションを模倣することは、本明細書では、人間のオペレータがコンピュータ上でそれぞれの操作／アクションを実施するときに発生する一連のコンピューティングイベントを再現することと、人間のオペレータがコンピュータ上で実施したそれぞれの操作結果を再現することと、を包含すると理解される。例えば、グラフィカル・ユーザー・インターフェースのボタンをクリックするアクションを模倣することは、オペレーティングシステムに、マウスポインタをそれぞれのボタンに移動させることと、マウス・クリック・イベントを生成することと、を含んでもよく、又はそれぞれのＧＵＩボタン自体をクリック状態に切り替えることを含んでもよい。

図２は、本発明のいくつかの実施形態による、ＲＰＡクライアント１０上で遂行される例示的なソフトウェアを示している。ＲＰＡクライアント１０は、図１のＲＰＡクライアント１０ａ～ｅのいずれかを表している。ＲＰＡクライアント１０は、オペレーティングシステム（ＯＳ）４０、及びビジネスアプリケーション４２のセットを遂行する。ＯＳ４０は、アプリケーション４２とＲＰＡクライアント１０のハードウェアとの間をインターフェースするソフトウェア層を備える、とりわけ、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）、ＭａｃＯＳ（登録商標）、Ｌｉｎｕｘ（登録商標）、ｉＯＳ（登録商標）、又はＡｎｄｒｏｉｄ（登録商標）などの任意の広く利用可能なオペレーティングシステムを備えてもよい。ビジネスアプリケーション４２は、タスクを実行するために、ＲＰＡクライアント１０の人間のオペレータによって使用される任意のコンピュータプログラムを全般に表す。例示的なビジネスアプリケーション４２は、とりわけ、ワードプロセッサ、スプレッドシートアプリケーション、グラフィックアプリケーション、ブラウザ、ソーシャル・メディア・アプリケーション、及び電子通信アプリケーションを含む。少なくとも１つのビジネスアプリケーション４２は、以下に詳述するように、オートメーション化の対象となるユーザーインターフェース（ＵＩ）を公開するように構成される。

いくつかの実施形態では、ＲＰＡクライアント１０は、ビジネスプロセスのオートメーション化を集合的に実装する相互接続されたコンピュータプログラムのセットを備えるＲＰＡロボット４４を更に遂行する。例示的なＲＰＡロボットは、Ｍｉｃｒｏｓｏｆｔ（登録商標）株式会社からのＷｉｎｄｏｗｓＷｏｒｋｆｌｏｗＦｏｕｎｄａｔｉｏｎアプリケーション・プログラミング・インターフェースを使用して構築される。いくつかの実施形態では、ＲＰＡロボット４４は、ＲＰＡクライアント１０上でインスタンス化された別個の専用仮想マシン内で遂行される。

ＲＰＡロボット４４のコンポーネントは、ＲＰＡエージェント４３と、ロボットエグゼキュータ４５のセットと、を含む。ロボットエグゼキュータ４５は、ビジネスプロセスを実行する人間のオペレータのアクションを模倣する一連の操作（アクティビティとして当技術分野でも知られる）を示すＲＰＡスクリプト５０を受け取り、それぞれのクライアントマシン上でそれぞれの一連の操作を実際に遂行するように構成される。ＲＰＡスクリプト５０は通常、プロセス固有であり、すなわち、各別個のビジネスプロセスは、ＲＰＡスクリプトの別個のセットによって記述される。ＲＰＡスクリプト５０は、当技術分野で知られている任意のデータ仕様に従って定式化され得る。好ましい実施形態では、ＲＰＡスクリプト５０は、拡張可能マークアップ言語（ＸＭＬ）のバージョンで符号化されるが、スクリプト５０はまた、Ｃ＃、ＶｉｓｕａｌＢａｓｉｃ、Ｊａｖａなどのプログラミング言語で定式化されてもよい。あるいは、ＲＰＡスクリプト５０は、バイトコードのＲＰＡ固有のバージョンで、又は英語、スペイン語、日本語などの自然言語で定式化された一連の命令としてでさえ指定されてもよい。いくつかの実施形態では、スクリプト５０は、ネイティブプロセッサ命令のセット（例えば、マシンコード）に事前コンパイルされる。

いくつかの実施形態では、ロボットエグゼキュータ４５は、それぞれのスクリプトに記載された操作を実行するためのプロセッサ命令を備える実行時パッケージに、ＲＰＡスクリプト５０を変換するように構成されたインタプリタ（例えば、ジャストインタイムインタプリタ又はコンパイラ）を備える。したがって、スクリプト５０を遂行することは、エグゼキュータ４５が、ＲＰＡスクリプト５０を変換することと、結果として得られた実行時パッケージをメモリにロードし、更に実行時パッケージを起動して遂行するように、ＲＰＡクライアント１０のプロセッサに命令することと、を含んでもよい。

ＲＰＡエージェント４３は、ロボットエグゼキュータ４５の動作を管理し得る。例えば、ＲＰＡエージェント４３は、人間のオペレータからの入力に従って、及び／又はスケジュールに従って、ロボットエグゼキュータ４５による遂行のためのタスク／スクリプトを選択してもよい。エージェント４３は、エグゼキュータ４５の様々な動作パラメータを更に構成してもよい。ロボット４４が複数のエグゼキュータ４５を含む場合、エージェント４３は、それらのアクティビティ及び／又はプロセス間通信を調整し得る。ＲＰＡエージェント４３は、ＲＰＡロボット４４と図１に示すＲＰＡシステムの他のコンポーネントとの間の通信を更に管理し得る。そのようなコンポーネントは、他のＲＰＡクライアント上、及び／又はロボット管理サーバ１１ａ～ｂのセット上で遂行し得る。そのような一例では、複数のクライアントマシンにわたってＲＰＡアクティビティを調整し、更に複雑なスケジューリング及び／又はライセンス管理を可能にするロボット・オーケストレータ・サービスを、サーバ１１ａ～ｂは動作させてもよい。サーバ１１ａ～ｂは、様々な中間値及び／又はＲＰＡスクリプトの遂行結果を示すデータを、個々のＲＰＡロボットから更に受け取ってもよい。そのようなデータは、アクティビティ報告を生成し、ライセンス契約を施行し、及び／又は誤動作を軽減するために使用され得る。

いくつかの実施形態では、ＲＰＡクライアント１０の人間のオペレータがＲＰＡスクリプト５０を作成し、したがってロボットを効果的に設計して、アクティビティのセットを実施し得るように構成されたスクリプト作成アプリケーション４６を、ＲＰＡクライアント１０は更に遂行する。オペレータがビジネスプロセスをモデル化するためのツールのセットとインタラクトすることを可能にするコードエディタ及び／又はユーザーインターフェースを備える統合開発環境（ＩＤＥ）のように、作成アプリケーション４６は機能し得る。例示的な作成アプリケーションは、ユーザーが、ビジネスアプリケーション４２を選択することと、それぞれのアプリケーションとインタラクトする所望の方法を示すこと、例えばロボット４４によって実施される一連の操作を示すことと、を可能にしてもよい。例示的な操作は、例えば、特定のＥｘｃｅｌ（登録商標）スプレッドシートを開くこと、データテーブルの特定の行／列からデータを読み取ること、特定の方法でそれぞれのデータを処理すること、特定のボタンをクリックすること、電子メールメッセージを作成及び送信すること、特定の統一された記録場所（ＵＲＬ）にナビゲートすること、などを含む。いくつかの実施形態では、作成アプリケーション４６は、ＲＰＡロボット４４によって読み取り可能なフォーマット（例えば、ＸＭＬ）でＲＰＡスクリプト５０を出力する。ネットワーク１２及び／又は１４を介してＲＰＡクライアント１０ａ～ｅに通信可能に結合され、ＲＰＡクライアント１０ａ～ｅにアクセス可能なスクリプトリポジトリ１５に、ＲＰＡスクリプト５０を記憶してもよい（図１参照）。好ましい実施形態では、スクリプトリポジトリ１５は、ロボット管理サーバ１１ａ～ｂに直接リンクされる。スクリプトリポジトリ１５は、データベース、例えば、基準のセットに従って、スクリプト５０の選択的検索を可能にする任意の構造化データ集合として編成されてもよい。

当業者であれば、図２に示すすべてのコンポーネントが、同じ物理プロセッサ又はマシン上で遂行する必要がないことを理解するであろう。典型的なＲＰＡ構成では、スクリプト開発／ロボット設計は、１つのマシン上（当技術分野で「設計サイド」として一般的に知られている）で実行される。次に、結果として得られるＲＰＡスクリプト５０は、遂行のために複数の他のユーザー及びマシンに配信される（通常、「実行時サイド」又は単に「実行時」として知られている）。

図３は、本発明のいくつかの実施形態による、例示的なユーザーインターフェース（ＵＩ）５８を示している。ＵＩ５８は、ビジネスアプリケーション４２のいずれかによって公開されてもよい。ユーザーインターフェースは、人間とマシンとのインタラクションを可能にするコンピュータインターフェースであり、例えば、ユーザー入力を受け取り、それぞれの入力に応答するように構成されたインターフェースである。ユーザーインターフェースの一般的な例は、グラフィカル・ユーザー・インターフェース（ＧＵＩ）として知られており、それは、ユーザーに対して表示する視覚要素のセットを介して人間とマシンとのインタラクションを可能にする。例示的なＵＩ５８は、例示的なウィンドウ６０ａ～ｂのセットと、メニューインジケータ６２ａ、アイコン６２ｂ、ボタン６２ｃ、及びテキストボックス６２ｄを含む例示的なＵＩ要素のセットと、を有する。他の例示的なＵＩ要素は、とりわけ、ウィンドウ、ラベル、フォーム、個別フォームフィールド、トグル、リンク（例えば、ハイパーリンク、ハイパーテキスト、又は統一資源識別子）を備える。ＵＩ要素は、情報を表示し、入力（テキスト、マウスイベント）を受け取り、並びに／あるいはソフトウェアの機能及び／又はそれぞれのコンピュータシステムを制御し得る。

いくつかのＵＩ要素は、それら（例えば、クリックボタン６２ｃ）に作用することが挙動／反応をトリガするという意味でインタラクティブである。そのような挙動／反応は通常、それぞれの要素に、又は要素のグループに固有である。例えば、保存ボタンをクリックすることと、印刷ボタンをクリックすることでは、異なる効果が生じる。同じキーボードショートカット（例えば、Ｃｔｒｌ－Ｇ）は、１つのウィンドウ／アプリケーションで遂行される場合１つの効果を有し、別のウィンドウ／アプリケーションで遂行される場合、全く異なる効果を有し得る。そのため、操作／アクション（クリックを遂行すること、キーボードキーの組合せを押すこと、一連の文字を書き込むことなど）は同じであるが、それぞれのアクションの結果は、それぞれの操作のオペランドに実質的に依存し得る。オペランドは、本明細書では、クリック又はキーボードイベントなどの現在の操作／アクションによって作用されるＵＩ要素として定義されるか、そうでなければ、それぞれのユーザー入力を受け取るために選択されたＵＩ要素として定義される。「対象」及び「オペランド」という用語は、本明細書では互換的に使用される。ＵＩ要素の挙動は要素固有であるため、成功したＲＰＡは、各スクリプト化されたＲＰＡアクティビティのオペランドを明確に、且つ正確に識別する必要があり得る。

図４は、本発明のいくつかの実施形態による、スクリプト作成アプリケーション４６によって実施される例示的な一連のステップを示している。ステップ１０１は、現在のオートメーション化の対象である対象ＵＩ、すなわち、ビジネスアプリケーション４２のユーザーインターフェースの設計サイドインスタンスを公開する。ステップ１０１は、例えば、ビジネスアプリケーション４２のインスタンスを呼び出すことを含んでもよい。ステップ１０２において、公開された対象ＵＩ上でロボット４４によって実施されるべき所望のアクティビティを、ユーザーが示すことを可能にするロボット設計インターフェース（例えば、ＧＵＩ）を、アプリケーション４６は公開し得る。いくつかの実施形態では、アクティビティは、アクティビティメニューの階層を介して達成されてもよい。様々な基準に従って、例えば、ビジネスアプリケーションのタイプ（例えば、ＭＳＥｘｃｅｌ（登録商標）アクティビティ、ウェブアクティビティ、電子メールアクティビティ）に従って、及び／又はインタラクションのタイプ（例えば、マウスアクティビティ、ホットキーアクティビティ、データ・グラブ・アクティビティ、フォーム記入アクティビティなど）に従って、アクティビティをグループ化し得る。ステップ１０４は、それぞれのアクティビティを示すユーザー入力を受け取る。例えば、ステップ１０４は、マウス・クリック・イベントをインターセプトし、ユーザーがアクティビティを選択するためにクリックしたメニュー項目を決定することを含んでもよい。更なるステップ１０６において、ユーザーがそれぞれのアクティビティの様々な選択肢及び／又はパラメータを構成することを可能にするアクティビティ構成インターフェースを、アプリケーション４６は公開し得る。１つの例示的なアクティビティパラメータは、それぞれのアクティビティのオペランド／対象ＵＩ要素である。アクティビティがマウスクリックを含む一例では、対象ＵＩ要素はボタン、メニュー項目、ハイパーリンクなどであってもよい。アクティビティがフォームに記入することを含む別の例では、対象ＵＩ要素は、それぞれのテキスト入力を受容するべき特定のフォームフィールドであってもよい。アプリケーション４６により、ユーザーは、様々な方法で対象ＵＩ要素を示すことが可能になる。例えば、それは、候補ＵＩ要素のメニュー／リストから対象要素を選択するようにユーザーを促してもよい。好ましい実施形態では、アプリケーション４６は、対象ＵＩ（すなわち、ロボット４４が、例えばＭＳＥｘｃｅｌ（登録商標）、ブラウザ、電子メールプログラムなどとインタラクトすることになっているビジネスアプリケーションのＵＩ）のインスタンスを公開し、それぞれのＵＩ内のＵＩ要素のサブセットをハイライトし、ユーザーに選択を示すためにいずれかをクリックするように促してもよい。ステップ１０８において、アプリケーション４６は、例えば、特定のＯＳ機能を呼び出してマウスクリックを検出することによって、更にクリックされたＵＩ要素を識別することによって、選択された対象要素を示すユーザー入力を受け取って、処理し得る。

次に、ステップ１１０において、いくつかの実施形態は、選択された対象要素に関連するアンカーＵＩ要素を自動的に決定し得る。アンカー要素（又は単に「アンカー」）は、本明細書では、対象及びアンカーがそれぞれのユーザーインターフェース内で同時に見えるという意味で、関連する対象ＵＩ要素と同時に表示されるＵＩ要素として定義される。更に、アンカー要素及び対象要素は通常、意味的接続を有し、例えば、それらは両方とも、ＵＩ要素の同じグループ／コンテナに属し、及び／又はそれらは共に機能を実施する。入力フィールドに関連する例示的なアンカー要素は、とりわけ、それぞれの入力フィールドの近傍に表示されたテキストラベルと、それぞれの入力フィールドを含むフォームのタイトルと、を含む。ボタンに関連する例示的なアンカー要素は、それぞれのボタン、及び同じＵＩの別のボタンの上に表示されたテキストを含む。図５は、本発明のいくつかの実施形態による、対象要素６４及び複数の潜在的なアンカー要素６６ａ～ｅを有する例示的なＵＩ５８を示している。

対象要素のアンカーを決定することは、例えば図６に示すように、候補ＵＩ要素のセットからアンカーを選択することを含み得る。ステップ２０２において、アプリケーション４６は、ＵＩ５８によって表示されたＵＩ要素のセットから選択された候補アンカー要素のセット（例えば、図５のアイテム６６ａ～ｅを参照）を生成し得る。候補アンカー要素は、それぞれの対象要素の要素タイプ（例えば、ボタン、テキスト、入力フィールドなど）に従って選択され得る。いくつかの実施形態では、候補アンカーが、それぞれの対象と同じ要素／ＵＩコンテナのグループに属するか否かに従って、候補アンカーを選択してもよい。例えば、対象要素がフォームフィールドである場合、いくつかの実施形態は、同じフォームフィールドに属するＵＩ要素の中からのみ、アンカー候補を選択することになる。ＨＴＭＬ文書の場合、いくつかの実施形態は、対象要素と同じ＜ｄｉｖ＞又は＜ｓｐａｎ＞コンテナからラベル候補を選択してもよい。

次に、ステップ２０４において、アプリケーション４６は、基準のセットに従って各候補アンカー要素を評価し得る。いくつかの実施形態では、ステップ２０４は、別個の基準に従って評価された複数のサブスコアを組み合わせ得るアンカー適応度スコアを決定することを含んでもよい。例示的な基準は、対象要素に対する候補アンカーの相対位置である。相対位置は、それぞれの対象要素と候補アンカー要素との間の距離、角度、及び／又は重複度のセットに従って決定され得る。そのような決定の例は、図１３～図１６に関連して以下で詳細に説明する。いくつかの実施形態は、対象要素の近傍に配置される、及び／又は対象要素と実質的に位置合わせされているＵＩ要素が、比較的信頼性の高いアンカーであると考える。そのような実施形態では、そのようなＵＩ要素は、選択された対象要素から離れている、及び／又は選択された対象要素と位置合わせされていない他のＵＩ要素よりも、高い適応度スコアを受け取ってもよい。

他の例示的なアンカー適応度基準は、それぞれのＵＩ要素の画像及び／又はテキストコンテンツを含んでもよい。いくつかの実施形態は、テキストラベルをアンカー要素として優先するので、テキストを含まないＵＩ要素は、テキストの断片を表示する他のＵＩ要素よりも相対的に低い適応度スコアを受け取り得る。別の例示的な基準は、ＵＩ要素によって表示されるテキストの長さであってもよく、いくつかの実施形態は、それらは、ラベルである可能性が高いため、小さいテキスト要素を優先してもよい。そのような実施形態では、比較的小さいテキスト要素は、かなりの量のテキストを有するテキスト要素と比較して、比較的高い適応度スコアを受け取り得る。

更に別の例示的な基準は、類似の外観を有するアンカー候補の数、例えば、同一のテキストを表示するＵＩ要素の数を含んでもよい。例示的な一シナリオでは、複数の人物に関するデータを収集するように設計され、「名字」とラベル付けされた複数のフィールドを有するフォームを、対象ＵＩ５８は含む。そのような状況では、「名字」ラベルは、特定のフォームフィールドを識別する際に極めて信頼できない場合がある。したがって、いくつかの実施形態は、各アンカー候補が（同様の画像を有するか、又は同様のテキストを表示する他のＵＩ要素がないという意味で）、一意であるか否かを判定し、否である場合、比較的低いアンカー適応度スコアを、それぞれのアンカー候補に割り当ててもよい。代替の実施形態は、例えば、それぞれのフォームフィールドの近傍に配置されたラベル、及びそれぞれの入力フォーム又は入力ブロックのタイトルなど、複数のアンカーを同じ対象要素に割り当ててもよい。

次いで、ステップ２０６は、候補アンカーについて評価されたスコアを比較し得る。明確に当選した候補が存在する場合、ステップ２１０において、スクリプト作成アプリケーション４６は、ステップ１０８（図４）で決定された対象要素に関連するアンカー要素として、最も高い適応度スコアを有する候補要素を選択し得る。同点の場合、すなわち、複数の候補が同じ適応度スコアを有する場合、いくつかの実施形態は、アンカーとして使用されるＵＩ要素を明示的に示すようにユーザーを促し得る（ステップ２０８）。

アンカーＵＩ要素を自動的に選択する代替の方法を図７～図８に示す。アプリケーション４６が候補要素のセットを生成し、次いで対象要素に対するそれらの位置に従ってそれらの適応度をアンカーとして評価する前述の方法とは対照的に、ステップ２２２は、例えば、画面座標｛Ｘ，Ｙ｝のペアとして、ＵＩ５８内の候補配置を生成し得る。そのような実施形態は、テキストラベルなどの信頼可能なアンカーが通常、対象ＵＩ５８のそれぞれの自然言語のデフォルトの読取り方向に応じて、それらの関連する対象の隣に、例えば、それらの左に、又は真上若しくは真下に見られるという観察に依存する。したがって、いくつかの実施形態は、潜在的なアンカー要素を、そのような配置に明示的に探してもよい。図７は、複数の候補配置６５ａ～ｄを示している。そのような候補配置は、対象ＵＩ要素の画面位置（図７においてアイテム６４として示す）に従って、及び／又は対象要素のサイズに従って、決定され得る。いくつかの実施形態では、候補配置は、例えば決定論的コンポーネントとランダムコンポーネントとの和としてランダムに生成される。

次に、ステップ２２４は、ほぼ候補配置に配置されるすべてのＵＩ要素を識別し得る。いくつかの実施形態では、それぞれの配置がそれぞれの要素の画面境界内にある場合に、要素は、特定の配置に配置されると見なされる。別の実施形態は、それぞれの要素の中心／重心と、それぞれの配置との間の距離が、所定の閾値よりも小さい場合、要素が特定の配置に配置されると考えられてもよい。図７の例では、ＵＩ要素６６は、候補配置６５ａに配置されていると考えられ得る。いくつかの実施形態では、ステップ２２４は、ＯＳ４０のネイティブ機能に呼出しを発行することを含み、そのそれぞれの機能は、画面の特定の領域を占有するＵＩ要素のリストを返すように構成される。どのＵＩ要素が候補配置に配置されるかを決定する他の方法は、それぞれのＵＩの基礎となるソースコード（例えば、ＨＴＭＬスクリプト、スタイルシート）を解析することを含む。

ＵＩ要素がそれぞれの候補配置に配置されていない場合、いくつかの実施形態は、別の候補配置を生成するためにステップ２２２に戻る。そうでなければ、ステップ２２６において、スクリプト作成アプリケーション４６は、アンカー適応度基準のセットに従ってＵＩ要素の識別されたセットをフィルタリングしてもよい。そのような基準は、とりわけ、視認性（例えば、可視ＵＩ要素のみがアンカーとして選択され得る）、及び要素タイプ（例えば、テキスト要素が、他のタイプのＵＩ要素よりも好まれ得る）を含んでもよい。他の適応度基準は、図５～図６に関連して上述したものと同様であってもよい。例えば、それぞれのＵＩ要素が対象要素と位置合わせされているか否か、それぞれのＵＩ要素が対象要素と実質的に重複しているか否かなどに従って、アプリケーション４６は、位置スコアを評価してもよい。

候補配置に配置されるＵＩ要素のいずれもアンカーに適応していると見なされない場合（例えば、所定の閾値を超える適応度スコアを受け取っていない場合）、いくつかの実施形態は、ステップ２２２に戻って、別の候補配置を生成してもよい。そうでなければ、ステップ２３２は、それぞれの対象要素に関連するアンカーとして適格なＵＩ要素を選択し得る。

対象要素及び／又はアンカーＵＩ要素の識別に応答して、一連のステップ１１２～１１４（図４）において、スクリプト作成アプリケーション４６は、それぞれの対象要素及びアンカー要素の要素特性機能のセットを決定し得る。本発明のいくつかの実施形態による、そのような要素特性機能を図９に示しており、その要素特性機能は、とりわけ、対象要素６４及びアンカー要素６６をそれぞれ特徴付ける要素ＩＤ８０ａ～ｂのセット、要素テキスト８２ａ～ｂのセット、及び要素画像８４ａ～ｂのセットを含む。

要素ＩＤ８０ａ～ｂは、オペレーティングシステム及び／又はそれぞれのビジネスアプリケーション４２への各ＵＩ要素を、例えば、ＲＰＡクライアント１０がそれぞれのユーザーインターフェースを表現及び／又はレンダリングするために使用するオブジェクトの階層内の特定のオブジェクトとして、識別する。いくつかの実施形態では、要素ＩＤ８０ａ～ｂは、例えば属性と値とのペアのセットとして、インターフェース５８のソースコードに含まれる。ユーザーインターフェースのソースコードという用語は、本明細書では、それぞれのユーザーインターフェースによって表示されるコンテンツのプログラム表現を示すと理解される。ソースコードは、プログラミング言語で書かれたプログラム／スクリプト、並びにＲＰＡクライアント１０のメモリに存在するデータ構造を包含し得る。例示的なソースコードは、ウェブ・ブラウザ・アプリケーションによってウェブページとしてレンダリングされるＨＴＭＬ文書を備える。

最新のコンピューティングプラットフォームでは、オペレーティングシステムは通常、ＵＩツリーとして一般に知られている階層データ構造として、各ユーザーインターフェースを表す。例示的なＵＩツリーは、ブラウザアプリケーションによってレンダリングされたウェブページの基礎となる文書オブジェクトモデル（ＤＯＭ）を備える。図１０は、複数のノード７２ａ～ｅを有する例示的なＵＩツリー７０を示している。いくつかの実施形態では、各ノード７２ａ～ｅは、ＵＩ５８の一部を表すオブジェクトを備える。図５に示すような例示的なＵＩでは、ルートノード７２ａは、ＵＩウィンドウ全体を表してもよい。その子ノードは、個々のＵＩ要素（例えば、テキストボックス、ラベル、フォームフィールド、ボタンなど）、要素のグループ、それぞれのＵＩの別個の領域又はブロックなどを表してもよい。図１０のノード７２ｂなどの中間ノードは、そのすべての入力フィールド、ラベル及びボタンを含むフォーム全体を表してもよい。例えば、ノード７２ｃは、ＨＴＭＬ文書の＜ｆｏｒｍ＞又は＜ｆｉｅｌｄｓｅｔ＞コンテナのコンテンツを表してもよい。中間ノードの別の例は、＜ｄｉｖ＞又は＜ｓｐａｎ＞ＨＴＭＬコンテナのコンテンツを表してもよい。中間ノードの更に別の例は、文書のヘッダ又はフッタのコンテンツを備える。７２ｂ、７２ｄ、及び７２ｅなどのエンドノード（当該技術分野ではリーフノードとしても知られる）は、更なる子ノードを持たないノードであり、個々のＵＩ要素（例えば、ボタン、個々のラベル、個々の入力フィールド）を表してもよい。ウェブブラウザＵＩの一例では、

いくつかの実施形態では、各ノード７２ａ～ｅは、例えば、とりわけ、それぞれのノードの親ノードの識別情報、それぞれのノードの子ノードの識別情報、名前、及びそれぞれのノードによって表されるＵＩ要素のタイプを示し得る属性と値とのペアのセットを使用して指定される。

いくつかの実施形態では、ＵＩ要素を特徴付ける要素ＩＤは、ＵＩツリー７０内のノードの配置を集合的に示すノード識別子のセットを備え、そのそれぞれのノードは、それぞれのＵＩ要素を表す。そのような一例では、要素ＩＤ８０ｃは、本明細書では、サブツリー（図１０の例示的なサブツリー７４ａ～ｄを参照）と呼ばれるＵＩツリー７０のノードのサブセットを示す。したがって、要素ＩＤ８０ｃは、ノード／ＵＩ要素を、それぞれのサブツリーに属するものとして識別する。例えば、ノード７２ｄはサブツリー７４ｃに属する。例示的な要素ＩＤ８０ｃは、「ｕｉｄｏｕｂｌｅ．ｅｘｅ」と呼ばれるアプリケーションのウィンドウ内で見える「承認」と呼ばれる「プッシュボタン」としてそれぞれのＵＩ要素を識別する属性と値とのペアのセットを含む。要素ＩＤ８０ｃの図示したフォーマットは、一例としてのみ提供され、当業者であれば、属性と値とのペアのリストの他に、ＵＩツリー内の特定のノードの配置を表す複数の他の方法があり得ることを理解するであろう。

いくつかの実施形態では、対象要素及びアンカー要素をそれぞれ特徴付ける要素ＩＤ８０ａ～ｂを決定することは、対象ユーザーインターフェース５８のソースコード（例えば、ＨＴＭＬ文書）を解析することと、例えば各ＵＩ要素に関連する属性と値とのペアのセットとして、それぞれの要素ＩＤを抽出することと、を含む。

いくつかの実施形態では、各要素テキスト８２ａ～ｂ（図９）は、それぞれのＵＩ要素の画面境界内に表示されるテキスト（一連の英数字文字）のコンピュータ符号化を含む。図示の例では、対象要素６４がいかなるテキストも表示しないため、要素テキスト８２ａは値ＮＵＬＬを有する。一方、要素テキスト８２ｂは、テキスト「現金預入」で構成される。テキストのコンピュータ符号化は、例えば、一連の数字コード（例えば、ユニコード）を含んでもよく、各コードは、要素テキスト８２ａ～ｂの別個の文字に対応する。

スクリプト作成アプリケーション４６の実施形態は、様々な方法を使用して要素テキスト８２ａ～ｂを決定してもよい。アプリケーション４６がＵＩ５８のソースコードにアクセスする場合、アプリケーション４６は、それぞれのソースコードから要素テキスト８２ａ～ｂを抽出しようと試みてもよい。例えば、ウェブページのボタン上に表示されるラベルは、それぞれのウェブページに関連するＨＴＭＬ文書を構文解析することによって見つけられ得る。他のビジネスアプリケーション４２の場合、スクリプト作成アプリケーション４６は、ＯＳ４０及び／又はビジネスアプリケーション４２のデータ構造を解析して、要素テキスト８２ａ～ｂがＵＩ５８のソースコードに含まれるか否かを判定してもよい。

代替の実施形態では、アプリケーション４６は、光学文字認識（ＯＣＲ）コンピュータプログラムなどの画像解析ツールを採用して、要素テキスト８２ａ～ｂを判定してもよい。そのような一例では、ＯＣＲツールは、それぞれの対象要素及び／又はアンカーＵＩ要素を含む画面領域の画像を入力し、テキストトークン（例えば、単語）のセット、及び各テキストトークンについて決定されたバウンディングボックスを返してもよい。例示的なバウンディングボックスは、とりわけ、それぞれのテキストトークンに外接する多角形、及びそれぞれのトークンの凸包を含む。図９では、テキスト「現金預入」を囲む破線の矩形によって、バウンディングボックスを示している。テキストトークン及びバウンディングボックスの受取りに応答して、アプリケーション４６は、任意のバウンディングボックスがそれぞれのＵＩ要素と実質的に重複するか否かを判定し、重複する場合、それぞれの対象要素又はアンカーＵＩ要素を特徴付けるテキスト要素８２として、それぞれのバウンディングボックス内に配置されるテキストトークンを選択し得る。それぞれのバウンディングボックスの十分な割合（例えば、５０％超、通常８０～１００％）が、それぞれのＵＩ要素の画面境界内に配置される場合、実質的な重複が確立され得る。

いくつかの実施形態では、ＵＩ要素を特徴付ける各要素画像８４ａ～ｂ（図９）は、それぞれのＵＩ要素の境界内の画面上に表示された画像のコンピュータ符号化を含む。画像のコンピュータ符号化は、場合によっては複数のチャネル（例えば、ＲＧＢ）にわたる、それぞれの画面領域に対応する画素値のアレイ、及び／又は画素値のそれぞれのアレイに従って計算された値のセット（例えば、画素値のそれぞれのアレイのＪＰＥＧ又はウェーブレット表現）を含み得る。各要素画像８４ａ～ｂを決定することは、ＵＩ５８のクリッピング、すなわち、それぞれのＵＩ要素を示すＵＩ５８の限定された領域のコンテンツをグラブすることを含み得る。

更なるステップ１１６（図４）において、スクリプト作成アプリケーション４６は、選択されたＲＰＡアクティビティに対応するＲＰＡスクリプトを定式化し得る。換言すれば、ステップ１１６において、アプリケーション４６は、実行時に使用されるべきロボットのコードを、例えばスクリプトファイルに出力する。ＲＰＡスクリプト５０は、当技術分野で知られている任意のコンピュータ可読符号化で、例えばＸＭＬのバージョンで、定式化されてもよく、又は一連のネイティブプロセッサ命令（例えば、マシンコード）にコンパイルされてもよい。

各アクティビティ／オートメーション化ステップについて、作成アプリケーション４６は、ＲＰＡスクリプト５０に、それぞれのアクティビティ（例えば、クリックする、タイプ入力するなど）のインジケータを出力し、更に、ステップ１０８～１１０で決定された対象要素及びアンカーＵＩ要素を特徴付ける要素ＩＤ８０ａ～ｂ、要素テキスト８２ａ～ｂ、及び要素画像８４ａ～ｂの符号化を更に出力し得る。特性機能の符号化は、特性データ自体、及び／又はそのようなデータの他の表現、例えば、要素特性データがリモートにアクセスされ得るネットワーク配置のインジケータ（例えば、ＵＲＬ、ネットワークアドレス）を含み得る。

いくつかの実施形態では、アプリケーション４６は、例えば属性と値とのペアのセットを使用して、それぞれのアクティビティを構成するためのパラメータ値のセットを、ＲＰＡスクリプト５０に更に出力してもよい。一例示的なパラメータは、ＲＰＡスクリプト５０に保存された設計時要素画像８４を、候補ＵＩ要素（図１１～図１２に関連して以下の詳細を参照）の実行時画像と比較するための閾値を示す一致精度である。別の例示的なパラメータは、ロボット４４が実行時及び／又は対象ＵＩ要素を識別しようと試みるために費やし得る最大時間量を示すタイムアウト閾値である。

オートメーション化の設計段階が完了すると、ＲＰＡスクリプト５０は、遂行のために、スクリプトリポジトリ１５に送られてもよく、及び／又は他のＲＰＡクライアントに配信されてもよい（例えば、図１を参照）。図１１は、実行時にＲＰＡロボット４４によって実行される例示的な一連のステップを示している。ＲＰＡスクリプト５０の受取りに応答して、ステップ３０４は、ＲＰＡスクリプト５０のコンテンツに従って、実施されるべきアクティビティのタイプを決定する。ステップ３０４は、ＲＰＡスクリプト５０に従って、それぞれのロボットがインタラクトするように構成される、対象ＵＩ及び／又は実行時ビジネスアプリケーション（例えば、ＭＳＥｘｃｅｌ（登録商標）、ＧｏｏｇｌｅＣｈｒｏｍｅ（登録商標）など）を更に決定してもよい。ステップ３０６において、ＲＰＡロボット４４は、例えば、ローカル・クライアント・マシン上のそれぞれのビジネスアプリケーションのインスタンスを呼び出すことによって、それぞれの対象ＵＩを公開し得る。更なるステップ３０８は、ＲＰＡスクリプト５０に記憶された情報に従って、それぞれのアクティビティの実行時対象ＵＩ要素を自動的に識別し得る。実行時対象ＵＩ要素は、それぞれのアクティビティのオペランド、すなわち、ロボット４４が作用（例えば、クリックする、何らかのテキストを入力する、コンテンツをグラブするなど）するように構成された実行時対象ＵＩのＵＩ要素を備える。ステップ３０８の遂行は、以下に詳細に説明する。実行時対象ＵＩ要素を首尾よく識別したことに応答して、ステップ３１０は、スクリプト化されたアクティビティを自動的に実行する、すなわち、ＲＰＡスクリプト５０に示されるようにそれぞれのＵＩ要素とインタラクトし得る。

図１２は、本発明のいくつかの実施形態による、実行時対象ＵＩ要素を自動的に識別するために、ロボット４４によって実施される例示的な一連のステップを示している。ステップ３１２において、ロボット４４は、現在のアクティビティの対象のタイプと一致するＵＩ要素を検出し得る。例えば、それぞれのアクティビティがフォームフィールドへのタイプ入力を含む場合、ステップ３１２は、実行時ＵＩ内のフォームフィールドのセットを識別することを含んでもよい。ステップ３１２は、例えばコンピュータビジョン（例えば、ボタン、テキストボックス、入力フィールドなどの様々なＵＩ要素を自動的に認識するようにトレーニングされたニューラルネットワーク）を使用して、実行時対象ＵＩの下にあるソースコードを解析すること、及び／又は実行時ＵＩの画面上画像に従ってＵＩ要素を識別すること、を含むことができる。意図した対象要素及び／又はアンカー要素がテキストを備える場合、いくつかの実施形態は、ＯＣＲ技術を更に採用して、テキスト要素を自動的に検出し、更にそれぞれのテキスト要素のためのバウンディングボックスを構築してもよい。

次に、ステップ３１２によって返されたＵＩ要素のセット内を見て、ステップ３１４は、要素ＩＤに従って、実行時対象ＵＩ要素を識別しようと試み得る（図９～図１０に関する上記の説明を参照）。いくつかの実施形態では、ステップ３１４は、ステップ３１２によって返されたセット内の各ＵＩ要素の要素ＩＤを決定することと、それぞれの要素ＩＤを、設計サイド対象要素（例えば、図１０の要素ＩＤ８０ａ）の要素ＩＤと比較する、すなわち、対象を特徴付けるものとしてＲＰＡスクリプト５０によって指定された要素ＩＤと比較することと、を含む。ステップ３１６は、任意の要素ＩＤが、現在のアクティビティの意図した対象の要素ＩＤと一致するか否かを判定し、一致する場合、ステップ３１８は、一致するＵＩ要素を実行時対象として選択し得る。いくつかの実施形態では、ステップ３１６は、２つの要素ＩＤ間で、厳密に一致するものがあるか否かを判定する。要素ＩＤが属性と値とのペアのセットを使用して指定される場合で、対応する属性のすべての値が同一である場合に、完全に一致するのがあり得る。

しかしながら、設計時と実行時との間に発生する対象ユーザーインターフェースの不定期の変化に起因して、実行時対象ＵＩのＵＩ要素が、意図した対象の設計時要素ＩＤと一致しないことが起こり得る。例えば、フォームフィールドの名前が変更された場合がある。ＵＩ要素がＲＰＡスクリプト５０に示される要素ＩＤと一致しない場合、ロボット４４は、利用可能な情報から現在のアクティビティの対象／オペランドを自動的に推論してもよい。本発明のいくつかの実施形態は、要素テキスト８２及び要素画像８４を、要素ＩＤが一致しない場合に、実行時対象を識別するための代替のフォールバックデータとして使用する。

そのような一例では、一連のステップ３２２～３２４は、設計サイド対象要素及びアンカー要素に対してそれぞれＲＰＡスクリプト５０で指定された要素ＩＤに従って、候補実行時対象要素のセット及び候補実行時アンカー要素のセットを組み立ててもよい。「候補」という用語は、本明細書では、ＵＩ要素を示すために使用され、その要素ＩＤは、意図した対象要素又はアンカー要素のものとそれぞれ同じである。類似性は、様々な方法で決定され得る。例示的な一実施形態では、ロボット４４は、正規表現を使用して、２つの要素ＩＤが部分的に一致するか否かを判定してもよい。例示的な正規表現手法では、機能の特定のサブセットが両方の要素ＩＤにおいて同一である場合（例えば、要素タイプが同じであるが、要素名が異なる場合）、２つの要素ＩＤは類似していると見なされる。要素ＩＤがＵＩツリー内の要素の位置を示す一実施形態では、正規表現を使用する部分一致戦略により、ロボット４４は、特定のサブツリー内の候補を検索すること、例えば、それらの要素ＩＤで指定された同じルートノードを有する候補のみを選択することができる（例えば、図１０に関連して上述した説明を参照）。例えば、ＲＰＡクライアント１０が同時に実行されるビジネスアプリケーションの複数のインスタンスを有し、それらのうちの一方のみが意図した対象要素を有する場合に、この状況が生じ得る。固定ノードを用いて候補対象要素を探索することにより、ロボット４４は、候補について、それぞれのＵＩウィンドウのすべてを探索することができる。

別の例示的な候補選択戦略は、２つの要素ＩＤの間で異なる機能の計算に従って、２つの要素ＩＤが類似しているか否かを判定してもよい。そのような手法は、例えば、２つの要素ＩＤ間のレーベンシュタイン距離を決定し、それぞれの距離を所定の閾値と比較してもよい。閾値未満の距離だけ離れた要素ＩＤは、類似していると見なされ得る。いくつかの実施形態では、閾値は、設計時に指定され、ＲＰＡスクリプト５０に含まれてもよい。正規表現を使用した部分一致方法とは対照的に、レーベンシュタイン距離を使用する方法は、比較される２つの要素ＩＤ間でどの機能が異なっているかということに影響されない可能性がある。

候補実行時対象のセット及び候補実行時アンカー要素のセットの選択に応答して、ロボット４４のいくつかの実施形態は、候補をペア（例えば、対象候補とアンカー候補とのすべての組合せ）で評価して、最も可能性の高い実行時対象を決定してもよい。いくつかの実施形態では、一連のステップ３３０～３３２は、それぞれの要素の相対画面位置に従って、及びそれぞれのペアの各メンバのコンテンツ（要素テキスト及び／又は要素画像）に従って、各ペアを評価してもよい。

候補の各ペアについて、いくつかの実施形態は、候補対象が、意図した実行時対象要素である可能性を示すそれぞれの対象とアンカー候補とのペアの位置スコアを評価してもよい（ステップ３３０）。換言すれば、ステップ３３０において、いくつかの実施形態は、対象候補要素及びアンカー候補要素の相対位置に従って、対象候補が真の意図した実行時対象であり、更にアンカー候補がＲＰＡスクリプトで指定されたアンカー要素である可能性を判定する。

例示的な位置スコアは、様々な基準に従って、例えば、候補アンカーと候補対象との間の距離に従って、決定されてもよい。図１３は、本発明のいくつかの実施形態による、候補対象要素６８（この例では、入力フィールド）と候補アンカー要素６９（ラベル）とを隔てる例示的な距離のセットを示している。画面の主座標（例えば、水平及び垂直）に沿って、それぞれの要素の中心／重心間の距離ｄ１及びｄ２を測定することができる。ＯＣＲを使用して検出されたテキスト要素の場合、距離は、それぞれのテキスト要素に外接するバウンディングボックスの中心又は重心まで測定され得る。マンハッタン距離、ユークリッド距離などの他の例示的な要素間距離を、ｄ１及びｄ２に従って評価することができる。いくつかの実施形態は、アンカー要素が通常、その対象要素の近傍に配置されるという観察に依存しているため、候補アンカーと候補対象との間の距離が大きいほど、それぞれのペアが設計時対象要素及びアンカー要素を表す可能性は低い。そのような実施形態では、例示的な位置スコアは、１／Ｄ又は（１－Ｄ／Ｄｍａｘ）に従って決定されてもよく、ここで、Ｄは、ｄ１及び／又はｄ２に従って決定される要素間距離を表し、Ｄｍａｘは、所定の閾値を表し、それを超えると２つのＵＩ要素が対象とアンカーとのペアである可能性が低いと考えられる。

別の例示的な位置スコアは、候補アンカー要素と候補対象要素との間の位置合わせ度に従って決定されてもよい。位置合わせは、例えば図１４に示すように、距離の別のセットに従って決定されてもよい。例示的な距離ｄ３は、アンカー候補６９の左端と対象候補６８の左端とを隔てている。一方、距離ｄ４は、アンカー候補６９の上端と対象候補６８の上端とを隔てている。いくつかの実施形態は、アンカーが通常、それらの対象要素と位置合わせされるという観察に依存しているため、それぞれのアンカー候補要素及び対象候補要素が実際に対象とアンカーとのペアである比較的高い可能性と、比較的小さいｄ３又はｄ４距離は、関連付けられ得る。図１４は、左及び／又は上の位置合わせをテストするために使用され得る距離のみを示しており、当業者であれば、図示した距離測定値は、右及び／又は下の位置合わせをテストするように改良され得ることを理解するであろう。例示的な適応度スコアは、以下のように計算され得る。

ここで、δは、ｄ３及び／又はｄ４に従って決定された位置合わせ距離であり、δｍａｘは、所定の閾値であり、それを超えると２つのＵＩ要素が位置合わせされていないと見なされる。

別の例示的な位置スコアは、候補アンカーと候補対象との間の角度に従って決定されてもよい。図１５は、アンカー候補６９と対象候補６８との間の例示的な角度Ａを示しており、２つのそれぞれの要素の中心／重心を結ぶ直線の角度として決定される。いくつかの実施形態では、角度Ａは、図１３の表記を使用して、距離測定値、例えばＡ＝ｄ２／ｄ１に従って決定される。いくつかの実施形態では、角度は、対象候補とアンカー候補との位置合わせ度を決定するための手段として機能する。いくつかの実施形態は、対象候補とアンカー候補との間の実行時に計算された角度を、実際のアンカー要素と対象要素との間の設計時に決定された角度と比較することによって、位置スコアを更に計算してもよい。設計時角度は、ＲＰＡスクリプト５０に含まれてもよい。設計時角度と実行時角度との間の比較的小さい差は、現在の対象とアンカー候補とのペアが設計時対象要素及びアンカー要素とほぼ同じ相対位置にあることを示し、したがって、候補が真に求められる実行時対象要素及びアンカー要素である比較的高い可能性を示し得る。角度に従って決定される例示的な位置スコアは、１／｜Ａｄ－Ａｒ｜に従って決定されてもよく、ここで、Ａｄは、（例えば、ＲＰＡスクリプト５０で指定される）真のアンカー要素と対象要素との間の設計時に決定される角度を表し、Ａｒは、候補対象と候補アンカーとの間の実行時に決定される角度を表す。

更に別の例示的な位置スコアは、アンカー候補要素と対象候補要素との間の重複度に従って決定されてもよい。図１６は、本発明のいくつかの実施形態による、例示的な重複度６７を示しており、重複度６７は、一方の要素が他方の要素と交差する割合として、又は換言すれば、一方の要素が他方の要素とどの程度重なるかで、決定される。そのような実施形態では、交差しない２つの要素は重複がゼロであるが、一方の要素が他方を完全に含む２つの要素は、１００％の重複を有する。いくつかの実施形態は、ボタンラベルなどの特定のアンカーを識別するために、重複度に従って決定された位置スコアを使用する。ロボット４４がボタンタイプの対象要素を探しているそのような一例では、ロボットは、実質的な重複度を有しないすべての対象とアンカー候補とのペアを排除することができる（例えば、９０％超）。

更なるステップ３３２（図１２）において、ロボット４４のいくつかの実施形態は、対象とアンカー候補とのペアのコンテンツスコアを決定する。コンテンツスコアは、対象候補及びアンカー候補の画面上コンテンツ（画像及び／又はテキスト）を、設計サイド対象及びアンカーのそれぞれのコンテンツと比較した結果に従って、決定され得る。いくつかの実施形態では、画面上コンテンツを比較することは、対象候補によって表示されたテキストと設計サイド対象要素によって表示されたテキストとの間の類似性の数値尺度と、アンカー候補によって表示されたテキストと設計サイドアンカー要素によって表示されたテキストとの間の類似性の別の尺度と、を評価することを含む。設計サイド対象要素及びアンカー要素の要素テキストは、ＲＰＡ５０で指定される（例えば、図９のアイテム８２ａ～ｂ及び関連する説明を参照）。２つのテキスト断片間の類似性は、例えばレーベンシュタイン距離を使用して評価されてもよく、比較的小さい距離は、比較される断片間の比較的高い類似性を示し得る。

ステップ３３２は、対象候補の画像と設計サイド対象要素の画像との間の類似性の数値尺度と、アンカー候補の画像と設計サイドアンカー要素の画像との間の類似性の別の尺度と、を決定することを更に含んでもよい。設計サイド対象要素及びアンカー要素の要素画像は、ＲＰＡスクリプト５０で指定される（例えば、図９のアイテム８４ａ～ｂ及び関連する説明を参照）。２つの画像間の類似性のいくつかの尺度は、当技術分野で知られている。

テキストの類似性は、画像の類似性とは無関係に使用されてもよく、又はこれら２つは、集約コンテンツスコアにおいて組み合わされてもよい。テキスト又は対象要素若しくはアンカー要素の画像のいずれかが、設計と実行時との間で変化した状況において、画像及びテキストの態様を集約することは、実行時対象要素を識別するロバストな方法を提供し得る。そのような状況では、画像コンテンツが一致しない場合でも、又はその逆であっても、ロボット４４は、テキストコンテンツに従って２つのＵＩ要素が類似していると判定し得る。また、対象要素のみが設計時と実行時との間で変化している一方で、アンカーがほぼ同一のままである状況において、アンカーについて決定されたコンテンツスコアと、対象について決定されたコンテンツスコアとを組み合わせることは、ロバストな方法をもたらし得る。そのような状況では、ロボット４４は、候補アンカーのコンテンツに従って、実行時対象を識別し得る場合がある。

代替の実施形態では、ロボット４４は、対象とアンカー候補とのペアのフィルタとして、ステップ３３０を使用する。そのような一例では、各候補ペアについて、ロボット４４は、アンカー候補に対する対象候補の相対位置のインジケータのセット、例えば図１３～１４に関連して上述したような距離のセットを評価してもよい。対象候補及びアンカー候補が、例えば離れすぎている、及び／又は位置合わせされていないために、対象及びアンカー候補が、真に求められる実行時対象とアンカーとのペアである可能性が低いことを、評価した距離が示す場合、それぞれの対象とアンカー候補とのペアは、コンテンツスコア評価について、もはや考慮されない（ステップ３３２）。このような最適化は、画像解析が通常、リソース消費型であるため、実行時対象を識別する計算コストを大幅に低減し得る。

ステップ３３６において、対象とアンカー候補とのペアのセットの各々に対して決定された位置スコア及び／又はコンテンツスコアに従って、ロボット４４は、ステップ３２２で識別された対象候補のセットから実行時対象を選択し得る。いくつかの実施形態では、ステップ３３６は、各ペアについての集約スコアを計算してもよく、集約スコアは、それぞれのペアについて決定された位置スコアとコンテンツスコアとの組合せである。スコアは、当技術分野で知られている様々な方法を使用して、例えば、各スコアに所定の数値重みが乗算された加重平均として、組み合わせられてもよい。重みの値は、それぞれのスコアに関連する信頼度を示し得る（例えば、実行時対象を正しく識別する可能性が高いスコアには、比較的高い重みが与えられてもよい）。

いくつかの実施形態では、集約スコアがＲＰＡ５０で指定された設計サイド対象とアンカーとのペアに最も高い類似性を示すペアの対象候補要素は、実行時対象要素として選択される。次に、ロボット４４は、スクリプト化されたアクティビティに進むことができる（ステップ３２０）、すなわち、現在のアクティビティを、選択された実行時対象に適用することができる。

図１７は、本明細書に記載の方法のいくつかを遂行するようにプログラムされたコンピューティングデバイスの例示的なハードウェア構成を示している。それぞれのコンピューティングデバイスは、図１のＲＰＡクライアント１０ａ～ｅのいずれか、例えば図１８に示すパーソナルコンピュータを表してもよい。携帯電話、タブレットコンピュータ、及びウェアラブルなどの他のコンピューティングデバイスは、わずかに異なる構成を有し得る。プロセッサ２２は、信号及び／又はデータのセットを用いて計算演算及び／又は論理演算を遂行するように構成された物理デバイス（例えば、マイクロプロセッサ、半導体基板上に形成されたマルチコア集積回路）を備える。そのような信号又はデータは、符号化され、例えばマシンコードなどのプロセッサ命令の形態でプロセッサ２２に送達され得る。プロセッサ２２は、中央処理装置（ＣＰＵ）及び／又はグラフィックス・プロセッシング・ユニット（ＧＰＵ）のアレイを含み得る。

メモリユニット２４は、演算を実行する過程でプロセッサ２２によってアクセス又は生成されるデータ／信号／命令符号化を記憶する揮発性コンピュータ可読媒体（例えば、ダイナミック・ランダムアクセス・メモリ－ＤＲＡＭ）を備え得る。入力デバイス２６は、コンピュータキーボード、マウス、及びマイクロフォンを含み、とりわけ、ユーザーがデータ及び／又は命令をＲＰＡクライアント１０に導入することを可能にするそれぞれのハードウェアインターフェース及び／又はアダプタを含み得る。出力デバイス２８は、とりわけモニタ及びスピーカなどのディスプレイデバイス、並びにそれぞれのコンピューティングデバイスがユーザーにデータを通信し得るようにするグラフィックカードなどのハードウェアインターフェース／アダプタを含み得る。いくつかの実施形態では、入力デバイス２６及び出力デバイス２８は、共通のハードウェア（例えば、タッチスクリーンである。）を共有する。ストレージデバイス３２は、ソフトウェア命令及び／又はデータの不揮発性記憶、読取り、及び書込みを可能にするコンピュータ可読媒体を含む。例示的なストレージデバイスは、磁気ディスクデバイス、光ディスクデバイス及びフラッシュメモリデバイス、並びにＣＤ及び／又はＤＶＤディスクなどのリムーバブルメディア及びそれらのドライブを含む。ネットワークアダプタ３４により、それぞれのコンピューティングデバイスは、電子通信ネットワーク（例えば、図１のネットワーク１２及び１４）及び／又は他のデバイス／コンピュータシステムに接続することができる。

コントローラハブ３０は、複数のシステムバス、周辺バス、及び／又はチップセットバス、並びに／あるいはプロセッサ２２とＲＰＡクライアント１０の残りのハードウェアコンポーネントとの間の通信を可能にする他のすべての回路を一般的に表す。例えば、コントローラハブ３０は、メモリコントローラ、入力／出力（Ｉ／Ｏ）コントローラ、及び割込みコントローラを備えてもよい。ハードウェア製造業者に応じて、いくつかのそのようなコントローラは、単一の集積回路に組み込まれてもよく、及び／又はプロセッサ２２と統合されてもよい。別の例では、コントローラハブ３０は、プロセッサ２２をメモリ２４に接続するノースブリッジ、並びに／又はプロセッサ２２をデバイス２６、２８、３２及び３４に接続するサウスブリッジを備えてもよい。

上述の例示的なシステム及び方法は、アクティビティ対象、すなわちロボットソフトウェアによって作用されるユーザーインターフェース要素の自動識別を改善することによって、ＲＰＡ操作を容易にする。典型的なＲＰＡ用途では、対象ユーザーインターフェース（例えば、電子商取引ウェブページ、会計インターフェースなど）は、それぞれのインターフェースとインタラクトするためにロボット設計とは無関係に開発及び維持されるので、対象識別は、実質的な技術的問題を提起する。したがって、対象ＵＩの機能性及び／又は外観は、ＲＰＡ開発者の知識なしに変化することがある。したがって、成功したＲＰＡは、アクティビティ対象を識別するロバストな方法、すなわち対象ユーザーインターフェースの設計の変動に比較的影響されない方法に依存し得る。

ロボットソフトウェア（設計時として一般に知られているオートメーション化の段階）を設計する場合、ＲＰＡ開発者は、対象ＵＩのインスタンスを呼び出し、対象要素、及びそれぞれの対象要素に対して実施されるべきアクティビティを示す。例えば、開発者は、対象ＵＩのボタンを示し、それぞれのボタンをクリックするようにロボットを構成してもよい。別の例では、開発者は、入力フィールドを示し、それぞれの入力フィールドに何らかのテキストをタイプ入力するようにロボットを構成してもよい。更に別の例では、開発者は、ユーザーインターフェースのテキストボックスを示し、それぞれのテキストボックスのコンテンツをグラブするようにロボットを構成してもよい。結果として得られるロボットコードは、対象要素のインジケータと、それぞれのアクティビティのインジケータと、を含み得る。次いで、ロボットコードは、ＲＰＡクライアントに配信され得る。

実行時として一般に知られているオートメーション化の別の段階では、クライアントマシンは、対象ＵＩの別のクライアントサイドインスタンスとインタラクトしようと試み得るそれぞれのロボットを遂行してもよい。しかしながら、クライアントサイドＵＩは、設計サイドＵＩと同一でない場合がある。対象ＵＩがウェブインターフェースを備える場合、特に、それぞれのロボットが複雑なウェブサイトとインタラクトするように設計されている場合、それぞれのユーザーインターフェースは、１日のうちに複数回変化してもよい。それぞれのウェブサイトのウェブ開発者は、例えば、ボタンの位置の変更、メニューの構成の変更、及び／又は様々な要素の配色、フォント、及びサイズの変更など、外観を微調整してもよい。したがって、インターフェースの外観が変化した場合でも、ロボットソフトウェアは、対象要素を首尾よく識別する必要があり得る。

いくつかの従来のＲＰＡシステムは、それぞれのユーザーインターフェースの基礎となるソースコード又はデータ構造（例えば、ウェブページの外観及びコンテンツを指定するＨＴＭＬコードで、指定されたその名前又はＩＤに従って対象要素を識別する。しかしながら、そのようなシステム及び方法は、それぞれの要素の名前が予期せず変化した場合に失敗する可能性がある。特に、かなりの割合のウェブ文書が現在動的に生成されており、ウェブ文書の様々な態様がアルゴリズム的に制御されているため、このような変化は非常に頻繁に発生する可能性がある。

そのような従来の手法とは対照的に、本発明のいくつかの実施形態は、設計時に表示されるその画像及びテキストに従って、対象要素を更に識別する。設計時の画像及びテキストは、ロボットのコードに保存され、ＲＰＡクライアントに送られる。実行時に、ロボットは、複数の候補対象要素を識別し、要素ＩＤに従って、更にそれぞれの候補要素によって表示された画像及びテキストに従って、複数の候補対象要素のそれぞれを評価し得る。設計時対象要素のＩＤ、画像、及びテキストと少なくとも部分的に一致する候補が、実行時対象として選択され得る。次いで、ロボットは、スクリプト化されたアクティビティを、選択された実行時対象要素に適用し得る。

いくつかの実施形態は、計算リソースを節約し、したがって実行時のＲＰＡ効率及びユーザー体験を改善するために、最適化戦略を使用してもよい。第１のフェーズでは、ロボットは、要素ＩＤに従って実行時対象を識別しようと試みてもよく、そのような識別が失敗した場合（例えば、要素の名前がＵＩのソースコード内で変化したことにより）、テキスト一致及び／又は画像一致をフォールバック位置として使用し得る。候補ＵＩ要素は、それらが設計時対象要素の要素ＩＤと部分的に一致するように選択され得る。要素ＩＤと部分的に一致していれば、ロボットは、候補の関連するサブグループ内の対象要素（例えば、設計サイド対象要素と同じＵＩの領域に属する候補）を検索することができる。

方法の堅牢性を更に改善するために、いくつかの実施形態は、対象インターフェースの別のＵＩ要素の特性データ（例えば、要素ＩＤ、画像及びテキストデータ）を採用し、他の要素は、対象要素と同時表示され、対象要素のアンカーと見なされる。実行時において、いくつかの実施形態は、複数の候補アンカー要素を識別し、要素ＩＤ、画像、及び／又はデータに従って、各候補を設計時アンカーと一致させるように試みてもよい。アンカー要素データを対象要素データと組み合わせて使用することは、対象とアンカーの両方が設計時と実行時との間で変更された可能性が低いという仮定に依存し、これにより、対象は、そのアンカーを特徴付けるデータに基づいて首尾よく識別され得る。

上記の実施形態が本発明の範囲から逸脱することなく多くの方法で変更され得ることは、当業者には明らかであろう。したがって、本発明の範囲は、以下の特許請求の範囲、及びそれらの法的均等物によって決定されるべきである。

Claims

コンピュータシステムの少なくとも１つのハードウェアプロセッサを採用することを含む方法であって、前記コンピュータシステムの少なくとも１つのハードウェアプロセッサが、
対象ＵＩの対象要素の特性である対象機能のセット及び前記対象ＵＩのアンカー要素の特性であるアンカー機能のセットを備えるロボティック・プロセス・オートメーション（ＲＰＡ）スクリプトの受取りに応答して、前記コンピュータシステムによって公開された実行時ユーザーインターフェース（ＵＩ）内の前記対象要素の実行時インスタンスを自動的に識別し、
前記ＲＰＡスクリプトに従って決定される操作であって、人間のオペレータと前記対象要素の前記実行時インスタンスとのインタラクションの結果を再現する操作を自動的に実行する、方法において、
前記対象機能のセットが、
前記対象ＵＩのツリー表現内の前記対象要素の位置を示す対象ＩＤと、
前記対象ＵＩ内の前記対象要素の画像を備える対象画像と、
前記対象ＵＩ内の前記対象要素によって表示される一連の文字を備える対象テキストと、を備え、
前記アンカー機能のセットが、
前記対象ＵＩの前記ツリー表現内の前記アンカー要素の位置を示すアンカーＩＤと、
前記対象ＵＩ内の前記アンカー要素の画像を備えるアンカー画像と、
前記対象ＵＩ内の前記アンカー要素によって表示される一連の文字を備えるアンカーテキストと、を備え、
前記方法が、前記対象ＩＤ、対象画像、対象テキスト、アンカーＩＤ、アンカー画像、及びアンカーテキストに従って、前記対象要素の前記実行時インスタンスを識別することを含む、方法。
前記対象要素の前記実行時インスタンスを自動的に識別することが、
前記実行時ＵＩの複数の候補ＵＩ要素の各候補について、前記実行時ＵＩのツリー表現内の前記各候補の位置を示す前記各候補の要素ＩＤが、前記対象ＩＤと厳密に一致するか否かを判定することと、
それに応答して、前記各候補の前記要素ＩＤが前記対象ＩＤと厳密に一致する場合、前記各候補を、前記対象要素の前記実行時インスタンスとして指定することと、
前記複数の候補ＵＩ要素のいずれの候補も前記対象ＩＤと厳密に一致する要素ＩＤがない場合、前記対象画像及び対象テキストに更に従って、前記対象要素の前記実行時インスタンスを識別することと、を備える、請求項１に記載の方法。
候補対象を、前記候補対象の要素ＩＤが前記対象ＩＤと部分的に一致するか否かに従って、前記複数の候補ＵＩ要素から選択することと、
候補アンカーを、前記候補アンカーの要素ＩＤが前記アンカーＩＤと部分的に一致するか否かに従って、前記複数の候補ＵＩ要素から選択することと、
前記候補対象及び候補アンカーの選択に応答して、前記対象テキストを前記候補対象によって表示されたテキストと比較した結果に従って、及び前記アンカーテキストを前記候補アンカーによって表示されたテキストと比較した結果に更に従って、前記候補対象を、前記対象要素の前記実行時インスタンスとして指定するか否かを判定することと、を更に含む、請求項２に記載の方法。
前記候補対象及び候補アンカーの選択に応答して、前記対象画像を前記候補対象の画面上画像と比較した結果に更に従って、及び前記アンカー画像を前記候補アンカーの画面上画像と比較した結果に更に従って、前記候補対象を、前記対象要素の前記実行時インスタンスとして指定するか否かを判定することを更に含む、請求項３に記載の方法。
前記候補対象及び候補アンカーの選択に応答して、前記候補アンカーに対する前記候補対象の相対的な画面上位置に更に従って、前記候補対象を、前記対象要素の前記実行時インスタンスとして指定するか否かを判定することを更に含む、請求項３に記載の方法。
前記相対的な画面上位置を判定することが、前記候補対象の中心を前記候補アンカーの中心と結ぶ直線の角度を決定することを含む、請求項５に記載の方法。
前記相対的な画面上位置を判定することが、前記候補対象と前記候補アンカーとの間の重複度を決定することを含む、請求項５に記載の方法。
前記インタラクションが、前記対象要素の前記実行時インスタンス上でマウスクリックを実施することと、キーボードキーの特定の組合せを押すことと、前記対象要素の前記実行時インスタンスに一連の文字を書き込むことと、前記対象要素の前記実行時インスタンスの画面上画像をグラブすることと、前記対象要素の前記実行時インスタンスによって表示されたテキストをグラブすることと、から構成されるグループから選択されたアイテムを備える、請求項１に記載の方法。
オートメーション化対象アプリケーション及びロボティック・プロセス・オートメーション（ＲＰＡ）ロボットを遂行するように構成された少なくとも１つのハードウェアプロセッサを備えるコンピュータシステムであって、
前記オートメーション化対象アプリケーションが、実行時ユーザーインターフェース（ＵＩ）を公開するように構成され、
前記ＲＰＡロボットが、
対象ＵＩの対象要素の特性である対象機能のセット及び前記対象ＵＩのアンカー要素の特性であるアンカー機能のセットを備えるＲＰＡスクリプトの受取りに応答して、前記実行時ＵＩ内の前記対象要素の実行時インスタンスを自動的に識別し、
前記ＲＰＡスクリプトに従って決定される操作であって、人間のオペレータと前記対象要素の前記実行時インスタンスとのインタラクションの結果を再現する操作を、自動的に実行する、ように構成されたコンピュータシステムにおいて、
前記対象機能のセットが、
前記対象ＵＩのツリー表現内の前記対象要素の位置を示す対象ＩＤと、
前記対象ＵＩ内の前記対象要素の画像を備える対象画像と、
前記対象ＵＩ内の前記対象要素によって表示される一連の文字を備える対象テキストと、を備え、
前記アンカー機能のセットが、
前記対象ＵＩの前記ツリー表現内の前記アンカー要素の位置を示すアンカーＩＤと、
前記対象ＵＩ内の前記アンカー要素の画像を備えるアンカー画像と、
前記対象ＵＩ内の前記アンカー要素によって表示される一連の文字を備えるアンカーテキストと、を備え、
前記対象要素の前記実行時インスタンスを自動的に識別することが、前記対象ＩＤ、対象画像、対象テキスト、アンカーＩＤ、アンカー画像、及びアンカーテキストに従って、前記対象要素の前記実行時インスタンスを識別することを含む、コンピュータシステム。
前記対象要素の前記実行時インスタンスを自動的に識別することが、
前記実行時ＵＩの複数の候補ＵＩ要素の各候補について、前記各候補の要素ＩＤが、前記実行時ＵＩのツリー表現内の前記各候補の位置を示す前記対象ＩＤと厳密に一致するか否かを判定することと、
それに応答して、前記各候補の前記要素ＩＤが前記対象ＩＤと厳密に一致する場合、前記各候補を、前記対象要素の前記実行時インスタンスとして指定することと、
前記複数の候補ＵＩ要素のいずれの候補も前記対象ＩＤと厳密に一致する要素ＩＤがない場合、前記対象画像及び対象テキストに更に従って、前記対象要素の前記実行時インスタンスを識別することと、を備える、請求項９に記載のコンピュータシステム。
前記ＲＰＡロボットが、
候補対象を、前記候補対象の要素ＩＤが前記対象ＩＤと部分的に一致するか否かに従って、前記複数の候補ＵＩ要素から選択することと、
候補アンカーを、前記候補アンカーの要素ＩＤが前記アンカーＩＤと部分的に一致するか否かに従って、前記複数の候補ＵＩ要素から選択することと、
前記候補対象及び候補アンカーの選択に応答して、前記対象テキストを前記候補対象によって表示されたテキストと比較した結果に従って、及び前記アンカーテキストを前記候補アンカーによって表示されたテキストと比較した結果に更に従って、前記候補対象を、前記対象要素の前記実行時インスタンスとして指定するか否かを判定することと、を実施するように更に構成される、請求項１０に記載のコンピュータシステム。
前記ＲＰＡロボットが、前記候補対象及び候補アンカーの選択に応答して、前記対象画像を前記候補対象の画面上画像と比較した結果に更に従って、及び前記アンカー画像を前記候補アンカーの画面上画像と比較した結果に更に従って、前記候補対象を、前記対象要素の前記実行時インスタンスとして指定するか否かを判定することを実施するように更に構成される、請求項１１に記載のコンピュータシステム。
前記ＲＰＡロボットが、前記候補対象及び候補アンカーの選択に応答して、前記候補アンカーに対する前記候補対象の相対的な画面上位置に更に従って、前記候補対象を、前記対象要素の前記実行時インスタンスとして指定するか否かを判定するように更に構成される、請求項１１に記載のコンピュータシステム。
前記相対的な画面上位置を判定することが、前記候補対象の中心を前記候補アンカーの中心と結ぶ直線の角度を決定することを含む、請求項１３に記載のコンピュータシステム。
前記相対的な画面上位置を判定することが、前記候補対象と前記候補アンカーとの間の重複度を決定することを含む、請求項１３に記載のコンピュータシステム。
前記インタラクションが、前記対象要素の前記実行時インスタンス上でマウスクリックを実施することと、キーボードキーの特定の組合せを押すことと、前記対象要素の前記実行時インスタンスに一連の文字を書き込むことと、前記対象要素の前記実行時インスタンスの画面上画像をグラブすることと、前記対象要素の前記実行時インスタンスによって表示されたテキストをグラブすることと、から構成されるグループから選択されたアイテムを備える、請求項９に記載のコンピュータシステム。
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令が、実行時ユーザーインターフェース（ＵＩ）を公開するように構成されたコンピュータシステムの少なくとも１つのハードウェアプロセッサによって遂行される場合、前記コンピュータシステムに、
対象ＵＩの対象要素の特性である対象機能のセット及び前記対象ＵＩのアンカー要素の特性であるアンカー機能のセットを備えるロボティック・プロセス・オートメーション（ＲＰＡ）スクリプトの受取りに応答して、前記実行時ＵＩ内の前記対象要素の実行時インスタンスを自動的に識別させ、
前記ＲＰＡスクリプトに従って決定される操作であって、人間のオペレータと前記対象要素の前記実行時インスタンスとのインタラクションの結果を再現する操作を自動的に実行させる、コンピュータシステムにおいて、
前記対象機能のセットが、
前記対象ＵＩのツリー表現内の前記対象要素の位置を示す対象ＩＤと、
前記対象ＵＩ内の前記対象要素の画像を備える対象画像と、
前記対象ＵＩ内の前記対象要素によって表示される一連の文字を備える対象テキストと、を備え、
前記アンカー機能のセットが、
前記対象ＵＩの前記ツリー表現内の前記アンカー要素の位置を示すアンカーＩＤと、
前記対象ＵＩ内の前記アンカー要素の画像を備えるアンカー画像と、
前記対象ＵＩ内の前記アンカー要素によって表示される一連の文字を備えるアンカーテキストと、を備え、
前記対象要素の前記実行時インスタンスを自動的に識別することが、前記対象ＩＤ、対象画像、対象テキスト、アンカーＩＤ、アンカー画像、及びアンカーテキストに従って、前記対象要素の前記実行時インスタンスを識別することを含む、非一時的コンピュータ可読媒体。