JP2023528092A

JP2023528092A - ロボティックプロセスオートメーションのためのグラフィカル要素検索技術の選択、アンカーおよびターゲットのファジー理論選択、ならびに／または階層的グラフィカル要素識別

Info

Publication number: JP2023528092A
Application number: JP2020553527A
Authority: JP
Inventors: ムンテアヌダン; マイロンイオン
Original assignee: UiPath Inc
Current assignee: UiPath Inc
Priority date: 2020-05-11
Filing date: 2020-09-23
Publication date: 2023-07-04
Also published as: EP3909722A1; CN113811850A

Abstract

ロボティックプロセスオートメーション（ＲＰＡ）のためのグラフィカル要素検索技術の選択、アンカーおよびターゲットのファジー論理選択、ならびに階層的グラフィカル要素識別が開示される。アンカーおよびターゲットのファジー論理選択は、ＵＩ内のグラフィカル要素を識別するための、より大きな、より段階的な、または階層的なプロセスの一部であり得る。ＵＩ要素のセレクタが少なくとも信頼度しきい値で見つからない場合、ＵＩ要素ターゲットのセレクタに対応する可能性のある類似要素は、ターゲットおよび対応するアンカー（複数可）のファジーマッチングに基づいて検索され得る。幾何学的なマッチングはまた、ターゲットＵＩ要素とそのそれぞれのアンカー（複数可）との間で採用され得る。ファジーマッチングおよび幾何学的マッチングを組み合わせることで、ＲＰＡロボットが対話しようとしている正確なセレクタをより柔軟かつ正確に識別できるようになり得る。【選択図】図１

Description

（関連出願への相互参照）
本出願は、２０２０年５月１１日に出願された米国非仮特許出願第１６／８７１，６９６号の利益を主張する。先に提出された本出願の主題は、その全体を参照することにより、本明細書に組み込まれる。

本発明は概して、ロボティックプロセスオートメーション（ＲＰＡ）に関し、より具体的には、ＲＰＡのためのグラフィカル要素検索技術の選択、アンカーおよびターゲットのためのファジー論理選択、ならびに／または階層的グラフィカル要素検出に関する。

ＲＰＡロボットは、特定のワークフローアクティビティのために、コンピューティングシステムのユーザーインターフェース（ＵＩ）のグラフィカル要素を識別し、対話することを試みてもよい。例えば、ＲＰＡロボットは、ＵＩ内の「提出」ボタンを特定しようとし、そのボタンに対してマウスクリック操作を行い得る。しかし、ＲＰＡロボットがワークフローの中でＵＩ対話活動を正確に実行できるように、ＵＩのグラフィカル要素を正しく識別することは、技術的に大きな課題を呈する。したがって、グラフィカル要素を識別して選択するための改善されたアプローチが有益であり得る。

本発明の特定の実施形態は、現在のＲＰＡ技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、ＲＰＡのためのグラフィカル要素検索技術の選択、アンカーおよびターゲットのためのファジー論理選択、ならびに／または階層的グラフィカル要素検出に関する。

一実施形態では、コンピュータ実装方法は、ＲＰＡデザイナアプリケーションにより、設計時に自動化を行うアプリケーションのＵＩまたはライブアプリケーションのＵＩの一部もしくは全部の画像内のターゲットＵＩ要素を指定することを含む。コンピュータ実装方法はまた、ＲＰＡデザイナアプリケーションにより、設計時に１または複数の検索アルゴリズムの選択を受信し、ＲＰＡデザイナアプリケーションによって、設計時に選択された１または複数の検索アルゴリズムを実行するようにＲＰＡワークフローのアクティビティを構成することを含む。

別の実施形態では、ＲＰＡワークフローのアクティビティに関連付けられたターゲットＵＩ要素を識別するためのコンピュータ実装方法は、ＲＰＡワークフローを実装するＲＰＡロボットによって、ターゲットＵＩ要素を識別するために、実行時にターゲットＵＩ要素のセレクタ検索を実行することを含む。ターゲットＵＩ要素が見つからない場合、コンピュータ実装方法は、ＲＰＡロボットによって、ターゲットＵＩ要素を特定するために、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、ＣＶマッチング、またはそれらの組み合わせを実行することを含む。コンピュータ実装方法はまた、ＲＰＡワークフローのアクティビティに基づいて、ＲＰＡロボットによって識別されたターゲットＵＩ要素との対話を実行することを含む。

さらに別の実施形態では、ＲＰＡワークフローのアクティビティに関連付けられたターゲットＵＩ要素を識別するためのコンピュータ実装方法は、ＲＰＡワークフローを実装するように構成されたＲＰＡロボットによって、実行時に、ターゲットＵＩ要素のための、セレクタ検索と、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、ならびにＣＶマッチングのうちの少なくとも１つとを実行することを含む。コンピュータ実装方法はまた、ＲＰＡロボットによって、検証スコアに基づいて、セレクタ検索と、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、ならびにＣＶマッチングのうちの少なくとも１つとから最適な結果を選択して、ターゲットＵＩ要素を識別することを含む。コンピュータ実装方法はさらに、ＲＰＡワークフローのアクティビティに基づいて、ＲＰＡロボットによって識別されたターゲットＵＩ要素との対話を実行することを含む。

本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。

本発明の実施形態による、ロボティックプロセスオートメーション（ＲＰＡ）システムを示すアーキテクチャ図である。

本発明の実施形態による、展開したＲＰＡシステムを示すアーキテクチャ図である。

本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。

本発明の実施形態による、ＲＰＡシステムを示すアーキテクチャ図である。

本発明の実施形態による、ＲＰＡ用のグラフィカル要素検索を行うように構成されたコンピューティングシステムを示すアーキテクチャ図である。

本発明の実施形態による、例示的なＵＩツリーを示す。

本発明のいくつかの実施形態による、ファジーマッチングを用いたＵＩ要素識別のためのターゲットおよびアンカーを選択するプロセスを説明するフローチャートである。

本発明の実施形態による、ＲＰＡデザイナアプリケーションにおけるターゲットおよびアンカーの選択を説明するスクリーンショットである。

本発明の実施形態による、ＲＰＡデザイナアプリケーションのターゲット選択オプションを示すスクリーンショットである。

本発明の実施形態による、ＲＰＡデザイナアプリケーションにおけるファジーセレクタの一致を説明するスクリーンショットである。

本発明の実施形態による、ＲＰＡのためのマルチアンカリングの例を示す。

本発明の実施形態による、ＲＰＡのための別のマルチアンカリングの例を示す。

本発明の実施形態による、階層化されたターゲットＵＩ要素の識別およびＲＰＡロボットアクティビティの実行のためのプロセスを説明するフローチャートである。

本発明の実施形態による、ＲＰＡのためのアンカーおよび／またはターゲットのためのファジー論理選択のためのプロセスを説明するフローチャートである。

本発明の実施形態による、ターゲットＵＩ要素を検索するための１または複数以上の検索方法を構成するためのプロセスを説明するフローチャートである。

本発明の実施形態による、ターゲットＵＩ要素を検索し、ＲＰＡワークフローのアクティビティを実装するためのプロセスを示すフローチャートである。

別段の記載がない限り、類似の参照文字は、添付の図面全体で一貫して対応する特徴を示す。
（実施形態の詳細な説明）

いくつかの実施形態は、ＲＰＡのためのグラフィカル要素検索技術の選択、アンカーおよびターゲットのためのファジー論理選択、ならびに／または階層的グラフィカル要素検出に関する。本明細書で定義されるように、「ターゲット」は、ロボットが対話しようとするＵＩ内のグラフィカル要素（本明細書では「ＵＩ要素」とも呼ばれる）であり、「アンカー」は、ターゲットと１または複数のアンカーとの間の１または複数の関係に基づいてターゲットＵＩ要素をより正確に識別するために使用され得るＵＩ内の別のグラフィカル要素である。ユーザーインターフェースの特定のアクションを自動化するために、ＲＰＡロボットは、ターゲットをクリックしたり、テキストを追加したり、メニュー項目を選択したりすることなどによって、ターゲット（例えば、ウィンドウ、ボタン、ドロップダウンリスト、テキストフィールドなど）との対話を求めてもよい。セレクタは、いくつかの実施形態では、ターゲットおよびアンカー（複数可）に対して、それぞれのＵＩ要素およびその親の属性を格納するために使用されてもよい（例えば、拡張可能なマークアップ言語（ＸＭＬ）フラグメント内）。

ターゲットおよびそのアンカー（複数可）に関する情報は、ＵＩ記述子に格納されてもよく、いくつかの実施形態では、ターゲットＵＩ要素セレクタ、アンカーセレクタ、ターゲットおよびアンカーのためのコンピュータビジョン（ＣＶ）セレクタ、スクリーンイメージキャプチャ（コンテキスト）、ＵＩ要素イメージキャプチャ、他のメタデータ（例えば、アプリケーションおよびアプリケーションバージョン）、ならびにそれらの組み合わせなどを含むカプセル化されたデータ／構造フォーマットである。カプセル化されたデータ／構造フォーマットは、プラットフォームへの将来のアップデートで拡張可能であってもよく、上記の定義に限定されない。画面上のＵＩ要素を識別するためのＵＩ記述子としては、本発明の範囲を逸脱することなく、任意の好適なものを使用することができる。

アンカーおよびターゲットのファジー論理選択は、いくつかの実施形態において、ＵＩ内のグラフィカル要素を識別するための、より大きな、より段階的な、および／または階層的なプロセスの一部であり得る。例えば、システムは、最初に、スクリーンスクレイピング、ネイティブオペレーティングシステム（ＯＳ）機能を使用するなどして、ターゲットＵＩ要素のセレクタを検索してもよい。ＵＩ要素のセレクタが少なくとも信頼度しきい値（例えば、９７％、８５％など）で見つからない場合、ＵＩ要素ターゲットのセレクタに潜在的に対応する類似の要素が、ターゲットのファジーマッチングに基づいて検索されてもよく、および／または対応するアンカー（複数可）が、ターゲットをより正確に識別するために使用されてもよい。ファジーマッチングを採用することで、システムは、ターゲットおよび／またはアンカーの１または複数の属性が実行時ＵＩで見つかったものと正確に一致しないターゲットおよび／またはアンカーを識別することができ得る。

幾何学的なマッチングはまた、いくつかの実施形態では、ターゲットとそのそれぞれのアンカー（複数可）との間で採用され得る。ファジーマッチングおよび幾何学的マッチングを組み合わせることで、ＲＰＡロボットが対話しようとしている正確なＵＩ要素をより柔軟かつ正確に識別できるようになり得る。実行時に、類似のターゲットを見つけた後、いくつかの実施形態は、ファジーマッチングを使用して、類似のターゲットのテキストが所望のＵＩ要素のテキストと一致するかどうかを、追加的にまたは代替的に検証し得る。これは、例えばＲＰＡロボットが間違ったボタンをクリックするのを防ぐのに役立ち得る。

いくつかの実施形態のファジーマッチングは、基礎となる実行時ＵＩ要素の候補が変更された場合に候補を提供してもよい。例えば、解像度の変更、新しいバージョンでのアプリケーションデザインの変更により、またはクライアントのためのカスタマイズなどにより、設計時のＵＩ要素の外観および／または位置が実行時に異なることがある。設計時に示されたものに最も近い候補のリストが取得され、ファジーマッチングを使用して最良の候補が選択され得る。これは、実行時にアンカー（複数可）の特性が変化する場合にも適用され得る。

いくつかの実施形態では、ＵＩの変更に対応する試みのために、幾何学的なマッチングは比較的緩和されていてもよい。例えば、ターゲットとそのアンカーを接続する線セグメント間の角度が多少異なる場合、距離許容差を使用する場合などがあり得る。コンポーネントによっては、設計時の設計選択の問題として、許容差が他よりも厳しくなり得る。例えば、開発者は、狭い範囲または正確な許容差内で、ターゲットを指定されたアンカーの右側に直接配置したいと希望し得る。これは、例えばグリッドレイアウトの場合などに有効であり得る。

いくつかの実施形態では、ターゲットおよびそのアンカー（複数可）のための定義された長方形は設計時に取得され、幾何学的検証ロジックは実行時に構成される。ファジー論理を適用して、潜在的なターゲットのセットおよび潜在的なアンカーのセットを識別した後、例えば、設計時の画面上の相対位置に基づいて、適切なターゲットおよびアンカーを選択し得る。これにより、ＲＰＡ開発者の設計時のタスクが簡素化され得る。いくつかの実施形態では、ターゲットの特定のセレクタを探すときに、システムが２つ以上のＵＩ要素を正確に区別できない場合は、開発者は、ターゲットおよびアンカー（複数可）の組み合わせが特定の信頼性でその識別を提供するまで、１または複数の追加のアンカーを追加するようにデザイナアプリケーションによって要求され得る。

設計時に、いくつかの実施形態では、ターゲットおよびそのアンカーの複数または全ての組み合わせを試みて、ターゲットを一意に識別するために必要な最小数のアンカー（複数可）を見つけ得る。これは、例えば、検証スコアに基づき得る。いくつかの実施形態では、異なるまたは複数の方法が選択され得る。例えば、セレクタ法、ファジーセレクタ法、マルチアンカー法、画像マッチング法、またはそれらの組み合わせが採用され得る。特定の実施形態では、これらの技術は、デザイナアプリケーションにおけるユーザーの選択に基づいて選択され得る。

これらの方法は、いくつかの実施形態では、順番に適用され得る（本明細書では「階層的アプローチ」とも呼ばれる）。例えば、セレクタ検索方法を最初に試みて、セレクタのツリーのような特性に基づいて要素を一意に識別できるかどうかを確認し得る。セレクタが特定の検証スコアで一意に識別できる場合、階層的アプローチはそこで停止し得る。しかしながら、特定の実施形態では、選択された全ての方法が一度に適用され、最良の結果が選択される。

セレクタベースのアプローチでは候補が見つからない可能性がある。例えば、アプリケーションの新しいバージョン、画面解像度の変更などにより、グラフィック要素の場所および／または外観が変更された場合、セレクタベースのアプローチでは候補が見つからない場合がある。この場合、階層的な実施形態では、ファジーセレクタ技術が採用されてもよい。これは、ファジーマッチングを用いて、ターゲットＵＩ要素、またはターゲットＵＩ要素およびそのアンカー（複数可）を検索し得る。画像マッチングは、ターゲットＵＩ要素の画像が画面上の要素と一致するかどうかを確認するために使用され得る。テキストマッチングは、例えば、ターゲットＵＩ要素のテキストが指定された文字列と正確に一致することが要求し得る。

全ての選択された方法が採用される実施形態では、各方法からの結果は、それぞれの検証スコアを使用して比較され、最良の結果が選択され得る。例えば、選択された方法を用いてターゲットに到達する方法が１６通りある場合、検証スコアは最も正確な候補を見つける傾向があろう。例えば、ファジーセレクタ技術により、スコアが１である候補、または残りの候補よりも有意に高いスコア（例えば、０．１以上）を有する候補が提供された場合、この候補が選択されてもよい。

そうでない場合は、ファジーマッチングアプローチは重複した候補を提供することになるであろう。その後、ターゲットを一意に識別するために、ターゲットに対してアンカーが指定され得る。いくつかの実施形態では、アンカーは自動的に追加されてもよいし、または提案されたアンカーがユーザーに提案されてもよい。このアンカーを追加しても、信頼度しきい値超にターゲットを一意に識別することができない場合、少なくとも信頼度しきい値でターゲットが一意に識別されるまで、追加のアンカー（複数可）が追加され得る。

いくつかの実施形態では、ファジーセレクタの精度は、候補をフィルタリングするためにユーザーによって（例えば、スライダ、手動入力などを介して）選択され得る。例えば、０．７未満の候補は、それが選択された精度であれば無視され得る。ユーザーは、ターゲットが一意に識別されるまで、セレクタの精度を微調整してもよい。いくつかの実施形態のテストでは、特に１または複数のアンカーがある場合には、０．７のセレクタ精度値０が良好に機能する傾向がある。開発者は、いくつの組み合わせがターゲットを見つけることができるかを知らされ得る。

ファジーターゲットおよびアンカーは、ウェブコンポーネントの識別子（ＩＤ）が新しいページがロードされるたびに生成されることが多い、現代のウェブアプリケーションのいくつかの実施形態では、特に有益であり得る。そのため、与えられたＵＩ要素のＩＤはその都度変更される傾向があり、それらが静的なＩＤに依存している場合はセレクタが動作しない場合がある。その後、ファジーターゲットおよびアンカーは、ＩＤの変更にもかかわらず、候補を提供するために使用され得る。いくつかの実施形態では、ＵＩコンポーネントのタグ、タイプ、または役割を変更することは許されないので、実行時にはそれは概して同じままである。

いくつかの実施形態では、開発者がターゲットを編集しようとするとき、開発者は、デザイナアプリケーションの「ターゲットを編集する」オプションをクリックしてもよい。その後、ターゲットは、例えば、上述した方法（複数可）を用いて検証される。開発者が検証を実行すると、いくつかの実施形態では、アプリケーションのＵＩツリーは１回だけ検索され得る。

例えば、セレクタアプローチのみでターゲットを見つけた場合の検証スコアがウェブページ上で１００％であるが、要素ＩＤが変わるなどウェブページが更新されている場合を考えてみる。再度検証を行うと、検証が失敗することがある。これにより、アプリケーションがファジーセレクタのアプローチを試し得る。開発者は、失敗したワークフロー内のアクティビティに行き、「ターゲットの編集」を選択して、構成のどこに問題があるのかを確認し得る。これにより、開発者は、このアクティビティでどのターゲット識別方法を（複数可）試すかを選択することが可能になる。いくつかの実施形態では、セレクタ法は最初に試みられてもよく、これが失敗した場合、アプリケーションは、所望に応じて、画像マッチングおよびテキストマッチングと並行して、ターゲットおよびアンカー（ならびに対応する幾何学的マッチング）のファジー選択を実行してもよい。

幾何学的マッチングでは、実行時に、ターゲット候補およびアンカー候補の各セットは、設計時のマッチング候補と比較され得る。候補は、ドライバ（例えば、図３のドライバ（複数可）３４０）から取得されてもよく、位置および他の幾何学的特性は、実行時候補のそれと比較されてもよい。幾何学的マッチングは、ターゲットおよびそのアンカー（複数可）のファジーマッチングを使用して発見された静的な位置に対して実行され得る。いくつかの実施形態では、コンピュータビジョンからの候補を使用して幾何学的マッチングアルゴリズムが適用されてもよいが、候補は実行時により共通する傾向がある。一致数を減らすためにファジーセレクタパラメータを変更すること、および／または一致数に上限を設けることは、こうして有益であり得る。そのような実施形態では。

いくつかの実施形態では、ターゲットおよび対応する全てのアンカーのファジーマッチングのために、単一のドライバコールが行われてもよい。ファジー一致の場合、例えばターゲットが１つでアンカーが３つの場合、ドライバへの４回の呼び出しの代わりに、１回の呼び出しで全てのターゲットおよびアンカーの候補を取得し得る。これを達成するために、ドライバはアプリケーションツリーを一度考察して、同じツリー考察でターゲットおよびアンカー（複数可）の候補を取得し得る。このように、ターゲットおよび各アンカーのドライバを順次呼び出す必要はないかもしれない。複数の検索方法（例えば、通常のセレクタ、ファジーセレクタ、ならびにファジーセレクタおよびファジーアンカー（複数可））が採用されている上記の実施形態では、ＵＩツリーは一度解析され、その後、全ての選択された方法が検証されてもよい。

いくつかの属性については、テキストは変更されるべきではなく、ターゲットおよびアンカーの基礎となるファジー論理選択は、この制限を認識していない場合がある。例えば、最初の名前がＵＩ要素のテキストと正確に一致するようにしたい場合がある。ファジー理論は、複数の候補を提供することはあっても、そのような情報と完全に一致するものを提供するものではない。実行時に、いくつかの実施形態では、各候補を取得し、ドライバを呼び出して基礎となるテキストを取得し、次いで適切なオプションが選択されている場合には、完全に一致するかどうかをチェックする。そうでない場合は、候補が捨てられ得る。特定の実施形態では、上記のように、全ての候補のテキストを取得するために、単一のドライバコールが行われてもよい。

ドライバ側に画像を強制することが望ましい場合がある。例えば、ファジーマッチングは、与えられたＵＩ要素を探す際に様々なグラフィカルアイコンを提供し得るが、どのアイコンが正しいアイコンなのかを判断することができない場合がある。検証用のアイコンのテキストがない場合があり得る。

この問題に対処するために、いくつかの実施形態では、開発者が設計時に、実行時の画像の一致が必須であることを示すことができるようになっている。ファジーマッチングにより画像候補が提供された後、画像比較は、次いで正しい候補を一意に識別するために、候補に対して実行され得る。いくつかの実施形態では、ドライバはまた、ユーザーには見えない候補（例えば、ユーザーのディスプレイの円錐台の外にあり、かつ画面上に表示されているものの左、右、上、または下にあるとみなされ得る候補）を提供してもよい。これらの候補は、所望の理論に応じて、マッチングに使用され、または破棄され得よう。

いくつかの実施形態では、ファジーセレクタマッチングには、画像マッチングも実行するオプションが備えられてもよい。高解像度モニタの画像全体の画像マッチングを実行するには、いくつかのコンピューティングシステムを使用して１０～１５秒かかる場合がある。ファジーセレクタ画像マッチングを使用することで、例えば、与えられたＵＩ要素に関連付けられたはるかに小さい画像をターゲット要素の画像と比較することができ、画像全体を検索するよりもはるかに高速にこれらの候補を提供することができる。

いくつかの実施形態では、複数のタグがファジーセレクタに囲まれていると、処理する理論が遅くなる。いくつかの実施形態は、この処理をより速く実行させるための速度改善が提供する。タグの最適な候補を識別するために、いくつかの実施形態では、アプリケーションのＵＩツリー全体が解析される。タグごとに解析を実行するのではなく、いくつかの実施形態では、ＵＩツリーを一度解析して、全てのタグのターゲットを見つけ得る。言い換えれば、一旦最初のタグが見つかると、解析は、全てのタグが見つかるまで、２番目のタグ、次いで３番目のタグ、次いで４番目のタグなどを見つけ続けてもよい。

特定の実施形態は、ロボティックプロセスオートメーション（ＲＰＡ）に採用されてもよい。図１は、本発明の実施形態による、ＲＰＡシステム１００を示すアーキテクチャ図である。ＲＰＡシステム１００は、開発者がワークフローを設計して実装することを可能にするデザイナ１１０を含む。デザイナ１１０は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術（ＩＴ）タスク、およびビジネスＩＴプロセスを自動化する。デザイナ１１０は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ１１０は、ワークフローおよびロボットの開発およびデプロイメントを容易にする。

自動化プロジェクトは、本明細書で「アクティビティ」と定義されるワークフローで開発されたカスタムセットのステップ間の実行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ１１０の実施形態の商業的な一例は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。

ワークフローのタイプには、シーケンス、フローチャート、（ＦＳＭ）、および／またはグローバル例外ハンドラなどを含み得るが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフローに特に適し得る。ＦＳＭは、条件（すなわち、遷移）またはアクティビティによりトリガされる有限の数の状態をそれらの実行中に使用し得る。グローバル例外ハンドラは、実行エラーに遭遇したときのワークフローの動作を決定したり、プロセスをデバッグしたりするのに特に適し得る。

ワークフローがデザイナ１１０内で開発されると、ビジネスプロセスの実行は、コンダクタ１２０によって調整され、デザイナ１１０内で開発されたワークフローを実行する１または複数のロボット１３０を調整する。コンダクタ１２０の実施形態の商業的な一例は、ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）である。コンダクタ１２０は、環境におけるリソースの生成、監視、およびデプロイメントの管理を容易にする。コンダクタ１２０は、サードパーティのソリューションおよびアプリケーションとの統合ポイント、または統合ポイントの１つとして動作し得る。

コンダクタ１２０は、全てのロボット１３０を管理し得、ロボット１３０を集中ポイントから接続して実行する。管理され得るロボット１３０のタイプには、アテンディッドロボット１３２、アンアテンディッドロボット１３４、開発ロボット（アンアテンディッドロボット１３４と同様であるが、開発およびテストの目的で使用される）、および非生産ロボット（アテンディッドロボット１３２と同様であるが、開発およびテストの目的で使用される）が含まれるが、これらに限定されない。アテンディッドロボット１３２は、ユーザーイベントによりトリガされてもよいし、自動的に発生するようにスケジュールされてもよく、同じコンピューティングシステム上で人と並んで動作し得る。アテンディッドロボット１３２は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ１２０とともに使用され得る。アテンディッドロボット１３２は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによりトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ１２０から開始することができず、および／またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット１３２は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット１３２は、いくつかの実施形態では、人の監督下で動作することが好ましい。

アンアテンディッドロボット１３４は、仮想環境または物理マシン上で無人で動作し、多くのプロセスを自動化することができる。アンアテンディッドロボット１３４は、リモート実行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ１１０から実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、ＶＭ、エンタープライズアプリケーション（例えば、ＳＡＰ（登録商標）、ＳａｌｅｓＦｏｒｃｅ（登録商標）、Ｏｒａｃｌｅ（登録商標）などによって生成されたもの）、およびコンピューティングシステムアプリケーション（例えば、デスクトップおよびラップトップアプリケーション、モバイル装置アプリケーション、ウェアラブルコンピュータアプリケーションなど）を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。

コンダクタ１２０は、プロビジョニング、デプロイメント、バージョニング、構成、キューイング、監視、ロギング、および／または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット１３０とコンダクタ１２０（例えば、ウェブアプリケーション）との間の接続を作成し、維持することを含み得る。デプロイメントは、実行のために割り当てられたロボット１３０へのパッケージバージョンの正しい配信を保証することを含み得る。バージョニングは、いくつかの実施形態では、いくつかのプロセスまたは構成の固有のインスタンスの管理を含んでもよい。構成は、ロボット環境およびプロセス構成のメンテナンスおよび配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの識別データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース（例えば、ＳＱＬデータベース）および／または別のストレージメカニズム（例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）へのログの保存およびインデックス作成を含み得る。コンダクタ１２０は、サードパーティのソリューションおよび／またはアプリケーションのための通信の集中点として動作することにより、相互接続性を提供し得る。

ロボット１３０は、デザイナ１１０で構築されたワークフローを実行する実行エージェントである。ロボット（複数可）１３０のいくつかの実施形態の１つの商業的な例は、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）である。いくつかの実施形態では、ロボット１３０は、デフォルトで、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｉｃｅＣｏｎｔｒｏｌＭａｎａｇｅｒ（ＳＣＭ）管理サービスをインストールする。その結果、このようなロボット１３０は、ローカルシステムアカウントの下でインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開くことができ、Ｗｉｎｄｏｗｓ（登録商標）サービスの権利を有し得る。

いくつかの実施形態では、ロボット１３０は、ユーザーモードで設置され得る。このようなロボット１３０については、所定のロボット１３０が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各マシンを最大限に全活用することを保証する高密度（ＨＤ）ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット１３０は、ＨＤ環境で構成され得る。

いくつかの実施形態におけるロボット１３０は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、ＳＣＭ管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。ＳＣＭ管理ロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と実行ホスト（すなわち、ロボット１３０が実行されるコンピューティングシステム）との間のプロキシとして動作する。これらのサービスは、ロボット１３０の資格情報を任されて管理する。コンソールアプリケーションは、ローカルシステム下のＳＣＭによって起動される。

いくつかの実施形態におけるユーザーモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と実行ホストとの間のプロキシとして動作する。ユーザーモードのロボットサービスは、ロボット１３０の資格情報を任されて管理し得る。ＳＣＭ管理ロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動され得る。

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッションの下で与えられたジョブを実行し得る（つまり、ワークフローを実行し得る。エグゼキュータは、モニタ毎のドットパーインチ（ＤＰＩ）設定を意識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであり得る。エージェントはサービスのクライアントとなり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。

上で説明したように、ロボット１３０のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが何を実行しているかをより容易に実行し、識別し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な動作を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのＤＰＩ設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのＤＰＩで実行し得る。また、いくつかの実施形態では、デザイナ１１０からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。ＤＰＩを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではＤＰＩを無効にし得る。

図２は、本発明の実施形態による、展開したＲＰＡシステム２００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム２００は、図１のＲＰＡシステム１００であってもよく、またはその一部であってもよい。クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション２１０は、エグゼキュータ２１２、エージェント２１４、およびデザイナ２１６を含む。しかし、いくつかの実施形態では、デザイナ２１６は、コンピューティングシステム２１０上で実行されていなくてもよい。エグゼキュータ２１２はプロセスを実行する。図２に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント２１４（例えば、Ｗｉｎｄｏｗｓ（登録商標）サービス）は、本実施形態では、全てのエグゼキュータ２１２のための単一の接続ポイントである。この実施形態における全てのメッセージは、コンダクタ２３０に記録され、コンダクタ２３０は、データベースサーバー２４０、インデクササーバー２５０、またはその両方を介して、それらをさらに処理する。図１に関して上述したように、エグゼキュータ２１２は、ロボットコンポーネントであり得る。

いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数の対話型セッションをサポートするコンピューティングシステム（Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ２０１２など）では、複数のロボットが同時に実行され得、それぞれが一意のユーザー名を使用して別々のＷｉｎｄｏｗｓ（登録商標）セッションで実行され得る。これは、上記のＨＤロボットと呼ばれる。

エージェント２１４はまた、ロボットの状態を送信し（例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する）、実行されるパッケージの必要なバージョンをダウンロードすることにも責任を負う。エージェント２１４とコンダクタ２３０との間の通信は、いくつかの実施形態では、常にエージェント２１４によって開始される。通知シナリオでは、エージェント２１４は、後にコンダクタ２３０によってロボットにコマンド（例えば、開始、停止など）を送信するために使用されるＷｅｂＳｏｃｋｅｔチャネルを開いてもよい。

サーバー側には、プレゼンテーション層（ウェブアプリケーション２３２、オープンデータプロトコル（ＯＤａｔａ）代表状態転送（ＲＥＳＴ）アプリケーションプログラミングインターフェース（ＡＰＩ）エンドポイント２３４、通知および監視２３６）、サービス層（ＡＰＩ実装／ビジネスロジック２３８）、永続層（データベースサーバー２４０、インデクササーバー２５０）が含まれる。コンダクタ２３０は、ウェブアプリケーション２３２、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４、通知および監視２３６、ならびにＡＰＩ実装／ビジネスロジック２３８を含む。いくつかの実施形態では、ユーザーがコンダクタ２３０のインターフェース（例えば、ブラウザ２２０を介して）で実行するほとんどのアクションは、様々なＡＰＩを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加／削除、無人で実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション２３２は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション２３２は、ハイパーテキストマークアップ言語（ＨＴＭＬ）およびジャバスクリプト（ＪＳ）を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ２３０を制御するための様々な動作を実行するために、本実施形態ではブラウザ２２０を介してウェブアプリケーション２３２からのウェブページと対話する。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および／またはプロセス毎のログを解析し、ロボットを起動しおよび停止し得る。

ウェブアプリケーション２３２に加えて、コンダクタ２３０は、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。ＲＥＳＴＡＰＩは、ウェブアプリケーション２３２とエージェント２１４の両方によって消費される。エージェント２１４は、本実施形態では、クライアントコンピュータ上の１または複数のロボットのスーパーバイザである。

本実施形態のＲＥＳＴＡＰＩは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングＲＥＳＴエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントＲＥＳＴエンドポイントは、コンダクタ２３０においてジョブ開始コマンドが使用された場合に実行されるべきパッケージのバージョンを問い合わせるためにロボットによって使用されてもよい。キューイングＲＥＳＴエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。

ＲＥＳＴエンドポイントの監視は、ウェブアプリケーション２３２およびエージェント２１４を監視してもよい。通知および監視ＡＰＩ２３６は、エージェント２１４の登録、エージェント２１４への構成設定の配信、およびサーバーとエージェント２１４との間の通知の送受信に使用されるＲＥＳＴエンドポイントであってもよい。通知および監視ＡＰＩ２３６は、いくつかの実施形態では、ＷｅｂＳｏｃｋｅｔ通信を使用してもよい。

永続層は、本実施形態では、一対のサーバーデータベースサーバー２４０（例えば、ＳＱＬサーバー）およびインデクササーバー２５０－を含む。本実施形態におけるデータベースサーバー２４０は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション２３２を介して管理される。データベースサーバー２４０は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー２４０は、ロボットによって記録されたメッセージを（インデクササーバー２５０に加えて、またはインデクササーバー２５０に代えて）格納してもよい。

いくつかの実施形態では任意であるが、インデクササーバー２５０は、ロボットによって記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー２５０は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー２５０は、オープンソースプロジェクトの全文検索エンジンであるＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）を使用する。ロボットによって記録されたメッセージ（例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して）は、ロギングＲＥＳＴエンドポイント（複数可）を介してインデクササーバー２５０に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。

図３は、本発明の実施形態による、デザイナ３１０、アクティビティ３２０、３３０、およびドライバ３４０の間の関係３００を示すアーキテクチャ図である。以上のように、開発者は、デザイナ３１０を用いて、ロボットによって実行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ３２０およびＵＩ自動化アクティビティ３３０を含んでもよい。いくつかの実施形態では、画像中の非テキストの視覚的コンポーネントを識別することができ、これは、本明細書ではコンピュータビジョン（ＣＶ）と呼ばれる。このようなコンポーネントに関連するいくつかのＣＶアクティビティは、クリック、タイプ、テキストを取得、ホバー、要素の有無を検出、スコープの更新、ハイライトなどを含むが、これらに限定されない。いくつかの実施形態では、クリックは、例えば、ＣＶ、光学的文字認識（ＯＣＲ）、ファジーテキストマッチング、およびマルチアンカーを使用して要素を識別し、それをクリックする。タイプは、上記および要素内のタイプを用いて要素を識別してもよい。テキストの取得は、特定のテキストの場所を特定し、ＯＣＲを使用してそれをスキャンし得る。ホバーは、要素を識別し、その上にホバーし得る。要素の有無の検出は、上述した技術を用いて、画面上に要素の有無を検出するかどうかを確認し得る。いくつかの実施形態では、デザイナ３１０に実装され得る数百または数千でさえのアクティビティが存在してもよい。しかし、本発明の範囲を逸脱することなく、いずれかの数および／またはアクティビティのタイプを利用することができる。

ＵＩ自動化アクティビティ３３０は、低レベルのコード（例えば、ＣＶアクティビティ）で記述され、ＵＩ層を介したアプリケーションとの対話を促進する特別な低レベルのアクティビティのサブセットである。特定の実施形態では、ＵＩ自動化アクティビティ３００は、例えば、ウィンドウメッセージなどを介したユーザー入力をシミュレートしてもよい。ＵＩ自動化アクティビティ３３０は、ロボットが所望のソフトウェアと対話することを可能にするドライバ３４０を介して、これらの対話を促進する。例えば、ドライバ３４０は、ＯＳドライバ３４２、ブラウザドライバ３４４、ＶＭドライバ３４６、エンタープライズアプリケーションドライバ３４８などを含んでもよい。

ドライバ３４０は、フックを探したり、キーを監視したりするなど、低レベルでＯＳと対話してもよい。それらは、Ｃｈｒｏｍｅ（登録商標）、ＩＥ（登録商標）、Ｃｉｔｒｉｘ（登録商標）、ＳＡＰ（登録商標）などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ３４０を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。

図４は、本発明の実施形態による、ＲＰＡシステム４００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム４００は、図１および／または図２のＲＰＡシステム１００および／または２００であってもよいし、それを含んでもよい。ＲＰＡシステム４００は、ロボットを実行する複数のクライアントコンピューティングシステム４１０を含む。コンピューティングシステム４１０は、その上で実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム４２０と通信することができる。コンダクタコンピューティングシステム４２０は、順番に、データベースサーバー４３０および任意のインデクササーバー４４０と通信することができる。

図１および図３に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、いずれかの適切なクライアントおよび／またはサーバーソフトウェアを使用することができることに留意すべきである。例えば、コンダクタは、クライアントコンピューティングシステム上で、非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバーサイドアプリケーションを実行してもよい。

図５は、本発明の実施形態による、ＲＰＡ用のグラフィカル要素検索を行うように構成されたコンピューティングシステム５００を示すアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム５００は、本明細書に描かれたおよび／または記載された１または複数のコンピューティングシステムであってもよい。コンピューティングシステム５００は、情報を通信するためのバス５０５または他の通信機構と、情報を処理するためのバス５０５に結合されたプロセッサ（複数可）５１０とを含む。プロセッサ（複数可）５１０は、中央処理ユニット（ＣＰＵ）、特定用途集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックスプロセッシングユニット（ＧＰＵ）、それらの複数のインスタンス、および／またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ（複数可）５１０はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも１つのプロセッサ（複数可）５１０は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。

コンピューティングシステム５００は、プロセッサ（複数可）５１０によって実行される情報および命令を格納するためのメモリ５１５をさらに含む。メモリ５１５は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらの組み合わせのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ（複数可）５１０によってアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。

さらに、コンピューティングシステム５００は、無線および／または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信装置５２０を含む。いくつかの実施形態では、通信装置５２０は、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅ）通信、汎用パケット無線サービス（ＧＰＲＳ：ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）、ユニバーサル移動体通信システム（ＵＭＴＳ：ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ：ＷｉｄｅｂａｎｄＣＤＭＡ）、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速アップリンクパケットアクセス（ＨＳＵＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速パケットアクセス（ＨＳＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓ）、ロングタームエボリューション（ＬＴＥ：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥアドバンスト（ＬＴＥ－Ａ：ＬＴＥＡｄｖａｎｃｅｄ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、Ｚｉｇｂｅｅ、超広帯域無線（ＵＷＢ：Ｕｌｔｒａ－ＷｉｄｅＢａｎｄ）、８０２．１６ｘ、８０２．１５、ＨｏｍｅＮｏｄｅ－Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、無線ＩＤタグ（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、近距離無線通信（ＮＦＣ：Ｎｅａｒ－ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ）、第５世代（５Ｇ）、ＮｅｗＲａｄｉｏ（ＮＲ）、それらのいずれかの組み合わせ、および／または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および／またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信装置５２０は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および／またはいずれかの他のアンテナ構成である１または複数のアンテナを含み得る。

プロセッサ（複数可）５１０は、バス５０５を介して、プラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、電界放出ディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、フレキシブルＯＬＥＤディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細ディスプレイ、Ｒｅｔｉｎａ（登録商標）ディスプレイ、ＩＰＳ（Ｉｎ－ＰｌａｎｅＳｗｉｔｃｈｉｎｇ）ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ５２５にさらに結合されている。ディスプレイ５２５は、抵抗方式、静電容量方式、表面弾性波（ＳＡＷ）静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ（ハプティック）ディスプレイ、３次元（３Ｄ）タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示装置およびハプティックＩ／Ｏを使用することができる。

コンピュータマウス、タッチパッドなどのようなキーボード５３０およびカーソル制御装置５３５は、ユーザーがコンピューティングシステム５００とインターフェースすることを可能にするために、バス５０５にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ５２５および／またはタッチパッド（図示せず）のみを介してデバイスと対話することができる。入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力装置および／またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム５００と通信している別のコンピューティングシステムを介してリモートでコンピューティングシステム５００と対話してもよいし、コンピューティングシステム５００は自律的に動作してもよい。

メモリ５１５は、プロセッサ（複数可）５１０によって実行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム５００のためのオペレーティングシステム５４０を含む。モジュールはさらに、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成されたサーチモジュール５４５を含む。コンピューティングシステム５００は、付加的な機能を含む１または複数の付加的な機能モジュール５５０を含み得る。

当業者であれば、「システム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」によって実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技術と整合性のあるローカライズされた形態および分散された形態で実装されてもよい。

本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積（ＶＬＳＩ）回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジック装置、グラフィックス処理ユニットなどのプログラマブルハードウェア装置に実装され得る。

モジュールはまた、様々なタイプのプロセッサによって実行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、実行可能コードの識別された単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の１または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、実行可能な識別されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュ装置、ＲＡＭ、テープのようなコンピュータ読み取り可能な媒体、および／または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかのそのような非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。

実際、実行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリ装置間に分散されていてもよい。同様に、操作データは、モジュール内で識別され、ここで示されてもよく、いずれかの適切なタイプのデータ構造体内でいずれかの適切な形態で具現化され、組織化され得る。操作データは、単一のデータセットとして収集されてもよいし、または異なる記憶装置にわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。

最近のコンピューティングシステムでは、オペレーティングシステムは通常、各ユーザーインターフェースを一般的にＵＩツリーと呼ばれる階層的なデータ構造として表現する。例示的なＵＩツリーは、ウェブブラウザアプリケーションによってレンダリングされるウェブページの基礎となるドキュメントオブジェクトモデル（ＤＯＭ（ＤｏｃｕｍｅｎｔＯｂｊｅｃｔＭｏｄｅｌ））を含み得る。図６は、複数のノード６０２ａ－ｋを有する例示的なＵＩツリー６００を示す。いくつかの実施形態では、各ノード６０２ａ－ｋは、ＵＩの一部を表すオブジェクトを含む。例示的なＵＩでは、ルートノード６０２ａは、ＵＩウィンドウ全体を表してもよい。その子ノード６０２ｂおよび６０２ｈは、個々のＵＩ要素（例えば、テキストボックス、ラベル、フォームフィールド、ボタンなど）、要素のグループ、それぞれのＵＩの異なる領域またはブロックなどを表してもよい。図６のノード６０２ｂのような中間ノードは、全ての入力フィールド、ラベル、およびボタンを含むフォーム全体を表してもよい。例えば、ノード６０２ｂは、ＨＴＭＬ文書の＜ｆｏｒｍ＞または＜ｆｉｅｌｄｓｅｔ＞コンテナの内容を表してもよい。中間ノードの別の例は、＜ｄｉｖ＞または＜ｓｐａｎ＞のＨＴＭＬコンテナの内容を表してもよい。中間ノードのさらに別の例は、文書のヘッダまたはフッタの内容を含む。しかしながら、本発明の範囲から逸脱することなく、任意の好適な表現を用いることができる。６０２ｄ、６０２ｅ、６０２ｆ、６０２ｇ、および６０２ｋなどのエンドノード（本明細書では「リーフノード」とも呼ばれる）は、さらなる子ノードを有しないノードである。エンドノードは、個々のＵＩ要素（ボタン、個々のラベル、個々の入力フィールドなど）を表し得る。ウェブブラウザＵＩの例では、エンドノードは、個々の画像、ハイパーリンク、テキスト段落などを表し得る。

本明細書では、ＵＩツリーの選択されたノードとその子孫のみからなるノードのセットを、ＵＩツリーの「サブツリー」として記述する。それぞれのサブツリーはさらに、それぞれのサブツリーのルートノードの祖先のサブツリーとみなされる。図６に描かれたＵＩツリー６００において、ノード６０２ｆ～６０２ｇ～６０２ｈ～６０２ｊ～６０２ｋは、ノード６０２ｈがノード６０２ａの子孫（子）であるので、ノード６０２ａの例示的なサブツリーを形成する。

ＲＰＡロボットによる成功的かつ理想的に曖昧さのない識別を可能にするために、本発明のいくつかの実施形態では、それぞれのＵＩ要素を特徴づける要素ＩＤを使用して各ＵＩ要素を表現する。いくつかの実施形態では、要素ＩＤは、ＵＩツリー６００内のターゲットノードの位置を示し、ここで、ターゲットノードはそれぞれのＵＩ要素を表す。例えば、要素ＩＤは、ターゲットノード／ＵＩ要素を、選択されたノードのサブセットのメンバーとして識別してもよい。ノードの選択されたサブセットは、系図、すなわち、各ノードが別のノードの先祖または子孫のいずれかであるＵＩツリーを介した下降線を形成することができる。例示的な系図６０４ａ～ｄは、図６に示される。

いくつかの実施形態では、要素ＩＤは、ノードインジケータの順序付けされたシーケンスを含み、シーケンスはＵＩツリーを介して系図的な経路を追跡し、経路はそれぞれのターゲットノード／ＵＩ要素で終わる。各ノードインジケータは、それぞれのＵＩのオブジェクト階層のメンバーと、それぞれの階層と一致するシーケンス内のその位置を表してもよい。例えば、シーケンスの各メンバーは、前のメンバーの子孫（例えば、子ノード）を表し、次のメンバーを子孫（例えば、子ノード）としてもよい。ＨＴＭＬの例では、個々のフォームフィールドを表す要素ＩＤは、それぞれのフォームフィールドがＨＴＭＬフォームの子であることを示してもよく、その子は、順番にウェブページの特定のセクションなどの子である。系図は、いくつかの実施形態では完全である必要はない。例えば、系図６０４ｃは、リーフノードおよびルートノードだけを含むが、それでも、ルートノード６０２ａによって表されるＧＵＩウィンドウ内に表示されるＵＩ要素としてノード６０２ｆを識別する。

要素ＩＤ６１０がＸＭＬのバージョンで表現される図６に示されるそのような１つの例では、各個々のノードインジケータはＸＭＬタグを含む。したがって、ノード６０２ｄを特徴付ける要素ＩＤ６１０は、最初のタグがＧＵＩウィンドウ（ノード６０２ａ）を表し、最後のタグがターゲットノード６０２ｄ自身（この例ではボタン）を表す一連のタグを含んでもよい。要素ＩＤ６１０の中間タグは、とりわけ、６０２ｂ、６０２ｃなどのノードを表してもよい。各タグは、実装固有の区切り文字（現在の例では、各タグは「＜」で始まり「／＞」で終わる）でブックエンドされるシーケンスを有する文字の列を含んでいてもよい。図６では、各タグは、属性－値のペアのセットを介して指定され、例えば、とりわけ、それぞれのノードによって表されるＵＩ要素の名前およびタイプを示す。要素ＩＤ６１０の図示されたフォーマットは、非限定的な例としてのみ提供される。ある当業者は、属性－値のペアのリスト以外に、ＵＩツリー内の特定のノードの位置を表現する複数の方法があり得ることを理解するであろう。

実行時に、ＲＰＡロボットは、ターゲットＵＩの実行時インスタンス内（例えば、実行時コンピューティングシステム上で実行されているユーザアプリケーションのインスタンス内）でアクションのオペランド／ターゲットを識別しようとし得る。実際には、オペランドを識別することは、ターゲットＵＩ要素の実行時インスタンス（本明細書では、「実行時間ターゲット」とも呼ばれる）を識別する試みを含み得る。いくつかの実施形態は、それぞれの要素ＩＤに基づいて、および／または、それぞれのＵＩ要素の画像、それぞれのＵＩ要素の横または上に表示されたラベルなどの他の情報に基づいて、このような識別を試みる。要素ＩＤのマッチングは、設計時（例えば、ＲＰＡロボットのワークフローが開発されているとき）と実行時の間に、それぞれのＵＩ要素の特徴的ないくつかの特徴が変化している状況では失敗し得る。このような状況を克服するために、いくつかの実施形態では、以下でより詳細に説明するように、要素ＩＤのファジー（部分的な）一致を試みる。

設計時に、ユーザーは、ＲＰＡワークフローアクティビティが対話することを意図したターゲットＵＩ要素を選択し得る。セレクタは、いくつかの実施形態では、ターゲットおよびアンカー（複数可）に対して、それぞれのＵＩ要素およびその親（例えば、ＸＭＬフラグメント）の属性を格納するために使用されてもよい。セレクタは、ＵＩ要素およびその親の属性をＸＭＬフラグメントに格納することで、固定座標識別に関連する問題を克服し得る。ＵＩが静的であるいくつかの実施形態では、セレクタは自動的に生成されてもよいが、いくつかのウェブアプリケーションなどのいくつかのソフトウェアプログラムでは、レイアウトが変化し、揮発性値を有する属性ノードが存在する。これらの変更は容易に予測できない場合があり、これは以前はいくつかのセレクタを手動で生成する必要があった。しかし、いくつかの実施形態では、この問題を克服し得る。

セレクタは、いくつかの実施形態では、以下の構造を有する。
＜ｎｏｄｅ＿１／＞＜ｎｏｄｅ＿２／＞．．．＜ｎｏｄｅ＿Ｎ／＞

最後のノードは対象のＵＩ要素を表し、それ以前の全てのノードはその要素の親を表す。＜ｎｏｄｅ＿１＞は通常ルートノードと呼ばれアプリケーションのトップウィンドウを表す。

各ノードは、選択されたアプリケーションの特定のレベルの正しい識別を支援する１または複数の属性を有してもよい。各ノードは、いくつかの実施形態では、以下の形式を有する。
＜ｕｉ＿ｓｙｓｔｅｍａｔｔｒ＿ｎａｍｅ＿１＝’ａｔｔｒ＿ｖａｌｕｅ＿１’ ．．．ａｔｔｒ＿ｎａｍｅ＿Ｎ＝’ａｔｔｒ＿ｖａｌｕｅ＿Ｎ’／＞

全ての属性は、割り当てられた値を有し得、一定の値を有する属性が選択され得る。これは、アプリケーションが起動するたびに属性の値を変更すると、セレクタが関連する要素を正しく識別できなくなる可能性があるからである。しかし、いくつかの実施形態では、ファジーマッチングを採用して、ある程度の不正確さを許容し、柔軟なマッチングを可能にしてもよい。

図７は、本発明のいくつかの実施形態による、ファジーマッチングを用いたＵＩ要素識別のためのターゲットおよびアンカーを選択するプロセス７００を説明するフローチャートである。プロセスは、開発者が７０５でＲＰＡワークフローアクティビティのＵＩ要素を選択することから始まる。例えば、開発者は、ボタンを見つけてそのボタンをクリックしようとするアクティビティのための画面上のボタンを選択してもよい。次に、ドライバ（例えば、ドライバ３４０）は、ターゲットＵＩ要素のためのファジーセレクタを７１０で生成する。

いくつかの実施形態では、ファジーターゲットセレクタの生成は、開発者がターゲットＵＩ要素に対するファジーマッチングのためのオプションを選択することに応答して実行される。特定の実施形態では、開発者は、ファジーマッチングのための類似度しきい値を選択してもよい。いくつかの実施形態では、ファジーセレクタは、選択されたＵＩ要素の要素ＩＤを含む。これは、ターゲットＵＩのソースコード（例えば、ＨＴＭＬ）を解析し、属性－値のペアを含むタグのセットを抽出および／または定式化することによって決定され得る。

次に、マッチング精度計算が（例えば、機械学習（ＭＬ）モデルを使用して）７１５で実行され、ドライバによって生成されたファジーターゲットセレクタがＵＩ要素とどれだけよく一致するかを決定する。精度計算が７２０でしきい値未満（例えば、９７％未満、９５％未満など）である場合、実行時にターゲットＵＩ要素が所望のように正確に決定され得ない可能性がある。許容可能な精度は、ＲＰＡワークフローで達成されるタスク（複数可）によって異なり得る。利用可能なアンカーは、７２５で決定され、示される。次に、各アンカーの追加に基づく精度の上昇が７３０で示される。例えば、アンカーを追加したことによる精度の上昇率を表示してもよいし、全体の精度を表示するなどしてもよい。

ファジーアンカー選択（複数可）は、７３５で開発者から受信され、またはデザイナアプリケーションによって作成され、７４０でファジーアンカーセレクタ（複数可）がファジーアンカー（複数可）に対して生成される。いくつかの実施形態では、これは、開発者が、それぞれの類似度しきい値を有する１または複数のアンカーに対してファジーマッチングオプションを選択することを含み得る。特定の実施形態では、各アンカーは、それ自身の類似度しきい値を有し得る。いくつかの実施形態では、１または複数のアンカーはファジーアンカーであってもよく、１または複数の他のアンカーはファジーアンカーであり得ない。例えば、あるアンカーに対して、その属性が厳格な許容差に適合することが期待される場合、ファジーマッチングは望ましくない場合がある。特定の実施形態では、デザイナアプリケーションは、しきい値が満たされるか、またはしきい値を超えるまで、１または複数のアンカーを自動的に追加し得る。そのような実施形態では、ステップ７２５～７３５は省略されてもよい。

しきい値が７２０で超過した場合（ステップ７２０の最初の遭遇時またはアンカー（複数可）の追加後のいずれか）、アクティビティは、７４５でターゲットおよびアンカー（複数可）のためのファジーセレクタを含むように修正される。これは、いくつかの実施形態では、ファジーセレクタをＵＩ記述子に追加し、そのＵＩ記述子を使用するようにアクティビティを引き起こすことを含んでもよい。マルチアンカーマッチングは、実行時のＲＰＡワークフローアクティビティの実行精度を高めるために、いくつかの実施形態において実行され得る。

アンカーは、ターゲットＵＩ要素を一意に識別するのを助けるために使用され得る他のＵＩ要素である。例えば、ＵＩに複数のテキストフィールドが含まれている場合、テキストフィールドを検索するだけでは、与えられたテキストフィールドを一意に識別するには不十分である。したがって、いくつかの実施形態では、与えられたＵＩ要素を一意に識別するために、追加の情報を探す。テキストフィールドの例を使用すると、「ファーストネーム（ＦｉｒｓｔＮａｍｅ）」というラベルの右側に、ファーストネームを入力するためのテキストフィールドが表示される場合があり得る。このファーストネームラベルは、「ターゲット」であるテキストフィールドを一意に識別するのに役立つように、「アンカー」として設定してもよい。

いくつかの実施形態では、ターゲットとアンカーの間の様々な位置および／または幾何学的な関連付けが、ターゲットを一意に識別するために、１つまたは複数の許容差内で使用される可能性がある。例えば、アンカーとターゲットのバウンディングボックスの中心が線セグメントを定義するために使用されてもよい。次いで、この線セグメントは、ターゲット／アンカーペアを使用してターゲットを一意に識別するために、許容差内の特定の長さおよび／または許容差内の傾きを有することが要求され得る。しかしながら、ターゲットおよび／またはアンカーに関連付けられた位置の任意の所望の位置は、本発明の範囲から逸脱することなく、いくつかの実施形態において使用され得る。例えば、線セグメントを描画するための点は、バウンディングボックス特性に関連して識別される、バウンディングボックスの境界上の中央、左上隅、右上隅、左下隅、右下隅、他の任意の位置、バウンディングボックス内の任意の位置、バウンディングボックスの外側の位置内などにあり得る。特定の実施形態では、ターゲットおよび１または複数のアンカーは、幾何学的マッチングのために使用されるそれらのバウンディングボックス内またはバウンディングボックス外の異なる位置を有してもよい。

以上のように、画面上のターゲット要素を一定の信頼性をもって一意に識別するためには、単一のアンカーだけでは必ずしも十分ではない場合がある。例えば、画面上の異なる位置にある「ファーストネーム」というラベルの右側に、ファーストネームを入力するための２つのテキストフィールドが表示されているウェブフォームを考えてみる。この例では、１または複数の追加のアンカーは、所与のターゲットを一意に識別するのに有用であり得る。アンカーとターゲットとの間の幾何学的特性（例えば、許容差を有する線セグメントの長さ、角度、および／または相対位置）は、ターゲットを一意に識別するために使用されてもよい。ユーザーは、ターゲットに対する一致強度がしきい値を超えるまでアンカーを追加し続けることが要求されてもよい。

図８Ａは、本発明の実施形態による、ＲＰＡデザイナアプリケーション８００におけるターゲットおよびアンカーの選択を説明するスクリーンショットである。ＲＰＡデザイナアプリケーションは、自動化が実行されるライブアプリケーションの画像８１０を含む。ドライバは、画像８１０のＵＩ要素の中の選択可能な要素を検出し（例えば、ＡＰＩ呼び出しを介して）、概して画像８１０の中にそれらを見つける。ターゲットおよびアンカー選択ペイン８２０は、ＲＰＡワークフローアクティビティが対話すべきターゲット８１２およびターゲット８１２を特定するのに役立つアンカー８１４を指定して受け入れるための使用を可能にする。いくつかの実施形態では、複数のアンカーがターゲットに対して選択され得る。ユーザーは、検証ボタン８２２を使用してターゲット８１２が一意に識別されることを検証してもよいし、確認ボタン８２４を使用して機能が正確であることを確認してもよいし、またはキャンセルボタン８２６を使用してターゲットおよびアンカーの選択をキャンセルしてもよい。

図８Ｂは、本発明の実施形態による、ＲＰＡデザイナアプリケーション８００のターゲット選択オプションを示すスクリーンショットである。ここで、ユーザーは、ターゲット８１２のオプションで設定８１６を選択している。オプションは、例えば、ユーザーがターゲット８１２の上にマウスを移動させたときに表示され得る。設定８１６の選択により、詳細設定ペイン８３０がターゲット及びアンカー選択ペイン８２０の下に表示される。

セレクタセクション８３２は、本実施形態ではターゲット８１２のセレクタを見つけるために検索されるタグを含む。ファジーセレクタセクション８３４は、「編集可能なテキスト」という役割が追加されたタグを含む。スライダ８３５は、セレクタの精度を制御する。特定の実施形態では、ファジーアンカー設定も示されてもよい。なお、開発者は、セレクタセクション８３２およびファジーセレクタセクション８３４においても、タグを直接編集してもよい。画像マッチングセクション８３６は、ＲＰＡデザイナアプリケーション８００に画像マッチング方法を採用してターゲット８１２を検索させ、各スライダ８３７は、画像マッチング精度を制御する。マッチング対象のＵＩ要素の画像は、スライダ８３７の上にも表示される。

セクション８３２、８３４、８３６に関連付けられたチェックボックスをクリックすると、ＲＰＡデザイナアプリケーション８００は、ターゲット８１２を検索する際に、それぞれの方法を適用する。目のアイコンをクリックすると、それぞれのセクション８３２、８３４、８３６の検索アルゴリズムを呼び出し得る。このように、開発者は、与えられたコンポーネントの個々の検索方法をテストして、それらを含めるかどうかを決定してもよい。「検索方法」は、本明細書では「検索アルゴリズム」とも呼ばれる。また、検証ボタン８２２をクリックすると、本実施形態では、選択された全ての検索戦略を検証する。

図８Ｃは、本発明の実施形態による、ＲＰＡデザイナアプリケーション８００のファジーセレクタの一致を示すスクリーンショットである。ファジーセレクタセクション８３４のそれぞれの目のアイコンをクリックすることにより、「マッチ中」アイコン８３８がその位置に表示される。次に、ＲＰＡデザイナアプリケーション８００は、ファジーセレクタマッチングのためのそれぞれの検索方法を採用し、マッチング要素８１８を画像８１０に表示する。これらの要素の各々は、タグで定義されているように、編集可能なテキストを有する。このように、与えられたテキストフィールドは、さらなる精緻化をせず、このタグだけに基づいて一意に識別されることはない。

いくつかの実施形態の例示的なマッチング技術は、厳密なマッチングおよび近似マッチングを含むが、これらに限定されない。厳密なマッチングは通常、各属性の実行時間値が設計時間値と正確に一致することを必要とする。近似マッチングは、それぞれの属性の設計時間および実行時間値の間の部分的なマッチングのみを必要とする場合があり、典型的にはテキストの属性（例えば、文字列）に適用される。近似マッチング技術は、正規表現、ワイルドカード、およびファジーマッチングを有するが、これらに限定されない。ファジーマッチングは、本発明のいくつかの実施形態によって以下に詳細に説明される。

ファジーマッチングとは、ターゲット（および潜在的なアンカー（複数可））の設計時間および実行時間値が、それぞれのしきい値（例えば、数値しきい値）によって異なることを許容するマッチング基準を指す。上記の通り、いくつかの実施形態では、所望であれば、異なるしきい値をターゲットおよび各アンカーに適用してもよい。特定の実施形態では、ファジーマッチングしきい値は、潜在的に各属性ごとにスライダによって制御されてもよい。ファジーマッチングは、ターゲットおよび／またはアンカー（複数可）の複数の属性に適用されてもよい。一般性を損なうことなく、２つの属性値の間の類似度／不一致の量を本明細書では「類似度測定値」と呼び、しきい値を本明細書では「類似度しきい値」と呼ぶ。また、しきい値は数値であってもよく、所定の範囲内の値をとる実数を表すものであってもよい。そうでなければ、類似度しきい値は、許容できる不一致の可変量または程度を定量化する。ファジー属性の同じ２つの値は、いくつかの実施形態では、類似度しきい値の１つの値に従って一致し、類似度しきい値の別の値に従って一致しないと考えられてもよい。

他の文字が正確に一致している一方で、２つの文字列が特定の位置／文字だけ異なることが許される他の近似マッチング技術（例えば、正規表現マッチング）とは対照的に、ファジーマッチングは、いくつかの実施形態では、任意の位置／文字が２つの文字列の間で異なることを可能にしてもよい。別の違いは、正規表現およびワイルドカードなどの他の近似マッチング技術では、２つの文字列間の不一致の量は通常制限されないのに対し、ファジーマッチングでは、不一致の量が予め定められた量に制限されることがあるという点である。これは、上記の通り、いくつかの実施形態ではスライダによって制御されてもよい。

当業者であれば、類似度測定は、類似度の量だけでなく、２つの属性値の間の不一致の量を定量化してもよいことを理解するであろう。さらに、様々な実施形態では、類似度しきい値は、不一致の最大量または一致に必要な類似度の最小量を表してもよい。類似度測定は、「文字列メトリック」として知られている文字列間距離に従うなど、様々な方法で表現されてもよい。レベンシュタイン距離として知られている文字列メトリックの一例としては、ある文字列を他の文字列に変換するのに必要な操作の数を決定する。その他の文字列間距離としては、とりわけ、ハミング距離およびジャロ－ウィンクラー距離を含む。

類似度測定値を計算する選択された方法に応じて、類似度しきい値は様々な解釈を有し得る。例えば、類似度しきい値は、２つの文字列の間で異なり得る文字の最大カウント数を示してもよいし、文字の合計カウント数（例えば、結合された文字列の長さ）の割合として計算された不一致の分数の程度を示してもよい。いくつかの実施形態では、類似度しきい値は、０と１の間、０と１００の間、７と３４の間などの所定の間隔に再スケーリングされてもよい。１つの非限定的な例では、比較的高い類似度しきい値（例えば、１または１００％に近い）は、ほぼ完全一致の要件、すなわち、実行時間ターゲットにおけるファジー属性の値が、設計時間ターゲットにおける各属性の値から非常にわずかに逸脱することしか許されないことを示す。一方、類似度しきい値が比較的低い（例えば、０に近い）場合には、それぞれのファジー属性のほぼ全ての値が一致するとみなされる。

いくつかのものは、例えばスライダを使って、設計時に類似度しきい値を調整し得る。いくつかの実施形態は、開発者が、ターゲットまたはアンカーのためのそれぞれのタグのためのファジー類似度しきい値を直接コードすることなどによって、マッチングパラメータを手動でコードすることを可能にし得る。いくつかの実施形態では、同じタグの複数の属性が、ファジーマッチングのために同時に選択されてもよい。異なる属性は、異なる程度に一致させることができる（例えば、ファジー類似度しきい値に異なる値を設定することによって）。次いで、これらの設定は、ＲＰＡワークフローの各アクティビティに組み込まれ得る。

いくつかの実施形態では、それぞれの要素ＩＤは、ターゲットおよび／またはアンカー（複数可）のためのファジーマッチングパラメータを含むように変更されてもよい。「ファジーネスフラグ」を使用して、ファジーマッチングのために属性にイヤーマークを付け得る。いくつかの実施形態では、ファジーネスフラグは、ターゲットおよびアンカー（複数可）のファジーマッチングのために選択された属性（複数可）を示し、それぞれの類似度しきい値を設定するために、既存のタグに追加された新しい属性－値のペアのセットを含む。例えば、以下のようなタグを考えてみる。
＜ｗｎｄａｐｐ＝’ｊａｖａ．ｅｘｅ’ ｃｌｓ＝’ＳｕｎＡｗｔＦｒａｍｅ’ ｔｉｔｌｅ＝’ＳｗｉｎｇＳｅｔ２’
ｍａｔｃｈｉｎｇ：ｔｉｔｌｅ＝’ｆｕｚｚｙ’ ｆｕｚｚｙｌｅｖｅｌ：ｔｉｔｌｅ＝’０．８’ ／＞

ここで、元の＜ｗｎｄ／＞タグに、「マッチング：タイトル（ｍａｔｃｈｉｎｇ：ｔｉｔｌｅ）」と「ファジーレベル：タイトル（ｆｕｚｚｙｌｅｖｅｌ：ｔｉｔｌｅ）」という属性が追加された。マッチング：タイトル属性は、現在のタグの「タイトル」属性の値が実行時にファジーマッチングされることを示す「ファジー」という値を有する。ファジーレベル：タイトル属性の値は、開発者によって指定された所望のファジー類似度しきい値（この例では０．８）を示す。当業者であれば、本発明の範囲を逸脱することなく、ファジーマッチングのために選択された属性をイヤーマーキングするファジーネスフラグをコード化する他の多くの方法があることを理解するであろう。ターゲット（複数可）およびアンカー（複数可）の選択は、開発者が達成しようとするタスク（複数可）に応じて、各アクティビティごとに開発者によって行われ得る。設計時段階の完了後、論理はＲＰＡスクリプトの形でスクリプトリポジトリに送信され、および／または他のＲＰＡクライアントに配布されて実行され得る。

上述したように、いくつかの実施形態では、ＵＩ要素のターゲットおよびアンカー（複数可）は、ファジーマッチングを用いて識別されたターゲットおよびそのアンカー（複数可）に対して幾何学的マッチングを実行することによって発見される。ＲＰＡロボットは、いくつかの実施形態では、ファジーマッチングを実行する、幾何学的マッチングを実行する、またはその両方を実行するために、ＣＶモデルまたはいくつかの他のＭＬ／ＡＩモデルに要求を送信してもよい。しかし、いくつかの実施形態では、ファジーマッチングおよび／または幾何学的マッチング機能の一部または全部は、ＲＰＡロボットによって実行される。特定の実施形態では、ＲＰＡロボットは、モデル（複数可）による解析のために取得された画像またはスクリーンショットを送信し得る。

ＲＰＡロボットが対話しようとしているターゲットＵＩ要素がテキストフィールドである場合を考えてみる。テキストフィールドは、空白文字、句読点文字、特殊文字などの一連の区切り文字の間に見られる１または複数の文字を含む１または複数のテキストトークンを含み得る。テキストトークンは、番号（複数可）、日付、電子メールアドレス、統一リソース識別子（ＵＲＩ）、郵便番号などを追加的にまたは代替的に含んでもよい。

ターゲットテキストフィールドは、いくつかの実施形態では、ファジーマッチングを実行した後、信頼度しきい値で一意に識別できない場合がある。ターゲットに関連付けられた１または複数のアンカーは、ファジーマッチングによって識別され得る。集合的に、ファジーマッチングされたターゲットおよびアンカー（複数可）は、１または複数の関係（例えば、幾何学的、位置的、場所的、座標に基づくなど）を有し得る。これらの関係は、いくつかの実施形態では許容差内に制約され得る。特定の実施形態では、ファジーマッチングは、全てのＵＩ要素ではなく、ターゲットおよびアンカー（複数可）うちの１またはサブセットに対して使用される。いくつかの実施形態では、ターゲットおよびそのアンカー（複数可）のそれぞれのファジーマッチングの特性はカスタマイズされ得る。例えば、ターゲットが２つのファジーマッチング属性を有し得、１つのアンカーがファジーマッチングを使用し得ず、別のアンカーが１つのファジーマッチング属性を有し得る。ファジーマッチングＵＩ要素および／またはファジーマッチング属性の任意の組み合わせを、本発明の範囲から逸脱することなく使用し得る。

図９は、本発明の実施形態による、ＲＰＡのためのマルチアンカリングの例９００を示す。アンカー点Ｘ９１２は、ＵＩに対して相対的に定義された座標、ボタン２９０８内またはボタン２９０８に近接した位置に対して相対的に定義された座標などを有する。ボタン２９０８は、ＵＩ内のボタン２９０８の寸法を定義するバウンディングボックス（例えば、ｘ、ｙ、幅、高さ）を有し得る。同様に、アンカー点Ｙ９１４は、ＵＩに対して相対的に定義された座標、ボタン１９０６内の位置またはボタン１９０６に近接した位置に対して相対的に定義された座標などを有する。いくつかの実施形態では、相対的な関係は、ＲＰＡロボットによってＵＩ要素間で自動的に推測され得る。実行時の相対関係の使用は、いくつかの実施形態ではＣＶモジュールを用いて実行され得る。

ターゲットおよびそのアンカー（複数可）との間の１または複数の関係は、ＵＩまたはアプリケーション領域におけるスケール、１インチあたりのドット数（ＤＰＩ）などの変化または変動に対する許容差またはしきい値の範囲内で弾性的であってもよい。このような「弾性」は、ウィンドウサイズに基づいてコンテンツをリフローするウェブページのような動的または「流動的」なレイアウトを持つアプリケーションにとって特に望ましい場合がある。弾性は、仮想マシン、リモートマシン、または仮想デスクトップ環境のビデオストリームまたは出力にも有益であり得る。特定の実施形態では、少なくともいくつかの特性（例えば、幾何学的アンカーまたは参照座標または角度）が非弾性であることが望ましい場合がある。例えば、ターゲットと１つのアンカーとの間に描かれたセグメントの距離については許容されないが、そのセグメントと別のセグメントとの間の角度については許容されてもよい。

アンカー点Ｙ９１４は、ボタン１９０６とターゲットテキストフィールド９０４_４との間の幾何学的な角度（θ）関係を測定することによって、ウィンドウまたはアプリケーション９０２内の要素検出のために利用され得る。アンカー点Ｘ９１２およびアンカー点Ｙ９１４を介したマルチアンカリングは、ウィンドウまたはアプリケーション９０２内の要素が実質的に異なるか、または自動化開発の間に異なる場合に、実行時にロボットのクラッシュを防止し得る。これは、いくつかの実施形態では、ファジーターゲット、複数のファジーアンカー、およびファジーアンカーＵＩ要素とのその関係、インターフェース内のその位置、関連するテキストラベルなどに基づいてターゲットＵＩ要素を一意に識別するためのＣＶを使用して達成され得る。

アンカー点Ｘ９１２は、ボタン２９０８とターゲットテキストフィールド９０４_４との間の距離関係９１６を決定するために利用され得る。アンカー点Ｘとフィールド９０４_４との間の距離９１６（例えば、この例では、その中心点からの）は、相対的であっても、絶対的であってもよい。その関係は、ＯＣＲの結果を有するＣＶモジュールによって利用され得る。検出されたＵＩ要素の全てまたはサブセットの結果は、エラーを減らすために、各ＵＩ要素の信頼度が備わってもよい。

図１０は、本発明の実施形態による、ＲＰＡのための別のマルチアンカリングの例１０００を示す。ＵＩ内のウィンドウまたはアプリケーション１００２は、ボタン１１００６およびボタン２１００８と同様に、それぞれテキストフィールド１００４_１－４のラベル１－４を含む。アンカー点Ｘ１０１０がボタン２内に定義され、アンカー点Ｙ１０１２がボタン１１００６内に定義され、ターゲット点Ｚがターゲットテキストフィールド１００４_３内（例えば、この例では、その左上隅）に定義される。

アンカー点Ｙ１０１２とアンカー点Ｘ１０１０は、アンカー点Ｘ１０１０、アンカー点Ｙ１０１２およびターゲット点Ｚ１０１６の間の三角関係を解析することにより、ウィンドウまたはアプリケーション１００２におけるＵＩ要素の検出に利用され得る。線セグメントは、セグメント１０１４のように、各点間で決定されてもよい。セグメントの長さ、セグメント間の角度、および許容差は、与えられたターゲットを見つけるために使用され得る。この関係は、いくつかの実施形態では、ＣＶモジュールによって決定または利用されてもよい。

本発明の範囲から逸脱することなく、長方形、Ｎ辺多角形、ターゲットＵＩ要素から各アンカーへのセグメントセット（例えば、セグメントは、ターゲットＵＩ要素から各アンカーＵＩ要素への中心を形成する）等の他の幾何学的形状が使用され得ることに留意すべきである。ターゲットＵＩ要素とアンカー（複数可）の間の潜在的な許容差が制限された関係は、実行時にターゲットＵＩ要素を見つけたりまたは識別したりするための指紋、印象、テンプレートなどとして機能し、ＲＰＡロボットワークフロー内のアクティビティがそのＵＩ要素と望ましい方法で対話できるようにする。

ファジーマッチングは、Ｇｏｏｇｌｅ（商標）クラウドＯＣＲ、Ｍｉｃｒｏｓｏｆｔ（商標）ＯＣＲ、ＴｅｓｓｅｒａｃｔＯＣＲ（商標）などのＯＣＲエンジンによるエラーを補正するために利用され得る。画像または画像の一部は、検出されたテキストおよび／またはグラフィカル要素を提供するために、ＯＣＲモジュールおよび／またはＣＶモジュールに送られてもよい。一例として、ファジーマッチングでは、ラベル１～４がそれぞれ名前のリストに割り当てられ得る。ファジーマッチングでは、「ＮＡＭ」または「ＮＭＥ」の検出は、「ＮＡＭＥ」と論理的に関連付けまたはマッチングされてもよく、および／またはテキストフィールドは、それぞれテキストフィールドのリストに割り当てられてもよい。

本明細書に記載されている例では、アンカーに関連する相対距離のようなしきい値を持つ幾何学的マッチングが、ＵＩのＲＰＡに利用され得る。一例として、ＵＩの画像内の各要素は、信頼度、しきい値、マッチングしきい値、許容度などと関連し得る。しきい値未満の要素に一致する可能性のあるものは破棄され得る。複数のアンカーを使用して、ＵＩ要素のための可能な関係適合は、１つまたは複数の要素の偽陽性が減少するような信頼区間（ＣＩ）を利用し得る。

一例として、例えば、５０％、６０％、９８％、または任意の所望の値のＣＩ未満の検出された要素は、破棄され得る。ＣＩ、信頼度しきい値、許容度しきい値などは、トレーニングまたは再トレーニングされ得るＭＬモデルに基づく。ＲＰＡロボットの開発中または実行中異なるＣＩ、信頼度しきい値、許容度しきい値、またはそのようなレベルまたは範囲は、ＵＩ内の要素のマッチングに利用され得る。

両方が一致するしきい値を満たす２つの要素の間で選択する必要があり得るロボットのために、要素、タイプ、または信頼度のリストが利用され得る。複数の一致を有する特定の構成では、ＵＩ内の複数のアンカーは、要素を一意に識別するのに役立ち得る。本明細書で与えられた例では、複数のアンカーの幾何学は、幾何学的しきい値のためのより小さい許容差で、水平方向または垂直方向にスナップし得る。特定の実施形態では、別の要素で水平または垂直にスナップするアンカーは、別の扱いをされ得る。例えば、方向がスナップ軸に対して垂直に移動できる距離については、より小さい許容差または全く許容差がないことが許され得る。ボタンがテキストフィールド、ラベル、ボタンなどのアンカーとして使用されている場合、実行時は、ＵＩ要素に接続が行われたときに、他のより低い確率の要素がそれぞれの位置または座標で接続されるように層化され得る。

図１１は、本発明の実施形態による、階層化されたターゲットＵＩ要素の識別およびＲＰＡロボットアクティビティの実行のためのプロセス１１００を説明するフローチャートである。プロセスは、１１１０でターゲットＵＩ要素のセレクタを検索することから始まる。これは、いくつかの実施形態では、スクリーンスクレイピングおよび／またはネイティブＯＳの機能を使用することによって達成され得る。ＵＩ要素に対するセレクタが少なくとも一致強度しきい値１１２０で見つかった場合、ＵＩ要素に対するアクティビティ動作は、ターゲットセレクタを用いて１１３０で実行される。これは、ボタンをクリックすること、テキストフィールドに情報を入力すること、メニュー操作を選択することなどを含んでもよい。特定の実施形態では、複数のＵＩ要素と対話する操作は、単一のアクティビティで実行されてもよく、および／または複数のＵＩ要素と対話するアクティビティは、ＲＰＡワークフロー内のシーケンスで実行されてもよい。

しかし、ターゲットＵＩ要素のセレクタが見つからないか、または１１２０において一致強度しきい値未満の信頼度を有する場合、１１４０においてターゲットＵＩ要素の１または複数の属性についてファジーセレクタのマッチングが試みられる。例えば、１または複数の属性の類似度測定値は、１または複数のそれぞれの類似度しきい値と比較されてもよい。セレクタが少なくとも一致強度しきい値１１５０で見つかった場合、ＵＩ要素に対するアクティビティ動作は、ターゲットセレクタを用いて１１３０で実行される。

しかし、ターゲットＵＩ要素に対するセレクタが見つからないか、または１１５０において一致強度しきい値未満の信頼度を有する場合、セレクタおよびそのアンカー（複数可）のためのファジーマッチング設定に基づいて、１１６０において、セレクタおよび／またはアンカーファジーマッチングが試みられる。例えば、ターゲットＵＩ要素およびアンカー（複数可）のうちの１もしくは複数のファジー属性をファジーマッチングに使用してもよいし、または要素のサブセットがファジーマッチングを受け、一方で別のサブセットが正規マッチングを受けてもよい。幾何学的マッチングは、ターゲットおよびアンカー（複数可）のファジーマッチング結果に基づいて、１１７０で実行される。

また、１１８０でターゲットＵＩ要素のセレクタが見つかった場合には、１１３０でターゲットセレクタを用いてＵＩ要素のアクティビティ動作を行う。しかし、ターゲットＵＩ要素のセレクタが見つからない場合、ＲＰＡロボットは１１９０でエラーを投げる。例えば、この時点で、ユーザーはエラーに対処しようとするか、またはエラーをＲＰＡ開発者に報告して、エラーを分析し、ターゲットおよびアンカー検出ロジックを修正することによってソリューションを見出しようと試み得る。

図１２は、本発明の実施形態による、ＲＰＡのためのアンカーおよび／またはターゲットのためのファジー論理選択のためのプロセス１２００を説明するフローチャートである。プロセスは、１２１０でＲＰＡワークフローの第１アクティビティを実行することから始まる。１２２０でアクティビティにＵＩアクションがなく、１２３０でＲＰＡワークフローにさらに多くのアクティビティが含まれている場合、ロボットは１２４０で次のアクティビティに進む。アクティビティが無くなった場合は、ワークフローの実行が終了し、プロセスが終了する。

アクティビティ１２２０において、ボタンのクリック、テキストフィールドへのテキスト入力、メニュー項目の選択、ウィンドウの開閉、フォームの送信などのＵＩアクションがある場合、ＲＰＡロボットは、１２５０において、マッチング設定を用いてＵＩアクションのターゲットＵＩ要素のターゲットおよびアンカー候補を検出する。例えば、ＲＰＡロボットは、ターゲットＵＩ要素およびそのアンカー（複数可）の属性を決定し、属性がファジーマッチングを採用しているかどうかを判断し得る。そして、ＲＰＡロボットは、これらの特性とファジー設定を利用して、ターゲットおよびアンカー（複数）を検索し得る。

幾何学的マッチングは、特定の幾何学的制約（例えば、角度、セグメントの長さなどの許容差）で一致が存在するかどうかを判断するために、ターゲットおよびアンカー候補において１２６０で実行される。１２７０でファジーマッチング設定および幾何学的マッチングを用いてターゲットが発見された場合、１２８０でターゲットＵＩ要素においてＵＩアクティビティ操作が行われ、プロセスはステップ１２３０に進む。１２７０でターゲットが見つからない場合は、１２９０でエラーが投げられ、プロセスは終了する。

図１３は、本発明の実施形態による、ターゲットＵＩ要素を検索するための１または複数以上の検索方法を構成するためのプロセス１３００を説明するフローチャートである。プロセスは、１３１０で設計時に自動化を実行するアプリケーションのＵＩまたはライブアプリケーションのＵＩの一部または全部の画像の中のターゲットＵＩ要素をＲＰＡデザイナアプリケーションが指定することから始まる。この指定は、例えば、ライブアプリケーションＵＩ内のＵＩ要素のユーザー選択に基づいて実行されてもよいし、ドライバまたはＣＶを介してＵＩ要素が認識されたアプリケーションＵＩのスクリーンショットに基づいて実行されてもよい。

次に、１または複数の検索アルゴリズムの選択は、１３２０でＲＰＡデザイナアプリケーションにより設計時に受信される。これは、ユーザーが適切なアンカー（複数可）、タグ属性、精度レベル、採用する検索方法の選択などを選択して構成することを含んでもよい。１または複数の検索アルゴリズムは、セレクタ検索、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング（例えば、タグ内の文字列またはＯＣＲ結果に基づく）、ＣＶマッチング（例えば、ＣＶを使用して識別されたＵＩ要素を検索する）、またはそれらの組み合わせを含んでもよい。いくつかの実施形態では、１または複数の検索アルゴリズムは、アプリケーションのＵＩのＵＩツリーを解析して、ターゲットＵＩ要素の１もしくは複数の属性、１もしくは複数のアンカー、１もしくは複数のタグ、またはそれらの組み合わせを識別することを含む。特定の実施形態では、ＵＩツリー内の全てのタグが１つの分析で発見される。

いくつかの実施形態では、１または複数の選択された検索方法がテキストマッチングを含む場合、テキストマッチングは、ターゲットＵＩ要素に対する候補のテキストの完全一致を必要とする。特定の実施形態では、１または複数の選択された検索手段がテキストマッチングを含む場合、ターゲットＵＩ要素に関連付けられた画像の一致は、画像マッチングが一致を見つけるために必須である。いくつかの実施形態では、１または複数の選択された検索方法がファジーセレクタマッチングを含む場合、ファジーセレクタマッチングは、画像マッチングを実行することを含む。

次に、ＲＰＡデザイナアプリケーションは、１３３０で設計時に選択された検索アルゴリズム（複数可）を実行するように、それぞれのＲＰＡワークフローアクティビティを構成する。これにより、アクティビティを含むプロセスを実装するＲＰＡロボットが、ターゲット要素を見つけ、アクティビティ内で所望のアクション（複数可）（例えば、ボタンをクリックする、フィールドにテキストを入力する、ウィンドウを閉じるなど）を実行することが可能になり得る。いくつかの実施形態では、ＲＰＡワークフローアクティビティの構成は、１もしくは複数のアンカー、１もしくは複数のタグ属性、１もしくは複数の精度レベル、またはそれらの組み合わせを構成することを含む。特定の実施形態では、アクティビティ内の１または複数の選択された検索アルゴリズムは、順番に実行されるように構成され、現在実行中の検索アルゴリズムがターゲットＵＩ要素を見つけたときに実行が停止される。

図１４は、本発明の実施形態による、ターゲットＵＩ要素を検索し、ＲＰＡワークフローのアクティビティを実装するためのプロセス１４００を示すフローチャートである。いくつかの実施形態では、図１３および図１４のプロセスは１つの集合的プロセスであり、図１４は図１３から続く。実行時１４１０において、ターゲットＵＩ要素を特定するために、ターゲットＵＩ要素に対するセレクタ検索が実行される。これは、例えば、ＲＰＡワークフロー内で検索アルゴリズム（複数可）を呼び出すアクティビティを実装したＲＰＡロボットによって実行され得る。

図１４において、いくつかの実施形態では、設計時に指定され得る２つのアクティビティ構成、ＡおよびＢがある。アクティビティ構成Ａが選択される場合、１４２０Ａにおいて、セレクタ検索に加えて１または複数の他の検索アルゴリズム（例えば、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、ＣＶマッチング、またはそれらの組み合わせ）も実行される。最良の結果が１４３０Ａで選択されてターゲットＵＩ要素が識別され、１４４０でそのアクティビティに基づいて、識別されたターゲットＵＩ要素との対話が実行される。

アクティビティ構成Ｂが選択された場合、セレクタ検索からターゲットＵＩ要素が１４２０Ｂで見つかった場合、アクティビティに基づいて、特定されたターゲットＵＩ要素との対話が１４４０で実行される。しかし、ターゲットＵＩ要素が見つからない場合には、ターゲットＵＩ要素に対してファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、ならびにＣＶマッチングのうち少なくとも１つを１４３０Ｂで実行して、ターゲットＵＩ要素を識別する。その後、処理はステップ１４４０に進み、ターゲットＵＩ要素との対話を実行する。

いくつかの実施形態では、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、およびＣＶマッチングのうちの２つ以上が実行され、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、およびＣＶマッチングのうちの２つ以上の実行は、アクティビティの順序に基づいて実行される。特定の実施形態では、ファジーターゲットおよびアンカーの検索はＲＰＡロボットによって行われ、ファジーターゲットおよびアンカー検索は、ファジーマッチングを使用してターゲットおよび少なくとも１つのアンカーを決定し、ファジーマッチングを使用して決定されたターゲットおよび少なくとも１つのアンカーに対して幾何学的マッチングを行うことを含む。いくつかの実施形態では、ファジーターゲットおよびアンカーの検索は、ドライバを呼び出すことを含み、単一のドライバコールがターゲットおよび少なくとも１つのアンカーに対して行われ、ドライバは、ＵＩに関連付けられたアプリケーションのためのＵＩツリーの単一のトラバーサルにおいて、ターゲットおよび少なくとも１つのアンカーのための全ての候補を取得する。

図７および１１－１４で実行されるプロセスステップは、本発明の実施形態に従って、図７および１１－１４で説明したプロセス（複数可）の少なくとも一部を実行するようにプロセッサ（複数可）への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に具現化されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュ装置、ＲＡＭ、テープ、および／またはデータを格納するために使用される他のいずれかのそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、図７および１１－１４に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム（例えば、図５のコンピューティングシステム５００のプロセッサ（複数可）５１０）のプロセッサ（複数可）を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。

コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに操作可能な通信を行うモジュールで構成され得、情報または命令をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ＡＳＩＣ、またはいずれかの他の好適な装置で動作するように構成され得る。

本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。

本明細書を通して記載された本発明の特色、構造、または特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも１つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、１または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。

本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態にあることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも１つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。

さらに、本発明の記載された特色、利点、および特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術の当業者は、本発明が、１または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の例では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれない特定の実施形態では認識され得る。

本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および／または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。

Claims

ロボティックプロセスオートメーション（ＲＰＡ）デザイナアプリケーションによって、設計時に自動化が行われるべきアプリケーションのＵＩまたはライブアプリケーションのＵＩの一部もしくは全部の画像内のターゲットユーザーインターフェース（ＵＩ）要素を指定し、
設計時に、前記ＲＰＡデザイナアプリケーションによって、１または複数の検索アルゴリズムの選択を受信し、
設計時に、前記ＲＰＡデザイナアプリケーションによって、前記選択された１または複数の検索アルゴリズムを実行するようにＲＰＡワークフローのアクティビティを構成することを含む、コンピュータ実装方法。
前記１または複数の検索アルゴリズムは、セレクタ検索、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、コンピュータビジョン（ＣＶ）マッチング、またはそれらの組み合わせを含む、請求項１に記載のコンピュータ実装方法。
前記１または複数の検索アルゴリズムは、前記アプリケーションの前記ＵＩのＵＩツリーを解析して、前記ターゲットＵＩ要素の１もしくは複数の属性、１もしくは複数のアンカー、１もしくは複数のタグ、またはそれらの組み合わせを識別することを含む、請求項２に記載のコンピュータ実装方法。
前記ＵＩツリー内の全てのタグは、１回の解析で発見される、請求項３に記載のコンピュータ実装方法。
前記１または複数の選択された検索アルゴリズムは、テキストマッチングを含み、
前記テキストマッチングは、前記ターゲットＵＩ要素の候補のテキストを完全に一致させる必要がある、請求項２に記載のコンピュータ実装方法。
前記１または複数の選択された検索アルゴリズムは、画像マッチングを含み、
前記ターゲットＵＩ要素に関連付けられた画像の一致は、一致を見つけるために前記画像マッチングにとって必須である、請求項２に記載のコンピュータ実装方法。
前記１または複数の選択された検索アルゴリズムは、ファジーセレクタマッチングを含み、
前記ファジーセレクタマッチングは、画像マッチングの実行を含む、請求項２に記載のコンピュータ実装方法。
前記ＲＰＡワークフローアクティビティの前記構成は、１もしくは複数のアンカー、１もしくは複数のタグ属性、１もしくは複数の精度レベル、またはそれらの組み合わせを構成することを含む、請求項１に記載のコンピュータ実装方法。
前記アクティビティで選択された前記１または複数の選択された検索アルゴリズムは、順番に実行されるように構成され、
現在実行中の検索アルゴリズムが前記ターゲットＵＩ要素を見つけると、実行が停止する、請求項１に記載のコンピュータ実装方法。
前記ＲＰＡワークフローを実装したＲＰＡロボットによって、実行時に前記ターゲットＵＩ要素に対してセレクタ検索を実行して、前記ターゲットＵＩ要素を識別し、
前記ターゲットＵＩ要素が見つからない場合、前記ＲＰＡロボットによって、前記ターゲットＵＩ要素を特定するために、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、コンピュータビジョン（ＣＶ）マッチング、またはそれらの組み合わせを実行し、
前記構成されたアクティビティに基づいて、前記ＲＰＡロボットによって前記識別されたターゲットＵＩ要素との対話を実行することをさらに含む、請求項１に記載のコンピュータ実装方法。
前記ファジーセレクタ検索、前記ターゲットおよびアンカー検索、前記ファジーターゲットおよびアンカー検索、前記画像マッチング、前記テキストマッチング、ならびに前記コンピュータビジョン（ＣＶ）マッチングのうちの２つ以上を実行し、
前記ファジーセレクタ検索、前記ターゲットおよびアンカー検索、前記ファジーターゲットおよびアンカー検索、前記画像マッチング、前記テキストマッチング、ならびに前記ＣＶマッチングのうちの２つ以上の実行は、前記構成されたアクティビティにおいて、順序に基づいて実行される、請求項１０に記載のコンピュータ実装方法。
前記ＲＰＡロボットによってファジーターゲットおよびアンカーの検索が行われ、
前記ファジーターゲットおよびアンカー検索は、ファジーマッチングを使用して前記ターゲットおよび少なくとも１つのアンカーを決定し、前記ファジーマッチングを使用して決定された前記ターゲットおよび前記少なくとも１つのアンカーに対して幾何学的マッチングを行うことを含む、請求項１０に記載のコンピュータ実装方法。
前記ファジーターゲットおよびアンカー検索は、ドライバを呼び出すことを含み、
前記ターゲットおよび前記少なくとも１つのアンカーに対して単一のドライバコールが行われ、
前記ドライバは、前記ＵＩに関連付けられた前記アプリケーションのためのＵＩツリーの単一のトラバーサルで前記ターゲットおよび前記少なくとも１つのアンカーの全ての候補を取得する、請求項１２に記載のコンピュータ実装方法。
前記ＲＰＡワークフローを実装するように構成されたＲＰＡロボットによって、実行時に、前記ターゲットＵＩ要素のための、セレクタ検索と、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、ならびにコンピュータビジョン（ＣＶ）マッチングのうちの少なくとも１つとを実行し、
前記ＲＰＡロボットによって、検証スコアに基づいて、前記セレクタ検索と、前記ファジーセレクタ検索、前記ターゲットおよびアンカー検索、前記ファジーターゲットおよびアンカー検索、前記画像マッチング、前記キストマッチング、ならびに前記ＣＶマッチングのうちの少なくとも１つとから最適な結果を選択して、前記ターゲットＵＩ要素を識別し、
前記構成されたアクティビティに基づいて、前記ＲＰＡロボットによって前記識別されたターゲットＵＩ要素との対話を実行することをさらに含む、請求項１に記載のコンピュータ実装方法。
ロボティックプロセスオートメーション（ＲＰＡ）ワークフローのアクティビティに関連付けられたターゲットユーザーインターフェース（ＵＩ）要素を識別するためのコンピュータ実装方法であって、
前記ＲＰＡワークフローを実装したＲＰＡロボットによって、実行時に前記ターゲットＵＩ要素に対してセレクタ検索を実行して、前記ターゲットＵＩ要素を識別し、
前記ターゲットＵＩ要素が見つからない場合、前記ＲＰＡロボットによって、前記ターゲットＵＩ要素を特定するために、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、コンピュータビジョン（ＣＶ）マッチング、またはそれらの組み合わせを実行し、
前記ＲＰＡワークフローのアクティビティに基づいて、前記ＲＰＡロボットによって前記識別されたターゲットＵＩ要素との対話を実行することを含む、コンピュータ実装方法。
前記ファジーセレクタ検索、前記ターゲットおよびアンカー検索、前記ファジーターゲットおよびアンカー検索、前記画像マッチング、前記テキストマッチング、ならびに前記ＣＶマッチングのうちの２つ以上を実行し、
前記ファジーセレクタ検索、前記ターゲットおよびアンカー検索、前記ファジーターゲットおよびアンカー検索、前記画像マッチング、前記テキストマッチング、ならびに前記ＣＶマッチングのうちの２つ以上の実行は、前記ＲＰＡワークフローのアクティビティにおいて、順序に基づいて実行される、請求項１５に記載のコンピュータ実装方法。
前記ＲＰＡロボットによってファジーターゲットおよびアンカーの検索が行われ、
前記ファジーターゲットおよびアンカー検索は、ファジーマッチングを使用して前記ターゲットおよび少なくとも１つのアンカーを決定し、前記ファジーマッチングを使用して決定された前記ターゲットおよび前記少なくとも１つのアンカーに対して幾何学的マッチングを行うことを含む、請求項１５に記載のコンピュータ実装方法。
前記ファジーターゲットおよびアンカー検索は、ドライバを呼び出すことを含み、
前記ターゲットおよび前記少なくとも１つのアンカーに対して単一のドライバコールが行われ、
前記ドライバは、前記ＵＩに関連付けられたアプリケーションのためのＵＩツリーの単一のトラバーサルで前記ターゲットおよび前記少なくとも１つのアンカーの全ての候補を取得する、請求項１７に記載のコンピュータ実装方法。
ロボティックプロセスオートメーション（ＲＰＡ）ワークフローのアクティビティに関連付けられたターゲットユーザーインターフェース（ＵＩ）要素を識別するためのコンピュータ実装方法であって、
前記ＲＰＡワークフローを実装するように構成されたＲＰＡロボットによって、実行時に、前記ターゲットＵＩ要素のための、セレクタ検索と、ファジーセレクタ検索、ターゲットおよびアンカー検索、ファジーターゲットおよびアンカー検索、画像マッチング、テキストマッチング、ならびにコンピュータビジョン（ＣＶ）マッチングのうちの少なくとも１つとを実行し、
前記ＲＰＡロボットによって、検証スコアに基づいて、前記セレクタ検索と、前記ファジーセレクタ検索、前記ターゲットおよびアンカー検索、前記ファジーターゲットおよびアンカー検索、前記画像マッチング、前記キストマッチング、ならびに前記ＣＶマッチングのうちの少なくとも１つとから最適な結果を選択して、前記ターゲットＵＩ要素を識別し、
前記ＲＰＡワークフローのアクティビティに基づいて、前記ＲＰＡロボットによって前記識別されたターゲットＵＩ要素との対話を実行することを含む、コンピュータ実装方法。
前記ＲＰＡロボットによってファジーターゲットおよびアンカーの検索が行われ、
前記ファジーターゲットおよびアンカー検索は、ファジーマッチングを使用して前記ターゲットおよび少なくとも１つのアンカーを決定し、前記ファジーマッチングを使用して決定された前記ターゲットおよび前記少なくとも１つのアンカーに対して幾何学的マッチングを行うことを含む、請求項１９に記載のコンピュータ実装方法。