JP2022109927A

JP2022109927A - マルチアンカーを用いたユーザインターフェース（ｕｉ）の抽出、認識および機械学習

Info

Publication number: JP2022109927A
Application number: JP2022066133A
Authority: JP
Inventors: コスミン，ヴォイク; Voicu Cosmin
Original assignee: UiPath Inc
Current assignee: UiPath Inc
Priority date: 2019-07-19
Filing date: 2022-04-13
Publication date: 2022-07-28
Also published as: US11983379B2; EP3767449A1; US20210182089A1; CN114661400A; US10936351B2; JP7104107B2; CN112241302B; US11487563B2; KR102356950B1; EP3767449B1; CN112241302A; CN114661400B; US20230051443A1; KR20220013450A; KR20210010833A; JP2021018820A; US20210019157A1

Abstract

【課題】ワークフローの生成又はロボットプロセスオートメーション（ＲＰＡ）のランタイム時のエラーを軽減するコンピューティング装置及び方法を提供する。【解決手段】ユーザインターフェース（ＵＩ）内のウィンドウ又はアプリケーション３０２上の複数のアンカー３１２、３１４は、ＲＰＡ３００に利用される。複数のアンカーは、ＲＰＡのためのＵＩのキャプチャ画像内の要素間の関係を決定するために利用される。アンカリングの結果は、機械学習（ＭＬ）コンポーネントのトレーニング又は再トレーニングに利用される。【選択図】図３

Description

ロボティック・プロセス・オートメーション（ＲＰＡ）は、エンタープライズプラットフォーム、仮想マシン（ＶＭ）構成、リモートデスクトップ、クラウドコンピューティング、デスクトップ・アプリケーションなどの反復的な操作、機能、またはワークフローを自動化し得る。自動化、アンカーまたは基準点のためのユーザインターフェース（ＵＩ）のキャプチャ、抽出、スクレイピングまたは実行は、ＵＩの画像のターゲット領域内の１または複数の要素を識別するために、コンピュータビジョン（ＣＶ）またはマシンビジョン（ＭＶ）で利用され得る。しかし、単一のアンカーまたは基準点を利用する構成は、望ましくない重複、エラー、偽陽性、欠落した要素などの影響を受けやすい可能性がある。

ＲＰＡデザインまたはワークフローの実行では、ＤＰＩ（ドットパーインチ）、サイジング、スケーリング、ビデオフレームレート、シェーディングなどに基づくエラーが発生し得る。これらのエラーは、仮想マシンまたはリモートマシンの構成でより顕著になる可能性がある。また、ＣＶを使用したＲＰＡでは、ＵＩ内のボタンの形状やチェックボックスがエラーになり得る。改良されたアンカリングを使用して、ワークフローの生成またはＲＰＡのランタイム時のエラーを軽減することが望ましい。

１または複数のワークフローのロボットプロセスオートメーション（ＲＰＡ）のためのユーザインターフェース（ＵＩ）にマルチアンカリングを利用するための方法および装置が開示されている。ロボットの開発中またはランタイム中のＵＩ上のマルチアンカリング解析は、自動化のための１または複数のワークフローのために、抽出されたまたはスクレイプされた画像上の要素検出またはトレーニングのために利用され得る。また、マルチアンカリング解析は、デスクトップ・アプリケーション、Ｗｅｂアプリケーション、および仮想マシンまたはリモートマシンの構成のためのＵＩ上で構成され、エラーを減らし、パフォーマンスを向上させ得る。

より詳細な理解は、図中の類似の参照数字が類似の要素を示す、添付の図面との関連で例示的に与えられた以下の説明から得られ得る。

ロボットプロセスオートメーション（ＲＰＡ）の開発、設計、運用、または実行の説明図である。

ＲＰＡの開発、設計、運用、または実行の別の説明図である。

コンピューティングシステムまたは環境の説明図である。

ＲＰＡのフィードバックループを利用した再トレーニングの説明図である。

ＲＰＡのユーザインターフェース（ＵＩ）のマルチアンカリングの説明図である。

ＲＰＡ用のＵＩのマルチアンカリングの別の説明図である。

ＲＰＡ用ＵＩのマルチアンカリングを利用した処理の説明図である。

以下に記載されている方法およびプロセスでは、記載されているステップは任意の順序で実行され、明示的に記載または表示されていないサブステップが実行され得る。また、「結合されている」または「操作的に結合されている」とは、オブジェクトが連結されていることを意味してもよいが、連結されているオブジェクトの間にゼロまたはそれ以上の中間オブジェクトを有してもよい。また、開示された特徴／要素の任意の組み合わせが、１または複数の実施形態で使用されてもよい。「ＡまたはＢ」を参照して使用する場合は、Ａ、Ｂ、またはＡおよびＢを含む場合があり、より長いリストと同様に拡張され得る。表記Ｘ／Ｙを使用する場合、ＸまたはＹを含み得る。あるいは、表記Ｘ／Ｙを使用する場合、ＸおよびＹを含み得る。Ｘ／Ｙ表記は、同じ説明されたロジックを有するより長いリストと同様に拡張され得る。

図１Ａは、ロボットプロセスオートメーション（ＲＰＡ）の開発、設計、運用、または実行１００の説明図である。デザイナー１０２は、スタジオ、開発プラットフォーム、開発環境などとして時々参照され、ロボットが１または複数のワークフローを実行または自動化するためのコード、命令、コマンドなどを生成するように構成され得る。コンピューティングシステムがロボットに提供し得る選択（複数可）から、ロボットは、ユーザまたはオペレータによって選択されたビジュアルディスプレイの領域（複数可）の代表的なデータを決定し得る。ＲＰＡの一環として、コンピュータビジョン（ＣＶ）操作または機械学習（ＭＬ）モデルに関連して、四角、直方体、円、多角形、自由形などの多次元の形状をＵＩロボットの開発およびランタイムに利用され得る。

ワークフローによって達成され得る操作の非限定的な例としては、１または複数のログインの実行、フォームへの入力、情報技術（ＩＴ）管理などが挙げられる。ＵＩ自動化のためのワークフローを実行するために、ロボットは、アプリケーションのアクセスまたはアプリケーションの開発に関係なく、ボタン、チェックボックス、テキストフィールド、ラベルなどの特定の画面要素を一意に識別する必要があり得る。アプリケーションアクセスの例としては、ローカル、仮想、リモート、クラウド、Ｃｉｔｒｉｘ（登録商標）、ＶＭＷａｒｅ（登録商標）、ＶＮＣ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）リモートデスクトップ、仮想デスクトップインフラストラクチャ（ＶＤＩ）などがあり得る。アプリケーション開発の例としては、ｗｉｎ３２、Ｊａｖａ、Ｆｌａｓｈ、ハイパーテキストマークアップ言語（（ＨＴＭＬ）、ＨＴＭＬ５、拡張可能なマークアップ言語（ＸＭＬ）、Ｊａｖａｓｃｒｉｐｔ、Ｃ＃、Ｃ＋＋、Ｓｉｌｖｅｒｌｉｇｈｔなどであり得る。

ワークフローには、タスクシーケンス、フローチャート、有限状態マシン（ＦＳＭ）、グローバル例外ハンドラなどが含まれ得るが、これらに限定されない。タスクシーケンスは、１または複数のアプリケーションまたはウィンドウ間の線形タスクを処理するための線形プロセスであり得る。フローチャートは、複雑なビジネスロジックを扱うように構成され得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフロー用に構成され得る。ＦＳＭは、条件、遷移、アクティビティなどによってトリガされ得る有限数の状態を実行中に使用し得る。グローバル例外ハンドラは、プロセスのデバッグプロセスのために、実行エラーが発生したときのワークフローの動作を判断するように構成され得る。

ロボットは、アプリケーション、アプレット、スクリプトなどであり得、基盤となるオペレーティングシステム（ＯＳ）またはハードウェアから透過的なＵＩを自動化し得る。展開時には、１または複数のロボットは、コンダクター１０４（オーケストレータと呼ばれることもある）によって管理、制御などされ得る。コンダクター１０４は、メインフレーム、ウェブ、仮想マシン、リモートマシン、仮想デスクトップ、エンタープライズプラットフォーム、デスクトップアプリ（複数可）、ブラウザ、またはそのようなクライアント、アプリケーション、もしくはプログラムにおいてワークフローを実行または監視するようにロボットまたは自動化実行装置１０６に指示または命令し得る。コンダクター１０４は、コンピューティングプラットフォームを自動化するために複数のロボットを指示または命令するための中央または半中央点として機能し得る。

特定の構成では、コンダクター１０４は、プロビジョニング、デプロイメント、構成、キューイング、監視、ロギング、および／または相互接続性を提供するように構成され得る。プロビジョニングは、ロボット（複数可）または自動化コンダクター１０６とコンダクター１０４との間の接続または通信の作製および維持を含み得る。デプロイメントは、実行のために割り当てられたロボットへのパッケージバージョンの配信を保証することを含み得る。構成は、ロボット環境およびプロセス構成のメンテナンスおよび配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの識別データを追跡し、ユーザの権限を維持することを含み得る。ロギングは、データベース（例えば、ＳＱＬデータベース）および／または別のストレージメカニズム（例えば、大規模なデータセットを保存し、迅速にクエリを実行する機能を提供するＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）へのログの保存およびインデックス作成を含み得る。コンダクター１０４は、サードパーティのソリューションおよび／またはアプリケーションのための通信の集中点として機能することにより、相互接続性を提供し得る。

ロボット（複数可）または自動化実行装置１０６は、無人１０８または有人１１０として構成され得る。無人１０８操作の場合、自動化は、サードパーティの入力または制御なしで実行され得る。有人１１０操作については、サードパーティのコンポーネントからの入力、指令、指示、指導などを受けて自動化が行われ得る。

ロボット（複数可）または自動化実行装置１０６は、デザイナー１０２内に構築されたワークフローを実行する実行エージェントであり得る。ＵＩまたはソフトウェアの自動化のためのロボット（複数可）の商業的な例としては、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）がある。いくつかの実施形態では、ロボット（複数可）または自動化実行装置１０６は、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｉｃｅＣｏｎｔｒｏｌＭａｎａｇｅｒ（ＳＣＭ）管理サービスをデフォルトでインストールし得る。その結果、そのようなロボットは、ローカルシステムアカウントの下でインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開くことができ、Ｗｉｎｄｏｗｓ（登録商標）サービスの権利を持ち得る。

いくつかの実施形態では、ロボット（複数可）または自動化実行装置１０６は、ユーザモードでインストールされ得る。これらのロボットは、所定のロボットが設置されているユーザと同じ権利を持ち得る。また、高密度（ＨＤ）環境など、各機械を最大限に活用するＨＤロボットにも対応し得る。

特定の実施形態では、ロボット（複数可）または自動化実行装置１０６は、それぞれが特定の自動化タスクまたはアクティビティに特化したいくつかのコンポーネントに分割、分散などされ得る。ロボットコンポーネントには、ＳＣＭ管理ロボットサービス、ユーザモードロボットサービス、実行装置、エージェント、コマンドラインなどが含まれ得る。ＳＣＭ管理ロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理または監視し、コンダクター１０４と実行ホスト（すなわち、ロボットまたは自動化実行装置１０６が実行されるコンピューティングシステム）との間のプロキシとして機能し得る。これらのサービスは、ロボット（複数可）または自動化実行装置１０６のための資格情報を信頼して管理し得る。

ユーザモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクター１０４と実行ホストとの間のプロキシとして機能し得る。ユーザモードのロボットサービスは、ロボット１３０の資格情報を信頼して管理し得る。ＳＣＭ管理ロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動され得る。

実行装置は、Ｗｉｎｄｏｗｓ（登録商標）セッションの下で与えられたジョブを実行し得る（つまり、ワークフローを実行し得る）。実行装置は、モニタ毎のドットパーインチ（ＤＰＩ）設定を意識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであり得る。エージェントはサービスのクライアントとなり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントであり得る。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。

上で説明したように、ロボットまたは自動化実行装置１０６のコンポーネントが分割される構成では、開発者、サポートユーザ、およびコンピューティングシステムが、各コンポーネントによる実行、識別、および追跡をより容易に実行するのに役立つ。この方法では、実行装置とサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な動作を設定し得る。実行装置は、いくつかの実施形態では、モニタごとのＤＰＩ設定を認識し得る。その結果、ワークフローは、作成されたコンピューティングシステムの構成に関係なく、任意のＤＰＩで実行し得る。また、デザイナー１０２からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。ＤＰＩを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではＤＰＩを無効にし得る。

図１Ｂは、ＲＰＡの開発、設計、運用、または実行１２０の別の説明図である。スタジオコンポーネントまたはモジュール１２２は、ロボットが１または複数のアクティビティ１２４を実行するためのコード、命令、コマンドなどを生成するように構成され得る。ユーザインターフェース（ＵＩ）自動化１２６は、１または複数のドライバコンポーネント１２８を使用して、クライアント上のロボットによって実行され得る。ロボットは、コンピュータビジョン（ＣＶ）アクティビティモジュールまたはエンジン１３０を使用してアクティビティを行い得る。他のドライバ１３２は、ＵＩの要素を得るためにロボットによるＵＩ自動化のために利用され得る。それらには、ＯＳドライバ、ブラウザドライバ、仮想マシンドライバ、エンタープライズドライバなどが含まれ得る。特定の構成では、ＣＶアクティビティモジュールまたはエンジン１３０は、ＵＩ自動化のために使用されるドライバであり得る。

図１Ｃは、情報またはデータを通信するためのバス１４２または他の通信機構と、処理のためにバス１４２に結合された１または複数のプロセッサ１４４とを含むことができるコンピューティングシステムまたは環境１４０の説明図である。１または複数のプロセッサ１４４は、中央処理装置（ＣＰＵ）、特定用途集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックス処理装置（ＧＰＵ）、コントローラ、マルチコア処理装置、３次元プロセッサ、量子コンピューティング装置、またはそれらの任意の組み合わせを含む、任意のタイプの一般的または特定用途プロセッサであり得る。１または複数のプロセッサ１４４はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。また、マルチパラレル処理が構成され得る。さらに、少なくとも１または複数のプロセッサ１４４は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。

メモリ１４６は、プロセッサ（複数可）１４４によって実行または処理される情報、命令、コマンド、またはデータを記憶するように構成され得る。メモリ１４６は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、ソリッドステートメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一過性のコンピュータ可読媒体、あるいはそれらの組み合わせの任意の組み合わせで構成され得る。非一過性のコンピュータ可読媒体は、プロセッサ（複数可）１４４によってアクセス可能な任意の媒体であってもよく、揮発性媒体、不揮発性媒体などを含み得る。また、媒体は、取り外し可能なものであってもよいし、取り外し不可能なものであってもよい。

通信装置１４８は、周波数分割多重アクセス（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多重アクセス（ＴＤＭＡ）、符号分割多重アクセス（ＣＤＭＡ）、直交周波数分割多重アクセス（ＯＦＤＭ）、直交周波数分割多重アクセス（ＯＦＤＭＡ）、ＧＳＭ（ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅ）通信、ＧＰＲＳ（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）、ＵＭＴＳ（ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ）、高速下りパケットアクセス（ＨＳＤＰＡ）、高速上りパケットアクセス（ＨＳＵＰＡ）、高速パケットアクセス（ＨＳＰＡ）、長期進化（ＬＴＥ）、ＬＴＥＡｄｖａｎｃｅｄ（ＬＴＥ－Ａ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、Ｚｉｇｂｅｅ、Ｕｌｔｒａ－ＷｉｄｅＢａｎｄ（ＵＷＢ）、８０２．１６ｘ、８０２．１５、ｈｏｍｅＮｏｄｅ－Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、無線周波数識別（ＲＦＩＤ）、赤外線データアソシエーション（ＩｒＤＡ）、近距離無線通信（ＮＦＣ）、第５世代（５Ｇ）、新無線（ＮＲ）、または１もしくは複数のアンテナを介した通信のための他の任意の無線または有線装置／トランシーバとして構成され得る。
アンテナは、単数形、アレイ型、フェーズド型、スイッチ型、ビームフォーミング型、ビームステア型などであり得る。

１または複数のプロセッサ１４４は、バス１４２を介して、プラズマ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）、フィールドエミッションディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）、フレキシブルＯＬＥＤ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細（ＨＤ）ディスプレイ、Ｒｅｔｉｎａ（著作権）ディスプレイ、面内スイッチング（ＩＰＳ）またはそのようなベースのディスプレイなどのディスプレイ装置１５０にさらに結合され得る。ディスプレイ装置１５０は、入力／出力（Ｉ／Ｏ）のために、当業者に理解されるように、抵抗性、静電容量性、表面音響波（ＳＡＷ）静電容量性、赤外線、光学イメージング、分散信号技術、音響パルス認識、フラストレート全内部反射などを使用して、タッチ、３次元（３Ｄ）タッチ、マルチ入力タッチ、またはマルチタッチディスプレイとして構成され得る。

キーボード１５２およびコンピュータマウス、タッチパッドなどの制御装置１５４は、コンピューティングシステムまたは環境１４０への入力のためにバス１４２にさらに結合され得る。さらに、入力は、それと通信している別のコンピューティングシステムを介してリモートでコンピューティングシステムまたは環境１４０に提供されてもよいし、コンピューティングシステムまたは環境１４０が自律的に動作してもよい。

メモリ１４６は、１または複数のプロセッサ１４４によって実行または処理されたときに機能を提供するソフトウェアコンポーネント、モジュール、エンジンなどを格納してもよい。これは、コンピューティングシステムまたは環境１４０のためのＯＳ１５６を含み得る。モジュールは、アプリケーション固有のプロセスまたはその派生物を実行するためのカスタムモジュール１５８をさらに含み得る。コンピューティングシステムまたは環境１４０は、付加的な機能を含む１または複数の付加的な機能モジュール１６０を含み得る。

コンピューティングシステムまたは環境１４０は、サーバ、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティング装置、量子コンピューティング装置、クラウドコンピューティング装置、モバイル装置、固定型モバイル装置、スマートディスプレイ、ウェアラブルコンピュータなどとして実行するように適合または構成され得る。

本明細書に記載された例では、モジュールは、カスタムの非常に大規模な集積（ＶＬＳＩ）回路またはゲートアレイ、ロジックチップ、トランジスタ、または他のディスクリート構成要素のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジック装置、グラフィックス処理ユニットなどのプログラマブルハードウェア装置に実装され得る。

モジュールは、様々なタイプのプロセッサによって実行されるためのソフトウェアに少なくとも部分的に実装され得る。識別された実行可能コードの単位は、例えば、オブジェクト、プロシージャ、ルーチン、サブルーチン、または関数として編成されていてもよいコンピュータ命令の１または複数の物理的または論理的なブロックを含み得る。識別されたモジュールの実行ファイルは、論理的に結合されるとモジュールを構成するように、異なる場所に共に配置されたり、格納されたりする。

実行可能なコードのモジュールは、単一の命令、１または複数のデータ構造、１または複数のデータセット、複数の命令などであり、複数の異なるコードセグメント、異なるプログラム間、複数のメモリ装置間などに分散され得る。操作データまたは機能データは、モジュール内で識別され、ここで示されてもよく、任意の適切なタイプのデータ構造内で適切な形態で具現化され、組織化され得る。

本明細書で与えられた例では、コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッドな実施形態で構成され得る。コンピュータプログラムは、互いに操作可能な通信を行い、情報または指示を渡すためのモジュールで構成され得る。

図２は、ＲＰＡのフィードバックループを利用した再トレーニングの説明図である。ＣＶモジュール、エンジン、またはコンポーネント２０２、および光学的文字認識（ＯＣＲ）モジュールまたはエンジン２０４は、対応する座標およびタイプ情報とともに、キャプチャ画像内に見出された要素、ボタン、チェックボックスをロボット２０６から受信し得る。キャプチャ画像は、自動化のために開発中、ランタイム中などに作成されたクライアント上のＵＩのターゲットとなるビジュアル部分およびテキスト部分のスクリーンショットであり得る。画像は、ウィンドウ、文書、報告書、領収書、請求書、アプリケーションなどの一部または一部分であり得る。画像は、構造化されたデータまたは構造化されていないデータのいずれかを含み得る。ＵＩの画像は、自動化されるアプリケーションのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を含み得る。

ロボット２０６は、ＣＶモジュール、エンジン、またはコンポーネント２０２に対するＵＩの画像中のターゲットまたは要素の２つ以上のアンカーポイント、参照ポイントなどを特定し得る。特定の構成では、第１アンカーが自動的に選択されてもよく、ターゲット領域内の要素が一意でない場合には、１または複数の追加の識別アンカーに対してユーザ入力が要求され得る。一例として、２つ以上のアンカーポイントは、エディットボックスおよびチェックボックスの関係を決定するのに役立ち得る。特定の構成では、関係は、ＣＶモジュール、エンジン、またはコンポーネント２０２が、チェックボックスを編集ボックスまたはラジオボタンと誤認し、ＭＬモデルにおける要素サイズまたはフォーマットのためなどに誤ってそれを廃棄することを防止し得る。

ロボット２０６はまた、キャプチャＵＩ画像またはスクリーンの関係を決定するための支援のために、当業者によって理解されるように、テキストまたはテキストフィールドを検出するために、ターゲット領域のキャプチャ画像またはスクリーンショットをＯＣＲモジュールまたはエンジン２０４に送信し得る。テキストフィールドは、１または複数のテキストトークンで構成され得る。テキストトークンは、空白文字、句読点文字、特殊文字などのような、あらかじめ決められた区切り文字のセットの間に見出される１または複数の文字を含み得る。テキストトークンには、番号、日付、電子メールアドレス、統一リソース識別子（ＵＲＩ）、郵便番号などを含め得る。

ＲＰＡ２００のためのＵＩのマルチアンカリングにおいて、ＵＩ画像内の１または複数のアンカーまたは参照点は、要素の識別、可視化、開発、生成、生産、再生、トレーニング、再トレーニングなどのために、幾何学的、場所的、位置的、座標ベースの関連付けまたは関係をペアリングまたは作成するために利用され得る。特定の構成では、マルチアンカリングは、ＵＩの一次キャプチャに対するエラーチェックの追加または二次レイヤーとして、ＲＰＡシステムによって利用され得る。

自動化のためのＵＩのアンカーとして定義されているラベルおよびテキストフィールドは、関係によって接続されていたり、関係を形成したりし得る。例では、テキストフィールドはターゲット、ラベルはアンカーとし得る。例として、第１名前フィールドおよびラベルがあるＵＩ内の要素の左側に関係があり得、ラベルはアンカーされ、第１名前フィールドの上にアンカーされた第２名前フィールドがある。ＲＰＡ開発時には、アクティビティまたはワークフローに必要な１または複数の要素に対してアンカーのセットを定義し得る。特定の構成では、ターゲット要素とともに、要素およびアンカーは、ランタイム時などの自動化のための後続の実行時に同じ要素を識別するために使用され得る論理的なフィンガープリントとして動作し得る。

図３は、ＲＰＡ３００用のＵＩのマルチアンカリングの別の説明図である。例として、ＵＩ内のウィンドウまたはアプリケーション３０２は、フィールド３０４_１～４、ボタン１（３０６）、ボタン２（３０８）、および最小化／最大化／閉鎖コントロール３１０のためのラベル１～４を含み得る。ウィンドウまたはアプリケーション３０２は、ウィンドウまたはアプリケーション３０２の実質的な前方に配向または配置され得る。特定の構成では、ＲＰＡ３００のためのＵＩのマルチアンカリングは、仮想マシン環境、リモートデスクトップなどを表し得る。しかしながら、ＲＰＡ３００のためのＵＩのマルチアンカリングは、当業者によって理解されるように、他のコンピューティング環境またはアプリケーションを表すものであってもよい。例えば、マルチアンカー構成は、ポータブルドキュメントフォーマット（ＰＤＦ）、Ｓｉｌｖｅｒｌｉｇｈｔ、Ｆｌａｓｈなどを含むアクティビティに適用され得る。

アンカーＸ（３１２）は、ボタン２（３０８）の寸法との関係で座標（ｘ、ｙ、幅、高さ）を含み得る。特定の構成では、座標は、ＵＩの領域に保存された要素の画面座標であってもよく、ランタイム時には、ロボット２０６によって自動的にすべての要素間の相対関係が推論されてもよい。さらに、ランタイム時の相対関係の使用は、ＣＶモジュール、エンジン、またはコンポーネント２０２の有無にかかわらず実行され得る。

特定の実施形態では、座標（ｘ、ｙ、幅、および高さ）は、バウンディングボックスを定義し得る。パラメータｘおよびｙは頂点の座標、ｗおよびｈは幅および高さであり得る。ターゲットおよびアンカーの間の関係は、ＵＩまたはアプリケーション領域におけるスケール、ＤＰＩなどの変化または分散に対する許容範囲または閾値の範囲内で弾性的であり得る。イメージマッチングまたはセレクタベースの構成では、ＣＶを使用するロボットは、ワークフローまたはアクティビティを自動化するために開発中に特定された要素を配置するために同一の構造を必要とし得るため、変更または差異は望ましくないし、問題となる可能性がある。自動化開発中にアプリケーションが異なる場合、ロボットまたはワークフローがランタイム時にクラッシュすることがあり得る。

ウィンドウサイズに基づいてコンテンツをリフローするウェブページなど、動的または「流動的」なレイアウトを有するアプリケーションには、弾性が特に望ましい場合がある。弾性は、仮想マシン、リモートマシン、または仮想デスクトップ環境のビデオストリームまたは出力にも有益であり得る。特定の実施形態では、幾何学的アンカーまたは参照座標または角度が非弾性であることが望ましい場合がある。

アンカーＹ（３１４）は、ボタン１（３０６）およびフィールド３０４_４との間の幾何学的角度（θ）関係１を測定することによって、ウィンドウまたはアプリケーション３０２内の要素検出のために利用され得る。アンカーＸ（３１２）およびアンカーＹ（３１４）を介したマルチアンカリングは、ウィンドウまたはアプリケーション３０２内の要素が実質的に異なるか、または自動化開発中のものと異なる場合に、ランタイム時にロボットまたはワークフローのクラッシュを防止し得る。これは、ロボット２０６および／もしくはＣＶモジュール、エンジン、またはコンポーネント２０２による複数のアンカーを使用して、他の画面要素とのその関係、インターフェース内のその位置、関連するテキストラベルなどに基づいて、画面要素を一意に識別するために達成され得る。

アンカーＸ（３１２）は、ボタン２（３０８）およびフィールド３０４₄の間の距離３１６の関係２を決定するために利用され得る。ボタン２（３０８）およびフィールド３０４_４の間の距離３１６は、相対的であっても、絶対的であってもよい。関係１および関係２は、ワークフロー、アクティビティなどのランタイム実行中に、ロボット生成または再生のためのＯＣＲ結果を有するＣＶモジュール、エンジン、またはコンポーネント２０２によって利用され得る。本明細書で説明したように、検出された要素の実質的にすべてまたはサブセットの結果は、エラーを低減し、自動化のための性能を向上させるために、各要素の信頼度をロボット２０６に備えられ得る。

関係１または関係２は、トレーニングまたは再トレーニングのためのＭＬトレーニングモジュール、エンジン、またはコンポーネント２１０によってモデルを更新するために画像データベース２０８を更新するのにも利用され得る。関係１および関係２に加えて、テキストフィールドは、ロボットによる固有の識別のためのエディットボックスとの関係を形成するためのボックスのアンカーまたは参照であり得る。２つの名前ラベルフィールドを有する構成では、１つのテキストボックスに２つのアンカーを使用し得る。

図４は、ＲＰＡ４００用のＵＩのマルチアンカリングの別の説明図である。例として、ＵＩ内のウィンドウまたはアプリケーション４０２は、フィールド４０４_１～４、ボタン１（４０６）およびボタン２（４０８）のラベル１～４を含み得る。アンカーＸ（４１０）は、ボタン２（４０８）の寸法との関係で座標（ｘ、ｙ、幅、高さ）を有し得、ＵＩの縮尺、ＤＰＩなどの変化に対して弾性的であり得る。パラメータｘおよびｙは頂点の座標であり、ｗおよびｈは例えばボタン１（４０６）またはボタン２（４０８）の幅および高さであり得る。特定の実施形態では、本明細書で説明したように、幾何学的アンカーまたは参照座標または角度が弾性または非弾性であることが望ましい場合がある。

アンカーＹ（４１２）およびアンカーＸ（４１０）は、ボタン１（４０６）、フィールド４０４_３およびフィールド４０４_４の間に三角形の関係を形成することにより、ＵＩ内のウィンドウまたはアプリケーション４０２内の要素検出のために利用され得る。三角形の関係は、ボタン１（４０６）、フィールド４０４_３、およびフィールド４０４_４の角度、位置、または距離に基づくジオメトリを決定することによって達成または実行され得る。三角形の関係は、ワークフロー、アクティビティなどのランタイムまたは実行中に、ロボット生成または再生のためのＯＣＲ結果用いて使用されるＣＶモジュール、エンジン、またはコンポーネント２０２によって決定または利用され得る。

図４Ａは、ＲＰＡ４２０用のＵＩのマルチアンカリングの別の説明図である。キャプチャＵＩのデポジットトランザクション４２２を有するアプリケーションにおいて、複数のアンカー４２６_１～４２６_４は、要素４２４_２を識別するための関係４２８を作成するように構成され得る。関係４２８は、複数のアンカー４２６_１～４２６_４に基づいて、形成された要素４２４_２に対する幾何学的形状または計算された距離に基づいて決定され得る。特定の実施形態では、関係４２８は、自動化生産、ランタイム時、実行時などの間に、要素４２４_２を要素４２４_１および４２４_３と区別するために利用され得る。特定の実施形態では、ＣＶモジュール、エンジン、またはコンポーネント２０２が関係４２８を決定する間、アンカーは、クライアントに設定されてもよいし、またはクライアントで利用されてもよい。

マルチアンカリングの他の構成では、三角形の関係について本明細書で説明した分析を使用して、正方形、長方形、任意のＮ辺多角形、または任意の他の所望の形状などの他の形状を使用して関係を形成してもよい。また、各要素間の角度が弾性を有するようにＮ辺多角形を形成し、すべてのアンカーを連結する辺で形成されたＮ辺多角形を縮尺してもよい。特定の構成では、テキストフィールドは、ロボットによる識別のためのエディットボックスとの関係を形成するためのボックスのアンカーまたは参照であり得る。さらに、任意の関係は、ランタイム時または実行時に要素を見つけたり識別したりするために、指紋、印象、テンプレートなどとして機能し得る。

再び図２を参照すると、ＣＶモジュール、エンジン、またはコンポーネント２０２は、アンカーまたは基準点情報、幾何学などを含む返された結果を処理して、検出された要素の実質的にすべてまたはサブセットのデータまたは情報を画像データベース２０８に提供し得る。画像データベース２０８は、サーバ、スタジオコンポーネント、デザインコンポーネントなどによって利用されてもよく、キャプチャ画像または画像（複数可）内の要素のサブセットをラベル付けまたは分類し、それを固有の識別およびモデリング、トレーニング、再トレーニング、ディープラーニング、ニューラルネットワーク操作などのためにＭＬトレーニングモジュール、エンジン、またはコンポーネント２１０に提供する。モデル更新２１２は、重複を減らし、エラーを減らし、偽陽性を減らし、またはＲＰＡ自動化性能を向上させるために、設計またはランタイム動作のための解析のために、ＣＶモジュール、エンジン、またはコンポーネント２０２に提供され得る。

ファジーマッチングまたはロジックは、テキストフィールド、テキストなどのＧｏｏｇｌｅ（商標）クラウドＯＣＲ、Ｍｉｃｒｏｓｏｆｔ（商標）ＯＣＲ、ＴｅｓｓｏｒａｃｔＯＣＲ（商標）などのＯＣＲエンジンによるエラーを補填するために、ＲＰＡ２００のためのマルチアンカリングで利用され得る。画像または画像の一部は、ＯＣＲモジュールまたはエンジン２０４およびＣＶモジュール、エンジン、またはコンポーネント２０２に送られ、ＵＩビューの再生のために検出されたタイプまたは要素を有するロボット２０６にフィードバックが送られ得る。一例として、ファジーマッチングでは、ラベル１～４がそれぞれ名前のリストに割り当てられ得る。ファジーマッチングでは、「ＮＡＭ」または「ＮＭＥ」を検出すると、「ＮＡＭＥ」と論理的に関連づけられたり、マッチングされ得る。同様に、図３ではフィールド３０４_１～４は、それぞれエディットボックスのリストに割り当てられ得る。可能な要素のリストは、関係を確立するために、ＣＶモジュール、エンジン、またはコンポーネント２０２によってロボット２０６に提供され得る。

本明細書に記載されている例では、アンカーに関連する相対距離のような閾値を持つ幾何学的マッチングが、ＵＩのＲＰＡに利用され得る。一例として、ＵＩの画像内の各要素は、信頼度、閾値、マッチング閾値、許容度などと関連し得る。閾値以下の要素に一致する可能性のあるものは、マッチングなどのために破棄され得る。複数のアンカーを使用して、要素のための可能な関係適合は、１または複数の要素の偽陽性が減少するような信頼区間（ＣＩ）を利用し得る。

一例として、例えば、５０％、６０％、９８％、または任意のパラメータのＣＩ未満の検出された要素は、破棄され得る。ＣＩ、信頼度閾値、許容閾値などは、トレーニングまたは再トレーニングされ得るＭＬまたは深層学習モデルに基づく。異なるＣＩ、信頼度閾値、許容閾値、またはそのようなレベルもしくは範囲は、オーケストレータによるロボットまたは複数のロボットの開発またはランタイム中に、ＵＩ内の要素をマッチングするために利用され得る。

両方が一致する閾値を満たす２つの要素の間で選択する必要があり得るロボットのために、複数のアンカリングを有する要素、タイプ、または信頼度のリストが利用され得る。複数の一致を有する特定の構成では、ＵＩ内の複数のアンカーは、解析中に要素を一意に識別するためのステンシルまたは形状として作用し得る。マルチアンカリングを使用した特定の構成では、ワークフローの設計または開発中に、最も信頼度の高い選択されたＵＩ要素がＣＶ結果に表示され、ランタイム中には、ロボットによるワークフローの実行のために、ＵＩ内のすべての要素の可能性がＣＶによってチェックされ得る。

本明細書で与えられた例では、複数のアンカーの幾何学的閾値は、幾何学的閾値のためのより小さい許容範囲で、水平方向または垂直方向にスナップし得る。別の要素で水平または垂直にスナップするアンカーは、別の扱いをされ得る。例えば、方向がスナップ軸に対して垂直に移動できる距離については、より小さい許容誤差が許容され得る。ボタンがテキストフィールド、テキスト、ラベル、またはそのような要素のアンカーとして使用される場合、ランタイムは、その要素に接続が行われたときに、他のより低い確率の要素がそれぞれの位置または座標で接続されるように層化され得る。

図５は、ＲＰＡ５００用ＵＩのマルチアンカリングを利用した処理の説明図である。なお、図５では、操作を順番外で行ってもよいし、図示しないサブステップを行ってもよい。ＵＩの領域の画像は、ＲＰＡのためのロボットによってキャプチャされ得る（５０２）。画像を解析して表示した後、キャプチャ画像およびアンカーは、ＣＶコンポーネントおよびＯＣＲエンジンによって使用され得る（５０４）。特定の構成では、システムは、選択された要素と、ワークフローに格納されている１または複数のアンカーとの入力を受信し得る。キャプチャ画像内のＵＩのアンカーを含む要素間の幾何学的関係が計算され得る（５０６）。選択された要素が識別されない場合、本明細書で説明したように、バウンディングボックスを使用した選択が要素検出のために使用されてもよく、モデルは、ＭＬのための幾何学的関係を使用して再トレーニングされてもよい（５０８）。ＲＰＡロボットによるＵＩは、ワークフローまたはアクティビティの実行のために、ＯＣＲ結果と幾何学的関係（５１０）を用いて再生され得る。

再びＭＬを参照すると、ＣＶモデルの結果には、キャプチャ画像、分析された画像、スクレイプされた画像、または保存された画像ごとに、画像中の１または複数の要素の可能性のリストと、精度を向上させ、誤検出を防ぎ、自動化の性能などを向上させるために関連するＭＬで決定された確率が含まれ得る。これは、トレーニングモジュール、エンジン、またはコンポーネント２１０による機械トレーニングまたは再トレーニングのために、ＣＶモジュール、エンジン、またはコンポーネント２０２が画像データベース２０８を送信することによって実行され得る。

ＵＩの要素がターゲット領域の周りに境界ボックスを描画することによって不適切に識別された場合、ユーザが介入し得る。キャプチャ画像は、ランタイム中に検索するために自動化ファイルに保存され得る。さらに、特定の構成では、ユーザの介入がモデルが要素を逃したことを示したりまたは信号を送ったりすることがあるため、キャプチャ画像はＣＶモデルの再トレーニングに利用され得る。

さらに、ＣＶモジュール、エンジン、またはコンポーネント２０２が欠落したボタンまたは要素のサブセットを検出した場合、欠落した要素のレポートが自動的に画像データベース２０８に送信され、ＭＬトレーニングモジュール、エンジン、またはコンポーネント２１０による機械トレーニングまたは再トレーニングが行われる。ＭＬモデルが要素を識別できなかったことにより要素が欠落し得る。この操作はロボット２０６に対して透過的であり得る。

要素の識別のために、可能な要素のリストには、類似の代替要素が含まれ得る。もたらされ得る各結果は、ＭＬまたはディープラーニングモデルに関連付けられて得る統計ＣＩに関連付けられ得る。これは、ＵＩでオブジェクトを選択しているときに、または何も選択せずに実行され得る。クリック、ユーザ入力、画像の歪みなどにより、要素が誤って識別された場合、マルチアンカーアルゴリズムは１または複数のアンカーを使用して、目的のターゲット要素を正しく決定し得る。例えば、ＭＬエンジンが少なくとも１つの要素がラジオボタンであると信じている場合でも、アンカーＸおよびアンカーＹを使用して、チェックボックスであるすべての要素を検索し得る。

要素が誤って識別された場合、他の要素が分析のアンカーとして使用され得る。例えば、ラジオボタンは、最も可能性の高い一致としてチェックボックスとして誤って識別され得る。確率付きのランク付きリストでは、２番目または３番目に一致する可能性が高いのは、実際の一致または正しい一致であり得る。別の近くにあるラジオボタンなど、別のアンカーを追加すると、特定のコンポーネントが確率のリストからどの要素であるかを識別するのに役立ち得る。

また、本明細書に記載されている自律走行車コンピューティングコンテキストの動作の他の例として、ＣＶを用いて道路上のオブジェクトを検出しながら、オブジェクトが自転車であると誤認されないように、「自転車に人が乗っていなければそれは自転車ではない」というような基準やルールを設けてもよい。オブジェクトは自転車であってもよく、人や道路はアンカーや基準点であってもよい。似たようなＵＩのコンテキストでは、フィールドはターゲットとボタンとフィールドラベルのアンカーであり得る。

特徴および要素は、特定の組み合わせで上に記載されているが、各特徴または要素は、単独で、または他の特徴および要素と任意の組み合わせで使用することができることが、当業者には理解されるであろう。さらに、本明細書に記載された方法は、コンピュータまたはプロセッサによって実行されるために、コンピュータ可読媒体に組み込まれたコンピュータプログラム、ソフトウェア、またはファームウェアに実装され得る。コンピュータ可読媒体の例としては、電子信号（有線または無線接続を介して送信される）およびコンピュータ可読記憶媒体が挙げられる。コンピュータ可読記憶媒体の例としては、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体記憶装置、内部ハードディスクおよびリムーバブルディスクなどの磁気媒体、磁気光学媒体、ならびにＣＤ－ＲＯＭディスクおよびデジタル多目的ディスク（ＤＶＤ）などの光学媒体が挙げられるが、これらに限定されない。

Claims

ユーザインターフェース（ＵＩ）を表示するように構成されたディスプレイ装置と、
クラウドマシン環境でアクティビティを自動化するためにロボットを操作するように構成されたプロセッサであって、前記ロボットは前記ＵＩのキャプチャ画像内の２つ以上のアンカーを利用するプロセッサと、
前記２つ以上のアンカーを有する前記キャプチャ画像をコンピュータビジョン（ＣＶ）エンジンに送信し、前記キャプチャ画像を光学的文字認識（ＯＣＲ）エンジンに送信するように構成されたトランシーバと、
前記ＯＣＲエンジンからの結果と、前記キャプチャ画像の領域内の前記２つ以上のアンカーおよびターゲット要素に関連したラベルおよびテキストフィールド要素の幾何学的一致に基づいて前記ＣＶエンジンによって決定された関係を受信するように構成された前記トランシーバであって、前記幾何学的一致が信頼区間（ＣＩ）に関連付けられているトランシーバと、を備え、
前記ロボットは、前記関係に基づいて、前記ＵＩ内の前記ターゲット要素に対して前記アクティビティを実行する、コンピューティング装置。
前記関係が、アンカーボタンおよび前記ラベルまたは前記テキストフィールドの間の幾何学的位置を定義する、請求項１に記載のコンピューティング装置。
前記キャプチャ画像が、前記クラウドマシン環境のビデオストリームからのものである、請求項１に記載のコンピューティング装置。
前記幾何学的一致が、前記ＵＩの前記キャプチャ画像内の１または複数の要素間の角度または三角形の配置を含む、請求項１に記載のコンピューティング装置。
前記幾何学的一致が、ＭＬモデルに基づいている、請求項１に記載のコンピューティング装置。
再トレーニングが、前記ＵＩのキャプチャ画像から検出された欠落した要素に基づいて実行される、請求項１に記載のコンピューティング装置。
前記幾何学的一致が、前記ＵＩの前記キャプチャ画像内の要素の弾性的または非弾性的な幾何学的関係に基づいている、請求項１に記載のコンピューティング装置。
前記複数のアンカーのうちの第１アンカーが第１ボタンに配置され、前記複数のアンカーのうちの第２アンカーが第２ボタンに配置されている、請求項１に記載のコンピューティング装置。
コンピューティング装置によって行われる方法であって、
前記コンピューティング装置によって、ユーザインターフェース（ＵＩ）を表示することと、
前記コンピューティング装置によって、クラウドマシン環境でアクティビティを自動化するためにロボットを操作することであって、前記ロボットは前記ＵＩのキャプチャ画像内の２つ以上のアンカーを利用することと、
前記コンピューティング装置によって、前記２つ以上のアンカーを有する前記キャプチャ画像をコンピュータビジョン（ＣＶ）エンジンに送信し、前記コンピューティング装置によって、前記キャプチャ画像を光学的文字認識（ＯＣＲ）エンジンに送信することと、
前記コンピューティング装置によって、前記ＯＣＲエンジンからの結果と、前記キャプチャ画像の領域内の前記２つ以上のアンカーおよびターゲット要素に関連したラベルおよびテキストフィールド要素の幾何学的一致に基づいて前記ＣＶエンジンによって決定された関係を受信することであって、前記幾何学的一致が信頼区間（ＣＩ）に関連付けられていること、を含み、
前記ロボットは、前記関係に基づいて、前記ＵＩ内の前記ターゲット要素に対して前記アクティビティを実行する、方法。
前記関係が、アンカーボタンおよび前記ラベルまたは前記テキストフィールドの間の幾何学的位置を定義する、請求項９に記載の方法。
前記キャプチャ画像が、前記クラウドマシン環境のビデオストリームからのものである、請求項９に記載の方法。
前記幾何学的一致が、前記ＵＩの前記キャプチャ画像内の１または複数の要素間の角度または三角形の配置を含む、請求項９に記載の方法。
前記幾何学的一致が、ＭＬモデルに基づいている、請求項９に記載の方法。
再トレーニングが、前記ＵＩのキャプチャ画像から検出された欠落した要素に基づいて実行される、請求項９に記載の方法。
前記幾何学的一致が、前記ＵＩの前記キャプチャ画像内の要素の弾性的または非弾性的な幾何学的関係に基づいている、請求項９に記載の方法。
前記複数のアンカーのうちの第１アンカーが第１ボタンに配置され、前記複数のアンカーのうちの第２アンカーが第２ボタンに配置されている、請求項９に記載の方法。