JP2023541548A - ロボティックプロセスオートメーションのためのユーザーインターフェース(ui)マッパー - Google Patents

ロボティックプロセスオートメーションのためのユーザーインターフェース(ui)マッパー Download PDF

Info

Publication number
JP2023541548A
JP2023541548A JP2023513196A JP2023513196A JP2023541548A JP 2023541548 A JP2023541548 A JP 2023541548A JP 2023513196 A JP2023513196 A JP 2023513196A JP 2023513196 A JP2023513196 A JP 2023513196A JP 2023541548 A JP2023541548 A JP 2023541548A
Authority
JP
Japan
Prior art keywords
screen
elements
computer program
mapper
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023513196A
Other languages
English (en)
Inventor
グリゴア,ミルセラ
ヴォイク,コスミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UiPath Inc
Original Assignee
UiPath Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UiPath Inc filed Critical UiPath Inc
Publication of JP2023541548A publication Critical patent/JP2023541548A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1658Programme controls characterised by programming, planning systems for manipulators characterised by programming language
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/4155Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by programme execution, i.e. part programme or machine function execution, e.g. selection of a programme
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32128Gui graphical user interface
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40392Programming, visual robot programming language
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/50Machine tool, machine tool null till machine tool work handling
    • G05B2219/50391Robot

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Automation & Control Theory (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)

Abstract

Figure 2023541548000001
ロボティックプロセスオートメーションのためのユーザーインターフェース(UI)マッパー(RPA)が開示される。UIマッパーは、最初にUI要素をキャプチャして、後で使用するためにUI要素をより高速にフェッチし、RPA開発者がアプリケーションを自動化するためのUI要素を「マッピング」できるようにし得る。これにより、プログラミングの知識がない可能性のある後の開発者が、これらの定義済みの「ターゲット」UI要素を使用してRPAワークフローを構築できるようになり得る。

Description

(関連出願への相互参照)
本出願は、2020年9月14日に出願された米国非仮特許出願第17/019,679号の利益を主張する。先に提出された本出願の主題は、その全体を参照することにより、本明細書に組み込まれる。
本発明は概して、ロボティックプロセスオートメーション(RPA)に関し、およびより具体的には、RPAのためのユーザーインターフェース(UI)マッパーに関する。
ユーザーインターフェース(UI)でのRPAオートメーションの場合、開発者は通常、UIアクションごとに記述子(例えば、セレクタ)を構築する。しかし、当初は一般的に記述子または他のUIオブジェクトがない。UIオブジェクトのリポジトリを有機的に(すなわち、アイテムごとに、プロセスごとに、および記録ごとに)成長させることは遅い。したがって、改良されたアプローチが有益であり得る。
本発明の特定の実施形態は、現在のRPA技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、RPA用のUIマッパーに関する。
実施形態では、UI要素をマッピングするように構成されたUIマッパーを提供するためのコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体上に格納される。コンピュータプログラムは、少なくとも1つのプロセッサが、アプリケーションの画面におけるUI要素の指示を容易にするインターフェースを提供するように構成される。また、コンピュータプログラムは、少なくとも1つのプロセッサが、画面内のUI要素の1または複数の指示を受信し、1または複数の指示されたUI要素をアプリケーションのUIツリーに含むように構成される。UIマッパーは、インターフェースを提供し、かつ画面上のUI要素の指示を受信するライブモードで動作するように構成される。UIマッパーはまた、オフラインモードで動作するように構成され、UIマッパーは異なる画面の選択を容易にする。
別の実施形態では、RPAのためのUI要素をマッピングするためのコンピュータ実装方法は、UIマッパーによって、アプリケーションの画面におけるUI要素の指示を容易にするインターフェースを提供することを含む。コンピュータ実装方法はまた、UIマッパーによって、画面内のUI要素の1または複数の指示を受信し、UIマッパーによって、アプリケーションのUIツリーに、1または複数の示されたUI要素を含めることを含む。コンピュータ実装方法はさらに、UIマッパーまたはUIオブジェクトブラウザにより、後の再利用のために、1または複数の示されたUI要素をオブジェクトリポジトリに追加することを含む。UIマッパーは、1または複数のアプリケーション、アプリケーションごとの1または複数のそれぞれの画面、およびUIツリーに含まれる画面ごとの1または複数のそれぞれのUI要素によって構成されるUI記述子ペイン含む。
さらに別の実施形態では、UI要素をマッピングするように構成されたUIマッパーを提供するためのコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体上に格納される。コンピュータプログラムは、少なくとも1つのプロセッサが、アプリケーションの画面におけるUI要素の指示を容易にするインターフェースを提供するように構成される。また、コンピュータプログラムは、少なくとも1つのプロセッサが、画面内のUI要素の1または複数の指示を受信し、1または複数の指示されたUI要素をアプリケーションのUIツリーに含むように構成される。コンピュータプログラムはさらに、少なくとも1つのプロセッサが、選択されたアプリケーション、画面、またはUI要素のプロパティを含むプロパティペインを表示するように構成される。UI要素が選択されたとき、プロパティペインは、ターゲットUI要素およびターゲットUI要素を特定するための1または複数のUI記述子のプロパティを含む。
本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。
本発明の実施形態による、ロボティックプロセスオートメーション(RPA)システムを示すアーキテクチャ図である。
本発明の実施形態による、展開したRPAシステムを示すアーキテクチャ図である。
本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。
本発明の実施形態による、RPAシステムを示すアーキテクチャ図である。
本発明の実施形態による、RPA用のUIマッパーを提供するように構成されたコンピューティングシステムを示すアーキテクチャ図である。
本発明の実施形態による、折り畳みモード(collapsed mode)でのUIマッパーを示す。
本発明の実施形態による、拡張モード(expanded mode)でのUIマッパーを示す。
本発明の実施形態による、UI要素が選択されていないライブアプリケーション画面を示す。
本発明の実施形態による、ターゲットおよびアンカーUI要素が選択された後のライブアプリケーション画面を示す。
本発明の実施形態による、UIマッパーのプロセスを示すフローチャートである。
別段の記載がない限り、類似の参照文字は、添付の図面全体で一貫して対応する特徴を示す。
(実施形態の詳細な説明)
いくつかの実施形態は、RPAのためのUIマッパーに関する。UIマッパーは、後で使用するためにUI要素をより速くフェッチするために、最初にUI要素をキャプチャし得る。UIマッパーは、RPA開発者がアプリケーションを自動化するためのUI要素を「マッピング」し、プログラミング知識を持たない可能性のある後の開発者が、これらの定義済み「ターゲット」UI要素を使用してRPAワークフローを構築できるようにし得る。
画面上のUI要素(例えば、テキストフィールド、ボタン、ラベル、メニュー、チェックボックスなど)は、アプリケーション、アプリケーションバージョン、アプリケーション画面、およびUI要素の収集によってグループ化され得る。各画面は通常、複数のUI要素を有する。本明細書で使用される場合、「画面」は、アプリケーションのある状態を指す。この状態は、ある時点では特定の画像または外観を有し得、UI要素、コンテナなど、要素の階層的な構造が「内部(under the hood)」に存在し得る。「アプリケーション」または所定のアプリケーションのバージョンは、このコンテキストでは画面の組み合わせであってもよい。各UI要素は、いくつかの実施形態では、1または複数のUI記述子によって記述され得る。
UI要素、アプリケーション、およびアプリケーション画面は、UIオブジェクトである。UI要素、アプリケーション、およびアプリケーション画面は、いくつかの実施形態では、特定の秩序化された構造を有し得る。例えば、アプリケーションはアプリケーション画面を有し得、アプリケーション画面はUI要素を有し得る。いくつかの実施形態では、アプリケーションは、複数のアプリケーション画面を有し得、各画面は、複数のUI要素を有し得る。いくつかの実施形態では、UI要素および画面は、特定のタイプのUI要素(例えば、ボタン、チェックボックス、テキストフィールドなど)および画面(例えば、トップウィンドウ、モーダルウィンドウ、ポップアップウィンドウなど)にさらに区別されてもよい。
UIオブジェクトブラウザは、アプリケーション、アプリケーションバージョン、アプリケーション画面、UI要素の収集、それらの組み合わせなどによってグループ化され得るUIオブジェクトのライブラリにアクセスし得る。いくつかの実施形態では、UIオブジェクトライブラリは、UIオブジェクトリポジトリに格納され得る。本明細書で使用される場合、UIオブジェクトリポジトリは、UIオブジェクトライブラリの収集である。いくつかの実施形態では、UIオブジェクトリポジトリは、NuGet(商標)フィード、ウェブサービスなどであり得る。
UIオブジェクトブラウザは、いくつかの実施形態では、UIオブジェクトリポジトリにおけるUIオブジェクトライブラリを案内、管理、および編集するために使用され得る。いくつかの実施形態におけるUIオブジェクトライブラリのUIオブジェクトリポジトリは、プロジェクトにおけるUI記述子の管理、再利用、および信頼性の向上を容易にし得る。いくつかの実施形態では、UI記述子はUIライブラリに追加され、UIオブジェクトリポジトリでグローバルに再利用するために公開または再公開され得る。UIオブジェクトブラウザは、UIオブジェクトリポジトリおよびそのUIオブジェクトライブラリへのアクセスを提供することにより、UI要素特定フレームワークおよびその派生物の再利用を容易にし得る。
UIオブジェクトを再利用可能にするために、RPA処理で参照可能なUIオブジェクトライブラリに抽出され得る。例えば、アプリケーションの新しいバージョンが原因でセレクタまたは他のUI記述子が変更された場合、ライブラリは、変更されたUI記述子を含めるために再作製(または再公開)され得る。次いで、UIオブジェクトライブラリを使用するRPAプロセスは、変更されたUI記述子のバージョンを呼び出し得る。新しいライブラリに関連する新しいアプリケーションプログラミングインターフェース(API)への参照は、開発者がRPAプロセスのために手動で変更することも、ソフトウェアツール(例えば、RPAプロセスを経て、セレクタまたはその他のコンポーネントが変更されたときにUI記述子参照を更新するツール)を介して変更することも、またはいくつかの実施形態では任意の適切なメカニズムによって自動的に変更することもできる。
いくつかの実施形態では、UIオブジェクトのパッケージが依存関係として添付され得る(例えば、NuGet(商標)パッケージ)。しかしながら、特定の実施形態では、UIオブジェクトは、ウェブサービスへの1または複数のAPI呼び出しを介して取得され得る。これにより、UIオブジェクトをリモートで格納し、自動化の間に取得して使用し得る。
UIオブジェクトライブラリに追加されたUI要素は、RPAワークフローで使用するセレクタを表し得る。UIでの特定のアクションを自動化するために、RPAロボットは、さまざまなウィンドウ、ボタン、ドロップダウンリスト、および/またはその他のグラフィカル要素とインタラクションし得る。通常、これは、UI要素の予想される画面位置を使用して行われる。しかし、これは信頼できない。
いくつかの実施形態は、UI要素およびその親の属性を拡張マークアップ言語(XML)フラグメントに格納することで、固定座標特定に関連する問題を克服するセレクタを使用する。UIが静的であるいくつかの実施形態では、セレクタは自動的に生成されてもよいが、いくつかのウェブアプリケーションなどのいくつかのソフトウェアプログラムでは、レイアウトが変化し、揮発性値を有する属性ノードが存在する。これらの変更は容易に予測できない場合があり、これは以前はいくつかのセレクタを手動で生成することを要求した。しかし、いくつかの実施形態のオブジェクトブラウザは、この問題を克服し得る。
セレクタは、いくつかの実施形態においてUI要素を検出するために使用され得るUI記述子のタイプである。セレクタは、いくつかの実施形態では、以下の構造を有する。
<node_1/><node_2/>...<node_N/>
最後のノードは対象のGUI要素を表し、それ以前の全てのノードはその要素の親を表す。<node_1>は通常ルートノードと呼ばれアプリケーションのトップウィンドウを表す。
各ノードは、選択されたアプリケーションの特定のレベルの正しい特定を支援する1または複数の属性を有してもよい。各ノードは、いくつかの実施形態では、以下の形式を有する。
<ui_system attr_name_1=’attr_value_1’...attr_name_N=’attr_value_N’/>
全ての属性は、割り当てられた値を有し得、一定の値を有する属性が選択され得る。これは、アプリケーションが起動するたびに属性の値を変更すると、セレクタが関連する要素を正しく特定できなくなる可能性があるからである。
UIオブジェクトライブラリ記述子は、RPAワークフローアクティビティに直接追加され得、さもなくばアクティビティ用のカスタムセレクタを作製するために必要とされ得る開発者の時間を節約する。オブジェクトブラウザは、作成されたセレクタをオブジェクトライブラリに格納するデータベースを提供して、UI記述子の再利用を可能にすることができる。オブジェクトライブラリは、アプリケーションの特定のバージョンから1または複数の画面に対応するUI記述子の収集として本明細書で定義される。UI記述子とは、UI要素を見つけるための命令のセットである。いくつかの実施形態におけるUI記述子は、UI要素セレクタ(複数可)、アンカーセレクタ(複数可)、コンピュータビジョン(CV)記述子(複数可)、統合されたターゲット記述子(複数可)、画面イメージキャプチャ(コンテキスト)、要素イメージキャプチャ、他のメタデータ(例えば、アプリケーションおよびアプリケーションバージョン)、それらの組み合わせなどを含むカプセル化されたデータ/構造フォーマットである。カプセル化されたデータ/構造フォーマットは、プラットフォームへの将来のアップデートによって拡張可能であってもよく、上記の定義に限定されるものではない。画面上のUI要素を特定するためのUI記述子としては、本発明の範囲を逸脱することなく、任意の好適なものを使用することができる。統合されたターゲット記述子は、複数のタイプのUI記述子を連結する。統合されたターゲット記述子は、有限状態機械(FSM)のように機能し得、第1のコンテキストでは、第1のUI記述子メカニズムが適用され、第2のコンテキストでは、第2のUI記述子が適用される、などである。
いくつかの実施形態では、RPAデザイナアプリケーションは、ユーザーが自動化を計画しているアプリケーションのタイプ(複数可)をユーザーに尋ね得る。例えば、ユーザーはExcel(登録商標)、Workday(登録商標)、SAP(登録商標)などを指定し得る。RPAアプリケーションには、これらのアプリケーションのためのUIオブジェクトライブラリに画面記述子が既に含まれているため、これらのアプリケーションを自動化する方法に関するロジックでアプリケーションがプログラムされ得る。これらのアプリケーションのさまざまなバージョンのすぐに使えるセレクタが利用可能であり、ユーザーは自動化するバージョン(複数可)を指定することができ得る。
いくつかの実施形態では、ファジーマッチングが採用されてもよく、ここでは、文字列メトリック(例えば、レーベンシュタイン距離、ハミング距離、ジャロ・ウィンクラー距離など)、それらの組み合わせなどを使用して、1または複数の属性が、一定の範囲内で、一定の精度(例えば、70%一致、80%一致、99%一致など)で一致しなければならない。当業者であれば、類似度測定は、類似度の量だけでなく、2つの属性値の間の不一致の量を定量化することができることを理解するであろう。さらに、様々な実施形態では、類似度しきい値は、不一致の最大量または一致に要求される類似度の最小量を表してもよい。
類似度測定値を計算する選択された方法に応じて、類似度しきい値は様々な解釈を有し得る。例えば、類似度しきい値は、2つの文字列の間で異なり得る文字の最大カウント数を示してもよいし、文字の合計カウント数(例えば、結合された文字列の長さ)の割合として計算された不一致の分数の程度を示してもよい。いくつかの実施形態では、類似度しきい値は、0と1の間、0と100の間、7と34の間などの所定の間隔に再スケーリングされてもよい。1つの非限定的な例では、比較的高い類似度しきい値(例えば、1または100%に近い)は、ほぼ完全一致の要件、すなわち、実行時間ターゲットにおけるファジー属性の値が、設計時間ターゲットにおける各属性の値から非常にわずかに逸脱することしか許されないことを示す。一方、類似度しきい値が比較的低い(例えば、0に近い)場合には、それぞれのファジー属性のほぼ全ての値が一致するとみなされる。
特定の実施形態では、マッチング許容差は属性の基準ごとに異なっていてもよい。例えば、1または複数の属性に対して完全一致が要求されてもよく(例えば、特定の正確な名前を見つけることが望まれてもよい)、1または複数の他の属性に対してファジーマッチングが実行されてもよい。各グラフィカル要素検出技術から使用される属性の数および/またはタイプは、いくつかの実施形態では、RPA開発者によってカスタム指定されてもよい。
いくつかの実施形態では、属性は、属性-値のペアおよび/または属性-値-許容差のペア(例えば、ファジーマッチング)として格納されてもよい。属性-値のペアは、いくつかの実施形態では、それぞれのノードによって表されるUI要素の名前とタイプを示し得る。しかしながら、当業者は、本発明の範囲から逸脱することなく、属性-値のペアのリスト以外に、UIツリー内の特定のノードの位置を表現する複数の方法があり得ることを理解するであろう。
これらの属性-値のペアおよび/または属性-値-許容差のペアは、いくつかの実施形態ではタグに格納されてもよく、各タグは、実装固有の区切り文字(例えば、「<」で始まり「/>」で終わる)によってブックエンドされたシーケンスを有する文字の列を含み得る。属性-値のペアは、いくつかの実施形態では、それぞれのノードによって表されるUI要素の名前とタイプを示し得る。しかしながら、当業者は、本発明の範囲から逸脱することなく、属性-値のペアのリスト以外に、UIツリー内の特定のノードの位置を表現する複数の方法があり得ることを理解するであろう。
RPAロボットによる成功的かつ理想的に曖昧さのない特定を可能にするために、いくつかの実施形態では、それぞれのUI要素を特徴づける要素IDを使用して各UI要素を表現する。いくつかの実施形態では、要素IDは、UIツリー内のターゲットノードの位置を示し、ここで、ターゲットノードはそれぞれのUI要素を表す。例えば、要素IDは、ターゲットノード/UI要素を、選択されたノードのサブセットのメンバーとして特定してもよい。選択されたノードのサブセットは、系図、すなわち、各ノードが別のノードの先祖または子孫のいずれかであるUIツリーを介した下降線を形成することができる。
いくつかの実施形態では、要素IDは、ノードインジケータの順序付けされたシーケンスを含み、シーケンスはUIツリーを介して系図的な経路を追跡し、経路はそれぞれのターゲットノード/UI要素で終わる。各ノードインジケータは、それぞれのUIのオブジェクト階層のメンバーと、それぞれの階層と一致するシーケンス内のその位置を表してもよい。例えば、シーケンスの各メンバーは、前のメンバーの子孫(例えば、子ノード)を表し、次のメンバーを子孫(例えば、子ノード)としてもよい。1つのハイパーテキストマークアップ言語(HTML)の例では、個々のフォームフィールドを表す要素IDは、それぞれのフォームフィールドがHTMLフォームの子であることを示してもよく、その子は、順番にウェブページの特定のセクションなどの子である。系図は、いくつかの実施形態では完全である必要はない。
いくつかの実施形態では、1または複数のマルチアンカーマッチング属性を使用してもよい。アンカーは、ターゲットUI要素を一意に特定するのを助けるために使用され得る他のUI要素である。例えば、UIに複数のテキストフィールドが含まれている場合、テキストフィールドを検索するだけでは、与えられたテキストフィールドを一意に特定するには不十分である。したがって、いくつかの実施形態では、与えられたUI要素を一意に特定するために、追加の情報を探す。テキストフィールドの例を使用すると、「ファーストネーム(First Name)」というラベルの右側に、ファーストネームを入力するためのテキストフィールドが表示される場合があり得る。このファーストネームラベルは、「ターゲット」であるテキストフィールドを一意に特定するのに役立つように、「アンカー」として設定してもよい。
いくつかの実施形態では、ターゲットとアンカーの間の様々な位置および/または幾何学的な関連付けが、ターゲットを一意に特定するために、潜在的に1または複数の許容差内で使用される可能性がある。例えば、アンカーとターゲットのバウンディングボックスの中心が線セグメントを定義するために使用されてもよい。次いで、この線セグメントは、ターゲット/アンカーペアを使用してターゲットを一意に特定するために、許容差内の特定の長さおよび/または許容差内の傾きを有することが要求され得る。しかしながら、ターゲットおよび/またはアンカーに関連付けられた位置の任意の所望の位置は、本発明の範囲から逸脱することなく、いくつかの実施形態において使用され得る。例えば、線セグメントを描画するための点は、バウンディングボックス特性に関連して特定される、バウンディングボックスの境界上の中央、左上隅、右上隅、左下隅、右下隅、他の任意の位置、バウンディングボックス内の任意の位置、バウンディングボックスの外側の位置内などにあり得る。特定の実施形態では、ターゲットおよび1または複数のアンカーは、幾何学的マッチングのために使用されるそれらのバウンディングボックス内またはバウンディングボックス外の異なる位置を有してもよい。
以上のように、画面上のターゲット要素を一定の信頼性をもって一意に特定するためには、単一のアンカーだけでは必ずしも十分ではない場合がある。例えば、画面上の異なる位置にある「ファーストネーム」というラベルのそれぞれの右側に、ファーストネームを入力するための2つのテキストフィールドが表示されているウェブフォームを考えてみる。この例では、1または複数の追加のアンカーは、所与のターゲットを一意に特定するのに有用であり得る。アンカーとターゲットとの間の幾何学的特性(例えば、許容差を有する線セグメントの長さ、角度、および/または相対位置)は、ターゲットを一意に特定するために使用されてもよい。ユーザーは、ターゲットに対する一致強度がしきい値を超えるまでアンカーを追加し続けることが要求されてもよい。
本明細書で使用されるように、用語「ユーザー」および「開発者」は互換的に使用される。ユーザー/開発者は、プログラミングおよび/または技術的な知識を持っている場合と持っていない場合がある。例えば、いくつかの実施形態では、ユーザー/開発者は、手動でコーディングすることなく、RPAワークフロー内のアクティビティを構成することにより、RPAワークフローを作成し得る。特定の実施形態では、これは、例えば、様々な機能をクリックしてドラッグアンドドロップすることによって行われてもよい。
RPAワークフロー内のアクティビティからUI記述子が抽出され、UIアプリケーション、画面、およびUI要素ごとにUI記述子をグループ化する構造化スキーマに追加され得る。UI記述子は、いくつかの実施形態では、広く再利用するための1つのプロジェクトの一部、テスト目的のためのグローバルリポジトリの一部、またはグローバルなプロジェクト間共有のためのUIオブジェクトライブラリの一部とし得る。いくつかの実施形態におけるオブジェクトライブラリは、アプリケーション、アプリケーションバージョン、および画面によってグループ化されたUI記述子のカプセル化である。UI記述子が定義され、オブジェクトライブラリに追加され得、これは、いくつかの実施形態では、公開後に依存物として他のプロジェクトにインストールされ得る。これにより、UI記述子のオブジェクトライブラリは、再利用が可能になる。いくつかの実施形態におけるUIアプリケーションは、各バージョンが複数の画面を有する複数のバージョンを有するターゲットアプリケーションである。
UIオブジェクトリポジトリとUI記述子の再利用は、さまざまな理由で有益であり得る。例えば、アプリケーション内のUI要素の位置、外観、および/または機能が変更された場合、UI記述子が変更され得、その変更は、次いでUI記述子を使用するアクティビティに伝搬され得る。このように、再利用性は、UIにおけるグラフィカル要素の特定のレベルで提供され得る。
これは、アプリケーションの新しいバージョンに対応するために、特に有益であり得る。新バージョンの場合、ソフトウェア開発者は、UI記述子を更新し、および/または少数の新しいセレクタを一から開発する必要があるだけでよく、開発時間を大幅に短縮することができる。例えば、ウェブページの場合、ハイパーテキストマークアップ言語(HTML)が検査されて、対応するセレクタのためのUI要素へのパスを取得し得る。対応するUI要素のセレクタは、異なるウェブブラウザおよび/または同じウェブブラウザの異なるバージョンで異なる場合がある。この概念はまた、ビジュアルデスクトップ、サーバー、スマートフォン、およびタブレットのアプリケーションに適用されてもよい。UIオブジェクトライブラリは、アプリケーションのための実際のセレクタを含むことができ、これは、上記のとおり、UI記述子の1つのタイプに過ぎない。UIオブジェクトライブラリは、1または複数のアプリケーションのために、異なるタイプの複数のUI記述子を持ち得る。UI記述子は、アプリケーションが構築された異なる技術を参照し得る。例えば、スタンドアロンのデスクトップ、ウェブ、およびモバイルアプリケーションのために、異なるUI記述子が作製され、使用され得る。ある技術では、あなたはセレクタを使用したい場合があり、別ではあなたはCV記述子を使用したい場合などがある。
UI記述子は、いくつかの実施形態では、画像の検出および定義が実行される全てのUI検出メカニズムを包含する統合されたターゲットと協働してもよい。統合されたターゲットは、UI要素を特定して自動化する複数の技術を、単一のまとまりのあるアプローチに併合してもよい。統合されたターゲットは、セレクタベースおよびドライバベースのUI検出メカニズムを優先し、CVにフォールバックして、最初の2つのメカニズムが成功しない場合に画像を見つけ得る。いくつかの実施形態では、統合されたターゲットを支持するようにセレクタエディタおよびUIエクスプローラが構成され得る。
いくつかの実施形態では、デザイナアプリケーションは、1または複数のソースからオブジェクトライブラリをロードする「オブジェクトブラウザ」としてセクションまたはパネルを含む。このオブジェクトブラウザを使用すると、ユーザーはUIオブジェクトセット全体を視覚化し、ドラッグアンドドロップ、およびウィザード、またはコンテキストアクションを介して任意のUI記述子を使用し得る。これにより、ユーザーは、クリック、テキストの取得、入力など、RPAワークフローアクティビティで実行されるアクションを選択できるようになり得る。
オブジェクトライブラリの構造例を以下に示す。
・SAP
・バージョン1
・画面1
・オブジェクト1
・オブジェクト2
・…
・画面2…
・…
・バージョン2…
・…
・セールスフォース…
・…
上記の階層は、例としてのみ提供されていることに留意されたい。本発明の範囲から逸脱することなく、階層内の任意の所望の数のレベルおよび各レベルに関連する要素が使用され得る。特定の実施形態では、ユーザーは、アプリケーションマップを彼または彼女が所望するように定義し得る。さらに、ツリー内のいくつかのノードは、いくつかの実施形態では、管理的な役割のみを果たし、機能的な役割は果たさないかもしれない。例えば、UI要素は、UI記述子を持たないコンテナに一緒にグループ化され得る。コンテナは、いくつかの実施形態では、グループ化の目的だけのために存在し得る。
いくつかの実施形態では、OLDBがUiPath Studio(商標)で構成される場合、例えば、「画面上に表示」は、OLDBを調べて、利用可能であればUI記述子をピックアップし得る。UI記述子が利用できない場合、UI記述子は、欠落しているUI要素を示すことによってユーザーにより定義され得る。次に、UI記述子が生成され、UIオブジェクトライブラリで公開され得る。
いくつかの実施形態におけるUI記述子およびUIオブジェクトリポジトリの使用は、さらに拡張され得る関係およびデータを作成する。いくつかの実施形態では、自動化プロセスからのUIステップが単一の画面にマッピングされ得る。例えば、ユーザーがいくつかのデータを追加および取得してから送信を押すフォームを含む画面は、画面キャプチャとその画面で実行される各UIステップを含む1つのスクリーンショットで文書化され得る。例えば、次のようになる:(1)コピーされた量;(2)コピーされた番号;(3)追加された名前;(4)「OK」をクリックする。
ユーザーインターフェース(UI)マッパー
ある画面が多数の異なるUI要素を有する場合、画面ごとに1つずつそれらをフェッチするのは時間がかかり得る。したがって、いくつかの実施形態は、アプリケーションの画面から複数のUIオブジェクトを1回でキャプチャするUIマッパーを採用する。これにより、後の画面のUIオブジェクトのフェッチをより高速に行い得る。いくつかの実施形態では、コンピュータビジョン(CV)を用いて画面をオブジェクトリポジトリに自動的にキャプチャし、UIマッパーを用いて画面からオブジェクトリポジトリにUI要素を追加し得る。
最初のフェーズでは、ユーザーがUI要素を手動でキャプチャし得るおよび/またはコンピュータビジョン(CV)を使用して画面上のUI要素を検出し、ユーザーにそれらを提案し得る。ユーザーは、UI要素を並べ替える、ウィンドウにそれらをグループ化する、画面レベル以外のUI要素スコープを提供するなどして、UI要素を管理し得る。他のUI要素スコープの使用に関して、ユーザーは、アプリケーション画面全体ではなく、そのグループ化されたコンポーネントの1または複数のコンテナを使用することを望む状況が発生し得る。例えば、コンテナは、画面内の個々のペイン、メニューのドロップダウンなどである。
いくつかの実施形態では、UIマッパーは、RPA開発者がUIオブジェクトのリポジトリを迅速に構築し、アプリケーションおよび画面の階層にそれらを配置して、UIオブジェクトが後の自動化で容易に使用され得るようにするツールである。いくつかの実施形態では、UIマッパーは、オブジェクトブラウザのツールバーから起動され得る。UIマッパーツールは、高度な視点からでは、オブジェクトブラウザと選択画面とを組み合わせたようなものである。オブジェクトブラウザは、整理目的でライブラリ/ツリーとして使用され得るが、選択画面およびプロパティペイン(別名、「ヘルパー」)は個々のターゲットを構成するために使用される。リポジトリへのオブジェクトの追加は、いくつかの実施形態では、一括してまたは個別に行われ得る。どちらの手法も、UIオブジェクトの高度な設定の編集を可能にし得る。いくつかの実施形態では、ユーザーは、アプリケーション、画面、および他の組織的なグループ分けの追加、UI要素の一括または1つずつの追加、UIオブジェクト(例えば、UI要素、画面、アプリケーション、グループなど)の削除、既存のUI要素の編集(例えば、アンカーの追加/削除、選択子の編集など)、UI要素の強調(例えば、1つのUI要素、複数のUI要素、全UI要素など)、ターゲットアプリケーションとのインタラクションなどを行うことができ得る。
特定の実施形態は、ロボティックプロセスオートメーション(RPA)に採用されてもよい。図1は、本発明の実施形態による、RPAシステム100を示すアーキテクチャ図である。RPAシステム100は、開発者がワークフローを設計して実装することを可能にするデザイナ110を含む。デザイナ110は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術(IT)タスク、およびビジネスITプロセスを自動化する。デザイナ110は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ110は、ワークフローおよびロボットの開発および展開を容易にする。
自動化プロジェクトは、本明細書で「アクティビティ」と定義されるワークフローで開発されたステップのカスタムセット間の遂行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ110の実施形態の商業的な一例は、UiPath Studio(商標)である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。
ワークフローのタイプには、シーケンス、フローチャート、FSM、および/またはグローバル例外ハンドラなどを含み得るが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。FSMは、大規模なワークフローに特に適し得る。FSMは、条件(すなわち、遷移)またはアクティビティによりトリガされる有限の数の状態をそれらの遂行中に使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を決定したり、プロセスをデバッグしたりするのに特に適し得る。
ワークフローがデザイナ110内で開発されると、ビジネスプロセスの遂行は、コンダクタ120によって調整され、デザイナ110内で開発されたワークフローを遂行する1または複数のロボット130を調整する。コンダクタ120の実施形態の商業的な一例は、UiPath Orchestrator(商標)である。コンダクタ120は、環境におけるリソースの生成、監視、および展開の管理を容易にする。コンダクタ120は、サードパーティのソリューションおよびアプリケーションとの統合ポイント、または統合ポイントの1つとして動作し得る。
コンダクタ120は、全てのロボット130を管理し得、ロボット130を集中ポイントから接続して遂行する。管理され得るロボット130のタイプには、アテンディッドロボット132、アンアテンディッドロボット134、開発ロボット(アンアテンディッドロボット134と同様であるが、開発およびテストの目的で使用される)、および非生産ロボット(アテンディッドロボット132と同様であるが、開発およびテストの目的で使用される)が含まれるが、これらに限定されない。アテンディッドロボット132は、ユーザーイベントによってトリガされてもよいし、自動的に発生するようにスケジュールされてもよく、同じコンピューティングシステム上で人と並んで動作し得る。アテンディッドロボット132は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ120とともに使用され得る。アテンディッドロボット132は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによってトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ120から開始することができず、および/またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット132は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット132は、いくつかの実施形態では、人の監督下で動作することが好ましい。
アンアテンディッドロボット134は、仮想環境または物理マシン上で無人で動作し、多くのプロセスを自動化することができる。アンアテンディッドロボット134は、リモート遂行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ110から実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、VM、エンタープライズアプリケーション(例えば、SAP(登録商標)、SalesForce(登録商標)、Oracle(登録商標)などにより生成されたもの)、およびコンピューティングシステムアプリケーション(例えば、デスクトップおよびラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど)を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。
コンダクタ120は、プロビジョニング、展開、バージョニング、構成、キューイング、監視、ロギング、および/または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット130とコンダクタ120(例えば、ウェブアプリケーション)との間の接続を作成し、維持することを含み得る。展開は、遂行のために割り当てられたロボット130へのパッケージバージョンの正しい配信を保証することを含み得る。バージョニングは、いくつかの実施形態では、いくつかのプロセスまたは構成の固有のインスタンスの管理を含んでもよい。構成は、ロボット環境およびプロセス構成の維持および配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの特定データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース(例えば、SQLデータベース)および/または別のストレージメカニズム(例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するElasticSearch(登録商標))へのログの保存およびインデックス作成を含み得る。コンダクタ120は、サードパーティのソリューションおよび/またはアプリケーションのための通信の集中点として操作することにより、相互接続性を提供し得る。
ロボット130は、デザイナ110で構築されたワークフローを実行する遂行エージェントである。ロボット(複数可)130のいくつかの実施形態の1つの商業的な例は、UiPath Robots(商標)である。いくつかの実施形態では、ロボット130は、デフォルトで、Microsoft Windows(登録商標)Service Control Manager(SCM)管理サービスをインストールする。その結果、このようなロボット130は、ローカルシステムアカウントの下でインタラクティブなWindows(登録商標)セッションを開くことができ、Windows(登録商標)サービスの権利を有し得る。
いくつかの実施形態では、ロボット130は、ユーザーモードで設置され得る。このようなロボット130については、所定のロボット130が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各マシンを最大限に全活用することを保証する高密度(HD)ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット130は、HD環境で構成され得る。
いくつかの実施形態におけるロボット130は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、SCM管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。SCM管理ロボットサービスは、Windows(登録商標)セッションを管理および監視し、コンダクタ120と遂行ホスト(すなわち、ロボット130が遂行されるコンピューティングシステム)との間のプロキシとして動作する。これらのサービスは、ロボット130の資格情報を任されて管理する。コンソールアプリケーションは、ローカルシステム下のSCMにより起動される。
いくつかの実施形態におけるユーザーモードロボットサービスは、Windows(登録商標)セッションを管理および監視し、コンダクタ120と遂行ホストとの間のプロキシとして動作する。ユーザーモードロボットサービスは、ロボット130の資格情報を任されて管理し得る。SCM管理ロボットサービスがインストールされていない場合、Windows(登録商標)アプリケーションが自動的に起動され得る。
エグゼキュータは、Windows(登録商標)セッションの下で与えられたジョブを遂行し得る(つまり、ワークフローを遂行し得る。エグゼキュータは、モニタ毎のドットパーインチ(DPI)設定を意識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するWindows(登録商標) Presentation Foundation(WPF)アプリケーションであり得る。エージェントはサービスのクライアントであり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。
上で説明したように、ロボット130のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが遂行していることをより容易に実行し、特定し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な挙動を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのDPI設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのDPIで遂行し得る。また、いくつかの実施形態では、デザイナ110からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。DPIを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではDPIを無効にし得る。
図2は、本発明の実施形態による、展開したRPAシステム200を示すアーキテクチャ図である。いくつかの実施形態では、RPAシステム200は、図1のRPAシステム100であってもよく、またはその一部であってもよい。クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション210は、エグゼキュータ212、エージェント214、およびデザイナ216を含む。しかし、いくつかの実施形態では、デザイナ216は、コンピューティングシステム210上で実行されていなくてもよい。エグゼキュータ212はプロセスを実行している。図2に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント214(例えば、Windows(登録商標)サービス)は、本実施形態では、全てのエグゼキュータ212のための単一の接続ポイントである。この実施形態における全てのメッセージは、コンダクタ230に記録され、それは、データベースサーバー240、インデクササーバー250、またはその両方を介して、それらをさらに処理する。図1に関して上述したように、エグゼキュータ212は、ロボットコンポーネントであり得る。
いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブセッションをサポートするコンピューティングシステム(Windows(登録商標)Server 2012など)では、複数のロボットが同時に実行され得、それぞれが一意のユーザー名を使用して別々のWindows(登録商標)セッションで実行され得る。これは、上記のHDロボットと呼ばれる。
エージェント214はまた、ロボットの状態を送信し(例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する)、遂行されるパッケージの要求されるバージョンをダウンロードすることにも責任を負う。エージェント214とコンダクタ230との間の通信は、いくつかの実施形態では、常にエージェント214によって開始される。通知シナリオでは、エージェント214は、後にコンダクタ230によってロボットにコマンド(例えば、開始、停止など)を送信するために使用されるWebSocketチャネルを開いてもよい。
サーバー側には、プレゼンテーション層(ウェブアプリケーション232、オープンデータプロトコル(OData)代表状態転送(REST)アプリケーションプログラミングインターフェース(API)エンドポイント234、通知および監視236)、サービス層(API実装/ビジネスロジック238)、永続層(データベースサーバー240、インデクササーバー250)が含まれる。コンダクタ230は、ウェブアプリケーション232、OData REST APIエンドポイント234、通知および監視236、ならびにAPI実装/ビジネスロジック238を含む。いくつかの実施形態では、ユーザーがコンダクタ220のインターフェース(例えば、ブラウザ220を介して)で実行するほとんどのアクションは、様々なAPIを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加/削除、無人で実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション232は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション232は、ハイパーテキストマークアップ言語(HTML)およびジャバスクリプト(JS)を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ230を制御するための様々な動作を実行するために、本実施形態ではブラウザ220を介してウェブアプリケーション232からのウェブページとインタラクションする。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および/またはプロセス毎のログを解析し、ロボットを起動しおよび停止などし得る。
ウェブアプリケーション232に加えて、コンダクタ230は、OData REST APIエンドポイント234を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。REST APIは、ウェブアプリケーション232とエージェント214の両方により消費される。エージェント214は、本実施形態では、クライアントコンピュータ上の1または複数のロボットのスーパーバイザである。
本実施形態のREST APIは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングRESTエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントRESTエンドポイントは、コンダクタ230においてジョブ開始コマンドが使用された場合に遂行されるべきパッケージのバージョンを問い合わせるためにロボットにより使用されてもよい。キューイングRESTエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。
RESTエンドポイントの監視は、ウェブアプリケーション232およびエージェント214を監視してもよい。通知および監視API236は、エージェント214の登録、エージェント214への構成設定の配信、ならびにサーバーおよびエージェント214からの通知の送受信に使用されるRESTエンドポイントであってもよい。通知および監視API236は、いくつかの実施形態では、WebSocket通信を使用してもよい。
永続層は、本実施形態では、一対のサーバー-データベースサーバー240(例えば、SQLサーバー)およびインデクササーバー250を含む。本実施形態におけるデータベースサーバー240は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション232を介して管理される。データベースサーバー240は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー240は、ロボットにより記録されたメッセージを(インデクササーバー250に加えて、またはそれに代えて)格納してもよい。
いくつかの実施形態では任意であるが、インデクササーバー250は、ロボットにより記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー250は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー250は、オープンソースプロジェクトの全文検索エンジンであるElasticSearch(登録商標)を使用する。ロボットにより記録されたメッセージ(例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して)は、ロギングRESTエンドポイント(複数可)を介してインデクササーバー250に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。
図3は、本発明の実施形態による、デザイナ310、アクティビティ320、330、およびドライバ340の間の関係300を示すアーキテクチャ図である。以上のように、開発者は、デザイナ310を用いて、ロボットによって遂行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ320およびUIオートメーションアクティビティ330を含んでもよい。いくつかの実施形態では、画像中の非テキストの視覚的コンポーネントを特定することができ、これは、本明細書ではコンピュータビジョン(CV)と呼ばれる。このようなコンポーネントに関連するいくつかのCVアクティビティは、クリック、タイプ、テキストを取得、ホバー、要素の有無を検出、スコープの更新、ハイライトなどを含み得るが、これらに限定されない。いくつかの実施形態では、クリックは、例えば、CV、光学的文字認識(OCR)、ファジーテキストマッチング、およびマルチアンカーを使用して要素を特定し、それをクリックする。タイプは、上記および要素内のタイプを用いて要素を特定してもよい。テキストの取得は、特定のテキストの場所を特定し、OCRを使用してそれをスキャンし得る。ホバーは、要素を特定し、その上にホバーし得る。要素の有無の検出は、上述した技法を用いて、画面上に要素の有無を検出するかどうかを確認し得る。いくつかの実施形態では、デザイナ310に実装され得る数百または数千もののアクティビティが存在してもよい。しかし、本発明の範囲を逸脱することなく、いずれかの数および/またはアクティビティのタイプを利用することができる。
UIオートメーションアクティビティ330は、低レベルのコード(例えば、CVアクティビティ)で記述され、UI層を介したアプリケーションとのインタラクションを促進する特別な低レベルのアクティビティのサブセットである。特定の実施形態では、UIオートメーションアクティビティ300は、例えば、ウィンドウメッセージなどを介したユーザー入力をシミュレートしてもよい。UIオートメーションアクティビティ330は、ロボットが所望のソフトウェアとインタラクションすることを可能にするドライバ340を介して、これらのインタラクションを促進する。例えば、ドライバ340は、OSドライバ342、ブラウザドライバ344、VMドライバ346、エンタープライズアプリケーションドライバ348などを含んでもよい。
ドライバ340は、フックを探したり、キーを監視したりするなど、低レベルでOSとインタラクションしてもよい。それらは、Chrome(登録商標)、IE(登録商標)、Citrix(登録商標)、SAP(登録商標)などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ340を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。
図4は、本発明の実施形態による、RPAシステム400を示すアーキテクチャ図である。いくつかの実施形態では、RPAシステム400は、図1および/または図2のRPAシステム100および/または200であってもよいし、それを含んでもよい。RPAシステム400は、ロボットを実行する複数のクライアントコンピューティングシステム410を含む。コンピューティングシステム410は、その上で実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム420と通信することができる。コンダクタコンピューティングシステム420は、順番に、データベースサーバー430および任意のインデクササーバー440と通信することができる。
図1および図3に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、いずれかの適切なクライアントおよび/またはサーバーソフトウェアを使用することができることに留意すべきである。例えば、コンダクタは、クライアントコンピューティングシステム上で、非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバーサイドアプリケーションを実行してもよい。
図5は、本発明の実施形態による、RPA用のUIマッパーを提供するように構成されたコンピューティングシステム500を示すアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム500は、本明細書に描かれたおよび/または記載された1または複数のコンピューティングシステムであってもよい。コンピューティングシステム500は、情報を通信するためのバス505または他の通信機構と、情報を処理するためのバス505に結合されたプロセッサ(複数可)510とを含む。プロセッサ(複数可)510は、中央処理ユニット(CPU)、特定用途集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、グラフィックスプロセッシングユニット(GPU)、それらの複数のインスタンス、および/またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ(複数可)510はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも1つのプロセッサ(複数可)510は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。
コンピューティングシステム500は、プロセッサ(複数可)510によって遂行される情報および命令を格納するためのメモリ515をさらに含む。メモリ515は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ(複数可)510によりアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。
さらに、コンピューティングシステム500は、無線および/または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信デバイス520を含む。いくつかの実施形態では、通信デバイス520は、周波数分割多元接続(FDMA)、シングルキャリアFDMA(SC-FDMA)、時分割多元接続(TDMA)、符号分割多元接続(CDMA)、直交周波数分割多重方式(OFDM)、直交周波数分割多元接続(OFDMA)、移動体用グローバルシステム(GSM:Global System for Mobile)通信、汎用パケット無線サービス(GPRS:General Packet Radio Service)、ユニバーサル移動体通信システム(UMTS:Universal Mobile Telecommunications System)、cdma2000、広帯域CDMA(W-CDMA:Wideband CDMA)、高速ダウンリンクパケットアクセス(HSDPA:High-Speed Downlink Packet Access)、高速アップリンクパケットアクセス(HSUPA:High-Speed Uplink Packet Access)、高速パケットアクセス(HSPA:High-Speed Packet Access)、ロングタームエボリューション(LTE:Long Term Evolution)、LTEアドバンスト(LTE-A:LTE Advanced)、802.11x、Wi-Fi、Zigbee、超広帯域無線(UWB:Ultra-WideBand)、802.16x、802.15、Home Node-B(HnB)、Bluetooth、無線IDタグ(RFID:Radio Frequency Identification)、IrDA(Infrared Data Association)、近距離無線通信(NFC:Near-Field Communications)、第5世代(5G)、New Radio(NR)、それらのいずれかの組み合わせ、および/または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および/またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信デバイス520は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および/またはいずれかの他のアンテナ構成である1または複数のアンテナを含み得る。
プロセッサ(複数可)510は、バス505を介して、プラズマディスプレイ、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、電界放出ディスプレイ(FED)、有機発光ダイオード(OLED)ディスプレイ、フレキシブルOLEDディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、4Kディスプレイ、高精細ディスプレイ、Retina(登録商標)ディスプレイ、IPS(In-Plane Switching)ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ525にさらに結合されている。ディスプレイ525は、抵抗方式、静電容量方式、表面弾性波(SAW)静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ(ハプティック)ディスプレイ、3次元(3D)タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示デバイスおよびハプティックI/Oを使用することができる。
コンピュータマウス、タッチパッドなどのようなキーボード530およびカーソル制御デバイス535は、ユーザーがコンピューティングシステム500とインターフェースすることを可能にするために、バス505にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ525および/またはタッチパッド(図示せず)のみを介してデバイスとインタラクションすることができる。任意の入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力デバイスおよび/またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム500と通信している別のコンピューティングシステムを介してリモートでそれとインタラクションしてもよいし、コンピューティングシステム500は自律的に動作してもよい。
メモリ515は、プロセッサ(複数可)510により遂行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム500のためのオペレーティングシステム540を含む。モジュールはさらに、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成されたUIマッピングモジュール545を含む。コンピューティングシステム500は、付加的な機能を含む1または複数の付加的な機能モジュール550を含み得る。
当業者であれば、「システム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント(PDA)、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」により実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技法と整合性のあるローカライズされた形態および分配された形態で実装されてもよい。コンピューティングシステムは、ローカルエリアネットワーク(LAN)、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、パブリッククラウドまたはプライベートクラウド、ハイブリッドクラウド、サーバーファーム、それらのいずれかの組み合わせなどの一部またはその他の方法でアクセス可能であり得る。本発明の範囲から逸脱することなく、任意の局所または分散アーキテクチャが使用され得る。
本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積(VLSI)回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックス処理ユニットなどのプログラマブルハードウェアデバイスに実装され得る。
モジュールはまた、様々なタイプのプロセッサにより遂行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、遂行可能コードの特定された単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の1または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、遂行可能な特定されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュデバイス、RAM、テープのような非一時的なコンピュータ読み取り可能な媒体、および/または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかの非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。
実際、遂行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリデバイス間に分散されていてもよい。同様に、動作データは、モジュール内で特定され、ここで示されてもよく、いずれかの適切なタイプのデータ構造体内でいずれかの適切な形態で具現化され、組織化され得る。動作データは、単一のデータセットとして収集されてもよいし、または異なる記憶デバイスにわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。
いくつかの実施形態では、UIマッパーは、ライブモード(本明細書では「レコーダーモード」とも呼ばれる)またはオフラインモード(本明細書では「ナビゲートモード」とも呼ばれる)で動作する。オフラインモードでは、ユーザーが記録されたアプリケーションの画面間で移動することができ、ライブモードは、ユーザーが所定の画面のUI要素を指示すことができるため、ライブモードおよびオフラインモードは相互に排他的であり得る。いくつかの実施形態では、オフラインモードのとき、ライブアプリケーション画面およびそのオーバーレイを停止および/または非表示にすることができる。この機能は、以下の図6A~図6Dに関してさらに詳細に説明される。
図6Aは、本発明の実施形態による、折り畳みモードでのUIマッパー(Mapper)600を示す。UIマッパー600は、いくつかの実施形態では、RPAデザイナアプリケーションのUIオブジェクトブラウザから起動され得る。UIマッパー600は、アプリケーション(Application)612、画面(Screen)614、およびUI要素(UI Element)616によって構成されるUIツリー構造を有するプロジェクトUI記述子ペイン(Project UI Descriptors)610を含む。いくつかの実施形態では、新しいアプリケーションおよび画面は、ツールバーのボタンから、または追加ボタンをクリックすることによって、またはその両方によって追加され得る。例えば、ユーザーが追加ボタン602または所定のツリーアイテムに関連するホバー専用の追加ボタン(+)(例えば、追加ボタン615)をクリックした場合、関連するアプリケーションまたは画面が追加され得る。
本実施形態では、1つのアプリケーション612、画面614、およびUI要素が示される。しかし、本発明の範囲を逸脱しない範囲で、アプリケーションの性質に基づいて、任意の数のアプリケーション、画面、およびUI要素が使用され、構成され得る。UI要素のペインなど、他のUI要素のスコープが指定されている場合、このコンテナはアプリケーションまたは画面の子として現れ得る。画面が複数の画面で使用されるUI要素に使用される場合、この一般画面もツリー内の独自のレベルで、または他の画面と同じレベルで現れ得る。
新しいアプリケーションが選択された場合、次に、新しいアプリケーションおよび画面が適切な位置のUIツリーに作成されてもよく、およびUI要素のプロパティがプロパティペイン(例えば、図6Bのプロパティペイン620を参照)に表示されてもよい。「名前」フィールド(例えば、図6Bの名前フィールド622)は、例えば、セレクタ情報におけるコンポーネントの名前に基づいて予め記入されてもよく、また、ユーザーによって編集可能であってもよい。新しいアプリケーションを選択すると、ユーザーがアプリケーション画面にUI要素を指示し得るいくつかの実施形態におけるアプリケーションの「ライブ」モードを同時に開始し得る。例えば、図6B~図6Dを参照。
アプリケーションを指示した後、該当する場合、アプリケーションパスおよび引数が収集および格納され、実行時データを含む新しい画面が作成される。これは、例えば、アプリケーションパスおよび引数(例えば、その特定のファイルでアプリケーションを開くためのファイル名およびパス)、ならびにセレクタを含み得る。この情報のセットは、画面を作成するために使用され得る。
いくつかの実施形態では、アプリケーションを指示した後に、UIツリーにアプリケーションを作成せずに、新しい独立した画面が作成され得る。ユーザーが特定のアプリケーションに属さない画面、および/または特定の画面に属さないUI要素を持ちたい場合を考えてみる。例えば、特定のボタンが複数の画面または他のアプリケーションの状態で現れる場合、そのようなすべての画面で同じボタンの個別のUI記述子インスタンスを使用しても意味がない場合がある。ユーザーは、このようなボタンを、特定のアプリケーション状態ではない一般的な画面内のUI要素として指定し得る。
図6Aおよび図6Bの実施形態では、ライブモードとオフラインモードの2つの編集モードがある。図6Aでは、UIマッパー600はオフラインモードであり、および図6Bでは、UIマッパー600はライブモードである。これらのモードでは、ユーザーが新しい要素を追加したり、既存の要素を修正したりすることができる。ライブモード(本明細書では「レコーダーモード」とも呼ばれる)は、レコーダーモードボタン604を介して呼び出され得、これはナビゲートボタン606を無効化する。逆に、ナビゲートボタン606をクリックすると、レコーダーモードボタン604が無効となり、ユーザーはオフラインモードで動作し得る。本実施形態におけるライブモードとオフラインモードの主な違いは、ライブモードではインタラクションがUI要素をリポジトリに追加するだけなのでアプリケーション自体が動作され得ないのに対し、ナビゲートモードではインタラクションがアプリケーションに送られるので、アプリケーションでそれらを指示することによって新しいUI要素が追加され得ない。
図6B~図6Dに目を向けると、レコーダーモードでは、ライブアプリケーション画面640に対して指示機能が開始される。図6Cおよび図6Dで分かるように、ライブアプリケーション画面640は、チェックボックスおよびラジオボタンによって構成される様々なオプション、ならびにテキストフィールドを含む。当初、ライブアプリケーション画面640では、UI要素は指示されていない。図6Cを参照。ユーザーはUI要素をクリックしてUI記述子情報を提供することにより手動でUI要素をキャプチャし得る、またはCVを用いて自動的にUI要素の特定を試み、ユーザーに提案を与え得る。例えば、ボタン、フォームフィールド、ドロップダウンメニューなど、目に見える要素をキャプチャするようにCVが提案し得る。
図6Dに目を向けると、ユーザーは、マルチアンカーアプローチを使用してターゲットUI要素642を一意に特定するために、ターゲットUI要素642および2つのアンカー644、646を選択する。ターゲットUI要素642が指示された後、ターゲットUI要素642のプロパティは、例えば、ユーザーが編集ボタン617にカーソルを合わせてクリックすると、プロパティペイン620に追加されてユーザーに表示され得る。本実施形態では、プロパティは、UI要素名622、説明623、トップレベルセレクタ(Top Level Selector)626、ターゲット(Target)プロパティ630およびアンカー(Anchor)プロパティ628を含む。アンカープロパティ628を拡張すると、いくつかの実施形態では、ターゲットプロパティ630に対するそれぞれのアンカーを見つけるためのUI記述子のオプションの同様のセットを示し得る。
ターゲットプロパティ630は、所望するUI要素検出技術(複数可)、すなわち、本実施形態ではそれぞれセレクタ、ファジーセレクタ、および画像マッチングを選択するためのチェックボックス632、634、638を含む。ユーザーは、テキストエリア633、635をそれぞれ使用して、セレクタ技術およびファジーセレクタ技術の属性を手動で修正し得る。ユーザーは、スライダを使用して、または手動で値を入力することによって、セレクタ精度(Selector Accuracy)636を修正し得る。画像精度(Image Accuracy)639は、それぞれのスライダを使用して、または手動で値を入力することによって修正され得る。
プロパティペイン620を使用して、ユーザーは、アンカーの削除、ターゲットの削除、セレクタの編集、UI要素名および説明の編集などを含むがこれらに限定されない、それぞれのUI要素に対する様々なプロパティを修正することができる。いくつかの実施形態では、ユーザーがアンカーを追加するために、UIマッパーはライブモードである必要がある。プロジェクトUI記述子ペイン610を使用して、ユーザーは、現在選択されているUI要素616をツリー階層内の異なる位置に移動させ得る。UI要素の構成が終了すると、ユーザーは、次の所望のUI要素および/または画面をキャプチャするためにレコーディングプロセスを再開する要素確認ボタン624をクリックし得る。
いくつかの実施形態では、ユーザーは、プロジェクトUI記述子ペイン610のUIツリーにおいて、任意の所望のUI要素616をクリックし得る。有効な場合(例えば、UI記述子(複数可)がライブアプリケーション画面内でターゲットUI要素を見つけることができた)、図6Dに示すように、ターゲットUI要素はライブアプリケーション画面640上で強調され、UI要素の設定はさらに所望に応じて編集され得る。ターゲットUI要素が有効でない場合、いくつかの実施形態では、ターゲットUI要素のプロパティはまだ表示され、編集され得るが、エラー(複数可)が訂正されるまで新しい要素(ターゲット/アンカー)が追加され得ない。また、編集が行われた場合、再度検証も行われ得る。
また、ユーザーは、UIツリーの画面614内をクリックし得る。いくつかの実施形態では、このアクションに対する視覚的な応答がない場合があるが、次に追加される要素は、前の画面ではなく選択された画面に追加される場合がある。UI要素、画面、およびアプリケーションは、いくつかの実施形態では、それぞれの要素を右クリックし、削除オプション(図示せず)を選択することによって削除され得る。ユーザーは、ツールバーのナビゲートボタン606をクリックすることによって記録を停止し得る。
図6Aのナビゲート(オフライン)モードにおけるオフライン編集は、ライブアプリケーション画面640における要素の強調およびライブ検証、ならびにアンカーの追加が行われ得ないこと除いて、図6Bのライブモードと同様であってよい。プロパティペイン620は、ナビゲートモードにおいても、図6Bに示されたプロパティの手動編集を可能にし得る。ユーザーは、レコーダーモードボタン604を介して、ライブモードに戻ることができる。
要素の強調は、ハイライトボタン608を用いて実行され得る。これは、いくつかの実施形態では、単一のUI要素またはすべてのUI要素に対して開始され得る。1つのUI要素の場合、UI要素の強調はそれを検索することを意味する場合があるので、このアクションは、ナビゲートモードからレコーディングモードにモードを切り替えることができる。ライブアプリケーション画面640では、対象のUI要素が自動的に強調される場合がある。
ユーザーが画面を強調した場合、画面内のすべてのUI要素が検索され、およびターゲットが強調され得る。画面のために、ハイライトボタン608はトグルボタンのように動作得、ユーザーが再度それを押すまでオンのままである。この状態で、必要に応じて、ユーザーはレコーディングモードに切り替えて、他のUI要素を追加/編集し得る。要素の検索中に、キャンセル可能な「トースター」が表示される場合があり、プロセスの終了まで待機するのではなく、見つかったときに各UI要素が表示される場合がある。
図7は、本発明の実施形態による、UIマッパーのプロセス700を示すフローチャートである。プロセスは、705で、アプリケーションの画面内のUI要素の指示を容易にするインターフェースを提供することから始まる。710でユーザーが新しいアプリケーションを選択すると、UIツリー内に新しいアプリケーションおよび画面が作成され、715でアプリケーションのアプリケーションパスおよび引数が収集されて格納される。
画面上でCVが実行されてUI要素が自動的に特定され、720で自動的に特定されたUI要素を使用して1または複数のUI要素の提案が提供される。画面内のUI要素の1または複数の指示が725で受信され、1または複数の指示されたUI要素が730でアプリケーションのUIツリーに含まれる。
いくつかの実施形態では、UIマッパーは、インターフェースを提供し、かつ画面上のUI要素の指示を受信するレコーダーモードで動作するように構成される。特定の実施形態では、UIマッパーは、ナビゲートモードで動作するように構成され、UIマッパーは異なる画面の選択を容易にする。いくつかの実施形態では、UIマッパーは、両方のモードで動作するように構成される。レコーダーモードとナビゲートモードは、特定の実施形態では相互に排他的である。
いくつかの実施形態では、UIマッパーは、RPAデザイナアプリケーションのUIオブジェクトブラウザから起動される。特定の実施形態では、UIマッパーは、1または複数のアプリケーション、アプリケーションごとの1または複数のそれぞれの画面、およびUIツリーに含まれる画面ごとの1または複数のそれぞれのUI要素によって構成されるUI記述子ペイン含む。いくつかの実施形態では、UI要素が選択されたとき、プロパティペインは、ターゲットUI要素およびターゲットUI要素を特定するための1または複数のUI記述子のプロパティを含む。特定の実施形態では、プロパティペインは、ターゲットUI要素に関連付けられた少なくとも1つのアンカーをさらに含む。いくつかの実施形態では、UIマッパーは、プロパティペインを介して、アンカーの削除ターゲットUI要素の削除、1または複数のUI記述子の編集、ターゲットUI要素の名前および説明の編集、あるいはそれらの組み合わせを容易にするように構成される。
いくつかの実施形態は、例えば、ユーザーが画面上で選択されたUI要素を検索したい場合、またはすべてのUI要素を見たい場合、735でハイライトモード機能を実装する。ハイライトモード機能は、前者については、UIマッパーにおけるUI要素の選択を受信し、かつ選択されたUI要素を画面内で検索すること、および/または、後者については、画面の選択を受信し、かつ画面内で見つかった各UI要素を表示することを含み得る。いくつかの実施形態では、アプリケーションの複数の画面に共通する1または複数のUI要素を含む少なくとも1つの新しい独立した画面が740で作成される。
いくつかの実施形態では、画面のための1または複数のコンテナが745で提供される。1または複数のコンテナは、画面のサブセットを含む。選択されたアプリケーション、画面、またはUI要素のプロパティを含むプロパティペインが750に表示される。例えば、図6Bを参照。1または複数の指示されたUI要素は、755において、後の再利用のためにオブジェクトリポジトリに追加される。
755でユーザーがアプリケーションの別の画面に移動したい場合、ユーザーはUIマッパーをナビゲートモードにし、次の画面を選択し、レコーダーモードに戻り、そしてその画面のためにステップ720に戻ることができる。いくつかの実施形態では、ユーザーは、異なるアプリケーションを選択し、そのアプリケーションのためにステップ705に進むことができる。これ以上、画面またはアプリケーションを表示しない場合は、次に処理を終了する。
図7で実行されるプロセスステップは、本発明の実施形態に従って、図7で説明したプロセス(複数可)の少なくとも一部を実行するようにプロセッサ(複数可)への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、RAM、テープ、および/またはデータを格納するために使用される他のそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、図7に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム(例えば、図5のコンピューティングシステム500のプロセッサ(複数可)510)のプロセッサ(複数可)を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。
コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに動作可能な通信を行うモジュールで構成され得、情報または指示をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ASIC、またはいずれかの他の好適なデバイスで動作するように構成され得る。
本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。
本明細書を通して記載された本発明の特色、構造、または特徴は、1または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも1つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、1または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。
本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態であることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも1つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。
さらに、本発明の記載された特色、利点、および特徴は、1または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術の当業者は、本発明が、1または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の例では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれないが特定の実施形態では認識され得る。
本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および/または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。

Claims (20)

  1. 非一時的なコンピュータ読み取り可能な媒体上に格納されたUI要素をマッピングするように構成されたユーザーインターフェース(UI)マッパーを提供するためのコンピュータプログラムであって、前記コンピュータプログラムは、少なくとも1つのプロセッサが、
    アプリケーションの画面におけるUI要素の指示を容易にするインターフェースを提供し、
    前記画面の前記UI要素の1または複数の指示を受信し、
    指示された前記1または複数のUI要素を前記アプリケーションのUIツリーに含むように構成され、
    前記UIマッパーは、前記インターフェースを提供し、かつ前記画面上の前記UI要素の前記指示を受信するライブモードで動作するように構成され、
    前記UIマッパーは、オフラインモードで動作するように構成され、前記UIマッパーは異なる画面の選択を容易にする、コンピュータプログラム。
  2. 前記ライブモードおよび前記オフラインモードは、相互に排他的である、請求項1に記載のコンピュータプログラム。
  3. 前記UIマッパーは、RPAデザイナアプリケーションのUIオブジェクトブラウザから起動される、請求項1に記載のコンピュータプログラム。
  4. 前記UIマッパーは、1または複数のアプリケーション、アプリケーションごとの1または複数のそれぞれの画面、および前記UIツリーに含まれる画面ごとの1または複数のそれぞれのUI要素によって構成されるUI記述子ペイン含む、請求項1に記載のコンピュータプログラム。
  5. 前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
    ユーザーが新しいアプリケーションを選択すると、前記UIツリーに前記新しいアプリケーションおよび画面を作成するように構成される、請求項1に記載のコンピュータプログラム。
  6. 前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
    前記アプリケーションのアプリケーションパスおよび引数を収集しかつ格納するように構成される、請求項1に記載のコンピュータプログラム。
  7. 前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
    前記アプリケーションの異なる画面に共通する1または複数のUI要素を含む少なくとも1つの新しい独立した画面を作成するように構成される、請求項1に記載のコンピュータプログラム。
  8. 前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
    前記画面上でコンピュータビジョン(CV)を実行し、UI要素を自動的に特定し、
    自動的に特定された前記UI要素を使用して、1または複数のUI要素の提案を提供するように構成される、請求項1に記載のコンピュータプログラム。
  9. 前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
    選択されたアプリケーション、画面、またはUI要素のプロパティを含むプロパティペインを表示するように構成される、請求項1に記載のコンピュータプログラム。
  10. UI要素が選択されたとき、前記プロパティペインは、ターゲットUI要素および前記ターゲットUI要素を特定するための1または複数のUI記述子のプロパティを含む、請求項9に記載のコンピュータプログラム。
  11. 前記プロパティペインは、前記ターゲットUI要素に関連付けられた少なくとも1つのアンカーをさらに含む、請求項10に記載のコンピュータプログラム。
  12. 前記UIマッパーは、前記プロパティペインを介して、アンカーの削除、前記ターゲットUI要素の削除、前記1または複数のUI記述子の編集、前記ターゲットUI要素の名前および説明の編集、あるいはそれらの組み合わせを容易にするように構成される、請求項10に記載のコンピュータプログラム。
  13. 前記UIマッパーはハイライト機能を含み、前記ハイライト機能が有効であるとき、前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
    前記UIマッパーにおいてUI要素の選択を受信しかつ選択された前記UI要素を前記画面内で検索し、画面の選択を受信しかつ前記画面上で見つかった各UI要素を表示し、またはその両方を行うように構成される、請求項1に記載のコンピュータプログラム。
  14. 前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
    前記画面用の1または複数のコンテナを提供し、前記1または複数のコンテナは、前記画面のサブセットを含むように構成される、請求項1に記載のコンピュータプログラム。
  15. 前記コンピュータプログラムはさらに、前記少なくとも1つのプロセッサが、
    後の再利用のために、指示された前記1または複数のUI要素をオブジェクトリポジトリに追加するように構成される、請求項1に記載のコンピュータプログラム。
  16. ロボティックプロセスオートメーション(RPA)のためのユーザーインターフェース(UI)要素をマッピングするためのコンピュータ実装方法であって、
    UIマッパーによるアプリケーションの画面内のUI要素の指示を容易にするインターフェースを提供し、
    前記UIマッパーにより、前記画面内の前記UI要素の1または複数の指示を受信し、
    前記UIマッパーにより、指示された前記1または複数のUI要素を前記アプリケーションのUIツリーに含め、
    前記UIマッパーまたはUIオブジェクトブラウザにより、後の再利用のために、指示された前記1または複数のUI要素をオブジェクトリポジトリに追加することを含み、
    前記UIマッパーは、1または複数のアプリケーション、アプリケーションごとの1または複数のそれぞれの画面、および前記UIツリーに含まれる画面ごとの1または複数のそれぞれのUI要素によって構成されるUI記述子ペイン含む、コンピュータ実装方法。
  17. 前記UIマッパーは、前記インターフェースを提供し、かつ前記画面上の前記UI要素の前記指示を受信するライブモードで動作するように構成され、
    前記UIマッパーは、オフラインモードで動作するように構成され、前記UIマッパーは異なる画面の選択を容易にする、請求項16に記載のコンピュータ実装方法。
  18. 前記UIマッパーがハイライト機能を含み、前記ハイライト機能が有効であるとき、前記方法はさらに、
    前記UIマッパーにおいてUI要素の選択を受信しかつ選択された前記UI要素を前記画面内で検索し、画面の選択を受信しかつ前記画面上で見つかった各UI要素を表示し、またはその両方を行うことを含む、請求項16に記載のコンピュータ実装方法。
  19. 非一時的なコンピュータ読み取り可能な媒体上に格納されたUI要素をマッピングするように構成されたユーザーインターフェース(UI)マッパーを提供するためのコンピュータプログラムであって、前記コンピュータプログラムは、少なくとも1つのプロセッサが、
    アプリケーションの画面におけるUI要素の指示を容易にするインターフェースを提供し、
    前記画面の前記UI要素の1または複数の指示を受信し、
    指示された前記1または複数のUI要素を前記アプリケーションのUIツリーに含め、
    選択されたアプリケーション、画面、またはUI要素のプロパティを含むプロパティペインを表示するように構成され、
    UI要素が選択されたとき、前記プロパティペインは、ターゲットUI要素および前記ターゲットUI要素を特定するための1または複数のUI記述子のプロパティを含む、コンピュータプログラム。
  20. 前記UIマッパーは、前記プロパティペインを介して、アンカーの削除、前記ターゲットUI要素の削除、前記1または複数のUI記述子の編集、前記ターゲットUI要素の名前および説明の編集、あるいはそれらの組み合わせを容易にするように構成される、請求項19に記載のコンピュータプログラム。
JP2023513196A 2020-09-14 2021-07-07 ロボティックプロセスオートメーションのためのユーザーインターフェース(ui)マッパー Pending JP2023541548A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/019,679 2020-09-14
US17/019,679 US11385777B2 (en) 2020-09-14 2020-09-14 User interface (UI) mapper for robotic process automation
PCT/US2021/040662 WO2022055605A1 (en) 2020-09-14 2021-07-07 User interface (ui) mapper for robotic process automation

Publications (1)

Publication Number Publication Date
JP2023541548A true JP2023541548A (ja) 2023-10-03

Family

ID=80625768

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023513196A Pending JP2023541548A (ja) 2020-09-14 2021-07-07 ロボティックプロセスオートメーションのためのユーザーインターフェース(ui)マッパー

Country Status (5)

Country Link
US (1) US11385777B2 (ja)
EP (1) EP4211550A1 (ja)
JP (1) JP2023541548A (ja)
CN (1) CN116324697A (ja)
WO (1) WO2022055605A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11543930B2 (en) * 2020-11-10 2023-01-03 RealFar Ltd Augmenting web applications with optimized workflows supporting user interaction
US20220405064A1 (en) * 2021-06-17 2022-12-22 International Business Machines Corporation Robotic process automation
CN116185411B (zh) * 2023-03-23 2024-04-30 苏州峰之鼎信息科技有限公司 Rpa界面的确定方法、装置、计算机设备及存储介质
CN117573006B (zh) * 2024-01-17 2024-05-10 杭州实在智能科技有限公司 用于rpa屏幕界面元素批量拾取的方法及系统

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6823497B2 (en) * 1999-11-30 2004-11-23 Synplicity, Inc. Method and user interface for debugging an electronic system
CA2322594C (en) * 2000-10-06 2005-01-11 Ibm Canada Limited-Ibm Canada Limitee System and method for managing web page components
US8068103B2 (en) 2004-06-24 2011-11-29 Apple Inc. User-interface design
US20070028162A1 (en) * 2005-07-30 2007-02-01 Microsoft Corporation Reusing content fragments in web sites
US8392886B2 (en) * 2006-10-17 2013-03-05 Artoftest, Inc. System, program product, and methods to enable visual recording and editing of test automation scenarios for web application
US20090273597A1 (en) 2008-05-05 2009-11-05 International Business Machines Corporation User interface screen layout analysis using hierarchical geometric features
US9141518B2 (en) * 2008-12-10 2015-09-22 Microsoft Technology Licensing, Llc GUI testing
US9104809B2 (en) * 2010-03-24 2015-08-11 Fujitsu Limited Facilitating automated validation of a web application
US20120096340A1 (en) 2010-10-13 2012-04-19 Sony Pictures Technologies Inc. Reformatting web pages in bd platform
US9811233B2 (en) * 2013-02-12 2017-11-07 Ab Initio Technology Llc Building applications for configuring processes
US9424167B2 (en) * 2014-05-21 2016-08-23 Cgi Technologies And Solutions Inc. Automated testing of an application system
US9965139B2 (en) 2015-03-03 2018-05-08 Soroco Private Limited Software robots for programmatically controlling computer programs to perform tasks
EP3112965A1 (en) * 2015-07-02 2017-01-04 Accenture Global Services Limited Robotic process automation
US10386985B2 (en) 2015-07-14 2019-08-20 International Business Machines Corporation User interface pattern mapping
US10210001B2 (en) 2015-11-04 2019-02-19 Observepoint, Inc. Automatic execution of objects in a user interface
US9600401B1 (en) * 2016-01-29 2017-03-21 International Business Machines Corporation Automated GUI testing
TWI670639B (zh) 2017-05-18 2019-09-01 美商愛特梅爾公司 用於識別使用者介面元件之技術以及使用其之系統及裝置
US10747404B2 (en) 2017-10-24 2020-08-18 Microchip Technology Incorporated Touchscreen including tactile feedback structures and corresponding virtual user interface elements
US10705948B2 (en) 2017-10-30 2020-07-07 Bank Of America Corporation Robotic process automation simulation of environment access for application migration
KR102132383B1 (ko) 2018-05-28 2020-07-09 슈어소프트테크주식회사 딥러닝 알고리즘 및 트리를 이용한 ui테스팅 자동화 방법 및 동일 방법으로 구현된 장치
US11537497B2 (en) * 2018-08-08 2022-12-27 Atos France Systems and methods for merging and aggregation of workflow processes
US11487973B2 (en) * 2019-07-19 2022-11-01 UiPath, Inc. Retraining a computer vision model for robotic process automation
US11663103B2 (en) * 2019-09-06 2023-05-30 Pegasystems, Inc. Automatic control identification
US11403118B2 (en) * 2019-12-30 2022-08-02 UiPath Inc. Enhanced target selection for robotic process automation
CN111221612B (zh) 2020-01-03 2023-08-29 北京小米移动软件有限公司 一种定位用户界面元素的方法、装置及介质
US10654166B1 (en) 2020-02-18 2020-05-19 UiPath, Inc. Automation windows for robotic process automation
US20220092607A1 (en) * 2020-09-24 2022-03-24 The Toronto-Dominion Bank Management of programmatic and compliance workflows using robotic process automation

Also Published As

Publication number Publication date
WO2022055605A1 (en) 2022-03-17
US11385777B2 (en) 2022-07-12
CN116324697A (zh) 2023-06-23
US20220083181A1 (en) 2022-03-17
EP4211550A1 (en) 2023-07-19

Similar Documents

Publication Publication Date Title
US11307876B1 (en) Automated remedial action to expose a missing target and/or anchor(s) for user interface automation
US11748069B2 (en) User interface (UI) descriptors, UI object libraries, UI object repositories, and UI object browsers for robotic process automation
US11385777B2 (en) User interface (UI) mapper for robotic process automation
US11301268B2 (en) Graphical element detection using a combination of user interface descriptor attributes from two or more graphical element detection techniques
JP2023549632A (ja) 人工知能/機械学習によるロボティックプロセスオートメーションのための異常検出および自己修復
KR102363774B1 (ko) 사용자 인터페이스 자동화에서의 자동 앵커 결정 및 타겟 그래픽 요소 식별
JP2023544278A (ja) テスト中のアプリケーションのテストオートメーションのためのコンピュータ実装方法およびシステム
JP7242981B2 (ja) 特定用途向けグラフィカル要素検出
US11232170B1 (en) Application-specific graphical element detection
JP2023542559A (ja) 組み合わせた直列および遅延並列実行統一ターゲット技術、デフォルトのグラフィカル要素検出技術、またはその両方を用いたグラフィカル要素検出
KR102447072B1 (ko) 둘 이상의 그래픽 요소 검출 기법들로부터의 사용자 인터페이스 디스크립터 속성들의 조합을 사용한 그래픽 요소 검출
US11281362B1 (en) Graphical element detection using a combined series and delayed parallel execution unified target technique, a default graphical element detection technique, or both
US20230191601A1 (en) Multi-target libraries, projects, and activities for robotic process automation
JP2023539853A (ja) ロボティックプロセスオートメーション(rpa)パッケージおよびワークフローのウェブベースの閲覧

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240313