JP2023545644A

JP2023545644A - 人工知能／機械学習モデルを使用したインタラクションのシーケンス決定、プロセス抽出、およびロボット生成

Info

Publication number: JP2023545644A
Application number: JP2023518734A
Authority: JP
Inventors: シング，プラブディープ
Original assignee: UiPath Inc
Current assignee: UiPath Inc
Priority date: 2020-10-14
Filing date: 2021-10-05
Publication date: 2023-10-31
Also published as: US11301269B1; WO2022081378A1; US20220283827A1; US20220113994A1; WO2022081379A1; US20220113992A1; US20220206826A1; US11803397B2; EP4229570A1; US11340917B2; CN116508037A; US11782739B2

Abstract

人工知能（ＡＩ）／機械学習（ＭＬ）モデルの使用は、コンピューティングシステムとのユーザーインタラクションのシーケンスを決定し、共通のプロセスを抽出し、そしてロボティックプロセスオートメーション（ＲＰＡ）ロボットを生成するために開示される。ＡＩ／ＭＬモデルは、ユーザーインタラクションの一致するｎ－ｇｒａｍおよび／または有益な最終状態を認識するように訓練され得る。記録された実際のユーザーインタラクションが分析され得、一致するシーケンスがＲＰＡワークフローにおける対応するアクティビティとして実装され得る。

Description

（関連出願への相互参照）
これは、２０２０年１０月１４日に出願された米国特許出願第１７／０７０，１６８号の利益およびその優先権を主張する国際出願です。先に提出された本出願の主題は、その全体を参照することにより、本明細書に組み込まれる。

本発明は概して、ユーザーインターフェース（ＵＩ）オートメーションに関し、より具体的には、人工知能（ＡＩ）／機械学習（ＭＬ）モデルを使用して、コンピューティングシステムとユーザーとのインタラクションのシーケンスを決定し、共通のプロセスを抽出し、そしてロボティックプロセスオートメーション（ＲＰＡ）ロボットを生成することに関する。

ＵＩオートメーションを実行するために、ＲＰＡ技術は、ドライバおよび／またはアプリケーションレベルのインタラクションを利用して、ボタンをクリックし、テキストを入力し、ＵＩとの他のインタラクションを実行し得る。しかし、キー押下、マウスクリック、および他のカーネルフック情報は、いくつかの実施形態において、または新しいＵＩオートメーションプラットフォームを構築する際に、システムレベルで利用できない場合がある。このようなＵＩオートメーションプラットフォームを実装するためには、広範なドライバレベルおよびアプリケーションレベルの機能性が一般的に必要である。さらに、ユーザーがどのように彼らのコンピューティングシステムとインタラクションしているかわからない場合がある。したがって、ＵＩオートメーションを提供するための代替技術は有益であり得る。

本発明の特定の実施形態は、現在のＵＩオートメーション技術によってまだ十分に特定されていない、評価されていない、または解決されていない本分野における問題およびニーズのソリューションを提供し得る。例えば、本発明のいくつかの実施形態は、ＡＩ／ＭＬモデルを使用して、コンピューティングシステムとユーザーとのインタラクションシーケンスを決定し、共通のプロセスを抽出し、そしてＲＰＡロボットを生成することに関する。

実施形態では、コンピュータ実装方法は、コンピューティングシステムによって、複数のユーザーとそれぞれのユーザーコンピューティングシステムとの時間順インタラクションを含むデータをＡＩ／ＭＬモデルに提供することを含む。コンピュータ実装方法はまた、コンピューティングシステムによって、コンピューティングシステムからの記録データにおけるユーザーインタラクションのシーケンスのｎ－ｇｒａｍをスライディングウィンドウで比較して関連シーケンスを見つけることにより、ユーザーインタラクションの時間順シーケンスにおけるタスクに関係するユーザーインタラクションの関連シーケンスを認識するために、ＡＩ／ＭＬモデルを訓練することを含む。ｎ－ｇｒａｍは、ｎの２つ以上の値を含む。コンピュータ実装方法は、訓練されたＡＩ／ＭＬモデルを展開することをさらに含む。

別の実施形態では、非一時的なコンピュータ読み取り可能な媒体は、コンピュータプログラムを格納する。コンピュータプログラムは、少なくとも１つのプロセッサが、ＡＩ／ＭＬモデルによって、複数のユーザーとそれぞれのコンピューティングシステムとの記録された実際のユーザーインタラクションを分析し、記録された実際のユーザーインタラクションにおける一致するシーケンスのセットを決定するように構成される。コンピュータプログラムはまた、少なくとも１つのプロセッサが、決定された一致するシーケンスのセットのユーザーインタラクションを実装するアクティビティを含む１または複数のそれぞれのＲＰＡワークフローを生成するように構成される。

さらに別の実施形態では、システムは、コンピュータプログラム命令を格納するメモリと、コンピュータプログラム命令を遂行するように構成された少なくとも１つのプロセッサとを含む。コンピュータプログラム命令は、少なくとも１つのプロセッサが、ＡＩ／ＭＬモデルによって、複数のユーザーとそれぞれのコンピューティングシステムとの記録された実際のユーザーインタラクションを分析し、記録された実際のユーザーインタラクションにおける一致するシーケンスを決定するように構成される。コンピュータプログラム命令はまた、少なくとも１つのプロセッサが、一致するシーケンスのうちの最も効率的なシーケンスを決定するように構成される。コンピュータプログラム命令はさらに、少なくとも１つのプロセッサが、決定された最も効率的な一致するシーケンスのユーザーインタラクションを実装するアクティビティを含む１または複数のそれぞれのＲＰＡワークフローを生成するように構成される。

本発明の特定の実施形態の利点が容易に理解されるように、上記で簡単に説明した本発明のより特定の説明は、添付の図面に図示されている特定の実施形態を参照して描写される。これらの図面は、本発明の典型的な実施形態のみを描いており、したがって、その範囲を限定するものとは考えられないことが理解されるべきであるが、本発明は、以下の添付の図面を使用することにより、さらなる特定および詳細をもって描写され、説明されるであろう。

本発明の実施形態による、ロボティックプロセスオートメーション（ＲＰＡ）システムを示すアーキテクチャ図である。

本発明の実施形態による、展開したＲＰＡシステムを示すアーキテクチャ図である。

本発明の実施形態による、デザイナ、アクティビティ、およびドライバの間の関係を示すアーキテクチャ図である。

本発明の実施形態による、ＲＰＡシステムを示すアーキテクチャ図である。

本発明の実施形態による、ＡＩ／ＭＬモデルを使用してコンピューティングシステムとのユーザーインタラクションのシーケンスを決定し、共通プロセスを抽出し、そしてＲＰＡロボットを生成するように構成されたコンピューティングシステムを説明するアーキテクチャ図である。

本発明の実施形態による、ＡＩ／ＭＬモデルを使用してコンピューティングシステムとのユーザーインタラクションのシーケンスを決定し、共通プロセスを抽出し、そしてＲＰＡロボットを生成するように構成されたシステムを説明するアーキテクチャ図である。

本発明の実施形態による、ＡＩ／ＭＬモデルを使用してコンピューティングシステムとのユーザーインタラクションのシーケンスを決定し、共通プロセスを抽出し、そしてＲＰＡロボットを生成するプロセスを説明するフローチャートである。

本発明の実施形態による、ＡＩ／ＭＬモデルを使用して望ましい最終状態に基づくプロセス抽出を実施し、そしてＲＰＡロボットを生成するためのプロセスを説明するフローチャートである。

本発明の実施形態による、ユーザーインタラクションのシーケンスを表すｎ－ｇｒａｍの比較を説明する図である。

別段の記載がない限り、類似の参照文字は、添付の図面全体で一貫して対応する特徴を示す。

（実施形態の詳細な説明）
いくつかの実施形態は、ＡＩ／ＭＬモデルを使用して、コンピューティングシステムとユーザーとのインタラクションシーケンスを決定し、共通のプロセスを抽出し、そしてＲＰＡロボットを生成することに関する。ユーザーインタラクションは、コンピュータビジョン（ＣＶ）を用いてアプリケーション、画面、およびＵＩ要素を認識し、そしてアプリケーション、画面、およびＵＩ要素とのユーザーインタラクションを認識するように訓練されたＡＩ／ＭＬモデルによって決定され得る。このＡＩ／ＭＬモデルは、その後にシーケンス検索を行う同じＡＩ／ＭＬモデルであってもよいし、異なるＡＩ／ＭＬモデルであってもよい。個々のユーザーインタラクションは、ユーザーがボタンをクリックする、フィールドにテキストを入力する、メニューとインタラクションする、ウィンドウを閉じる、アプリケーションの異なる画面に移動する、などを含むが、これらに限定されない。ユーザーインタラクションのシーケンスの例は、例えば、アプリケーションを開き、複数のテキストフィールドに情報を入力し、そして送信ボタンをクリックすることを含み得る。

ユーザーインタラクションは、複数のコンピューティングシステムから収集されたデータから抽出され得る。例えば、収集されたデータは、ビデオ単体および／またはブラウザ履歴、ヒートマップ、ファイル情報、現在実行中のアプリケーションおよび位置、システムレベルおよび／またはアプリケーションレベルの情報など、コンピューティングシステムから収集された他のデータを含み得る。次に、抽出されたユーザーインタラクションは、電子メールを書いて送信する、フォームに情報を入力してそれを送信する、ウェブサイトから取得した情報に基づいてスプレッドシートを修正する、など、より大きなアクティビティまたはタスクに関連するインタラクションのシーケンスに結合され得る。

いくつかの実施形態では、複数のサイズのｎ－ｇｒａｍを使用して、データ内の一致するシーケンスを検索し得る。ｎの最低値が小さすぎると、一致するシーケンスが多すぎて意味のあるシーケンスを特定することができない場合がある。逆に、ｎの最低値が大きすぎると、ｎより小さい意味のある一致するシーケンスが見逃される場合がある。訓練中、人間のレビューアは、ある開始サイズｎ（例えば、２、３、７など）の特定されたシーケンスをレビューすることができる。このサイズがあまりにも多くの役に立たないシーケンスを生成する場合、一致するシーケンスが有用になる傾向があるまで、最小のシーケンスサイズがｎ＋１、次にｎ＋２、次にｎ＋３などにインクリメントされ得る。最小の有用なｎが決定された後（例えば、少なくとも１０％の有用なシーケンス、少なくとも３０％、少なくとも５０％、少なくとも９０％などを生成する最小のｎ）、そのｎ－ｇｒａｍサイズ以下のシーケンスは、無視されるか、または決定／考慮されないことがある。いくつかの実施形態では、ＡＩ／ＭＬモデルは、一致するシーケンスの最大数に基づいて、ｎの最小値を自動的に選択し得る。特定の実施形態では、あるｎ－ｇｒａｍサイズのシーケンスが考慮されるために、ある数の一致が必要とされ得る。例えば、大規模な組織では、複数のまたは多くのユーザーがこのプロセスを実行していることを示す傾向があるため、シーケンスを自動化するためには、数十、数百、または数千の一致が存在することが必要な場合がある。

リカレントニューラルネットワーク（ＲＮＮ）は、ｎの値の有用な範囲を決定することに特に長けている場合がある。ＲＮＮは、いくつかの実施形態では、有用なシーケンスについて様々なサイズのｎ－ｇｒａｍを掃引し、そして潜在的にすべてのシーケンスサイズの掃引を含む試行錯誤プロセスを介して最適なウィンドウ化しきい値（すなわち、ｎ値の有用な範囲）を決定することができる。そして、ＲＮＮが最も最適な範囲を決定することで、人間の入力が不要になる可能性がある。このようなシステムは、例えば、ユーザーがクラウドコンピューティングサービスから離れる可能性が高いことを示す傾向のあるユーザーインタラクションの時間窓（ｔｉｍｅ－ｗｉｎｄｏｗｅｄ）のシーケンスを探すことによって、ユーザーがクラウドコンピューティングサービスから離れる可能性があるかどうかを自動的に判断するために使用され得る。その後、顧客を維持するための措置を講じることができる（例えば、人間の担当者が顧客に連絡する、より低いサービス価格を提供するなど）。

いくつかの実施形態では、ｎの上限値も決定され得る。例えば、ｎの特定の値以上で特定の数よりも少ないシーケンスが見つかった場合、またはシーケンスがまったく見つからない場合、ｎのサイズはその値未満に制限され得る。また、ｎが大きすぎると、シーケンスは与えられたタスク超に対応し、複数のユーザーがたまたま行ったものよりも無関係な他のアクションを含み得る。この決定は、人間のレビューアが行うか、または自動的に行われ得る。

特定の実施形態では、重要度メトリック（複数可）は、上述したシーケンス制限技術の一部または全部に加えて、またはその代わりに使用され得る。例えば、アクションのシーケンスが少なくとも一定量の収益を生み出すか、少なくとも一定量の収益を節約するか、タスクの効率／速度を少なくとも一定量高めるか、顧客獲得プロセスをスピードアップするか、必要な通信回数を減らすか、それらの組み合わせか、などが考慮され得る。このような重要度メトリック（複数可）は、最初に自動化されるべき、ＲＰＡから最も恩恵を受け得るシーケンスおよびプロセスの特定を支援し得る。

シーケンスを見つけるには、スライディングウィンドウを使ったｎ－ｇｒａｍを適用し得る。例えば、図８を参照。例えば、ｎの現在の値が５である場合、ユーザーによる最初の５つのインタラクションは、他のユーザーからの５つのインタラクションのすべての時間順シーケンスと比較され得、次にインタラクション２－６、３－７、４－８などが、そのサイズのユーザーのインタラクションのすべての時間順セットが、考慮中の他のユーザーのものと比較されるまで比較され得る。あるいは、考慮されているｎのサイズのすべてのユーザーインタラクションが特定され、各ユーザーのインタラクションの時間順シーケンスから検索され、データベースに格納され得る。各ｎについて、スライディングウィンドウを使用することなく、一致するシーケンスおよび一致する数が特定され得る。また、これらの一致するシーケンスに重要度メトリック（複数可）が適用され得る。

いくつかの実施形態では、ＡＩ／ＭＬモデルまたはＡＩ／ＭＬモデルを呼び出すプロセスは、特定された一致するシーケンス内のインタラクションをそれぞれのＲＰＡアクティビティに関連付けることができる。例えば、ユーザーが「送信」ボタンをクリックするインタラクションは、画面上のボタンを特定し、ボタンの領域内に入るようにマウスを移動させ、ボタンをクリックする１または複数のＲＰＡアクティビティと関連付けられ得る。したがって、ＡＩ／ＭＬモデル、またはＡＩ／ＭＬモデルを使用してシーケンスまたはその出力を特定する他のアプリケーションは、ＲＰＡ開発者によってレビューされ、必要に応じて修正され、そしてＲＰＡロボットとして実装され得る「スケルトン」ＲＰＡワークフローを生成し得る。タスクの連鎖を利用してＲＰＡワークフローのドラフトを作成し、そしてＲＰＡデザイナアプリケーションにエクスポートされ得る。あるいは、ＲＰＡ開発者は、シーケンスを提供され、シーケンスを実装するワークフローを構築するように指示され得る。時間の経過とともにＡＩ／ＭＬモデルの精度が上がり、人の手を介さずに、シーケンスに対するワークフローが作成され、ワークフローを実装したＲＰＡロボットが生成され、展開され得る。

いくつかのインタラクションのシーケンスは、少なくともわずかに異なっていてもよいが、同じタスクを達成し得る。このようなシーケンスが機能的に同じであることを特定するために、いくつかの実施形態では、緩い関連を含む確率グラフを生成する。各可能または観察されたインタラクション、またはそのサブセットは、グラフのノードとして含まれ得る。ＡＩ／ＭＬモデルは、ユーザーがあるノードから別のノードに「ホップ」する確率（すなわち、ユーザーがノード間のエッジをたどる確率）を計算し得る。例えば、スプレッドシートが開いている場合、ユーザーの次のインタラクションが列の合計を計算する確率は高いかもしれないが、次のインタラクションが電子メールアプリケーションを開く確率は比較的低いかもしれない。エッジは、ノード間の確率を提供することができ、また、その間の一連のセグメントとして、ノードのシーケンスの確率を提供し得る。このようなシーケンスおよびそのエッジは、あるノードから出発してシーケンスを経由して別のノードに到着する集合的な確率を提供し得る。

次いで、確率グラフは、エッジの確率を決定した後、関連するシーケンスを見つけるために「枝刈り」され得る。例えば、５０％、２５％、１０％未満などのエッジ確率は、エッジおよびシーケンスの数を減らすために削除され得る。レーベンシュタイン距離、ファジーマッチング（例えば、一致するパラメータが２０％変動以内など、あるファジーネスしきい値内で類似している場合）、および／または他の任意の適切な技術を使用して、本発明の範囲から逸脱せずに関連シーケンスを決定することができる。例えば、２つ、３つ、またはそれより多いシーケンスが、少なくとも一定の確率で特定のエンドノードにつながり得、ユーザーが同じタスクを達成するために、これらの少なくとも多少異なるシーケンスを使用する可能性をもたらす。

いくつかの実施形態では、複数の関連シーケンスの間で最も効率的なパスが望まれ得る。これは、インタラクション／ステップの数、各ステップに関連する時間（例えば、ユーザーインタラクションに関する時間順データのタイムスタンプから得られる）などに基づいて決定され得る。その後、ＲＰＡワークフローは、そのタスクを達成する最も効率的なシーケンスに基づいて生成され得る。

いくつかの実施形態では、より複雑なインタラクションが認識され、予期され得る。例えば、局所的なコントロール情報を使って、視覚的にわかりにくいインタラクションを決定することができる。ユーザーが２つのアプリケーション（例えば、ｉＴｕｎｅｓ（登録商標）からＳｐｏｔｉｆｙ（登録商標）まで）間でプレイリストを同期させたい例を考えてみる。ユーザーは通常、ｉＴｕｎｅｓ（登録商標）から曲名をコピーし、その曲名をＳｐｏｔｉｆｙ（登録商標）の検索ボックスに入れ、曲を検索し、プレイリストがコピーされるまで次の曲のためにこのプロセスを繰り返し得る。いくつかの実施形態のＡＩ／ＭＬモデルは、曲をコピーする細かいタスクがプレイリスト内のすべての曲について繰り返されることを認識し、彼または彼女がプレイリスト内のすべての曲をコピーしたいかどうかに関してユーザーを促し得る。

いくつかの実施形態では、ＡＩ／ＭＬモデルは、観察例に基づいてフィールドを自動的に完成させることを学習し得る。例えば、ユーザーがデータソースから様々な情報を必要とするアカウントをそのデータソースから作成する場合、ＡＩ／ＭＬモデルは、ユーザーがいくつかのフィールドに情報を入力したことを観察し、すべてのフィールドを自動入力するスクリプトを生成し、次いで彼または彼女がフィールドを自動入力することを望むかどうかユーザーに尋ねることができる。ＡＩ／ＭＬモデルは、深層学習ニューラルネットワーク（ＤＬＮＮ）訓練済み、浅層学習ニューラルネットワーク（ＳＬＮＮ）訓練済み、ＲＮＮ訓練済み、敵対的生成ネットワーク（ＧＡＮ）訓練済み、それらの組み合わせ、決定論的、などであり得る。いくつかのアプリケーションのための決定論的なルールベースのシステムの利点は、通常、訓練に必要な例数が少ないことである。

いくつかの実施形態では、ＡＩ／ＭＬは、望ましい結果を認識し、望ましい結果につながるプロセス（複数可）を決定するように訓練され得る。例えば、ＡＩ／ＭＬモデルは、アカウントが作成されたこと、新規ユーザーが追加されたこと、収益が発生したこと、問題が解決されたことなどを認識するように訓練され得る。その後、ＡＩ／ＭＬモデルは、望ましい結果につながるシーケンスを再現するために、ユーザーインタラクションに関するデータまたはユーザーインタラクション自体において見返し得る。そして、ＡＩ／ＭＬモデルまたは別のプロセスによって、インタラクションをアクティビティに関連付け、シーケンス／プロセスを実装するＲＰＡワークフローを生成し得る。これは「例によるプログラミング（ｐｒｏｇｒａｍｍｉｎｇｂｙｅｘａｍｐｌｅ）」と呼ばれるもので、ＡＩ／ＭＬモデルに例を提供することで、次いで望ましい最終状態を再現できるプログラムを生成することができる。

現代のネットワークは、基本的に大きな確率グラフである。望ましい結果が決定されると、ＡＩ／ＭＬモデルはプリオールを見返して、望ましい結果を達成するために何が最も重要であったかを評価し得る。収益が結果として増加したと決定された場合、結果につながった信号がサブ信号に分解され、どのサブ信号（複数可）が収益の増加につながったかが決定され得る。

いくつかの実施形態では、ニューラルネットワークにバックプロパゲーションが使用され得る。現代の深層学習の多くは、最適化理論に数学的根拠を持つバックプロパゲーションアルゴリズムをベースにしている。最近の深層学習の修正および改良の多くは、人間の脳のアーキテクチャによって情報がどのように処理されるかについて知られていることに、その構造の多くを帰さねばならない。つまり、深層学習では一般的に、視覚野の初期層に似た層状のフィードフォワードネットワークが利用される。各層の非線形性は、通常、ニューロンのインテグレートアンドファイア（ｉｎｔｅｇｒａｔｅ－ａｎｄ－ｆｉｒｅ）モデルの平均場近似に見られるようなしきい値非線形性である。畳み込み型ディープネットワークは、視覚野にも見られる近似的な並進対称性を実装する。ニューラルネットワークの誤差をバックプロパゲートするために、以下を含む様々な技術が使用され得るが、これらに限定されるものではない：（１）エラーをバックプロパゲートするための第２のネットワークを提供すること、（２）フォワードプロパゲートと同じ層を通るバックプロパゲートを正当化するために、スパイク入力に対する基底部および先端部の樹状突起反応の違いを提供すること、（３）グローバル強化学習を使用すること、（４）再帰ネットワークにおける双方向再循環を使用すること、（５）対比ヘブリング学習（ＣｏｎｔｒａｓｔｉｖｅＨｅｂｂｉａｎｌｅａｒｎｉｎｇ）を使用すること。

ニューラルネットワークは一般的にパルスゲート方式で、「ニューロン」が発火するかどうかは、パルスの強さおよびニューロンに割り当てられた数学的関数に基づく。情報は、「スパイク」という形で入ってきて、出ていく。スパイクはイベントであり、「シナプス」は下流のニューロンがそのイベントにどれだけ反応するかを支配する。したがって、あるニューロンからのスパイクは、ニューラルネットワークの特定の接続およびロジックによって、他へ伝播し得る。

これらの接続およびシナプスの性質は、挙動を制御する。あるニューロンは、スパイクイベントが発生した入ってくるシナプスの重みを取り、それらを合計し、そしてスパイクを発生させるかどうかを決定し得る。スパイクは、いくつかの実施形態では強度が変化しないことがあり、したがって、１ビットが送信されることに多少類似している。典型的な実装は、通信がタイムスタンプとなるバスで接続されたニューロンを含み得る。つまり、スパイクはある時間にあるニューロンからイベントとして放出され、その後、下流のニューロンで受信される。

情報が下流のニューロンに届くとき、値がしきい値未満なら何も起こらないが、次いでしきい値超なら関数が線形に反応するしきい値付きアクティビティ関数（つまり、正規化線形単位（ＲｅＬＵ））が使われ得る。ＲｅＬＵ関数は、実際のニューロンがほぼ同様のアクティビティ関数を持つことがあるため、深層学習でよく使用される。線形変換により、情報の引き算、足し算などができる。教師あり学習では、ネットワーク出力で既知の出力を計算し、既知の目標出力からコスト関数を用いて誤差を計算し、それはバックプロパゲーションの誤差とすることができる。誤差は出力で計算され得、この誤差は、誤差を最小化するネットワークの重みの修正に変換され得る。

いくつかの実施形態の標準的な学習アルゴリズムは、ヘッブ学習であり、これは、シナプス前ニューロンの発火率と受信ニューロン（すなわち、シナプス後ニューロン）の発火率との積に基づいて個々のシナプスを更新することによって重みを修正する。ヘッブ学習（すなわちシナプスの修正）が行われるためには、シナプス前とシナプス後の発火率が比較的短い時間内にゼロでないことが必要である。そうでなければ、シナプスは修正されない。いくつかの実施形態では、この時間のウィンドウの外では、シナプス重量はその値に比例して減少し得る。

パルスゲーティングを介して、発火率は、ヘッブ学習が行われる時間枠内でシナプス前およびシナプス後ニューロンに伝播され得る。このように、パルスゲート学習、ひいてはシナプス修正を用いると、発火率は学習のオンセットとオフセットを制御でき、バックプロパゲーションアルゴリズムを実装するためのシナプス重量の更新に用いられ得る。

バックプロパゲーションを用いて、シナプス重量の更新のための誤差のバックプロパゲーションを行うことができる。これにより、望ましい結果につながる傾向がある「ニューロン」を強化することができる。前述した確率グラフのプロセスと多少似ているが、望ましい結果をもたらすと思われるノードは、望ましい結果が再現できるまで繰り返し強化され得る。ノード間の接続およびそれらの確率的な重みにより、その挙動はほぼアナログ的なものになり得る。

上記により、いくつかの実施形態では、決定されたユーザーインタラクションのシーケンスは、様々なメトリックスに基づいて優先順位付けされてもよい。例えば、より一般的である、自動化によってユーザーに大きな時間節約を提供する、などのシーケンスは、ＲＰＡワークフロー生成のために優先され得る。シーケンスを実装するＲＰＡロボットは、共通のシーケンスに関連するタスクを達成するために、ユーザーコンピューティングシステムに生成および展開され得る。

典型的には、相当数のユーザーインタラクションのシーケンス（例えば、１００）を自動化するには、プログラミング言語における相当量のコードが必要となるだろう。しかし、いくつかの実施形態は、はるかに少ないまたは全くコーディングせずにユーザーインタラクションのシーケンスを実装するＲＰＡロボットを生成する。実際、タスクマイニングは、専らＡＩを介して、またはいくつかの人間の補足を伴うＡＩを介して実行され得る。

いくつかの実施形態では、シーケンスは全く認識される必要がない場合がある。例えば、インタラクションおよび反復の間の関連付けが追跡され得る。ニューラルネットワークは、メモリのオーバーヘッドなしに連想データ（ａｓｓｏｃｉａｔｉｖｅｄａｔａ）を記憶し得る。従来、リバースインデックスが使用されるのに対し、ユーザーがアクションを実行すると、リバースインデックスを使用して別のアクションが実行される。しかし、このリバースインデックスは、現実のシステムにおいて、リソースの観点から非常に大きくなり得る。一方、ニューラルネットワークは、このメモリのオーバーヘッド無しに、関連グラフのためのニューラルネットワークのノードを強化することによって、同じまたは類似の結果を達成するように訓練され得る。

いくつかの実施形態では、ＡＩを使用して全プロセスをエンドツーエンドで実行し得る。例えば、ＡＩ／ＭＬモデル（複数可）は、ユーザーが使用しているアプリケーション、そのグラフィカル要素、およびユーザーインタラクションを決定し、ユーザーインタラクションの共通シーケンスを決定し、そして設計時開発（ｄｅｓｉｇｎｔｉｍｅｄｅｖｅｌｏｐｍｅｎｔ）無しで実行時にインタラクションのシーケンスを実装するＲＰＡロボットを自動的に構築および展開するために使用され得る。その後、自動開発されたロボットが動作するシナリオまたは異常が発生したシナリオに関する訓練データをユーザーから取得し得、この訓練データを使用してＲＰＡロボットを再訓練しかつそれらを展開し得る。訓練データは、画像において誤認識が発生した領域または要素を見落とした領域、ラベルの修正、入力の修正などを含み得る。このプロセスを繰り返し、ロボットを反復的に改良することができる。

特定の実施形態は、ロボティックプロセスオートメーション（ＲＰＡ）に採用されてもよい。図１は、本発明の実施形態による、ＲＰＡシステム１００を示すアーキテクチャ図である。ＲＰＡシステム１００は、開発者がワークフローを設計して実装することを可能にするデザイナ１１０を含む。デザイナ１１０は、アプリケーション統合のためのソリューションを提供するとともに、サードパーティアプリケーション、管理情報技術（ＩＴ）タスク、およびビジネスＩＴプロセスを自動化する。デザイナ１１０は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にし得る。簡単に言えば、デザイナ１１０は、ワークフローおよびロボットの開発および展開を容易にする。

自動化プロジェクトは、本明細書で「アクティビティ」と定義されるワークフローで開発されたステップのカスタムセット間の遂行順序および関係の制御を開発者に与えることにより、ルールベースのプロセスの自動化を可能にする。デザイナ１１０の実施形態の商業的な一例は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）である。各アクティビティは、ボタンをクリックする、ファイルを読む、ログパネルに書き込むなどのアクションを含み得る。いくつかの実施形態では、ワークフローは入れ子になっているか、または埋め込まれ得る。

ワークフローのタイプには、シーケンス、フローチャート、ＦＳＭ、および／またはグローバル例外ハンドラなどを含み得るが、これらに限定されない。シーケンスは、ワークフローを乱雑にすることなく、あるアクティビティから別のアクティビティへのフローを可能にする、線形プロセスに特に適し得る。フローチャートは、特により複雑なビジネスロジックに適し得、複数の分岐ロジックオペレータを介して、より多様な方法で意思決定の統合およびアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフローに特に適し得る。ＦＳＭは、条件（すなわち、遷移）またはアクティビティによりトリガされる有限の数の状態をそれらの遂行中に使用し得る。グローバル例外ハンドラは、遂行エラーに遭遇したときのワークフローの挙動を決定したり、プロセスをデバッグしたりするのに特に適し得る。

ワークフローがデザイナ１１０内で開発されると、ビジネスプロセスの遂行は、コンダクタ１２０によって調整され、デザイナ１１０内で開発されたワークフローを遂行する１または複数のロボット１３０を調整する。コンダクタ１２０の実施形態の商業的な一例は、ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）である。コンダクタ１２０は、環境におけるリソースの生成、監視、および展開の管理を容易にする。コンダクタ１２０は、サードパーティのソリューションおよびアプリケーションとの統合ポイント、または統合ポイントの１つとして動作し得る。

コンダクタ１２０は、全てのロボット１３０を管理し得、ロボット１３０を集中ポイントから接続して遂行する。管理され得るロボット１３０のタイプには、アテンディッドロボット１３２、アンアテンディッドロボット１３４、開発ロボット（アンアテンディッドロボット１３４と同様であるが、開発およびテストの目的で使用される）、および非生産ロボット（アテンディッドロボット１３２と同様であるが、開発およびテストの目的で使用される）が含まれるが、これらに限定されない。アテンディッドロボット１３２は、ユーザーイベントによってトリガされ、同じコンピューティングシステム上で人と並んで動作する。アテンディッドロボット１３２は、集中プロセスデプロイメントおよびロギング媒体のためのコンダクタ１２０とともに使用され得る。アテンディッドロボット１３２は、人のユーザーが様々なタスクを達成するのを支援してもよく、ユーザーイベントによってトリガされてもよい。いくつかの実施形態では、プロセスは、このタイプのロボット上でコンダクタ１２０から開始することができず、および／またはそれらはロックされた画面の下で実行することができない。特定の実施形態では、アテンディッドロボット１３２は、ロボットトレイからまたはコマンドプロンプトからのみ起動され得る。アテンディッドロボット１３２は、いくつかの実施形態では、人の監督下で動作することが好ましい。

アンアテンディッドロボット１３４は、仮想環境で無人で動作し、多くのプロセスを自動化し得る。アンアテンディッドロボット１３４は、リモート遂行、監視、スケジューリング、および作業キューのサポートの提供を担当し得る。全てのロボットタイプのためのデバッグは、いくつかの実施形態では、デザイナ１１０で実行され得る。アテンディッドロボットおよびアンアテンディッドロボットの両方は、メインフレーム、ウェブアプリケーション、ＶＭ、エンタープライズアプリケーション（例えば、ＳＡＰ（登録商標）、ＳａｌｅｓＦｏｒｃｅ（登録商標）、Ｏｒａｃｌｅ（登録商標）などにより生成されたもの）、およびコンピューティングシステムアプリケーション（例えば、デスクトップおよびラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど）を含むが、これらに限定されない様々なシステムおよびアプリケーションを自動化し得る。

コンダクタ１２０は、プロビジョニング、展開、バージョニング、構成、キューイング、監視、ロギング、および／または相互接続性の提供を含むがこれらに限定されない様々な能力を有し得る。プロビジョニングは、ロボット１３０とコンダクタ１２０（例えば、ウェブアプリケーション）との間の接続を作成し、維持することを含み得る。展開は、遂行のために割り当てられたロボット１３０へのパッケージバージョンの正しい配信を保証することを含み得る。バージョニングは、いくつかの実施形態では、いくつかのプロセスまたは構成の固有のインスタンスの管理を含んでもよい。構成は、ロボット環境およびプロセス構成の維持および配信を含み得る。キューイングは、キューおよびキュー項目の管理を提供することを含み得る。監視は、ロボットの特定データを追跡し、ユーザーの権限を維持することを含み得る。ロギングは、データベース（例えば、ＳＱＬデータベース）および／または別のストレージメカニズム（例えば、大規模なデータセットを格納し、迅速にクエリを実行する能力を提供するＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標））へのログの保存およびインデックス作成を含み得る。コンダクタ１２０は、サードパーティのソリューションおよび／またはアプリケーションのための通信の集中点として操作することにより、相互接続性を提供し得る。

ロボット１３０は、デザイナ１１０で構築されたワークフローを実行する遂行エージェントである。ロボット（複数可）１３０のいくつかの実施形態の１つの商業的な例は、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）である。いくつかの実施形態では、ロボット１３０は、デフォルトで、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｉｃｅＣｏｎｔｒｏｌＭａｎａｇｅｒ（ＳＣＭ）管理サービスをインストールする。その結果、このようなロボット１３０は、ローカルシステムアカウントの下でインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開くことができ、Ｗｉｎｄｏｗｓ（登録商標）サービスの権利を有し得る。

いくつかの実施形態では、ロボット１３０は、ユーザーモードで設置され得る。このようなロボット１３０については、所定のロボット１３０が設置されているユーザーと同じ権利を有することを意味する。この特色はまた、各マシンを最大限に全活用することを保証する高密度（ＨＤ）ロボットにも利用可能であり得る。いくつかの実施形態では、いずれかのタイプのロボット１３０は、ＨＤ環境で構成され得る。

いくつかの実施形態におけるロボット１３０は、複数のコンポーネントに分割され、それぞれが特定の自動化タスクに特化されている。いくつかの実施形態におけるロボットコンポーネントは、ＳＣＭ管理ロボットサービス、ユーザーモードロボットサービス、エグゼキュータ、エージェント、およびコマンドラインを含むが、これらに限定されない。ＳＣＭ管理ロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と遂行ホスト（すなわち、ロボット１３０が遂行されるコンピューティングシステム）との間のプロキシとして動作する。これらのサービスは、ロボット１３０の資格情報を任されて管理する。コンソールアプリケーションは、ローカルシステム下のＳＣＭにより起動される。

いくつかの実施形態におけるユーザーモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理および監視し、コンダクタ１２０と遂行ホストとの間のプロキシとして動作する。ユーザーモードロボットサービスは、ロボット１３０の資格情報を任されて管理し得る。ＳＣＭ管理ロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動され得る。

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッションの下で与えられたジョブを遂行し得る（つまり、ワークフローを遂行し得る。エグゼキュータは、モニタ毎のドットパーインチ（ＤＰＩ）設定を認識し得る。エージェントは、システムトレイウィンドウに利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであり得る。エージェントはサービスのクライアントであり得る。エージェントは、ジョブの開始または停止、設定の変更を依頼し得る。コマンドラインはサービスのクライアントである。コマンドラインは、ジョブの開始を要求し、その出力を待つことができるコンソールアプリケーションである。

上で説明したように、ロボット１３０のコンポーネントが分割されていることは、開発者、サポートユーザー、およびコンピューティングシステムが、各コンポーネントが遂行していることをより容易に実行し、特定し、および追跡するのに役立つ。この方法では、エグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネントごとに特別な挙動を構成し得る。エグゼキュータは常に、いくつかの実施形態では、モニタごとのＤＰＩ設定を認識し得る。その結果、ワークフローは、ワークフローが作成されたコンピューティングシステムの構成に関係なく、いずれかのＤＰＩで遂行し得る。また、いくつかの実施形態では、デザイナ１１０からのプロジェクトは、ブラウザのズームレベルに依存しないようにし得る。ＤＰＩを認識していないまたは意図的に認識していないとマークされているアプリケーションの場合、いくつかの実施形態ではＤＰＩを無効にし得る。

図２は、本発明の実施形態による、展開したＲＰＡシステム２００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム２００は、図１のＲＰＡシステム１００であってもよく、またはその一部であってもよい。クライアント側、サーバー側、またはその両方が、本発明の範囲から逸脱することなく、いずれかの所望の数のコンピューティングシステムを含むことができることに留意すべきである。クライアント側では、ロボットアプリケーション２１０は、エグゼキュータ２１２、エージェント２１４、およびデザイナ２１６を含む。しかし、いくつかの実施形態では、デザイナ２１６は、コンピューティングシステム２１０上で実行されていなくてもよい。エグゼキュータ２１２はプロセスを実行している。図２に示すように、複数のビジネスプロジェクトが同時に実行され得る。エージェント２１４（例えば、Ｗｉｎｄｏｗｓ（登録商標）サービス）は、本実施形態では、全てのエグゼキュータ２１２のための単一の接続ポイントである。この実施形態における全てのメッセージは、コンダクタ２３０に記録され、それは、データベースサーバー２４０、インデクササーバー２５０、またはその両方を介して、それらをさらに処理する。図１に関して上述したように、エグゼキュータ２１２は、ロボットコンポーネントであり得る。

いくつかの実施形態では、ロボットは、マシン名とユーザー名との間の関連付けを表す。ロボットは、複数のエグゼキュータを同時に管理し得る。同時に実行される複数のインタラクティブセッションをサポートするコンピューティングシステム（Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ２０１２など）では、複数のロボットが同時に実行され得、それぞれが一意のユーザー名を使用して別々のＷｉｎｄｏｗｓ（登録商標）セッションで実行され得る。これは、上記のＨＤロボットと呼ばれる。

エージェント２１４はまた、ロボットの状態を送信し（例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送信する）、遂行されるパッケージの要求されるバージョンをダウンロードすることにも責任を負う。エージェント２１４とコンダクタ２３０との間の通信は、いくつかの実施形態では、常にエージェント２１４によって開始される。通知シナリオでは、エージェント２１４は、後にコンダクタ２３０によってロボットにコマンド（例えば、開始、停止など）を送信するために使用されるＷｅｂＳｏｃｋｅｔチャネルを開いてもよい。

サーバー側には、プレゼンテーション層（ウェブアプリケーション２３２、オープンデータプロトコル（ＯＤａｔａ）代表状態転送（ＲＥＳＴ）アプリケーションプログラミングインターフェース（ＡＰＩ）エンドポイント２３４、通知および監視２３６）、サービス層（ＡＰＩ実装／ビジネスロジック２３８）、永続層（データベースサーバー２４０、インデクササーバー２５０）が含まれる。コンダクタ２３０は、ウェブアプリケーション２３２、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４、通知および監視２３６、ならびにＡＰＩ実装／ビジネスロジック２３８を含む。いくつかの実施形態では、ユーザーがコンダクタ２３０のインターフェース（例えば、ブラウザ２２０を介して）で実行するほとんどのアクションは、様々なＡＰＩを呼び出すことによって実行される。このような動作は、本発明の範囲を逸脱することなく、ロボット上でのジョブの起動、キュー内のデータの追加／削除、無人で実行するジョブのスケジューリングなどを含み得るが、これらに限定されない。ウェブアプリケーション２３２は、サーバープラットフォームのビジュアル層である。この実施形態では、ウェブアプリケーション２３２は、ハイパーテキストマークアップ言語（ＨＴＭＬ）およびジャバスクリプト（ＪＳ）を使用する。しかし、本発明の範囲を逸脱することなく、いずれかの所望のマークアップ言語、スクリプト言語、または他のいずれかのフォーマットを使用し得る。ユーザーは、コンダクタ２３０を制御するための様々な動作を実行するために、本実施形態ではブラウザ２２０を介してウェブアプリケーション２３２からのウェブページとインタラクションする。例えば、ユーザーは、ロボットグループを作成し、ロボットへのパッケージの割り当てを行い、ロボット毎および／またはプロセス毎のログを解析し、ロボットを起動しおよび停止などし得る。

ウェブアプリケーション２３２に加えて、コンダクタ２３０は、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４を公開するサービス層も含む。しかし、本発明の範囲を逸脱することなく、他のエンドポイントが含まれていてもよい。ＲＥＳＴＡＰＩは、ウェブアプリケーション２３２とエージェント２１４の両方により消費される。エージェント２１４は、本実施形態では、クライアントコンピュータ上の１または複数のロボットのスーパーバイザである。

本実施形態のＲＥＳＴＡＰＩは、構成、ロギング、監視、およびキューイング機能をカバーする。構成エンドポイントは、いくつかの実施形態では、アプリケーションのユーザー、権限、ロボット、アセット、リリース、および環境を定義し、構成するために使用されてもよい。ロギングＲＥＳＴエンドポイントは、例えば、エラー、ロボットによって送信された明示的なメッセージ、およびその他の環境固有の情報など、様々な情報をログに記録するために使用され得る。デプロイメントＲＥＳＴエンドポイントは、コンダクタ２３０においてジョブ開始コマンドが使用された場合に遂行されるべきパッケージのバージョンを問い合わせるためにロボットにより使用されてもよい。キューイングＲＥＳＴエンドポイントは、キューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キューおよびキューアイテムの管理を担ってもよい。

ＲＥＳＴエンドポイントの監視は、ウェブアプリケーション２３２およびエージェント２１４を監視してもよい。通知および監視ＡＰＩ２３６は、エージェント２１４の登録、エージェント２１４への構成設定の配信、ならびにサーバーおよびエージェント２１４からの通知の送受信に使用されるＲＥＳＴエンドポイントであってもよい。通知および監視ＡＰＩ２３６は、いくつかの実施形態では、ＷｅｂＳｏｃｋｅｔ通信を使用してもよい。

永続層は、本実施形態では、一対のサーバー－データベースサーバー２４０（例えば、ＳＱＬサーバー）およびインデクササーバー２５０を含む。本実施形態におけるデータベースサーバー２４０は、ロボット、ロボットグループ、関連するプロセス、ユーザー、役割、スケジュールなどの構成を格納する。この情報は、いくつかの実施形態では、ウェブアプリケーション２３２を介して管理される。データベースサーバー２４０は、キューおよびキューアイテムを管理してもよい。いくつかの実施形態では、データベースサーバー２４０は、ロボットにより記録されたメッセージを（インデクササーバー２５０に加えて、またはそれに代えて）格納してもよい。

いくつかの実施形態では任意であるが、インデクササーバー２５０は、ロボットにより記録された情報を保存し、インデックスを作成する。特定の実施形態では、インデクササーバー２５０は、構成設定を介して無効化されてもよい。いくつかの実施形態では、インデクササーバー２５０は、オープンソースプロジェクトの全文検索エンジンであるＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）を使用する。ロボットにより記録されたメッセージ（例えば、ログメッセージまたはライン書き込みのようなアクティビティを使用して）は、ロギングＲＥＳＴエンドポイント（複数可）を介してインデクササーバー２５０に送信されてもよく、そこで将来の利用のためにそれらはインデックス化される。

図３は、本発明の実施形態による、デザイナ３１０、アクティビティ３２０、３３０、ドライバ３４０、およびＡＩ／ＭＬモデル３５０の間の関係３００を示すアーキテクチャ図である。以上のように、開発者は、デザイナ３１０を用いて、ロボットによって遂行されるワークフローを開発する。ワークフローは、ユーザー定義のアクティビティ３２０およびＵＩオートメーションアクティビティ３３０を含んでもよい。ユーザー定義アクティビティ３２０および／またはＵＩオートメーションアクティビティ３３０は、いくつかの実施形態では、ロボットが動作しているコンピューティングシステムに対してローカルに、および／またはそれに対してリモートに位置され得、１または複数のＡＩ／ＭＬモデル３５０を呼び出し得る。いくつかの実施形態では、画像中の非テキストの視覚的コンポーネントを特定することができ、これは、本明細書ではコンピュータビジョン（ＣＶ）と呼ばれる。このようなコンポーネントに関連するいくつかのＣＶアクティビティは、クリック、タイプ、テキストを取得、ホバー、要素の有無を検出、スコープの更新、ハイライトなどを含み得るが、これらに限定されない。いくつかの実施形態では、クリックは、例えば、ＣＶ、光学的文字認識（ＯＣＲ）、ファジーテキストマッチング、およびマルチアンカーを使用して要素を特定し、それをクリックする。タイプは、上記および要素内のタイプを用いて要素を特定してもよい。テキストの取得は、特定のテキストの場所を特定し、ＯＣＲを使用してそれをスキャンし得る。ホバーは、要素を特定し、その上にホバーし得る。要素の有無の検出は、上述した技法を用いて、画面上に要素の有無を検出するかどうかを確認し得る。いくつかの実施形態では、デザイナ３１０に実装され得る数百または数千もののアクティビティが存在してもよい。しかし、本発明の範囲を逸脱することなく、いずれかの数および／またはアクティビティのタイプを利用することができる。

ＵＩオートメーションアクティビティ３３０は、低レベルのコード（例えば、ＣＶアクティビティ）で記述され、画面とのインタラクションを促進する特別な低レベルのアクティビティのサブセットである。ＵＩオートメーションアクティビティ３３０は、ロボットが所望のソフトウェアとインタラクションすることを可能にするドライバ３４０および／またはＡＩ／ＭＬモデル３５０を介して、これらのインタラクションを促進する。例えば、ドライバ３４０は、ＯＳドライバ３４２、ブラウザドライバ３４４、ＶＭドライバ３４６、エンタープライズアプリケーションドライバ３４８などを含み得る。コンピューティングシステムとのインタラクションの実行を決定するために、１または複数のＡＩ／ＭＬモデル３５０はＵＩオートメーションアクティビティ３３０によって使用され得る。いくつかの実施形態では、ＡＩ／ＭＬモデル３５０は、ドライバ３４０を増強するか、またはそれらを完全に置き換え得る。実際、特定の実施形態では、ドライバ３４０は含まれない。

ドライバ３４０は、フックを探したり、キーを監視したりするなど、低レベルでＯＳとインタラクションしてもよい。それらは、Ｃｈｒｏｍｅ（登録商標）、ＩＥ（登録商標）、Ｃｉｔｒｉｘ（登録商標）、ＳＡＰ（登録商標）などとの統合を促進してもよい。例えば、「クリック」アクティビティは、ドライバ３４０を介して、これらの異なるアプリケーションにおいて同じ役割を果たす。

図４は、本発明の実施形態による、ＲＰＡシステム４００を示すアーキテクチャ図である。いくつかの実施形態では、ＲＰＡシステム４００は、図１および／または図２のＲＰＡシステム１００および／または２００であってもよいし、それを含んでもよい。ＲＰＡシステム４００は、ロボットを実行する複数のクライアントコンピューティングシステム４１０を含む。コンピューティングシステム４１０は、その上で実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム４２０と通信することができる。コンダクタコンピューティングシステム４２０は、順番に、データベースサーバー４３０および任意のインデクササーバー４４０と通信することができる。

図１および図３に関して、これらの実施形態ではウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、任意の適切なクライアント／サーバーソフトウェアを使用することができることに留意すべきである。例えば、コンダクタは、クライアントコンピューティングシステム上で、非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバーサイドアプリケーションを実行してもよい。

図５は、本発明の実施形態による、ＡＩ／ＭＬモデルを使用してコンピューティングシステムとのユーザーインタラクションのシーケンスを決定し、共通プロセスを抽出し、そしてＲＰＡロボットを生成するように構成されたコンピューティングシステム５００を説明するアーキテクチャ図である。いくつかの実施形態では、コンピューティングシステム５００は、本明細書に描かれたおよび／または記載された１または複数のコンピューティングシステムであってもよい。コンピューティングシステム５００は、情報を通信するためのバス５０５または他の通信機構と、情報を処理するためのバス５０５に結合されたプロセッサ（複数可）５１０とを含む。プロセッサ（複数可）５１０は、中央処理ユニット（ＣＰＵ）、特定用途集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックスプロセッシングユニット（ＧＰＵ）、それらの複数のインスタンス、および／またはそれらのいずれかの組み合わせを含む、いずれかのタイプの一般的または特定用途向けプロセッサであり得る。プロセッサ（複数可）５１０はまた、複数の処理コアを有してもよく、コアの少なくとも一部は、特定の機能を実行するように構成され得る。いくつかの実施形態では、複数並列処理が使用されてもよい。特定の実施形態では、少なくとも１つのプロセッサ（複数可）５１０は、生物学的ニューロンを模倣する処理要素を含むニューロモーフィック回路であり得る。いくつかの実施形態では、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としない場合がある。

コンピューティングシステム５００は、プロセッサ（複数可）５１０によって遂行される情報および命令を格納するためのメモリ５１５をさらに含む。メモリ５１５は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、キャッシュ、磁気ディスクもしくは光ディスクなどの静的記憶装置、または他のタイプの非一時的なコンピュータ読み取り可能な媒体、あるいはそれらのいずれかの組み合わせで構成され得る。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ（複数可）５１０によりアクセス可能ないずれかの利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体または両方などを含み得る。また、媒体は、取り外し可能なもの、取り外し不可能なもの、または両方であってもよい。

さらに、コンピューティングシステム５００は、無線および／または有線接続を介して通信ネットワークへのアクセスを提供するために、トランシーバなどの通信デバイス５２０を含む。いくつかの実施形態では、通信デバイス５２０は、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｆｏｒＭｏｂｉｌｅ）通信、汎用パケット無線サービス（ＧＰＲＳ：ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）、ユニバーサル移動体通信システム（ＵＭＴＳ：ＵｎｉｖｅｒｓａｌＭｏｂｉｌｅＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｙｓｔｅｍ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ：ＷｉｄｅｂａｎｄＣＤＭＡ）、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＤｏｗｎｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速アップリンクパケットアクセス（ＨＳＵＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＵｐｌｉｎｋＰａｃｋｅｔＡｃｃｅｓｓ）、高速パケットアクセス（ＨＳＰＡ：Ｈｉｇｈ－ＳｐｅｅｄＰａｃｋｅｔＡｃｃｅｓｓ）、ロングタームエボリューション（ＬＴＥ：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＬＴＥアドバンスト（ＬＴＥ－Ａ：ＬＴＥＡｄｖａｎｃｅｄ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、Ｚｉｇｂｅｅ、超広帯域無線（ＵＷＢ：Ｕｌｔｒａ－ＷｉｄｅＢａｎｄ）、８０２．１６ｘ、８０２．１５、ＨｏｍｅＮｏｄｅ－Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、無線ＩＤタグ（ＲＦＩＤ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、近距離無線通信（ＮＦＣ：Ｎｅａｒ－ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ）、第５世代（５Ｇ）、ＮｅｗＲａｄｉｏ（ＮＲ）、それらのいずれかの組み合わせ、および／または本発明の範囲から逸脱することなく、いずれかの他の現在存在するまたは将来実装される通信標準および／またはプロトコルを使用するように構成され得る。いくつかの実施形態では、通信デバイス５２０は、本発明の範囲から逸脱することなく、単数のアンテナ、アレイ状のアンテナ、フェーズドアンテナ、スイッチドアンテナ、ビームフォーミングアンテナ、ビームステアリングアンテナ、それらの組み合わせ、および／またはいずれかの他のアンテナ構成である１または複数のアンテナを含み得る。

プロセッサ（複数可）５１０は、バス５０５を介して、プラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、電界放出ディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、フレキシブルＯＬＥＤディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細ディスプレイ、Ｒｅｔｉｎａ（登録商標）ディスプレイ、ＩＰＳ（Ｉｎ－ＰｌａｎｅＳｗｉｔｃｈｉｎｇ）ディスプレイ、またはユーザーに情報を表示するためのいずれかの他の適切なディスプレイなどのディスプレイ５２５にさらに結合されている。ディスプレイ５２５は、抵抗方式、静電容量方式、表面弾性波（ＳＡＷ）静電容量方式、赤外線方式、光学イメージング方式、分散信号方式、音響パルス認識方式、フラストレート全内部反射方式などを用いて、タッチ（ハプティック）ディスプレイ、３次元（３Ｄ）タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されていてもよい。本発明の範囲を逸脱することなく、いずれかの好適な表示デバイスおよびハプティックＩ／Ｏを使用することができる。

コンピュータマウス、タッチパッドなどのようなキーボード５３０およびカーソル制御デバイス５３５は、ユーザーがコンピューティングシステム５００とインターフェースすることを可能にするために、バス５０５にさらに結合されている。しかしながら、特定の実施形態では、物理的なキーボードおよびマウスが存在しない場合があり、ユーザーは、ディスプレイ５２５および／またはタッチパッド（図示せず）のみを介してデバイスとインタラクションすることができる。任意の入力デバイスの種類および組み合わせは、設計の選択の問題として使用され得る。特定の実施形態では、物理的な入力デバイスおよび／またはディスプレイは存在しない。例えば、ユーザーは、コンピューティングシステム５００と通信している別のコンピューティングシステムを介してリモートでそれとインタラクションしてもよいし、コンピューティングシステム５００は自律的に動作してもよい。

メモリ５１５は、プロセッサ（複数可）５１０により遂行されたときに機能を提供するソフトウェアモジュールを格納する。モジュールは、コンピューティングシステム５００のためのオペレーティングシステム５４０を含む。モジュールはさらに、本明細書に記載されたプロセスの全部もしくは一部またはその派生物を実行するように構成されたＡＩ／ＭＬモデルベースモジュール５４５を含む。コンピューティングシステム５００は、付加的な機能を含む１または複数の付加的な機能モジュール５５０を含み得る。

当業者であれば、「システム」は、本発明の範囲から逸脱することなく、サーバー、組み込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、または他のいずれかの適切なコンピューティングデバイス、またはデバイスの組み合わせとして具現化され得ることを理解するであろう。上述した機能を「システム」により実行されるものとして提示することは、何ら本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を提供することを意図するものである。実際、本明細書に開示された方法、システム、および装置は、クラウドコンピューティングシステムを含むコンピューティング技法と整合性のあるローカライズされた形態および分配された形態で実装されてもよい。コンピューティングシステムは、ローカルエリアネットワーク（ＬＡＮ）、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、パブリッククラウドまたはプライベートクラウド、ハイブリッドクラウド、サーバーファーム、それらのいずれかの組み合わせなどの一部またはその他の方法でアクセス可能であり得る。本発明の範囲から逸脱することなく、任意の局所または分散アーキテクチャが使用され得る。

本明細書で説明するシステム特色のいくつかは、実装の独立性をより強調するために、モジュールとして提示されていることに留意すべきである。例えば、モジュールは、カスタムの非常に大規模な集積（ＶＬＳＩ）回路またはゲートアレイ、ロジックチップ、トランジスタ、または他の個別部品のような既製の半導体を含むハードウェア回路として実装され得る。また、モジュールは、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックス処理ユニットなどのプログラマブルハードウェアデバイスに実装され得る。

モジュールはまた、様々なタイプのプロセッサにより遂行されるためのソフトウェアに少なくとも部分的に実装され得る。例えば、遂行可能コードの特定された単位は、例えば、オブジェクト、プロシージャ、または関数として編成されていてもよいコンピュータ命令の１または複数の物理的または論理的なブロックを含み得る。それにもかかわらず、遂行可能な特定されたモジュールは、物理的に一緒に配置されている必要はなく、論理的に結合されたときにモジュールを含み、モジュールのために述べられた目的を達成するために、異なる場所に格納された別々の命令を含んでいてもよい。さらに、モジュールは、例えば、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープのような非一時的なコンピュータ読み取り可能な媒体、および／または本発明の範囲から逸脱することなくデータを格納するために使用される他のいずれかの非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。

実際、遂行可能コードのモジュールは、単一の命令であってもよいし、多数の命令であってもよいし、さらには、複数の異なるコードセグメント、異なるプログラム間、および複数のメモリデバイス間に分散されていてもよい。同様に、動作データは、モジュール内で特定され、ここで示されてもよく、いずれかの適切なタイプのデータ構造体内でいずれかの適切な形態で具現化され、組織化され得る。動作データは、単一のデータセットとして収集されてもよいし、または異なる記憶デバイスにわたり異なる場所に分散されていてもよく、少なくとも部分的には、単にシステムまたはネットワーク上の電子信号として存在していてもよい。

図６は、本発明の実施形態による、ＡＩ／ＭＬモデルを使用してコンピューティングシステムとのユーザーインタラクションのシーケンスを決定し、共通プロセスを抽出し、そしてＲＰＡロボットを生成するように構成されたシステム６００を説明するアーキテクチャ図である。システム６００は、デスクトップコンピュータ６０２、タブレット６０４、スマートフォン６０６などのユーザーコンピューティングシステムを含む。しかしながら、スマートウォッチ、ラップトップコンピュータなどを含むが、これらに限定されない、任意の所望のコンピューティングシステムが本発明の範囲から逸脱せずに使用され得る。また、図６には３つのユーザーコンピューティングシステムが示されているが、本発明の範囲から逸脱することなく、任意の適切な数のコンピューティングシステムが使用され得る。例えば、いくつかの実施形態では、数十、数百、数千、または数百万のコンピューティングシステムが使用されてもよい。

各コンピューティングシステム６０２、６０４、６０６は、その上で実行する、ユーザーの画面またはその一部のスクリーンショットおよび／またはビデオを記録するレコーダープロセス６１０を有する。例えば、ＪａｖａＳｃｒｉｐｔ（登録商標）のスニペットをレコーダープロセス６１０としてウェブブラウザに埋め込み、ユーザーがどのコンポーネントとインタラクションしたか、ユーザーが何のテキストを入力したか、ユーザーがどの位置／コンポーネントをマウスでクリックしたか、ユーザーがどのコンテンツをスクロールして通過したか、ユーザーがコンテンツの特定の部分でどのくらい停止したか、などを追跡することができる。コンテンツをスクロールして通過するということは、そのコンテンツがユーザーが求めているものと多少は近かったかもしれないが、それを正確に持っていなかったことを示し得る。クリックが成功を示し得る。

レコーダープロセス６１０は、ＪａｖａＳｃｒｉｐｔ（登録商標）である必要はなく、本発明の範囲から逸脱することなく、任意の適切なタイプのアプリケーションおよび任意の所望のプログラミング言語であってもよい。これにより、レコーダープロセス６１０の「一般化」が可能になり、複数のアプリケーションまたはユーザーがインタラクションしている任意のアプリケーションとのユーザーインタラクションを追跡できるようになる。ラベル付けされた訓練データをゼロから使用することは、ＡＩ／ＭＬモデルがさまざまなコントロールを認識できるようになり得るが、どのコントロールがどのように一般的に使用されているかに関する情報が含まれていないため、難しい場合がある。レコーダープロセス６１０を使用して、「ヒートマップ」を生成し、ＡＩ／ＭＬモデルの訓練プロセスをブートストラップするのに役立て得る。ヒートマップは、ユーザーがアプリケーションを使用した頻度、ユーザーがアプリケーションのコンポーネントとインタラクションした頻度、コンポーネントの位置、アプリケーション／コンポーネントのコンテンツなど、さまざまな情報を含み得る。いくつかの実施形態では、ヒートマップは、タイプされたおよび／またはペーストされたテキストの検出、キャレット追跡、ならびにコンピューティングシステム６０２、６０４、６０６のアクティブ要素検出などの画面分析から導かれ得る。いくつかの実施形態は、コンピューティングシステム６０２、６０４、６０６に関連付けられた画面上のどこでユーザーが、目に見える文字が表示されないホットキーまたはその他のキーを含む可能性があるテキストをタイプまたはペーストしたかを認識し、１もしくは複数の文字が表示された位置、カーソルが点滅していた位置、またはその両方の現在の解像度（例えば、座標における）に基づいて、画面上の物理的な位置を提供する。タイプまたはペーストしたアクティビティおよび／またはキャレットの物理的な位置により、ユーザーがタイプまたはフォーカスしているフィールド（複数可）と、プロセス発見または他のアプリケーション用のアプリケーションが何であるかを決定し得る。

上記により、いくつかの実施形態では、レコーダープロセス６１０は、ウェブブラウザ履歴、ヒートマップ、キー押下、マウスクリック、ユーザーがインタラクションしている画面上のマウスクリックおよび／またはグラフィカル要素の位置、ユーザーが異なる時間に画面を見ていた位置、スクリーンショット／ビデオフレームに関連するタイムスタンプなど、ＡＩ／ＭＬモデル（複数可）を訓練するのをさらに支援するための追加のデータを記録し得る。これは、画面変化を引き起こさない可能性のあるキー押下および／または他のユーザーアクションを提供するために有益であり得る。例えば、いくつかのアプリケーションは、ユーザーがファイルを保存するためにＣＴＲＬ＋Ｓを押したときに、視覚的な変化を提供しない場合がある。しかしながら、特定の実施形態では、ＡＩ／ＭＬモデル（複数可）は、取り込まれた画面画像にのみ基づいて訓練され得る。レコーダープロセス６１０は、ＲＰＡデザイナアプリケーションを介して生成されたロボット、オペレーティングシステムの一部、パーソナルコンピュータ（ＰＣ）またはスマートフォンのためのダウンロード可能なアプリケーション、本発明の範囲から逸脱しない、あるいは他のいずれかのソフトウェアおよび／またはハードウェアであり得る。実際、いくつかの実施形態では、１または複数のレコーダープロセス６１０のロジックは、物理的なハードウェアを介して部分的にまたは完全に実装される。

いくつかの実施形態は、現在のスクリーンショットを以前のスクリーンショットと連続的または定期的に比較して変化を特定するフィードバックループプロセスで実装される。画面上で視覚的な変化が発生した位置を特定し、変化が発生した位置に対してＯＣＲを実行し得る。次に、ＯＣＲの結果をキーボードキューのコンテンツと比較して（例えば、キーフックによって決定される）、一致が存在するかどうかを決定し得る。変化が発生した位置は、現在のスクリーンショットからのピクセルのボックスを、前のスクリーンショットの同じ位置にあるピクセルのボックスと比較することによって決定され得る。

レコーダープロセス６１０で記録される画像および／または他のデータ（例えば、ウェブブラウザの履歴、ヒートマップ、キー押下、マウスクリックなど、ユーザーがインタラクションしている画面上のマウスクリックおよび／またはグラフィカル要素の位置、時間帯でユーザーが画面上で見ていた位置、スクリーンショット／ビデオフレーム、音声入力、ジェスチャー、感情（ユーザーが満足しているか、イライラしているかなど）、バイオメトリクス（指紋、網膜スキャン、ユーザーの脈拍など）に関連付けられたタイムスタンプ、ユーザーアクティビティが無い期間に関連する情報（例えば、「デッドマンスイッチ」）、ハプティックディスプレイまたはタッチパッドからのハプティック情報、マルチタッチ入力によるヒートマップなど）は、ネットワーク６２０（例えば、ローカルエリアネットワーク（ＬＡＮ）、モバイル通信ネットワーク、衛星通信ネットワーク、インターネット、それらの任意の組み合わせなど）を介してサーバー６３０に送られる。いくつかの実施形態では、サーバー６３０は、パブリッククラウドアーキテクチャ、プライベートクラウドアーキテクチャ、ハイブリッドクラウドアーキテクチャなどの一部であってもよい。特定の実施形態では、サーバー６３０は、単一のコンピューティングシステム６３０上で複数のソフトウェアベースのサーバーをホストしてもよい。いくつかの実施形態では、サーバー６３０は、コンダクタアプリケーションを実行してもよく、およびレコーダープロセス６１０からのデータは、ハートビートメッセージの一部として定期的に送信されてもよい。特定の実施形態では、データは、所定量のデータが収集されると、所定期間が経過した後、またはその両方で、レコーダープロセス６１０からサーバー６３０に送信され得る。サーバー６３０は、レコーダープロセス６１０からの受信データをデータベース６４０に格納する。

サーバー６３０は、ＡＩ／ＭＬモデル６３２を含む。いくつかの実施形態では、ＡＩ／ＭＬモデル６３２は、統計的モデリング（例えば、隠れマルコフモデル（ＨＭＭ））などのさまざまな機能を実行する複数の層を有し得、深層学習技術（例えば、長短期記憶（ＬＳＴＭ）深層学習、以前の隠れ状態のエンコードなど）を利用してユーザーインタラクションのシーケンスを特定し得る。ＡＩ／ＭＬモデル６３２は、レコーダープロセス６１０からのユーザーインタラクションの抽出、抽出されたユーザーインタラクションのシーケンスの決定、ＲＰＡロボットの生成など、様々なタスクを実行し得る。いくつかの実施形態では、ユーザーインタラクションのシーケンスを決定するためのＡＩ／ＭＬモデルは、ユーザーインタラクションが発生した時間、画面上の位置などと共に、別のＡＩ／ＭＬモデルによって認識されたインタラクションを提供され得る。

いくつかの実施形態では、タスクのシーケンスを認識するためのＡＩ／ＭＬモデル６３２は、別のＡＩ／ＭＬモデルによって既に認識されたユーザーインタラクションを提供され得る。しかし、特定の実施形態では、ＡＩ／ＭＬモデル６３２は、入力としてユーザーインタラクションからのデータを使用して訓練段階を経て、ＡＩ／ＭＬモデル６３２が十分に正確であるが、訓練データに対して過剰適合しないまでＡＩ／ＭＬモデル６３２が訓練される。許容できる精度は、アプリケーションに依存し得る。特定エラーは、人間のレビューアによって強調され（例えば、誤特定された要素の周りにボックスを描き、正しい特定を含めることによって）、この追加のラベル付きデータを使用してＡＩ／ＭＬモデル６３２を再訓練し得る。十分に訓練されると、ＡＩ／ＭＬモデル６３２は、画面内にどのようなアプリケーション（複数可）およびグラフィカル要素（複数可）が存在すると認識されるかなどの予測を出力として提供することができる。

しかしながら、このレベルの訓練は、何が存在するかに関する情報を提供するが、２つ以上の連続する画面を比較して、タイプされた文字があるものから別のものに現れたこと、ボタンが押されたこと、メニュー選択が発生したことなどを決定するなど、ユーザーインタラクションを決定するためにさらなる情報が必要となり得る。したがって、ＡＩ／ＭＬモデル６３２が画面上のグラフィカル要素およびアプリケーションを認識できた後、いくつかの実施形態では、ＡＩ／ＭＬモデル６３２は、ＵＩ内のアプリケーションとのラベル付きユーザーインタラクションを認識するようにさらに訓練されて、ユーザーによって取られるそのようなインクリメンタル（ｉｎｃｒｅｍｅｎｔａｌ）なアクションを理解する。特定エラーは人間のレビューアによって（例えば、誤認された要素の周りにボックスを描画し、正しい特定を含めることによって）再び強調され得、ＵＩとの詳細なユーザーインタラクションを理解するために展開されるほどその精度が十分に高くなるまで、ＡＩ／ＭＬモデル６３２が訓練され得る。

いくつかの実施形態では、ユーザーのインタラクションを認識するように訓練されると、訓練されたＡＩ／ＭＬモデル６３２を使用して、ビデオ、事前に特定されたユーザーインタラクション、および／またはレコーダープロセス６１０からの他の情報を分析し得る。この記録された情報は、複数／多数のユーザーが実行する傾向があるインタラクションを含み得る。これらのインタラクションは次いで、その後の自動化のための共通のシーケンスのために分析され得る。

ＡＩ／ＭＬモデル６３２（ユーザーインタラクションを特定する同じＡＩ／ＭＬモデルであるか、またはシーケンス認識に利用される別のＡＩ／ＭＬモデルであるかにかかわらず）は、いくつかの実施形態において、タスクとしてインタラクションのシーケンスを認識するように訓練される必要がある。これは、複数のサイズのｎ－ｇｒａｍを適用して、データ内の一致するシーケンスを検索することによって達成され得る。ＡＩ／ＭＬモデル６３２は、（例えば、頻度、重要度メトリック（複数可）などに基づいて）意味のあるシーケンスを特定する傾向があるｎのサイズの範囲を使用するように訓練され得る。いくつかの実施形態では、ｎ－ｇｒａｍは、スライディングウィンドウにわたってユーザーインタラクションのシーケンスに適用され、一致するシーケンスを特定する。

ＡＩ／ＭＬモデル６３２はまた、シーケンス内のユーザーインタラクションをＲＰＡアクティビティに関連付けるように訓練され得る。これは、人間のレビューアが、所与のユーザーインタラクションに対するＲＰＡアクティビティを最初に特定することによって達成され得る。ＡＩ／ＭＬモデル６３２は、やや新しいインタラクションに対するアクティビティを予測するために、時間の経過とともに学習し得る。例えば、メニューアイテムに対する以前のアクティビティが、画面上の「送信」ボタン画像を見つけ、ボタンの領域上に位置するようにマウスを動かし、そしてボタンをクリックすることを含む場合、ＡＩ／ＭＬモデル６３２は、「ＯＫ」ボタン、「次」ボタンなどに対して同様のプロセスを実行することを学習し得る。

ＡＩ／ＭＬモデル６３２がインタラクションをそれぞれのアクティビティに関連付けることができた後、ＡＩ／ＭＬモデル６３２または別のプロセスが、ユーザーインタラクションのシーケンスのタスクを達成するアクティビティのシーケンスを有するＲＰＡワークフローを生成するように訓練され得る。生成されたＲＰＡワークフローは、その後、ＲＰＡロボットを生成および展開するために使用されてもよく、またはワークフローは、ＲＰＡ開発者がＲＰＡワークフローを表示および修正することを可能にするコンピューティングシステム６５０のアプリケーション６５２（例えば、ＲＰＡデザイナアプリケーション）を介してなど、レビューのためにＲＰＡ開発者に送信されてもよい。いくつかの実施形態では、ＡＩ／ＭＬモデル６３２は、最初にＲＰＡ開発者にワークフローを送信し、ＲＰＡ開発者が修正せずに一定数のＲＰＡワークフローを受け入れた後、人間のインタラクション無しにワークフローロジックを実装するＲＰＡロボットを自動的に生成および展開することに切り替えてもよい。

いくつかの実施形態では、ＡＩ／ＭＬモデル６３２は、同じタスクを達成するが、少なくともわずかに異なるユーザーインタラクションのシーケンスを認識するように訓練され得る。ＡＩ／ＭＬモデル６３２は、ユーザーインタラクション間の緩やかな関連付けを含む確率グラフを生成し得る。次に、確率グラフは、どのシーケンスが関連しているかを決定するために「枝刈りされる」ことがある。例えば、インタラクションが除去されてもよく、ＡＩ／ＭＬモデル６３２は、同じタスクが達成されるかどうかをチェックし得る。本発明の範囲から逸脱することなく、関連するシーケンスを決定するために、レーベンシュタイン距離、ファジーマッチング、および／または他の任意の適切な技術を使用することができる。

いくつかの実施形態では、ＡＩ／ＭＬモデル６３２は、複数の関連するシーケンスの間で最も効率的なパスを決定するように訓練され得る。これは、インタラクション／ステップの数、各ステップに関連する時間（例えば、ユーザーインタラクションに関する時間順データのタイムスタンプから得られる）などに基づいて決定され得る。その後、ＲＰＡワークフローは、そのタスクを達成する最も効率的なシーケンスに基づいて生成され得る。

いくつかの実施形態では、ＡＩ／ＭＬモデル６３２は、ユーザーインタラクションのシーケンスを最初に分析することなく、望ましい結果を認識するように訓練され得る。例えば、ＡＩ／ＭＬモデル６３２は、アカウントが作成されたこと、新規ユーザーが追加されたこと、収益が発生したこと、問題が解決されたことなどを認識するように訓練され得る。その後、ＡＩ／ＭＬモデル６３２は、望ましい結果につながるシーケンスを再現するために、ユーザーインタラクションに関するデータまたはユーザーインタラクション自体において見返し得る。そして、ＡＩ／ＭＬ６３２モデルまたは別のプロセスによって、インタラクションをアクティビティに関連付け、シーケンスを実装するＲＰＡワークフローを生成し得る。

現代のネットワークは、基本的に大きな確率グラフである。いくつかの実施形態では、望ましい結果が決定されると、ＡＩ／ＭＬモデル６３２はプリオールを見返して、望ましい結果を達成するために何が最も重要であったかを評価し得る。収益が結果として増加したと決定された場合、結果につながった信号がサブ信号に分解され、どのサブ信号（複数可）が収益の増加につながったかが決定され得る。

いくつかの実施形態では、シーケンスは全く認識される必要がない場合がある。例えば、ＡＩ／ＭＬモデル６３２は、インタラクションおよびその繰り返しの間の関連性を認識し、追跡するように訓練され得る。ＡＩ／ＭＬモデル６３２がニューラルネットワークである場合、例えば、関連グラフに基づいて、ＡＩ／ＭＬモデル６３２は、望ましい結果につながるインタラクションを選択する傾向があるように、ニューラルネットワークのノードを強化してもよい。

上記により、いくつかの実施形態では、ＡＩを使用して全プロセスをエンドツーエンドで実行し得る。例えば、ＡＩ／ＭＬモデル（複数可）６３２は、ユーザーが使用しているアプリケーション、そのグラフィカル要素、およびユーザーインタラクションを決定し、ユーザーインタラクションの共通シーケンスを決定し、そして設計時開発（ｄｅｓｉｇｎｔｉｍｅｄｅｖｅｌｏｐｍｅｎｔ）無しで実行時にインタラクションのシーケンスを実装するＲＰＡロボットを自動的に構築および展開するために使用され得る。その後、自動開発されたロボットが作業を行うまたは異常が発生するシナリオに関して、コンピューティングシステム６０２、６０４、６０６のユーザーから訓練データを得ることができ、そしてこの訓練データをサーバー６３０に提供し、ＡＩ／ＭＬモデル６３２を再訓練するために使用することができる。訓練データは、画像において誤認識が発生した領域または要素を見落とした領域、ラベルの修正、入力の修正などを含み得る。このプロセスを繰り返し、ＲＰＡロボットを反復的に改良することができる。

ＡＩ層

いくつかの実施形態では、複数のＡＩ層が使用され得る。各ＡＩ層は、データ上で実行されるアルゴリズム（またはモデル）であり、ＡＩモデル自体は、訓練データで訓練された人工「ニューロン」の深層学習ニューラルネットワーク（ＤＬＮＮ）であり得る。層は、直列、並列、またはそれらの組み合わせで実行され得る。

Ａｌ層は、限定されないが、シーケンス抽出層、クラスタリング検出層、視覚成分検出層、テキスト認識層（例えば、ＯＣＲ）、音声－テキスト翻訳層、またはそれらのいずれかの組み合わせを含み得る。しかしながら、本発明の範囲を逸脱することなく、いずれかの所望の数およびタイプ（複数可）の層を使用し得る。複数の層を使用することで、システムが画面で何が起こっているのかのグローバルな画像を展開し得る。例えば、あるＡＩ層はＯＣＲを実行し得、別のＡＩ層はボタンを検出し得、別のＡＩ層はシーケンスを比較し得るなど。パターンは、１つのＡＩ層によって個別に決定されてもよいし、複数のＡＩ層によってまとめて決定されてもよい。

図７は、本発明の実施形態による、ＡＩ／ＭＬモデルを使用してコンピューティングシステムとのユーザーインタラクションのシーケンスを決定し、共通プロセスを抽出し、そしてＲＰＡロボットを生成するプロセス７００を説明するフローチャートである。プロセスは、７１０において、複数のユーザーとそれぞれのユーザーコンピューティングシステムとの時間順インタラクションを含むデータをＡＩ／ＭＬモデルに提供することから始まる。その後、ＡＩ／ＭＬモデルは、７２０でデータ内の関連シーケンスを認識するように訓練される。いくつかの実施形態では、訓練は、コンピューティングシステムからの記録データにおけるユーザーインタラクションのシーケンスのｎ－ｇｒａｍをスライディングウィンドウで比較して関連シーケンスを見つけることにより、ユーザーインタラクションの時間順シーケンスにおけるタスクに関係するユーザーインタラクションの関連シーケンスを認識するために、ＡＩ／ＭＬモデルを訓練することを含む。ｎ－ｇｒａｍは、２つ以上のｎの値を含み得る。

いくつかの実施形態では、訓練は、関連シーケンスにおいてタスクが見つかるかどうかを判断する際に、１または複数の重要度メトリックを使用するようにＡＩ／ＭＬモデルを訓練することを含む。特定の実施形態では、１または複数の重要度メトリックは、関連する一連のアクションが、少なくとも一定量の収益を生み出すか、少なくとも一定量の収益を節約するか、少なくとも一定量だけタスクの効率および／もしくは速度を上げるか、顧客獲得プロセスをスピードアップするか、必要となる通信回数を減らすか、またはそれらの組み合わせを含む。いくつかの実施形態では、訓練は、少なくともサイズｎのシーケンスの大半がユーザーによって実行されるタスクに関係するようなｎの最低値を決定するようにＡＩ／ＭＬモデルを訓練すること含む。特定の実施形態では、訓練は、ｎの最高値を超えるｎ－ｇｒａｍが考慮されないようなｎの最高値を決定するようにＡＩ／ＭＬモデルを訓練することを含む。いくつかの実施形態では、訓練は、ユーザーインタラクションをＲＰＡアクティビティに関連付けるために、ＡＩ／ＭＬモデルまたはＲＰＡデザイナアプリケーションを訓練することを含む。特定の実施形態では、ＡＩ／ＭＬモデルが、シーケンスがタスクに関係すると決定するために、関連するシーケンスの最小数が必要とされる。

次に、訓練されたＡＩ／ＭＬモデルは、７３０で展開される。いくつかの実施形態では、展開されたＡＩ／ＭＬモデルは、１または複数のＲＰＡロボットによって呼び出されるように構成される。７４０において、それぞれのコンピューティングシステムを有する複数のユーザーの記録された実際のユーザーインタラクションが分析され、記録された実際のユーザーインタラクションにおける一致するシーケンスのセットが、訓練されたＡＩ／ＭＬモデルによって決定される。いくつかの実施形態では、一致するシーケンスのセットの決定は、ＡＩ／ＭＬモデルによって、ユーザーインタラクションのシーケンス間の関連性を含む確率グラフを生成することと、ＡＩ／ＭＬモデルによって、無関係なユーザーインタラクションおよびシーケンスを除去するために確率グラフを枝刈りすることと、そしてＡＩ／ＭＬモデルによって、枝刈りされた確率グラフに基づいて一致するシーケンスのセットの一部としてユーザーインタラクションのシーケンスが一致すると決定することと、を含む。特定の実施形態では、シーケンスが一致するかどうかの決定は、レーベンシュタイン距離、ファジーマッチング、またはそれらの組み合わせを用いて実行される。

一致するシーケンスの各セットの最も効率的なシーケンスが７５０で決定される。いくつかの実施形態では、最も効率的なシーケンスの決定は、シーケンス内のユーザーインタラクションの数、シーケンス内のユーザーインタラクションに関連する時間、またはそれらの組み合わせに基づく。次いで、最も効率的なシーケンスを実装するＲＰＡワークフローが、７６０において生成される。ＲＰＡワークフローは、シーケンスのユーザーインタラクションを実装するアクティビティを含む。特定の実施形態では、１または複数の生成されたＲＰＡワークフローは、７７０において、１または複数のＲＰＡデザイナアプリケーションにアクセス可能にされ、ＲＰＡ開発者が必要に応じてワークフローを編集できるようにする。さらにまたは代替的に、それぞれのＲＰＡロボットは、７８０において最も効率的なシーケンスを使用して生成される。１または複数の生成されたＲＰＡロボットはその後、７９０において１または複数のユーザーコンピューティングシステムに展開され得る。

図８は、本発明の実施形態による、ＡＩ／ＭＬモデルを使用して望ましい最終状態に基づくプロセス抽出を実施し、そしてＲＰＡロボットを生成するためのプロセス８００を説明するフローチャートである。プロセスは、８１０において、複数のユーザーとそれぞれのユーザーコンピューティングシステムとの時間順インタラクションを含むデータをＡＩ／ＭＬモデルに提供することから始まる。ＡＩ／ＭＬモデルは、その後、８２０で望ましい結果を認識し、８３０で望ましい結果につながるプロセス（複数可）を決定するように訓練される。例えば、ＡＩ／ＭＬモデルは、アカウントが作成されたこと、新規ユーザーが追加されたこと、収益が発生したこと、問題が解決されたことなどのようなさまざまな望ましい状態を認識するように訓練され得る。その後、ＡＩ／ＭＬモデルは、望ましい結果につながるシーケンスを再現するために、ユーザーインタラクションに関するデータまたはユーザーインタラクション自体において見返し得る。いくつかの実施形態では、望ましい結果が決定されると、ＡＩ／ＭＬモデルはプリオールを見返して、望ましい結果を達成するために何が最も重要であったかを評価し得る。結果につながった信号がサブ信号に分解され、どのサブ信号（複数可）が望ましいものにつながったかが決定され得る。その後、ＡＩ／ＭＬモデルが、８４０で展開される。

次に、８５０で、記録された実際のユーザーインタラクションデータの望ましい結果がＡＩ／ＭＬモデルによって決定される。次いで、ＡＩ／ＭＬモデルは、８６０において、望ましい結果につながるユーザーインタラクションを決定する（例えば、望ましい結果が達成される前に時間順インタラクションを試して望ましい結果の再現を試みることによって）、または望ましい結果が再現できるまでニューラルネットワークプライヤのノードを強化する実験を行う。次いで、望ましい結果につながるＲＰＡワークフローが８７０で生成される（例えば、ユーザーインタラクションに関連するアクティビティをＲＰＡワークフローに追加すること、バックプロパゲーションを介してタスクを実行するように訓練された１または複数のＡＩ／ＭＬモデルを呼び出す１または複数のアクティビティを追加することなどによって）。１または複数の生成されたＲＰＡワークフローは、８８０において、１もしくは複数のＲＰＡデザイナアプリケーションにアクセス可能にされる、それぞれのＲＰＡロボットが生成／展開される、またはその両方である。

図９は、本発明の実施形態による、ユーザーインタラクションのシーケンスを表すｎ－ｇｒａｍの比較を説明する図である。この例では、シーケンス９００は第１のユーザーの時間順一連のインタラクションを表し、シーケンス９１０は第２のユーザーの時間順一連のインタラクションを表し、そしてシーケンス９２０は第３のユーザーの時間順一連のインタラクションを表す。本発明の範囲から逸脱することなく、任意の数のユーザーのインタラクションが比較され得る。ここで、比較のためのｎ－ｇｒａｍサイズは５である。

最初に、第１のユーザーの最初の５つのインタラクション（Ａ１、Ａ２、ＡＡ３、Ａ４、Ａ５）の５－ｇｒａｍ９０２が、シーケンス９１０および９２０の時間順５－ｇｒａｍと比較される。本発明の範囲から逸脱することなく、任意の数の異なるインタラクションを特定し、比較することができる。この例では、シーケンス９１０およびシーケンス９２０の両方が、最初の１２つのインタラクションにおいてそれぞれの一致する５－ｇｒａｍ９１２、９２２を含む。３つの一致する５－ｇｒａｍシーケンス９０２、９１２、９２２が見つかるので、これは、この５－ｇｒａｍがプロセスオートメーションの潜在的な候補であることを示し得る。また、いくつかの実施形態では、一致の数が格納され得る。

５－ｇｒａｍの一致するシーケンスが第１のユーザーについて特定された後、第２の使用のための５－ｇｒａｍは、第３のユーザーおよび任意の後続のユーザーと比較して、潜在的に、既に発見された一致するシーケンスが削除された新しい一致を見つけることができる（例えば、インタラクションをキューデータ構造に格納し、一致が見つかったときにキューから削除することによって）。このプロセスは、最後から２番目のユーザーのインタラクションが分析されるまで、すべてのユーザーについて繰り返され得る。ｎ値の範囲を考慮する場合は、ｎがインクリメントされ得、そしてその範囲内のすべてのｎ－ｇｒａｍサイズが解析されるまで、このプロセスが繰り返され得る。

図７および図８で実行されるプロセスステップは、本発明の実施形態に従って、図７および図８で説明したプロセス（複数可）の少なくとも一部を実行するようにプロセッサ（複数可）への命令をエンコードするコンピュータプログラムによって実行されてもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されていてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープ、および／またはデータを格納するために使用される他のそのような媒体または媒体の組み合わせであってもよいが、これらに限定されるものではない。コンピュータプログラムは、図７および８に記載されたプロセスステップの全部または一部を実装するために、コンピューティングシステム（例えば、図５のコンピューティングシステム５００のプロセッサ（複数可）５１０）のプロセッサ（複数可）を制御するためのコード化された命令を含んでもよく、これはまた、コンピュータ読み取り可能な媒体に格納されてもよい。

コンピュータプログラムは、ハードウェア、ソフトウェア、またはハイブリッド実装で実装され得る。コンピュータプログラムは、互いに動作可能な通信を行うモジュールで構成され得、情報または指示をディスプレイに送るように設計されている。コンピュータプログラムは、汎用コンピュータ、ＡＳＩＣ、またはいずれかの他の好適なデバイスで動作するように構成され得る。

本発明の様々な実施形態のコンポーネントは、本明細書に一般的に記載され、図示されているように、様々な異なる構成で配置され、設計されてもよいことが、容易に理解されるであろう。したがって、添付の図に表されるような本発明の実施形態の詳細な説明は、特許請求されるような本発明の範囲を限定することを意図するものではなく、本発明の選択された実施形態を代表するものにすぎない。

本明細書を通して記載された本発明の特色、構造、または特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせられ得る。例えば、本明細書全体を通して「特定の実施形態」、「いくつかの実施形態」、または類似の言語を参照することは、実施形態に関連して記載された特定の特色、構造、または特徴が、本発明の少なくとも１つの実施形態に含まれていることを意味する。したがって、本明細書全体を通して「特定の実施形態では」、「いくつかの実施形態では」、「他の実施形態では」、または類似の言語の出現は、必ずしも全ての実施形態の同じグループを指すものではなく、記載された特色、構造、または特徴は、１または複数の実施形態ではいずれかの好適な方法で組み合わせられ得る。

本明細書全体を通して特色、利点、または類似の言語への参照は、本発明で実現され得る特色および利点の全てが、本発明のいずれかの単一の実施形態にあるべきであること、または本発明のいずれかの実施形態であることを意味するものではないことに留意すべきである。むしろ、特色および利点に言及する言語は、実施形態に関連して記載された特定の特色、利点、または特徴が、本発明の少なくとも１つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体での特色および利点の議論、ならびに類似の言語は、同じ実施形態を参照することができるが、必ずしもその必要性はない。

さらに、本発明の記載された特色、利点、および特徴は、１または複数の実施形態では、いずれかの好適な方法で組み合わせることができる。関連する技術の当業者は、本発明が、１または複数の特定の実施形態の特定の特徴または利点なしに実施され得ることを認識するであろう。他の例では、追加の特徴および利点は、本発明の全ての実施形態には存在しないかもしれないが特定の実施形態では認識され得る。

本分野における通常の技術を有する者は、上述したような本発明を、異なる順序でのステップを用いて、および／または開示されているものとは異なる構成のハードウェア要素を用いて実施することができることを容易に理解するであろう。したがって、本発明は、これらの好ましい実施形態に基づいて説明されてきたが、本発明の精神および範囲内にとどまりながら、特定の変更、変形、および代替的な構成が明らかになることは、当業者には明らかであろう。したがって、本発明の範囲を決定するためには、添付の特許請求の範囲を参照すべきである。

Claims

コンピューティングシステムによって、人工知能（ＡＩ）／機械学習（ＭＬ）モデルに、複数のユーザーとそれぞれのユーザーコンピューティングシステムとの時間順インタラクションを含むデータを提供することと、
前記コンピューティングシステムによって、前記コンピューティングシステムからの記録データにおけるユーザーインタラクションのシーケンスのｎ－ｇｒａｍをスライディングウィンドウで比較して関連シーケンスを見つけることにより、ユーザーインタラクションの時間順シーケンスにおけるタスクに関係するユーザーインタラクションの前記関連シーケンスを認識するために、前記ＡＩ／ＭＬモデルを訓練することであって、前記ｎ－ｇｒａｍは、２つ以上のｎの値を含むことと、
訓練された前記ＡＩ／ＭＬモデルを展開することと、を含む、コンピュータ実装方法。
展開された前記ＡＩ／ＭＬモデルは、１または複数のロボティックプロセスオートメーション（ＲＰＡ）ロボットによって呼び出されるように構成される、請求項１に記載のコンピュータ実装方法。
前記訓練することは、少なくともサイズｎのシーケンスの大半が前記ユーザーによって実行されるタスクに関係するようなｎの最低値を決定するように前記ＡＩ／ＭＬモデルを訓練することをさらに含む、請求項１に記載のコンピュータ実装方法。
前記ＡＩ／ＭＬモデルが、前記シーケンスがタスクに関係すると決定するために、関連するシーケンスの最小数が必要とされる、請求項１に記載のコンピュータ実装方法。
前記訓練することは、ｎの最高値を超えるｎ－ｇｒａｍが考慮されないようなｎの前記最高値を決定するように前記ＡＩ／ＭＬモデルを訓練することをさらに含む、請求項１に記載のコンピュータ実装方法。
前記コンピューティングシステムによって、前記関連シーケンスにおいてタスクが見つかるかどうかを判断する際に、１または複数の重要度メトリックを使用するように前記ＡＩ／ＭＬモデルを訓練することをさらに含む、請求項１に記載のコンピュータ実装方法。
前記１または複数の重要度メトリックは、関連する一連のアクションが、少なくとも一定量の収益を生み出すか、少なくとも一定量の収益を節約するか、少なくとも一定量だけタスクの効率および／もしくは速度を上げるか、顧客獲得プロセスをスピードアップするか、必要となる通信回数を減らすか、またはそれらの組み合わせを含む、請求項６に記載のコンピュータ実装方法。
前記ＡＩ／ＭＬモデルまたはロボティックプロセスオートメーション（ＲＰＡ）デザイナアプリケーションを訓練して、ユーザーインタラクションとＲＰＡアクティビティを関連付けることをさらに含む、請求項１に記載のコンピュータ実装方法。
前記ＡＩ／ＭＬモデルによって、複数のユーザーとそれぞれのコンピューティングシステムとの記録された実際のユーザーインタラクションを分析し、前記記録された実際のユーザーインタラクションにおける一致するシーケンスのセットを決定することと、
決定された前記一致するシーケンスのセットのユーザーインタラクションを実装するアクティビティを含む１または複数のそれぞれのロボティックプロセスオートメーション（ＲＰＡ）ワークフローを生成することと、をさらに含む、請求項８に記載のコンピュータ実装方法。
生成された前記１または複数のＲＰＡワークフローを実装するそれぞれのＲＰＡロボットを生成することと、
生成された前記１または複数のＲＰＡロボットを、１または複数のユーザーコンピューティングシステムに展開することと、をさらに含む、請求項９に記載のコンピュータ実装方法。
生成された前記１または複数のＲＰＡワークフローを１または複数のＲＰＡデザイナアプリケーションにアクセス可能にすることをさらに含む、請求項９に記載のコンピュータ実装方法。
前記一致するシーケンスのセットの決定は、
前記ＡＩ／ＭＬモデルによって、ユーザーインタラクションのシーケンス間の関連性を含む確率グラフを生成することと、
前記ＡＩ／ＭＬモデルによって、関連性のないユーザーインタラクションおよびシーケンスを除去するために前記確率グラフを枝刈りすることと、
前記ＡＩ／ＭＬモデルによって、枝刈りされた前記確率グラフに基づいて、ユーザーインタラクションのシーケンスが前記一致するシーケンスのセットの一部として一致することを決定することと、を含む、請求項９に記載のコンピュータ実装方法。
前記シーケンスが一致するかどうかの決定は、レーベンシュタイン距離、ファジーマッチング、またはそれらの組み合わせを用いて実行される、請求項１２に記載のコンピュータ実装方法。
一致するシーケンスのセットのうちの最も効率的なシーケンスを決定することと、
前記最も効率的なシーケンスを用いて、前記それぞれのＲＰＡワークフローを生成することと、をさらに含む、請求項９に記載のコンピュータ実装方法。
前記最も効率的なシーケンスの決定は、前記シーケンス内のユーザーインタラクションの数、前記シーケンス内のユーザーインタラクションに関連する時間、またはそれらの組み合わせに基づく、請求項１４に記載のコンピュータ実装方法。
コンピュータプログラムを格納した非一時的なコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムは、少なくとも１つのプロセッサが、
人工知能（ＡＩ）／機械学習（ＭＬ）モデルによって、複数のユーザーとそれぞれのコンピューティングシステムとの記録された実際のユーザーインタラクションを分析し、前記記録された実際のユーザーインタラクションにおける一致するシーケンスのセットを決定し、
決定された前記一致するシーケンスのセットのユーザーインタラクションを実装するアクティビティを含む１または複数のそれぞれのロボティックプロセスオートメーション（ＲＰＡ）ワークフローを生成するように構成される、非一時的なコンピュータ読み取り可能な媒体。
前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
生成された前記１または複数のＲＰＡワークフローを実装するそれぞれのＲＰＡロボットを生成し、
生成された前記１または複数のＲＰＡロボットを、１または複数のユーザーコンピューティングシステムに展開するように構成される、請求項１６に記載の非一時的なコンピュータ読み取り可能な媒体。
前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
生成された前記１または複数のＲＰＡワークフローを１または複数のＲＰＡデザイナアプリケーションにアクセス可能にするように構成される、請求項１６に記載の非一時的なコンピュータ読み取り可能な媒体。
前記一致するシーケンスのセットの決定は、
前記ＡＩ／ＭＬモデルによって、ユーザーインタラクションのシーケンス間の関連性を含む確率グラフを生成することと、
前記ＡＩ／ＭＬモデルによって、関連性のないユーザーインタラクションおよびシーケンスを除去するために前記確率グラフを枝刈りすることと、
前記ＡＩ／ＭＬモデルによって、枝刈りされた前記確率グラフに基づいて、ユーザーインタラクションのシーケンスが前記一致するシーケンスのセットの一部として一致することを決定することと、を含む、請求項１６に記載の非一時的なコンピュータ読み取り可能な媒体。
前記シーケンスが一致するかどうかの決定は、レーベンシュタイン距離、ファジーマッチング、またはそれらの組み合わせを用いて実行される、請求項１９に記載の非一時的なコンピュータ読み取り可能な媒体。
前記コンピュータプログラムはさらに、前記少なくとも１つのプロセッサが、
一致するシーケンスのセットのうちの最も効率的なシーケンスを決定し、
前記最も効率的なシーケンスを用いて、前記それぞれのＲＰＡワークフローを生成するように構成される、請求項１６に記載の非一時的なコンピュータ読み取り可能な媒体。
前記最も効率的なシーケンスの決定は、前記シーケンス内のユーザーインタラクションの数、前記シーケンス内のユーザーインタラクションに関連する時間、またはそれらの組み合わせに基づく、請求項２１に記載の非一時的なコンピュータ読み取り可能な媒体。
前記記録された実際のユーザーインタラクションにおける前記一致するシーケンスのセットの決定は、１または複数の重要度メトリックを使用することを含み、
前記１または複数の重要度メトリックは、関連する一連のアクションが、少なくとも一定量の収益を生み出すか、少なくとも一定量の収益を節約するか、少なくとも一定量だけタスクの効率および／もしくは速度を上げるか、顧客獲得プロセスをスピードアップするか、必要となる通信回数を減らすか、またはそれらの組み合わせを含む、請求項１６に記載の非一時的なコンピュータ読み取り可能な媒体。
それぞれのＲＰＡワークフローの生成には、最小数の一致するシーケンスが必要である、請求項１６に記載の非一時的なコンピュータ読み取り可能な媒体。
コンピュータプログラム命令を格納するメモリと、
前記コンピュータプログラム命令を遂行するように構成された少なくとも１つのプロセッサとを含むシステムであって、前記コンピュータプログラム命令は、前記少なくとも１つのプロセッサが、
人工知能（ＡＩ）／機械学習（ＭＬ）モデルによって、複数のユーザーとそれぞれのコンピューティングシステムとの記録された実際のユーザーインタラクションを分析し、前記記録された実際のユーザーインタラクションにおける一致するシーケンスを決定し、
前記一致するシーケンスのうちの最も効率的なシーケンスを決定し、
決定された前記最も効率的な一致するシーケンスのユーザーインタラクションを実装するアクティビティを含む１または複数のそれぞれのロボティックプロセスオートメーション（ＲＰＡ）ワークフローを生成するように構成される、システム。
前記コンピュータプログラム命令はさらに、前記少なくとも１つのプロセッサが、
生成された前記ＲＰＡワークフローを実装するＲＰＡロボットを生成し、
生成された前記ＲＰＡロボットを、１または複数のコンピューティングシステムに展開するように構成される、請求項２５に記載のシステム。
前記コンピュータプログラム命令はさらに、前記少なくとも１つのプロセッサが、
生成された前記ＲＰＡワークフローを１または複数のＲＰＡデザイナアプリケーションにアクセス可能にするように構成される、請求項２５に記載のシステム。
前記最も効率的なシーケンスの決定は、前記シーケンス内のユーザーインタラクションの数、前記シーケンス内のユーザーインタラクションに関連する時間、またはそれらの組み合わせに基づく、請求項２５に記載のシステム。
前記記録された実際のユーザーインタラクションにおける前記一致するシーケンスの決定は、１または複数の重要度メトリックを使用することを含み、
前記１または複数の重要度メトリックは、関連する一連のアクションが、少なくとも一定量の収益を生み出すか、少なくとも一定量の収益を節約するか、少なくとも一定量だけタスクの効率および／もしくは速度を上げるか、顧客獲得プロセスをスピードアップするか、必要となる通信回数を減らすか、またはそれらの組み合わせを含む、請求項２５に記載のシステム。
それぞれのＲＰＡワークフローの生成には、最小数の一致するシーケンスが必要である、請求項２５に記載のシステム。