JP2021018816A

JP2021018816A - ロボティックプロセスオートメーション用のコンピュータビジョンモデルの再訓練

Info

Publication number: JP2021018816A
Application number: JP2020121359A
Authority: JP
Inventors: コスミン，ヴォイク; Voicu Cosmin
Original assignee: UiPath Inc
Current assignee: UiPath Inc
Priority date: 2019-07-19
Filing date: 2020-07-15
Publication date: 2021-02-15
Anticipated expiration: 2040-07-15
Also published as: EP3767528A1; US11487973B2; KR20210010388A; KR102580080B1; JP7034217B2; CN112241581A; US11688192B2; US20230059729A1; US20210019574A1

Abstract

【課題】機械学習（ＭＬ）システムによって生成されたコンピュータビジョン（ＣＶ）モデルを、ロボティックプロセスオートメーション（ＲＰＡ）でより正確なコンピュータ画像分析を行うために再訓練するシステムを提供する。【解決手段】ＲＰＡシステムにおいて、デザイナアプリケーションは、ユーザから画像において誤識別された又は識別されなかったグラフィックコンポーネントの選択を受け取り、選択されたものを含む画像の領域の代表データを決定し、代表データと画像を画像データベースに送る。レビュアは、ＣＶモデルを実行するか、ＣＶモデルを実行させて、エラーが存在することを確認し、存在する場合は、再訓練のため画像と正しいラベルをＭＬシステムに送る。ＣＶモデルが再訓練されている間、代替的な画像認識モデルを使用して、誤識別された又は識別されていないグラフィックコンポーネントを識別する。【選択図】図１１

Description

本発明は、概して、ロボティックプロセスオートメーション（ＲＰＡ）に関し、より詳細には、より正確なコンピュータ画像分析のため、誤識別された又は識別されなかったグラフィカルコンポーネントを識別し、機械学習（ＭＬ）システムによって生成されたＲＰＡ用のコンピュータビジョン（ＣＶ）モデルを再訓練することに関する。

現在、合成データを生成し、ライブアプリケーションからでもインターネットからでも、様々なソフトウェアアプリケーションの実際のユーザインタフェースのスクリーンショット（即ち、デジタル画像）を収集することで、ＲＰＡ用の画像特徴を認識するためのＭＬで生成されたＣＶモデルアルゴリズムを自動化する訓練データが取得される。合成データは、ＭＬモデルを訓練するという特定の目的で生成されるデータである。これは、既に存在し収集されてラベル付けされる必要があるだけの「実」データ又は「オーガニック」データとは異なる。この場合、オーガニックデータには、様々なメカニズムを通じて収集されてラベル付けされたスクリーンショットが含まれる。

訓練データの別のソースは、ユーザが自動化したいアプリケーションのスクリーンショットである。このアプローチでは、インタフェースのグラフィック要素（例えば、チェックボックス、ラジオボタン、テキストボックスなど）がＣＶモデルによって検出されていない場合、ユーザ（例えば、顧客など）は、識別されなかった要素を選択し、選択したもののスクリーンショットを作成し、選択したものの座標を含む画像をサービスプロバイダに送ってもよい。しかし、このアプローチでは、ユーザは、フィードバックとして画像を送ってエラーを報告する労力を費やす必要がある。実際のところ、殆どのユーザはこれを行わない。

また、現在の技術で取得されたデータは、実装後に次善又は無関係になる可能性がある。例えば、実行時に顧客によって使用されるアプリケーションの実際のユーザインタフェースが、設計時にデータの訓練に使用されるユーザインタフェースとは異なる場合がある。これにより、ＣＶモデルは、実際のユーザインタフェースを認識せず、不適切になる可能性があり、ＣＶモデルは、結果として有効に動作するために再訓練を必要とする場合がある。したがって、ＣＶモデルを再訓練するための向上したアプローチが有益となる可能性がある。

本発明の特定の実施形態は、現在のＣＶモデル技術によってまだ完全に識別、認識、又は解決されていない、当該技術分野における課題及び必要性に対する解決方法を提供する可能性がある。例えば、本発明の幾つかの実施形態は、より正確なコンピュータ画像分析のため、誤識別された又は識別されなかったグラフィックコンポーネントを識別し、ＭＬシステムによって生成されたＲＰＡ用のＣＶモデルを再訓練することに関する。

一実施形態において、コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体で具現化される。プログラムは、ＣＶモデルの実行から画像内のグラフィックコンポーネントの識別内容を受け取ることと、ＣＶモデルによって識別された識別済みのグラフィックコンポーネントを伴う画像を、ビジュアルディスプレイに表示させることとを、少なくとも１つのプロセッサに実行させるように構成されている。コンピュータプログラムはまた、画像において誤識別された又は識別されなかったグラフィックコンポーネントの選択を受け取ることと、選択されたものを含む画像の領域の代表データを決定することと、代表データと画像を画像データベースに送ることとを、少なくとも１つのプロセッサに実行させるように構成されている。

別の実施形態において、コンピューティングシステムは、機械読み取り可能なコンピュータプログラム命令を記憶するメモリと、コンピュータプログラム命令を実行するように構成された少なくとも１つのプロセッサとを備える。該命令は、画像において誤識別された又は識別されなかったグラフィックコンポーネントの選択を受け取ることと、選択されたものを含む画像の領域の代表データを決定することと、ＣＶモデルの再訓練のため代表データと画像を画像データベースに送ることとを、少なくとも１つのプロセッサに実行させるように構成されている。該命令はまた、再訓練されたＣＶモデルの実行から画像内のグラフィックコンポーネントの識別内容を受け取ることと、再訓練されたＣＶモデルによって識別された識別済みのグラフィックコンポーネントを伴う画像をビジュアルディスプレイに表示することとを、少なくとも１つのプロセッサに実行させるように構成されている。

さらに別の実施形態において、コンピュータ実施方法は、画像において誤識別された又は識別されなかったグラフィックコンポーネントの選択を、コンピューティングシステムによって受け取ることと、コンピューティングシステムによって、選択されたものを含む画像の領域の代表データを決定することとを含む。コンピュータ実施方法はまた、コンピューティングシステムによって、代表データと画像を画像データベースに送ることと、コンピューティングシステムによって、ワークフローに画像と代替的な画像処理ロジックを組み込んで、ＣＶモデルが再訓練されている間に、誤識別された又は識別されなかったグラフィックコンポーネントを識別することとを含む。

本発明の特定の実施形態の利点が容易に理解されるように、上記簡単に説明した本発明のより詳細な説明を、添付の図面に示す特定の実施形態を参照して行う。これらの図面は、本発明の典型的な実施形態のみを示すもので、その範囲を限定するものと見なされるべきではないことを理解されたい。本発明は、添付の図面の使用を通じて追加の特性及び詳細とともに記載され説明される。

本発明の一実施形態によるＲＰＡシステムを示すアーキテクチャ図である。

本発明の一実施形態による、デプロイされたＲＰＡシステムを示すアーキテクチャ図である。

本発明の一実施形態による、デザイナとアクティビティとドライバとの関係を示すアーキテクチャ図である。

本発明の一実施形態による、実行時に仮想マシン（ＶＭ）システムにＣＶを使用するＲＰＡ実装を示す。

本発明の一実施形態による、設計時にグラフィックコンポーネントが識別されなかった又は誤識別された場合の、図４ＡのＲＰＡ実装を示す。

ユーザが画面上のグラフィカルコンポーネントを選択することを試みる前の、ＶＭのリモートデスクトップ接続ウィンドウを示すスクリーンショットである。

ユーザが画面上のグラフィカルコンポーネントを選択することを試みた後の、ＶＭのリモートデスクトップ接続ウィンドウを示すスクリーンショットである。

本発明の一実施形態による、ＣＶ／ＯＣＲが実行されてその結果がデザイナを介してユーザに対して表示された後の、セレクタツールウィンドウ及びリモートデスクトップ接続ウィンドウを示すスクリーンショットである。

本発明の一実施形態による、ユーザがグラフィカルコンポーネントを正しく識別されていない又は誤識別されているとして選択した後の、セレクタツールウィンドウ及びリモートデスクトップ接続ウィンドウを示すスクリーンショットである。

本発明の一実施形態による、ＣＶモデルを再訓練した後のリモートデスクトップ接続ウィンドウを示すスクリーンショットである。

本発明の一実施形態による、ＣＶ／ＯＣＲが実行されてその結果がデザイナを介してユーザに対して表示された後の、アンカー指定ウィンドウ及びリモートデスクトップ接続ウィンドウを示すスクリーンショットである。

図９Ａ〜図９Ｃは、本発明の一実施形態によるマルチアンカーマッチングアルゴリズムの例を示す。

本発明の一実施形態による、ＣＶ／ＯＣＲが実行されてその結果がデザイナを介してユーザ対して表示された後の、アンカー指定ウィンドウ及びリモートデスクトップ接続ウィンドウを示すスクリーンショットである。

本発明の一実施形態による、ＣＶモデルを再訓練するプロセスを示すフローチャートである。

本発明の一実施形態による、ＣＶモデルを再訓練するように構成されたコンピューティングシステムを示すアーキテクチャ図である。

幾つかの実施形態は、より正確なコンピュータ画像分析のため、誤識別された又は識別されなかったグラフィックコンポーネントを識別し、ＭＬシステムによって生成されたＲＰＡ用のＣＶモデルを再訓練することに関する。自動化されるアプリケーションのグラフィカルユーザインタフェース（ＧＵＩ）を含むビジュアルディスプレイのスクリーンショット画像が取得されてもよい。例えばＣｉｔｒｉｘ（登録商標）、ＶＭＷａｒｅ（登録商標）、ＶＮＣ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）リモートデスクトップなどの仮想マシン（ＶＭ）の実施形態において、或いは、特定のＦｌａｓｈ、Ｓｉｌｖｅｒｌｉｇｈｔ、又はＰＤＦドキュメントで、所定のアプリケーションのために画像のみが表示されてもよい。画像は、本発明の範囲から逸脱することなく、ウィンドウ、ドキュメント、財務領収書、請求書、及び／又は他の任意のグラフィック要素を含んでもよい。幾つかの実施形態において、画像は非構造化データを含んでもよいが、特定の実施形態において、データは構造化されている。

次に、ＯＣＲからのテキスト認識モデルと併用される可能性のあるＣＶモデルが、スクリーンショット画像で実行されてもよい。画像において識別された特定のグラフィックコンポーネントが、スクリーンショット画像とＣＶ／ＯＣＲからコンポーネントを識別するデータとを入力として受け付けるデザイナに提供され、ビジュアルディスプレイ（例えば、コンピュータモニタ、ラップトップ画面、スマートフォン、仮想現実又は拡張現実ディスプレイデバイスなど）に、識別されたグラフィックコンポーネントを示すものをユーザに対して表示してもよい。ビジュアルディスプレイ上に一又は複数の誤識別された又は識別されなかったグラフィックコンポーネント（例えば、チェックボックス、テキストボックス、ラジオボタン、通常のボタンなど）がある場合、ユーザは自身の画面上でそのようなグラフィックコンポーネントを含める選択を行ってもよい。幾つかの実施形態において、ユーザに実用的な代替案を提供すること（例えば、誤識別された又は識別されなかったグラフィックコンポーネントに対して画像マッチングアルゴリズムを使用する能力をユーザに提供すること）により、そのような選択をユーザに促してもよい。幾つかの実施形態において、グラフィックコンポーネントは、ＣＶモデルによって識別可能な視覚表示要素、ＯＣＲによって識別可能な視覚表示要素、及び／又はこれら両方による識別を必要とする視覚表示要素（例えば、少なくとも一部のテキストを含むテキストフィールドなど）を含んでもよいことに留意されたい。選択されたものから、デザイナは、ユーザによって選択された視覚表示の領域の代表データを決定してもよい。

幾つかの実施形態において、この代表情報は、領域を有する形状を定義する座標、線分、又はこれら両方を含む。特定の実施形態において、選択されるのは、本発明の範囲から逸脱することなく、矩形、円形、楕円形、正方形、六角形、フリーフォーム、及び／又は任意の他の適切な形状であってもよい。幾つかの実施形態において、ユーザは、関心のある各グラフィックコンポーネントに最もよく適合する可能性のある複数の種類の形状の間で選択可能であってもよい。例えば、矩形はテキストボックスに最もよく適合する可能性があり、円形はラジオボタンに最もよく適合する可能性がある。特定の実施形態において、コンピューティングシステムは、完全に囲まれていない自由形状を推論して完成させることを試みてもよい。

幾つかの実施形態において、適切なハードウェアが使用される場合、形状は、体積（即ち、ピクセルではなくボクセル）を有する３次元形状であってもよく、代表情報への関連する調整を伴ってもよいことに留意されたい。例えば、拡張現実ヘッドセットを使用してユーザの指の位置を検出したり、センサが組み込まれたポインタデバイスで３次元の位置を提供したりしてもよい。このようなシステムにより、例えば、矩形又は円の代わりに箱（ボックス）又は球を定義してもよい。

次に、デザイナは、スクリーンショット画像及び代表データを画像データベースに送り、レビュアは、このような情報を画像データベースから受け取る。この送信は、自動的に行われてもよいし、ユーザの指示で行われてもよい。ユーザからの追加のアクションがない幾つかの実施形態において、送信が自動的に行われることは新規である。実際、幾つかの実施形態において、ユーザは、再訓練プロセスが開始されたこと、又は、ユーザがそこで役割を果たしたことを知らずに、誤識別され且つ／又は識別されなかったグラフィックコンポーネントを識別している可能性がある。レビュアは、自身のコンピューティングシステムを介して、自身のデザイナアプリケーションを使用してユーザによって選択されたスクリーンショット画像及び領域をレビューし、エラーが存在することを確認する。例えば、人間のレビュアが、ユーザによって行われた選択を誤判定に関してレビューして、非識別及び／又は誤識別が実際に発生したことを確認してもよい。例えば、人間のレビュアは、ユーザがウィンドウの最大化／最小化アイコンを識別されていないものとして選択していないことを確認してもよい。その場合、レビュアは、再訓練のため、スクリーンショット画像及び代表データをＭＬシステムに送る。幾つかの実施形態において、再訓練は、識別された他の問題を伴うバッチで行われる。幾つかの実施形態において、画像データベースにおける設計時からの他の画像を使用して、再訓練を強化する。特定の実施形態において、ＭＬシステムは、ＣＶモデルを訓練するために使用されたものと同じＭＬシステムであるが、スクリーンショット画像及び代表データに基づいて（そして、おそらく上記の幾つかの実施形態における他のエラーに対処するため）更新される。次に、ＭＬシステムは、ＣＶモデルを再訓練し、誤識別された又は認識されなかったグラフィックコンポーネントをより正確に識別する、再訓練されたＣＶモデルを生成する。次に、再訓練されたＣＶモデルは、ＣＶモデルを実行しているコンピューティングシステム（例えば、別のサーバ、ユーザのコンピューティングシステムなど）に送られ、再訓練されたＣＶモデルを使用して、誤識別された及び／又は識別されなかったグラフィックコンポーネントを含む全ての非テキストグラフィックコンポーネントを正確に識別する。

ＣＶモデルの再訓練に、一又は複数のディープラーニングニューラルネットワーク（ＤＬＮＮ）を使用してもよい。例えば、ＴｅｎｓｏｒＦｌｏｗ（登録商標）、ＰｙＴｏｒｃｈ（登録商標）などが使用されてもよい。しかし、このようなＤＬＮＮベースの再訓練は、完了するまでに数日又は数週間かかる場合がある。したがって、幾つかの実施形態において、誤識別された又は識別されなかったコンポーネントを認識するために、代替的な画像認識技術がユーザによって使用されてもよい。例えば、画像マッチングアルゴリズムが、ユーザによって選択された画面の領域上で使用されて、その領域におけるグラフィックコンポーネントを識別しようとしてもよい。デザイナは、再訓練されたＣＶモデルが準備されてデプロイされるまで、このロジックをワークフローに組み込んで、将来の処理に使用してもよい。画像マッチングは一般的には、本明細書で説明するマルチアンカー技術に比べて正確ではないが、ＣＶモデルが再訓練されている間、誤識別された又は識別されなかったグラフィックコンポーネントが少なくともある程度の正確さで識別されるようにするための一時的な対応策を提供してもよい。これは、即時の一時的な解決策を提供するので、ユーザに、誤認識された及び／又は識別されなかったグラフィックコンポーネントの選択を行うことをさらに促す。

幾つかの実施形態において、グラフィカルコンポーネントが識別されない又は誤識別される場合、ユーザは、より正確でないアルゴリズムを使用するオプションを選択する。しかし、特定の実施形態において、ユーザは、選択を行うときにその背後で何かが起こっていることに気づかなくてもよく、デザイナは、識別されなかった又は誤識別されたコンポーネントのためワークフローに代替的な画像認識モデルを自動的に組み込んでもよい。したがって、例えば、選択を行って「ＯＫ」ボタンをクリックすることが、ユーザがシステムで持っていることを知っている唯一の対話であってもよい。

例えばＣｉｔｒｉｘ（登録商標）、ＶＭＷａｒｅ（登録商標）、ＶＮＣ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）リモートデスクトップなどの仮想デスクトップインフラストラクチャ（ＶＤＩ）環境を確実に自動化することは、ＲＰＡを使用して達成するのが困難であった。ネイティブコンピューティングシステムの一般的なＲＰＡ実装では、セレクタが使用される。セレクタは、ユーザインタフェース（ＵＩ）の要素の基本的なプロパティを使用して動作し、アプリケーション要素（例えば、ボタン、テキストフィールドなど）を識別する。しかし、この技術は、ＶＤＩ環境において同じソフトウェアを自動化しようとすると失敗する。失敗の理由は、ＶＤＩ環境がビデオストリーミングサービスと同様の方法でリモートデスクトップの画像をストリーミングするためである。「ビデオ」の画像（即ち、「フレーム」）で識別されるセレクタはないということである。光学式文字認識（ＯＣＲ）及び画像マッチングを使用して、この課題を解決する試みが行われている。しかし、ＵＩの僅かな変更でも自動化が機能しなくなり易いので、このような技術は信頼性が不十分であることが判明し、メンテナンスの問題を引き起こしている。

しかし、例えばＵｉＰａｔｈ（登録商標）で使用されているようなＣＶモデルを使用すると、ディープラーニングを使用して、このような画像ベースの環境を自動化する機能を提供できる。幾つかの実施形態において、デザイナ（及び、下記でロボット）は、人工知能（ＡＩ）、ＣＶ、ＯＣＲ、テキストファジーマッチング、及び新規なアンカーシステムを組み合わせて、ユーザインタフェースの人間のような認識を可能にしてもよい。新規なアンカーシステムは、単一のアンカーであっても、複数のアンカーであってもよい。これにより、そのようなデザイナ／ロボットが、隠蔽されたプロパティ、識別子、及びその他のメタデータに依存する代わりに、画面を「見て」、そのグラフィックコンポーネントを視覚的に識別できる。このＣＶベースのアプローチは、幾つかの実施形態において、ＶＤＩ環境に限定されないことに留意されたい。特定の実施形態は、ＳＡＰ、Ｆｌａｓｈ、Ｓｉｌｖｅｒｌｉｇｈｔ、ＰＤＦ、様々な形式（例えば、ＪＰＧ、ＰＮＧ、ＢＭＰなど）の画像などを含むがこれらに限定されない、従来のＵＩ自動化技術が苦戦している幅広いケースで視覚的なグラフィックコンポーネントを認識することも可能である。

従来の画像自動化とは異なり、幾つかの実施形態は、最初のＣＶモデルの画像マッチングに依存しない。結果として、そのような実施形態は、インタフェースの画像マッチングモデルを壊す可能性があるインタフェースの変更に対して高い弾力性があってもよく、そのようなインタフェースの変更には、色、フォント、サイズ、解像度の変更などが含まれるがこれらに限定されない。幾つかの実施形態のＣＶモデルは、このような変更を一度に全て処理可能であり、それでも、意図されたグラフィックコンポーネントを見つけることが可能であってもよい。

幾つかの実施形態は、例えばシンクライアントアーキテクチャなどのＶＭアーキテクチャに特に有益であってもよい。しかし、仮想化は、任意の適切な能力及び機能を備えるクライアントコンピューティングシステム（例えば、スタンドアロンのデスクトップ及びラップトップコンピューティングシステム、スマートフォンなど）を使用して実行される可能性がある。例えば、シンクライアントアーキテクチャでは、クライアントコンピューティングシステムは、ローカルに配置されているか分散されているかに関わらず、サーバ又はサーバのネットワークとのリモート接続を確立する軽量コンピュータである（例えば、クラウドコンピューティングアーキテクチャ）。一般的に、クライアントＶＭセッションは１台のサーバで実行される。

サーバは、従来のパーソナルコンピュータの殆どのタスク（即ち、ソフトウェアアプリケーションの起動及びデータの記憶）を実行し、画面画像をクライアントコンピューティングシステムに送る。クライアントコンピューティングシステムは、ユーザが画像を操作している場所のキーストローク及びマウスクリック（又は触覚インタフェースでのタッチ）を追跡し、この情報をサーバに送る。次に、サーバはこの情報を、ユーザが操作しようとしているサーバ上で実行されている対応するアプリケーションに提供する。その後、それに応じて画面画像が更新され、ユーザに送られて、一般的には、ユーザのコンピューティングシステムで実行されているかのようにアプリケーションが模倣される。一般的に、画面の更新は、リアルタイム又はほぼリアルタイムでシンクライアントに送られる。

画像が使用されるため、幾つかの実施形態は、上記のように、ＶＭシステムでの使用によく適していてもよい。ＣＶモデルは、画像内に含まれるグラフィックコンポーネントを識別しようとする。これは、グラフィックコンポーネント（例えば、テキストボックス、テキストフィールドなど）内に含まれている可能性のある、画像内のテキストを識別しようとするテキスト認識モジュールを使用して拡張されてもよい。

図１は、本発明の一実施形態による、ＲＰＡシステム１００を示すアーキテクチャ図である。ＲＰＡシステム１００は、開発者がワークフローを設計及び実装することを可能にするデザイナ１１０を含む。デザイナ１１０は、アプリケーション統合、並びにサードパーティアプリケーション、管理情報技術（ＩＴ）タスク、及びビジネスＩＴプロセスの自動化のためのソリューションを提供してもよい。デザイナ１１０は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にしてもよい。簡単に言うと、デザイナ１１０はワークフロー及びロボットの開発とデプロイメントを容易にしてもよい。

自動化プロジェクトは、開発者が、本明細書において「アクティビティ」として定義される、ワークフローで開発されたカスタムセットのステップ間の実行順序及び関係を制御できるようにすることで、ルールベースのプロセスの自動化を可能にする。デザイナ１１０の実施形態の１つの商業的な例は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）である。各アクティビティには、例えばボタンのクリック、ファイルの読み込み、ログパネルへの書き込みなどのアクションが含まれていてもよい。幾つかの実施形態において、ワークフローがネストされ又は埋め込まれてもよい。

一部の種類のワークフローには、シーケンス、フローチャート、有限状態機械（ＦＳＭ）、及び／又はグローバル例外ハンドラが含まれてもよいが、これらに限定されない。シーケンスは、線形プロセスに特に適している可能性があり、ワークフローを混乱させることなく、あるアクティビティから別のアクティビティへのフローを可能にする。フローチャートは、より複雑なビジネスロジックに特に適している可能性があり、複数の分岐論理演算子によって、より多様な方法で決定の統合及びアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフローに特に適している可能性がある。ＦＳＭは、実行時に有限数の状態を使用してもよく、それらの状態は、条件（即ち、遷移）又はアクティビティによってトリガされる。グローバル例外ハンドラは、実行エラーが発生したときのワークフローの振る舞いを決定したり、プロセスをデバッグしたりするのに特に適している可能性がある。

ワークフローがデザイナ１１０で開発されると、ビジネスプロセスの実行は、デザイナ１１０で開発されたワークフローを実行する一又は複数のロボット１３０を調整するコンダクタ１２０によって調整される。コンダクタ１２０の実施形態のうち１つの商用的な例は、ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）である。コンダクタ１２０は、環境におけるリソースの作成、監視、及びデプロイメントの管理を容易にする。コンダクタ１２０は、サードパーティのソリューション及びアプリケーションとの統合ポイントとして機能してもよい。

コンダクタ１２０は、全てのロボット１３０を管理して、集中ポイントからロボット１３０を接続して実行してもよい。管理可能なロボット１３０の種類には、アテンディッドロボット１３２、アンアテンディッドロボット１３４、開発ロボット（アンアテンディッドロボット１３４と同様であるが、開発及びテストの目的で使用される）、及び非生産ロボット（アテンディッドロボット１３２と同様であるが、開発及びテストの目的で使用される）が含まれるが、これらに限定されない。アテンディッドロボット１３２は、ユーザイベントによってトリガされ、同じコンピューティングシステム上で人間と一緒に動作する。アテンディッドロボット１３２は、集中プロセス展開及びロギング媒体のためにコンダクタ１２０と共に使用されてもよい。アテンディッドロボット１３２は、人間のユーザが様々なタスクを達成するのを助け、ユーザイベントによってトリガされてもよい。幾つかの実施形態において、プロセスは、この種のロボットのコンダクタ１２０から開始されることができず、且つ／又は、ロックされた画面の下で実行できない。特定の実施形態において、アテンディッドロボット１３２は、ロボットトレイから又はコマンドプロンプトから開始できるのみである。幾つかの実施形態において、アテンディッドロボット１３２は、人間の監督下で動作するべきである。

アンアテンディッドロボット１３４は、仮想環境で操作不要で実行され、多くのプロセスを自動化できる。アンアテンディッドロボット１３４は、遠隔実行、監視、スケジューリング、及びワークキューのサポートの提供を担当してもよい。幾つかの実施形態において、全てのロボットの種類のデバッグをデザイナ１１０で実行してもよい。アテンディッドロボットとアンアテンディッドロボットの両方が、メインフレーム、ウェブアプリケーション、ＶＭ、エンタープライズアプリケーション（例えば、ＳＡＰ（登録商標）、ＳａｌｅｓＦｏｒｃｅ（登録商標）、Ｏｒａｃｌｅ（登録商標）などによって生成されたもの）、及びコンピューティングシステムアプリケーション（例えば、デスクトップ及びラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど）を含むがこれらに限定されない様々なシステム及びアプリケーションを自動化してもよい。

コンダクタ１２０は、プロビジョニング、デプロイメント、コンフィギュレーション、キューイング、監視、ロギング、及び／又は相互接続性の提供を含むがこれらに限定されない様々な機能を有してもよい。プロビジョニングには、ロボット１３０とコンダクタ１２０（例えば、ウェブアプリケーションなど）の間の接続の作成及び保守が含まれてもよい。デプロイメントには、実行のために割り当てられたロボット１３０へのパッケージバージョンの正しい配信を保証することが含まれてもよい。コンフィギュレーションには、ロボット環境及びプロセスコンフィギュレーションの保守及び配信が含まれてもよい。キューイングには、キュー及びキューアイテムの管理の提供が含まれてもよい。監視には、ロボット識別データの追跡及びユーザ権限の維持が含まれてもよい。ロギングには、データベース（例えば、ＳＱＬデータベース）及び／又は他のストレージメカニズム（例えば、ＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）など。これは、大規模なデータセットを記憶してすばやくクエリを実行する機能を提供する）へのログの記憶及びインデックス付けが含まれてもよい。コンダクタ１２０は、サードパーティのソリューション及び／又はアプリケーションのための通信の集中ポイントとして機能することで、相互接続性を提供してもよい。

ロボット１３０は、デザイナ１１０に組み込まれたワークフローを実行する実行エージェントである。ロボット１３０の幾つかの実施形態のうち１つの商用的な例は、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）である。幾つかの実施形態において、ロボット１３０は、デフォルトで、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）サービスコントロールマネージャー（ＳＣＭ）が管理するサービスをインストールする。その結果、そのようなロボット１３０が、ローカルシステムアカウントでインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開き、Ｗｉｎｄｏｗｓ（登録商標）サービスの権限を有してもよい。

幾つかの実施形態において、ロボット１３０は、ユーザモードでインストールされてもよい。そのようなロボット１３０の場合、これは、ユーザのもとでロボット１３０がインストールされて、そのユーザと同じ権利をロボット１３０が有することを意味する。この特徴は、高密度（ＨＤ）ロボットで利用可能であってもよく、各マシンの最大限の活用を確実にしてもよい。幾つかの実施形態において、任意の種類のロボット１３０が、ＨＤ環境で構成されてもよい。

幾つかの実施形態におけるロボット１３０は、それぞれが特定の自動化タスク専用である幾つかのコンポーネントに分割される。幾つかの実施形態におけるロボットコンポーネントには、ＳＣＭ管理のロボットサービス、ユーザモードのロボットサービス、エグゼキュータ、エージェント、及びコマンドラインが含まれるが、これらに限定されない。ＳＣＭ管理のロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理、監視してコンダクタ１２０と実行ホスト（即ち、ロボット１３０が実行されるコンピューティングシステム）の間のプロキシとして機能する。このようなサービスは、ロボット１３０の資格情報で信頼され、これを管理する。コンソールアプリケーションは、ローカルシステムのもとでＳＣＭによって起動される。

幾つかの実施形態におけるユーザモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理、監視し、コンダクタ１２０と実行ホストの間のプロキシとして機能する。ユーザモードロボットサービスは、ロボット１３０の資格情報で信頼され、これを管理してもよい。ＳＣＭ管理のロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動されてもよい。

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッションのもとで所定のジョブを実行してもよい（即ち、エグゼキュータはワークフローを実行してもよい。エグゼキュータは、モニタ毎のドット／インチ（ＤＰＩ）設定を認識していてもよい。エージェントは、システムトレイウィンドウで利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであってもよい。エージェントはこのサービスのクライアントであってもよい。エージェントは、ジョブの開始又は停止を要求し、設定を変更してもよい。コマンドラインはそのサービスのクライアントであってもよい。コマンドラインは、ジョブの開始を要求可能なコンソールアプリケーションであり、その出力を待つ。

上記で説明したようにロボット１３０のコンポーネントを分割することにより、開発者、サポートユーザ、及びコンピューティングシステムが、各コンポーネントの実行内容の実行、識別、及び追跡をより容易に行うことができる。このように、例えばエグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネント毎に特別な振る舞いが構成されてもよい。幾つかの実施形態において、エグゼキュータは、モニタ毎のＤＰＩ設定を常に認識していてもよい。その結果、ワークフローが作成されたコンピューティングシステムの構成に関わらず、ワークフローが任意のＤＰＩで実行されてもよい。幾つかの実施形態において、デザイナ１１０からのプロジェクトは、ブラウザのズームレベルから独立していてもよい。ＤＰＩを認識しない又は意図的に認識しないとマークされているアプリケーションの場合、幾つかの実施形態においてＤＰＩが無効にされてもよい。

図２は、本発明の一実施形態による、デプロイされたＲＰＡシステム２００を示すアーキテクチャ図である。幾つかの実施形態において、ＲＰＡシステム２００は、図１のＲＰＡシステム１００であってもよいし、その一部であってもよい。クライアント側、サーバ側、又はこれらの両方が、本発明の範囲から逸脱することなく、任意の所望の数のコンピューティングシステムを含んでもよいことに留意されたい。クライアント側では、ロボットアプリケーション２１０が、エグゼキュータ２１２、エージェント２１４、及びデザイナ２１６を含む。しかし、幾つかの実施形態において、デザイナ２１６はコンピューティングシステム２１０で実行されていなくてもよい。エグゼキュータ２１２はプロセスを実行する。図２に示すように、複数のビジネスプロジェクトが同時に実行されてもよい。このような実施形態において、エージェント２１４（例えば、Ｗｉｎｄｏｗｓ（登録商標）サービスなど）は、全てのエグゼキュータ２１２の単一の接続ポイントである。このような実施形態における全てのメッセージは、さらにデータベースサーバ２４０、インデクササーバ２５０、又はこれらの両方を介して、それらのメッセージを処理するコンダクタ２３０にログインされる。図１に関して上記で説明したように、エグゼキュータ２１２はロボットコンポーネントであってもよい。

幾つかの実施形態において、ロボットは、マシン名とユーザ名の間の関連付けを表す。ロボットは同時に複数のエグゼキュータを管理してもよい。同時に実行されている複数の対話型セッションをサポートするコンピューティングシステム（例えば、Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ２０１２など）では、複数のロボットが同時に実行され、それぞれが一意のユーザ名を使用する個別のＷｉｎｄｏｗｓ（登録商標）セッションで実行されてもよい。これを上記のＨＤロボットという。

エージェント２１４はまた、ロボットのステータスを送り（例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送り）、実行されるパッケージの必要なバージョンをダウンロードすることも担当する。幾つかの実施形態において、エージェント２１４とコンダクタ２３０の間の通信は、常にエージェント２１４によって開始される。通知シナリオにおいて、エージェント２１４は、コンダクタ２３０によって後で使用されるＷｅｂＳｏｃｋｅｔチャネルを開き、ロボットにコマンド（例えば、開始、停止など）を送ってもよい。

サーバ側では、プレゼンテーション層（ウェブアプリケーション２３２、ＯｐｅｎＤａｔａＰｒｏｔｏｃｏｌ（ＯＤａｔａ）ＲｅｐｒｅｓｅｎｔａｔｉｖｅＳｔａｔｅＴｒａｎｓｆｅｒ（ＲＥＳＴ）ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ（ＡＰＩ）エンドポイント２３４、通知監視２３６）、サービス層（ＡＰＩ実装／ビジネスロジック２３８）、及び永続層（データベースサーバ２４０及びインデクササーバ２５０）が含まれる。コンダクタ２３０には、ウェブアプリケーション２３２、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４、通知監視２３６、及びＡＰＩ実装／ビジネスロジック２３８が含まれる。幾つかの実施形態において、コンダクタ２２０のインタフェースで（例えば、ブラウザ２２０を介して）ユーザが実行する殆どのアクションが、様々なＡＰＩを呼び出すことで実行される。このようなアクションには、本発明の範囲から逸脱することなく、ロボットでのジョブの開始、キュー内のデータの追加／削除、操作不要で実行するジョブのスケジューリングなどが含まれてもよいが、これらに限定されない。ウェブアプリケーション２３２は、サーバプラットフォームのビジュアル層である。このような実施形態において、ウェブアプリケーション２３２は、ハイパーテキストマークアップ言語（ＨＴＭＬ）及びＪａｖａＳｃｒｉｐｔ（ＪＳ）を使用する。しかし、本発明の範囲から逸脱することなく、任意の所望のマークアップ言語、スクリプト言語、又は任意の他のフォーマットが使用されてもよい。このような実施形態において、ユーザは、コンダクタ２３０を制御するための様々なアクションを実行するため、ブラウザ２２０を介してウェブアプリケーション２３２からウェブページと対話する。例えば、ユーザは、ロボットグループを作成し、ロボットにパッケージを割り当て、ロボット毎に且つ／又はプロセス毎にログを分析し、ロボットを起動、停止させるなどしてもよい。

ウェブアプリケーション２３２に加えて、コンダクタ２３０には、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４を公開するサービス層も含まれる。しかし、本発明の範囲から逸脱することなく、他のエンドポイントが含まれてもよい。ＲＥＳＴＡＰＩは、ウェブアプリケーション２３２とエージェント２１４の両方によって使用される。このような実施形態において、エージェント２１４は、クライアントコンピュータ上の一又は複数のロボットのスーパーバイザである。

このような実施形態におけるＲＥＳＴＡＰＩは、コンフィギュレーション、ロギング、監視、及びキューイングの機能をカバーする。幾つかの実施形態において、コンフィギュレーションエンドポイントが使用されて、アプリケーションユーザ、権限、ロボット、アセット、リリース、及び環境を定義、構成してもよい。ロギングＲＥＳＴエンドポイントが使用されて、例えばエラー、ロボットによって送られた明示的なメッセージ、その他の環境固有の情報など、様々な情報をログに記録してもよい。デプロイメントＲＥＳＴエンドポイントがロボットによって使用されて、コンダクタ２３０でジョブ開始コマンドが使用される場合に実行する必要があるパッケージバージョンをクエリしてもよい。キューイングＲＥＳＴエンドポイントは、例えばキューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キュー及びキューアイテムの管理を担当する。

監視ＲＥＳＴエンドポイントは、ウェブアプリケーション２３２及びエージェント２１４を監視する。通知監視ＡＰＩ２３６は、エージェント２１４の登録、エージェント２１４へのコンフィギュレーション設定の配信、並びにサーバ及びエージェント２１４からの通知の送受信に使用されるＲＥＳＴエンドポイントであってもよい。幾つかの実施形態において、通知監視ＡＰＩ２３６はまた、ＷｅｂＳｏｃｋｅｔ通信を使用してもよい。

永続層は、この実施形態では１対のサーバ、つまり、データベースサーバ２４０（例えば、ＳＱＬサーバなど）及びインデクササーバ２５０を含む。この実施形態のデータベースサーバ２４０は、ロボット、ロボットグループ、関連プロセス、ユーザ、ロール、スケジュールなどのコンフィギュレーションを記憶する。このような情報は、幾つかの実施形態において、ウェブアプリケーション２３２を介して管理される。データベースサーバ２４０は、キュー及びキューアイテムを管理してもよい。幾つかの実施形態において、データベースサーバ２４０は、（インデクササーバ２５０に加えて又はその代わりに）ロボットによってログに記録されたメッセージを記憶してもよい。

幾つかの実施形態において任意であるインデクササーバ２５０は、ロボットによってログに記録された情報を記憶し、インデックスを付ける。特定の実施形態において、インデクササーバ２５０は、コンフィギュレーション設定を通じて無効にされてもよい。幾つかの実施形態において、インデクササーバ２５０は、オープンソースプロジェクトの全文検索エンジンであるＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）を使用する。ロボットによって（例えば、ログメッセージ、行書き込みなどのアクティビティを使用して）ログに記録されたメッセージは、ロギングＲＥＳＴエンドポイントを介してインデクササーバ２５０に送られてもよく、そこで将来の利用のためにインデックスが付けられてもよい。

図３は、本発明の一実施形態による、デザイナ３１０とアクティビティ３２０、３３０とドライバ３４０との間の関係３００を示すアーキテクチャ図である。上記のとおり、開発者は、デザイナ３１０を使用して、ロボットによって実行されるワークフローを開発する。ワークフローは、ユーザ定義のアクティビティ３２０とＵＩ自動化アクティビティ３３０を含んでもよい。一部のＣＶアクティビティには、クリック（ｃｌｉｃｋ）、タイプ（ｔｙｐｅ）、テキストを取得（ｇｅｔｔｅｘｔ）、ホバー（ｈｏｖｅｒ）、要素の有無を検出（ｅｌｅｍｅｎｔｅｘｉｓｔｓ）、スコープの更新（ｒｅｆｒｅｓｈｓｃｏｐｅ）、ハイライト（ｈｉｇｈｌｉｇｈｔ）などが含まれてもよいが、これらに限定されない。幾つかの実施形態において、クリック（ｃｌｉｃｋ）は、例えば、ＣＶ、ＯＣＲ、ファジーテキストマッチング、及び複数のアンカーを使用する要素を識別し、クリックする。タイプ（ｔｙｐｅ）は、上記を使用して要素を識別してもよく、要素内でタイプする。テキストを取得（ｇｅｔｔｅｘｔ）は、特定のテキストの位置を識別し、ＯＣＲを使用してスキャンしてもよい。ホバー（ｈｏｖｅｒ）は、要素を識別し、その上にホバーしてもよい。要素の有無を検出（ｅｌｅｍｅｎｔｅｘｉｓｔｓ）は、上記の技術を使用して、要素が画面上に存在するか否かを確認してもよい。幾つかの実施形態において、デザイナ３１０で実装可能な数百又は数千ものアクティビティがあってもよい。しかし、本発明の範囲から逸脱することなく、任意の数及び／又は種類のアクティビティが利用可能であってもよい。

ＵＩ自動化アクティビティ３３０は、低レベルのコードで書かれた特別な低レベルのアクティビティ（例えば、ＣＶアクティビティなど）のサブセットであり、画面との対話を容易にする。ＵＩ自動化アクティビティは、ロボットが所望のソフトウェアと対話することを可能にするドライバ３４０を介して、このような対話を容易にする。例えば、ドライバ３４０は、ＯＳドライバ３４２、ブラウザドライバ３４４、ＶＭドライバ３４６、エンタープライズアプリケーションドライバ３４８などを含んでもよい。

ドライバ３４０は、低レベルでＯＳと対話して、フックを探したりキーを監視したりするなどしてもよい。ドライバ３４０は、Ｃｈｒｏｍｅ（登録商標）、ＩＥ（登録商標）、Ｃｉｔｒｉｘ（登録商標）、ＳＡＰ（登録商標）などとの統合を容易にしてもよい。例えば、「クリック」アクティビティは、ドライバ３４０を介してそのような異なるアプリケーションで同じ役割を果たす。

図４は、本発明の一実施形態によるＲＰＡシステム４００を示すアーキテクチャ図である。幾つかの実施形態において、ＲＰＡシステム４００は、図１及び／又は図２のＲＰＡシステム１００及び／又は２００であってもよいし、それを含んでもよい。ＲＰＡシステム４００は、ロボットを実行する複数のクライアントコンピューティングシステム４１０を含む。コンピューティングシステム４１０は、そこで実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム４２０と通信可能である。次に、コンダクタコンピューティングシステム４２０は、データベースサーバ４３０及び任意のインデクササーバ４４０と通信可能である。

図２及び図４に関して、これらの実施形態においてウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、任意の適切なクライアント／サーバソフトウェアが使用されてもよいことに留意されたい。例えば、コンダクタは、クライアントコンピューティングシステム上の非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバ側アプリケーションを実行してもよい。

図５Ａは、本発明の一実施形態による、実行時にＶＭシステムにＣＶを使用するＲＰＡ実装５００を示す。ＶＭサーバ５１０は、クライアントコンピューティングシステム５３０に送られる一連の画像５２０を生成する。画像５２０は、コンピューティングシステム５３０上で実行されるアプリケーションによって表示されてもよい。或いは、画像５３０は、コンピューティングシステム５３０自体の画面として表示されてもよい。

ＶＭサーバ５１０からの画像５２０は、ロボット５３２に送られ、ロボット５３２は、ＣＶサーバ５４０で実行されたＣＶモデルからのグラフィックコンポーネントの識別内容と、（例えば、Ｇｏｏｇｌｅ（登録商標）、Ｍｉｃｒｏｓｏｆｔ（登録商標）、Ａｂｂｙｙ（登録商標）などによって提供される）ＯＣＲサーバ５５０からのＯＣＲデータとを受け取る。幾つかの実施形態において、ＣＶモデル及びＯＣＲは、同じサーバ上で実行されてもよい。特定の実施形態において、ＣＶモデル及びＯＣＲの一方又はその両方が、コンピューティングシステム５３０上で実行されてもよい。幾つかの実施形態において、ロボット５３２は、画像５２０とＣＶサーバ５４０及びＯＣＲサーバ５５０からのデータとへのアクセスを有する限り、異なるコンピューティングシステム上に存在してもよい。ロボット５３２は、ＣＶモデル及びＯＣＲから受け取った情報を処理し、この情報を使用して、画像内のグラフィックコンポーネントを認識する。次に、ロボットは所望のアクティビティ（例えば、情報の入力、ボタンのクリック、サードパーティソフトウェアとの相互作用など）を実行する。

図５Ｂは、本発明の一実施形態による、設計時にグラフィックコンポーネントが誤識別された又は識別されなかった場合のＲＰＡ実装５００を示す。この実施形態において、コンピューティングシステム５３０は、ロボット５３２を実行するというよりはむしろ、デザイナ５３４を実行している。また、コンピューティングシステム５３０が同じコンピューティングシステムとして図５Ｂに示されていることに留意されたい。この場合、ユーザは、グラフィックコンポーネントが誤識別された又は識別されなかった画像５２０の部分を囲む境界形状５２２を描いている。

デザイナ５３４は、境界形状５２２の代表データを受け取り、この情報を画像５２０と共に画像データベース５６０に送る。次に、画像データベース５６０は、代表データ及び画像をレビュアのコンピューティングシステム５７０に提供する。レビュアコンピューティングシステム５７０を使用する人間のレビュアは、ソフトウェアエンジニア又はグラフィックコンポーネントが実際に識別されなかった又は誤識別されたか否かを判断する能力を有する他の何らかの人間であってもよい。次に、人間のレビュアは、ＣＶサーバ５４０を介してＣＶモデルを通じて画像に目を通し、その結果を確認する。デザイナ５３４から送られた画像と代表データが実際にそのようなエラーを示している場合、レビュアは、レビュアコンピューティングシステム５７０を介して、誤識別された又は識別されなかったグラフィックコンポーネントに正しくラベルを付け、再訓練のため適切なラベルと共に画像５２０をＭＬシステム５８０（例えば、一又は複数のサーバ、分散又はクラウドコンピューティングシステム、スーパーコンピュータ、量子コンピューティングシステムなど）に送る。次に、ＭＬシステム５８０は、ＣＶモデルのディープラーニング再訓練プロセスを開始する。上記のとおり、幾つかの実施形態において、ＤＬＮＮシステムがＣＶモデルを再訓練するのに要する比較的長い時間のため他のエラーが受け付けられた後、この再訓練がバッチで行われてもよい。

幾つかの実施形態におけるＣＶの通常の動作中、次の３つの種類の情報：（１）設計時画像、（２）報告された問題、（３）画像マッチング領域が、画像データベース５４０に記憶され、再訓練のために使用されてもよい。幾つかの実施形態における設計時画像は、ユーザが自動化したいことをアプリケーションに示したときに取得されるスクリーンショットである。このようなスクリーンショットは、幾つかの実施形態において、追加データのない完全なＵＩであってもよい。これは、レビュアがスクリーンショットとその検出結果を見て、全てが適切に検出されたか否かを確認してもよいためである。その場合、スクリーンショットは破棄されてもよい。しかし、何らかのエラーに気づいた場合、レビュアはそれに応じてエラーにラベルを付け、エラーをＭＬシステム５８０（例えば、ＭＬ訓練サーバ）に送られてもよい。

報告された問題に関して、幾つかの実施形態において、要素が検出されていない又は誤認識された場合、例えば、ユーザは、「問題を報告（ｒｅｐｏｒｔｉｓｓｕｅ）」ボタンをクリックし、（例えば、ボックスを描画することにより）選択を行ってエラーが存在する領域を示し、送信ボタンをクリックしてもよい。次に、このようなスクリーンショット画像及び強調された領域がレビュアに送られる。レビュアは、実際にエラーがあったか否かを確認し、要素に適切なラベルを付け、再訓練のため画像及び正しいラベルをＭＬシステム５８０に送る。

画像マッチング領域は、幾つかの実施形態において、報告された問題と同じ一般的なフローに従ってもよい。完全なＵＩ及び画像マッチング領域の座標が画像データベース５４０に送られてもよい。次に、レビュアが全てを確認し、エラーがある場合、再訓練のためデータをＭＬシステム５６０に送る。

ＣＶモデルが再訓練されると、ＭＬシステム５８０は、再訓練されたＣＶモデルをＣＶサーバ５４０に送る。次に、再訓練されたＣＶモデルは、画像５２０の将来のバージョンについてＣＶ分析を実行するために使用される。

上記のとおり、幾つかの実施形態は、ＳＡＰ、Ｆｌａｓｈ、Ｓｉｌｖｅｒｌｉｇｈｔ、ＰＤＦ、様々なフォーマット（例えば、ＪＰＧ、ＰＮＧ、ＢＭＰなど）の画像などで、ＣＶ及びＯＣＲを実行可能である。ＳＡＰの場合、ＳＡＰサーバは、ＶＭサーバ５１０の代わりをしてもよい。幾つかの実施形態において、複数のサーバ種類（例えば、ＶＭサーバ、ＳＡＰサーバなど）が、クライアントコンピューティングシステム５３０と同時に通信してもよい。特定の実施形態において、上記のリモートサーバに加えて又はその代わりに、Ｆｌａｓｈ、Ｓｉｌｖｅｒｌｉｇｈｔ、ＰＤＦ、画像などのローカルインスタンスがクライアントコンピューティングシステム５３０に表示され、ロボット５３２がそのような画像を上記で説明したとおり処理してもよい。

図６Ａ及び６Ｂは、ユーザが画面上のグラフィカルコンポーネントを選択することを試みる前（図６Ａ）及び後（図６Ｂ）の、ＶＭのリモートデスクトップ接続ウィンドウ６００を示す。見て分かるように、ユーザが「ＯｎＵｓＣｈｅｃｋ」の横のフィールドを選択しようとすると、ウィンドウ全体が強調表示される。これは、リモートデスクトップ接続ウィンドウ６００が単なる画像であるためである。

図７Ａは、本発明の一実施形態による、ＣＶ／ＯＣＲが実行されてその結果がデザイナを介してユーザに対して表示された後の、セレクタツールウィンドウ７１０及びリモートデスクトップ接続ウィンドウ７００を示すスクリーンショットである。見て分かるように、今度はテキストフィールド７０２が識別されて選択可能になっているが、ウィンドウ６００の場合はそうではなかった。しかし、ＣＶモデルは、常に全てのグラフィックコンポーネントを正しく識別するわけではない可能性があり、且つ／又は、一又は複数のグラフィックコンポーネントを見逃す可能性がある。例えば、「ＣａｓｈＣｏｕｎｔ」ボタンがＣＶモデルによって識別されなかったと仮定する。そのような場合、ユーザは、ユーザが選択７０４を行うことを可能にするセレクタツールウィンドウ７００を使用してもよい。図７Ｂを参照されたい。この実施形態において、選択に関連する結果がセレクタウィンドウ７１０に示される。次に、ユーザは、誤識別又は非識別が生じた画面上の領域を選択して、選択領域７０６を作成してもよい。上記のとおり、本発明の範囲から逸脱することなく、任意の適切な形状が定義され且つ／又は使用されてもよい。

幾つかの実施形態において、画像と代表データは自動化ファイル（ワークフロー）に記憶され、ロボットがワークフローロジックを自律的に実行するときにその特定の画面要素を見つけて操作する（例えば、それをクリックする）ために実行時に使用される。特定の実施形態において、背後で、ユーザによって示された選択に関連する画像及び代表データが、画像データベースに送られてレビュアによってレビューされ、場合によっては再訓練に使用される。上記のとおり、これはユーザの知らないうちに行われてもよい。

ＣＶモデルの再訓練が行われた後、ＣＶモデルが再度実行され、デザイナによって使用されて、そこで識別されたグラフィカルコンポーネントをユーザに対して表示してもよい。今度は、図７Ｃで陰影によって示されるように、ウィンドウ７００内の全てのグラフィックコンポーネントが正しく識別されるはずである。今度はキャッシュカウント（ｃａｓｈｃｏｕｎｔ）ボタン７０８が認識される。ワークフローが正しく動作していることをユーザが確信し、全てのグラフィカルコンポーネントが適切に識別されると、ワークフローはロボットによって自律的に実行可能である。

幾つかの実施形態において、マルチアンカーマッチングアルゴリズムが、画像内のグラフィックコンポーネントを一意に認識するために使用される。ＣＶモデルは、画面上の特定のグラフィックコンポーネントを識別してもよい。図８は、本発明の一実施形態による、ＣＶ／ＯＣＲが実行されてその結果がデザイナを介してユーザに対して表示された後の、アンカー指定ウィンドウ８１０及びリモートデスクトップ接続ウィンドウ８００を示すスクリーンショットである。ここで、ユーザは、キャッシュカウントボタン８０２をターゲットとして識別する。次に、ユーザは、その左側にあるテキストフィールド８０４をアンカーとして識別する。この場合、キャッシュカウントボタン８０２の左側のテキストフィールド８０４の存在は、それを一意に識別するのに十分である。

しかし、これは、全ての場合においてグラフィックコンポーネントを一意に識別するのに十分ではない可能性がある（例えば、２つの異なるテキストフィールドの左側に「Ｎａｍｅ」という２つのテキストラベルがある場合など）。このような場合、ユーザは、グラフィックコンポーネントを一意に識別するために、一又は複数の一意の識別アンカーを追加するように求められてもよい。アンカー及びターゲットに関連する位置情報、サイズ情報、方向情報などが使用されて、幾何学的形状又はグラフィック構造の特性（例えば、アウトスターなどのグラフィックの「星」であるが、方向（ベクトル）を有しないもの、様々な方法で接続された複数の線分など）が定義されてもよい。次に、この形状又は構造を使用して、ターゲットのグラフィックコンポーネントを一意に判断してもよい。

非限定的な例として、名前（ｎａｍｅ）テキストフィールド（例えば、「Ｎａｍｅ」など）の左側に特定のテキストラベルが発見された上記の場合を考える。ただし、画像は、左側に同じラベルテキストを有する第２の名前（ｎａｍｅ）テキストフィールドも含むと仮定する。このラベルの存在だけでは、２つのテキストフィールド自体を区別することはできない。

しかし、別のグラフィック要素の位置関係により、一方のテキストフィールドと他方のテキストフィールドを一意に識別できる場合もある。例えば、ボタンが画面上の特定の場所に配置されていてもよい。一方のテキストフィールドとその左側のラベルとボタンと間の三角形の特性（例えば、頂点座標など）に対して、他方のテキストフィールドとその左側のラベルとボタンとの間の三角形の特性を分析することにより、その２つを一意に区別することが可能である。この一意の識別により、ワークフローを実行するロボットは、後で両方のテキストフィールドを正しく識別し、適切なそれぞれの情報を入力できる。

図９Ａ〜図９Ｃは、そのような例を示す。ウィンドウ９００は、重複するラベル及びテキストフィールドを有するフォームを含む。ラベルはＯＣＲを使用して認識されてもよく、テキストフィールドはＣＶモデルを使用して認識されてもよい。この場合、ウィンドウ９００は、ファーストネーム（ｆｉｒｓｔｎａｍｅ）テキストフィールド９１０、９２０及びファーストネーム（ｆｉｒｓｔｎａｍｅ）ラベル９１２、９２２を含む。

図９Ｂでは、例えば、テキストフィールドの左側の「ＦｉｒｓｔＮａｍｅ」ラベルは、ファーストネームテキストフィールド９１０とファーストネームテキストフィールド９２０とを一意に区別するには十分ではない。例えば、ユーザがファーストネームラベル９１２をアンカーとして選択してファーストネームテキストフィールド９１０をターゲットとして識別すると、システムはこれがファーストネームテキストフィールド９２０も識別すると認識する。したがって、システムは、ファーストネームテキストフィールド９２０及びファーストネームラベル９２２に陰影を付けて、ファーストネームラベル９１２がアンカーとして単独では機能しないことをユーザに知らせる。したがって、別のアンカーが必要であることを認識して、ユーザは、出荷（ｓｈｉｐｐｉｎｇ）ラベル９１４を第２のアンカーとして選択する。システムは、これにより、この形式でファーストネームテキストフィールド９１０を一意に識別できると認識する。

各グラフィックコンポーネントの相対的な位置が、ある画像から別の画像に幾らか変化してもよいことにも留意されたい（例えば、スキャンされたレシートの場合を考える）。しかし、それぞれの形状関係（この場合、本発明の範囲から逸脱することなく任意の所望の位置が使用されてもよいが、ターゲット９１０及び各アンカー９１２、９１４、並びにそれらの端部の間の線分についてのウィンドウ９００内の座標）を定義して、線分の長さ及び角度を見ることにより、どのテキストフィールドがどれであるかを判断できる。ここではターゲット９１０から各アンカー９１２、９１４への線分が使用されているが、本発明の範囲から逸脱することなく、任意の所望の数のアンカー及び任意の所望の形状が使用されてもよい。実際には、本発明の範囲から逸脱することなく、任意の幾何学的形状（例えば、三角形、長方形など）又は非幾何学的形状（例えば、示されているような、閉じていない線分ベースの構造など）が使用されてもよい。

幾つかの実施形態において、マルチアンカーマッチングアルゴリズムによって定義された形状の角度及び線分の長さは、ＵＩにおけるスケール、ＤＰＩ、色の変化、フォント、ビデオフレームレート、陰影付けなどの変更に対応する許容範囲内で弾力性があってもよい。幾つかの実施形態において、弾力性は、ＶＭからのビデオストリーム又は画像にとって特に有益であってもよい。しかし、特定の実施形態において、該アルゴリズムは、比較的又は完全に非弾力的であってもよく、前者の場合には制限された許容差を採用し、後者の場合には許容差を採用しない。これは、それぞれ、近似一致又は完全一致の検索に役立つ。

幾つかの実施形態において、テキストファジーマッチングロジックを使用して、例えばＧｏｏｇｌｅ（登録商標）クラウドＯＣＲ、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＯＣＲ、Ｔｅｓｓｅｒａｃｔ（登録商標）ＯＣＲなどのＯＣＲエンジンにおける不正確さ又はエラーを補償してもよい。一例として、テキストファジーマッチングを使用すると、「ＮＡＭ」又は「ＮＭＥ」の検出は「ＮＡＭＥ」と論理的に関連付けられるか、又は、一致してもよい。

本明細書における例では、例えばアンカーに関連する相対距離などの閾値処理を伴う幾何学的マッチングが、ＵＩのＲＰＡに利用されてもよい。一例として、ＵＩの画像の各要素が、信頼レベルと関連付けられてもよい。閾値未満の要素の適合候補が、マッチングのために破棄されてもよい。非限定的な例として、ＣＩが６０％未満の検出された要素は破棄されてもよい。

幾つかの実施形態において、複数のアンカー及びターゲットによって定義される幾何学的形状の少なくとも一部が、幾何学的閾値の許容差がより小さい状態で、水平及び／又は垂直に詰められてもよい。そうでない場合、閾値処理は上記のように行われてもよいが、より厳しい許容差を有する。これは、グラフィカルコンポーネントの互いに関する位置が修正される可能性が高い場合に実行されてもよい。

特定の実施形態において、確率リストが、各グラフィック要素のＣＶモデルから返されてもよい。要素が誤識別された場合、他の要素をアンカーとして使用して判断を行ってもよい。例えば、ラジオボタンが、最も確からしい適合としてチェックボックスと誤識別された場合を考える。例えば、図１０のスクリーンショット１０００及びセレクタウィンドウ１０１０を参照されたい。２番目又は３番目に適合する可能性が高いものが実際の適合である傾向がある。例えば近くのラジオボタンなどの別のアンカーを追加すると、所定のコンポーネントが確率リストからどの要素であるかを識別するのに役立つ。

ＣＶモデルが道路の中央にあるオブジェクトを自転車である可能性が最も高いと識別した別の例を考える。しかし、オブジェクトは実際にはドローンであり、自転車は確率リストの下位にある。乗り手を「アンカー」として使用すると、ＣＶモデルはオブジェクトを自転車として正しく識別できるようになる可能性がある。

図１１は、本発明の一実施形態による、ＣＶモデルを再訓練するプロセス１１００を示すフローチャートである。１１０５で、プロセス１１００は、画像内のグラフィックコンポーネントを識別するためにグラフィックコンポーネントを含む画像に対してＣＶモデル及びＯＣＲを実行することから始まる。幾つかの実施形態において、画像は仮想マシン（ＶＭ）からのものである。次に、１１１０で、デザイナアプリケーションが、ＣＶモデル及びＯＣＲの実行からグラフィックコンポーネント及びテキストの識別内容を受け取る。１１１５で、デザイナは、ＣＶモデルによって識別された識別済みのグラフィックコンポーネントを伴う画像をビジュアルディスプレイに表示する。次に、１１２０で、デザイナは、画像内の誤識別された又は識別されなかったグラフィックコンポーネントの選択を受け取る。この選択に基づいて、１１２５で、ロボットは選択されたものを含む画像の領域の代表データを決定し、１１３０で、ワークフローに代替的な画像処理ロジック（例えば、画像マッチングロジックなど）と共に使用される画像を組み込む。次に、１１３５で、代表データ及び画像が画像データベースに送られる。

幾つかの実施形態において、代表情報は、領域を有する形状を定義する座標、線分、又はこれら両方を含む。特定の実施形態において、デザイナが手入力で実行しているコンピューティングシステムのユーザは、誤識別された又は識別されなかったグラフィックコンポーネントを選択し、デザイナはユーザに代表データ及び画像がＣＶモデルの再訓練のために送られていることを示すものを提供しない。幾つかの実施形態において、ＣＶモデルは、画像内のターゲットグラフィックコンポーネント及び少なくとも２つのアンカーグラフィックコンポーネントによって定義される形状特性を使用してターゲットグラフィックコンポーネントの種類を判断するマルチアンカーマッチングアルゴリズムを使用する。特定の実施形態において、ターゲットグラフィックコンポーネン及び各アンカーグラフィックコンポーネントの座標セットは、形状の端点として、幾何学的形状の線分及び角度を定義するために使用され、幾何学的形状の線分の角度及び長さは、スケール、ＤＰＩ、色の変化、フォント、ビデオフレームレート、陰影付け、又はそれらのうちの任意の組み合わせの変更に対応する許容範囲内で弾力性がある。

画像データベースによって受け取られた後、１１４０で、画像がレビュアコンピューティングシステムに送られる。レビュアコンピューティングシステムを操作するレビュアは（又はレビュアコンピューティングシステム自体が自動的に）、画像に対してＣＶモデルを実行する、或いは、ＣＶモデルを実行させる。１１４５でレビュアがエラーが存在すると確信しない場合、プロセスは終了し、幾つかの実施形態において画像が画像データベースから削除されてもよい。しかし、１１４５でレビュアがエラーを確認した場合、１１５０で、再訓練のために、画像と誤識別されたコンポーネント又は識別されなかったコンポーネントの正しいラベルとがＭＹシステムに送られる。ＭＬシステムがＣＶモデルを再訓練した後、再訓練されたＣＶモデルが、例えば、ＣＶサーバ又はユーザコンピューティングシステムによって受け取られ、古いＣＶモデルの代わりに再訓練されたＣＶモデルが使用される。

図１２は、本発明の一実施形態による、ＣＶモデルを再訓練するように構成されたコンピューティングシステム１２００を示すアーキテクチャ図である。幾つかの実施形態において、コンピューティングシステム１２００は、図１〜図５Ｂのコンピューティングシステムのうちの一又は複数であってもよい。コンピューティングシステム１２００は、情報を通信するためのバス１２０５又は他の通信メカニズムと、情報を処理するためにバス１２０５に接続されたプロセッサ１２１０とを含む。プロセッサ１２１０は、中央処理装置（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックスプロセッシングユニット（ＧＰＵ）、それらの複数の例、及び／又はそれらのうちの任意の組み合わせを含む、任意の種類の汎用又は特定用途のプロセッサであってもよい。プロセッサ１２１０はまた、複数の処理コアを有してもよく、コアの少なくとも一部が、特定の機能を実行するように構成されてもよい。幾つかの実施形態において、複数並列処理が使用されてもよい。特定の実施形態において、少なくとも１つのプロセッサ１２１０が、生体ニューロンを模倣する処理要素を含むニューロモーフィック回路であってもよい。幾つかの実施形態において、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としなくてもよい。

コンピューティングシステム１２００は、プロセッサ１２１０によって実行される情報及び命令を記憶するためのメモリ１２１５をさらに含む。メモリ１２１５は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、フラッシュメモリ、キャッシュ、例えば磁気若しくは光ディスクなどの静的記憶装置、又は任意の他の種類の非一時的なコンピュータ読み取り可能な媒体、又はこれらのうちの組み合わせのうちの任意の組み合わせから構成されてもよい。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ１２１０によってアクセス可能な任意の利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体、又はその両方を含んでもよい。媒体は、取り外し可能、取り外し不可能、又はその両方であってもよい。

さらに、コンピューティングシステム１２００は、無線及び／又は有線接続を介して通信ネットワークへのアクセスを提供するために、例えばトランシーバなどの通信デバイス１２２０を含む。幾つかの実施形態において、通信デバイス１２２０は、本発明の範囲から逸脱することなく、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ−ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ）通信、汎用パケット無線サービス（ＧＰＲＳ）、ユニバーサル移動体通信システム（ＵＭＴＳ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ−ＣＤＭＡ）、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ）、高速アップリンクパケットアクセス（ＨＳＵＰＡ）、高速パケットアクセス（ＨＳＰＡ）、ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）、ＬＴＥアドバンスト（ＬＴＥ−Ａ）、８０２．１１ｘ、Ｗｉ−Ｆｉ、Ｚｉｇｂｅｅ、超広帯域無線（ＵＷＢ）、８０２．１６ｘ、８０２．１５、ＨｏｍｅＮｏｄｅ−Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ（ＲＦＩＤ）、ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ（ＩｒＤＡ）、Ｎｅａｒ−ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＮＦＣ）、第５世代（５Ｇ）、ＮｅｗＲａｄｉｏ（ＮＲ）、これらのうちの任意の組み合わせ、及び／又は任意の他の現在存在する又は将来実施される通信規格及び／又はプロトコルを使用するように構成されてもよい。幾つかの実施形態において、通信デバイス１２２０は、本発明の範囲から逸脱することなく、単一、アレイ、フェーズド、スイッチド、ビームフォーミング、ビームステアリング、これらのうちの組み合わせ、及び／又は任意の他のアンテナ構成である一又は複数のアンテナを含んでもよい。

プロセッサ１２１０は、バス１２０５を介して、例えばプラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、電界放出ディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、フレキシブルＯＬＥＤディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細ディスプレイ、Ｒｅｔｉｎａ（登録商標）ディスプレイ、インプレーンスイッチング（ＩＰＳ）ディスプレイ、又はユーザに情報を表示するための任意の他の適切なディスプレイなどのディスプレイ１２２５にさらに接続される。ディスプレイ１２２５は、抵抗性、容量性、表面弾性波（ＳＡＷ）容量性、赤外線、光学イメージング、分散信号技術、音響パルス認識、フラストレート全内部反射などを使用して、タッチ（触覚）ディスプレイ、３次元（３Ｄ）タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されてもよい。任意の適切な表示デバイス及び触覚Ｉ／Ｏが、本発明の範囲から逸脱することなく、使用されてもよい。

キーボード１２３０と、例えばコンピュータマウス、タッチパッドなどのようなカーソル制御デバイス１２３５とが、さらにバス１２０５に接続されて、ユーザがコンピューティングシステムとインタフェースをとることを可能にする。しかし、特定の実施形態において、物理的なキーボード及びマウスが存在しなくてもよく、ユーザは、ディスプレイ１２２５及び／又はタッチパッド（図示略）を介してのみデバイスとインタフェースをとってもよい。入力デバイスの任意の種類及び組み合わせが、設計上の選択事項として使用されてもよい。特定の実施形態において、物理的な入力デバイス及び／又はディスプレイが存在しない。例えば、ユーザは、コンピューティングシステム１２００と通信する別のコンピューティングシステムを介してリモートでコンピューティングシステム１２００と対話してもよく、或いは、コンピューティングシステム１２００は自律的に動作してもよい。

メモリ１２１５は、プロセッサ１２１０によって実行されると機能を提供するソフトウェアモジュールを記憶する。該モジュールは、コンピューティングシステム１２００用のオペレーティングシステム１２４０を含む。モジュールは、本明細書に記載されているプロセス又はその派生のプロセスの全て又は一部を実行するように構成されるＣＶモデル再訓練モジュール１２４５をさらに含む。例えば、コンピューティングシステム１２００は、クライアントコンピューティングシステム、コンダクタサーバ、データベースサーバ、インデクササーバ、ＯＣＲ及び／又はＣＶを実行するコンピューティングシステム、レビュアコンピューティングシステム、ＭＬプロセスの全て又は一部を実行するコンピューティングシステムなどであってもよい。しかし、例えばＧＰＵが使用される場合などの特定の実施形態において、ＣＶモデル再訓練モジュールコードが、そのコンポーネント上のローカルメモリに記憶されてもよいことに留意されたい。コンピューティングシステム１２００は、追加の機能を含む一又は複数の追加の機能モジュール１２５０を含んでもよい。

当業者は、「システム」が、本発明の範囲から逸脱することなく、サーバ、組込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、任意の他の適切なコンピューティングデバイス、又はデバイスの組み合わせとして具現化され得ることを理解するであろう。上記の機能を「システム」によって実行されるものとして示すことは、決して本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を示すことを意図する。実際、本明細書において開示される方法、システム、及び装置は、クラウドコンピューティングシステムを含むコンピューティング技術と整合するローカライズされ分散された形式で実装されてもよい。

本明細書に記載されているシステム機能の一部は、実装の独立性をより強調するため、モジュールとして示されていることに留意されたい。例えば、モジュールは、カスタムの超大規模集積（ＶＬＳＩ）回路又はゲートアレイを含むハードウェア回路、ロジックチップ、トランジスタ、又は他のディスクリートコンポーネントなどの既製の半導体として実装されてもよい。モジュールは、例えばフィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックスプロセッシングユニットなどのプログラマブルハードウェアデバイスにおいて実装されてもよい。

モジュールは、様々な種類のプロセッサによる実行のため、ソフトウェアで少なくとも部分的に実装されてもよい。例えば、実行可能コードの識別されたユニットは、例えばオブジェクト、手順、又は機能として構成され得るコンピュータ命令の一又は複数の物理ブロック又は論理ブロックを含んでもよい。これにも関わらず、識別されたモジュールの実行可能ファイルは物理的に一緒に配置される必要はないが、論理的に結合されるとモジュールを含んでモジュールの上記目的を達成するような様々な場所に記憶された異種の命令を含んでもよい。さらに、モジュールは、本発明の範囲から逸脱することなく、コンピュータ読み取り可能な媒体に記憶されてもよく、コンピュータ読み取り可能な媒体は、例えば、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープ、及び／又はデータを記憶するために使用される他のそのような非一時的なコンピュータ読み取り可能な媒体であってもよい。

実際、実行可能コードのモジュールは、単一の命令であっても多数の命令であってもよく、異なるプログラム間で複数の異なるコードセグメントにわたり、複数のメモリデバイスにわたって分散されてもよい。同様に、動作データが、識別されて、本明細書においてモジュール内に示されてもよく、任意の適切な形式で具体化され、任意の適切な種類のデータ構造内で構成されてもよい。動作データは、単一のデータセットとしてまとめられてもよく、或いは、異なるストレージデバイスを含む異なる場所に分散されてもよく、少なくとも部分的に、単にシステム又はネットワーク上の電子信号として存在してもよい。

図１１で実行されるプロセスステップは、本発明の一実施形態に従って、コンピュータプログラムによって実行され、図１１に記載されたプロセスの少なくとも一部をプロセッサが実行するための命令を符号化してもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体で具現化されてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープ、及び／又はデータを記憶するために使用される他のそのような媒体又は媒体の組み合わせであってもよいが、これらに限定されない。コンピュータプログラムは、図１１に記載されたプロセスステップの全て又は一部を実施するようにプロセッサ１２００を制御するための符号化された命令を含んでもよく、これも、コンピュータ読み取り可能な媒体に記憶されてもよい。

コンピュータプログラムは、ハードウェア、ソフトウェア、又はハイブリッド実装で実装されてもよい。コンピュータプログラムは、互いに動作可能に通信し、表示する情報又は命令を渡すように設計されたモジュールで構成されてもよい。コンピュータプログラムは、汎用コンピュータ、ＡＳＩＣ、又は任意の他の適切なデバイスで動作するように構成されてもよい。

本発明の様々な実施形態の構成要素は、本願の図面で一般的に記載され示されているように、多種多様な異なる構成で配置、設計されてもよいことは容易に理解されるであろう。したがって、添付の図面に表されている本発明の実施形態の詳細な説明は、クレームされている本発明の範囲を限定することを意図しておらず、単に本発明の選択された実施形態を表すものである。

本明細書全体を通して説明される本発明の特徴、構造、又は特性は、一又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。例えば、本明細書全体を通して「特定の実施形態」、「幾つかの実施形態」、又は類似の文言への言及は、実施形態に関連して説明される特定の特徴、構造、又は特性が本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体を通して「特定の実施形態において」、「幾つかの実施形態において」、「他の実施形態において」という語句、又は同様の文言の出現は、必ずしも全て同じ実施形態のグループを指すとは限らず、説明された特徴、構造、又は特性は、一又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。

本明細書全体を通して特徴、利点、又は同様の文言への言及は、本発明で実現され得る特徴及び利点の全てが本発明の任意の単一の実施形態であるか或いはそれに含まれることを意味しないことに留意されたい。むしろ、特徴及び利点に言及する文言は、実施形態に関連して説明される特定の特徴、利点、又は特性が本発明の少なくとも１つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体を通して特徴、利点、及び類似の文言の説明は、必ずしもそうではないが、同じ実施形態を指してもよい。

さらに、本発明の説明された特徴、利点、及び特性は、一又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。当業者は、特定の実施形態の特定の特徴又は利点のうちの一又は複数がなくても本発明を実施できることを認識するであろう。他の例において、本発明の全ての実施形態には存在しない可能性がある特定の実施形態において、追加の特徴及び利点が認識されてもよい。

当業者は、上記の本発明が異なる順序のステップで、及び／又は開示されているものとは異なる構成のハードウェア要素で実施されてもよいことを容易に理解するであろう。したがって、本発明をこのような好ましい実施形態に基づいて説明してきたが、本発明の主旨及び範囲内にありながら、特定の修正、変形、及び代替構造が明らかであることは当業者には明らかであろう。したがって、本発明の境界及び範囲を決定するために、添付の特許請求の範囲を参照されたい。

本発明の一実施形態による、設計時にグラフィックコンポーネントが識別されなかった又は誤識別された場合の、図５ＡのＲＰＡ実装を示す。

図５Ａは、本発明の一実施形態による、実行時にＶＭシステムにＣＶを使用するＲＰＡ実装５００を示す。ＶＭサーバ５１０は、クライアントコンピューティングシステム５３０に送られる一連の画像５２０を生成する。画像５２０は、コンピューティングシステム５３０上で実行されるアプリケーションによって表示されてもよい。或いは、画像５２０は、コンピューティングシステム５３０自体の画面として表示されてもよい。

画像データベースによって受け取られた後、１１４０で、画像がレビュアコンピューティングシステムに送られる。レビュアコンピューティングシステムを操作するレビュアは（又はレビュアコンピューティングシステム自体が自動的に）、画像に対してＣＶモデルを実行する、或いは、ＣＶモデルを実行させる。１１４５でレビュアがエラーが存在すると確信しない場合、プロセスは終了し、幾つかの実施形態において画像が画像データベースから削除されてもよい。しかし、１１４５でレビュアがエラーを確認した場合、１１５０で、再訓練のために、画像と誤識別されたコンポーネント又は識別されなかったコンポーネントの正しいラベルとがＭＬシステムに送られる。ＭＬシステムがＣＶモデルを再訓練した後、再訓練されたＣＶモデルが、例えば、ＣＶサーバ又はユーザコンピューティングシステムによって受け取られ、古いＣＶモデルの代わりに再訓練されたＣＶモデルが使用される。

Claims

非一時的なコンピュータ読み取り可能な媒体で具現化されたコンピュータプログラムであって、
コンピュータビジョン（ＣＶ）モデルの実行から画像内のグラフィックコンポーネントの識別内容を受け取ることと、
前記ＣＶモデルによって識別された識別済みのグラフィックコンポーネントを伴う前記画像を、ビジュアルディスプレイに表示させることと、
前記画像において誤識別された又は識別されなかったグラフィックコンポーネントの選択を受け取ることと、
選択されたものを含む前記画像の領域の代表データを決定することと、
前記代表データと前記画像を画像データベースに送ることと、
を少なくとも１つのプロセッサに実行させるように構成されていることを特徴とするコンピュータプログラム。
光学式文字認識（ＯＣＲ）アプリケーションによって提供される前記画像からテキスト情報を受け取ること
を前記少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１に記載のコンピュータプログラム。
ワークフローに前記画像と代替的な画像処理ロジックを組み込んで、ＣＶモデルが再訓練されている間に、前記誤識別された又は識別されなかったグラフィックコンポーネントを識別すること
を前記少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１に記載のコンピュータプログラム。
代替的な画画像処理ロジックは画像マッチングアルゴリズムを含むことを特徴とする、請求項３に記載のコンピュータプログラム。
選択されたものを含む前記画像の前記領域の前記代表データを決定することと、
前記画像と前記選択されたものをユーザに示すことなく送ることと、
を前記少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１に記載のコンピュータプログラム。
前記画像データベースは、設計時画像、報告された問題、及び画像マッチング領域の選択としてスクリーンショットを記憶することを特徴とする、請求項１に記載のコンピュータプログラム。
前記画像は仮想マシン（ＶＭ）からのものであることを特徴とする、請求項１に記載のコンピュータプログラム。
前記代表データは、領域を有する形状を定義する座標、線分、又はこれら両方を含むことを特徴とする、請求項１に記載のコンピュータプログラム。
機械読み取り可能なコンピュータプログラム命令を記憶するメモリと、
前記コンピュータプログラム命令を実行するように構成された少なくとも１つのプロセッサと、
を備えるコンピューティングシステムであって、
前記コンピュータプログラム命令は、
画像において誤識別された又は識別されなかったグラフィックコンポーネントの選択を受け取ることと、
選択されたものを含む前記画像の領域の代表データを決定することと、
コンピュータビジョン（ＣＶ）モデルの再訓練のため、前記代表データと前記画像を画像データベースに送ることと、
再訓練されたＣＶモデルの実行から前記画像内のグラフィックコンポーネントの識別内容を受け取ることと、
前記再訓練されたＣＶモデルによって識別された識別済みのグラフィックコンポーネントを伴う前記画像を、ビジュアルディスプレイに表示させることと、
を前記少なくとも１つのプロセッサに実行させるように構成されていることを特徴とするコンピューティングシステム。
前記コンピュータプログラム命令は、
ワークフローに前記画像と代替的な画像処理ロジックを組み込んで、前記ＣＶモデルが再訓練されている間に、前記誤識別された又は識別されなかったグラフィックコンポーネントを識別すること
を前記少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項９に記載のコンピューティングシステム。
代替的な画像処理ロジックは画像マッチングアルゴリズムを含むことを特徴とする、請求項９に記載のコンピューティングシステム。
前記コンピュータプログラム命令は、
選択されたものを含む前記画像の前記領域の前記代表データを決定することと、
前記画像と前記選択されたものをユーザに示すことなく送ることと、
を前記少なくとも１つのプロセッサに実行させるように構成されていることを特徴とする、請求項９に記載のコンピューティングシステム。
前記画像データベースは、設計時画像、報告された問題、及び画像マッチング領域の選択としてスクリーンショットを記憶することを特徴とする、請求項９に記載のコンピューティングシステム。
前記代表データは、領域を有する形状を定義する座標、線分、又はこれら両方を含むことを特徴とする、請求項９に記載のコンピューティングシステム。
画像において誤識別された又は識別されなかったグラフィックコンポーネントの選択を、コンピューティングシステムによって受け取ることと、
前記コンピューティングシステムによって、選択されたものを含む前記画像の領域の代表データを決定することと、
前記コンピューティングシステムによって、前記代表データと前記画像を画像データベースに送ることと、
前記コンピューティングシステムによって、ワークフローに前記画像と代替的な画像処理ロジックを組み込んで、ＣＶモデルが再訓練されている間に、前記誤識別された又は識別されなかったグラフィックコンポーネントを識別することと、
を含むことを特徴とするコンピュータ実施方法。
再訓練されたＣＶモデルの実行から前記画像内のグラフィックコンポーネントの識別内容を、前記コンピューティングシステムによって受け取ることと、
前記再訓練されたＣＶモデルによって識別された識別済みのグラフィックコンポーネントを伴う前記画像を、前記コンピューティングシステムによってビジュアルディスプレイに表示させることと、
をさらに含むことを特徴とする、請求項１５に記載のコンピュータ実施方法。
代替的な画像処理ロジックは画像マッチングアルゴリズムを含むことを特徴とする、請求項１５に記載のコンピュータ実施方法。
前記コンピューティングシステムは、選択されたものを含む前記画像の前記領域の前記代表データを決定し、前記画像と前記選択されたものをユーザに示すことなく送るように構成されていることを特徴とする、請求項１５に記載のコンピュータ実施方法。
前記画像データベースは、設計時画像、報告された問題、及び画像マッチング領域の選択としてスクリーンショットを記憶することを特徴とする、請求項１５に記載のコンピュータ実施方法。
前記代表データは、領域を有する形状を定義する座標、線分、又はこれら両方を含むことを特徴とする、請求項１５に記載のコンピュータ実施方法。