JP2022531026A

JP2022531026A - テキスト検出、キャレット追跡、及びアクティブ要素検出

Info

Publication number: JP2022531026A
Application number: JP2020552802A
Authority: JP
Inventors: スカルダヴァツラフ
Original assignee: UiPath Inc
Current assignee: UiPath Inc
Priority date: 2020-05-01
Filing date: 2020-09-21
Publication date: 2022-07-06
Anticipated expiration: 2040-09-21
Also published as: KR102297355B1; EP3905132A1; JP7115804B2

Abstract

コンピューティングシステムのための、タイプ及び／又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出が開示されている。コンピューティングシステムに関連付けられる画面上の、ユーザがテキストをタイプ又はペーストしている位置を識別することができ、テキストはホットキー又は可視の文字を表示させない他のキーを含む可能性があり、一又は複数の文字が表示された位置、カーソルが点滅していた位置、又はその両方の位置の現在の解像度に基づいて、タイプ又はペーストが行われた画面上の物理的位置を提供することができる。これは、変更が発生した画面上の位置を識別し、そのような位置でテキスト認識及び／又はキャレット検出を実行することで、行われてもよい。タイプ又はペーストするアクティビティの物理的な位置により、画面に表示されたアプリケーションにおけるアクティブ要素又はフォーカスされた要素の判断が可能になる。【選択図】図７

Description

関連出願の相互参照
本出願は、２０２０年５月１日に出願された米国非仮特許出願番号１６／８６４，６２９の継続出願であり、その利益を主張する、２０２０年５月４日に出願された米国非仮特許出願番号１６／８６５，８８６の利益を主張する。これらのより早く出願された出願の主題は、参照によりその全体が本明細書に組み込まれる。

本発明は、概して、コンピューティングシステムの動作の検出、より詳細には、コンピューティングシステムのための、タイプ及び／又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出に関する。

ユーザがコンピューティングシステムの入力デバイスと対話するとき、キー押下はキーのフックによって判断される場合があるが、ユーザが画面上でどの要素をタイプしているかが分からない場合がある。したがって、画面上のアクティブ要素が何であるかが分からない場合がある。よって、コンピューティングシステムとのユーザの対話を監視するための向上したアプローチが有益である可能性がある。

本発明の特定の実施形態は、現在の検出技術によってまだ完全に識別、認識、又は解決されていない、当該技術分野における課題及び必要性に対する解決方法を提供する可能性がある。例えば、本発明の幾つかの実施形態は、コンピューティングシステムのための、タイプ及び／又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出に関する。

一実施形態において、タイプされたテキストの検出ロジックを含むコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プロブラムは、時間窓の間に発生したキー押下イベントを含むキーボード文字キューを生成することと、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、を少なくとも１つのプロセッサに実行させるように構成されている。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該プログラムはさらに、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してＯＣＲを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することを少なくとも１つのプロセッサに実行させるように構成されている。該プログラムはさらに、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、キーボード文字キューと比較することと、文字又は文字シーケンスがキーボード文字キューの文字又は文字シーケンスと適合する場合、キーボード文字キューから該文字又は文字シーケンスを削除することと、を少なくとも１つのプロセッサに実行させるように構成されている。

別の一実施形態において、ロボティックプロセスオートメーションのためのタイプされたテキストの検出のコンピュータ実施方法が、ＲＰＡロボットによって、時間窓の間に発生したキー押下イベントを含むキーボード文字キューを生成することを含む。キー押下イベントは、押されたキーの文字とキーが押された時とを含む。該コンピュータ実施方法はさらに、ＲＰＡロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することを含む。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該コンピュータ実施方法はさらに、ＲＰＡロボットによって、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してＯＣＲを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することを含む。さらに、該コンピュータ実施方法は、ＲＰＡロボットによって、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、キーボード文字キューと比較することを含む。該コンピュータ実施方法は、文字又は文字シーケンスがキーボード文字キューの文字又は文字シーケンスと適合する場合に、ＲＰＡロボットによって、キーボード文字キューから該文字又は文字シーケンスを削除することと、ＲＰＡロボットによって、適合する文字又は文字シーケンスの位置を含む位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、を含む。

さらに別の一実施形態において、コンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することを少なくとも１つのプロセッサに実行させるように構成されている。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該プログラムはさらに、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してＯＣＲを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することを少なくとも１つのプロセッサに実行させるように構成されている。該プログラムはさらに、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、キーボード文字キューと比較することを少なくとも１つのプロセッサに実行させるように構成されている。該プログラムは、文字又は文字シーケンスがキーボード文字キューの文字又は文字シーケンスと適合する場合に、キーボード文字キューから該文字又は文字シーケンスを削除することと、適合する文字又は文字シーケンスの位置を含む位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、を少なくとも１つのプロセッサに実行させるように構成されている。

さらに別の一実施形態において、キャレット追跡ロジックを含むコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することを少なくとも１つのプロセッサに実行させるように構成されている。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該プログラムはさらに、一又は複数の領域についてピクセルの変更を計算することと、一又は複数の領域についてバイナリ行列に、計算されたピクセルの変更を投影することと、を少なくとも１つのプロセッサに実行させるように構成されている。該プログラムはさらに、各バイナリ行列について、点滅するキャレットの領域の候補を抽出し、バイナリ行列におけるメンバを結合することを少なくとも１つのプロセッサに実行させるように構成されている。さらに、該プログラムは、メンバから形状を抽出し、メンバの形状をキャレットの形状に対して確認することを少なくとも１つのプロセッサに実行させるように構成されている。

さらに別の一実施形態において、コンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を分析することを少なくとも１つのプロセッサに実行させるように構成されている。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該プログラムはさらに、分析に基づいて一又は複数のキャレットの候補を識別することと、一又は複数のキャレットの候補のうちの１つのキャレットの候補が点滅していることを識別するために確認を実行することと、を少なくとも１つのプロセッサに実行させるように構成されている。該プログラムはさらに、確認に基づいてキャレットの位置を識別することと、キャレットの位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、を少なくとも１つのプロセッサに実行させるように構成されている。

さらに別の一実施形態において、ＲＰＡのためのキャレット追跡を実行するコンピュータ実施方法が、ＲＰＡロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を分析することを含む。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該コンピュータ実施方法はさらに、ＲＰＡロボットによって、分析に基づいて一又は複数のキャレットの候補を識別することと、ＲＰＡロボットによって、一又は複数のキャレットの候補のうちの１つのキャレットの候補が点滅していることを識別するために確認を実行することと、を含む。該コンピュータ実施方法はさらに、前記ＲＰＡロボットによって、確認に基づいてキャレットの位置を識別することと、ＲＰＡロボットによって、キャレットの位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、を含む。

別の一実施形態において、ペーストされたテキストの検出ロジックを含むコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、時間窓内にオペレーティングシステムのためのクリップボードにコンテンツが加えられたか否かを判断するためにクリップボードを監視することを少なくとも１つのプロセッサに実行させるように構成されている。時間窓内にクリップボードにコンテンツが加えられた場合に、該プログラムは、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してＯＣＲを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、クリップボードのコンテンツと比較することと、文字又は文字シーケンスがクリップボードのコンテンツの文字又は文字シーケンスと適合する場合、ペーストされたテキストの座標を取得し、ペーストされたテキストの座標を含むグラフィック要素をアクティブ要素として設定することと、を少なくとも１つのプロセッサに実行させるように構成され、現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。

さらに別の一実施形態において、ペーストされたテキストの検出ロジックを含むコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、クリップボードコンテンツが存在するか否かを判断することを少なくとも１つのプロセッサに実行させるように構成されている。前記クリップボードコンテンツが存在し、クリップボードコンテンツが時間窓の間に加えられていた場合に、該プログラムは、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してＯＣＲを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、クリップボードコンテンツと比較することと、クリップボードコンテンツが一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と適合する場合、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を含む位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、を少なくとも１つのプロセッサに実行させるように構成され、現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。

さらに別の一実施形態において、クリップボードコンテンツが存在し、クリップボードコンテンツが時間窓の間に加えられていた場合の、ロボティックプロセスオートメーション（ＲＰＡ）のためのペーストされたテキストの検出のコンピュータ実施方法が、ＲＰＡロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することを含む。現在のスクリーンショットフレームと以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含む。該コンピュータ実施方法はさらに、ＲＰＡロボットによって、判断された一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された一又は複数の結合されたメンバに対してＯＣＲを実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することを含む。該コンピュータ実施方法はさらに、ＲＰＡロボットによって、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を、クリップボードコンテンツと比較することを含む。クリップボードコンテンツが一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と適合する場合、該コンピュータ実施方法はさらに、ＲＰＡロボットによって、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方を含む位置を有する現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することを含む。

別の一実施形態において、スクリーンショットフレームを前処理しアクティブ要素を検出するためのコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、以前のスクリーンショットフレームに対してコンピュータビジョン（ＣＶ）前処理を実行することを少なくとも１つのプロセッサに実行させるように構成されている。該コンピュータプログラムはさらに、以前のスクリーンショットフレームにおけるグラフィック要素の種類及び位置を判断することと、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる領域において発生した変更を判断することと、を少なくとも１つのプロセッサに実行させるように構成されている。該領域は、テキスト入力を許可する一又は複数のグラフィック要素の領域内に少なくとも部分的に含まれる。該プログラムはさらに、テキスト入力を許可する１つのグラフィック要素において変更が発生した場合、変更が発生したグラフィック要素をアクティブ要素として設定することを少なくとも１つのプロセッサに実行させるように構成されている。

さらに別の一実施形態において、スクリーンショットフレームを前処理しアクティブ要素を検出するためのコンピュータプログラムが、非一時的なコンピュータ読み取り可能な媒体に具現化される。該プログラムは、以前のスクリーンショットフレームに対してＣＶ前処理を実行することを少なくとも１つのプロセッサに実行させるように構成されている。該プログラムはさらに、前記以前のスクリーンショットフレームにおけるグラフィック要素の種類及び位置を判断することと、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる領域において発生した変更を判断することと、を少なくとも１つのプロセッサに実行させるように構成されている。該領域は、テキスト入力を許可する一又は複数のグラフィック要素の領域内に少なくとも部分的に含まれる。該プログラムは、テキスト入力を許可する１つのグラフィック要素において変更が発生した場合、変更が発生したグラフィック要素をアクティブ要素として設定することを少なくとも１つのプロセッサに実行させるように構成されている。該プログラムは、テキスト入力を許可する１つより多いグラフィック要素において変更が発生した場合、時間窓の間に発生したキー押下イベントのキーボード文字キューを生成することと、以前のスクリーンショットフレームと現在のスクリーンショットフレームの間で発生した、新たに加えられたキー押下イベントを判断することと、変更が発生した２つ又はそれ以上のグラフィック要素の領域に対してＯＣＲを実行することと、変更が発生した２つ又はそれ以上のグラフィック要素のうち１つと新たに加えられたキー押下イベントを適合させることと、適合されたグラフィック要素をアクティブ要素として設定することと、を少なくとも１つのプロセッサに実行させるように構成されている。

さらに別の一実施形態において、ＲＰＡのためのスクリーンショットフレームを前処理しアクティブ要素を検出するコンピュータ実施方法が、ＲＰＡロボットによって、以前のスクリーンショットフレームに対してＣＶ前処理を実行することを含む。該コンピュータ実施方法はさらに、ＲＰＡロボットによって、以前のスクリーンショットフレームにおけるグラフィック要素の種類及び位置を判断することと、ＲＰＡロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる領域において発生した変更を判断することと、を含む。該領域は、テキスト入力を許可する一又は複数のグラフィック要素の領域内に少なくとも部分的に含まれる。該コンピュータ実施方法はさらに、テキスト入力を許可する１つのグラフィック要素において変更が発生した場合、ＲＰＡロボットによって、変更が発生したグラフィック要素をアクティブ要素として設定することを含む。

本発明の特定の実施形態の利点が容易に理解されるように、上記簡単に説明した本発明のより詳細な説明を、添付の図面に示す特定の実施形態を参照して行う。これらの図面は、本発明の典型的な実施形態のみを示すもので、その範囲を限定するものとみなされるべきではないことを理解されたい。本発明は、添付の図面の使用を通じて追加の特性及び詳細とともに記載され説明される。

本発明の一実施形態によるロボティックプロセスオートメーション（ＲＰＡ）システムを示すアーキテクチャ図である。

本発明の一実施形態による、デプロイされたＲＰＡシステムを示すアーキテクチャ図である。

本発明の一実施形態による、デザイナとアクティビティとドライバとの関係を示すアーキテクチャ図である。

本発明の一実施形態によるＲＰＡシステムを示すアーキテクチャ図である。

本発明の一実施形態による、タイプ及び／又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するように構成されたコンピューティングシステムを示すアーキテクチャ図である。

本発明の一実施形態による、タイプされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するための一般的なプロセスを示すアーキテクチャ図である。

本発明の一実施形態による、タイプされたテキストの検出及びキャレット追跡を実行するためのプロセスを示すアーキテクチャ図である。

本発明の一実施形態による、それぞれフレームＮ－１及びフレームＮの同窓生寄付ウィンドウを含むスクリーンショットの一部を示す。

本発明の一実施形態による、四角形グリッドに分割されたスクリーンショットＮ－１を示す。

本発明の一実施形態による、四角形グリッドに分割されたスクリーンショットＮを示す。

本発明の一実施形態による、スクリーンショットＮ－１からの変更を含む強調表示された行を有するスクリーンショットＮを示す。

本発明の一実施形態による、スクリーンショットＮ－１からの変更を含む強調表示された行における強調表示されたセルを有するスクリーンショットＮを示す。

本発明の一実施形態による、スクリーンショットＮ－１からの変更を含む強調表示された領域を有するスクリーンショットＮを示す。

本発明の一実施形態による、変更に対応するために、解像度の変更を確認し、接続されているディスプレイの範囲の変更を確認し、キャレット追跡ビデオロジックを設定するプロセスを示すフローチャートである。

本発明の一実施形態による、ビデオレコーダのプロセスを示すフローチャートである。

本発明の一実施形態による、キャレット追跡を実行するプロセスを示すフローチャートである。

図１２Ａ～図１２Ｄは、本発明の一実施形態による、タイプされた文字（キャラクタ）の追跡、キャレット追跡、及びアクティブ要素の検出のためのビデオ処理を実行するプロセスを示すフローチャートである。

図１３Ａ及び図１３Ｂは、本発明の一実施形態による、ペーストされたテキストの追跡を実行するプロセスを示すフローチャートである。

本発明の一実施形態による、３２×３２領域に結合された４つの１６×１６ブロックに含まれる文字「Ｅ」のバイナリ行列の一例を示す。

本発明の一実施形態による、図１４Ａの領域のバイナリ行列に含まれるメンバ（文字「Ｅ」）のトリミングされた７×９のバイナリ行列を示す。

本発明の一実施形態による、ＣＶ及びキーボードキューを使用してアクティブ要素を判断するプロセスを示すフローチャートである。

本発明の一実施形態による、タイプ及び／又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するように構成されたシステムを示すアーキテクチャ図である。

本発明の一実施形態による、前処理、タイプされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するプロセスを示すフローチャートである。

特に示さない限り、同様の符号は、添付の図面全体を通して一貫して対応する特徴を示す。

幾つかの実施形態は、コンピューティングシステムのための、タイプ及び／又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出に関する。幾つかの実施形態は、コンピューティングシステムに関連付けられる画面上のどこにユーザがテキストをタイプ又はペーストしているかを認識し、テキストはホットキー又は可視の文字を表示させない他のキーを含む可能性があり、一又は複数の文字が表示された位置、カーソルが点滅していた位置、又はその両方の位置の現在の解像度に基づいて、画面上の物理的位置を（例えば、座標で）提供する。タイプ又はペーストするアクティビティ及び／又はキャレットの物理的な位置により、ユーザがどのフィールドにタイプ又はフォーカスしているか及びプロセス発見又は他のアプリケーションのためのアプリケーションはどれかを判断してもよい。

幾つかの実施形態は、現在のスクリーンショットを以前のスクリーンショットと継続的又は定期的に比較して変更を識別するフィードバックループプロセスで実装される。画面上で視覚的な変更が発生した位置を特定し、変更が発生した位置で光学式文字認識（ＯＣＲ）を実行してもよい。次に、ＯＣＲの結果をキーボードキューの内容と比較して（例えば、キーフックによって判断されるとして）、適合が存在するか否かを判断してもよい。変更が発生した位置は、現在のスクリーンショットからのピクセルのボックスを以前のスクリーンショットの同じ位置におけるピクセルのボックスと比較することで判断されてもよい。

特定の実施形態が、ロボティックプロセスオートメーション（ＲＰＡ）に使用されてもよい。図１は、本発明の一実施形態による、ＲＰＡシステム１００を示すアーキテクチャ図である。ＲＰＡシステム１００は、開発者がワークフローを設計及び実装することを可能にするデザイナ１１０を含む。デザイナ１１０は、アプリケーション統合、並びにサードパーティアプリケーション、管理情報技術（ＩＴ）タスク、及びビジネスＩＴプロセスの自動化のためのソリューションを提供してもよい。デザイナ１１０は、ビジネスプロセスのグラフィック表現である自動化プロジェクトの開発を容易にしてもよい。簡単に言うと、デザイナ１１０はワークフロー及びロボットの開発とデプロイメントを容易にしてもよい。

自動化プロジェクトは、開発者が、本明細書において「アクティビティ」として定義される、ワークフローで開発されたカスタムセットのステップ間の実行順序及び関係を制御できるようにすることで、ルールベースのプロセスの自動化を可能にする。デザイナ１１０の実施形態の１つの商業的な例は、ＵｉＰａｔｈＳｔｕｄｉｏ（商標）である。各アクティビティには、例えばボタンのクリック、ファイルの読み込み、ログパネルへの書き込みなどのアクションが含まれていてもよい。幾つかの実施形態において、ワークフローがネストされ又は埋め込まれてもよい。

一部の種類のワークフローには、シーケンス、フローチャート、ＦＳＭ、及び／又はグローバル例外ハンドラが含まれてもよいが、これらに限定されない。シーケンスは、線形プロセスに特に適している可能性があり、ワークフローを混乱させることなく、あるアクティビティから別のアクティビティへのフローを可能にする。フローチャートは、より複雑なビジネスロジックに特に適している可能性があり、複数の分岐論理演算子によって、より多様な方法で決定の統合及びアクティビティの接続を可能にする。ＦＳＭは、大規模なワークフローに特に適している可能性がある。ＦＳＭは、実行時に有限数の状態を使用してもよく、それらの状態は、条件（即ち、遷移）又はアクティビティによってトリガされる。グローバル例外ハンドラは、実行エラーが発生したときのワークフローの振る舞いを決定したり、プロセスをデバッグしたりするのに特に適している可能性がある。

ワークフローがデザイナ１１０で開発されると、ビジネスプロセスの実行は、デザイナ１１０で開発されたワークフローを実行する一又は複数のロボット１３０を調整するコンダクタ１２０によって調整される。コンダクタ１２０の実施形態の１つの商用的な例は、ＵｉＰａｔｈＯｒｃｈｅｓｔｒａｔｏｒ（商標）である。コンダクタ１２０は、環境におけるリソースの作成、監視、及びデプロイメントの管理を容易にする。コンダクタ１２０は、サードパーティのソリューション及びアプリケーションとの統合ポイント又は集約ポイントの１つとして機能してもよい。

コンダクタ１２０は、全てのロボット１３０を管理して、集中ポイントからロボット１３０を接続して実行してもよい。管理可能なロボット１３０の種類には、アテンディッド（操作要）ロボット１３２、アンアテンディッド（操作不要）ロボット１３４、開発ロボット（アンアテンディッドロボット１３４と同様であるが、開発及びテストの目的で使用される）、及び非生産ロボット（アテンディッドロボット１３２と同様であるが、開発及びテストの目的で使用される）が含まれるが、これらに限定されない。アテンディッドロボット１３２は、ユーザイベントによってトリガされ、同じコンピューティングシステム上で人間と一緒に動作する。アテンディッドロボット１３２は、集中プロセス展開及びロギング媒体のためにコンダクタ１２０と共に使用されてもよい。アテンディッドロボット１３２は、人間のユーザが様々なタスクを達成するのを助け、ユーザイベントによってトリガされてもよい。幾つかの実施形態において、プロセスは、この種のロボットのコンダクタ１２０から開始されることができず、且つ／又は、ロックされた画面の下で実行できない。特定の実施形態において、アテンディッドロボット１３２は、ロボットトレイから又はコマンドプロンプトから開始できるのみである。幾つかの実施形態において、アテンディッドロボット１３２は、人間の監督下で動作するべきである。

アンアテンディッドロボット１３４は、仮想環境で操作不要で実行され、多くのプロセスを自動化できる。アンアテンディッドロボット１３４は、遠隔実行、監視、スケジューリング、及びワークキューのサポートの提供を担当してもよい。幾つかの実施形態において、全てのロボットの種類のデバッグをデザイナ１１０で実行してもよい。アテンディッドロボットとアンアテンディッドロボットの両方が、メインフレーム、ウェブアプリケーション、ＶＭ、エンタープライズアプリケーション（例えば、ＳＡＰ（登録商標）、ＳａｌｅｓＦｏｒｃｅ（登録商標）、Ｏｒａｃｌｅ（登録商標）などによって生成されたもの）、及びコンピューティングシステムアプリケーション（例えば、デスクトップ及びラップトップアプリケーション、モバイルデバイスアプリケーション、ウェアラブルコンピュータアプリケーションなど）を含むがこれらに限定されない様々なシステム及びアプリケーションを自動化してもよい。

コンダクタ１２０は、プロビジョニング、デプロイメント、バージョニング、コンフィギュレーション、キューイング、監視、ロギング、及び／又は相互接続性の提供を含むがこれらに限定されない様々な機能を有してもよい。プロビジョニングには、ロボット１３０とコンダクタ１２０（例えば、ウェブアプリケーションなど）の間の接続の作成及び保守が含まれてもよい。デプロイメントには、実行のために割り当てられたロボット１３０へのパッケージバージョンの正しい配信を保証することが含まれてもよい。バージョニングには、幾つかの実施形態において、あるプロセス又はコンフィギュレーションの固有のインスタンスの管理が含まれてもよい。コンフィギュレーションには、ロボット環境及びプロセスコンフィギュレーションの保守及び配信が含まれてもよい。キューイングには、キュー及びキューアイテムの管理の提供が含まれてもよい。監視には、ロボット識別データの追跡及びユーザ権限の維持が含まれてもよい。ロギングには、データベース（例えば、ＳＱＬデータベースなど）及び／又は他のストレージメカニズム（例えば、ＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）など。これは、大規模なデータセットを記憶してすばやくクエリを実行する機能を提供する）へのログの記憶及びインデックス付けが含まれてもよい。コンダクタ１２０は、サードパーティのソリューション及び／又はアプリケーションのための通信の集中ポイントとして機能することで、相互接続性を提供してもよい。

ロボット１３０は、デザイナ１１０に組み込まれたワークフローを実行する実行エージェントである。ロボット１３０の幾つかの実施形態のうち１つの商用的な例は、ＵｉＰａｔｈＲｏｂｏｔｓ（商標）である。幾つかの実施形態において、ロボット１３０は、デフォルトで、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）サービスコントロールマネージャー（ＳＣＭ）が管理するサービスをインストールする。その結果、そのようなロボット１３０が、ローカルシステムアカウントでインタラクティブなＷｉｎｄｏｗｓ（登録商標）セッションを開き、Ｗｉｎｄｏｗｓ（登録商標）サービスの権限を有してもよい。

幾つかの実施形態において、ロボット１３０は、ユーザモードでインストールされてもよい。そのようなロボット１３０の場合、これは、ユーザのもとでロボット１３０がインストールされて、そのユーザと同じ権利をロボット１３０が有することを意味する。この特徴は、高密度（ＨＤ）ロボットで利用可能であってもよく、各マシンの最大限の活用を確実にしてもよい。幾つかの実施形態において、任意の種類のロボット１３０が、ＨＤ環境で構成されてもよい。

幾つかの実施形態におけるロボット１３０は、それぞれが特定の自動化タスク専用である幾つかのコンポーネントに分割される。幾つかの実施形態におけるロボットコンポーネントには、ＳＣＭ管理のロボットサービス、ユーザモードのロボットサービス、エグゼキュータ、エージェント、及びコマンドラインが含まれるが、これらに限定されない。ＳＣＭ管理のロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理、監視してコンダクタ１２０と実行ホスト（即ち、ロボット１３０が実行されるコンピューティングシステム）の間のプロキシとして機能する。このようなサービスは、ロボット１３０の資格情報を託され、これを管理する。コンソールアプリケーションは、ローカルシステムのもとでＳＣＭによって起動される。

幾つかの実施形態におけるユーザモードロボットサービスは、Ｗｉｎｄｏｗｓ（登録商標）セッションを管理、監視し、コンダクタ１２０と実行ホストの間のプロキシとして機能する。ユーザモードロボットサービスは、ロボット１３０の資格情報を託され、これを管理してもよい。ＳＣＭ管理のロボットサービスがインストールされていない場合、Ｗｉｎｄｏｗｓ（登録商標）アプリケーションが自動的に起動されてもよい。

エグゼキュータは、Ｗｉｎｄｏｗｓ（登録商標）セッションのもとで所定のジョブを実行してもよい（即ち、エグゼキュータはワークフローを実行してもよい。エグゼキュータは、モニタ毎のドット／インチ（ＤＰＩ）設定を認識していてもよい。エージェントは、システムトレイウィンドウで利用可能なジョブを表示するＷｉｎｄｏｗｓ（登録商標）ＰｒｅｓｅｎｔａｔｉｏｎＦｏｕｎｄａｔｉｏｎ（ＷＰＦ）アプリケーションであってもよい。エージェントはこのサービスのクライアントであってもよい。エージェントは、ジョブの開始又は停止を要求し、設定を変更してもよい。コマンドラインはそのサービスのクライアントであってもよい。コマンドラインは、ジョブの開始を要求可能なコンソールアプリケーションであり、その出力を待つ。

上記で説明したようにロボット１３０のコンポーネントを分割することにより、開発者、サポートユーザ、及びコンピューティングシステムが、各コンポーネントの実行内容の実行、識別、及び追跡をより容易に行うことができる。このように、例えばエグゼキュータとサービスに異なるファイアウォールルールを設定するなど、コンポーネント毎に特別な振る舞いが構成されてもよい。幾つかの実施形態において、エグゼキュータは、モニタ毎のＤＰＩ設定を常に認識していてもよい。その結果、ワークフローが作成されたコンピューティングシステムの構成に関わらず、ワークフローが任意のＤＰＩで実行されてもよい。幾つかの実施形態において、デザイナ１１０からのプロジェクトは、ブラウザのズームレベルから独立していてもよい。ＤＰＩを認識しない又は意図的に認識しないとマークされているアプリケーションの場合、幾つかの実施形態においてＤＰＩが無効にされてもよい。

図２は、本発明の一実施形態による、デプロイされたＲＰＡシステム２００を示すアーキテクチャ図である。幾つかの実施形態において、ＲＰＡシステム２００は、図１のＲＰＡシステム１００であってもよいし、その一部であってもよい。クライアント側、サーバ側、又はこれらの両方が、本発明の範囲から逸脱することなく、任意の所望の数のコンピューティングシステムを含んでもよいことに留意されたい。クライアント側では、ロボットアプリケーション２１０が、エグゼキュータ２１２、エージェント２１４、及びデザイナ２１６を含む。しかし、幾つかの実施形態において、デザイナ２１６はコンピューティングシステム２１０で実行されていなくてもよい。エグゼキュータ２１２はプロセスを実行する。図２に示すように、複数のビジネスプロジェクトが同時に実行されてもよい。このような実施形態において、エージェント２１４（例えば、Ｗｉｎｄｏｗｓ（登録商標）サービスなど）は、全てのエグゼキュータ２１２の単一の接続ポイントである。このような実施形態における全てのメッセージは、さらにデータベースサーバ２４０、インデクササーバ２５０、又はこれらの両方を介して、それらのメッセージを処理するコンダクタ２３０にログインされる。図１に関して上記で説明したように、エグゼキュータ２１２はロボットコンポーネントであってもよい。

幾つかの実施形態において、ロボットは、マシン名とユーザ名の間の関連付けを表す。ロボットは同時に複数のエグゼキュータを管理してもよい。同時に実行されている複数の対話型セッションをサポートするコンピューティングシステム（例えば、Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ２０１２など）では、複数のロボットが同時に実行され、それぞれが一意のユーザ名を使用する個別のＷｉｎｄｏｗｓ（登録商標）セッションで実行されてもよい。これを上記のＨＤロボットという。

エージェント２１４はまた、ロボットのステータスを送り（例えば、ロボットがまだ機能していることを示す「ハートビート」メッセージを定期的に送り）、実行されるパッケージの必要なバージョンをダウンロードすることも担当する。幾つかの実施形態において、エージェント２１４とコンダクタ２３０の間の通信は、常にエージェント２１４によって開始される。通知シナリオにおいて、エージェント２１４は、コンダクタ２３０によって後で使用されるＷｅｂＳｏｃｋｅｔチャネルを開き、ロボットにコマンド（例えば、開始、停止など）を送ってもよい。

サーバ側では、プレゼンテーション層（ウェブアプリケーション２３２、ＯｐｅｎＤａｔａＰｒｏｔｏｃｏｌ（ＯＤａｔａ）ＲｅｐｒｅｓｅｎｔａｔｉｖｅＳｔａｔｅＴｒａｎｓｆｅｒ（ＲＥＳＴ）ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ（ＡＰＩ）エンドポイント２３４、通知監視２３６）、サービス層（ＡＰＩ実装／ビジネスロジック２３８）、及び永続層（データベースサーバ２４０及びインデクササーバ２５０）が含まれる。コンダクタ２３０には、ウェブアプリケーション２３２、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４、通知監視２３６、及びＡＰＩ実装／ビジネスロジック２３８が含まれる。幾つかの実施形態において、コンダクタ２３０のインタフェースで（例えば、ブラウザ２２０を介して）ユーザが実行する殆どのアクションが、様々なＡＰＩを呼び出すことで実行される。このようなアクションには、本発明の範囲から逸脱することなく、ロボットでのジョブの開始、キュー内のデータの追加／削除、操作不要で実行するジョブのスケジューリングなどが含まれてもよいが、これらに限定されない。ウェブアプリケーション２３２は、サーバプラットフォームのビジュアル層である。このような実施形態において、ウェブアプリケーション２３２は、ハイパーテキストマークアップ言語（ＨＴＭＬ）及びＪａｖａＳｃｒｉｐｔ（ＪＳ）を使用する。しかし、本発明の範囲から逸脱することなく、任意の所望のマークアップ言語、スクリプト言語、又は任意の他のフォーマットが使用されてもよい。このような実施形態において、ユーザは、コンダクタ２３０を制御するための様々なアクションを実行するため、ブラウザ２２０を介してウェブアプリケーション２３２からウェブページと対話する。例えば、ユーザは、ロボットグループを作成し、ロボットにパッケージを割り当て、ロボット毎に且つ／又はプロセス毎にログを分析し、ロボットを起動、停止させるなどしてもよい。

ウェブアプリケーション２３２に加えて、コンダクタ２３０には、ＯＤａｔａＲＥＳＴＡＰＩエンドポイント２３４を公開するサービス層も含まれる。しかし、本発明の範囲から逸脱することなく、他のエンドポイントが含まれてもよい。ＲＥＳＴＡＰＩは、ウェブアプリケーション２３２とエージェント２１４の両方によって使用される。このような実施形態において、エージェント２１４は、クライアントコンピュータ上の一又は複数のロボットのスーパーバイザである。

このような実施形態におけるＲＥＳＴＡＰＩは、コンフィギュレーション、ロギング、監視、及びキューイングの機能をカバーする。幾つかの実施形態において、コンフィギュレーションエンドポイントが使用されて、アプリケーションユーザ、権限、ロボット、アセット、リリース、及び環境を定義、構成してもよい。ロギングＲＥＳＴエンドポイントが使用されて、例えばエラー、ロボットによって送られた明示的なメッセージ、その他の環境固有の情報など、様々な情報をログに記録してもよい。デプロイメントＲＥＳＴエンドポイントがロボットによって使用されて、コンダクタ２３０でジョブ開始コマンドが使用される場合に実行する必要があるパッケージバージョンをクエリしてもよい。キューイングＲＥＳＴエンドポイントは、例えばキューへのデータの追加、キューからのトランザクションの取得、トランザクションのステータスの設定など、キュー及びキューアイテムの管理を担当してもよい。

監視ＲＥＳＴエンドポイントは、ウェブアプリケーション２３２及びエージェント２１４を監視してもよい。通知監視ＡＰＩ２３６は、エージェント２１４の登録、エージェント２１４へのコンフィギュレーション設定の配信、並びにサーバ及びエージェント２１４からの通知の送受信に使用されるＲＥＳＴエンドポイントであってもよい。幾つかの実施形態において、通知監視ＡＰＩ２３６はまた、ＷｅｂＳｏｃｋｅｔ通信を使用してもよい。

永続層は、この実施形態では一対のサーバ、つまり、データベースサーバ２４０（例えば、ＳＱＬサーバなど）及びインデクササーバ２５０を含む。この実施形態のデータベースサーバ２４０は、ロボット、ロボットグループ、関連プロセス、ユーザ、ロール、スケジュールなどのコンフィギュレーションを記憶する。このような情報は、幾つかの実施形態において、ウェブアプリケーション２３２を介して管理される。データベースサーバ２４０は、キュー及びキューアイテムを管理してもよい。幾つかの実施形態において、データベースサーバ２４０は、（インデクササーバ２５０に加えて又はその代わりに）ロボットによってログに記録されたメッセージを記憶してもよい。

幾つかの実施形態において任意であるインデクササーバ２５０は、ロボットによってログに記録された情報を記憶し、インデックスを付ける。特定の実施形態において、インデクササーバ２５０は、コンフィギュレーション設定を通じて無効にされてもよい。幾つかの実施形態において、インデクササーバ２５０は、オープンソースプロジェクトの全文検索エンジンであるＥｌａｓｔｉｃＳｅａｒｃｈ（登録商標）を使用する。ロボットによって（例えば、ログメッセージ、行書き込みなどのアクティビティを使用して）ログに記録されたメッセージは、ロギングＲＥＳＴエンドポイントを介してインデクササーバ２５０に送られてもよく、そこで将来の利用のためにインデックスが付けられてもよい。

図３は、本発明の一実施形態による、デザイナ３１０とアクティビティ３２０、３３０とドライバ３４０との間の関係３００を示すアーキテクチャ図である。上記のとおり、開発者は、デザイナ３１０を使用して、ロボットによって実行されるワークフローを開発する。ワークフローは、ユーザ定義のアクティビティ３２０とＵＩ自動化アクティビティ３３０を含んでもよい。幾つかの実施形態は、本明細書においてコンピュータビジョン（ＣＶ）という、画像における非テキストのビジュアルコンポーネントを識別することができる。そのようなコンポーネントに関連する一部のＣＶアクティビティには、クリック（ｃｌｉｃｋ）、タイプ（ｔｙｐｅ）、テキストを取得（ｇｅｔｔｅｘｔ）、ホバー（ｈｏｖｅｒ）、要素の有無を検出（ｅｌｅｍｅｎｔｅｘｉｓｔｓ）、スコープの更新（ｒｅｆｒｅｓｈｓｃｏｐｅ）、ハイライト（ｈｉｇｈｌｉｇｈｔ）などが含まれてもよいが、これらに限定されない。幾つかの実施形態において、クリック（ｃｌｉｃｋ）は、例えば、ＣＶ、光学式文字認識（ＯＣＲ）、ファジーテキストマッチング、複数のアンカーを使用して要素を識別し、クリックする。タイプ（ｔｙｐｅ）は、上記を使用して要素を識別してもよく、要素内でタイプする。テキストを取得（ｇｅｔｔｅｘｔ）は、特定のテキストの位置を識別し、ＯＣＲを使用してスキャンしてもよい。ホバー（ｈｏｖｅｒ）は、要素を識別し、その上にホバーしてもよい。要素の有無を検出（ｅｌｅｍｅｎｔｅｘｉｓｔｓ）は、上記の技術を使用して、要素が画面上に存在するか否かを確認してもよい。幾つかの実施形態において、デザイナ３１０で実装可能な数百又は数千ものアクティビティがあってもよい。しかし、本発明の範囲から逸脱することなく、任意の数及び／又は種類のアクティビティが利用可能であってもよい。

ＵＩ自動化アクティビティ３３０は、低レベルのコードで書かれた特別な低レベルのアクティビティ（例えば、ＣＶアクティビティなど）のサブセットであり、画面との対話を容易にする。ＵＩ自動化アクティビティ３３０は、ロボットが所望のソフトウェアと対話することを可能にするドライバ３４０を介して、このような対話を容易にする。例えば、ドライバ３４０は、ＯＳドライバ３４２、ブラウザドライバ３４４、ＶＭドライバ３４６、エンタープライズアプリケーションドライバ３４８などを含んでもよい。

ドライバ３４０は、低レベルでＯＳと対話して、フックを探したりキーを監視したりするなどしてもよい。ドライバ３４０は、Ｃｈｒｏｍｅ（登録商標）、ＩＥ（登録商標）、Ｃｉｔｒｉｘ（登録商標）、ＳＡＰ（登録商標）などとの統合を容易にしてもよい。例えば、「クリック」アクティビティは、ドライバ３４０を介してそのような異なるアプリケーションで同じ役割を果たす。

図４は、本発明の一実施形態によるＲＰＡシステム４００を示すアーキテクチャ図である。幾つかの実施形態において、ＲＰＡシステム４００は、図１及び／又は図２のＲＰＡシステム１００及び／又は２００であってもよいし、それを含んでもよい。ＲＰＡシステム４００は、ロボットを実行する複数のクライアントコンピューティングシステム４１０を含む。コンピューティングシステム４１０は、そこで実行されるウェブアプリケーションを介してコンダクタコンピューティングシステム４２０と通信可能である。次に、コンダクタコンピューティングシステム４２０は、データベースサーバ４３０及び任意のインデクササーバ４４０と通信可能である。

図１及び図３に関して、これらの実施形態においてウェブアプリケーションが使用されているが、本発明の範囲から逸脱することなく、任意の適切なクライアント／サーバソフトウェアが使用されてもよいことに留意されたい。例えば、コンダクタは、クライアントコンピューティングシステム上の非ウェブベースのクライアントソフトウェアアプリケーションと通信するサーバ側アプリケーションを実行してもよい。

図５は、本発明の一実施形態による、タイプ及び／又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するように構成されたコンピューティングシステム５００を示すアーキテクチャ図である。幾つかの実施形態において、コンピューティングシステム５００は、本出願において図示及び／又は説明される一又は複数のコンピューティングシステムであってもよい。コンピューティングシステム５００は、情報を通信するためのバス５０５又は他の通信メカニズムと、情報を処理するためにバス５０５に接続されたプロセッサ５１０とを含む。プロセッサ５１０は、中央処理装置（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックスプロセッシングユニット（ＧＰＵ）、それらの複数の例、及び／又はそれらのうちの任意の組み合わせを含む、任意の種類の汎用又は特定用途のプロセッサであってもよい。プロセッサ５１０はまた、複数の処理コアを有してもよく、コアの少なくとも一部が、特定の機能を実行するように構成されてもよい。幾つかの実施形態において、複数並列処理を使用されてもよい。特定の実施形態において、少なくとも１つのプロセッサ５１０が、生体ニューロンを模倣する処理要素を含むニューロモーフィック回路であってもよい。幾つかの実施形態において、ニューロモーフィック回路は、フォンノイマンコンピューティングアーキテクチャの典型的なコンポーネントを必要としなくてもよい。

コンピューティングシステム５００は、プロセッサ５１０によって実行される情報及び命令を記憶するためのメモリ５１５をさらに含む。メモリ５１５は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、フラッシュメモリ、キャッシュ、例えば磁気若しくは光ディスクなどの静的記憶装置、又は任意の他の種類の非一時的なコンピュータ読み取り可能な媒体、又はこれらのうちの組み合わせのうちの任意の組み合わせから構成されてもよい。非一時的なコンピュータ読み取り可能な媒体は、プロセッサ５１０によってアクセス可能な任意の利用可能な媒体であってもよく、揮発性媒体、不揮発性媒体、又はその両方を含んでもよい。媒体は、取り外し可能、取り外し不可能、又はその両方であってもよい。

さらに、コンピューティングシステム５００は、無線及び／又は有線接続を介して通信ネットワークへのアクセスを提供するために、例えばトランシーバなどの通信デバイス５２０を含む。幾つかの実施形態において、通信デバイス５２０は、本発明の範囲から逸脱することなく、周波数分割多元接続（ＦＤＭＡ）、シングルキャリアＦＤＭＡ（ＳＣ－ＦＤＭＡ）、時分割多元接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分割多重方式（ＯＦＤＭ）、直交周波数分割多元接続（ＯＦＤＭＡ）、移動体用グローバルシステム（ＧＳＭ）通信、汎用パケット無線サービス（ＧＰＲＳ）、ユニバーサル移動体通信システム（ＵＭＴＳ）、ｃｄｍａ２０００、広帯域ＣＤＭＡ（Ｗ－ＣＤＭＡ）、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ）、高速アップリンクパケットアクセス（ＨＳＵＰＡ）、高速パケットアクセス（ＨＳＰＡ）、ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）、ＬＴＥアドバンスト（ＬＴＥ－Ａ）、８０２．１１ｘ、Ｗｉ－Ｆｉ、Ｚｉｇｂｅｅ、超広帯域無線（ＵＷＢ）、８０２．１６ｘ、８０２．１５、ＨｏｍｅＮｏｄｅ－Ｂ（ＨｎＢ）、Ｂｌｕｅｔｏｏｔｈ、ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ（ＲＦＩＤ）、ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ（ＩｒＤＡ）、Ｎｅａｒ－ＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ（ＮＦＣ）、第５世代（５Ｇ）、ＮｅｗＲａｄｉｏ（ＮＲ）、これらのうちの任意の組み合わせ、及び／又は任意の他の現在存在する又は将来実施される通信規格及び／又はプロトコルを使用するように構成されてもよい。幾つかの実施形態において、通信デバイス５２０は、本発明の範囲から逸脱することなく、単一、アレイ、フェーズド、スイッチド、ビームフォーミング、ビームステアリング、これらのうちの組み合わせ、及び／又は任意の他のアンテナ構成である一又は複数のアンテナを含んでもよい。

プロセッサ５１０は、バス５０５を介して、例えばプラズマディスプレイ、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、電界放出ディスプレイ（ＦＥＤ）、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、フレキシブルＯＬＥＤディスプレイ、フレキシブル基板ディスプレイ、プロジェクションディスプレイ、４Ｋディスプレイ、高精細ディスプレイ、Ｒｅｔｉｎａ（登録商標）ディスプレイ、インプレーンスイッチング（ＩＰＳ）ディスプレイ、又はユーザに情報を表示するための任意の他の適切なディスプレイなどのディスプレイ５２５にさらに接続される。ディスプレイ５２５は、抵抗性、容量性、表面弾性波（ＳＡＷ）容量性、赤外線、光学イメージング、分散信号技術、音響パルス認識、フラストレート全内部反射などを使用して、タッチ（触覚）ディスプレイ、３次元（３Ｄ）タッチディスプレイ、マルチ入力タッチディスプレイ、マルチタッチディスプレイなどとして構成されてもよい。任意の適切な表示デバイス及び触覚Ｉ／Ｏが、本発明の範囲から逸脱することなく、使用されてもよい。

キーボード５３０と、例えばコンピュータマウス、タッチパッドなどのようなカーソル制御デバイス５３５とが、さらにバス５０５に接続されて、ユーザがコンピューティングシステム５００とインタフェースをとることを可能にする。しかし、特定の実施形態において、物理的なキーボード及びマウスが存在しなくてもよく、ユーザは、ディスプレイ５２５及び／又はタッチパッド（図示略）を介してのみデバイスと対話してもよい。入力デバイスの任意の種類及び組み合わせが、設計上の選択事項として使用されてもよい。特定の実施形態において、物理的な入力デバイス及び／又はディスプレイが存在しない。例えば、ユーザは、コンピューティングシステム５００と通信する別のコンピューティングシステムを介してリモートでコンピューティングシステム５００と対話してもよく、或いは、コンピューティングシステム５００は自律的に動作してもよい。

メモリ５１５は、プロセッサ５１０によって実行されると機能を提供するソフトウェアモジュールを記憶する。該モジュールは、コンピューティングシステム５００用のオペレーティングシステム５４０を含む。モジュールは、本明細書に記載されているプロセス又はその派生のプロセスの全て又は一部を実行するように構成されるビデオ処理モジュール５４５をさらに含む。コンピューティングシステム５００は、追加の機能を含む一又は複数の追加の機能モジュール５５０を含んでもよい。

当業者は、「システム」が、本発明の範囲から逸脱することなく、サーバ、組込みコンピューティングシステム、パーソナルコンピュータ、コンソール、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、タブレットコンピューティングデバイス、量子コンピューティングシステム、任意の他の適切なコンピューティングデバイス、又はデバイスの組み合わせとして具現化され得ることを理解するであろう。上記の機能を「システム」によって実行されるものとして示すことは、決して本発明の範囲を限定することを意図するものではなく、本発明の多くの実施形態の一例を示すことを意図する。実際、本明細書において開示される方法、システム、及び装置は、クラウドコンピューティングシステムを含むコンピューティング技術と整合するローカライズされ分散された形式で実装されてもよい。

本明細書に記載されているシステム機能の一部は、実装の独立性をより強調するため、モジュールとして示されていることに留意されたい。例えば、モジュールは、カスタムの超大規模集積（ＶＬＳＩ）回路又はゲートアレイを含むハードウェア回路、ロジックチップ、トランジスタ、又は他のディスクリートコンポーネントなどの既製の半導体として実装されてもよい。モジュールは、例えばフィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイス、グラフィックスプロセッシングユニットなどのプログラマブルハードウェアデバイスに実装されてもよい。

モジュールは、様々な種類のプロセッサによる実行のため、ソフトウェアで少なくとも部分的に実装されてもよい。例えば、実行可能コードの識別されたユニットは、例えばオブジェクト、手順、又は機能として構成され得るコンピュータ命令の一又は複数の物理ブロック又は論理ブロックを含んでもよい。これにも関わらず、識別されたモジュールの実行可能ファイルは物理的に一緒に配置される必要はないが、論理的に結合されるとモジュールを含んでモジュールの上記目的を達成するような様々な場所に記憶された異種の命令を含んでもよい。さらに、モジュールは、本発明の範囲から逸脱することなく、コンピュータ読み取り可能な媒体に記憶されてもよく、コンピュータ読み取り可能な媒体は、例えば、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープ、及び／又はデータを記憶するために使用される他のそのような非一時的なコンピュータ読み取り可能な媒体であってもよい。

実際、実行可能コードのモジュールは、単一の命令であっても多数の命令であってもよく、異なるプログラム間で複数の異なるコードセグメントにわたり、複数のメモリデバイスにわたって分散されてもよい。同様に、動作データが、識別されて、本明細書においてモジュール内に示されてもよく、任意の適切な形式で具体化され、任意の適切な種類のデータ構造内で構成されてもよい。動作データは、単一のデータセットとしてまとめられてもよく、或いは、異なるストレージデバイスを含む異なる場所に分散されてもよく、少なくとも部分的に、単にシステム又はネットワーク上の電子信号として存在してもよい。

図６は、本発明の一実施形態による、タイプされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するための一般的なプロセス６００を示すアーキテクチャ図である。キーボード記録６１０とスクリーンビデオ記録６２０はそれぞれ、押されたキーとグラフィック変更が発生した画面上の位置とを判断するために実行される。幾つかの実施形態において、テキストのペーストが監視されてもよい。例えば、図１３Ａ及び図１３Ｂを参照されたい。キーボード記録６１０は、オペレーティングシステムからのキー押下イベントを監視することによって実行されてもよい。例えば、Ｗｉｎｄｏｗｓ（登録商標）では、これは、ｕｓｅｒ３２．ｄｌｌメソッド「ＳｅｔＷｉｎｄｏｗｓＨｏｏｋＥｘ」を介して低レベルのキーボードフック（ＷＨ＿ＫＥＹＢＯＡＲＤ＿ＬＬ＝１３）を登録することによって予め定義された低レベルのフックデリゲートであってもよい。しかし、本発明の範囲から逸脱することなく、任意のプログラミング言語及び任意のオペレーティングシステム（例えば、モバイル、ＰＣ、Ｍａｃなど）のキー押下情報を提供する任意のキー押下イベント又は機能が使用されてもよい。幾つかの実施形態において、キー押下は、ハードウェアを介して検出されてもよい。例えば、ユニバーサルシリアルバス（ＵＳＢ）デバイスが、コンピューティングシステムと外部キーボードの間に配置されてもよい。追加的又は代替的に、特定の実施形態において、ビデオキャプチャ及び処理がハードウェアを介して実行されてもよい。そのような実施形態において、第１のデバイスがビデオをキャプチャしてもよく、第２のデバイスがキー押下をキャプチャしてもよく、第３のデバイス（例えば、コンピューティングシステムなど）がビデオ及びキー押下を処理してもよい。

キー押下イベントは、どの文字が押されたキーに関連付けられているかに関する情報（例えば、文字「ａ」、数字「２」、「％」記号など）、キー押下イベントが発生した時などを含んでもよい。キーの文字のキュー（例えば、先入れ先出し（ＦＩＦＯ）キューなど）が、キーが押された時と対応する文字が画面に表示される時との間の遅延を考慮して、時間窓（例えば、５００ミリ秒（ｍｓ）、１秒など）の間格納されてもよい。時間窓は通常、ユーザがキーを押す時とキーが画面に表示される時の間の通常の時間遅延よりも長い（例えば、５０ミリ秒の文字表示遅延と５００ミリ秒のバッファウィンドウなど）。

キューは、画面に一度に表示される複数の文字をキャプチャする目的にも役立つ。例えば、ユーザが「ａｂｃ」を素早く連続して（例えば、１５ミリ秒以内に）押しても、１秒あたり２５フレームのみキャプチャされる場合（即ち、４０ミリ秒毎に１フレーム）、次のスクリーンショットで、テキスト「ａｂｃ」が一度に表示されてもよい。キューに「ａ」、「ｂ」、「ｃ」を含めることにより、テキスト認識がこれらの文字及び／又はシーケンスを検出したときに、アルゴリズムがこれらの文字及び／又はそれらのシーケンスをそれぞれ検索してもよい。例えば、幾つかの実施形態において、ユーザによるタイプ「ａｂｃ」、「ａｂ」が次のフレームに現れる場合、キー押下キュー内の順序は、画面上に表示されるものと同じであると想定してもよい。

スクリーンビデオ記録６２０は、本発明の範囲から逸脱することなく、任意の適切なハードウェア、ソフトウェア、又はそれらの任意の組み合わせによって実行されてもよい。例えば、ビデオ記録は、外部ビデオカメラ、内部グラフィックカード、（接続されたコンピューティングシステムを介して又は介さずに）ディスプレイからのビデオストリームを監視するリモートコンピューティングシステムなどによって実行されてもよい。記録されたスクリーンショットは、ピクセルが完全であるか否かに関係なく、任意の所望の形式（ＪＰＥＧ、ＢＭＰ、ＰＮＧなど）で任意の場所に記憶されてもよい。

一実装において、スクリーンショットは、Ｆｏｒｍａｔ１６ｂｐｐＲｇｂ５５５形式の１６ビット色深度でＢｉｔｍａｐＤａｔａとして記憶される。スクリーンショットを非可逆形式に圧縮することにより、一又は複数のピクセルを変更すると、（例えば、ＪＰＥＧ形式などにおける）圧縮アーティファクトの存在により、一部の形式で画像全体に伝播されるカラーマップが変更されたり、色深度に影響したり、全体の詳細が減少／シフトしたり、画像のピクセルに影響したりするため、精度が低下する場合がある。これに対応するために、許容範囲（トレランス）が使用されてもよい。スクリーンビデオ記録６２０は、特定のフレームレートでフレームを生成し、フレームレートは、コンピューティングシステムの現在の処理負荷に応じて変えてもよい（例えば、毎秒３０フレームなど）。

次に、６３０で、現在のスクリーンショットフレームと直前のフレームを互いに比較してそれらの間の差異を判断し、その中の文字を判断する。しかし、特定の実施形態において、精度をさらに高めるために、複数のフレームが使用されてもよい。例えば、文字がタイプされる時と文字が画面に表示される時の間に様々な非同期がある場合（例えば、３０ミリ秒から、４２ミリ秒まで、２４ミリ秒まで変化するなど）、複数のフレームを使用すると、タイプされたテキストの識別に役立つ場合がある。これにより、１文字又は数文字よりもむしろ単語全体を含む可能性のある、より広い抽出領域にＯＣＲを適用可能であってもよい。一部のＯＣＲエンジンは、文字よりも単語を認識するように調整されている。ＯＣＲの結果に自動修正を適用することにより、個々の文字にのみＯＣＲを適用するときに発生する可能性のある不正確さが排除されてもよい。例えば、自動修正アルゴリズムが、ＯＣＲされた単語「ｓｌｐｃｋ」がキーボードキューで発見される「ｓｌａｃｋ」であるべきと判断してもよい。

次に、視覚的な変更の位置が分離され、変更が発生した位置に対してアルゴリズムが実行されて文字を認識してもよい。このアルゴリズムは、ＯＣＲ、特定のフォントの文字のブール配列マップに対するピクセル領域の比較などを使用してもよい。幾つかの実施形態において、文字認識は、発生した変更が分離され分析された比較的小さな領域に対してのみ実行され、残りの領域は破棄される。これは、画面全体（例えば、３８４０×２１６０ピクセルの解像度など）に対してＯＣＲを実行すると、文字が表示される速度にコンピューティングシステムが遅れずについていくには計算コストが高過ぎる可能性があるコンピューティングシステムで、アルゴリズムをリアルタイムで実行できるようにするのに役立つ。しかし、十分な処理能力を有するコンピューティングシステムの場合、最初に変更が発生しなかった領域を解析せずに、画面全体を分析してもよい。

上記のとおり、特定の実施形態において、ビデオフレーム比較計算は、ピクセル完全よりはむしろ、許容範囲を使用する。色の強度、明るさ、及び／又は他の要因が、それらが特定の許容範囲内にある場合、同じとみなされてもよい。例えば、ピクセルは、それらの値の一又は複数の変更が特定の数、特定のパーセンテージなどに満たない場合、ピクセルは同じとみなされてもよい。赤、緑、青、及び明るさの変更が５未満、１％以上などは、同じとみなされてもよい。特定の実施形態において、これらの変数の一又は複数が、異なる許容範囲を有してもよい。例えば、真のピクセルの変更を示すために、明るさの変更を色の変更よりも大きくしたり小さくしたりする必要があってもよい。ファジー画像マッチングが、類似点／相違点を識別するために特定の実施形態で実行されてもよい。

幾つかの実施形態において、ファジー画像マッチングは、明るさ、画像テンプレート、エッジ比較、二値化、ダウンスケール及びビット削減、膨張を考慮して、カーネルブラー、それらの組み合わせなどを適用して、適合をより正確に識別する。ＲＧＢ値に許容範囲を適用するピクセル間ＲＧＢマッチングが使用されて、完全に同じではない近い値が適合として識別されてもよい。ビット深度及び／又はカラースケールが低減されてもよく、ピクセル間のＲＧＢ又はグレースケールマッチングが適用されてもよい。画像からエッジが検出されて比較されてもよい。二値化は画像に適用されてもよく（例えば、二値閾値、大津閾値、適応閾値など）、ピクセル間のマッチングが二値画像に適用されてもよい。画像のスケールが縮小され、ピクセル間のマッチングが実行されてもよい。画像の膨張が実行され、次に、ピクセル間のマッチングが適用されてもよい。キーポイントが画像から抽出されて（例えば、最大安定極値領域（ＭＳＥＲ）記述子など）、抽出されたキーポイントが、特徴マッチャー（例えば、ブルートフォースマッチング、ｋ最近傍（ｋＮＮ）マッチングなど）を使用して比較されてもよい。

許容範囲ベースの計算が有益である可能性がある様々な理由がある。例えば、フレームがキャプチャされた後に画像が圧縮される場合、非可逆圧縮はピクセル値に影響を与える可能性があるため、許容範囲を計算に含める必要がある。また、元のビジュアルソースが、非可逆圧縮を使用してキャプチャする前に圧縮される場合がある（例えば、仮想コンピューティングシステムがエミュレータを介して起動され、エミュレータが仮想コンピュータの画面コンテンツを圧縮する場合）。これは、画像がリモートマシン（例えば、サーバなど）からローカルコンピューティングシステムにブロードキャストされるために発生する場合がある。

６３０で、変更が発生した画面領域の文字が識別されると、文字は、キー押下イベントに対応する格納された文字のキューと比較される。適合が発見された場合、６４０で、適合位置の画面座標が抽出される。しかし、場合によっては、文字認識アルゴリズムが、画面上の文字を実際の文字のように認識できないことがある。例えば、ＯＣＲアルゴリズムは、画面上の文字「Ｏ」を数字「０」として認識する場合がある。その場合、幾つかの実施形態において、アルゴリズムは、画面上のキャレットの位置を追跡する。これは、画像検出（例えば、ＣＶなど）などを使用して、様々なキャレットの形状の画像パターンを画面と比較することで判断されてもよい。幾つかの実施形態において、アルゴリズムは、キャレットが点滅する場合、キャレットの点滅を考慮してもよい。

特定の実施形態において、ファジーマッチングを使用して、ＯＣＲの結果をキュー内の文字と比較してもよい。ファジーマッチングロジックは、文字「Ｏ」が数字「０」に類似して見えることを認識して、これらの文字を適合として識別してもよい。キューに他の類似する文字がない場合は、適合が確証されてもよい。

特定の実施形態において、キャレット追跡が実行されてもよい。画像の変更された領域の分析が、キャレットに対応する可能性のある候補のリストを作成するために、実行されてもよい（例えば、候補は、細い縦線又は同様のものとして表示される）。確認（バリデーション）が、候補が時間をかけて点滅していることを識別するために実行されてもよく、その後、真のキャレットが識別されてもよい。テキスト入力が可能なグラフィック要素（例えば、テキストボックス、ワードプロセッサ文書、テキストフィールドなど）内にキャレットが表示されることを検証するために、さらなる確認が実行されてもよい。

画面の他の位置で変更が発生しなかった場合、又は、他の変更が欠落しているもの以外のキュー内の文字と適合する場合、アルゴリズムは、これが唯一の未識別の変更であるため、欠落している文字である可能性があると推測する。次に、アルゴリズムは、認識された文字「Ｏ」が実際には文字キュー内の識別されていない「０」であると推測し、６４０で、適合位置の画面座標を抽出してもよい。これにより、アルゴリズムの精度が向上する可能性がある。

幾つかの実施形態において、文字又は文字シーケンスが画面上で発見されて一意に識別された場合、文字はキューから削除されてもよく、所定の時間が経過した後（例えば、５００ミリ秒、１秒など）、所定のサイズ（例えば、２０文字など）のキューに基づいてキューの最後で文字を取り出してもよい。時間窓外にある文字を削除するために、キューは、タイプされた文字及びタイムスタンプを有する変数を格納してもよい。アルゴリズムは、（「先入れ」の終わりから始まる可能性がある）キュー内のキー押下変数のタイムスタンプを現在の時刻と定期的に比較してもよい。時間窓より古いキューでキー押下変数が発見された場合、その変数は削除されてもよい。特定の実施形態において、時間窓内にあるキー押下変数が発見されると、キュー内の全ての他の変数が時間窓内にあると想定されてもよく、その反復のために処理が停止されてもよい。

６４０で、最近タイプされた文字を含む画面領域の座標が抽出された後、６５０で、座標が実行中のアプリケーションと比較され、抽出された座標が該当する要素に基づいて、アクティブ要素が判断される。その後、６６０で、アクティブ要素は、個々のユーザアクティビティを再構築するために使用されてもよく、ユーザが実行しているプロセス（例えば、プロセス抽出、プロセス発見など）を学習してもよい。これは、ユーザがコンピューティングシステムと対話しているときにリアルタイムで実行されてもよく、或いは、後で実行されてもよい（例えば、ビデオ及びキーストロークが、後でサーバによって分析されてもよい）。幾つかのリアルタイムの実施形態において、フレーム間差分が即座に計算されてもよく、そのため、ビデオデータは記録、記憶されなくてもよい。

幾つかの実施形態において、ビデオ記録、キーボード入力記録、及び／又はそれらの処理は、ＲＰＡロボットによって実行される。特定の実施形態において、レコーダアプリケーションが、スクリーンショット又はビデオ及び一連のキー押下としてユーザアクティビティを記録し、後の処理のためにこれを記憶する、或いは、リアルタイム又はほぼリアルタイムの処理のためにこの情報をコンピューティングシステム又は別のコンピューティングシステムで実行されている別のアプリケーションに渡す。ＣＶは、ビデオ及びキー押下の処理の直後に適用されて、或いは、後で適用されて、境界矩形を含む認識されたグラフィック要素のセットを提供してもよい。次に、グラフィカル要素である境界矩形とキャレット／テキストの座標との間に交差が発見された場合、その特定の要素が現在アクティブである、又は「フォーカス」されている。

場合によっては、あるフレームから次のフレームへの画面の変更が大きいことがある。例えば、ユーザがウィンドウを閉じると、画面の大部分が変わる場合がある。したがって、幾つかの実施形態において、変更閾値が決定され適用されて、時間隣接するスクリーンショットをとにかく比較するか否かを判断する（例えば、画面の２％を超える変更、５％、１０％、３０％、５０％、７０％を超える、など）。このような閾値に達する又は超えると、２つの時間隣接するフレーム間の差分が閾値を下回るまで、フレーム比較プロセスがスキップされてもよい。

図７は、本発明の一実施形態による、タイプされたテキストの検出及びキャレット追跡を実行するためのプロセス７００を示すアーキテクチャ図である。スクリーンビデオ記録７１０は、ビデオフレームＮ（７１２）、Ｎ－１（７１４）、Ｎ－２（７１６）、Ｎ－３（７１８）を生成するために実行される。ビデオフレームは、画面全体、実行中のアプリケーションに関連付けられるウィンドウなどであってもよい。特定の実施形態において、複数の実行中のウィンドウアプリケーションのフレームセットが記憶されて比較されてもよく、或いは、これらのフレームがスクリーンショットから取得されてもよい。キーボードフック７２０はまた、キー押下に関連付けられる文字７３２を含む時間ウィンドウキーボード文字キュー７３０を生成するために実行される。幾つかの実施形態において、文字は、それに関連付けられるキー押下が所定の期間を超えると、文字キューから削除される。特定の実施形態において、文字は、一意である場合、画面上で発見された後、キューから削除される。しかし、一意でない場合（例えば、ユーザが「ａａａａａ」を連続してすばやく押す）、「ａ」の最も古いインスタンスがキューから削除されてもよい。

コアロジック７４０は、現在のフレーム及び直前のフレーム（この場合、フレーム７１２、７１４）、並びにキーボード文字キューを受け取る。コアロジック７４０は、図６に関して上述の様々なロジックを実行してもよい。例えば、コアロジック７４０は、フレーム７１２、７１４を互いに比較し、視覚的な変更が発生したフレーム内の領域を判断してもよい。これは、例えば、それぞれのピクセルの赤／緑／青（ＲＧＢ）値が相互に対して閾値を超えているか否かを比較することで判断されてもよい。

コアロジック７４０は、視覚的な変更の位置を分離し、その位置における文字を認識するために文字認識を実行してもよい。コアロジック７４０はまた、認識された文字をキーボード文字キュー７３０内の文字７３２に適合させてもよい。適合が発見された場合、適合位置の画面座標が抽出され、文字タイプ領域７５０として提供されてもよい。

文字認識を使用することに加えて又はその代わりに、幾つかの実施形態において、画像認識（例えば、ＣＶなど）を使用して、新たに表示される又は非表示にする画像又はアイコンを検出してもよい。このプロセスは、領域差分分析段階でこの置換又は補足のロジックを伴うことを除いて、上記のプロセスと同じであってもよい。これは、例えば、ユーザが画像又はテキストをドキュメント又はフィールドにカットアンドペーストしている位置を判断するのに役立つ。

テキストのカットアンドペーストの場合、クリップボードからテキストがフラッシュされると、個々の文字はキー押下イベントとしてキャプチャされない。このような場合、クリップボードの内容とユーザがＣＴＲＬ＋Ｖを押している時がキャプチャされてもよい。その後、クリップボードの内容は、個々の文字及び文字シーケンスが識別される方法と同様に、ＯＣＲの結果と比較されてもよい。しかし、アルゴリズムは、タイプされた文字キューをレビューするよりはむしろ、ＣＴＲＬ＋Ｖが発生する前にクリップボードに記憶されていた文字列を処理するであろう。

図８Ａは、本発明の一実施形態による、それぞれフレームＮ－１及びフレームＮの同窓生寄付ウィンドウを含むスクリーンショット８００、８１０の一部８０２、８１２を示す。図８Ａに示すように、フレームＮ－１の全てのフィールドは空であるが、フレームＮでは、ユーザが名（ｆｉｒｓｔｎａｍｅ）フィールドに文字「Ｅ」をタイプしている。変更が発生したか否かを判断するために、幾つかの実施形態のアルゴリズムは、スクリーンショットをスケーリングし、それらを四角形に正規化する。この場合、スクリーンショット８００（図８Ｂを参照）及びスクリーンショット８１０（図８Ｃを参照）は、６４個の四角形×４８個の四角形のグリッドに正規化され、そのうち２７×２４の部分が図８Ｂ～図８Ｆに示されている。これらの四角形又は領域は、６４×４８のバイナリ行列として表されてもよい。

次に、各スクリーンショットの行を相互に比較して、そこに含まれるピクセルが変更されているか否かを確認し、変更を伴う各行について行列の値が「１」に設定されてもよい。これは、各行にゼロ以外の要素が存在するか否かを確認することで行われてもよい。図８Ｄに示すように、アルゴリズムが、ここで８１４で示す行列の行４を確認すると、そこに変更が検出される。次に、図８Ｅに示すように、アルゴリズムは、行４にステップインし、列７で８１６で示す四角形が、新たに入力された文字「Ｅ」の一部を含む。アルゴリズムは、変更を含む四角形を識別し続け、隣接する四角形８１８を、この部分でＯＣＲを実行するために提出される領域としてつなぎ合わせる。図８Ｆを参照されたい。これを、ここで「領域」という。幾つかの実施形態において、領域を構成する一又は複数の四角形に変更がない場合、これらの四角形は、例えば、ＯＣＲ処理をより速く実行するために、完全に１つの色に設定されてもよい。特定の実施形態において、十分な処理リソースが利用可能である場合、テキストを認識するためにスクリーンショットのペア全体に対してＯＣＲが実行されてもよい。スクリーンショット間でテキストと位置が同じ又は類似である境界ボックスが削除されて、新たに表示されるＯＣＲ領域が識別されてもよい。この識別されたテキストがキーボード文字キューと比較されて、適合するものが検索されてもよい。

時には、ユーザが、ディスプレイ解像度を変更したり、追加のモニタを接続したりすることがある。幾つかの実施形態では、このような変更を検出して対応し、タイプされた文字の追跡、キャレット追跡、及び／又はアクティブ要素の検出を依然として正確なままにする。図９は、本発明の一実施形態による、変更に対応するために、解像度の変更を確認し、接続されているディスプレイの範囲の変更を確認し、キャレット追跡ビデオロジックを設定するプロセス９００を示すフローチャートである。該プロセスは、９１０で、コンピューティングシステムのための一又は複数の接続されたディスプレイを確認し、９２０で、接続されているディスプレイを以前に接続されていたディスプレイと比較することから始まる。これは、別の表示デバイスが存在するか否かの確認、表示デバイスの解像度が変更されたか否かの確認などを含んでもよい。幾つかの実施形態において、「接続されている」ディスプレイは、コンピューティングシステムと統合されているディスプレイであってもよい（例えば、スマートフォン、ラップトップコンピュータなどを用いる通常の場合のように）。

９３０で、接続されている表示デバイス及び／又は解像度が変更されている場合、９４０で、解像度及びスケール（縮尺）が、接続された各ディスプレイについて取得される。９５０で、キャプチャされるスクリーンショットのスクリーンショット領域は、全画面表示寸法にスケールを掛けて所望の大きさ（例えば、８、１６など）の倍数に調整された値に設定される。この倍数により、本明細書において後でさらに詳細に説明するように、スクリーンショットを四角形に分割することを容易にしてもよい。次に、９６０で、タイプされた文字の追跡、キャレット追跡、及び／又はアクティブ要素の検出のためのビデオロジックが、設定される（例えば、再起動、再初期化、新しい表示設定の提供など）。

図１０は、本発明の一実施形態による、ビデオレコーダのプロセス１０００を示すフローチャートである。該プロセスは、１０１０で、スクリーンショットを撮ることから始まる。幾つかの実施形態において、これは、Ｗｉｎｄｏｗｓ（登録商標）のＧｒａｐｈｉｃｓＤｅｖｉｃｅＩｎｔｅｒｆａｃｅ（ＧＤＩ）ＣｏｐｙＦｒｏｍＳｃｒｅｅｎ（）命令を使用して、Ｃ＃で実行されてもよい。次に、１０２０で、スクリーンショットがフレームとしてバッファに追加される。これは、例えば、Ｃ＃でビットマップオブジェクトとしてスクリーンショットをバッファに追加することで、実現されてもよい。１０３０で、該プロセスが依然として実行されている場合（例えば、アプリケーション、画面解像度の変更などを閉じてもプロセスが停止されていない、など）、次のスクリーンショットについてスクリーンショットのキャプチャが繰り返されてもよい。Ｃ＃の例が提供されているが、プロセス１０００及び本明細書に開示されている他のプロセスについては、本発明の範囲から逸脱することなく、任意の適切なプログラミング言語、オペレーティングシステム、ＡＰＩ、及び関数が使用されてもよいことに留意されたい。

幾つかの実施形態では、キャレット追跡を実行して、ユーザが画面のどの要素にフォーカスしているかをより正確に識別する。例えば、テキストが表示されているグラフィック要素にキャレットが表示されている場合、キーボードキューに新たに追加されたテキストが、このグラフィック要素に表示されているものである可能性がある。図１１は、本発明の一実施形態による、キャレット追跡を実行するプロセス１１００を示すフローチャートである。通常、キャレットは、表示され、ユーザが直近にクリックした位置で又はその近くで点滅を開始する。したがって、幾つかの実施形態では、直近のマウスクリックの座標を記憶し、この位置に近接するキャレットを検索する。これにより、キャレットを見つけるために処理されるスクリーンショットの量が減り、精度がさらに向上する可能性がある。幾つかの実施形態において、マウスクリックの履歴バッファ又は単一の直近のクリック位置が使用される。特定の実施形態において、例えば、ユーザがタブキーを押すと、システムは、キャレットが画面上の次のグラフィック要素に移動した可能性があると想定し、既知の場合はその位置に検索を再フォーカスし、又は、スクリーンショット全体を検索してもよい。

１１０５で、ピクセルの変更が、変更が発生したスクリーンショットの各領域について計算され、この領域がバイナリ行列に投影される。バイナリ行列は、領域のピクセルが変更されたか否かの表現であり、スクリーンショット間で変更がないピクセルについての「０」と、変更されたピクセルについての「１」とを含んでもよい。幾つかの実施形態において、「領域」は、スクリーンショットからの複数の四角形を含み得る、変更が発生した四角形である。しかし、本発明の範囲から逸脱することなく、任意の他の適切な形状（例えば、長方形、六角形など）が使用されてもよい。幾つかの実施形態において、コンピューティングシステムの処理能力に応じて、固定数の領域が分析のためにサポートされる。例えば、幾つかの実施形態では、２つの領域、３つの領域、１０の領域などの抽出及びＯＣＲをサポートする。幾つかの実施形態では、キャレットとタイプ又はペーストされたテキストとの両方を探索してもよい。現在のスクリーンショットと以前のスクリーンショットの間にＬ個を超える変更領域が発見された場合、最初に発見されたＬ個の領域が処理されてもよいし、又は、スクリーンショットが完全に無視されてもよい。これは、ユーザが別のウィンドウを起動したり画面の十分な部分が変更されたりして、次のスクリーンショットがキャプチャされる前にＯＣＲが時間内に完了しない可能性がある画面を無視するのに役立つ。

各バイナリ行列について、１１１０で、点滅するキャレット領域の候補が抽出され、１１１５で、バイナリ行列のメンバが結合される。「メンバ」は、本明細書で使用される場合、例えば文字、カーソルなどを表す形状など、バイナリ行列に存在する接続された形状である。行列のメンバの結合は、例えば、成分が８連結される連結成分（ＣｏｎｎｅｃｔｅｄＣｏｍｐｏｎｅｎｔｓ）アルゴリズムを使用して実行されてもよい。連結成分は、各ピクセルが全ての他のピクセルに連結されるピクセルのセットである。

１１２０で、形状が、行列のメンバの連結結果から抽出され、１１２５で、その形状が確認される。形状は、通常、例えば線を含み得る完全な矩形である必要がある。１１３０で、確認された形状の候補が記憶され、確認キューと比較される。キャレットの候補の位置、サイズ、及び形状が、タイムスタンプとともに記憶されてもよい。キャレットが点滅する頻度は、許容範囲内で一貫している必要がある（例えば、５％など）。キャレットが点滅するため、候補は分析のために記憶されて、キャレットの期待されるプロパティ（即ち、位置、サイズ、頻度）と適合するか否かを確認する必要がある。これは、複数のスクリーンショット（例えば、２０など）で比較したときに、キャレットの候補が特定の頻度で点滅しているか否かを判断するのに役立ってもよい。この情報は、ユーザが新しいフィールドをマウスでクリックしたり、タブキーを押したりした後キャレットが他の位置に再び表示される場合に、キャレットを識別するのにも役立つ。当然、プロセスの開始時に、確認キューは空である。

１１３５で、所与のキャレットの候補が、キャレットの候補の出現／消失、サイズ、及び位置に基づいて点滅していることが確認された場合、１１４０で、点滅しているキャレットについて、キャレット追跡データが生成される。これは、画面上のキャレットが存在するグラフィカル要素（即ち、アクティブ要素）などの位置を含んでもよい。１１４５で、確認された候補の領域と対応するメンバのバイナリ行列のデータとが、例えば、後で確認するために、確認キューに保存される。幾つかの実施形態において、図１１のプロセスは、新しいスクリーンショット毎に繰り返されてもよい。

図１２Ａ～図１２Ｄは、本発明の一実施形態による、タイプされた文字の追跡、キャレット追跡、及びアクティブ要素の検出のためのビデオ処理を実行するプロセス１２００を示すフローチャートである。プロセス１２００の前に、解像度の変更について確認が行われて、変更に対応するようにキャレット追跡ビデオロジックが設定されてもよい。例えば、図９を参照されたい。特定の実施形態において、プロセス１２００は、ビデオレコーダと並行して実行されてもよい。例えば、図１０を参照されたい。プロセス１２００は、Ｃ＃及びＷｉｎｄｏｗｓ（登録商標）オペレーティングシステムを使用した例である。しかし、本発明の範囲から逸脱することなく、任意の適切なプログラミング言語、オペレーティングシステム、関連するＡＰＩ、フォーマット、及び関数が使用されてもよい。

このプロセスは、１２０２で、フォーマットＦｏｒｍａｔ１６ｂｐｐＲｇｂ５５５を使用してビデオアイテムＮ（例えば、スクリーンショット、画面の一部、アプリケーションウィンドウなど）に対してＬｏｃｋＢｉｔｓを実行してＮについてのＢｉｔｍａｐＤａｔａオブジェクトを作成することから始まる。ＬｏｃｋＢｉｔｓは、ビットマップの矩形部分をロックし、指定された形式でピクセルデータを読み書きするために使用できる一時バッファを提供する。ＢｉｔｍａｐＤａｔａは、ビットマップの属性を記憶する。

次に、１２０４で、ＢｉｔｍａｐＤａｔａＮ及びＢｉｔｍａｐＤａｔａＮ－１（即ち、以前のアイテムのＢｉｔｍａｐＤａｔａオブジェクト）が、１６ピクセルの高さを有する横の行に分割される。しかし、本発明の範囲から逸脱することなく、プロセス１２００のこのステップ及び他のステップについて、任意の高さ（例えば、８ピクセル、３２ピクセルなど）が使用されてもよい。１２０６で、同じ縦位置（即ち、同じ「行」内。図８Ａ～図８Ｆを参照）のＢｉｔｍａｐＤａｔａＮ及びＢｉｔｍａｐＤａｔａＮ－１の各横の行について、ＭＰＣＭＰ命令が実行され、バイト配列の高速比較が実行される。ＭＥＭＣＭＰは、行が同じであるか否かを示すものを提供する。

次に、１２０８で、ＭＥＭＣＭＰの結果が０に等しくない同じ行内のＢｉｔｍａｐＤａｔａＮ及びＢｉｔｍａｐＤａｔａＮ－１についての横の行が抽出され、１２１０で、抽出された横の行が、１６×１６ピクセルのサイズに分割される。例えば、図８Ｃを参照されたい。１２１２で、ＢｉｔｍａｐＤａｔａＮ及びＢｉｔｍａｐＤａｔａＮ－１の１６×１６ピクセルのブロック毎に、それらの間に差異があるブロックが抽出される。例えば、図８Ｆを参照されたい。これは、ＩｎｔｅｌＩｎｔｒｉｎｓｉｃｓ（登録商標）命令をループするｌｏｎｇＸＯＲ関数の組み合わせ又は他の適切な機能を使用して実行されてもよい。

上記のとおり、幾つかの実施形態において、処理できる領域の数は、所定の数Ｌに制限される。特定の実施形態において、各領域に含めることができるブロックの数を制限してもよい。例えば、次のスクリーンショットが取得される前に各領域でＯＣＲを実行できることを確実にするために、４個の四角形、９個の四角形、１６個の四角形などの制限が課されてもよい。これは「最適化閾値」であってもよく、最適化閾値は、変更された領域の数の制限、所与の変更された領域に含まれる四角形の数の制限、又はその両方を含んでもよい。

１２１４で、各領域における抽出された１６×１６ピクセルのブロックの総数、領域の数、又はその両方が、最適化閾値と比較される。１２１４で最適化閾値が満たされると、プロセスはステップ１２４６、次の画面のキャプチャに進む。ステップ１２１４で、最適化閾値を超えない場合、１２１６で、近接する１６×１６ピクセルのブロックが、連結成分アルゴリズムを使用して結合される。連結成分アルゴリズムは、幾つかの実施形態において、８連結の連結成分アルゴリズムであってもよい。これにより、どのブロックが隣接するブロックであるかが判断される。

接続された隣接するブロックが判断されると、１２１８で、近接するブロックの各セットの境界矩形が判断され、領域が形成される。これは、極値アルゴリズムによって判断されてもよく、この場合、最高のｘ値と最低のｘ値を有するブロック（即ち、左端と右端のブロック）と最高のｙ値と最低のｙ値を有するブロック（即ち、上端と下端のブロック）が含まれる。そのような例が、図８Ｆに示される。

１２２０で、領域の境界矩形毎に、ピクセルの変更が計算されて、バイナリ行列に投影される。３２×３２の領域に結合された４つの１６×１６のブロックに含まれる文字「Ｅ」のバイナリ行列１４００の例を図１４Ａに示す。

殆どの場合、領域はそこに含まれるメンバ（例えば、文字、キャレット、ピクセルが変更された他の形状など）よりも大きくなる。ＯＣＲアルゴリズムの速度を上げるために、１２２２で、各バイナリ行列について、各領域に含まれるメンバが（例えば、連結成分アルゴリズムを使用して）判断され、バイナリ行列が各メンバについてトリミングされる。これにより、各領域における各メンバのトリミングされた行列が生成される。バイナリ行列１４００から生成された文字「Ｅ」の例示的なトリミングされたメンバの行列１４１０を図１４Ｂに示す。幾つかの実施形態において、トリミングは、極値アルゴリズムを使用して実行されてもよい。

次に、１２２４で、点滅するキャレット領域の候補が、メンバの行列から抽出される。例えば、候補は矩形形状であってもよく、矩形形状は、幾つかの実施形態において、単一ピクセルの幅を有する縦線を含む可能性がある。次に、１２２６で、抽出された点滅するキャレット領域の候補及び対応するメンバの行列データが、確認キューと比較され、点滅のサイズ、位置、及び頻度が分析されてもよい。１２２８で点滅している場合、１２３０で、点滅するキャレットについてキャレット追跡データが生成される。次に、１２３２で、点滅するキャレット領域及びそれらに対応するメンバの行列データが、確認キューに保存される。幾つかの実施形態において、プロセス１２００のこの部分が、図１１のプロセス１１００と同じ又は同様であってもよい。

メンバのバイナリ行列は、所与のピクセルがスクリーンキャプチャＮ－１からスクリーンキャプチャＮに変更されたか否かのみを示す。したがって、１２３４で、変更された各ピクセルについて、ピクセルデータがＢｉｔｍａｐＤａｔａＮから取得される。次に、１２３６で、メンバの矩形が生成され、ＯＣＲのため準備される。これは、変更された各ピクセルについてのピクセルデータの取り込み、キャレットのピクセルの削除、背景の処理（例えば、変更されていないピクセルをｎｕｌｌ又は非常に縮小した値に設定するなど）などを含む。キャレットのピクセルが削除された場合は、この時点で、キャレット自体が特定の位置、形状、及びバイナリ行列のメンバのセットで検出されたと想定してもよい。この情報は、キャレット追跡の目的で記憶されてもよい。次に、１２３８で、準備されたメンバの矩形のピクセルデータについてＯＣＲが実行され、１２４０で、キーボードキューへのファジーマッチングが各ＯＣＲの結果について実行される。１２４２で、適合したＯＣＲ領域について、タイプされたテキストの追跡データが生成される。

ＯＣＲ領域に適合したキーボードキューアイテムは、見つけられると、１２４４で、キーボードキューから削除される。文字の複数のインスタンスが存在する場合、例えば、キーボードキューにおけるその文字の最も古いインスタンスが削除されてもよい。次に、１２４６で、ＵｎｌｏｃｋＢｉｔｓがＢｉｔｍａｐＤａｔａＮ－１について実行され、システムメモリからこのビットマップのロックを解除し、１２４８で、ＢｉｔｍａｐＤａｔａＮが位置Ｎ－１に移動される。プロセス１２００は、次のキャプチャされたアイテムについて開始に戻ってもよい。

図１３Ａ及び図１３Ｂは、本発明の一実施形態による、ペーストされたテキストの追跡を実行するプロセス１３００を示すフローチャートである。該プロセスは、１３０５でキーボード記録を実行し、１３１０でスクリーンビデオ記録を実行して、押されたキーとグラフィックの変更が発生した画面上の位置とをそれぞれ判断することから始まる。次に、１３１５で、ユーザジェスチャが解釈される。ユーザジェスチャには、マウスクリック、ＣＴＲＬ＋Ｖの押下、右クリックとメニューからのペーストの選択、ホームボタンのクリックとアプリケーションにおけるペーストなどが含まれるが、これらに限定されない。ユーザがある位置をクリックしてクリップボードから素早くペーストすると、キャレットが見落とされ、ユーザのアクションを別の方法で再構築する必要がある場合がある。１３２０でクリップボードからのペーストが行われていない場合、１３２５で、タイプされたテキストの検出及びキャレット追跡ロジックが実行され、幾つかの実施形態において、図１２Ａ～図１２Ｄのプロセス１２００のラインに沿って実行される可能性がある。

しかし、１３２０で、クリップボードにユーザから最近ペーストされたデータが含まれている場合（例えば、直近の５００ミリ秒、直近の１秒以内にペーストされた場合など）、１３３０で、フレームＮとフレームＮ－１の間のピクセルの差分が計算される。１３３５で、フレームＮとフレームＮ－１の間で変更が発生した、予測される同じ位置の領域が、抽出される。１３４０で、各領域について、ピクセルの変更が計算され、変更がバイナリ行列に投影される。

１３４５で、各バイナリ行列について、例えば、連結成分アルゴリズムを使用してメンバが判断され、各メンバについて、メンバの行列が判断される。１３５０で、メンバの行列において変更されたピクセル毎にピクセルデータが抽出され、メンバの矩形が生成される。１３５５で、各メンバの矩形はＯＣＲのために準備され、１３６０で、ＯＣＲは準備された各メンバの矩形について実行される。１３７０でクリップボードモニタによって提供されるクリップボードコンテンツを使用して、１３６５で、ＯＣＲの結果とクリップボードコンテンツとのファジーマッチング比較が、各ＯＣＲの結果について実行される。幾つかの実施形態において、クリップボードのテキストコンテンツは、Ｃｌｉｐｂｏａｒｄ．ＧｅｔＴｅｘｔ（）を使用してＳｙｓｔｅｍ．Ｗｉｎｄｏｗｓ．Ｆｏｒｍｓ．ｄｌｌから取得される。１３７５で、適合が発見されると、１３８０で、（例えば、矩形の形式で）ペーストされたテキストの座標が生成され、クリップボードがフラッシュされ、プロセスは、次のフレームのためにステップ１３０５及び１３１０に戻る。

幾つかの実施形態において、現在のアクティブ要素が、画面の変更を生じさせる特定のキーをユーザが押した場合のために、記憶されてもよい。例えば、ユーザがＥｎｔｅｒキーを押すと、フォームが送られてウィンドウが閉じられてもよい。別の例において、ユーザがウェブブラウザのＵＲＬ入力フィールドでＥｎｔｅｒキーを押すと、これにより、ウェブブラウザがウェブサイトへのナビゲートを開始してもよい。アルゴリズムはこれを認識し、特定の時間待機してから、このようなシナリオにおいてアクティブ要素がある位置を確認してもよい。何故なら、大幅な画面の変更が発生する可能性があるためである。画面が比較的静的になると（例えば、画面の比較的小さな部分だけがあるスクリーンショットから次のスクリーンショットに変わるなど）、タイプされたテキストの検出とキャレット追跡が再開され、新たなアクティブ要素を発見してもよい。したがって、ユーザがＥｎｔｅｒキー、Ｅｓｃａｐｅキーなどを押したりした場合に、どの要素がフォーカスされたかを知ることが役立つ場合がある。また、現在のオペレーティングシステムが、現在のフォアグラウンドウィンドウのウィンドウ境界矩形をネイティブに取得する信頼できる方法を提供している場合（例えば、Ｗｉｎｄｏｗｓ（登録商標）のｕｓｅｒ３２．ｄｌｌで利用可能な「ＧｅｔＦｏｒｅｇｒｏｕｎｄＷｉｎｄｏｗ」など）、フォアグラウンドウィンドウの境界矩形を使用して、画面キャプチャとフレーム処理に使用される領域（エリア）を制限してもよい。

幾つかの実施形態において、フォーカスされた要素又はアクティブ要素が判断された場合、テキストが表示させないキーを押すときの振る舞い（例えば、Ｅｎｔｅｒ、Ｅｓｃａｐｅ、Ｃｏｎｔｒｏｌ、Ｃｏｎｔｒｏｌ及び／又はＡｌｔと一又は複数の文字との組み合わせなど）は、アクティブ要素の性質に基づいて判断されてもよい。例えば、このような「ホットキー」（非表示のキー又はキーの組み合わせ）が押された場合、「ホットキー」がトリガしたアクションが分類されてもよい。例えば、フォーカスされた要素に「パスワード」というラベルが付され、ユーザが「Ｅｎｔｅｒ」を押した場合、「Ｅｎｔｅｒ」の押下は「ログイン」アクションを表すと推測されてもよい。これは、ユーザによる「ログイン」の実行を知ることがユーザによる「Ｅｎｔｅｒ」の押下を知ることよりもビジネスプロセスモデリングの目的でより説明的であるようなプロセス発見の目的に役立つ可能性がある。

幾つかの実施形態において、アクティブ要素をより容易に判断するために、ＣＶを使用して画面におけるグラフィック要素の種類及び位置を判断してもよい。例えば、ＣＶを使用して、所与のグラフィック要素がテキストフィールド、テキストボックスなどであるか否かを判断してもよい。画面の変更が比較的少ない量である場合、又は、変更がグラフィック要素内に留まっている場合、変更は所与のフレームに新たに表示されるテキストに対応するとみなされてもよい。

図１５は、本発明の一実施形態による、ＣＶ及びキーボードキューを使用してアクティブ要素を判断するプロセス１５００を示すフローチャートである。該プロセスは、１５１０で、フレームが所定の閾値を超えて以前のフレームから変更されたか否かを判断することから始まる。これは、フレームの特定の部分を超えて（例えば、２％を超えて）変更されたか否か、所定のピクセル数を超えて（例えば、２００を超えて）変更されたか否か、テキスト入力を許可するフレーム内のグラフィック要素の位置の外側で変更が発生しているか否かなどを含んでもよい。

１５２０で、閾値を超えた場合、画面上のグラフィック要素の少なくとも一部も変更されている可能性がある。１５３０で、ＣＶ前処理を実行して、グラフィック要素の種類及び位置を識別する。グラフィック要素の種類及び位置は、メモリに記憶されてもよい。幾つかの実施形態において、ＣＶ前処理が実行されている間、フレーム比較プロセスが一時停止されてもよい。

１５２０で閾値を超えなかった場合、又は、１５３０でＣＶ前処理が完了した後、１５４０で、以前のフレームと現在のフレームの間に追加されたキーボードキューに新たに出現した要素が判断される。キーボードキューに新たに出現した要素がある場合、これらは、画面上の適切なグラフィック要素に表示されたと考えられる。次に、１５５０で、現在のフレームで画面が変更された位置が判断され、１５６０で、グラフィック要素の位置へ変更を適合させることを試みる。変更がグラフィック要素の１つのみで発生した場合、１５７０で、適合したグラフィック要素が、アクティブ要素として設定される。しかし、複数のグラフィック要素内で変更が発生した場合、又は、グラフィック要素で変更が発見されなかった場合、１５８０で、ＯＣＲベースの処理が実行される。１５９０で、次のフレームがフェッチされ、プロセスが繰り返される。

図１６は、本発明の一実施形態による、タイプ及び／又はペーストされたテキストの検出、キャレット追跡、及びアクティブ要素の検出を実行するように構成されたシステム１６００を示すアーキテクチャ図である。システム１６００は、例えばデスクトップコンピュータ１６０２、タブレット１６０４、スマートフォン１６０６などのユーザコンピューティングシステムを備える。しかし、本発明の範囲を逸脱することなく、スマートウォッチ、ラップトップコンピュータ、モノのインターネット（ＩｏＴ）デバイス、車両コンピューティングシステムなどを含むがこれらに限定されない、任意の所望のコンピューティングシステムが使用されてもよい。

各コンピューティングシステム１６０２、１６０４、１６０６は、スクリーンショット、キーストローク、実行中のアプリケーション、アプリケーション視覚要素、視覚要素位置、アプリケーション位置、クリップボードコンテンツなどを記録する、そこで実行されるデジタルプロセス１６１０を有する。実際、本発明の範囲から逸脱することなく、画面グラフィック、ユーザ入力、表示要素などに関する任意の所望の情報が記録されてもよい。特定の実施形態において、ビデオ及びキーストロークの記録のみが最初にキャプチャされ、その後、他の情報がＣＶを使用して判断される。しかし、追加情報は、ＣＶプロセスにフォーカスして向上させるのに役立ってもよい。デジタルプロセス１６１０は、本発明の範囲から逸脱することなく、ＲＰＡデザイナアプリケーション、オペレーティングシステムの一部、パーソナルコンピュータ（ＰＣ）又はスマートフォン用のダウンロード可能なアプリケーションを介して生成されるロボットであってもよいし、或いは、任意の他のソフトウェア及び／又はハードウェアであってもよい。実際、幾つかの実施形態において、一又は複数のデジタルプロセス１６１０のロジックが、物理ハードウェアを介して部分的又は完全に実装される。

デジタルプロセス１６１０は、記録されているスクリーンショット、キーストローク、実行中のアプリケーション、アプリケーション要素及び位置などを、ネットワーク１６２０（例えば、ローカルエリアネットワーク（ＬＡＮ）、移動通信ネットワーク、衛星通信ネットワーク、インターネット、これらのうちの任意の組み合わせなど）を介してサーバ１６３０に送る。幾つかの実施形態において、サーバ１６３０はコンダクタアプリケーションを実行させてもよく、データがハートビートメッセージの一部として定期的に送られてもよい。特定の実施形態において、所定の量の再訓練データが収集されると、所定の時間が経過した後、又はその両方の場合に、要求がサーバ１６３０に送られてもよい。サーバ１６３０は、データベース１６４０にデジタルプロセス１６１０からの情報を記憶してもよい。

人間のユーザ（例えば、ＲＰＡ開発者コンピューティングシステム１６５０のデザイナアプリケーション１６５２を使用するＲＰＡエンジニアなど）によって指示されると、所定の量のデータがデータベース１６４０に収集されると、デジタルプロセス１６１０からデータが受け取られるとすぐに、といった場合に、サーバ１６３０がデータを受け取った元のコンピューティングシステムのための、検出されたタイプ及び／又はペーストされたテキスト、キャレット追跡、及びアクティブ要素の検出のプロセスのインスタンス１６３２を実行する。サーバは、インスタンス１６３２からの結果を分析し、コンピューティングシステムと対話するときにユーザが行っていることを判断してもよい。

図１７は、本発明の一実施形態による、前処理、テキスト検出、キャレット追跡、及びアクティブ要素検出を実行するプロセス１７００を示すフローチャートである。該プロセスは、１７０５で、現在のスクリーンショットフレームと以前のスクリーンショットフレーム（及び、場合によっては少なくとも１つの他の以前のスクリーンショットフレーム）の間の変更を判断することから始まる。１７１０で閾値を超えた場合（例えば、特定のピクセル数を超えて変更された、特定の領域数を超えて変更された、領域が特定の数を超えるブロックを有するなど）、画面が大幅に変更され、新たなグラフィック要素が存在する可能性がある。したがって、１７１５で、ＣＶ前処理が現在のスクリーンショットフレームに対して実行され、現在のスクリーンショットフレームにおけるグラフィック要素の種類及び位置を判断し、１７２０で、プロセスは次のフレームに進む。「現在のスクリーンショットフレーム」と「以前のスクリーンショットフレーム」は相対的なものであることに留意されたい。プロセスが次のスクリーンショットフレームに進むと、そのスクリーンショットフレームが現在のスクリーンショットフレームになり、元の現在のスクリーンショットフレームが以前のスクリーンショットフレームになる。

１７１０で閾値を超えなかった場合、１７２５で、システムは、ＯＣＲを実行せずにアクティブ要素を識別することを試みる。幾つかの実施形態において、ＯＣＲなしでアクティブ要素を識別しようとするためのＣＶ前処理及びプロセスは、図１５の全て又は一部に従って実行される。１７３０で成功した場合、１７２０で、プロセスは次のフレームに進む。そうでない場合、プロセスは、本明細書に記載の実施形態に従って、タイプされたテキストの検出、キャレット追跡、及び／又はクリップボード内容検出の実行に進む。幾つかの実施形態において、タイプされたテキストの検出、キャレット追跡、及び／又はクリップボード内容検出を実行するためのプロセスは、図６、図７、図９～図１３Ｂに関して説明されたものの全て又は一部に従ってもよい。

図６、図７、図９～図１３Ｂ、図１５、図１７で実行されるプロセスステップは、本発明の実施形態に従って、コンピュータプログラムによって実行されて、図６、図７、図９～図１３Ｂ、図１５、図１７に記載されているプロセスの少なくとも一部をプロセッサが実行するための命令を符号化してもよい。コンピュータプログラムは、非一時的なコンピュータ読み取り可能な媒体で具現化されてもよい。コンピュータ読み取り可能な媒体は、ハードディスクドライブ、フラッシュデバイス、ＲＡＭ、テープ、及び／又はデータを記憶するために使用される任意の他のそのような媒体又は媒体の組み合わせであってもよいが、これらに限定されない。コンピュータプログラムは、図６、図７、図９～図１３Ｂ、図１５、図１７に記載されたプロセスステップの全て又は一部を実施するようにコンピューティングシステムのプロセッサ（例えば、図５のコンピューティングシステム５００のプロセッサ５１０など）を制御するための符号化された命令を含んでもよく、これもまた、コンピュータ読み取り可能な媒体に記憶されてもよい。

コンピュータプログラムは、ハードウェア、ソフトウェア、又はハイブリッド実装で実装されてもよい。コンピュータプログラムは、互いに動作可能に通信し、表示する情報又は命令を渡すように設計されたモジュールで構成されてもよい。コンピュータプログラムは、汎用コンピュータ、ＡＳＩＣ、又は任意の他の適切なデバイスで動作するように構成されてもよい。

本発明の様々な実施形態の構成要素は、本願の図面で一般的に記載され示されているように、多種多様な異なる構成で配置、設計されてもよいことは容易に理解されるであろう。したがって、添付の図面に表されている本発明の実施形態の詳細な説明は、クレームされている本発明の範囲を限定することを意図しておらず、単に本発明の選択された実施形態を表すものである。

本明細書全体を通して説明される本発明の特徴、構造、又は特性は、一又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。例えば、本明細書全体を通して「特定の実施形態」、「幾つかの実施形態」、又は類似の文言への言及は、実施形態に関連して説明される特定の特徴、構造、又は特性が本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体を通して「特定の実施形態において」、「幾つかの実施形態において」、「他の実施形態において」という語句、又は同様の文言の出現は、必ずしも全て同じ実施形態のグループを指すとは限らず、説明された特徴、構造、又は特性は、一又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。

本明細書全体を通して特徴、利点、又は同様の文言への言及は、本発明で実現され得る特徴及び利点の全てが本発明の任意の単一の実施形態であるか或いはそれに含まれることを意味しないことに留意されたい。むしろ、特徴及び利点に言及する文言は、実施形態に関連して説明される特定の特徴、利点、又は特性が本発明の少なくとも１つの実施形態に含まれることを意味すると理解される。したがって、本明細書全体を通して特徴、利点、及び類似の文言の説明は、必ずしもそうではないが、同じ実施形態を指してもよい。

さらに、本発明の説明された特徴、利点、及び特性は、一又は複数の実施形態において任意の適切な方法で組み合わせられてもよい。当業者は、特定の実施形態の特定の特徴又は利点のうちの一又は複数がなくても本発明を実施できることを認識するであろう。他の例において、本発明の全ての実施形態には存在しない可能性がある特定の実施形態において、追加の特徴及び利点が認識されてもよい。

当業者は、上記の本発明が異なる順序のステップで、及び／又は開示されているものとは異なる構成のハードウェア要素で実施されてもよいことを容易に理解するであろう。したがって、本発明をこのような好ましい実施形態に基づいて説明してきたが、本発明の主旨及び範囲内にありながら、特定の修正、変形、及び代替構造が明らかであることは当業者には明らかであろう。したがって、本発明の境界及び範囲を決定するために、添付の特許請求の範囲を参照されたい。

Claims

非一時的なコンピュータ読み取り可能な媒体に具現化された、ペーストされたテキストの検出ロジックを含むコンピュータプログラムであって、
時間窓内にオペレーティングシステムのためのクリップボードにコンテンツが加えられたか否かを判断するためにクリップボードを監視することと、
前記時間窓内に前記クリップボードに前記コンテンツが加えられた場合に、
現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、
判断された前記一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された前記一又は複数の結合されたメンバに対して光学式文字認識（ＯＣＲ）を実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、
前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を、前記クリップボードのコンテンツと比較することと、
文字又は文字シーケンスが前記クリップボードのコンテンツの文字又は文字シーケンスと適合する場合、前記ペーストされたテキストの座標を取得し、前記ペーストされたテキストの前記座標を含むグラフィック要素をアクティブ要素として設定することと、
を少なくとも１つのプロセッサに実行させるように構成され、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含むことを特徴とするコンピュータプログラム。
前記クリップボードをフラッシュし、次のスクリーンショットフレームについてプロセスを繰り返すこと
を少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１に記載のコンピュータプログラム。
コンピューティングシステムと対話するユーザに関する一又は複数のユーザジェスチャを判断することと、
判断された前記一又は複数のユーザジェスチャに基づいて、ペーストが行われたか否かを判断することと、
ペーストが行われた場合、前記ペーストされたテキストの検出ロジックを実行することと、
を少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１に記載のコンピュータプログラム。
前記一又は複数のユーザジェスチャは、マウスクリック、コントロールキー及びＶの押下、右クリック及びアプリケーションのメニューからのペーストの選択、並びに／又はホームボタンのクリック及びアプリケーションにおけるペーストを含むことを特徴とする、請求項３に記載のコンピュータプログラム。
前記時間窓内に前記クリップボードにコンテンツが加えられていない場合に、前記コンピュータプログラムは、
タイプされたテキストの検出、キャレット追跡、又はこれら両方を実行することと、
タイプされたテキスト、キャレット、又はこれら両方を含む、前記現在のスクリーンショットフレームにおけるアクティブ要素を識別することと、
を少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１に記載のコンピュータプログラム。
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは非可逆形式に圧縮され、
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断は、前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとの対応する領域に一又は複数の許容範囲を使用することを含むことを特徴とする、請求項１に記載のコンピュータプログラム。
ＯＣＲによって検出された文字シーケンスに自動修正アルゴリズムを適用することと、
自動修正された前記文字シーケンスを使用して前記クリップボードのコンテンツとの比較を実行することと、
を少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１に記載のコンピュータプログラム。
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域を判断する場合に、前記コンピュータプログラムは、
前記現在のスクリーンショットフレームからの一又は複数の領域と前記以前のスクリーンショットフレームからの対応する領域とにファジー画像マッチングを適用して、この領域において変更が発生したか否かを判断すること
を少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１に記載のコンピュータプログラム。
前記コンピュータプログラムは、ロボティックプロセスオートメーション（ＲＰＡ）ロボットであることを特徴とする、請求項１に記載のコンピュータプログラム。
前記現在のスクリーンショットフレームのピクセルが所定の割合を超えて前記以前のスクリーンショットフレームと異なる場合、前記現在のスクリーンショットフレームは無視され、前記ペーストされたテキストの検出ロジックは次のスクリーンショットフレームに進むことを特徴とする、請求項１に記載のコンピュータプログラム。
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断は、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームを所定の高さを有する横の行に分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームの各々からの対応する行を比較して、対応する行が同じであるか否かを判断することと、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームの間で同じでない行がある場合、この行を抽出し、この行を等しいサイズのブロックに分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームにおける対応するブロックの間に差異が存在するか否かを判断することと、
差異が存在するブロックを抽出することと、
を含むことを特徴とする、請求項１に記載のコンピュータプログラム。
領域におけるブロックの数が閾値を超える場合、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進むことを特徴とする、請求項１１に記載のコンピュータプログラム。
領域におけるブロックの数が閾値を超えない場合に、前記コンピュータプログラムは、
近接するブロックを結合することと、
近接するブロックの各セットの領域の境界矩形を判断することと、
各領域についてピクセルの変更を計算し、前記ピクセルの変更をバイナリ行列に投影することと、
を少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１１に記載のコンピュータプログラム。
各バイナリ行列における一又は複数の結合されたメンバについて結合されたメンバのバイナリ行列を判断することと、
各結合されたメンバのバイナリ行列をトリミングすることと、
各結合されたメンバのバイナリ行列について前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとの間で変更された各ピクセルのピクセルデータを取得することと、
取得された前記ピクセルデータを使用してＯＣＲを実行することと、
を少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１３に記載のコンピュータプログラム。
非一時的なコンピュータ読み取り可能な媒体に具現化された、ペーストされたテキストの検出ロジックを含むコンピュータプログラムであって、
クリップボードコンテンツが存在するか否かを判断することと、
前記クリップボードコンテンツが存在し、前記クリップボードコンテンツが時間窓の間に加えられていた場合に、
現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、
判断された前記一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された前記一又は複数の結合されたメンバに対して光学式文字認識（ＯＣＲ）を実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、
前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を、クリップボードコンテンツと比較することと、
前記クリップボードコンテンツが前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方と適合する場合、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を少なくとも１つのプロセッサに実行させるように構成され、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含むことを特徴とするコンピュータプログラム。
コンピューティングシステムと対話するユーザに関する一又は複数のユーザジェスチャを判断することと、
判断された前記一又は複数のユーザジェスチャに基づいて、ペーストが行われたか否かを判断することと、
ペーストが行われた場合、前記ペーストされたテキストの検出ロジックを実行することと、
を少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１５に記載のコンピュータプログラム。
前記時間窓内にコンテンツがクリップボードに加えられていない場合に、前記コンピュータプログラムは、
タイプされたテキストの検出、キャレット追跡、又はこれら両方を実行することと、
タイプされたテキスト、キャレット、又はこれら両方を含む、前記現在のスクリーンショットフレームにおけるアクティブ要素を識別することと、
を少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１５に記載のコンピュータプログラム。
前記コンピュータプログラムは、ロボティックプロセスオートメーション（ＲＰＡ）ロボットであることを特徴とする、請求項１５に記載のコンピュータプログラム。
前記現在のスクリーンショットフレームが前記以前のスクリーンショットフレームと異なる一又は複数の領域の判断は、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームを所定の高さを有する横の行に分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームの各々からの対応する行を比較して、対応する行が同じであるか否かを判断することと、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームの間で同じでない行がある場合、この行を抽出し、この行を等しいサイズのブロックに分割することと、
前記現在のスクリーンショットフレーム及び前記以前のスクリーンショットフレームにおける対応するブロックの間に差異が存在するか否かを判断することと、
差異が存在するブロックを抽出することと、
を含み、
領域におけるブロックの数が所定の数を超える場合、前記現在のスクリーンショットフレームは無視され、前記タイプされたテキストの検出ロジックは次のスクリーンショットフレームに進み、
領域におけるブロックの数が所定の数を超えない場合に、前記コンピュータプログラムは、
近接するブロックを結合することと、
近接するブロックの各セットの領域の境界矩形を判断することと、
各領域についてピクセルの変更を計算し、前記ピクセルの変更をバイナリ行列に投影することと、
各バイナリ行列における一又は複数の結合されたメンバについて結合されたメンバのバイナリ行列を判断することと、
各結合されたメンバのバイナリ行列をトリミングすることと、
各結合されたメンバのバイナリ行列について前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームとの間で変更された各ピクセルのピクセルデータを取得することと、
取得された前記ピクセルデータを使用してＯＣＲを実行することと、
を少なくとも１つのプロセッサにさらに実行させるように構成されていることを特徴とする、請求項１５に記載のコンピュータプログラム。
クリップボードコンテンツが存在し、前記クリップボードコンテンツが時間窓の間に加えられていた場合の、ロボティックプロセスオートメーション（ＲＰＡ）のためのペーストされたテキストの検出のコンピュータ実施方法であって、
ＲＰＡロボットによって、現在のスクリーンショットフレームが以前のスクリーンショットフレームと異なる一又は複数の領域を判断することと、
前記ＲＰＡロボットによって、判断された前記一又は複数の領域における一又は複数の結合されたメンバを抽出し、抽出された前記一又は複数の結合されたメンバに対して光学式文字認識（ＯＣＲ）を実行して、一又は複数の認識された文字、一又は複数の認識された文字シーケンス、又はこれら両方と、これらの各々の位置とを生成することと、
前記ＲＰＡロボットによって、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を、前記クリップボードコンテンツと比較することと、
前記クリップボードコンテンツが前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方と適合する場合、前記ＲＰＡロボットによって、前記一又は複数の認識された文字、前記一又は複数の認識された文字シーケンス、又はこれら両方を含む位置を有する前記現在のスクリーンショットフレームにおけるグラフィック要素を、アクティブ要素として設定することと、
を含み、
前記現在のスクリーンショットフレームと前記以前のスクリーンショットフレームは、ディスプレイの画面の全体又は一部を含むことを特徴とするコンピュータ実施方法。