JP7517590B2

JP7517590B2 - 分類装置、分類方法、および、分類プログラム

Info

Publication number: JP7517590B2
Application number: JP2023506610A
Authority: JP
Inventors: 美沙深井; 公雄土川; 史拓横瀬; 有記卜部; 佐也香八木; 晴夫大石
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Current assignee: Nippon Telegraph and Telephone Corp; NTT Inc
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2024-07-17
Anticipated expiration: 2041-03-17
Also published as: WO2022195784A1; US20240153241A1; JPWO2022195784A1

Description

本発明は、分類装置、分類方法、および、分類プログラムに関する。

従来、ＲＰＡ（ＲｏｂｏｔｉｃＰｒｏｃｅｓｓＡｕｔｏｍａｔｉｏｎ）等で効果的な業務改善を実現するために、業務実態を正確かつ網羅的に把握することが重要である。例えば、業務実態を把握する方法として、操作者の端末（以下、端末装置）上で行われたＧＵＩ（ＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ）部品への操作を操作ログとして収集し、フローチャート形式で表示する方法がある。

また、操作者のＧＵＩ部品への操作の粒度で操作ログを取得する仕組みとして、例えば、ＧＵＩアプリケーションの操作画面を対象に、操作イベント発生時に、操作画面を構成するＧＵＩ部品の属性値を取得し、操作イベントの発生前後の変更箇所を特定する技術が知られている。

小笠原ほか、「業務の実行履歴を活用した業務プロセス可視化・分析システムの開発」、NTT技術ジャーナル、2009.2、P40-P43

しかしながら、従来の技術では、端末装置のアプリケーションの実行環境によって操作されたＧＵＩ部品とその種類を容易に特定することができない場合があった。例えば、ＧＵＩ部品の属性値の取得方法は、アプリケーション種別やアプリケーションのバージョンごとに異なる場合がある。そのため、業務で利用する全てのアプリケーションの操作ログを取得するには、アプリケーションの実行環境に応じてＧＵＩ部品の属性値の取得および変更箇所を特定する機能の開発に加え、アプリケーションの仕様変更の度に改造が必要になり、それらの機能の実現が高コストであるという課題があった。

また、例えば、業務が端末装置で直接行われず、端末装置からシンクライアント端末に接続して行われる場合がある。この場合、シンクライアント端末から端末装置には画像情報のみしか送れないため、端末装置から従来技術を利用した場合に、シンクライアント端末上で操作されたＧＵＩ部品の情報および、変化箇所を特定することは難しいという課題があった。

そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、端末装置のアプリケーションの実行環境に依らず、操作されたＧＵＩ部品とその種類を容易に特定することを目的とする。

上述した課題を解決し、目的を達成するため、本発明の分類装置は端末装置の操作イベントの発生前および発生後の操作画面のキャプチャ画像を取得する取得部と、前記取得部によって取得された前記キャプチャ画像を用いて、前記操作イベントの発生前と発生後において操作画面に起こった変化を差分画像として生成する生成部と、前記生成部によって生成された前記差分画像を用いて、前記操作イベントで操作が行われたＧＵＩ部品の種類を分類する分類部と、を備えることを特徴とする。

また、本発明の分類方法は、分類装置が実行する分類方法であって、端末装置の操作イベントの発生前および発生後の操作画面のキャプチャ画像を取得する取得工程と、前記取得工程によって取得された前記キャプチャ画像を用いて、前記操作イベントの発生前と発生後において操作画面に起こった変化を差分画像として生成する生成工程と、前記生成工程によって生成された前記差分画像を用いて、前記操作イベントで操作が行われたＧＵＩ部品の種類を分類する分類工程とを含んだことを特徴とする。

また、本発明の分類プログラムは、端末装置の操作イベントの発生前および発生後の操作画面のキャプチャ画像を取得する取得ステップと、前記取得ステップによって取得された前記キャプチャ画像を用いて、前記操作イベントの発生前と発生後において操作画面に起こった変化を差分画像として生成する生成ステップと、前記生成ステップによって生成された前記差分画像を用いて、前記操作イベントで操作が行われたＧＵＩ部品の種類を分類する分類ステップとをコンピュータに実行させることを特徴とする。

本発明によれば、端末装置のアプリケーションの実行環境に依らず、操作されたＧＵＩ部品とその種類を容易に特定することが可能となる効果を奏する。

図１は、実施の形態１に係る分類装置の構成を示すブロック図である。図２は、ラジオボタンのＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す図である。図３は、チェックボックスのＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す図である。図４は、プルダウンメニューのＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す図である。図５は、テキストボックスのＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す図である。図６は、ボタンのＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す図である。図７は、ＧＵＩ部品の操作前後の画面全体のキャプチャ画像から生成した差分画像の一例を示す図である。図８は、学習済みモデルに対する入力データのバリエーションの例を示す図である。図９は、学習済みモデルにキャプチャ画像と差分画像を入力することで、操作されたＧＵＩ部品の種類を分類する処理を説明する図である。図１０は、実施の形態１に係る分類装置における操作イベント毎にキャプチャ画像を格納する処理の一例を示すフローチャートである。図１１は、実施の形態１に係る分類装置におけるキャプチャ画像からＧＵＩ部品についての操作イベントを抽出する処理の一例を示すフローチャートである。図１２は、実施の形態１に係る分類装置における差分画像を生成する処理の一例を示すフローチャートである。図１３は、実施の形態１に係る分類装置における操作イベント毎にキャプチャ画像からＧＵＩ部品を分類する処理の一例を示すフローチャートである。図１４は、実施の形態１に係る分類装置における操作情報の取得、入力、判別の処理の流れの一例を示す図である。図１５は、分類プログラムを実行するコンピュータを示す図である。

以下に添付図面を参照して、本発明に係る分類装置、分類方法、および、分類プログラムの実施の形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。
［実施の形態１］

以下の実施の形態１では、実施の形態１に係る分類装置の構成、分類装置の処理の流れを順に説明し、最後に実施の形態１による効果を説明する。

［分類装置の構成］
まず、最初に、図１を用いて、実施の形態１に係る分類装置の構成を説明する。図１は、実施の形態１に係る分類装置の構成を示すブロック図である。

図１に示すように、分類装置１０は、端末装置２０とネットワーク（図示せず）を介して接続されており、有線接続または無線接続のどちらでもよい。なお、図１に示す構成は一例にすぎず、具体的な構成や各装置の数は特に限定されない。

端末装置２０は、操作者が操作する情報処理装置である。例えば、端末装置２０は、デスクトップ型ＰＣや、ノート型ＰＣや、タブレット端末や、携帯電話機や、ＰＤＡ等である。

次に、図１に示した分類装置１０の構成を説明する。同図に示すように、この分類装置１０は、通信部１１と、制御部１２と、記憶部１３とを有する。以下に分類装置１０が有する各部の処理を説明する。

通信部１１は、各種情報に関する通信を制御する。例えば、通信部１１は、端末装置２０やネットワークを介して接続される情報処理装置との間でやり取りする各種情報に関する通信を制御する。例えば、通信部１１は、マウスやキーボードの操作が操作された際に発生する操作イベントに関する操作イベント情報を端末装置２０から受信する。ここで、操作イベント情報とは、例えば、操作イベントの発生時間（時刻）、発生位置、イベント種別（マウスクリック、キーボード入力）、カーソルの情報を含む各種情報のことである。

記憶部１３は、制御部１２による各種処理に必要なデータおよびプログラムを格納し、キャプチャ画像記憶部１３ａ、学習済みモデル記憶部１３ｂおよび操作ログ記憶部１３ｃを有する。例えば、記憶部１３は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。

キャプチャ画像記憶部１３ａは、後述する取得部１２ａによって、一定時間（例えば１秒）ごとに取得されたキャプチャ画像を記憶する。例えば、キャプチャ画像記憶部１３ａは、キャプチャされた時間（時刻）とキャプチャ画像とを対応付けて記憶する。なお、キャプチャ画像記憶部１３ａは、操作画面全体のキャプチャ画像を記憶してもよいし、操作画面上において一部の抽出されたキャプチャ画像を記憶してもよい。

学習済みモデル記憶部１３ｂは、操作イベントで操作が行われたＧＵＩ部品の種類を分類する学習済みモデルを記憶する。学習済みモデル記憶部１３ｂに記憶される学習済みモデルは、例えば、操作イベント発生時または発生後のキャプチャ画像と、操作イベントの発生前と発生後において操作画面に起こった変化を示す差分画像とを入力データとして、操作イベントで操作が行われたＧＵＩ部品の種類を出力する。また、学習済みモデルに入力されるデータは、キャプチャ画像と差分画像に限定されるものではなく、カーソル画像とキャプチャ画像を合成した画像や、カーソルの状態を示す値を含むカーソルの情報等を含んでもよい。なお、学習済みモデル記憶部１３ｂに記憶される学習済みモデルは、外部の装置で事前に学習されているものとする。

なお、学習済みモデル記憶部１３ｂに記憶される学習済みモデルは、外部の装置で学習されたものに限らず、例えば、分類装置１０で学習されたものであってもよい。この場合には、例えば、分類装置１０は、機械学習を行う学習部をさらに備え、学習部によって事前に上記の学習処理を行い、学習済みモデルを生成するものとする。

操作ログ記憶部１３ｃは、取得部１２ａによってキャプチャ画像記憶部１３ａに保存したキャプチャ画像を、発生時間と共に操作イベントの発生前・発生時・発生後のキャプチャ画像として紐づけて記憶する。例えば、操作ログ記憶部１３ｃは、操作イベントの発生前・発生時・発生後のキャプチャ画像と、生成部１２ｃによって生成された差分画像と、分類部によって分類されたＧＵＩ部品の種類と、を紐づけて記憶する。また、操作ログ記憶部１３ｃは、カーソルの情報や発生位置などを含む操作イベント情報の一部を紐づけて記憶してもよい。

また、操作ログ記憶部１３ｃは、端末装置２０で行われる全ての操作イベントのログを記憶してもよいし、予め定めた操作イベントのログのみを記憶してもよい。また、操作ログ記憶部１３ｃは、特定の業務システムに関する操作イベントの操作ログだけではなく、メール、ウェブブラウザ、Word、Excel、PowerPointなどのOfficeアプリケーションなど様々なアプリケーションを利用する業務の操作イベントのログを同時に記憶してもよいし、アプリケーション単体の操作イベントごとにログを記憶してもよい。

制御部１２は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、制御部１２は、取得部１２ａと、抽出部１２ｂと、生成部１２ｃと、分類部１２ｄとを有する。ここで、制御部１２は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などの電子回路やＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路である。

取得部１２ａは、端末装置の操作イベントの発生前および発生後の操作画面のキャプチャ画像を取得する。例えば、取得部１２ａは、キャプチャ画像を一定間隔で定期的に取得し、取得したキャプチャ画像をキャプチャ画像記憶部１３ａに保存する。

そして、取得部１２ａは、操作者の操作イベントが発生したタイミングで、操作イベント発生時、発生前、発生後の３種類のキャプチャ画像をキャプチャ画像記憶部１３ａから取得してもよい。以下では、操作イベント発生時、発生前、発生後の３種類のキャプチャ画像を取得する場合を主な例として説明する。

例えば、取得部１２ａは、操作イベント発生前のキャプチャの取得方法として、操作イベント発生の有無によらず、一定時間ごとに取得部１２ａがキャプチャ画像を取得しておき、操作イベントが発生した際に、その操作イベントの発生前（所定の時間前）に取得されたキャプチャ画像を、操作イベントの発生前のキャプチャ画像として操作ログ記憶部１３ｃに保存する。

また、取得部１２ａは、例えば、操作イベント発生後のキャプチャの取得方法として、操作イベントの発生後、一定時間が経過した後にキャプチャ画像を取得し、操作イベント発生後のキャプチャとして操作ログ記憶部１３ｃに保存してもよい。また、取得部１２ａは、一定時間ごとに取得されたキャプチャの取得時間を、操作イベントの発生時間と比較し、操作イベントの発生時、発生前、発生後のキャプチャ画像として後から紐づける方法でもよい。

また、取得部１２ａは、キャプチャ画像を取得するとともに、操作画面上に表示されるカーソルの情報を取得し、該カーソルの情報を用いてカーソルの形状を特定するようにしてもよい。例えば、取得部１２ａは、操作イベント発生時にカーソルのハンドルを取得し、事前に定義されたカーソルのハンドルと比較することで、カーソルの形状を特定する。

また、取得部１２ａは、ユーザの操作イベントについて、イベントの発生時間、イベントの発生位置、イベント種別を取得する。例えば、取得部１２ａは、操作イベントの発生時において、クリック操作やキー入力等の操作内容を特定するイベント種別の情報、および操作イベントの発生時間の情報を端末装置２０から取得する。さらに、取得部１２ａは、例えば、クリック操作が行われた場合には、操作イベントが発生した位置の情報を取得してもよいし、キー入力が行われた場合には、操作されたキーの種類の情報を取得してもよい。

抽出部１２ｂは、操作イベントの発生前のキャプチャ画像と発生後のキャプチャ画像とを比較し、差分が発生している場合には、当該操作イベントを抽出する。例えば、抽出部１２ｂは、ある操作イベントについて、操作イベントの発生時、発生前、発生後の各キャプチャ画像をそれぞれ比較し、いずれかに差分が発生していた場合には、その操作のイベントを意味のある操作が行われた可能性のある操作イベントとして抽出する。ここで意味のある操作が行われた可能性のある操作イベント（以下、「意味のある操作イベント」と記載）とは、ＧＵＩ部品に対する操作が行われた可能性のある操作イベントのことを意味する。

なお、抽出部１２ｂは、比較するキャプチャ画像について、画面全体のキャプチャ画像を用いてもよいし、キャプチャ画像から操作イベントの発生位置の周辺を切り出した画像を用いてもよい。

生成部１２ｃは、取得部１２ａによって取得されたキャプチャ画像を用いて、操作イベントの発生前と発生後において操作画面に起こった変化を差分画像として生成する。具体的には、生成部１２ｃは、抽出部１２ｂによって抽出された操作イベントの発生前と発生後において操作画面に起こった変化を差分画像として生成する。

例えば、生成部１２ｃは、抽出部１２ｂにおいてＧＵＩ部品についての操作イベントと判断された操作イベントの発生前および発生後のキャプチャ画像の画素値の差分を算出し、差分の絶対値を画像データに変換することで、差分を画像として表現した差分画像を生成する。

ここで、図２～図６を用いて、ＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す。図２～図６においては、カーソルなしのキャプチャ画像の場合と、カーソルありのキャプチャ画像の場合とをそれぞれ例示している。

図２は、ラジオボタンのＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す図である。図２に示すように、取得部１２ａは、操作前のキャプチャ画像として、「乗換回数」と表記されているラジオボタンがチェックされている操作前のキャプチャ画像を取得する。

その後、操作者が「運賃」と表記されているラジオボタンを選択するという操作イベントが発生した後、取得部１２ａは、「乗換回数」と表記されているラジオボタンのチェック表示が消え、「運賃」と表記されているラジオボタンがチェックされている操作後のキャプチャ画像を取得する。

そして、生成部１２ｃは、操作前および操作後のキャプチャ画像の画素値の差分を算出し、該差分の絶対値を画像データに変換することで、二つのラジオボタンの丸い印を含む差分画像を生成する。

図３は、チェックボックスのＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す図である。図３に示すように、取得部１２ａは、操作前のキャプチャ画像として、「特急線」と表記されているチェックボックスの淵が太枠で表示されているキャプチャ画像を取得する。

その後、操作者が、「路線バス」と表記されているチェックボックスを選択するという操作イベントが発生した後、取得部１２ａは、「特急線」と表記されているチェックボックスのチェックマークが消え、「路線バス」と表記されているチェックボックスの淵が太枠で表示され、かつ、チェックマークが表示されているキャプチャ画像を取得する。

そして、生成部１２ｃが、操作前および操作後のキャプチャ画像の画素値の差分を算出し、差分の絶対値を画像データに変換し、二つのチェックボックスの四角い淵と「路線バス」のチェックマークを含む差分画像を生成する。

図４は、プルダウンメニューのＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す図である。図４に示すように、取得部１２ａは、操作前のキャプチャ画像として、「２０１９年」と表記されているプルダウンメニューが選択されているキャプチャ画像を取得する。

その後、操作者が「１１月」と表記されているプルダウンメニューをカーソルでクリック選択をするという操作イベントが発生した後、取得部１２ａは、「２０１９年」と表記されているプルダウンメニューの選択による色付けが消え、「１１月」と表記されているプルダウンメニューに全ての月が選択式に表示されている操作後のキャプチャ画像を取得する。

そして、生成部１２ｃが、操作前および操作後のキャプチャ画像の画素値の差分を算出し、該差分の絶対値を画像データに変換することで、「２０１９年」と表記されているプルダウンメニュー、および、「１１月」と表記されているプルダウンメニューとその他全ての月の選択表示を含む差分画像を生成する。

図５は、テキストボックスのＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す図である。図５に示すように、取得部１２ａは、操作前のキャプチャ画像として、「ウェブ検索」と表記されているテキストボックスのＧＵＩ部品が表示されているキャプチャ画像を取得する。

その後、操作者が「ウェブ検索」と表記されているテキストボックスのＧＵＩ部品を選択するという操作イベントが発生した後、取得部１２ａは、「ウェブ検索」と表記されているテキストボックスの文字が消え、テキストボックスのＧＵＩ部品にカーソルが表示されている操作後のキャプチャ画像を取得する。

そして、生成部１２ｃが、操作前および操作後のキャプチャ画像の画素値の差分を算出し、該差分の絶対値を画像データに変換することで、「ウェブ検索」と表記されているテキストの文字、および、テキストボックスのＧＵＩ部品に表示されているカーソルを含む差分画像を生成する。

図６は、ボタンのＧＵＩ部品の操作前後のキャプチャ画像から生成された差分画像の一例を示す図である。図６に示すように、取得部１２ａは、操作前のキャプチャ画像として、「到着駅が見つかりません。」と表記されているタブに「ＯＫ」ボタンが表示されているキャプチャ画像を取得する。

その後、操作者が「ＯＫ」ボタンを押下する操作イベントが発生した後、取得部１２ａは、「到着駅が見つかりません。」と表記されているタブが消え、元の画面が表示されている操作後のキャプチャ画像を取得する。

そして、生成部１２ｃが、操作前および操作後のキャプチャ画像の画素値の差分を算出し、該差分の絶対値を画像データに変換することで、「到着駅が見つかりません。」と表記されているタブ、および、タブによって隠れていた元の画面を含む差分画像を生成する。

図７は、ＧＵＩ部品の操作前後の画面全体のキャプチャ画像から生成した差分画像の一例を示す図である。上述した差分画像を生成する例では、キャプチャ画像から操作イベントの発生位置の周辺を切り出した画像を用いている場合を説明したが、図７に示すように、生成部１２ｃは、画面全体のキャプチャ画像を用いて差分画像を生成してもよい。

図１の説明に戻って、分類部１２ｄは、生成部１２ｃによって生成された差分画像を用いて、操作イベントで操作が行われたＧＵＩ部品の種類を分類する。ここで、分類部１２ｄは、ＧＵＩ部品の種類を分類するとともに、意味のある操作イベントか否かを判定する。つまり、分類部１２ｄが、意味のある操作イベントである場合には、分類できるＧＵＩ部品としては、例えば、「ラジオボタン」、「チェックボックス」、「プルダウンメニュー」、「テキストボックス」、「ボタン」および「リンク」のうちいずれかに分類する。また、分類部１２ｄは、意味のある操作イベントでない場合には、「意味のある操作イベントではない」と分類する。

例えば、分類部１２ｄは、取得部１２ａによって取得されたキャプチャ画像とカーソルの情報と、生成部１２ｃによって生成された差分画像とを入力として、操作イベントで操作が行われたＧＵＩ部品の種類を分類する学習済みモデルを用いて、各操作イベントで操作が行われたＧＵＩ部品の種類を分類するようにしてもよい。この学習済みモデルは、学習済みモデル記憶部１３ｂに記憶された学習済みモデルであって、所定の機械学習アルゴリズムを用いて、入力データと操作されたＧＵＩ部品の関係を教師データとして学習された学習済みモデルである。

また、分類部１２ｄは、生成部１２ｃによって生成された差分画像と、取得部１２ａによって特定されたカーソルの形状とを用いて、操作イベントで操作が行われたＧＵＩ部品の種類を分類するようにしてもよい。

また、分類部１２ｄは、分類を行う際、分類のターゲットの操作イベントの前後に行われた操作イベントについての情報を分類に用いてもよい。つまり、ターゲットとする操作イベントがテキストボックスへのフォーカスを目的としたマウスクリックの場合、次の操作イベントは文字などのキー入力となる可能性が高い。よって、次の操作イベントがキー入力であるという情報を用いることで、ターゲットとする操作イベントの分類精度の向上が見込める。この場合には、分類部１２ｄは、学習済みモデルに対して、キャプチャ画像および差分画像に加えて、操作イベントの前後に行われた操作イベントを入力することで、操作イベントで操作が行われたＧＵＩ部品の種類を分類する。

また、取得部１２ａがウィンドウの識別情報が取得できる場合、分類部１２ｄは、ウィンドウの識別情報を分類に用いてもよい。例えば、ターゲットとする操作イベントがリンクの押下である場合、操作イベントによりページの遷移が発生する可能性が高い。よって、取得部１２ａが操作イベントの後にページの遷移が発生したという情報がウィンドウの識別情報を得られる場合、ウィンドウの識別情報を用いることで、ターゲットとする操作イベントの分類精度の向上が見込める。この場合には、分類部１２ｄは、学習済みモデルに対して、キャプチャ画像および差分画像に加えて、ウィンドウの識別情報を入力することで、操作イベントで操作が行われたＧＵＩ部品の種類を分類する。

ここで、学習済みモデルに対する入力データのバリエーションの例について説明する。図８は、学習済みモデルに対する入力データのバリエーションの例を示す図である。図８に例示するように、分類部１２ｄは、学習済みモデルに対して、取得部１２ａによって取得されたキャプチャ画像と生成部１２ｃによって生成された差分画像とを入力する。

また、分類部１２ｄは、学習済みモデルに対して、キャプチャ画像および差分画像に加えて、カーソル画像を入力してもよい。また、分類部１２ｄは、学習済みモデルに対して、キャプチャ画像および差分画像に加えて、取得部１２ａによって特定されたカーソルの形状の情報を入力してもよい。また、分類部１２ｄは、学習済みモデルに対して、キャプチャ画像および差分画像に加えて、取得部１２ａによって取得された操作イベントの発生位置の情報を入力してもよい。

次に、学習済みモデルにキャプチャ画像と差分画像を入力することで、操作されたＧＵＩ部品の種類を分類する処理を説明する。図９は、学習済みモデルにキャプチャ画像と差分画像を入力することで、操作されたＧＵＩ部品の種類を分類する処理を説明する図である。図９の例では、ＣＮＮは、階層構造を有し、畳み込み層、プーリング層、全結合層、出力層を含む。

ここで、学習済みモデル記憶部１３ｂに記憶される学習済みモデルの学習について説明する。操作イベントで操作が行われたＧＵＩ部品の種類を分類する学習済みモデルについて、学習データが少ない場合に、学習データに適合しすぎて未知のデータに対応できない状態である過学習に陥りやすいという状況を考慮する必要がある。例えば、学習を行う外部の装置は、限られた学習データから、未知のＧＵＩ部品に対してもロバストにその種類を取得するため、入力データと操作されたＧＵＩ部品の関係を学習する際、特定のレイヤーのノードのいくつかを不活性化するDropoutを用いてもよい。

また、学習を行う外部の装置は、限られたデータで学習を行う際、関連のある別のタスクについての学習済みモデルを利用することで、分類精度のよい学習モデルを生成することができる。また、学習を行う外部の装置は、限られた学習データから、未知のＧＵＩ部品に対してもロバストにその種類を取得するため、入力データと操作されたＧＵＩ部品の関係を学習する際、ＧＵＩ部品の画像と、そのＧＵＩ部品の種類の関係をあらかじめ学習したモデルを用いて転移学習またはファインチューニングを行ってもよい。

［分類装置の処理の一例］
次に、図１０～図１３を用いて、第１の実施形態に係る分類装置１による処理手順の例を説明する。

まず、図１０を用いて、キャプチャ画像を格納する処理について説明する。図１０は、実施の形態１に係る分類装置における操作イベント毎にキャプチャ画像を格納する処理の一例を示すフローチャートである。

図１０に示すように、取得部１２ａは、ユーザが処理を停止したか、または、端末装置２０の電源を落としたかを判定する（ステップＳ１０１）。この結果、取得部１２ａは、操作者が処理を停止、または、端末装置の電源を落としたと判定した場合には（ステップＳ１０１Ｙｅｓ）、本フローの処理を終了する。また、取得部１２ａは、操作者が処理を停止せず、且つ、端末装置２０の電源を落としていないと判定した場合には（ステップＳ１０１Ｎｏ）、キャプチャ画像を一定間隔でキャプチャ画像記憶部１３ａに一時保存する（ステップＳ１０２）。

そして、取得部１２ａは、操作イベントが発生したか否かを判定する（ステップＳ１０３）。この結果、操作イベントが発生した場合（ステップＳ１０３Ｙｅｓ）、取得部１２ａは、操作イベント情報を取得する（ステップＳ１０４）。例えば、取得部１２ａは、ユーザの操作イベントについて、イベントの発生時間、イベントの発生位置、イベント種別を取得し、イベント発生時のキャプチャ画像と紐づけて操作ログ記憶部１３ｃに格納する。また、操作イベントが発生していない場合（ステップＳ１０３ＮＯ）、ステップＳ１０１の処理に戻る。

そして、取得部１２ａは、ステップＳ１０２においてキャプチャ画像記憶部１３ａに一時保存したキャプチャ画像から発生時間をもとに操作イベントの発生前キャプチャ画像を取得する（ステップＳ１０５）。続いて、取得部１２ａは、一定時間経過後に操作イベントの発生後のキャプチャ画像としてキャプチャ画像を取得する（ステップＳ１０６）。そして、取得部１２ａは、取得したキャプチャ画像から発生時間をもとに操作イベントの発生前・発生時・発生後のキャプチャ画像を紐づけし、操作ログ記憶部１３ｃに保存する（ステップＳ１０７）。その後、ステップＳ１０１に戻って、上記の処理の流れを繰り返す。

また、取得部１２ａは、実施の形態１に係る分類装置におけるキャプチャ画像を格納する処理を、キャプチャ画像を後から操作イベントに紐づけて格納してもよい。例えば、取得部１２ａは、キャプチャ画像の取得と操作イベントの取得を独立的に行い、キャプチャ画像のデータを一定量蓄積した後で、操作イベント発生時刻に基づいて、操作イベントとキャプチャ画像を紐づけてもよい。

次に、図１１を用いて、実施の形態１に係る分類装置におけるキャプチャ画像からＧＵＩ部品についての操作イベントを抽出する処理について説明する。図１１は、実施の形態１に係る分類装置におけるキャプチャ画像からＧＵＩ部品についての操作イベントを抽出する処理の一例を示すフローチャートである。

図１１に示すように、抽出部１２ｂは、全ての操作イベントをターゲットとしたかを判定する（ステップＳ２０１）。この結果、抽出部１２ｂは、全ての操作イベントをターゲットと判定した場合（ステップＳ２０１Ｙｅｓ）、本フローの処理を終了する。また、抽出部１２ｂは、全ての操作イベントをターゲットとしていない場合には（ステップＳ２０１Ｎｏ）、ターゲットとする操作イベントを決定する（ステップＳ２０２）。

続いて、抽出部１２ｂは、操作イベントの発生時、発生前、発生後の間のいずれかのキャプチャ画像に差分があるか判定する（ステップＳ２０３）。この結果、抽出部１２ｂは、操作イベントの発生時、発生前、発生後の間のいずれかのキャプチャ画像に差分がないと判断した場合（ステップＳ２０３Ｎｏ）、ステップＳ２０１の処理に戻る。

また、抽出部１２ｂは、操作イベントの発生時、発生前、発生後の間のいずれかのキャプチャ画像に差分があると判断した場合（ステップＳ２０３Ｙｅｓ）、ターゲットとした操作イベントを意味のある操作として抽出する（ステップＳ２０４）。その後、ステップＳ２０１に戻って、上記の処理の流れを繰り返す。

次に、図１２を用いて、実施の形態１に係る分類装置における差分画像を生成する処理について説明する。図１２は、実施の形態１に係る分類装置における差分画像を生成する処理の一例を示すフローチャートである。

図１２に示すように、生成部１２ｃは、全ての操作イベントをターゲットとしたかを判定する（ステップＳ３０１）。この結果、生成部１２ｃは、全ての操作イベントをターゲットと判定した場合（ステップＳ３０１Ｙｅｓ）、本フローの処理を終了する。また、生成部１２ｃは、全ての操作イベントをターゲットとしていない場合には（ステップＳ３０１Ｎｏ）、ターゲットとする操作イベントを決定する（ステップＳ３０２）。

続いて、生成部１２ｃは、ターゲットとした操作イベントが意味のある操作イベントとして抽出された操作イベントであるか否かを判定する（ステップＳ３０３）。この結果、生成部１２ｃは、意味のある操作イベントとして抽出された操作イベントでない場合には（ステップＳ３０３Ｎｏ）、ステップＳ３０１の処理に戻る。

そして、生成部１２ｃは、ターゲットとした操作イベントが意味のある操作イベントとして抽出された操作イベントであると判断した場合には（ステップＳ３０３Ｙｅｓ）、操作イベントの発生時、発生前、発生後のキャプチャ画像から、画面に起こった差分を画像として生成する（ステップＳ３０４）。例えば、生成部１２ｃは、操作イベントの発生時、発生前、発生後のキャプチャ画像の画素値の差分を算出し、差分の絶対値を画像データに変換することで、差分画像を生成する。その後、ステップＳ３０１に戻って、上記の処理の流れを繰り返す。

次に、図１３を用いて、実施の形態１に係る分類装置における操作イベント毎にキャプチャ画像からＧＵＩ部品を分類する処理について説明する。図１３は、実施の形態１に係る分類装置における操作イベント毎にキャプチャ画像からＧＵＩ部品を分類する処理の一例を示すフローチャートである。

図１３に示すように、分類部１２ｄは、全ての操作イベントをターゲットとしたかを判定する（ステップＳ４０１）。この結果、分類部１２ｄは、全ての操作イベントをターゲットと判定した場合（ステップＳ４０１Ｙｅｓ）、本フローの処理を終了する。また、分類部１２ｄは、全ての操作イベントをターゲットとしていない場合には（ステップＳ４０１Ｎｏ）、ターゲットとする操作イベントを決定する（ステップＳ４０２）。

続いて、分類部１２ｄは、ターゲットとした操作イベントが意味のある操作イベントとして抽出された操作イベントであるか否かを判定する（ステップＳ４０３）。この結果、分類部１２ｄは、意味のある操作イベントとして抽出された操作イベントでない場合には（ステップＳ４０３Ｎｏ）、ステップＳ４０１の処理に戻る。

そして、分類部１２ｄは、ターゲットとした操作イベントが意味のある操作イベントとして抽出された操作イベントであると判断した場合には（ステップＳ４０３Ｙｅｓ）、キャプチャ画像、差分画像、カーソル形状、操作イベント発生場所等の情報を用いて、操作したＧＵＩ部品の種類を分類する（ステップＳ４０４）。このとき、分類部１２ｄは、ＧＵＩ部品に対する意味のある操作に該当しない操作イベントを「意味のある操作イベントでない」のカテゴリーに分類する。その後、ステップＳ４０１に戻って、上記の処理の流れを繰り返す。

［実施の形態１の効果］
このように、実施の形態１に係る分類装置１０は、端末装置２０の操作イベントの発生前および発生後の操作画面のキャプチャ画像を取得する。そして、分類装置１０は、取得したキャプチャ画像を用いて、操作イベントの発生前と発生後において操作画面に起こった変化を差分画像として生成する。続いて、分類装置１０は、生成した差分画像を用いて、操作が行われたＧＵＩ部品の種類を分類する。これにより、分類装置１０は、端末装置２０のアプリケーションの実行環境に依らず、操作されたＧＵＩ部品とその種類を容易に特定することができる。

例えば、実施の形態１に係る分類装置１０では、ユーザが操作したタイミングで、変化のあった操作箇所と操作箇所の見た目を用いて、操作が行われたＧＵＩ部品の特定およびその種類を判別することが可能である。具体例を挙げて説明すると、実施の形態１に係る分類装置１０では、カーソルを上に乗せた際のＧＵＩ部品の形状の変化、またはマウスダウン時のＧＵＩ部品の形状の変化、またはクリック後に画面に発生する変化、を含む操作イベント前後に発生した画面の差分の変化のあった操作箇所と操作箇所の見た目を用いて、操作が行われたＧＵＩ部品の特定およびその種類を判別することが可能である。

また、例えば、実施の形態１に係る分類装置１０では、ＧＵＩ部品の存在しない場所にカーソルがある場合の形状として、標準の矢印、または、テキストボックスの上にカーソルがある場合の形状として、Ｉビーム、または、ボタンの上にカーソルがある場合の形状として、指を立てた手の形、のように変化のあった操作箇所と操作箇所の見た目を用いて、操作が行われたＧＵＩ部品の特定およびその種類を判別することが可能である。

また、実施の形態１に係る分類装置１０では、取得部１２ａによって取得されたキャプチャ画像と生成部１２ｃによって生成された差分画像とを入力として、操作イベントで操作が行われたＧＵＩ部品の種類を分類する学習済みモデルを用いて、各操作イベントで操作が行われたＧＵＩ部品の種類を分類する。このため、例えば、分類装置１０もしくは外部の装置が、学習済みモデルについて、ＧＵＩ部品に共通する特徴を学習することで、限られた学習データから、ＧＵＩ部品が変化した場合や未知のＧＵＩ部品に対してロバストにその種類を取得することが可能となる。

このように、分類装置１０が、操作が行われたＧＵＩ部品の種類を特定することで、ＲＰＡシナリオの作成や、シナリオの改良の参考となるデータを収集することが可能である。

例えば、効果的にＲＰＡ（ＲｏｂｏｔｉｃＰｒｏｃｅｓｓＡｕｔｏｍａｔｉｏｎ）を導入するためには、作業者による端末上の操作実態をフローチャート形式の表示によって把握し、自動化可能な繰り返し操作が行われている範囲を見つけることが重要である。端末操作を中心とした業務でサービスや商品を顧客に提供することを考えた場合、同一サービス・商品を提供するためのシステムの操作手順はサービスや商品ごとに決められており、マニュアルなどによって担当者に共有されている。

一般的に、担当者はマニュアルに沿ってサービス・商品の提供に必要な処理を行うことが期待されているため、同一サービス・商品を処理する手順は同じ操作手順になると想定される。そのため、従来、業務実態を把握する方法として、業務マニュアル中に記載された業務手順を確認する方法が有効だと考えられるが、顧客が注文後に注文内容を変更する、商品が欠品する、操作者の操作ミス、などマニュアル作成時には想定しなかった様々なイレギュラーな事象が発生するのが通常であり、これらのイレギュラーな事象に対しては、あらかじめすべての操作手順を規定しておくことは現実的ではないという課題があった。

また、従来より、担当者は多様な操作方法を覚えることは困難であり、すべてを規定された方法で処理することは現実的ではないため、同一サービス・商品であっても案件ごとに操作手順は様々であることが一般的であり、業務マニュアルから実際の業務実態を把握することは困難であるという課題があった。

また、実際の業務においては、業務システムだけではなく、メール、ウェブブラウザ、Word、Excel、PowerPointなどのOfficeアプリケーションなど様々なアプリケーションを利用しながら業務を進めることが一般的である。ＧＵＩ部品の属性値の取得方法は、アプリケーションごとに異なるため、担当者の業務実施状況を網羅的に把握するためには、業務で利用するすべてのアプリケーションの実行環境に応じてＧＵＩ部品の属性値の取得および変更箇所を特定する仕組みを開発する必要があるが、実際には開発コストが非常に高く現実的ではない。仮に、特定のアプリケーションについて開発したとしても、対象のアプリケーションのバージョンアップに伴い仕様変更が発生すると、それに合わせた改造が必要になるという課題があった。

また、近年、コンピュータ資源の有効活用やセキュリティ対策を目的に、企業ではシンクライアント環境が普及している。シンクライアント環境では、操作者は直接操作を行う端末である端末装置にアプリケーションがインストールされておらず、クライアント端末に接続された別の端末にアプリケーションがインストールされている。クライアント端末には、アプリケーションが提供する操作画面が画像として表示され、担当者はその表示された画像を通して接続先側のアプリケーションを操作する。この場合、実際にユーザが操作を行う端末には操作画面が画像として表示されているため、クライアント端末からＧＵＩ部品および、変化箇所を特定することは不可能である。

このように、従来、多様なアプリケーションを用いた業務やシンクライアント環境においては、担当者のアプリケーション上で行われるＧＵＩ部品上への操作をログとして収集することは容易ではないため、ＧＵＩ部品上への操作をログとして収集するためには、操作が行われたＧＵＩ部品の種類を特定することが必要である。

図１４に示すように、本実施の形態の分類装置１０では、端末装置２０の操作画面のキャプチャ画像を用いて、操作ログを特定することにより、画面キャプチャとマウス・キーボードの操作情報のみしか取得できない環境でも利用可能である。また、端末装置２０毎に、異なるブラウザ、Ｗｅｂサイト、アプリケーションを利用する場合であっても、キャプチャ画像および差分画像をＣＮＮにより学習させることで、未知のデータについても判別が可能になる。このため、本実施の形態の分類装置１０では、端末装置２０のアプリケーションの実行環境に依らず、操作者による操作イベントのＧＵＩ部品の種類とその操作の流れを汎用的に取得することができる。

また、ＲＰＡの導入を目的とした業務分析においては、最終的にＲＰＡシナリオを作成する必要がある。操作したＧＵＩ部品の種類を特定することで、分析結果をＲＰＡシナリオへ反映することが容易になる。

また、例えば、操作したＧＵＩ部品の種類を特定することで、テキストボックスやラジオボタンなどのユーザが操作するＧＵＩ部品の、部品ごとの操作回数などの可視化が可能となる。これにより、例えばテキストボックスの入力が多く、かつパターン化できる場合、セレクトボックスに変更するなどのシステムの作りを改良するための参考とすることができる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
また、上記実施形態に係る分類装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、分類装置１０と同様の機能を実現する分類プログラムを実行するコンピュータの一例を説明する。

図１５は、分類プログラムを実行するコンピュータを示す図である。図１５に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

ここで、図１５に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各テーブルは、例えばハードディスクドライブ１０９０やメモリ１０１０に記憶される。

また、分類プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュールとして、ハードディスクドライブ１０９０に記憶される。具体的には、上記実施形態で説明した分類装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。

また、分類プログラムによる情報処理に用いられるデータは、プログラムデータとして、例えば、ハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、分類プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、分類プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０分類装置
１１通信部
１２制御部
１２ａ取得部
１２ｂ抽出部
１２ｃ生成部
１２ｄ分類部
１３記憶部
１３ａキャプチャ画像記憶部
１３ｂ学習済みモデル記憶部
１３ｃ操作ログ記憶部
２０端末装置

Claims

端末装置の操作イベントの発生前および発生後の操作画面のキャプチャ画像を取得する取得部と、
前記取得部によって取得された前記キャプチャ画像を用いて、前記操作イベントの発生前と発生後において操作画面に起こった変化を差分画像として生成する生成部と、
前記生成部によって生成された前記差分画像を用いて、前記操作イベントで操作が行われたＧＵＩ部品の種類を分類する分類部と、
を備えることを特徴とする分類装置。
前記取得部は、前記キャプチャ画像を取得するとともに、操作画面上に表示されるカーソルの情報を取得し、該カーソルの情報を用いてカーソルの形状を特定し、
前記分類部は、前記生成部によって生成された前記差分画像と、前記取得部によって特定されたカーソルの形状とを用いて、前記操作イベントで操作が行われたＧＵＩ部品の種類を分類することを特徴とする請求項１に記載の分類装置。
前記分類部は、前記取得部によって取得された前記キャプチャ画像と前記生成部によって生成された前記差分画像とを入力として、前記操作イベントで操作が行われたＧＵＩ部品の種類を分類する学習済みモデルを用いて、各操作イベントで操作が行われたＧＵＩ部品の種類を分類することを特徴とする請求項１に記載の分類装置。
前記操作イベントの発生前のキャプチャ画像と発生後のキャプチャ画像とを比較し、差分が発生している場合には、当該操作イベントを抽出する抽出部をさらに有し、
前記生成部は、前記抽出部によって抽出された操作イベントの発生前と発生後において操作画面に起こった変化を差分画像として生成することを特徴とする請求項１に記載の分類装置。
分類装置が実行する分類方法であって、
端末装置の操作イベントの発生前および発生後の操作画面のキャプチャ画像を取得する取得工程と、
前記取得工程によって取得された前記キャプチャ画像を用いて、前記操作イベントの発生前と発生後において操作画面に起こった変化を差分画像として生成する生成工程と、
前記生成工程によって生成された前記差分画像を用いて、前記操作イベントで操作が行われたＧＵＩ部品の種類を分類する分類工程と
を含んだことを特徴とする分類方法。
端末装置の操作イベントの発生前および発生後の操作画面のキャプチャ画像を取得する取得ステップと、
前記取得ステップによって取得された前記キャプチャ画像を用いて、前記操作イベントの発生前と発生後において操作画面に起こった変化を差分画像として生成する生成ステップと、
前記生成ステップによって生成された前記差分画像を用いて、前記操作イベントで操作が行われたＧＵＩ部品の種類を分類する分類ステップと
をコンピュータに実行させることを特徴とする分類プログラム。