JP2021128784A

JP2021128784A - 端末操作システム、および、端末操作プログラム

Info

Publication number: JP2021128784A
Application number: JP2021067391A
Authority: JP
Inventors: 良司大津; Ryoji Otsu; 清一林; Seiichi Hayashi; 潤一高津; Junichi TAKATSU
Original assignee: CHINO GIJUTSU KK
Current assignee: CHINO GIJUTSU KK
Priority date: 2020-02-14
Filing date: 2021-04-12
Publication date: 2021-09-02
Also published as: JP6935887B2; JP2021128643A; WO2021162119A1

Abstract

【課題】簡便かつ安価な非接触式の入力を実現するための端末操作システム等を提供する。【解決手段】上記端末操作システム１００等は、操作用基準部Ｙおよび操作用基準部Ｙの周囲を含む画像データＧ中において、操作用基準部Ｙを中心とする１つの矩形の領域Ｒおよび領域Ｒの対角の座標Ｘが設定された教師データＫを複数取得し、教師データＫを用いて、入力された画像データＧにおける操作用基準部Ｙを中心とする１つの矩形の領域Ｒの対角の座標Ｘを出力する学習済みモデル１０を生成することで成立する。【選択図】図１

Description

本発明は、端末操作に用いられる学習済みモデル生成方法、学習済みモデル、プログラム、端末操作システム、および、端末操作プログラムに関する。

パーソナルコンピュータ等の端末を操作するデバイスとしては、従前より、キーボード、マウス、ペンタブレット等の多種多様なものが開発されている。

加えて、近年では、衛生面で非常に高いレベルが要求される医療従事者が端末を操作する際の入力装置として、非接触式の入力装置が提案されている（例えば、特許文献１）。

この非接触式入力装置にはカルテシアン座標システムが使用されており、端末を操作するオペレータ（例えば、手術を行う医師）は、端末の表示画面やマウス等の入力装置に直接接触することなく当該端末の操作を行うことができる。

これにより、手術中の医師等、非常に高い無菌環境が求められる医療従事者であっても端末の操作が可能となる。

特表２００９−５１７７２８号公報

しかしながら、従来の非接触式入力装置には非接触を実現するための特殊なハードウェアが必要であったことから、装置自身が大がかりなものとなり、これに伴って装置の費用も高額になってしまうという問題があった。

本発明は、このような課題に鑑みてなされたものであり、その目的は、簡便かつ安価な非接触式の入力を実現するための端末操作システム等を提供することにある。

本発明の一局面によれば、
操作用基準部および前記操作用基準部の周囲を含む画像データ中において、前記操作用基準部を中心とする１つの矩形の領域および前記領域の対角の座標が設定された教師データを複数取得し、
前記教師データを用いて、入力された画像データにおける操作用基準部を中心とする１つの矩形の領域の対角の座標を出力する学習済みモデルを生成する
学習済みモデル生成方法が提供される。

本発明の他の局面によれば、
操作用基準部および前記操作用基準部の周囲を含む画像データ中において、前記操作用基準部を中心とする１つの矩形の領域および前記領域の対角の座標が設定された複数の教師データを用いて機械学習により生成され、
入力された画像データにおける操作用基準部を中心とする１つの矩形の領域の対角の座標を出力する
学習済みモデルが提供される。

本発明の他の局面によれば、
操作用基準部および前記操作用基準部の周囲を含む画像データを取得し、
前記画像データを入力とし、前記画像データ中における前記操作用基準部を中心とする１つの矩形の領域の対角の座標を出力とする教師画像データを用いて学習させた学習済みモデルに、
取得した画像データを入力して、操作用基準部を中心とする１つの矩形の領域の対角の座標を出力する
処理をコンピュータに実行させるプログラムが提供される。

本発明の他の局面によれば、
操作用基準部および前記操作用基準部の周囲を含む画像データを連続的に撮像する撮像手段と、
教師画像データを入力とし、前記教師画像データ中における操作用基準部を中心とする１つの矩形の領域の対角の座標を出力とする教師画像データを用いて学習させた学習済みモデルを記憶する記憶手段と、
前記撮像手段から画像データを取得し、前記学習済みモデルを用いて前記画像データにおける操作用基準部を中心とする１つの矩形の領域の対角の座標を検出する検出手段と、
前記検出手段から送られてきた前記画像データにおける前記対角の座標に基づいて前記操作用基準部の座標を決定し、然る後、端末の表示画面において対応する表示画面座標を算出する座標処理手段と、
前記座標処理手段で算出された前記表示画面座標に基づいて、前記表示画面座標にフォーカスをする端末操作手段とを有する
端末操作システムが提供される。

好適には、
前記座標処理手段は、さらに、所定の時間間隔で取得された複数の前記画像データにおける前記領域の面積が最初に操作用基準部が識別された画像データにおける領域の初期面積と比較して所定の倍率以上になったか否かを判別する機能を有しており、
前記端末操作手段は、前記初期面積と比較して前記領域の面積が所定の倍率以上になったときに、前記端末に対して所定のイベントを実施させる。

本発明の他の局面によれば、
教師画像データを入力とし、前記教師画像データ中における操作用基準部を中心とする１つの矩形の領域の対角の座標を出力とする教師データを用いて学習させた学習済みモデルに対して、撮像手段によって撮像された、操作用基準部および前記操作用基準部の周囲を含む画像データを入力する入力ステップと、
前記学習済みモデルを用いて前記画像データにおける前記操作用基準部を中心とする１つの矩形の領域の対角の座標を検出する検出ステップと、
前記対角の座標に基づいて前記操作用基準部の座標を決定し、然る後、端末の表示画面において対応する表示画面座標を算出する座標処理ステップと、
算出された前記表示画面座標に基づいて、前記表示画面座標にフォーカスをする端末操作ステップとを有する
端末操作プログラムが提供される。

好適には、
前記座標処理ステップでは、さらに、所定の時間間隔で取得された複数の前記画像データにおける前記領域の面積が最初に操作用基準部が識別された画像データにおける領域の初期面積と比較して所定の倍率以上になったか否かを判別し、
前記端末操作ステップでは、さらに、前記初期面積と比較して前記領域の面積が所定の倍率以上になったときに、前記端末に対して所定のイベントを実施させる。

好適には、
前記フォーカスとは、ポインタを前記表示画面座標の位置に移動させることであり、
前記イベントとは、マウスのクリックおよびダブルクリックである。

本発明に係る端末操作システムによれば、単純な動画撮影ができるカメラを用いて、操作用基準部を動かすことにより、このようなカメラを標準的に備えている通常のノートＰＣ、スマートフォン、タブレット等の端末を非接触で操作することのできるシステムを提供できた。

本実施形態に係る端末操作システム１００を示す図である。画像データＧの一例を示す図である。本実施形態に係る学習済みモデル生成手段１１を示す図である。端末Ｔの一例を示す図である。

（学習済みモデル１０、および、それを用いた端末操作システム１００）
本発明が適用された実施形態に係る学習済みモデル１０、および、それを用いた端末操作システム１００について説明する。

本実施形態に係る端末操作システム１００は、図１に示すように、大略、学習済みモデル１０と、撮像手段２０と、制御手段３０と、記憶手段４０と、検出手段５０と、座標処理手段６０と、端末操作手段７０とで構成されている。

学習済みモデル１０は、図２に示すように、端末のオペレータの人差し指Ｙおよび当該人差し指Ｙの周囲を含む画像データＧの入力を受けて、当該画像データにおける人差し指Ｙを中心とする少なくとも１つの矩形の領域（以下、「矩形領域Ｒ」という。）の対角の座標Ｘ［Ｘ１，Ｙ１、Ｘ２，Ｙ２］を出力するものである。

なお、画像データＧに含まれるオペレータの人差し指Ｙの向きは、上向きでも、下向きでも、その他いずれの方向を向いていてもよい。撮像手段２０に対して、人差し指Ｙを異なる位置、異なる角度、異なる距離、異なる側面といったように、人差し指Ｙの見え方を様々に変えて撮像した画像データＧを機械学習に用いるのが好適である。

この学習済みモデル１０は、図３に示すような学習済みモデル生成手段１１を用いて生成される。学習済みモデル生成手段１１は、例えば、教師データ生成部１２と、学習済みモデル生成部１３と、学習済みモデル記憶部１４と、出力部１５とを有している。

教師データ生成部１２は、オペレータの人差し指Ｙおよび当該人差し指Ｙの周囲を含む画像データＧの入力を受けた後、当該画像データＧに人差し指Ｙを中心とする１つの矩形領域Ｒおよび当該矩形領域Ｒの対角の座標Ｘを設定することにより、教師データＫを生成する。また、教師データ生成部１２は、生成した教師データＫを学習済みモデル生成部１３へ出力する。

学習済みモデル生成部１３は、教師データ生成部１２で生成された教師データＫを用いて学習済みモデル１０を生成し、生成した学習済みモデル１０を学習済みモデル記憶部１４に出力する。

教師データＫを用いた学習済みモデル１０の生成には、公知の機械学習手法が使用される。機械学習手法としては、例えば、機械学習フレームワークのPyTorchを挙げることができる。このPyTorchを利用して、シングルショットディテクター（ＳＳＤ）にＶＧＧ１６のネットワークを組み合わせて人差し指Ｙの特徴量と位置検出方法を学習させる。学習済みモデル１０は、学習により得られた人差し指Ｙの特徴情報を持っている。もちろん、機械学習手法はこれに限定されるものではなく、上述した「PyTorch」の代わりに「Keras」、「ＳＳＤ」の代わりに「Keras Retinanet」、「ＶＧＧ１６」の代わりに「mobilenet」をそれぞれ任意に使用してもよい。

この学習済みモデル１０を使用すると、ＳＳＤが撮像手段２０から送られてきた画像データＧから人差し指Ｙの特徴量を持つピクセル上の位置を特定し、対角の座標Ｘ［Ｘ１，Ｙ１、Ｘ２，Ｙ２］によって囲まれる矩形領域Ｒを検出位置として出力する。

また、この学習済みモデル１０は、対角の座標Ｘに加えて、当該矩形領域Ｒに含まれる物体の特徴量と、学習済みモデル１０内にある人差し指Ｙの特徴量との一致度合いを「確度」として０から１００の数値で出力するようになっている。「確度」の数値が大きいほど、矩形領域Ｒに含まれる物体の特徴量と、学習済みモデル１０内にある人差し指Ｙの特徴量との一致度合いが高いことを意味している。

学習済みモデル記憶部１４は、学習済みモデル生成部１３で生成された学習済みモデル１０を記憶する。

出力部１５は、学習済みモデル記憶部１４に記憶されている学習済みモデル１０を取得し、取得した学習済みモデル１０を端末操作システム１００の記憶手段４０に出力する。学習済みモデル生成手段１１から記憶手段４０への学習済みモデル１０の出力は、例えば、学習済みモデル生成手段１１に対するオペレータの指示に基づいて行われる。

次に、図４に示すように、撮像手段２０は、オペレータの指Ｙおよびその指Ｙの周囲を含む画像データＧを撮像するものであり、例えば、通常のノートＰＣ、スマートフォン、タブレット等の端末Ｔに標準的に備えられている、単純な動画撮影ができるカメラが考えられる。当該カメラと端末Ｔとの接続方式も特に限定されるものではなく、内蔵型やＵＳＢ接続型等どのような方式であってもよい。また、ＰＬＣ(Programmable Logic Controller)等の専用機に後付けしたカメラ等であってもよい。

制御手段３０は、記憶手段４０あるいは外部の記憶媒体に記憶されている端末操作プログラム２００を実行することにより、後述する各種のステップを実行する手段である。本実施形態の場合、制御手段３０は、オペレータが操作する端末Ｔに内蔵されたＣＰＵである。

記憶手段４０は、端末操作システム１００を動作させる端末操作プログラム２００や、学習済みモデル１０等を記憶する手段である。本実施形態の場合、記憶手段４０は、オペレータが操作する端末Ｔに内蔵されたハードディスクドライブである。なお、記憶手段４０は、各種のＲＡＭ（Random Access Memory）、各種のＲＯＭ（Read-Only Memory）、フラッシュメモリーなどによって実現される。また、記憶手段４０は、インターフェイスを介して利用される、ＵＳＢ（Universal Serial Bus）（登録商標）メモリ、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、メモリカード、ソリッドステートドライブ、ＩＣ（Integrated Circuit）カード、光カード、マスクＲＯＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electronically Erasable Programmable Read-Only Memory）などの記憶媒体などによっても実現される。

検出手段５０は、端末操作システム１００を動作させる端末操作プログラム２００によって実現される手段であり、撮像手段２０から画像データＧを連続的に取得し、学習済みモデル１０を用いて各画像データＧにおけるオペレータの指Ｙを中心とする１つの矩形領域Ｒの対角の座標Ｘを検出させるとともに、「確度」の値を出力する。

このとき、学習済みモデル１０から出力された「確度」の値が、予め任意に設定しておいた設定値（例えば、「７０」等）以下である場合、検出手段５０は当該画像データＧを破棄して、撮像手段２０から次の画像データＧを受け取る。

逆に、学習済みモデル１０から出力された「確度」の値が、予め任意に設定しておいた設定値よりも大きい場合、検出手段５０は、対角の座標Ｘが設定された画像データＧを座標処理手段６０に送る。

座標処理手段６０も、端末操作システム１００を動作させる端末操作プログラム２００によって実現される手段であり、検出手段５０から送られてきた画像データＧにおける対角の座標Ｘに基づいて、端末Ｔの表示画面Ｍ（図４を参照）において対応する座標（以下、「表示画面座標」という。）を算出する。

座標処理手段６０は、予め、撮像手段２０によって取得される画像データＧの解像度と、端末Ｔの表示画面Ｍの解像度とを取得しておき、両解像度に基づいて画像データＧの四隅の座標と、対応する表示画面Ｍの四隅の座標とが一致するように設定しておく。例えば、画像データＧの解像度がＶＧＡ（６４０，４８０）であり、端末Ｔの表示画面Ｍの解像度がフルＨＤ（１９２０，１０８０）である場合、画像データＧにおけるＸ座標の値を３倍した値（１９２０÷６４０＝３）を表示画面ＭのＸ座標の値とし、画像データＧにおけるＹ座標の値を２．２５倍した値（１０８０÷４８０＝２．２５：端数は切り上げ等して整数にする）を表示画面ＭのＹ座標の値として互いの座標が一致するようにしておく。

このように予め設定しておくことにより、座標処理手段６０は、検出手段５０から送られてきた画像データＧにおける対角の座標Ｘに基づいて人差し指Ｙの座標を決定し、然る後、端末Ｔの表示画面Ｍにおいて対応する座標（以下、「表示画面座標」という。）を算出することができる。

端末操作手段７０は、端末操作システム１００を動作させる端末操作プログラム２００によって実現される手段であり、座標処理手段６０で算出された表示画面座標に基づいて、端末Ｔの表示画面Ｍにおける当該表示画面座標にポインタを表示させる。

（端末操作システム１００における端末操作プログラム２００の動作）
次に、本実施態様に係る端末操作システム１００における端末操作プログラム２００の動作について説明する。なお、オペレータの人差し指Ｙおよび当該人差し指Ｙの周囲を含む画像データＧ中において、人差し指Ｙを中心とする１つの矩形領域Ｒおよび当該矩形領域Ｒの対角の座標Ｘが設定された教師データＫを複数取得し、これら教師データＫを用いた公知の機械学習手法により、入力された画像データＧにおける人差し指Ｙを中心とする１つの矩形領域Ｒの対角の座標Ｘを出力する学習済みモデル１０が生成されている。

最初に、端末操作システム１００における端末操作プログラム２００は、撮像手段２０によって撮像された、オペレータの人差し指Ｙおよびその人差し指Ｙの周囲を含む画像データＧを、検出手段５０を介して記憶手段４０の学習済みモデル１０に入力する。（入力ステップ）

然る後、検出手段５０により、当該学習済みモデル１０から受け取った、当該画像データＧにおける人差し指Ｙを中心とする１つの矩形領域Ｒおよび当該矩形領域Ｒの対角の座標Ｘ、および、「確度」の値が設定された画像データＧを受け取り、当該「確度」の値が、予め任意に設定しておいた設定値以下である場合は当該画像データＧを破棄して、撮像手段２０から次の画像データＧを受け取る。逆に、当該「確度」の値が予め任意に設定しておいた設定値よりも大きい場合、対角の座標Ｘが設定された画像データＧを次のステップに送る。（検出ステップ）

そして、座標処理手段６０により、予め取得しておいた画像データＧの解像度と端末Ｔの表示画面Ｍの解像度とに基づいて、画像データＧにおける対角の座標Ｘから端末Ｔの表示画面Ｍにおいて対応する表示画面座標を算出する。（座標処理ステップ）

最後に、端末操作手段７０により、算出された表示画面座標に基づいて、端末Ｔの表示画面Ｍにおける当該表示画面座標にポインタを表示させる。（端末操作ステップ）

（端末操作システム１００の特徴）
本実施形態に係る端末操作システム１００によれば、単純な動画撮影ができるカメラを用いて、オペレータが自身の人差し指Ｙを動かすことにより、このようなカメラを標準的に備えている通常のノートＰＣ、スマートフォン、タブレット等の端末を非接触で操作することのできるシステムを提供できる。

（変形例１）
上述した実施形態では、端末操作システム１００の座標処理手段６０において、連続的に取得された複数の画像データＧから人差し指Ｙを中心とする矩形領域Ｒの対角の座標Ｘに基づいて、端末Ｔの表示画面Ｍにおける対応する表示画面座標にポインタを表示させるようになっていたが、これに加えて、カメラに対して人差し指Ｙを前後させる動きを識別させてもよい。

具体的には、座標処理手段６０に対して、さらに、所定の時間間隔で取得された複数の画像データＧにおける矩形領域Ｒの面積（すなわち、人差し指Ｙの大きさ）が、最初に人差し指Ｙが識別された画像データＧにおける矩形領域Ｒの面積（以下、「初期面積」という。）と比較して所定の倍率（例えば、１．５倍から２倍）以上になったか否かを判別する機能を付加する。

矩形領域Ｒの面積を算出する手法としては、例えば、画像データＧで検出された対角の座標Ｘ［Ｘ１，Ｙ１、Ｘ２，Ｙ２］を用いて、（Ｘ２−Ｘ１）＋（Ｙ２−Ｙ１）を算出することで、つまり矩形領域Ｒの全周長の半分を算出することで当該面積の指標とすることが考えられる。もちろん、矩形領域Ｒの面積を算出する手法はこれに限定されるものではなく、他の手法を用いてもよい。

そして、初期面積と比較して矩形領域Ｒの面積が所定の倍率以上になったとき、端末操作手段７０が端末Ｔに対して所定のイベント（例えば、マウスの「クリック」に相当するイベントや「ダブルクリック」に相当するイベント等）を実行させる。

これにより、端末操作システム１００は、オペレータによる端末Ｔのポインタの移動だけでなく、さらに別の操作を提供することができる。

（変形例２）
上述した実施形態では、座標処理手段６０において、予め、撮像手段２０によって取得される画像データＧの解像度と、端末Ｔの表示画面Ｍの解像度とを取得しておき、両解像度に基づいて画像データＧの四隅の座標と、対応する表示画面Ｍの四隅の座標とが一致するように設定しておき、検出手段５０から送られてきた画像データＧにおける対角の座標Ｘに基づいて人差し指Ｙの座標を決定し、然る後、端末Ｔの表示画面Ｍにおいて対応する表示画面座標を算出することにより、当該表示画面座標の位置にポインタを表示させるようにしていた。つまり、人差し指Ｙの座標とポインタを表示させる座標とを一対一に対応させていたが、これに変えて、ポインタを「差分」で移動させるようにしてもよい。

具体的には、最初に人差し指Ｙが識別された画像データＧにおける対角の座標Ｘに基づいて人差し指Ｙの座標を決定し、端末Ｔの表示画面Ｍにおいて対応する表示画面座標を算出して当該位置にポインタを表示させる。そして、次の画像データＧにおける対角の座標Ｘに基づいて人差し指Ｙの座標を決定したとき、ひとつ前の画像データＧにおける人差し指Ｙの座標との「位置の差」を算出する。然る後、端末操作手段７０にて、現在のポインタの座標から当該「位置の差」だけずれた位置にポインタの位置を移動させる。

これにより、撮像手段２０によって取得される画像データＧの解像度と、端末Ｔの表示画面Ｍの解像度とを取得しておき、両解像度に基づいて画像データＧの四隅の座標と、対応する表示画面Ｍの四隅の座標とが一致するように設定せず、画像データＧの解像度よりも端末Ｔの表示画面Ｍの解像度の方が大きい場合において、表示画面Ｍの端部にポインタを移動させる際、画像データＧの端まで人差し指Ｙを移動させた後で当該人差し指Ｙを一旦撮像手段２０の撮像範囲外に出し、然る後、人差し指Ｙを再度撮像手段２０の撮像範囲の略中央部（画像データＧの略中央部）から移動させることにより、表示画面Ｍの端部までポインタを移動させることができるようになる。

（変形例３）
上述した各実施形態では、本発明を利用して端末Ｔのポインタを移動させたり、さらに別の操作（例えば、マウスの「クリック」に相当するイベントや「ダブルクリック」に相当するイベント等）を実行させたりする例を示したが、これに限定されることなく、マウスの操作以外で、本発明を端末Ｔの表示画面Ｍ上の点にフォーカスする操作、および、フォーカスした点で何らかのイベントを実行させる入力手段として使用してもよい。

（変形例４）
上述した各実施形態では、学習済みモデル１０が矩形領域Ｒの対角の座標Ｘを検出するとともに、「確度」の値を出力するようになっていたが、「確度」の値の出力をすることなく、矩形領域Ｒの対角の座標Ｘを検出するだけでもよい。

（変形例５）
上述した各実施形態では、端末Ｔを操作するために端末操作システム１００が検出する「操作用基準部」の例としてオペレータの人差し指Ｙを使用していたが、「操作用基準部」はこれに限定されるものではなく、例えば、人差し指以外の指であったり、手袋を装着した状態の指であったり、ペンの先端部であったり、特定の形状をした棒の先端部であったり、特定形状の図形であったり、どのようなものであってもよい。

今回開示された実施形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１０…学習済みモデル、１１…学習済みモデル生成手段、１２…教師データ生成部、１３…学習済みモデル生成部、１４…学習済みモデル記憶部、１５…出力部
２０…撮像手段
３０…制御手段
４０…記憶手段
５０…検出手段
６０…座標処理手段
７０…端末操作手段
１００…端末操作システム
２００…端末操作プログラム
Ｔ…端末、Ｙ…オペレータの人差し指、Ｒ…矩形領域、Ｘ…対角の座標、Ｇ…画像データ、Ｋ…教師データ、Ｍ…表示画面

Claims

操作用基準部および前記操作用基準部の周囲を含む画像データを連続的に撮像する撮像手段と、
教師画像データを入力とし、前記教師画像データ中における操作用基準部を中心とする１つの矩形の領域の対角の座標を出力とする教師画像データを用いて学習させた学習済みモデルを記憶する記憶手段と、
前記撮像手段から画像データを取得し、前記学習済みモデルを用いて前記画像データにおける操作用基準部を中心とする１つの矩形の領域の対角の座標、および、前記学習済みモデル内の前記操作用基準部の特徴量と入力された前記操作用基準部の特徴量との一致度合いを示す確度の値を検出する検出手段と、
前記検出手段から送られてきた前記画像データにおける前記対角の座標に基づいて前記操作用基準部の座標を決定し、然る後、端末の表示画面において対応する表示画面座標を算出する座標処理手段と、
前記座標処理手段で算出された前記表示画面座標に基づいて、前記表示画面座標にフォーカスをする端末操作手段とを有しており、
前記撮像手段によって連続的に撮像された前記画像データ毎に、前記記憶手段、前記検出手段、前記座標処理手段、および前記端末操作手段による作業が実施されることを特徴とする
端末操作システム。
前記座標処理手段は、さらに、所定の時間間隔で取得された複数の前記画像データにおける前記領域の面積が最初に操作用基準部が識別された画像データにおける領域の初期面積と比較して所定の倍率以上になったか否かを判別する機能を有しており、
前記端末操作手段は、前記初期面積と比較して前記領域の面積が所定の倍率以上になったときに、前記端末に対して所定のイベントを実施させることを特徴とする
請求項１に記載の端末操作システム。
前記フォーカスとは、ポインタを前記表示画面座標の位置に移動させることであり、
前記イベントとは、マウスのクリックおよびダブルクリックであることを特徴とする
請求項２に記載の端末操作システム。
教師画像データを入力とし、前記教師画像データ中における操作用基準部を中心とする１つの矩形の領域の対角の座標を出力とする教師データを用いて学習させた学習済みモデルに対して、撮像手段によって撮像された、操作用基準部および前記操作用基準部の周囲を含む画像データを入力する入力ステップと、
前記学習済みモデルを用いて前記画像データにおける前記操作用基準部を中心とする１つの矩形の領域の対角の座標、および、前記学習済みモデル内の前記操作用基準部の特徴量と入力された前記操作用基準部の特徴量との一致度合いを示す確度の値を検出する検出ステップと、
前記対角の座標に基づいて前記操作用基準部の座標を決定し、然る後、端末の表示画面において対応する表示画面座標を算出する座標処理ステップと、
算出された前記表示画面座標に基づいて、前記表示画面座標にフォーカスをする端末操作ステップとを有しており、
連続的に撮像された前記画像データ毎に、前記入力ステップ、前記検出ステップ、前記座標処理ステップ、および、前記端末操作ステップが実施されることを特徴とする
端末操作プログラム。
前記座標処理ステップでは、さらに、所定の時間間隔で取得された複数の前記画像データにおける前記領域の面積が最初に操作用基準部が識別された画像データにおける領域の初期面積と比較して所定の倍率以上になったか否かを判別し、
前記端末操作ステップでは、さらに、前記初期面積と比較して前記領域の面積が所定の倍率以上になったときに、前記端末に対して所定のイベントを実施させることを特徴とする
請求項４に記載の端末操作プログラム。
前記フォーカスとは、ポインタを前記表示画面座標の位置に移動させることであり、
前記イベントとは、マウスのクリックおよびダブルクリックであることを特徴とする
請求項５に記載の端末操作プログラム。