JP2023527906A

JP2023527906A - 制御方法、装置、端末および記憶媒体

Info

Publication number: JP2023527906A
Application number: JP2022574219A
Authority: JP
Inventors: ▲遅▼ 方; 笑王
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2021-06-04
Publication date: 2023-06-30
Anticipated expiration: 2041-06-04
Also published as: EP4149116A1; EP4149116A4; CN111601129B; JP7514331B2; WO2021244650A1; CN111601129A; US20230093983A1

Abstract

本開示は、コンピュータ技術の分野に関するものであり、特に、制御方法、装置、端末、および記憶媒体に関する。本開示の実施例に係る制御方法は、画像を受信することと、画像からユーザの第１の部位の位置情報と第２の部位の姿勢情報とを取得することと、第１の部位の位置情報に基づいてナビゲーション標識の移動軌跡を特定することと、第２の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することとを含む。

Description

［関連出願の相互参照］
本出願は、２０２０年０６月０５日付けで出願された、発明の名称が「制御方法、装置、端末及び記憶媒体」である中国特許出願第２０２０１０５０７２２２．８号の優先権を主張して出願されたものであり、当該中国特許出願の全ての内容はここで参照により本出願に援用される。

［技術分野］
本開示は、コンピュータ技術の分野に関するものであり、特に、制御方法、装置、端末および記憶媒体に関する。

スマートテレビは、多種多様な番組やアプリを搭載してユーザが選択し視聴できるようになり、従来のテレビに代わって広く使われている。従来のスマートテレビはリモコンで制御され、一般的に、上下左右の４つの方向キーしか選択方向を制御することができず、インタラクティブの効率が悪く、時間および工夫を要していた。

簡単な形式で構想を説明するためにこの発明の概要を提供する。これらの構想は、後述の具体的な実施例の部分で詳細に説明される。当該発明の内容の部分は、特許請求する発明の重要な特徴又は必要な特徴を標識することを目的とするものではなく、特許請求する発明の範囲を制限することを目的とするものでもない。

本開示の１つまたは複数の実施例によれば、
画像を受信することと、
前記画像からユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得することと、
前記第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することと、
前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することと、を含む制御方法が提供される。

本開示の１つまたは複数の実施例によれば、
画像を受信することと、
前記画像からユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得することと、
第１の部位の位置情報に基づいてナビゲーション識別子が指す制御対象要素を特定することと、
前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定することと、
を含む制御方法が提供される。

本開示の１つまたは複数の実施例によれば、
画像を受信するデータ受信部と、
前記画像に基づいて、ユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得する取得認識部と、
前記第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する移動軌跡部と、
前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する制御指令部と、を含む
制御装置が提供される。

本開示の１つまたは複数の実施例によれば、
画像を受信するデータ受信部と、
前記画像に基づいて、ユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得する取得認識部と、
第１の部位の位置情報に基づいてナビゲーション識別子の位置情報を特定する、及び／又は、前記第１の部位の位置情報及び／又は第２の部位の所定の姿勢に基づいて制御対象要素を移動させる移動軌跡部と、
前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定する制御指令部と、を含む制御装置が提供される。

本開示の１つまたは複数の実施例によれば、
端末が提供され、
該端末は、少なくとも１つのメモリおよび少なくとも１つのプロセッサを含み、
前記メモリがプログラムコードを格納するために使用され、前記プロセッサがメモリに格納されたプログラムコードを呼び出すために使用されることにより、本開示の１つまたは複数の実施例による制御方法を前記端末に実行させる。

本開示の１つまたは複数の実施例によれば、コンピュータ記憶媒体が提供され、前記コンピュータ記憶媒体にはプログラムコードが記憶され、前記プログラムコードがコンピュータ装置により実行される場合、本開示の１つまたは複数の実施例に係る制御方法を前記コンピュータ装置に実行させることを特徴とする。

本開示の１つまたは複数の実施例に係る制御方法によれば、前記第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定し、前記第２の部位の姿勢情報に基づいて制御指令を特定することにより、制御指令の特定とナビゲーション識別位置の特定とを分離させる。制御指令の特定は静的な姿勢情報に基づくものであり、ナビゲーション識別位置の特定は動的な位置変化に基づくものであるため、異なる特性のアルゴリズムを用いて上記２つのプロセスを個別に決定することにとって都合が良い。一方で、制御指令の特定とナビゲーション識別位置の特定とは、ユーザの異なる身体部位に基づくものであるため、両者の特定プロセスが互いに影響を受けないようにすることができ、特に、第１の部位の輪郭形状が第２の部位の姿勢に伴って変化することがなく、ジェスチャーの変化がナビゲーション識別子の動きに影響を及ぼすことを回避することができるため、ユーザ指令の認識精度を向上させることができる。

図面と併せて以下の具体的な実施例を参照して、本開示の実施例の上記および他の特徴、利点、および態様がより明らかになる。以下の図面において、同一又は類似の符号は、同一又は類似の要素を表す。図面は模式的なものであり、部品及び要素は実際の縮尺通りに描かれているとは限らないことが理解されるべきである。

本開示の一実施例に係る制御方法のフローチャートを示す図である。本開示の一実施例に係る制御方法が遠視野表示装置を制御する場面を示す概略図である。本開示の他の実施例に係る制御方法のフローチャートを示す。本開示の１つまたは複数の実施例に係る制御装置の構成模式図である。本開示の実施例を実現するための端末装置の構成模式図である。

以下、図面を参照しながら、本開示の実施例についてより詳細に説明する。本開示のいくつかの実施例が図面に示されているが、本開示は様々な形態で実現可能であって、ここに記載される実施例に限定されるものとして解釈されるべきではなく、むしろ、本開示をより明瞭かつ完全に理解するためにこれらの実施例が提供されることが理解されるべきである。本開示の図面および実施例は、例示的なものだけであり、本開示の技術的範囲を制限するために使用されるものではないことが理解されるべきである。

本開示の方法の実施形態に記載された各ステップは、異なる順序で実行され、および／または並行して実行されてもよいことが理解されるべきである。さらに、方法の実施形態は、追加のステップを含むことができ、および／または示されたステップの実行を省略することができる。本開示の範囲は、この点において限定されない。

本明細書で使用される用語である「含む」およびその変形は、オープンな包含、すなわち「包含するが、限定されるものではない」ことを意味する。用語「基づく」は、「少なくとも部分的に基づく」ことを意味する。用語「１つの実施例」は、「少なくとも１つの実施例」を意味する。用語「別の実施例」は、「少なくとも１つの追加の実施例」を意味する。用語「いくつかの実施例」は、「少なくともいくつかの実施例」を意味する。他の用語の関連の定義は、以下の説明で与えられる。

本開示で言及されている「第１の」、「第２の」などの概念は、異なるデバイス、モジュール、またはユニットを区別するためにのみ使用され、これらのデバイス、モジュール、またはユニットによって実行される機能の順序または相互依存関係を規定するものではないことに留意されたい。

なお、本開示で言及されている「１つの」、「複数の」の言葉は、限定的ではなく概略的なものであり、文脈において別段の明示的な記載がない限り、「１つまたは複数の」と理解されるべきであることは、当業者に理解されることである。

本開示の実施形態における複数のデバイス間でやりとりされるメッセージまたは情報の名称は、単に説明の目的のために使用されるものであり、これらのメッセージまたは情報の範囲を制限するために使用されるものではない。

図１を参照する。図１は、本開示の一実施例に係る制御方法１００のフローチャートを示す。該方法１００は、遠隔視野表示装置を含んでもよいが、これに限定されない端末装置に使用することができ、遠隔視野表示装置とは、ユーザが身体の部位による直接の接触又はタッチペンなどの物理的制御装置による接触制御を行うことができない表示装置を指し、テレビ、会議用スクリーンのような電子装置を含むが、これに限定されない。具体的には、方法１００は、ステップＳ１０１～ステップＳ１０４を含む。

ステップＳ１０１：撮像装置によって取得された画像を受信する。

ここで、撮像装置は、端末装置に内蔵または外付けされていてもよく、撮像された画像データをリアルタイムで端末装置に送信して処理することができる。有利なことには、撮像装置は、ユーザが端末装置に対して行った手足による指示を捕捉するように、ユーザに正対面するように配置されることができる。

なお、他のいくつかの実施例では、他の方法で画像を受信してもよく、または他の装置によって取り込まれた画像または送信された画像を受信してもよく、本開示はここで限定されない。

ステップＳ１０２：画像からユーザの第１の部位の位置情報および第２の部位の姿勢情報を取得する。

ここで、第１の部位および第２の部位は、手、腕など、ユーザの身体部位である。第１の部位の位置情報とは、画像における第１の部位の位置、又は制御対象とする端末装置に対する第１の部位の位置情報をいう。第２の部位の姿勢情報とは、第２の部位が所在する形態、例えばジェスチャーなどである。

例として、前記画像中のユーザの第１の部位の位置情報と第２の部位の姿勢情報とを取得することができる。

ステップＳ１０３：第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。

ここで、ナビゲーション識別子は、表示インターフェース上の視覚要素を選択および制御するために使用される。ナビゲーション識別子は、Ｗｉｎｄｏｗｓ（登録商標）システムのマウスポインタなどのアイコンで表すことができる。ナビゲーション識別子を非表示にしたり、視覚要素をハイライトしたり、その他のアニメーション効果を生成したりすることで視覚要素が選択されていることを示すことができる。ナビゲーション識別子の移動軌跡は、ナビゲーション識別子の移動の変位および方向を反映する１つまたは１組の移動ベクトルを含む。ナビゲーション識別子の移動軌跡は、ユーザの第１の部位の位置情報によって決定される。

例として、第１の部位の位置情報からナビゲーション識別子が指す制御対象要素を特定することができる。例えば、制御対象装置に対する第１の部位の位置情報に基づいて、制御対象装置上のナビゲーション識別子の位置および／または移動軌跡を特定し、前記位置および／または移動軌跡に基づいて、ナビゲーション識別子が指す制御対象要素を特定する。

ステップＳ１０４：第２の部位の姿勢情報から、ナビゲーション識別子が指す視覚要素を制御するための制御指令を特定する。

ここで、ナビゲーション識別子の制御指令はナビゲーション識別子で指される視覚要素に対する制御あるいは実行する操作であり、視覚要素に対するクリック、軽く触れること、長押し、拡大、縮小、回転などを含む。いくつかの実施例では、各第２の部位の姿勢情報と制御指令とのマッピング関係を予め設定しておき、該マッピング関係から、取得した第２の部位の姿勢情報に対応する制御指令を特定することができる。

このように、本開示の実施例に係る制御方法によれば、前記第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定し、前記第２の部位の姿勢情報に基づいて制御指令を特定することにより、制御指令の特定とナビゲーション識別子の位置決定とを分けて行う。制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置決定は、動的な位置変化に基づいて行われ、さらに、異なる特性のアルゴリズムを用いて上記の２つのプロセスを別々に特定するために便利な条件を提供することができる。例として、制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置決定は動的に変化する位置情報に基づいて行われるため、上述の２種類の異なる計算特性に対して、対応する特性を持つ計算モジュールを用いてそれぞれ第１の部位の位置情報と第２の部位の姿勢情報とを計算することにより、情報取得の適合性を高め、計算の精度および計算リソースの利用率を高めることができる。一方で、制御指令の特定とナビゲーション識別子の位置の特定とは、ユーザの異なる身体部位に基づくため、両者の特定プロセスが互いに影響を受けないようにすることができ、特に、第１の部位の輪郭形状が第２の部位の姿勢に伴って変化することがないため、ジェスチャーの変化がナビゲーション識別子の動きに影響を及ぼすことを回避することができ、ユーザ指令の認識精度を向上させることができる。

いくつかの実施例では、第１の部位および前記第２の部位は、同じユーザの異なる身体部位である。第１の部位と第２の部位とは包含関係になく、例えば、第２の部位が手である場合、第１の部位は手首、肘であり、指ではない。本開示の実施例は、ユーザの異なる身体部位によって、ナビゲーション識別子の移動軌跡と制御指令とをそれぞれ特定することにより、ユーザが第１の部位の位置を変更した場合に制御指令の確認に影響を与えたり、ユーザが第２の部位の姿勢を変更した場合にナビゲーション識別子の移動軌跡の確認に影響を与えたりすることを防止することができる。

いくつかの実施例では、前記第２の部位の位置は、前記第１の部位の位置の変化に追従して変化することができる。前記第１の部位自体の位置または姿勢は、前記第２の部位の姿勢に影響を及ぼさない。このようにして、第２の部位の位置は第１の部位の位置に追従して変化するため、第１の部位と第２の部位とが互いに関連する空間内で活動できるようにする。両者の空間距離が大きすぎることに起因して撮像装置が撮像範囲の制限によって第１の部位と第２の部位とを同時に撮像することが困難になることを回避し、第１の部位と第２の部位とを用いた制御対象要素の制御の成功率および操作性を向上させる。また、第１の部位の位置及び／又は姿勢の変化が第２の部位の姿勢に影響を与えることがないため、第２の部位の姿勢に基づく制御指令の生成の精度を向上させることができ、これにより、ナビゲーション識別子の位置制御及び制御指令の発行を正確かつ容易に行うことができる。

いくつかの実施例では、第１の部位は手であり、第２の部位は手首である。本開示の実施例では、手首はジェスチャーの変位を正確かつ安定して反映することができ、指や手のひらなどの部位よりもジェスチャーの変化の影響を受けにくく、ナビゲーション識別子の移動の正確な制御を実現することができる。また、手首の動きがジェスチャーに影響を与えないため、制御指令を容易かつ正確に行うことができる。

いくつかの実施例では、ステップＳ１０２はさらに以下のことを含む：
ステップＡ１：第１の計算モジュールによって前記画像からユーザの第１の部位の位置情報を取得する。

ステップＡ２：第２の計算モジュールによって前記画像からユーザの第２の部位の姿勢情報を取得する。

制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置の特定は、動的な位置変化に基づいて行われるため、本実施例では、特性の異なる計算モジュールを用いて、第１の部位の位置情報と第２の部位の姿勢情報とをそれぞれ計算することにより、情報取得の適合性を高め、計算精度および計算リソースの利用率を向上させることができる。

いくつかの実施例では、第１の計算モジュールは第１の機械学習モデルを実行し、第２の計算モジュールは第２の機械学習モデルを実行する。第１および第２の機械学習モデルは、ユーザの第１の部位および第２の部位を確実に識別するように訓練される。訓練した機械学習モデルを用いて第１の部位の位置情報と第２の部位の姿勢情報とを特定することで、認識精度を向上させ、計算リソースおよびハードウェアのコストを削減することができる。

いくつかの実施例では、ステップＳ１０４は、さらに以下のことを含む：
ステップＢ１：前記第２の部位の姿勢情報が所定の第１の姿勢に合致している場合、前記第２の部位の姿勢情報に基づいて前記制御要素を制御する。

ここで、第１の姿勢は、１つまたは複数の所定の手形状を含むことができる。

いくつかの実施例では、ステップＳ１０４は、さらに以下のことを含む：
ステップＢ２：前記第２の部位の姿勢情報が所定の第１の姿勢に合致しない場合、前記制御対象要素を制御しない。

本発明の実施例では、第２の部位の姿勢情報が所定の第１の姿勢に合致しない場合には、第１の部位の位置情報のみに基づいてナビゲーション識別子を移動させる。

いくつかの実施例では、ステップＳ１０２は、さらに以下のことを含む：
ステップＣ１：前記画像における第１の部位のキーポイントを特定する。

ステップＣ２：前記画像における第１の部位のキーポイントの位置から、前記第１の部位の位置情報を特定する。

いくつかの実施例では、方法１００はさらに以下のことを含む：
ステップＳ１０５：少なくとも２つのフレームの対象画像から取得された第１の部位の位置情報に基づいて、ナビゲーション識別子が指す視覚要素を制御する。例として、少なくとも２つのフレームの対象画像から取得する第１の部位の位置変化情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御することができる。ここで、ナビゲーション識別子が指す制御対象要素を制御する方法は、例えばアプリケーションインターフェース、アイコン、または他のコントロールなどを移動またはスクロールすることなど、制御デバイス上での制御対象要素の移動を移動またはスクロールの方式で制御することを含むが、これらに限定されるものではない。

ここで、少なくとも２つのフレームの対象画像を特定する方法は、以下のステップを含む：
ステップＤ１：前記第２の部位の姿勢情報が所定の第２の姿勢に合致する場合、前記第２の部位の姿勢情報に対応する画像を対象画像とする。

ステップＤ２：連続する複数のフレームの前記対象画像から少なくとも２つのフレームの対象画像を選択する。

本開示の１つまたは複数の実施例によれば、対象画像は、姿勢情報が第２の姿勢に合致する画像であり、姿勢情報が第２の姿勢に合致するときに、第１の部位の位置変化を視覚要素のスクロール効果に変換することをトリガすることによって、ユーザがナビゲーション識別子を制御して視覚要素をスクロールできるようにして、インタラクティブ効率を向上させる。ここで、第２の姿勢は、１つまたは複数の予め設定された手形状を含むことができる。例として、第１の部位の位置情報および／または第２の部位の所定の姿勢に基づいて、制御対象要素を移動させて、ナビゲーション識別子が指す制御対象要素を特定することができる。

いくつかの実施例では、ステップＳ１０５はさらに以下のことを含む：
ステップＥ１：前記少なくとも２つのフレームの対象画像から取得された第１の部位の位置情報に基づいて、第１の部位の動き情報を特定する。

ステップＥ２：前記第１の部位の動き情報に基づいて前記視覚要素をスクロールする。

第１の部位の動き情報は、第１の部位の動き時間、第１の部位の動き速度、第１の部位の動き変位、第１の部位の動き加速度の１つ以上を含む。本実施例では、位置情報から動き情報を特定することにより、視覚要素をスクロールするために必要な初期パラメータおよび条件を実現し、視覚要素の関連するスクロールパラメータを特定することができる。

いくつかの実施例では、ステップＥ２はさらに以下のことを含む：
前記第１の部位の動き情報が所定の動き条件を満たすか否かを判定する。

そうであれば、前記第１の部位の動き情報に基づいて視覚要素のスクロール方向およびスクロール距離を特定する。

いくつかの実施例では、前記第２の姿勢は、所定の数の指の開きである。例として、第２の姿勢は、５本の指の開きである。スクロール操作では、通常、ジェスチャーの移動速度が速いことを要求するが、高速移動の場合には、所定の数の指の開きが他のジェスチャーよりも認識しやすくなり、認識精度を向上させることができる。

いくつかの実施例において、ステップＳ１０３は、さらに、第２の部位の姿勢情報が所定の第３の姿勢と一致する場合に、第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定することを含む。なお、第３の姿勢は、予め設定された複数種類の手形状を含む。本実施例では、第２の部位の姿勢情報が所定の第３の姿勢に合致する場合にのみ、第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する。例えば、所定の手形状に合致する手の第１の部位位置のみに基づいてナビゲーション識別子を移動させることにより、ユーザが第１の部位を不用意に移動させてナビゲーション識別子が誤って移動することを回避することができる。

いくつかの実施例において、ステップＳ１０３は、さらに、離隔した画像から取得された第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することを含む。本開示の実施例では、ユーザが第１の部位を振る際に避けられない上下または左右の揺れによるナビゲーション識別子の揺れを防止するために、離隔した画像から取得された第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することができ、隣接する２つのフレームから特定された第１の部位の位置変化に基づいて特定されたナビゲーション識別子の移動軌跡に比べて、ナビゲーション識別子の揺れを低減することができる。ここで、離隔した画像は、所定のフレーム数だけインターバルされた画像であってもよいし、インターバルされたフレーム数を動的に調整した画像であってもよい。例として、時系列的に前後に配列された複数のフレーム（例えば、連続する複数のフレーム）における第１の部位の位置情報の位置変化、または位置変化から変換されたナビゲーション識別子の座標を、滑らかな曲線に擬似合成して、その曲線からナビゲーション識別子の移動軌跡を特定することができる。

いくつかの実施例では、撮像装置は単独のＲＧＢカメラであり、方法１００は、画像データの色空間をＨＳＶ色空間に変換するために、画像データにＨＳＶ色空間処理を施す色空間前処理ステップをさらに含む。ＲＧＢカメラは通常、３つの独立したＣＣＤセンサによって３つの色信号を取得し、非常に正確なカラー画像を取得する。第２の部位の姿勢特徴および第１の部位のキーポイント特徴の抽出および認識の精度を向上させることができる。しかし、ＲＧＢモードの画像は肌色の分割に不利であるため、本開示の実施例では、撮像装置によって取り込まれた画像データをさらに色空間前処理し、画像データの色空間をＨＳＶ色空間に変換することによって、後続する第２の部位の姿勢特徴および第１の部位のキーポイント特徴の識別および抽出をより正確にすることができる。

いくつかの実施例では、第１の機械学習モデルは、畳み込みニューラルネットワークモデル（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）である。方法１００は、さらに、画像データを２値化処理して２値化画像データを得る２値化前処理ステップと、画像データをホワイトバランス処理するホワイトバランス前処理ステップとを含む。畳み込みニューラルネットワークは入力から出力までのマッピングであり、正確な数式を必要とせずに、入力と出力との間のマッピング関係を学習することができ、既知のパターンにより訓練を行えば、入力および出力のペア間のマッピング能力を有することができ、２次元図形の変位を認識する場合に精度が高い。したがって、畳み込みニューラルネットワークモデルを用いて第１の部位の位置を取得することは高い精度が得られる。さらに、本発明の実施例では、画像の２値化により、画像データのデータ数を大幅に削減することができ、第２の部位の姿勢輪郭が強調される。また、ホワイトバランス処理により、画像データの照明条件を補正することができ、後続の第２の部位姿勢特徴および第１の部位のキーポイント特徴の識別および抽出がより正確になる。

いくつかの実施例では、ステップＳ１０３は、第１の部位の位置情報に基づいて、フィルタアルゴリズムおよび手ぶれ補正アルゴリズムを使用して、ナビゲーション識別子の最終的な移動軌跡を特定するステップをさらに含む。ここで、フィルタリングアルゴリズムはカルマンフィルタリングアルゴリズムを含んでもよく、手ぶれ補正アルゴリズムは移動平均法を含んでもよい。本開示の実施例では、第１の部位のキーポイント特徴の位置変化または位置変化から特定されたナビゲーション識別子の座標の変化をフィルタリングアルゴリズムおよび振れ防止アルゴリズムを用いて処理することによって、ナビゲーション識別子の移動軌跡をより滑らかにし、ナビゲーション識別子の振れを防止することができる。

図２は、本開示の実施例に係る制御方法が遠視野表示装置を制御する場面を示す模式図である。遠方視野表示装置１００は、遠方視野表示装置１００の前方の一定領域を撮像可能に構成された撮像素子１１０を有する。本開示の１つまたは複数の実施例に係る制御方法によれば、ユーザ（図示せず）は、この特定の領域内で手首２１０を振ることによって、該遠視野表示装置１００に表示されるナビゲーション識別子１２０を移動させることができ、手２２０の姿勢を制御することによって、ナビゲーション識別子１２０が指す視覚要素１３０に対して特定の制御指令を発行することができる。

図３を参照する。図３は、本開示の他の実施例に係る制御方法２００のフローチャートを示す。方法２００は、ステップＳ２０１～ステップＳ２０６を含む。

ステップＳ２０１：ＲＧＢカメラで撮像された画像を受信する。

ステップＳ２０２：該画像に対してＨＳＶ色空間前処理、２値化前処理およびホワイトバランス前処理を行う。

ステップＳ２０３：畳み込みニューラルネットワークモデルに基づいて、前処理後の画像からユーザの手首の位置情報を取得する。

ステップＳ２０４：ランダムフォレストモデルに基づいて、前処理後の画像からユーザの手の姿勢情報を取得する。ここで、ランダムフォレスト（Ｒａｎｄｏｍｆｏｒｅｓｔ）は、ノイズや異常値に対して良好な耐性を持ち、過度な適合が発生せず、第２の部位の様々な姿勢特徴の抽出および識別に対して高い精度を持つ機械学習アルゴリズムである。

ステップＳ２０５：取得した手首の位置情報からナビゲーション識別子の移動軌跡を特定する。

ステップＳ２０６：取得した手の姿勢情報と、それと制御指令とのマッピング関係とに基づいて、ナビゲーション識別子の制御指令を特定する。制御指令は、ナビゲーション識別子が指す視覚要素を制御するためのものである。

以上のような制御方法について、図４は、本開示の一実施例に係る制御装置３００の構成図を示している。装置３００は、データ受信部３０１と、第１の機械学習部３０２と、第２の機械学習部３０３と、制御指令部３０４と、移動軌跡部３０５と、を備えて構成される。

データ受信部３０１は、撮像装置により撮像された画像を受信する。

取得部３０２は、前記画像からユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得する。

移動軌跡部３０３は、前記第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。

制御指令部３０４は、前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する。

このように、本開示の実施例に係る制御装置によれば、前記第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定し、前記第２の部位の姿勢情報に基づいて制御指令を特定することにより、制御指令の特定とナビゲーション識別子の位置決定とを分けて行う。一方、制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置決定は、動的な位置変化に基づいて行われ、さらに、異なる特性アルゴリズムを用いて上記の２つのプロセスを別々に特定するために便利な条件を提供することができる。例として、制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置の特定は動的に変化する位置情報に基づいて行われるため、上述の２種類の異なる計算特性に対して、対応の特性を持つ計算モジュールを用いてそれぞれ第１の部位の位置情報と第２の部位の姿勢情報とを計算することにより、情報取得の適合性を高め、計算の精度および計算リソースの利用率を高めることができる。一方で、制御指令の特定とナビゲーション識別子の位置特定とは、ユーザの異なる身体部位に基づくため、両者の特定プロセスが互いに影響を受けないようにすることができ、特に、第１の部位の輪郭形状が第２の部位の姿勢に伴って変化することがなく、ジェスチャーの変化がナビゲーション識別子の動きに影響を及ぼすことを回避することができ、ユーザ指令の認識精度を向上させることができる。

なお、他のいくつかの他実施例では、画像は、他の方法で受信されてもよく、または他の装置によって取り込まれた画像または送信された画像を受信してもよく、本開示はこれについて限定しない。

装置の実施例については、基本的には方法の実施例に対応するため、関連点については、方法の実施例の部分を参照すればよい。上記で説明された装置の実施例は模式的なものにすぎず、分離モジュールとして説明されたモジュールは、分離されていてもよいし、分離されていなくてもよい。本実施例の目的を達成するために実際の必要に応じて、これらのモジュールの一部または全部を選択してもよい。当業者は、創造的な労力を払わなくてもそれを理解し、実施することができる。

いくつかの実施例では、取得部３０２は、さらに、第１の計算モジュールによって前記画像からユーザの第１の部位の位置情報を取得し、第２の計算モジュールによって前記画像からユーザの第２の部位の姿勢情報を取得する。

いくつかの実施例では、第１の計算モジュールは第１の機械学習モデルを実行し、第２の計算モジュールは第２の機械学習モデルを実行する。第１および第２の機械学習モデルは、ユーザの第１の部位および第２の部位を確実に識別するように訓練されている。訓練された機械学習モデルを用いて第１の部位の位置情報と第２の部位の姿勢情報とを特定することで、認識精度を向上させ、計算リソースとハードウェアのコストを削減することができる。

いくつかの実施例において、制御指令部３０４は、さらに、前記第２の部位の姿勢情報が所定の第１の姿勢と合致する場合に、前記第２の部位の姿勢情報に基づいて制御対象要素を制御する。

ここで、第１の姿勢は、１つまたは複数の所定の手形状を含んでもよい。

いくつかの実施例では、制御指令部３０４は、さらに、前記第２の部位の姿勢情報が所定の第１の姿勢に合致しない場合、前記制御対象要素を制御しない。

本開示の実施例では、第２の部位の姿勢情報が所定の第１の姿勢に合致しない場合には、第１の部位の位置情報のみに基づいてナビゲーション識別子を移動させる。

いくつかの実施例では、取得部３０２は、さらに
前記画像中の第１の部位のキーポイントを特定するためのキーポイント特定サブユニットと、
前記画像における第１の部位のキーポイントの位置に基づいて、第１の部位の位置情報を特定する位置特定サブユニットと、を含む。

いくつかの実施例では、装置３００は、少なくとも２つのフレームの対象画像から取得された第１の部位の位置情報に基づいて、前記ナビゲーション識別子が指す視覚要素をスクロールするスクロールユニットをさらに含む。

ここで、スクロールユニットは、さらに、
前記第２の部位の姿勢情報が所定の第２の姿勢に合致する場合に、前記第２の部位の姿勢情報に対応する画像を対象画像とする対象画像特定サブユニットと、
連続する複数のフレームの前記対象画像から少なくとも２つのフレームの対象画像を選択する対象画像選択サブユニットと、を含む。

本開示の実施例では、対象画像は、姿勢情報が第２の姿勢に合致する画像であり、姿勢情報が第２の姿勢に合致するときに、第１の部位の位置変化を視覚要素のスクロール効果に変換することをトリガすることにより、ユーザがナビゲーション識別子を制御して視覚要素をスクロールさせることを可能になり、インタラクティブ効率を向上させることができる。ここで、第２の姿勢は、１つまたは複数の所定の手形状を含んでも良い。

いくつかの実施例では、スクロールユニットは、さらに
前記少なくとも２つのフレームの対象画像から取得された第１の部位の位置情報に基づいて、第１の部位の動き情報を特定する動き情報サブユニットと、
前記第１の部位の動き情報に基づいて前記視覚要素をスクロールするスクロールサブユニットと、を含む。

いくつかの実施例では、スクロールサブユニットは、さらに、第１の部位の動き情報が所定の動き条件を満たすか否かを判定し、所定の動き条件を満たすと判定された場合、前記第１の部位の動き情報から前記視覚要素のスクロール方向およびスクロール距離を特定する。

いくつかの実施例では、前記第２の姿勢は、５本の指の開きである。スクロール操作は一般的に、ジェスチャーの移動速度が速いことを要求するが、速い移動の場合には、５本指の開きが他のジェスチャーよりも認識しやすくなり、認識精度を向上させることができる。

いくつかの実施例では、移動軌跡部３０３は、さらに、前記第２の部位の姿勢情報が所定の第３の姿勢と合致する場合に、前記第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。第３の姿勢は、所定の複数種類の手形状を含んでもよい。本実施例では、第２の部位の姿勢情報が所定の第３の姿勢に合致する場合にのみ、第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する。例えば、所定の手形状に合致する手の第１の部位の位置情報のみに基づいてナビゲーション識別子を移動させることにより、ユーザが第１の部位を不用意に移動させてナビゲーション識別子が誤って移動することを回避することができる。

いくつかの実施例では、移動軌跡部３０３は、さらに、離隔した画像から取得された第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。ユーザが第１の部位を振る際に避けられない上下または左右の揺れによるナビゲーション識別子の揺れを防止するために、ナビゲーション識別子について、離隔した画像から取得された第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定することができ、隣接する２つのフレームから特定された第１の部位の位置変化に基づいて特定されたナビゲーション識別子の移動軌跡に比べて、ナビゲーション識別子の揺れを低減することができる。一例として、連続する複数のフレームにおける第１の部位の位置情報の位置変化、または該位置変化から変換されたナビゲーション識別子の座標を、滑らかな曲線に擬似的に合成して、その曲線からナビゲーション識別の移動軌跡を特定することができる。

いくつかの実施例では、撮像装置は単独のＲＧＢカメラであり、装置３００は、画像データの色空間をＨＳＶ色空間に変換するために、画像データをＨＳＶ色空間処理する色空間前処理部をさらに含む。ＲＧＢカメラは通常、３つの独立したＣＣＤセンサによって３つの色信号を取得し、非常に正確なカラー画像を取得することができる。第２の部位の姿勢特徴および第１の部位のキーポイント特徴の抽出および認識の精度を向上させることができる。しかし、ＲＧＢモードの画像は肌色の分割に不利であるため、本開示の実施例では、撮像装置によって取り込まれた画像データをさらに色空間前処理し、画像データの色空間をＨＳＶ色空間に変換することによって、後続する第２の部位の姿勢特徴および第１の部位のキーポイント特徴の識別および抽出をより正確にすることができる。

いくつかの実施例では、第１の機械学習モデルは、畳み込みニューラルネットワークモデル（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）である。装置３００は、画像に対して２値化処理およびホワイトバランス処理を行う２値化およびホワイトバランス前処理部をさらに備える。畳み込みニューラルネットワークは入力から出力までのマッピングであり、正確な数式を必要とせずに、入力と出力との間のマッピング関係を学習することができ、既知のパターンにより訓練を行えば、入力および出力のペア間のマッピング能力を有することができ、２次元図形の変位を認識する場合に精度が高い。したがって、畳み込みニューラルネットワークモデルを用いて第１の部位の位置を取得することは高い精度が得られる。さらに、本発明の実施例では、画像の２値化により、画像データのデータ数を大幅に削減することができ、第２の部位の姿勢輪郭が強調される。また、ホワイトバランス処理により、画像データの照明条件を補正することができ、後続の第２の部位姿勢特徴および第１の部位のキーポイント特徴の識別および抽出がより正確になる。

いくつかの実施例では、移動軌跡部３０３は、さらに、第１の部位の位置情報に基づいて、フィルタアルゴリズムおよび手ぶれ補正アルゴリズムを使用して、ナビゲーション識別子の最終的な移動軌跡を特定するステップをさらに含む。ここで、フィルタリングアルゴリズムはカルマンフィルタリングアルゴリズムを含んでもよく、手ぶれ補正アルゴリズムは移動平均法を含んでもよい。本開示の実施例では、第１の部位のキーポイント特徴の位置変化または位置変化から特定されたナビゲーション識別子の座標の変化をフィルタリングアルゴリズムおよび振れ防止アルゴリズムを用いて処理することによって、ナビゲーション識別子の移動軌跡をより滑らかにし、ナビゲーション識別子の振れを防止することができる。

同時に、本開示の１つまたは複数の実施例によれば、
少なくとも１つのメモリおよび少なくとも１つのプロセッサを含み、
メモリは、プログラムコードを格納するために使用され、プロセッサは、メモリに格納されたプログラムコードを呼び出すために使用されることにより、本開示の１つまたは複数の実施例に係る制御方法を端末に実行させる、
端末装置が提供される。

同時に、本開示の１つまたは複数の実施例によれば、コンピュータ装置によって実行されたときに、本開示の１つまたは複数の実施例に係る制御方法をコンピュータ装置に実行させるプログラムコードを記憶する非一時的なコンピュータ記憶媒体が提供される。

図５は、本開示の実施例を実現するのに適した端末装置８００の概略構成図を示す。本開示の実施例における端末装置は、携帯電話、ノートパソコン、デジタル放送受信機、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＡＤ（タブレット）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、車載端末（例えば、カーナビゲーション端末）等の携帯端末、及びスマートテレビ、デスクトップコンピュータ等の固定端末を含むが、これらに限定されるものではない。図５に示す端末装置は一例にすぎず、本開示の実施例の機能および使用範囲を限定するものではない。

図５に示すように、端末装置８００は、読み取り専用メモリ（ＲＯＭ）８０２に記憶されたプログラム、または記憶装置８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたプログラムに従って、様々な適切な動作および処理を実行することができる処理装置（例えば、中央プロセッサ、グラフィックスプロセッサなど）８０１を含んでもよい。ＲＡＭ８０３には、端末装置８００の操作に必要な各種のプログラムやデータも記憶されている。処理装置８０１、ＲＯＭ８０２、およびＲＡＭ８０３は、バス８０４を介して接続されている。入出力（Ｉ／Ｏ）インターフェース８０５もバス８０４に接続されている。

一般に、Ｉ／Ｏインターフェース８０５には、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどの入力デバイス８０６、例えば液晶ディスプレイ（ＬＣＤ）、スピーカ、バイブレータ等を含む出力装置８０７、例えば磁気テープ、ハードディスクなどを含む記憶装置８０８、通信デバイス８０９が接続される。通信デバイス８０９は、データを交換するために、端末装置８００が他の装置と無線または有線で通信することを可能にする。図５は、様々なデバイスを有する端末装置８００を示しているが、前記デバイスの全てを実装または備えることは必要ではないことが理解されるべきである。代わりに、より多くのまたはより少ないデバイスを実装し、または備えてもよい。

特に、本開示の実施例によれば、フローチャートを参照して上述したプロセスは、コンピュータ・ソフトウェア・プログラムとして実現することができる。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含む、非一時的なコンピュータにより読み取り可能な媒体上に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を含む。このような実施例では、該コンピュータプログラムは、通信デバイス８０９を介してネットワークからダウンロードされてインストールされてもよいし、記憶装置８０８からインストールされてもよいし、ＲＯＭ８０２からインストールされてもよい。このコンピュータプログラムが処理装置８０１によって実行されると、本開示の実施例に係る方法で規定される上記の機能が実行される。

なお、本開示で上述したコンピュータにより読み取り可能な媒体は、コンピュータ可読信号媒体もしくはコンピュータ可読記憶媒体、またはこれら２つの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、限定されるわけではないが、電気、磁気、光、電磁、赤外線、または半導体のシステム、装置、またはデバイス、あるいはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例は、以下のものを含むことができるが、これらに限定されない：１つ以上のワイヤを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学メモリデバイス、磁気メモリデバイス、または上記の任意の適切な組み合わせを有する。本開示では、コンピュータ可読記憶媒体は、指令実行システム、装置、またはデバイスによって、あるいはそれらと組み合わせて使用することができるプログラムを含むまたは格納する任意の有形媒体とすることができる。一方、本開示では、コンピュータ可読信号媒体は、コンピュータ可読プログラムコードを搬送するキャリアの一部として、ベースバンドに、または伝搬するデータ信号を含むことができる。このような伝播されたデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限定されないので、様々な形態をとることができる。コンピュータ可読信号媒体は、指令実行システム、装置、またはデバイスによって、あるいはそれらと組み合わせて使用するためのプログラムを送信、伝播、または伝送することができるコンピュータ可読記憶媒体以外の任意のコンピュータにより読み取り可能な媒体であってもよい。コンピュータにより読み取り可能な媒体上に含まれるプログラムコードは、ワイヤ、光ケーブル、ＲＦ（無線周波数）など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体で伝送されてもよい。

いくつかの実施例では、クライアントおよびサーバは、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）などの既知のまたは将来研究開発される任意のネットワークプロトコルを利用して通信することができ、任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）と相互接続することができる。通信ネットワークの例としては、ローカル・エリア・ネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、ネットワーク網（例えば、インターネット）、エンドツーエンドネットワーク（例えば、アドホックエンドツーエンドネットワーク）、および既知のネットワークまたは将来研究開発されるネットワークなどがある。

前記コンピュータにより読み取り可能な媒体は、前記端末装置に含まれるものであってもよいし、この端末装置に組み込まれていない別個の存在であってもよい。

前記コンピュータにより読み取り可能な媒体には、一つ又複数のフログラムが搭載され、該一つ又複数のフログラムが前記端末装置によって実行されるときに、前記端末装置は、画像を受信する；画像からユーザの第１の部位の位置情報と第２の部位の姿勢情報とを取得する；第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する；そして、第２の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するための制御指令を特定する。

また、前記コンピュータにより読み取り可能な媒体には、一つ又複数のフログラムが搭載され、該一つ又複数のフログラムが前記端末装置によって実行されるときに、前記端末装置は、画像を受信する；画像からユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得する；前記第１の部位の位置情報に基づいてナビゲーション識別子が指す制御要素特定する；前記第２の部位の姿勢情報に基づいて、ナビゲーション識別子が指す制御対象要素を制御するための制御指令を特定する。

本開示の動作を実行するためのコンピュータプログラムコードは、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語を含むが、これらに限定されなく、「Ｃ」言語などの従来の手続き型プログラミング言語を含む、１つ以上のプログラミング言語、またはこれらの組み合わせで記述することができる。プログラムコードは、完全にユーザコンピュータ上で、部分的にユーザのコンピュータ上で、独立したソフトウェアパッケージとして、部分的にユーザコンピュータ上で、部分的にリモートコンピュータ上で、あるいは、完全にリモートコンピュータまたはサーバ上で実行することができる。リモートコンピュータが関与する場合、リモートコンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または外部コンピュータ（例えば、インターネットを介してインターネット・サービス・プロバイダを利用して接続することができる）に接続することができる。

図面のフローチャートおよびブロック図は、本開示の様々な実施例に従って、システム、方法、およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、および動作を図示している。この点で、フローチャートまたはブロック図中の各ブロックは、所定の論理機能を実装するための１つまたは複数の実行可能命令を含むモジュール、プログラムセグメント、またはコードの一部を表すことができる。代替としてのいくつかの実装では、ブロックに示された機能は、図面に示されたものとは異なる順序で発生することもあることにも留意されたい。例えば、連続的に表現された２つのブロックは、実際には実質的に並列に実行されてもよく、関係する機能に応じて逆の順序で実行されてもよい場合がある。ブロック図および／またはフローチャート中の各ブロック、ならびにブロック図および／またはフローチャート中のブロックの組み合わせは、所定の機能または動作を実行する専用ハードウェアベースのシステムで実現されてもよく、あるいは、専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよいことにも留意されたい。

本開示の実施例に関連して説明されたユニットは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。なお、ユニットの名称がユニット自体を限定するものではない場合もあり、例えば、取得識別ユニットを「前記画像からユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得するユニット」と記載することもできる。

本明細書で説明された機能は、少なくとも部分的に、１つまたは複数のハードウェア論理コンポーネントによって実行されることができる。例えば、非限定的に、使用され得る例示的なタイプのハードウェア論理構成要素は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、複雑プログラマブルロジックデバイス（ＣＰＬＤ）などを含む。

本開示の文脈では、機械読み取り可能な媒体は、指令実行システム、装置、またはデバイスが使用するために、あるいは、指令実行システム、装置、またはデバイスと共に使用するために、プログラムを含むかまたは格納することができる有形媒体とする。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体とすることができる。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線的、または半導体的なシステム、装置またはデバイス、あるいはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されるものではない。機械読み取り可能な記憶媒体のより具体的な例としては、１つまたは複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、便利なコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、またはこれらの任意の適切な組み合わせがある。

本開示の１つまたは複数の実施例によれば、撮像装置によって取得された画像を受信することと、画像からユーザの第１の部位の位置情報と第２の部位の姿勢情報とを取得することと、第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することと、第２の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を決定することと、を含む制御方法が提供される。

本開示の１つまたは複数の実施例によれば、第１の部位および第２の部位は、同じユーザの異なる身体部位である。

本開示の１つまたは複数の実施例によれば、前記第２の部位の位置は、前記第１の部位の位置の変化に追従して変化することができ、前記第１の部位自体の位置および／または姿勢は、前記第２の部位の姿勢に影響を及ぼさない。

本開示の１つまたは複数の実施例によれば、第１の部位は手であり、第２の部位は手首である。

本開示の１つまたは複数の実施例によれば、画像からユーザの第１の部位の位置情報および第２の部位の姿勢情報を取得することには、第１の計算モジュールに基づいて、画像からユーザの第１の部位の位置情報を取得することと、第２の計算モジュールに基づいて、画像からユーザの第２の部位の姿勢情報を取得することと、を含む。

本開示の１つまたは複数の実施例によれば、第１の計算モジュールは第１の機械学習モデルを実行し、第２の計算モジュールは第２の機械学習モデルを実行する。

本開示の１つまたは複数の実施例によれば、第２の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することには、第２の部位の姿勢情報が所定の第１の姿勢に合致する場合に、第２の部位の姿勢情報に基づいて視覚要素を制御することを含む。

本開示の１つまたは複数の実施例によれば、第２の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を決定することには、第２の部位の姿勢情報が所定の第１の姿勢に合致しない場合、視覚要素を制御しないことを含む。

本開示の１つまたは複数の実施例によれば、画像からユーザの第１の部位の位置情報を取得することには、画像中の第１の部位のキーポイントを特定することと、画像における第１の部位のキーポイントの位置に基づいて第１の部位の位置情報を特定することと、を含む。

本開示の１つまたは複数の実施例に係る制御方法は、少なくとも２つのフレームの対象画像から取得された第１の部位の位置情報に基づいて、ナビゲーション識別子が指す視覚要素をスクロールすることをさらに含み、ここで、少なくとも２つのフレームの対象画像の特定方法は、第２の部位の姿勢情報が所定の第２の姿勢に合致する場合に、第２の部位の姿勢情報に対応する画像を対象画像とすることと、連続する複数のフレームの対象画像から少なくとも２つのフレームの対象画像を選択することと、を含む。

本開示の１つまたは複数の実施例によれば、少なくとも２つのフレームの対象画像から取得された第１の部位の位置情報に基づいて、ナビゲーション識別子が指す視覚要素を制御することには、少なくとも２つのフレームの対象画像から取得された第１の部位の位置情報に基づいて、第１の部位の動き情報を特定することと、第１の部位の動き情報に従って視覚要素をスクロールすることと、を含む。

本開示の１つまたは複数の実施例によれば、前記した、前記ナビゲーション識別子が指す視覚要素を制御することには、前記ナビゲーション識別子が指す視覚要素をスクロールまたは移動することを含む。

本開示の１つまたは複数の実施例によれば、第１の部位の動き情報は、第１の部位の動き時間、第１の部位の動き速度、第１の部位の動き変位、第１の部位の動き加速度の１つまたは複数の種類を含む。

本開示の１つまたは複数の実施例によれば、第１の部位の動き情報に基づいて視覚要素を制御することには、第１の部位の動き情報が所定の動き条件を満たすか否かを判断することと、そうであれば、第１の部位の動き情報に基づいて視覚要素のスクロール方向及びスクロール距離を特定することと、を含む。

本開示の１つまたは複数の実施例によれば、第２の姿勢は、所定の数の指の開きである。

本開示の１つまたは複数の実施例によれば、第２の姿勢は、５本の指の開きである。

本開示の１つまたは複数の実施例によれば、第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、第２の部位の姿勢情報が所定の第３の姿勢と合致する場合に、第１の部位の位置情報に基づいて、ナビゲーション識別子の移動軌跡を特定することを含む。

本開示の１つまたは複数の実施例によれば、第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、離隔した画像から取得された第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定することを含む。

本開示の１つまたは複数の実施例によれば、撮像装置は、単独のＲＧＢカメラであり、制御方法には、画像の色空間をＨＳＶ色空間に変換するために、画像にＨＳＶ色空間前処理を行うことも含まれる。

本開示の１つまたは複数の実施例によれば、第１の機械学習モデルは畳み込みニューラルネットワークモデルであり、制御方法は、画像に対して２値化前処理とホワイトバランス前処理とを行うことをさらに含む。

本開示の１つまたは複数の実施例によれば、第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、第１の部位の位置情報に基づいてフィルタアルゴリズムおよび手ぶれ補正アルゴリズムを使用してナビゲーション識別子の最終的な移動軌跡を特定することを含む。

本開示の１つまたは複数の実施例によれば、前記した、前記画像からユーザの第１の部位の位置情報および第２の部位の姿勢情報を取得することには、前記画像におけるユーザの第１の部位の位置情報および第２の部位の姿勢情報を取得することを含む。

本開示の１つまたは複数の実施例によれば、撮像装置によって取得された画像を受信するデータ受信部と、画像からユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得する取得認識部と、第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡又は位置情報を特定し、及び／又は前記第１の部位の位置情報及び／又は第２の部位の所定の姿勢に基づいて制御対象要素を移動させる移動軌跡部と、第２の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する制御指令部と、を備える制御装置が提供される。

本開示の１つまたは複数の実施例によれば、少なくとも１つのメモリおよび少なくとも１つのプロセッサを含み、メモリは、プログラムコードを格納するために使用され、プロセッサは、メモリに格納されたプログラムコードを呼び出すために使用され、本開示の１つまたは複数の実施例に係る制御方法を端末に実行させる端末が提供される。

本開示の１つまたは複数の実施例によれば、コンピュータ装置によって実行されると、本開示の１つまたは複数の実施例に係る制御方法をコンピュータ装置に実行させるプログラムコードを記憶するコンピュータ記憶媒体が提供される。

以上の説明は、本開示の好ましい実施例および適用される技術原理の説明にすぎない。当業者は、本開示に係る開示の範囲は、上記の技術的特徴の特定の組み合わせからなる技術的解決手段に限定されるものではなく、上記の開示の発想から逸脱することなく、上記の技術的特徴又はその均等な特徴の任意の組み合わせからなる他の技術的解決手段も対象とすべきであることを理解するであろう。上述の特徴と本開示で開示された（ただし、これらに限定されない）類似の機能を有する技術的特徴とを相互に置換して形成された発明が挙げられる。

さらに、動作は特定の順序で示されているが、これらの動作が、示されている特定の順序で実行されるか、または順次実行されることを必要とするものとして理解されるべきではない。ある場合では、多重タスクや並列処理が有利になる場合がある。同様に、いくつかの具体的な実施の詳細が上記の論述に含まれているが、これらは本開示の範囲を制限するものとして解釈されるべきではない。個別の実施例で説明された、いくつかの特徴は、単一の実施例に組み合わせて実現されてもよい。対照的に、単一の実施例で説明された様々な特徴は、複数の実施例において個別に、または任意の適切なサブ組み合わせで実現されてもよい。

本主題は、構造的特徴および／または方法的論理動作に固有の言語で説明されているが、特許請求の範囲において限定される主題は、上述した特定の特徴または動作に必ずしも限定されないことが理解されるべきである。対照的に、上記で説明された特定の特徴および動作は、特許請求の範囲を実現する例示的な形態にすぎない。

［関連出願の相互参照］
本出願は、２０２０年０６月０５日付けで出願された、発明の名称が「制御方法、装置、端末及び記憶媒体」である中国特許出願第２０２０１０５０７２２２．８号の優先権を主張して２０２１年６月４日付けで出願された、発明の名称が「制御方法、装置、端末及び記憶媒体」である国際特許出願第ＰＣＴ/ＣＮ２０２１/０９８４６４号に基づくものであり、両出願の全ての内容はここで参照により本出願に援用される。

いくつかの実施例では、第１の部位は手首であり、第２の部位は手である。本開示の実施例では、手首はジェスチャーの変位を正確かつ安定して反映することができ、指や手のひらなどの部位よりもジェスチャーの変化の影響を受けにくく、ナビゲーション識別子の移動の正確な制御を実現することができる。また、手首の動きがジェスチャーに影響を与えないため、制御指令を容易かつ正確に行うことができる。

本開示の１つまたは複数の実施例によれば、第１の部位は手首であり、第２の部位は手である。

Claims

画像を受信することと、
前記画像からユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得することと、
前記第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することと、
前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することと、
を含むことを特徴とする制御方法。
前記第１の部位と前記第２の部位とは、同一ユーザの異なる身体部位に属することを特徴とする請求項１に記載の制御方法。
前記第２の部位の位置は、前記第１の部位の位置の変化に追従して変化することができ、および／または、前記第１の部位自体の位置および／または姿勢は、前記第２の部位の姿勢に影響を及ぼさないことを特徴とする請求項２に記載の制御方法。
前記第１の部位が手であり、前記第２の部位が手首であることを特徴とする請求項３に記載の制御方法。
前記画像からユーザの第１の部位の位置情報および第２の部位の姿勢情報を取得することは、
第１の計算モジュールによって前記画像からユーザの第１の部位の位置情報を取得することと、
第２の計算モジュールによって前記画像からユーザの第２の部位の姿勢情報を取得することと、を含むことを特徴とする請求項１に記載の制御方法。
前記第１の計算モジュールは、第１の機械学習モデルを実行するためのものであり、前記第２の計算モジュールは、第２の機械学習モデルを実行するためのものであることを特徴とする請求項５に記載の制御方法。
前記した、前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することには、
前記第２の部位の姿勢情報が所定の第１の姿勢に合致する場合、前記第２の部位の姿勢情報に応じて前記視覚要素を制御することを含む、
ことを特徴とする請求項１に記載の制御方法。
前記した、前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することには、
前記第２の部位の姿勢情報が所定の第１の姿勢に適合しない場合には、前記視覚要素の制御は行われないことを含むことを特徴とする請求項７に記載の制御方法。
前記画像からユーザの第１の部位の位置情報を取得することには、
前記画像中の第１の部位のキーポイントを決定することと、
前記画像における前記第１の部位のキーポイントの位置に基づいて前記第１の部位の位置情報を特定することを含むことを特徴とする請求項１に記載の制御方法。
少なくとも２つのフレームの対象画像から取得された第１の部位の位置情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御することをさらに含み、
前記少なくとも２つのフレームの対象画像を特定する方法には、
前記第２の部位の姿勢情報が所定の第２の姿勢に合致する場合、前記第２の部位の姿勢情報に対応する画像を対象画像とすることと、
連続する複数のフレームの前記対象画像から少なくとも２つのフレームの対象画像を選択することと、を含む、
ことを特徴とする請求項１に記載の制御方法。
少なくとも２つのフレームの対象画像から取得された第１の部位の位置情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御することには、
前記少なくとも２つのフレームの対象画像から取得された第１の部位の位置情報に基づいて、第１の部位の動き情報を特定することと、
前記第１の部位の動き情報に基づいて前記視覚要素を制御することと、を含む、
ことを特徴とする請求項１０に記載の制御方法。
前記第１の部位の動き情報は、第１の部位の動き時間、第１の部位の動き速度、第１の部位の動き変位、第１の部位の動き加速度の１つ以上を含む、ことを特徴とする請求項１１に記載の制御方法。
前記した、前記第１の部位の動き情報に基づいて前記視覚要素を制御することには、
前記第１の部位の動き情報が所定の動き条件を満たすか否かを判定することと、
満たす場合、前記第１の部位の動き情報に基づいて、前記視覚要素のスクロール方向およびスクロール距離を特定することと、
を含むことを特徴とする請求項１１に記載の制御方法。
前記した、前記ナビゲーション識別子が指す視覚要素を制御することには、
前記視覚要素をスクロールまたは移動することを含む、
ことを特徴とする請求項１０に記載の制御方法。
前記第２の姿勢は、所定の数の指が開くことであることを特徴とする請求項１０に記載の制御方法。
前記第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することには、
前記第２の部位の姿勢情報が所定の第３の姿勢に合致する場合には、前記第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することを含む、ことを特徴とする請求項１に記載の制御方法。
前記した、前記第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、
隔離した画像から取得した第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定することを含む、ことを特徴とする請求項１に記載の制御方法。
前記した、画像を受信することには、撮像装置によって取得された画像を受信することを含む、ことを特徴とする請求項１に記載の制御方法。
前記撮像装置は、単一のＲＧＢカメラであり、
前記制御方法は、前記画像の色空間をＨＳＶ色空間に変換するために、前記画像をＨＳＶ色空間前処理することをさらに含む、ことを特徴とする請求項１８に記載の制御方法。
前記第１の機械学習モデルは、畳み込みニューラルネットワークモデルであり、
前記制御方法は、さらに、前記画像に対して２値化前処理とホワイトバランス前処理とを行うことを含むことを特徴とする請求項６に記載の制御方法。
前記した、前記第１の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、
前記第１の部位の位置情報に基づいてフィルタリングアルゴリズム及び手振れ防止アルゴリズムを用いて前記ナビゲーション識別子の最終的な移動軌跡を特定することを含む、ことを特徴とする請求項１に記載の制御方法。
前記した、前記画像からユーザの第１の部位の位置情報および第２の部位の姿勢情報を取得することには、
前記画像中のユーザの第１の部位の位置情報と第２の部位の姿勢情報とを取得することを含む、ことを特徴とする請求項１に記載の制御方法。
前記した、前記第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することには、
制御対象機器に対する前記第１の部位の位置情報に基づいて、前記制御対象機器上のナビゲーション識別子の移動軌跡を特定することを含み、
前記制御指令が前記ナビゲーション識別子が指す視覚要素を制御するために使用されることには、前記制御指令が、前記ナビゲーション識別子が指す、前記制御対象機器上に位置する視覚要素を制御するために使用されることを含む、
ことを特徴とする請求項１に記載の制御方法。
画像を受信することと、
前記画像からユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得することと、
前記第１の部位の位置情報に基づいてナビゲーション識別子が指す制御対象要素を特定することと、
前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定することと、を含む、
ことを特徴とする制御方法。
前記した、第１の部位の位置情報からナビゲーション識別子が指す制御対象要素を特定することには、
制御対象装置に対する前記第１の部位の位置情報に基づいて、前記制御対象装置上のナビゲーション識別子の位置および／または移動軌跡を特定し、前記位置および／または移動軌跡に基づいて、前記ナビゲーション識別子が指す制御対象要素を特定すること、および／または、
少なくとも２つのフレームの対象画像によって取得された第１の部位の位置変化情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御することと、を含む、
ことを特徴とする請求項２４に記載の制御方法。
前記ナビゲーション識別子が指す制御対象要素を制御することには、
制御対象装置上での制御対象要素の移動を制御すること、を含むことを特徴とする請求項２５に記載の制御方法。
画像を受信するデータ受信部と、
前記画像に基づいて、ユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得する取得認識部と、
前記第１の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する移動軌跡部と、
前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する制御指令部と、を含むことを特徴とする制御装置。
画像を受信するデータ受信部と、
前記画像に基づいて、ユーザの第１の部位の位置情報及び第２の部位の姿勢情報を取得する取得認識部と、
前記第１の部位の位置情報に基づいてナビゲーション識別子の位置情報を特定する、及び／又は、前記第１の部位の位置情報及び／又は第２の部位の所定の姿勢に基づいて制御対象要素を移動させる移動軌跡部と、
前記第２の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定する制御指令部と、を含むことを特徴とする制御装置。
少なくとも１つのメモリおよび少なくとも１つのプロセッサを含み、
前記メモリは、プログラムコードを記憶するためのものであり、前記プロセッサは、請求項１～２６のいずれか一項に記載の制御方法を端末に実行させるように前記メモリに記憶されたプログラムコードを呼び出す、
ことを特徴とする端末。
コンピュータ装置により実行されたときに、請求項１～２６のいずれか一項に記載の制御方法を前記コンピュータ装置に実行させるプログラムコードが記憶されることを特徴とするコンピュータ記憶媒体。