JP2023527906A - 制御方法、装置、端末および記憶媒体 - Google Patents

制御方法、装置、端末および記憶媒体 Download PDF

Info

Publication number
JP2023527906A
JP2023527906A JP2022574219A JP2022574219A JP2023527906A JP 2023527906 A JP2023527906 A JP 2023527906A JP 2022574219 A JP2022574219 A JP 2022574219A JP 2022574219 A JP2022574219 A JP 2022574219A JP 2023527906 A JP2023527906 A JP 2023527906A
Authority
JP
Japan
Prior art keywords
information
image
control method
navigation identifier
position information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022574219A
Other languages
English (en)
Other versions
JP7514331B2 (ja
Inventor
▲遅▼ 方
笑 王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2023527906A publication Critical patent/JP2023527906A/ja
Application granted granted Critical
Publication of JP7514331B2 publication Critical patent/JP7514331B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/014Hand-worn input/output arrangements, e.g. data gloves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Neurosurgery (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、コンピュータ技術の分野に関するものであり、特に、制御方法、装置、端末、および記憶媒体に関する。本開示の実施例に係る制御方法は、画像を受信することと、画像からユーザの第1の部位の位置情報と第2の部位の姿勢情報とを取得することと、第1の部位の位置情報に基づいてナビゲーション標識の移動軌跡を特定することと、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することとを含む。

Description

[関連出願の相互参照]
本出願は、2020年06月05日付けで出願された、発明の名称が「制御方法、装置、端末及び記憶媒体」である中国特許出願第202010507222.8号の優先権を主張して出願されたものであり、当該中国特許出願の全ての内容はここで参照により本出願に援用される。
[技術分野]
本開示は、コンピュータ技術の分野に関するものであり、特に、制御方法、装置、端末および記憶媒体に関する。
スマートテレビは、多種多様な番組やアプリを搭載してユーザが選択し視聴できるようになり、従来のテレビに代わって広く使われている。従来のスマートテレビはリモコンで制御され、一般的に、上下左右の4つの方向キーしか選択方向を制御することができず、インタラクティブの効率が悪く、時間および工夫を要していた。
簡単な形式で構想を説明するためにこの発明の概要を提供する。これらの構想は、後述の具体的な実施例の部分で詳細に説明される。当該発明の内容の部分は、特許請求する発明の重要な特徴又は必要な特徴を標識することを目的とするものではなく、特許請求する発明の範囲を制限することを目的とするものでもない。
本開示の1つまたは複数の実施例によれば、
画像を受信することと、
前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得することと、
前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することと、
前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することと、を含む制御方法が提供される。
本開示の1つまたは複数の実施例によれば、
画像を受信することと、
前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得することと、
第1の部位の位置情報に基づいてナビゲーション識別子が指す制御対象要素を特定することと、
前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定することと、
を含む制御方法が提供される。
本開示の1つまたは複数の実施例によれば、
画像を受信するデータ受信部と、
前記画像に基づいて、ユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する取得認識部と、
前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する移動軌跡部と、
前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する制御指令部と、を含む
制御装置が提供される。
本開示の1つまたは複数の実施例によれば、
画像を受信するデータ受信部と、
前記画像に基づいて、ユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する取得認識部と、
第1の部位の位置情報に基づいてナビゲーション識別子の位置情報を特定する、及び/又は、前記第1の部位の位置情報及び/又は第2の部位の所定の姿勢に基づいて制御対象 要素を移動させる移動軌跡部と、
前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定する制御指令部と、を含む制御装置が提供される。
本開示の1つまたは複数の実施例によれば、
端末が提供され、
該端末は、少なくとも1つのメモリおよび少なくとも1つのプロセッサを含み、
前記メモリがプログラムコードを格納するために使用され、前記プロセッサがメモリに格納されたプログラムコードを呼び出すために使用されることにより、本開示の1つまたは複数の実施例による制御方法を前記端末に実行させる。
本開示の1つまたは複数の実施例によれば、コンピュータ記憶媒体が提供され、前記コンピュータ記憶媒体にはプログラムコードが記憶され、前記プログラムコードがコンピュータ装置により実行される場合、本開示の1つまたは複数の実施例に係る制御方法を前記コンピュータ装置に実行させることを特徴とする。
本開示の1つまたは複数の実施例に係る制御方法によれば、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定し、前記第2の部位の姿勢情報に基づいて制御指令を特定することにより、制御指令の特定とナビゲーション識別位置の特定とを分離させる。制御指令の特定は静的な姿勢情報に基づくものであり、ナビゲーション識別位置の特定は動的な位置変化に基づくものであるため、異なる特性のアルゴリズムを用いて上記2つのプロセスを個別に決定することにとって都合が良い。一方で、制御指令の特定とナビゲーション識別位置の特定とは、ユーザの異なる身体部位に基づくものであるため、両者の特定プロセスが互いに影響を受けないようにすることができ、特に、第1の部位の輪郭形状が第2の部位の姿勢に伴って変化することがなく、ジェスチャーの変化がナビゲーション識別子の動きに影響を及ぼすことを回避することができるため、ユーザ指令の認識精度を向上させることができる。
図面と併せて以下の具体的な実施例を参照して、本開示の実施例の上記および他の特徴、利点、および態様がより明らかになる。以下の図面において、同一又は類似の符号は、同一又は類似の要素を表す。図面は模式的なものであり、部品及び要素は実際の縮尺通りに描かれているとは限らないことが理解されるべきである。
本開示の一実施例に係る制御方法のフローチャートを示す図である。 本開示の一実施例に係る制御方法が遠視野表示装置を制御する場面を示す概略図である。 本開示の他の実施例に係る制御方法のフローチャートを示す。 本開示の1つまたは複数の実施例に係る制御装置の構成模式図である。 本開示の実施例を実現するための端末装置の構成模式図である。
以下、図面を参照しながら、本開示の実施例についてより詳細に説明する。本開示のいくつかの実施例が図面に示されているが、本開示は様々な形態で実現可能であって、ここに記載される実施例に限定されるものとして解釈されるべきではなく、むしろ、本開示をより明瞭かつ完全に理解するためにこれらの実施例が提供されることが理解されるべきである。本開示の図面および実施例は、例示的なものだけであり、本開示の技術的範囲を制限するために使用されるものではないことが理解されるべきである。
本開示の方法の実施形態に記載された各ステップは、異なる順序で実行され、および/または並行して実行されてもよいことが理解されるべきである。さらに、方法の実施形態は、追加のステップを含むことができ、および/または示されたステップの実行を省略することができる。本開示の範囲は、この点において限定されない。
本明細書で使用される用語である「含む」およびその変形は、オープンな包含、すなわち「包含するが、限定されるものではない」ことを意味する。用語「基づく」は、「少なくとも部分的に基づく」ことを意味する。用語「1つの実施例」は、「少なくとも1つの実施例」を意味する。用語「別の実施例」は、「少なくとも1つの追加の実施例」を意味する。用語「いくつかの実施例」は、「少なくともいくつかの実施例」を意味する。他の用語の関連の定義は、以下の説明で与えられる。
本開示で言及されている「第1の」、「第2の」などの概念は、異なるデバイス、モジュール、またはユニットを区別するためにのみ使用され、これらのデバイス、モジュール、またはユニットによって実行される機能の順序または相互依存関係を規定するものではないことに留意されたい。
なお、本開示で言及されている「1つの」、「複数の」の言葉は、限定的ではなく概略的なものであり、文脈において別段の明示的な記載がない限り、「1つまたは複数の」と理解されるべきであることは、当業者に理解されることである。
本開示の実施形態における複数のデバイス間でやりとりされるメッセージまたは情報の名称は、単に説明の目的のために使用されるものであり、これらのメッセージまたは情報の範囲を制限するために使用されるものではない。
図1を参照する。図1は、本開示の一実施例に係る制御方法100のフローチャートを示す。該方法100は、遠隔視野表示装置を含んでもよいが、これに限定されない端末装置に使用することができ、遠隔視野表示装置とは、ユーザが身体の部位による直接の接触又はタッチペンなどの物理的制御装置による接触制御を行うことができない表示装置を指し、テレビ、会議用スクリーンのような電子装置を含むが、これに限定されない。具体的には、方法100は、ステップS101~ステップS104を含む。
ステップS101:撮像装置によって取得された画像を受信する。
ここで、撮像装置は、端末装置に内蔵または外付けされていてもよく、撮像された画像データをリアルタイムで端末装置に送信して処理することができる。有利なことには、撮像装置は、ユーザが端末装置に対して行った手足による指示を捕捉するように、ユーザに正対面するように配置されることができる。
なお、他のいくつかの実施例では、他の方法で画像を受信してもよく、または他の装置によって取り込まれた画像または送信された画像を受信してもよく、本開示はここで限定されない。
ステップS102:画像からユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得する。
ここで、第1の部位および第2の部位は、手、腕など、ユーザの身体部位である。第1の部位の位置情報とは、画像における第1の部位の位置、又は制御対象とする端末装置に対する第1の部位の位置情報をいう。第2の部位の姿勢情報とは、第2の部位が所在する形態、例えばジェスチャーなどである。
例として、前記画像中のユーザの第1の部位の位置情報と第2の部位の姿勢情報とを取得することができる。
ステップS103:第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。
ここで、ナビゲーション識別子は、表示インターフェース上の視覚要素を選択および制御するために使用される。ナビゲーション識別子は、Windows(登録商標)システムのマウスポインタなどのアイコンで表すことができる。ナビゲーション識別子を非表示にしたり、視覚要素をハイライトしたり、その他のアニメーション効果を生成したりすることで視覚要素が選択されていることを示すことができる。ナビゲーション識別子の移動軌跡は、ナビゲーション識別子の移動の変位および方向を反映する1つまたは1組の移動ベクトルを含む。ナビゲーション識別子の移動軌跡は、ユーザの第1の部位の位置情報によって決定される。
例として、第1の部位の位置情報からナビゲーション識別子が指す制御対象要素を特定することができる。例えば、制御対象装置に対する第1の部位の位置情報に基づいて、制御対象装置上のナビゲーション識別子の位置および/または移動軌跡を特定し、前記位置および/または移動軌跡に基づいて、ナビゲーション識別子が指す制御対象要素を特定する。
ステップS104:第2の部位の姿勢情報から、ナビゲーション識別子が指す視覚要素を制御するための制御指令を特定する。
ここで、ナビゲーション識別子の制御指令はナビゲーション識別子で指される視覚要素に対する制御あるいは実行する操作であり、視覚要素に対するクリック、軽く触れること、長押し、拡大、縮小、回転などを含む。いくつかの実施例では、各第2の部位の姿勢情報と制御指令とのマッピング関係を予め設定しておき、該マッピング関係から、取得した第2の部位の姿勢情報に対応する制御指令を特定することができる。
このように、本開示の実施例に係る制御方法によれば、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定し、前記第2の部位の姿勢情報に基づいて制御指令を特定することにより、制御指令の特定とナビゲーション識別子の位置決定とを分けて行う。制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置決定は、動的な位置変化に基づいて行われ、さらに、異なる特性のアルゴリズムを用いて上記の2つのプロセスを別々に特定するために便利な条件を提供することができる。例として、制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置決定は動的に変化する位置情報に基づいて行われるため、上述の2種類の異なる計算特性に対して、対応する特性を持つ計算モジュールを用いてそれぞれ第1の部位の位置情報と第2の部位の姿勢情報とを計算することにより、情報取得の適合性を高め、計算の精度および計算リソースの利用率を高めることができる。一方で、制御指令の特定とナビゲーション識別子の位置の特定とは、ユーザの異なる身体部位に基づくため、両者の特定プロセスが互いに影響を受けないようにすることができ、特に、第1の部位の輪郭形状が第2の部位の姿勢に伴って変化することがないため、ジェスチャーの変化がナビゲーション識別子の動きに影響を及ぼすことを回避することができ、ユーザ指令の認識精度を向上させることができる。
いくつかの実施例では、第1の部位および前記第2の部位は、同じユーザの異なる身体部位である。第1の部位と第2の部位とは包含関係になく、例えば、第2の部位が手である場合、第1の部位は手首、肘であり、指ではない。本開示の実施例は、ユーザの異なる身体部位によって、ナビゲーション識別子の移動軌跡と制御指令とをそれぞれ特定することにより、ユーザが第1の部位の位置を変更した場合に制御指令の確認に影響を与えたり、ユーザが第2の部位の姿勢を変更した場合にナビゲーション識別子の移動軌跡の確認に影響を与えたりすることを防止することができる。
いくつかの実施例では、前記第2の部位の位置は、前記第1の部位の位置の変化に追従して変化することができる。前記第1の部位自体の位置または姿勢は、前記第2の部位の姿勢に影響を及ぼさない。このようにして、第2の部位の位置は第1の部位の位置に追従して変化するため、第1の部位と第2の部位とが互いに関連する空間内で活動できるようにする。両者の空間距離が大きすぎることに起因して撮像装置が撮像範囲の制限によって第1の部位と第2の部位とを同時に撮像することが困難になることを回避し、第1の部位と第2の部位とを用いた制御対象要素の制御の成功率および操作性を向上させる。また、第1の部位の位置及び/又は姿勢の変化が第2の部位の姿勢に影響を与えることがないため、第2の部位の姿勢に基づく制御指令の生成の精度を向上させることができ、これにより、ナビゲーション識別子の位置制御及び制御指令の発行を正確かつ容易に行うことができる。
いくつかの実施例では、第1の部位は手であり、第2の部位は手首である。本開示の実施例では、手首はジェスチャーの変位を正確かつ安定して反映することができ、指や手のひらなどの部位よりもジェスチャーの変化の影響を受けにくく、ナビゲーション識別子の移動の正確な制御を実現することができる。また、手首の動きがジェスチャーに影響を与えないため、制御指令を容易かつ正確に行うことができる。
いくつかの実施例では、ステップS102はさらに以下のことを含む:
ステップA1:第1の計算モジュールによって前記画像からユーザの第1の部位の位置情報を取得する。
ステップA2:第2の計算モジュールによって前記画像からユーザの第2の部位の姿勢情報を取得する。
制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置の特定は、動的な位置変化に基づいて行われるため、本実施例では、特性の異なる計算モジュールを用いて、第1の部位の位置情報と第2の部位の姿勢情報とをそれぞれ計算することにより、情報取得の適合性を高め、計算精度および計算リソースの利用率を向上させることができる。
いくつかの実施例では、第1の計算モジュールは第1の機械学習モデルを実行し、第2の計算モジュールは第2の機械学習モデルを実行する。第1および第2の機械学習モデルは、ユーザの第1の部位および第2の部位を確実に識別するように訓練される。訓練した機械学習モデルを用いて第1の部位の位置情報と第2の部位の姿勢情報とを特定することで、認識精度を向上させ、計算リソースおよびハードウェアのコストを削減することができる。
いくつかの実施例では、ステップS104は、さらに以下のことを含む:
ステップB1:前記第2の部位の姿勢情報が所定の第1の姿勢に合致している場合、前記第2の部位の姿勢情報に基づいて前記制御要素を制御する。
ここで、第1の姿勢は、1つまたは複数の所定の手形状を含むことができる。
いくつかの実施例では、ステップS104は、さらに以下のことを含む:
ステップB2:前記第2の部位の姿勢情報が所定の第1の姿勢に合致しない場合、前記制御対象要素を制御しない。
本発明の実施例では、第2の部位の姿勢情報が所定の第1の姿勢に合致しない場合には、第1の部位の位置情報のみに基づいてナビゲーション識別子を移動させる。
いくつかの実施例では、ステップS102は、さらに以下のことを含む:
ステップC1:前記画像における第1の部位のキーポイントを特定する。
ステップC2:前記画像における第1の部位のキーポイントの位置から、前記第1の部位の位置情報を特定する。
いくつかの実施例では、方法100はさらに以下のことを含む:
ステップS105:少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、ナビゲーション識別子が指す視覚要素を制御する。例として、少なくとも2つのフレームの対象画像から取得する第1の部位の位置変化情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御することができる。ここで、ナビゲーション識別子が指す制御対象要素を制御する方法は、例えばアプリケーションインターフェース、アイコン、または他のコントロールなどを移動またはスクロールすることなど、制御デバイス上での制御対象要素の移動を移動またはスクロールの方式で制御することを含むが、これらに限定されるものではない。
ここで、少なくとも2つのフレームの対象画像を特定する方法は、以下のステップを含む:
ステップD1:前記第2の部位の姿勢情報が所定の第2の姿勢に合致する場合、前記第2の部位の姿勢情報に対応する画像を対象画像とする。
ステップD2:連続する複数のフレームの前記対象画像から少なくとも2つのフレームの対象画像を選択する。
本開示の1つまたは複数の実施例によれば、対象画像は、姿勢情報が第2の姿勢に合致する画像であり、姿勢情報が第2の姿勢に合致するときに、第1の部位の位置変化を視覚要素のスクロール効果に変換することをトリガすることによって、ユーザがナビゲーション識別子を制御して視覚要素をスクロールできるようにして、インタラクティブ効率を向上させる。ここで、第2の姿勢は、1つまたは複数の予め設定された手形状を含むことができる。例として、第1の部位の位置情報および/または第2の部位の所定の姿勢に基づいて、制御対象要素を移動させて、ナビゲーション識別子が指す制御対象要素を特定することができる。
いくつかの実施例では、ステップS105はさらに以下のことを含む:
ステップE1:前記少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、第1の部位の動き情報を特定する。
ステップE2:前記第1の部位の動き情報に基づいて前記視覚要素をスクロールする。
第1の部位の動き情報は、第1の部位の動き時間、第1の部位の動き速度、第1の部位の動き変位、第1の部位の動き加速度の1つ以上を含む。本実施例では、位置情報から動き情報を特定することにより、視覚要素をスクロールするために必要な初期パラメータおよび条件を実現し、視覚要素の関連するスクロールパラメータを特定することができる。
いくつかの実施例では、ステップE2はさらに以下のことを含む:
前記第1の部位の動き情報が所定の動き条件を満たすか否かを判定する。
そうであれば、前記第1の部位の動き情報に基づいて視覚要素のスクロール方向およびスクロール距離を特定する。
いくつかの実施例では、前記第2の姿勢は、所定の数の指の開きである。例として、第2の姿勢は、5本の指の開きである。スクロール操作では、通常、ジェスチャーの移動速度が速いことを要求するが、高速移動の場合には、所定の数の指の開きが他のジェスチャーよりも認識しやすくなり、認識精度を向上させることができる。
いくつかの実施例において、ステップS103は、さらに、第2の部位の姿勢情報が所定の第3の姿勢と一致する場合に、第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することを含む。なお、第3の姿勢は、予め設定された複数種類の手形状を含む。本実施例では、第2の部位の姿勢情報が所定の第3の姿勢に合致する場合にのみ、第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する。例えば、所定の手形状に合致する手の第1の部位位置のみに基づいてナビゲーション識別子を移動させることにより、ユーザが第1の部位を不用意に移動させてナビゲーション識別子が誤って移動することを回避することができる。
いくつかの実施例において、ステップS103は、さらに、離隔した画像から取得された第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することを含む。本開示の実施例では、ユーザが第1の部位を振る際に避けられない上下または左右の揺れによるナビゲーション識別子の揺れを防止するために、離隔した画像から取得された第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することができ、隣接する2つのフレームから特定された第1の部位の位置変化に基づいて特定されたナビゲーション識別子の移動軌跡に比べて、ナビゲーション識別子の揺れを低減することができる。ここで、離隔した画像は、所定のフレーム数だけインターバルされた画像であってもよいし、インターバルされたフレーム数を動的に調整した画像であってもよい。例として、時系列的に前後に配列された複数のフレーム(例えば、連続する複数のフレーム)における第1の部位の位置情報の位置変化、または位置変化から変換されたナビゲーション識別子の座標を、滑らかな曲線に擬似合成して、その曲線からナビゲーション識別子の移動軌跡を特定することができる。
いくつかの実施例では、撮像装置は単独のRGBカメラであり、方法100は、画像データの色空間をHSV色空間に変換するために、画像データにHSV色空間処理を施す色空間前処理ステップをさらに含む。RGBカメラは通常、3つの独立したCCDセンサによって3つの色信号を取得し、非常に正確なカラー画像を取得する。第2の部位の姿勢特徴および第1の部位のキーポイント特徴の抽出および認識の精度を向上させることができる。しかし、RGBモードの画像は肌色の分割に不利であるため、本開示の実施例では、撮像装置によって取り込まれた画像データをさらに色空間前処理し、画像データの色空間をHSV色空間に変換することによって、後続する第2の部位の姿勢特徴および第1の部位のキーポイント特徴の識別および抽出をより正確にすることができる。
いくつかの実施例では、第1の機械学習モデルは、畳み込みニューラルネットワークモデル(Convolutional Neural Networks、CNN)である。方法100は、さらに、画像データを2値化処理して2値化画像データを得る2値化前処理ステップと、画像データをホワイトバランス処理するホワイトバランス前処理ステップとを含む。畳み込みニューラルネットワークは入力から出力までのマッピングであり、正確な数式を必要とせずに、入力と出力との間のマッピング関係を学習することができ、既知のパターンにより訓練を行えば、入力および出力のペア間のマッピング能力を有することができ、2次元図形の変位を認識する場合に精度が高い。したがって、畳み込みニューラルネットワークモデルを用いて第1の部位の位置を取得することは高い精度が得られる。さらに、本発明の実施例では、画像の2値化により、画像データのデータ数を大幅に削減することができ、第2の部位の姿勢輪郭が強調される。また、ホワイトバランス処理により、画像データの照明条件を補正することができ、後続の第2の部位姿勢特徴および第1の部位のキーポイント特徴の識別および抽出がより正確になる。
いくつかの実施例では、ステップS103は、第1の部位の位置情報に基づいて、フィルタアルゴリズムおよび手ぶれ補正アルゴリズムを使用して、ナビゲーション識別子の最終的な移動軌跡を特定するステップをさらに含む。ここで、フィルタリングアルゴリズムはカルマンフィルタリングアルゴリズムを含んでもよく、手ぶれ補正アルゴリズムは移動平均法を含んでもよい。本開示の実施例では、第1の部位のキーポイント特徴の位置変化または位置変化から特定されたナビゲーション識別子の座標の変化をフィルタリングアルゴリズムおよび振れ防止アルゴリズムを用いて処理することによって、ナビゲーション識別子の移動軌跡をより滑らかにし、ナビゲーション識別子の振れを防止することができる。
図2は、本開示の実施例に係る制御方法が遠視野表示装置を制御する場面を示す模式図である。遠方視野表示装置100は、遠方視野表示装置100の前方の一定領域を撮像可能に構成された撮像素子110を有する。本開示の1つまたは複数の実施例に係る制御方法によれば、ユーザ(図示せず)は、この特定の領域内で手首210を振ることによって、該遠視野表示装置100に表示されるナビゲーション識別子120を移動させることができ、手220の姿勢を制御することによって、ナビゲーション識別子120が指す視覚要素130に対して特定の制御指令を発行することができる。
図3を参照する。図3は、本開示の他の実施例に係る制御方法200のフローチャートを示す。方法200は、ステップS201~ステップS206を含む。
ステップS201:RGBカメラで撮像された画像を受信する。
ステップS202:該画像に対してHSV色空間前処理、2値化前処理およびホワイトバランス前処理を行う。
ステップS203:畳み込みニューラルネットワークモデルに基づいて、前処理後の画像からユーザの手首の位置情報を取得する。
ステップS204:ランダムフォレストモデルに基づいて、前処理後の画像からユーザの手の姿勢情報を取得する。ここで、ランダムフォレスト(Random forest)は、ノイズや異常値に対して良好な耐性を持ち、過度な適合が発生せず、第2の部位の様々な姿勢特徴の抽出および識別に対して高い精度を持つ機械学習アルゴリズムである。
ステップS205:取得した手首の位置情報からナビゲーション識別子の移動軌跡を特定する。
ステップS206:取得した手の姿勢情報と、それと制御指令とのマッピング関係とに基づいて、ナビゲーション識別子の制御指令を特定する。制御指令は、ナビゲーション識別子が指す視覚要素を制御するためのものである。
以上のような制御方法について、図4は、本開示の一実施例に係る制御装置300の構成図を示している。装置300は、データ受信部301と、第1の機械学習部302と、第2の機械学習部303と、制御指令部304と、移動軌跡部305と、を備えて構成される。
データ受信部301は、撮像装置により撮像された画像を受信する。
取得部302は、前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する。
移動軌跡部303は、前記第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。
制御指令部304は、前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する。
このように、本開示の実施例に係る制御装置によれば、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定し、前記第2の部位の姿勢情報に基づいて制御指令を特定することにより、制御指令の特定とナビゲーション識別子の位置決定とを分けて行う。一方、制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置決定は、動的な位置変化に基づいて行われ、さらに、異なる特性アルゴリズムを用いて上記の2つのプロセスを別々に特定するために便利な条件を提供することができる。例として、制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置の特定は動的に変化する位置情報に基づいて行われるため、上述の2種類の異なる計算特性に対して、対応の特性を持つ計算モジュールを用いてそれぞれ第1の部位の位置情報と第2の部位の姿勢情報とを計算することにより、情報取得の適合性を高め、計算の精度および計算リソースの利用率を高めることができる。一方で、制御指令の特定とナビゲーション識別子の位置特定とは、ユーザの異なる身体部位に基づくため、両者の特定プロセスが互いに影響を受けないようにすることができ、特に、第1の部位の輪郭形状が第2の部位の姿勢に伴って変化することがなく、ジェスチャーの変化がナビゲーション識別子の動きに影響を及ぼすことを回避することができ、ユーザ指令の認識精度を向上させることができる。
なお、他のいくつかの他実施例では、画像は、他の方法で受信されてもよく、または他の装置によって取り込まれた画像または送信された画像を受信してもよく、本開示はこれについて限定しない。
装置の実施例については、基本的には方法の実施例に対応するため、関連点については、方法の実施例の部分を参照すればよい。上記で説明された装置の実施例は模式的なものにすぎず、分離モジュールとして説明されたモジュールは、分離されていてもよいし、分離されていなくてもよい。本実施例の目的を達成するために実際の必要に応じて、これらのモジュールの一部または全部を選択してもよい。当業者は、創造的な労力を払わなくてもそれを理解し、実施することができる。
いくつかの実施例では、取得部302は、さらに、第1の計算モジュールによって前記画像からユーザの第1の部位の位置情報を取得し、第2の計算モジュールによって前記画像からユーザの第2の部位の姿勢情報を取得する。
制御指令の特定は、静的な姿勢情報に基づいて行われ、ナビゲーション識別子の位置の特定は、動的な位置変化に基づいて行われるため、本実施例では、特性の異なる計算モジュールを用いて、第1の部位の位置情報と第2の部位の姿勢情報とをそれぞれ計算することにより、情報取得の適合性を高め、計算精度および計算リソースの利用率を向上させることができる。
いくつかの実施例では、第1の計算モジュールは第1の機械学習モデルを実行し、第2の計算モジュールは第2の機械学習モデルを実行する。第1および第2の機械学習モデルは、ユーザの第1の部位および第2の部位を確実に識別するように訓練されている。訓練された機械学習モデルを用いて第1の部位の位置情報と第2の部位の姿勢情報とを特定することで、認識精度を向上させ、計算リソースとハードウェアのコストを削減することができる。
いくつかの実施例において、制御指令部304は、さらに、前記第2の部位の姿勢情報が所定の第1の姿勢と合致する場合に、前記第2の部位の姿勢情報に基づいて制御対象要素を制御する。
ここで、第1の姿勢は、1つまたは複数の所定の手形状を含んでもよい。
いくつかの実施例では、制御指令部304は、さらに、前記第2の部位の姿勢情報が所定の第1の姿勢に合致しない場合、前記制御対象要素を制御しない。
本開示の実施例では、第2の部位の姿勢情報が所定の第1の姿勢に合致しない場合には、第1の部位の位置情報のみに基づいてナビゲーション識別子を移動させる。
いくつかの実施例では、取得部302は、さらに
前記画像中の第1の部位のキーポイントを特定するためのキーポイント特定サブユニットと、
前記画像における第1の部位のキーポイントの位置に基づいて、第1の部位の位置情報を特定する位置特定サブユニットと、を含む。
いくつかの実施例では、装置300は、少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、前記ナビゲーション識別子が指す視覚要素をスクロールするスクロールユニットをさらに含む。
ここで、スクロールユニットは、さらに、
前記第2の部位の姿勢情報が所定の第2の姿勢に合致する場合に、前記第2の部位の姿勢情報に対応する画像を対象画像とする対象画像特定サブユニットと、
連続する複数のフレームの前記対象画像から少なくとも2つのフレームの対象画像を選択する対象画像選択サブユニットと、を含む。
本開示の実施例では、対象画像は、姿勢情報が第2の姿勢に合致する画像であり、姿勢情報が第2の姿勢に合致するときに、第1の部位の位置変化を視覚要素のスクロール効果に変換することをトリガすることにより、ユーザがナビゲーション識別子を制御して視覚要素をスクロールさせることを可能になり、インタラクティブ効率を向上させることができる。ここで、第2の姿勢は、1つまたは複数の所定の手形状を含んでも良い。
いくつかの実施例では、スクロールユニットは、さらに
前記少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、第1の部位の動き情報を特定する動き情報サブユニットと、
前記第1の部位の動き情報に基づいて前記視覚要素をスクロールするスクロールサブユニットと、を含む。
第1の部位の動き情報は、第1の部位の動き時間、第1の部位の動き速度、第1の部位の動き変位、第1の部位の動き加速度の1つ以上を含む。本実施例では、位置情報から動き情報を特定することにより、視覚要素をスクロールするために必要な初期パラメータおよび条件を実現し、視覚要素の関連するスクロールパラメータを特定することができる。
いくつかの実施例では、スクロールサブユニットは、さらに、第1の部位の動き情報が所定の動き条件を満たすか否かを判定し、所定の動き条件を満たすと判定された場合、前記第1の部位の動き情報から前記視覚要素のスクロール方向およびスクロール距離を特定する。
いくつかの実施例では、前記第2の姿勢は、5本の指の開きである。スクロール操作は一般的に、ジェスチャーの移動速度が速いことを要求するが、速い移動の場合には、5本指の開きが他のジェスチャーよりも認識しやすくなり、認識精度を向上させることができる。
いくつかの実施例では、移動軌跡部303は、さらに、前記第2の部位の姿勢情報が所定の第3の姿勢と合致する場合に、前記第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。第3の姿勢は、所定の複数種類の手形状を含んでもよい。本実施例では、第2の部位の姿勢情報が所定の第3の姿勢に合致する場合にのみ、第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する。例えば、所定の手形状に合致する手の第1の部位の位置情報のみに基づいてナビゲーション識別子を移動させることにより、ユーザが第1の部位を不用意に移動させてナビゲーション識別子が誤って移動することを回避することができる。
いくつかの実施例では、移動軌跡部303は、さらに、離隔した画像から取得された第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定する。ユーザが第1の部位を振る際に避けられない上下または左右の揺れによるナビゲーション識別子の揺れを防止するために、ナビゲーション識別子について、離隔した画像から取得された第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することができ、隣接する2つのフレームから特定された第1の部位の位置変化に基づいて特定されたナビゲーション識別子の移動軌跡に比べて、ナビゲーション識別子の揺れを低減することができる。一例として、連続する複数のフレームにおける第1の部位の位置情報の位置変化、または該位置変化から変換されたナビゲーション識別子の座標を、滑らかな曲線に擬似的に合成して、その曲線からナビゲーション識別の移動軌跡を特定することができる。
いくつかの実施例では、撮像装置は単独のRGBカメラであり、装置300は、画像データの色空間をHSV色空間に変換するために、画像データをHSV色空間処理する色空間前処理部をさらに含む。RGBカメラは通常、3つの独立したCCDセンサによって3つの色信号を取得し、非常に正確なカラー画像を取得することができる。第2の部位の姿勢特徴および第1の部位のキーポイント特徴の抽出および認識の精度を向上させることができる。しかし、RGBモードの画像は肌色の分割に不利であるため、本開示の実施例では、撮像装置によって取り込まれた画像データをさらに色空間前処理し、画像データの色空間をHSV色空間に変換することによって、後続する第2の部位の姿勢特徴および第1の部位のキーポイント特徴の識別および抽出をより正確にすることができる。
いくつかの実施例では、第1の機械学習モデルは、畳み込みニューラルネットワークモデル(Convolutional Neural Networks、CNN)である。装置300は、画像に対して2値化処理およびホワイトバランス処理を行う2値化およびホワイトバランス前処理部をさらに備える。畳み込みニューラルネットワークは入力から出力までのマッピングであり、正確な数式を必要とせずに、入力と出力との間のマッピング関係を学習することができ、既知のパターンにより訓練を行えば、入力および出力のペア間のマッピング能力を有することができ、2次元図形の変位を認識する場合に精度が高い。したがって、畳み込みニューラルネットワークモデルを用いて第1の部位の位置を取得することは高い精度が得られる。さらに、本発明の実施例では、画像の2値化により、画像データのデータ数を大幅に削減することができ、第2の部位の姿勢輪郭が強調される。また、ホワイトバランス処理により、画像データの照明条件を補正することができ、後続の第2の部位姿勢特徴および第1の部位のキーポイント特徴の識別および抽出がより正確になる。
いくつかの実施例では、移動軌跡部303は、さらに、第1の部位の位置情報に基づいて、フィルタアルゴリズムおよび手ぶれ補正アルゴリズムを使用して、ナビゲーション識別子の最終的な移動軌跡を特定するステップをさらに含む。ここで、フィルタリングアルゴリズムはカルマンフィルタリングアルゴリズムを含んでもよく、手ぶれ補正アルゴリズムは移動平均法を含んでもよい。本開示の実施例では、第1の部位のキーポイント特徴の位置変化または位置変化から特定されたナビゲーション識別子の座標の変化をフィルタリングアルゴリズムおよび振れ防止アルゴリズムを用いて処理することによって、ナビゲーション識別子の移動軌跡をより滑らかにし、ナビゲーション識別子の振れを防止することができる。
同時に、本開示の1つまたは複数の実施例によれば、
少なくとも1つのメモリおよび少なくとも1つのプロセッサを含み、
メモリは、プログラムコードを格納するために使用され、プロセッサは、メモリに格納されたプログラムコードを呼び出すために使用されることにより、本開示の1つまたは複数の実施例に係る制御方法を端末に実行させる、
端末装置が提供される。
同時に、本開示の1つまたは複数の実施例によれば、コンピュータ装置によって実行されたときに、本開示の1つまたは複数の実施例に係る制御方法をコンピュータ装置に実行させるプログラムコードを記憶する非一時的なコンピュータ記憶媒体が提供される。
図5は、本開示の実施例を実現するのに適した端末装置800の概略構成図を示す。本開示の実施例における端末装置は、携帯電話、ノートパソコン、デジタル放送受信機、PDA(Personal Digital Assistant)、PAD(タブレット)、PMP(Portable Multimedia Player)、車載端末(例えば、カーナビゲーション端末)等の携帯端末、及びスマートテレビ、デスクトップコンピュータ等の固定端末を含むが、これらに限定されるものではない。図5に示す端末装置は一例にすぎず、本開示の実施例の機能および使用範囲を限定するものではない。
図5に示すように、端末装置800は、読み取り専用メモリ(ROM)802に記憶されたプログラム、または記憶装置808からランダムアクセスメモリ(RAM)803にロードされたプログラムに従って、様々な適切な動作および処理を実行することができる処理装置(例えば、中央プロセッサ、グラフィックスプロセッサなど)801を含んでもよい。RAM803には、端末装置800の操作に必要な各種のプログラムやデータも記憶されている。処理装置801、ROM802、およびRAM803は、バス804を介して接続されている。入出力(I/O)インターフェース805もバス804に接続されている。
一般に、I/Oインターフェース805には、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどの入力デバイス806、例えば液晶ディスプレイ(LCD)、スピーカ、バイブレータ等を含む出力装置807、例えば磁気テープ、ハードディスクなどを含む記憶装置808、通信デバイス809が接続される。通信デバイス809は、データを交換するために、端末装置800が他の装置と無線または有線で通信することを可能にする。図5は、様々なデバイスを有する端末装置800を示しているが、前記デバイスの全てを実装または備えることは必要ではないことが理解されるべきである。代わりに、より多くのまたはより少ないデバイスを実装し、または備えてもよい。
特に、本開示の実施例によれば、フローチャートを参照して上述したプロセスは、コンピュータ・ソフトウェア・プログラムとして実現することができる。例えば、本開示の実施例は、フローチャートに示される方法を実行するためのプログラムコードを含む、非一時的なコンピュータにより読み取り可能な媒体上に搭載されたコンピュータプログラムを含むコンピュータプログラム製品を含む。このような実施例では、該コンピュータプログラムは、通信デバイス809を介してネットワークからダウンロードされてインストールされてもよいし、記憶装置808からインストールされてもよいし、ROM802からインストールされてもよい。このコンピュータプログラムが処理装置801によって実行されると、本開示の実施例に係る方法で規定される上記の機能が実行される。
なお、本開示で上述したコンピュータにより読み取り可能な媒体は、コンピュータ可読信号媒体もしくはコンピュータ可読記憶媒体、またはこれら2つの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、限定されるわけではないが、電気、磁気、光、電磁、赤外線、または半導体のシステム、装置、またはデバイス、あるいはこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体のより具体的な例は、以下のものを含むことができるが、これらに限定されない:1つ以上のワイヤを有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学メモリデバイス、磁気メモリデバイス、または上記の任意の適切な組み合わせを有する。本開示では、コンピュータ可読記憶媒体は、指令実行システム、装置、またはデバイスによって、あるいはそれらと組み合わせて使用することができるプログラムを含むまたは格納する任意の有形媒体とすることができる。一方、本開示では、コンピュータ可読信号媒体は、コンピュータ可読プログラムコードを搬送するキャリアの一部として、ベースバンドに、または伝搬するデータ信号を含むことができる。このような伝播されたデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限定されないので、様々な形態をとることができる。コンピュータ可読信号媒体は、指令実行システム、装置、またはデバイスによって、あるいはそれらと組み合わせて使用するためのプログラムを送信、伝播、または伝送することができるコンピュータ可読記憶媒体以外の任意のコンピュータにより読み取り可能な媒体であってもよい。コンピュータにより読み取り可能な媒体上に含まれるプログラムコードは、ワイヤ、光ケーブル、RF(無線周波数)など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体で伝送されてもよい。
いくつかの実施例では、クライアントおよびサーバは、HTTP(Hyper Text Transfer Protocol)などの既知のまたは将来研究開発される任意のネットワークプロトコルを利用して通信することができ、任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)と相互接続することができる。通信ネットワークの例としては、ローカル・エリア・ネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、ネットワーク網(例えば、インターネット)、エンドツーエンドネットワーク(例えば、アドホックエンドツーエンドネットワーク)、および既知のネットワークまたは将来研究開発されるネットワークなどがある。
前記コンピュータにより読み取り可能な媒体は、前記端末装置に含まれるものであってもよいし、この端末装置に組み込まれていない別個の存在であってもよい。
前記コンピュータにより読み取り可能な媒体には、一つ又複数のフログラムが搭載され、該一つ又複数のフログラムが前記端末装置によって実行されるときに、前記端末装置は、画像を受信する;画像からユーザの第1の部位の位置情報と第2の部位の姿勢情報とを取得する;第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する;そして、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するための制御指令を特定する。
また、前記コンピュータにより読み取り可能な媒体には、一つ又複数のフログラムが搭載され、該一つ又複数のフログラムが前記端末装置によって実行されるときに、前記端末装置は、画像を受信する;画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する;前記第1の部位の位置情報に基づいてナビゲーション識別子が指す制御要素特定する;前記第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す制御対象要素を制御するための制御指令を特定する。
本開示の動作を実行するためのコンピュータプログラムコードは、Java(登録商標)、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語を含むが、これらに限定されなく、「C」言語などの従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語、またはこれらの組み合わせで記述することができる。プログラムコードは、完全にユーザコンピュータ上で、部分的にユーザのコンピュータ上で、独立したソフトウェアパッケージとして、部分的にユーザコンピュータ上で、部分的にリモートコンピュータ上で、あるいは、完全にリモートコンピュータまたはサーバ上で実行することができる。リモートコンピュータが関与する場合、リモートコンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または外部コンピュータ(例えば、インターネットを介してインターネット・サービス・プロバイダを利用して接続することができる)に接続することができる。
図面のフローチャートおよびブロック図は、本開示の様々な実施例に従って、システム、方法、およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、および動作を図示している。この点で、フローチャートまたはブロック図中の各ブロックは、所定の論理機能を実装するための1つまたは複数の実行可能命令を含むモジュール、プログラムセグメント、またはコードの一部を表すことができる。代替としてのいくつかの実装では、ブロックに示された機能は、図面に示されたものとは異なる順序で発生することもあることにも留意されたい。例えば、連続的に表現された2つのブロックは、実際には実質的に並列に実行されてもよく、関係する機能に応じて逆の順序で実行されてもよい場合がある。ブロック図および/またはフローチャート中の各ブロック、ならびにブロック図および/またはフローチャート中のブロックの組み合わせは、所定の機能または動作を実行する専用ハードウェアベースのシステムで実現されてもよく、あるいは、専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよいことにも留意されたい。
本開示の実施例に関連して説明されたユニットは、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。なお、ユニットの名称がユニット自体を限定するものではない場合もあり、例えば、取得識別ユニットを「前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得するユニット」と記載することもできる。
本明細書で説明された機能は、少なくとも部分的に、1つまたは複数のハードウェア論理コンポーネントによって実行されることができる。例えば、非限定的に、使用され得る例示的なタイプのハードウェア論理構成要素は、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、複雑プログラマブルロジックデバイス(CPLD)などを含む。
本開示の文脈では、機械読み取り可能な媒体は、指令実行システム、装置、またはデバイスが使用するために、あるいは、指令実行システム、装置、またはデバイスと共に使用するために、プログラムを含むかまたは格納することができる有形媒体とする。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体とすることができる。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線的、または半導体的なシステム、装置またはデバイス、あるいはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されるものではない。機械読み取り可能な記憶媒体のより具体的な例としては、1つまたは複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、便利なコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、またはこれらの任意の適切な組み合わせがある。
本開示の1つまたは複数の実施例によれば、撮像装置によって取得された画像を受信することと、画像からユーザの第1の部位の位置情報と第2の部位の姿勢情報とを取得することと、第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することと、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を決定することと、を含む制御方法が提供される。
本開示の1つまたは複数の実施例によれば、第1の部位および第2の部位は、同じユーザの異なる身体部位である。
本開示の1つまたは複数の実施例によれば、前記第2の部位の位置は、前記第1の部位の位置の変化に追従して変化することができ、前記第1の部位自体の位置および/または姿勢は、前記第2の部位の姿勢に影響を及ぼさない。
本開示の1つまたは複数の実施例によれば、第1の部位は手であり、第2の部位は手首である。
本開示の1つまたは複数の実施例によれば、画像からユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得することには、第1の計算モジュールに基づいて、画像からユーザの第1の部位の位置情報を取得することと、第2の計算モジュールに基づいて、画像からユーザの第2の部位の姿勢情報を取得することと、を含む。
本開示の1つまたは複数の実施例によれば、第1の計算モジュールは第1の機械学習モデルを実行し、第2の計算モジュールは第2の機械学習モデルを実行する。
本開示の1つまたは複数の実施例によれば、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することには、第2の部位の姿勢情報が所定の第1の姿勢に合致する場合に、第2の部位の姿勢情報に基づいて視覚要素を制御することを含む。
本開示の1つまたは複数の実施例によれば、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を決定することには、第2の部位の姿勢情報が所定の第1の姿勢に合致しない場合、視覚要素を制御しないことを含む。
本開示の1つまたは複数の実施例によれば、画像からユーザの第1の部位の位置情報を取得することには、画像中の第1の部位のキーポイントを特定することと、画像における第1の部位のキーポイントの位置に基づいて第1の部位の位置情報を特定することと、を含む。
本開示の1つまたは複数の実施例に係る制御方法は、少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、ナビゲーション識別子が指す視覚要素をスクロールすることをさらに含み、ここで、少なくとも2つのフレームの対象画像の特定方法は、第2の部位の姿勢情報が所定の第2の姿勢に合致する場合に、第2の部位の姿勢情報に対応する画像を対象画像とすることと、連続する複数のフレームの対象画像から少なくとも2つのフレームの対象画像を選択することと、を含む。
本開示の1つまたは複数の実施例によれば、少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、ナビゲーション識別子が指す視覚要素を制御することには、少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、第1の部位の動き情報を特定することと、第1の部位の動き情報に従って視覚要素をスクロールすることと、を含む。
本開示の1つまたは複数の実施例によれば、前記した、前記ナビゲーション識別子が指す視覚要素を制御することには、前記ナビゲーション識別子が指す視覚要素をスクロールまたは移動することを含む。
本開示の1つまたは複数の実施例によれば、第1の部位の動き情報は、第1の部位の動き時間、第1の部位の動き速度、第1の部位の動き変位、第1の部位の動き加速度の1つまたは複数の種類を含む。
本開示の1つまたは複数の実施例によれば、第1の部位の動き情報に基づいて視覚要素を制御することには、第1の部位の動き情報が所定の動き条件を満たすか否かを判断することと、そうであれば、第1の部位の動き情報に基づいて視覚要素のスクロール方向及びスクロール距離を特定することと、を含む。
本開示の1つまたは複数の実施例によれば、第2の姿勢は、所定の数の指の開きである。
本開示の1つまたは複数の実施例によれば、第2の姿勢は、5本の指の開きである。
本開示の1つまたは複数の実施例によれば、第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、第2の部位の姿勢情報が所定の第3の姿勢と合致する場合に、第1の部位の位置情報に基づいて、ナビゲーション識別子の移動軌跡を特定することを含む。
本開示の1つまたは複数の実施例によれば、第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、離隔した画像から取得された第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することを含む。
本開示の1つまたは複数の実施例によれば、撮像装置は、単独のRGBカメラであり、制御方法には、画像の色空間をHSV色空間に変換するために、画像にHSV色空間前処理を行うことも含まれる。
本開示の1つまたは複数の実施例によれば、第1の機械学習モデルは畳み込みニューラルネットワークモデルであり、制御方法は、画像に対して2値化前処理とホワイトバランス前処理とを行うことをさらに含む。
本開示の1つまたは複数の実施例によれば、第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、第1の部位の位置情報に基づいてフィルタアルゴリズムおよび手ぶれ補正アルゴリズムを使用してナビゲーション識別子の最終的な移動軌跡を特定することを含む。
本開示の1つまたは複数の実施例によれば、前記した、前記画像からユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得することには、前記画像におけるユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得することを含む。
本開示の1つまたは複数の実施例によれば、撮像装置によって取得された画像を受信するデータ受信部と、画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する取得認識部と、第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡又は位置情報を特定し、及び/又は前記第1の部位の位置情報及び/又は第2の部位の所定の姿勢に基づいて制御対象要素を移動させる移動軌跡部と、第2の部位の姿勢情報に基づいて、ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する制御指令部と、を備える制御装置が提供される。
本開示の1つまたは複数の実施例によれば、少なくとも1つのメモリおよび少なくとも1つのプロセッサを含み、メモリは、プログラムコードを格納するために使用され、プロセッサは、メモリに格納されたプログラムコードを呼び出すために使用され、本開示の1つまたは複数の実施例に係る制御方法を端末に実行させる端末が提供される。
本開示の1つまたは複数の実施例によれば、コンピュータ装置によって実行されると、本開示の1つまたは複数の実施例に係る制御方法をコンピュータ装置に実行させるプログラムコードを記憶するコンピュータ記憶媒体が提供される。
以上の説明は、本開示の好ましい実施例および適用される技術原理の説明にすぎない。当業者は、本開示に係る開示の範囲は、上記の技術的特徴の特定の組み合わせからなる技術的解決手段に限定されるものではなく、上記の開示の発想から逸脱することなく、上記の技術的特徴又はその均等な特徴の任意の組み合わせからなる他の技術的解決手段も対象とすべきであることを理解するであろう。上述の特徴と本開示で開示された(ただし、これらに限定されない)類似の機能を有する技術的特徴とを相互に置換して形成された発明が挙げられる。
さらに、動作は特定の順序で示されているが、これらの動作が、示されている特定の順序で実行されるか、または順次実行されることを必要とするものとして理解されるべきではない。ある場合では、多重タスクや並列処理が有利になる場合がある。同様に、いくつかの具体的な実施の詳細が上記の論述に含まれているが、これらは本開示の範囲を制限するものとして解釈されるべきではない。個別の実施例で説明された、いくつかの特徴は、単一の実施例に組み合わせて実現されてもよい。対照的に、単一の実施例で説明された様々な特徴は、複数の実施例において個別に、または任意の適切なサブ組み合わせで実現されてもよい。
本主題は、構造的特徴および/または方法的論理動作に固有の言語で説明されているが、特許請求の範囲において限定される主題は、上述した特定の特徴または動作に必ずしも限定されないことが理解されるべきである。対照的に、上記で説明された特定の特徴および動作は、特許請求の範囲を実現する例示的な形態にすぎない。
[関連出願の相互参照]
本出願は、2020年06月05日付けで出願された、発明の名称が「制御方法、装置、端末及び記憶媒体」である中国特許出願第202010507222.8号の優先権を主張して2021年6月4日付けで出願された、発明の名称が「制御方法、装置、端末及び記憶媒体」である国際特許出願第PCT/CN2021/098464号に基づくものであり、両出願の全ての内容はここで参照により本出願に援用される。
いくつかの実施例では、第1の部位は手首であり、第2の部位はである。本開示の実施例では、手首はジェスチャーの変位を正確かつ安定して反映することができ、指や手のひらなどの部位よりもジェスチャーの変化の影響を受けにくく、ナビゲーション識別子の移動の正確な制御を実現することができる。また、手首の動きがジェスチャーに影響を与えないため、制御指令を容易かつ正確に行うことができる。
本開示の1つまたは複数の実施例によれば、第1の部位は手首であり、第2の部位はである。

Claims (30)

  1. 画像を受信することと、
    前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得することと、
    前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することと、
    前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することと、
    を含むことを特徴とする制御方法。
  2. 前記第1の部位と前記第2の部位とは、同一ユーザの異なる身体部位に属することを特徴とする請求項1に記載の制御方法。
  3. 前記第2の部位の位置は、前記第1の部位の位置の変化に追従して変化することができ、および/または、前記第1の部位自体の位置および/または姿勢は、前記第2の部位の姿勢に影響を及ぼさないことを特徴とする請求項2に記載の制御方法。
  4. 前記第1の部位が手であり、前記第2の部位が手首であることを特徴とする請求項3に記載の制御方法。
  5. 前記画像からユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得することは、
    第1の計算モジュールによって前記画像からユーザの第1の部位の位置情報を取得することと、
    第2の計算モジュールによって前記画像からユーザの第2の部位の姿勢情報を取得することと、を含むことを特徴とする請求項1に記載の制御方法。
  6. 前記第1の計算モジュールは、第1の機械学習モデルを実行するためのものであり、前記第2の計算モジュールは、第2の機械学習モデルを実行するためのものであることを特徴とする請求項5に記載の制御方法。
  7. 前記した、前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することには、
    前記第2の部位の姿勢情報が所定の第1の姿勢に合致する場合、前記第2の部位の姿勢情報に応じて前記視覚要素を制御することを含む、
    ことを特徴とする請求項1に記載の制御方法。
  8. 前記した、前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定することには、
    前記第2の部位の姿勢情報が所定の第1の姿勢に適合しない場合には、前記視覚要素の制御は行われないことを含むことを特徴とする請求項7に記載の制御方法。
  9. 前記画像からユーザの第1の部位の位置情報を取得することには、
    前記画像中の第1の部位のキーポイントを決定することと、
    前記画像における前記第1の部位のキーポイントの位置に基づいて前記第1の部位の位置情報を特定することを含むことを特徴とする請求項1に記載の制御方法。
  10. 少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御することをさらに含み、
    前記少なくとも2つのフレームの対象画像を特定する方法には、
    前記第2の部位の姿勢情報が所定の第2の姿勢に合致する場合、前記第2の部位の姿勢情報に対応する画像を対象画像とすることと、
    連続する複数のフレームの前記対象画像から少なくとも2つのフレームの対象画像を選択することと、を含む、
    ことを特徴とする請求項1に記載の制御方法。
  11. 少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御することには、
    前記少なくとも2つのフレームの対象画像から取得された第1の部位の位置情報に基づいて、第1の部位の動き情報を特定することと、
    前記第1の部位の動き情報に基づいて前記視覚要素を制御することと、を含む、
    ことを特徴とする請求項10に記載の制御方法。
  12. 前記第1の部位の動き情報は、第1の部位の動き時間、第1の部位の動き速度、第1の部位の動き変位、第1の部位の動き加速度の1つ以上を含む、ことを特徴とする請求項11に記載の制御方法。
  13. 前記した、前記第1の部位の動き情報に基づいて前記視覚要素を制御することには、
    前記第1の部位の動き情報が所定の動き条件を満たすか否かを判定することと、
    満たす場合、前記第1の部位の動き情報に基づいて、前記視覚要素のスクロール方向およびスクロール距離を特定することと、
    を含むことを特徴とする請求項11に記載の制御方法。
  14. 前記した、前記ナビゲーション識別子が指す視覚要素を制御することには、
    前記視覚要素をスクロールまたは移動することを含む、
    ことを特徴とする請求項10に記載の制御方法。
  15. 前記第2の姿勢は、所定の数の指が開くことであることを特徴とする請求項10に記載の制御方法。
  16. 前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することには、
    前記第2の部位の姿勢情報が所定の第3の姿勢に合致する場合には、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することを含む、ことを特徴とする請求項1に記載の制御方法。
  17. 前記した、前記第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、
    隔離した画像から取得した第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することを含む、ことを特徴とする請求項1に記載の制御方法。
  18. 前記した、画像を受信することには、撮像装置によって取得された画像を受信することを含む、ことを特徴とする請求項1に記載の制御方法。
  19. 前記撮像装置は、単一のRGBカメラであり、
    前記制御方法は、前記画像の色空間をHSV色空間に変換するために、前記画像をHSV色空間前処理することをさらに含む、ことを特徴とする請求項18に記載の制御方法。
  20. 前記第1の機械学習モデルは、畳み込みニューラルネットワークモデルであり、
    前記制御方法は、さらに、前記画像に対して2値化前処理とホワイトバランス前処理とを行うことを含むことを特徴とする請求項6に記載の制御方法。
  21. 前記した、前記第1の部位の位置情報からナビゲーション識別子の移動軌跡を特定することには、
    前記第1の部位の位置情報に基づいてフィルタリングアルゴリズム及び手振れ防止アルゴリズムを用いて前記ナビゲーション識別子の最終的な移動軌跡を特定することを含む、ことを特徴とする請求項1に記載の制御方法。
  22. 前記した、前記画像からユーザの第1の部位の位置情報および第2の部位の姿勢情報を取得することには、
    前記画像中のユーザの第1の部位の位置情報と第2の部位の姿勢情報とを取得することを含む、ことを特徴とする請求項1に記載の制御方法。
  23. 前記した、前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定することには、
    制御対象機器に対する前記第1の部位の位置情報に基づいて、前記制御対象機器上のナビゲーション識別子の移動軌跡を特定することを含み、
    前記制御指令が前記ナビゲーション識別子が指す視覚要素を制御するために使用されることには、前記制御指令が、前記ナビゲーション識別子が指す、前記制御対象機器上に位置する視覚要素を制御するために使用されることを含む、
    ことを特徴とする請求項1に記載の制御方法。
  24. 画像を受信することと、
    前記画像からユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得することと、
    前記第1の部位の位置情報に基づいてナビゲーション識別子が指す制御対象要素を特定することと、
    前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定することと、を含む、
    ことを特徴とする制御方法。
  25. 前記した、第1の部位の位置情報からナビゲーション識別子が指す制御対象要素を特定することには、
    制御対象装置に対する前記第1の部位の位置情報に基づいて、前記制御対象装置上のナビゲーション識別子の位置および/または移動軌跡を特定し、前記位置および/または移動軌跡に基づいて、前記ナビゲーション識別子が指す制御対象要素を特定すること、および/または、
    少なくとも2つのフレームの対象画像によって取得された第1の部位の位置変化情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御することと、を含む、
    ことを特徴とする請求項24に記載の制御方法。
  26. 前記ナビゲーション識別子が指す制御対象要素を制御することには、
    制御対象装置上での制御対象要素の移動を制御すること、を含むことを特徴とする請求項25に記載の制御方法。
  27. 画像を受信するデータ受信部と、
    前記画像に基づいて、ユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する取得認識部と、
    前記第1の部位の位置情報に基づいてナビゲーション識別子の移動軌跡を特定する移動軌跡部と、
    前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す視覚要素を制御するために使用される制御指令を特定する制御指令部と、を含むことを特徴とする制御装置。
  28. 画像を受信するデータ受信部と、
    前記画像に基づいて、ユーザの第1の部位の位置情報及び第2の部位の姿勢情報を取得する取得認識部と、
    前記第1の部位の位置情報に基づいてナビゲーション識別子の位置情報を特定する、及び/又は、前記第1の部位の位置情報及び/又は第2の部位の所定の姿勢に基づいて制御対象要素を移動させる移動軌跡部と、
    前記第2の部位の姿勢情報に基づいて、前記ナビゲーション識別子が指す制御対象要素を制御するために使用される制御指令を特定する制御指令部と、を含むことを特徴とする制御装置。
  29. 少なくとも1つのメモリおよび少なくとも1つのプロセッサを含み、
    前記メモリは、プログラムコードを記憶するためのものであり、前記プロセッサは、請求項1~26のいずれか一項に記載の制御方法を端末に実行させるように前記メモリに記憶されたプログラムコードを呼び出す、
    ことを特徴とする端末。
  30. コンピュータ装置により実行されたときに、請求項1~26のいずれか一項に記載の制御方法を前記コンピュータ装置に実行させるプログラムコードが記憶されることを特徴とするコンピュータ記憶媒体。
JP2022574219A 2020-06-05 2021-06-04 制御方法、装置、端末および記憶媒体 Active JP7514331B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010507222.8 2020-06-05
CN202010507222.8A CN111601129B (zh) 2020-06-05 2020-06-05 控制方法、装置、终端及存储介质
PCT/CN2021/098464 WO2021244650A1 (zh) 2020-06-05 2021-06-04 控制方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
JP2023527906A true JP2023527906A (ja) 2023-06-30
JP7514331B2 JP7514331B2 (ja) 2024-07-10

Family

ID=72192464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022574219A Active JP7514331B2 (ja) 2020-06-05 2021-06-04 制御方法、装置、端末および記憶媒体

Country Status (5)

Country Link
US (1) US20230093983A1 (ja)
EP (1) EP4149116A4 (ja)
JP (1) JP7514331B2 (ja)
CN (1) CN111601129B (ja)
WO (1) WO2021244650A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111601129B (zh) * 2020-06-05 2022-04-01 北京字节跳动网络技术有限公司 控制方法、装置、终端及存储介质
CN112256367A (zh) * 2020-10-19 2021-01-22 北京字节跳动网络技术有限公司 图形用户界面的显示方法、装置、终端和存储介质

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8793620B2 (en) * 2011-04-21 2014-07-29 Sony Computer Entertainment Inc. Gaze-assisted computer interface
US9696808B2 (en) * 2006-07-13 2017-07-04 Northrop Grumman Systems Corporation Hand-gesture recognition method
JP5228439B2 (ja) 2007-10-22 2013-07-03 三菱電機株式会社 操作入力装置
JP5381569B2 (ja) 2009-09-29 2014-01-08 富士通株式会社 ジェスチャ認識装置、ジェスチャ認識方法、およびジェスチャ認識プログラム
US9069386B2 (en) 2010-05-11 2015-06-30 Nippon Systemware Co., Ltd. Gesture recognition device, method, program, and computer-readable medium upon which program is stored
US8416189B2 (en) * 2010-06-04 2013-04-09 Acer Incorporated Manual human machine interface operation system and method thereof
US20110304541A1 (en) * 2010-06-11 2011-12-15 Navneet Dalal Method and system for detecting gestures
CN102324041B (zh) * 2011-09-09 2014-12-03 深圳泰山在线科技有限公司 像素归类方法、关节体姿态识别方法及鼠标指令生成方法
CN103135745B (zh) * 2011-11-25 2018-01-02 夏普株式会社 基于深度图像的非接触控制方法、信息设备和系统
KR20130081580A (ko) 2012-01-09 2013-07-17 삼성전자주식회사 표시 장치 및 그 제어 방법
US20130249793A1 (en) * 2012-03-22 2013-09-26 Ingeonix Corporation Touch free user input recognition
CN103425238A (zh) * 2012-05-21 2013-12-04 刘鸿达 以手势为输入的控制系统云端系统
EP2877909B1 (en) 2012-07-27 2018-12-26 Nokia Technologies Oy Multimodal interaction with near-to-eye display
CN102854983B (zh) * 2012-09-10 2015-12-02 中国电子科技集团公司第二十八研究所 一种基于手势识别的人机交互方法
CN102981742A (zh) * 2012-11-28 2013-03-20 无锡市爱福瑞科技发展有限公司 基于计算机视觉的手势交互系统
US9696867B2 (en) * 2013-01-15 2017-07-04 Leap Motion, Inc. Dynamic user interactions for display control and identifying dominant gestures
CN103970260B (zh) * 2013-01-31 2017-06-06 华为技术有限公司 一种非接触式手势控制方法及电子终端设备
KR20140139726A (ko) * 2013-05-28 2014-12-08 엘에스산전 주식회사 Hmi의 동작 인식장치
WO2015102658A1 (en) * 2014-01-03 2015-07-09 Intel Corporation Systems and techniques for user interface control
EP2891950B1 (en) 2014-01-07 2018-08-15 Sony Depthsensing Solutions Human-to-computer natural three-dimensional hand gesture based navigation method
WO2016097841A2 (en) * 2014-12-16 2016-06-23 Quan Xiao Methods and apparatus for high intuitive human-computer interface and human centric wearable "hyper" user interface that could be cross-platform / cross-device and possibly with local feel-able/tangible feedback
JP2015122124A (ja) 2015-03-31 2015-07-02 株式会社ナカヨ 仮想マウスによるデータ入力機能を有する情報装置
CN104750397B (zh) * 2015-04-09 2018-06-15 重庆邮电大学 一种基于体感的虚拟矿井自然交互方法
JP2018516422A (ja) * 2015-05-28 2018-06-21 アイサイト モバイル テクノロジーズ エルティーディー. スマートホームのためのジェスチャ制御システム及び方法
CN105892636A (zh) * 2015-11-20 2016-08-24 乐视致新电子科技(天津)有限公司 一种应用于头戴设备的控制方法及头戴设备
CN105867717A (zh) * 2015-11-20 2016-08-17 乐视致新电子科技(天津)有限公司 用户界面的操控方法、装置及终端
EP3267289B1 (en) 2016-07-05 2019-02-27 Ricoh Company, Ltd. Information processing apparatus, position information generation method, and information processing system
JP6834197B2 (ja) 2016-07-05 2021-02-24 株式会社リコー 情報処理装置、表示システム、プログラム
CN106569596A (zh) * 2016-10-20 2017-04-19 努比亚技术有限公司 一种手势控制方法和设备
EP3316075B1 (en) * 2016-10-26 2021-04-07 Harman Becker Automotive Systems GmbH Combined eye and gesture tracking
JP2018131110A (ja) 2017-02-16 2018-08-23 パナソニックIpマネジメント株式会社 推定装置、推定方法、及び推定プログラム
CN206922960U (zh) * 2017-05-31 2018-01-23 广东长虹电子有限公司 一种使用手势遥控的智能电视机
EP3652701A4 (en) * 2017-07-13 2021-11-03 Shiseido Company, Limited VIRTUAL FACE MAKEUP REMOVAL, FAST FACE RECOGNITION AND LANDMARK TRACKING
KR102481883B1 (ko) 2017-09-27 2022-12-27 삼성전자주식회사 위험 상황을 감지하는 방법 및 장치
CN107958218A (zh) * 2017-11-22 2018-04-24 南京邮电大学 一种实时手势识别的方法
US11221669B2 (en) * 2017-12-20 2022-01-11 Microsoft Technology Licensing, Llc Non-verbal engagement of a virtual assistant
US10296102B1 (en) * 2018-01-31 2019-05-21 Piccolo Labs Inc. Gesture and motion recognition using skeleton tracking
JP2019133395A (ja) 2018-01-31 2019-08-08 アルパイン株式会社 入力装置
CN110045825B (zh) * 2018-03-27 2022-05-13 杭州凌感科技有限公司 用于车辆交互控制的手势识别系统
WO2020049692A2 (ja) 2018-09-06 2020-03-12 株式会社ソニー・インタラクティブエンタテインメント 推定装置、学習装置、推定方法、学習方法及びプログラム
CN109696958A (zh) * 2018-11-28 2019-04-30 南京华捷艾米软件科技有限公司 一种基于深度传感器手势识别的手势控制方法及系统
CN109614922B (zh) * 2018-12-07 2023-05-02 南京富士通南大软件技术有限公司 一种动静态手势识别方法和系统
CN109710071B (zh) * 2018-12-26 2022-05-17 青岛小鸟看看科技有限公司 一种屏幕控制方法和装置
CN111601129B (zh) * 2020-06-05 2022-04-01 北京字节跳动网络技术有限公司 控制方法、装置、终端及存储介质

Also Published As

Publication number Publication date
EP4149116A1 (en) 2023-03-15
EP4149116A4 (en) 2023-11-08
CN111601129B (zh) 2022-04-01
JP7514331B2 (ja) 2024-07-10
WO2021244650A1 (zh) 2021-12-09
CN111601129A (zh) 2020-08-28
US20230093983A1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
US11550399B2 (en) Sharing across environments
US20200166988A1 (en) Gesture actions for interface elements
US9395821B2 (en) Systems and techniques for user interface control
CN110476189B (zh) 用于在电子装置中提供增强现实功能的方法和设备
KR102003255B1 (ko) 다중 입력 처리 방법 및 장치
US10572012B2 (en) Electronic device for performing gestures and methods for determining orientation thereof
US20160034039A1 (en) Information processing apparatus, operation control method and program
US20230093983A1 (en) Control method and device, terminal and storage medium
US10528145B1 (en) Systems and methods involving gesture based user interaction, user interface and/or other features
JP7181375B2 (ja) 目標対象の動作認識方法、装置及び電子機器
CN104081307A (zh) 图像处理装置、图像处理方法和程序
CN107450717B (zh) 一种信息处理方法及穿戴式设备
CN106569716B (zh) 单手操控方法及操控系统
CN115033097A (zh) 一种智能眼镜的控制方法、装置和智能眼镜
US20230199262A1 (en) Information display method and device, and terminal and storage medium
CN110069126B (zh) 虚拟对象的控制方法和装置
CN111258413A (zh) 虚拟对象的控制方法和装置
CN110941327A (zh) 虚拟对象的显示方法和装置
CN113703704A (zh) 界面显示方法、头戴式显示设备和计算机可读介质
KR20230034351A (ko) 얼굴 이미지 표시 방법, 장치, 전자기기 및 저장매체
CN111103967A (zh) 虚拟对象的控制方法和装置
CN117784919A (zh) 虚拟输入设备的显示方法、装置、电子设备以及存储介质
CN112987923A (zh) 用于设备交互的方法、装置、设备和存储介质
CN117806450A (zh) 增强现实设备操控方法、装置、电子设备及可读存储介质
CN117666809A (zh) 基于扩展现实的输入方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240417

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240604