JP2019532543A - 制御システムならびに制御処理方法および装置 - Google Patents

制御システムならびに制御処理方法および装置 Download PDF

Info

Publication number
JP2019532543A
JP2019532543A JP2019507757A JP2019507757A JP2019532543A JP 2019532543 A JP2019532543 A JP 2019532543A JP 2019507757 A JP2019507757 A JP 2019507757A JP 2019507757 A JP2019507757 A JP 2019507757A JP 2019532543 A JP2019532543 A JP 2019532543A
Authority
JP
Japan
Prior art keywords
information
user
indicated
predetermined space
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019507757A
Other languages
English (en)
Other versions
JP2019532543A5 (ja
JP6968154B2 (ja
Inventor
ワン ジョンボー
ワン ジョンボー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2019532543A publication Critical patent/JP2019532543A/ja
Publication of JP2019532543A5 publication Critical patent/JP2019532543A5/ja
Application granted granted Critical
Publication of JP6968154B2 publication Critical patent/JP6968154B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2807Exchanging configuration information on appliance services in a home automation network
    • H04L12/2814Exchanging control software or macros for controlling appliance services in a home automation network
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0423Input/output
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/045Programme control other than numerical control, i.e. in sequence controllers or logic controllers using logic state machines, consisting only of a memory or a programmable logic device containing the logic for the controlled machine and in which the state of its outputs is dependent on the state of its inputs or part of its own output states, e.g. binary decision controllers, finite state controllers
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2823Reporting information sensed by appliance or service execution status of appliance services in a home automation network
    • H04L12/2827Reporting to a device within the home network; wherein the reception of the information reported automatically triggers the execution of a home appliance functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/18Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/26Pc applications
    • G05B2219/2642Domotique, domestic, home control, automation, smart house
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L2012/284Home automation networks characterised by the type of medium used
    • H04L2012/2841Wireless
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L2012/2847Home automation networks characterised by the type of home appliance used
    • H04L2012/2849Audio/video appliances
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L2012/2847Home automation networks characterised by the type of home appliance used
    • H04L2012/285Generic home appliances, e.g. refrigerators

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Selective Calling Equipment (AREA)

Abstract

ライト、テレビジョン、およびカーテンなどのホームデバイスの制御において操作の複雑さおよび制御の効率の悪さが、予め決められた空間におけるユーザの存在および何らかの動作、例えば、手の身振りまたは言葉などを感知する制御システムを用いて削減される。加えて、制御システムは、感知された動作に応答して、制御されるデバイス、およびデバイスに送信されるコマンドを識別する。

Description

関連出願への相互参照
本出願は、全体が参照によって本明細書に組み込まれる2016年8月11日に出願された中国特許出願第201610658833.6号の優先権を主張する。
本出願は、制御の分野に関し、特に、制御システムならびに制御処理方法および装置に関する。
スマートホームは、人間工学の原則に基づいた、個人のニーズを考慮した、家庭生活に関連する種々のシステム、例えば、警備、照明制御、カーテン制御、ガス栓制御、情報家電製品、シーンリンケージ(scene linkage)、床暖房、健康管理、衛生および流行病防止、高度のコンピューター技術を使用した警備員、ネットワーク通信技術、広範囲な配線技術、および医療電子技術などの有機的な組合せである。
従来技術において、一般に、種々のスマートホームデバイスは、スマートホームデバイスに対応する携帯電話アプリを通じて制御され、スマートホームデバイスは、携帯電話アプリを遠隔制御として仮想化する方法を使用して制御される。携帯電話アプリを遠隔制御として仮想化する方法において、ある応答待ち時間が、ホームデバイスの制御の間に存在する。多数のスマートホームデバイスの適用とともに、種々のホームデバイスに対応する携帯電話アプリの操作インターフェースが増えるにつれて、ますます頻繁にインターフェースを切り替えるという結果になる。
従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する問題を考慮した、効果的な解決法は、まだ提案されていない。
本出願の実施形態は、ホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題を解決するための制御システムならびに制御処理方法および装置を提供する。
本出願の実施形態の一態様によれば、複数のデバイスを含む予め決められた空間における情報を収集するための収集ユニットを含む制御システムが提供される。さらに、制御システムは、収集された情報に従って、ユーザの示す情報を決定するための処理ユニットを含む。加えて、処理ユニットは、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択する。
本出願の上述の実施形態によれば、さらに、本出願は、複数のデバイスを含む、予め決められた空間における情報を収集することを含む制御処理方法を提供する。さらに、方法は、収集された情報に従って、ユーザの示す情報を決定することを含む。さらに、方法は、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択することを含む。
本出願の上述の実施形態によれば、さらに、本出願は、複数のデバイスを含む、予め決められた空間における情報を収集する第1の収集ユニットを含む制御処理装置を提供する。さらに、制御処理装置は、収集された情報に従って、ユーザの示す情報を決定する第1の決定ユニットを含む。さらに、制御処理装置は、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択する第2の決定ユニットを含む。
上述の実施形態によって、処理ユニットは、収集ユニットによって収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定し、示す情報の指示に従って、制御されるデバイスを決定し、次に、決定されたデバイスを制御する。
本出願の上述の実施形態を通じて、ユーザにより制御されるデバイスを、予め決められた空間におけるユーザの顔の示す情報に基づいて決定して、デバイスを制御することが可能である。処理は、デバイスを制御するという目標を達成するために、マルチメディア情報を収集することのみを必要とする。ユーザは、デバイスを制御するために、種々のアプリケーションの操作インターフェースを切り替える必要がない。したがって、ホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決されて、よって、簡単な操作により収集された情報に従ってデバイスを直接制御するという目標を達成する。
本明細書において記述される添付の図面は、本出願のさらなる理解を提供するために使用され、本出願の一部を構成する。本出願の例示的な実施形態および説明は、本出願上の妥当でない制限を構成することではなく、本出願を説明することのために使用される。
本出願の実施形態にかかる制御システム100を例示する概略図である。 本出願の実施形態にかかるコンピューター端末200を例示する構造のブロック図である。 本出願の実施形態にかかる制御処理方法300を例示するフロー図である。 本出願の実施形態にかかる代替の制御処理方法350を例示するフロー図である。 本出願の実施形態にかかる代替の人間−コンピューターインタラクションシステムを示す図式的な構造図である。 本出願の実施形態にかかる代替の人間−コンピューターインタラクションシステムを示す方法500のフロー図である。 本出願の実施形態にかかる制御処理装置を例示する概略図である。
当業者に本出願における解決法をよりよく理解させることを可能にするために、本出願の実施形態における技術的な解決法を、本出願の実施形態における図面に関して、以下に明確にかつ完全に説明することになる。以下に説明する実施形態は、本出願の実施形態のうちのいくつかにすぎず、すべてではない。
本出願の明細書、特許請求の範囲、および上述の図面における、例えば、「第1の」および「第2の」などの用語を、類似の対象を区別するために使用して、必ずしも特定の順または優先の順を記述するために使用するとは限らないということに注意すべきである。今述べたやり方において使用される数字は、適切な状況において交換可能であり、従って、本明細書において説明する本出願の実施形態を、本明細書において示されるまたは記述される順に加えた順において実装することが可能であるとを理解すべきである。加えて、例えば、「含む」および「有する」などの用語、ならびにこれらのあらゆる変形は、排他的でない包含を含むよう意図されて、例えば、処理、方法、システム、製品、または一連のステップもしくはユニットを含むデバイスは、明確に列挙されたステップまたはユニットに必ずしも限定されず、明確に列挙されてない、または処理、方法、製品、もしくはデバイスに固有である他のステップまたはユニットを含むことが可能である。
本出願の実施形態によれば、制御システムの実施形態が提供される。図1は、本出願の実施形態にかかる制御システム100の概略図である。図1において示すように、制御システム100は、収集ユニット101および処理ユニット103を含む。
収集ユニット101は、複数のデバイスを含む予め決められた空間における情報を収集するよう構成される。予め決められた空間は、1つまたは複数の事前に設定された空間であるとすることができて、空間に含まれるエリアは、固定された大きさまたは可変の大きさを有することが可能である。予め決められた空間は、収集ユニットの収集範囲に基づいて決められる。例えば、予め決められた空間は、収集ユニットの収集範囲と同じにすることができて、または予め決められた空間は、収集ユニットの収集範囲内にすることができる。
例えば、ユーザの部屋が、エリアA、エリアB、エリアC、エリアD、およびエリアEを含む。例において、エリアAは、変化する空間、例えばバルコニーである。エリアA、エリアB、エリアC、エリアD、およびエリアEのうちどれか1つまたは複数を、収集ユニットの収集能力に従って、予め決められた空間として設定することが可能である。
収集される情報は、マルチメディア情報、赤外線信号などを含むことが可能である。マルチメディア情報は、コンピューターおよびビデオ技術の組合せであり、マルチメディア情報は、主として音および画像を含む。赤外線信号は、検出された対象の温度状態を通じて、検出された対象の特徴を表すことが可能である。
代替の実施形態において、収集ユニット101は、1つまたは複数のセンサーを通じて、予め決められた空間における情報を収集することが可能である。センサーは、制限しないが、画像センサー、音センサー、および赤外線センサーを含む。収集ユニット101は、1つまたは複数のセンサーを通じて、予め決められた空間における環境情報および/または生体情報を収集することが可能である。生体情報は、画像情報、音信号、および/または生体のサインインフォメーションを含むことが可能である。さらに、実施形態において、収集ユニット101を、1つまたは複数のシグナルコレクター(または信号収集装置)を通じて実装することが可能である。
別の代替の実施形態において、収集ユニット101は、収集された情報が画像を含むように予め決められた空間における画像を収集するよう構成される画像収集システムを含むことが可能である。
画像収集システムは、DSP(Digital Signal Processor、すなわち、デジタル信号処理)画像収集システムであるとすることができて、予め決められた空間における収集されたアナログ信号を0または1のデジタル信号に変換することが可能である。さらに、DSP画像収集システムは、デジタル信号を修正、削除、および強化し、次に、デジタルデータを解釈してアナログデータまたはシステムチップにおける実際の環境のフォーマットに戻すことが可能である。具体的には、DSP画像収集システムは、予め決められた空間において画像を収集し、収集された画像をデジタル信号へと変換し、デジタル信号を修正、削除、および強化して誤りのあるデジタル信号を訂正し、訂正されたデジタル信号をアナログ信号に変換してアナログ信号の訂正を実現し、訂正されたアナログ信号を最終的な画像として決定する。
実施形態において、さらに、画像収集システムは、デジタル画像収集システム、マルチスペクトル画像収集システム、またはピクセル画像収集システムであるすることが可能である。
代替の実施形態において、収集ユニット101は、収集された情報が音信号を含むように、サウンドレシーバー、サウンドコレクター、サウンドカードなどを使用して、予め決められた空間における音信号を収集することが可能である音収集システムを含む。
処理ユニット103は、収集された情報に従って、ユーザの示す情報を決定し、次に、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択するよう構成される。
具体的には、処理ユニットは、収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定し、次に、示す情報に従って、ユーザにより制御されるデバイスを決定することが可能である。代替の実施形態において、予め決められた空間において情報が収集された後、ユーザの顔情報は、収集された情報から抽出される。
ユーザについての顔のポーズおよび空間における位置情報などは、顔情報に基づいて決定され、次に、示す情報が生成される。ユーザの顔の示す情報が決定された後、示す情報により指し示されるユーザデバイスは、示す情報に従って決定され、ユーザデバイスは、ユーザにより制御されるデバイスとして決定される。
正確さを改善するために、ユーザの顔の示す情報を、ユーザの顔特徴点の示す情報を通じて決定することが可能である。具体的には、予め決められた空間の情報が収集された後、予め決められた空間の情報が人体の情報を含む場合、1つまたは複数の人間についての顔特徴点の情報は、予め決められた空間の情報から抽出される。ユーザの示す情報は、顔特徴点の抽出された情報に基づいて決定されて、示す情報は、ユーザにより制御されるデバイスを指し示す。
例えば、鼻の情報(情報は、鼻のある局所的な位置の示す方向、例えば、鼻先の示す方向を含む)は、予め決められた空間の情報から抽出され、示す情報は、鼻の示す方向に基づいて決定される。もし目の水晶体の情報が予め決められた空間の情報から抽出されるならば、予め決められた空間の情報は、水晶体の参照位置のある示す方向を含むことが可能であり、示す情報は、目の水晶体の参照位置が示す方向に基づいて決定される。
顔特徴点が目および鼻を含む場合、示す情報を、目および鼻の情報に従って決定することが可能である。具体的には、ユーザの顔の示す情報のある部分を、目の水晶体の向きおよび角度を通じて決定することが可能であり、一方、さらに、ユーザの顔の示す情報の他の部分を、鼻の向きおよび角度を通じて決定することが可能である。
もし目の水晶体を通じて決定されたユーザの顔の示す情報の一部が、鼻を通じて決定されたユーザの顔の示す情報の他の部分に一致するならば、ユーザの顔の示す情報は、予め決められた空間におけるユーザの顔の示す情報として決定される。さらに、ユーザの顔の示す情報が決定された後、決定されたユーザの顔の示す情報により指し示される方向のデバイスは、示す情報に従って決定され、指し示される方向のデバイスは、制御されるデバイスとして決定される。
上述の実施形態を通じて、予め決められた空間においてユーザの顔の示す情報を、予め決められた空間における収集された情報に基づいて決定することが可能であり、ユーザにより制御されるデバイスを、ユーザの顔の示す情報に従って決定することが可能である。ユーザの顔の示す情報を使用して制御されるデバイスを決定することによって、人間とデバイスとの間のインタラクションが簡略化され、インタラクション体験が改善され、予め決められた空間において異なるデバイスの制御が実現される。
予め決められた空間の情報が画像を含む場合、処理ユニット103は、画像に人体が現れるとユーザが予め決められた空間に現れることを決定して、ユーザの顔の示す情報を決定するよう構成される。
本実施形態において、処理ユニット103は、ユーザが予め決められた空間に現れるかどうかを検出し、ユーザが予め決められた空間に現れると、予め決められた空間において収集された情報に基づいてユーザの顔の示す情報を決定する。
ユーザが予め決められた空間において現れるかどうかを検出することを、次のステップ、人体の特徴が画像において現れるかどうかを検出すること、および、人体の特徴が画像において検出されると、ユーザが予め決められた空間における画像に現れることを決定することを通じて実装することが可能である。
具体的には、人体についての画像の特徴を、予め格納することが可能である。収集ユニット101が画像を収集した後、画像は、人体についての予め格納された画像の特徴(すなわち、人体の特徴)を使用して識別される。もし画像の特徴が画像に存在すると認識されるならば、人体が画像に現れることが決定される。
収集された情報が音を含む場合、処理ユニット103は、音信号に従ってユーザの顔の示す情報を決定するよう構成される。
具体的には、処理ユニット103は、音信号に従って、ユーザが予め決められた空間に現れるかどうかを検出し、ユーザが予め決められた空間に現れると、予め決められた空間において収集された情報に基づいてユーザの顔の示す情報を決定する。
音信号に従ってユーザが予め決められた空間に現れるかどうかを検出することを、次のステップ、音信号が人体から来るかどうかを検出すること、および、音信号が人体から来ることを検出すると、ユーザが予め決められた空間に現れることを決定することを通じて実装することが可能である。
具体的には、人体についての音の特徴(例えば、ヒトの音声の特徴)を、予め格納することが可能である。収集ユニット101が音信号を収集した後、音信号は、予め格納された人体についての音の特徴を使用して認識される。もし音の特徴が音信号に存在することを認識するならば、音信号は人体から来ることが決定される。
本出願の上述の実施形態によって、収集ユニットは、情報を収集し、処理ユニットは、収集された情報に従って人間認識を実行する。人体が予め決められた空間に現れることを認識すると、処理ユニット103は、人体が予め決められた空間に存在するかどうかを、正確に検出するように、ユーザの顔の示す情報を決定することが可能である。人体が存在すると、処理ユニット103は、人間の顔の示す情報を決定して、よって、人間の顔の示す情報を決定する効率を改善する。
上述の実施形態を通じて、処理ユニット103は、収集ユニットにより収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定し、示す情報の指示に従って、制御されるデバイスを決定し、次に、決定されたデバイスを制御する。本出願の上述の実施形態を通じて、ユーザにより制御されるデバイスを、予め決められた空間におけるユーザの顔の示す情報に基づいて決定して、デバイスを制御することが可能である。
本処理は、デバイスを制御するという目標を達成するために、マルチメディア情報を収集することのみを必要とする。ユーザは、デバイスを制御するために種々のアプリケーションの操作インターフェースを切り替える必要がない。したがって、従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決されて、よって、簡単な操作により収集された情報に従ってデバイスを直接制御するという目標を達成する。
本出願の実施形態において提供される実施形態を、モバイル端末、コンピューター端末、または類似のコンピューティング装置において実装することが可能である。図2は、例として、コンピューター端末上の実行を使用する、本出願の実施形態にかかるコンピューター端末200の構造のブロック図である。
図2において示すように、コンピューター端末200は、1つまたは複数(図において1つのみ)の処理ユニット202(処理ユニット202は、制限しないが、MCU(超小型演算装置)またはFPGA(半導体チップ)などの処理装置を含むことが可能である)と、データを格納するよう構成されるメモリと、情報を収集するよう構成される収集ユニット204と、通信機能を実装するよう構成される伝送モジュール206とを含むことが可能である。当業者は、図2において示す構造は、単に例証であり、上述した電子装置の構造上の制限を構成しないことを理解することが可能である。例えば、さらに、コンピューター端末200は、図2において示すものよりも多くのもしくは少ないコンポーネントを含む、または図2において示すものとは異なる構成を有することが可能である。
伝送モジュール206は、ネットワークを介してデータを受信または送信するよう構成される。具体的には、伝送モジュール206を、処理ユニット202により生成されたコマンドを種々の制御されるデバイス210(上述の実施形態においてユーザにより制御されるデバイスを含む)に送信するよう構成することが可能である。上述のネットワークの特定の例は、コンピューター端末200の通信サプライヤーにより提供される無線ネットワークを含むことが可能である。
一実施例において、伝送モジュール206は、ネットワークアダプター(ネットワークインターフェースコントローラー、NIC)を含み、基地局を通じて他のネットワークデバイスに接続して、インターネットを介して通信することが可能である。一実施例において、伝送モジュール206は、RF(無線周波数)モジュールであるすることができて、無線のやり方において制御されるデバイス210と通信するよう構成される。
上述のネットワークの実施例は、制限しないが、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、および組合せを含む。
さらに、制御処理方法の実施形態を、本出願の実施形態に従って提供する。図面のフロー図において示すステップを、一組のコンピューター実行可能命令などのコンピューターシステムにおいて実行することが可能であることに注意すべきである。さらに、論理的な順を、フロー図において示すが、いくつかの場合において、示されるまたは説明されるステップを、本明細書における順とは異なる順において実行することが可能である。
図3Aは、本出願の実施形態にかかる制御処理方法300を例示するフロー図を例示する。図3Aにおいて示すように、方法300は、ステップS302において開始して、複数のデバイスを含む予め決められた空間における情報を収集する。
次に、方法300は、ステップS304に移動して、収集された情報に従って、ユーザの示す情報を決定する。続いて、方法300は、ステップS306に移動して、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択する。
上述の実施形態によって、収集ユニットが予め決められた空間における情報を収集した後、処理ユニットは、収集ユニットによって収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定し、示す情報の指示に従って制御されるデバイスを決定し、次に、決定されたデバイスを制御する。
上述の実施形態を通じて、ユーザにより制御されるデバイスを、予め決められた空間におけるユーザの顔の示す情報に基づいて決定して、デバイスを制御することが可能である。処理は、デバイスを制御するという目標を達成するために、マルチメディア情報を収集することのみを必要とする。ユーザは、デバイスを制御するために種々のアプリケーションの操作インターフェースを切り替える必要がない。したがって、従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決されて、よって、簡単な操作により収集された情報に従ってデバイスを直接制御するという目標を達成する。
ステップS302を、収集ユニット101により実装することが可能である。予め決められた空間は、1つまたは複数の事前に設定された空間であるとすることができて、空間に含まれるエリアは、固定された大きさまたは可変の大きさを有することが可能である。予め決められた空間は、収集ユニットの収集範囲に基づいて決定される。例えば、予め決められた空間は、収集ユニットの収集範囲と同じにすることが可能であり、または予め決められた空間は、収集ユニットの収集範囲内にすることが可能である。
例えば、ユーザの部屋は、エリアA、エリアB、エリアC、エリアD、およびエリアEを含む。実施例において、エリアAは、変化する空間、例えば、バルコニーである。エリアA、エリアB、エリアC、エリアD、およびエリアEのうちどれか1つまたは複数を、収集ユニットの収集能力に従って予め決められた空間として設定することが可能である。
情報は、マルチメディア情報、赤外線信号などを含むことが可能である。マルチメディア情報は、コンピューターおよびビデオ技術の組合せであり、マルチメディア情報は、主として音および画像を含む。赤外線信号は、検出された対象の温度状態を通じて、検出された対象の特徴を表すことが可能である。
図3Bは、本出願の実施形態にかかる代替の制御処理方法350を示すフロー図を例示する。図3Bにおいて示すように、方法350は、ステップS352において開始して、予め決められた空間における情報を収集して、次に、ステップS354に移動して、収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定する。続いて、方法350は、ステップS356に移動して、示す情報に従って、ユーザにより制御されるデバイスを決定する。
上述の実施形態において、ユーザにより制御されるデバイスを、予め決められた空間におけるユーザの顔の示す情報に基づいて決定して、デバイスを制御することが可能である。処理は、デバイスを制御するという目標を達成するために、マルチメディア情報を収集することのみを必要とする。ユーザは、デバイスを制御するために種々のアプリケーションの操作インターフェースを切り替える必要がない。したがって、従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決されて、よって、簡単な操作により収集された情報に従ってデバイスを直接制御するという目標を達成する。
代替の実施形態において、予め決められた空間における情報が収集された後、ユーザの顔情報は、収集された情報から抽出される。ユーザの顔についてのポーズおよび空間における位置情報などは、顔情報に基づいて決定されて、次に、示す情報が生成される。ユーザの顔の示す情報が決定された後、示す情報によって指し示されるユーザデバイスは、示す情報に従って決定され、ユーザデバイスは、ユーザにより制御されるターゲットデバイスとして決定される。
さらに、正確さを改善するために、ユーザの顔の示す情報を、ユーザの顔特徴点の示す情報を通じて決定することが可能である。具体的には、予め決められた空間における情報が収集された後、予め決められた空間における収集された情報が人体の情報を含む場合、1つまたは複数の人間の顔特徴点の情報は、予め決められた空間の情報から抽出される。ユーザの示す情報は、顔特徴点の抽出された情報に基づいて決定され、示す情報は、ユーザにより制御されるデバイスを指し示す。
例えば、鼻の情報(情報は、鼻についてのある局所的な位置の示す方向、例えば、鼻先の示す方向を含む)は、予め決められた空間の情報から抽出され、示す情報は、鼻の示す方向に基づいて決定される。もし目の水晶体の情報が予め決められた空間の情報から抽出されるならば、情報は、水晶体の参照位置の示す方向を含むことが可能であって、示す情報は、目の水晶体の参照位置の示す方向に基づいて決定される。
顔特徴点が目および鼻を含む場合、示す情報を、目および鼻の情報に従って決定することが可能である。具体的には、ユーザの顔の示す情報の一部を、目の水晶体の向きおよび角度を通じて決定することが可能である。さらに、ユーザの顔の示す情報の他の部分を、鼻の向きおよび角度を通じて決定することが可能である。もし目の水晶体を通じて決定されたユーザの顔の示す情報の一部が、鼻を通じて決定されたユーザの顔の示す情報の他の部分と一致するならば、ユーザの顔の示す情報は、予め決められた空間におけるユーザの顔の示す情報として決定される。
さらに、ユーザの顔の示す情報が決定された後、決定されたユーザの顔の示す情報によって指し示される方向のデバイスが、示す情報に従って決定され、指し示される方向のデバイスが、制御されるデバイスとして決定される。
上述の実施形態を通じて、予め決められた空間におけるユーザの顔の示す情報を、予め決められた空間における収集された情報に基づいて決定することが可能である。加えて、ユーザにより制御されるデバイスを、ユーザの顔の示す情報に従って決定することが可能であり、ユーザの顔の示す情報を使用して、制御されるデバイスを決定することによって、人間とデバイスとの間のインタラクションが簡略化され、インタラクション体験が改善され、よって、予め決められた空間において異なるデバイスを制御するという目標を達成する。
代替の実施形態において、情報は、画像を含む。さらに、画像に従ってユーザの示す情報を決定することは、画像が人体の特徴、人体の特徴は頭の特徴を含み、を含むことを決定することと、画像から頭の特徴の空間的な位置およびポーズを取得することと、頭の特徴の空間的な位置およびポーズに従って示す情報を決定して、複数のデバイスのうちターゲットデバイスを決定することとを含む。
画像に従って示す情報を決定することは、人体が画像に現れるかどうかを判断することと、人体が現れると判断すると人体の頭の空間的な位置およびポーズを取得することとを含む。
実施形態において、人体が収集された画像に現れるかどうかが判断され、人体が現れると、特徴の認識が画像に実行されて、人体の頭の特徴の空間的な位置およびポーズを認識する。
具体的には、3次元空間の座標系(座標系は、x軸、y軸、およびz軸を含む)が予め決められた空間に対して確立され、人体が画像に従って収集された画像に存在するかどうかが判断され、人体が現れると、人体に関する頭の特徴の位置rf(xf,yf,zf)が取得され、ここで、fは人間の頭をさし示し、rf(xf,yf,zf)は人間の頭の空間的な位置の座標であり、xfは3次元空間の座標系における人間の頭のx軸座標であり、yfは3次元空間の座標系における人間の頭のy軸座標であり、zfは3次元空間の座標系における人間の頭のz軸座標である。人体が現れると、人間の頭のポーズRf(ψf,θf,φf)が取得され、ここで、ψf,θf,φfを使用して人間の頭のオイラー角をさし示し、ψfを使用して歳差角をさし示し、θfを使用して章動角をさし示し、φfを使用して回転角をさし示し、次に、示す情報を、人体に関する頭の特徴の決定された位置および頭の特徴の決定されたポーズRf(ψf,θf,φf)に従って決定する。
人体の頭の空間的な位置および頭のポーズが取得された後、示す線は、人体の頭の特徴の空間的な位置を始点として、および頭の特徴のポーズを方向として使用して決定される。示す線は、示す情報として使用され、ユーザにより制御されるデバイス(すなわち、ターゲットデバイス)は、示す情報に基づいて決定される。
代替の実施形態において、予め決められた空間に対応する複数のデバイスについてのデバイスの座標を、決定する。各デバイスについてのデバイスの範囲を、事前に設定された誤差の範囲および各デバイスについてのデバイスの座標に基づいて決定する。示す線によって指し示されるデバイスの範囲に対応するデバイスは、ターゲットデバイスとして決定され、もし示す線がデバイスの範囲を通過するならば、示す線は、デバイスの範囲を指し示すことが決定される。
デバイスの座標は、3次元座標であるとすることができる。実施形態において、3次元空間の座標系が確立された後、予め決められた空間における種々のデバイスの3次元座標が決定され、各デバイスについてのデバイスの範囲は、事前に設定された誤差の範囲および各デバイスの3次元座標に基づいて、示す線が取得された後に決定される。もし示す線がデバイスの範囲を通過するならば、デバイスの範囲に対応するデバイスは、ユーザにより制御されるデバイス(すなわち、ターゲットデバイス)である。
本出願の上述の実施形態によって、予め決められた空間における画像が収集された後、人間の認識は、収集された画像に従って実行される。人体を認識すると、人体の顔情報が取得され、次に、ユーザの顔の示す情報が決定され、人体が予め決められた空間に存在するかどうかを正確に検出することが可能である。人体が存在すると、人間の顔の示す情報が決定されて、よって、人間の顔の示す情報を決定する効率を改善する。
本出願の上述の実施形態によれば、人体が現れると判断すると、さらに、方法は、画像における人体の特徴における姿勢の特徴および/または身振りの特徴を決定することと、姿勢の特徴および/または身振りの特徴に対応するコマンドに従ってターゲットデバイスを制御することとを含む。
予め決められた空間における画像が収集された後、収集された画像に従って人間の認識を実行する処理において、人体の顔の示す情報が取得され、さらに、画像における人体の姿勢または身振りが認識されて、ユーザの制御命令(すなわち、上述のコマンド)を決定することが可能である。
具体的には、姿勢の特徴および/または身振りの特徴に対応するコマンドを、事前に設定することが可能であり、設定された対応は、データテーブルに格納され、姿勢の特徴および/または身振りの特徴が識別された後、姿勢の特徴および/または身振りの特徴に一致するコマンドを、データテーブルから読み取る。表1に示すように、表は、姿勢、身振り、およびコマンドの間の対応を記録する。ポーズの特徴を使用して、人体(すなわちユーザ)のポーズをさし示し、身振りの特徴を使用して、人体(すなわちユーザ)の身振りをさし示す。
Figure 2019532543
表1に示す実施形態において、ユーザの顔情報がエリアAにおけるデバイスMを指し示すと、例えば、ユーザの顔情報は、バルコニーのカーテンを指し示す。姿勢を、座っている姿勢として、および身振りを、手を振るとして認識すると、表1から読み取られる対応するコマンドは、「開ける」/「つける」であり、次に、「開ける」コマンドを、デバイスM(例えば、カーテン)に対して発行して、カーテンを開くよう制御する。
本出願の上述の実施形態によって、ユーザの顔情報が決定されると、さらに、人体の姿勢および/または身振りを、認識することが可能であり、顔情報により指し示されるデバイスは、人体の姿勢および/または身振りに対応する事前に設定された制御命令を通じて、対応する操作を実行するよう制御される。デバイスが実行するよう制御される操作を、制御されるデバイスが決定されると、決定することが可能であり、人間とコンピューターとのインタラクションにおける待ち時間は、ある程度まで削減される。
別の代替の実施形態において、収集される情報は、音信号を含み、音信号に従ってユーザの示す情報を決定することは、音信号が人間の音声特徴を含むと決定することと、人間の音声特徴に従って予め決められた空間における音信号の信号源の位置情報および音信号の伝搬方向を決定することと、予め決められた空間における音信号の信号源の位置情報および伝搬方向に従って示す情報を決定して、複数のデバイスのうちターゲットデバイスを決定することとを含む。
具体的には、音信号が、人体によって生成された音であるかどうかを決定することが可能である。音信号が人体によって生成された音であると決定すると、予め決められた空間における音信号の信号源の位置情報および音信号の伝搬方向が決定され、位置情報および伝搬方向に従って示す情報が決定されて、ユーザにより制御されるデバイス(すなわち、ターゲットデバイス)を決定する。
さらに、予め決められた空間における音信号を、収集することが可能である。音信号が収集された後、収集された音信号に従って、音信号が人体によって生成された音信号であるかどうかが決定される。音信号が人体によって生成された音信号として決定された後、さらに、音信号の信号源の位置および伝搬方向が取得され、示す情報は、決定された位置情報および伝搬方向に従って決定される。
示す線は、予め決められた空間における音信号の信号源の位置情報を始点として、および伝搬方向を方向として使用して決定されるということに注意すべきである。示す線は、示す情報として使用される。
代替の実施形態において、予め決められた空間に対応する複数のデバイスについてのデバイスの座標が決定される。各デバイスについてのデバイスの範囲は、事前に設定された誤差の範囲および各デバイスについてのデバイスの座標に基づいて決定される。示す線によって指し示されるデバイスの範囲に対応するデバイスを、ターゲットデバイスとして決定する。もし示す線がデバイスの範囲を通過するならば、示す線はデバイスの範囲を指し示すことが決定される。
デバイスの座標を、3次元の座標であるとすることが可能である。実施形態において、3次元空間の座標系が確立された後、予め決められた空間における種々のデバイスの3次元座標が決定され、各デバイスについてのデバイスの範囲は、事前に設定された誤差の範囲および各デバイスの3次元座標に基づいて、示す線が取得された後に決定される。もし示す線がデバイスの範囲を通過するならば、デバイスの範囲に対応するデバイスは、ユーザにより制御されるデバイス(すなわち、ターゲットデバイス)である。
例えば、ユーザが、バルコニーに面している寝室において立ち、バルコニーのカーテンに向かって「開ける」音を生成する。はじめに、「開ける」音信号が収集された後、「開ける」音信号が人体によって生成されるかどうかが判断される。音信号が人体によって生成されると決定された後、音信号の信号源の位置および伝搬方向、すなわち、人体が音を生成する位置および音の伝搬方向が取得される。次に、音信号の示す情報が決定される。
本出願の上述の実施形態によって、示す情報を、人間の顔を通じてだけでなく、人間の音を通じても決定することが可能であり、さらに、人間とコンピューターとのインタラクションの柔軟性は増大される。さらに、示す情報を決定するための異なるアプローチもが提供される。
具体的には、音信号が人体によって生成された音であると決定すると、言葉の認識を音信号に実行して、音信号に対応するコマンドを取得する。ターゲットデバイスは、コマンドを実行するよう制御され、デバイスは、示す情報に従ってユーザにより制御されると決定されたデバイスである。
さらに、「開ける」音信号の示す情報が決定された後、言葉の認識を、音信号に実行する。例えば、システムにおいて解析された後の「開ける」音信号の意味は、「開始する」として認識される。解析後に、言葉コマンド、例えば、開始コマンドが取得される。後に、カーテンは、開始コマンドを通じて開始操作を実行するよう制御される。
言葉の認識において、対応するサービスの言葉および意味の認識を、異なるサービスの関係に基づいて実行することが可能であるということに注意すべきである。例えば、「開ける」/「つける」は、カーテンのサービスにおいて開けるようカーテンに命令し、テレビジョンのサービスにおいてつけるようテレビジョンに命令し、ライトのサービスにおいてつけるようライトに命令する。
本出願の上述の実施形態によって、言葉の信号を、言葉の認識を通じて、種々のデバイスに関して認識可能な異なるサービスに対応する言葉コマンドに変換することが可能である。次に、音信号によって指し示されるデバイスは、命令を通じて、対応する操作を実行するように制御されて、デバイスを、より便利に、迅速に、正確に制御することが可能である。
実施形態において、マイクロフォンアレイを使用して、言葉の伝搬方向および音の生成位置を測定し、画像における頭のポーズおよび位置を認識する効果と同様の効果を達成することが可能である。
実施形態において、統一されたインタラクションプラットフォームを、分散されるやり方において複数のデバイスにインストールすることが可能である。例えば、画像および言葉の収集システムは、すべての複数のデバイスにインストールされて、統一された判断を実行するよりもむしろ人間の顔認識およびポーズの判断を個々に実行する。
代替の実施形態において、ユーザの示す情報が予め決められた空間における画像情報を収集することによって決定された後、予め決められた空間における別の情報を、収集することが可能である。別の情報が識別されて、別の情報に対応するコマンドを得て、デバイスは、コマンドを実行するように制御され、デバイスは、示す情報に従って、ユーザにより制御されると決定されるデバイスである。
すなわち、実施形態において、示す情報およびコマンドを、異なる情報を通じて決定することが可能であり、よって、処理の柔軟性を増大させる。例えば、ライトが、ユーザにより制御されるデバイスとして決定された後、ライトは、ユーザが点灯コマンドを発行した後につけられる。このとき、さらに、予め決められた空間における別の情報が、収集される。例えば、ユーザは、「明るさ」コマンドを発行し、次に、明るさを調整する操作がさらに実行される。
本出願の上述の実施形態によって、さらに、デバイスを、予め決められた空間における別の情報を収集することにより制御することが可能であり、種々のデバイスを、連続的に制御することが可能である。
具体的には、別の情報は、次の少なくとも1つ、音信号、画像、および赤外線信号、を含むことが可能である。すなわち、さらに、ユーザによって既に制御されたデバイスが、画像、音信号、または赤外線信号を通じて制御されて、対応する操作を実行することが可能であり、よって、さらに、人間とコンピューターとのインタラクション体験の効果を改善する。さらにその上、無指向性の言葉および身振りコマンドが、人間の顔の指向性の情報を使用して再利用されて、同じコマンドを、複数のデバイスに対して使用することが可能である。
例えば、示す情報およびユーザのコマンドを、赤外線信号を通じて決定することが可能である。収集された赤外線信号に従って人間の認識を実行する処理において、赤外線信号により伝えられる人体の顔の示す情報を、認識する。人体の姿勢または身振りを、認識用の赤外線情報から抽出して、ユーザの制御命令(すなわち、上述のコマンド)を決定することが可能である。
代替の実施形態において、ユーザの示す情報が、予め決められた空間における画像を収集することによって決定された後、予め決められた空間における音信号を、収集することが可能である。音信号が認識されて、音信号に対応するコマンドを得て、制御されるデバイスは、コマンドを実行するよう制御される。
別の代替の実施形態において、ユーザの示す情報が、予め決められた空間における音信号を収集することによって決定された後、予め決められた空間における赤外線信号を、収集することが可能である。赤外線信号が認識されて、赤外線信号に対応するコマンドを得て、制御されるデバイスは、コマンドを実行するよう制御される。
実施形態において、本出願の上述の実施形態における画像認識および言葉の認識は、オープンソースソフトウェアのライブラリを使用することを選ぶことが可能である。画像認識は、関連のあるオープンソースのプロジェクト、例えば、openCV(Open Source Computer Vision Library、すなわち、クロスプラットフォームのコンピュータビジョンライブラリ)、dlib(最新のC++の技法を使用して書かれた、オープンソース、クロスプラットフォームの汎用ライブラリ)などを使用することを選ぶことが可能である。言葉の認識は、関連のあるオープンソースの言葉プロジェクト、例えば、openAL(Open Audio Library、すなわち、クロスプラットフォームのAudio API)またはHKT(隠れマルコフモデルのツールキット)を使用することが可能である。
前述の各方法の実施形態を簡潔に記述するために、すべての方法の実施形態は、一連の動作の組合せとして表されるが、当業者は、いくつかのステップが他の順を適用することが可能であり、または本出願に従って同時に実行することが可能であるので、本出願が記述された動作の順によって制限されないとわかるべきであることに注意すべきである。加えて、さらに、当業者は、説明において記述されるすべての実施形態は、望ましい実施形態に属し、含まれる動作およびモジュールは、本出願によって必ずしも必要でないとわかるべきある。
実施形態の前述の説明を通じて、明らかに、当業者は、上述の実施形態における方法を、ソフトウェアに加えて、必要な一般的なハードウェアのプラットフォームによって実装することが可能であり、さらに、確かに、ハードウェアによって実装することが可能であると理解することが可能である。しかしながら、ほとんどの場合、前者は、望ましい実装のやり方である。理解に基づいて、本出願の技術的な解決法の本質、または従来技術に貢献をする部分を、ソフトウェア製品の形において実施することが可能である。コンピューターソフトウェア製品は、記憶媒体(例えば、ROM/RAM、磁気ディスク、または光ディスク)に格納され、本出願の実施形態において記述される方法を実行するためのターミナルデバイス(携帯電話、コンピューター、サーバー、ネットワークデバイスなどとすることが可能である)に命令するためのいくつかの命令を含む。
本出願の実施形態を、図4を参照して、以下に詳細に記述する。図4において示す制御システム400(例えば、人間−コンピューターインタラクションシステム)は、カメラ401または他の画像収集システム、マイクロフォン402または他の音声信号収集システム、情報処理システム403、ワイヤレスコマンドインタラクションシステム404、および制御されるデバイス(制御されるデバイスはユーザにより制御される上述のデバイスを含む)を含み、制御されるデバイスは、ライト4051、テレビジョン4053、およびカーテン4055を含む。
実施形態におけるカメラ401およびマイクロフォン402は、図1に示す実施形態の収集ユニット101に含まれる。情報処理システム403およびワイヤレスコマンドインタラクションシステム404は、図1に示す実施形態の処理ユニット103に含まれる。
カメラ401およびマイクロフォン402は、それぞれ、ユーザの活動空間における画像情報および音声情報を収集し、収集された情報を処理のために情報処理システム403に転送するよう構成される。
情報処理システム403は、ユーザの顔の示す情報およびユーザの命令を抽出する。情報処理システム403は、処理プログラムおよびハードウェアプラットフォームを含み、制限はしないが、ローカルアーキテクチャーおよびクラウドアーキテクチャーを含む形において実装することが可能である。
情報処理システム403によって抽出されるユーザの顔の示す情報およびユーザの命令に対して、ワイヤレスコマンドインタラクションシステム404は、電波を使用して、または赤外線のやり方において、ユーザの顔の示す情報によって指定された制御されるデバイス4051、4053、4055にユーザの命令を送信する。
本出願の実施形態におけるデバイスは、インテリジェントデバイスであるとすることが可能であり、インテリジェントデバイスは、本出願の実施形態における処理ユニット103と通信することが可能である。例えば、さらに、インテリジェントデバイスは、処理ユニットおよび伝送または通信モジュールを含むことが可能である。インテリジェントデバイスは、スマートホーム機器、例えば、テレビジョンなどであるとすることが可能である。
図5は、本出願の実施形態にかかる代替の人間−コンピューターインタラクションシステムを例示する方法500のフロー図を示す。図4に示す制御システムは、図5に示すステップに従ってデバイスを制御することが可能である。
図5に示すように、方法500は、ステップS501においてシステムを開始することによって始まる。図4に示す制御システム(例えば、人間−コンピューターインタラクションシステム)が開始された後、方法500は、ステップS502およびステップS503を個々に実行して、予め決められた空間における画像および音信号を収集する。
ステップS502において、方法500は、画像を収集する。予め決められた空間における画像を、画像収集システムを使用して収集することが可能である。続いて、方法500は、ステップS504に移動して、人間が存在するかどうかを認識する。画像収集システムが予め決められた空間における画像を収集した後、人間の認識を、収集された画像に実行して、人体が予め決められた空間に存在するかどうかを決定する。人体が予め決められた空間に存在することを認識すると、方法500は、ステップS505、ステップS506、およびステップS507を個々に実行する。
ステップS505において、方法500は、身振りを認識する。人体が予め決められた空間に存在することを認識すると、人間の身振りは、予め決められた空間における収集された画像において認識されて、認識された身振りを通じて、ユーザによって実行される操作を取得する。
続いて、方法500は、ステップS506に移動して、身振りコマンドを一致させる。人体の身振りが認識された後、人間−コンピューターインタラクションシステムは、認識された人間の身振りを、システムに格納された身振りコマンドに一致させて、身振りコマンドを通じて、対応する操作を実行するよう制御されるデバイスを制御する。
ステップS507において、方法500は、頭のポーズを評価する。人体が予め決められた空間に存在することを認識すると、人間の頭のポーズは、予め決められた空間における収集された画像上において評価されて、認識された頭のポーズを通じて、ユーザにより制御されるデバイスを決定する。
ステップS508において、方法500は、頭の位置を評価する。人体が予め決められた空間に存在することを認識すると、人間の頭の位置についての評価が、予め決められた空間における収集された画像に実行されて、認識された頭の位置を通じて、ユーザにより制御されるデバイスを決定する。
ステップS507およびステップS508の後、方法500は、ステップS509においてデバイスの向きを一致させる。予め決められた空間にて確立された3次元空間の座標系において、人間−コンピューターインタラクションシステムは、人間の頭についてのポーズのオイラー角Rf(ψf,θf,φf)および頭の空間的な位置座標rf(xf,yf,zf)に従って、示す情報によってさし示される、制御されるデバイスの座標rd(xd,yd,zd)を決定し、ここで、xd,yd,zdは、それぞれ、制御されるデバイスの横座標、縦座標、および高さ座標である。
実施形態において、3次元空間の座標系は、予め決められた空間において確立され、人間の頭についてのポーズのオイラー角Rf(ψf,θf,φf)および頭の空間的な位置座標rf(xf,yf,zf)は、人間−コンピューターインタラクションシステムを使用して得られる。
制御されるデバイスの座標を決定する処理において、示すことのある程度の誤り(または誤差の範囲)εを、許す。実施形態において、ターゲットの制御されるデバイスの座標を決定する処理において、線を、rfを始点として、およびRfを方向として使用して引くことが可能であり、もし線(すなわち、上述の示す線)が、rdを中心として、およびεを半径として使用する球(すなわち、上述の実施形態におけるデバイスの範囲)を通過するならば、人間の顔が、ターゲットの制御されるデバイス(すなわち、上述の実施形態におけるユーザにより制御されるデバイス)を指し示すことが決定される。
上述のステップS506からステップS508までは、序列なしに実行されることに注意すべきである。
上述のように、ステップS501において開始した後、さらに、方法500は、ステップS503において音を収集する。予め決められた空間における音信号を、音声収集システムを使用して収集することが可能である。後に、方法500は、ステップS510に移動して言葉の認識を実行する。音声収集システムが予め決められた空間における音信号を収集した後、収集された音信号を認識して、音信号が人体によって生成された音であるかどうかを判断する。
次に、方法500は、ステップS511に移動して、言葉コマンドの一致を実行する。収集された音信号が人体によって生成された音として認識された後、人間−コンピューターインタラクションシステムは、認識された言葉の情報を、システムに格納された言葉コマンドに一致させて、言葉コマンドを通じて、制御されるデバイスを、対応する操作を実行するよう制御する。
ステップS506、ステップS509、およびステップS511が実行された後、方法500は、ステップS512においてコマンドの統合を実行する。一致された身振りコマンドおよび言葉コマンドは、制御されるデバイスにより統合されて、統合コマンドを生成して、制御されるデバイスに統合の操作を実行するよう命令する。
続いて、方法500は、ステップS513に移動して、コマンドの配信を実行する。種々のコマンドが統合された後、統合コマンドが、配信されて(すなわち、送信および伝達されて)、各々の制御されるデバイスを、対応する操作を実行するよう制御する。コマンドを、制限はしないが、無線通信および赤外線の遠隔制御を含むやり方において送信することが可能である。後に、方法500は、ステップS514に移動して、方法500を開始に返して戻る。
上述の人間−コンピューターインタラクションシステムは、画像処理部および音処理部を含む。さらに、画像処理部は、人間認識ユニットと身振り認識ユニットとに分割される。はじめに、画像処理部は、ユーザの活動空間(すなわち、予め決められた空間)における画像を収集し、次に、人体の画像が画像に存在するかどうかを認識する。
もし人体の画像が存在するならば、フローは、個々に頭認識ユニットおよび身振り認識ユニットに入る。頭認識ユニットにおいて、頭のポーズの評価および頭の位置の評価が実行され、次に、顔の向きは、頭のポーズおよび位置を統合することによって解決される。身振り認識ユニットにおいて、画像におけるユーザの身振りが認識され、身振りコマンドと一致され、もし一致が成功するならば、コマンドが出力される。
音処理部において、はじめに音信号が収集され、次に、言葉の認識が音信号に実行されて、言葉コマンドを抽出する。もし抽出が成功するならば、コマンドが出力される。
頭認識ユニットおよび言葉処理部において出力されたコマンドは、顔の向きに従って得られたターゲットデバイスのアドレスに統合されて、最終的なコマンドを得る。したがって、方向の情報は、人間の顔のポーズを通じて人間−コンピューターインタラクションシステムに提供されて、特定のデバイスを正確に指し示す。
複数の特定のデバイスの使用および再利用は、言葉コマンドおよび身振りコマンドを介して可能になる。例えば、ユーザが異なるデバイスに顔を向けて言葉コマンド「開ける」/「つける」を発行すると、顔を向けられたデバイスを、開けること/つけることが可能である。別の例として、ユーザが異なるデバイスに顔を向けて身振りコマンド「手を開いて閉じる」を発行すると、顔を向けられたデバイスを、閉めることまたは消すことなどが可能である。
本出願の上述の実施形態によって、人間とコンピューターとのインタラクション体験を、効果的に改善することが可能であり、人間とコンピューターとのインタラクションは、より順応性があり、人間を中心とする。
上述の実施形態における人間とコンピューターとのインタラクションの遅延およびコストを、次のやり方において削減することが可能であることに注意すべきである。第1のやり方において、特定の画像認識チップASIC(Application Specific Integrated Circuit、すなわち、集積回路)を使用して、遅延を削減することが可能であるが、コストが高い。第2のやり方において、FPGA(Field−Programmable Gate Array)を使用して、インタラクションの遅延およびコストを削減することが可能である。第3のやり方において、さらに、x86(マイクロプロセッサ)またはarm(Advanced RISC Machines、すなわち、組み込みRISCプロセッサ)などのアーキテクチャーを使用して、低コストを有することが可能である。さらに、GPU(Graphic Processing Unit、すなわち、グラフィックスプロセッサ)を使用して、遅延を削減することが可能である。第4のやり方において、処理プログラムのうちのすべてまたはいくつかを、クラウドにおいて実行する。
さらに、上述の実行環境において、制御処理装置を提供する。図6は、本出願の実施形態にかかる制御処理装置600を例示する概略図を示す。図6に示すように、装置600は、複数のデバイスを含む予め決められた空間における情報を収集するよう構成される第1の収集ユニット601を含む。
さらに、装置600は、収集された情報に従って、ユーザの示す情報を決定するよう構成される第1の決定ユニット603と、示す情報に従って、ユーザにより制御されるターゲットデバイスを複数のデバイスから選択するよう構成される第2の決定ユニット605とを含む。
上述の実施形態によって、処理ユニットは、収集ユニットによって収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定し、示す情報の指示に従って、制御されるデバイスを決定し、次に、決定されたデバイスを制御する。
本出願の上述の実施形態を通じて、ユーザにより制御されるデバイスを、予め決められた空間におけるユーザの顔の示す情報に基づいて決定して、デバイスを制御することが可能である。処理は、デバイスの制御を実現するために、マルチメディア情報を収集することのみを必要とし、ユーザにとって、デバイスの制御を実現するために種々のアプリケーションの操作インターフェースを切り替える必要がない。結果として、従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決される。加えて、収集された情報に従ってデバイスを直接制御するという目的が達成される。さらに、操作は簡単である。
上述の予め決められた空間を、1つまたは複数の事前に設定された空間とすることが可能であり、空間に含まれるエリアは、固定された大きさまたは可変の大きさを有することが可能である。予め決められた空間は、収集ユニットの収集範囲に基づいて決定される。例えば、予め決められた空間は、収集ユニットの収集範囲と同じにすることが可能であり、または予め決められた空間は、収集ユニットの収集範囲内にすることが可能である。
例えば、ユーザの部屋は、エリアA、エリアB、エリアC、エリアD、およびエリアEを含む。実施例において、エリアAは、変化する空間、例えば、バルコニーである。エリアA、エリアB、エリアC、エリアD、およびエリアEのうちどれか1つまたは複数を、収集ユニットの収集能力に従って予め決められた空間として設定することが可能である。
上述の情報は、マルチメディア情報、赤外線信号などを含むことが可能である。マルチメディア情報は、コンピューターおよびビデオ技術の組合せであり、主として音および画像を含む。赤外線信号は、検出された対象の温度状態を通じて、検出された対象の特徴を表すことが可能である。
予め決められた空間における情報が収集された後、ユーザの顔情報が、予め決められた空間の情報から抽出され、ユーザについての顔のポーズおよび空間における位置情報などが、顔情報に基づいて決定され、示す情報が生成される。ユーザの顔の示す情報が決定された後、示す情報によって指し示されるユーザデバイスが、示す情報に従って決定され、ユーザデバイスが、ユーザにより制御されるデバイスとして決定される。
さらに、正確さを改善するために、ユーザの顔の示す情報を、ユーザの顔特徴点の示す情報を通じて決定することが可能である。具体的には、予め決められた空間における情報が収集された後、予め決められた空間における情報が人体の情報を含む場合、1つまたは複数の人間の顔特徴点についての情報は、予め決められた空間の情報から抽出される。ユーザの示す情報は、抽出された顔特徴点の情報に基づいて決定され、示す情報は、ユーザにより制御されるデバイスを指し示す。
例えば、鼻の情報(情報は、鼻についてのある局所的な位置の示す方向、例えば、鼻先の示す方向を含む)が、予め決められた空間の情報から抽出され、示す情報が、鼻の指示方向に基づいて決定される。もし目の水晶体の情報が予め決められた空間の情報から抽出されるならば、情報は、水晶体の参照位置の示す方向を含むことが可能であり、示す情報が、目の水晶体の参照位置の示す方向に基づいて決定される。
顔特徴点が目および鼻を含む場合、示す情報を、目および鼻の情報に従って決定することが可能である。具体的には、ユーザの顔の示す情報の一部を、目の水晶体の向きおよび角度を通じて決定することが可能であり、一方、さらに、ユーザの顔の示す情報の他の部分を、鼻の向きおよび角度を通じて決定することが可能である。
もし目の水晶体を通じて決定されたユーザの顔の示す情報の一部が、鼻を通じて決定されたユーザの顔の示す情報の他の部分に一致するならば、ユーザの顔の示す情報を、予め決められた空間におけるユーザの顔の示す情報として決定される。さらに、ユーザの顔の示す情報が決定された後、決定されたユーザの顔の示す情報によって指し示される方向のデバイスが、示す情報に従って決定され、指し示される方向のデバイスは、制御されるデバイスとして決定される。
上述の実施形態を通じて、予め決められた空間におけるユーザの顔の示す情報を、予め決められた空間における収集された情報に基づいて決定することが可能であり、ユーザにより制御されるデバイスは、ユーザの顔の示す情報に従って決定される。ユーザの顔の示す情報を使用して制御されるデバイスを決定することによって、人間とデバイスとの間のインタラクションが簡略化され、インタラクション体験が改善され、予め決められた空間における異なるデバイスの制御が実現される。
具体的には、予め決められた空間の情報が画像を含む場合、示す情報は、画像に従って決定され、第1の決定ユニットは、画像が人体の特徴を含むと決定するよう構成される第1の特徴決定モジュールと、人体の特徴は頭の特徴を含み、画像から頭の特徴の空間的な位置およびポーズを取得するよう構成される第1の取得モジュールと、頭の特徴の空間的な位置およびポーズに従って示す情報を決定して、複数のデバイスのうちターゲットデバイスを決定するよう構成される第1の情報決定モジュールとを含むことが可能である。
特に、第1の情報決定モジュールは、頭の特徴の空間的な位置を始点として、および頭の特徴のポーズを方向として使用して、示す線を決定するよう構成される。示す線は、示す情報として使用される。
本出願の上述の実施形態によって、予め決められた空間における画像が収集された後、人間の認識は、収集された画像に従って実行される。人体を認識すると、人体の顔情報が取得され、次に、ユーザの顔の示す情報が決定され、人体が予め決められた空間に存在するかどうかを正確に検出することが可能である。人体が存在すると、人間の顔の示す情報が決定されて、よって、人間の顔の示す情報を決定する効率を改善する。
本出願の上述の実施形態によれば、さらに、装置は、画像が人体の特徴を含むと決定すると、人体の特徴を含む画像から姿勢の特徴および/または身振りの特徴を取得するよう構成される第1の認識モジュールと、姿勢の特徴および/または身振りの特徴に対応するコマンドに従ってターゲットデバイスを制御するよう構成される第1の制御モジュールとを含む。
本出願の上述の実施形態によって、ユーザの顔情報が決定されると、さらに、人体の姿勢および/または身振りを、認識することが可能であり、顔情報によって指し示されるデバイスが、人体の姿勢および/または身振りに対応する事前に設定された制御命令を通じて、対応する操作を実行するよう制御される。デバイスが実行するよう制御される操作を、制御されるデバイスが決定されると決定することが可能であり、人間とコンピューターとのインタラクションにおける待ち時間は、ある程度削減される。
本出願の上述の実施形態によれば、予め決められた空間の情報が音信号を含む場合、示す情報は、音信号に従って決定され、さらに、第1の決定ユニットは、音信号が人間の音声特徴を含むと決定するよう構成される第2の特徴決定モジュールと、人間の音声特徴に従って予め決められた空間における音信号の信号源の位置情報および音信号の伝搬方向を決定するよう構成される第2の取得モジュールと、予め決められた空間における音信号の信号源の位置情報および伝搬方向に従って、示す情報を決定して、複数のデバイスのうちターゲットデバイスを決定するよう構成される第2の情報決定モジュールとを含む。
特に、第2の情報決定モジュールは、予め決められた空間における音信号の信号源の位置情報を始点として、および伝搬方向を方向として使用して、示す線を決定し、示す線を、示す情報として使用するよう構成される。
本出願の上述の実施形態によって、示す情報を、人間の顔を通じてだけでなく、人間の音を通じても決定することが可能であり、人間とコンピューターとのインタラクションの柔軟性がさらに増大される。さらに、示す情報を決定するための異なるアプローチを、提供する。
本出願の上述の実施形態によれば、さらに、装置は、音信号が人間の音声特徴を含むと決定すると、音信号に言葉の認識を実行して、音信号に対応するコマンドを取得するよう構成される第2の認識モジュールと、コマンドを実行するためにターゲットデバイスを制御するよう構成される第2の制御モジュールとを含む。
本出願の上述の実施形態によって、言葉の信号を、言葉の認識を通じて、種々のデバイスによって認識可能な異なるサービスに対応する言葉コマンドに変換することが可能である。次に、音信号によって指し示されるデバイスは、命令を通じて、対応する操作を実行するよう制御され、デバイスを、より便利に、迅速に、正確に制御することが可能である。
さらに、ユーザにより制御されるデバイスが決定された後、装置は、予め決められた空間における別の情報を収集するよう構成される第2の収集ユニットをさらに含む。
認識ユニットは、予め決められた空間の別の情報を認識して、別の情報に対応するコマンドを得るよう構成される。制御ユニットは、コマンドを実行するためにデバイスを制御するよう構成され、デバイスは、示す情報に従って、ユーザにより制御されると決定されたデバイスである。
代替の実施形態において、ユーザの示す情報が予め決められた空間における画像情報を収集することによって決定された後、予め決められた空間における別の情報を、収集することが可能である。別の情報が識別されて、別の情報に対応するコマンドを得る。デバイスは、コマンドを実行するよう制御され、デバイスは、示す情報に従って、ユーザにより制御されると決定されたデバイスである。すなわち、実施形態において、示す情報およびコマンドを、異なる情報を通じて決定することが可能であり、よって、処理の柔軟性を増大させる。
本出願の上述の実施形態によれば、別の情報は、次のうちの少なくとも1つ、音信号、画像、および赤外線信号、を含む。すなわち、ユーザにより既に制御されたデバイスが、画像、音信号、または赤外線信号を通じてさらに制御されて、対応する操作を実行することが可能であり、よって、人間とコンピューターとのインタラクション体験の効果をさらに改善する。さらにその上、無指向性の言葉および身振りコマンドが、人間の顔の指向性の情報を使用して再利用されて、同じコマンドを、複数のデバイスに対して使用することが可能である。
さらに、本出願の実施形態は、記憶媒体を提供する。実施形態において、本実施形態において、記憶媒体を、上述の実施形態において提供される制御処理方法によって実行されるプログラムコードを格納するために使用することが可能である。
実施形態において、本実施形態において、記憶媒体を、コンピュータネットワークにおけるコンピューター端末グループのうちのあらゆるコンピューター端末に配置する、またはモバイル端末グループのうちのあらゆるモバイル端末に配置することが可能である。
実施形態において、本実施形態において、記憶媒体は、次のステップ、予め決められた空間における情報を収集することと、情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定することと、示す情報に従って、ユーザにより制御されるデバイスを決定することと、を実行するためのプログラムコードを格納するよう構成される。
上述の実施形態によって、処理ユニットは、収集ユニットによって収集された情報に従って、予め決められた空間に現れるユーザの顔の示す情報を決定し、示す情報の指示に従って、制御されるデバイスを決定し、次に、決定されたデバイスを制御する。
本出願の上述の実施形態を通じて、ユーザにより制御されるデバイスは、予め決められた空間におけるユーザの顔の示す情報に基づいて決定されて、デバイスを制御することが可能である。処理は、デバイスを制御するという目標を達成するために、マルチメディア情報を収集することのみを必要とする。ユーザは、デバイスを制御するために、種々のアプリケーションの操作インターフェースを切り替える必要がない。したがって、従来技術のホームデバイスの制御における操作の複雑さおよび制御の効率の悪さに関する技術的な問題が解決されて、よって、簡単な操作により収集された情報に従ってデバイスを直接制御するという目標を達成する。
本出願の実施形態の上述した順の番号は、単に、説明の便宜のためであり、実施形態の間の優位を意味しない。
本出願の上述の実施形態において、各実施形態の説明は、自体の強調を有し、ある実施形態において詳述されない部分に関して、他の実施形態の関連のある記述に対して参照をすることが可能である。
本出願において提供されるいくつかの実施形態において、開示される技術的な内容を、他のやり方において実装することが可能であるということを理解すべきである。上述の装置の実施形態は、単に例証である。例えば、ユニットの区分は、単に論理的な機能の区分であり、実際の実装において、他の区分であっても差し支えない。例えば、複数のユニットまたはコンポーネントを、組み合わせて、または別のシステムに統合しても差し支えなく、いくつかの機能を、無視して、または実行しなくても差し支えない。加えて、表示されるまたは考察される、相互の結合もしくは直接の結合または通信接続を、いくつかのインターフェースを通じて実装することが可能であり、ユニット間またはモジュール間の間接的な結合または通信接続を、電子的なまたは他の形において実装することが可能である。
別個の部分として記述されるユニットは、物理的に別個であっても差し支えないし、なくても差し支えなし、ユニットとして示す部分は、物理的なユニットであっても差し支えないし、なくても差し支えないし、1つの場所に配置されることが可能であるだけでなく、複数のネットワークユニット上に分散されることも可能である。ユニットの一部またはすべてを、実際の要件に従って実施形態の解決法の目的を実装するよう選ぶことが可能である。
加えて、本出願のそれぞれの実施形態におけるそれぞれの機能ユニットが統合されて1つの処理ユニットになっても差し支えないし、またはそれぞれのユニットが物理的に単独において存在しても差し支えないし、または2つ以上のユニットが統合されて1つのユニットになっても差し支えない。統合されたユニットを、ハードウェアの形において、またはソフトウェアの機能ユニットの形において実装することが可能である。
統合されたユニットを、ソフトウェアの機能ユニットの形において実装し、単独の製品として販売または使用する場合、コンピューター読み取り可能な記憶媒体に格納することが可能である。理解に基づいて、本出願の技術的な解決法の本質、または従来技術に貢献をする部分、または技術的な解決法のすべてもしくは一部を、ソフトウェア製品の形において具現化することが可能である。コンピューターソフトウェア製品は、記憶媒体に格納され、本出願の実施形態において記述される方法におけるステップのすべてまたは一部を実行するようコンピューターデバイス(パーソナルコンピューター、サーバー、ネットワークデバイスなどであるとすることが可能である)に命令するためのいくつかの命令を含む。前述の記憶媒体は、プログラムコードを格納することが可能な種々の媒体、例えば、USBフラッシュドライブ、ROM(読み取り専用メモリ)、RAM(ランダムアクセスメモリ)、モバイルハードディスク、磁気ディスク、または光ディスクなどを含む。
上述の説明は、単に、本出願の望ましい実施形態である。当業者は、本出願の原則から逸脱することなく、いくつかの改良および変更をすることが可能であり、さらに、改良および変更は、本出願の保護に範囲内に収まるものとして解釈されるべきであるということを指摘すべきである。

Claims (16)

  1. 制御システムであって、
    予め決められた空間における情報を収集する収集ユニットであって、前記予め決められた空間は複数のデバイスを含む、収集ユニットと、
    前記収集された情報に応じてユーザの示す情報を決定し、前記示す情報に応じて前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択する処理ユニットであって、前記示す情報は、前記ユーザの顔が示す方向をさし示す、処理ユニットと
    を備える、制御システム。
  2. 前記収集ユニットは、前記予め決められた空間における画像を収集する画像収集システムを含み、前記収集された情報は、前記画像を含み、
    前記処理ユニットは、前記画像が人体の特徴を含むと前記ユーザの前記示す情報を決定する
    請求項1に記載の制御システム。
  3. 前記収集ユニットは、前記予め決められた空間における音信号を収集する音収集システムを含み、前記収集された情報は、前記音信号を含み、
    前記処理ユニットは、前記音信号に応じて前記ユーザの前記示す情報を決定する
    請求項1に記載の制御システム。
  4. 制御処理方法であって、
    予め決められた空間における情報を収集することであって、前記予め決められた空間は複数のデバイスを含む、収集することと、
    前記収集された情報に応じてユーザの示す情報を決定することであって、前記示す情報は、前記ユーザの顔が示す方向をさし示す、決定することと、
    前記示す情報に応じて、前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択することと
    を含む、制御処理方法。
  5. 前記収集された情報は画像を含み、前記画像に応じてユーザの示す情報を決定することは、
    前記画像が人体の特徴を含むかどうかを決定することであって、前記人体の特徴は頭の特徴を含む、決定することと、
    前記画像から前記頭の特徴の空間的な位置およびポーズを取得することと、
    前記頭の特徴の前記空間的な位置および前記ポーズに応じて前記示す情報を決定して、前記複数のデバイスのうち前記ターゲットデバイスを決定することとを含む請求項4に記載の制御処理方法。
  6. 前記頭の特徴の前記空間的な位置および前記ポーズに応じて前記示す情報を決定することは、
    前記頭の特徴の前記空間的な位置を始点として、および前記頭の特徴の前記ポーズを線の方向として使用して示す線を決定することと、
    前記示す線を前記示す情報として使用することとを含む請求項5に記載の制御処理方法。
  7. 前記画像が前記人体の特徴を含むかどうかを決定すると前記人体の特徴を含む前記画像から姿勢の特徴および/または身振りの特徴を取得することと、
    前記姿勢の特徴および/または前記身振りの特徴に対応するコマンドに応じて前記ターゲットデバイスを制御することと
    をさらに含む請求項5に記載の制御処理方法。
  8. 前記収集された情報は音信号を含み、前記音信号に応じてユーザの示す情報を決定することは、
    前記音信号が人間の音声特徴を含むことを決定することと、
    前記人間の音声特徴に応じて前記予め決められた空間における前記音信号の信号源の位置情報および前記音信号の伝搬方向を決定することと、
    前記予め決められた空間における前記音信号の前記信号源の位置情報および前記伝搬方向に応じて前記示す情報を決定して、前記複数のデバイスのうち前記ターゲットデバイスを決定することとを含む請求項4に記載の制御処理方法。
  9. 前記予め決められた空間における前記音信号の前記信号源の位置情報および前記伝搬方向に応じて前記示す情報を決定することは、
    前記予め決められた空間における前記音信号の前記信号源の位置情報を始点として、および前記伝搬方向を線の方向として使用して示す線を決定することと、
    前記示す線を前記示す情報として使用することとを含む請求項8に記載の制御処理方法。
  10. 前記音信号が前記人間の音声特徴を含むかどうかを決定すると前記音信号に言葉の認識を実行して、前記音信号に対応するコマンドを取得することと、
    前記コマンドを実行するよう前記ターゲットデバイスを制御することと
    をさらに含む請求項8に記載の制御処理方法。
  11. 前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択することは、
    前記予め決められた空間に対応する前記複数のデバイスについてのデバイスの座標を決定することと、
    事前に設定された誤差の範囲および各デバイスについての前記デバイスの座標に基づいて各デバイスに対するデバイスの範囲を決定することと、
    前記示す線によって指し示されるデバイスの範囲に対応するデバイスを前記ターゲットデバイスとして決定することであって、前記示す線が前記デバイスの範囲を通過すると前記示す線は前記デバイスの範囲を指し示す、決定することとを含む請求項6に記載の制御処理方法。
  12. 前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択した後、
    前記予め決められた空間における別の情報を収集するステップと、
    前記別の情報を識別して、前記別の情報に対応するコマンドを得るステップと、
    前記コマンドを実行するよう前記デバイスを制御することであって、前記デバイスは、前記示す情報に応じて前記ユーザにより制御されると決定される前記デバイスである、制御することとをさらに含む請求項5に記載の制御処理方法。
  13. 前記別の情報は、音信号、画像、および赤外線信号のうち1つまたは複数を含む請求項12に記載の制御処理方法。
  14. 制御処理装置であって、
    予め決められた空間における情報を収集する第1の収集ユニットであって、前記予め決められた空間は複数のデバイスを含む、第1の収集ユニットと、
    前記収集された情報に応じてユーザの示す情報を決定する第1の決定ユニットであって、前記示す情報は、前記ユーザの顔が示す方向をさし示す、第1の決定ユニットと、
    前記示す情報に応じて、前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択するための第2の決定ユニットと
    を備える、制御処理装置。
  15. 前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択することは、
    前記予め決められた空間に対応する前記複数のデバイスについてのデバイスの座標を決定することと、
    事前に設定された誤差の範囲および各デバイスについての前記デバイスの座標に基づいて各デバイスに対するデバイスの範囲を決定することと、
    前記示す線によって指し示されるデバイスの範囲に対応するデバイスを前記ターゲットデバイスとして決定することであって、前記示す線が前記デバイスの範囲を通過すると前記示す線は前記デバイスの範囲を指し示す、決定することとを含む請求項9に記載の制御処理方法。
  16. 前記ユーザにより制御されるターゲットデバイスを前記複数のデバイスから選択した後、
    前記予め決められた空間における別の情報を収集することと、
    前記別の情報を識別して、前記別の情報に対応するコマンドを得ることと、
    前記コマンドを実行するよう前記デバイスを制御することであって、前記デバイスは、前記示す情報に応じて、前記ユーザにより制御されることが決定された前記デバイスである、制御することとをさらに含む請求項8に記載の制御処理方法。
JP2019507757A 2016-08-11 2017-08-10 制御システムならびに制御処理方法および装置 Active JP6968154B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610658833.6A CN107728482A (zh) 2016-08-11 2016-08-11 控制系统、控制处理方法及装置
CN201610658833.6 2016-08-11
PCT/US2017/046276 WO2018031758A1 (en) 2016-08-11 2017-08-10 Control system and control processing method and apparatus

Publications (3)

Publication Number Publication Date
JP2019532543A true JP2019532543A (ja) 2019-11-07
JP2019532543A5 JP2019532543A5 (ja) 2020-09-24
JP6968154B2 JP6968154B2 (ja) 2021-11-17

Family

ID=61159612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019507757A Active JP6968154B2 (ja) 2016-08-11 2017-08-10 制御システムならびに制御処理方法および装置

Country Status (6)

Country Link
US (1) US20180048482A1 (ja)
EP (1) EP3497467A4 (ja)
JP (1) JP6968154B2 (ja)
CN (1) CN107728482A (ja)
TW (1) TW201805744A (ja)
WO (1) WO2018031758A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108490832A (zh) * 2018-03-27 2018-09-04 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN109143875B (zh) * 2018-06-29 2021-06-15 广州市得腾技术服务有限责任公司 一种手势控制智能家居方法及其系统
CN108800473A (zh) * 2018-07-20 2018-11-13 珠海格力电器股份有限公司 设备的控制方法及装置、存储介质和电子装置
CN109240096A (zh) * 2018-08-15 2019-01-18 珠海格力电器股份有限公司 设备控制方法及装置、存储介质、音量控制方法及装置
CN110196630B (zh) * 2018-08-17 2022-12-30 平安科技(深圳)有限公司 指令处理、模型训练方法、装置、计算机设备及存储介质
CN110857067B (zh) * 2018-08-24 2023-04-07 上海汽车集团股份有限公司 一种人车交互装置和人车交互方法
CN109032039B (zh) * 2018-09-05 2021-05-11 出门问问创新科技有限公司 一种语音控制的方法及装置
CN109492779B (zh) * 2018-10-29 2023-05-02 珠海格力电器股份有限公司 一种家用电器健康管理方法、装置及家用电器
CN109839827B (zh) * 2018-12-26 2021-11-30 哈尔滨拓博科技有限公司 一种基于全空间位置信息的手势识别智能家居控制系统
CN110262277B (zh) * 2019-07-30 2020-11-10 珠海格力电器股份有限公司 智能家居设备的控制方法及装置、智能家居设备
CN110970023A (zh) * 2019-10-17 2020-04-07 珠海格力电器股份有限公司 语音设备的控制装置、语音交互方法、装置及电子设备
CN112908321A (zh) * 2020-12-02 2021-06-04 青岛海尔科技有限公司 设备控制方法、装置、存储介质及电子装置
TWI756963B (zh) * 2020-12-03 2022-03-01 禾聯碩股份有限公司 目標物件之區域定義辨識系統及其方法
CN112838968B (zh) * 2020-12-31 2022-08-05 青岛海尔科技有限公司 一种设备控制方法、装置、系统、存储介质及电子装置
CN112750437A (zh) * 2021-01-04 2021-05-04 欧普照明股份有限公司 控制方法、控制装置及电子设备
CN112968819B (zh) * 2021-01-18 2022-07-22 珠海格力电器股份有限公司 基于tof的家电设备控制方法及装置
CN115086095A (zh) * 2021-03-10 2022-09-20 Oppo广东移动通信有限公司 设备控制方法及相关装置
CN114121002A (zh) * 2021-11-15 2022-03-01 歌尔微电子股份有限公司 电子设备、交互模块及其控制方法和控制装置
CN116434514B (zh) * 2023-06-02 2023-09-01 永林电子股份有限公司 一种红外遥控方法以及红外遥控装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007088803A (ja) * 2005-09-22 2007-04-05 Hitachi Ltd 情報処理装置
JP2007141223A (ja) * 2005-10-17 2007-06-07 Omron Corp 情報処理装置および方法、記録媒体、並びに、プログラム
WO2008126323A1 (ja) * 2007-03-30 2008-10-23 Pioneer Corporation 遠隔制御システム及び遠隔制御システムの制御方法
JP2013197737A (ja) * 2012-03-16 2013-09-30 Sharp Corp 機器操作装置
US20130278499A1 (en) * 2011-11-23 2013-10-24 Glen J. Anderson Gesture input with multiple views, displays and physics
WO2014087495A1 (ja) * 2012-12-05 2014-06-12 株式会社日立製作所 音声対話ロボット、音声対話ロボットシステム
JP2015055999A (ja) * 2013-09-11 2015-03-23 クラリオン株式会社 情報処理装置、ジェスチャー検出方法、およびジェスチャー検出プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6980485B2 (en) * 2001-10-25 2005-12-27 Polycom, Inc. Automatic camera tracking using beamforming
KR100580648B1 (ko) * 2004-04-10 2006-05-16 삼성전자주식회사 3차원 포인팅 기기 제어 방법 및 장치
WO2006021916A1 (en) * 2004-08-24 2006-03-02 Philips Intellectual Property & Standards Gmbh Method for locating an object associated with a device to be controlled and a method for controlling the device
CA2686151A1 (en) * 2006-05-03 2007-11-15 Cloud Systems, Inc. System and method for managing, routing, and controlling devices and inter-device connections
US8363098B2 (en) * 2008-09-16 2013-01-29 Plantronics, Inc. Infrared derived user presence and associated remote control
US9244533B2 (en) * 2009-12-17 2016-01-26 Microsoft Technology Licensing, Llc Camera navigation for presentations
KR101749100B1 (ko) * 2010-12-23 2017-07-03 한국전자통신연구원 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
CN103164416B (zh) * 2011-12-12 2016-08-03 阿里巴巴集团控股有限公司 一种用户关系的识别方法及设备
JP6030430B2 (ja) * 2012-12-14 2016-11-24 クラリオン株式会社 制御装置、車両及び携帯端末
US9207769B2 (en) * 2012-12-17 2015-12-08 Lenovo (Beijing) Co., Ltd. Processing method and electronic device
KR20140109020A (ko) * 2013-03-05 2014-09-15 한국전자통신연구원 스마트 가전기기의 제어를 위한 디바이스 정보 구축 장치 및 그 방법
CN103558923A (zh) * 2013-10-31 2014-02-05 广州视睿电子科技有限公司 一种电子系统及其数据输入方法
US9477217B2 (en) * 2014-03-06 2016-10-25 Haier Us Appliance Solutions, Inc. Using visual cues to improve appliance audio recognition
CN105527862B (zh) * 2014-09-28 2019-01-15 联想(北京)有限公司 一种信息处理方法及第一电子设备
KR101630153B1 (ko) * 2014-12-10 2016-06-24 현대자동차주식회사 제스처 인식 장치, 그를 가지는 차량 및 차량의 제어 방법
CN105759627A (zh) * 2016-04-27 2016-07-13 福建星网锐捷通讯股份有限公司 一种手势控制系统及其方法
US10089543B2 (en) * 2016-07-29 2018-10-02 Honda Motor Co., Ltd. System and method for detecting distraction and a downward vertical head pose in a vehicle

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007088803A (ja) * 2005-09-22 2007-04-05 Hitachi Ltd 情報処理装置
JP2007141223A (ja) * 2005-10-17 2007-06-07 Omron Corp 情報処理装置および方法、記録媒体、並びに、プログラム
WO2008126323A1 (ja) * 2007-03-30 2008-10-23 Pioneer Corporation 遠隔制御システム及び遠隔制御システムの制御方法
US20130278499A1 (en) * 2011-11-23 2013-10-24 Glen J. Anderson Gesture input with multiple views, displays and physics
JP2013197737A (ja) * 2012-03-16 2013-09-30 Sharp Corp 機器操作装置
WO2014087495A1 (ja) * 2012-12-05 2014-06-12 株式会社日立製作所 音声対話ロボット、音声対話ロボットシステム
JP2015055999A (ja) * 2013-09-11 2015-03-23 クラリオン株式会社 情報処理装置、ジェスチャー検出方法、およびジェスチャー検出プログラム

Also Published As

Publication number Publication date
EP3497467A1 (en) 2019-06-19
CN107728482A (zh) 2018-02-23
TW201805744A (zh) 2018-02-16
JP6968154B2 (ja) 2021-11-17
US20180048482A1 (en) 2018-02-15
WO2018031758A1 (en) 2018-02-15
EP3497467A4 (en) 2020-04-08

Similar Documents

Publication Publication Date Title
JP6968154B2 (ja) 制御システムならびに制御処理方法および装置
US20230205151A1 (en) Systems and methods of gestural interaction in a pervasive computing environment
US20190302714A1 (en) Systems and methods to operate controllable devices with gestures and/or noises
US11383166B2 (en) Interaction method of application scene, mobile terminal, and storage medium
CN104410883B (zh) 一种移动可穿戴非接触式交互系统与方法
WO2018000200A1 (zh) 对电子设备进行控制的终端及其处理方法
CN103353935B (zh) 一种用于智能家居系统的3d动态手势识别方法
EP2509070B1 (en) Apparatus and method for determining relevance of input speech
KR20190135974A (ko) 동작-음성의 다중 모드 명령에 기반한 최적 제어 방법 및 이를 적용한 전자 장치
CN103295028B (zh) 手势操作控制方法、装置及智能显示终端
US20160162039A1 (en) Method and system for touchless activation of a device
CN114391163A (zh) 手势检测系统和方法
CN112053683A (zh) 一种语音指令的处理方法、设备及控制系统
KR102481486B1 (ko) 오디오 제공 방법 및 그 장치
US20140267004A1 (en) User Adjustable Gesture Space
CN108881544B (zh) 一种拍照的方法及移动终端
KR20200028771A (ko) 사용자 의도 기반 제스처 인식 방법 및 장치
WO2016070688A1 (zh) 虚拟操作界面遥控控制方法及系统
CN109839827B (zh) 一种基于全空间位置信息的手势识别智能家居控制系统
CN105042789A (zh) 一种智能空调的控制方法及系统
CN112351188B (zh) 根据对象显示图形元素的装置和方法
CN108874142B (zh) 一种基于手势的无线智能控制装置及其控制方法
WO2022012602A1 (zh) 一种电子设备的屏幕交互方法及装置
US20160073087A1 (en) Augmenting a digital image with distance data derived based on acoustic range information
US20150153715A1 (en) Rapidly programmable locations in space

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200811

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200811

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211026

R150 Certificate of patent or registration of utility model

Ref document number: 6968154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150