CN109074819B

CN109074819B - 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备

Info

Publication number: CN109074819B
Application number: CN201780026508.0A
Authority: CN
Inventors: 金石中; 金廷勳; 金昭妍
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-04-29
Filing date: 2017-05-01
Publication date: 2023-05-16
Anticipated expiration: 2037-05-01
Also published as: EP3451335A4; CN109074819A; US20190019515A1; EP3451335A1; KR20170124104A; KR102181588B9; EP3451335C0; US10796694B2; WO2017188801A1; JP6721713B2; KR102181588B1; JP2019520626A; KR20190135974A; EP3451335B1

Abstract

本发明涉及基于操作‑声音的多模式命令的优选控制方法，以及应用该方法的电子设备，更具体而言，本发明涉及控制方法和应用该控制方法的电子设备，该方法包括：通过操作识别处理允许用户指定电子设备并将它切换到声音识别模式的触发，并且能够将声音命令传输到指定的电子设备。根据本发明实施例，优选控制方法和利用该方法的电子设备能够：更快且有效地将声音命令传输到电子设备而不管环境如何，通过操作识别来指定电子设备并传输声音命令，从而使得用户可以有效地执行声音命令，而无需预先学习或记忆用于声音识别的电子设备的名称等。此外，可以更准确地识别作为用于向电子设备传输声音命令的预备步骤的操作，从而提高识别率并防止误操作。

Description

基于操作-声音的多模式命令的优选控制方法及应用其的电子设备

技术领域

本发明涉及基于手势-语音多模式命令的优选控制方法，以及应用该方法的电子设备，更具体而言，本发明涉及其中利用手势识别处理允许用户指定电子设备并将它切换到语音识别模式的触发并且可以将声音命令传输到指定的电子设备的控制方法，以及应用该方法的电子设备。

背景技术

近年来，越来越多地尝试被进行以使得在日常生活中使用的电子电器能够识别用户的语音并相应地进行操作。特别地，语音识别功能越来越多地应用于例如通过减少现代生活中的家务劳动来提供生活便利的洗衣机或洗碗机，以及在诸如休闲活动或信息检索的文化或教育相关领域中占据重要部分的电视或音频系统。

语音识别被大致如下地执行。首先，安装在电子设备上的语音识别算法依次执行声音检测过程、特征提取过程和匹配过程。当通过麦克风输入用户的语音信号时，模数(A/D)转换器将语音信号转换为数字信号。转换后的数字语音信号被分成短期信号(即，帧)，并且使用每帧的能量、过零率、持续时间信息等检测输入的语音信号中的仅语音部分，其中用户实际发出语音。此后，提取用于检测到的语音部分的帧的特征以生成输入的语音的测试模式，并且将测试模式与存储在参考数据存储器中的每个参考模式进行比较，以输出具有与测试模式的特征最相似的特征的参考模式作为识别出的语音。在此，当语音信号的参考模式被存储在参考数据存储器中时，与语音部分对应的帧的特征被提取，以形成参考模式并将其存储在参考数据存储器中。对于待识别的每个语音信号重复执行上述操作，使得将参考模式存储在参考数据存储器中的数据库中。

但是，语音识别需要区分用户的声音命令和正常语音(例如，对话)的过程。在这方面，传统上使用的方法是通过触摸动作或按下按钮的动作来指定语音识别的起始点，并且指定通过语音识别来执行命令的电子设备，并且然后输入声音命令，以便执行目标电子设备的操作。韩国登记专利公开号10-1000925(标题为“控制其中有效地利用声音识别的数字拍摄装置的方法，以及使用该方法的数字拍摄装置”)提出了一种具有两级快门释放按钮的数字拍摄装置，其根据快门释放按钮的按压状态，响应于用户的声音命令执行自动聚焦或拍摄。

如上所述，利用用于语音识别的按钮输入，通常可以通过家庭网络系统中的远程控制器来控制家用电器，并且可以使用诸如汽车的室外移动设备中的电子钥匙来执行操作。但是，在诸如电视的家用电器的情况下，通过无线远程控制器执行的功能越来越多，并且无线远程控制器的按钮的数量大大增加，使得用户在使用远程控制器进行语音识别操作时往往感到很大的不便。特别地，增加的远程控制器功能的复杂性可能加剧对儿童或老年人/体弱者的不便，并且当用户忘记远程控制器被放在哪里或丢失远程控制器时，可能难以利用远程控制器使用语音识别功能。还存在环境问题，即，当用于为远程控制器供电的电池达到其使用寿命时它们需要被更换。

为了解决按钮输入方法的问题，传统上使用的方法是用户指定待与语音一起使用的电子设备，并且然后通过语音识别发出命令。在上述方法中，用诸如“Hey Siri”，“Alexa”或“Cortana”的预定短语注册要执行语音识别的电子设备，并且当用户通过语音指定电子设备时，指定的电子设备通过声音或LED(发光二极管)通知用户指定语音识别的起始点。然后，用户发出语音以输入命令(例如，开、关、上、下等)至将执行命令的电子设备(例如，电视、音频系统、照明、风扇、恒温器等)。但是，其中用户指定待受控制的电子设备并使用如上所述语音发出声音命令的方法是不方便的，因为需要大量时间和过程来指定电子设备并输入语音。因此，有必要构思一种用于有效地处理语音识别的方法。

特别地，传统的语音识别系统需要相对大量的计算，以便识别输入的声音命令的频率并搜索命令。声音命令主要在电子设备交货时预先确定，并且由诸如“通电”或“增大音量”之类的简单命令组成。但是，难以通过区分各种用户的各种音色和发音来准确地识别预定的声音命令。当存在大量声音命令时，用户必须不方便地记住所有声音命令。此外，当一种类型的电子设备被出口到各个国家时，不利地，声音命令应该以对应国家的语言预先注册。因此，需要克服声音命令识别的高失败率以及对于语音识别的高端硬件和复杂算法需求的缺点。

为了解决上述问题，传统上使用的方法是同时识别用户的语音和手势以控制电子设备。韩国登记专利公开号10-1046022(标题为“使用人体运动和人声的远程控制器”)公开了一种用于识别用户的手势以控制在诸如电视的显示设备上显示的鼠标指针的方法，并且韩国公开专利公开号10-2012-0054743(标题为“用于在多媒体设备中使用声音和手势控制的方法及其多媒体设备”)公开了一种用于一起识别用户的语音和手势并当语音和手势的特征都匹配时执行用户期望的操作的方法。

但是，手势识别通常需要识别用户在空间做出的手势，并且它难以区分用户的手势是用于控制电子设备的手势还是普通的运动。此外，用于手势识别的手势识别模块的价格高。因此，存在的缺点是，用于控制电子设备的手势识别功能的普遍应用在效率和经济性方面具有低的实用价值。此外，当用户面向相机时，常见的姿势或手势(例如，身体部位的移动)相对良好地被识别，但是当相机和用户的位置和方向改变时，识别率降低。因此，存在的缺点是，在存在各种类型的电子电器和物体(例如，属于家庭网络)的空间中，应该为每个电子电器和物体提供多个相机。

因此，当同时执行手势识别和语音识别功能时，需要区分通过手势识别处理的部分和通过语音识别处理的部分，使得可以在考虑包括用户的可用性和经济效率的综合方面的情况下实现优选处理。

发明内容

技术问题

构思本发明以解决上述问题，并且本发明的一个目的是，通过利用手势识别处理作为允许用户指定电子设备并发出声音命令的预备步骤的触发事件，并将声音命令传输到指定的电子设备，提供一种优选控制方法以及利用该控制方法的电子设备。

技术手段

为了实现本发明的上述目的，根据本发明的基于手势-语音多模式命令的优选控制方法可以包括以下步骤：通过手势识别设备接收用户的手势信息；从手势信息中检测用户的第一身体坐标点和第二身体坐标点；检测从第一身体坐标点延伸到第二身体坐标点的连接向量，或第二身体坐标点的运动向量；当运动向量的特征值满足预定阈值条件时，切换到用于识别用户的声音命令的语音识别模式。

用户的第一身体坐标点可以是用户的眼睛、鼻子或嘴巴的位置的坐标点。

用户的第二身体坐标点可以是用户的指尖的位置的坐标点。

连接向量可以是关于从第一身体坐标点延伸到第二身体坐标点的直线的信息。

运动向量可以是连接从第一时间点到第二时间点的用户的第二身体坐标点的向量。

取决于连接向量，阈值条件可以具有针对运动向量的特征值的不同范围。

在根据本发明的基于手势-语音多模式命令的优选控制方法中，当切换到语音识别模式时，可以在特定时间点之前或之后开始识别用户的声音命令。

根据本发明的基于手势-语音多模式命令的优选控制方法还可以包括将第一身体坐标点和第二身体坐标点的延长线定义为命令向量，并且当命令向量的特征值满足预定执行条件时执行用户的声音命令的步骤。

当运动向量的特征值满足第一阈值条件并且然后在有效时间内满足第二阈值条件时，可以检测命令向量。

在切换到语音识别模式之后，根据本发明的基于手势-语音多模式命令的优选控制方法可以根据由用户的第二身体坐标点形成的命令域从第二身体坐标点来确定其中待执行用户的声音命令的区域。

命令域可以包括相对于第一身体坐标点所面对的方向，由用户的第一身体坐标点和用户的第二身体坐标点在垂直或水平方向上形成的点之间的延长线形成的空间区域。

根据本发明的基于手势-语音多模式命令的优选控制方法还可以包括根据声音命令控制外围电子设备的操作的步骤。

根据声音命令控制外围电子设备的操作的步骤可以包括以下步骤：当运动向量的特征值满足第一阈值条件并且然后在有效时间内满足第二阈值条件时，将外围电子设备切换到语音识别模式以使得能够识别用户的声音命令。

此外，根据本发明的基于手势-语音多模式命令的电子设备可以包括：手势识别单元，被配置为识别用户的手势信息；语音识别单元，被配置为识别用户的声音命令；坐标点检测单元，被配置为从由手势识别单元识别出的手势信息检测用户的第一身体坐标点和第二身体坐标点；向量检测单元，被配置为检测从第一身体坐标点延伸到第二身体坐标点的连接向量，或者第二身体坐标点的运动向量；以及控制单元，被配置为当运动向量的特征值满足第一阈值条件并且然后在有效时间内满足第二阈值条件时，切换到用于识别用户的声音命令的语音识别模式。

手势识别单元可以包括相机模块和运动传感器。

语音识别单元可以包括麦克风和声音传感器。

根据本发明的基于手势-语音多模式命令的电子设备还可以包括控制单元，该控制单元被配置为根据通过语音识别单元输入的用户的声音命令来控制外围电子设备的操作。

根据本发明的基于手势-语音多模式命令的电子设备可以在运动向量的特征值满足第一阈值条件并且然后在有效时间内满足第二阈值条件时，将外围电子设备切换到语音识别模式以使得能够识别用户的声音命令。

技术效果

利用根据本发明实施例的优选控制方法和利用该方法的电子设备，可以更快且有效地将声音命令传输到电子设备而不管环境如何，并且可以通过手势识别来指定电子设备，以使得能够传输声音命令，从而可以有效地执行声音命令，而无需用户针对语音识别预先学习或记忆电子设备的名称等。此外，可以更准确地识别作为用于向电子设备传输声音命令的预备步骤的手势，从而提高识别率并防止误操作。

附图说明

图1是示出根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的概念图。

图2是示出应用了根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的电子设备的内部配置的图。

图3是示出其中根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法应用于电子电器的情况的示例性图。

图4是示出根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的示例性图。

图5是示出根据本发明另一个实施例的基于手势-语音多模式命令的优选控制方法的示例性图。

图6是示出根据本发明又一个实施例的基于手势-语音多模式命令的优选控制方法的示例性图。

图7是图示用于利用根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法触发电子设备的语音识别功能的条件的表。

图8是图示其中利用根据本发明另一个实施例的基于手势-语音多模式命令的优选控制方法在语音识别的触发之后使用命令向量来控制电子设备的情况的图。

图9至图11是图示其中利用根据本发明又一个实施例的基于手势-语音多模式命令的优选控制方法，用户向某个区域中的电子设备发出声音命令的情况的图。

图12是根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的流程图。

图13是根据本发明另一个实施例的基于手势-语音多模式命令的优选控制方法的流程图。

图14是根据本发明又一个实施例的基于手势-语音多模式命令的优选控制方法的流程图。

图15是示出利用根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的电子设备的软件配置的示例性图。

具体实施方式

本文使用的技术术语并非意在限制本发明，而是描述本发明的具体实施例。本文使用的单数形式也包括复数形式，只要这些短语没有特别地具有相反的含义。本文使用的术语“包括”表示指定特定属性、区域、整数、步骤、操作、元素和/或组件，并且不排除其它特定属性、区域、整数、步骤、操作、元素、组件和/或组的存在或添加。

除非另外定义，否则本文使用的包括技术术语和科学术语的所有术语都具有与本发明所属领域的技术人员通常理解的含义相同的含义。词典中定义的常用术语进一步被解释为具有与相关技术文献和本公开一致的含义，并且除非另有定义，否则其不应该被解释为具有理想的或严格的正式含义。

在下文中，将参考附图详细描述本发明的优选实施例。

图1是示出根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的概念图。参考图1，根据本发明的基于手势-语音多模式命令的优选控制方法可以应用于各种家用电器的控制，并且通常可以应用于家庭网络系统。

即，根据本发明的电子设备100可以被布置在包括多个家用电器的家庭网络系统的某个区域中。家庭网络系统可以包括通过有线或无线网络连接的多个设备。这样的网络被配置为使得家庭中使用的所有电气和电子设备彼此有线或无线连接，并且使得它们之间能够进行双向通信。网络可以采用有线或无线互联网，使得可以在包括电视10、空调20、烹饪电器30、笔记本40、机器人清洁器50、洗碗机60、冰箱70、微波炉80和洗衣机90的电子设备之间通过网络共享信息。有线网络通常可以采用使用传统电话线的家庭PNA(电话线联网联盟)方案、IEEE 1394方案、电力线方案等。无线网络通常可以采用家庭RF(射频)方案、蓝牙方案、IrDA(红外数据协会)方案、无线LAN(WiFi)方案等。用户可以将根据本发明的电子设备100布置在用户的家中，并且可以用手势和语音来控制构成家庭网络系统的家用电器。此外，根据本发明的电子设备100可以被实现为单独的设备，但是电子设备100的功能可以被实现为在诸如家用电器的传统设备中体现。

虽然图1图示了家庭网络系统的示例，但是将显而易见的是，根据本发明的基于手势-语音多模式命令的优选控制方法不仅可以应用于家庭，而且还可以应用于在家庭外面使用的电子设备，诸如智能车、无人机和数码相机。

图2是示出应用了根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的电子设备的内部配置的图。参考图2，根据本发明的电子设备100包括存储器系统150、连接到存储器系统150并且被配置为控制电子设备100的操作的控制单元140、输入设备110和输出设备120。

在此，输入设备110包括用于根据用户的运动接收视频信息的相机112，以及用于从用户接收音频信息的麦克风114，并且还可以包括用于识别用户的触摸的设备，诸如触摸屏，或各种形式的物理转换器，诸如传统的鼠标或电子。在智能电话或平板电脑的情况下，输出设备120可以指示用于显示文本或图像的显示器，但是也可以包括诸如打印机或扬声器的转换器。显示器可以以各种形式配置，诸如液晶显示器(LCD)、薄膜晶体管液晶显示器(TFT LCD)、有机发光二极管(OLED)显示器、柔性显示器和三维(3D)显示器。当电子设备100是通信设备时，可以采用诸如网络接口或调制解调器的设备作为输入设备和/或输出设备。

传感器单元130连接到输入设备110，并且具有用于通过输入设备110识别用户的运动的运动传感器132，以及用于通过输入设备110识别用户的语音信号的声音传感器134。当通过输入设备110识别用户的运动或用户的语音信号时，传感器单元130将手势信息或语音信息提供给控制单元140。

控制单元140包括用于控制电子设备100的操作的中央处理单元(CPU)142、用于确定通过相机112和运动传感器132识别出的用户手势的方向和大小的视频信号处理单元144、以及用于从通过声音传感器134传输的用户的数字语音信号确定语音模式的音频信号处理单元146。视频信号处理单元144在从相机112输入的用户的视频信号中识别其中发生运动的区域，并确定其中发生运动的区域的方向和大小作为运动向量。优选地，当确定的运动向量的大小小于预定参考值时，视频信号处理单元144可以确定该运动不是旨在远程控制电子设备100的手势，并且可以忽略该运动。当确定的运动向量的大小大于预定参考值时，视频信号处理单元144可以确定该运动是旨在远程控制电子设备100的手势，从而可以执行指定的命令。通常，通过麦克风114输入的语音信号是模拟信号，因此可以提供模数转换器(ADC)(未示出)，使得语音信号可以被输入到声音传感器134和音频信号处理单元146。音频信号处理单元146从输入的语音信号确定语音模式，并且然后将其与预先存储在存储器系统150中的语音模式进行比较，使得当存在匹配的语音模式时，可以执行与该语音模式对应的命令。

此外，控制单元140还可以包括用于临时存储数据和指令的寄存器，以及用于控制电子设备100的操作的控制器。同时，CPU 142可以是由诸如Digital的Alpha、MIPSTechnology、NEC、IDT和Siemens的MIPS、Intel、Cyrix、AMD和Nexgen的x86，以及IBM和Motorola的PowerPC的各种体系架构构成的处理器。

通常，存储器系统150包括以存储介质形式的高速主存储器152，诸如随机存取存储器(RAM)、只读存储器(ROM)、静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)和可编程只读存储器(PROM)；以长期存储介质形式的辅助存储器154，诸如软盘、硬盘、带、CD-ROM、闪存、微型多媒体卡、卡式存储器(例如，SD或XD存储器)；以及用于使用电、磁、光或其它存储介质存储数据的设备。此外，主存储器152可以包括用于通过显示设备显示图像的视频显示存储器。对于本领域技术人员来说将显而易见的是，存储器系统150可以具有各种形式和各种存储能力。

因此，通过输入设备110从用户传输的手势或语音信号通过传感器单元130被传输到控制单元140，并且控制单元140将由此确定的运动向量信息与预先存储在存储器系统150中的手势和语音信号的参考值进行比较，以判断是否存在匹配，并且当存在匹配时，判断用户是否具有远程控制权限，使得可以执行指定的命令。

在本发明的技术领域中，应用基于手势-语音多模式命令的优选控制方法的电子设备100可以包括操作系统(OS)和至少一个应用程序。OS是用于控制电子设备100的操作和资源分配的一组软件。应用程序是用于使用通过OS可用的计算机资源来执行用户请求的任务的一组软件。OS和应用程序驻留在存储器系统150中。根据计算机编程领域的技术人员的经验，除非另有说明，否则将基于由电子设备100执行的操作和用于操作的表示符号来描述本发明。通过OS或合适的应用程序基于计算机执行操作。此外，操作和功能包括引起诸如数据位的电信号的转换或中断的控制单元140的处理，电子设备100的操作的变更，以及存储在存储器系统150中的存储区域中的数据位信号的管理。其中管理数据位信号的存储器区域是具有与数据位对应的电特性、磁特性或光特性的物理区域。

根据本发明的基于手势-语音多模式命令的优选控制方法可以在家庭网络中提供的家用电器或各种其它电子电器中实现，或者可以在被单独安装在家中以控制外围电子电器的独立电子设备中实现。当在用于控制外围电子电器的声音命令的单独的独立电子设备中实现时，该独立电子设备可以具有用于在一定范围内控制电子电器的操作的无线通信功能，以及用于识别外围电子电器的功能。

图3是示出其中根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法应用于电子电器的情况的示例性图。参考图3，应用了根据本发明的基于手势-语音多模式命令的优选控制方法的电子设备100可以被实现为诸如电视的家用电器，或者可以被实现为用于控制家用电器的单独控制模块。

根据本发明的电子设备100可以具有用于识别用户的手势的相机112和用于识别用户的语音的麦克风114。通常，相机112可以包括用于会聚入射光的透镜和用于检测由透镜形成其焦点的图像并将图像转换成电子图像信号的诸如CCD(电荷耦合器件)或CMOS(互补金属氧化物半导体)的传感器。麦克风114可以包括用于将从用户输入的模拟语音信号转换成数字语音信号的模数转换器(ADC)。当相机112和麦克风114被附接到应用根据本发明的基于手势-语音多模式命令的优选控制方法的电子设备100时，它们可以被安装在电视机框架的顶部，例如，以便更好地识别用户的手势或语音。相应地，相机112可以更容易地检测到在电子设备100前面的期望远程控制电子设备100的用户的运动。用户的运动可以以各种方式进行，并且可以是指示待被远程控制的电子设备100的用户的手指运动。由于即使在简单的运动的情况下，人的手指也可以提供足够的大小和方向性，因此安装在根据本发明的电子设备100中的相机112检测到的身体运动可以优选地针对用户的手指运动。

图4是示出根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的示例性图。参考图4，关于远程位置处的特定设备10，用户可以通过使用手指的手势来控制设备10的操作，如下面将描述的。如以上所讨论的，根据本发明的基于手势-语音多模式命令的优选控制方法可以在通用电器中实施，或者可以在用于控制通用电器的单独设备中实施。

首先，从用户的一只眼睛到用户的手指的直线用作连接向量S。在这种状态下，当用户将手指向上移动到连接向量S时，生成与手指沿着其移动的直线对应的运动向量M。在此，可以计算连接向量S的大小、用户移动手指的时间(tm)、运动向量M的大小，以及由连接向量S和运动向量M在空间上形成的角度(a)。当连接向量S的大小、用户移动手指的时间(tm)、运动向量M的大小，以及由连接向量S和运动向量M在空间上形成的角度(a)的值满足存储在根据本发明的电子设备100中的第一阈值条件，并且然后在有效时间内满足第二阈值条件时，触发根据本发明的电子设备100的语音识别功能。在此，可以选择参考身体坐标点作为用户的身体特征之一，并且可以取决于身体坐标点的类型，不同地定义连接向量S的大小、手指移动的时间(tm)、运动向量M的大小，以及由连接向量S和运动向量M形成的角度(a)的参考值。

图5是示出根据本发明另一个实施例的基于手势-语音多模式命令的优选控制方法的示例性图。参考图5，从用户的嘴巴到用户的手指的直线用作连接向量S。在这种状态下，当用户移动手指时，生成与手指沿着其移动的直线对应的运动向量M。在此，可以计算连接向量S的大小、用户移动手指的时间(tm)、运动向量M的大小，以及由连接向量S和运动向量M在空间上形成的角度(a)。当计算出的值满足存储在根据本发明的电子设备100中的第一阈值条件，并且然后在有效时间内满足第二阈值条件时，触发电子设备100的语音识别功能。

图6是示出根据本发明又一个实施例的基于手势-语音多模式命令的优选控制方法的示例性图。参考图6，从用户的鼻子到用户的手指的直线用作连接向量S。在这种状态下，当用户移动手指时，生成与手指沿着其移动的直线对应的运动向量M。相应地，可以以结合图4和图5讨论的处理相同的方式确定连接向量S的大小、运动向量M的大小、用户移动手指的时间(tm)、由连接向量S和运动向量M在空间上形成的角度(a)，以及参考时间点(t0)。

参考图7，当用户将一只眼睛定义为第一身体坐标点而将指尖定义为第二身体坐标点时，如果手姿势(HP)是伸展一个食指，当指尖移动0.1秒时运动向量M的大小为3cm或更大，并且由运动向量M和连接向量S在空间上形成的角度在-40度和40度之间，则认为满足第一阈值条件。

如果在从以上时间点开始的0.2秒的有效时间内，手姿势(HP)是伸展一个食指，当指尖移动0.1秒时运动向量M的大小小于1cm，并且连接向量S的大小在10cm和100cm之间，则认为满足第二阈值条件并且检测到第一命令向量。

当用户将鼻子或嘴巴定义为第一身体坐标点并且将指尖定义为第二身体坐标点时，如果手姿势(HP)是伸展一个食指，当指尖移动0.1秒时运动向量M的大小为3cm或更大，并且由运动向量M和连接向量S在空间上形成的角度在140度和220度之间，则认为满足第一阈值条件。

如果在从以上时间点开始的0.2秒的有效时间内，手姿势(HP)是伸展一个食指，当指尖移动0.1秒时运动向量M的大小小于1cm，并且连接向量S的大小为小于5cm，则认为满足第二阈值条件并且检测到第二命令向量。

显然，可以用各种值改变和定义这些条件。

如上所述，当从用户的身体坐标点到手指的连接向量S、手指的运动向量M的大小、手指移动的时间，以及连接向量S和运动向量M之间的角度(a)满足第一阈值条件，并且然后在有效时间内满足第二阈值条件时，电子设备100被切换到用于识别用户的语音的模式，并且然后识别由用户输入的语音信号和执行与识别的结果对应的命令。

因此，根据根据本发明的基于手势-语音多模式命令的优选控制方法，即使存在环境噪声，用户也可以用简单的手势触发特定电子设备的语音识别功能，使得可以有效地执行声音命令。此外，利用根据本发明的基于手势-语音多模式命令的优选控制方法的电子设备可以使用用户的手势作为语音识别的触发手段，并且在触发语音识别功能之后使用用户的语音，使得可以有效地执行声音命令而无需用户针对语音识别预先学习或记忆电子设备的名称等，并且可以提高电子设备的识别率和可以防止电子设备的误操作。

图8是图示其中利用根据本发明另一个实施例的基于手势-语音多模式命令的优选控制方法，在语音识别的触发之后使用命令向量来控制电子设备的情况的图。图8示出了其中用户通过图5至图7中的任何一个处理触发特定电子设备进入语音识别模式的情况。因此，电子设备已经被切换到用于识别用户的语音的模式。在此，用户可以在没有任何附加手势的情况下发出声音命令，但是如果存在若干外围电子设备，那么可以仅指定一个电子设备并向其发出声音命令。为此，用户可以相对于切换到语音识别模式的电子设备将连接身体坐标点(在这种情况下为一只眼睛)和手指的延长线定义为命令向量C，并且可以仅使在命令向量C的延长线上的电子设备执行用户的声音命令。

图8图示了其中用户在若干电子设备中仅指定一个电子设备并向其发出声音命令的情况。相反，用户也可以一次向某个区域中的电子设备都发出声音命令。

图9至图11是图示其中利用根据本发明另一个实施例的基于手势-语音多模式命令的优选控制方法，用户使用根据本发明的电子设备100向某个区域中的家用电器发出声音命令的情况的图。参考图9至图11，假设用户将他/她的鼻子定义为身体坐标点。用户可以在用于触发家用电器进入语音识别模式的参考时间(t0)或者在家用电器被触发进入语音识别模式之后用于发出声音命令的命令时间(tc)，相对于电子设备在垂直或水平方向上移动他/她的手指。因此，用户移动的手指的范围从用户的身体坐标点(即，鼻子)延伸到虚拟平面，以大体形成呈锥体形状的命令域(field of command，FoC)。在此，形成的锥体的区域可以由从身体坐标点到虚拟平面的距离r、平面的高度h和平面的宽度w确定，并且位于该空间中的电子设备可以被设置为统一地执行用户的声音命令。在图10的情况下，位于声音命令的域中的电视将执行用户的声音命令，并且声音命令的域之外的机器人清洁器将忽略用户的声音命令而不执行它。

同时，图10示出了其中用户定义金字塔形状的声音命令的域的情况，并且图11示出了其中用户定义椭圆形状的声音命令的域的情况。虽然图10中的机器人清洁器不位于声音命令的域中，但是图11中的机器人清洁器位于声音命令的域中并且将执行用户的声音命令。

图12是根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的流程图。参考图12，电子设备100通过附接的相机112获取附近的用户的图像。当在图像中捕获用户的参考身体部位(例如，眼睛、鼻子、嘴巴等)时，确定其身体坐标点，并确定从身体坐标点延伸到用户的手指的连接向量S和手指沿着其移动的运动向量M。在此，当连接向量S和运动向量M的大小、用户移动手指的时间(tm)、由连接向量S和运动向量M在空间上形成的角度(a)和参考时间点t0满足存储在存储器系统150中的阈值条件时，判断用户已经请求对声音命令的触发，并且生成语音触发以使得能够进行声音命令识别。当用户在通过语音触发切换到语音识别模式之后发出声音命令时，通过附接的麦克风114识别用户的语音，并根据语音识别的结果执行声音命令。当用户想要将声音命令传输到特定电子设备时，由其它外围电子设备引起的噪声可能干扰传输。因此，可以生成用于使除了待被传输声音命令的电子设备之外的电子设备静音或降低声音的命令。

图13是图示如何利用根据本发明另一个实施例的基于手势-语音多模式命令的优选控制方法，在触发语音识别之后使用命令向量来控制电子设备的流程图。参考图13，当识别手指相对于用户的身体坐标点的运动并且满足声音命令的阈值条件时，生成语音触发以使得能够识别用户的语音。

在从通过语音触发切换到语音识别模式开始的预定时间之后的声音命令起始点tc处，用户的声音命令与反映用户的身体坐标点(例如，眼睛、鼻子、或嘴巴)和手指的运动的命令向量C一起加以考虑。因此，只有在命令向量C的延长线上的电子设备将执行用户的声音命令。如上所述，可以基于在电子设备被切换到语音识别模式之后用户移动手指的时间(tm)、手指移动的距离等来确定命令向量C。

图14是图示利用根据本发明又一个实施例的基于手势-语音多模式命令的优选控制方法，用户如何向某个区域中的电子设备发出声音命令的流程图。

相对于用户的身体坐标点确定用户的手指的运动，并确定身体坐标点和手指之间的连接向量S以及手指沿着其移动的运动向量M。在此，当连接向量S和运动向量M的大小、用户移动手指的时间(tm)、由连接向量S和运动向量M在空间上形成的角度(a)和参考时间点t0满足存储在存储器系统150中的阈值条件时，生成语音触发以使得能够识别用户的声音命令。

在通过语音触发切换到语音识别模式之后，确定用户是否定义了用于发出声音命令的域。如上所述，基于由用户的手指指示的空间区域确定命令域。位于由用户定义的命令域中的电子设备将识别用户的声音命令并根据声音命令执行操作，而不位于命令域中的电子设备将忽略用户的声音命令。如果用户的手势不满足用于定义命令域的条件，则不考虑命令域，并且仅用户使用手指为其指定命令向量C的电子设备将执行声音命令。

图15是示出利用根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的电子设备的软件配置的示例性图。利用根据本发明一个实施例的基于手势-语音多模式命令的优选控制方法的电子设备的应用模块380可以包括用于识别用户相对于身体坐标点移动手指的手势的手势识别模块381、用于在切换到语音识别模式之后接收和处理由用户通过麦克风传输的声音命令的语音识别模块382，以及用于根据由用户输入的声音命令控制电子设备的操作的命令处理模块383。

包括应用模块380的电子设备100可以使用各种操作系统作为其操作系统。操作系统向应用程序接口(API)361提供高级指令以控制应用模块380的每个模块的操作。根据本发明的电子设备100包括高级指令处理单元362，用于根据从API 361提供的高级指令识别应用模块380的每个对应模块，并且用于解码和向对应的模块提供高级指令。应用模块控制单元370被配置为根据从高级指令处理单元362提供的指令控制应用模块380的操作。即，高级指令处理单元362被配置为根据通过API提供的高级指令识别是否存在应用模块380的对应模块，并且当存在对应模块时，将高级指令解码为对应模块可识别的指令，并将其提供给对应的映射单元或控制消息传输。应用模块控制单元370包括分别用于手势识别模块381、语音识别模块382和命令处理模块383的映射单元371、373、375和接口单元372、374、376。

手势识别模块映射单元371被配置为从高级指令处理单元362接收用于通过附接到电子设备100的相机识别用户的手势并处理识别的结果的高级指令，以及将高级指令映射到可以由手势识别模块381处理的设备级指令，并通过手势识别模块接口单元372将设备级指令提供给手势识别模块381。语音识别模块映射单元373和语音识别模块接口单元374被配置为通过附接到电子设备100的麦克风识别用户的声音命令并处理声音命令。即，语音识别模块映射单元373被配置为从高级指令处理单元362接收用于使用语音识别模块382的高级指令，并将高级指令映射到设备级指令并通过语音识别模块接口单元374将设备级指令提供给语音识别模块382。命令处理模块383被配置为分析和处理通过语音识别模块382传输的用户的声音命令。命令处理模块映射单元375被配置为通过高级指令处理单元362接收用于执行用户的声音命令的高级指令，并将高级指令映射到命令处理模块383可识别的设备级指令。设备级指令通过命令处理模块接口单元376被提供给命令处理模块383。相应地，执行命令处理模块383以提供由用户的运动引起的手势的识别值和存储在存储器系统150中的触发参考值之间的比较结果。当手势识别值落入触发参考值的范围内时，激活电子设备的语音识别模式，并执行由语音识别模块382分析出的用户的声音命令。

下面将更详细地描述被配置为执行上述功能的API 361的详细成员函数。OpenAPI用于在电子设备100的请求下打开应用模块的会话，用于打开/关闭设备、显示锁定屏幕、进行手势识别、进行语音识别以及处理用户的声音命令。Close API用于终止已使用的应用模块的会话。Retrieve API用于检索可以从电子设备100调用的应用模块。Status API用于确定应用模块的每个模块的操作状态。Initialize API用于初始化应用模块，使得可以调用它。List API用于检查通过电子设备100提供给用户的功能或操作、可以通过手势识别或语音识别执行的命令列表等。Register API用于注册由用户通过电子设备100输入的诸如手势或声音命令的信息。Unregister API用于取消注册由用户输入的诸如手势或声音命令的信息。因此，根据待被使用的应用模块或消息传输的类型来执行这样的各个API，使得应用模块可以用于识别用户的手势或语音并执行命令。

虽然以上已经参考附图描述了本发明的实施例，但是本发明所属领域的技术人员将理解的是，可以在不改变本发明的技术思想或基本特征的情况下以其它特定形式来实践本发明。因此，应该理解的是，上述实施例不是限制性的，而是在所有方面都是示例性的。本发明的范围由所附权利要求而不是以上详细描述来限定，并且从权利要求的精神和范围及其所有等同物得出的所有改变或修改都应该被解释为落入本发明的范围内。

10：电视；20：空调

30：烹饪电器；40：笔记本

50：机器人清洁器；60：洗碗机

70：冰箱；80：微波炉

90：洗衣机；100：电子设备

110：输入设备；112：相机

114：麦克风；120：输出设备

130：传感器单元；132：运动传感器

134：声音传感器；140：控制单元

142：CPU；144：视频信号处理单元

146：音频信号处理单元；150：存储器系统

152：主存储器；154：辅助存储器

361：API；362：高级指令处理单元

370：应用模块控制单元；380：应用模块

371：手势识别模块映射单元

372：手势识别模块接口单元

373：语音识别模块映射单元

374：语音识别模块接口单元

375：命令处理模块映射单元

376：命令处理模块接口单元

381：手势识别模块

382：语音识别模块

383：命令处理模块

Claims

1.一种基于手势-语音多模式命令的优选控制方法，所述方法控制具有手势识别设备和语音识别设备的电子设备，并且包括以下步骤：

通过手势识别设备接收用户的手势信息；

从所述手势信息检测用户的第一身体坐标点和第二身体坐标点；

检测从所述第一身体坐标点延伸到所述第二身体坐标点的连接向量，以及所述第二身体坐标点的运动向量；以及

当所述运动向量的特征值满足预定阈值条件时，生成语音触发以使得能够识别用户的语音，

其中所述运动向量是连接从第一时间点到第二时间点的所述用户的第二身体坐标点的向量。

2.如权利要求1所述的方法，其中所述用户的第一身体坐标点是所述用户的眼睛、鼻子或嘴巴的位置的坐标点。

3.如权利要求1所述的方法，其中所述用户的第二身体坐标点是所述用户的指尖的位置的坐标点。

4.如权利要求1所述的方法，其中所述连接向量是关于从所述第一身体坐标点延伸到所述第二身体坐标点的直线的信息。

5.如权利要求1所述的方法，其中，所述运动向量的特征值是关于所述第二身体坐标点从第一时间点到第二时间点所移动的距离、所述用户的手姿势、或者由所述连接向量和所述运动向量在空间上形成的角度的信息。

6.如权利要求1所述的方法，其中，取决于所述连接向量，所述阈值条件具有针对所述运动向量的特征值的不同范围。

7.如权利要求1所述的方法，其中，在生成语音触发之后，在特定时间点之前或之后开始用户的声音命令的识别。

8.如权利要求7所述的方法，还包括以下步骤：

将所述第一身体坐标点和所述第二身体坐标点的延长线定义为命令向量，并且当所述命令向量的特征值满足预定执行条件时，执行所述用户的声音命令。

9.如权利要求8所述的方法，其中，所述命令向量的特征值是关于所述用户的第二身体坐标点沿着所述运动向量移动的距离、或者所述用户的第二身体坐标点沿着所述运动向量移动的时间的信息。

10.如权利要求1所述的方法，其中，在生成语音触发之后，根据由所述用户的第二身体坐标点形成的命令域从所述第二身体坐标点确定其中用户的声音命令待被执行的区域。

11.如权利要求10所述的方法，其中，所述命令域包括相对于所述第一身体坐标点所面对的方向，由所述用户的第一身体坐标点和所述用户的第二身体坐标点在垂直或水平方向上形成的点之间的延长线形成的空间区域。

12.如权利要求1所述的方法，还包括以下步骤：

根据用户的声音命令控制外围电子设备的操作。

13.如权利要求12所述的方法，其中，控制所述外围电子设备的操作的步骤包括以下步骤：

当所述运动向量的特征值满足所述预定阈值条件时，生成用于将所述外围电子设备切换到语音识别模式的语音触发。

14.如权利要求12所述的方法，其中，控制所述外围电子设备的操作的步骤包括以下步骤：

生成用于使所述外围电子设备在从语音识别的起始点开始的预定时间段内静音或降低声音的命令。

15.一种基于手势-语音多模式命令的电子设备，所述电子设备具有手势识别和语音识别功能，并且包括：

手势识别单元，被配置为识别用户的手势信息；

语音识别单元，被配置为识别用户的声音命令；

坐标点检测单元，被配置为从由所述手势识别单元识别出的手势信息检测用户的第一身体坐标点和第二身体坐标点；

向量检测单元，被配置为检测从所述第一身体坐标点延伸到所述第二身体坐标点的连接向量，或者所述第二身体坐标点的运动向量；以及

控制单元，被配置为当所述运动向量的特征值满足预定阈值条件时，生成用于识别用户的声音命令的语音触发，

16.如权利要求15所述的电子设备，其中所述手势识别单元包括相机模块和运动传感器。

17.如权利要求15所述的电子设备，其中所述语音识别单元包括麦克风和声音传感器。

18.如权利要求15所述的电子设备，其中所述控制单元包括外围设备控制单元，所述外围设备控制单元被配置为根据通过所述语音识别单元输入的用户的声音命令控制外围电子设备的操作。

19.如权利要求18所述的电子设备，其中所述外围电子设备控制单元被配置为当所述运动向量的特征值满足所述预定阈值条件时，将所述外围电子设备切换到语音识别模式以使得能够识别所述用户的声音命令。

20.如权利要求15所述的电子设备，其中所述语音触发包括用于使外围电子设备在从语音识别的起始点开始的预定时间段内静音或降低声音的命令。