CN111176432A

CN111176432A - 提供手势触发的语音识别服务的电子设备及其操作方法

Info

Publication number: CN111176432A
Application number: CN201910990908.4A
Authority: CN
Inventors: 孙正河; 金林焕; 金正洙; 白津沅
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-11-12
Filing date: 2019-10-17
Publication date: 2020-05-19
Also published as: US20200150773A1; KR20200055202A

Abstract

一种电子设备包括存储手势识别程序和语音触发程序的存储器、动态视觉传感器、处理器和通信接口。动态视觉传感器检测与由对象的运动引起的光的变化相对应的事件。处理器被配置为：执行手势识别程序以基于从动态视觉传感器输出的时间戳值来确定是否识别出对象的手势，并且响应于识别出手势而执行语音触发程序。通信接口被配置为：响应于语音触发程序被执行，向服务器发送针对与手势相对应的语音识别服务的请求。

Description

提供手势触发的语音识别服务的电子设备及其操作方法

相关申请的交叉引用

本申请要求于2018年11月12日在韩国知识产权局递交的韩国专利申请No.10-2018-0138250的优先权，其公开内容通过引用全部合并于此。

技术领域

本文描述的本公开的示例性实施例涉及电子设备，且更具体地涉及提供由用户的手势触发的语音识别服务的电子设备。

背景技术

诸如提供基于人工智能的语音识别服务的智能扬声器之类的电子设备正变得越来越普遍。通常，基于通过麦克风来检测用户输入的语音的语音触发方法被广泛用于实现语音识别服务。然而，每次使用语音识别服务时，语音触发方法都需要调用相同的唤醒字，这对用户来说可能变得不方便。另外，语音识别服务的质量可能在嘈杂的环境中劣化。

CMOS图像传感器(CIS)被广泛用于识别用户的手势。由于CIS不仅输出运动对象的图像信息，而且还输出静止对象的图像信息，因此在手势识别中要处理的信息量可能快速增加。此外，使用CIS的手势识别可能侵犯用户的隐私，并且使用CIS捕捉图像可能需要大量的电流。此外，识别率在低强度的照明下可能降低。

发明内容

本公开的示例性实施例提供了一种电子设备，其提供由用户的手势触发的语音识别服务。

根据示例性实施例，一种电子设备包括存储手势识别程序和语音触发程序的存储器、动态视觉传感器、处理器和通信接口。动态视觉传感器检测与由对象的运动引起的光的变化相对应的事件。处理器被配置为：执行手势识别程序以基于从动态视觉传感器输出的时间戳值来确定是否识别出对象的手势，并且响应于识别出手势而执行语音触发程序。通信接口被配置为：响应于语音触发程序被执行，向服务器发送针对与手势相对应的语音识别服务的请求。

根据示例性实施例，一种操作电子设备的方法包括：由动态视觉传感器检测与由对象的运动引起的光的变化相对应的事件，并且由处理器基于从动态视觉传感器输出的时间戳值来确定是否识别出对象的手势。该方法还包括：由处理器响应于识别出手势，触发语音触发程序，以及响应于语音触发程序被触发，由通信接口向服务器发送针对与手势相对应的语音识别服务的请求。

根据示例性实施例，一种计算机程序产品包括计算机可读存储介质，该计算机可读存储介质体现有程序指令。程序指令可由处理器执行以使处理器：控制动态视觉传感器，该动态视觉传感器被配置为检测与由对象的运动引起的光的变化相对应的事件；基于从动态视觉传感器输出的时间戳值来确定是否识别出对象的手势；响应于识别出手势而执行语音触发程序；并且响应于语音触发程序被执行，向服务器发送针对与手势相对应的语音识别服务的请求。

附图说明

通过参考附图来详细描述本公开的示例性实施例，本公开的以上和其他特征将变得更加清楚，其中：

图1是示出了根据本公开的示例性实施例的电子设备的图。

图2是图1的电子设备中驱动的程序模块的框图。

图3示出了图1所示的DVS的示例性配置。

图4是示出了构成图3的像素阵列的像素的示例性配置的电路图。

图5示出了从图3所示的DVS输出的信息的示例性格式。

图6示出了从DVS输出的示例性时间戳值。

图7示出了根据本公开的示例性实施例的电子设备。

图8是示出了根据本公开的示例性实施例的操作电子设备的方法的流程图。

图9是示出了根据本公开的示例性实施例的操作电子设备的方法的流程图。

图10是示出了根据本公开的示例性实施例的电子设备的图。

图11是示出了根据本公开的示例性实施例的操作电子设备的方法的流程图。

图12是示出了根据本公开的示例性实施例的操作电子设备的方法的流程图。

具体实施方式

以下将参照附图更全面地描述本公开的示例性实施例。贯穿附图的相同附图标记可以表示相同元素。

本文参考术语“部分”、“单元”、“模块”、“引擎”等描述的组件以及附图中示出的功能块可以用软件、硬件或其组合来实现。在示例性实施例中，软件可以是机器代码、固件、嵌入式代码和应用软件。硬件可以包括例如电气电路、电子电路、处理器、计算机、集成电路、集成电路核、压力传感器、惯性传感器、微机电系统(MEMS)、无源元件或者其组合。

本公开的示例性实施例提供了一种电子设备，其能够提供具有改进的准确度和降低的数据吞吐量的改进的语音识别服务，从而在性能和可靠性这两个方面都提供改进的电子设备。

图1示出了根据本公开的示例性实施例的电子设备。

电子设备1000可以包括主处理器1100、存储设备1200、工作存储器1300、相机模块1400、音频模块1500、通信模块1600和总线1700。通信模块1600可以是例如经由有线和/或无线接口发送和接收数据的通信电路。通信模块1600在这里也可以被称为通信接口。电子设备1000可以是例如台式计算机、膝上型计算机、平板电脑、智能电话、可穿戴设备、智能扬声器、包括物联网(IOT)设备在内的家庭安全设备、视频游戏机、工作站、服务器、自动驾驶汽车等。

主处理器1100可以控制电子设备1000的整体操作。例如，主处理器1100可以处理各种算术运算和/或逻辑运算。为此，主处理器1100可以用例如包括一个或多个处理器核心在内的通用处理器、专用或专门处理器或应用处理器来实现。

存储设备1200可以存储数据而不管是否供电。存储设备1200可以存储为了操作电子设备1000所需的程序、软件、固件等。例如，存储设备1200可以包括至少一个非易失性存储设备，例如闪存、相变RAM(PRAM)、磁阻RAM(MRAM)、电阻RAM(ReRAM)、铁电RAM(FRAM)等。例如，存储设备1200可以包括存储介质，例如固态驱动器(SSD)、可移动存储设备、嵌入式存储设备等。

工作存储器1300可以存储用于电子设备1000的操作的数据。工作存储器1300可以临时存储已被或将被主处理器1100处理的数据。工作存储器1300可以包括例如易失性存储器(例如动态随机存取存储器(DRAM)、同步DRAM(SDRAM)等)和/或非易失性存储器(例如PRAM、MRAM、ReRAM、FRAM等)。

在示例性实施例中，程序、软件、固件等可以从存储设备1200加载到工作存储器1300，并且所加载的程序、软件、固件等可以由主处理器1100来驱动。所加载的程序、软件、固件等可以包括例如应用1310、应用程序接口(API)1330、中间件1350和内核1370。API1330、中间件1350或内核1370中的至少一部分可以被称为操作系统(OS)。

相机模块1400可以捕捉对象的静态图像或视频。相机模块1400可以包括例如镜头、图像信号处理器(ISP)、动态视觉传感器(DVS)、互补金属氧化物半导体图像传感器(CIS)等。DVS可以包括多个像素和控制像素的至少一个电路，如参考图3进一步描述的。DVS可以检测与由对象的运动引起的光的变化(例如，光强度的变化)相对应的事件，如下面进一步详细描述的。

音频模块1500可以检测声音以将声音转换为电信号，或者可以将电信号转换为声音以向用户提供声音。音频模块1500可以包括例如扬声器、耳机、麦克风等。

通信模块1600可以支持各种无线/有线通信协议中的至少一种，用于与电子设备1000的外部设备/系统通信。例如，通信模块1600可以是有线和/或无线接口。例如，通信模块1600可以将服务器10连接到电子设备1000，服务器10被配置为向用户提供基于云的服务(例如，基于人工智能的语音识别服务)。

总线1700可以提供电子设备1000的组件之间的通信路径。电子设备1000的组件可以根据总线1700的总线格式彼此交换数据。例如，总线1700可以支持各种接口协议中的一种或多种：例如外围组件互连快速(PCIe)、非易失性存储器快速(NVMe)、通用闪存(UFS)、串行高级技术附件(SATA)、小型计算机系统接口(SCSI)、串行连接SCSI(SAS)、Generation-Z(Gen-Z)、用于加速器的高速缓存相干互连(CCIX)、开放式相干加速器处理器接口(OpenCAPI)等。

在示例性实施例中，电子设备1000可以被实现为基于手势识别来执行语音触发。例如，电子设备1000可以通过使用相机模块1400的DVS来识别用户的手势，并且可以基于所识别的手势来触发在服务器10中驱动的语音识别服务。例如，电子设备1000可以首先识别由用户提供的视觉手势，然后可以响应于识别视觉手势而随后发起用于从用户接收可听输入的语音识别服务。

此外，电子设备1000可以被实现为基于语音识别来执行语音触发。例如，电子设备1000可以通过使用音频模块1500的麦克风来识别用户的语音，并且可以基于所识别的语音来触发在服务器10中驱动的语音识别服务。例如，电子设备1000可以首先识别特定用户的语音，然后可以响应于识别语音而随后发起用于从用户接收可听输入的语音识别服务。

根据这些示例性实施例，当触发语音识别服务时，可以通过使用DVS来减少语音识别服务的失灵，这需要相对少量的信息处理。另外，由于在示例性实施例中结合手势识别和语音识别来触发语音识别服务，因此可以提高电子设备1000的安全性。

图2是图1的电子设备中驱动的程序模块的框图。下文中，将参考图1和图2来描述本公开的示例性实施例。

程序模块可以包括应用1310、API 1330、中间件1350和内核1370。程序模块可以从存储设备1200加载到图1的工作存储器1300，或者可以从外部设备下载，然后将其加载到工作存储器1300中。

应用1310可以是能够执行功能的多个应用之一，例如，浏览器1311、相机应用1312、音频应用1313、媒体播放器1314等。

API 1330可以是API编程功能的集合，并且可以包括供应用1310控制由内核1370或中间件1350提供的功能的接口。例如，API 1330可以包括用于执行文件控制、窗口控制、图像处理等的至少一个接口或功能(例如，指令)。API 1330可以包括例如手势识别引擎1331、触发识别引擎1332、语音触发引擎1333和智能扬声器平台1334。手势识别引擎1331、触发识别引擎1332和语音触发引擎1333可以分别是加载到工作存储器1300中并由主处理器1100执行以执行各个引擎的功能的计算机程序，如下所述。根据示例性实施例，这些计算机引擎/程序可以被包括在单个计算机引擎/程序中，或者被分成不同的计算机引擎/程序。

手势识别引擎1331可以基于相机模块1400的DVS或CIS的检测来识别用户的手势。根据本公开的示例性实施例，手势识别引擎1331基于与通过电子设备1000的DVS感测到的用户手势相对应的时间戳值来识别特定手势。例如，手势识别引擎1331基于根据用户手势的其他时间戳值的变化方向和特定变化模式，识别出用户的手势是与特定命令相对应的手势。

当检测到用户通过电子设备1000的各种输入设备的输入时，触发识别引擎1332可以确定是否满足用于激活语音识别服务的条件。在示例性实施例中，当通过电子设备1000的麦克风来输入用户的语音时，触发识别引擎1332基于例如特定词、特定词的排列、短语等来确定是否满足语音识别服务的激活条件。

在示例性实施例中，当通过电子设备1000的DVS检测到用户的手势时，触发识别引擎1332基于例如时间戳值的特定变化模式、变化方向等来确定是否满足语音识别服务的激活条件。在示例性实施例中，触发识别引擎1332的功能可以被包括在语音触发引擎1333中。在示例性实施例中，手势识别引擎1331、触发识别引擎1332和语音触发引擎1333中的一个或多个的功能可被组合在单个引擎/程序中。也就是说，在示例性实施例中，这些不同引擎/程序的某些功能可被组合到单个引擎/程序中。

语音触发引擎1333可以触发基于智能扬声器平台1334的语音识别服务的特定命令。可以经由外部服务器10向用户提供语音识别服务。可以以各种格式向外部服务器10发送触发的命令。例如，可以以开放式标准格式(例如但不限于JavaScript对象表示法(JSON))向外部服务器10发送触发的命令。

智能扬声器平台1334提供基于外部服务器10的用于向用户提供人工智能的语音识别服务的整体环境。在示例性实施例中，智能扬声器平台1334可以是计算机可读介质等，其包括例如电子设备1000中安装的用于提供语音识别服务的固件、软件和程序代码。例如，电子设备1000可以是智能扬声器，并且智能扬声器平台1334可以是包括触发识别引擎1332和语音触发引擎1333在内的环境。

中间件1350可以用作中介，使得API 1330或应用1310与内核1370进行通信。中间件1350可以处理从应用1310接收到的一个或多个任务请求。例如，中间件1350可以向至少一个应用分配用于使用电子设备1000的系统资源(例如，主处理器1100、工作存储器1300、总线1700等)的优先级。通过按照分配的优先级的顺序来处理一个或多个工作请求，中间件1350可以对该一个或多个任务请求来执行调度、负载均衡等。

在示例性实施例中，中间件1350可以包括以下至少一项：运行库1351、应用管理器1352、图形用户界面(GUI)管理器1353、多媒体管理器1354、资源管理器1355、电力管理器1356、包管理器1357、连接管理器1358、电话管理器1359、位置管理器1360、图形管理器1361和安全管理器1362。

运行库1351可以包括由编译器使用以在执行应用1310的同时通过编程语言来添加新功能的库模块。运行库1351可以执行输入/输出管理、存储器管理或关于算术功能的能力。

应用管理器1352可以管理说明性示出的应用1311至1314的生命周期。GUI管理器1353可以管理在电子设备1000的显示器中使用的GUI资源。多媒体管理器1354可以管理用于播放各种类型的媒体文件所需的格式，并且可以通过使用适合于相应格式的编解码器对媒体文件执行编码和/或解码。

资源管理器1355可以管理说明性示出的应用1311至1314的源代码和与存储空间相关联的资源。电力管理器1356可以管理电子设备1000的电池和电力，并且可以管理为了电子设备1000的操作所需的电力信息等。包管理器1357可以管理以包文件的形式从外部提供的应用的安装或更新。连接管理器1358可以管理诸如Wi-Fi、蓝牙等的无线连接。

电话管理器1359可以管理电子设备1000的语音呼叫功能和/或视频呼叫功能。位置管理器1360可以管理电子设备1000的位置信息。图形管理器1361可以管理向显示器提供的图形效果和/或用户界面。安全管理器1362可以管理与电子设备1000相关联的安全功能和/或为了用户认证所需的安全功能。

内核1370可以包括系统资源管理器1371和/或设备驱动程序1372。

系统资源管理器1371可以管理、分配和检索电子设备1000的资源。系统资源管理器1371可以管理用于执行在应用1310、API 1330和/或中间件1350中实现的操作或功能的系统资源(例如，主处理器1100、工作存储器1300、总线1700等)。系统资源管理器1371可以通过使用应用1310、API 1330和/或中间件1350去访问电子设备1000的组件来提供能够控制或管理系统资源的接口。

设备驱动程序1372可以包括例如显示器驱动程序、相机驱动程序、音频驱动程序、蓝牙驱动程序、存储器驱动程序、USB驱动程序、键区驱动程序、Wi-Fi驱动程序和进程间通信(IPC)驱动程序。

图3示出了图1所示的DVS的示例性配置。

DVS 1410可以包括像素阵列1411、列地址事件表示(AER)电路1413、行AER电路1415、以及分组器和输入/输出(IO)电路1417。DVS 1410可以检测光强度发生改变的事件(下文中称为“事件”)，并且可以输出与该事件相对应的值。例如，事件可能主要发生在移动对象的轮廓中。例如，当事件是用户挥动他或她的手时，该事件可能主要发生在用户的移动的手的轮廓上。与普通CMOS图像传感器不同，由于DVS 1410仅输出与强度正在改变的光相对应的值，因此可以大大减少处理的数据量。

像素阵列1411可以包括沿“M”行和“N”列以矩阵形式布置的多个像素PX，其中，M和N是正整数。感测事件的像素阵列1411的多个像素中的像素可以向列AER电路1413发送列请求(CR)。列请求CR指示发生光强度增加或减少的事件。

列AER电路1413可以响应于从感测到事件的像素接收到的列请求CR，向像素发送确认信号ACK。接收到确认信号ACK的像素可以向行AER电路1415输出发生的事件的极性信息Pol。列AER电路1413可以基于从感测到事件的像素接收到的列请求CR来生成感测到事件的像素的列地址C_ADDR。

行AER电路1415可以从感测到事件的像素接收极性信息Pol。行AER电路1415可以基于极性信息Pol来生成包括与事件发生时的时间有关的信息在内的时间戳。在示例性实施例中，时间戳可以由在行AER电路1415中提供的时间戳器1416来生成。例如，可以通过使用每几微秒至几十微秒生成的时钟节拍(timetick)来实现时间戳器1416。响应于极性信息Pol，行AER电路1415可以向发生事件的像素发送重置信号RST。重置信号RST可以重置发生事件的像素。此外，行AER电路1415可以生成发生事件的像素的行地址R_ADDR。

行AER电路1415可以控制生成重置信号RST的周期。例如，为了防止由于大量事件的发生而导致工作量增加，行AER电路1415可以控制生成重置信号RST的周期，使得在特定周期期间不发生事件。也就是说，行AER电路1415可以控制事件发生的不应期(refractoryperiod)。

分组器和IO电路1417可以基于时间戳、列地址C_ADDR、行地址R_ADDR和极性信息Pol来生成分组。分组器和IO电路1417可以向分组的前部添加指示分组的开始的首部，并向分组的后部添加指示分组的结束的尾部。

像素1420可以包括感光器1421、微分器1423、比较器1425和读出电路1427。

感光器1421可以包括：光电二极管PD，其将光能转换为电能；对数放大器LA，其放大与光电流IPD相对应的电压以输出具有对数标度的对数电压VLOG；以及反馈晶体管FB，其将感光器1421与微分器1423隔离。

微分器1423可以被配置为放大电压VLOG以产生电压Vdiff。例如，微分器1423可以包括电容器C1和C2、差分放大器DA和由重置信号RST操作的开关SW。例如，电容器C1和C2中的每一个电容器可以存储由光电二极管PD产生的电能。例如，可以在考虑在一个像素处连续发生的两个事件之间的最短时间(例如，不应期)的情况下，适当地选择电容器C1和C2的电容。当通过重置信号RST来导通开关SW时，可以初始化像素。可以从行AER电路(例如，图3中的1415)接收重置信号RST。

比较器1425可以比较差分放大器DA的输出电压Vdiff的电平与参考电压Vref的电平，以确定从像素感测到的事件是开启事件还是关闭事件。例如，当感测到光强度增加的事件时，比较器1425可以输出指示开启事件的信号ON。当感测到光强度减小的事件时，比较器1425可以输出指示关闭事件的信号OFF。

读出电路1427可以发送与在像素处发生的事件有关的信息(例如，指示事件是开启事件还是关闭事件的信息)。开启事件信息或关闭事件信息可以被称为图3的“极性信息”Pol。可以向行AER电路发送极性信息。

应当理解的是：图4中示出的像素的配置是示例性的，并且本公开不限于此。例如，示例性实施例可以应用于各种配置的DVS像素，其被配置为检测光的变化强度以生成与检测到的强度相对应的信息。

图5示出了从图3所示的DVS输出的信息的示例性格式。下文中，将参考图3和图5来给出本公开的示例性实施例。

时间戳可以包括与事件发生时的时间有关的信息。时间戳可以是例如32比特。然而，时间戳不限于此。

列地址C_ADDR和行地址R_ADDR中的每一个地址可以是8比特。因此，可以支持包括最多布置成八行和八列的多个像素在内的DVS。然而，应当理解：这仅仅是示例性的，且列地址C_ADDR的比特数和行地址R_ADDR的比特数可以根据像素的数量以各种方式来确定。

极性信息Pol可以包括与开启事件和关闭事件有关的信息。例如，极性信息Pol可以由包括与是否发生开启事件有关的信息在内的一个比特和包括与是否发生关闭事件有关的信息在内的一个比特形成。例如，比特“1”可以指示事件发生，且比特“0”可以指示事件未发生。因此，包括与是否发生开启事件有关的信息在内的比特和包括与是否发生关闭事件有关的信息在内的比特可以不都是“1”，而可以是“0”。

分组可以包括时间戳、列地址C_ADDR、行地址R_ADDR和极性信息Pol。可以从分组器和IO电路1417输出分组。此外，分组还可以包括用于将一个事件与另一个事件区分开的首部和尾部。

根据本公开的示例性实施例的手势识别引擎(例如，图2中的1331)可以基于从DVS1410输出的分组的时间戳、地址C_ADDR和R_ADDR以及极性信息Pol来识别用户的手势，如下面进一步详细描述的。

图6示出了从DVS输出的示例性时间戳值。

为了便于说明，图6中示出了由5行和5列组成的5×5个像素。在第一行和第一列中排列的像素表示为[1∶1]，且在第五行和第五列中排列的像素表示为[5∶5]。

参考图6，[1∶5]的像素表示“1”。[1∶4]、[2∶4]和[2∶5]的像素中的每一个像素表示“2”。[1∶3]、[2∶3]、[3∶3]、[3∶4]和[3∶5]的像素中的每一个像素表示3。[1∶2]、[2∶2]、[3∶2]、[4∶2]、[4∶3]、[4∶4]和[4∶5]的像素中的每一个像素表示“4”。表示为“0”的像素表示没有发生事件。

由于时间戳值包括与事件发生时的时间有关的信息，因此相对较小值的时间戳表示相对较早发生的事件。备选地，相对较大值的时间戳指示相对较晚发生的事件。因此，图6中所示的时间戳值可能是由从右上方向左下方移动的对象引起的。此外，考虑到表示为“4”的时间戳值，可以理解，对象具有矩形角。例如，具有值4的像素形成对象的轮廓，其中，可以看出对象具有矩形角。

图7示出了根据本公开的示例性实施例的电子设备。

DVS 1410可以检测用户的运动以生成时间戳值。因为由DVS 1410检测的仅有的事件是光强度变化的事件，所以DVS 1410可以生成与对象的轮廓(例如，用户的手)相对应的时间戳值。时间戳值可以以分组的形式被存储在例如图1的工作存储器1300中，或者可以被存储在单独的缓冲存储器中以供DVS 1410的图像信号处理器来处理。

手势识别引擎1331可以基于DVS 1410提供的时间戳值来识别手势。例如，手势识别引擎1331可以基于时间戳值正在改变的方向、速度和模式来识别手势。例如，参考图7，由于用户的手逆时针移动，所以时间戳值也可以具有基于用户的手的运动以逆时针方式增加的值。例如，参考作为示例的图6中所示的示例性时间戳，在用户的手逆时针移动的场景中的另一示例性时间戳可以包括指示逆时针移动的位置中的值。手势识别引擎1331可以基于具有逆时针增加的值的时间戳值来识别逆时针移动的手的手势。

在示例性实施例中，由手势识别引擎1331识别的用户的手势可以具有预定模式，作为与用于执行语音识别服务的特定命令相关联的预定手势。例如，除了在本公开中示出的逆时针移动的手的手势之外，手势识别引擎1331还可以识别顺时针移动或向上、向下、向左、向右和沿锯齿方向移动的手的手势。在示例性实施例中，这些预定手势中的每一个预定手势可以对应于要在电子设备1000处触发的不同功能。

然而，在示例性实施例中，在特定情况下，甚至可以通过用户的随机手势来触发和执行语音识别服务。例如，当需要相对简单的手势时，例如当首次激活语音识别服务时，甚至可以通过随机手势来启动语音识别服务。例如，当本公开应用于家庭安全IoT设备时，如果DVS 1410检测到入侵者的移动，则语音识别服务可以以用于提供入侵的通知的警告消息的形式来启动。

触发识别引擎1332可以基于例如具有逆时针增加的值的时间戳值的变化模式、变化方向等来确定用户的手势是否满足语音识别服务的激活条件。例如，当时间戳值的变化模式、变化方向、变化速度等满足触发识别条件时，触发识别引擎1332可以生成触发识别信号TRS。

此外，触发识别引擎1332可以插入/连接到语音触发引擎1333。语音触发引擎1333最初可以基于通过音频模块1500接收的语音来触发语音识别服务。然而，根据本公开的示例性实施例，语音触发引擎1333可以代之以由DVS 1410感测到的手势来触发。

语音触发引擎1333可以响应于触发识别信号TRS来触发基于智能扬声器平台1334的语音识别服务的特定命令。例如，可以向外部服务器10发送触发的命令作为具有诸如JSON之类的开放式标准格式的请求。

服务器10可以响应于来自电子设备1000的请求向电子设备1000提供与请求相对应的响应。智能扬声器平台1334可以经由音频模块1500向用户提供与所接收的响应相对应的消息。

图8是示出了根据本公开的示例性实施例的操作电子设备的方法的流程图。下文中，将参考图7和图8来描述本公开的示例性实施例。

在操作S110中，由DVS 1410检测用户的运动。DVS 1410可以检测光强度发生变化的事件，并且可以生成与事件发生时的时间相对应的时间戳值。例如，DVS 1410可以生成时间戳值，该时间戳值指示与检测到的光强度的变化相对应的时间。由于事件主要发生在对象的轮廓中，因此与普通CIS相比，DVS生成的数据量可以大大减少。

在操作S120中，由手势识别引擎1331来检测用户的运动。例如，手势识别引擎1331可以基于从DVS 1410接收的时间戳值的特定变化模式、变化方向等来识别用户的特定手势。也就是说，在操作S120中，由手势识别引擎1331分析在操作S110中检测到的手势，以确定检测到的手势是否是识别的手势。在图8中，假设在操作S110中检测到的手势在操作S120中被确定为识别的手势。

在操作S130中，响应于检测到的手势被确定为识别的手势，可以由触发识别引擎1332来调用(或请调)语音触发引擎1333。例如，由于手势识别引擎1331被插入/连接到触发识别引擎1332，所以触发识别引擎1332可以由用户的手势触发，并且语音触发引擎1333可以由触发识别信号TRS调用。

在操作S140中，可以发送根据用户的手势的针对服务器10的请求。例如，针对服务器10的请求可以包括与用户的手势相对应的特定命令，并且可以具有诸如JSON之类的开放式标准格式。例如，针对服务器10的请求可以通过图1的通信模块1600来执行。之后，服务器10执行处理以提供与用户的请求相对应的语音识别服务。例如，在识别出用户的手势时，向服务器10发送针对与特定命令相对应的语音识别服务的请求，该特定命令与识别的手势相对应。

在操作S150中，可以从服务器10接收响应。该响应可以具有诸如JSON之类的开放式标准格式，并且可以经由音频模块1500向用户提供语音识别服务。

图9是示出了根据本公开的示例性实施例的操作电子设备的方法的流程图。图9的示例性实施例与图8的示例性实施例大体类似。为了便于解释，以下图9的描述将主要关注相对于图8的示例性实施例的不同之处。下文中，将参考图7和图9来描述示例性实施例。

在操作S210中DVS 1410检测到用户的手势之后，在操作S222中，手势识别引擎1331分析检测到的手势以确定该手势是否是能够触发触发识别引擎1332的已识别/可识别手势。当检测到的手势是能够触发触发识别引擎1332的已识别/可识别手势时(操作S222中的是)，可以执行以下过程：在操作S230中调用语音触发引擎1333，在操作S240中向服务器10发送根据手势的请求，并且在操作S250中从服务器10接收用于提供与用户的请求相对应的语音识别服务的响应。这些操作分别类似于参考图8描述的操作S130、S140和S150。

备选地，当检测到的手势不是能够触发触发识别引擎1332的已识别/可识别手势时(操作S222中的否)，触发识别引擎1332可以请求图2的中间件1350再次检测手势。例如，中间件1350可以在触发识别引擎1332的请求下通过GUI管理器1353、图形管理器1361等引导用户再次在电子设备的显示器上输入手势。向用户提供的引导可以是例如显示器上显示的消息、图像等。然而，本公开不限于此。例如，在示例性实施例中，引导可以是由扬声器提供的语音。

用户可以根据电子设备提供的引导再次做出手势，并且将再次执行操作S210和操作S210之后的操作。

图10示出了根据本公开的示例性实施例的电子设备。

与图7的示例性实施例不同，图10的示例性实施例不仅涉及手势，还涉及经由语音来提供语音识别服务。在示例性实施例中，当要提供需要高级别安全性的语音识别服务时，可以同时使用通过手势识别的触发和通过语音识别的触发。因此，在示例性实施例中，可以通过要求经由手势识别和语音识别这二者而不是仅经由手势识别的认证来提高安全性。

通过手势识别的触发与参考图7的示例性实施例所描述的触发大体相同。因此，为了便于解释，可以省略对先前描述的元素和过程的进一步描述。即使手势识别引擎1331识别出特定手势，语音触发引擎1333也可以不立即操作。例如，在示例性实施例中，用户的手势和用户的语音都需要满足触发条件，使得触发识别引擎1332可以生成触发识别信号TRS，并且语音触发引擎1333可以由触发识别信号TRS来触发。在这样的示例性实施例中，语音触发引擎1333可以不操作，直到手势识别引擎1331成功识别出手势为止。

音频模块1500可以检测并处理用户的语音。音频模块1500可以通过麦克风对用户输入的语音执行预处理。例如，可以执行AEC(声学回声消除)、BF(波束形成)和NS(噪声抑制)作为预处理。

可以向触发识别引擎1332中输入经预处理的语音。触发识别引擎1332可以确定经预处理的语音是否满足触发识别条件。例如，触发识别引擎1332基于特定词、特定词的排列等来确定是否满足语音识别服务的激活条件。当用户的手势和语音都满足触发条件时，可以触发语音触发引擎1333。

语音触发引擎1333可以响应于触发识别信号TRS来触发基于智能扬声器平台1334的语音识别服务的特定命令。服务器10可以响应于来自电子设备1000的请求向电子设备1000提供与该请求相对应的响应，并且智能扬声器平台1334可以经由音频模块1500向用户提供与所接收的响应相对应的消息。

图11是示出了根据本公开的示例性实施例的操作电子设备的方法的流程图。下文中，将参考图10和图11来描述本公开的示例性实施例。

在操作S310中，可以检测用户的运动。例如，DVS 1410可以检测光强度发生变化的事件，并且可以生成与事件发生时的时间相对应的时间戳值。

在操作S320中，可以检测用户的手势。例如，如上所述，手势识别引擎1331可以基于所接收的时间戳值的特定变化模式、变化方向等来识别用户的特定手势。在示例性实施例中，即使识别的手势满足触发条件，也可能尚未触发语音触发引擎1333。在图11中，假设在操作S310中检测到的手势在操作S320中被确定为识别的手势。

在操作S325中，确定用户的手势是否是需要更高级别安全性的手势。当用户的手势不需要更高级别的安全性(否)时，可以执行以下过程：在操作S330中调用语音触发引擎1333，在操作S340中向服务器10发送根据手势的请求，并且在操作S350中从服务器10接收用于提供与用户的请求相对应的语音识别服务的响应。因此，在示例性实施例中，电子设备1000可以仅基于用户的手势(例如，不需要用户的语音输入)来执行低级别安全任务，但是可能需要用户的手势和用户的语音输入这二者来执行高级别安全任务。

备选地，在操作S325中，当用户的手势需要更高级别的安全性时(是)，可能需要额外的操作。例如，在操作S356中，中间件1350可以在触发识别引擎1332的请求下引导用户通过电子设备来输入语音。引导可以是例如显示器上显示的消息、图像等，或者可以是语音。

在操作S357中，用户可以根据通过电子设备提供的引导来提供语音，并且可以由音频模块1500来执行诸如AEC、BF、NS等的预处理。可以对经预处理的语音执行后续过程，诸如在操作S330中调用语音触发引擎，在操作S340中向服务器发送请求，以及在操作S350中从服务器接收响应。

图12是示出了根据本公开的示例性实施例的操作电子设备的方法的流程图。下文中，将参考图10和图12来描述本公开的示例性实施例。

在操作S410中，DVS 1410检测光强度根据用户的运动而改变的事件，并且DVS1410根据检测结果来生成包括与事件发生的时间有关的信息在内的时间戳值。

在操作S422中，手势识别引擎1331确定检测到的手势是否是能够触发触发识别引擎1332的已识别/可识别手势。如上所述，手势识别引擎1331可以基于时间戳值的特定变化模式、变化方向、变化速度等来识别用户的特定手势。当检测到的手势不是能够触发触发识别引擎1332的已识别/可识别手势时(操作S422中的否)，触发识别引擎1332可以请求图2的中间件1350再次检测和识别手势。在操作S424中，中间件可以在触发识别引擎1332的请求下引导用户通过电子设备再次输入手势。该引导可以是例如消息、图像或语音。

备选地，当检测到的手势是触发触发识别引擎1332的已识别/可识别手势时(操作S422中的是)，在操作S425中，确定用户的手势是否是需要更高级别安全性的手势。

当用户的手势不需要更高级别的安全性时(操作S425中的否)，可以执行以下过程：在操作S430中调用语音触发引擎1333，在操作S440中向服务器10发送根据手势的请求，并且在操作S450中从服务器10接收用于提供与用户的请求相对应的语音识别服务的响应。

备选地，当用户的手势需要更高级别的安全性时(操作S425中的是)，在操作S456中，中间件1350可以引导用户通过电子设备来输入语音。该引导可以是显示器上显示的消息或图像，或者可以是通过扬声器提供的语音。在操作S457中，用户可以根据通过电子设备提供的引导来提供语音，并且可以由音频模块1500来执行诸如AEC、BF、NS等的预处理。

在操作S458中，触发识别引擎1332确定经预处理的语音是否是能够触发触发识别引擎1332的可识别语音。触发识别引擎1332基于例如特定词、特定词的排列等来确定是否满足语音识别服务的激活条件。当识别的语音不能够触发触发识别引擎1332时(操作S458中的否)，在操作S459中，图2的中间件1350可以引导用户再次输入语音。

备选地，当识别的语音能够触发触发识别引擎1332时(操作S458中的是)，即，当用户的手势和语音都满足触发条件时，在操作S430中，可以触发(或调用)语音触发引擎1333。之后，可以执行后续过程，诸如在操作S440中向服务器发送请求，以及在操作S450中从服务器接收响应。

根据上述电子设备，在示例性实施例中，语音触发引擎可以由使用DVS检测到的手势来触发。因此，如上所述，根据示例性实施例，可以减少触发语音识别服务所需的数据量。此外，如上所述，在一些情况下，通过附加地要求经由用户语音进行语音触发识别，可以提高提供语音识别服务的电子设备的安全性能。

根据本公开的示例性实施例，提供了由用户的手势触发的语音识别服务，其中，可以通过使用动态视觉传感器去感测用户的手势来极大地减少由电子设备处理的数据量。

此外，根据本公开的示例性实施例，提供了不仅通过用户的手势而且通过用户的语音来触发的语音识别服务。附加地提供语音识别服务的电子设备的安全性可以通过要求经由用户的手势和语音这二者的触发而得以改进(例如，通过要求用户提供手势输入和语音输入这二者来访问高安全功能)。

如本公开的领域中通常的做法，以功能块、单元和/或模块为单位来描述并在附图中示出示例性实施例。本领域技术人员将理解：这些块、单元和/或模块通过诸如逻辑电路、分立组件、微处理器、硬连线电路、存储器元件、布线连接等的电子(或光学)电路来物理地实现，其中，该电子(或光学)电路可以使用基于半导体的制造技术或其他制造技术来形成。在块、单元和/或模块由微处理器或类似物实现的情况下，它们可以使用软件(例如，微代码)来编程以执行本文讨论的各种功能，并且可以可选地由固件和/或软件来驱动。备选地，每个块、单元和/或模块可以通过专用硬件来实现或实现为执行一些功能的专用硬件和执行其他功能的处理器(例如，一个或多个编程的微处理器和相关联的电路)的组合。此外，在不脱离本公开的范围的情况下，示例性实施例的每个块、单元和/或模块可以物理地分离成两个或更多个交互且离散的块、单元和/或模块。此外，在不脱离本公开的范围的情况下，示例性实施例的块、单元和/或模块可以物理地组合成更复杂的块、单元和/或模块。

尽管已经参考本公开的示例性实施例描述了本公开，但是对于本领域普通技术人员来说显而易见的是：可以在不脱离如在所附权利要求中说明的本公开的精神和范围的情况下，对其进行各种改变和修改。

Claims

1.一种电子设备，包括：

存储器，存储手势识别程序和语音触发程序；

动态视觉传感器，被配置为检测与由对象的运动引起的光的变化相对应的事件；

处理器，被配置为：执行所述手势识别程序以基于从所述动态视觉传感器输出的时间戳值来确定是否识别出所述对象的手势，并且响应于识别出手势而执行所述语音触发程序；以及

通信接口，被配置为：响应于所述语音触发程序被执行，向服务器发送针对与所述手势相对应的语音识别服务的请求。

2.根据权利要求1所述的电子设备，其中，所述存储器还存储触发识别程序，并且所述处理器还被配置为：

执行所述触发识别程序以确定所述手势是否满足语音识别服务的激活条件。

3.根据权利要求2所述的电子设备，其中，所述处理器还被配置为：

当所述手势不满足语音识别服务的激活条件时，再次执行所述手势识别程序。

4.根据权利要求2所述的电子设备，其中，所述语音触发程序包括所述触发识别程序。

5.根据权利要求2所述的电子设备，其中，所述存储器是缓冲存储器，并且所述手势识别程序、所述语音触发程序和所述触发识别程序被加载到所述缓冲存储器上。

6.根据权利要求2所述的电子设备，还包括：

音频模块，被配置为接收语音并对接收到的语音执行预处理，

其中，所述处理器被配置为基于经预处理的语音来执行所述语音触发程序。

7.根据权利要求6所述的电子设备，其中，所述音频模块被配置为对接收到的语音执行声学回声消除AEC、波束形成BF和噪声抑制NS中的至少一项。

8.根据权利要求1所述的电子设备，其中，所述请求具有JavaScript对象表示法JSON格式。

9.根据权利要求1所述的电子设备，其中，所述通信接口被配置为从服务器接收响应于针对所述语音识别服务的请求的响应，并且所述电子设备还包括：

音频模块，被配置为输出与来自服务器的所述响应相对应的语音。

10.一种操作电子设备的方法，所述方法包括：

由动态视觉传感器检测与由对象的运动引起的光的变化相对应的事件；

由处理器基于从所述动态视觉传感器输出的时间戳值来确定是否识别出对象的手势；

由处理器响应于识别出手势而触发语音触发程序；以及

响应于所述语音触发程序被触发，由通信接口向服务器发送针对与所述手势相对应的语音识别服务的请求。

11.根据权利要求10所述的方法，还包括：

通过由处理器执行的触发识别程序来确定所述手势是否满足语音识别服务的第一激活条件。

12.根据权利要求11所述的方法，还包括：

由音频模块接收语音；

对接收到的语音执行预处理；以及

通过由处理器执行的所述触发识别程序来确定经预处理的语音是否满足语音识别服务的第二激活条件。

13.根据权利要求12所述的方法，其中，当满足所述第一激活条件和所述第二激活条件这二者时，触发所述语音触发程序。

14.根据权利要求11所述的方法，其中，所述请求具有JavaScript对象表示法JSON格式。

15.根据权利要求11所述的方法，还包括：

由通信接口从服务器接收响应于针对语音识别服务的请求的响应；以及

由音频模块输出与来自服务器的所述响应相对应的语音。

16.一种计算机程序产品，包括计算机可读存储介质，所述计算机可读存储介质体现有程序指令，所述程序指令能够由处理器执行以使所述处理器：

控制动态视觉传感器，所述动态视觉传感器被配置为检测与由对象的运动引起的光的变化相对应的事件；

基于从所述动态视觉传感器输出的时间戳值来确定是否识别出对象的手势；

响应于识别出手势而执行语音触发程序；以及

响应于所述语音触发程序被执行，向服务器发送针对与所述手势相对应的语音识别服务的请求。

17.根据权利要求16所述的计算机程序产品，其中，所述处理器能够执行的所述程序指令还使所述处理器：

执行触发识别程序，所述触发识别程序确定所述手势是否满足语音识别服务的激活条件。

18.根据权利要求17所述的计算机程序产品，其中，所述处理器能够执行的所述程序指令还使所述处理器：

当所述手势不满足语音识别服务的激活条件时，再次确定是否识别出对象的手势。

19.根据权利要求17所述的计算机程序产品，其中，所述处理器能够执行的所述程序指令还使所述处理器：

基于所接收的语音来执行所述语音触发程序。

20.根据权利要求16所述的计算机程序产品，其中，所述请求具有JavaScript对象表示法JSON格式。