CN104679471A - 用于检测可听输入中的中止的装置、设备及方法 - Google Patents

用于检测可听输入中的中止的装置、设备及方法 Download PDF

Info

Publication number
CN104679471A
CN104679471A CN201410558907.XA CN201410558907A CN104679471A CN 104679471 A CN104679471 A CN 104679471A CN 201410558907 A CN201410558907 A CN 201410558907A CN 104679471 A CN104679471 A CN 104679471A
Authority
CN
China
Prior art keywords
user
list entries
listen
input
listened
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410558907.XA
Other languages
English (en)
Other versions
CN104679471B (zh
Inventor
拉塞尔·斯佩格特·范布恩
苏珊娜·玛丽恩·博蒙
罗德·大卫·沃特曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of CN104679471A publication Critical patent/CN104679471A/zh
Application granted granted Critical
Publication of CN104679471B publication Critical patent/CN104679471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了一种用于检测可听输入中的中止的装置、设备及方法。所述装置包括:处理器和存储器,所述存储器能够被所述处理器访问并且承载有能够由所述处理器执行的指令,以对装置的用户提供的可听输入序列进行处理,至少部分地基于来自与所述装置通信的至少一个摄像头的第一信号来确定在提供的可听输入序列期间发生了中止,响应于确定发生了中止而停止处理所述可听输入序列,至少部分地基于来自摄像头的第二信号来确定已恢复提供所述可听输入序列;以及响应于确定已恢复提供可听输入序列,来恢复对所述可听输入序列的处理。

Description

用于检测可听输入中的中止的装置、设备及方法
技术领域
本申请总体上涉及检测装置的可听输入中的中止。
背景技术
当对于诸如计算机的装置输入诸如命令的可听输入序列时,可听输入序列中的中止可能导致计算机停止“接听”该可听输入序列,这是因为例如装置停止处理序列和/或超时,从而不能完全地处理命令。
此外,在一些实例中,被装置确定为可听输入序列中的中止的可能实际上为用户结束了提供可听输入序列之后、等待装置处理该可听输入序列的空白(silence)。在这样的实例中,这可能导致装置处理并非要输入至该装置的音频并且甚至可能例如不必要地消耗该装置的电池。
发明内容
因此,在第一方面中,一种装置包括:处理器;存储器,所述存储器能够被所述处理器访问并且承载有能够被所述处理器执行以实现如下操作的指令:处理可听输入序列,所述可听输入序列由所述装置的用户提供;至少部分地基于来自与所述装置通信的至少一个摄像头的第一信号来确定在提供所述可听输入序列期间发生了中止;响应于确定发生了所述中止,停止处理所述可听输入序列;至少部分地基于来自所述摄像头的第二信号来确定已恢复提供所述可听输入序列;以及响应于确定已恢复提供所述可听输入序列,恢复对所述可听输入序列的处理。
在一些实施方式中,中止可以包括装置不能理解的可听序列分隔符。此外,可以至少部分地基于对至少第一信号执行读唇软件,将可听序列分隔符确定为是不能理解的,其中,可以响应于采集用户的面部的至少一部分的至少一个图像的摄像头,由摄像头生成第一信号。
此外,在一些实施方式中,指令还能够由所述处理器执行,从而除非还在对来自所述装置上的加速度计的信号进行处理时至少基本上同时接收到所述可听序列分隔符,则响应于处理来自所述装置上的加速度计的信号而确定停止处理所述可听输入序列。
另外,如果需要,则中止包括在用户向装置提供可听输入期间的中止。因此,至少部分地基于第一信号确定发生了中止可以包括:确定用户的当前面部表情表示不是将要提供可听输入。在一些实施方式中,确定用户的当前面部表情表示不是将要提供可听输入可以包括:确定用户的嘴至少大部分是闭合的。
此外,如果需要,则至少部分地基于第二信号确定已恢复提供可听输入序列包括:确定用户的嘴是张开的。
在另一方面中,一种方法包括:在装置处接收可听输入序列,所述可听输入序列由所述装置的用户提供;响应于接收到来自与所述装置通信的至少一个摄像头的第一信号以及响应于接收到来自与所述装置至少通信的触控显示器的输入,而确定所述用户已经停止提供所述可听输入序列;以及确定所述用户已经恢复提供所述可听输入序列。
在又一方面中,一种设备包括:第一处理器;网络适配器;存储装置,所述存储装置承载有经由所述网络适配器通过网络传输的、以通过第二处理器实现如下操作的指令:处理可听输入命令,所述可听输入命令由与所述第二处理器关联的装置的用户提供,对所述可听输入命令的处理响应于如下操作:基于来自与所述第二处理器通信的至少一个摄像头的至少一个信号确定在所述用户正沿所述装置的方向看的同时所述用户的嘴正在活动;以及执行所述可听输入命令。
参照附图可以最好地理解本原理关于其结构和操作的细节,在附图中,相同的附图标记指代相同的部件,以及在附图中:
附图说明
图1是根据本原理的示例性装置的框图;
图2是由根据本原理的装置执行的逻辑的示例流程图;以及
图3至图6是在根据本原理的装置上可呈现的示例用户界面(UI)。
具体实施方式
本公开内容总体上涉及基于用户信息的装置(例如,消费电子产品(CE))。对于本文所描述的任何计算机系统,系统可以包括服务器部件和客户端部件,服务器部件和客户端部件通过网络相连接以使得数据可以在服务器部件和客户端部件之间进行交换。客户端部件可以包括一个或更多个计算装置,包括电视(例如,智能TV,连网TV)、计算机(诸如膝上型计算机和平板计算机)以及包括智能电话的其它移动装置。作为非限定性示例,这些客户端装置可以采用来自苹果、谷歌或微软的操作系统。可以使用UNIX操作系统。这些操作系统可以执行一个或更多个浏览器(诸如由微软或谷歌或摩斯拉或其它浏览器程序制成的浏览器),所述浏览器可以通过诸如因特网、本地内联网或虚拟个人网络的网络来访问由因特网服务器提供的网络应用。
本文所使用的指令是指用于处理系统中的信息的计算机实现的步骤。可以以软件、固件或硬件来实施指令,因此,按照它们的功能来阐述示例性的部件、块、模块、电路和步骤。
处理器可以是能够凭借各种线(诸如地址线、数据线和控制线)以及寄存器和移位寄存器执行逻辑的任何常规的通用的单片处理器或多片处理器。此外,除了通用的处理器之外,本文所描述的任何逻辑块、模块和电路可以在下述装置中或者由下述装置实现或执行:数字信号处理器(DSP)、现场可编程门阵列(FPGA)或其它可编程逻辑装置,诸如专用集成电路(ASIC)、分立门或晶体管逻辑、分立硬件部件、或被设计为执行本文所描述的功能的前述的任何组合。处理器可以通过控制器或状态机或计算装置的组合来实现。
本文中以流程图和/或用户界面的形式所描述的软件和/或应用可以包括各种子例程、过程等。应该理解,被公开为由例如模块执行的逻辑可以被重新分配给其它软件模块和/或被合并到单个模块中和/或变得在共享库中可获得。
当以软件实现逻辑时,可以使用适合的语言(例如C#或C++,但不限于此)编写逻辑,并且可以将逻辑存储在计算机可读存储介质上或通过计算机可读存储介质传输(例如,其可以不是载波),计算机可读存储介质例如为随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、致密盘只读存储器(CD-ROM)或其它光学盘存储装置(如数字多功能光盘(DVD))、磁盘存储装置或其它磁存储装置(包括可移动拇指驱动器)等。连接可以建立计算机可读介质。作为示例,这样的连接可以包括包含光学光纤和同轴线以及双绞线的硬线电缆。这样的连接可以包括包含红外和无线电的无线通信连接。
在一个示例中,处理器可以通过其输入线从诸如计算机可读存储介质的数据存储装置存取信息,和/或处理器可以通过激活用于发送数据和接收数据的无线收发器来从因特网服务器无线地存取信息。数据通常在被接收时通过天线与处理器的寄存器之间的电路系统从模拟信号转换成数字信号,并且在被发射时从数字信号转换为模拟信号。然后,处理器通过其移位寄存器处理数据以在输出线上输出计算出的数据,以在装置上呈现计算出的数据。
包括在一个实施方式中的部件可以以任何适合的组合形式用在其它实施方式中。例如,可以对本文所描述的和/或在附图中所描绘的各种部件中的任何部件进行组合、交换或将其从其它实施方式中排除。
“具有A、B和C中的至少一个的系统”(同样地“具有A、B或C中的至少一个的系统”以及“具有A、B、C中的至少一个的系统”)包括仅具有A、仅具有B、仅具有C、具有A和B两者、具有A和C两者、具有B和C两者、和/或具有A、B和C三者的系统等。
在摘要、说明书和/或权利要求书中使用了术语“电路”或“电路系统”。如本领域的技术人员已知的,术语“电路系统”包括所有层级的可用的集成电路(例如,从分立的逻辑电路到诸如超大规模集成电路(VLSI)的最高层级的电路集成),并且包括被编程用以执行实施方式的功能的可编程逻辑部件以及被编程有用于执行这些功能的指令的通用处理器或专用处理器。
现在,具体地参照图1,图1示出了计算机系统100的示例性框图,例如,计算机系统100诸如为联网的计算机控制的电话(例如,智能电话)、平板计算机、笔记本或台式计算机、诸如智能手表的联网的计算机控制的可穿戴式装置、诸如智能电视(TV)的计算机控制的TV等。因此,在一些实施方式中,系统100可以是台式计算机系统(例如由位于北卡罗来纳州莫里斯维尔市的联想(美国)公司销售的系列或系列之一的个人计算机)或工作站计算机(例如,由位于北卡罗来纳州莫里斯维尔市的联想(美国)公司销售的)。然而,根据本文的描述明显可知,根据本原理的客户端装置、服务器或其它机器可以包括其它特征或仅包括系统100的一些特征。
如图1所示,系统100包括所谓的芯片集110。芯片集是指被设计用于一起工作的一组集成电路或芯片。芯片集通常作为单独产品出售(例如,考虑以等品牌出售的芯片集)。
在图1的示例中,芯片集110具有可以依据品牌或制造商而在某种程度上不同的特定架构。芯片集110的架构包括经由例如直接管理接口或直接媒体接口(DMI)142或链接控制器144交换信息(例如数据、信号、命令等)的核和存储器控制组120以及I/O控制器集线器150。在图1的示例中,DMI 142是芯片-芯片接口(有时被称为“北桥(northbridge)”与“南桥(southbridge)”之间的链接)。
核和存储器控制组120包括经由前端总线(FSB)124交换信息的一个或更多个处理器122(例如单核或多核)和存储器控制器集线器126。如本文所述,可以将核和存储器控制组120的各种部件集成在单个处理器晶片上以例如制成代替传统“北桥”式架构的芯片。
存储器控制器集线器126与存储器140接口。例如,存储器控制器集线器126可以为双倍速率同步动态随机存储器(DDR SDRAM)存储器(例如,DDR、DDR2、DDR3等)提供支持。通常,存储器140为随机存取存储器(RAM)类型。存储器140通常被称为“系统存储器”。
存储器控制器集线器126还包括低压差分信号接口(LVDS)132。LVDS 132可以是用于支持显示装置192(例如,阴极射线管CRT、平板、投影仪、触控显示器等)的所谓的LVDS显示器接口(LDI)。块138包括可以通过LVDS接口132支持的技术的一些示例,例如串行数字视频、高清晰度多媒体接口(HDMI)/数字视频接口(DVI)、显示端口。存储器控制器集线器126还包括例如用于支持独立显卡136的一个或更多个PCI扩展接口(PCI-E)134。使用PCI-E接口的独立显卡已经变成加速图形接口(AGP)的替换方法。例如,存储器控制器集线器126可以包括用于外部的基于PCI-E的显卡(包括例如更多GPU中的一个GPU)的16路(×16)PCI-E端口。示例性系统可以包括用于支持图形的AGP或PCI-E。
I/O控制器集线器150包括各种接口。图1的示例包括串行高级技术附件(SATA)接口151、一个或更多个PCI-E接口152(可选地,一个或更多个传统的PCI接口)、一个或更多个通用串行总线(USB)接口153、局域网(LAN)接口154(更普遍地,用于在处理器122的管理下在诸如因特网、广域网(WAN)、LAN等的至少一个网络上通信的网络接口)、通用I/O接口(GPIO)155、低管脚数(LPC)接口170、电力管理接口161、时钟发生器接口162、音频接口163(例如使扬声器194输出音频)、操作总成本(TCO)接口164、系统管理总线接口165(例如,多主机串行计算机总线接口)以及在图1的示例中包括基本输入输出系统(BIOS)168和启动代码190的串行外设闪存存储器/控制器接口(SPI闪存)166。关于网络连接,I/O控制器集线器150可以包括与PCI-E接口端口复用的综合的千兆位以太网控制器线。其它网络特征可以独立于PCI-E接口来操作。
I/O控制器集线器150的接口提供与各种装置、网络等的通信。例如,SATA接口151提供对一个或更多个驱动器180(诸如HDD、SDD或及组合)上的信息的读取、读取或写入以及写入,但是在任何情况下驱动器180被理解为例如可以不是载波的有形计算机可读存储介质。I/O集线器控制器150还可以包括用于支持一个或更多个驱动器180的高级主机控制器接口(AHCI)。PCI-E接口152允许到装置、网络等的无线连接182。USB接口153提供输入装置184,诸如键盘(KB)、鼠标和各种其它装置(例如,摄像头、电话、存储装置、媒体播放器等)。
在图1的示例中,LPC 170提供对下述部件的使用:专用集成电路(ASIC)171、可信平台模块(TPM)172、超级I/O 173、固件集线器174、BIOS支持175以及各种类型的存储器176(诸如ROM 177、闪存178以及非易失性RAM(NVRAM)179)。关于TPM 172,该模块可以是可用于对软件和硬件装置进行认证的芯片的形式。例如,TPM能够进行平台认证并且可以用于验证试图访问的系统是预期的系统。
系统100在通电时可以被配置成执行存储在SPI闪存166内的用于BIOS 168的启动代码190,此后,在一个或更多个操作系统和应用软件(例如存储在系统存储器140中)的控制下处理数据。操作系统可以存储在多种位置中的任意位置,并且例如根据BIOS 168的指令而被访问。
除了上述之外,系统100还可以包括至少一个触摸传感器195,触摸传感器195向处理器122提供输入并且根据本原理被配置成在用户例如持有或触摸系统100时感测用户的触摸。在一些实施方式中,例如装置100为智能电话,触摸传感器195可以沿着用于定义例如与显示装置192的前表面垂直的平面的相应侧壁而被放置在系统100上。系统100还可以包括接近传感器、红外传感器、声纳传感器和/或热传感器196。传感器196用于向处理器122提供输入,并且根据本原理被配置成感测例如人的体温和/或人的至少一部分(例如,人的面颊或面部)到系统100的至少一部分(例如传感器196自身)的距离。
此外,在一些实施方式中,系统100可以包括用于向处理器122提供输入的一个或更多个摄像头197。摄像头197可以是例如热成像摄像头、诸如网络摄像头的数字摄像头和/或集成在系统100中并且根据本原理由处理器122可控制以采集图片/图像和/或视频的摄像头(例如,采集用户的面部、嘴、眼睛等的一个或更多个图像)。此外,系统100例如可以包括用于将诸如可听输入序列(例如,可听命令)的可听输入键入到系统100以控制系统100的音频接收器/麦克风198。另外,系统100可以包括根据本原理向处理器122提供输入的一个或更多个运动传感器199(例如,加速度计、陀螺仪、圆弧测定器、磁传感器、诸如无源红外(IR)传感器的红外运动传感器、光学传感器、速度和/或节奏传感器、姿势传感器(例如,用于感测姿势命令)等)。
在转到图2之前以及如本文所描述的,应该理解,示例性客户端装置或其它机器/计算机可以包括比图1的系统100上所示出的特征更少或更多的特征。在任何情况下,至少基于前述应该理解,系统100被配置成实现本原理(例如,接收来自用户的可听输入、存储并执行和/或实现以下所描述的逻辑和/或进行本文所描述的任何其它功能和/或操作)。
现在参照图2,图2示出了要由诸如以上根据本原理描述的系统100的装置执行的逻辑的示例流程图。在块200处开始,逻辑启动可听输入应用(例如,电子“私人助理”),以根据本原理(诸如,例如从用户可听地提供的命令)处理可听输入和/或执行响应于可听输入的功能。例如,可以响应于用于选择与可听输入应用相关的图标的用户输入而自动地启动该可听输入应用,并且将该可听输入应用呈现在诸如以上描述的显示装置192的触控显示器上。在任何情况下,逻辑从块200前进到判定菱形框202,在判定菱形框202处,逻辑基于例如由用于实现图2的逻辑的装置(在参照图2的其余描述中被称为“装置”)的麦克风感测的可听输入和/或基于来自与装置通信的摄像头的至少一个图像,来确定在装置处是否接收了可听输入和/或用户是否向装置提供了可听输入(例如,用于确定用户的嘴唇在装置的阈值距离以内正在相对装置运动并且因此正将可听输入提供给装置)。如果逻辑确定用户没有正在提供这样的可听输入和/或装置没有接收到这样的可听输入,则逻辑可以继续进行菱形框202的判断直到做出肯定的判断为止。
一旦在菱形框202处做出肯定的判断,则逻辑前进到判定菱形框204,在判定菱形框204处,逻辑(例如,基于来自与装置通信的摄像头的信号)确定用户的嘴和/或眼睛是否指示用户向装置提供可听输入(例如,使用读唇软件、眼睛跟踪软件等)。因此,例如,可以通过装置针对用户的嘴是否张开来对来自用于采集用户的图像并将图像提供给装置的处理器的摄像头的一个或更多个信号进行分析、检查等,用户的嘴张开可以被装置的处理器确定成(例如,基于嘴跟踪软件和/或基于使用将嘴的位置与嘴的位置的指示进行关联的查找表格)表示用户正在提供或将要提供可听输入。作为另一示例,可以通过装置针对用户的眼睛甚至更具体地针对用户的瞳孔是否是对准装置、对准装置附近或者朝向装置(这可以使用眼睛跟踪软件确定),来对来自用于采集用户的图像并且将图像提供给装置的处理器的摄像头的一个或更多个信号进行分析、检查等,用户的眼睛对准装置、对准装置附近或者朝向装置可以表示用户正基于用户的眼睛对准装置来提供或将要提供的可听输入。相反地,如果确定用户的眼睛例如不是看着装置、看着装置附近或朝向装置(例如,盯着远方和/或用户的面部从装置转开(例如,在转开时相对于例如由用户的视线建立的矢量与装置成预先确定的和/或阈值度数)),则可能即使从用户接收到了音频也使逻辑确定用户没有向装置提供可听输入,并且因而不应该进行处理。
无论如何,如果在菱形框204处逻辑确定用户的嘴和/或眼睛不是表示提供可听输入或将要提供可听输入,则逻辑可以返回菱形框202并从此前进。然而,如果在菱形框204处逻辑确定用户的嘴和/或眼睛表示提供可听输入或将要提供可听输入,则逻辑替代地进行到块206。在块206处,逻辑开始处理可听输入序列(和/或等待提供可听输入序列)和/或响应于接收到可听输入序列而执行功能。此后,逻辑进行到判定菱形框208,在判定菱形框208处,逻辑确定是否接收到了“语音分隔符”,“语音分隔符”尽管是由用户输入的,但例如不构成可听输入序列的一部分(例如,有意的部分),其对于装置而言是错误的输入,对于装置而言是无意义的和/或无法理解的,和/或不构成对于装置的命令的一部分。
可以通过装置像这样来辨识这样的“语音分隔符”:例如,响应于确定该“语音分隔符”相对于可听输入的其它部分(例如,与大部分输入和/或用户说出的作为输入的第一个词或多个词不同的部分)为不同语言的词;响应于确定所输入的“语音分隔符”不是在提供输入的其它部分时所说的语言中的真实的词,和/或响应于确定用户所输入的“语音分隔符”与语音分隔符数据表中的如下语音分隔符匹配,例如在处理可听命令序列时,该语音分隔符被装置忽略。除了前述方式以外或替代前述方式,可以通过装置像这样响应于如下确定来辨识“语音分隔符”:至少部分地基于对由装置的摄像头采集的用户的面部的至少一个图像应用读唇软件而确定尽管装置正在接收音频,然而该音频是来自例如紧闭的嘴和/或不动的/静止的嘴的、不构成真实词部分的声音,从而确定该“语音分隔符”是不能理解的。在任何情况下,应该理解的是,例如响应于像这样被辨识的“语音分隔符”输入,装置忽略该“语音分隔符”输入,排除该“语音分隔符”作为将要处理的可听输入序列的部分,和/或以相反不将它作为其中提供该“语音分隔符”的可听输入序列和/或命令的部分进行处理。
例如,在对于装置的输入为“Please find the nearest uhh restaurant”的情况下,可以将输入中的每个单词与英语单词表进行比对,其中,例如基于将输入的单词与英语单词表中的各个相应的条目进行匹配而确定“nearest”和“restaurant”是英语单词(例如,和/或基于作为与初始单词“please”相同语言的单词而被确定为构成命令的一部分),而确定“uhh”不是英语单词因此不应作为命令的一部分进行处理(例如,和/或在由装置处理时从可听输入序列中去除“uhh”)。除上述方式之外或替代前述方式,可以基于“uhh”在“语音分隔符”表中和/或“uhh”是不能理解的输入而将“uhh”辨识为装置要忽略的输入。
仍然参照图2,如果在菱形框208处做出了肯定的判断,则逻辑可以返回块206并继续处理可听输入序列,并且/或者忽略和/或拒绝将“语音分隔符”包括为序列的一部分同时仍将来自用户的音频的其它部分处理为序列的一部分。在这方面,如以下将会进一步描述的那样,“语音分隔符”可以延长可听输入序列应用的音频处理而没有中止(例如,连续的和/或基本连续的)。然而,如果在菱形框208处做出了否定的判断,则逻辑替代地前进到判定菱形框210。
在判定菱形框210处,逻辑确定用户是否正在进行装置上的其它操作(例如,其它应用)。例如,如果逻辑确定用户正在操作装置的触控显示器以使用浏览器应用浏览互联网,则逻辑可以前进到块212,在块212处,逻辑例如在用户正在操作其它应用(例如,浏览器应用)期间中止对可听输入序列的处理,以例如不对不构成和/或不意欲构成对于装置的命令的一部分的音频进行处理。
虽然没有根据图2的表面证实,但是应该理解,在一些实施方式中,根据本原理确定正执行另一操作可以与确定用户已停止提供可听输入序列(例如,和/或完全地停止提供音频)相结合,以依然不中止或不停止处理可听输入,因为装置可能还是继续“接听”来自下述序列的输入,在用户例如针对对可听输入序列有用的信息浏览因特网时已经至少部分地提供了该序列。
然而,如在图2的示例性逻辑中所示,逻辑可以响应于确定用户正在执行装置的另一操作和/或应用而前进到块212以例如不论用户是否仍在说话和/或提供可听输入都中止处理,或者基于在菱形框210处的肯定的判断结合用户已停止提供任何音频(例如,基于对用户的图像执行读唇软件确定了用户的嘴唇不再动来判定用户已经停止说话,因而确定用户不再对该装置提供输入)的确定而前进到块212。
无论哪种情况,注意,在菱形框210处的否定判断使逻辑前进到判定菱形框214。在菱形框214处,逻辑确定来自装置的加速度计和/或来自装置的表面接近传感器的一个或更多个信号是否表示装置在距离阈值以外和/或正移至距离阈值以外,其中针对阈值的距离是相对于装置与用户的面部之间的距离。因此,例如,基于用户由于例如不打算向装置提供任何进一步输入而将其面部区域从装置移开(例如,移开至少预定义的距离),在菱形框214处可以做出肯定的判断。然而,不管前述如何,在一些实施方式中,如果尽管用户相对于装置在距离阈值之外,但在菱形框214处还确定用户继续说话(例如,即便所说的音频是“语音分隔符”),则在菱形框214处逻辑仍然可以前进到判定菱形框216(将在以下描述)。
在任何情况下,应该理解,响应于肯定的判断,逻辑返回到块212。然而,在菱形框214处的否定的判断使逻辑行进到判定菱形框216,在判定菱形框216处逻辑确定在可听输入序列中是否发生了可听中止。例如,可听中止可以是用户中止说话(例如,完全地中止和/或不提供任何声音)和/或停止向装置提供可听输入。基于根据用户的嘴至少几乎全部闭合(和/或不动/静止),用户的嘴闭合(和/或不动/静止),和/或用户的嘴至少部分地张开(例如,但是不动/静止)而确定用户的当前面部表情(基于由装置的摄像头采集的用户的图像)表示不是要提供可听输入,可以进行菱形框216处的判断。
如果在菱形框216处做出否定的判断,则逻辑可以返回块206。然而,如果在菱形框216处做出肯定的判断,则逻辑替代地返回到块212并且如本文所描述的那样中止处理可听输入。然后,(例如,不管从哪个判定菱形框到达块212)图2的逻辑从块212继续到判定菱形框218。在菱形框218处,逻辑确定触控显示器没有接收到触摸输入的阈值时间是否期满,触控显示器没有接收到触摸输入的阈值时间期满可以表示用户(例如,在如本文阐述的使用触控显示器进行装置的另一操作之后)例如恢复或将要恢复向装置提供可听输入(例如,在用户使用因特网浏览器找出用于提供可听输入的有用信息之后)。因此,在用户执行装置的另一操作的实例中,可以到达判定菱形框218,而在其它实施方式中逻辑可以从块212直接进行到将要描述的判定菱形框220。在任何情况下,在菱形框218处的否定的判断可以使逻辑继续进行菱形框218处的判断直到做出肯定的判断的时间为止。然后,当在菱形框218处做出肯定的判断时,逻辑前进到判定菱形框220。
在判定菱形框220处,逻辑基于例如在装置在距用户的面部阈值距离以内时对音频的检测,基于如本文所阐述在用户看着装置、看着装置附近或朝向装置看时对音频的检测,和/或基于如本文所阐述的在用户的嘴正在活动时对音频的检测等,来确定是否正再次向装置提供可听输入。菱形框220处的否定的判断可以使逻辑继续进行菱形框220的判断直到做出肯定的判断为止。菱形框220处的肯定的判断使逻辑前进到块222,在块222处,逻辑恢复对可听输入序列的处理和/或执行在所提供的可听输入序列中提供的命令和/或从所提供的可听输入序列获得的命令。
现在参照图3继续详细描述,图3示出了如本文所阐述的当例如确定正在发生可听输入中的中止时可以呈现在实现本原理的装置上的示例性用户界面(UI)300。如从图3可以理解的,UI 300包括标题/题目302,标题/题目302指示例如启动了根据本技术的用于接收可听命令和/或可听输入序列的应用并且正在装置上运行该应用,以及指示例如UI 300与其相关联。还注意到,示出了主页选择元素304,其可以被选择用以在没有进一步的用户输入的情况下自动地使例如装置的主页画面(例如,为装置的应用的呈现按钮)呈现。
UI 300还包括状态指示器306和关联文本308,状态指示器306和关联文本308在本示例性实例中指示应用已中止和/或指示正在等待来自用户的可听输入(例如,响应于在呈现UI 300的时段期间和/或之前没有提供可听输入的判断)。因此,示例性文本308指示装置和/或应用正在“等待【用户的】输入…”。还示出了诸如麦克风的示例性图像和/或图示310以指示例如用户应该在呈现UI 300的装置处或附近说话以提供可听输入以及例如提供应该由用户进行以执行该应用的动作(例如,说话)的图示。注意在接收可听输入序列时,可以呈现具有相同的选择元素中的一些选择元素(例如,将要描述的元素314)的UI,以及如UI 300上所示,麦克风310的至少一部分可以将颜色从正接收可听输入时的第一颜色改变到等待输入可听输入应用时的、不同于第一颜色的第二颜色。
在任何情况下,UI 300还可以包括例如由用于呈现UI 300的装置上的摄像头和/或与该装置通信的摄像头所采集的用户的示例性图像312。图像312可以是例如以规律的间隔(例如,每十分之一秒)被更新为由摄像头采集的用户的新图像的当前图像,因此至少基本上可以是用户的实时图像。注意,在图像312中,用户的嘴是张开的但被理解为是例如不动的和/或静止的,例如导致装置确定没有在提供可听输入。示出了用于呈现UI300的装置的用于应用、功能、和/或操作的不同于可听输入应用的多个选择元素314,使得例如用户可以在仍然例如使可听输入应用打开和/或中止的同时在可听输入应用和其它应用之间进行切换。因此,下述选择元素中的每个选择元素被理解为可以被选择,以在没有进一步用户输入的情况下自动地开始和/或使与所选择的特定选择元素关联的应用例如启动并且使下述关联的UI呈现在装置的显示器上:用于例如因特网浏览器应用的浏览器选择元素316、用于例如地图应用的地图选择元素318、和/或用于例如联系应用和/或联系列表的联系选择元素320。注意,还呈现了查看其它应用选择元素322,并且查看其它应用选择元素322可被选择以在没有用户进一步用户输入的情况下自动地呈现如下UI(例如,主页画面UI、与电子邮件应用关联的电子邮件UI等),该UI呈现在可听输入应用“中止”时可以选择的另外的其它应用的图标。
除了前述以外,UI 300还包括指令324,该指令324指示如果用户期望关闭在装置检测到中止之前由用户输入的可听输入应用和/或结束特定可听输入应用,可以通过将装置从用户的面部附近移开(例如,远离用户的面部的至少一部分的阈值距离)来对装置输入(例如,自动地)用于这样做的命令。然而,注意,指令324还可以指示可以通过例如下述的其它方式关闭应用:输入可听命令以关闭应用和/或结束对可听输入序列的处理,在阈值时间段内进行装置的其它应用和/或操作以关闭应用和/或结束对可听输入序列的处理(例如,在阈值时间期满之后),在阈值时间内不提供可听输入(例如,提供可听中止和/或不说话)以关闭应用和/或结束对可听输入序列的处理(例如,在阈值时间期满之后),在阈值时间段内不向呈现UI 300的显示器提供触摸输入以关闭应用和/或结束对可听输入序列的处理等(例如,在阈值时间期满之后)。
现在转到图4,图4示出了示例性UI 400,响应于从UI 300选择了元素316,例如在没有进一步用户输入的情况下在根据本原理的装置上自动地呈现UI 400。在本实例中,UI 400用于因特网浏览器。注意,UI 400包括选择元素402,选择元素402可选择用以在没有进一步用户输入的情况下自动地呈现例如UI 300或针对根据本原理的可听输入应用的其它UI。
因此,作为示例,用户可以在提供可听输入序列的中间和/或提供可听输入序列的同时决定应该使用浏览器应用从因特网访问用于完成可听输入序列的信息。用户可以选择元素316,使用浏览器应用浏览因特网以得到例如来自新加坡联想公司网站的联系信息,然后返回可听输入应用以使用包括新加坡联想公司的联系信息的输入完成可听输入序列提供。本实例中的示例性可听输入序列可以是例如“请使用电话应用拨打…【在用户使用因特网浏览器时输入中的中止】…电话号码555联想1。”以数值形式,电话号码应该是例如(555)536-6861。
参照图5继续详细描述,图5示出了根据本原理的与可听输入应用关联的示例性UI 500。注意,标题/题目502被示出为可以在功能和配置方面与标题302基本上类似,主页选择元素504被示出为可以在功能和配置方面与主页元素304基本上类似,多个选择要素506被示出为可以在功能和配置方面分别与图3的元素314类似,以及图像512被示出为可以在功能和配置方面与图像312基本上类似(例如,具有下述例外:所示的实时图像包括用户的嘴是闭合的,因此反映了用户没有在提供可听输入)。
UI 500还示出了状态指示器508和关联文本510,状态指示器508和关联文本510在本示例性实例中指示装置和/或可听输入应用没有在(例如,当前)接收可听输入并且指示可听输入序列的处理将结束(例如,不管装置是否确定已经接收了完整的可听输入序列)。UI 500还可以包括下述选择元素中的一个或更多个选择元素:恢复先前输入序列元素514,其可选择用以在没有进一步用户输入的情况下自动地使可听输入应用例如打开和/或恢复对例如在序列的处理结束之前部分地输入的可听输入序列的处理,以使得用户可以完成提供序列;新输入序列元素516,其可选择用以在没有进一步用户输入的情况下自动地使可听输入应用例如开始“接听”新的可听输入序列;以及关闭应用元素518,其可选择用以在没有进一步用户输入的情况下自动地使可听输入应用例如关闭可听输入应用和/或返回装置的主画面。
现在转到图6,图6示出了根据本原理的与可听输入应用关联的示例性UI 600。注意,标题/题目602被示出为可以在功能和配置方面与标题302基本上类似,主页选择元素604被示出为可以在功能和配置方面与主页元素304基本上类似,多个选择要素606被示出为可以在功能和配置方面分别与图3的元素314类似,以及虽然没有示出,但是还可以在UI 600上呈现在功能和配置方面与图像312基本上类似的图像。
UI 600还示出了状态指示器608和关联文本610,本示例性实例中的状态指示器608和关联文本610指示(例如,由根据本原理的装置确定)用户已经从装置转移目光和/或用户的嘴不再活动,但用户仍然使装置位于例如用户的面部的距离阈值以内以提供可听输入。在这样的实例中,可听输入应用可以根据本原理中止处理可听输入序列并且等待用户恢复提供可听输入序列,以及还可以呈现选择元素612以及选择元素614,选择元素612可选择用以在没有进一步用户输入的情况下自动地给装置提供输入以继续等待接收可听输入序列,选择元素614可选择用以在没有进一步用户输入的情况下自动地结束正被输入到装置的可听输入序列的可听输入应用的处理和/或关闭可听输入应用自身。
在没有参照任何特定附图的情况下,应该理解,虽然例如根据本原理的可听输入应用可以和装置一起出售,但是应该理解,本原理适用在可听输入应用是例如通过如因特网的网络从服务器下载到装置的实例中。
还是在没有参照任何附图的情况下,本原理承认,执行可听输入应用的装置可以感测和使用该装置的移动和/或装置相对于用户的位置,以根据本原理确定是否正在或将要提供可听输入。此外,例如可以响应于下述项来确定用户将要提供可听输入并且因此将要启动可听输入应用和/或开始“接听”可听输入:响应于确定用户已经例如提供能够被装置识别为指示用户正在或将要给可听输入应用提供可听输入的姿势的由装置的摄像头检测的姿势;和/或响应于确定用户已经将装置从例如用户的面部的阈值距离之外移动到阈值距离之内并且此后保持装置在预定方向静止(例如,能够由可听输入应用和/或装置识别为用户将要提供可听输入的指示并且因此引起装置和/或应用开始“听”输入(例如,响应于来自例如装置上的方向传感器和/或触摸传感器的信号));和/或确定用户已经将装置放置在某距离处(例如,保持不动或至少基本不动例如在英寸范围以内)以在该距离处(例如,其中只要装置保持在该距离处,装置就根据本原理“接听”)提供可听输入。
仍然根据本原理,应该理解,本文所描述的眼睛跟踪可以被用于下述实例:在该实例中,例如用户正在提供可听输入序列时在装置处接收到文本消息,响应于确定用户的眼睛正注意在文本消息的至少一部分和/或确定用户已经停止提供可听输入和/或完全停止说话,装置决定其要中止对可听输入序列的处理,然后响应于确定用户正再次给装置提供可听输入和/或确定关闭了或相反退出了呈现文本消息的画面,装置恢复对可听输入序列的处理。
如另一示例,假设用户根据本原理开始提供可听输入序列,用户中止提供该序列以进行装置的另一操作,然后基于对被提供且处理的可听输入的重新开始来确定序列的上下文和/或之前的输入部分应该被改变。在这样的实例中,装置可以例如识别由用户提供的“关键”词以例如在没有进一步的用户输入的情况下自动地响应于该“关键”词而忽略在中止之前的最近提供的单词并且因此拒绝将在中止之前的最近提供的单词处理为在中止之后将要结束的可听输入序列的部分。除了前述以外或代替前述,装置可以例如将在提供可听输入时被用户的中止分开的两个单词识别为相似的和/或矛盾的,在可听输入中它们两个都不能被一致地处理以执行命令(例如,两个单词都是名词,两个单词都是不同城市名但是序列的上下文是指单个城市的信息等)。但是不管怎样,在一些在中止之后改变上下文的实施方式中,作为在中止之后被修改的上下文和/或在中止之后输入的单词被作为与序列相关的操作词进行处理。
还要注意,虽然没有提供为附图,但是可以在用于执行可听输入应用的装置上呈现与可听输入应用关联的设置UI,从而配置装置的一个或更多个设置。例如,可以由用户设置其它操作和/或应用的特定选择元素以在UI(例如UI 300)上呈现,用于确定在可听输入中是否已经发生中止以及确定何时如以上所描述已经恢复可听输入的操作中的一个或更多个操作可以被启动或不能启动(如,基于切换开/关元件)等。
虽然本文示出并且详细描述了具体的“检测对于装置的可听输入中的中止”,但是应该理解的是本申请包含的主题仅被权利要求限制。

Claims (20)

1.一种用于检测可听输入中的中止的装置,包括:
处理器,
存储器,所述存储器能够被所述处理器访问并且承载有能够被所述处理器执行以实现如下操作的指令:
处理可听输入序列,所述可听输入序列由所述装置的用户提供;
至少部分地基于来自与所述装置通信的至少一个摄像头的第一信号来确定在提供所述可听输入序列期间发生了中止;
响应于确定发生了所述中止,停止处理所述可听输入序列;
至少部分地基于来自所述摄像头的第二信号来确定已恢复提供所述可听输入序列;以及
响应于确定已恢复提供所述可听输入序列,恢复对所述可听输入序列的处理。
2.根据权利要求1所述的装置,其中,所述中止包括所述装置不能理解的可听序列分隔符。
3.根据权利要求2所述的装置,其中,所述指令还能够由所述处理器执行,从而除非还在对来自所述装置上的加速度计的信号进行处理时至少同时接收到所述可听序列分隔符,则响应于处理来自所述装置上的加速度计的信号而确定停止处理所述可听输入序列。
4.根据权利要求2所述的装置,其中,至少部分地基于对至少所述第一信号执行读唇软件来将所述可听序列分隔符确定为不能理解的,所述第一信号是所述摄像头响应于所述摄像头采集所述用户的面部的至少一部分的至少一个图像而生成的。
5.根据权利要求1所述的装置,其中,所述第一信号和所述第二信号分别由所述摄像头响应于所述摄像头采集所述用户的面部的至少一部分的至少一个图像而生成。
6.根据权利要求1所述的装置,其中,所述中止包括所述用户向所述装置提供可听输入序列期间的中止。
7.根据权利要求6所述的装置,其中,所述至少部分地基于所述第一信号确定发生了中止包括:确定所述用户的当前面部表情表示不是将要提供可听输入。
8.根据权利要求7所述的装置,其中,所述确定用户的当前面部表情不是表示将要提供可听输入包括:确定所述用户的嘴至少大部分闭合。
9.根据权利要求8所述的装置,其中,所述确定用户的当前面部表情不是表示将要提供可听输入包括:确定所述用户的嘴是闭合的。
10.根据权利要求1所述的装置,其中,所述至少部分地基于所述第二信号来确定已恢复提供所述可听输入序列包括:确定所述用户的嘴是张开的。
11.根据权利要求1所述的装置,其中,所述至少部分地基于所述第一信号确定已发生了中止包括:确定所述用户的嘴是张开的并且至少是静止的。
12.根据权利要求1所述的装置,其中,所述至少部分地基于所述第一信号确定已发生了中止包括:确定所述用户的眼睛没有在看所述装置或没有朝向所述装置看。
13.一种用于检测装置的可听输入中的中止的方法,包括:
在所述装置处接收可听输入序列,所述可听输入序列由所述装置的用户提供;
响应于接收到来自与所述装置通信的至少一个摄像头的第一信号以及响应于接收到来自与所述装置至少通信的触控显示器的输入,而确定所述用户已经停止提供所述可听输入序列;以及
确定所述用户已经恢复提供所述可听输入序列。
14.根据权利要求13所述的方法,其中,所述确定用户已经恢复提供所述可听输入序列包括:响应于接收到所述可听输入序列而确定所述用户已经恢复提供可听输入。
15.根据权利要求13所述的方法,其中,所述确定用户已经恢复提供所述可听输入序列包括:基于来自所述摄像头的第二信号确定所述用户已经恢复提供可听输入。
16.根据权利要求13所述的方法,其中,所述确定用户已经恢复提供所述可听输入序列包括:响应于确定在触控显示器上没有接收到触摸输入的阈值时间已期满,而确定所述用户已经恢复提供所述可听输入序列。
17.根据权利要求13所述的方法,所述方法还包括:响应于确定所述用户已经恢复提供所述可听输入序列,继续在所述装置处接收所述可听输入序列。
18.根据权利要求13所述的方法,所述方法还包括:响应于确定所述用户已经恢复提供所述可听输入序列,继续执行如下可听输入序列应用:所述可听输入序列应用被启动以接收所述可听输入序列,其中,所述可听输入序列应用在确定所述用户已经停止提供所述可听输入序列之前处理所述可听输入序列,以及其中,所述可听输入序列应用继续在所述装置处使用所述可听输入序列应用接收所述可听输入序列。
19.根据权利要求18所述的方法,其中,所述确定用户已经停止提供所述可听输入序列包括:基于来自所述摄像头的所述第一信号确定所述用户已经停止提供可听输入,以及基于来自所述触控显示器的输入确定所述用户正在进行所述装置的其它操作。
20.一种用于检测可听输入中的中止的设备,包括:
第一处理器;
网络适配器;
存储装置,所述存储装置承载有经由所述网络适配器通过网络传输的、用以由第二处理器执行以实现如下操作的指令:
处理可听输入命令,所述可听输入命令由与所述第二处理器关联的装置的用户提供,对所述可听输入命令的处理响应于如下操作:基于来自与所述第二处理器通信的至少一个摄像头的至少一个信号确定在所述用户正沿所述装置的方向看的同时所述用户的嘴正在活动;以及
执行所述可听输入命令。
CN201410558907.XA 2013-12-03 2014-10-20 用于检测可听输入中的中止的装置、设备及方法 Active CN104679471B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/095,369 US10163455B2 (en) 2013-12-03 2013-12-03 Detecting pause in audible input to device
US14/095,369 2013-12-03

Publications (2)

Publication Number Publication Date
CN104679471A true CN104679471A (zh) 2015-06-03
CN104679471B CN104679471B (zh) 2019-04-23

Family

ID=52292539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410558907.XA Active CN104679471B (zh) 2013-12-03 2014-10-20 用于检测可听输入中的中止的装置、设备及方法

Country Status (4)

Country Link
US (2) US10163455B2 (zh)
CN (1) CN104679471B (zh)
DE (1) DE102014117343B4 (zh)
GB (1) GB2522748B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633252B2 (en) 2013-12-20 2017-04-25 Lenovo (Singapore) Pte. Ltd. Real-time detection of user intention based on kinematics analysis of movement-oriented biometric data
US10180716B2 (en) 2013-12-20 2019-01-15 Lenovo (Singapore) Pte Ltd Providing last known browsing location cue using movement-oriented biometric data
US9741342B2 (en) 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
CN109446876B (zh) * 2018-08-31 2020-11-06 百度在线网络技术(北京)有限公司 手语信息处理方法、装置、电子设备和可读存储介质
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
US11915698B1 (en) * 2021-09-29 2024-02-27 Amazon Technologies, Inc. Sound source localization

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124507A1 (en) * 2005-11-28 2007-05-31 Sap Ag Systems and methods of processing annotations and multimodal user inputs
CN101132839A (zh) * 2005-05-05 2008-02-27 索尼计算机娱乐公司 结合计算机交互处理的选择性声源监听
US20080091636A1 (en) * 2006-10-11 2008-04-17 Andrew Rodney Ferlitsch Empty job detection for direct print
US20090138507A1 (en) * 2007-11-27 2009-05-28 International Business Machines Corporation Automated playback control for audio devices using environmental cues as indicators for automatically pausing audio playback
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统
US20130021459A1 (en) * 2011-07-18 2013-01-24 At&T Intellectual Property I, L.P. System and method for enhancing speech activity detection using facial feature detection
CN103914131A (zh) * 2013-01-07 2014-07-09 鸿富锦精密工业(武汉)有限公司 显示屏幕自动调节系统及方法

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2510344A (en) 1945-03-17 1950-06-06 Rca Corp Viewing screen
US2567654A (en) 1947-08-21 1951-09-11 Hartford Nat Bank & Trust Co Screen for television projection
DE1164465B (de) 1962-12-07 1964-03-05 Telefunken Patent Transportabler Fernsehempfaenger
US3628854A (en) 1969-12-08 1971-12-21 Optical Sciences Group Inc Flexible fresnel refracting membrane adhered to ophthalmic lens
US3972593A (en) 1974-07-01 1976-08-03 Minnesota Mining And Manufacturing Company Louvered echelon lens
US4190330A (en) 1977-12-27 1980-02-26 Bell Telephone Laboratories, Incorporated Variable focus liquid crystal lens system
US4577928A (en) 1983-04-21 1986-03-25 Data Vu Company CRT magnifying lens attachment and glare reduction system
FR2649799B1 (fr) 1989-07-12 1993-05-28 Cintra Daniel Systeme optique pour l'agrandissement d'images
JP2648558B2 (ja) 1993-06-29 1997-09-03 インターナショナル・ビジネス・マシーンズ・コーポレイション 情報選択装置及び情報選択方法
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
JPH10282310A (ja) 1997-04-11 1998-10-23 Dainippon Printing Co Ltd フレネルレンズシート及び透過型スクリーン
US6073036A (en) 1997-04-28 2000-06-06 Nokia Mobile Phones Limited Mobile station with touch input having automatic symbol magnification function
US6169538B1 (en) 1998-08-13 2001-01-02 Motorola, Inc. Method and apparatus for implementing a graphical user interface keyboard and a text buffer on electronic devices
US6243683B1 (en) 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
US20030171932A1 (en) 2002-03-07 2003-09-11 Biing-Hwang Juang Speech recognition
US7231351B1 (en) * 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
US7174191B2 (en) * 2002-09-10 2007-02-06 Motorola, Inc. Processing of telephone numbers in audio streams
CN101673181A (zh) 2002-11-29 2010-03-17 皇家飞利浦电子股份有限公司 具有触摸区域的移动表示的用户界面
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US20040160419A1 (en) 2003-02-11 2004-08-19 Terradigital Systems Llc. Method for entering alphanumeric characters into a graphical user interface
DE10310794B4 (de) 2003-03-12 2012-10-18 Hewlett-Packard Development Co., L.P. Bedieneinrichtung und Kommunikationsgerät
US7999857B2 (en) * 2003-07-25 2011-08-16 Stresscam Operations and Systems Ltd. Voice, lip-reading, face and emotion stress analysis, fuzzy logic intelligent camera system
US7890327B2 (en) * 2004-06-28 2011-02-15 International Business Machines Corporation Framework for extracting multiple-resolution semantics in composite media content analysis
EP1693801A3 (en) * 2005-02-16 2006-11-29 David Schaufele Biometric-based systems and methods for identity verification
US20080180218A1 (en) * 2006-11-07 2008-07-31 Flax Stephen W Bi-Modal Remote Identification System
US8156518B2 (en) * 2007-01-30 2012-04-10 At&T Intellectual Property I, L.P. System and method for filtering audio content
US9244455B2 (en) 2007-09-10 2016-01-26 Fisher-Rosemount Systems, Inc. Location dependent control access in a process control system
US8099289B2 (en) 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US20090259349A1 (en) 2008-04-11 2009-10-15 Ease Diagnostics Delivering commands to a vehicle
EP2279465B1 (en) * 2008-04-17 2014-04-02 Siemens Aktiengesellschaft Method and system for cyber security management of industrial control systems
US8514251B2 (en) 2008-06-23 2013-08-20 Qualcomm Incorporated Enhanced character input using recognized gestures
ATE547785T1 (de) * 2008-07-03 2012-03-15 Mobiter Dicta Oy Verfahren und einrichtung zum umsetzen von sprache
US20100079508A1 (en) 2008-09-30 2010-04-01 Andrew Hodge Electronic devices with gaze detection capabilities
WO2010078596A1 (en) 2009-01-05 2010-07-08 Tactus Technology, Inc. User interface system
US8732623B2 (en) 2009-02-17 2014-05-20 Microsoft Corporation Web cam based user interaction
US8655320B2 (en) * 2009-04-14 2014-02-18 Ca, Inc. Method and system for providing low-complexity voice messaging
US20100280828A1 (en) * 2009-04-30 2010-11-04 Gene Fein Communication Device Language Filter
US20110065451A1 (en) 2009-09-17 2011-03-17 Ydreams-Informatica, S.A. Context-triggered systems and methods for information and services
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
EP2616993A4 (en) 2010-09-13 2017-04-19 Hewlett-Packard Development Company, L.P. Smile detection systems and methods
CN103299608B (zh) * 2010-11-04 2016-08-10 株式会社理光 一种通信终端和通信方法
US8886128B2 (en) 2010-12-10 2014-11-11 Verizon Patent And Licensing Inc. Method and system for providing proximity-relationship group creation
CN103329068B (zh) * 2011-01-24 2017-02-08 索尼电脑娱乐公司 信息处理装置
US20120268268A1 (en) 2011-04-19 2012-10-25 John Eugene Bargero Mobile sensory device
JP5673330B2 (ja) * 2011-04-25 2015-02-18 株式会社デンソー 音声入力装置
US20120304067A1 (en) * 2011-05-25 2012-11-29 Samsung Electronics Co., Ltd. Apparatus and method for controlling user interface using sound recognition
US9285592B2 (en) 2011-08-18 2016-03-15 Google Inc. Wearable device with input and output structures
JP2013080015A (ja) * 2011-09-30 2013-05-02 Toshiba Corp 音声認識装置および音声認識方法
US9106789B1 (en) * 2012-01-20 2015-08-11 Tech Friends, Inc. Videoconference and video visitation security
US8812983B2 (en) 2012-02-17 2014-08-19 Lenovo (Singapore) Pte. Ltd. Automatic magnification and selection confirmation
US8832328B2 (en) 2012-03-13 2014-09-09 Qualcomm Incorporated Data redirection for universal serial bus devices
FR2989209B1 (fr) * 2012-04-04 2015-01-23 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
CN102647525A (zh) * 2012-04-16 2012-08-22 中兴通讯股份有限公司 一种移动终端及其异常通话的处理方法
US9823742B2 (en) 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
CN104428832B (zh) * 2012-07-09 2018-06-26 Lg电子株式会社 语音识别装置及其方法
US20140071163A1 (en) * 2012-09-11 2014-03-13 Peter Tobias Kinnebrew Augmented reality information detail
KR20140036584A (ko) * 2012-09-17 2014-03-26 삼성전자주식회사 음성 신호의 음량을 조절하기 위한 방법 및 그 전자 장치
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
WO2014063354A1 (en) * 2012-10-26 2014-05-01 Hewlett-Packard Development Company, L.P. Method for summarizing document
US8913138B2 (en) * 2012-12-21 2014-12-16 Technologies Humanware Inc. Handheld magnification device with a two-camera module
US9170993B2 (en) * 2013-01-29 2015-10-27 Hewlett-Packard Development Company, L.P. Identifying tasks and commitments using natural language processing and machine learning
US9105270B2 (en) * 2013-02-08 2015-08-11 Asustek Computer Inc. Method and apparatus for audio signal enhancement in reverberant environment
US9123340B2 (en) 2013-03-01 2015-09-01 Google Inc. Detecting the end of a user question
US9436287B2 (en) * 2013-03-15 2016-09-06 Qualcomm Incorporated Systems and methods for switching processing modes using gestures
US9286030B2 (en) * 2013-10-18 2016-03-15 GM Global Technology Operations LLC Methods and apparatus for processing multiple audio streams at a vehicle onboard computer system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101132839A (zh) * 2005-05-05 2008-02-27 索尼计算机娱乐公司 结合计算机交互处理的选择性声源监听
US20070124507A1 (en) * 2005-11-28 2007-05-31 Sap Ag Systems and methods of processing annotations and multimodal user inputs
US20080091636A1 (en) * 2006-10-11 2008-04-17 Andrew Rodney Ferlitsch Empty job detection for direct print
US20090138507A1 (en) * 2007-11-27 2009-05-28 International Business Machines Corporation Automated playback control for audio devices using environmental cues as indicators for automatically pausing audio playback
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统
US20130021459A1 (en) * 2011-07-18 2013-01-24 At&T Intellectual Property I, L.P. System and method for enhancing speech activity detection using facial feature detection
CN103914131A (zh) * 2013-01-07 2014-07-09 鸿富锦精密工业(武汉)有限公司 显示屏幕自动调节系统及方法

Also Published As

Publication number Publication date
US20150154983A1 (en) 2015-06-04
US10163455B2 (en) 2018-12-25
GB201420978D0 (en) 2015-01-07
GB2522748A (en) 2015-08-05
US20180374501A1 (en) 2018-12-27
GB2522748B (en) 2017-11-08
DE102014117343B4 (de) 2020-03-26
US10269377B2 (en) 2019-04-23
CN104679471B (zh) 2019-04-23
DE102014117343A1 (de) 2015-06-03

Similar Documents

Publication Publication Date Title
US10607606B2 (en) Systems and methods for execution of digital assistant
US10664533B2 (en) Systems and methods to determine response cue for digital assistant based on context
CN104679471A (zh) 用于检测可听输入中的中止的装置、设备及方法
EP2940556B1 (en) Command displaying method and command displaying device
EP4068899A1 (en) Synchronization method and electronic device
US20150154001A1 (en) Initiating personal assistant application based on eye tracking and gestures
US11169688B2 (en) Message processing method, message viewing method, and terminal
CN104679716A (zh) 第一装置接收输入及将输出呈现于第二装置的装置和方法
EP2400733B1 (en) Mobile terminal for displaying augmented-reality information
US10438583B2 (en) Natural language voice assistant
US10950240B2 (en) Information processing device and information processing method
EP3125238B1 (en) Insertion of characters in speech recognition
US20190251961A1 (en) Transcription of audio communication to identify command to device
US20180324703A1 (en) Systems and methods to place digital assistant in sleep mode for period of time
US20200111490A1 (en) Electronic apparatus and assistant service providing method thereof
EP3547107A1 (en) Method for providing information mapped between a plurality of inputs and electronic device for supporting the same
CN105049932A (zh) 检测音频视频观看中的噪声或对象打断并基于此改变呈现
US20180286392A1 (en) Multi mode voice assistant for the hearing disabled
US20210005189A1 (en) Digital assistant device command performance based on category
US20200264750A1 (en) Method for displaying visual object regarding contents and electronic device thereof
US20150205350A1 (en) Skin mounted input device
US10482151B2 (en) Method for providing alternative service and electronic device thereof
CN108958816B (zh) 初始化方法、装置以及电子装置
US20210097984A1 (en) Query disambiguation using environmental audio
US12021815B2 (en) Message reminder upon detection of no response

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant