CN102460346A - 触摸任何地方来讲话 - Google Patents

触摸任何地方来讲话 Download PDF

Info

Publication number
CN102460346A
CN102460346A CN2010800263948A CN201080026394A CN102460346A CN 102460346 A CN102460346 A CN 102460346A CN 2010800263948 A CN2010800263948 A CN 2010800263948A CN 201080026394 A CN201080026394 A CN 201080026394A CN 102460346 A CN102460346 A CN 102460346A
Authority
CN
China
Prior art keywords
touch
screen interface
touch screen
indication
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800263948A
Other languages
English (en)
Inventor
A·K·沙利文
L·施蒂费尔曼
K·J·李
梁淑君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=43307159&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN102460346(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102460346A publication Critical patent/CN102460346A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/22Details of telephonic subscriber devices including a touch pad, a touch sensor or a touch detector
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Abstract

本发明提供了通过使用移动计算设备上的触摸任何地方来讲话模块以提供按压讲话交互的用户界面。在接收触摸屏界面的屏幕上触摸任何地方的指示后,触摸任何地方来讲话模块激活语音识别模块的收听机构来接受可听见的用户输入并且显示接收到的可听见输入的测量到的声音等级的动态视觉反馈。触摸任何地方来讲话模块还可通过使用和应用相对于与口头的可听见输入相关联的触摸的上下文(例如,视觉界面上的相对位置)的数据向用户提供方便和更准确的语音识别体验。

Description

触摸任何地方来讲话
发明背景
诸如移动电话和个人数字助理等移动计算设备已经成为当今社会普遍存在的技术。这些设备通常提供允许用户通过多个输入机构(例如,数字键盘、键盘、触摸屏、语音识别等等)与各种移动应用交互的界面。最近,用于输入的语音识别技术正在兴起。使用语音识别,用户语音命令被获取为音频文件,并且要么通过位于移动设备上的嵌入式语音识别模块处理,要么通过无线连接转移到服务器,在服务器上处理这些命令。接合语音识别模块的收听机构的一种方法是通过按压讲话交互模型,这允许用户通过输入机构在应用应该开始录音以及机构停止录音的时候发出信号。许多移动应用设备将已有的硬件按键、软按键、或者触摸屏界面上按钮的定义的边界用作接合语音识别模块的收听机构的输入机构。
由于各种因素,不仅限于小的按键尺寸、难以标识或引用的按键、和/或用户对于按钮位置存在盲点(例如,位于移动设备的侧面),通过诸如按钮、滚轮等软按键或专用硬件界面输入可能是不方便的。即便按钮对于给定应用是可标识、可引用的和可用的,并且位于人体工学的位置,但是用户可能会从事使其难以看其移动设备和/或难以定位按钮的另一任务(例如,步行、开车等)。在使用诸如按钮等专用硬件界面以进行语音识别的收听模式时,由于它在设备上的位置,按它可能会遮住话筒,这将不利地影响语音识别的性能。
现在许多移动计算设备使用触摸屏界面。触摸屏可具有与传统电话的按钮、传统键盘的按键以及各移动任务对应的可选择的图形对象。触摸屏和包括触摸屏的输入设备有时候难以操作。例如,使用指尖激活触摸屏的用户可轻易地在该用户不想激活触摸屏的位置触摸触摸屏的活动的表面区域。在许多情况下,这一无意的激活将造成执行无意的功能。
本发明正是对于这些和其他考虑事项而做出的。
发明内容
本发明的各实施例被指定为提供移动计算设备上的用户界面,该用户界面用于提供屏幕上目标区域的最大数量以发起语音识别模块的收听。根据各实施例,用户可按移动计算设备的触摸屏上的任何地方以激活语音识别交互中的收听。取代了需要用户看其移动计算设备的对难以定位的按钮的搜索或按小的静电按键,整个触摸屏是用于激活语音识别模块的收听设备的输入机构。
根据一实施例,当移动计算设备接收在其触摸屏界面上触摸任何地方的指示时,收听机构被激活并且启用以接收语音输入,并且可响应于接收触摸屏界面上触摸任何地方的指示,生成确认以通知用户收听机构已被激活。根据另一实施例,指示接收到的语音输入的测量到的声音级别的视觉反馈可在触摸屏上接收到触摸的位置提供。
根据本发明的另一实施例,显示(屏)的上下文还可用作除了语音输入以外的输入以完成一系列任务。例如,附加的上下文输入可帮助缩小搜索结果以向用户提供改进的语音识别体验。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。可以理解,前述一般描述和以下详细描述均仅是说明性的,且不限制所要求保护的本发明。
提供本概述是为了以简便的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图简述
图1是示例移动计算设备的示图。
图2是示出可充当本发明实施例的示例性操作环境的移动计算设备的各组件的简化框图。
图3是使用触摸任何地方来讲话模块以在移动计算设备上使收听机构接合语音识别交互的计算体系结构的简化框图。
图4是示出使用触摸任何地方来讲话模块以使收听机构接合语音识别交互的方法的逻辑流程图。
图5是由触摸任何地方来讲话模块提供的示例视觉反馈的示图。
图6是由触摸任何地方来讲话模块提供的示例音量计显示的示图。
图7是示出使用触摸任何地方来讲话模块以及结合标识和使用触摸的上下文数据,以使收听机构接合语音识别交互的方法的逻辑流程图。
具体实施方式
如以上所简述,本发明的实施例涉及在移动计算设备上使收听机构接合语音识别交互。通过按移动计算设备屏幕的任意给定区域,触摸任何地方来讲话(TATS)模块激活语音识别模块的收听机构以接受用户口语输入,使得语音识别模块可将口语单词转化为机器可读的输入。语音识别应用可在移动计算设备上用于各种任务,包括但不限于,语音拨号(例如,“呼叫鲍伯”)、打开网络搜索(例如,“加利福尼亚州旧金山市的披萨”以找到旧金山市的披萨餐馆)、以及语音到文本处理(例如,文本消息和电子邮件)。
目前存在许多用于在移动计算设备上使收听机构接合语音识别交互的输入方法,但是每个都具有其自己的一系列不利因素,并且有时展现出超出了使用语音识别的好处的困难。许多用户使用语音识别是因为他们正在分心的环境中使用其移动计算设备(即,在走路或开车时),这使得难以看他们的屏幕来使用硬件按键、软按键、或者触摸屏界面上定义的按钮边界来执行任务。本发明的各实施例使用移动计算设备屏幕上最大数量的目标区域来激活收听机构,提供了不需视线交互的使用。用本发明的各实施例来开始语音识别的收听模块不需要用户看他/她的屏幕来知道他/她有没有按中特定的目标区域,也不需要他/她看或摸索触觉按钮以保证他/她正在按正确的按键。
当用户用他/她的手指、指示笔或其他选择设备按或保持移动计算设备的屏幕时,触摸任何地方来讲话模块可给出视觉、听觉或触觉指示、或者以上三者的结合,以指示收听机构被激活并且语音识别模块准备好获取语音输入。当接收到用户用他/她的语音输入完成的指示时,触摸任何地方来讲话模块可以给出另一指示(视觉、听觉或触觉、或三者的结合)以指示收听机构被取消激活。语音识别模块可在设备上本地地或通过连接到可处理数据的服务器的无线连接远程地处理数据。语音识别应用然后可接收识别的输出,并且然后可激活给定的应用,显示给定的信息,或者执行用户已经通过语音识别应用指示的给定的任务。
根据另一实施例,TATS模块还可被实现为现有用户界面上的“层”。当被实现为现有用户界面上的“层”时,TATS模块可同时使用视觉界面的上下文敏感信息以及开放式的语音命令来帮助用户完成一系列任务。基于移动设备屏幕的上下文和/或用户触摸的屏幕上的位置,可确定用户语音输入的上下文。例如,如果用户正在查看他/她移动计算设备上的地图,他/她可触摸地图界面的特定区域并说“电影院”。TATS模块可接收“电影院“这一口语输入以及用户触摸的地图界面上的上下文感知的位置,来提取与接近与地图界面的触摸区域相关联的地理区域的电影院相关的信息。作为另一个示例,通过触摸图片或网页并说“发送给鲍伯“,用户可发送触摸的对象给识别的联系人鲍伯。
以下详细描述参考各附图。只要可能,就在附图和以下描述中使用相同的标号来指示相同或相似的元素。尽管可能描述了本发明的各实施例,但是修改、改编和其他实现也是可能的。例如,可对附图中所示出的元素进行置换、添加、或修改,并且可通过对所公开的方法置换、重新排序、或添加阶段来修改此处所描述的方法。因此,以下详细描述并不限制本发明,相反,由所附权利要求定义了本发明的合适范围。
应当明白,本发明的各种实施例可被实现为(1)运行于计算机系统上的一系列计算机实现的动作或程序模块,和/或(2)计算机系统内互连的机器逻辑电路或电路模块。该实现是取决于实现本发明的计算系统的性能要求来选择的。因此,包括相关算法的逻辑操作可被不同地称为操作、结构设备、动作或模块。本领域技术人员将认识到,这些操作、结构设备、动作和模块可用软件、固件、专用数字逻辑、及其任意组合实现,而不背离如本文中阐述的权利要求内陈述的本发明精神和范围。
以下是对合适的移动计算设备的描述,例如,可用来实践本发明的各实施例的移动电话。参考图1,示出了实现各实施例的示例移动计算设备100。在基本配置中,移动计算设备100是同时具有输入元件和输出元件的手持式计算机。输入元件可包括允许用户将信息输入到移动计算设备100的触摸屏显示105和输入按钮115。移动计算设备100还可包含允许进一步用户输入的可任选的侧输入元件125。可任选的侧输入元件125可以是旋转开关、按钮、或任何其他类型的手动输入元件。在替换实施例中,移动计算设备100可包含更多或更少的输入元件。例如,在某些实施例中,显示器105可以是触摸屏。在另一替换实施例中,移动计算设备是便携式电话系统,诸如具有显示器105和输入按钮115的蜂窝电话。移动计算设备100还可包括可任选的键区115。可任选键区115可以是在触摸屏显示器上生成的物理键区或“软”键区。
移动设备100包含诸如可显示图形用户界面(GUI)的显示器105等输出元件。其他输出元件包括扬声器130和LED光120。此外,移动计算设备100可包含振动模块(未示出),该振动模块使得移动计算设备100振动以将事件通知给用户。在又一实施例中,移动计算设备100可包含用于提供另一装置的耳机插孔(未示出),该装置提供输出信号。
尽管此处结合移动设备100来描述,但在替换实施例中可与任何数量的计算机系统结合使用本发明,诸如台式环境、膝上型计算机或笔记本计算机系统、多处理器系统、基于微处理器或可编程消费电子产品、网络PC、小型计算机、大型计算机等等。本发明的各实施例也可在分布式计算环境中实践,其中任务由在分布式计算环境中通过通信网络链接的远程处理设备来执行,程序可位于本地和远程存储器存储设备中。总结而言,任何具有多个环境传感器、多个提供通知给用户的输出元件以及多个通知事件类型的计算机系统可包含本发明的各实施例。
图2是示出在一个实施例中使用的移动计算设备各组件的框图,诸如图1所示的计算设备。也就是说,移动计算设备100(图1)可以包含系统200以实现某些实施例。例如,系统200可用于实现能够运行一个或多个与台式或笔记本计算机相似的应用的“智能电话“,这些应有诸如例如浏览器、电子邮件、日程表、即时消息以及媒体播放应用。系统200可以执行操作系统(OS),诸如华盛顿州雷德蒙市微软公司的WINDOWS XP
Figure BPA00001480894700051
和WINDOWS CE
Figure BPA00001480894700052
等。在某些实施例中,系统200被集成为计算设备,诸如集成的个人数字助理(PDA)和无线电话。
一个或多个应用程序266可被载入存储器262并且在操作系统264上运行或者与其结合运行。应用程序的示例包括电话拨号程序、电子邮件程序、PIM(个人信息管理)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息传送程序等等。系统200还包括存储器262内的非易失性存储268。非易失性存储268可用于存储如果系统200关机也不应被丢失的持续信息。应用266可使用和存储非易失性存储268中的信息,诸如由电子邮件应用使用的电子邮件或其他消息等。同步应用(未示出)还驻留在系统200上并且可被编程,以用于与驻留在主机计算机上的对应的同步应用进行交互,以将存储在非易失性存储268中的信息与存储在主机计算机处的对应信息保持同步。应该明白,其他应用可被载入存储器262并且在设备100上运行。
根据一个实施例,触摸任何地方来讲话应用265被用于激活语音识别模块的收听机构,该收听机构被用于从用户处接收语音信息以用于如以下所述的各应用。
系统200具有可被实现为一个或多个电池的供电电源270。供电电源270还可包括外接电源,诸如补充或给电池重新充电的AC适配器或供电底座。
系统200还可包括执行发送和接收无线电频率通信的功能的无线电装置272。无线电装置272便于在系统200和“外界“之间通过通信载体或服务提供者的无线连接。在OS 264的控制下进行到达和来自无线电装置272的传输。换句话说,由无线电装置272接收的通信可通过OS 264传递到应用程序266处,反之亦然。
无线电装置272允许系统200诸如通过网络与其他计算设备通信。无线电装置272是通信介质的一个示例。通信介质通常由诸如载波或其他传输机构等已调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据来体现,并且包括任何信息传递介质。术语“已调制数据信号“指的是一个或多个特征以在信号中编码信息的方式被设定或更改的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接等的有线介质,以及诸如声学、RF、红外及其他无线介质等的无线介质。如此处所使用的术语计算机可读介质既包括存储介质又包括通信介质。
系统200的这一实施例用两种类型的通知输出设备示出,可用于提供视觉通知的LED 120以及可与扬声器130一起使用用来提供音频通知的音频接口274。这些设备可被直接耦合至供电电源270,从而当它们被激活时,仍在由通知机构指定的持续时间内保持开着,即便处理器260和其他组件可能为了保存电池电量而关闭。LED 120可被编程为无限地保持开着,直到用户采取指示设备的开机状态的动作。音频接口274用于向用户提供音频信号并且从用户处接收音频信号。例如,除了被耦合至扬声器130之外,音频接口274还可被耦合至话筒以接收音频输入,诸如为了便于电话对话。如以下将描述的,根据本发明的各实施例,话筒还可充当便于控制通知的音频传感器。
系统200还可包括启用板载照相机135的操作以记录静止图像、视频流等的视频接口276。
移动计算设备实现系统200可具有附加特征或功能。例如,设备还可包括附加数据存储设备(可移动的/或不可移动的),诸如磁盘、光盘或磁带。此类附加存储在图2中由存储268示出。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。
如以上所述,由设备100生成或获取并且通过系统200存储的数据/信息可被本地地存储在设备100上,或者这些数据可被存储在可由设备通过无线电装置272或者通过设备100以及与设备100相关联的单独的计算设备330之间的有线连接来访问的任何数量的存储介质上,单独的计算设备330例如在诸如因特网等分布式计算网络320中的服务器计算机。应当明白,这些数据/信息可由设备100通过无线电装置272或通过分布式计算网络320访问。类似地,这些数据/信息可根据包括电子邮件和协作数据/信息共享系统在内的众所周知的数据/信息传输和存储手段在计算设备之间容易地传输以用于存储和使用。
图3是使用触摸任何地方来讲话(TATS)模块265以开始移动计算设备100上语音识别模块330的收听的的计算体系结构的简化框图。根据一个实施例,在指示由TATS模块265接收移动计算设备100的屏幕105上的触摸后,识别接收到的音频输入的语音识别过程可通过如图4所示的语音识别体系结构实现。应当明白,图4所示的语音识别体系结构330可与TATS模块265集成,或者图4所示的语音识别体系结构可由TATS模块265调用以获得对音频输入的识别。
根据一个实施例,一旦给定的音频输入被识别为例如“纽约市的披萨“的文本串并且被标识为与例如网络搜索的给定任务相关联,动作模块340可被激活以将识别的文本串传递给本地信息源310,或者通过分布式计算网络320传递给远程源350以用于检索适用于文本串的信息。例如,如果音频输入“鲍伯“被识别模块330识别为用户地址簿或联系人列表中的联系人,则动作模块340可将标识的文本串传递给本地源310所包含的所有信息源和/或通过分布式计算网络320传递给远程源350处所包含的所有信息源以用于获得与选定的文本串相关联的可用信息。根据一个实施例,动作模块340可向用户提供执行与识别的联系人有关的移动任务的选项。再次参考以上用户说“鲍伯“并且输入被识别为用户地址簿中的联系人的示例,动作模块340可向用户提供执行例如打电话、或发送电子邮件或即时消息给识别的联系人鲍伯的动作的选项。
与来自每个可用源的文本串相匹配的信息可被返回至TATS模块265,以提供给用户用于在所需软件应用或移动任务中的后续使用。例如,如果发现音频输入“鲍伯“与两个可能匹配相匹配,则两个匹配条目都可在他/她的移动计算设备100上显示的用户界面中向用户展现,以允许用户选择他/她想要的条目。一旦用户选择了他/她想要的条目,则如以下更为详细描述的,选定的文本串可被传递给一个或多个移动或软件应用。应当明白,语音识别模块330可被编程为用于识别许多数据类型,例如命令、地址、地理位置、书名、电影名等。如果与用户想要的条目不匹配的选项被展现给用户,则用户可按或保持移动计算设备100的屏幕105以再次提供音频输入,或者他/她可按显示的匹配区域外的位置以避免必须返回至先前按和说话的输入屏幕。
图4是示出提供触摸任何地方来讲话(TATS)模块265以在移动计算设备100上使收听机构接合语音识别交互的方法的逻辑流程图。已经参考图1至3描述了本发明的示例性操作环境和各实施例的各方面,这有利于描述本发明的一实施例的示例操作。接着参考图4,方法400在开始操作405处开始,并且进行到操作410,在该操作处TATS模块265被用户选择并打开。用户可通过已知的输入方法打开TATS模块265,例如触摸表示移动计算设备100的屏幕105上的TATS模块265的图标或文本串。
在TATS模块265被打开之后,方法进行到操作415,在该操作处TATS模块接收对移动计算设备100的触摸屏105上的触摸任何地方的指示。应当明白,触摸可以是用户手指的触摸或者通过诸如指示笔等设备的触摸。根据本发明的各实施例,接收到的触摸是在语音识别交互中启用收听模块的方法。也就是说,本发明的各实施例使用户能够在设备100的触摸敏感屏幕105上触摸任何地方以向语音识别模块指示开始收听音频输入。与通过诸如硬连线的侧输入元件125等替换输入方法的按下讲话交互对比,本发明的各实施例允许用户在设备100的屏幕105上触摸任何地方以接合收听机构,这些侧输入元件可以是旋转开关、按钮、或任何其他类型的手动输入元件、硬件输入按钮115、软按键、触摸屏界面105上定义的按钮边界、或其他已知的输入元件。
根据一个实施例,触摸可以是按和保持交互模型的组件,其中用户触摸屏幕105以激活收听,在他/她提供音频输入时将他/她的手指(或者其他用于触摸屏界面的机构)保持在屏幕上,并且然后放开他/她的手指或其他触摸机构以使收听被取消激活。根据另一个实施例,触摸可以是按和放开交互模型,这就像前一个模型,用户触摸屏幕105以激活收听,但是,在放开他/她的手指或其他触摸机构后,语音识别应用330仍保持收听模式。如果在给定长度的时间内确定安静,则收听机构可通过对后续触摸的指示来取消激活,或者通过另一种方法,即对语音结束的指示是可由给定应用检测的。
在对触摸的指示由TATS模块265接收后,在操作420处,可给出反馈以确认接收到触摸。根据一个实施例并且如与图4相关联的图5所示,反馈505可以是视觉反馈(例如,屏幕105上的动画显示)、音频反馈(例如,通过扬声器130播放的音频音调)、触觉反馈(例如,震动)、或者以上三者的结合。根据一个实施例,视觉反馈505可指示用户已经触摸屏幕105的位置。例如,如图5所示,可在屏幕105上显示图像505以警示用户在图像显示的位置已经接收到对触摸的指示。反馈可警示用户TATS模块265已经接收到触摸输入,并且相应地,如图4所示的操作425处示出的,收听机构已经被激活。根据一个实施例,TATS模块265可发送确认接收到触摸的反馈给用户(操作420),并且同时激活收听机构(操作425)。根据另一实施例,操作420可在操作425之前发生。根据另一实施例,操作425可在操作420之前发生。
一旦收听机构被激活,语音识别模块330准备好从用户处接收音频输入。在操作430处,用户可讲话,并且他/她所述的话语可由收听机构接收。本领域的技术人员应当明白,语音识别是已知的技术,并且将不在本文详细讨论。
在操作431处,当正在接收说话方式430时,说话方式的测量的声音级别的视觉反馈可在屏幕上显示。参考与图4相关联的图6,反馈可以是音量计605。根据一个实施例,音量计可以被呈现为随着检测到更大的音量从触摸位置发散出来的一系列同心圆。根据另一实施例,同心圆可随着音量增加而改变颜色或填充。如图6所示,在移动计算设备100的屏幕105上显示了反映用户说话音量的示例音量计605。在这一示例中,用户正在说话的音量被显示为检测到最大音量为5级的3级音量。如果用户说话更大声,则下一个外部的圆将改变颜色或阴影以让用户知道他的音量提高了。如果用户说话更柔和,则有颜色或阴影的圆的数量将减少以让用户知道他的音量降低了。这一动画显示是提供视觉反馈和帮助自我校正的方法。
仍然参考图4,在用户完成他/她的说话方式后,在操作435处,接收对结束收听模式的指示。如前所述,根据一个实施例,可使用按和保持交互模型,其中用户触摸屏幕105以激活收听,在他/她提供音频输入时将他/她的手指(或者其他用于触摸屏界面的机构)保持在屏幕上,并且然后放开他/她的手指或其他触摸机构以指示TATS模块265使收听被取消激活。根据另一实施例,可使用按和放开交互模型,其中对结束收听的指示可以通过对后续触摸的指示。根据另一实施例,检测到的给定长度的时间的安静可以是对收听机构结束收听的指示。应当明白,其他方法可用于指示用户通过说话并且为应用退出收听模式。
一旦接收结束收听的指示,在操作440处,收听机构被取消激活,并且语音识别模块330不再接收音频输入直到它接收再次激活收听机构的指示。在操作445处,TATS模块265确认它已经接收到使收听被取消激活的指示并且随后收听机构已经被取消激活。根据一个实施例,确认可以是视觉反馈、音频反馈、触觉反馈、或以上三者的结合。根据一个实施例,操作440和445可同时发生。根据另一实施例,操作440可在操作445之前发生。根据另一实施例,操作440可在操作445之后发生。
在操作450处,接收的频输入被发送到语音识别模块,其中音频输入可被转化为数字数据、分析并且确定用户说了什么。语音识别模块330可被嵌入到移动计算设备100上或者远程地放置并且通过连接到服务器的无线连接访问。一旦识别了语音,它可以被发送到动作模块340以执行所识别出的用户想要的功能。例如,如果确定了用户说“德克萨斯州达拉斯市的电影列表”,则动作模块340可通过无线连接发送数据到搜索引擎以检索德克萨斯州达拉斯市区域内当前的电影列表信息。在操作455处,检索到的数据随后可被发送给用户并且在移动计算设备的屏幕105上显示。根据一个实施例,提取的数据可需要使用其他移动应用。例如,为了搜索电影列表,可能需要启用浏览器应用以检索给定的数据。方法在操作460处结束。
如前面所简述,本发明的实施例包括除了使用开放式语音命令之外,使用视觉界面的上下文敏感信息以帮助用户完成一系列任务。图7是示出用于提供触摸任何地方来讲话(TATS)模块265以在移动计算设备100上使收听机构接合语音识别交互的方法的逻辑流程图,其中用户触摸的屏幕的上下文可被标识并且结合接收的音频输入使用。
根据一个实施例,TATS模块265可被用于使用与触摸相关联的数据以不仅接合语音识别模块330的收听机构,还在正在被触摸的位置的上下文或者其他上下文数据内接合收听机构。基于移动设备100的屏幕105的上下文,和/或用户触摸的屏幕105上的位置,TATS模块265可确定用户语音输入的上下文。相应地,提供更多的目标信息给用户。例如,如果用户正在查看他移动计算设备100上的地图,并且他触摸地图界面的特定区域并说“咖啡”,则TATS模块265可接收“咖啡“这一口语输入以及地图界面上用户触摸触摸屏的上下文感知的位置,以提取与咖啡相关的信息以及由地图界面的被触摸的区域指定的位置。如果用户正在查看与前一个示例中相同的地图并且说“咖啡“,但是触摸地图界面的不同点,则由于上下文位置输入改变了,因此返回的结果可能是不同的。用口语数据实现上下文视觉数据可启用很大的一系列可用应用。例如,在触摸地图界面时说指令命令(例如,“放大“)可产生与说想要搜索查询的话语不同的结果。
接着参考图7,方法700在开始操作705处开始,并且进行到操作710,在该操作处TATS模块265被用户选择并打开。用户可通过已知的输入方法打开TATS模块265,例如触摸表示移动计算设备100的屏幕105上的TATS模块265的图标或文本串。
在TATS模块265被打开之后,方法进行到操作715,在该操作处TATS模块接收对移动计算设备100的触摸屏105的上下文区域内的触摸的指示。应当明白,触摸可以是用户手指的或者通过诸如指示笔等设备的手段的触摸。根据本发明的各实施例,接收到的触摸是在语音识别交互中启用收听模块的方法。本发明的各实施例使用户能够在设备100的触摸敏感屏幕105上的上下文区域内触摸以向语音识别模块指示开始收听音频输入。
根据一个实施例,触摸可以是按和保持交互模型的组件,其中用户触摸屏幕105以激活收听,在他/她提供音频输入时将他/她的手指(或者其他用于触摸屏界面的机构)保持在屏幕的上下文区域上,并且然后放开他/她的手指或其他触摸机构以使收听被取消激活。根据另一个实施例,触摸可以是按和放开交互模型,这就像前一个模型,用户触摸屏幕105的上下文区域以激活收听,但是,在放开他/她的手指或其他触摸机构后,语音识别应用330仍保持收听模式。如果在给定长度的时间内确定安静,则收听机构可通过对后续触摸的指示被取消激活,或者通过另一种方法,即对语音的结尾的指示是给定应用可由检测的。
在对触摸的指示由TATS模块265接收后,在操作720处,可给出反馈以确认接收到触摸。根据一个实施例,反馈505可以是视觉反馈(例如,屏幕105上的动画显示)、音频反馈(例如,通过扬声器130播放的音频音调)、触觉反馈(例如,震动)、或者以上三者的结合。根据一个实施例,视觉反馈505可指示用户已经在屏幕105上触摸的位置。例如,重新参考图5,可在屏幕105上显示图像505以警示用户在图像显示的位置已经接收到对触摸的指示。反馈505可警示用户TATS模块265已经接收到触摸输入,并且相应地,如图7所示的操作725处示出的,收听机构已经被激活。根据一个实施例,TATS模块265可发送确认接收到触摸的反馈给用户(操作720),并且同时激活收听机构(操作725)。根据另一实施例,操作720可在操作725之前发生。根据另一实施例,操作725可在操作720之前发生。
一旦收听机构被激活,语音识别模块330准备好从用户处接收音频输入。在操作730处,用户可讲话,并且他/她的所述的话语可由收听机构接收。本领域的技术人员应当明白,语音识别是已知的技术,并且将不在本文详细讨论。
在操作731处,当所说的话语正在被接收时730,如先前参考图4中的操作431所述,所说的话语的测量到的声音等级的视觉反馈605可显示在屏幕105上被提供为中心围绕着接收到触摸的触摸屏幕105上的区域。
继续至操作732,TATS模块265可标识触摸的上下文数据并且确定对与标识的上下文数据相关联的触摸的标识。在操作733处,触摸的标识可被传递给TATS模块265。例如,如果用户正在查看城市的地图,则他/她可触摸地图的特定区域并且说话。在用户触摸的屏幕界面上显示的地图的特定区域可被读取和标识为特定的维度和经度,在这一维度和经度内结合接收的口语数据使用以执行所识别的用户想要的功能。
在操作735处,接收结束收听模式的指示。相应地,在操作740处,收听模式被取消激活并且在操作745处,给出收听机构已经被取消激活的确认。
在操作750处,接收的音频输入被发送到语音识别模块,其中音频输入可被转化为数字数据、被结合标识的触摸的上下文数据进行分析,并且被确定用户说了什么。语音识别模块330可被嵌入到移动计算设备100上或者远程地放置并且通过连接到服务器的无线连接访问。一旦识别了语音,它可以被发送到动作模块340以执行所识别的用户想要的功能。根据一个实施例,触摸的上下文数据的标识和使用可在过程中的各阶段处发生,而不是必须在操作750处。
在操作755处,提取的数据接着可被发送到用户并且在移动计算设备的屏幕105上显示。根据一个实施例,检索到的数据可能需要使用其他移动应用。方法在操作760处结束。
根据一个实施例,按和保持交互可启用某些语音识别功能;而替代地,按和放开交互可启用其他功能。例如,如果用户在他的移动设备100的屏幕105上触摸他/她的手指并且移动他/她的手指离开屏幕105,则TATS模块265可启用用于语音识别交互的收听机构。但是,如果他在他的移动设备100的屏幕105上触摸他/她的手指并且把他/她的手指留在屏幕105上,则TATS模块265可启用用于在触摸的上下文中的语音识别交互的收听机构。根据这一示例,按和保持动作造成TATS模块265的不同,以除了音频输入之外还应用视觉界面的上下文。应当明白可存在在想要的交互应用之间有区别的其他方法。
尽管已结合各个实施例描述了本发明,但本领域的技术人员将理解,可在所附权利要求的范围内对其作出许多修改。

Claims (15)

1.一种为语音识别交互模块提供输入功能的方法,包括:
接收触摸移动计算设备的触摸屏界面上的任何地方的指示;415
在接收到触摸触摸屏界面上任何地方的指示后,激活语音识别模块的收听机构;425以及
显示由语音识别模块接收的话语的测量到的声音级别的动态视觉反馈,其中所显示的视觉反馈被呈现为中心围绕着接收到触摸的触摸屏上的区域。431
2.如权利要求1所述的方法,其特征在于,还包括
响应于接收到触摸移动计算设备的触摸屏界面上的任何地方的指示,生成确认。420
3.如权利要求1所述的方法,其特征在于,接收触摸移动计算设备的触摸屏界面上的任何地方的指示包括接收触摸和保持移动计算设备的触摸屏界面上的任何地方的指示。415
4.如权利要求1所述的方法,其特征在于,激活语音识别模块的收听机构包括:
确定触摸屏界面是否已经接收到触摸;415以及
激活收听机构。425
5.如权利要求2所述的方法,其特征在于,确认接收到触摸触摸屏界面上的任何地方的指示是以视觉反馈的形式。420
6.如权利要求2所述的方法,其特征在于,确认接收到触摸触摸屏界面上的任何地方的指示是以听觉反馈的形式。420
7.如权利要求2所述的方法,其特征在于,确认接收到触摸触摸屏界面上的任何地方的指示是以触觉反馈的形式。420
8.如权利要求2所述的方法,其特征在于,确认接收到触摸触摸屏界面上的任何地方的指示是以听觉、视觉和/或触觉反馈的结合的形式。420
9.一种为语音识别交互模块提供输入功能的方法,包括:
接收移动计算设备的触摸屏界面上的上下文区域内触摸的指示;715以及
在接收到触摸屏界面上的上下文区域内触摸的指示后:
标识触摸的上下文数据并且确定与标识的上下文数据相关联的触摸的标识;732
将触摸的标识传递给一个或多个软件应用;733
激活语音识别模块的收听机构;725
接收所说的话语;730
使用与标识的上下文数据750相关联的触摸的标识,并且基于标识的上下文数据造成一个或多个软件应用的功能的执行;以及
显示由语音识别模块接收的话语的测量到的声音级别的动态视觉反馈,其中所述显示的视觉反馈被提供为中心围绕着触摸屏上接收到上下文区域内的触摸的区域。731
10.如权利要求9所述的方法,其特征在于,还包括响应于接收到移动计算设备的触摸屏界面上的上下文区域内的触摸的指示,生成确认。720
11.如权利要求10所述的方法,其特征在于,确认接收到触摸屏界面上的上下文区域内的触摸的指示是以听觉反馈、视觉反馈、触觉反馈、或三者的结合的形式。720
12.如权利要求9所述的方法,其特征在于,接收移动计算设备的触摸屏界面上的上下文区域内的触摸的指示的步骤包括接收移动计算设备的触摸屏界面上的触摸屏界面上的上下文区域内触摸和保持接收的指示。715
13.一种包含计算机可执行指令的计算机可读介质,该计算机可执行指令在由计算机执行时执行为语音识别交互模块提供输入功能的方法,包括:
接收触摸移动计算设备100的触摸屏界面105上的任何地方的指示;
激活语音识别模块的收听机构330;
响应于接收到触摸移动计算设备的触摸屏界面上的任何地方的指示,生成确认;以及
显示由语音识别模块接收的话语的测量的声音级别的动态视觉反馈605,其中所述显示的视觉反馈被呈现为中心围绕着接收到上下文区域内的触摸的触摸屏上的区域。
14.如权利要求13所述的计算机可读介质,其特征在于,所述接收触摸移动计算设备100的触摸屏界面105上的任何地方的指示包括接收触摸屏上的上下文区域内的触摸的指示。
15.如权利要求14所述的计算机可读介质,其特征在于,接收触摸屏界面105上上下文区域内的触摸的指示包括:
接收一部分触摸屏界面上的触摸,在触摸屏界面中给定的信息由通过移动计算设备100操作的软件应用显示;
标识与触摸屏界面上的上下文区域相关联的上下文数据;
通过与标识的上下文数据有关的语音识别模块330的激活的收听机构接收口语方式;
将表示接收的口语方式的指令传递给用于执行与标识的上下文数据有关的功能的一个或多个软件应用266;以及
使软件应用266用于执行与标识的上下文数据有关的功能并且在触摸屏界面105上显示执行的功能的结果。
CN2010800263948A 2009-06-10 2010-06-10 触摸任何地方来讲话 Pending CN102460346A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/482,429 US8412531B2 (en) 2009-06-10 2009-06-10 Touch anywhere to speak
US12/482,429 2009-06-10
PCT/US2010/038213 WO2010144732A2 (en) 2009-06-10 2010-06-10 Touch anywhere to speak

Publications (1)

Publication Number Publication Date
CN102460346A true CN102460346A (zh) 2012-05-16

Family

ID=43307159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800263948A Pending CN102460346A (zh) 2009-06-10 2010-06-10 触摸任何地方来讲话

Country Status (10)

Country Link
US (1) US8412531B2 (zh)
EP (1) EP2440988B1 (zh)
CN (1) CN102460346A (zh)
AU (1) AU2010258675B2 (zh)
BR (1) BRPI1010584B1 (zh)
CA (1) CA2760993C (zh)
HK (1) HK1169725A1 (zh)
RU (1) RU2526758C2 (zh)
TW (1) TWI497406B (zh)
WO (1) WO2010144732A2 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014166444A1 (zh) * 2013-07-15 2014-10-16 中兴通讯股份有限公司 一种来电界面的显示方法、装置及计算机存储介质
WO2017097141A1 (zh) * 2015-12-09 2017-06-15 阿里巴巴集团控股有限公司 输入操作的处理方法、装置和智能终端
CN107004414A (zh) * 2015-10-08 2017-08-01 索尼公司 信息处理设备、信息处理方法及程序
CN109857326A (zh) * 2019-02-01 2019-06-07 思特沃克软件技术(西安)有限公司 一种车载触摸屏及其控制方法
CN110209296A (zh) * 2018-02-28 2019-09-06 夏普株式会社 信息处理装置及信息处理方法
CN112365893A (zh) * 2020-10-30 2021-02-12 上海中通吉网络技术有限公司 语音转化方法、装置及设备

Families Citing this family (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20110126094A1 (en) * 2009-11-24 2011-05-26 Horodezky Samuel J Method of modifying commands on a touch screen user interface
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110246194A1 (en) * 2010-03-30 2011-10-06 Nvoq Incorporated Indicia to indicate a dictation application is capable of receiving audio
US20110283241A1 (en) * 2010-05-14 2011-11-17 Google Inc. Touch Gesture Actions From A Device's Lock Screen
US20120089392A1 (en) * 2010-10-07 2012-04-12 Microsoft Corporation Speech recognition user interface
KR101275582B1 (ko) * 2010-12-31 2013-06-17 엘지전자 주식회사 휴대 단말기의 동작방법
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9368107B2 (en) * 2011-04-20 2016-06-14 Nuance Communications, Inc. Permitting automated speech command discovery via manual event to command mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
EP2721607A1 (en) * 2011-06-15 2014-04-23 Bone Tone Communications (Israel) Ltd. System, device and method for detecting speech
US20130218836A1 (en) * 2012-02-22 2013-08-22 Microsoft Corporation Deep Linking From Task List Based on Intent
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
CN103294183B (zh) * 2012-03-05 2017-03-01 联想(北京)有限公司 终端设备及其对压力进行反馈的方法
US9350838B2 (en) * 2012-04-03 2016-05-24 Senseapp International Ltd. Multipurpose casing for a computer based device
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR101987255B1 (ko) * 2012-08-20 2019-06-11 엘지이노텍 주식회사 음성 인식 장치 및 이의 음성 인식 방법
TWI468983B (zh) * 2012-09-21 2015-01-11 Univ Nat Chiao Tung 服務啟動方法及系統
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US10783139B2 (en) 2013-03-06 2020-09-22 Nuance Communications, Inc. Task assistant
US10795528B2 (en) * 2013-03-06 2020-10-06 Nuance Communications, Inc. Task assistant having multiple visual displays
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
KR101437572B1 (ko) * 2013-05-09 2014-09-04 (주)오픈벡스 휴대단말기의 보이스 토크 제어방법
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR102089444B1 (ko) 2013-07-25 2020-03-16 삼성전자 주식회사 음성 인식 기능을 지원하는 전자 기기의 음성 입력 제어 방법 및 장치 장치
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN105934791B (zh) 2014-01-31 2019-11-22 惠普发展公司,有限责任合伙企业 语音输入命令
CN104754395A (zh) * 2014-02-26 2015-07-01 苏州乐聚一堂电子科技有限公司 声感视觉特效系统及声感视觉特效处理方法
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10614204B2 (en) 2014-08-28 2020-04-07 Facetec, Inc. Facial recognition authentication system including path parameters
US12130900B2 (en) 2014-08-28 2024-10-29 Facetec, Inc. Method and apparatus to dynamically control facial illumination
US10803160B2 (en) 2014-08-28 2020-10-13 Facetec, Inc. Method to verify and identify blockchain with user question data
CA2902093C (en) 2014-08-28 2023-03-07 Kevin Alan Tussy Facial recognition authentication system including path parameters
US11256792B2 (en) 2014-08-28 2022-02-22 Facetec, Inc. Method and apparatus for creation and use of digital identification
US10915618B2 (en) 2014-08-28 2021-02-09 Facetec, Inc. Method to add remotely collected biometric images / templates to a database record of personal information
US10698995B2 (en) 2014-08-28 2020-06-30 Facetec, Inc. Method to verify identity using a previously collected biometric image/data
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) * 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
EP3211638B1 (en) 2014-10-24 2023-11-29 Sony Interactive Entertainment Inc. Control device, control method, program and information storage medium
WO2016063621A1 (ja) * 2014-10-24 2016-04-28 株式会社ソニー・コンピュータエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
US9904450B2 (en) 2014-12-19 2018-02-27 At&T Intellectual Property I, L.P. System and method for creating and sharing plans through multimodal dialog
US9633661B1 (en) * 2015-02-02 2017-04-25 Amazon Technologies, Inc. Speech-responsive portable speaker
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
USD803233S1 (en) * 2015-08-14 2017-11-21 Sonos, Inc. Display device with animated graphical user interface element
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US20170076626A1 (en) * 2015-09-14 2017-03-16 Seashells Education Software, Inc. System and Method for Dynamic Response to User Interaction
USD801999S1 (en) * 2015-10-08 2017-11-07 Smule, Inc. Display screen or portion thereof with graphical user interface
USD800753S1 (en) * 2015-10-08 2017-10-24 Smule, Inc. Display screen or portion thereof with animated graphical user interface
USD800751S1 (en) * 2015-10-08 2017-10-24 Smule, Inc. Display screen or portion thereof with animated graphical user interface
USD803245S1 (en) * 2015-10-08 2017-11-21 Smule, Inc. Display screen or portion thereof with graphical user interface
USD800752S1 (en) * 2015-10-08 2017-10-24 Smule, Inc. Display screen or portion thereof with animated graphical user interface
USD855629S1 (en) 2015-10-23 2019-08-06 Sony Corporation Display panel or screen or portion thereof with an animated graphical user interface
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
FR3044436B1 (fr) 2015-11-27 2017-12-01 Thales Sa Procede d'utilisation d'un dispositif d'interface homme-machine pour aeronef comportant une unite de reconnaissance de la parole
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
USD798902S1 (en) * 2016-04-20 2017-10-03 Google Inc. Display screen with animated graphical user interface
USD987653S1 (en) 2016-04-26 2023-05-30 Facetec, Inc. Display screen or portion thereof with graphical user interface
USD803870S1 (en) * 2016-05-25 2017-11-28 Microsoft Corporation Display screen with animated graphical user interface
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10909371B2 (en) * 2017-01-19 2021-02-02 Samsung Electronics Co., Ltd. System and method for contextual driven intelligence
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
JP1618244S (zh) * 2018-01-31 2019-01-21
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
USD890773S1 (en) * 2018-04-03 2020-07-21 Samsung Electronics Co., Ltd. Display screen or portion thereof with transitional graphical user interface
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
CN108804010B (zh) * 2018-05-31 2021-07-30 北京小米移动软件有限公司 终端控制方法、装置及计算机可读存储介质
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
USD916724S1 (en) * 2018-10-30 2021-04-20 Juul Labs, Inc. Display screen or portion thereof with animated graphical user interface
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
USD914701S1 (en) * 2019-03-29 2021-03-30 Snap Inc. Display screen or portion thereof with a transitional graphical user interface
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
USD952661S1 (en) 2020-10-12 2022-05-24 Apple Inc. Display screen or portion thereof with animated graphical user interface
USD973082S1 (en) * 2021-04-20 2022-12-20 Apple Inc. Display screen or portion thereof with graphical user interface
USD995553S1 (en) * 2021-04-28 2023-08-15 Hyperconnect LLC Display panel with animated graphical user interface
USD978894S1 (en) 2021-06-05 2023-02-21 Apple Inc. Display screen or portion thereof with animated graphical user interface
USD1040821S1 (en) * 2021-09-23 2024-09-03 Endomagnetics Ltd Display screen or portion thereof with animated graphical user interface of a base station for a surgical probe
CN115350463A (zh) * 2022-08-12 2022-11-18 青岛智测体育科技有限公司 一种智能手机秒表计时方法、计时系统、设备、终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1101446A (zh) * 1993-01-21 1995-04-12 Dsp飒露神思国际公司 语音教学计算机化系统
CN1300929A (zh) * 2000-11-14 2001-06-27 陈远燮 一种数字多功能家用电冰箱
CN1614547A (zh) * 2003-11-03 2005-05-11 国际商业机器公司 指点设备事件处理的改进的反馈的装置、方法和系统
CN1816083A (zh) * 2001-04-05 2006-08-09 诺基亚有限公司 短语音消息业务方法、装置及系统
CN1885976A (zh) * 2005-06-24 2006-12-27 英华达(上海)电子有限公司 将声音在手机显示屏上图形化显示并播放的方法
CN101047744A (zh) * 2006-03-31 2007-10-03 阿尔卡特朗讯 支持在线和首选项的即按即说电话系统
CN101295223A (zh) * 2008-06-06 2008-10-29 马晶 实现快捷操作的系统及其操作方法、通讯终端及使用方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6115482A (en) * 1996-02-13 2000-09-05 Ascent Technology, Inc. Voice-output reading system with gesture-based navigation
FI981154A (fi) 1998-05-25 1999-11-26 Nokia Mobile Phones Ltd Menetelmä ja laite puheen tunnistamiseksi
GB9814398D0 (en) * 1998-07-02 1998-09-02 Nokia Mobile Phones Ltd Electronic apparatus
US6232957B1 (en) * 1998-09-14 2001-05-15 Microsoft Corporation Technique for implementing an on-demand tool glass for use in a desktop user interface
US7720682B2 (en) 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US6233560B1 (en) 1998-12-16 2001-05-15 International Business Machines Corporation Method and apparatus for presenting proximal feedback in voice command systems
US7292986B1 (en) * 1999-10-20 2007-11-06 Microsoft Corporation Method and apparatus for displaying speech recognition progress
US8287374B2 (en) * 2000-07-07 2012-10-16 Pryor Timothy R Reconfigurable control displays for games, toys, and other applications
JP3919210B2 (ja) * 2001-02-15 2007-05-23 アルパイン株式会社 音声入力案内方法及び装置
KR100457509B1 (ko) 2001-07-07 2004-11-17 삼성전자주식회사 터치스크린과 음성인식을 통해 동작 제어되는 정보단말기 및 그의 명령 실행 방법
US7249023B2 (en) * 2003-03-11 2007-07-24 Square D Company Navigated menuing for industrial human machine interface via speech recognition
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
EP1560199B1 (en) 2004-01-29 2008-07-09 Harman Becker Automotive Systems GmbH Multimodal data input
US20050198265A1 (en) * 2004-01-30 2005-09-08 Peter Veprek Method and apparatus for information notification
US20050197843A1 (en) * 2004-03-07 2005-09-08 International Business Machines Corporation Multimodal aggregating unit
US7672845B2 (en) 2004-06-22 2010-03-02 International Business Machines Corporation Method and system for keyword detection using voice-recognition
US8760408B2 (en) 2004-08-02 2014-06-24 Koninklijke Philips N.V. Touch screen with pressure-dependent visual feedback
US20070112571A1 (en) 2005-11-11 2007-05-17 Murugappan Thirugnana Speech recognition at a mobile terminal
WO2007073798A1 (en) 2005-12-27 2007-07-05 Koninklijke Kpn N.V. Call routing based on context sensitive speech recognition
US20080109222A1 (en) 2006-11-04 2008-05-08 Edward Liu Advertising using extracted context sensitive information and data of interest from voice/audio transmissions and recordings
US20090192898A1 (en) * 2006-11-29 2009-07-30 E-Meal, Llc Remote Ordering System
US8219406B2 (en) * 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US20080317219A1 (en) 2007-06-21 2008-12-25 Siemens Communications, Inc. Method and apparatus for context based voice dialing
DE102008051756A1 (de) * 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US8195220B2 (en) * 2008-02-01 2012-06-05 Lg Electronics Inc. User interface for mobile devices
US8065143B2 (en) * 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1101446A (zh) * 1993-01-21 1995-04-12 Dsp飒露神思国际公司 语音教学计算机化系统
CN1300929A (zh) * 2000-11-14 2001-06-27 陈远燮 一种数字多功能家用电冰箱
CN1816083A (zh) * 2001-04-05 2006-08-09 诺基亚有限公司 短语音消息业务方法、装置及系统
CN1614547A (zh) * 2003-11-03 2005-05-11 国际商业机器公司 指点设备事件处理的改进的反馈的装置、方法和系统
CN1885976A (zh) * 2005-06-24 2006-12-27 英华达(上海)电子有限公司 将声音在手机显示屏上图形化显示并播放的方法
CN101047744A (zh) * 2006-03-31 2007-10-03 阿尔卡特朗讯 支持在线和首选项的即按即说电话系统
CN101295223A (zh) * 2008-06-06 2008-10-29 马晶 实现快捷操作的系统及其操作方法、通讯终端及使用方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014166444A1 (zh) * 2013-07-15 2014-10-16 中兴通讯股份有限公司 一种来电界面的显示方法、装置及计算机存储介质
CN107004414A (zh) * 2015-10-08 2017-08-01 索尼公司 信息处理设备、信息处理方法及程序
CN107004414B (zh) * 2015-10-08 2020-11-13 索尼公司 信息处理设备、信息处理方法及记录介质
WO2017097141A1 (zh) * 2015-12-09 2017-06-15 阿里巴巴集团控股有限公司 输入操作的处理方法、装置和智能终端
CN106855780A (zh) * 2015-12-09 2017-06-16 阿里巴巴集团控股有限公司 输入操作的处理方法、装置和智能终端
CN110209296A (zh) * 2018-02-28 2019-09-06 夏普株式会社 信息处理装置及信息处理方法
CN110209296B (zh) * 2018-02-28 2022-11-01 夏普株式会社 信息处理装置及信息处理方法
CN109857326A (zh) * 2019-02-01 2019-06-07 思特沃克软件技术(西安)有限公司 一种车载触摸屏及其控制方法
CN112365893A (zh) * 2020-10-30 2021-02-12 上海中通吉网络技术有限公司 语音转化方法、装置及设备

Also Published As

Publication number Publication date
TW201044265A (en) 2010-12-16
TWI497406B (zh) 2015-08-21
US8412531B2 (en) 2013-04-02
HK1169725A1 (zh) 2013-02-01
WO2010144732A3 (en) 2011-03-24
EP2440988B1 (en) 2014-11-19
BRPI1010584A2 (pt) 2016-03-15
US20100318366A1 (en) 2010-12-16
BRPI1010584B1 (pt) 2020-01-28
EP2440988A2 (en) 2012-04-18
AU2010258675B2 (en) 2014-05-29
CA2760993C (en) 2016-08-02
CA2760993A1 (en) 2010-12-16
AU2010258675A1 (en) 2011-11-24
WO2010144732A2 (en) 2010-12-16
EP2440988A4 (en) 2013-08-28
RU2526758C2 (ru) 2014-08-27
RU2011150255A (ru) 2013-06-20

Similar Documents

Publication Publication Date Title
CN102460346A (zh) 触摸任何地方来讲话
JP7037602B2 (ja) デジタルアシスタントサービスの遠距離拡張
AU2018220115B2 (en) Virtual assistant continuity
EP3507949B1 (en) Intelligent digital assistant for declining an incoming call
EP3414667B1 (en) Digital assistant providing automated status report
CN106104677B (zh) 所识别的语音发起的动作的视觉指示
US10186254B2 (en) Context-based endpoint detection
US8543397B1 (en) Mobile device voice activation
US8019606B2 (en) Identification and selection of a software application via speech
WO2018212861A1 (en) Providing an auditory-based interface of a digital assistant
EP4083781A1 (en) Announce notifications
KR20180109580A (ko) 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
KR20160021850A (ko) 환경 인식 다이얼로그 정책 및 응답 생성
CN107102746A (zh) 候选词生成方法、装置以及用于候选词生成的装置
AU2010254812A1 (en) Contextual voice commands
CN107967055A (zh) 一种人机交互方法、终端及计算机可读介质
KR20130126038A (ko) 컨텐트에 대한 오토 네이밍 방법 및 이 기능을 갖는 장치와 기록 매체
KR20140105340A (ko) 휴대 단말기의 멀티 태스킹 운용 방법 및 장치
AU2017100557B4 (en) Digital assistant providing automated status report
EP2806364B1 (en) Method and apparatus for managing audio data in electronic device
AU2017100586B4 (en) Application integration with a digital assistant
KR20150022597A (ko) 필기체 입력 방법 및 그 전자 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150728

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150728

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120516