CN112513978A - 热词辨识和被动辅助 - Google Patents
热词辨识和被动辅助 Download PDFInfo
- Publication number
- CN112513978A CN112513978A CN201880096300.0A CN201880096300A CN112513978A CN 112513978 A CN112513978 A CN 112513978A CN 201880096300 A CN201880096300 A CN 201880096300A CN 112513978 A CN112513978 A CN 112513978A
- Authority
- CN
- China
- Prior art keywords
- computing device
- power mode
- hotword
- display
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000004044 response Effects 0.000 claims abstract description 38
- 238000013518 transcription Methods 0.000 claims abstract description 37
- 230000035897 transcription Effects 0.000 claims abstract description 37
- 238000004590 computer program Methods 0.000 abstract description 6
- 230000009471 action Effects 0.000 description 58
- 230000015654 memory Effects 0.000 description 37
- 238000004891 communication Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000002730 additional effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000008267 milk Substances 0.000 description 2
- 210000004080 milk Anatomy 0.000 description 2
- 235000013336 milk Nutrition 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 230000000284 resting effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013351 cheese Nutrition 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72451—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to schedules, e.g. using calendar applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/68—Details of telephonic subscriber devices with means for recording information, e.g. telephone number during a conversation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
公开了用于实现热词辨识和被动辅助的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法包括由计算设备接收与话语相对应的音频数据的动作,该计算设备正在低功率模式下操作并且包括在计算设备处于低功率模式时显示图形界面的显示器并且被配置成响应于检测到第一热词而退出低功率模式。该方法进一步包括确定音频数据包括第二不同的热词。该方法进一步包括通过对音频数据执行语音辨识来获得话语的转录。该方法进一步包括生成附加用户界面。该方法进一步包括提供附加图形界面以在显示器上输出。
Description
技术领域
本说明书总体涉及自动语音辨识。
背景技术
启用语音的家庭或其他环境——即,用户只需要大声讲出查询或命令而基于计算机的系统将应对(field)并回答查询和/或使命令被执行的环境——的现实已来临。能够使用分布在环境的各个房间或区域中的连接麦克风设备的网络来实现启用语音的环境(例如,家庭、工作场所、学校等)。通过这样的麦克风网络,用户具有从环境中基本上任何地方口头查询系统而无需在他/她面前或甚至附近具有计算机或其他设备的能力。例如,当在厨房里烹饪时,用户可能直接问系统“how many milliliters in three cups?(三杯里有多少毫升?)”,并且作为响应,接收来自系统的答案,例如形式为合成话音输出。或者,用户可能问系统诸如“when does my nearest gas station close(我最近的加油站什么时候关闭)”的问题,或者在准备离开房子时,问“should I wear a coat today?(我今天应该穿外套吗?)”
另外,用户可以问系统的查询,并且/或者发出与用户的个人信息有关的命令。例如,用户可能问系统“when is my meeting with John?(我何时与John见面?)”或者命令系统“remind me to call John when I get back home(在我回家时提醒我给John打电话)”。
发明内容
对于启用语音的系统,用户与系统交互的方式被设计为主要是而不排他地借助于话音输入。因此,潜在地获取在周围环境中做出的所有话语(包括不针对系统的那些话语)的系统必须具有鉴别任何给定话语何时指向系统而不是例如指向存在于环境中的个人的某种方式。一种实现这个的方式是使用热词,该热词经环境中用户同意被保留为预定词,该预定词被讲出以引起系统的注意。在示例环境中,用于引起系统的注意的热词是词“OKcomputer(好的计算机)”。因此,每当词“OK computer”被讲出时,它被麦克风获取,传达到系统,该系统可以执行语音辨识技术或者使用音频特征和神经网络来确定是否讲出了热词,并且如果是这样的话,等待随后的命令或查询。因此,指向系统的话语采用一般格式[热词][查询],其中此示例中的“热词”是“OK computer”并且“查询”可以是任何问题、命令、声明、或可以由系统单独或经由网络结合服务器语音辨识、解析和作用于的其他请求。
启用语音的系统可以被配置成对个不止一个热词做出响应。在一些启用语音的系统包括始终开启的(always-on)显示器的情况下,该系统可以响应于检测到一些附加热词而向用户提供被动辅助。该系统可以以不引人注目的方式在始终开启的显示器上显示与检测到的热词以及跟随的任何语音有关的信息。例如,用户可能正在与朋友进行关于午餐计划的对话。用户的电话可能搁置在桌子上,并且麦克风可以能够检测对话。在对话期间,朋友可能问用户“Are you free for lunch tomorrow?(明天午餐你空闲吗?)”用户的电话可以检测到该问题并确定该问题是否包括热词。除了“OK computer”之外,电话还可以被配置成检测诸如“are you free(你空闲吗)”和“don’t forget(不要忘记)”的热词。响应于接收到“are you free for lunch tomorrow”的音频数据,电话识别热词“are you free”并对剩余音频数据执行语音辨识。基于识别热词“are you free”并生成转录“for lunchtomorrow”,电话自动地访问用户的日历信息并且在始终开启的显示器上显示次日期间的午餐时间的相关日历信息。用户能够查看电话以确定用户自己的空闲性并快速地回答用户是否空闲,而无需必须通过任何按钮或显示器或者向电话说“OK computer”来与电话交互。
根据本申请中描述的主题的一个创新方面,一种用于实现热词辨识和被动辅助的方法包括以下动作:由计算设备接收与话语相对应的音频数据,该计算设备(i)正在低功率模式下操作并且包括当计算设备处于低功率模式时显示图形界面的显示器以及(ii)被配置成响应于检测到第一热词而退出低功率模式;由计算设备确定音频数据包括第二、不同的热词;响应于确定音频数据包括第二、不同的热词,由计算设备通过对音频数据执行语音辨识来获得话语的转录;基于第二、不同的热词和话语的转录,由计算设备生成附加用户界面;以及,当计算设备保持在低功率模式下时,提供附加图形界面以在显示器上输出。
这些和其他实施方式能够各自任选地包括以下特征中的一个或多个。这些动作包括:在提供附加图形界面以在显示器上输出之后,由计算设备接收包括键按压的输入;以及,在接收到包括键按压的输入之后,将计算设备切换到与低功率模式相比消耗更多功率的高功率模式。这些动作包括:在将计算设备切换到与低功率模式相比消耗更多功率的高功率模式之后并且当显示器保持活跃时,使计算设备返回到低功率模式;以及,在使计算设备返回到低功率模式之后,提供用户界面以在显示器上输出。当处于高功率模式时,计算设备以第一频率从网络取得(fetch)数据。当处于低功率模式时,计算设备以第二、较低的频率从网络取得数据。显示器是触敏显示器。当计算设备处于低功率模式时,显示器不能够接收触摸输入。
当计算设备处于与低功率模式相比消耗更多功率的高功率模式时,显示器能够接收触摸输入。动作包括:基于第二、不同的热词识别计算设备可访问的应用;以及将话语的转录提供给应用。附加用户界面是基于将话语的转录提供给应用而生成的。动作包括由计算设备接收第一热词的第一热词模型和第二、不同的热词的第二、不同的热词模型。确定音频数据包括第二、不同的热词的动作包括将音频数据应用于第二、不同的热词模型。附加图形界面包括可选选项,该可选选项在由用户选择时,更新应用。动作包括响应于确定音频数据包括第二、不同的热词而将计算设备维持在低功率模式下。动作包括由计算设备确定话语的讲话者不是计算设备的主要用户。
通过对音频数据执行语音辨识来获得话语的转录的动作是响应于确定话语的讲话者不是计算设备的主要用户。动作包括:由计算设备接收与附加话语相对应的附加音频数据;由计算设备确定附加音频数据包括第一热词;以及,响应于确定音频数据包括第二、不同的热词,将计算设备从低功率模式切换到与低功率模式相比消耗更多功率的高功率模式。动作包括由计算设备确定附加话语的讲话者是计算设备的主要用户。将计算设备从低功率模式切换到与低功率模式相比消耗更多功率的高功率模式的动作是响应于确定附加话语的讲话者是计算设备的主要用户。
此方面的其他实施例包括对应的系统、装置以及记录在计算机存储设备上的计算机程序,每个均被配置成执行方法的操作。
能够实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。计算设备可以被配置成响应于检测到热词而在始终开启的显示器上自动地提供信息。通过区分被配置成将计算设备从低功率状态切换到高功率状态的第一热词和被配置成使得计算设备能够在低功率状态下执行后台处理并输出信息的第二、不同的热词,本文描述的技术提供了使得能够在计算设备的不同情形和不同用途下适当地处理用户输入的机制。始终开启的显示器与区分第一热词和第二热词相结合地提供了用于向用户传达信息的低功率方式而无需用户必须主动地检索信息,所述用户必须主动地检索信息将使电话切换到当用户检索信息时消耗更多功率的模式中。
本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1图示执行热词辨识并通过始终开启的显示器提供被动辅助的示例系统100。
图2图示执行热词辨识并提供被动辅助的示例系统。
图3是用于执行热词辨识并提供被动辅助的示例过程的流程图。
图4是计算设备和移动计算设备的示例。
在各个附图中,相同的附图标记和名称指示相同的元件。
具体实施方式
图1图示执行热词辨识并通过始终开启显示器提供被动辅助的示例系统100。简要地,并且如在下面更详细地描述的,用户105和用户110正在进行对话。用户105通过问用户110“Are you free for lunch tomorrow?”来讲出话语115。在对话期间,用户110的计算设备120可以搁置在桌子上并足够靠近以检测话语115。在用户110未将命令定向到计算设备120的情况下,计算设备120处理话语115并显示用户110次日的日历信息。即使当计算设备处于休眠模式或处于低功率模式时,计算设备120的显示器也可以始终开启。
在图1中示出的示例中,用户105和用户110正在讨论他们次日的午餐计划。用户105可能未将命令定向到计算设备120。用户110可能正在将计算设备120握在用户的手中,或者计算设备120可能正搁置在附近的桌子上或者在用户的衬衫口袋中。计算设备120可以是被配置成接收音频数据的任何类型的设备,诸如智能电话、膝上型计算机、台式计算机、智能扬声器、电视、智能手表或任何其他类似的设备。
计算设备120包括可以始终活跃的显示器125。当电话处于休眠模式、被锁定、或者用户110已经未与电话交互或未将命令定向到电话达一时间段时,显示器125可以处于低功率状态。当处于低功率状态时,显示器125可以示出当前日期和时间,但是可以主要为空白的或“关闭”。当处于低功率状态时,显示器125可以仅以诸如灰色的单一颜色显示信息。当处于低功率状态时,显示器125可以以比在高功率状态下更低的像素分辨率显示信息。当处于低功率状态时,显示器125可以在减小的亮度下操作,在预定的亮度下操作,或者在高达比当设备在高功率状态下操作时显示器125的最大亮度低的最大亮度下操作。当计算设备120接收到附加消息或通知时,计算设备120可以更新显示器125。例如,如果计算设备120接收到新的电子邮件,则计算设备120可以更新处于低功率状态的显示器125以包含信封图标。
计算设备120的显示器125的低功率状态可以与计算设备120的显示器125的高功率状态相反。显示器125的高功率状态可以是用户110与显示器125交互的典型状态。例如,当显示器125处于高功率状态时,用户110可以浏览互联网,检查电子邮件,并且编写文本消息。当显示器125处于高功率状态时,用户110可以调整显示器125的亮度。在一些实施方式中,显示器125可以能够在处于高功率状态时而不是在处于低功率状态时跨全部显示器接收触摸输入。例如,显示器125可能不能够在低功率状态下接收触摸输入,或者能够仅在有限预定义区域中接收触摸输入。
为了将显示器125从低功率状态切换到高功率状态,用户110可以提供密码、生物标识符,讲出特定热词(例如,OK Computer),按压休眠/唤醒按钮或任何其他类似的动作。在一些实施方式中,热词可以是单个词(例如,“assistant(助理)”)或多个词(例如,“OKComputer”、“are you free”等)。为了将显示器125从高功率状态切换到低功率状态,用户110可以不与计算设备120交互达特定时间段(例如,三十秒),按压休眠/唤醒按钮或任何其他类似的动作。
在一些实施方式中,计算设备120可以在处于高功率模式时执行一些动作,而在处于低功率模式时不执行那些动作以节约电池电力、网络带宽、处理能力和/或任何类似的计算资源。例如,当处于高功率模式时,计算设备120可以从网络自动地取得新消息。当处于低功率模式时,计算设备可能不从网络自动地取得新消息。当处于高功率模式时,计算设备120可以自动地更新或刷新在后台中运行的任何应用。当处于低功率模式时,计算设备120可能不更新或刷新在后台中或不在后台中运行的任何应用。当处于高功率模式时,计算设备120可以激活用于位置服务应用或其他应用的GPS传感器。当处于低功率模式时,计算设备120可以停用GPS传感器。当处于高功率模式时,计算设备120可以使存储在计算设备120上的数据与存储在云中的数据同步或者反之亦然。当处于低功率模式时,计算设备可能不使存储在计算设备120上的数据与存储在云中的数据同步或者反之亦然。当处于高功率模式时,计算设备120可以从应用商店自动地下载应用更新。当处于低功率模式时,计算设备120可能不从应用商店下载应用更新。在一些实施方式中,与当处于高功率模式时相比,计算设备120在处于低功率模式时,可以以较低的频率执行上述过程中的任一个。例如,当处于高功率模式时,计算设备120可以每秒从网络自动地取得新消息。当处于低功率模式时,计算设备可以每分钟从网络自动地取得新消息。
在图1的阶段A中,计算设备120的显示器125处于低功率状态。显示器125显示图形界面130,该图形界面包括当前日期和时间以及用于键入密码以解锁计算设备120的指示。用户110可能不正在与计算设备120交互,并且计算设备120可以处于休眠状态。计算设备120可以搁置在用户105和用户110附近的桌子上。
在阶段B中,用户105讲出话语115。例如,用户105可以讲出:“Are you free forlunch tomorrow”。在阶段C中,计算设备120通过麦克风检测话语115。当计算设备120接收到话语时,计算设备120处理与话语115相对应的音频数据130。
在阶段D中,计算设备120将音频数据130与一个或多个热词模型进行比较。计算设备120可以使用热词模型来确定音频数据是否包括热词中的一个而无需执行语音辨识。例如,计算设备120可以具有针对“are you free”的热词模型和针对“ok computer”的热词模型。计算设备120可以将热词模型应用于音频数据130以确定音频数据130包括热词“areyou free”。在一些实施方式中,计算设备120可以使用被训练来检测多个短语的一个热词模型。在一些实施方式中,计算设备120可以使用每一个均在不同的短语上训练的多个热词模型。
在阶段E中,计算设备120对不包括热词的音频数据130的部分执行语音辨识。例如,计算设备120可以通过对不包括“are you free”的音频数据130执行语音辨识来生成转录“for lunch tomorrow”。
基于所识别的热词或转录或两者,计算设备130可以确定要执行的特定动作或从中访问数据的特定应用。例如,热词“are you free”可以触发计算设备130访问日历应用。热词“don’t forget to”可以触发计算设备访问提醒应用。热词“let’s go(让我们出发)”可以访问拼车或共享单车应用。在阶段F中,计算设备120响应于检测到热词“are youfree”而访问日历应用。
在阶段G中,计算设备120可以使用在阶段F中访问的应用来确定要执行的动作。计算设备120可以基于音频数据130的转录识别动作。例如,转录可以是“for lunchtomorrow”。基于转录和所识别的热词,计算设备120可以访问次日典型午餐时间期间的日历并且识别用户110在那些时间期间的时间表。作为另一示例,计算设备120可以基于转录“next week(下周)”识别动作。基于此转录和所识别的热词“are you free”,计算设备120可以访问下周日历。作为另一示例,计算设备120可以识别热词“let’s go”。计算设备120可能不识别在该热词之后讲出的任何其他词。在这种情况下,基于热词“let’s go”,计算设备可以访问拼车或共享单车应用。
在阶段H中,计算设备120生成图形界面135,该图形界面包括来自在阶段G中访问的应用的细节。在阶段I中,计算设备120在显示器125保持在低功率状态下时将图形界面135显示在显示器125上。例如,计算设备120通过访问日历来识别了用户110明天午餐时间的时间表。图形界面135可以包括用户110次日在上午11点与下午2点之间空闲的信息。作为另一示例,计算设备120识别了热词“are you free”和转录“next week”。在这种情况下,计算设备120可以通过访问日历应用来识别下周用户110空闲的若干不同的时隙。计算设备120生成具有一些空闲时隙以及指示存在附加空闲时隙的信息的图形界面135。图形界面135可以指示“July 23 10am-2pm free(7月23日上午10点至下午2点空闲)”、“July 241pm-3pm free(7月24日下午1点至下午3点空闲)”和“additional free time available(附加空闲时间可用)”。图形界面135还可以指示要键入密码以解锁计算设备120。代替密码,计算设备120可以在接收到适当的生物标识符之后解锁。图形界面135可以示出一天/周/月日历的渲染,其中忙时段被排除。可以排除每个时段的事件信息,使得在图形界面135上不示出私人信息。
在一些实施方式中,计算设备120可以被动地对主要用户进行认证并调整计算设备120在始终开启的显示器上示出的细节量。例如,计算设备120可以通过在相机的视场中辨识用户的面部来验证用户在计算设备120附近。在这种情况下,计算设备120可以在显示在始终开启的显示器上的时间段期间在始终开启的显示器上提供更多细节,诸如每个日历预约的事件信息。作为另一示例,计算设备120可能不能够通过在相机的视场中辨识用户的面部来验证用户在计算设备120附近。在这种情况下,计算设备120可以在显示在始终开启的显示器上的时间段期间在始终开启的显示器上提供更少细节,诸如每个日历预约的空闲/忙标识符。作为面部辨识的代替或除面部辨识之外,计算设备120可以通过使用讲话者验证或认证来识别主要用户的语音来确定主要用户在附近。计算设备120可以通过测量被识别为属于主要用户的语音音频的接收音量来估计计算设备120与主要用户之间的距离。
在一些实施方式中,显示器125可以能够在处于低功率状态时接收触摸输入。在这种情况下,计算设备120可以生成图形界面135,该图形界面包括用户能够选择以由计算设备120发起附加动作的按钮。例如,计算设备可以识别热词“let’s go”并访问拼车应用。图形界面135可以指示拼车司机在三分钟远处并且包括用户110能够选择以发起拼车请求的按钮。用户110可以选择按钮,并且显示器125可以转变到用户110能够完成拼车请求的高功率状态。在一些实施方式中,在选择按钮之后并在用户110能够完成拼车请求之前,用户110可能必须键入密码或者提供其他识别信息。
虽然计算设备120执行阶段C至I并且显示图形界面135,但是用户110可能未正在通过触摸或通过话音命令来与计算设备120交互。在阶段J中,用户110查看计算设备120的显示器125并且注意到计算设备120已自动地更新了显示器125以包括用户在次日午餐时间期间的空闲性。
图2图示执行热词辨识并提供被动辅助的示例系统200。系统200可以是被配置成接收并处理语音音频的任何类型的计算设备。例如,系统200可以类似于图1的计算设备120。系统200的组件可以被实现在单个计算设备中或者分布在多个计算设备之上。出于隐私原因,系统200被实现在单个计算设备中可以是有益的。
系统200包括音频子系统202。音频子系统202可以包括麦克风204、模数转换器206、缓冲器208和各种其他音频滤波器。麦克风204可以被配置成检测周围区域中的声音,诸如语音。模数转换器206可以被配置成对由麦克风204检测到的音频数据进行采样。缓冲器208可以存储经采样的音频数据以供由系统200处理。在一些实施方式中,音频子系统202可以是持续活跃的。在这种情况下,麦克风204可以一直检测声音。模数转换器206可以一直对所检测到的音频数据进行采样。缓冲器208可以存储最新采样的音频数据,诸如最后十秒声音。如果系统200的其他组件未处理缓冲器208中的音频数据,则缓冲器208可以覆写先前的音频数据。
在图2中示出的示例中,麦克风204可以检测到与“Don’t forget to buy milk(别忘记买牛奶)”相对应的话语。模数转换器206可以对所接收到的音频数据进行采样,并且缓冲器208可以存储经采样的音频数据212。
音频子系统202将音频数据212提供给热词器210。热词器210被配置成识别通过麦克风204接收和/或存储在缓冲器208中的音频中的热词。可以将热词器210称为热词检测器、关键词发现器或关键词检测器。在一些实施方式中,热词器210可以在系统200被通电时的任何时间是活跃的。热词器210连续地分析存储在缓冲器208中的音频数据。热词器210计算热词置信分数,该热词置信分数反映缓冲器208中的当前音频数据包括热词的可能性。为了计算热词置信分数,热词器210可以使用热词模型214。热词器210可以从音频数据212中提取音频特征,诸如滤波器组能量或梅尔频率倒谱系数。热词器210可以使用分类窗口来诸如通过使用支持向量机或神经网络来处理这些音频特征。在一些实施方式中,热词器210不执行语音辨识来确定热词置信分数。如果热词置信分数满足热词置信分数阈值,则热词器210确定音频包括热词。例如,如果热词置信分数是0.8并且热词置信分数阈值是0.7,则热词器210确定音频212包括热词。
在一些实施方式中,热词模型214包括针对多个热词的热词模型。例如,热词模型214可以包括针对“are you free”、“don’t forget”、“let’s go”、“ok computer”和其他词项的热词模型。在一些实施方式中,用户或诸如服务器的另一系统可以添加附加热词模型。例如,用户可以向系统200指示要添加针对“let’s go”的热词模型。系统200可以请求用户讲出“let’s go”的若干音频样本。系统200可以基于不同的音频样本生成热词模型。在一些实施方式中,系统可以访问
在图2中示出的示例中,热词器210确定音频数据212包括热词216“don’tforget”。热词器210可以识别包括热词216的音频数据212的部分。例如,热词器210可以为语音辨识器218识别包括热词“don’t forget”的“don’t forget to buy milk”音频数据的部分。热词器210可以向语音辨识器218提供定时数据,该定时数据指示介于0.0秒与0.5秒之间的音频数据包括热词。替换地或附加地,热词器210可以向语音辨识器218提供存储器位置信息,该存储器位置信息指示存储在存储器地址0x98b89d24和0x98b8e35a之间的音频数据包括热词。
在一些实施方式中,热词器210可以包括讲话者识别能力。在这种情况下,热词器210可以识别讲出了热词的特定人或者除特定人以外的某人讲出了热词。例如,热词器210可以确定用户105很可能讲出了热词。热词器210可以向语音辨识器218和/或动作识别器222提供指示用户105很可能讲出了热词的数据。作为另一示例,热词器210可以确定除用户110以外的用户很可能讲出了热词。热词器210可以向语音辨识器218和/或动作识别器222提供指示除用户110以外的用户很可能讲出了热词的数据。为了执行讲话者识别,热词器210可能先前已通过请求用户重复各种短语收集了用户的语音数据。热词器210可能已使用了所收集的语音样本来训练讲话者识别模型。例如,热词器210可能已使用了由用户110讲出的语音样本来训练讲话者识别模型。
语音辨识器218对音频数据212或对不包括热词的音频数据212的部分执行语音辨识。语音辨识器218可以使用语言模型和声学模型来生成音频数据212或不包括热词的音频数据212的部分的转录。例如,语音辨识器218可以对不包括“don’t forget”的音频数据212的部分执行语音辨识并生成转录220“to buy milk”。
在一些实施方式中,如果系统200开启则热词器210是活跃的。在这种情况下,可以在与系统200的主处理器比使用更少功率的硬件中实现热词器210。例如,可以在数字信号处理器(DSP)中实现热词器210。在一些实施方式中,可以在系统200的处理器执行的软件中实现语音辨识器218。系统200的语音辨识器218和/或处理器可以响应于热词器210检测到热词216而激活。
语音辨识器218将热词216和转录220提供给动作识别器222。动作识别器222被配置成从动作224当中识别动作以供系统200响应于热词216和转录220而执行。在一些实施方式中,动作可以与热词216有关。例如,热词216可以是“don’t forget”。在这种情况下,热词216“don’t forget”可以触发动作识别器222以识别向提醒列表或日历应用添加提醒的动作。作为另一示例,热词216可以是“are you free”,其可以触发动作识别器222以识别识别空闲和忙时间的动作。
在一些实施方式中,动作识别器222从用户接收联系到热词的动作。例如,用户可以指定响应于热词216“let’s go”而检查附近的共享单车选项。在一些实施方式中,服务器可以指定响应于热词216“let’s go”而检查附近的共享单车选项和共享汽车选项。
在一些实施方式中,动作识别器222可以确定由于来自用户的输入和/或来自服务器的输入而无效的热词。例如,用户可以指定动作识别器222不对热词“are you free”做出响应。用户可以通过系统200经由显示器提供的菜单或类似的图形界面来输入针对不同热词的选择并输入附加热词。
动作识别器222可以将识别动作的数据提供给应用识别器226。应用识别器226可以将来自应用228当中的应用识别为用于执行由动作识别器222识别的动作的候选应用。应用识别器226可以识别应用以用于访问附加应用数据230以提供给用户。例如,应用识别器226可以将提醒应用识别为用于执行向提醒列表添加提醒的动作的候选应用。动作232可以是向提醒应用添加要“buy milk”的提醒。
在一些实施方式中,应用228包括被安装在系统200上的应用和/或例如通过网络连接可由系统200访问的应用。例如,安装在系统200上的应用可以是提醒应用或日历应用。通过网络连接可访问的应用可以是web应用。在一些实施方式中,可以通过网络连接访问安装在系统200上的应用的应用数据230。
在一些实施方式中,应用识别器226基于除热词216以外的音频数据212的部分的转录220来识别候选应用。例如,热词216可以是“let’s go”并且转录220可以是“to Alice’s house(去爱丽丝的房子)”。在这种情况下,动作识别器222可以识别确定无桩(dockless)共享单车的可用性的动作。动作识别器222可以访问联系人应用以确定爱丽丝的房子的位置。在爱丽丝的房子在距系统200阈值距离内的情况下,动作识别器222访问共享单车应用以确定附近单车的可用性。在跟随“let’s go”热词之后的位置在阈值距离之外的情况下,那么动作识别器222可以访问拼车应用以确定附近拼车车辆的可用性。
在一些实施方式中,热词器210的讲话者可能影响由动作识别器222选择的动作和/或由应用识别器226选择的应用。例如,如果热词216的讲话者是除系统200的用户以外的某人,则热词216“are you free”可以触发动作识别器222以识别动作。如果热词216的讲话者是用户110,则系统200可以抑制响应于热词216“are you free”而触发动作。返回到图1,因为计算设备120确定用户110确实未讲出热词“are you free”,所以计算设备120识别动作和应用。
取决于讲话者是系统200的主要用户(例如,所有者)还是除系统200的主要用户以外的某人,一些热词可以具有不同的动作。例如,系统200可以检测到“don’t forget tocall mom(不要忘记给妈妈打电话)”。如果讲话者是除主要用户以外的某人,则动作识别器222可以识别将“call mom(给妈妈打电话)”添加到提醒列表的动作。如果讲话者是主要用户,则动作识别器222可以识别自动地将“call mom”添加到提醒列表或者为“call mom”自动地安排日历预约的动作。
动作识别器222将经识别的动作232提供给用户界面生成器234。用户界面生成器234生成图形界面236以在系统200的显示器上显示。系统200可以在系统200的显示器处于低功率状态时显示图形界面236。例如,用户界面生成器234可以显示包括按钮242的图形界面236,用户可以选择该按钮以执行向提醒列表添加“buy milk”的动作232。
图形界面236可以包括日期和时间部分238。系统200可以在显示器处于低功率状态时的任何时间在日期和时间部分238上显示当前日期和时间。用户界面生成器234可以添加包括经识别的动作232的附加图形部分240。在一些实施方式中,附加图形部分240包括按钮242。用户可以选择按钮242以发起系统200来执行动作232。例如,用户可以选择按钮242以将“buy milk”添加到提醒列表。用户可以在使显示器转变到高功率状态而无需选择按钮242。当显示器转变回到低功率状态时,附加图形部分240和/或按钮242可以或可能不重新出现。
在一些实施方式中,图形界面236不包括按钮242。在附加图形部分240的目的是为了向用户通知可以由系统200访问的一些数据的情况下,用户界面生成器234可以不包括按钮242。例如,附加图形部分240可以指示用户次日在午餐时间的时间表。在存在可能不适合附加图形部分240的附加信息的情况下,用户界面生成器234可以包括按钮242以供用户查看附加信息。
在一些实施方式中,系统200可以包括允许用户配置在附加图形部分240中显示的细节水平的隐私设置。用户可能希望调整细节水平以防止用户的日历信息被显示在系统200的显示器上,因为即使显示器处于低功率状态时显示器也可以始终开启。作为示例,用户可以配置日历以在附加图形部分240中显示每个日历预约的细节。用户还可以配置日历以仅显示用户在所显示的时隙期间是忙还是空闲的。
除了上述示例之外,系统200还可以被配置成对热词“where’s my phone(我的电话在哪里)”或“I can’t find my phone(我不能找到我的电话)”做出响应。在这种情况下,系统200可以仅在系统200能够使用讲话者验证或认证来验证系统200的主要用户正在讲出热词的情况下才响应。响应于热词,系统200可以使始终开启的显示器闪烁和/或变亮,播放来自讲话者的声音,并且/或者激活位置模块并将系统200的位置传送到另一设备(例如,由主要用户指明的电子邮件地址和/或电话号码)。系统200还可以被配置成对热词“what’sthe weather today?(今天天气怎样?)”或“is it sunny today?(今天是晴天吗?)”做出响应。在这种情况下,系统200可以通过用户界面生成器234生成包括天气预报的界面来响应。系统200可以将天气预报界面提供给系统200的显示器以在始终开启的显示器上呈现。在一些实施方式中,系统200可以仅在系统200能够使用讲话者验证或认证来验证系统200的主要用户正在讲出热词的情况下才对热词“what’s the weather today?”或“is it sunnytoday?”做出响应。
在一些实施方式中,系统200可以被配置成检测热词“ok,I’ll do it(好的,我会做)”或“will do it”。在除主要用户以外的讲话者说出与提醒有关的某事之后,系统200可以检测这些热词。系统200可以用跟随热词之后的诸如时间段的任何细节更新用户界面236。例如,除主要用户以外的讲话者可能说出“Don’t forget to call mom”。主要用户响应“ok,I’ll do it tomorrow(好的,我明天会做)”。系统200辨识热词“don’t forget”,辨识“to call mom(要给妈妈打电话)”的语音,并且识别给妈妈打电话的动作。系统200辨识热词“ok,I’ll do it”,辨识“tomorrow(明天)”的语音,并且识别明天的时间段。系统200可以生成指示不要忘记明天给妈妈打电话的用户界面236以在始终开启的显示器上显示。用户界面236还可以包括如上所述的可选选项242。
图3图示用于执行热词辨识并提供被动辅助的示例过程300。通常,过程300对包括预定义热词的音频执行语音辨识。当显示器保持在低功率模式下时,过程300在显示器上输出与音频的转录有关的结果。过程300将被描述为由包括一个或多个计算机的计算机系统例如图1的计算设备120或图2的系统200执行。
系统正在低功率模式下操作并且包括当系统处于低功率模式时显示图形界面的显示器以及(ii)被配置成响应于检测到第一热词而退出低功率模式并且接收与话语相对应的音频数据(310)。例如,系统可以被配置成响应于热词“OK computer”而退出低功率模式。在这种情况下,系统可以使显示器变亮以指示系统正在侦听来自讲话者的进一步输入。在一些实施方式中,系统可能直到用户已停止讲话达阈值时间段才使显示器变亮。例如,讲话者可以说出“OK computer”并暂停达两秒钟。在这种情况下,显示器可以变亮并包括问讲话者系统可如何帮助的提示。作为另一示例,讲话者可以说出“OK computer,call Mom(好的计算机,给妈妈打电话)”并暂停达两秒钟。在这种情况下,显示器可以变亮并且系统可以打开电话应用以向妈妈发起呼叫。
在一些实施方式中,系统的显示器是触敏显示器。当系统处于低功率模式时,显示器可能不能够接收触摸输入。当系统处于高功率模式时,显示器可以能够接收触摸输入。在低功率模式下,系统可能被锁定并在显示器上显示日期和时间。在高功率模式下,系统可能被解锁并在显示器上显示主屏幕或应用。
系统确定音频数据包括第二、不同的热词(320)。例如,系统可能接收到“are youfree”的音频数据。在一些实施方式中,系统接收到针对系统被配置成识别的各种热词的热词模型。系统可能接收到针对“OK computer”、“are you free”、“don’t forget”以及其他词项和短语的热词模型。系统可以被配置成识别热词而无需使用语音辨识。系统可以使用对所检测到的音频连续地操作的热词识别器。该热词识别器可以将热词模型应用于所检测到的音频并确定系统接收到“are you free”。
在一些实施方式中,系统响应于检测到除“OK computer”以外的热词而保持在低功率模式下。例如,系统响应检测到热词“are you free”而保持在低功率模式下。热词“OKcomputer”可以是用于用户直接向系统说话的方式。响应于接收到“OK computer”,系统可以试图识别附加音频数据,该附加音频数据包括诸如“text Alice that I’ll be homesoon(给爱丽丝发短信我很快回家)”、“order a large cheese pizza(订购大芝士披萨)”或“what is my next appointment(我的下一个预约是什么)”的命令。系统执行经识别的命令并主动地发起该命令。系统可以发送文本,订购比萨,或者显示下一个预约。在人们之间的对话期间更可能发生诸如“are you free”和“don’t forget”的其他热词。这些热词可以触发系统以侦听跟随热词之后的附加语音。系统可以响应于其他热词和跟随的语音而被动地提供信息或者请求针对附加动作的许可。
系统响应于确定音频数据包括第二热词,通过对音频数据执行语音辨识来获得话语的转录(330)。例如,系统对跟随热词“are you free”之后的音频数据执行语音辨识并且生成转录“for lunch tomorrow”。在一些实施方式中,系统确定第二热词的讲话者不是系统的主要用户。系统的主要用户可以是系统的所有者(例如,智能电话的所有者)或大部分时间使用系统的人。如果讲话者是除主要用户以外的某人,则系统激活语音辨识器并且通过对音频数据执行语音辨识来获得话语的转录。讲话者是除主要用户以外的某人可以指示主要用户正在与另一人讲话。如果讲话者是主要用户,则系统可以不获得讲话的转录并且可以不在显示器上输出任何其他信息。
系统基于第二热词和话语的转录生成附加用户界面(340)。例如,系统可以生成附加用户界面,该附加用户界面指示系统的用户在次日午餐时间期间的时间表。在一些实施方式中,系统基于第二热词和转录识别应用。系统可以访问应用以获得生成附加用户界面的信息。例如,系统可以响应于“are you free for lunch tomorrow”而访问日历应用。作为另一示例,系统可以响应于“don’t forget to call mom”而访问提醒应用。每个热词可以被联系到应用。热词“are you free”触发系统访问日历应用。热词“don’t forget”触发系统访问提醒应用。
系统当保持在低功率模式下时,提供附加图形界面以在显示器上输出(350)。例如,系统显示包括日期、时间以及用户次日在上午11点与下午2点之间的忙/空闲时间表的图形界面。在一些实施方式中,附加图形界面包括用户能够选择以供系统发起动作的按钮。例如,附加图形界面可以包括用于向提醒列表添加“call mom”的按钮。在这种情况下,用户可以能够选择该按钮以将“call mom”添加到提醒列表。对按钮的选择还可以触发用户解锁系统。用户按压按钮,解锁系统,并且系统更新提醒列表。如果用户按压按钮而未能解锁电话,则按钮可以仍然是图形界面的一部分。
在一些实施方式中,用户可以按压系统上的按钮或键。响应于按钮或键按压,系统可以切换到高功率模式。按钮可以是诸如休眠/唤醒按钮的物理按钮。在一些实施方式中,按钮或键按压可以是在显示器上执行的特定触摸手势,例如对角扫掠或用户所选手势。用户可以按压按钮、再次执行手势或者等待一时间段(例如,十秒)以使系统返回到低功率模式。在一些实施方式中,当系统返回到低功率模式时,显示器可以继续显示附加图形界面。例如,系统可以继续显示用户次日午餐的忙/空闲时间。在一些实施方式中,当系统返回到低功率模式时,系统显示原始图形界面。在一些实施方式中,系统可以在切换到高功率模式时打开系统访问过的应用以生成附加用户界面。例如,当系统切换到高功率模式并且用户解锁系统时,系统可以打开日历应用。
在一些实施方式中,系统可以检测到用户讲出第一热词,例如“OK computer”。在这种情况下,系统可以切换到高功率模式并等待来自讲话者的命令。如果讲话者在阈值时间段内未说出其他任何事物,则系统可以返回到低功率模式。在一些实施方式中,系统可以仅在系统的主要用户讲出第一热词的情况下才对第一热词做出响应。如果除主要用户以外的讲话者讲出第一热词,则系统可能不会切换到高功率模式并且可以忽略由用户在第一热词之后讲出的任何命令。在一些实施方式中,系统可能仅在系统处于低功率模式时才对除“OK computer”以外的热词(例如,“are you free”和“don’t forget”)做出响应。当系统处于高功率模式时,系统可能不会对除“ok computer”以外的热词做出响应。
图4示出能够用于实现这里描述的技术的计算设备400和移动计算设备450的示例。计算设备400旨在表示各种形式的数字计算机,诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。移动计算设备450旨在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。此处示出的组件、它们的连接和关系以及它们的功能仅是示例,并不意味着限制。
计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和多个高速扩展端口410的高速接口408以及连接到低速扩展端口414和存储设备406的低速接口412。处理器402、存储器404、存储设备406、高速接口408、高速扩展端口410和低速接口412中的每一个使用各种总线互连,并且可以安装在通用主板上或以其他合适的方式安装。处理器402可以处理用于在计算设备400内执行的指令,包括存储在存储器404中或存储在存储设备406上的指令,以在诸如耦合到高速接口408的显示器416的外部输入/输出设备上显示用于GUI的图形信息。在其他实施方式中,可以适当地使用多个处理器和/或多个总线,以及多个存储器和各种类型的存储器。而且,可以连接多个计算设备,每个设备提供必要操作的部分(例如,作为服务器组、一组刀片服务器或多处理器系统)。
存储器404在计算设备400内存储信息。在一些实施方式中,存储器404是一个易失性存储单元或者多个易失性存储单元。在一些实施方式中,存储器404是一个非易失性存储单元或者多个非易失性存储单元。存储器404也可以是另一种形式的计算机可读介质,诸如磁盘或光盘。
存储设备406能够为计算设备400提供大容量存储。在一些实施方式中,存储设备406可以是或包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备、磁带设备、闪存或其他类似的固态存储器设备或设备阵列,包括存储区域网络或其他配置中的设备。指令可以存储在信息载体中。当指令由一个或多个处理设备(例如,处理器402)执行时,执行一种或多种方法,诸如上述那些方法。指令还可以由诸如计算机可读或机器可读介质的一个或多个存储器设备(例如,存储器404、存储设备406或处理器402上的存储器)存储。
高速接口408管理用于计算设备400的带宽密集型操作,而低速接口412管理较低的带宽密集型操作。这种功能分配仅是示例。在一些实施方式中,高速接口408被耦合到存储器404、显示器416(例如,通过图形处理器或加速器),并且被耦合到可以接受各种扩展卡(未示出)的高速扩展端口410。在实施方式中,低速接口412被耦合到存储设备406和低速扩展端口414。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口414可以例如通过网络适配器被耦合到一个或多个输入/输出设备,诸如键盘、定点设备、扫描仪或诸如交换机或路由器的联网设备。
如附图中所示,可以以多种不同形式来实现计算设备400。例如,其可以被实现为标准服务器420,或者多次被实现为一组这样的服务器。另外,其可以在诸如膝上型计算机422的个人计算机中实现。其也可以作为机架服务器系统424的一部分实现。可替选地,来自计算设备400的组件可以与诸如移动计算设备450的移动设备(未示出)中的其他组件组合。每个这样的设备可以包含计算设备400和移动计算设备450中的一个或多个,并且整个系统可以由彼此通信的多个计算设备组成。
移动计算设备450包括处理器452、存储器464、诸如显示器454的输入/输出设备、通信接口466和收发器468、以及其他组件。移动计算设备450还可以被设置有存储设备,诸如微驱动器或其他设备,以提供附加的存储。处理器452、存储器464、显示器454、通信接口466和收发器468中的每一个使用各种总线互连,并且数个组件可以安装在通用主板上或以适当的其他方式安装。
处理器452可以在移动计算设备450内执行指令,包括存储在存储器464中的指令。处理器452可以被实现为包括分离的和多个模拟和数字处理器的芯片的芯片组。处理器452可以提供例如用于移动计算设备450的其他组件的协调,诸如对用户接口、由移动计算设备450运行的应用以及由移动计算设备450进行的无线通信的控制。
处理器452可以通过控制接口458和耦合到显示器454的显示接口456与用户通信。显示器454可以是例如TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或其他合适的显示技术。显示接口456可以包括用于驱动显示器454以向用户呈现图形和其他信息的适当电路。控制接口458可以从用户接收命令并且将其进行转换以提交给处理器452。另外,外部接口462可以提供与处理器452的通信,使得实现移动计算设备450与其他设备的近区域通信。例如,外部接口462可以在一些实施方式中提供用于有线通信,或者在其他实施方式中提供用于无线通信,并且也可以使用多个接口。
存储器464在移动计算设备450内存储信息。存储器464可以被实现为一个计算机可读介质或者多个计算机可读介质、一个易失性存储单元或多个易失性存储单元或者一个非易失性存储单元或者多个非易失性存储单元中的一个或多个。扩展存储器474还可以被提供,并通过扩展接口472被连接到移动计算设备450,该扩展接口472可以包括例如SIMM(单列存储器模块)卡接口。扩展存储器474可以为移动计算设备450提供额外的存储空间,或者还可以为移动计算设备450存储应用或其他信息。具体地,扩展存储器474可以包括用于执行或补充上述过程的指令,并且还包括安全信息。因此,例如,扩展存储器474可以被设置为用于移动计算设备450的安全模块,并且可以用允许安全使用移动计算设备450的指令来编程。此外,可以经由SIMM卡提供安全应用,以及其他信息,诸如以不可入侵的方式在SIMM卡上放置识别信息。
存储器可包括例如闪存和/或NVRAM存储器(非易失性随机存取存储器),如下面所讨论的。在一些实施方式中,指令被存储在信息载体中,当该指令被一个或多个处理设备(例如,处理器452)执行时,执行一种或多种方法,诸如上述那些方法。指令也可以由一个或多个存储设备存储,诸如一个或多个计算机或机器可读介质(例如,存储器464、扩展存储器474或处理器452上的存储器)。在一些实施方式中,可以例如通过收发器468或外部接口462以传播的信号来接收指令。
移动计算设备450可以通过通信接口466无线通信,该通信接口在必要时可以包括数字信号处理电路。通信接口466可以在各种模式或协议下提供通信,诸如GSM话音呼叫(全球移动通信系统)、SMS(短消息服务)、EMS(增强消息服务)或MMS消息(多媒体消息服务)、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000或GPRS(通用分组无线电业务)等。例如,可以使用射频通过收发器468发生这种通信。另外,可以发生短距离通信,诸如使用蓝牙、WiFi或其他这样的收发器(未示出)。另外,GPS(全球定位系统)接收器模块470可以向移动计算设备450提供附加的导航和与位置有关的无线数据,其可以适当地由在移动计算设备450上运行的应用使用。
移动计算设备450还可以使用音频编解码器460进行听觉通信,该音频编解码器460可以从用户接收语音信息并将其转换为可用的数字信息。诸如通过扬声器,例如,在移动计算设备450的听筒中,音频编解码器460可以类似地为用户生成可听见的声音。这种声音可以包括来自话音电话呼叫的声音,可以包括记录的声音(例如话音消息、音乐文件等),并且还可以包含由在移动计算设备450上运行的应用生成的声音。
移动计算设备450可以以多种不同的形式实现,如附图中所示。例如,其可以被实现为蜂窝电话480。其也可以被实现为智能电话482、个人数字助理或其他类似的移动设备的一部分。
这里描述的系统和技术的各种实施方式可以以数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式可以包括在一个或多个计算机程序中的实施方式,该程序可以在包括可以是专用的或通用的至少一个可编程处理器的可编程系统上执行和/或解释,所述至少一个可编程处理器被耦合以从中接收数据和指令,并且向存储系统、至少一个输入设备和至少一个输出设备传输数据和指令。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可以以高级过程和/或面向对象的编程语言和/或以汇编/机器语言实现。如本文所使用的,术语机器可读介质、计算机可读介质是指用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑设备(PLD))包括接收机器指令作为机器可读信号的机器可读介质。术语机器可读信号是指用于向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,此处描述的系统和技术可以在具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及通过其用户能够将输入提供给计算机的键盘和指示设备(例如,鼠标或轨迹球)的计算机上实现。其他种类的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。
能够在计算系统中实现这里描述的系统和技术,所述计算系统包括后端组件(例如,作为数据服务器),或包括中间件组件(诸如应用服务器),或包括前端组件(例如,具有通过其用户能够与这里描述的系统和技术的实施方式交互的图形用户界面或Web浏览器的客户端计算机),或者这种后端、中间件或前端组件的任何组合。系统的组件能够通过数字数据通信的任何形式或介质(例如,通信网络)来互连。通信网络的示例包括局域网(LAN)、广域网(WAN)和互联网。
计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。
尽管上面已经详细描述了一些实施方式,但是其他修改也是可能的。例如,虽然客户端应用被描述为访问代表,但是在其他实施方式中,代表可以被由一个或多个处理器实现的其他应用所采用,诸如在一个或多个服务器上执行的应用。另外,附图中描绘的逻辑流程不需要所示的特定顺序或顺序次序来实现期望的结果。另外,可以从所描述的流程中提供其他动作,或者可以消除动作,并且可以将其他组件添加到所描述的系统或从所描述的系统移除。因此,其他实施方式在所附权利要求的范围内。
Claims (20)
1.一种计算机实现的方法,包括:
由计算设备接收与话语相对应的音频数据,所述计算设备(i)正在低功率模式下操作并且包括在所述计算设备处于所述低功率模式时显示图形界面的显示器并且(ii)被配置成响应于检测到第一热词而退出所述低功率模式;
由所述计算设备确定所述音频数据包括第二不同的热词;
响应于确定所述音频数据包括所述第二不同的热词,由所述计算设备通过对所述音频数据执行语音辨识来获得所述话语的转录;
基于所述第二不同的热词和所述话语的所述转录,由所述计算设备生成附加用户界面;以及
在所述计算设备保持在所述低功率模式下时,提供所述附加图形界面以在所述显示器上输出。
2.根据权利要求1所述的方法,包括:
在提供所述附加图形界面以在所述显示器上输出之后,由所述计算设备接收包括键按压的输入;和
在接收到所述包括键按压的输入之后,将所述计算设备切换到与所述低功率模式相比消耗更多功率的高功率模式。
3.根据权利要求2所述的方法,包括:
在将所述计算设备切换到与所述低功率模式相比消耗更多功率的所述高功率模式之后并且在所述显示器保持活跃时,使所述计算设备返回到所述低功率模式;和
在使所述计算设备返回到所述低功率模式之后,提供所述用户界面以在所述显示器上输出。
4.根据权利要求2所述的方法,其中:
在处于所述高功率模式时,所述计算设备以第一频率从网络取得数据,并且
在处于所述低功率模式时,所述计算设备以第二较低的频率从所述网络取得数据。
5.根据权利要求1所述的方法,其中:
所述显示器是触敏显示器,
在所述计算设备处于所述低功率模式时,所述显示器不能够接收触摸输入,并且
在所述计算设备处于与所述低功率模式相比消耗更多功率的高功率模式时,所述显示器能够接收触摸输入。
6.根据权利要求1所述的方法,包括:
基于所述第二不同的热词来识别所述计算设备能访问的应用;和
将所述话语的所述转录提供给所述应用,
其中,所述附加用户界面是基于将所述话语的所述转录提供给所述应用来生成的。
7.根据权利要求1所述的方法,包括:
由所述计算设备接收所述第一热词的第一热词模型和所述第二不同的热词的第二不同的热词模型,
其中,确定所述音频数据包括所述第二不同的热词包括将所述音频数据应用于所述第二不同的热词模型。
8.根据权利要求1所述的方法,其中,所述附加图形界面包括可选选项,所述可选选项在由用户选择时更新应用。
9.根据权利要求1所述的方法,包括:
响应于确定所述音频数据包括所述第二不同的热词而将所述计算设备维持在所述低功率模式下。
10.根据权利要求1所述的方法,包括:
由所述计算设备确定所述话语的讲话者不是所述计算设备的主要用户,
其中,通过对所述音频数据执行语音辨识来获得所述话语的所述转录是响应于确定所述话语的讲话者不是所述计算设备的主要用户。
11.根据权利要求1所述的方法,包括:
由所述计算设备接收与附加话语相对应的附加音频数据;
由所述计算设备确定所述附加音频数据包括所述第一热词;以及
响应于确定所述音频数据包括所述第二不同的热词,将所述计算设备从所述低功率模式切换到与所述低功率模式相比消耗更多功率的高功率模式。
12.根据权利要求10所述的方法,包括:
由所述计算设备确定所述附加话语的讲话者是所述计算设备的主要用户,
其中,将所述计算设备从所述低功率模式切换到与所述低功率模式相比消耗更多功率的所述高功率模式是响应于确定所述附加话语的讲话者是所述计算设备的主要用户。
13.一种系统,包括:
一个或者多个计算机;和
一个或者多个存储设备,所述一个或者多个存储设备存储能操作的指令,所述指令在由所述一个或者多个计算机执行时使所述一个或者多个计算机执行操作,所述操作包括:
由计算设备接收与话语相对应的音频数据,所述计算设备(i)正在低功率模式下操作并且包括在所述计算设备处于所述低功率模式时显示图形界面的显示器并且(ii)被配置成响应于检测到第一热词而退出所述低功率模式;
由所述计算设备确定所述音频数据包括第二不同的热词;
响应于确定所述音频数据包括所述第二不同的热词,由所述计算设备通过对所述音频数据执行语音辨识来获得所述话语的转录;
基于所述第二不同的热词和所述话语的所述转录,由所述计算设备生成附加用户界面;以及
在所述计算设备保持在所述低功率模式下时,提供所述附加图形界面以在所述显示器上输出。
14.根据权利要求13所述的系统,其中,所述操作包括:
在提供所述附加图形界面以在所述显示器上输出之后,由所述计算设备接收包括键按压的输入;和
在接收到所述包括键按压的输入之后,将所述计算设备切换到与所述低功率模式相比消耗更多功率的高功率模式。
15.根据权利要求13所述的系统,其中,所述操作包括:
所述显示器是触敏显示器,
在所述计算设备处于所述低功率模式时,所述显示器不能够接收触摸输入,并且
在所述计算设备处于与所述低功率模式相比消耗更多功率的高功率模式时,所述显示器能够接收触摸输入。
16.根据权利要求13所述的系统,其中,所述操作包括:
基于所述第二不同的热词来识别所述计算设备能访问的应用;和
将所述话语的所述转录提供给所述应用,
其中,所述附加用户界面是基于将所述话语的所述转录提供给所述应用来生成的。
17.根据权利要求13所述的系统,其中,所述操作包括:
由所述计算设备接收所述第一热词的第一热词模型和所述第二不同的热词的第二不同的热词模型,
其中,确定所述音频数据包括所述第二不同的热词包括将所述音频数据应用于所述第二不同的热词模型。
18.根据权利要求13所述的系统,其中,所述附加图形界面包括可选选项,所述可选选项在由用户选择时更新应用。
19.根据权利要求13所述的系统,其中,所述操作包括:
响应于确定所述音频数据包括所述第二不同的热词而将所述计算设备维持在所述低功率模式下。
20.一种存储软件的非暂时性计算机可读介质,所述软件包括由一个或者多个计算机能执行的指令,所述指令在这种执行时使所述一个或者多个计算机执行操作,所述操作包括:
由计算设备接收与话语相对应的音频数据,所述计算设备(i)正在低功率模式下操作并且包括在所述计算设备处于所述低功率模式时显示图形界面的显示器并且(ii)被配置成响应于检测到第一热词而退出所述低功率模式;
由所述计算设备确定所述音频数据包括第二不同的热词;
响应于确定所述音频数据包括所述第二不同的热词,由所述计算设备通过对所述音频数据执行语音辨识来获得所述话语的转录;
基于所述第二不同的热词和所述话语的所述转录,由所述计算设备生成附加用户界面;以及
在所述计算设备保持在所述低功率模式下时,提供所述附加图形界面以在所述显示器上输出。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/045924 WO2020032948A1 (en) | 2018-08-09 | 2018-08-09 | Hotword recognition and passive assistance |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112513978A true CN112513978A (zh) | 2021-03-16 |
Family
ID=63371798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880096300.0A Pending CN112513978A (zh) | 2018-08-09 | 2018-08-09 | 热词辨识和被动辅助 |
Country Status (6)
Country | Link |
---|---|
US (2) | US20200050427A1 (zh) |
EP (2) | EP3807875B1 (zh) |
JP (2) | JP7250900B2 (zh) |
KR (2) | KR20230107386A (zh) |
CN (1) | CN112513978A (zh) |
WO (1) | WO2020032948A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200049020A (ko) * | 2018-10-31 | 2020-05-08 | 삼성전자주식회사 | 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치 |
US11062192B1 (en) * | 2020-01-10 | 2021-07-13 | Bank Of America Corporation | Voice-activated interactive card device |
US20230019737A1 (en) * | 2021-07-14 | 2023-01-19 | Google Llc | Hotwording by Degree |
US20240061644A1 (en) * | 2022-08-17 | 2024-02-22 | Jpmorgan Chase Bank, N.A. | Method and system for facilitating workflows via voice communication |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014159581A1 (en) * | 2013-03-12 | 2014-10-02 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
WO2015005927A1 (en) * | 2013-07-11 | 2015-01-15 | Intel Corporation | Device wake and speaker verification using the same audio input |
US20150042570A1 (en) * | 2012-10-30 | 2015-02-12 | Motorola Mobility Llc | Method and apparatus for keyword graphic selection |
CN105960673A (zh) * | 2014-10-09 | 2016-09-21 | 谷歌公司 | 多个设备上的热词检测 |
US20180108343A1 (en) * | 2016-10-14 | 2018-04-19 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US20180204569A1 (en) * | 2017-01-17 | 2018-07-19 | Ford Global Technologies, Llc | Voice Assistant Tracking And Activation |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7529669B2 (en) | 2006-06-14 | 2009-05-05 | Nec Laboratories America, Inc. | Voice-based multimodal speaker authentication using adaptive training and applications thereof |
ATE538616T1 (de) | 2007-02-01 | 2012-01-15 | Nxp Bv | Steuerung der wachzeit einer mobilvorrichtung |
JP2012049586A (ja) * | 2010-08-24 | 2012-03-08 | Panasonic Corp | 表示端末装置 |
JP5888130B2 (ja) * | 2012-06-06 | 2016-03-16 | 富士通株式会社 | 通信端末装置および通信制御方法 |
JP2014147028A (ja) * | 2013-01-30 | 2014-08-14 | Canon Inc | 撮像装置、撮像装置の制御方法 |
KR101412448B1 (ko) * | 2014-01-14 | 2014-06-26 | (주)세미센스 | 디스플레이가 꺼져 있는 저전력 모드에서의 터치입력을 통한 디바이스 구동시스템 |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US11327711B2 (en) * | 2014-12-05 | 2022-05-10 | Microsoft Technology Licensing, Llc | External visual interactions for speech-based devices |
JP6370718B2 (ja) * | 2015-01-20 | 2018-08-08 | シャープ株式会社 | 操作支援装置及び画像形成装置 |
US20160246396A1 (en) * | 2015-02-20 | 2016-08-25 | Qualcomm Incorporated | Interactive touchscreen and sensor array |
US10276161B2 (en) * | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
JP2018129664A (ja) * | 2017-02-08 | 2018-08-16 | 京セラ株式会社 | 電子機器、制御方法、およびプログラム |
-
2018
- 2018-08-09 KR KR1020237022136A patent/KR20230107386A/ko not_active Application Discontinuation
- 2018-08-09 EP EP18759811.5A patent/EP3807875B1/en active Active
- 2018-08-09 JP JP2021504806A patent/JP7250900B2/ja active Active
- 2018-08-09 KR KR1020217003733A patent/KR102551276B1/ko active IP Right Grant
- 2018-08-09 CN CN201880096300.0A patent/CN112513978A/zh active Pending
- 2018-08-09 WO PCT/US2018/045924 patent/WO2020032948A1/en unknown
- 2018-08-09 EP EP23200954.8A patent/EP4280579A3/en active Pending
-
2019
- 2019-08-09 US US16/536,831 patent/US20200050427A1/en not_active Abandoned
-
2023
- 2023-03-22 JP JP2023044908A patent/JP7453443B2/ja active Active
- 2023-03-23 US US18/189,181 patent/US20230229390A1/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150042570A1 (en) * | 2012-10-30 | 2015-02-12 | Motorola Mobility Llc | Method and apparatus for keyword graphic selection |
WO2014159581A1 (en) * | 2013-03-12 | 2014-10-02 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
CN105009203A (zh) * | 2013-03-12 | 2015-10-28 | 纽昂斯通讯公司 | 用于检测语音命令的方法和装置 |
WO2015005927A1 (en) * | 2013-07-11 | 2015-01-15 | Intel Corporation | Device wake and speaker verification using the same audio input |
CN105283836A (zh) * | 2013-07-11 | 2016-01-27 | 英特尔公司 | 利用相同的音频输入的设备唤醒和说话者验证 |
CN105683904A (zh) * | 2013-08-09 | 2016-06-15 | 谷歌技术控股有限责任公司 | 用于关键词图形选择的方法和装置 |
CN105960673A (zh) * | 2014-10-09 | 2016-09-21 | 谷歌公司 | 多个设备上的热词检测 |
US20180108343A1 (en) * | 2016-10-14 | 2018-04-19 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US20180204569A1 (en) * | 2017-01-17 | 2018-07-19 | Ford Global Technologies, Llc | Voice Assistant Tracking And Activation |
Also Published As
Publication number | Publication date |
---|---|
EP3807875B1 (en) | 2023-11-01 |
EP4280579A3 (en) | 2024-02-28 |
JP7453443B2 (ja) | 2024-03-19 |
US20230229390A1 (en) | 2023-07-20 |
EP3807875A1 (en) | 2021-04-21 |
WO2020032948A1 (en) | 2020-02-13 |
JP2021532486A (ja) | 2021-11-25 |
JP7250900B2 (ja) | 2023-04-03 |
US20200050427A1 (en) | 2020-02-13 |
KR102551276B1 (ko) | 2023-07-04 |
KR20230107386A (ko) | 2023-07-14 |
JP2023080116A (ja) | 2023-06-08 |
EP4280579A2 (en) | 2023-11-22 |
KR20210028688A (ko) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7101322B2 (ja) | デジタルアシスタントのためのボイストリガ | |
US11430442B2 (en) | Contextual hotwords | |
US11355117B2 (en) | Dialog system with automatic reactivation of speech acquiring mode | |
JP7453443B2 (ja) | ホットワード認識および受動的支援 | |
CN108337380B (zh) | 自动调整用户界面以用于免提交互 | |
CN111357048A (zh) | 用于控制家庭助手装置的方法和系统 | |
US20150127345A1 (en) | Name Based Initiation of Speech Recognition | |
CN106201424A (zh) | 一种信息交互方法、装置及电子设备 | |
KR20190009488A (ko) | 컨텍스트 정보에 기반하여 음성 입력을 수신하는 지속 기간을 결정하는 전자 장치 및 시스템 | |
USRE47974E1 (en) | Dialog system with automatic reactivation of speech acquiring mode | |
US20220277745A1 (en) | Dialog system with automatic reactivation of speech acquiring mode |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |