CN112863510B - 对客户端装置平台执行操作的方法和客户端装置平台 - Google Patents
对客户端装置平台执行操作的方法和客户端装置平台 Download PDFInfo
- Publication number
- CN112863510B CN112863510B CN202110034665.4A CN202110034665A CN112863510B CN 112863510 B CN112863510 B CN 112863510B CN 202110034665 A CN202110034665 A CN 202110034665A CN 112863510 B CN112863510 B CN 112863510B
- Authority
- CN
- China
- Prior art keywords
- client device
- processor
- confidence score
- device platform
- power state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004422 calculation algorithm Methods 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 9
- 230000000977 initiatory effect Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims 1
- 230000035897 transcription Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 23
- 230000008569 process Effects 0.000 description 27
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000003213 activating effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3231—Monitoring the presence, absence or movement of users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3293—Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
- Power Sources (AREA)
Abstract
本申请涉及用于语音识别的混合性能缩放。本公开的各方面描述用于在低功率状态下运行的客户端装置平台上执行操作的方法和设备。第一分析可以用于向所记录的非触觉输入分配第一置信度得分。当所述第一置信度得分高于第一阈值时,可以激活中间功率状态。第二更详细的分析可以随后向所述非触觉输入分配第二置信度得分。当所述第二置信度得分高于第二阈值时,则启动操作。需要强调的是提供本摘要是为了符合要求允许搜索者或其他读者快速确定本技术公开的主题的摘要的规则。对摘要的提交应具有以下理解:所述摘要将不会用以解释或限制权利要求的范围或含义。
Description
本申请是申请号为201480007443.1、申请日为2014年02月18日、发明名称为“用于语音识别的混合性能缩放”的发明专利申请的分案申请。
优先权要求
本申请要求2013年2月20日提交的美国临时专利申请号61/767,065的优先权权益,所述临时专利申请的全部内容以引用的方式并入本文。
本申请要求2013年3月8日提交的美国临时专利申请号13/791,716的优先权权益,所述临时专利申请的全部内容以引用的方式并入本文。
技术领域
本公开的各方面涉及在低功率环境下的语音使用和手势识别。
背景技术
许多电子装置诸如但不限于计算机、电视机、游戏机以及立体声系统在不使用时采用低功率状态以减少能耗。通过切断非必要子系统的电源和将随机存取存储器(RAM)置于刚好足以保留其数据的最小功率状态,低功率状态能够降低电子装置的功耗。每一个子系统的状态存储在RAM中。因此,一旦电子装置脱离低功率状态,该装置可以立即准备再次使用,而不必重新启动或加载在低功率模式启动之前在运行的应用程序。低功率状态,诸如S3睡眠状态,在惠普公司等在2005年4月发表的“Advanced Configuration and PowerInterface Specification”版本4.0a中详细描述,该规范通过引用并入本文。
然而,一旦处于低功率状态,装置通常需要一种肯定的触觉输入以“唤醒”电子装置并返回到正常全功率状态。借助示例,肯定的触觉输入可以包括按下电源按钮或敲击键盘上的键或遥控器上的按钮。电子装置恢复到它们的正常运行状态需要肯定的触觉输入,因为在低功率状态的处理功率大大降低。可替代输入诸如音频或视频提示还没有选择,因为复杂的语音和手势识别需要太多的CPU周期充当唤醒电子装置的肯定期望的可靠指示。因此,如果用户想把电子装置从低功率状态唤醒,那么用户必须物理接触电子装置或该电子装置的遥控器。如果电子装置在房间的另一边而遥控器丢失,那么用户必须物理移动到房间的另一边以激活该电子装置。
因此,本领域中存在为减少用户的负担,通过不需要物理接触电子装置或遥控器的输入允许把电子装置从低功率状态唤醒的系统和方法的必要。
正是在这样的背景下,产生了本公开的各个方面。
附图说明
通过下列具体实施方式连同附图,本发明的教义可以很容易理解,其中:
图1是根据本公开的一个方面,在网络上通信的客户端装置平台和基于云的服务器的示意图。
图2是根据本公开的一个方面,描绘执行操作的方法的流程图,同时客户端装置平台处于低功率状态。
图3是根据本公开的另外方面,描绘执行操作的方法的流程图,同时客户端装置平台处于低功率状态。
图4是根据本公开的一个方面,描述用于执行操作的指令的图,同时客户端装置平台处于低功率状态。
图5是根据本公开的另外方面,描述用于执行操作的指令的图,同时客户端装置平台处于低功率状态。
具体实施方式
虽然下面的具体实施方式包含用于说明用途的详细细节,但是本领域的任何普通技术人员应当理解,对下列具体实施方式所做的许多变动在本发明的范围内。因此,下面描述的本发明的示例性实施例在不失一般性并且未暗示要求保护的本发明的限制的情况下进行阐述。
本公开的各方面描述通过使用非触觉输入对处于低功率状态的客户端装置平台执行操作的系统和方法。如本文所使用的,术语“非触觉输入”一般是指不需要用户物理接触输入装置的输入。此类非触觉输入的示例包括但不限于音频输入和光输入,音频输入可例如经由麦克风来接收,光输入可以例如通过光传感器或图像捕捉装置来接收。其他类型的“非触觉”输入包括但不限于气味传感器、红外传感器、超声波传感器、电容式感应、运动传感器和雷达传感器。
在客户端装置平台中,低功率状态可以包括向至少低功率处理器、一个或多个传感器和低功率存储器供电。一个或多个传感器可以记录非触觉输入并将它们存储在低功率存储器上。低功率处理器经配置对所记录的非触觉输入运行第一分析。第一分析可以提供第一置信度得分,第一置信度得分指示所记录的非触觉输入是匹配于第一基准输入的输入的可能性。如果置信度得分高于第一阈值,则低功率处理器可指示客户端装置平台启动中间功率状态。中间功率状态可以包括向第二处理器提供电源。第二处理器可以具有比低功率处理器更多的CPU周期,但是比客户端装置平台在全功率状态运行时具有更少的CPU周期。
一旦第二处理器被激活,它可以执行将非触觉输入与第一基准刺激进行比较的第二分析。因为第二分析以另外的CPU周期来执行,所以能够提供非触觉输入是否匹配第一基准信号的更准确预测。第二置信度值通过第二分析确定。如果第二置信度得分高于第二阈值,则第二处理器可以生成指示客户端装置平台执行一个或多个操作的命令信号。一个或多个操作中的每一个可以与指定的第一基准信号相关联。借助示例而不是为了限制,如果第一基准信号是短语“装置接通”,那么与第一基准信号相关联的操作可以促使客户端装置平台启动全功率状态。因此,如果在与基准输入“装置接通”相比时非触觉输入具有高于第二阈值水平的第二置信度得分,那么可以生成指示客户端装置平台执行促使客户端装置平台启动全功率状态的操作的命令信号。
根据本公开的另外方面,第一分析可以根据第一基准信号来进行,以及第二分析可以根据第二基准信号来进行。第一基准信号可以比第二基准信号更短。因此,存储在低功率存储器上以分析信号所需的数据更少。借助示例而不是为了限制,第一基准信号可以用于确定人的声音是否被检出,或如果是短语诸如“装置接通”,是否已由用户说出。第二基准信号可以更长,并且可以与更复杂的操作相关联。借助示例,第二基准信号可以用于确定人的声音是否已说出短语“装置接通-玩视频游戏一”。如果该短语与足够高的第二置信度值匹配,则可以生成指示客户端装置平台执行更复杂操作诸如启动客户端装置平台上的全功率状态并加载视频游戏一使得其准备好供用户玩的命令信号。
根据本公开的另外方面,第二分析可以在基于云的服务器上实施。当第一分析产生高于第一阈值的第一置信度得分时,客户端装置平台可以通过网络向基于云的服务器传送非触觉输入。第二分析随后在基于云的服务器上执行。如果第二分析产生高于第二阈值的第二置信度得分,则基于云的服务器可以通过网络向客户端装置平台回传命令该客户端装置平台执行与该基准信号相关联的一个或多个操作的命令。
图1是根据本公开的各方面,说明客户端装置平台105与基于云的服务器106之间交互的示意图。基于云的服务器106可以由客户端装置平台105通过网络160来访问。
客户端装置平台105可以包括中央处理器单元(CPU)131。借助示例,CPU 131可以包括一个或多个处理器,其可以被配置为例如双核、四核、多核或单元处理器结构。客户端装置平台105还可以包括存储器132(例如,RAM、DRAM、ROM等)。CPU 131可以执行处理-控制程序133,该程序的部分可以存储在存储器132中。客户端装置平台105还可以包括公知的支持电路140,诸如输入/输出(I/O)电路141、电源(P/S)142、时钟(CLK)143和高速缓存器144。客户端装置平台105可以可选包括大容量存储装置134,诸如存储程序和/或数据的磁盘驱动器、CD-ROM驱动器、磁带驱动器等。客户端装置平台105还可以可选包括显示单元137。显示单元137可以是显示文字、数字或图形符号的阴极射线管(CRT)或平板屏幕的形式。控制器145可以通过I/O电路141连接到客户端装置平台105或可以直接集成到客户端装置平台105中。控制器145可以促进客户端装置平台105与用户之间的交互。控制器145可以包括键盘、鼠标、摇杆、光笔、手持控制器或其他装置。一个或多个传感器146也可以通过I/O电路141连接到客户端装置平台105或可以直接集成到客户端装置平台105中。借助示例而不是为了限制,传感器146可以是麦克风、摄像机、红外摄像机、太赫兹传感器或任何其他感测装置。客户端装置平台可以具有低功率处理器147和低功率存储器148。低功率处理器147和低功率存储器可以在当客户端装置平台105处于低功率状态诸如休眠状态时运行。低功率处理器147可以是只具有极少处理功率的单核处理器,以便在客户端装置平台处于低功率状态时将功耗减到最小。借助示例,低功率处理器147可以是ARM处理器。另选地,低功率处理器147可以是多核CPU 131中的单核或多核。另外,低功率存储器148可以足够小,以便将功耗减到最小。客户端装置平台105可以包括网络接口139,该网络接口经配置允许使用Wi-Fi、以太网端口或其他通信方法。
网络接口139可以并入合适的硬件、软件、固件或这些中的两个或多个的某些组合以便于经由电子通信网络160通信。网络接口139可以经配置通过局域网和广域网诸如互联网实施有线或无线通信。客户端装置平台105可以通过网络160经由一个或多个数据包发送和接收数据和/或请求。
前述部件可经由内部系统总线150彼此交换信号。客户端装置平台105可以是通用计算机,当其运行实施如本文所述的本发明的实施例的代码时变成专用计算机。借助示例,而不是为了限制,客户端装置平台105可以是游戏控制台,诸如索尼计算机娱乐的PlayStation 3游戏机、家庭娱乐系统、电视机或音频系统或任何其他类似装置。
基于云的服务器106可以包括中央处理器单元(CPU)131’。借助示例,CPU 131’可以包括可根据例如双核、四核、多核单元处理器结构配置的一个或多个处理器。基于云的服务器106还可以包括存储器132’(例如,RAM、DRAM、ROM等)。CPU 131’可以执行处理-控制程序133’,该处理-控制程序的部分可以被存储在存储器132’中。基于云的服务器106可以包括网络接口139’,该网络接口经配置允许使用Wi-Fi、以太网端口或其他通信方法。网络接口139’可以并入合适的硬件、软件、固件或这些中的两个或多个的某些组合,以便于经由电子通信网络160来通信。网络接口139’可以经配置通过局域网和广域网诸如互联网实施有线或无线通信。基于云的服务器106可以通过网络160经由一个或多个数据包发送和接收数据和/或请求。借助示例,而不是为了限制,基于云的服务器可以是从亚马逊网络服务平台商购获得的亚马逊弹性计算云。
图2是根据本公开的一个方面描述用于实施由非触觉输入信号来启动的一个或多个操作的过程的流程图,其中非触觉输入信号可由处于低功率状态的客户端装置平台105检测出。最初,在260,客户端装置平台105处于低功率状态。当在低功率状态时,客户端装置平台105可以向部件诸如但不限于低功率处理器147、低功率存储器148、网络接口139、I/O电路141、控制器145和/或一个或多个传感器146供电。因为I/O 141通常位于南桥上,设计客户端装置平台105使得尽可能多的前述部件也位于南桥上是合乎需要的。借助示例,低功率状态可以是睡眠状态或待机状态,诸如在“高级配置和电源接口规范”中描述的S3睡眠状态。
当在低功率状态时,客户端装置平台105可以用一个或多个传感器146连续记录非触觉输入并将其在可用的存储器诸如在块261中所示的低功率存储器148中。借助示例而不是为了限制,一个或多个传感器146可以包括麦克风、视频摄像机、红外摄像机、太赫兹传感器或它们的任何组合。由一个或多个传感器146记录的非触觉输入的类型取决于所使用的传感器146的类型。借助示例,如果传感器146是麦克风,那么非触觉输入可以是环境声音的记录;如果传感器146是视频摄像机,那么非触觉输入可以是接近客户端装置平台105的空间的视频记录。如果传感器146是红外摄像机,那么非触觉输入可以是所记录的接近客户端装置平台105的空间的红外信息;或如果传感器146是太赫兹传感器,那么非触觉输入可以是所记录的接近客户端装置平台105的空间的太赫兹信息。需要指出,该输入可以是包括上述示例的组合的不同类型输入的组合。
在某些实施中,传感器146也可以直接连接到低功率CPU 147,因为在低功率模式中,低功率CPU执行计算并可以控制网络访问。
为了将用于存储非触觉输入所需的存储器量减到最小,非触觉输入可以存储在低功率存储器148上的环形缓冲器中,其具有匹配于用户生成对应于将启动预期操作的基准信号的非触觉输入可能所花费的最长预期时间的持续时间。可以有一个或多个存储在低功率存储器148中的基准信号。基准信号中的每一个可以与一个或多个操作相关联。借助示例,而不是为了限制,基准信号可以包含短语“装置接通”,这相应对应于客户端装置平台105从低功率状态唤醒和启动全功率状态的操作。
低功率CPU 147上的软件可以处理传感器数据并以较小的紧凑存储器方式存储,该紧凑存储器足够主CPU 133或网络CPU 131进一步处理的将来用途。基准信号本身没有必要存储在低功率存储器中。
用于语音识别的基准输入可以以若干方式进行。纯文本是一种可能的方式,但也许不是最可靠的,因为它需要被机器处理并转化成语音表述。对于常用词,英文文本到语音的转换是可以接受的,但非字典中的词语可能很差。语音表述可以以计算机可读语音脚本的形式直接使用。计算机可读语音脚本的示例包括音标字母语音评价方法(SAMPA)和扩展音标字母语音评价方法(X-SAMPA)。SAMPA和X-SAMPA使用基于国际音标(IPA)的7位可打印ASCII字符。另外,训练使用整个短语而不是将短语分裂为音标的识别器也是可能的。在此情况下,训练可以用大量不同样本的说话者者而不是单一的音频记录来进行。训练的结果是一种分类器,诸如隐马尔科夫模型或在某些情况下是神经网络。底线,在语音识别领域,有许多方式来完成这种训练。
当确定非触觉输入足以类似于基准信号时,那么可以生成促使客户端装置平台105执行对应于基准信号的操作的命令信号。另外,虽然牺牲所记录的非触觉输入的保真度可减少所需的存储器量,但应该指出,保真度应保持足够高以允许在随后的处理步骤期间对非触觉输入的高精确度的分析。一旦已记录非触觉输入,该非触觉输入随后利用一种或多种分析方法来分析,以便确定它们是否匹配于存储于在低功率状态下的客户端装置平台105可访问的存储器中的一个或多个基准输入。
低功率处理器147可以对已存储在低功率存储器148中的非触觉输入实施第一分析,以便生成如在块262所示的第一置信度得分。第一分析可以通过使用用来产生第一置信度得分的一种或多种算法来实施。第一置信度得分对应于所记录的非触觉输入与存储在低功率存储器148中的一个或多个基准输入之间的相似度的程度。借助示例,而不是为了限制,第一置信度得分可以在0.0与1.0之间的范围。0.0的得分指示所记录的触觉输入与基准信号中的一个相同有几乎百分之零的机会。1.0的得分指示触觉输入与基准信号中的一个相同有几乎百分之百的机会。用于第一分析的算法可以取决于已记录的非触觉输入的类型。借助示例,如果所记录的非触觉输入是音频数据,那么该算法可以利用话音活动检测(VAD)算法或简单自动语音识别(ASR)算法;另选地,如果所记录的非触觉输入是视频数据,那么该算法可以利用对象识别或手势识别算法。借助示例,而不是为了限制,非常简单的置信度量度可以在着手更复杂的对象识别之前,通过执行运动检测例如通过分析运动检测传感器的输出来实施。
一旦已计算出第一置信度得分,过程200继续到判定块263,在判定块263,处理器将确定第一置信度得分是否高于第一阈值。第一阈值应设定的足够高,使得最小数量的误报被传送到下一个处理步骤。如果第一置信度得分低于第一阈值水平,则过程200可以继续记录非触觉输入,如块261所述。在第一置信度得分等于或高于第一阈值水平的实例中,则过程200可以继续块264,在块264,低功率处理器147启动中间功率状态。
根据本公开的一个方面,传感器146可以是麦克风,并且第一置信度得分可以利用VAD算法生成。VAD算法可用于确定所记录的非触觉输入中人声音的存在或不存在。使用VAD算法可适合在块262生成第一置信度得分,因为如果非触觉输入不包含人声音,则某人正肯定试图启动客户端装置平台105上的操作是不大可能的。因此,VAD算法的这种用途是合乎需要的,因为其阻止对已知没有人声音存在的音频数据进行过度分析。另外,VAD算法需要相对低数量的CPU周期和相对低采样的记录存储器缓冲区。而且,仅使用VAD算法减少存储第一基准信号所需的数据存储空间,因为语音的存在或不存在均是所需的,而不是正在说的话。因此,运行VAD算法将不会明显增加处于低功率状态的客户端装置平台105的负担。而且,VAD算法可以实施为并入低功率处理器147中或除了低功率处理器以外另外设置的定制ASIC。如果所记录的非触觉输入无法具有人声音存在,那么可以分配第一置信度得分0.0,因此,低于第一置信度水平。因此,过程200将重返到块261,并继续记录非触觉输入。如果所记录的非触觉输入具有人声音存在,则分配第一置信度得分1.0,并因此高于第一阈值水平。过程200可以随后继续到块264,在块264,低功率处理器指示客户端装置平台105启动中间功率状态并因此继续进行。
然而,根据本公开的另外方面,第一置信度得分可以通过使用一个或多个另外的算法来细化。这可以减少被允许继续进行到块264的误报的数量。借助示例,而不是为了限制,客户端装置平台105也可以除了VAD算法以外利用简单的ASR算法,以便检测如果已经检测出的人声音在产生类似于第一基准信号中的一个或多个的词语。另选地,可以使用ASR算法以取代VAD算法。
简单的ASR算法,诸如利用隐马尔科夫模型(HMM)和不利用音调或听觉注意提示的ASR算法仅要求最小数量的CPU周期并且可以用低功率处理器147执行。因为ASR算法能够确定已说过的词语,所以能够比较记录的非触觉输入中说过的词语和基准输入中的词语。因此,非触觉输入的第一置信度得分可以分配在0.0–1.0之间的范围,以取代局限于0.0和1.0的两个极限值。
在替代实施中,特定词语的纯关键词识别算法可以与或不与说话者识别或神经网络或机器学习技术组合使用或可以只使用运动检测。
需要指出,VAD本身不需要是二进制并且可以具有在0.0与1.0之间的连续范围内的某些置信度水平。某些噪音,诸如类似于人声音的乐器会导致VAD得到中间的置信度水平。仍然可以有经应用以进行二进制选择(声音或没有声音)的阈值,但是VAD本身可以产生更连续的答案。
一旦已分配第一置信度得分,过程200可以随后继续到块263,在块263,低功率处理器确定第一置信度得分高于还是低于第一阈值水平并因此继续进行。
根据本公开的另外方面,传感器146可以是视频摄像机,并且生成第一置信度得分可以在块262利用检测人是否在客户端装置平台附近存在的对象识别算法来进行。如果视频数据中不存在人的图像,那么非触觉输入可以分配0.0的第一置信度得分,并且如果存在人,那么第一置信度得分可以是1.0。需要指出,对象检测算法本身不需要是二进制的,并且可以具有在0.0与1.0之间的连续范围内的某些置信度水平。某些噪音,诸如类似于人声音的乐器会导致VAD得到中间的置信度水平。仍然可以有经应用以进行二进制选择(声音或没有声音)的阈值,但是VAD本身可以产生更连续的答案。另外,第一置信度得分可以通过比较视频数据与描述物理运动的基准输入来细化。借助示例,基准输入可以是由人扮演的独特手势,诸如但不限于人在自己面前挥动他们的手。手势识别算法可以随后用于确定在面前运动的手的期望动作是否被视频摄像机记录。所记录的非触觉输入与基准信号之间的相似度可以随后用于生成不局限于两个极限值0.0和1.0的第一置信度得分。因此,超出过程的块263继续前进的误报会更少。
根据本公开的另一附加方面,可以使用两个或多个传感器146,以便记录不同类型的非触觉输入,该非触觉输入可以与两个单独基准信号比较以便生成第一置信度得分。借助示例,而不是为了限制,第一传感器146可以是麦克风,以及第二传感器146可以是视频摄像机。音频输入可以记录为第一非触觉输入并且可以随后用VAD算法、关键词识别算法、简单ASR算法或这些算法中的两个或多个的某些组合来进行分析。音频分析可以产生第一音频置信度得分。另外,视频数据可以记录为第二非触觉输入并可以随后用对象识别算法、手势识别算法或两者来进行分析。视频分析可以产生第一视频置信度得分。第一置信度得分可以随后是第一音频置信度得分和第一视频置信度得分的组合。借助示例,两个得分可以被平均,每个得分给予相等的权重,或一个得分权重比另一个得分权重更重。两个得分的组合可以提供用户是否肯定想要启动客户端装置平台105的期望操作的更值得信赖的确定。例如,非触觉音频输入可以具有足以继续进行到下一处理步骤的高置信度得分,但是非触觉视频数据可以表明没有人接近客户端装置平台105。因此,非触觉音频输入可以通过源诸如收音机或电视来产生,并因此可以是误报。借助示例,而不是为了限制,类似的组合第一置信度得分可以使用由传感器诸如但不限于红外传感器、太赫兹传感器、视频摄像机或麦克风所记录的两个或多个第一非触觉输入来计算。
根据本公开的另外方面,如果第一置信度得分低于第一阈值水平,那么所记录的非触觉输入不是启动客户端装置平台上的操作的肯定愿望的确定可以通过使用质询性的过程来双重检查。需要指出,太多项会在第一置信度得分方面失效。例如,在音频的情况下,可以合理预期几乎所有的噪音会失效。考虑到这点,质询响应可以被选通在更高的置信度得分或阈值水平。如果第一置信度量度继续在0.0与1.0之间,那么该范围可以划分为拒绝、质询和接受。例如,0.0-0.5将被拒绝,0.5-0.75可能需要质询响应,而0.75-1.0将总是被下一级接受。
质询过程可以用客户端装置平台105来实施,其中客户端装置平台105经配置当非触觉输入已被记录时,输出人可检测到的信号。用户可以随后感知客户端装置平台105输出的信号并提供非触觉响应输入以确认他们确实想启动客户端装置平台105上的操作。借助示例,而不是为了限制,人可检测到的输出信号可以是位于客户端装置平台105上的闪烁发光二极管(LED),或客户端装置平台105发出的可听见声音诸如蜂鸣。非触觉响应输入可以重复最初的非触觉输入,或它可以是确认短语或手势,诸如说“是”或上下摇头以指示“是”,或短语和手势的组合。如果客户端装置平台收到有效的响应输入,那么它可以无视第一置信度得分并继续进行到过程200的块264。使用质询系统可以提高系统的准确度。在处于低功率状态时,可能没有足够的CPU周期提供所记录的非触觉输入足以基本类似于高于第一阈值被分配给第一置信度得分的基准输入的置信度。然而,通过质询过程,用户期望操作的置信度可以在没有添加额外CPU周期的情况下增加。用户的肯定响应向客户端装置平台105指示他们想要执行某些操作。因此,所记录的非触觉输入可以通过或在中间功率状态进一步分析以确定哪个特定操作是想要的。
借助示例,在块264启动的中间功率状态可以包括指示客户端装置平台105向CPU131的一部分供电并允许存取更大的存储器,诸如存储器132。CPU 131的一部分可以通过激活CPU 131中的多个处理核中的一个或多个来供电。客户端装置平台的其他部分诸如显示器137或GPU可以保持未供电以便节能。激活CPU 131的一部分可以提供用于所记录的非触觉输入的更透彻分析的另外CPU周期。
在已启动中间功率状态之后,过程200继续进行到块265,在块265,生成第二置信度得分。最初只是语音的一个示例在低功率模式下处理。在中间功率状态之后,视频和音频数据可以在CPU 131中处理或发送到CPU 131’用于和更多的输入数据进一步处理。置信度得分可以基于所有数据来计算。第二置信度得分可以对应于所记录的非触觉输入与存储在处于中间功率状态的客户端装置平台105可访问的更大存储器上的一个或多个第二基准输入之间的相似度。第二基准信号可以与第一基准信号相同,并且还可以包括将占用太多空间的另外基准信号,因此,该另外基准信号可能未被存储在低功率状态下可用的有限存储器中。例如,除了可以被存储在低功率存储器148中的基准信号“装置接通”以外,更长的基准输入诸如“装置接通-玩视频游戏一”可在中间功率状态下访问。因此,具有对应于更复杂操作的基准信号是可能的,诸如比将客户端装置平台105从低功率状态简单唤醒更复杂的操作。借助示例,而不是为了限制,除了启动全功率状态的操作以外,操作还可以包括指示客户端装置平台105加载某些媒体标题,诸如视频游戏、电影或歌曲,将客户端装置平台105调谐到预期的输入或频道或它们的任何组合。此外,中间功率状态增加的存储器空间或处理能力的量还可以允许算法经训练识别特定个人的声音或脸部。这可能是有益的,因为它可以用于执行指示客户端装置平台105加载与已识别的个人相关联的设定的另外操作。借助示例,而不是为了限制,该设定可以包括期望的音量级、显示器设定、登录信息或它们的任何组合。
第二置信度得分可以通过使用一个或多个另外的算法来生成。因为有更多可用的CPU周期,这些算法可能更加稳健并能够对非触觉输入进行更详细的分析。借助示例,而不是为了限制,如果所记录的非触觉输入是音频数据,那么第二置信度得分可以用高质量ASR来生成,诸如可以并入听觉注意提示的用途的ASR,或通过将所记录的语音划分为音标或通过使用多信道数据的阵列和AEC以取代在低功率模式下的单信道数据的ASR。如果所记录的非触觉输入是视频数据,则第二置信度得分可以通过使用面部识别算法或高级手势识别算法来生成。另外,如果所记录的非触觉包括音频数据和视频数据两者,那么音视听语音识别(AVSR)算法可以与高级ASR算法组合使用以更准确分析非触觉输入。可以在中间功率状态下使用以提高置信度得分的其他方法包括但不限于说话者声音识别、唇读、手势识别、能够被使用的运动识别、声音事件检测(例如,鼓掌、玻璃破碎、敲击、踏步等)。
在已生成第二置信度得分之后,过程200可以继续进行到判定块266。在块266,客户端装置平台可以确定第二置信度得分是否高于第二阈值水平。如果第二置信度得分低于第二阈值水平,那么过程200返回到低功率状态,如块267所示,并在块261继续记录非触觉输入。如果第二置信度得分等于或高于第二阈值水平,那么过程200继续进行到块267,在块267生成命令信号,该命令信号指示客户端装置平台105执行已与一个或多个所记录的非触觉输入相匹配的基准信号相关联的一个或多个操作。
根据本公开的另外方面,可以有两个或多个并入过程200中的中间功率状态。每一个随后的中间功率状态可以允许另外的CPU周期处理非触觉输入。借助示例,第一中间功率状态可以包括激活多核CPU 131的单核,以及第二中间功率状态可以包括激活多核CPU 131的一个或多个另外的核。另外的中间功率状态可以允许在分配后面的置信度得分之前使用更高级的算法。这可以减少将导致客户端装置平台105错误启动操作的误报的数量。
图3是根据本公开的另外方面,描述实施通过非触觉输入信号来启动的一个或多个操作的过程300的流程图,其中非触觉输入信号可由客户端装置平台105检测,同时客户端装置平台105处于低功率状态。在低功率状态运行时,过程300基本类似于过程200直到判定块363之后。当第一置信度得分等于或高于第一阈值水平之后,低功率处理器通过网络160向基于云的服务器106传送所记录的非触觉输入,如在块364所示。第二置信度得分随后在365通过基于云的服务器106生成。在基于云的服务器106上的处理器131’可以以基本类似于在过程200中所述生成第二置信度得分所使用的方式实施。使用基于云的处理能力允许客户端装置平台105允许通过保持在低功率状态来省电。使用基于云的服务器106生成第二置信度得分也提供另外的益处。一种此类益处是基于云的服务器106上的存储器132’可以更大并因此能够保持更多的基准输入,从而允许用过程300实施更加多样化的操作。另外,因为基准信号被存储在云上,它们可以更经常被更新,因为可以连接到基于云的服务器的每一个客户端装置平台105将不需要在它们每次改变时下载新的基准输入。例如,来自别人的实时数据可以用于帮助提高新用户的性能。
一旦已生成第二置信度得分,过程300继续进行到判定块366。如果第二置信度得分低于第二阈值,那么过程300返回块361并继续记录非触觉输入。当第二置信度得分高于第二阈值时,过程300继续进行到块367。在块367,基于云的服务器106向客户端装置平台105传送命令信号,该命令信号指示客户端装置平台105执行与通过所记录的非触觉输入匹配的一个或多个基准输入相关联的一个或多个操作。
在某些实施中,信号(例如,面部图像)可以发送到适当的移动电话(例如,用户或父母的)进行验证以允许该装置上电与否。另选地,此类图像可以发送到正监测或保护房屋的安全操作员。
如图4所示,一组客户端装置平台指令470可以通过客户端装置平台105来实施。客户端装置平台指令470可以在非临时性计算机可读介质诸如存储器132、低功率存储器148或大容量存储装置134上形成。客户端装置平台指令470还可以是过程控制程序133的一部分。指令包括用传感器146记录非触觉输入的指令,并且在471将它们保存到存储器。接下来在472,可以有用于生成第一置信度得分的指令。此后,在473,客户端装置平台105可以被提供用于确定第一置信度得分是否高于第一阈值水平的指令。接下来,当第一置信度得分高于第一阈值水平时,客户端装置平台可以在474被命令启动中间功率状态。在中间功率状态,客户端装置平台105可以在475被命令生成第二置信度得分。接下来,可以有用于在476确定第二置信度得分是否高于第二阈值水平的指令。此后,指令470可以包括用于生成促使客户端装置平台105在478执行一个或多个操作的命令信号的指令。
如图5所示,一组客户端装置平台指令570可以例如通过客户端装置平台105来实施。客户端装置平台指令570可以在非临时性计算机可读介质诸如存储器132、低功率存储器148或大容量存储装置134上形成。客户端装置平台指令570还可以是过程控制程序133的一部分。指令包括用传感器146记录非触觉输入的指令,并且在571将它们保存到存储器。接下来在572,可以有用于生成第一置信度得分的指令。此后,在573,客户端装置平台105可以被提供用于确定第一置信度得分是否高于第一阈值水平的指令。接下来,当第一置信度得分高于第一阈值水平时,客户端装置平台105可以被命令在574通过网络160向外部服务器传送所记录的非触觉输入。指令570可以随后包括在575生成第二置信度得分的指令。接下来,可以有用于在576确定第二置信度得分是否高于第二阈值水平的指令。此后,指令570可以包括用于通过网络160向客户端装置平台105传送命令信号的指令,在客户端装置平台105收到该指令时,促使该客户端装置平台在477执行一个或多个操作。
虽然以上是本发明的优选实施例的完整描述,但使用各种替代、更改和等同物是可能的。因此,不应该参考上面的说明书来确定本发明的范围,而是应该参考所附的权利要求书以及其等同物的全范围来确定。本文所述的任何特征,无论其是否优选,都可以与本文所述的无论是否优选的任何其他特征组合。在所附的权利要求中,不定冠词“一个(A/An)”指的是后面跟随的物品的一项或多项的数量,除非另有明确陈述。所附权利要求书不应解释为包括方法加功能的限制,除非此类限制在给定的使用短语“用于...的方法”的权利要求中明确描述。
Claims (34)
1.一种对客户端装置平台执行操作的方法,其包括:
用一个或多个传感器将一个或多个非触觉输入记录到装置,其中所述一个或多个输入被记录到第一存储器,其中所述装置在低功率状态下运行,在所述低功率状态下,电源提供给第一处理器和所述第一存储器;
生成一个或多个第一置信度得分,其中所述一个或多个第一置信度得分中的每一个是对应记录的非触觉输入与存储在所述第一存储器中的第一基准输入之间相似度的量度;
当所述第一置信度得分高于第一阈值水平时,启动所述装置的中间功率状态,其中所述中间功率状态包括向至少第二处理器提供电源,其中所述第二处理器具有比所述第一处理器更大量的可用处理能力;
当所述第一置信度得分在质询范围内时,输出质询信号,并且当所述质询信号的响应被所述一个或多个传感器检测到时,启动所述中间功率状态;
用所述第二处理器生成一个或多个第二置信度得分,其中所述一个或多个第二置信度得分中的每一个是每一个记录的非触觉输入与第二基准输入之间相似度的量度;
当所述第二置信度得分高于第二阈值时,生成指示所述客户端装置执行与所述第二基准输入相关联的一个或多个操作的命令信号,
其中,所述第二基准输入包括所述第一基准输入,以及占用更多空间的另外基准输入。
2.根据权利要求1所述的方法,其中所述一个或多个传感器中的第一传感器是麦克风。
3.根据权利要求2所述的方法,其中生成所述第一置信度得分包括用话音活动检测VAD算法来分析所述非触觉输入中的一个或多个。
4.根据权利要求3所述的方法,其中所述VAD算法通过专用集成电路ASIC来实施。
5.根据权利要求2所述的方法,其中生成所述第一置信度得分包括用自动语音识别算法来分析所述非触觉输入中的一个或多个。
6.根据权利要求2所述的方法,其中生成所述一个或多个第一置信度得分包括用话音活动检测VAD算法和自动语音识别算法来分析所述非触觉输入中的一个或多个。
7.根据权利要求2所述的方法,其中所述一个或多个传感器中的第二传感器经配置检测所述客户端装置平台附近人的存在。
8.根据权利要求7所述的方法,其中所述经配置检测所述客户端装置平台附近人的存在的传感器是视频摄像机。
9.根据权利要求7所述的方法,其中所述经配置检测所述客户端装置平台附近人的存在的传感器是红外摄像机。
10.根据权利要求7所述的方法,其中所述经配置检测所述客户端装置平台附近人的存在的传感器是太赫兹传感器。
11.根据权利要求2所述的方法,其中生成所述一个或多个第二置信度得分包括用自动语音识别算法来分析所述非触觉输入中的一个或多个,其中所述自动语音识别算法利用音标。
12.根据权利要求2所述的方法,其中生成所述第二置信度得分包括用自动语音识别算法来分析所述非触觉输入中的一个或多个,其中所述自动语音识别算法利用听觉注意提示。
13.根据权利要求2所述的方法,其中生成所述第二置信度得分包括用话音识别算法来分析所述非触觉输入中的一个或多个以识别特定人的声音。
14.根据权利要求1所述的方法,其中所述一个或多个传感器中的一个传感器是视频摄像机。
15.根据权利要求14所述的方法,其中生成所述第一置信度得分包括用对象识别算法来分析所述非触觉输入中的一个或多个。
16.根据权利要求15所述的方法,其中所述对象识别算法经配置检测所述客户端装置平台附近人的存在。
17.根据权利要求14所述的方法,其中生成所述第一置信度得分包括用手势识别算法来分析所述非触觉输入中的一个或多个。
18.根据权利要求14所述的方法,其中生成所述第二置信度得分包括用视听语音识别ASVR算法来分析所述非触觉输入中的一个或多个。
19.根据权利要求1所述的方法,其中所述一个或多个传感器中的一个传感器是运动传感器,并且其中生成所述第一置信度得分包括执行运动检测。
20.根据权利要求1所述的方法,其中所述人可检测到的质询信号是闪烁的发光二极管LED。
21.根据权利要求1所述的方法,其中所述质询信号是经配置人可检测到的可听音调。
22.根据权利要求1所述的方法,其中所述非触觉响应输入是可听短语。
23.根据权利要求1所述的方法,其中所述非触觉响应输入是手势。
24.根据权利要求1所述的方法,其中所述中间功率状态在基于云的服务器上实施。
25.根据权利要求24所述的方法,其中所述一个或多个非触觉输入通过网络传送到所述基于云的服务器。
26.根据权利要求1所述的方法,其中所述第二处理器耦接于第二存储器。
27.根据权利要求26所述的方法,其中所述第二存储器包括未存储在所述第一存储器上的一个或多个基准信号。
28.根据权利要求1所述的方法,其中所述第一处理器包括多核处理器中的一个或多个核。
29.根据权利要求28所述的方法,其中所述第二处理器包括所述第一处理器和所述多核处理器中的一个或多个附加核。
30.根据权利要求1所述的方法,其中所述一个或多个操作中的一个经配置启动所述客户端装置平台上的全功率状态。
31.根据权利要求1所述的方法,其中所述一个或多个操作中的一个经配置启动所述客户端装置平台上的特定媒体标题的回放。
32.根据权利要求1所述的方法,其中所述一个或多个操作中的一个经配置加载玩家简档。
33.一种经配置在网络上运行的客户端装置平台,所述客户端装置平台包括:
处理器;
耦接于所述处理器的存储器;
嵌入在存储器中供所述处理器执行的一个或多个指令,所述指令经配置实施一种方法,所述方法包括:
用一个或多个传感器将一个或多个非触觉输入记录到装置,其中所述一个或多个输入被记录到第一存储器,其中所述装置在向第一处理器和所述第一存储器供电的低功率状态下运行;
生成一个或多个第一置信度得分,其中所述一个或多个第一置信度得分中的每一个是对应记录的非触觉输入与存储在所述第一存储器中的第一基准输入之间相似度的量度;
当所述第一置信度得分高于第一阈值水平时,启动所述装置的中间功率状态,其中所述中间功率状态包括向至少第二处理器供电,其中所述第二处理器具有比所述第一处理器更大量的可用处理能力;
当所述第一置信度得分在质询范围内时,输出质询信号,并且当所述质询信号的响应被所述一个或多个传感器检测到时,启动所述中间功率状态;
用所述第二处理器生成一个或多个第二置信度得分,其中所述一个或多个第二置信度得分中的每一个是每一个记录的非触觉输入与第二基准输入之间相似度的量度;
生成命令信号,当所述第二置信度得分高于第二阈值时,所述命令信号指示所述客户端装置执行与所述第二基准输入相关联的一个或多个操作,
其中,所述第二基准输入包括所述第一基准输入,以及占用更多空间的另外基准输入。
34.一种包含程序指令的非临时性计算机可读介质,其中计算机系统的一个或多个处理器执行所述程序指令促使所述一个或多个处理器执行以下步骤:
用一个或多个传感器将一个或多个非触觉输入记录到装置,其中所述一个或多个输入被记录到第一存储器,其中所述装置在向第一处理器和所述第一存储器供电的低功率状态下运行;
生成一个或多个第一置信度得分,其中所述一个或多个第一置信度得分中的每一个是对应记录的非触觉输入与存储在所述第一存储器中的第一基准输入之间相似度的量度;
当所述第一置信度得分高于第一阈值水平时,启动所述装置的中间功率状态,其中所述中间功率状态包括向至少第二处理器供电,其中所述第二处理器具有比所述第一处理器更大量的可用处理能力;
当所述第一置信度得分在质询范围内时,输出质询信号,并且当所述质询信号的响应被所述一个或多个传感器检测到时,启动所述中间功率状态;
用所述第二处理器生成一个或多个第二置信度得分,其中所述一个或多个第二置信度得分中的每一个是每一个记录的非触觉输入与第二基准输入之间相似度的量度;
生成命令信号,当所述第二置信度得分高于第二阈值时,所述命令信号指示所述客户端装置执行与所述第二基准输入相关联的一个或多个操作,
其中,所述第二基准输入包括所述第一基准输入,以及占用更多空间的另外基准输入。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361767065P | 2013-02-20 | 2013-02-20 | |
US61/767,065 | 2013-02-20 | ||
US13/791,716 US9256269B2 (en) | 2013-02-20 | 2013-03-08 | Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state |
US13/791,716 | 2013-03-08 | ||
PCT/US2014/016951 WO2014130463A2 (en) | 2013-02-20 | 2014-02-18 | Hybrid performance scaling or speech recognition |
CN201480007443.1A CN105229724A (zh) | 2013-02-20 | 2014-02-18 | 混合性能缩放或语音识别 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480007443.1A Division CN105229724A (zh) | 2013-02-20 | 2014-02-18 | 混合性能缩放或语音识别 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112863510A CN112863510A (zh) | 2021-05-28 |
CN112863510B true CN112863510B (zh) | 2022-06-28 |
Family
ID=51352186
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480007443.1A Pending CN105229724A (zh) | 2013-02-20 | 2014-02-18 | 混合性能缩放或语音识别 |
CN202110034665.4A Active CN112863510B (zh) | 2013-02-20 | 2014-02-18 | 对客户端装置平台执行操作的方法和客户端装置平台 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480007443.1A Pending CN105229724A (zh) | 2013-02-20 | 2014-02-18 | 混合性能缩放或语音识别 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9256269B2 (zh) |
EP (1) | EP2959474B1 (zh) |
JP (2) | JP6028111B2 (zh) |
CN (2) | CN105229724A (zh) |
WO (1) | WO2014130463A2 (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9063731B2 (en) * | 2012-08-27 | 2015-06-23 | Samsung Electronics Co., Ltd. | Ultra low power apparatus and method to wake up a main processor |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
US20140343949A1 (en) * | 2013-05-17 | 2014-11-20 | Fortemedia, Inc. | Smart microphone device |
US9665155B2 (en) * | 2013-12-28 | 2017-05-30 | Intel Corporation | Techniques for increasing energy efficiency of sensor controllers that receive data from one or more sensors |
US9619010B1 (en) * | 2014-06-17 | 2017-04-11 | Amazon Technologies, Inc. | Selective powering off of hardware components for battery management in mobile devices |
US9697828B1 (en) | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
US11289077B2 (en) * | 2014-07-15 | 2022-03-29 | Avaya Inc. | Systems and methods for speech analytics and phrase spotting using phoneme sequences |
US10127927B2 (en) | 2014-07-28 | 2018-11-13 | Sony Interactive Entertainment Inc. | Emotional speech processing |
US20160055847A1 (en) * | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9812128B2 (en) | 2014-10-09 | 2017-11-07 | Google Inc. | Device leadership negotiation among voice interface devices |
FR3030177B1 (fr) * | 2014-12-16 | 2016-12-30 | Stmicroelectronics Rousset | Dispositif electronique comprenant un module de reveil d'un appareil electronique distinct d'un coeur de traitement |
KR102418892B1 (ko) * | 2015-06-15 | 2022-07-11 | 한국전자통신연구원 | 신뢰구간에 기반한 에너지 절감 방법 및 이를 이용한 장치 |
US9542941B1 (en) * | 2015-10-01 | 2017-01-10 | Lenovo (Singapore) Pte. Ltd. | Situationally suspending wakeup word to enable voice command input |
WO2017105517A1 (en) | 2015-12-18 | 2017-06-22 | Hewlett Packard Enterprise Development Lp | Memristor crossbar arrays to activate processors |
CN105868108B (zh) * | 2016-03-28 | 2018-09-07 | 中国科学院信息工程研究所 | 基于神经网络的指令集无关的二进制代码相似性检测方法 |
CN105868082B (zh) * | 2016-06-01 | 2019-04-02 | 楚天龙股份有限公司 | 非接触式cpu卡通讯监测器 |
US10438583B2 (en) * | 2016-07-20 | 2019-10-08 | Lenovo (Singapore) Pte. Ltd. | Natural language voice assistant |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
US10671925B2 (en) * | 2016-12-28 | 2020-06-02 | Intel Corporation | Cloud-assisted perceptual computing analytics |
US10878342B2 (en) * | 2017-03-30 | 2020-12-29 | Intel Corporation | Cloud assisted machine learning |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
US10770094B2 (en) * | 2018-01-09 | 2020-09-08 | Intel IP Corporation | Routing audio streams based on semantically generated result sets |
US10332543B1 (en) * | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
CN109065046A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 语音唤醒的方法、装置、电子设备及计算机可读存储介质 |
US11580355B2 (en) * | 2018-10-25 | 2023-02-14 | Electronic Warfare Associates, Inc. | System-on-a-chip incorporating artificial neural network and general-purpose processor circuitry |
KR102700032B1 (ko) | 2019-01-21 | 2024-08-29 | 삼성전자주식회사 | 디스플레이의 손상을 방지하기 위한 전자 장치 및 방법 |
US11659332B2 (en) | 2019-07-30 | 2023-05-23 | Dolby Laboratories Licensing Corporation | Estimating user location in a system including smart audio devices |
US11462218B1 (en) * | 2020-04-29 | 2022-10-04 | Amazon Technologies, Inc. | Conserving battery while detecting for human voice |
US11782149B2 (en) * | 2021-01-08 | 2023-10-10 | Google Llc | Systems and methods for managing motion detection of an electronic device, and associated electronic devices |
EP4275105A1 (en) * | 2021-01-08 | 2023-11-15 | Google LLC | Systems and methods for managing motion detection of an electronic device, and associated electronic devices |
US12099112B2 (en) | 2021-01-08 | 2024-09-24 | Google Llc | Systems and methods for managing sensors of an electronic device, and associated electronic devices |
US11915698B1 (en) * | 2021-09-29 | 2024-02-27 | Amazon Technologies, Inc. | Sound source localization |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708855A (zh) * | 2011-02-25 | 2012-10-03 | 微软公司 | 利用话音识别器反馈来进行语音活动检测 |
WO2012155105A1 (en) * | 2011-05-12 | 2012-11-15 | Apple Inc. | Presence sensing |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
JP2000193752A (ja) * | 1998-12-28 | 2000-07-14 | Matsushita Electric Ind Co Ltd | 人体検知装置 |
US6963759B1 (en) * | 1999-10-05 | 2005-11-08 | Fastmobile, Inc. | Speech recognition technique based on local interrupt detection |
US6397186B1 (en) * | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
US7039951B1 (en) * | 2000-06-06 | 2006-05-02 | International Business Machines Corporation | System and method for confidence based incremental access authentication |
JP2003195880A (ja) * | 2001-12-28 | 2003-07-09 | Nec Corp | サーバ・クライアント型音声認識装置 |
JP2004072260A (ja) * | 2002-08-02 | 2004-03-04 | Ricoh Co Ltd | 画像処理装置、プログラムおよび記録媒体並びに画像処理システム |
JP4413564B2 (ja) * | 2003-09-16 | 2010-02-10 | 三菱電機株式会社 | 情報端末および音声認識システム |
US7697026B2 (en) * | 2004-03-16 | 2010-04-13 | 3Vr Security, Inc. | Pipeline architecture for analyzing multiple video streams |
US20060068851A1 (en) * | 2004-09-28 | 2006-03-30 | Ashman William C Jr | Accessory device for mobile communication device |
US7844465B2 (en) * | 2004-11-30 | 2010-11-30 | Scansoft, Inc. | Random confirmation in speech based systems |
US20060149544A1 (en) * | 2005-01-05 | 2006-07-06 | At&T Corp. | Error prediction in spoken dialog systems |
US20060215821A1 (en) * | 2005-03-23 | 2006-09-28 | Rokusek Daniel S | Voice nametag audio feedback for dialing a telephone call |
US7574590B2 (en) * | 2005-10-26 | 2009-08-11 | Sigmatel, Inc. | Method for booting a system on a chip integrated circuit |
ES2386977T3 (es) * | 2005-11-29 | 2012-09-10 | Google Inc. | Aplicaciones sociales e interactivas para medios masivos |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
US8355915B2 (en) * | 2006-11-30 | 2013-01-15 | Rao Ashwin P | Multimodal speech recognition system |
US8380511B2 (en) * | 2007-02-20 | 2013-02-19 | Intervoice Limited Partnership | System and method for semantic categorization |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8165877B2 (en) * | 2007-08-03 | 2012-04-24 | Microsoft Corporation | Confidence measure generation for speech related searching |
KR100919225B1 (ko) * | 2007-09-19 | 2009-09-28 | 한국전자통신연구원 | 음성 대화 시스템에 있어서 다단계 검증을 이용한 대화오류 후처리 장치 및 방법 |
US8239203B2 (en) | 2008-04-15 | 2012-08-07 | Nuance Communications, Inc. | Adaptive confidence thresholds for speech recognition |
US8259082B2 (en) * | 2008-09-12 | 2012-09-04 | At&T Intellectual Property I, L.P. | Multimodal portable communication interface for accessing video content |
US9134798B2 (en) * | 2008-12-15 | 2015-09-15 | Microsoft Technology Licensing, Llc | Gestures, interactions, and common ground in a surface computing environment |
US9086875B2 (en) * | 2009-06-05 | 2015-07-21 | Qualcomm Incorporated | Controlling power consumption of a mobile device based on gesture recognition |
KR101688655B1 (ko) * | 2009-12-03 | 2016-12-21 | 엘지전자 주식회사 | 사용자의 프레전스 검출에 의한 제스쳐 인식 장치의 전력 제어 방법 |
US8712143B2 (en) * | 2010-02-26 | 2014-04-29 | Bank Of America Corporation | Processing financial documents |
JP5039214B2 (ja) * | 2011-02-17 | 2012-10-03 | 株式会社東芝 | 音声認識操作装置及び音声認識操作方法 |
WO2012134997A2 (en) * | 2011-03-25 | 2012-10-04 | Educational Testing Service | Non-scorable response filters for speech scoring systems |
US20120317085A1 (en) * | 2011-06-13 | 2012-12-13 | United Video Properties, Inc. | Systems and methods for transmitting content metadata from multiple data records |
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
EP2783365B1 (en) * | 2011-11-21 | 2018-02-21 | Robert Bosch GmbH | Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance |
US20130155237A1 (en) * | 2011-12-16 | 2013-06-20 | Microsoft Corporation | Interacting with a mobile device within a vehicle using gestures |
US9389690B2 (en) * | 2012-03-01 | 2016-07-12 | Qualcomm Incorporated | Gesture detection based on information from multiple types of sensors |
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
TWI474317B (zh) * | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
KR102117841B1 (ko) * | 2012-10-30 | 2020-06-02 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US9361885B2 (en) * | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US10229697B2 (en) * | 2013-03-12 | 2019-03-12 | Google Technology Holdings LLC | Apparatus and method for beamforming to obtain voice and noise signals |
-
2013
- 2013-03-08 US US13/791,716 patent/US9256269B2/en active Active
-
2014
- 2014-02-18 JP JP2015558202A patent/JP6028111B2/ja active Active
- 2014-02-18 CN CN201480007443.1A patent/CN105229724A/zh active Pending
- 2014-02-18 EP EP14753571.0A patent/EP2959474B1/en active Active
- 2014-02-18 WO PCT/US2014/016951 patent/WO2014130463A2/en active Application Filing
- 2014-02-18 CN CN202110034665.4A patent/CN112863510B/zh active Active
-
2016
- 2016-10-17 JP JP2016203417A patent/JP6325626B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708855A (zh) * | 2011-02-25 | 2012-10-03 | 微软公司 | 利用话音识别器反馈来进行语音活动检测 |
WO2012155105A1 (en) * | 2011-05-12 | 2012-11-15 | Apple Inc. | Presence sensing |
Also Published As
Publication number | Publication date |
---|---|
WO2014130463A3 (en) | 2014-10-16 |
EP2959474A2 (en) | 2015-12-30 |
EP2959474B1 (en) | 2019-06-05 |
JP6325626B2 (ja) | 2018-05-16 |
EP2959474A4 (en) | 2016-10-19 |
JP6028111B2 (ja) | 2016-11-16 |
JP2016516225A (ja) | 2016-06-02 |
WO2014130463A2 (en) | 2014-08-28 |
US20140237277A1 (en) | 2014-08-21 |
CN105229724A (zh) | 2016-01-06 |
US9256269B2 (en) | 2016-02-09 |
JP2017050010A (ja) | 2017-03-09 |
CN112863510A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112863510B (zh) | 对客户端装置平台执行操作的方法和客户端装置平台 | |
US10599393B2 (en) | Multimodal input system | |
WO2021036644A1 (zh) | 一种基于人工智能的语音驱动动画方法和装置 | |
CN113038470A (zh) | 用于多模式用户设备认证的系统和方法 | |
JP7418563B2 (ja) | オンデバイスの機械学習モデルの訓練のための自動化アシスタントの機能の訂正の使用 | |
CN111768783B (zh) | 语音交互控制方法、装置、电子设备、存储介质和系统 | |
CN110349579B (zh) | 语音唤醒处理方法及装置、电子设备及存储介质 | |
MX2014006001A (es) | Igualacion de patron de audio para activacion de dispositivo. | |
WO2021093380A1 (zh) | 一种噪声处理方法、装置、系统 | |
US20210011887A1 (en) | Activity query response system | |
CN112466302A (zh) | 语音交互的方法、装置、电子设备和存储介质 | |
CN110544468B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
JP7063937B2 (ja) | 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム | |
CN112562723B (zh) | 发音准确度确定方法、装置、存储介质和电子设备 | |
CN111899576A (zh) | 发音测试应用的控制方法、装置、存储介质和电子设备 | |
CN112840313A (zh) | 电子设备及其控制方法 | |
US10175938B2 (en) | Website navigation via a voice user interface | |
CN112863508A (zh) | 免唤醒交互方法和装置 | |
CN111522592A (zh) | 一种基于人工智能的智能终端唤醒方法和装置 | |
CN113519022B (zh) | 电子设备及其控制方法 | |
EP3654170B1 (en) | Electronic apparatus and wifi connecting method thereof | |
CN110874402B (zh) | 基于个性化信息的回复生成方法、设备和计算机可读介质 | |
WO2023006033A1 (zh) | 语音交互方法、电子设备及介质 | |
KR20210063698A (ko) | 전자장치와 그의 제어방법, 및 기록매체 | |
CN114694661A (zh) | 一种第一终端设备、第二终端设备和语音唤醒方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |