CN104247280A - 话音控制的通信连接 - Google Patents

话音控制的通信连接 Download PDF

Info

Publication number
CN104247280A
CN104247280A CN201480000962.5A CN201480000962A CN104247280A CN 104247280 A CN104247280 A CN 104247280A CN 201480000962 A CN201480000962 A CN 201480000962A CN 104247280 A CN104247280 A CN 104247280A
Authority
CN
China
Prior art keywords
mode
mobile device
operate
acoustical signal
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480000962.5A
Other languages
English (en)
Inventor
琼·拉罗什
戴维·P·罗苏姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Knowles Electronics LLC
Original Assignee
Audience LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audience LLC filed Critical Audience LLC
Publication of CN104247280A publication Critical patent/CN104247280A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Abstract

本发明提供用于话音控制的通信连接的系统及方法。实例性系统包含连续地在监听、唤醒、验证及连接模式中操作的移动装置。后续模式中的每一者消耗比前一模式多的功率。所述监听模式消耗少于5mW。在所述监听模式中,所述移动装置监听声信号,确定所述声信号是否包含话音,且在所述确定后,即刻选择性地进入所述唤醒模式。在所述唤醒模式中,所述移动装置确定所述声信号是否包含口述话语,且在所述确定后,即刻进入所述验证模式。在验证模式中,所述移动装置使用口述命令识别用户,且在所述识别后,即刻进入所述连接模式。在所述连接模式中,所述移动装置接收声信号,确定所述声信号是否包含口述命令并执行与所述口述命令相关联的一或多个操作。

Description

话音控制的通信连接
相关申请案交叉参考
本申请案主张于2013年2月27日申请的第61/770,264号美国临时申请案的权益。上述申请案的标的物出于所有目的以引用的方式并入本文中。
技术领域
本申请案一般来说涉及音频处理,且更具体来说,涉及用于话音控制的通信连接的系统及方法。
背景技术
移动装置的控制可由于由用户接口造成的限制而是困难的。一方面,移动装置上较少的按钮或选择可使得移动装置较易于操作但可提供较少控制及/或使得控制笨拙。另一方面,太多按钮或选择可使得移动装置难以处置。为执行(甚至例程)任务,一些用户接口可需要在其菜单中导航众多选项或选择。另外,一些操作环境可能不准许用户将全部注意力放在用户接口上,举例来说,在操作车辆时。
发明内容
提供此发明内容以按简化形式引入下文在具体实施方式中进一步描述的概念精选。此发明内容不打算识别所请求标的物的关键特征或本质特征,也不打算用作确定所请求标的物的范围的辅助。
根据实例性实施例,一种用于话音控制的通信连接的方法包括使移动装置在数个操作模式中操作。在一些实施例中,所述操作模式可包含监听模式、话音唤醒模式、验证模式及载波连接模式。在一些实施例中,较早使用的模式可消耗比较晚使用的模式少的功率,其中所述监听模式消耗最少功率。在各种实施例中,每一接续模式可消耗比前一模式多的功率,其中所述监听模式消耗最少功率。
在一些实施例中,在于所述监听模式中操作时,在所述移动装置接通的情况下,功率消耗不多于5mW。所述移动装置可继续在所述监听模式中操作直到由所述移动装置的一或多个麦克风接收到声信号为止。在一些实施例中,所述移动装置可操作以确定所述所接收声信号是否为话音。可将所述所接收声信号存储于所述移动装置的存储器中。
在接收到所述声信号之后,所述移动装置可进入所述唤醒模式。在于所述唤醒模式中操作时,所述移动装置经配置以确定所述声信号是否包含一或多个口述命令。在确定所述声信号中存在一或多个口述命令后,所述移动装置即刻进入所述验证模式。
在于验证模式中操作时,所述移动装置可使用口述命令确定用户的身份。一旦已确定了用户的身份,所述移动装置便进入所述连接模式。在于连接模式中操作时,所述移动装置经配置以执行与所述口述命令及/或后续口述命令相关联的操作。
可含有所述口述命令及后续口述命令中的至少一者的声信号可经记录或经缓冲、经处理以抑制及/或消除噪声(例如,针对噪声稳健性),及/或经处理以用于自动语音辨识。
附图说明
在附图的各图中以实例而非限制方式图解说明各实施例,其中相似参考符号指示类似元件,且其中:
图1是其中可实践用于话音控制的通信连接的方法的实例性环境。
图2是可根据实例性实施例实施用于话音控制的通信连接的方法的移动装置的框图。
图3是展示根据实例性实施例用于话音控制的通信连接的系统的组件的框图。
图4是展示根据实例性实施例用于话音控制的通信连接的系统的模式的框图。
图5到9是展示根据实例性实施例用于话音控制的通信连接的方法的步骤的流程图。
图10是根据实例性实施例实施用于话音控制的通信连接的方法的计算系统的框图。
具体实施方式
本发明提供用于话音控制的通信连接的实例性系统及方法。可在任何移动装置上实践本发明的实施例。移动装置可包含:射频(RF)接收器、发射器及收发器;有线及/或无线电信及/或连网装置;放大器;音频及/或视频播放器;编码器;解码器;扬声器;输入;输出;存储装置;用户输入装置。移动装置可包含例如按钮、开关、键、键盘、轨迹球、滑块、触摸屏、一或多个麦克风、陀螺仪、加速计、全球定位系统(GPS)接收器等输入装置。移动装置可包含例如LED指示器、视频显示器、触摸屏、扬声器等输出。在一些实施例中,移动装置可为例如有线及/或无线远程控制件、笔记本型计算机、平板计算机、平板电话、智能电话、个人数字助理、媒体播放器、移动电话等手持式装置。
移动装置可用于固定及移动环境中。固定环境可包含住宅及商业建筑物或结构。固定环境可包含起居室、卧室、家庭影院、会议室、会堂等等。对于移动环境,移动装置可随车辆移动、由用户携带或以其它方式为可运输的。
根据实例性实施例,一种用于话音控制的通信连接的方法包含在使所述移动装置在第一模式中操作时经由所述一或多个麦克风检测声信号。所述方法可进一步包含确定所述声信号是否为话音。所述方法可进一步包含基于所述确定而将所述移动装置切换到第二模式及将所述声信号存储到缓冲器。所述方法可进一步包含使所述移动装置在所述第二模式中操作,且在使所述移动装置在所述第二模式中操作时,接收声信号,确定所述声信号是否包含一或多个口述命令及响应于确定而将所述移动装置切换到第三模式。所述方法可进一步包含使所述移动装置在所述第三模式中操作,且在使所述移动装置在所述第三模式中操作时,接收所述一或多个口述命令,基于所述一或多个口述命令而识别用户,及响应于所述识别而将所述移动装置切换到第四模式。所述方法可进一步包含使所述移动装置在第四模式中操作,且在使所述移动装置在所述第四模式中操作时,接收另外声信号,确定所述另外声信号是否为一或多个另外口述命令,及响应于所述确定而选择性地执行所述移动装置的操作,所述操作对应于所述一或多个另外口述命令。在使所述移动装置在所述第一模式中操作时,所述移动装置消耗比在所述移动装置于所述第二模式中操作时少的功率。在于所述第二模式中操作时,所述移动装置消耗比在于所述第三模式中操作时少的功率。在于所述第三模式中操作时,所述移动装置消耗比在于所述第四模式中操作时少的功率。
现在参考图1,展示其中可实践用于话音控制的通信连接的方法的环境100。在实例性环境100中,移动装置110至少可操作以经由一或多个麦克风120接收声音频信号且处理及/或记录/存储所接收音频信号。在一些实施例中,移动装置110可经由网络连接到云150以便使移动装置110发送及接收数据(例如,所记录音频信号)以及请求计算服务且接收回计算的结果。
所述声音频信号可包含至少一声音130,举例来说,操作移动装置110的人的语音。声音130可被噪声140污染。噪声源可包含街道噪声、周围噪声、来自移动装置的声音(例如音频)、来自除既定讲话者之外的实体的语音等等。
图2是展示根据实例性实施例的移动装置110的组件的框图。在所图解说明的实施例中,移动装置110包含处理器210、一或多个麦克风220、接收器230、存储器存储装置250、音频处理系统260、扬声器270、图形显示系统280及任选摄像机240。移动装置110可包含移动装置110的操作所必需的额外或其它组件。类似地,移动装置110可包含执行类似或等效于图2中所描绘的功能的更少组件。
处理器210可包含可操作以执行存储于存储器存储装置250中的计算机程序的硬件及/或软件。处理器210可使用浮点运算、复数运算及其它运算,包含话音控制的通信连接。
在某一实施例中,存储器存储装置250可包含声音缓冲器255。在其它实施例中,声音缓冲器255可放置于与存储器存储装置250分离的芯片上。
除回放视频以外,图形显示系统280还可经配置以提供用户图形接口。在一些实施例中,可利用与图形显示系统相关联的触摸屏从用户接收输入。一旦用户触摸屏幕,便可经由图标或文本按钮将选项提供给用户。
音频处理系统260可经配置以经由一或多个麦克风220从声源接收声信号并处理声信号分量。麦克风220可间隔开一距离以使得从某些方向撞击于装置上的声波在两个或两个以上麦克风处展现不同能级。在由麦克风220接收之后,可将所述声信号转换成电信号。根据一些实施例,这些电信号又可由模/数转换器(未展示)转换成数字信号以用于处理。
在其中麦克风220为紧密间隔(例如,隔开1cm到2cm)的全向性麦克风的各种实施例中,可使用波束形成技术来模拟前向及后向方向性麦克风响应。可使用所模拟的前向及后向方向性麦克风来获得能级差。可使用能级差在(举例来说)时间-频率域中鉴别语音及噪声,此可用于噪声及/或回波减小中。在一些实施例中,一些麦克风主用用于检测语音且其它麦克风主要用于检测噪声。在各种实施例中,一些麦克风用于检测噪声及语音两者。
在一些实施例中,为了抑制噪声,音频处理系统260可包含噪声抑制模块265。噪声抑制可由移动装置110的音频处理系统260及噪声抑制模块265基于麦克风间能级差、能级特点、音高特点、信号类型分类、讲话者识别等等而执行。在2010年7月8日申请的标题为“用于联合地优化单麦克风或多麦克风系统中的噪声减少及话音质量的方法(Method for Jointly Optimizing Noise Reduction and Voice Quality in a Mono orMulti-Microphone System)”的第12/832,901号美国专利申请案中更详细地论述适合于执行噪声减少的实例性音频处理系统,所述美国专利申请案的揭示内容出于所有目的而以引用的方式并入本文中。
图3展示用于话音控制的通信连接300的系统的组件。在一些实施例中,用于话音控制的通信的系统的组件可包含话音活动性检测(VAD)模块310、自动语音辨识(ASR)模块320及话音用户接口(VUI)模块330。VAD模块310、ASR模块320及VUI模块330可经配置以接收并分析存储于声音缓冲器255中的声信号(例如,呈数字形式)。在一些实施例中,VAD模块310、ASR模块320及VUI模块330可接收由音频处理系统260(图2中所展示)处理的声信号。在一些实施例中,可经由噪声减少模块265抑制声信号中的噪声。
在某些实施例中,VAD、ASR及VUI模块可实施为存储于移动装置110的存储器存储装置250中且由处理器210(图2中所展示)执行的指令。在其它实施例中,VAD、ASR及VUI模块中的一或多者可实施为安装于移动装置110中的单独固件微芯片。在一些实施例中,VAD、ASR及VUI模块中的一或多者可集成于音频处理系统260中。
在一些实施例中,ASR可包含将口述话语变换成文本或其它语言表示。可在移动装置110上本地执行或在云150(图1中所展示)中执行ASR。云150可包含经由网络(举例来说,因特网、移动电话(手机)网络等等)递送一或多个服务的计算资源(硬件及软件两者)。
在一些实施例中,可响应于某一经辨识音频信号(举例来说,包含但不限于一或多个关键字、关键短语等等的经辨识话音命令)而控制及/或激活移动装置110。相关联关键字及其它话音命令由用户选择或预编程。在各种实施例中,VUI模块330可用于(举例来说)执行免手持的、频繁使用的及/或重要的通信任务。
图4图解说明根据实例性实施例用于操作移动装置110的模式400。实施例可包含低功率监听模式410(也称为“睡眠”模式)、唤醒模式420(举例来说,从“睡眠”模式或监听模式)、验证模式430及连接模式440。在一些实施例中,较早执行的模式消耗比较晚执行的模式少的功率,其中监听模式消耗最少功率,以便节省功率。在各种实施例中,每一接续模式消耗比前一模式多的功率,其中监听模式消耗最少功率。
在一些实施例中,移动装置110经配置以在监听模式410中操作。在操作中,监听模式410消耗低功率(举例来说,少于5mW)。在一些实施例中,监听模式继续(举例来说)直到接收到声信号为止。所述声信号可(举例来说)由移动装置中的一或多个麦克风接收。可使用一或多个话音活动性检测(VAD)阶段。可基于功率约束而在使用一或多个VAD阶段之前或之后将所接收声信号存储或缓冲于存储器中。在各种实施例中,监听模式继续(举例来说)直到接收到声信号及一或多个其它输入为止。举例来说,所述其它输入可包含以随机或预定义方式与触摸屏的接触、以随机或预定义方式使移动装置从静止状态移动、按压按钮等等。
一些实施例可包含唤醒模式420。响应于(举例来说)声信号及其它输入,移动装置110可进入唤醒模式。在操作中,唤醒模式可确定(任选地所记录或经缓冲)声信号是否包含一或多个口述命令。可在唤醒模式中使用一或多个VAD阶段。所述声信号可经处理以抑制及/或消除噪声(举例来说,针对噪声稳健性)及/或经处理以用于ASR。举例来说,口述命令可包含由用户选择的关键字。
各种实施例可包含验证模式430。响应于(举例来说)确定接收到口述命令,移动装置可进入验证模式。在操作中,验证模式使用(任选地所记录或经缓冲)口述命令确定及/或确认用户(举例来说,命令的讲话者)的身份。使用不同强度的消费者及企业验证,包含除口述命令以外还请求及/或接收其它因素。其它因素可包含所有权因素、知识因素及固有性因素。经由麦克风、键盘、触摸屏、鼠标、手势、生物计量传感器等等中的一或多者提供所述其它因素。通过一或多个麦克风提供的因素经记录或经缓冲、经处理以抑制及/或消除噪声(举例来说,针对噪声稳健性)及/或经处理以用于ASR。
一些实施例包含连接模式440。响应于接收到话音命令及/或用户被验证,移动装置进入连接模式。在操作中,连接模式执行与口述命令及/或后续口述命令相关联的操作。含有口述命令及/或后续口述命令中的至少一者的声信号可经存储或经缓冲、经处理以抑制及/或消除噪声(举例来说,针对噪声稳健性)及/或经处理以用于ASR。
口述命令及/或后续口述命令可控制(例如,配置、操作等)移动装置。举例来说,口述命令可经由蜂窝式或移动电话网络、VOIP(基于因特网协议的话音)、经由因特网的电话呼叫、视频、消息接发(例如,短消息服务(SMS)、多媒体消息接发服务(MMS)等等)、社交媒体(例如,社交连网上的发布或例如脸谱网(FACEBOOK)或推特网等服务)等等起始通信。
在低功率(举例来说,监听及/或睡眠)模式中,可如下提供较低功率。可在低功率模式的全部或某一部分期间实质上减小模/数转换器(ADC)或数字麦克风(DMIC)的操作率(举例来说,过取样率),以使得减少计时功率且提供充足保真度(以完成所述特定模式或阶段所需的信号处理)。可使用于将经过取样数据(举例来说,脉宽调制(PDM)数据)减小到音频率脉码调制(PCM)信号以用于处理的滤波过程合理化以再次减少所需计算功率消耗,以实质上减少的功率消耗提供充足保真度。
为了在后续模式或阶段(其可使用比较早较低功率阶段或模式中的任一者高的保真度信号)中提供较高保真度信号,可改变过取样率、PCM音频率及滤波过程中的一或多者。借助适合技术执行任何此类改变,以使得所述改变提供几乎无缝的转变。另外或在替代方案中,(原始)PDM数据可以原始形式、经压缩形式、中间PCM速率形式及其组合中的至少一者存储以用于稍后借助较高保真度滤波过程或产生不同PCM音频率的滤波过程进行重新滤波。
较低功率模式或阶段可以比后续模式或阶段低的频率时钟率操作。可通过对可用系统时钟进行除法及/或乘法运算来产生较高或较低频率时钟。在到这些模式的转变中,锁相环路(PLL)(或延迟锁定环路(DLL))被供电且用于产生适当时钟。使用适当技术,可设计时钟频率转变以使得任何音频流均不具有显著闪信号,尽管存在时钟转变。
较低功率模式可需要使用比其它模式(阶段)少的麦克风输入。额外麦克风可在较晚模式开始时启用,或其可在极低功率模式中操作(或其组合),在此期间,额外麦克风的输出以(举例来说)PDM、经压缩PDM或PCM音频格式记录。所记录数据可由较晚模式存取以用于处理。
在一些实施例中,一种类型的麦克风(例如数字麦克风)用于较低功率模式。不同技术或接口的一或多个麦克风(例如通过常规ADC转换的模拟麦克风)用于可在其中执行一些类型的噪声抑制的较晚(较高功率)模式。在一些实施例中需要所有麦克风之间的已知及一致相位关系。取决于麦克风及辅助电路的类型,这可通过数种手段来实现。在一些实施例中,通过形成各种麦克风及电路的适当启动条件来建立相位关系。另外或在替代方案中,可给一或多个代表音频样本的取样时间加时间戳或以其它方式对其进行测量。可使用取样率追踪、不同步取样率转换(ASRC)及相移技术中的至少一者来确定及/或调整相异音频流的相位关系。
图5是展示根据实例性实施例用于话音控制的通信连接的方法500的步骤的流程图。可使用图2中所展示的移动装置110来执行实例性方法500的步骤。方法500可在步骤502中以使移动装置在监听模式中操作而开始。在步骤504中,方法500以使移动装置在唤醒模式中操作而继续。在步骤506中,方法500以使移动装置在验证模式中操作而继续进行。在步骤508中,方法500以使移动装置在连接模式中而结束。
图6展示用于使移动装置在睡眠模式中操作的实例性方法600的步骤。方法600提供图5中所展示的用于话音控制的通信连接的方法500的步骤502的细节。方法600可以在步骤602中检测声信号而开始。在步骤604中,方法600可以(任选)关于声信号是否为话音的确定而继续。在步骤606中,响应于检测或确定,方法600以将移动装置切换到在唤醒模式中操作而继续进行。在任选步骤608中,可将声信号存储于声音缓冲器中。
图7图解说明用于使移动装置在唤醒模式中操作的实例性方法700的步骤。方法700提供图5中所展示的用于话音控制的通信连接的方法500的步骤504的细节。方法700可以在步骤702中接收声信号而开始。在步骤704中,方法700以确定声信号是否为口述命令而继续。在步骤706中,响应于步骤704中的确定,方法700可以将移动装置切换到在验证模式中操作而继续进行。
图8展示用于使移动装置在验证模式中操作的实例性方法800的步骤。方法800提供图5中所展示的用于话音控制的通信连接的方法500的步骤506的细节。方法800可以在步骤802中接收口述命令而开始。在步骤804中,方法800以基于口述命令而识别用户继续。在步骤806中,响应于步骤804中的识别,方法800可以将移动装置切换到在连接模式中操作而继续进行。
图9展示用于使移动装置在连接模式中操作的实例性方法900的步骤。方法900提供图5中所展示的用于话音控制的通信连接的方法500的步骤508的细节。方法900可以在步骤902中接收另外声信号而开始。在步骤904中,方法900以确定另外声信号是否为口述命令而继续。在步骤906中,响应于步骤904中的确定,方法900可以执行移动装置的操作而继续进行,所述操作与口述命令相关联。
图10图解说明可用于实施本发明的实施例的实例性计算系统1000。可在像计算系统、网络、服务器或其组合这样的背景中实施图10的系统1000。图10的计算系统1000包含一或多个处理器单元1010及主存储器1020。主存储器1020部分地存储供处理器单元1010执行的指令及数据。当在操作中时,主存储器1020可存储可执行代码。图10的系统1000进一步包含大容量数据存储装置1030、便携式存储装置1040、输出装置1050、用户输入装置1060、图形显示系统1070及外围装置1080。
图10中所展示的组件被描绘为经由单个总线1090连接。所述组件可通过一或多个数据输送手段连接。处理器单元1010与主存储器1020可经由局部微处理器总线连接,且大容量数据存储装置1030、外围装置1080、便携式存储装置1040及图形显示系统1070可经由一或多个输入/输出(I/O)总线连接。
可借助磁盘驱动器、固态驱动器或光盘驱动器实施的大容量数据存储装置1030为用于存储供处理器单元1010使用的数据及指令的非易失性存储装置。出于将用于实施本发明的实施例的系统软件加载到主存储器1020中的目的,大容量数据存储装置1030存储所述软件。
便携式存储装置1040结合例如软盘、压缩磁盘、数字视频光盘或通用串行总线(USB)存储装置等便携式非易失性存储媒体操作,以将数据及代码输入到图10的计算机系统1000及从图10的计算机系统1000输出数据及代码。用于实施本发明的实施例的系统软件可存储于此种便携式媒体上且经由便携式存储装置1040输入到计算机系统1000。
用户输入装置1060提供用户接口的一部分。用户输入装置1060包含一或多个麦克风、用于输入字母数字及其它信息的字母数字小键盘(例如,键盘)或例如鼠标、轨迹球、手写笔或光标方向键等指向装置。用户输入装置1060还可包含触摸屏。另外,如图10中所展示的系统1000包含输出装置1050。适合输出装置包含扬声器、打印机、网络接口、监视器及触摸屏。
图形显示系统1070包含液晶显示器(LCD)或其它适合显示装置。图形显示系统1070接收文本及图形信息,并处理所述信息以用于输出到显示装置。
外围装置1080可包含任何类型的计算机支持装置以给计算机系统添加额外功能性。
图10的计算机系统1000中所提供的组件为通常存在于计算机系统中的组件,其可适合与本发明的实施例一起使用且打算表示此项技术中众所周知的宽广范畴的此类计算机组件。因此,图10的计算机系统1000可为个人计算机(PC)、手持式计算系统、电话、移动计算系统、远程控制件、智能电话、平板计算机、平板电话、工作站、服务器、微型计算机、大型计算机或任何其它计算系统。所述计算机还可包含不同总线配置、连网平台、多处理器平台等等。可使用各种操作系统,包含UNIX、LINUX、WINDOWS、MAC OS、PALM OS、ANDROID、IOS、QNX及其它适合操作系统。
值得注意的是,适合执行本文中所描述的处理的任何硬件平台适合与本文中所提供的实施例一起使用。计算机可读存储媒体是指参与将指令提供到中央处理单元(CPU)、处理器、微控制器等的任何媒体。此类媒体可采取包含(但不限于)非易失性及易失性媒体(分别例如光盘或磁盘及动态存储器)的形式。常见形式的计算机可读存储媒体包含软盘、柔性盘、硬盘、磁带、任何其它磁性存储媒体、光盘只读存储器(CD-ROM)盘、数字视盘(DVD)、蓝光盘(BD)、任何其它光学存储媒体、随机存取存储器(RAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电子可擦除可编程只读存储器(EEPROM)、快闪存储器及/或任何其它存储器芯片、模块或盒式磁盘。
因此,已揭示了用于话音控制的通信连接的系统及方法。上文参考实例性实施例描述了本发明。因此,本发明打算涵盖关于实例性实施例的其它变化形式。

Claims (25)

1.一种用于话音控制的通信连接的方法,所述方法包括:
使移动装置在第一模式中操作,其中所述移动装置包括一或多个麦克风及一存储器;
使所述移动装置在第二模式中操作;
使所述移动装置在第三模式中操作;及
使所述移动装置在第四模式中操作。
2.根据权利要求1所述的方法,其进一步包括在使所述移动装置在所述第一模式中操作时:
经由所述一或多个麦克风检测声信号;
确定所述声信号是否包含话音;
基于所述确定,将所述移动装置切换到所述第二模式;及
将所述声信号存储于所述移动装置的所述存储器中或存储于基于云的存储器中。
3.根据权利要求1所述的方法,其进一步包括在使所述移动装置在所述第二模式中操作时:
接收声信号;
确定所述声信号是否包含一或多个口述命令;及
基于所述确定,将所述移动装置切换到所述第三模式。
4.根据权利要求3所述的方法,其中经由所述一或多个麦克风接收所述声信号。
5.根据权利要求3所述的方法,其中从所述存储器接收所述声信号。
6.根据权利要求3所述的方法,其中所述一或多个口述命令包含由用户选择的关键字。
7.根据权利要求3所述的方法,其进一步包括在使所述移动装置在所述第三模式中操作时:
接收所述一或多个口述命令;
基于所述一或多个口述命令而识别用户;及
基于所述识别,将所述移动装置切换到所述第四模式。
8.根据权利要求1所述的方法,其进一步包括在使所述移动装置在所述第四模式中操作时:
接收另外声信号;
确定所述另外声信号是否包含一或多个另外口述命令;及
执行所述移动装置的操作,所述操作与所述一或多个另外口述命令相关联。
9.根据权利要求1所述的方法,其中:
在于所述第一模式中操作时,所述移动装置经配置以消耗比在于所述第二模式中操作时少的功率;
在于所述第二模式中操作时,所述移动装置经配置以消耗比在于所述第三模式中操作时少的功率;且
在于所述第三模式中操作时,所述移动装置经配置以消耗比在于所述第四模式中操作时少的功率。
10.根据权利要求9所述的方法,其中在于所述第一模式中操作时,所述移动装置经配置以消耗少于5毫瓦的功率。
11.根据权利要求1所述的方法,其中所述一或多个麦克风包括至少第一类型麦克风及第二类型麦克风,且其中在所述第一类型麦克风与所述第二类型麦克风之间建立一致相位关系。
12.根据权利要求1所述的方法,其中:
在于较低功率模式中操作时,所述移动装置经配置以提供选自所述一或多个麦克风的第一类型麦克风的操作,所述较低功率模式包含以下各项中的一者:所述第一模式、所述第二模式及所述第三模式;且
在于较高功率模式中操作时,所述移动装置经配置以提供选自所述一或多个麦克风的第二类型麦克风的操作,所述较高功率模式不同于所述较低功率模式且包含以下各项中的一者:所述第二模式、所述第三模式及所述第四模式。
13.一种用于话音控制的通信连接的系统,所述系统包括移动装置,所述移动装置包括至少:
一或多个麦克风;及
缓冲器;且
其中所述移动装置经配置以用于在第一模式中、在第二模式中、在第三模式中及在第四模式中操作。
14.根据权利要求13所述的系统,其中在于所述第一模式中操作时,所述移动装置经配置以:
经由一或多个麦克风检测声信号;
确定所述声信号是否包含话音;
基于所述确定,切换到在所述第二模式中操作;及
将所述声信号存储于所述缓冲器中。
15.根据权利要求13所述的系统,其中在于所述第二模式中操作时,所述移动装置经配置以:
接收声信号;
确定所述声信号是否包含一或多个口述命令;及
基于所述确定,切换到在所述第三模式中操作。
16.根据权利要求15所述的系统,其中所述声信号是经由所述一或多个麦克风接收的。
17.根据权利要求15所述的系统,其中所述声信号是从所述缓冲器接收的。
18.根据权利要求15所述的系统,其中所述一或多个口述命令包含由用户选择的关键字。
19.根据权利要求15所述的系统,其中在于所述第三模式中操作时,所述移动装置经配置以:
接收所述一或多个口述命令;
基于所述一或多个口述命令而识别用户;及
基于所述识别,切换到在所述第四模式中操作。
20.根据权利要求13所述的系统,其中在于所述第四模式中操作时,所述移动装置经配置以:
接收另外声信号;
确定所述另外声信号是否包含一或多个另外口述命令;及
执行所述移动装置的操作,所述操作与所述一或多个另外口述命令相关联。
21.根据权利要求13所述的系统,其中:
在于所述第一模式中操作时,所述移动装置经配置以消耗比在于所述第二模式中操作时少的功率;
在于所述第二模式中操作时,所述移动装置经配置以消耗比在于所述第三模式中操作时少的功率;及
在于所述第三模式中操作时,所述移动装置经配置以消耗比在于所述第四模式中操作时少的功率。
22.根据权利要求13所述的系统,其中所述一或多个麦克风包括至少第一类型麦克风及第二类型麦克风,且其中在所述第一类型麦克风与所述第二类型麦克风之间建立一致相位关系。
23.根据权利要求13所述的系统,其中:
在于较低功率模式中操作时,所述移动装置经配置以启用选自所述一或多个麦克风的第一类型麦克风,所述较低功率模式包含以下各项中的一者:所述第一模式、所述第二模式及所述第三模式;且
在于较高功率模式中操作时,所述移动装置经配置以启用选自所述一或多个麦克风的第二类型麦克风,所述较高功率模式不同于所述较低功率模式且包含以下各项中的一者:所述第二模式、所述第三模式及所述第四模式。
24.一种上面体现一程序的非暂时计算机可读媒体,所述程序提供用于话音控制的通信连接的方法的指令,所述方法包括:
使移动装置在第一模式中操作,其中所述移动装置包括:
一或多个麦克风;
缓冲器;且
在使所述移动装置在所述第一模式中操作时:
经由所述一或多个麦克风检测声信号;
确定所述声信号是否包含话音;
基于所述确定,将所述移动装置切换到第二模式;及
将所述声信号存储于所述缓冲器中;
使所述移动装置在所述第二模式中操作;
在使所述移动装置在所述第二模式中操作时:
接收所述声信号;
确定所述声信号是否包含一或多个口述命令;及
基于所述确定,将所述移动装置切换到第三模式;
使所述移动装置在所述第三模式中操作;
在使所述移动装置在所述第三模式中操作时:
接收所述一或多个口述命令;
基于所述一或多个口述命令而识别用户;及
基于所述识别,将所述移动装置切换到第四模式;
使所述移动装置在第四模式中操作;及
在使所述移动装置在所述第三模式中操作时:
接收另外声信号;
确定所述另外声信号是否包含一或多个另外口述命令;及
执行所述移动装置的操作,所述操作与所述一或多个另外口述命令相关联。
25.根据权利要求24所述的非暂时计算机可读媒体,其中
在于所述第一模式中操作时,所述移动装置经配置以消耗比在于所述第二模式中操作时少的功率;
在于所述第二模式中操作时,所述移动装置经配置以消耗比在于所述第三模式中操作时少的功率;
在于所述第三模式中操作时,所述移动装置经配置以消耗比在于所述第四模式中操作时少的功率;且
在于第一模式中操作时,所述移动装置经配置以消耗少于5毫瓦的功率。
CN201480000962.5A 2013-02-27 2014-02-26 话音控制的通信连接 Pending CN104247280A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361770264P 2013-02-27 2013-02-27
US61/770,264 2013-02-27
PCT/US2014/018780 WO2014134216A1 (en) 2013-02-27 2014-02-26 Voice-controlled communication connections

Publications (1)

Publication Number Publication Date
CN104247280A true CN104247280A (zh) 2014-12-24

Family

ID=51389040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480000962.5A Pending CN104247280A (zh) 2013-02-27 2014-02-26 话音控制的通信连接

Country Status (5)

Country Link
US (1) US20140244273A1 (zh)
EP (1) EP2962403A4 (zh)
KR (1) KR20150121038A (zh)
CN (1) CN104247280A (zh)
WO (1) WO2014134216A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105745615A (zh) * 2013-11-12 2016-07-06 苹果公司 用于移动设备的始终进行的音频控制
CN105869655A (zh) * 2015-02-06 2016-08-17 美商富迪科技股份有限公司 音频装置以及语音检测方法
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9532155B1 (en) 2013-11-20 2016-12-27 Knowles Electronics, Llc Real time monitoring of acoustic environments using ultrasound
CN110100259A (zh) * 2016-12-30 2019-08-06 美商楼氏电子有限公司 具有认证的麦克风组件
CN112771609A (zh) * 2018-08-01 2021-05-07 森田公司 包括神经形态处理模块的传感器处理系统及其方法

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10353495B2 (en) 2010-08-20 2019-07-16 Knowles Electronics, Llc Personalized operation of a mobile device using sensor signatures
US9772815B1 (en) 2013-11-14 2017-09-26 Knowles Electronics, Llc Personalized operation of a mobile device using acoustic and non-acoustic information
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
CN110244833B (zh) 2013-05-23 2023-05-12 美商楼氏电子有限公司 麦克风组件
US10028054B2 (en) 2013-10-21 2018-07-17 Knowles Electronics, Llc Apparatus and method for frequency detection
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9711166B2 (en) * 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US9781106B1 (en) 2013-11-20 2017-10-03 Knowles Electronics, Llc Method for modeling user possession of mobile device for user authentication framework
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9620116B2 (en) * 2013-12-24 2017-04-11 Intel Corporation Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US9500739B2 (en) 2014-03-28 2016-11-22 Knowles Electronics, Llc Estimating and tracking multiple attributes of multiple objects from multi-sensor data
US10553098B2 (en) 2014-05-20 2020-02-04 Ooma, Inc. Appliance device integration with alarm systems
US9633547B2 (en) 2014-05-20 2017-04-25 Ooma, Inc. Security monitoring and control
US11330100B2 (en) * 2014-07-09 2022-05-10 Ooma, Inc. Server based intelligent personal assistant services
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
GB201509483D0 (en) * 2014-12-23 2015-07-15 Cirrus Logic Internat Uk Ltd Feature extraction
US10045140B2 (en) 2015-01-07 2018-08-07 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
CN105848062B (zh) * 2015-01-12 2018-01-05 芋头科技(杭州)有限公司 多声道的数字麦克风
WO2016118480A1 (en) 2015-01-21 2016-07-28 Knowles Electronics, Llc Low power voice trigger for acoustic apparatus and method
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
US10009286B2 (en) 2015-05-08 2018-06-26 Ooma, Inc. Communications hub
US10854199B2 (en) * 2016-04-22 2020-12-01 Hewlett-Packard Development Company, L.P. Communications with trigger phrases
US10360916B2 (en) * 2017-02-22 2019-07-23 Plantronics, Inc. Enhanced voiceprint authentication
US10424315B1 (en) 2017-03-20 2019-09-24 Bose Corporation Audio signal processing for noise reduction
US10366708B2 (en) 2017-03-20 2019-07-30 Bose Corporation Systems and methods of detecting speech activity of headphone user
US10311889B2 (en) 2017-03-20 2019-06-04 Bose Corporation Audio signal processing for noise reduction
US10499139B2 (en) 2017-03-20 2019-12-03 Bose Corporation Audio signal processing for noise reduction
US10249323B2 (en) 2017-05-31 2019-04-02 Bose Corporation Voice activity detection for communication headset
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
US10999733B2 (en) 2017-11-14 2021-05-04 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening device
US10867623B2 (en) * 2017-11-14 2020-12-15 Thomas STACHURA Secure and private processing of gestures via video input
US10332543B1 (en) * 2018-03-12 2019-06-25 Cypress Semiconductor Corporation Systems and methods for capturing noise for pattern recognition processing
US10438605B1 (en) 2018-03-19 2019-10-08 Bose Corporation Echo control in binaural adaptive noise cancellation systems in headsets
CN108600556A (zh) * 2018-06-20 2018-09-28 深圳市酷童小样科技有限公司 一种能够语音控制手机显示的系统
US11172293B2 (en) * 2018-07-11 2021-11-09 Ambiq Micro, Inc. Power efficient context-based audio processing
US11388516B2 (en) 2019-02-07 2022-07-12 Thomas STACHURA Privacy device for smart speakers
CN112732340B (zh) * 2019-10-14 2022-03-15 思必驰科技股份有限公司 人机对话处理方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3832627B2 (ja) * 2000-08-10 2006-10-11 シャープ株式会社 信号線駆動回路、画像表示装置および携帯機器
US6788963B2 (en) * 2002-08-08 2004-09-07 Flarion Technologies, Inc. Methods and apparatus for operating mobile nodes in multiple a states
EP1511277A1 (en) * 2003-08-29 2005-03-02 Swisscom AG Method for answering an incoming event with a phone device, and adapted phone device
US20060074658A1 (en) * 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
US20080313483A1 (en) * 2005-02-01 2008-12-18 Ravikiran Pasupuleti Sureshbabu Method and System for Power Management
CA2571009C (en) * 2005-09-23 2010-10-05 Bce Inc. Methods and systems for touch-free call origination
US8799687B2 (en) * 2005-12-30 2014-08-05 Intel Corporation Method, apparatus, and system for energy efficiency and energy conservation including optimizing C-state selection under variable wakeup rates
JP2007300572A (ja) * 2006-05-08 2007-11-15 Hitachi Ltd センサネットシステム、センサネット位置特定方法
KR100744301B1 (ko) * 2006-06-01 2007-07-30 삼성전자주식회사 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법
TWI327032B (en) * 2006-12-29 2010-07-01 Ind Tech Res Inst Alternative sensing circuit for mems microphone and sensing method therefor
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US9201673B2 (en) * 2008-07-30 2015-12-01 Microsoft Technology Licensing, Llc Efficient detection and response to spin waits in multi-processor virtual machines
WO2010075623A1 (en) * 2008-12-31 2010-07-08 Bce Inc. System and method for unlocking a device
US9953643B2 (en) * 2010-12-23 2018-04-24 Lenovo (Singapore) Pte. Ltd. Selective transmission of voice data
US9354310B2 (en) * 2011-03-03 2016-05-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
CN105745615B (zh) * 2013-11-12 2019-03-22 苹果公司 用于移动设备的始终进行的音频控制
US10573319B2 (en) 2013-11-12 2020-02-25 Apple Inc. Always-on audio control for mobile device
US11862173B2 (en) 2013-11-12 2024-01-02 Apple Inc. Always-on audio control for mobile device
US11049503B2 (en) 2013-11-12 2021-06-29 Apple Inc. Always-on audio control for mobile device
US10079019B2 (en) 2013-11-12 2018-09-18 Apple Inc. Always-on audio control for mobile device
CN105745615A (zh) * 2013-11-12 2016-07-06 苹果公司 用于移动设备的始终进行的音频控制
US10276165B2 (en) 2013-11-12 2019-04-30 Apple Inc. Always-on audio control for mobile device
US10431224B1 (en) 2013-11-12 2019-10-01 Apple Inc. Always-on audio control for mobile device
US9532155B1 (en) 2013-11-20 2016-12-27 Knowles Electronics, Llc Real time monitoring of acoustic environments using ultrasound
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
CN105869655B (zh) * 2015-02-06 2019-06-18 美商富迪科技股份有限公司 音频装置以及语音检测方法
CN105869655A (zh) * 2015-02-06 2016-08-17 美商富迪科技股份有限公司 音频装置以及语音检测方法
CN110100259A (zh) * 2016-12-30 2019-08-06 美商楼氏电子有限公司 具有认证的麦克风组件
CN112771609A (zh) * 2018-08-01 2021-05-07 森田公司 包括神经形态处理模块的传感器处理系统及其方法

Also Published As

Publication number Publication date
US20140244273A1 (en) 2014-08-28
WO2014134216A9 (en) 2015-10-15
WO2014134216A1 (en) 2014-09-04
EP2962403A1 (en) 2016-01-06
KR20150121038A (ko) 2015-10-28
EP2962403A4 (en) 2016-11-16

Similar Documents

Publication Publication Date Title
CN104247280A (zh) 话音控制的通信连接
US11676581B2 (en) Method and apparatus for evaluating trigger phrase enrollment
US9549273B2 (en) Selective enabling of a component by a microphone circuit
US11393472B2 (en) Method and apparatus for executing voice command in electronic device
US10332524B2 (en) Speech recognition wake-up of a handheld portable electronic device
CN103959201B (zh) 处于闲置模式的基于超声的移动接收器
US10719115B2 (en) Isolated word training and detection using generated phoneme concatenation models of audio inputs
US9275638B2 (en) Method and apparatus for training a voice recognition model database
US9354842B2 (en) Apparatus and method of controlling voice input in electronic device supporting voice recognition
US9953634B1 (en) Passive training for automatic speech recognition
JP2019117623A (ja) 音声対話方法、装置、デバイス及び記憶媒体
CN107886944B (zh) 一种语音识别方法、装置、设备及存储介质
CN107527614B (zh) 语音控制系统及其方法
CN105448294A (zh) 一种应用于车载设备的智能语音识别系统
US9633655B1 (en) Voice sensing and keyword analysis
EP2994907A2 (en) Method and apparatus for training a voice recognition model database
US9508345B1 (en) Continuous voice sensing
TW202223877A (zh) 用戶話音輪廓管理
KR102501083B1 (ko) 음성 인식 방법 및 이를 사용하는 전자 장치
US20210110838A1 (en) Acoustic aware voice user interface
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
CN111028832B (zh) 麦克风静音模式控制方法、装置及存储介质和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160206

Address after: Illinois State

Applicant after: Knowles Electronics LLC

Address before: American California

Applicant before: AUDIENCE INC

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141224