CN107408386B - 基于语音方向控制电子装置 - Google Patents
基于语音方向控制电子装置 Download PDFInfo
- Publication number
- CN107408386B CN107408386B CN201680014289.XA CN201680014289A CN107408386B CN 107408386 B CN107408386 B CN 107408386B CN 201680014289 A CN201680014289 A CN 201680014289A CN 107408386 B CN107408386 B CN 107408386B
- Authority
- CN
- China
- Prior art keywords
- voice
- electronic device
- frequency range
- feature
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000004044 response Effects 0.000 claims abstract description 40
- 238000001228 spectrum Methods 0.000 claims description 38
- 238000004891 communication Methods 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 238000010295 mobile communication Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 37
- 230000015654 memory Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 9
- 238000012706 support-vector machine Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009331 sowing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Navigation (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本文揭示一种用于响应于由用户发出的语音来控制电子装置的方法。所述方法可包含通过声音传感器接收输入声音。所述方法还可检测所述输入声音中由所述用户发出的所述语音,响应于检测所述输入声音中的所述语音来确定所述语音的第一频率范围的第一特征和第二频率范围的第二特征,以及基于所述第一特征和所述第二特征来确定由所述用户发出的所述语音的离开方向是否朝向所述电子装置。
Description
优先权请求
本申请案主张2015年3月27日申请的题为“基于语音方向控制电子装置(CONTROLLING ELECTRONIC DEVICE BASED ON DIRECTION OF SPEECH)”的美国申请案第14/671,858号的优先权,所述申请案的内容以全文引用的方式并入。
技术领域
本公开大体上涉及控制电子装置,并且更具体地说,涉及响应于话音命令来控制电子装置。
背景技术
最近,例如智能电话、平板计算机、智能TV等的电子装置的使用已变得普遍。这些装置常常通过无线或有线网络提供话音和/或数据通信功能性。另外,此类装置可提供经设计成增强用户便利性的多种功能,例如声音处理、图像或视频处理、导航、音乐或多媒体文件的复制等。
在这些功能当中,常规电子装置常常装备有语音识别功能。此类电子装置可响应于接收和识别来自用户的话音命令而执行功能。例如,配备有语音识别功能的电子装置可响应于来自用户的话音命令而激活应用程序、播放音频文件或获取图片。
由于电子装置的广泛使用,用户通常可以使用靠近彼此的装备有语音识别功能的多个电子装置。例如,用户可能在放有智能手机、平板计算机和智能电视的房间里。在此情况下,如果用户向智能手机发出话音命令作为既定目标,那么平板计算机和智能电视以及智能手机可接收及响应话音命令。因此,此类电子装置可能不能够精确地确定其是否为话音命令的既定目标以用于响应话音命令。
发明内容
本公开提供用于响应于由用户发出的语音而控制电子装置的方法和设备。
根据本公开的一个方面,揭示了一种用于响应于由用户发出的语音而控制电子装置的方法。所述方法可包含通过声音传感器接收输入声音。所述方法还可检测输入声音中由用户发出的语音,响应于检测输入声音中的语音来确定语音的第一频率范围的第一特征和第二频率范围的第二特征,以及基于所述第一和第二特征确定由用户发出的语音的离开方向是否朝向电子装置。本公开还描述了一种与此方法相关的装置。
根据本公开的另一方面,一种电子装置可包含声音传感器、语音检测器、频率分析单元和语音方向确定单元。声音传感器可配置成接收输入声音。此外,语音检测器可配置成检测输入声音中由用户发出的语音。另外,频率分析单元可配置成响应于检测输入声音中的语音来确定语音的第一频率范围的第一特征和第二频率范围的第二特征,且语音方向确定单元可配置成基于所述第一和第二特征来确定由用户发出的语音的离开方向是否朝向电子装置。
附图说明
在结合附图阅读时将参考以下详细描述理解本公开的实施例。
图1说明根据本公开的一个实施例的配置成检测由用户发出的语音并且基于语音的离开方向执行功能的电子装置。
图2说明根据本公开的一个实施例的由用户发出并且通过电子装置中的声音传感器接收的话音命令的离开方向。
图3说明根据本公开的一个实施例的由用户在离开方向上发出并且通过电子装置中的每一个中的一或多个声音传感器接收的话音命令。
图4说明根据本公开的一个实施例的配置成确定语音的离开方向是否朝向自身并且执行与语音中的话音命令相关联的功能的电子装置的框图。
图5说明根据本公开的一个实施例的用于响应于由用户发出的语音而控制电子装置的示范性方法的流程图。
图6说明根据本公开的一个实施例的在用于确定从用户接收的语音的离开方向(DOD)是否朝向自身的电子装置中执行的示范性方法的流程图。
图7说明根据本公开的一个实施例的用于响应于由与其它电子装置相关联的用户发出的语音来控制电子装置的示范性方法的流程图。
图8说明根据本公开的一个实施例的可由电子装置通过绘制在指定时间随频率变化的所接收输入声音的能量值而产生的示范性曲线图。
图9说明根据本公开的一个实施例的配置成经由通信网络与服务器920通信以用于确定由用户发出的语音的既定目标的多个电子装置。
图10说明根据本公开的一个实施例的用于响应于由与服务器相关联的用户发出的语音来控制电子装置的示范性方法的流程图。
图11说明其中用于响应于由用户发出的语音来控制电子装置的本公开的方法和设备可根据一些实施例实施的电子装置的框图。
图12为说明服务器系统的框图,所述服务器系统可以是根据一些实施例实施的先前所描述服务器中的任一个。
具体实施方式
现在将详细参考各种实施例,其实例在附图中予以说明。在以下详细描述中,阐述众多特定细节以便提供对本发明主题的透彻理解。然而,对于所属领域的一般技术人员将显而易见的是,可在没有这些特定细节的情况下实践本发明主题。在其它情况下,未详细描述众所周知的方法、程序、系统和组件,以便不会不必要地混淆各种实施例的各方面。
图1说明根据本公开的一个实施例的配置成检测由用户110发出的语音并且基于语音的离开方向执行功能的电子装置120至150。电子装置120至150可为配备有声音捕获和处理能力的任何合适装置,例如蜂窝式电话、智能电话、膝上型计算机、可穿戴计算机、平板计算机、游戏装置、多媒体播放器、智能TV、声控照明装置等。在所说明的实施例中,电子装置120至150分别是智能电话、平板计算机、智能TV和声控照明装置,并且可以位于房间100内。尽管房间100内展示出电子装置120至150,但任何数目的电子装置可位于房间100或者靠近用户110的任何其它合适位置。
用户110可在朝向作为目标装置的电子装置120至150中的一个的方向上发出话音命令以控制目标装置的操作。如本文所使用,短语“朝向电子装置的离开方向”或其任何变体可指沿声源(例如,用户)与电子装置之间的线的方向,并且可包含离开指定角度或范围内的线的任何方向。在所说明的实施例中,用户110可在朝向电子装置120的方向上发出话音命令(例如“嗨,助理(HI ASSISTANT)”)以激活电子装置120或指示电子装置120执行功能(例如,话音助理应用程序122)。如本文所使用,术语“话音命令”可指包含一或多个词组的任何语音或话语,或者指示命令或指令以执行或激活电子装置120至150中的功能或应用程序的声音。
响应于话音命令,电子装置120至150可基于来自用户110的话音命令的离开方向来执行功能或执行与话音命令相关联的应用程序。例如,电子装置120可在确定话音命令“嗨,助理”的离开方向朝向自身时激活话音助理应用程序122。电子装置可基于来自用户的语音的离开方向确定由用户发出的语音是否在朝向自身的方向上,如下文更详细展示。
电子装置120至150可配置成经由声音传感器(例如,麦克风)连续地、周期性地或间歇性地接收输入声音,并且检测输入声音中的语音。在所说明的实施例中,用户110可朝向电子装置120发出话音命令(例如“嗨,助理”)以激活电子装置120的话音助理应用程序122。包含语音命令的用户的语音可由电子装置120至150接收作为输入声音。由于用户的语音是作为输入声音而被接收,因此电子装置120至150可检测输入声音中的语音。
一旦在输入声音中检测到语音,电子装置120至150中的每一个即可确定来自用户110的语音的离开方向(例如,语音的发出方向)是否朝向自身。如本文所使用,短语“确定语音的离开方向是否朝向自身”或其任何变体可指确定语音的发出方向是否朝向电子装置,并且可涵盖肯定测试(即,确定语音的发出方向是否朝向电子装置)或否定测试(即,确定语音的发出方向是否不朝向电子装置)。在电子装置120至150当中,电子装置120可确定语音的离开方向朝向自身并且继续通过识别语音中的话语命令(例如“嗨,助理”)来激活话音助理应用程序122。其它电子装置130至150中的每一个可确定语音的离开方向不朝向自身,以使得不处理话音命令。
为了确定语音的离开方向是否朝向自身,电子装置120至150中的每一个可分析从用户110接收的语音的特征。在一个实施例中,电子装置120至150中的每一个可确定语音的第一频率范围(例如第一频带)的第一特征和第二频率范围(例如第二频带)的第二特征,并且基于第一和第二特征确定语音的离开方向是否朝向自身。例如,第一频率范围可高于第二频率范围,并且第一和第二频率范围可包含至少一个频率。
根据一个实施例,第一和第二特征可为例如能量值、谱矩(例如,平均值、差值、偏度和峰度)、频谱平度、频谱矩心、波峰因数、频谱斜率、频谱滚降、F0等高线等的值或参数,所述值或参数可表征从用户110接收的语音中的相关联的频率范围。例如,电子装置120至150中的每一个可计算第一特征与第二特征之间的比率,并且基于所述比率确定语音的离开方向朝向自身。或者或另外,电子装置120至150可基于第一和第二特征确定频谱平度值,并且基于频谱平度值确定语音的离开方向朝向自身。计算出的比率或频谱平度值可指示语音的离开方向朝向自身的概率。
在特定实施例中,电子装置120至150中的每一个可计算语音的高频率范围的能量值与低频率范围的能量值之间的比率,并且在所述比率大于或等于阈值时确定语音的离开方向朝向自身,所述阈值可为预定阈值。或者或另外,电子装置120至150中的每一个可根据以下方程式确定语音的高频率范围的频谱平度值:
其中EL表示低频率范围的能量值,H1至Hn表示高频率范围的n个部分(例如,当n=3时,高频率范围可分为三个不同部分),并且EH1至EHn分别表示高频率范围的n个部分的能量值。在此情况下,当频谱平度值小于或等于可为预定阈值的阈值时,电子装置120至150中的每一个可确定语音的离开方向朝向自身。
由于低频信号或声音往往会在所有方向上传播,而高频信号或声音主要在信号或声音的离开方向上传播时更具方向性,因此电子装置120至150中的每一个可使用高频率范围的能量值与低频率范围的能量值之间的比率或高频率范围的频谱平度值以确定语音的离开方向是否朝向自身。在所说明的实施例中,电子装置120可确定语音的发出方向朝向自身,并且对语音执行语音识别以识别语音中的话音命令(例如“嗨,助理”)。一旦识别到话音命令,电子装置120即可激活与话音命令(例如“嗨,助理”)相关联的话音助理应用程序122。
在一些实施例中,电子装置120至150可配置成经由有线或无线网络(图未展示)彼此通信。在此情况下,电子装置120至150中的每一个可检测由用户110发出的语音,并且计算语音的第一和第二特征(例如,能量值)与语音的高频率范围的频谱平度值之间的比率。随后可将计算出的比率或频谱平度值发送到其它电子装置。在对电子装置120至150的比率或频谱平度值进行比较后,电子装置120至150中具有最高比率或最低频谱平度值的一个可确定其为语音的既定目标装置。作为响应,目标电子装置可继续识别语音中的话音命令,并且执行与话音命令相关联的功能。
图2说明根据本公开的一个实施例的分别由用户110发出并且由电子装置120中的声音传感器接收的话音命令210和220的离开方向212和222。用户110可在不同时间在不同方向上发出话音命令210和220,并且话音命令210和220可由电子装置120检测为语音。如图所示,来自用户110的话音命令210的离开方向212可朝向电子装置120,而话音命令220的离开方向222可在远离电子装置120的另一方向上。
电子装置120可配置成当确定方向在来自电子装置120与用户110之间的线的指定角度或范围内时确定语音的离开方向朝向自身。在所说明的实施例中,指定角度或范围可为来自用户110与电子装置120之间的参考线230的β度。如果语音的离开方向与参考线230之间的角小于或等于β度,那么电子装置120可确定语音的离开方向朝向自身。例如,电子装置120可检测话音命令210作为语音,并且确定语音的离开方向212与参考线230之间的角θ1小于β度。在此情况下,电子装置120可确定语音的离开方向212朝向自身,并且识别语音中的话音命令210以执行与话音命令210相关联的功能。
另一方面,电子装置120可检测话音命令220作为语音,并且确定语音的离开方向222与参考线230之间的角θ2大于β度。在此情况下,电子装置120可确定语音的离开方向222不朝向自身,以使得不处理话音命令220。因此,电子装置120可基于来自用户110的语音的离开方向(DOD)确定当用户110在相同位置不同方向上讲话时,语音是否在朝向电子装置的方向上发出。在一个实施例中,电子装置120可通过使用单个声音传感器(例如麦克风)或任何数目的声音传感器来确定语音的离开方向。
如本文所使用,语音的离开方向不同于“到达方向”(DOA),其是指由用户发出的语音的到达角。如果使用到达方向(DOA),那么电子装置120可确定电子装置120中的话音命令210的到达方向是由参考线230限定的方向。类似地,即使当在远离电子装置120的方向上发出话音命令220时,电子装置120可确定电子装置120中的话音命令220的到达方向是由参考线230限定的方向。在两种情况下,电子装置120中的话音命令210和220的到达方向230为远离参考线240的α度,所述参考线可经限定为一对声音传感器(例如一对麦克风)之间的线。由于确定在不同方向上发出的话音命令210和220的到达方向230是相同的,电子装置120可使用到达方向(DOA)来确定声音源关于参考线240定位的方向,并且使用离开方向来确定是否在朝向电子装置120的方向上发出语音。尽管电子装置120展示于图2中,但例如电子装置130、140或150等任何其它电子装置可配置成确定来自用户(例如用户110)的语音是否以与电子装置120类似的方式在朝向自身的方向上发出。
图3说明根据本公开的一个实施例的由用户110在离开方向312上发出并且由电子装置120和130中的每一个中的一或多个声音传感器接收的话音命令310。用户110可位于电子装置120和130附近,并且朝向电子装置120发出话音命令310。如图所示,用户110与电子装置120之间的距离D1可大于用户110与电子装置130之间的距离D2。
在一个实施例中,电子装置120和130中的每一个可检测话音命令310作为语音,并且计算语音的第一频率范围的第一特征(例如高频带的能量值)与第二频率范围的第二特征(例如低频带的能量值)之间的比率。或者或另外,电子装置120和130中的每一个可基于语音的第一频率范围的第一特征(例如高频带的能量值)和第二频率范围的第二特征(例如低频带的能量值)确定语音的高频率范围的频谱平度值。电子装置120和130中的每一个可基于计算出的比率或频谱平度值来确定话音命令310的离开方向312是否朝向自身。由于由电子装置120或130接收的语音的信号强度可根据与用户110的距离(例如D1或D2)而变化,电子装置120或130可使用语音的第一特征与第二特征之间的比率或语音的高频率范围的频谱平度值作为正规化值,其和与用户110的距离无关。因此,通过电子装置120或130计算的比率或频谱平度值可与从用户110接收的输入声音的信号强度无关。
根据所说明的实施例,电子装置120和130中的每一个可检测话音命令310作为语音,并且独立于距声源(例如用户110)的距离D1或D2来确定语音的离开方向312是否朝向自身。例如,电子装置120可检测话音命令310作为语音,并且基于语音的高频带和低频带的能量值之间的比率或高频带的频谱平度值来确定语音的离开方向312朝向自身。在一个实施例中,当所述比率大于或等于阈值或当频谱平度值小于或等于阈值时,电子装置120可确定语音的离开方向312朝向自身。在确定语音的离开方向312朝向自身时,电子装置120可识别语音中的话音命令310,并且执行与话音命令310相关联的功能。
另一方面,定位得比电子装置120更靠近用户110的电子装置130可检测话音命令310作为语音,并且基于语音的高频带和低频带的能量值之间的比率或高频带的频谱平度值来确定语音的离开方向312不朝向自身。尽管由于距离D1大于距离D2,由电子装置130接收的语音的声音强度可大于电子装置120的声音强度,但电子装置130可基于所述比率或频谱平度值确定语音的离开方向312不朝向自身,以使得不处理话音命令310。
图4说明根据本公开的一个实施例的配置成确定语音的离开方向是否朝向自身并且执行与语音中的话音命令相关联的功能的电子装置120的框图。电子装置120可包含声音传感器420、处理器430、I/O单元440、存储单元450和通信单元460。如图所示,处理器430可包含语音检测器432、频率分析单元434、语音方向确定单元436和语音识别单元438。处理器430可为用于管理和操作电子装置120的任何合适处理器,例如应用程序处理器(AP)、中央处理单元(CPU)、数字信号处理器(DSP)等。电子装置120可为配备有声音捕获和处理能力的任何合适装置,例如蜂窝式电话、智能电话、膝上型计算机、可穿戴计算机、平板计算机、游戏装置、多媒体播放器、智能TV、声控照明装置等。
声音传感器420可配置成连续地、周期性地或间歇性地接收输入声音410,并且将接收到的输入声音410提供到语音检测器432。例如,声音传感器420可从用户接收包含话音命令的语音的至少一部分作为输入声音410,并且将输入声音410提供到语音检测器432。声音传感器420可包含可用于接收、捕获、感测和/或检测输入声音410的一或多个麦克风或任何其它类型的声音传感器。另外,声音传感器420可以采用任何合适的软件和/或硬件以用于执行此类功能。
在一些实施例中,声音传感器420可配置成根据占空度周期性地接收输入声音410以减小功率消耗。例如,可根据10%占空度周期性地激活声音传感器420。假定周期为100ms,声音传感器420可因此配置成在“活动状态”中操作10ms,并接下来在“空闲状态”中操作90ms。
在此情况下,当在占空度的活动部分期间接收输入声音410的一部分时,声音传感器420可确定输入声音410的部分是否大于阈值声音强度。在特定实施例中,阈值声音强度可为预定阈值声音强度。如果确定输入声音410的部分的强度大于预定阈值声音强度,那么声音传感器420可激活处理器430中的语音检测器432,并且将输入声音410的部分提供到语音检测器432。或者,在未确定接收到的部分超过阈值声音强度的情况下,声音传感器420可在占空度的活动状态期间周期性地接收输入声音410的部分,并且自动激活语音检测器432以将接收到的部分提供到语音检测器432。在另一实施例中,声音传感器420可连续地接收输入声音410并激活语音检测器432以将接收到的输入声音410提供到语音检测器432。
在激活后,处理器330中的语音检测器432可从声音传感器420接收输入声音410的至少部分。语音检测器432可接着从输入声音410的至少部分提取多个声音特征,且通过使用任何合适声音分类方法(例如基于高斯混合模型(GMM)的分类器、神经网络、隐式马尔可夫模型(HMM)、图解模型、支持向量机(SVM)等)确定所提取的声音特征是否指示所关注的声音(例如语音)。如果确定输入声音410的至少部分为所关注的声音(例如语音),那么语音检测器432可经由声音传感器420接收输入声音410的剩余部分。另外,语音检测器432可激活频率分析单元434,并且将输入声音410提供到频率分析单元434。
频率分析单元434可配置成分析从用户接收的作为输入声音410的语音的特征。在一个实施例中,频率分析单元434可确定语音(即输入声音410)的第一频率范围(例如第一频带)的第一特征和第二频率范围(例如第二频带)的第二特征。例如,第一频率范围可高于第二频率范围,并且第一和第二频率范围可包含至少一个频率。
根据一个实施例,第一和第二特征可为例如能量值、谱矩(例如平均值、差值、偏度和峰度)、频谱平度、频谱矩心、波峰因数、频谱斜率、频谱滚降、F0等高线等的值或参数,所述值或参数可表征从用户接收的语音中的相关联的频率范围。在特定实施例中,频率分析单元434可计算第一和第二特征之间的比率。例如,频率分析单元434可将来自时域的输入声音410转换成频域或时频域,并且计算高频率范围(例如10kHz至15kHz)的能量值与低频率范围(例如0kHZ至5kHz)的能量值之间的比率。或者或另外,频率分析单元434可使用上述方程式1计算语音的高频率范围的频谱平度值。频率分析单元434可将计算出的比率或频谱平度值提供到语音方向确定单元436。所述比率或频谱平度值可指示用户的语音的离开方向朝向电子装置120的概率。
在接收到所述比率或频谱平度值后,语音方向确定单元436可基于所述比率或频谱平度值确定语音的离开方向是否朝向自身。在一个实施例中,当所述比率大于或等于阈值或当频谱平度值小于或等于阈值时,语音方向确定单元436可确定语音的离开方向朝向电子装置120。在特定实施例中,阈值可为预定阈值。由于低频信号或声音往往会在所有方向上传播,而高频信号或声音主要在信号或声音的离开方向上传播时更具方向性,因此频率分析单元434可使用高频率范围的能量值与低频率范围的能量值之间的比率或高频率范围的频谱平度值来确定语音的离开方向是否朝向电子装置。
响应于确定用户的语音的离开方向朝向电子装置120,可将输入声音410提供到语音识别单元438以对语音执行语音识别。语音识别单元438可随后识别语音(即输入声音410)中的话音命令。在一个实施例中,语音识别单元438可接入来自存储单元450的语言模型、声学模型、语法模型等以用于识别一或多个用户的语音和/或话音命令。存储单元450可以为远程或本地存储装置,且可以使用任何合适的存储装置或存储器装置(例如RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除可编程只读存储器)、快闪存储器或SSD(固态驱动器))来实施。一旦识别到话音命令,处理器430即可执行与话音命令相关联的功能,并且经由I/O单元440将其结果展示给用户。尽管电子装置120展示于图4中,但例如电子装置130、140或150等任何其它电子装置可配置成确定来自用户的语音是否以与电子装置120类似的方式在朝向自身的方向上发出。
在一些实施例中,电子装置120可配置成经由通信单元460与外部装置(例如图1中的电子装置120至150或服务器)通信。在此情况下,电子装置120可经由通信单元460将计算出的比率或频谱平度值发送到外部装置。外部装置120还可经由通信单元460从外部装置接收比率或频谱平度值作为语音的发出方向的指示。在对所述比率或频谱平度值进行比较之后,如果电子装置120具有最高比率或最低频谱平度值,那么语音方向确定单元436可确定电子装置120为语音的既定目标装置。如果确定电子装置120具有最高比率或最低频谱平度值,那么语音识别单元438可识别语音(即输入声音410)中的话音命令以执行与话音命令相关联的功能。
或者或另外,电子装置120可从外部装置(例如服务器)接收指示其为话音命令的既定目标装置的消息。在接收到所述消息后,语音识别单元438可识别语音(即输入声音410)中的话音命令。处理器430可随后执行与识别到的话音命令相关联的功能。
图5说明根据本公开的一个实施例的用于响应于由用户发出的语音来控制电子装置的示范性方法500的流程图。最初,在510处,电子装置(例如图1中的电子装置120至150中的一个)可经由声音传感器(例如麦克风)接收包含话音命令的语音作为输入声音。在520处,电子装置可确定是否在接收到的输入声音中检测到语音。电子装置可通过使用例如基于高斯混合模型(GMM)的分类器、神经网络、隐式马尔可夫模型(HMM)、图解模型、支持向量机(SVM)等任何方法来检测语音。如果未检测到语音(即520处的否),那么方法500可继续回到510并经由声音传感器接收另一输入声音。
当在接收到的输入声音中检测到语音时(即520处的是),电子装置可确定语音的离开方向(DOD)并在530处确定语音的离开方向(DOD)是否朝向自身。如果电子装置确定语音的离开方向(DOD)不朝向自身(即530处的否),那么方法500可继续回到510并经由声音传感器接收另一输入声音。另一方面,如果电子装置确定语音的离开方向(DOD)朝向自身(即530处的是),那么在540处,电子装置可识别语音中的话音命令。一旦识别到语音中的话音命令,电子装置即可在550处执行与话音命令相关联的功能。下文参考图6至10描述确定了语音的第一频率范围的第一特征与第二频率范围的第二特征之间的比率的本公开的一些实施例。如上文所描述,代替或除了确定语音的第一频率范围的第一特征与第二频率范围的第二特征之间的比率之外,此类实施例可确定语音的高频率范围的频谱平度值。
图6说明根据本公开的一个实施例的在用于确定从用户接收的语音的离开方向(DOD)是否朝向自身的电子装置中执行的示范性方法530的流程图。最初,在610和620处,电子装置可分别确定语音的第一频率范围的第一特征和第二频率范围的第二特征。例如,第一频率范围可高于第二频率范围,且第一和第二频率范围可包含至少一个频率。根据一个实施例,第一和第二特征可为例如能量值、谱矩(例如平均值、差值、偏度和峰度)、频谱平度、频谱矩心、波峰因数、频谱斜率、频谱滚降、F0等高线等的值或参数,所述值或参数可表征从用户接收的语音中的相关联的频率范围。
在630处,电子装置可确定语音的第一频率范围的第一特征与第二频率范围的第二特征之间的比率。例如,电子装置可计算语音的高频率范围的能量值与低频率范围的能量值之间的比率。在确定所述比率后,在640处,电子装置可确定所述比率是否大于或等于阈值,所述阈值可为预定阈值。在一个实施例中,用于减少假警报及增强检测精确性的最优值可经确定并设定为阈值。
当所述比率大于或等于阈值时(即,640处的是),电子装置可确定语音的离开方向朝向自身,且方法530可继续至图5中的方法540以识别语音中的话音命令。另一方面,当所述比率小于阈值时(即,640处的否),电子装置可确定语音的离开方向不朝向自身,且方法530可继续至图5中的方法510以经由声音传感器接收另一输入声音。
图7说明根据本公开的一个实施例的用于响应于由用户结合其它电子装置发出的语音来控制电子装置的示范性方法700的流程图。最初,在710处,电子装置(例如图1中的电子装置120至150中的一个)可经由声音传感器(例如麦克风)接收包含话音命令的语音作为输入声音。在720处,电子装置可确定是否在接收到的输入声音中检测到语音。电子装置可通过使用例如基于高斯混合模型(GMM)的分类器、神经网络、隐式马尔可夫模型(HMM)、图解模型、支持向量机(SVM)等任何方法来检测语音。如果未检测到语音(即720处的否),那么方法700可继续回到710以经由声音传感器接收另一输入声音。
当在接收到的输入声音中检测到语音时(即720处的是),在730处,电子装置可确定语音的离开方向(DOD)。在一个实施例中,电子装置可计算语音的高频率范围的能量值与低频率范围的能量值之间的比率。在740处,电子装置可随后在740处确定语音的离开方向(DOD)是否朝向自身。在一个实施例中,当语音的高频率范围的能量值与低频率范围的能量值之间的比率大于或等于可为预定阈值的阈值时,电子装置可确定语音的离开方向朝向自身。如果电子装置确定语音的离开方向(DOD)不朝向自身(即740处的否),那么方法700可继续回到710以经由声音传感器接收另一输入声音。
另一方面,如果电子装置确定语音的离开方向(DOD)朝向自身(即,740处的是),那么在750处,电子装置可从外部装置接收语音的发出方向的至少一个指示。在一个实施例中,语音的发出方向的指示可为在外部装置处接收的语音的高频率范围的能量值与低频率范围的能量值之间的比率。在760处,电子装置可基于计算出的比率和从其它外部装置接收的至少一个指示来确定其是否为语音的既定目标。例如,电子装置可将计算出的比率与从其它装置接收的比率进行比较,并且在计算出的比率具有最高值时确定其为语音的目标。
如果电子装置确定其并非语音的既定目标(即760处的否),那么方法700可继续回到710以经由声音传感器接收另一输入声音。另一方面,如果电子装置确定其为语音的既定目标(即,760处的是),那么在770处,电子装置可识别语音中的话音命令。一旦识别到语音中的话音命令,电子装置即可在780处执行与话音命令相关联的功能。在另一实施例中,电子装置可省略执行步骤740。在此情况下,在730处确定了语音的离开方向(DOD)(例如计算语音的高频率范围的能量值与低频率范围的能量值之间的比率)之后,电子装置可直接转至在750处从外部装置接收语音的发出方向的至少一个指示。
图8说明根据本公开的一个实施例的可由电子装置通过绘制在指定时间随频率变化的所接收输入声音的能量值而产生的示范性曲线图800。曲线图800的水平轴可表示从0Hz开始的频率范围,且竖直轴可表示输入声音的能量值的范围。例如,在指定频率处的输入声音的信号强度可表示为能量值。曲线图800中的频率范围可被分为多个频率范围810至880(例如频带),每个频率范围具有2.5kHz的宽度。或者,多个频率范围810至880可具有不同宽度。
在一个实施例中,电子装置可经由声音传感器在特定时间接收包含话音命令的用户的语音作为输入声音。随后可将与频率范围相关联的接收到的声音的强度转换成能量值。能量值可在曲线图800中经绘制成随频率变化。
在多个频率范围810至880当中,电子装置可选择低频率范围810和高频率范围850。尽管曲线图800经图示为具有被选择的低频率范围810和高频率范围850,但可选择任何数目的频率范围用于低频率范围或高频率范围。可通过对频率范围内的能量值求积分来获得低频率范围810和高频率范围850中的每一个的能量值。电子装置可随后分别计算高频率范围850和低频率范围810的能量值之间的比率。由于所述比率分别基于高频率范围850和低频率范围810的能量值(其可具有不同方向性传播特征),因此所述比率可指示用户语音的离开方向朝向电子装置的概率。
电子装置可配置成在所述比率大于或等于可为预定阈值的阈值时确定用户语音的离开方向朝向自身。在一个实施例中,用于减少假警报及增强检测精确性的最优值可经确定并设定为阈值。例如,所述阈值可设定为0.5。在此情况下,可确定高频率范围850和低频率范围810的能量值之间的比率为0.6,如曲线图800所示。由于所述比率大于或等于阈值,因此电子装置可确定用户语音的离开方向朝向自身。另一方面,如果确定所述比率小于阈值,那么电子装置可确定用户语音的离开方向不朝向自身。
在另一实施例中,电子装置可经由声音传感器在指定时段接收包含话音命令的用户的语音作为输入声音。可通过使用例如傅里叶变换等任何合适变换或功能将输入声音从时域转换为时频率。在此情况下,电子装置可产生三维曲线图,其绘制随频率和时间变化的与接收到的输入声音相关联的能量值。例如,三维曲线图可包含沿时间轴的任何合适数目的二维曲线图(例如曲线图800)。可通过在指定时段期间对频率范围内的能量值求积分来获得低频率范围的能量值和高频率范围的能量值。电子装置可随后计算高频率范围和低频率范围的能量值之间的比率,并且以与参考曲线图800所描述类似的方式确定用户语音的离开方向是否朝向自身。
图9说明根据本公开的一个实施例的配置成经由通信网络910与服务器920通信以用于确定由用户110发出的语音的既定目标的多个电子装置120至150。在所说明的实施例中,电子装置120至150分别为智能电话、平板计算机、智能TV和声控照明装置,并且可以定位于房间900内。尽管电子装置120至150展示于房间900内,但任何数目的电子装置可位于房间900或者靠近用户110的任何其它合适位置。
在所说明的实施例中,用户110可在朝向电子装置130的方向上发出话音命令以激活电子装置130或指示电子装置120执行功能。在此情况下,电子装置120至150中的每一个可接收话音命令作为输入声音,并且检测输入声音中的语音。在检测到语音后,电子装置120至150中的每一个可计算语音的第一频率范围的第一特征(例如高频率范围的能量值)与第二频率范围的第二特征(例如低频率范围的能量值)之间的比率。
随后可经由通信网络910将计算出的比率发送到服务器920。在一个实施例中,通信网络910可为有线网络或无线网络。在接收到所述比率后,服务器920可将从电子装置120至150接收到的比率进行比较,并且确定具有最高比率的电子装置为话音命令的既定目标装置。
另外,服务器920可配置成将最高比率与可为预定阈值的阈值进行比较。例如,可将阈值确定为用于减少假警报及增强检测精确性的最优值。当最高比率大于或等于阈值时,服务器920可确定具有最高比率的电子装置为话音命令的既定目标装置。另一方面,当最高比率小于阈值时,服务器920可确定电子装置中无一者为话音命令的既定目标装置。
在所说明的实施例中,由于用户已在朝向电子装置130的方向上发出话音命令,服务器920可确定从电子装置130接收的比率为从电子装置120至150接收的比率当中最高的比率。作为响应,服务器920可将消息发送到电子装置130,指示其为话音命令的既定目标装置。在接收到消息后,电子装置130可继续识别话音命令,并且执行与话音命令相关联的功能。
图10说明根据本公开的一个实施例的用于响应于由用户结合服务器发出的语音来控制电子装置的示范性方法1000的流程图。最初,在1010处,电子装置(例如图1中的电子装置120至150中的一个)可经由声音传感器(例如麦克风)接收包含话音命令的语音作为输入声音。在1020处,电子装置可确定是否在接收到的输入声音中检测到语音。电子装置可通过使用例如基于高斯混合模型(GMM)的分类器、神经网络、隐式马尔可夫模型(HMM)、图解模型、支持向量机(SVM)等任何方法来检测语音。如果未检测到语音(即1020处的否),那么方法1000可继续回到1010以经由声音传感器接收另一输入声音。
当在接收到的输入声音中检测到语音时(即,1020处的是),在1030处,电子装置可计算语音的第一频率范围的第一特征(例如高频率范围的能量值)与第二频率范围的第二特征(例如低频率范围的能量值)之间的比率。计算出的比率可指示语音的离开方向朝向自身的概率。在1040处,电子装置可将计算出的比率发送到服务器。
在将比率发送到服务器之后,在1050处,电子装置可确定是否在指定时段内从服务器接收到指示其为话音命令的既定目标装置的消息。如果电子装置在指定时段期间未从服务器接收到信号,那么方法1000可继续返回至1010以经由声音传感器接收另一输入声音。另一方面,如果电子装置在指定时段内从服务器接收到信号,那么在1060处,电子装置可识别话音命令。一旦识别到语音中的话音命令,电子装置即可在1070处执行与话音命令相关联的功能。
图11说明其中用于响应于由用户发出的语音来控制电子装置的本公开的方法和设备可根据一些实施例实施的电子装置1100的框图。电子装置1100可为蜂窝式电话、智能电话、可穿戴计算机、智能手表、智能眼镜、平板个人计算机、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话、平板计算机等。无线通信系统可为CDMA系统、GSM系统、W-CDMA系统、LTE系统、LTE高级系统等。
电子装置1100可能能够经由接收路径和发射路径提供双向通信。在接收路径上由基站发射的信号可由天线1112接收且可提供到接收器(RCVR)1114。接收器1114可调节且数字化所接收的信号,且将经调节且经数字化的数字信号提供到数字区段以用于进一步处理。在发射路径上,发射器(TMTR)1116可从数字区段1120接收待发射的数据,处理并调节所述数据,且产生经由天线1112发射到基站的经调制信号。接收器1114和发射器1116可为可支持CDMA、GSM、W-CDMA、LTE、高级LTE等收发器的部分。
数字区段1120可包含各种处理、接口和存储器单元,例如,调制解调器处理器1122、精简指令集计算机/数字信号处理器(RISC/DSP)1124、控制器/处理器1126、内部存储器1128、通用音频/视频编码器1132、通用音频解码器1134、图形/显示处理器1136和外部总线接口(EBI)1138。调制解调器处理器1122可执行用于数据发射和接收的处理,例如,编码、调制、解调和解码。RISC/DSP 1124可执行针对电子装置1100的通用和专用处理。控制器/处理器1126可执行数字区段1120内的各种处理和接口单元的操作。内部存储器1128可将用于各种单元的数据和/或指令存储在数字区段1120内。
通用音频/视频编码器1132可对来自音频/视频源1142、麦克风1144、图像传感器1146等的输入信号执行编码。通用音频解码器1134可执行对经译码音频数据的解码,且可将输出信号提供到扬声器/头戴式耳机1148。图形/显示处理器1136可执行对可呈现给显示单元1150的图形、视频、图像和文本的处理。EBI 1138可促进数据在数字区段1120与主存储器1152之间的传送。
数字区段1120可用一或多个处理器、DSP、微处理器、RISC等来实施。还可在一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上制造数字区段1120。
图12为说明服务器系统1200的框图,所述服务器系统1200可以是根据一些实施例实施的先前所描述服务器中的任一个。服务器系统1200可包含一或多个处理单元(例如CPU)1202、一或多个网络或其它通信网络接口、存储器1212,以及用于互连这些组件的一或多个通信总线1214。服务器系统1200还可包含具有显示装置和键盘的用户接口(图中未展示)。
存储器1212可为任何合适的存储器,例如高速随机存取存储器(例如DRAM、SRAM、DDR RAM或其它随机存取固态存储器装置)。存储器1212可包含或可替代地为非易失性存储器(例如一或多个磁盘存储裝置、光盘存储装置、快闪存储器裝置,或其它非易失性固态存储装置)。在一些实施例中,存储器1212可以包含远离CPU 1202定位和/或远程定位于多个场所的一或多个存储装置。
由存储器1212表示的上述存储器装置中的任一个可存储对应于用于进行和/或执行先前描述的过程、操作和方法中的任一者的一组指令的任何数目的模块或程序。举例来说,存储器1212可包含操作系统1216,其配置成存储包含用于处置各种基本系统服务且用于执行硬件相关任务的程序的指令。存储器1212的网络通信模块1218可用于经由一或多个通信网络接口1210(有线或无线)和一或多个通信网络(例如因特网、其它广域网、局域网、城域网等)将服务器系统1200连接到其它计算机。
存储器1212还可包含配置成包含语言模型、声学模型、语法模型等的数据库1220。数据库的模型中的每一个可用于识别一或多个用户的语音和/或命令。操作系统1216可通过网络通信模块1218更新数据库1220。操作系统1216还可经由网络通信模块1218提供指示电子装置为话音命令的既定目标装置的消息。
一般来说,本文中所描述的任何装置可表示各种类型的装置,例如无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内置调制解调器、通过无线信道通信的装置等。装置可具有各种名称,例如接入终端(AT)、接入单元、订户单元、移动站、移动装置、移动单元、移动电话、移动设备、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中所描述的任何装置可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。
可通过各种装置来实施本文中所描述的技术。举例来说,这些技术可以在硬件、固件、软件或其组合中实施。所属领域的技术人员将进一步了解,结合本文中的揭示内容描述的各种说明性逻辑块、模块、电路和算法步骤可以实施为电子硬件、计算机软件或两者的组合。为清晰地说明硬件与软件的此可互换性,上文已大体就其功能性描述了各种说明性组件、块、模块、电路和步骤。此功能性是实施为硬件还是软件取决于特定应用和施加于整个系统的设计约束。熟练的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但这样的实施决策不应被解释为引起脱离本公开的范围。
对于硬件实施方案,用以执行所述技术的处理单元可实施在以下各者内:一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机或其组合。
因而,结合本文中的揭示内容描述的各种说明性逻辑块、模块和电路可以用通用处理器、DSP、ASIC、FPGA或经设计以执行本文所描述的功能的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器,或任何其它此配置。
如果以软件实施,那么功能可存储在计算机可读媒体处。计算机可读媒体包含计算机存储媒体与通信媒体两者,所述通信媒体包含促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可为可由计算机接入的任何可用媒体。借助于实例而非限制,此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用以携载或存储呈指令或数据结构形式的所要程序代码且可由计算机接入的任何其它媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。举例来说,计算机可读存储媒体可以是包含可由处理器执行的指令的非暂时性计算机可读存储装置。因此,计算机可读存储媒体可能不是信号。
提供本公开的先前描述以使得所属领域的技术人员能够制造或使用本公开。所属领域的技术人员将容易明白对本公开的各种修改,且本文中定义的一般原理在不脱离本公开的范围的情况下适用于其它变体。因此,本公开并不既定限于本文中所描述的实例,而应符合与本文中所揭示的原理及新颖特征相一致的最广泛范围。
尽管示范性实施方案涉及利用在一或多个独立计算机系统的背景下的当前揭示的主题的方面,但所述主题不受如此限制,而是可结合任何计算环境(例如网络或分布式计算环境)来实施。此外,当前揭示的主题的方面可在多个处理芯片或装置中或跨越多个处理芯片或装置实施,且可跨越多个装置类似地实现存储。此类装置可包含PC、网络服务器和手持式装置。
尽管已经以特定于结构特征和/或方法动作的语言来描述主题,但应理解,所附权利要求书中所定义的主题未必限于上文所描述的特定特征或动作。事实上,上文所描述的特定特征和动作经揭示作为实施权利要求书的实例形式。
应了解,不必将上文所识别的模块或程序(即,指令集)实施为单独软件程序、程序或模块,且因此可在各种实施例中组合或以其它方式重新布置这些模块的各种子集。另外,存储器1212可存储上文未描述的额外的模块和数据结构。
<本公开的方面>
在下文中,将另外陈述本公开的一些方面。
(实例1)根据本公开的一方面,提供一种响应于由用户发出的语音来控制电子装置的方法,所述方法包含:通过声音传感器接收输入声音;检测输入声音中由用户发出的语音;响应于检测输入声音中的语音来确定语音的第一频率范围的第一特征和第二频率范围的第二特征;以及基于第一和第二特征确定由用户发出的语音的离开方向是否朝向电子装置。
(实例2)在根据实例1所述的方法中,第一频率范围高于第二频率范围。
(实例3)在根据实例1或2所述的方法中,第一和第二频率范围包含至少一个频率。
(实例4)根据实例1至3中任一项所述的方法进一步包含:响应于确定语音的离开方向朝向电子装置来识别语音中的话音命令;及执行与所识别的话音命令相关联的功能。
(实例5)在根据实例1至4中任一项所述的方法中,确定语音的第一频率范围的第一特征和第二频率范围的第二特征包括:确定第一频率范围的第一能量为第一特征;以及确定第二频率范围的第二能量值为第二特征。
(实例6)在根据实例1至5中任一项所述的方法中,确定语音的离开方向是否朝向电子装置包括:确定第一能量值与第二能量值之间的比率;及基于所述比率确定语音的离开方向朝向电子装置。
(实例7)在根据实例1至6中任一项所述的方法中,所述比率与输入声音的信号强度无关。
(实例8)根据实例1至7中任一项所述的方法进一步包含从外部装置接收语音的发出方向的指示。
(实例9)根据实例1至8中任一项所述的方法进一步包含∶基于第一和第二特征以及来自外部装置的指示确定语音的目标是电子装置还是外部装置;响应于确定语音的目标是所述电子装置而识别语音中的话音命令;以及执行与所识别的话音命令相关联的功能。
(实例10)根据本公开的另一方面,提供一种电子装置,其包含:声音传感器,其配置成接收输入声音;语音检测器,其配置成检测所述输入声音中由用户发出的语音;频率分析单元,其配置成响应于检测输入声音中的语音来确定所述语音的第一频率范围的第一特征和第二频率范围的第二特征;以及语音方向确定单元,其配置成基于第一和第二特征确定由用户发出的语音的离开方向是否朝向所述电子装置。
(实例11)在根据实例10所述的电子装置中,第一频率范围高于第二频率范围。
(实例12)在根据实例10或11所述的电子装置中,第一和第二频率范围包含至少一个频率。
(实例13)根据实例10至12中任一项所述的电子装置进一步包含语音识别单元,其配置成响应于确定语音的离开方向朝向电子装置来识别语音中的话音命令,其中所述电子装置执行与所识别话音命令相关联的功能。
(实例14)在根据实例10至13中任一项所述的电子装置中,频率分析单元配置成确定所述第一频率范围的第一能量值为第一特征;以及确定所述第二频率范围的第二能量值为第二特征。
(实例15)在根据实例10至14中任一项所述的电子装置中,所述语音方向确定单元配置成确定第一能量值与第二能量值之间的比率;以及基于所述比率确定所述语音的离开方向朝向所述电子装置。
(实例16)在根据实例10至15中任一项所述的电子装置中,所述比率与输入声音的信号强度无关。
(实例17)根据实例10至16中任一项所述的电子装置进一步包含通信单元,其配置成从外部装置接收所述语音的发出方向的指示。
(实例18)在根据实例10至17中任一项所述的电子装置中,所述语音方向确定单元配置成基于所述第一和第二特征以及来自外部装置的指示确定所述语音的目标是电子装置还是外部装置,其中所述电子装置进一步包括:语音识别单元,其配置成响应于确定所述语音的目标是电子装置来识别语音中的话音命令,并且所述电子装置执行与所识别的话音命令相关联的功能。
(实例19)根据本公开的又一方面,提供一种电子装置,其包含:用于接收输入声音的装置;用于检测所述输入声音中由用户发出的语音的装置;用于响应于检测所述输入声音中的语音来确定语音的第一频率范围的第一特征和第二频率范围的第二特征的装置;以及用于基于所述第一和第二特征确定由用户发出的语音的离开方向是否朝向电子装置的装置。
(实例20)根据实例19所述的电子装置进一步包含:用于响应于确定语音的离开方向朝向电子装置来识别语音中的话音命令的装置;以及用于执行与所识别的话音命令相关联的功能的装置。
(实例21)在根据实例19或20所述的电子装置中,用于确定语音的第一频率范围的第一特征和第二频率范围的第二特征的所述装置配置成:确定第一频率范围的第一能量值为第一特征;以及确定第二频率范围的第二能量值为第二特征。
(实例22)在根据实例19至21中任一项所述的电子装置中,用于确定由用户发出的语音的离开方向是否朝向电子装置的装置配置成:确定第一能量值与第二能量值之间的比率;以及基于所述比率确定语音的离开方向朝向所述电子装置。
(实例23)根据实例19至22中任一项所述的电子装置进一步包含用于从外部装置接收所述语音的发出方向的指示的装置。
(实例24)在根据实例19至23中任一项所述的电子装置中,用于确定由用户发出的语音的离开方向是否朝向电子装置的装置配置成:基于所述第一和第二特征以及来自外部装置的指示来确定语音的目标是电子装置还是外部装置,并且所述电子装置进一步包括:用于响应于确定所述语音的目标是电子装置来识别所述语音中的话音命令的装置;以及用于执行与所识别的话音命令相关联的功能的装置。
(实例25)根据本公开的又一方面,提供一种非暂时性计算机可读存储媒体,其包括致使电子装置的至少一个处理器执行以下操作的指令:通过声音传感器接收输入声音;检测输入声音中由用户发出的语音;响应于检测输入声音中的语音来确定语音的第一频率范围的第一特征和第二频率范围的第二特征;以及基于所述第一和第二特征确定由用户发出的语音的离开方向是否朝向电子装置。
(实例26)根据实例25所述的非暂时性计算机可读存储媒体进一步包括致使电子装置的至少一个处理器执行以下操作的指令:响应于确定语音的离开方向朝向电子装置来识别语音中的话音命令;以及执行与所识别的话音命令相关联的功能。
(实例27)在根据实例25或26所述的非暂时性计算机可读存储媒体中,确定所述语音的第一频率范围的第一特征和第二频率范围的第二特征包括:确定所述第一频率范围的第一能量值为第一特征;以及确定所述第二频率范围的第二能量值为第二特征。
(实例28)在根据实例25至27中任一项所述的非暂时性计算机可读存储媒体中,确定所述语音的离开方向朝向电子装置包括:确定第一能量值与第二能量值之间的比率;以及基于所述比率确定所述语音的离开方向朝向所述电子装置。
(实例29)根据实例25至28中任一项所述的非暂时性计算机可读存储媒体进一步包括致使所述电子装置的至少一个处理器执行以下操作的指令:从外部装置接收所述语音的发出方向的指示。
(实例30)根据实例25至29中任一项所述的非暂时性计算机可读存储媒体进一步包括致使所述电子装置的至少一个处理器执行以下操作的指令:基于所述第一和第二特征以及来自所述外部装置的指示确定所述语音的目标是电子装置还是外部装置;响应于确定所述语音的目标是所述电子装置来识别所述语音中的话音命令;以及执行与所识别的话音命令相关联的功能。
Claims (30)
1.一种用于处理由用户发出的语音的方法,所述方法包括:
在包括处理器的电子装置处执行:
由声音传感器接收输入声音;
检测所述输入声音中的所述语音;
响应于检测所述语音而确定所述语音的经识别的第一频率范围的第一特征和所述语音的经识别的第二频率范围的第二特征,所述第二频率范围不同于所述第一频率范围;
通过所述处理器的语音方向确定单元基于所述第一特征和基于所述第二特征而确定所述语音的离开方向是否朝向所述电子装置,所述处理器经配置以基于语音方向检测的指示而识别所述语音中的命令;以及
响应于确定所述语音的所述离开方向朝向所述电子装置基于所述第一特征和基于所述第二特征而在所述电子装置处起始与经识别的命令相关联的功能。
2.根据权利要求1所述的方法,其中所述第一频率范围高于所述第二频率范围,且其中所述指示包括以下一者或多者:比率,频谱平度值,或指示所述电子装置是针对所述命令的目标装置的来自于外部装置的消息。
3.根据权利要求1所述的方法,其进一步包括:
响应于确定所述语音的所述离开方向朝向所述电子装置而识别所述语音中的所述命令;以及
执行与所述经识别的命令相关联的所述功能。
4.根据权利要求1所述的方法,其中所述第一特征包括与所述第一频率范围相关联的第一能量值,并且所述第二特征包括与所述第二频率范围相关联的第二能量值。
5.根据权利要求4所述的方法,其中确定所述语音的所述离开方向是否朝向所述电子装置包括:
确定所述第一能量值与所述第二能量值之间的比率,其中所述比率独立于所述输入声音的信号强度;以及
基于所述比率确定所述语音的所述离开方向朝向所述电子装置。
6.根据权利要求1所述的方法,其中:
所述第一频率范围和所述第二频率范围是由所述处理器的频率分析单元所识别的,并且所述语音方向确定单元基于所述第一特征、所述第二特征和所述指示来确定所述语音的目标是所述电子装置还是外部装置。
7.根据权利要求1所述的方法,其中检测所述语音、确定所述第一特征和所述第二特征、确定所述语音的所述离开方向是否是朝向所述电子装置和起始所述功能是在包含移动通信装置的装置内执行的。
8.根据权利要求1所述的方法,其中检测所述语音、确定所述第一特征和所述第二特征、确定所述语音的所述离开方向是否是朝向所述电子装置和起始所述功能是在包含固定位置通信装置的装置内执行的。
9.一种电子装置,其包括:
声音传感器,其经配置以接收输入声音;
语音检测器,其经配置以检测所述输入声音中由用户发出的语音;
频率分析器,其经配置以响应于检测所述语音来确定所述语音的经识别的第一频率范围的第一特征和所述语音的经识别的第二频率范围的第二特征,所述第二频率范围不同于所述第一频率范围;
包括语音方向确定器的处理器,其经配置以基于所述第一特征和基于所述第二特征来确定所述语音的离开方向是否朝向所述电子装置,所述处理器经配置以基于语音方向检测的指示而识别所述语音中的命令;以及
电路,其经配置以响应于所述语音的所述离开方向朝向所述电子装置的确定基于所述第一特征和基于所述第二特征而在所述电子装置处起始与经识别的命令相关联的功能。
10.根据权利要求9所述的电子装置,其中所述第一频率范围高于所述第二频率范围。
11.根据权利要求9所述的电子装置,其中所述语音方向确定器经配置以基于与所述第一特征和所述第二特征相关联的比率而确定所述语音的所述离开方向朝向所述电子装置。
12.根据权利要求9所述的电子装置,其进一步包括:
语音识别器,其经配置以响应于确定所述语音的所述离开方向朝向所述电子装置而识别所述语音中的话音命令。
13.根据权利要求9所述的电子装置,其中:
所述第一特征包括与所述第一频率范围相关联的第一能量值,所述第二特征包括与所述第二频率范围相关联的第二能量值,并且所述语音方向确定器经配置以确定所述第一能量值和所述第二能量值之间的比率并且基于所述比率而确定所述语音的所述离开方向朝向所述电子装置,所述比率独立于所述输入声音的信号强度。
14.根据权利要求9所述的电子装置,其进一步包括:
频率分析电路,其经配置以识别所述第一频率范围和所述第二频率范围。
15.根据权利要求9所述的电子装置,其中所述语音方向确定器经配置以基于所述第一特征、所述第二特征以及所述指示而确定所述语音的目标是所述电子装置还是外部装置。
16.根据权利要求9所述的电子装置,其进一步包括:
天线;以及
接收器,其耦合到所述天线并且经配置以接收对应于特定输入声音的信号。
17.根据权利要求16所述的电子装置,其中所述语音检测器、所述频率分析器、所述语音方向确定器、所述电路、所述接收器和所述天线被集成到移动通信装置中。
18.根据权利要求16所述的电子装置,其中所述语音检测器、所述频率分析器、所述语音方向确定器、所述电路、所述接收器和所述天线被集成到固定位置通信装置中。
19.一种电子装置,其包括:
用于接收输入声音的装置;
用于检测所述输入声音中由用户发出的语音的装置;
用于响应于检测所述语音而确定所述语音的经识别的第一频率范围的第一特征和所述语音的经识别的第二频率范围的第二特征的装置,所述第二频率范围不同于所述第一频率范围;
用于处理信息的装置,所述用于处理信息的装置包括用于确定所述语音的方向的装置并且经配置以基于语音方向检测的指示而识别所述语音中的命令,其中所述用于确定所述语音的所述方向的装置经配置以基于所述第一特征和基于所述第二特征而确定所述语音的离开方向是否朝向所述电子装置;以及
用于响应于所述语音的所述离开方向朝向所述电子装置的所述确定基于所述第一特征和基于所述第二特征而在所述电子装置处起始与经识别的命令相关联的功能的装置。
20.根据权利要求19所述的电子装置,其进一步包括:
用于响应于确定所述语音的所述离开方向朝向所述电子装置来识别所述语音中的话音命令的装置。
21.根据权利要求19所述的电子装置,其中:
所述第一特征包括所述第一频率范围相关联的第一能量值,并且
所述第二特征包括与所述第二频率范围相关联的第二能量值。
22.根据权利要求21所述的电子装置,其中所述用于确定所述语音的所述方向的装置经配置以:
确定所述第一能量值与所述第二能量值之间的比率;以及
基于所述比率确定所述语音的所述离开方向朝向所述电子装置。
23.根据权利要求19所述的电子装置,其中用于确定所述语音的所述方向的所述装置经配置以基于所述第一特征、所述第二特征以及所述指示确定所述语音的目标是所述电子装置还是外部装置。
24.根据权利要求19所述的电子装置,其中所述用于检测所述语音的装置、所述用于确定所述第一特征和所述第二特征的装置、所述用于确定所述语音的所述方向的装置和所述用于起始的装置被集成到移动通信装置中。
25.根据权利要求19所述的电子装置,其中所述用于检测所述语音的装置、所述用于确定所述第一特征和所述第二特征的装置、所述用于确定所述语音的所述方向的装置和所述用于起始的装置被集成到固定位置通信装置中。
26.一种非暂时性计算机可读存储介质,其包括致使电子装置的至少一个处理器执行以下操作的指令:
基于由声音传感器接收的输入声音而接收输入信号,所述输入信号具有经识别的第一频率范围和经识别的第二频率范围,所述第二频率范围不同于所述第一频率范围;
检测所述输入信号中由用户发出的语音;
响应于检测所述语音而确定与所述第一频率范围相关联的所述输入信号的第一特征和与所述第二频率范围相关联的所述输入信号的第二特征;
基于所述输入信号的所述第一特征和基于所述输入信号的所述第二特征确定所述语音的离开方向是否朝向所述电子装置,所述指令经配置以致使所述至少一个处理器以基于语音方向检测的指示而识别所述语音中的命令;以及
响应于确定所述语音的所述离开方向朝向所述电子装置基于所述第一特征和基于所述第二特征而在所述电子装置处起始与经识别的命令相关联的功能。
27.根据权利要求26所述的非暂时性计算机可读存储介质,其进一步包括指令,所述指令致使所述至少一个处理器以响应于确定所述语音的所述离开方向朝向所述电子装置而识别所述输入信号中的话音命令。
28.根据权利要求26所述的非暂时性计算机可读存储介质,其中所述输入信号的所述第一特征包括与所述第一频率范围相关联的第一能量值,并且所述输入信号的所述第二特征包括与所述第二频率范围相关联的第二能量值。
29.根据权利要求26所述的非暂时性计算机可读存储介质,其中确定所述语音的所述离开方向是否朝向所述电子装置包括:
确定所述输入信号的所述第一特征与所述输入信号的所述第二特征之间的比率;
以及
基于所述比率确定所述语音的所述离开方向朝向所述电子装置。
30.根据权利要求26所述的非暂时性计算机可读存储介质,其进一步包括致使所述至少一个处理器执行以下操作的指令:
识别所述第一频率范围和所述第二频率范围;以及
基于所述输入信号的所述第一特征、所述输入信号的所述第二特征以及所述指示而确定所述语音的目标是否是所述电子装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/671,858 US9911416B2 (en) | 2015-03-27 | 2015-03-27 | Controlling electronic device based on direction of speech |
US14/671,858 | 2015-03-27 | ||
PCT/US2016/016649 WO2016160123A1 (en) | 2015-03-27 | 2016-02-04 | Controlling electronic device based on direction of speech |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107408386A CN107408386A (zh) | 2017-11-28 |
CN107408386B true CN107408386B (zh) | 2018-11-23 |
Family
ID=55404841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680014289.XA Active CN107408386B (zh) | 2015-03-27 | 2016-02-04 | 基于语音方向控制电子装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9911416B2 (zh) |
EP (1) | EP3274988B1 (zh) |
JP (1) | JP2018512619A (zh) |
KR (1) | KR101981878B1 (zh) |
CN (1) | CN107408386B (zh) |
ES (1) | ES2754448T3 (zh) |
HU (1) | HUE047117T2 (zh) |
WO (1) | WO2016160123A1 (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106125048B (zh) | 2016-07-11 | 2019-05-24 | 浙江大华技术股份有限公司 | 一种声源定位方法及装置 |
EP2911149B1 (en) * | 2014-02-19 | 2019-04-17 | Nokia Technologies OY | Determination of an operational directive based at least in part on a spatial audio property |
WO2016208789A1 (ko) * | 2015-06-26 | 2016-12-29 | 삼성전자 주식회사 | 소리를 판별하는 방법 및 이를 위한 장치 |
US11587559B2 (en) * | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
KR102427833B1 (ko) * | 2015-11-30 | 2022-08-02 | 삼성전자주식회사 | 사용자 단말장치 및 디스플레이 방법 |
EP3414759B1 (en) * | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US9911417B2 (en) * | 2016-04-01 | 2018-03-06 | Tai-An Lu | Internet of things system with voice-controlled functions and method for processing information of the same |
US10147423B2 (en) * | 2016-09-29 | 2018-12-04 | Intel IP Corporation | Context-aware query recognition for electronic devices |
US9642225B1 (en) * | 2016-10-20 | 2017-05-02 | Kai-kong Ng | Voice-controlled lighting control system |
KR101893768B1 (ko) * | 2017-02-27 | 2018-09-04 | 주식회사 브이터치 | 음성 인식 트리거를 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
US10403276B2 (en) * | 2017-03-17 | 2019-09-03 | Microsoft Technology Licensing, Llc | Voice enabled features based on proximity |
KR102471493B1 (ko) * | 2017-10-17 | 2022-11-29 | 삼성전자주식회사 | 전자 장치 및 음성 인식 방법 |
TWM562433U (zh) * | 2018-01-05 | 2018-06-21 | Thermaltake Technology Co Ltd | 聲控輸入系統 |
US11150869B2 (en) | 2018-02-14 | 2021-10-19 | International Business Machines Corporation | Voice command filtering |
US11238856B2 (en) | 2018-05-01 | 2022-02-01 | International Business Machines Corporation | Ignoring trigger words in streamed media content |
US11200890B2 (en) | 2018-05-01 | 2021-12-14 | International Business Machines Corporation | Distinguishing voice commands |
WO2019231587A1 (en) * | 2018-06-01 | 2019-12-05 | Apple Inc. | Providing audio information with a digital assistant |
CN112513983A (zh) | 2018-06-21 | 2021-03-16 | 奇跃公司 | 可穿戴系统语音处理 |
CN108922528B (zh) | 2018-06-29 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 用于处理语音的方法和装置 |
US11062703B2 (en) * | 2018-08-21 | 2021-07-13 | Intel Corporation | Automatic speech recognition with filler model processing |
CN109391528A (zh) * | 2018-08-31 | 2019-02-26 | 百度在线网络技术(北京)有限公司 | 语音智能设备的唤醒方法、装置、设备及存储介质 |
NO20181210A1 (en) * | 2018-08-31 | 2020-03-02 | Elliptic Laboratories As | Voice assistant |
CN109831709B (zh) * | 2019-02-15 | 2020-10-09 | 杭州嘉楠耘智信息科技有限公司 | 音源定向方法及装置和计算机可读存储介质 |
WO2020180719A1 (en) * | 2019-03-01 | 2020-09-10 | Magic Leap, Inc. | Determining input for speech processing engine |
KR102245953B1 (ko) * | 2019-06-05 | 2021-04-28 | 엘지전자 주식회사 | 복수의 전자기기의 제어방법 |
CN110459213A (zh) * | 2019-06-28 | 2019-11-15 | 浙江想能睡眠科技股份有限公司 | 基于语音控制的智能床垫及其控制方法 |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
US11355108B2 (en) | 2019-08-20 | 2022-06-07 | International Business Machines Corporation | Distinguishing voice commands |
US11205433B2 (en) * | 2019-08-21 | 2021-12-21 | Qualcomm Incorporated | Method and apparatus for activating speech recognition |
KR102329353B1 (ko) * | 2020-03-17 | 2021-11-22 | 성균관대학교산학협력단 | 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치 |
US11917384B2 (en) | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
US11778370B2 (en) * | 2020-12-07 | 2023-10-03 | Gulfstream Aerospace Corporation | Microphone array onboard aircraft to determine crew/passenger location and to steer a transducer beam pattern to that location |
CN115086096A (zh) * | 2021-03-15 | 2022-09-20 | Oppo广东移动通信有限公司 | 响应控制语音的方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7167544B1 (en) * | 1999-11-25 | 2007-01-23 | Siemens Aktiengesellschaft | Telecommunication system with error messages corresponding to speech recognition errors |
US8073690B2 (en) * | 2004-12-03 | 2011-12-06 | Honda Motor Co., Ltd. | Speech recognition apparatus and method recognizing a speech from sound signals collected from outside |
CN102799262A (zh) * | 2011-04-08 | 2012-11-28 | 索尼电脑娱乐公司 | 用于确定输入语音的相关性的装置和方法 |
WO2014087495A1 (ja) * | 2012-12-05 | 2014-06-12 | 株式会社日立製作所 | 音声対話ロボット、音声対話ロボットシステム |
US20140219471A1 (en) * | 2013-02-06 | 2014-08-07 | Apple Inc. | User voice location estimation for adjusting portable device beamforming settings |
EP2801972A1 (en) * | 2013-05-06 | 2014-11-12 | Honeywell International Inc. | User authentication of voice controlled devices |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
DE10133126A1 (de) | 2001-07-07 | 2003-01-16 | Philips Corp Intellectual Pty | Richtungssensitives Audioaufnahmesystem mit Anzeige von Aufnahmegebiet und/oder Störquelle |
JP4873913B2 (ja) | 2004-12-17 | 2012-02-08 | 学校法人早稲田大学 | 音源分離システムおよび音源分離方法、並びに音響信号取得装置 |
DK1699261T3 (da) * | 2005-03-01 | 2011-08-15 | Oticon As | System og fremgangsmåde til bestemmelse af direktionalitet af lyd detekteret af et høreapparat |
EP2237271B1 (en) | 2009-03-31 | 2021-01-20 | Cerence Operating Company | Method for determining a signal component for reducing noise in an input signal |
US8588441B2 (en) * | 2010-01-29 | 2013-11-19 | Phonak Ag | Method for adaptively matching microphones of a hearing system as well as a hearing system |
US9053697B2 (en) * | 2010-06-01 | 2015-06-09 | Qualcomm Incorporated | Systems, methods, devices, apparatus, and computer program products for audio equalization |
JP5079934B2 (ja) * | 2011-01-18 | 2012-11-21 | パナソニック株式会社 | 車両方向特定装置、車両方向特定方法、及びそのプログラム |
US20130204629A1 (en) | 2012-02-08 | 2013-08-08 | Panasonic Corporation | Voice input device and display device |
US20130238326A1 (en) | 2012-03-08 | 2013-09-12 | Lg Electronics Inc. | Apparatus and method for multiple device voice control |
KR101946364B1 (ko) * | 2012-05-01 | 2019-02-11 | 엘지전자 주식회사 | 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법 |
US9251787B1 (en) * | 2012-09-26 | 2016-02-02 | Amazon Technologies, Inc. | Altering audio to improve automatic speech recognition |
US20140244267A1 (en) * | 2013-02-26 | 2014-08-28 | Avaya Inc. | Integration of user orientation into a voice command system |
EP2911149B1 (en) | 2014-02-19 | 2019-04-17 | Nokia Technologies OY | Determination of an operational directive based at least in part on a spatial audio property |
EP2928210A1 (en) * | 2014-04-03 | 2015-10-07 | Oticon A/s | A binaural hearing assistance system comprising binaural noise reduction |
-
2015
- 2015-03-27 US US14/671,858 patent/US9911416B2/en active Active
-
2016
- 2016-02-04 KR KR1020177027318A patent/KR101981878B1/ko active IP Right Grant
- 2016-02-04 JP JP2017549296A patent/JP2018512619A/ja not_active Ceased
- 2016-02-04 WO PCT/US2016/016649 patent/WO2016160123A1/en active Application Filing
- 2016-02-04 ES ES16705671T patent/ES2754448T3/es active Active
- 2016-02-04 CN CN201680014289.XA patent/CN107408386B/zh active Active
- 2016-02-04 HU HUE16705671A patent/HUE047117T2/hu unknown
- 2016-02-04 EP EP16705671.2A patent/EP3274988B1/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7167544B1 (en) * | 1999-11-25 | 2007-01-23 | Siemens Aktiengesellschaft | Telecommunication system with error messages corresponding to speech recognition errors |
US8073690B2 (en) * | 2004-12-03 | 2011-12-06 | Honda Motor Co., Ltd. | Speech recognition apparatus and method recognizing a speech from sound signals collected from outside |
CN102799262A (zh) * | 2011-04-08 | 2012-11-28 | 索尼电脑娱乐公司 | 用于确定输入语音的相关性的装置和方法 |
WO2014087495A1 (ja) * | 2012-12-05 | 2014-06-12 | 株式会社日立製作所 | 音声対話ロボット、音声対話ロボットシステム |
US20140219471A1 (en) * | 2013-02-06 | 2014-08-07 | Apple Inc. | User voice location estimation for adjusting portable device beamforming settings |
EP2801972A1 (en) * | 2013-05-06 | 2014-11-12 | Honeywell International Inc. | User authentication of voice controlled devices |
Also Published As
Publication number | Publication date |
---|---|
JP2018512619A (ja) | 2018-05-17 |
HUE047117T2 (hu) | 2020-04-28 |
US20160284350A1 (en) | 2016-09-29 |
EP3274988B1 (en) | 2019-08-07 |
KR20170131465A (ko) | 2017-11-29 |
EP3274988A1 (en) | 2018-01-31 |
WO2016160123A1 (en) | 2016-10-06 |
US9911416B2 (en) | 2018-03-06 |
KR101981878B1 (ko) | 2019-05-23 |
CN107408386A (zh) | 2017-11-28 |
ES2754448T3 (es) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107408386B (zh) | 基于语音方向控制电子装置 | |
CN107464564B (zh) | 语音交互方法、装置及设备 | |
CN105190746B (zh) | 用于检测目标关键词的方法和设备 | |
TWI619114B (zh) | 環境敏感之自動語音辨識的方法和系統 | |
CN105556920B (zh) | 用于控制对应用程序的访问的方法和设备 | |
US10861480B2 (en) | Method and device for generating far-field speech data, computer device and computer readable storage medium | |
US20150120291A1 (en) | Scene Recognition Method, Device and Mobile Terminal Based on Ambient Sound | |
WO2020048431A1 (zh) | 一种语音处理方法、电子设备和显示设备 | |
WO2021013255A1 (zh) | 一种声纹识别方法及装置 | |
CN110047468A (zh) | 语音识别方法、装置及存储介质 | |
CN109361995A (zh) | 一种电器设备的音量调节方法、装置、电器设备和介质 | |
CN114788304A (zh) | 用于减少环境噪声补偿系统中的误差的方法 | |
CN109256145A (zh) | 基于终端的音频处理方法、装置、终端和可读存储介质 | |
CN112185425A (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN114566171A (zh) | 一种语音唤醒方法及电子设备 | |
CN209606794U (zh) | 一种可穿戴设备、音箱设备和智能家居控制系统 | |
US11783809B2 (en) | User voice activity detection using dynamic classifier | |
WO2022156438A1 (zh) | 一种唤醒方法及电子设备 | |
CN115811681A (zh) | 一种耳机工作模式控制方法、装置、终端及介质 | |
CN114694667A (zh) | 语音输出方法、装置、计算机设备及存储介质 | |
CN113393834A (zh) | 一种控制方法及装置 | |
US12002451B1 (en) | Automatic speech recognition | |
CN111739493B (zh) | 音频处理方法、装置及存储介质 | |
CN110047494B (zh) | 设备响应方法、设备及存储介质 | |
CN116935883B (zh) | 声源定位方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |