CN108352159B - 用于识别语音的电子设备和方法 - Google Patents
用于识别语音的电子设备和方法 Download PDFInfo
- Publication number
- CN108352159B CN108352159B CN201680063709.3A CN201680063709A CN108352159B CN 108352159 B CN108352159 B CN 108352159B CN 201680063709 A CN201680063709 A CN 201680063709A CN 108352159 B CN108352159 B CN 108352159B
- Authority
- CN
- China
- Prior art keywords
- power value
- audio signal
- audio signals
- voice
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000005236 sound signal Effects 0.000 claims abstract description 351
- 238000012545 processing Methods 0.000 claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 abstract description 20
- 238000004891 communication Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 16
- 238000005314 correlation function Methods 0.000 description 7
- 238000003491 array Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- GVVPGTZRZFNKDS-JXMROGBWSA-N geranyl diphosphate Chemical compound CC(C)=CCC\C(C)=C\CO[P@](O)(=O)OP(O)(O)=O GVVPGTZRZFNKDS-JXMROGBWSA-N 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Selective Calling Equipment (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
提供了一种用于识别语音的电子设备和方法。用于由电子设备识别语音的方法包括:通过多个麦克风接收从声源产生的声音;根据通过对通过多个麦克风输入的每个声音执行信号处理而产生的多个音频信号计算功率值,基于计算出的功率值计算关于声源的方向信息,并存储计算出的方向信息;以及基于关于声源的方向信息来对包括在音频信号中的语音部分执行语音识别。结果,电子设备可以在改善与语音部分检测相关的处理速度的同时正确地从音频信号中仅检测出语音部分。
Description
技术领域
根据本公开的装置和方法涉及用于识别语音的电子设备和方法,并且更具体地涉及用于检测音频信号中的语音部分的电子设备和方法。
背景技术
使用语音信号控制各种电子设备的语音识别技术已被广泛使用。一般而言,语音识别技术是指根据从硬件或软件设备或系统输入的语音信号理解用户所发出的语音的意图并基于所理解的意图执行操作的技术。
然而,语音识别技术识别从周围环境产生的各种声音以及用户所发出的语音的语音信号,因此可能无法正确地执行用户的意图操作。
因此,已经开发了各种语音部分检测算法,用于从输入音频信号中仅检测用户所发出的语音的语音部分。
作为用于检测语音部分的一般方法,存在一种针对按照帧单位的每个音频信号使用能量来检测语音部分的方法、用于针对按照帧单位的每个音频信号使用零交叉来检测语音部分的方法、用于从按照帧单位的音频信号中提取特征向量并通过使用支持向量机(SVM)从预先提取的特征向量确定语音信号的存在和不存在来检测语音部分的方法等。
使用按照帧单位的音频信号的能量或零交叉来检测语音部分的方法针对每个帧的音频信号使用能量或零交叉。结果,用于检测语音部分的现有方法与用于检测语音部分的其他方法相比使用较少的计算量来确定每个帧的音频信号是否是的语音信号,但是可能常常导致将噪声信号以及语音信号都检测为语音部分的错误。
同时,用于使用从按照帧单位的音频信号和SVM中提取的特征向量来检测语音部分的方法与用于使用前述的能量或过零点检测语音部分的方法相比针对从每个帧的音频信号中仅检测语音信号具有更优异的检测精度,但需要更多的计算量来确定每个帧的音频信号中语音信号是否存在,因此与其他用于检测语音部分的方法相比可能消耗更多的CPU资源。
发明内容
技术问题
附加方面和/或优点将在随后的描述中部分地阐述,并且部分地根据该描述变得显而易见,或者可以通过实践本实施例而得以知悉。
示例性实施例克服上述缺点以及以上未描述的其他缺点。此外,实施例不需要克服以上描述的缺点,并且示例性实施例可以不克服以上描述的任何问题。
本公开从电子设备中的输入音频信号正确地检测包括语音信号的语音部分。
本公开输入短距离和远距离的语音信号,并且基于电子设备中对语音信号的声音方向跟踪来检测语音部分。
问题的解决方案
根据本公开的一个方面,一种用于由电子设备识别语音的方法包括:通过多个麦克风接收从声源产生的声音;计算通过对通过多个麦克风输入的每个声音执行信号处理而产生的多个音频信号的功率值,基于计算出的功率值计算关于声源的方向信息,并存储计算出的方向信息;以及基于关于声源的方向信息来对包括在音频信号中的语音部分执行语音识别。
在执行语音识别中,可以基于多个音频信号中与起点和终点相对应的点音频信号来检测语音部分,并且可以对检测到的语音部分执行语音识别。
所述存储可以包括:根据多个经信号处理的音频信号计算最大功率值和最小功率值;根据最大功率值和最小功率值计算功率比;确定计算出的功率比大于或等于预设阈值的至少一个音频信号;以及根据与所确定的至少一个音频信号对应的声音计算声源的方向信息,并且存储方向信息和至少一个音频信号的索引。
所述存储还可以包括:如果预先存储了根据先前的音频信号计算出的最小功率值,将根据所述多个音频信号计算的最小功率值与预先存储的最小功率值进行比较,以将具有较小大小的功率值确定为所述多个音频信号的最小功率值。
所述存储还可以包括:如果输入了预定义的第N个音频信号,则将根据第N个音频信号计算出的最小功率值重置为初始值。
在计算最大功率值和最小功率值中,可以使用广义互相关相位变换(GCC-PHAT)算法来根据多个音频信号计算N*(N-1)/2个功率值(如果麦克风的数目是N),N*(N-1)/2个功率值之中的最大值被确定为最大功率值,并且使用最小控制递归平均(MCRA)算法来根据多个音频信号计算最小功率值。
方向信息可以是产生与多个音频信号中的每一个相对应的声音的声源的声音方向与多个麦克风之间的角度信息,并且在计算最大功率值和最小功率值中,根据与最大功率值对应的延迟值来计算关于声源的方向信息。
在执行所述语音识别中,如果多个方向信息中的至少两个方向信息被包括在预设误差范围中或者所述两个方向信息的误差范围小于预设阈值时,则可以对包括在与所述至少两个方向信息项相对应的音频信号中的语音部分执行语音识别。
执行语音识别可以包括:基于功率比大于或等于预设阈值的至少一个音频信号的索引,从音频信号中检测语音部分;基于关于产生与功率比大于或等于预设阈值的至少一个音频信号对应的声音的声源的方向信息,对语音部分中的至少一个音频信号执行信号处理;以及根据经信号处理的音频信号执行语音识别,并将语音转换为文本。
在执行所述信号处理中,可以使用以下各项中的至少一个,在检测到的语音部分中对所述至少一个音频信号执行所述信号处理:包括线性约束最小方差(LCMA)和最小方差无失真响应(MVDR)中的至少一个的波束形成方案、几何源分离(GSS)方案以及盲源提取(BSE)方案。
根据本公开的另一方面,一种电子设备包括:输入端,用于接收通过多个麦克风从声源产生的声音;存储器,存储声源的方向信息;以及处理器,用于对通过多个麦克风输入的每个声音执行信号处理,计算多个经信号处理的音频信号的功率值,基于功率值来计算声源的方向信息并将方向信息存储在存储器中,并且基于声源的方向信息来对包括在音频信号中的语音部分执行语音识别。
处理器可以基于所述多个音频信号中与起点和终点相对应的音频信号来检测所述语音部分,并且对所检测到的语音部分执行所述语音识别。
处理器可以根据所述多个经信号处理的音频信号计算最大功率值和最小功率值,根据所计算的最大功率值和最小功率值计算功率比,计算关于与所计算的功率比大于或等于预设阈值的至少一个音频信号对应的声音的声源的方向信息,并且将所计算的方向信息以及所述至少一个音频信号的索引存储在所述存储器中。
如果在存储器中预先存储了根据先前的音频信号计算出的最小功率值,所述处理器可以将根据所述多个音频信号计算的最小功率值与预先存储的最小功率值进行比较,以将具有较小大小的功率值确定为所述多个音频信号的最小功率值。
如果输入了预定义的第N个音频信号,则处理器可以将根据第N个音频信号计算出的最小功率值重置为初始值。
处理器可以使用广义互相关相位变换(GCC-PHAT)算法来根据多个音频信号计算N*(N-1)/2个功率值(如果麦克风的数目是N),将N*(N-1)/2个功率值之中的最大值确定为最大功率值,并且使用最小控制递归平均(MCRA)算法来根据多个音频信号计算最小功率值。
方向信息可以是产生与多个音频信号中的每一个相对应的声音的声源的声音方向和多个麦克风之间的角度信息,并且处理器可以根据与所确定的最大功率值对应的延迟值计算关于与产生多个音频信号中的每一个相对应的声音的声源的方向信息。
如果多个方向信息中的至少两个包含在预设误差范围中,或者两个方向信息的误差范围小于预设阈值,则处理器可以对包括在与至少两个方向信息相对应的音频信号中的语音部分执行语音识别。
处理器可以基于功率比大于或等于预设阈值的至少一个音频信号的索引,从音频信号中检测语音部分,基于关于产生与功率比大于或等于预设阈值的至少一个音频信号对应的声音的声源的方向信息,对语音部分中的至少一个音频信号执行信号处理,以及根据经信号处理的音频信号执行语音识别,并将语音转换为文本。
可以使用以下各项中的至少一个,在检测到的语音部分中对所述至少一个音频信号执行所述信号处理:包括线性约束最小方差(LCMA)和最小方差无失真响应(MVDR)中的至少一个的波束形成方案、几何源分离(GSS)方案以及盲源提取(BSE)方案。
一种用于存储在记录介质中并与电子设备结合以执行以下步骤的计算机程序:通过多个麦克风接收从声源产生的声音;根据通过对通过多个麦克风输入的每个声音执行信号处理而产生的多个音频信号计算功率值,基于计算出的功率值计算关于声源的方向信息,并存储计算出的方向信息;以及基于关于声源的方向信息来对包括在音频信号中的语音部分执行语音识别。
根据本公开的一个方面,一种非暂时性计算机可读储存器存储一种方法,该方法包括:经由多个麦克风接收从声源产生的声音;计算通过对经由多个麦克风输入的每个声音执行信号处理所产生的多个音频信号的功率值,并且基于功率值来计算声源的方向信息并存储方向信息;以及基于声源的方向信息来对包括在音频信号中的语音部分执行语音识别。
根据本公开的一个方面,一种系统包括:声源;用于接收由声源产生的声音的多个麦克风;用于存储声源方向的存储器;以及计算机处理器,用于计算来自麦克风的音频信号的功率值,使用功率值来计算声源的方向,将方向存储在存储器中并且响应于该方向对音频信号的语音部分执行语音识别。
根据本公开的一个方面,一种系统包括:声源;用于接收由声源产生的声音的声音信号的麦克风阵列,麦克风具有不同位置和不同方向中的一个;以及计算机处理器,用于计算来自阵列麦克风的声音信号的功率值,使用功率值和相应的不同位置以及不同的方向性来声音信号中选择音频信号,并且在噪声环境中对音频信号的语音部分执行语音识别。
根据本公开的一个方面,一种方法包括:计算由接收来自声源的声音的麦克风产生的音频信号的功率值;基于功率值来计算声源的方向并存储方向,并且响应于方向的角度识别语音部分的端点;并且对语音部分执行语音识别。
有益效果
如上,根据本公开的各种示例性实施例,电子设备可以正确地从音频信号中仅检测语音部分,同时改善语音部分检测的处理速度。
附图说明
通过参照附图描述特定示例性实施例,上述和/或其他方面将更加明显,在附图中:
图1是示出了根据本公开的示例性实施例的电子设备执行语音识别的环境的示例图;
图2A是根据本公开的示例性实施例的用于识别语音的电子设备的示意性框图;
图2B是根据本公开的示例性实施例的用于识别语音的电子设备的详细框图;
图3是根据本公开的示例性实施例示出了在处理器中执行语音识别的配置的框图;
图4是根据本公开的示例性实施例的声源方向检测模块的详细框图;
图5A至图5C是根据本公开的示例性实施例的示出了从电子设备中的输入音频信号进行语音部分检测的示例图;
图6是示出了根据本公开的示例性实施例的根据电子设备中的输入音频信号跟踪声源方向的结果的示例图;
图7是根据本公开的示例性实施例的从电子设备提供的物联网服务的示例图;图8是根据本公开的示例性实施例的用于由电子设备执行语音识别的方法的流程图;
图9是根据本公开的示例性实施例的用于由电子设备存储关于被确定为语音部分的至少一个音频信号的声源的方向信息以及至少一个音频信号的索引的方法的第一流程图;以及
图10是根据本公开另一示例性实施例的用于由电子设备存储关于被确定为语音部分的至少一个音频信号的声源的方向信息以及被确定为语音部分的至少一个音频信号的索引的方法的第二流程图。
具体实施方式
现在将详细参考实施例,实施例的示例在附图中示出,其中在全文中相同的附图标记指代相同的元素。下面参照附图描述实施例。
在详细描述本公开之前,将描述本说明书和附图的描述方法。
首先,考虑到本公开的各种示例性实施例的功能,将本说明书和权利要求中使用的术语作为一般术语来选择。然而,这些术语可以根据本领域技术人员的意图、法律或技术分析、新技术的出现等而改变。此外,一些术语可以由本申请人任意选择。这些术语可以分析为本说明书中定义的含义,并且如果没有详细定义术语,则还可以基于本说明书的总体内容和本领域技术领域的一般技术知识来分析术语。
此外,在本说明书中所附的相应附图中描述的相同的附图标记或符号表示用于执行基本上相同的功能的部件或组件。为了便于解释和理解,将使用相似的附图标记或符号来描述其他示例性实施例。换句话说,即使具有相同附图标记的组件全部在多个附图中示出,但是该多个附图并不意味着示例性实施例。
此外,为了区分本说明书和权利要求中的组件,可以使用包括诸如“第一”、“第二”等的序数的术语。序数用于将相似或类似的组件彼此区分,并且术语的含义不应通过使用序数进行限制性分析。例如,与序数耦合的使用次序、位置次序等不应受数字限制。如有必要,相应的序数也可以互相替换使用。
在本说明书中,单数形式旨在包括复数形式,除非上下文另有明确指示。将进一步理解的是,在本说明书中使用的术语“包括”或“具有”指明了本说明书中提及的特征、数字、步骤、操作、组件、部件或其组合的存在,但并不排除一个或多个其他特征、数字、步骤、操作、组件、部件或其组合的存在或添加。
此外,在本公开的示例性实施例中,术语“模块”、“单元”、“部件”等是用于执行至少一个功能或操作的术语命名组件,并且这些组件可以被实现为硬件或软件或者通过硬件和软件的组合来实现。此外,多个“模块”、“单元”、“部件”等可以被集成为至少一个模块或芯片,以被实现为至少一个处理器(未示出),除了需要将“模块”、“单元”、“部件”等中的每一个实现为单独的特定硬件之外。
此外,在本公开的一个示例性实施例中,当任何部分连接到其他部分时,这包括方向连接和通过其他介质的间接连接。另外,除非另外明确地描述,否则任何部分包括任何组件的含义将被理解为暗示包含其他组件,但不排除任何其他组件。
在下文中,将参照附图详细地描述本公开的各种实施例。
图1是示出了根据本公开的示例性实施例的电子设备执行语音识别的环境的示例图。
如图1所示,用于识别语音的电子设备100(详细参见图2)从用户2的所发出的语音的语音信号中执行语音识别。用于识别语音的电子设备100可以是外部设备,例如房屋中的机器人1、TV 4和清洁器5或者可以控制诸如机器人1、TV 4和清洁器5的每个外围设备的终端设备3。
电子设备100可以通过安装在电子设备100中的多个麦克风接收用户2的所发出的语音的语音信号,或者从安装在房屋中的多个麦克风接收用户2的所发出的语音的语音信号。
同时,当在发出语音命令的情况下存在如TV 4的声音的从周围环境产生的噪声时,电子设备100可以通过多个麦克风接收从包括用户2的所发出的语音的语音信号的声源产生的声音和从周围环境产生的噪声的噪声信号。
当通过多个麦克风接收从声源产生的声音时,电子设备100对通过每个麦克风输入的每个声音执行信号处理。接下来,电子设备100计算多个经信号处理的音频信号的功率值,并且基于计算出的功率值来确定声源的方向。接下来,电子设备100通过从来自通过确定的声源方向输入的声音的经信号处理的音频数据中去除噪声信号并仅检测语音信号来执行语音识别。因此,电子设备100可以改善将噪声信号错误地识别为语音信号的问题。
同时,安装在电子设备100(参见图2)中或安装在房屋中的不同位置处的麦克风可以包括具有方向性的多个麦克风阵列,并且可以通过多个麦克风阵列在各个方向上接收从包括用户2的所发出的语音的语音信号的声源产生的声音。这样,当麦克风包括多个麦克风阵列时,安装在电子设备100中或安装在房屋中的麦克风可以具有单一配置。
图2A是根据本公开的示例性实施例的用于识别语音的电子设备100的示意性框图,以及图2B是根据本公开的示例性实施例的用于识别语音的电子设备的详细框图。
如图2A和图2B所示,电子设备100被配置为包括输入端110、存储器120和处理器130。
如图2B所示,输入端110包括多个麦克风111,并且通过多个麦克风111接收从声源产生的声音。
然而,本公开不限于此,并且当麦克风111被配置为一个时,相应的麦克风111可以通过多个麦克风阵列接收各个方向上的从声源产生的声音。这里,声源可以包括用户所发出的语音的语音信号和从周围环境产生的噪声的噪声信号。
存储器120存储声源的方向或方向信息。
处理器130对通过多个麦克风111输入的每个声音执行信号处理,并计算多个经信号处理的音频信号的功率值。接下来,处理器130基于计算出的功率值来计算关于声源的方向信息,并将关于计算出的声源的方向信息存储在存储器120中。接下来,处理器130基于关于声源的方向信息来对包括在音频信号中的语音部分执行语音识别。
具体而言,如果经信号处理的音频信号是从通过多个麦克风111输入的每个声音输入的,则处理器130从每个经信号处理的音频信号计算最大功率值和最小功率值。接下来,处理器130根据从每个音频信号计算出的最大功率值和最小功率值来计算功率比。接下来,处理器130将根据每个音频信号计算出的功率比与预设阈值进行比较,并根据与具有大于或等于预设阈值的功率比的至少一个音频信号相对应的声音来计算关于声源的方向信息。接下来,处理器130将关于具有大于或等于预设阈值的功率比的至少一个音频信号的索引和关于声源的计算出的方向信息存储在存储器120中。
这里,索引信息是关于音频信号的识别信息,并且根据本公开的示例性实施例,索引信息可以是关于输入音频信号的时间的信息。
接下来,处理器130基于关于存储在存储器120中的声源和索引的方向信息,从均与多个音频信号之中的用户所发出的语音的起点和终点对应的音频信号中检测语音部分,并且对检测到的语音部分执行语音识别。
详细地说,当通过多个麦克风111接收到从声源产生的声音时,处理器130对通过多个麦克风111输入的每个声音执行信号处理作为音频信号。接下来,处理器130可以按数量L对每个经信号处理的音频信号采样,然后按照帧单位产生L个采样音频信号。
接下来,处理器130根据多个音频信号中的每一个计算最大功率值和最小功率值,并且根据计算出的最大功率值和最小功率值计算功率比。这里,最大功率值和最小功率值可以是音频信号的信号强度值。因此,处理器130可以根据多个音频信号之中具有最大信号强度值的最大功率值和具有最小信号强度值的最小功率值来计算功率比。
接下来,处理器130将关于产生与多个音频信号之中的根据最大功率值和最小功率值计算出的功率比大于或等于预设阈值的至少一个音频信号相对应的声音的声源的方向信息以及功率比大于或等于预设阈值的至少一个音频信号的索引存储在存储器120中。
根据本公开的示例性实施例,当麦克风111的数目是N时,处理器130使用广义互相关相位变换(GCC-PHAT)算法来根据多个音频信号计算N*(N-1)/2个功率值。接下来,处理器130可以将计算出的N*(N-1)/2个功率值之中的最大值确定为最大功率值。
例如,当麦克风111的数目是二时,处理器130可以根据多个音频信号计算一个功率值。在这种情况下,处理器130可以将计算出的功率值确定为最大功率值。同时,当麦克风111的数目是三时,处理器130可以根据多个音频信号计算三个功率值,并将三个功率值之中的最大值确定为最大功率值。
同时,处理器130可以使用互相关函数(如下面的数学式1)来根据多个音频信号计算多个音频信号中的每一个的N*(N-1)/2个功率值和延迟值。这里,多个音频信号中的每一个的延迟值可以是关于根据多个麦克风111之间的距离将音频信号不同地输入到多个麦克风111中的每一个中的时间的信息。
【数学式1】
在上述数学式1中,i和j是从多个麦克风111输入的音频信号的索引,并且Xi(k)是从多个麦克风111之中的第一麦克风输入的第i音频信号的离散傅里叶变换(DFT)信号。此外,Xj(k)是从多个麦克风111中的第二麦克风输入的第j音频信号的离散傅里叶变换(DFT)信号。此外,()*表示复共轭,并且k表示离散频率的索引。
同时,根据本公开的示例性实施例,可以使用类似上面数学式1的互相关函数,以及用于增加解析能力的各种白化方法、用于对每个频率不同地分配加权的方法以及用于防止扩散的正则化方法中的一种可以以从上面的数学式1修改的形式使用。
同时,处理器130可以使用最小控制递归平均(MCRA)算法根据多个音频信号计算最小功率值。这里,广义互相关相位变换(GCC-PHAT)算法和最小控制递归平均(MCRA)算法是已知技术,因此将省略对本公开的详细描述。
因此,处理器130可以根据使用如上述数学式1的互相关函数计算出的功率值之中的具有最大值的最大功率值以及使用MCRA算法计算出的最小功率值来计算功率比。
同时,在根据最大功率值和最小功率值计算功率比之前,处理器130确定从先前的音频信号计算出的最小功率值是否被预先存储在存储器120中。作为确定结果,如果最小功率值未预先存储在存储器120中,则处理器130可以根据使用如上述数学式1的互相关函数计算出的功率值之中的具有最大值的最大功率值以及使用MCRA算法计算出的最小功率值来计算功率比。
同时,如果根据先前的音频信号计算出的最小功率值被预先存储在存储器120中,则处理器130将根据当前输入的多个音频信号计算出的最小功率值与预先存储的最小功率值进行比较,以选择具有相对较小大小的最小功率值。详细地说,如果预先存储的最小功率值的大小小于当前计算出的最小功率值的大小,则处理器130根据预先存储的最小功率值和根据当前输入的多个音频信号计算出的最大功率值来计算功率比。
同时,如果确定当前计算出的最小功率值的大小小于预先存储的最小功率值的大小,则处理器130将预先存储在存储器120中的最小功率值更新为根据当前输入的多个音频信号计算出的最小功率值。接下来,处理器130可以根据从当前输入的多个音频信号计算出的最大功率值和最小功率值来计算功率比。
同时,处理器130仅在输入与预先存储的第K个音频信号对应的声音之前执行最小功率值的更新。也就是说,如果输入了与预先存储的第K个音频信号对应的声音,则处理器130可以将根据第K个音频信号计算出的最小功率值重置为初始值,并将该初始值存储在存储器120中。
同时,如果输入与第K+1个音频信号相对应的声音,则处理器130根据从第K+1个音频信号计算出的最小功率值和最大功率值计算功率比。此外,处理器130将第K+1个音频信号的最小功率值与被重置为初始值的第K个音频信号的最小功率值进行比较。作为比较结果,如果确定第K+1个音频信号的最小功率值较小,则处理器130将预先存储在存储器120中的最小功率值更新为第K+1个音频信号的最小功率值,而如果确定第K+1个音频信号的最小功率值较大,则处理器130保持预先存储在存储器120中的最小功率值。
同时,如果通过上述执行操作根据多个音频信号计算功率比,则处理器130将每个功率比与预设阈值进行比较,以将关于产生与具有大于或等于预设阈值的功率比的至少一个音频信号对应的声音的声源的方向信息以及具有大于或等于预设阈值的功率比的至少一个音频信号的索引存储在存储器120中。因此,如果关于产生与至少一个音频信号的声音对应的声源的方向信息和索引被存储在存储器120中,则处理器130可以基于存储在存储器120中的关于声源的方向信息来确定包括在音频信号中的语音部分的起点和终点。根据本公开的示例性实施例,当关于多个声源的方向信息被存储在存储器120中时,如果关于多个声源的至少两个方向信息包括在预设误差范围中,或者至少两个方向信息的误差范围小于预设阈值,则处理器130可以将与至少两个方向信息相对应的每个音频信号确定为起点和终点的音频信号。
这里,方向信息是产生与多个音频信号对应的声音的声源的声音方向与多个麦克风111之间的角度信息。因此,处理器130可以根据由上述数学式1计算出的延迟值计算作为产生与多个音频信号相对应的声音的声源的方向信息的角度信息,并且存储器120可以存储关于计算功率比大于或等于预设阈值的多个音频信号的角度信息以及相应音频信号的索引。
因此,处理器130可以确定关于预先存储在存储器120中的多个音频信号中的每一个的每个角度信息是否属于预设误差范围,以获取包括在预设误差范围中的角度信息。如果获取了包括在预设误差范围中的至少两个角度信息,则处理器130将与获取的角度信息相对应的音频信号确定为静态声源的语音信号。
同时,如果关于多个预先存储的音频信号之中的第一音频信号和第二音频信号中的每一个的角度信息的差不属于预设误差范围,则处理器130将关于第一音频信号和第二音频信号中的每一个的角度信息的差值与预设阈值进行比较。作为比较结果,如果关于第一音频信号和第二音频信号中的每一个的角度信息的差值小于预设阈值,则处理器130将第一音频信号和第二音频信号确定为动态声源的语音信号。
如果通过各种分析确定了预先存储在存储器120中的多个音频信号中的至少两个是语音信号,则处理器130可以将被确定为语音信号的至少两个音频信号中的每一个确定为起点和终点的音频信号。
如果至少两个音频信号被确定为起点和终点的音频信号,则处理器130可以基于被确定为起点和终点的音频信号的索引来检测语音部分。如果检测到语音部分,则处理器130基于关于被确定为起点和终点的音频信号的声源的方向信息来对包括在语音部分中的音频信号执行信号处理。
详细地,处理器130可以执行信号处理以基于关于包括在语音部分中的音频信号中的被确定为起点和终点的音频信号的声源的方向信息来放大从相应的方向输入的声音的经信号处理的音频信号,并衰减其余方向上的音频信号。
根据本公开的示例性实施例,处理器130可以执行信号处理,以从先前检测到的语音部分中的音频信号中放大与关于被确定为起点和终点的音频信号的声源的方向信息相对应的方向上放大音频信号,并且通过以下中的至少一个来衰减其余方向上的音频信号:包括线性约束最小方差(LCMA)和最小方差无失真响应(MVDR)中的至少一个的波束形成方案、几何源分离(GSS)方案和盲源提取(BSE)方案。
接下来,处理器130从经信号处理的语音部分中的音频信号执行语音识别,并将其转换为文本。根据本公开的示例性实施例,处理器130可以使用语音到文本(STT)算法从经信号处理的语音部分中的音频信号执行语音识别,并将其转换为文本形式。
同时,如图2A和图2B所示,前述输入端110可以包括多个麦克风111、操纵器113、触摸输入端115和用户输入端117。多个麦克风111将用户发出的语音或从其他生活环境中产生的音频信号输出到处理器130。
操纵器113可以被实现为包括各种功能键、数字键、特殊键、字符键等的键盘,并且当下面要描述的显示器191以触摸屏形式实现时,触摸输入端115可以被实现为与显示器130具有相互层结构的触摸板。在这种情况下,触摸输入端115可以接收通过将在下面描述的显示器191显示的图标的触摸命令。
用户输入端117可以从至少一个外围设备(未示出)接收IR信号或RF信号。因此,前述处理器130可以基于通过用户输入端117输入的IR信号或RF信号来控制电子设备100的操作。这里,IR信号或RF信号可以是用于控制电子设备100的操作的控制信号或语音信号。
同时,根据本公开的示例性实施例的电子设备100还可以包括除了上述输入端110、存储器120和处理器130之外的各种组件。
根据本公开的示例性实施例,当电子设备100被实现为诸如智能电话和智能TV的显示设备时,如图2A和图2B所示,电子设备100还可以包括通信器140、语音处理器150、拍摄器160、传感器170、信号处理器180和输出端190。
通信器140与至少一个外围设备(未示出)执行数据通信。根据本公开的示例性实施例,通信器140可以将用户所发出的语音的语音信号发送到语音识别服务器(未示出),并接收以从语音识别服务器(未示出)识别的文本形式的语音识别结果。根据本公开的另一示例性实施例,通信器140可以与网络服务器(未示出)执行数据通信,以接收与用户命令或内容相关的搜索结果对应的内容。
如图2A和图2B所示,通信器140可以包括短程通信模块141、诸如无线LAN模块的无线通信模块143以及包括有线通信模块中的至少一个的连接器145,有线通信模块例如高清多媒体接口(HDMIsh)、通用串行总线(USB)、电气和电子工程师协会(IEEE)1394。
短程通信模块141被配置为在便携式终端设备(未示出)与电子设备100之间无线地执行短程通信。这里,短程通信模块141可以包括蓝牙模块、红外数据关联(IrDA)模块、近场通信(NFC)模块、WIFI模块和Zigbee模块中的至少一个。
此外,无线通信模块143是根据诸如IEEE的无线通信协议连接到外部网络以执行通信的模块。另外,无线通信模块还可以包括;移动通信模块,其根据诸如第三代(3G)、第三代合作伙伴计划(3GPP)和长期演进(LTE)等的各种移动通信标准连接到移动通信网络以执行通信。
如此,通信器140可以通过上述各种短程通信方案来实现,并且可以根据需要采用本说明书中未提及的其他通信技术。
同时,连接器145被配置为提供与诸如USB 2.0、USB 3.0、HDMI和IEEE 1394的各种源设备的接口。根据下面将描述的处理器130的控制命令,连接器145可以通过连接到连接器145的有线线缆接收从外部服务器(未示出)发送的内容数据,或者可以将预先存储的内容数据发送到外部记录介质中。此外,连接器145可以通过物理连接到连接器145的有线电缆从电源接收电力。
语音处理器150被配置为对通过多个麦克风111输入的音频信号中由用户发出的语音部分执行语音识别。详细地讲,根据处理器130的控制命令,语音处理器150执行预处理过程:当从输入音频信号检测到语音部分时,放大包括在检测到的语音部分中的多个音频信号,并且衰减作为噪声信号的其余音频信号。接下来,语音处理器150可以针对音频信号被放大的语音部分使用语音识别算法(如STT算法)来对用户所发出的语音执行语音识别。
拍摄器160根据用户命令拍摄静止图像或运动图像,并且可以那样实现为复数,如前置相机和后置相机。
传感器170感测电子设备100的各种操作状态和用户交互。特别地,传感器170可以感测用户握持电子设备100的握持状态。详细地说,电子设备100可以在各个方向上旋转或倾斜。在这种情况下,传感器170可以使用诸如地磁传感器、陀螺仪传感器和加速器传感器之类的各种传感器中的至少一个,以基于旋转运动或重力方向来感测由用户握持的电子设备100的梯度等。
信号处理器180可以被配置为处理通过通信器140接收的内容以及存储在存储器120中的内容的图像数据和音频数据。详细地,信号处理器180可以对包括在内容中的图像数据执行各种图像处理诸如解码、缩放、噪声滤波、帧率转换和分辨率转换。此外,信号处理器180可以对包括在内容中的音频数据执行诸如解码、放大和噪声滤波的各种音频信号处理。
输出端190通过信号处理器180输出经信号处理的内容。输出端190可以通过显示器191和音频输出端192中的至少一个输出内容。也就是说,显示器191可以显示作为由信号处理器180处理的图像的图像数据,并且音频输出端192可以以听得见的声音形式输出作为经受音频信号处理的音频数据。
同时,显示图像数据的显示器191可以被实现为液晶显示器(LCD)、有机发光显示器(OLED)、等离子显示面板(PDP)等。具体地,显示器191可以以触摸屏形式实现,其中它与触摸输入端115形成相互层结构。
同时,前述处理器130可以包括可以经由总线137彼此连接的CPU 131、ROM 132、RAM 133和GPU 135。
CPU 131访问存储器120以使用存储在存储器120中的O/S来执行引导。此外,CPU131使用存储在存储器120中的各种程序、内容、数据等来执行各种操作。
用于系统引导的一组命令等存储在ROM 132中。当接通命令被输入并由此供电时,CPU 131根据存储在ROM 132中的命令将存储在存储器120中的O/S复制到RAM 33,并执行O/S以引导系统。如果引导完成,则CPU 131将存储在存储器120中的各种程序复制到RAM 133,并执行复制到RAM 133的程序以执行各种操作。
GPU 135产生包括诸如图标、图像、文本等的各种对象的显示屏。具体而言,GPU135根据接收到的控制命令基于屏幕的布局来计算属性值诸如各个对象将被显示的坐标值、对象的形状、大小和颜色,并且基于计算出的属性值产生具有包括对象的各种布局的显示屏。
处理器130可以通过与诸如上面描述的输入端110、通信器140和传感器170的各种组件结合而被实现为片上系统(SOC)或片上系统(Soc)。
同时,处理器130的操作可以通过存储在存储器120中的程序来执行。这里,存储器120可以被实现为可以从ROM 132、RAM 133或电子设备100分离和附接的存储卡(例如,SD卡、存储棒)、非易失性存储器、易失性存储器、硬盘驱动器(HDD)和固态驱动器(SSD)。
同时,如上所述,从多个音频信号中检测语音部分的处理器130可以使用存储在存储器120中的程序模块来从多个音频信号中检测语音部分,如图3所示。
图3是示出了根据本公开的示例性实施例的在处理器中执行语音识别的配置的框图。
如图3所示,处理器130可以包括声源方向检测模块121、声源方向记录器12、端点检测模块123、语音信号处理模块124和语音识别模块125。
如果从通过多个麦克风111-1和111-2或者包括多个麦克风阵列的麦克风111输入的声音输入多个经信号处理的音频信号,则声源方向检测模块121可以根据多个音频信号中的每一个计算最大功率值和最小功率值,并且基于计算出的最大功率值和最小功率值来获取关于产生与多个音频信号中的每一个相对应的声音的声源的方向信息以及多个音频信号的索引。
图4是根据本公开的示例性实施例的声源方向检测模块的详细框图。
如图4所示,声源方向检测模块121包括声源方向计算模块121-1和语音部分检测模块121-2。
声源方向计算模块121-1基于互相关函数根据通过多个麦克风111-1和111-2输入的音频信号来针对多个音频信号中的每一个计算N*(N-1)/2个功率值和延迟值。
语音部分检测模块121-2从声源方向计算模块121-1获取计算出的功率值之中的最大功率值和与最大功率值对应的延迟值。接下来,语音部分检测模块121-2使用MCRA算法来根据多个音频信号计算最小功率值。这里,最大功率值和最小功率值可以是音频信号的信号强度值。
如果计算最小功率值,则语音部分检测模块121-2将计算出的最小功率值与预先存储的最小功率值进行比较,以选择具有较小大小的最小功率值,并根据从多个音频信号计算出的最大功率值和所选最小功率值计算功率比。接下来,语音部分检测模块121-2将根据最大功率值和最小功率值计算出的功率比与预设阈值进行比较,以检测具有大于或等于预设阈值的功率比的音频信号,并且语音部分检测模块121-2从检测到的音频信号输出关于音频信号的声源的方向信息和音频信号的索引。
因此,声源方向记录器122可以将通过语音部分检测模块121-2输出的关于音频信号的声源的方向信息和音频信号的索引记录在存储器120中。
如果通过执行操作序列将关于多个音频信号中的至少一个的声源的方向信息和多个音频信号中的至少一个的索引记录在存储器120中,则端点检测模块123可以基于记录在存储器120中的关于声源的方向信息来确定包括在音频信号中的语音部分的起点和终点。如上所述,记录在存储器120中的关于声源的方向信息可以是产生与多个音频信号中的每一个对应的声音的声源的声音方向和多个麦克风111-1和111-2之间的角度信息。
因此,端点检测模块123确定关于预先存储在存储器120中的多个音频信号中的每一个的角度信息是否被包括在预设误差范围中,并且如果获取了包括在预设误差范围中的至少两个角度信息,则端点检测模块123将与获取的角度信息对应的音频信号确定为来自静态声源的语音信号。
同时,如果多个预先存储的音频信号之中的第一音频信号和第二音频信号中的每一个的角度信息的差不包括在预设误差范围中,则端点检测模块123可以取决于第一音频信号和第二音频信号中的每一个的角度信息的差值是否小于预设阈值来确定第一音频信号和第二音频信号作为来自动态声源的语音信号。
如果通过各种分析确定了预先存储在存储器120中的多个音频信号中的至少两个是语音信号,则端点检测模块123可以将被确定为语音信号的至少两个音频信号中的每一个确定为起点和终点的音频信号。
如果确定了起点和终点的音频信号,则语音信号处理模块124基于被确定为起点和终点的音频信号的索引来检测语音部分。接下来,语音信号处理模块124执行信号处理以放大与关于被确定为起点和终点的音频信号的声源的方向信息相对应的方向上的音频信号,并且衰减在其余方向上的音频信号。因此,语音识别模块125可以从由语音信号处理模块124进行信号处理的语音部分中的音频信号执行语音识别,以将用户所发出的语音的语音信号转换为文本。
这样,根据本公开的示例性实施例的电子设备100可以基于从多个音频信号计算出的功率比,将具有大于或等于预设阈值的功率比的部分检测为语音部分,从而即使在存在很多噪声的环境下,也准确地检测出用户所发出的语音的语音部分。此外,根据本公开的示例性实施例的电子设备100仅在检测到的语音部分中执行语音识别,由此使执行语音识别所需的计算比以前更小。
图5A至图5C是根据本公开的示例性实施例的示出了从电子设备中的输入音频信号进行语音部分检测的示例图。
如图5A所示,可以通过多个麦克风111接收包括语音信号的声音。这里,部分A 410至部分F 460可以是包括语音信号的语音部分,而其余部分可以是包括噪声信号的噪声部分。
详细地说,如果从多个麦克风111输入从声源产生的声音,则电子设备100对每个输入声音执行信号处理。接下来,电子设备100根据经信号处理的多个音频信号中的每一个计算最大功率值和最小功率值,并且从计算出的最大功率值和最小功率值计算功率比。
如图5B所示,与部分A 410至部分F 460对应的部分A'411至部分F’461的功率比可以大于或等于预设阈值470。因此,电子设备100可以检测具有大于或等于预设阈值470的功率比的部分A'411至部分F'461作为语音部分。
同时,如图5C所示,与作为语音部分的部分A'411至部分F'461对应的部分A"413至部分F"463的每个音频信号的角度存在于预设误差范围内,并且其他部分的角度可以存在于预设误差范围之外。在这种情况下,如图6所示,电子设备100可以仅放大具有大于或等于预设阈值470的功率比的部分A'411至部分F'461的语音部分中的音频信号之中的与误差范围内存在的角度对应的方向上的音频信号。
图6是示出了根据本公开的示例性实施例的根据电子设备中的输入音频信号跟踪声源方向的结果的示例图。
参考图5,可以从通过多个麦克风111输入的音频信号中检测语音部分。
如果从音频信号中检测到语音部分,则电子设备100可以执行信号处理,以放大从音频信号检测到的语音部分中的音频信号之中的特定方向上的音频信号,并衰减其余方向上的音频信号。
详细而言,电子设备100基于关于具有大于或等于预设阈值的功率比的多个音频信号中被确定为起点和终点的至少两个音频信号的声源的角度信息,放大在先前检测到的语音部分中的音频信号中与对应的角度信息相对应的方向上的音频信号。此外,电子设备100衰减先前检测到的语音部分中的音频信号中与对应的角度信息对应的方向上的音频信号之外的在其余方向上的音频信号。
因此,如图6所示,电子设备100可以放大与被检测为语音部分的部分A 410至部分F 460对应的语音处理部分510至560中的音频信号,并衰减其余部分中的音频信号。
同时,根据本公开的示例性实施例的电子设备100可以基于前述示例性实施例来提供各种物联网服务。
图7是根据本公开的示例性实施例的从电子设备提供的物联网服务的示例图。
如图7所示,电子设备100可以从用户所发出的语音的语音信号执行语音识别,并基于识别出的语音命令来控制房屋中的家用电器诸如第一TV 10和第二TV 10’、空调20、冰箱30和洗衣机40。
例如,用户可以在他/她自己的房间中发出语音命令“打开TV!”。如果发出了用户的语音命令,则电子设备100通过多个麦克风接收从包括与用户的语音命令相对应的语音信号的声源产生的声音,并对每个输入声音执行信号处理。
接下来,电子设备100基于如上所述的执行操作序列来获知发出用户的语音命令的方向。接下来,电子设备100基于每个家用电器上的预先存储的方向信息来识别与发出用户的语音命令的方向相关的家用电器。
具体而言,电子设备100可以分别存储与第一TV 10和第二TV 10’、空调20、冰箱30和洗衣机40相对应的识别信息以及关于每个家用电器的方向信息。因此,电子设备100可以将发出用户的语音命令的方向与关于每个家用电器的预先存储的方向信息相比较,以检测用户的语音命令被发出的方向以及存在于预设范围内的家用电器。
如上例,第一TV 10位于起居室中,并且第二TV 10'可以位于用户当前所在的房间中。此外,存在于发出用户的语音命令的方向上且在预设范围内的家用电器可以是第二TV10'。在这种情况下,电子设备100可以基于用户的语音命令将开机控制信号发送至第一TV10和第二TV10'中用户当前所在的房间中的第二TV 10’。
因此,第二TV 10'可以基于从电子设备100接收到的开机控制信号来执行开机操作,以通过存在于用户当前所在的房间中的第二TV 10'来观看广播。
在下文中,将详细描述根据本公开的示例性实施例的用于由电子设备100执行语音识别的方法。
图8是根据本公开的示例性实施例的用于由电子设备执行语音识别的方法的流程图。
参照图8,如果从声源产生的声音通过多个麦克风输入,则电子设备100对每个输入声音执行信号处理,以产生多个经信号处理的音频信号(S710)。详细地说,如果从声源产生的声音通过多个麦克风输入,则电子设备100对每个输入声音执行信号处理,以产生多个经信号处理的音频信号。接下来,电子设备100可以按数量L对每个经信号处理的音频信号采样,然后按照帧单位产生L个采样音频信号。如果产生了多个音频信号或当产生了多个音频信号时,电子设备100根据多个音频信号中的每一个计算功率值(S720)。接下来,电子设备100基于从多个音频信号计算出的功率值,存储关于产生与多个音频信号中的至少一个相对应的声音的声源的方向信息和至少一个音频信号的索引(S730)。
接下来,电子设备100基于关于预先存储的声源的方向信息来确定包括在所有音频信号中的语音部分的起点和终点(S740)。
根据本公开的示例性实施例,当关于多个声源中的每一个的方向信息存储在存储器120中时,如果多个方向信息之中的至少两个方向信息被包括在预设误差范围中或者至少两个方向信息的误差范围小于预设阈值,则电子设备100可以将与至少两个方向信息相对应的音频信号中的每一个确定为起点和终点的音频信号。
接下来,电子设备100基于与起点和终点对应的音频信号的索引从所有音频信号中检测语音部分,并且对检测到的语音部分执行语音识别(S750)。
具体而言,电子设备100可以基于与起点和终点对应的音频信号的索引来检测包括所有音频信号之中的语音信号的语音部分。接下来,电子设备100执行预处理过程:放大包括在语音部分中的多个音频信号,并且衰减作为噪声信号的其余音频信号。
根据本公开的示例性实施例,电子设备100可以执行信号处理,以从先前检测到的语音部分中的音频信号中放大与关于被确定为起点和终点的音频信号的声源的方向信息相对应的方向上放大音频信号,并且通过以下中的至少一个来衰减其余方向上的音频信号:包括线性约束最小方差(LCMA)和最小方差无失真响应(MVDR)中的至少一个的波束形成方案、几何源分离(GSS)方案和盲源提取(BSE)方案。
接下来,电子设备100可以针对音频信号被放大的语音部分使用语音识别算法(如STT算法)来对用户所发出的语音执行语音识别。
在下文中,将详细描述针,对电子设备100从音频信号中检测语音部分的起点和终点的音频信号,提供了一种用于存储关于作为语音部分检测到的至少一个音频信号的声源的方向信息以及至少一个音频信号的索引的方法。
图9是根据本公开的示例性实施例的用于由电子设备存储关于被确定为语音部分的至少一个音频信号的声源的方向信息以及至少一个音频信号的索引的方法的第一流程图。
如图9所示,如果根据从多个麦克风输入的声音产生多个经信号处理的音频信号,则电子设备100从根据多个音频信号中的每一个计算最大功率值和最小功率值(S810)。接下来,电子设备100根据计算出的最大功率值和最小功率值计算功率比(S820)。接下来,电子设备100确定多个音频信号中计算出的功率比大于或等于预设阈值的至少一个音频信号,并存储关于所确定的至少一个音频信号的声源的方向信息和至少一个音频信号的索引(S830和S840)。
详细地,当麦克风的数目是N时,电子设备100使用广义互相关相位变换(GCC-PHAT)算法来根据多个音频信号计算N*(N-1)/2个功率值。接下来,电子设备100可以将计算出的N*(N-1)/2个功率值之中的最大值确定为最大功率值。
根据本公开的示例性实施例,电子设备100可以使用互相关函数如上面的数学式1来根据多个音频信号计算N*(N-1)/2个功率值以及多个音频信号中的每一个的延迟值。这里,多个音频信号中的每一个的延迟值可以是关于根据多个麦克风之间的距离将音频信号不同地输入到多个麦克风中的每一个中的时间的信息。因此,电子设备100可以根据多个帧中的每一个的延迟值来计算关于多个音频信号的声源的方向信息。
这里,方向信息是多个音频信号的声源的声音方向与多个麦克风111之间的角度信息。因此,电子设备100可以根据从上述数学式1计算出的延迟值来计算关于多个音频信号的声源的方向信息的角度信息。
同时,电子设备100可以使用最小控制递归平均(MCRA)算法根据多个音频信号计算最小功率值。因此,电子设备100可以根据使用如上述数学式1的互相关函数计算出的功率值之中的具有最大值的最大功率值以及使用MCRA算法计算出的最小功率值来计算功率比。如果计算了功率比,则在多个音频信号中,电子设备100可以存储关于通过将先前计算的功率比与预设阈值进行比较而具有大于或等于预设阈值的功率比的至少一个音频信号的声源的方向信息以及至少一个音频信号的索引。
同时,电子设备100可以使用最小控制递归平均(MCRA)算法来存储最小功率值。因此,如果最小功率值被存储并且然后音频信号被输入,则电子设备100可以将根据输入音频信号计算出的最小功率值与预先存储的最小功率值进行比较,以基于两个最小功率值的较低值来计算功率比。
在下文中,将详细描述一种用于由电子设备100存储关于被确定为语音部分的至少一个音频信号的声源的方向信息以及在预先存储最小功率值的状态下被确定为语音部分的至少一个音频信号的索引的方法。
图10是根据本公开另一示例性实施例的用于由电子设备存储关于被确定为语音部分的至少一个音频信号的声源的方向信息和被确定为语音部分的至少一个音频信号的索引的方法的第二流程图。
如图10所示,如果从通过多个麦克风输入的声音产生多个经信号处理的音频信号,则电子设备100确定多个音频信号是否是预定义的第K个音频信号(S910)。作为确定结果,如果多个音频信号不是预定义的第K个音频信号,则电子设备100根据多个音频信号计算最大功率值和最小功率值,并将计算出的最小功率值与预先存储在存储器中的先前最小功率值进行比较,如参照图9所述(S920)。作为比较结果,如果当前计算出的最小功率值小于预先存储在存储器中的最小功率值,则电子设备100将预先存储在存储器中的最小功率值更新为根据多个音频信号计算出的最小功率值(S930)。
接下来,电子设备100根据先前计算出的最大功率值和最小功率值计算功率比和方向信息(S940)。已经参照图9详细描述了用于根据多个音频信号计算功率比和方向信息的方法,因此将省略其详细描述。
同时,作为上述步骤S920中的比较结果,如果预先存储的先前最小功率值小于计算出的最小功率值,则电子设备100将先前的最小功率值确定为用于计算功率比的值(S950)。接下来,基于上述步骤S940,电子设备100可以根据从多个音频信号计算出的最大功率值和预先存储在存储器中的先前的最小功率值来计算功率比和方向信息。
这样,如果根据多个音频信号计算功率比,则在多个音频信号中,电子设备100可以存储关于通过将计算出的功率比与预设阈值相比较而具有大于或等于预设阈值的至少一个音频信号的声源的方向信息以及具有大于或等于预设阈值的功率比的至少一个音频信号的索引(S960和S970)。
同时,如果多个音频信号是上述步骤S910中的预定义的第K个音频信号,则电子设备100将根据第K个音频信号计算出的最小功率值重置为初始值并将该初始值存储在存储器中(S980),然后执行上述步骤S940至S970的操作。这样,如果关于至少一个音频信号的声源的方向信息和至少一个音频信号的索引被存储在存储器中,如图8所示,则在电子设备100中,可以基于预先存储在存储器中的关于多个音频信号的声源的方向信息来确定包括在所有音频信号中的语音部分的起点和终点,并且可以基于关于与确定的起点和终点相对应的音频信号的索引信息来检测包括在所有音频信号中的语音部分。
接下来,电子设备100可以执行预处理过程算法:放大包括在语音部分中的多个音频信号并衰减作为噪声信号的其余音频信号,然后使用语音识别算法如STT算法来在音频信号被放大的语音部分中对用户所发出的语音执行语音识别。同时,优选地,根据本公开的示例性实施例的电子设备100如上所述地重复执行图8至图10的每个步骤,直到产生诸如语音识别模式的断电和去激活的事件。
同时,根据本公开的示例性实施例的用于由电子设备100识别语音的方法可以由用于如上所述地执行语音识别的至少一个执行程序来实现,其中执行程序可以被存储在非暂时性计算机可读介质或储存器中。
如本文可以使用的非暂时性计算机可读介质不是短时间存储有数据的介质诸如寄存器、高速缓存、存储器等,而是指半永久地存储有数据且能够被设备读取的介质。详细地说,前述程序可以存储在可由终端读取的各种类型的记录介质,诸如随机存取存储器(RAM)、闪存、只读存储器(ROM)、可擦除可编程ROM(EPROM)、电子可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移动磁盘、存储卡、通用串行总线(USB)存储器、致密盘(CD)ROM等。
以上,已经参考本公开的示例性实施例描述了本公开。
以上,示出并描述了本公开的示例性实施例,但是本公开不限于上述具体示例性实施例,并且因此显而易见的是,在不脱离本发明的在所附权利要求中描述的精神的情况下,本领域技术人员可以做出各种修改,并且这些各种修改不应该根据本公开的技术构思或前景单独解释。
虽然已经示出和描述了几个实施例,但是本领域技术人员应当认识到,在不脱离本发明的原理和精神的情况下,可以对这些实施例进行改变,并且本发明的保护范围被限定在权利要求及其等同物中。
Claims (9)
1.一种用于由电子设备识别语音的方法,包括:
通过多个麦克风接收从声源产生的多个音频信号;
基于所述多个音频信号中的每一个的功率值,获得功率比;
获得关于所述多个音频信号之中的第一音频信号和第二音频信号中的每一个的声源的第一角度信息和第二角度信息;
基于所述第一角度信息和所述第二角度信息之间的差异信息以及获得的功率比,标识语音部分;
处理所标识的语音部分中包含的音频信号;以及
控制所述电子设备执行与所述语音部分的结果相对应的功能,
其中,所述标识语音部分包括:基于所述第一角度信息与所述第二角度信息之差小于阈值,从所述第一音频信号和所述第二音频信号中分别标识所述语音部分的起点和终点。
2.根据权利要求1所述的方法,其中,所述获得功率比包括:
基于所述多个音频信号中的每一个的最大功率值和最小功率值,获得所述功率比,并且
其中,所述方法还包括:当预先存储了根据先前的音频信号计算出的最小功率值时,将根据所述多个音频信号计算的最小功率值与预先存储的最小功率值进行比较,以将具有较小大小的所确定的功率值确定为所述多个音频信号的最小功率值。
3.根据权利要求2所述的方法,其中,所述存储还包括:
当输入预定义的第K个音频信号时,将根据第K个音频信号计算出的最小功率值重置为初始值。
4.根据权利要求2所述的方法,其中,在计算所述最大功率值和所述最小功率值中,当所述麦克风的数目为N时,使用广义互相关相位变换(GCC-PHAT)算法来根据所述多个音频信号计算N*(N-1)/2个功率值,将所述N*(N-1)/2个功率值中的最大值确定为所述最大功率值,并且
使用最小控制递归平均(MCRA)算法来根据所述多个音频信号计算所述最小功率值。
5.根据权利要求4所述的方法,其中,所述第一角度信息和所述第二角度信息是产生与所述第一音频信号和所述第二音频信号中的每一个相对应的声音的声源的声音方向与所述多个麦克风之间的角度信息,并且
在获得所述最大功率值和所述最小功率值中,关于所述声源的角度信息是根据与所述最大功率值对应的延迟值计算的。
6.根据权利要求1所述的方法,其中,处理所述音频信号包括:使用以下各项中的至少一个在检测到的语音部分中对所述至少一个音频信号进行处理:包括线性约束最小方差(LCMA)和最小方差无失真响应(MVDR)中的至少一个的波束形成方案、几何源分离(GSS)方案以及盲源提取(BSE)方案。
7.一种电子设备,包括:
存储器;
输入端,通过多个麦克风接收从声源产生的多个音频信号;以及
处理器,被配置为:
基于接收到所述多个音频信号,基于所述多个音频信号中的每一个的功率值,获得功率比;
获得关于所述多个音频信号之中的第一音频信号和第二音频信号中的每一个的声源的第一角度信息和第二角度信息,并将所述声源的所述第一角度信息和所述第二角度信息存储在所述存储器中;
基于所述第一角度信息和所述第二角度信息之间的差异信息以及获得的功率比,标识语音部分;
处理所标识的语音部分中包含的音频信号;
对经处理的语音部分执行语音识别;以及
控制所述电子设备执行与所述语音部分的结果相对应的功能,
基于所述第一角度信息与所述第二角度信息之差小于阈值,从所述第一音频信号和所述第二音频信号中分别标识所述语音部分的起点和终点。
8.根据权利要求7所述的电子设备,其中,所述处理器基于所述多个音频信号中的每一个的最大功率值和最小功率值,获得所述功率比,以及当在所述存储器中预先存储了根据先前的音频信号计算出的最小功率值时将从所述多个音频信号获得的最小功率值与预先存储的最小功率值进行比较,以将具有较小大小的所确定的功率值确定为所述多个音频信号的最小功率值。
9.根据权利要求8所述的电子设备,其中,所述处理器当输入预定义的第K个音频信号时将根据第K个音频信号计算出的最小功率值重置为初始值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150153033A KR102444061B1 (ko) | 2015-11-02 | 2015-11-02 | 음성 인식이 가능한 전자 장치 및 방법 |
KR10-2015-0153033 | 2015-11-02 | ||
PCT/KR2016/012427 WO2017078361A1 (en) | 2015-11-02 | 2016-11-01 | Electronic device and method for recognizing speech |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108352159A CN108352159A (zh) | 2018-07-31 |
CN108352159B true CN108352159B (zh) | 2023-05-30 |
Family
ID=58635659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680063709.3A Active CN108352159B (zh) | 2015-11-02 | 2016-11-01 | 用于识别语音的电子设备和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10540995B2 (zh) |
KR (1) | KR102444061B1 (zh) |
CN (1) | CN108352159B (zh) |
WO (1) | WO2017078361A1 (zh) |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9842428B2 (en) * | 2014-06-27 | 2017-12-12 | Samsung Electronics Co., Ltd. | Dynamically optimized deferred rendering pipeline |
US10142754B2 (en) | 2016-02-22 | 2018-11-27 | Sonos, Inc. | Sensor on moving component of transducer |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US9693164B1 (en) | 2016-08-05 | 2017-06-27 | Sonos, Inc. | Determining direction of networked microphone device relative to audio playback device |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9794720B1 (en) | 2016-09-22 | 2017-10-17 | Sonos, Inc. | Acoustic position measurement |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
CN106782585B (zh) * | 2017-01-26 | 2020-03-20 | 芋头科技(杭州)有限公司 | 一种基于麦克风阵列的拾音方法及系统 |
US11276395B1 (en) * | 2017-03-10 | 2022-03-15 | Amazon Technologies, Inc. | Voice-based parameter assignment for voice-capturing devices |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
KR102395013B1 (ko) * | 2017-09-05 | 2022-05-04 | 엘지전자 주식회사 | 인공지능 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN107742522B (zh) * | 2017-10-23 | 2022-01-14 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
KR102469753B1 (ko) * | 2017-11-30 | 2022-11-22 | 삼성전자주식회사 | 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11150869B2 (en) * | 2018-02-14 | 2021-10-19 | International Business Machines Corporation | Voice command filtering |
KR102087307B1 (ko) * | 2018-03-15 | 2020-03-10 | 한양대학교 산학협력단 | 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치 |
US11238856B2 (en) | 2018-05-01 | 2022-02-01 | International Business Machines Corporation | Ignoring trigger words in streamed media content |
US11200890B2 (en) | 2018-05-01 | 2021-12-14 | International Business Machines Corporation | Distinguishing voice commands |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
CN110505547B (zh) * | 2018-05-17 | 2021-03-19 | 深圳瑞利声学技术股份有限公司 | 一种耳机佩戴状态检测方法及耳机 |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
CN108766457B (zh) | 2018-05-30 | 2020-09-18 | 北京小米移动软件有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
KR102477099B1 (ko) | 2018-08-21 | 2022-12-13 | 삼성전자주식회사 | 소리 방향 탐지 센서 및 이를 포함하는 전자 장치 |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
CN109256153B (zh) * | 2018-08-29 | 2021-03-02 | 云知声智能科技股份有限公司 | 一种声源定位方法及系统 |
CN112654960A (zh) * | 2018-09-13 | 2021-04-13 | 阿里巴巴集团控股有限公司 | 人机语音交互装置及其操作方法 |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
KR20200074680A (ko) * | 2018-12-17 | 2020-06-25 | 삼성전자주식회사 | 단말 장치 및 이의 제어 방법 |
KR20200076441A (ko) * | 2018-12-19 | 2020-06-29 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
CN109903753B (zh) * | 2018-12-28 | 2022-07-15 | 广州索答信息科技有限公司 | 基于声源角度的多人语句分类方法、设备、介质及系统 |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
CN112216303A (zh) * | 2019-07-11 | 2021-01-12 | 北京声智科技有限公司 | 一种语音处理方法、装置及电子设备 |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11355108B2 (en) | 2019-08-20 | 2022-06-07 | International Business Machines Corporation | Distinguishing voice commands |
CN110517677B (zh) * | 2019-08-27 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 语音处理系统、方法、设备、语音识别系统及存储介质 |
CN112578338B (zh) * | 2019-09-27 | 2024-05-14 | 阿里巴巴集团控股有限公司 | 声源定位方法、装置、设备及存储介质 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111181949B (zh) * | 2019-12-25 | 2023-12-12 | 视联动力信息技术股份有限公司 | 一种声音检测方法、装置、终端设备和存储介质 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
TWI736117B (zh) * | 2020-01-22 | 2021-08-11 | 瑞昱半導體股份有限公司 | 聲音定位裝置與方法 |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111312275B (zh) * | 2020-02-13 | 2023-04-25 | 大连理工大学 | 一种基于子带分解的在线声源分离增强系统 |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112837703A (zh) * | 2020-12-30 | 2021-05-25 | 深圳市联影高端医疗装备创新研究院 | 医疗成像设备中语音信号获取方法、装置、设备和介质 |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
CN114268984A (zh) * | 2021-11-15 | 2022-04-01 | 珠海格力电器股份有限公司 | 一种信号处理方法、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010004649A1 (ja) * | 2008-07-11 | 2010-01-14 | パイオニア株式会社 | 遅延量決定装置、音像定位装置、遅延量決定方法、遅延量決定処理プログラム |
CN102081925A (zh) * | 2009-11-20 | 2011-06-01 | Nxp股份有限公司 | 语音检测器 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774851A (en) * | 1985-08-15 | 1998-06-30 | Canon Kabushiki Kaisha | Speech recognition apparatus utilizing utterance length information |
JP3337588B2 (ja) | 1995-03-31 | 2002-10-21 | 松下電器産業株式会社 | 音声応答装置 |
KR100198019B1 (ko) | 1996-11-20 | 1999-06-15 | 정선종 | 마이크 어레이를 이용한 원격음성입력장치 및 그 원격음성입력 처리방법 |
US5867574A (en) * | 1997-05-19 | 1999-02-02 | Lucent Technologies Inc. | Voice activity detection system and method |
US20020138254A1 (en) * | 1997-07-18 | 2002-09-26 | Takehiko Isaka | Method and apparatus for processing speech signals |
JP4005203B2 (ja) * | 1998-02-03 | 2007-11-07 | 富士通テン株式会社 | 車載用音声認識装置 |
JP2002024145A (ja) * | 2000-07-07 | 2002-01-25 | Mitsubishi Electric Corp | 電子メール通信端末装置 |
JP4815661B2 (ja) * | 2000-08-24 | 2011-11-16 | ソニー株式会社 | 信号処理装置及び信号処理方法 |
US7437286B2 (en) | 2000-12-27 | 2008-10-14 | Intel Corporation | Voice barge-in in telephony speech recognition |
AU2002363054A1 (en) * | 2001-09-12 | 2003-05-06 | Bitwave Private Limited | System and apparatus for speech communication and speech recognition |
JP4195267B2 (ja) * | 2002-03-14 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
US7016488B2 (en) * | 2002-06-24 | 2006-03-21 | Freescale Semiconductor, Inc. | Method and apparatus for non-linear processing of an audio signal |
JP3910898B2 (ja) | 2002-09-17 | 2007-04-25 | 株式会社東芝 | 指向性設定装置、指向性設定方法及び指向性設定プログラム |
WO2005048239A1 (ja) * | 2003-11-12 | 2005-05-26 | Honda Motor Co., Ltd. | 音声認識装置 |
JP4659556B2 (ja) | 2005-08-11 | 2011-03-30 | 富士通株式会社 | 音源方向検出装置 |
KR100751921B1 (ko) | 2005-11-11 | 2007-08-24 | 고려대학교 산학협력단 | 멀티채널 음성신호의 잡음제거 방법 및 장치 |
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US20110191102A1 (en) * | 2010-01-29 | 2011-08-04 | University Of Maryland, College Park | Systems and methods for speech extraction |
JP5668553B2 (ja) | 2011-03-18 | 2015-02-12 | 富士通株式会社 | 音声誤検出判別装置、音声誤検出判別方法、およびプログラム |
JP5709980B2 (ja) * | 2011-04-08 | 2015-04-30 | 三菱電機株式会社 | 音声認識装置およびナビゲーション装置 |
US9031259B2 (en) * | 2011-09-15 | 2015-05-12 | JVC Kenwood Corporation | Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method |
US8942386B2 (en) * | 2011-11-30 | 2015-01-27 | Midas Technology, Inc. | Real-time quality monitoring of speech and audio signals in noisy reverberant environments for teleconferencing systems |
US9070374B2 (en) * | 2012-02-20 | 2015-06-30 | JVC Kenwood Corporation | Communication apparatus and condition notification method for notifying a used condition of communication apparatus by using a light-emitting device attached to communication apparatus |
KR20130101943A (ko) | 2012-03-06 | 2013-09-16 | 삼성전자주식회사 | 음원 끝점 검출 장치 및 그 방법 |
US9131295B2 (en) * | 2012-08-07 | 2015-09-08 | Microsoft Technology Licensing, Llc | Multi-microphone audio source separation based on combined statistical angle distributions |
FR3011377B1 (fr) | 2013-10-01 | 2015-11-06 | Aldebaran Robotics | Procede de localisation d'une source sonore et robot humanoide utilisant un tel procede |
US9241223B2 (en) * | 2014-01-31 | 2016-01-19 | Malaspina Labs (Barbados) Inc. | Directional filtering of audible signals |
JP6446913B2 (ja) * | 2014-08-27 | 2019-01-09 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
US9621984B1 (en) * | 2015-10-14 | 2017-04-11 | Amazon Technologies, Inc. | Methods to process direction data of an audio input device using azimuth values |
-
2015
- 2015-11-02 KR KR1020150153033A patent/KR102444061B1/ko active IP Right Grant
-
2016
- 2016-11-01 CN CN201680063709.3A patent/CN108352159B/zh active Active
- 2016-11-01 US US15/340,528 patent/US10540995B2/en not_active Expired - Fee Related
- 2016-11-01 WO PCT/KR2016/012427 patent/WO2017078361A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010004649A1 (ja) * | 2008-07-11 | 2010-01-14 | パイオニア株式会社 | 遅延量決定装置、音像定位装置、遅延量決定方法、遅延量決定処理プログラム |
CN102081925A (zh) * | 2009-11-20 | 2011-06-01 | Nxp股份有限公司 | 语音检测器 |
Non-Patent Citations (2)
Title |
---|
A Novel Coherence-Function-Based Noise Suppression Algorithm by Applying Sound-Source Localization and Awareness-Computation Strategy for Dual Microphones;Shin-Chi Lai;《2014 Tenth International Conference on Intelligent Information Hiding and Multimedia Signal Processing》;20141209;全文 * |
稀疏分量分析的欠定盲分离算法研究;王放;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20130615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
US10540995B2 (en) | 2020-01-21 |
US20170125037A1 (en) | 2017-05-04 |
WO2017078361A1 (en) | 2017-05-11 |
CN108352159A (zh) | 2018-07-31 |
KR102444061B1 (ko) | 2022-09-16 |
KR20170050908A (ko) | 2017-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108352159B (zh) | 用于识别语音的电子设备和方法 | |
KR102446392B1 (ko) | 음성 인식이 가능한 전자 장치 및 방법 | |
US11094323B2 (en) | Electronic device and method for processing audio signal by electronic device | |
US20200312335A1 (en) | Electronic device and method of operating the same | |
US10762897B2 (en) | Method and display device for recognizing voice | |
US11392271B2 (en) | Electronic device having touchscreen and input processing method thereof | |
KR102339657B1 (ko) | 전자 장치 및 이의 제어 방법 | |
US9953647B2 (en) | Method and apparatus for speech recognition | |
US10832411B2 (en) | Electronic apparatus and method of controlling the same | |
KR102185166B1 (ko) | 생체 정보를 인식하기 위한 전자 장치 및 방법 | |
JP6370893B2 (ja) | 検出されたジェスチャーに基づいてデバイス動作を実行するためのシステムおよび方法 | |
TWI489397B (zh) | 用於提供適應性手勢分析之方法、裝置及電腦程式產品 | |
KR20190135974A (ko) | 동작-음성의 다중 모드 명령에 기반한 최적 제어 방법 및 이를 적용한 전자 장치 | |
US10831440B2 (en) | Coordinating input on multiple local devices | |
US11703320B2 (en) | Determining relative positions of user devices | |
US20140362002A1 (en) | Display control device, display control method, and computer program product | |
US20200359217A1 (en) | Electronic apparatus, user terminal, and mehtod for controlling the electronic apparatus and the user terminal | |
KR20160133305A (ko) | 제스쳐 인식 방법, 컴퓨팅 장치 및 제어 장치 | |
KR20200000756A (ko) | 전자 장치 및 그의 제어방법 | |
KR102623998B1 (ko) | 음성인식을 위한 전자장치 및 그 제어 방법 | |
KR102537781B1 (ko) | 전자 장치 및 이의 제어 방법 | |
US20170243579A1 (en) | Electronic apparatus and service providing method thereof | |
US11768233B2 (en) | Method for identifying external device by registering features of EM signal and electronic device applying said method | |
KR20170045101A (ko) | 콘텐트를 외부 장치와 공유하는 전자 장치 및 이의 콘텐트 공유 방법 | |
KR20210071664A (ko) | 전자장치 및 그 제어방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |