CN110164423A - 一种方位角估计的方法、设备及存储介质 - Google Patents
一种方位角估计的方法、设备及存储介质 Download PDFInfo
- Publication number
- CN110164423A CN110164423A CN201810887965.5A CN201810887965A CN110164423A CN 110164423 A CN110164423 A CN 110164423A CN 201810887965 A CN201810887965 A CN 201810887965A CN 110164423 A CN110164423 A CN 110164423A
- Authority
- CN
- China
- Prior art keywords
- word
- wake
- sampled signal
- estimation
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003860 storage Methods 0.000 title claims description 18
- 238000001514 detection method Methods 0.000 claims abstract description 65
- 238000001228 spectrum Methods 0.000 claims abstract description 62
- 230000002618 waking effect Effects 0.000 claims description 35
- 230000003595 spectral effect Effects 0.000 claims description 15
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 24
- 238000005070 sampling Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000003993 interaction Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/8006—Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本申请公开了一种方位角估计的方法,包括:获取多通路采样信号并缓存所述多通路采样信号;对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分;若根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词,则对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,所述唤醒词包含于目标语音;根据所述空间谱估计结果和最高的唤醒词检测得分,确定所述目标语音的方位角。本申请技术方案由于采用唤醒词辅助估计目标语音的方位角,从而提高了语音交互过程中方位角估计的准确性。
Description
技术领域
本申请涉及语音处理技术领域,具体涉及一种方位角估计的方法、设备及计算机可读存储介质。
背景技术
随着智能音箱及其衍生品的流行,人机之间的语音交互,尤其是远场语音交互,逐渐成为了一个重要的研究方向。在语音交互领域,远场语音交互通常是指距离大于1米。人机之间的语音交互被认为是未来最重要的用户流量入口。因此,互联网平台和内容服务商都高度重视对语音识别接口的探索与创新。
目前消费电子领域的语音交互智能设备主要是智能音箱,带语音控制功能的智能电视或电视盒子等产品。这些产品的主要使用场景都是用户的家庭或客厅。在这类使用场景中,房间的混响以及环境中的噪音都会对语音识别造成巨大的挑战,进而严重影响用户的使用体验。
为了实现更好的远场语音识别性能,上述语音交互设备往往都装备有多麦克风阵列并利用波束形成算法提升语音信号质量。但为了达到最优的性能,波束形成算法需要给定目标语音的方位角,且对该方位角的准确度非常敏感。因此,提升目标语音方位角估计的准确性便成为了提升远场语音识别系统性能的一个瓶颈。
发明内容
本申请实施例提供一种方位角估计的方法,用于提高语音交互过程中方位角估计的准确性。本申请实施例还提供了相应的设备及计算机可读存储介质。
本申请实施例第一方面提供一种方位角估计的方法,包括:
获取多通路采样信号并缓存所述多通路采样信号;
对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分;
若根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词,则对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,所述唤醒词包含于目标语音;
根据所述空间谱估计结果和最高的唤醒词检测得分,确定所述目标语音的方位角。
本申请实施例第二方面提供一种终端设备,包括:
获取单元,用于获取多通路采样信号;
缓存单元,用于缓存所述获取单元获取的所述多通路采样信号;
检测单元,用于对所述缓存单元缓存的多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分;
谱估计单元,用于若根据所述检测单元确定的所述每路采样信号的唤醒词检测得分确定存在所述唤醒词,则对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,所述唤醒词包含于目标语音;
确定单元,用于根据所述谱估计单元的空间谱估计结果和所述检测单元检测出的最高的唤醒词检测得分,确定所述目标语音的方位角。
本申请实施例第三方面提供一种终端设备,所述终端设备包括:输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如上述第一方面所述的方法。
本申请实施例第四方面提供一种计算机可读存储介质,包括指令,当所述指令在计算机设备上运行时,使得所述计算机设备执行如上述第一方面所述的方法。
本申请的又一方面提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本申请实施例采用多路采样信号中最高的唤醒词得分辅助多路采样信号的空间谱估计结果来检测目标语音的方位角,从而避免了噪声对目标语音方位角检测的影响,提高了语音交互过程中方位角估计的准确性。
附图说明
图1是本申请实施例中人机语音交互的一场景示例示意图;
图2是本申请实施例中人机语音交互的另一场景示例示意图;
图3是本申请实施例中方位角估计的方法的一实施例示意图;
图4是本申请实施例中方位角估计的方法的另一实施例示意图;
图5是本申请实施例中方位角估计的方法的另一实施例示意图;
图6是本申请实施例中终端设备的一实施例示意图;
图7是本申请实施例中终端设备的一实施例示意图;
图8是本申请实施例中终端设备的一实施例示意图;
图9是本申请实施例中终端设备的一实施例示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例提供一种方位角估计的方法,用于提高语音交互过程中方位角估计的准确性。本申请实施例还提供了相应的设备及计算机可读存储介质。以下分别进行详细说明。
本申请实施例中的终端设备为语音交互设备,可以是具有语音交互功能的音响、电视、电视盒子或者机器人等设备。
作为用户隐私保护和降低整机功耗的一种手段,具有语音交互功能的终端设备中一般都会设置一个唤醒词。唤醒词通常是预先设定的一个词或一句话。当用户说出唤醒词并被终端设备检测到以后,用户发出的语音信号才被当作命令发送给云端设备进行语音交互服务。因为终端设备在对声音信号进行采样时,会采集到各个方向上的声音信号,其中会通常会包括噪声信号,而噪声信号会对人机语音交互造成影响,所以通常终端设备会先确定用户发出语音的方位角,然后对该方位角方向上的信号进行增强,其他方向上的信号进行抑制,从而保证顺畅的人机语音交互。所以,在人机交互过程中,针对用户发出语音的方位角的估计就显得尤为重要。
图1为本申请实施例中的人机语音交互场景的一示例示意图。
如图1所示,用户在要唤醒具有语音交互功能的智能电视10时,可以说出唤醒词,如该场景中,唤醒词为“电视你好”,该唤醒词经过空气传输到达智能电视10,智能电视中设置有多阵列的声音接收器,该接收器可以是麦克风。每个阵列可以理解为是一个通路,每个通路会接收到一路采样信号,智能电视10会缓存所述多通路采样信号,人后对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分;若根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词,则对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,所述唤醒词包含于目标语音;根据所述空间谱估计结果和最高的唤醒词检测得分,确定所述目标语音的方位角。
目标语音为发出唤醒词的用户的语音,目标语音中包括唤醒词。
本申请实施例采用多路采样信号中最高的唤醒词得分辅助多路采样信号的空间谱估计结果来检测目标语音的方位角,从而避免了噪声对目标语音方位角检测的影响,提高了语音交互过程中方位角估计的准确性。
在确定目标语音的方位角后,如图2所示,智能电视10就可以与云端设备20进行语音交互了。若语音交互过程中,用户对智能电视10说了“琅琊榜”,智能电视10会将采集到的语音信号进行语音识别,或者传输给云端设备20进行语音识别,云端设备20识别出语音内容是“琅琊榜”后,会向智能电视10返回与电视机“琅琊榜”相关的内容。
以上结合场景示例对本申请实施例中的方位角估计和语音交互做了简单的描述,下面结合图3介绍本申请实施例中的方位角估计的方法。
如图3所示,本申请实施例提供的方位角估计的方法的一实施例包括:
301、获取多通路采样信号并缓存所述多通路采样信号。
302、对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分。
303、若根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词,则对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,所述唤醒词包含于目标语音。
304、根据所述空间谱估计结果和最高的唤醒词检测得分,确定所述目标语音的方位角。
本申请实施例采用多路采样信号中最高的唤醒词得分辅助多路采样信号的空间谱估计结果来检测目标语音的方位角,从而避免了噪声对目标语音方位角检测的影响,提高了语音交互过程中方位角估计的准确性。
本申请实施例提供的方位角估计的方法还可以参阅图4进行理解。如图4所示,终端设备会通过麦克风接收到阵列信号,然后将接收到的阵列信号按照不同方向划分为N束,每束信号经过一个通路,如图4中所示,N束分别为从方向1到方向N,例如N=4,则可以是0度方向为方向1、90度方向为方向2、180度方向为方向3、270度方向为方向4。对于每个通路上的采样信号都可以进行单通路降噪,也就是降低该通路上的噪音。然后再对每个通路的采样信号进行唤醒词检测。
其中,可选地,所述对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分,可以包括:
对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定所述每路采样信号的唤醒词的置信度,所述置信度为所述每路采样信号中的内容与预配置的唤醒词的相似程度;
根据所述每路采样信号的唤醒词的置信度确定所述每路采样信号的唤醒词检测得分。
也就是说,对唤醒词检测主要是检测该通路中的采样信号中的内容与预配置的唤醒词的相似程度,如果预配置的唤醒词为“电视你好”,一路采样信号中检测到的内容为“电视”,则表示该路采样信号与预配置的唤醒词一定程度上相似,该路采样信号的唤醒词检测得分可以为5分。若另外一路采样信号中检测到的内容为“电视你”,则表示该路采样信号与预配置的唤醒词很大程度上相似,该路采样信号的唤醒词检测得分可以为8分。当然,具体的唤醒词检测得分是通过算法计算得到的,该处只是举例说明,不应将其理解为是对唤醒词检测得分的限定。
检测出每路采样信号的唤醒词检测得分后,需要根据每路采样信号的唤醒词检测得分进行综合判决,综合判决的方案可以是:
当所述每路采样信号中有任意一路采样信号的唤醒词检测得分大于得分阈值,则确定所述每路采样信号的唤醒词检测得分确定存在所述唤醒词。
例如:若得分阈值为6分,4个通路的唤醒词检测得分分别为3分、5分、7分和8分,则有两个通路的唤醒词检测得分大于得分阈值6分,则可以确定存在唤醒词。当然,这只是确定存在唤醒词的一种判断方案,还可以是其他的可行性判断方案,例如:通过各个通路的累计得分确定是否存在唤醒词。
确定存在唤醒词后,就可以激活方位角评估、语音信号处理和语音识别几个功能。
另外,在确定存在唤醒词后,还可以:
确定所述唤醒词从开始出现到结束所处的时间段;
从缓存的所述多通路采样信号中提取出所述时间段内的目标采样信号;
对应的,所述对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,包括:
对所述目标采样信号进行空间谱估计,以得到空间谱估计结果。
当确定了唤醒词从开始出现到结束所处的时间段,则在对缓存的所述多通路采样信号进行空间谱估计时,只需要提取该时间段内容的目标采样信号就好,不需要对缓存的全部采样信号都做估计,这样可以减少空间谱估计时的计算量。
其中,所述确定所述唤醒词从开始出现到结束所处的时间段,可以包括:
确定所述唤醒词结束的时间点;
根据所述唤醒词结束的时间点,以及所述唤醒词的得分变化记录或者采样信号的能量波动记录,确定所述唤醒词开始出现的时间点;
根据所述唤醒词开始出现的时间点和所述唤醒词结束的时间点,确定所述唤醒词从开始出现到结束所处的时间段。
本申请实施例中,唤醒词结束的时间点是很容易确定的,如:唤醒词检测得分最高的点就可以是唤醒词结束的时间点,唤醒词开始出现的时间点可以是唤醒词检测得分开始出现变化的时间点,如果没有出现唤醒词,那么之前的唤醒词检测得分基本是趋于零的,当有唤醒词出现时,则唤醒词检测得分就会出现变化,例如:升到了1分,升到了2分,则最开始出现变化的点就可以确定为是唤醒词开始出现的时间点。
另外,需要说明的是,根据唤醒词检测得分来确定唤醒词所处的时间段只是一种方式,例如还可以是:通过采样信号的能量波动记录来确定,在用户说出唤醒词前后采样信号的能量相对会比较小,这样就可以把能量从开始升高到降低趋于平稳的时间段确定为是唤醒词所处的时间段。
本申请实施例中,缓存单元是会缓存采样信号的,但如果用户没有说出唤醒词,缓存单元缓存很多采样信号也没有意义。所以,为了节省缓存空间,本申请实施例中会按照缓存的采样信号的长度清理缓存,该清理缓存的方案可以是:对于缓存的所述多通路采样信号,保留最新的(M+N)时间长度的采样信号,删除所述(M+N)时间长度之外的采样信号,所述M为所述唤醒词占用时长,所述N为预置时长。
也就是说,缓存单元中会一直缓存最新采集到的大于唤醒词所占用时间长度的采样信号,这样即可以确保缓存了唤醒词,又可以有效的节省缓存空间。
在确定存在唤醒词后,方位角估计单元被激活,若确定出唤醒词开始出现的时刻为t0,唤醒词结束的时刻为t1,则该方位角估计单元从缓存单元中提取t0到t1时间段内的目标采样信号,并对该目标采样信号进行空间谱估计。
其中,所述对所述目标采样信号进行空间谱估计,以得到空间谱估计结果,可以包括:根据所述目标采样信号,计算出多个备选方位角上信号功率强度。
方位角估计单元在接收到激活信号后,使用t0至t1时间段的目标采样信号计算出空间谱,空间谱也就是多个备选方位角所对应的即各个备选方向的信号功率强度。
备选方向角的选择是由使用场景和估计精度需求决定。比如,当使用环形麦克风阵列且方位角估计精度要求为10度时,备选方向可以选择为0°,10°,20°,...,350°;当使用线性麦克风阵列且方位角估计精度要求为30度时,备选方向可以选择为0°,30°,60°,...,180°。在本申请实施例中,可以将该多个备选方位角标记为θ1,θ2,...,θK,其中K是备选方位角的个数。空间谱估计算法估计出每一个备选方向上的信号功率强度,记为:P1,P2,...,PK。空间谱估计算法可以采用Super-Cardioid固定波束形成算法或者其它空间谱估计算法,此处不作详细讨论。
在完成空间谱估计后,可选地,所述根据所述空间谱估计结果和最高的唤醒词检测得分,确定所述目标语音的方位角,可以包括:
确定目标主波束的方位角度,所述目标主波束为所述最高的唤醒词检测得分所对应采样信号的主波束;
确定所述多个备选方位角上信号功率强度中的局部极大值点;
根据所述目标主波束的方位角度和所述局部极大值点,确定所述目标语音的方位角。
其中,所述根据所述目标主波束的方位角度和所述局部极大值点,确定所述目标语音的方位角,可以包括:
将与所述目标主波束的方位角度最接近的局部极大值点所对应的备选方位角,确定为所述目标语音的方位角;或者,
若与所述目标主波束的方位角度最接近的局部极大值点有至少两个,则根将所述至少两个局部极大值点各自所对应的备选方位角的平均值确定为所述目标语音的方位角。
也就是说,本申请实施例中,如图5所示,方位角估计的过程中可以包括空间谱估计,以及空间谱和唤醒词检测得分判断两个过程。在综合判断过程中可以使用空间谱估计结果和唤醒词检测得分(记为:S1,S2,...,SN)进行综合以去除强噪声对空间谱产生的干扰。其中,可行的方案可以是确定最高的唤醒词检测得分S*和其前置固定波束形成算法的主波束方向β*。更高的唤醒词得分代表更好的目标语音质量和更小的噪声残留,那么目标语音的方向是在β*的附近。在空间谱的所有局部极大值点中找到离β*最近的那一个,其对应的备选方位角记为θ*,θ*即为对目标语音的方位角的估计。
当环境中存在强噪声时,上述算法设计中的空间谱可能存在多个局部极大值点。其中的一个或多个局部极大值点可能是由噪声干扰而来,其所对应的备选方位角代表的是环境当中的点源干扰噪声方向。通过β*在方位角上的辅助,可以滤除掉这些噪声产生的干扰,例如:在90度方向和270度方向都各自有一个局部极大值点,若根据最高的唤醒词检测得分S*和其前置固定波束形成算法的主波束方向β*=60°,则可以选择到90度方向的局部极大值点,从而准确的确定到目标语音的方位角为90度。
另外,因为人机交互中唤醒词有其天然的最小长度限制,记为Tmin,在一次唤醒之后的Tmin时间内不会再出现第二次唤醒。因此,可以节省这段时间内的唤醒词检测运算量用于方位角估计。
因此,可选地,本申请实施例中,所述对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果时,所述方法还可以包括:
在确定存在所述唤醒词到唤醒词再次出现的时间长度内,停止对所述多通路采样信号中每路采样信号进行唤醒词检测。
所以,本申请实施例中,在检测到唤醒词之前,多通路唤醒词检测模块持续运行,方位角估计模块不做任何运算,语音信号处理模块不做任何处理而只作内部状态跟踪。
当在Ts时刻检测到唤醒词,则在Ts到Ts+Tmin时间段内停止所有多通路唤醒词检测模块的计算,其中可以包括前置固定波束形成算法、降噪算法和单通路唤醒词检测模块。
在Ts到Ts+Tmin时间段内采用空间谱估计算法进行空间谱估计,得到更好的空间谱估计性能和分辨率,结合Ts时刻的唤醒词检测得分,最终得到最优的目标语音的方位角。
通过上述分时进行唤醒词检测和方位角估计的方案,可以减少系统峰值运算量,降低系统延迟和可能的丢帧、信号不连续等现象。
另外需要说明的是,本申请实施例中,方位角估计在检测到唤醒词之前不做任何计算。在接收到唤醒词模块提供的激活信号后,从缓存单元中提取t0至t1时间段的目标采样信号,并估计可能的语音信号方位角。综合该估计结果和多通路唤醒词检测模块的得分得到最终的目标语音的方位角估计结果,并将该目标语音的方位角度输出给语音信号处理模块,使语音信号处理模块在进行语音交互的过程中可以增强该目标语音的方位角方向的信号,抑制其他方向的信号,从而确保顺畅的语音交互。
语音信号处理模块在检测到唤醒词之前只作内部状态跟踪,例如:回声消除、噪声强度、语音检测等,而不对多通路的采样信号作任何处理。在接收到唤醒词得分综合判断模块提供的激活信号后,使用方位角估计模块最新估计出的语音信号的方位角作为波束形成等语音处理算法的目标方向,进行目标语音信号增强,输出增强的信号给到语音识别模块。
语音识别模块在检测到唤醒词之前不进行任何识别运算。在接收到唤醒词得分综合判断模块提供的激活信号后,识别语音信号处理模块提供的经过增强的目标语音信号,并提供识别结果,直至识别结束。
以上多个实施例描述了语音交互过程中方位角估计的方法,下面结合附图描述本申请实施例中的终端设备。
如图6所示,本申请实施例提供的终端设备40包括:
获取单元401,用于获取多通路采样信号;
缓存单元402,用于缓存所述获取单元401获取的所述多通路采样信号;
检测单元403,用于对所述缓存单元402缓存的多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分;
谱估计单元404,用于若根据所述检测单元403确定的所述每路采样信号的唤醒词检测得分确定存在所述唤醒词,则对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,所述唤醒词包含于目标语音;
确定单元405,用于根据所述谱估计单元404的空间谱估计结果和所述检测单元检测出的最高的唤醒词检测得分,确定所述目标语音的方位角。
本申请实施例采用多路采样信号中最高的唤醒词得分辅助多路采样信号的空间谱估计结果来检测目标语音的方位角,从而避免了噪声对目标语音方位角检测的影响,提高了语音交互过程中方位角估计的准确性。
可选地,确定单元405还用于确定所述唤醒词从开始出现到结束所处的时间段;
谱估计单元404用于:
从缓存的所述多通路采样信号中提取出所述时间段内的目标采样信号;
对所述目标采样信号进行空间谱估计,以得到空间谱估计结果。
可选地,谱估计单元404用于:根据所述目标采样信号,计算出多个备选方位角上信号功率强度。
可选地,谱估计单元404用于:
确定目标主波束的方位角度,所述目标主波束为所述最高的唤醒词检测得分所对应采样信号的主波束;
确定所述多个备选方位角上信号功率强度中的局部极大值点;
根据所述目标主波束的方位角度和所述局部极大值点,确定所述目标语音的方位角。
可选地,谱估计单元404用于:
将与所述目标主波束的方位角度最接近的局部极大值点所对应的备选方位角,确定为所述目标语音的方位角。
可选地,谱估计单元404用于:
若与所述目标主波束的方位角度最接近的局部极大值点有至少两个,则根将所述至少两个局部极大值点各自所对应的备选方位角的平均值确定为所述目标语音的方位角。
可选地,确定单元405用于:
确定所述唤醒词结束的时间点;
根据所述唤醒词结束的时间点,以及所述唤醒词的得分变化记录或者采样信号的能量波动记录,确定所述唤醒词开始出现的时间点;
根据所述唤醒词开始出现的时间点和所述唤醒词结束的时间点,确定所述唤醒词从开始出现到结束所处的时间段。
可选地,如图7所示,本申请实施例提供的终端设备40还包括控制单元406,
所述控制单元406,用于在确定存在所述唤醒词到唤醒词再次出现的时间长度内,停止对所述多通路采样信号中每路采样信号进行唤醒词检测。
可选地,检测单元403用于:
对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定所述每路采样信号的唤醒词的置信度,所述置信度为所述每路采样信号中的内容与预配置的唤醒词的相似程度;
根据所述每路采样信号的唤醒词的置信度确定所述每路采样信号的唤醒词检测得分。
可选地,确定单元405还用于:当所述每路采样信号中有任意一路采样信号的唤醒词检测得分大于得分阈值,则确定所述每路采样信号的唤醒词检测得分确定存在所述唤醒词。
可选地,如图8所示,本申请实施例提供的终端设备40还包括清理单元407,
所述清理单元407,用于对于缓存的所述多通路采样信号,保留最新的(M+N)时间长度的采样信号,删除所述(M+N)时间长度之外的采样信号,所述M为所述唤醒词占用时长,所述N为预置时长。
以上实施例所描述的终端设备40可以参阅图1至图5部分的相应描述进行理解,本处不再重复赘述。
图9是本申请实施例提供的终端设备50的结构示意图。所述终端设备50包括处理器510、存储器540和输入输出(I/O)接口530,存储器540可以包括只读存储器和随机存取存储器,并向处理器510提供操作指令和数据。存储器540的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器540存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
在本申请实施例中,在方位角估计的过程中,通过调用存储器540存储的操作指令(该操作指令可存储在操作系统中),
获取多通路采样信号并缓存所述多通路采样信号;
对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分;
若根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词,则对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,所述唤醒词包含于目标语音;
根据所述空间谱估计结果和最高的唤醒词检测得分,确定所述目标语音的方位角。
本申请实施例采用多路采样信号中最高的唤醒词得分辅助多路采样信号的空间谱估计结果来检测目标语音的方位角,从而避免了噪声对目标语音方位角检测的影响,提高了语音交互过程中方位角估计的准确性。
处理器510控制终端设备50的操作,处理器510还可以称为CPU(CentralProcessing Unit,中央处理单元)。存储器540可以包括只读存储器和随机存取存储器,并向处理器510提供指令和数据。存储器540的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中终端设备50的各个组件通过总线系统520耦合在一起,其中总线系统520除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统520。
上述本申请实施例揭示的方法可以应用于处理器510中,或者由处理器510实现。处理器510可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器510可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器540,处理器510读取存储器540中的信息,结合其硬件完成上述方法的步骤。
可选地,处理器510用于:
确定所述唤醒词从开始出现到结束所处的时间段;
从缓存的所述多通路采样信号中提取出所述时间段内的目标采样信号;
对所述目标采样信号进行空间谱估计,以得到空间谱估计结果。
可选地,处理器510用于:
根据所述目标采样信号,计算出多个备选方位角上信号功率强度。
可选地,处理器510用于:
确定目标主波束的方位角度,所述目标主波束为所述最高的唤醒词检测得分所对应采样信号的主波束;
确定所述多个备选方位角上信号功率强度中的局部极大值点;
根据所述目标主波束的方位角度和所述局部极大值点,确定所述目标语音的方位角。
可选地,处理器510用于:
将与所述目标主波束的方位角度最接近的局部极大值点所对应的备选方位角,确定为所述目标语音的方位角。
可选地,处理器510用于:
若与所述目标主波束的方位角度最接近的局部极大值点有至少两个,则根将所述至少两个局部极大值点各自所对应的备选方位角的平均值确定为所述目标语音的方位角。
可选地,处理器510用于:
确定所述唤醒词结束的时间点;
根据所述唤醒词结束的时间点,以及所述唤醒词的得分变化记录或者采样信号的能量波动记录,确定所述唤醒词开始出现的时间点;
根据所述唤醒词开始出现的时间点和所述唤醒词结束的时间点,确定所述唤醒词从开始出现到结束所处的时间段。
可选地,处理器510还用于:
在确定存在所述唤醒词到唤醒词再次出现的时间长度内,停止对所述多通路采样信号中每路采样信号进行唤醒词检测。
可选地,处理器510用于:
对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定所述每路采样信号的唤醒词的置信度,所述置信度为所述每路采样信号中的内容与预配置的唤醒词的相似程度;
根据所述每路采样信号的唤醒词的置信度确定所述每路采样信号的唤醒词检测得分。
可选地,处理器510还用于:
当所述每路采样信号中有任意一路采样信号的唤醒词检测得分大于得分阈值,则确定所述每路采样信号的唤醒词检测得分确定存在所述唤醒词。
可选地,处理器510还用于:
对于缓存的所述多通路采样信号,保留最新的(M+N)时间长度的采样信号,删除所述(M+N)时间长度之外的采样信号,所述M为所述唤醒词占用时长,所述N为预置时长。
上对终端设备50的描述可以参阅图1至图5部分的描述进行理解,本处不再重复赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上对本申请实施例所提供的方位角估计的方法、终端设备以及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (14)
1.一种方位角估计的方法,其特征在于,包括:
获取多通路采样信号并缓存所述多通路采样信号;
对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分;
若根据所述每路采样信号的唤醒词检测得分确定存在所述唤醒词,则对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,所述唤醒词包含于目标语音;
根据所述空间谱估计结果和最高的唤醒词检测得分,确定所述目标语音的方位角。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述唤醒词从开始出现到结束所处的时间段;
从缓存的所述多通路采样信号中提取出所述时间段内的目标采样信号;
对应的,所述对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,包括:
对所述目标采样信号进行空间谱估计,以得到空间谱估计结果。
3.根据所述权利要求2所述的方法,其特征在于,所述对所述目标采样信号进行空间谱估计,以得到空间谱估计结果,包括:
根据所述目标采样信号,计算出多个备选方位角上信号功率强度。
4.根据所述权利要求3所述的方法,其特征在于,所述根据所述空间谱估计结果和最高的唤醒词检测得分,确定所述目标语音的方位角,包括:
确定目标主波束的方位角度,所述目标主波束为所述最高的唤醒词检测得分所对应采样信号的主波束;
确定所述多个备选方位角上信号功率强度中的局部极大值点;
根据所述目标主波束的方位角度和所述局部极大值点,确定所述目标语音的方位角。
5.根据所述权利要求4所述的方法,其特征在于,所述根据所述目标主波束的方位角度和所述局部极大值点,确定所述目标语音的方位角,包括:
将与所述目标主波束的方位角度最接近的局部极大值点所对应的备选方位角,确定为所述目标语音的方位角。
6.根据所述权利要求4所述的方法,其特征在于,所述根据所述目标主波束的方位角度和所述局部极大值点,确定所述目标语音的方位角,包括:
若与所述目标主波束的方位角度最接近的局部极大值点有至少两个,则根将所述至少两个局部极大值点各自所对应的备选方位角的平均值确定为所述目标语音的方位角。
7.根据权利要求2-6任一所述的方法,其特征在于,所述确定所述唤醒词从开始出现到结束所处的时间段,包括:
确定所述唤醒词结束的时间点;
根据所述唤醒词结束的时间点,以及所述唤醒词的得分变化记录或者采样信号的能量波动记录,确定所述唤醒词开始出现的时间点;
根据所述唤醒词开始出现的时间点和所述唤醒词结束的时间点,确定所述唤醒词从开始出现到结束所处的时间段。
8.根据权利要求2-6任一所述的方法,其特征在于,所述对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果时,所述方法还包括:
在确定存在所述唤醒词到唤醒词再次出现的时间长度内,停止对所述多通路采样信号中每路采样信号进行唤醒词检测。
9.根据权利要求1-6任一所述的方法,其特征在于,所述对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分,包括:
对所述多通路采样信号中每路采样信号进行唤醒词检测,并确定所述每路采样信号的唤醒词的置信度,所述置信度为所述每路采样信号中的内容与预配置的唤醒词的相似程度;
根据所述每路采样信号的唤醒词的置信度确定所述每路采样信号的唤醒词检测得分。
10.根据权利要求1-6任一所述的方法,其特征在于,所述方法还包括:
当所述每路采样信号中有任意一路采样信号的唤醒词检测得分大于得分阈值,则确定所述每路采样信号的唤醒词检测得分确定存在所述唤醒词。
11.根据权利要求1-6任一所述的方法,其特征在于,所述方法还包括:
对于缓存的所述多通路采样信号,保留最新的(M+N)时间长度的采样信号,删除所述(M+N)时间长度之外的采样信号,所述M为所述唤醒词占用时长,所述N为预置时长。
12.一种终端设备,其特征在于,包括:
获取单元,用于获取多通路采样信号;
缓存单元,用于缓存所述获取单元获取的所述多通路采样信号;
检测单元,用于对所述缓存单元缓存的多通路采样信号中每路采样信号进行唤醒词检测,并确定每路采样信号的唤醒词检测得分;
谱估计单元,用于若根据所述检测单元确定的所述每路采样信号的唤醒词检测得分确定存在所述唤醒词,则对缓存的所述多通路采样信号进行空间谱估计,以得到空间谱估计结果,所述唤醒词包含于目标语音;
确定单元,用于根据所述谱估计单元的空间谱估计结果和所述检测单元检测出的最高的唤醒词检测得分,确定所述目标语音的方位角。
13.一种终端设备,其特征在于,所述终端设备包括:输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述处理器用于执行存储器中存储的程序指令,执行如权利要求1-11任一所述的方法。
14.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1-11中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810887965.5A CN110164423B (zh) | 2018-08-06 | 2018-08-06 | 一种方位角估计的方法、设备及存储介质 |
EP19846963.7A EP3836136B1 (en) | 2018-08-06 | 2019-08-02 | Azimuth estimation method, device, and storage medium |
PCT/CN2019/099049 WO2020029882A1 (zh) | 2018-08-06 | 2019-08-02 | 一种方位角估计的方法、设备及存储介质 |
TW108127934A TWI711035B (zh) | 2018-08-06 | 2019-08-06 | 方位角估計的方法、設備、語音交互系統及儲存介質 |
US17/006,440 US11908456B2 (en) | 2018-08-06 | 2020-08-28 | Azimuth estimation method, device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810887965.5A CN110164423B (zh) | 2018-08-06 | 2018-08-06 | 一种方位角估计的方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110164423A true CN110164423A (zh) | 2019-08-23 |
CN110164423B CN110164423B (zh) | 2023-01-20 |
Family
ID=67645177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810887965.5A Active CN110164423B (zh) | 2018-08-06 | 2018-08-06 | 一种方位角估计的方法、设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11908456B2 (zh) |
EP (1) | EP3836136B1 (zh) |
CN (1) | CN110164423B (zh) |
TW (1) | TWI711035B (zh) |
WO (1) | WO2020029882A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517677A (zh) * | 2019-08-27 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 语音处理系统、方法、设备、语音识别系统及存储介质 |
CN111276143A (zh) * | 2020-01-21 | 2020-06-12 | 北京远特科技股份有限公司 | 声源定位方法、装置、语音识别控制方法和终端设备 |
CN112201259A (zh) * | 2020-09-23 | 2021-01-08 | 北京百度网讯科技有限公司 | 声源定位方法、装置、设备和计算机存储介质 |
CN113281727A (zh) * | 2021-06-02 | 2021-08-20 | 中国科学院声学研究所 | 一种基于水平线列阵的输出增强的波束形成方法及其系统 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022043675A2 (en) * | 2020-08-24 | 2022-03-03 | Unlikely Artificial Intelligence Limited | A computer implemented method for the automated analysis or use of data |
CN113593548B (zh) * | 2021-06-29 | 2023-12-19 | 青岛海尔科技有限公司 | 智能设备的唤醒方法和装置、存储介质及电子装置 |
US11977854B2 (en) | 2021-08-24 | 2024-05-07 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11989527B2 (en) | 2021-08-24 | 2024-05-21 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
US11989507B2 (en) | 2021-08-24 | 2024-05-21 | Unlikely Artificial Intelligence Limited | Computer implemented methods for the automated analysis or use of data, including use of a large language model |
WO2023196695A1 (en) * | 2022-04-07 | 2023-10-12 | Stryker Corporation | Wake-word processing in an electronic device |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015130970A1 (en) * | 2014-02-26 | 2015-09-03 | Analog Devices, Inc. | Systems for providing intelligent vehicular systems and services |
CN106531179A (zh) * | 2015-09-10 | 2017-03-22 | 中国科学院声学研究所 | 一种基于语义先验的选择性注意的多通道语音增强方法 |
CN107533842A (zh) * | 2015-04-09 | 2018-01-02 | 挪威科技工业研究院Tto股份公司 | 语音辨识 |
WO2018022222A1 (en) * | 2016-07-29 | 2018-02-01 | Qualcomm Incorporated | Far-field audio processing |
WO2018035334A1 (en) * | 2016-08-19 | 2018-02-22 | Intel IP Corporation | Beam refinement and control signaling for mobile communication systems |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI114422B (fi) * | 1997-09-04 | 2004-10-15 | Nokia Corp | Lähteen puheaktiviteetin tunnistus |
US8323189B2 (en) * | 2006-05-12 | 2012-12-04 | Bao Tran | Health monitoring appliance |
EP2443784B1 (en) * | 2009-06-19 | 2020-05-06 | BlackBerry Limited | Reference signal design for wireless communication system |
JP5289517B2 (ja) * | 2011-07-28 | 2013-09-11 | 株式会社半導体理工学研究センター | センサネットワークシステムとその通信方法 |
US9818407B1 (en) * | 2013-02-07 | 2017-11-14 | Amazon Technologies, Inc. | Distributed endpointing for speech recognition |
US20150379990A1 (en) * | 2014-06-30 | 2015-12-31 | Rajeev Conrad Nongpiur | Detection and enhancement of multiple speech sources |
US9940949B1 (en) * | 2014-12-19 | 2018-04-10 | Amazon Technologies, Inc. | Dynamic adjustment of expression detection criteria |
EP3067884B1 (en) * | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
US10192546B1 (en) * | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
US9699549B2 (en) * | 2015-03-31 | 2017-07-04 | Asustek Computer Inc. | Audio capturing enhancement method and audio capturing system using the same |
KR101627264B1 (ko) * | 2015-08-10 | 2016-06-03 | 주식회사 홍인터내셔날 | 복수의 카메라를 구비한 다트 게임 장치 및 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램 |
US9805714B2 (en) * | 2016-03-22 | 2017-10-31 | Asustek Computer Inc. | Directional keyword verification method applicable to electronic device and electronic device using the same |
US10109294B1 (en) * | 2016-03-25 | 2018-10-23 | Amazon Technologies, Inc. | Adaptive echo cancellation |
CN106251877B (zh) * | 2016-08-11 | 2019-09-06 | 珠海全志科技股份有限公司 | 语音声源方向估计方法及装置 |
CN106611597B (zh) * | 2016-12-02 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法和装置 |
CN108122556B (zh) * | 2017-08-08 | 2021-09-24 | 大众问问(北京)信息科技有限公司 | 减少驾驶人语音唤醒指令词误触发的方法及装置 |
CN107910013B (zh) | 2017-11-10 | 2021-09-24 | Oppo广东移动通信有限公司 | 一种语音信号的输出处理方法及装置 |
CN108122563B (zh) * | 2017-12-19 | 2021-03-30 | 北京声智科技有限公司 | 提高语音唤醒率及修正doa的方法 |
US10959029B2 (en) * | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
KR20200093094A (ko) * | 2019-01-10 | 2020-08-05 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
WO2021015308A1 (ko) * | 2019-07-19 | 2021-01-28 | 엘지전자 주식회사 | 로봇 및 그의 기동어 인식 방법 |
US11482224B2 (en) * | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11915708B2 (en) * | 2021-03-18 | 2024-02-27 | Samsung Electronics Co., Ltd. | Methods and systems for invoking a user-intended internet of things (IoT) device from a plurality of IoT devices |
-
2018
- 2018-08-06 CN CN201810887965.5A patent/CN110164423B/zh active Active
-
2019
- 2019-08-02 EP EP19846963.7A patent/EP3836136B1/en active Active
- 2019-08-02 WO PCT/CN2019/099049 patent/WO2020029882A1/zh unknown
- 2019-08-06 TW TW108127934A patent/TWI711035B/zh active
-
2020
- 2020-08-28 US US17/006,440 patent/US11908456B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015130970A1 (en) * | 2014-02-26 | 2015-09-03 | Analog Devices, Inc. | Systems for providing intelligent vehicular systems and services |
CN107533842A (zh) * | 2015-04-09 | 2018-01-02 | 挪威科技工业研究院Tto股份公司 | 语音辨识 |
CN106531179A (zh) * | 2015-09-10 | 2017-03-22 | 中国科学院声学研究所 | 一种基于语义先验的选择性注意的多通道语音增强方法 |
WO2018022222A1 (en) * | 2016-07-29 | 2018-02-01 | Qualcomm Incorporated | Far-field audio processing |
WO2018035334A1 (en) * | 2016-08-19 | 2018-02-22 | Intel IP Corporation | Beam refinement and control signaling for mobile communication systems |
Non-Patent Citations (1)
Title |
---|
MARC DONNER ET AL.: "Awakening history: Preparing a museum tour guide robot for augmenting exhibits", 《2013 EUROPEAN CONFERENCE ON MOBILE ROBOTS》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517677A (zh) * | 2019-08-27 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 语音处理系统、方法、设备、语音识别系统及存储介质 |
CN110517677B (zh) * | 2019-08-27 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 语音处理系统、方法、设备、语音识别系统及存储介质 |
CN111276143A (zh) * | 2020-01-21 | 2020-06-12 | 北京远特科技股份有限公司 | 声源定位方法、装置、语音识别控制方法和终端设备 |
CN112201259A (zh) * | 2020-09-23 | 2021-01-08 | 北京百度网讯科技有限公司 | 声源定位方法、装置、设备和计算机存储介质 |
CN112201259B (zh) * | 2020-09-23 | 2022-11-25 | 北京百度网讯科技有限公司 | 声源定位方法、装置、设备和计算机存储介质 |
CN113281727A (zh) * | 2021-06-02 | 2021-08-20 | 中国科学院声学研究所 | 一种基于水平线列阵的输出增强的波束形成方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3836136A1 (en) | 2021-06-16 |
US11908456B2 (en) | 2024-02-20 |
WO2020029882A1 (zh) | 2020-02-13 |
TWI711035B (zh) | 2020-11-21 |
EP3836136A4 (en) | 2021-09-08 |
TW202008352A (zh) | 2020-02-16 |
EP3836136B1 (en) | 2023-07-19 |
US20200395005A1 (en) | 2020-12-17 |
CN110164423B (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110164423A (zh) | 一种方位角估计的方法、设备及存储介质 | |
JP7078689B2 (ja) | 文脈ホットワード | |
JP6557786B2 (ja) | エコー遅延トラッキング方法、装置及びコンピュータ記憶媒体 | |
US9406313B2 (en) | Adaptive microphone sampling rate techniques | |
GB2552082A (en) | Voice user interface | |
US9570087B2 (en) | Single channel suppression of interfering sources | |
CN109473118B (zh) | 双通道语音增强方法及装置 | |
CN110503970A (zh) | 一种音频数据处理方法、装置及存储介质 | |
WO2019080552A1 (zh) | 基于时延估计的回声消除方法及装置 | |
US9411884B1 (en) | Noise based interest point density pruning | |
CN107577449A (zh) | 唤醒语音的拾取方法、装置、设备及存储介质 | |
US10771621B2 (en) | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications | |
KR20160024858A (ko) | 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버 | |
US20170098457A1 (en) | Identifying sound from a source of interest based on multiple audio feeds | |
CN113132193B (zh) | 智能设备的控制方法、装置、电子设备以及存储介质 | |
CN108010536A (zh) | 回声消除方法、装置、系统及存储介质 | |
CN109658943A (zh) | 一种音频噪声的检测方法、装置、存储介质和移动终端 | |
CN111261143B (zh) | 一种语音唤醒方法、装置及计算机可读存储介质 | |
WO2024041512A1 (zh) | 音频降噪方法、装置、电子设备及可读存储介质 | |
CN110085264B (zh) | 语音信号检测方法、装置、设备及存储介质 | |
CN112634880A (zh) | 话者识别的方法、装置、设备、存储介质以及程序产品 | |
CN115941084A (zh) | 基于时频图模板匹配的水声通信前导信号检测方法及装置 | |
CN116705033A (zh) | 用于无线智能音频设备的片上系统和无线处理方法 | |
WO2023168713A1 (zh) | 交互语音信号处理方法、相关设备及系统 | |
CN110189750A (zh) | 词语检测系统、词语检测方法以及记录介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |