CN110794368A - 一种声源定位方法、装置、智能音箱及存储介质 - Google Patents
一种声源定位方法、装置、智能音箱及存储介质 Download PDFInfo
- Publication number
- CN110794368A CN110794368A CN201911031188.5A CN201911031188A CN110794368A CN 110794368 A CN110794368 A CN 110794368A CN 201911031188 A CN201911031188 A CN 201911031188A CN 110794368 A CN110794368 A CN 110794368A
- Authority
- CN
- China
- Prior art keywords
- sound source
- user
- sound
- angle
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000005236 sound signal Effects 0.000 claims abstract description 189
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 35
- 230000004807 localization Effects 0.000 claims description 36
- 238000001228 spectrum Methods 0.000 claims description 18
- 230000003993 interaction Effects 0.000 claims description 15
- 230000005484 gravity Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种声源定位方法、装置、智能音箱及存储介质。本发明中,首先通过多次拾取用户声音信号,并对用户声音信号进行成功识别,统计获取用户声音信号出现在每个预设的声源角度区域内的概率;当再次拾取到用户声音信号时,基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果,根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。本发明中将用户声音信号出现在每个预设的声源角度区域内的概率考虑进声源定位中,可以避免来自特定角度区域的电视机声音或墙面反射的声音对语音识别的影响,提升语音识别准确率。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种声源定位方法、装置、智能音箱及存储介质。
背景技术
随着科技的发展,越来越多的家庭中开始使用具有语音识别功能的智能音箱设备,在家庭中,用户通常会将智能音箱放置在电视柜上电视机旁,或者放置在靠墙位置,当智能音箱放置在上述位置,用户与智能音箱进行语音交互时,由于电视声音的影响或墙面对用户声音的反射,造成智能音箱不能准确地定位用户声源,进而无法进行准确地语音识别,影响语音识别准确率。
发明内容
本发明主要提供一种声源定位方法,能够克服现有的智能音箱因放置在电视机旁或墙面附近,受电视机声音或墙面对声音反射的影响,导致无法准确定位用户声源,影响语音识别的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种声源定位方法,所述声源定位方法应用于语音交互设备,所述声源定位方法包括:
每当拾取到用户声音信号时,对所述用户声音信号进行语音识别,并确定所述用户声音信号所属的声源角度区域;
对语音识别成功的次数进行计数,以及根据每次所述语音识别成功时所确定的所述用户声音信号所属的声源角度区域,对每个预设的声源角度区域内出现用户声音信号的次数进行计数;
判断所述语音识别成功的次数是否达到预设次数,若是,则根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率;
当再次拾取到用户声音信号时,基于声源定位算法获取所述用户声音信号在多个角度的声源定位计算结果,根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。
优选地,所述声源定位方法还包括:
预先将360°声源角度范围划分为36个声源角度区域,其中,每10°为一个声源角度区域。
优选地,确定所述用户声音信号所属的声源角度区域的步骤具体包括:
根据基于高分辨率谱估计的定位算法或基于波束形成的定位算法或基于到达时间差的定位算法,确定所述用户声音信号所属的声源角度;
根据所述声源角度和预先划分的声源角度区域确定所述用户声音信号所属的声源角度区域。
优选地,所述语音识别成功具体包括:
对所述用户声音信号进行语音识别,并根据所述语音识别结果执行完成相应操作,则所述语音识别成功。
优选地,所述根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率的步骤具体包括:
计算每个所述预设的声源角度区域内出现用户声音信号的次数与所述语音识别成功的次数的比值;
所述比值为每个所述预设的声源角度区域内出现用户声音信号的概率。
优选地,所述获取所述用户声音信号在多个角度的声源定位计算结果,根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度的步骤具体包括:
根据基于高分辨率谱估计的定位算法获取所述用户声音信号在多个角度的谱函数的峰值;
根据每个所述角度所属的声源角度区域和每个所述预设的声源角度区域内出现用户声音信号的概率获取每个所述角度所对应的出现用户声音信号的概率;
计算每个所述角度的谱函数峰值与每个所述角度所对应的出现用户声音信号的概率的乘积,将乘积最大值所对应的角度确定为所述用户声音信号的声源角度。
优选地,所述获取所述用户声音信号在多个角度的声源定位计算结果,根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度的步骤具体包括:
根据基于波束形成的定位算法获取所述用户声音信号在多个角度的功率值;
根据每个所述角度所属的声源角度区域和每个所述预设的声源角度区域内出现用户声音信号的概率获取每个所述角度所对应的出现用户声音信号的概率;
计算每个所述角度的功率值与每个所述角度所对应的出现用户声音信号的概率的乘积,将乘积最大值所对应的角度确定为所述用户声音信号的声源角度。
优选地,所述获取所述用户声音信号在多个角度的声源定位计算结果,根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度的步骤具体包括:
基于到达时间差的定位算法计算多个角度分别对应的时延差,并根据每个角度所对应的所述时延差计算距离差;
根据每个所述角度所属的声源角度区域和每个所述预设的声源角度区域内出现用户声音信号的概率获取每个所述角度所对应的出现用户声音信号的概率;
将每个所述角度所对应的距离差除以每个所述角度所对应的出现用户声音信号的概率得到每个所述角度重新确定的距离差;
根据每个所述角度重新确定的距离差以及麦克风阵列的空间几何位置确定用户声音信号的声源角度。
优选地,所述语音交互设备中设置有重力传感器,当所述重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时,重新确定每个所述预设的声源角度区域内出现用户声音信号的概率。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种声源定位装置,所述声源定位装置包括:
语音识别模块,用于每当拾取到用户声音信号时,对所述用户声音信号进行语音识别,并确定所述用户声音信号所属的声源角度区域;
计数模块,用于对语音识别成功的次数进行计数,以及根据每次所述语音识别成功时所确定的所述用户声音信号所属的声源角度区域,对每个预设的声源角度区域内出现用户声音信号的次数进行计数;
概率统计模块,用于判断所述语音识别成功的次数是否达到预设次数,若是,则根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率;
声源角度定位模块,用于当再次拾取到用户声音信号时,基于声源定位算法获取所述用户声音信号在多个角度的声源定位计算结果,根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种智能音箱,所述智能音箱包括处理器以及存储器,所述处理器耦合所述存储器,所述处理器在工作时执行指令以实现上述的声源定位方法。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述的声源定位方法。
本发明的有益效果是:区别于现有技术的情况,本发明中首先通过多次拾取用户声音信号,并对用户声音信号进行成功识别,统计获取用户声音信号出现在每个预设的声源角度区域内的概率;当再次拾取到用户声音信号时,基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果,根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。本发明中将用户声音信号出现在每个预设的声源角度区域内的概率考虑进声源定位中,可以避免来自特定角度区域的电视机声音或墙面反射的声音对语音识别的影响,提升语音识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本发明一实施例提供的声源定位方法的流程图;
图2是本发明另一实施例提供的声源定位装置的结构示意图;
图3是本发明另一实施例提供的智能音箱的结构示意图;
图4是本发明另一实施例提供的存储介质的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明一实施例提供的声源定位方法的流程图,声源定位方法应用于语音交互设备,语音交互设备可为智能音箱或带有语音交互功能的设备,语音交互设备具有麦克风,声源定位方法包括步骤S100、步骤S200、步骤S300及步骤S400。
步骤S100:每当拾取到用户声音信号时,对用户声音信号进行语音识别,并确定用户声音信号所属的声源角度区域。
具体地,语音交互设备通过麦克风拾取用户声音信号,每次当拾取到用户声音信号后,则对用户声音信号进行语音识别,并基于现有的声源定位算法确定用户声音信号所属的声源角度区域。
进一步具体地,预先将360°声源角度范围划分为36个声源角度区域,其中,每10°为一个声源角度区域,如0°-10°为第一声源角度区域,10°-20°为第二声源角度区域,以此类推,将360°声源角度范围划分为36个声源角度区域。基于现有的声源定位算法确定用户声音信号的声源角度,根据该确定的声源角度和预先划分的声源角度区域确定该用户声音信号所属的声源角度区域。其中,现有的声源定位算法包括基于高分辨率谱估计的定位算法、基于波束形成的定位算法及基于到达时间差的定位算法等,基于现有的一种声源定位算法即可确定用户声音信号的声源角度。如基于声源定位算法确定用户声音信号的声源角度为5°,则用户声音信号属于第一声源角度区域(0°-10°)。
步骤S200:对语音识别成功的次数进行计数,以及根据每次语音识别成功时所确定的用户声音信号所属的声源角度区域,对每个预设的声源角度区域内出现用户声音信号的次数进行计数。
具体地,对用户声音信号进行语音识别,根据语音识别结果执行完成相应操作,则语音识别成功,语音交互设备能够根据用户声音信号中所包含的命令执行完成相应操作,则表示语音交互设备对用户声音信号进行了成功识别。
进一步具体地,对语音识别成功次数从零开始计数,每当语音识别成功,则语音识别成功次数加1;在每次语音识别成功时,根据所确定的用户声音信号所属的声源角度区域,相应的预设的声源角度区域内出现用户声音信号的次数计数加1,每个预设的声源角度区域内出现用户声音信号的次数也是从零开始计数,预设的声源角度区域为预先划分的36个声源角度区域。语音识别成功的总次数与所有预设的声源角度区域内出现用户声音信号的次数的总和相等。如:第一次语音识别成功时,确定的用户声音信号所属的声源角度区域为第一声源角度区域,则第一声源角度区域出现用户声音信号的次数加1;当第二次语音识别成功时,确定的用户声音信号所属的声源角度区域为第一声源角度区域,则第一声源角度区域出现用户声音信号的次数再次加1。
步骤S300:判断语音识别成功的次数是否达到预设次数,若是,则根据语音识别成功的次数以及每个预设的声源角度区域内出现用户声音信号的次数计算每个预设的声源角度区域内出现用户声音信号的概率。
具体地,预设次数可设置为100次,判断语音识别成功的次数是否达到100次,若语音识别成功次数达到100次,则根据语音识别成功的次数以及每个预设的声源角度区域内出现用户声音信号的次数计算每个预设的声源角度区域内出现用户声音信号的概率。其中,计算每个预设的声源角度区域内出现用户声音信号的次数与语音识别成功的次数的比值,该比值为每个预设的声源角度区域内出现用户声音信号的概率。如:语音识别成功的次数为100次,第一声源角度区域内出现用户声音信号的次数为40次,第二声源角度区域内出现用户声音信号的次数为60次,则第一声源角度区域内出现用户声音信号的概率为40%,第二声源角度区域内出现用户声音信号的概率为60%,其他声源角度区域内出现用户声音信号的概率均为零。
步骤S400:当再次拾取到用户声音信号时,基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果,根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定用户声音信号的声源角度。
具体地,在确定了每个预设的声源角度区域内出现用户声音信号的概率之后,当再次拾取到用户声音信号时,基于现有的声源定位算法获取用户声音信号在多个角度的声源定位计算结果,根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定用户声音信号的声源角度。
优选地,当基于高分辨率谱估计的定位算法进行声源定位时,根据基于高分辨率谱估计的定位算法计算用户声音信号在多个角度的频谱的峰值,根据每个角度所属的声源角度区域和每个预设的声源角度区域内出现用户声音信号的概率确定每个角度所对应的出现用户声音信号的概率,计算每个角度的频谱峰值与每个角度所对应的出现用户声音信号的概率的乘积,将乘积最大值所对应的角度确定为用户声音信号的声源角度,即在基于高分辨率谱估计的定位算法中加入每个预设的声源角度区域内出现用户声音信号的概率,进而确定用户声音信号的声源角度。如:基于高分辨率谱估计的定位算法计算得到0°方向的频谱的峰值为20,0°所属的第一声源角度区域内出现用户声音信号的概率为10%,则重新确定0°方向的频谱的峰值为20*10%=2,其他角度方向重新确定的频谱的峰值以此类推,最后将重新确定的各个角度的频谱峰值中的最大值所对应的角度确定为用户声音信号的声源角度,如5°方向所对应的重新确定的频谱峰值最大,则用户声音信号的声源角度为5°
优选地,当基于波束形成的定位算法进行声源定位时,根据基于波束形成的定位算法获取用户声音信号在多个角度的功率值;根据每个角度所属的声源角度区域和每个预设的声源角度区域内出现用户声音信号的概率获取每个角度所对应的出现用户声音信号的概率;计算每个角度的功率值与每个角度所对应的出现用户声音信号的概率的乘积,将乘积最大值所对应的角度确定为用户声音信号的声源角度。如:基于波束形成的定位算法得到0°方向的功率值为20,0°所属的第一声源角度区域内出现用户声音信号的概率为10%,则重新确定0°方向的功率值为20*10%=2,其他角度方向重新确定的功率值以此类推,最后将重新确定的各个角度的功率值中的最大值所对应的角度确定为用户声音信号的声源角度,如5°方向所对应的重新确定的功率值最大,则用户声音信号的声源角度为5°。
优选地,当基于到达时间差的定位算法进行声源定位时,根据基于到达时间差的定位算法计算多个角度分别对应的时延差,并根据每个角度对应的时延差计算距离差,将每个角度所对应的距离差除以每个角度所对应的出现用户声音信号的概率得到每个角度重新确定的距离差,进而根据每个角度重新确定的距离差以及麦克风阵列的空间几何位置确定用户声音信号的声源角度。
本发明实施例中,语音交互设备中设置有重力传感器,当重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时,根据上述步骤S100、步骤S200及步骤S300重新确定每个预设的声源角度区域内出现用户声音信号的概率。当重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时,则表明语音交互设备的放置位置发生变化,预先划分的声源角度区域所对应的空间位置随着发生变化,此时需要重新确定每个预设的声源角度区域内出现用户声音信号的概率。
在本发明实施例中,由于电视机声音方向和墙面方向出现用户声音信号的概率较小甚至为零,在声源定位算法中,加入各预设的声源角度区域内出现用户声音信号的概率,则可弱化电视机声音方向和墙面方向的声音信号对声源定位计算的影响,提高声源定位算法进行声源定位的准确率,进而提升语音识别的准确率。
在本发明实施例中,首先通过多次拾取用户声音信号,并对用户声音信号进行成功识别,统计获取用户声音信号出现在每个预设的声源角度区域内的概率;当再次拾取到用户声音信号时,基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果,根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。本发明中将用户声音信号出现在每个预设的声源角度区域内的概率考虑进声源定位中,可以避免来自特定角度区域的电视机声音或墙面反射的声音对语音识别的影响,提升语音识别准确率。
实施例二
图2为本发明另一实施例提供的声源定位装置的结构示意图,声源定位装置包括语音识别模块100、计数模块200、概率统计模块300及声源角度定位模块400。
语音识别模块100用于每当拾取到用户声音信号时,对用户声音信号进行语音识别,并确定用户声音信号所属的声源角度区域.
计数模块200用于对语音识别成功的次数进行计数,以及根据每次语音识别成功时所确定的用户声音信号所属的声源角度区域,对每个预设的声源角度区域内出现用户声音信号的次数进行计数。
概率统计模块300用于判断语音识别成功的次数是否达到预设次数,若是,则根据语音识别成功的次数以及每个预设的声源角度区域内出现用户声音信号的次数计算每个预设的声源角度区域内出现用户声音信号的概率。
声源角度定位模块400用于当再次拾取到用户声音信号时,基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果,根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定用户声音信号的声源角度。
本发明实施例提供的声源定位装置的具体实现与声源定位方法的具体实现相同,声源定位装置的具体实现可参阅上述实施例一的描述,在此不再赘述。
实施例三
图3为本发明另一实施例提供的智能音箱的结构示意图,智能音箱包括处理器500以及存储器600,处理器500耦合存储器600,处理器500在工作时执行指令以实现上述任一实施例中的声源定位方法。
其中,处理器500还可以称为CPU(Central Processing Unit,中央处理单元)。处理器500可能是一种集成电路芯片,具有信号的处理能力。处理器500还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器,但不仅限于此。
实施例四
参阅图4,图4是本发明另一实施例提供的存储介质的示意图,本实施例中的计算机可读存储介质存储有计算机程序700,该计算机程序700能够被处理器500执行以实现上述任一实施例中的声源定位方法。
可选的,该可读存储介质可以是U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
本发明中,首先通过多次拾取用户声音信号,并对用户声音信号进行成功识别,统计获取用户声音信号出现在每个预设的声源角度区域内的概率;当再次拾取到用户声音信号时,基于声源定位算法获取用户声音信号在多个角度的声源定位计算结果,根据多个角度的声源定位计算结果以及每个预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。本发明中将用户声音信号出现在每个预设的声源角度区域内的概率考虑进声源定位中,可以避免来自特定角度区域的电视机声音或墙面反射的声音对语音识别的影响,提升语音识别准确率。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (12)
1.一种声源定位方法,其特征在于,所述声源定位方法应用于语音交互设备,所述声源定位方法包括:
每当拾取到用户声音信号时,对所述用户声音信号进行语音识别,并确定所述用户声音信号所属的声源角度区域;
对语音识别成功的次数进行计数,以及根据每次所述语音识别成功时所确定的所述用户声音信号所属的声源角度区域,对每个预设的声源角度区域内出现用户声音信号的次数进行计数;
判断所述语音识别成功的次数是否达到预设次数,若是,则根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率;
当再次拾取到用户声音信号时,基于声源定位算法获取所述用户声音信号在多个角度的声源定位计算结果,根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。
2.根据权利要求1所述的声源定位方法,其特征在于,所述声源定位方法还包括:
预先将360°声源角度范围划分为36个声源角度区域,其中,每10°为一个声源角度区域。
3.根据权利要求2所述的声源定位方法,其特征在于,确定所述用户声音信号所属的声源角度区域的步骤具体包括:
根据基于高分辨率谱估计的定位算法或基于波束形成的定位算法或基于到达时间差的定位算法,确定所述用户声音信号所属的声源角度;
根据所述声源角度和预先划分的声源角度区域确定所述用户声音信号所属的声源角度区域。
4.根据权利要求1所述的声源定位方法,其特征在于,所述语音识别成功具体包括:
对所述用户声音信号进行语音识别,并根据所述语音识别结果执行完成相应操作,则所述语音识别成功。
5.根据权利要求1所述的声源定位方法,其特征在于,所述根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率的步骤具体包括:
计算每个所述预设的声源角度区域内出现用户声音信号的次数与所述语音识别成功的次数的比值;
所述比值为每个所述预设的声源角度区域内出现用户声音信号的概率。
6.根据权利要求1所述的声源定位方法,其特征在于,所述获取所述用户声音信号在多个角度的声源定位计算结果,根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度的步骤具体包括:
根据基于高分辨率谱估计的定位算法获取所述用户声音信号在多个角度的谱函数的峰值;
根据每个所述角度所属的声源角度区域和每个所述预设的声源角度区域内出现用户声音信号的概率获取每个所述角度所对应的出现用户声音信号的概率;
计算每个所述角度的谱函数峰值与每个所述角度所对应的出现用户声音信号的概率的乘积,将乘积最大值所对应的角度确定为所述用户声音信号的声源角度。
7.根据权利要求1所述的声源定位方法,其特征在于,所述获取所述用户声音信号在多个角度的声源定位计算结果,根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度的步骤具体包括:
根据基于波束形成的定位算法获取所述用户声音信号在多个角度的功率值;
根据每个所述角度所属的声源角度区域和每个所述预设的声源角度区域内出现用户声音信号的概率获取每个所述角度所对应的出现用户声音信号的概率;
计算每个所述角度的功率值与每个所述角度所对应的出现用户声音信号的概率的乘积,将乘积最大值所对应的角度确定为所述用户声音信号的声源角度。
8.根据权利要求1所述的声源定位方法,其特征在于,所述获取所述用户声音信号在多个角度的声源定位计算结果,根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度的步骤具体包括:
基于到达时间差的定位算法计算多个角度分别对应的时延差,并根据每个角度所对应的所述时延差计算距离差;
根据每个所述角度所属的声源角度区域和每个所述预设的声源角度区域内出现用户声音信号的概率获取每个所述角度所对应的出现用户声音信号的概率;
将每个所述角度所对应的距离差除以每个所述角度所对应的出现用户声音信号的概率得到每个所述角度重新确定的距离差;
根据每个所述角度重新确定的距离差以及麦克风阵列的空间几何位置确定用户声音信号的声源角度。
9.根据权利要求1所述的声源定位方法,其特征在于,所述语音交互设备中设置有重力传感器,当所述重力传感器检测到X轴、Y轴或Z轴的数据变化值超过预设阈值时,重新确定每个所述预设的声源角度区域内出现用户声音信号的概率。
10.一种声源定位装置,其特征在于,所述声源定位装置包括:
语音识别模块,用于每当拾取到用户声音信号时,对所述用户声音信号进行语音识别,并确定所述用户声音信号所属的声源角度区域;
计数模块,用于对语音识别成功的次数进行计数,以及根据每次所述语音识别成功时所确定的所述用户声音信号所属的声源角度区域,对每个预设的声源角度区域内出现用户声音信号的次数进行计数;
概率统计模块,用于判断所述语音识别成功的次数是否达到预设次数,若是,则根据所述语音识别成功的次数以及每个所述预设的声源角度区域内出现用户声音信号的次数计算每个所述预设的声源角度区域内出现用户声音信号的概率;
声源角度定位模块,用于当再次拾取到用户声音信号时,基于声源定位算法获取所述用户声音信号在多个角度的声源定位计算结果,根据多个角度的所述声源定位计算结果以及每个所述预设的声源角度区域内出现用户声音信号的概率确定所述用户声音信号的声源角度。
11.一种智能音箱,其特征在于,所述智能音箱包括处理器以及存储器,所述处理器耦合所述存储器,所述处理器在工作时执行指令以实现权利要求1~9任一项所述的声源定位方法。
12.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行以实现权利要求1~9任一项所述的声源定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911031188.5A CN110794368B (zh) | 2019-10-28 | 2019-10-28 | 一种声源定位方法、装置、智能音箱及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911031188.5A CN110794368B (zh) | 2019-10-28 | 2019-10-28 | 一种声源定位方法、装置、智能音箱及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110794368A true CN110794368A (zh) | 2020-02-14 |
CN110794368B CN110794368B (zh) | 2021-10-19 |
Family
ID=69441691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911031188.5A Active CN110794368B (zh) | 2019-10-28 | 2019-10-28 | 一种声源定位方法、装置、智能音箱及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110794368B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489753A (zh) * | 2020-06-24 | 2020-08-04 | 深圳市友杰智新科技有限公司 | 抗噪声的声源定位方法、装置和计算机设备 |
CN111862987A (zh) * | 2020-07-20 | 2020-10-30 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN112098942A (zh) * | 2020-02-24 | 2020-12-18 | 苏州触达信息技术有限公司 | 一种智能设备的定位方法和智能设备 |
CN112098934A (zh) * | 2020-02-24 | 2020-12-18 | 苏州触达信息技术有限公司 | 一种智能设备的定位方法和智能设备 |
CN112363112A (zh) * | 2020-10-13 | 2021-02-12 | 厦门亿联网络技术股份有限公司 | 一种基于线性麦克风阵列的声源定位方法及装置 |
CN112652320A (zh) * | 2020-12-04 | 2021-04-13 | 深圳地平线机器人科技有限公司 | 声源定位方法和装置、计算机可读存储介质、电子设备 |
CN113077803A (zh) * | 2021-03-16 | 2021-07-06 | 联想(北京)有限公司 | 一种语音处理方法、装置、可读存储介质及电子设备 |
CN115424633A (zh) * | 2022-08-02 | 2022-12-02 | 钉钉(中国)信息技术有限公司 | 说话人定位方法、装置及设备 |
WO2023273469A1 (zh) * | 2021-06-30 | 2023-01-05 | 达闼机器人股份有限公司 | 模型训练方法、语音检测定位方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106950542A (zh) * | 2016-01-06 | 2017-07-14 | 中兴通讯股份有限公司 | 声源的定位方法、装置及系统 |
CN106970356A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种复杂环境下声源定位跟踪方法 |
CN107705785A (zh) * | 2017-08-01 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 智能音箱的声源定位方法、智能音箱及计算机可读介质 |
CN108800473A (zh) * | 2018-07-20 | 2018-11-13 | 珠海格力电器股份有限公司 | 设备的控制方法及装置、存储介质和电子装置 |
KR20190064270A (ko) * | 2017-11-30 | 2019-06-10 | 삼성전자주식회사 | 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 |
CN109920443A (zh) * | 2019-03-22 | 2019-06-21 | 网易有道信息技术(北京)有限公司 | 一种语音处理机器 |
-
2019
- 2019-10-28 CN CN201911031188.5A patent/CN110794368B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106950542A (zh) * | 2016-01-06 | 2017-07-14 | 中兴通讯股份有限公司 | 声源的定位方法、装置及系统 |
CN106970356A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种复杂环境下声源定位跟踪方法 |
CN107705785A (zh) * | 2017-08-01 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 智能音箱的声源定位方法、智能音箱及计算机可读介质 |
KR20190064270A (ko) * | 2017-11-30 | 2019-06-10 | 삼성전자주식회사 | 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스 |
CN108800473A (zh) * | 2018-07-20 | 2018-11-13 | 珠海格力电器股份有限公司 | 设备的控制方法及装置、存储介质和电子装置 |
CN109920443A (zh) * | 2019-03-22 | 2019-06-21 | 网易有道信息技术(北京)有限公司 | 一种语音处理机器 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112098942A (zh) * | 2020-02-24 | 2020-12-18 | 苏州触达信息技术有限公司 | 一种智能设备的定位方法和智能设备 |
CN112098934A (zh) * | 2020-02-24 | 2020-12-18 | 苏州触达信息技术有限公司 | 一种智能设备的定位方法和智能设备 |
CN112098942B (zh) * | 2020-02-24 | 2024-05-14 | 苏州触达信息技术有限公司 | 一种智能设备的定位方法和智能设备 |
CN111489753A (zh) * | 2020-06-24 | 2020-08-04 | 深圳市友杰智新科技有限公司 | 抗噪声的声源定位方法、装置和计算机设备 |
CN111862987A (zh) * | 2020-07-20 | 2020-10-30 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN111862987B (zh) * | 2020-07-20 | 2021-12-28 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
US11735168B2 (en) | 2020-07-20 | 2023-08-22 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for recognizing voice |
CN112363112B (zh) * | 2020-10-13 | 2024-04-09 | 厦门亿联网络技术股份有限公司 | 一种基于线性麦克风阵列的声源定位方法及装置 |
CN112363112A (zh) * | 2020-10-13 | 2021-02-12 | 厦门亿联网络技术股份有限公司 | 一种基于线性麦克风阵列的声源定位方法及装置 |
CN112652320A (zh) * | 2020-12-04 | 2021-04-13 | 深圳地平线机器人科技有限公司 | 声源定位方法和装置、计算机可读存储介质、电子设备 |
CN112652320B (zh) * | 2020-12-04 | 2024-04-12 | 深圳地平线机器人科技有限公司 | 声源定位方法和装置、计算机可读存储介质、电子设备 |
CN113077803A (zh) * | 2021-03-16 | 2021-07-06 | 联想(北京)有限公司 | 一种语音处理方法、装置、可读存储介质及电子设备 |
CN113077803B (zh) * | 2021-03-16 | 2024-01-23 | 联想(北京)有限公司 | 一种语音处理方法、装置、可读存储介质及电子设备 |
WO2023273469A1 (zh) * | 2021-06-30 | 2023-01-05 | 达闼机器人股份有限公司 | 模型训练方法、语音检测定位方法、装置、设备及介质 |
CN115424633A (zh) * | 2022-08-02 | 2022-12-02 | 钉钉(中国)信息技术有限公司 | 说话人定位方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110794368B (zh) | 2021-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110794368B (zh) | 一种声源定位方法、装置、智能音箱及存储介质 | |
US10650523B2 (en) | Image segmentation method, image segmentation system and storage medium and apparatus including the same | |
WO2020088153A1 (zh) | 语音处理方法、装置、存储介质和电子设备 | |
US6970796B2 (en) | System and method for improving the precision of localization estimates | |
CN112508037B (zh) | 图像模板匹配方法、装置及存储装置 | |
US9646220B2 (en) | Methods and media for averaging contours of wafer feature edges | |
US10834501B2 (en) | Information processing method, information processing device, and recording medium | |
CN110111812B (zh) | 一种键盘击键内容的自适应识别方法和系统 | |
US12062196B2 (en) | Method and system for registering circuit design layout and scanning electron microscope image, circuit design layout and imaging error calculation method thereof, and electronic device | |
CN110889009A (zh) | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 | |
US20090116731A1 (en) | Method and system for detection of concha and intertragal notch point in 3D undetailed ear impressions | |
CN110797051A (zh) | 一种唤醒门限设置方法、装置、智能音箱及存储介质 | |
CN113311390A (zh) | 基于分布式麦阵的声源定位方法、装置、设备及存储介质 | |
CN112951263A (zh) | 语音增强方法、装置、设备和存储介质 | |
CN117724401A (zh) | 一种数控机床自动化数据采集方法、装置、设备及介质 | |
CN115546143A (zh) | 定位晶圆的中心点的方法、装置、存储介质以及电子设备 | |
WO2015160455A2 (en) | Systems, apparatus, and methods for location estimation of a mobile device | |
KR102566134B1 (ko) | 반도체 소자의 3d 프로파일링 시스템 및 이의 동작 방법 | |
CN113140021A (zh) | 矢量线生成方法、系统及计算机可读存储介质 | |
CN113341373A (zh) | 一种定位方法、装置和电子设备 | |
CN113297943B (zh) | 基于混合现实的设备辅助控制技术 | |
CN113793386B (zh) | 相机内参标定方法、装置、设备、介质及程序产品 | |
CN112329165B (zh) | 一种轮罩骨架方管弯曲回弹的建模方法、装置及设备 | |
CN112665583B (zh) | 惯性导航方法、终端设备和计算机可读存储介质 | |
KR101957993B1 (ko) | 소리 데이터 분류 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230322 Address after: 518000 32a04, block a, aerospace science and Technology Plaza, 1698 Haide Third Road, Haizhu community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Patentee after: Xingluo home yunwulian Technology Co.,Ltd. Address before: 31a01, block a, aerospace science and Technology Plaza, no.1698, Haizhu community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000 Patentee before: Star Network Intelligent Technology Co.,Ltd. |