CN109975795B - 一种声源追踪方法和装置 - Google Patents

一种声源追踪方法和装置 Download PDF

Info

Publication number
CN109975795B
CN109975795B CN201711455778.1A CN201711455778A CN109975795B CN 109975795 B CN109975795 B CN 109975795B CN 201711455778 A CN201711455778 A CN 201711455778A CN 109975795 B CN109975795 B CN 109975795B
Authority
CN
China
Prior art keywords
sound source
tracking
potential
filter channel
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711455778.1A
Other languages
English (en)
Other versions
CN109975795A (zh
Inventor
耿岭
陈宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711455778.1A priority Critical patent/CN109975795B/zh
Publication of CN109975795A publication Critical patent/CN109975795A/zh
Application granted granted Critical
Publication of CN109975795B publication Critical patent/CN109975795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves

Abstract

本发明公开了一种声源追踪方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:从定位到的潜在声源中识别出新声源,所述新声源为与当前滤波器通道中的追踪声源不同的声源;如果当前各滤波器通道均被占用,则对每个所述追踪声源进行评价,并根据评价结果选取一追踪声源;将选取的追踪声源从所在滤波器通道删除,以将所述新声源作为追踪声源添加到该滤波器通道。该实施方式能够使新声源出现时能够被及时追踪到,并可根据硬件资源和计算能力设置合适的滤波器通道数量,解决滤波器通道计算资源不足的问题。

Description

一种声源追踪方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种声源追踪方法和装置。
背景技术
麦克风阵列声源定位追踪系统是利用麦克风阵列采集语音信号,并对采集到的信号进行处理,采用一定的算法去定位追踪声源的位置。该系统可应用于视频会议、机器人语音识别、智能家居等多种场合。定位追踪过程会分成两个大的步骤:定位和追踪。其中定位的主要功能是麦克风阵列根据采集的数据,通过定位算法计算出n个(可以根据实际需求设定具体数值)潜在的声源位置;追踪主要功能是根据定位到的潜在声源位置,采用粒子滤波技术来追踪声源的位置,其中每个追踪到的位置对应一个粒子滤波器通道。
在现有的声源追踪方案中,通过初始化较多的滤波器通道,采用一定的逻辑管理已存在、新增的声源,其中,当追踪到的声源个数超过滤波器通道的时,系统使用“鸵鸟算法”,即当做什么事情都没发生,并且在一些实际的使用过程中,由于应用系统片上处理器资源有限,往往不能提供足够多的计算资源。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
当滤波器通道被完全占用时,如果出现新的声源,系统缺乏相应的处理策略;
由于处理器资源的限制,不足以支持太多滤波器通道的计算。
发明内容
有鉴于此,本发明实施例提供一种声源追踪方法和装置,能够使新声源出现时能够被及时追踪到,并可根据硬件资源和计算能力设置合适的滤波器通道数量,解决滤波器通道计算资源不足的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种声源追踪方法。
一种声源追踪方法,包括:从定位到的潜在声源中识别出新声源;如果当前各滤波器通道均被占用,则对每个所述追踪声源进行评价,并根据评价结果选取一追踪声源;将选取的追踪声源从所在滤波器通道删除,以将所述新声源作为追踪声源添加到该滤波器通道。
可选地,从定位到的潜在声源中识别出新声源的步骤之前,包括:分别计算每个所述潜在声源与各追踪声源的匹配概率;从定位到的潜在声源中识别出新声源的步骤,包括:根据定位到的每个潜在声源与各追踪声源的匹配概率,计算所述每个潜在声源为新声源的概率;将为新声源的概率大于第一阈值的所述潜在声源识别为新声源。
可选地,从定位到的潜在声源中识别出新声源的步骤之前,还包括:根据每个所述潜在声源与各追踪声源的匹配概率,确定目标追踪声源和目标潜在声源,其中,所述目标追踪声源为与各潜在声源的匹配概率均小于预设的匹配阈值的所述追踪声源,所述目标潜在声源为与各追踪声源的匹配概率均小于所述预设的匹配阈值的所述潜在声源;统计所述目标追踪声源的累计未出现时间;将所述累计未出现时间大于第二阈值的所述目标追踪声源从所在滤波器通道删除;将所述目标潜在声源作为追踪声源添加到当前未被占用的滤波器通道。
可选地,对每个所述追踪声源进行评价,并根据评价结果选取一追踪声源的步骤,包括:按照预设的评分规则计算每个所述追踪声源的评分值,并选取所述评分值最低的追踪声源。
可选地,按照预设的评分规则计算每个所述追踪声源的评分值的步骤,包括:读取已存的各追踪声源在滤波器通道的存活时间、预设的采样周期数量、各追踪声源与预设时间段内各时刻定位到的潜在声源的匹配概率,以计算各追踪声源的评分值。
可选地,将所述新声源作为追踪声源添加到该滤波器通道的步骤,包括:根据所述新声源被定位的时间顺序,将最先被定位到的新声源添加到该滤波器通道。
根据本发明实施例的另一方面,提供了一种声源追踪装置。
一种声源追踪装置,包括:识别模块,用于从定位到的潜在声源中识别出新声源;评价模块,用于如果当前各滤波器通道均被占用,则对每个所述追踪声源进行评价,并根据评价结果选取一追踪声源;更新模块,用于将选取的追踪声源从所在滤波器通道删除,以将所述新声源作为追踪声源添加到该滤波器通道。
可选地,还包括计算模块,用于:分别计算每个所述潜在声源与各追踪声源的匹配概率;所述识别模块还用于:根据定位到的每个潜在声源与各追踪声源的匹配概率,计算所述每个潜在声源为新声源的概率;将为新声源的概率大于第一阈值的所述潜在声源识别为新声源。
可选地,还包括处理模块,用于:根据每个所述潜在声源与各追踪声源的匹配概率,确定目标追踪声源和目标潜在声源,其中,所述目标追踪声源为与各潜在声源的匹配概率均小于预设的匹配阈值的所述追踪声源,所述目标潜在声源为与各追踪声源的匹配概率均小于所述预设的匹配阈值的所述潜在声源;统计所述目标追踪声源的累计未出现时间;将所述累计未出现时间大于第二阈值的所述目标追踪声源从所在滤波器通道删除;将所述目标潜在声源作为追踪声源添加到当前未被占用的滤波器通道。
可选地,所述评价模块还用于:按照预设的评分规则计算每个所述追踪声源的评分值,并选取所述评分值最低的追踪声源。
可选地,所述评价模块包括评分值计算子模块,用于:读取已存的各追踪声源在滤波器通道的存活时间、预设的采样周期数量、各追踪声源与预设时间段内各时刻定位到的潜在声源的匹配概率,以计算各追踪声源的评分值。
可选地,所述更新模块包括声源添加子模块,用于:根据所述新声源被定位的时间顺序,将最先被定位到的新声源添加到该滤波器通道。
根据本发明实施例的又一方面,提供了一种电子设备。
一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明的声源追踪方法。
根据本发明实施例的又一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明的声源追踪方法。
上述发明中的一个实施例具有如下优点或有益效果:从定位到的潜在声源中识别出新声源;如果当前各滤波器通道均被占用,则对每个追踪声源进行评价,并根据评价结果选取一追踪声源;将选取的追踪声源从所在滤波器通道删除,以将新声源作为追踪声源添加到该滤波器通道。能够使新声源出现时能够被及时追踪到,并可根据硬件资源和计算能力设置合适的滤波器通道数量,解决滤波器通道计算资源不足的问题。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的声源追踪方法的主要步骤示意图;
图2是根据本发明实施例的声源定位追踪的优选流程示意图;
图3是根据本发明实施例的声源定位流程示意图;
图4是根据本发明实施例的声源追踪装置的主要模块示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的声源追踪方法的主要步骤示意图。
如图1所示,本发明实施例的声源追踪方法主要包括如下的步骤S101至步骤S103。
步骤S101:从定位到的潜在声源中识别出新声源。
其中,新声源为与当前滤波器通道中的追踪声源不同的声源。
追踪声源即已追踪到的声源,每个追踪声源占用一个滤波器通道。
步骤S101之前,还可以分别计算每个潜在声源与各追踪声源的匹配概率。
步骤S101之前,还可以包括:根据每个潜在声源与各追踪声源的匹配概率,确定目标追踪声源和目标潜在声源,其中,目标追踪声源为与各潜在声源的匹配概率均小于预设的匹配阈值的追踪声源,目标潜在声源为与各追踪声源的匹配概率均小于预设的匹配阈值的潜在声源;统计目标追踪声源的累计未出现时间;将累计未出现时间大于第二阈值的目标追踪声源从所在滤波器通道删除;将目标潜在声源作为追踪声源添加到当前未被占用的滤波器通道。
步骤S101具体可以包括:根据定位到的每个潜在声源与各追踪声源的匹配概率,计算每个潜在声源为新声源的概率;将为新声源的概率大于第一阈值的潜在声源识别为新声源。
步骤S102:如果当前各滤波器通道均被占用,则对每个追踪声源进行评价,并根据评价结果选取一追踪声源。
步骤S102具体可以包括:如果当前各滤波器通道均被占用,则按照预设的评分规则计算每个追踪声源的评分值,并选取评分值最低的追踪声源。
按照预设的评分规则计算每个追踪声源的评分值的步骤,具体可以可以包括:读取已存的各追踪声源在滤波器通道的存活时间、预设的采样周期数量、各追踪声源与预设时间段内各时刻定位到的潜在声源的匹配概率;根据各追踪声源在滤波器通道的存活时间、预设的采样周期数量、各追踪声源与预设时间段内各时刻定位到的潜在声源的匹配概率,计算各追踪声源的评分值。
步骤S103:将选取的追踪声源从所在滤波器通道删除,以将新声源作为追踪声源添加到该滤波器通道。
将新声源作为追踪声源添加到该滤波器通道的步骤,具体可以包括:根据新声源被定位的时间顺序,将最先被定位到的新声源添加到该滤波器通道。
图2是根据本发明实施例的声源定位追踪的优选流程示意图。
如图2所示,本发明实施例的声源定位追踪的优选流程包括如下的步骤S201至步骤S216。
步骤S201:根据采集的声源数据定位得到潜在声源。
利用采集的声源数据进行声源定位,以得到潜在声源。声源定位的主要功能是根据麦克风阵列采集到的语音数据进行处理,图3示出了本发明实施例的声源定位流程示意图,如图3所示,本发明实施例的声源定位流程可包括:分帧、加窗、FFT(快速傅里叶变换)、噪声估计、定向波束形成、搜索能量最大值等步骤。其中,
分帧:即将采集的声源数据(例如语音数据)进行分帧,帧大小为1024个采样点,帧移为512个采样点,即当前帧前512个声源数据与上一帧后512个声源数据相同;
加窗:由于声源数据是非平稳的数据,而傅里叶变换需要信号是平稳的,因此需要通过加窗将非平稳信号变成短时平稳信号;
FFT:对加窗后的上述信号进行FFT(快速傅里叶变换),以将该信号由时域信号转换成频域信号;
噪声估计:在频率域进行噪声估计,具体包括平稳噪声和混响等;
定向波束形成:对上述处理后的信号进行定向波束,记录当前每个方向的能量,形成能量位置查找表;
搜索能量最大值:在能量位置查找表中查找出能量最大的预设数量个位置(具体数量可以根据需要自定义),作为潜在声源的位置。
步骤S202:分别计算每个潜在声源与各追踪声源的匹配概率。
每个潜在声源与各追踪声源的匹配概率即每个潜在声源的位置与各追踪声源的位置的匹配概率。第q个潜在声源的位置与第j个追踪声源位置的匹配概率用pqj表示,匹配概率pqj的计算模型满足:第q个潜在声源的位置Loc'q服从以第j个追踪声源位置Locj为中心的正态分布,对应的正态分布公式为:
Figure BDA0001529220150000081
其中,上述正态分布公式中,
f(x)为第q个潜在声源的位置与第j个追踪声源的位置的匹配概率pqj
x为第q个潜在声源的位置Loc'q
μ为第j个追踪声源的位置Locj
σ2为方差,可以需求设定,例如设置σ2=5。
上述匹配概率的计算模型的直观解释为:如果潜在声源位于追踪声源的附近,则该潜在声源与该追踪声源的匹配概率较大,如果潜在声源距离所有的追踪声源都比较远,则该潜在声源与各追踪声源的匹配概率均很小,该潜在声源很可能就是一个新声源。
步骤S203:判断潜在声源与追踪声源的匹配概率是否大于预设的匹配阈值,若是执行步骤S204,若否,执行步骤S205。
每个追踪声源对应一个预设的匹配阈值,各追踪声源的匹配阈值可以相同或不同。判断某一潜在声源与某一追踪声源的匹配概率是否大于预设的匹配阈值,即将该潜在声源与该追踪声源的匹配概率与对应该追踪声源的预设的匹配阈值进行比较,如果该潜在声源与该追踪声源的匹配概率大于对应该追踪声源的预设的匹配阈值,表明该潜在声源与该追踪声源匹配,即该潜在声源为再次出现的该追踪声源,否则,该潜在声源与该追踪声源不匹配。
步骤S204:将相应追踪声源的累计未出现时间清零。
当潜在声源与追踪声源的匹配概率大于预设的匹配阈值,则将相应追踪声源的累计未出现时间清零。每一滤波器通道对应一个用于统计该滤波器通道的追踪声源未出现时间的计数器,将相应追踪声源的累计未出现时间清零即将该统计追踪声源未出现时间的计数器重置,表示该追踪声源再次出现,需要重新统计该追踪声源的累计未出现时间。
执行完步骤S204之后,执行步骤S205。
步骤S205:将追踪声源的位置更新为该追踪声源匹配概率大于预设的匹配阈值的潜在声源的位置,并统计该追踪声源在滤波器通道的存活时间。
每一滤波器通道还对应一个用于统计该滤波器通道的追踪声源存活时间的计数器。统计该追踪声源在滤波器通道的存活时间,即将用于统计该滤波器通道的追踪声源存活时间的计数器的计数值累加。
步骤S206:确定目标追踪声源和目标潜在声源。
其中,目标追踪声源为与各潜在声源的匹配概率均小于或等于预设匹配阈值的追踪声源,即与当前定位到的各潜在声源均不匹配的追踪声源。
目标潜在声源为与各追踪声源的匹配概率均小于或等于预设匹配阈值的潜在声源,即该潜在声源与各追踪声源均不匹配。
步骤S207:统计目标追踪声源的累计未出现时间。
当某一追踪声源当前没有再次出现,则该追踪声源为目标追踪声源,统计该目标追踪声源的累计未出现时间,即将该目标追踪声源所在滤波器通道对应的用于统计追踪声源未出现时间的计数器的计数值累加。
步骤S208:将累计未出现时间大于第二阈值的目标追踪声源从所在滤波器通道删除。
如果在最近一段时间内(该“最近一段时间”的具体时间范围,即:从统计目标追踪声源未出现时间的计数器最近一次被重置到该计数器统计的该目标追踪声源的累计未出现时间大于第二阈值的时间点之间的一段时间范围),该目标追踪声源都没有再次出现,则将该目标追踪声源从所在滤波器通道中删除。
步骤S209:将目标潜在声源作为追踪声源分别添加到当前未被占用的滤波器通道。
通过执行步骤S209,使添加到当前未被占用的滤波器通道的目标潜在声源成为占用滤波器通道的追踪声源。
步骤S210:根据定位到的每个潜在声源与各追踪声源的匹配概率,计算每个潜在声源为新声源的概率。
其中,新声源为与当前滤波器通道中的追踪声源不同的声源。
假设追踪声源的数量为n,第q个潜在声源的位置与第j个追踪声源位置的匹配概率用pqj表示,则第q个潜在声源为新声源的概率Pqnew为:
Figure BDA0001529220150000111
步骤S211:将为新声源的概率大于第一阈值的潜在声源识别为新声源。
步骤S212:判断当前各滤波器通道是否均被占用,若是,则执行步骤S213,若否,则执行步骤S214。
具体地,可通过比较当前各滤波器通道中的追踪声源数量与初始化的滤波器通道数量来判断当前各滤波器通道是否均被占用,如果当前各滤波器通道中的追踪声源数量等于初始化的滤波器通道数量,则当前各滤波器通道均被占用,否则存在未被占用的滤波器通道。
步骤S213:按照预设的评分规则计算每个追踪声源的评分值。
预设的评分规则即对追踪声源评分值的计算规则或方法,可以根据具体需求进行自定义,例如可以综合该追踪声源的存活时间和预设时间段内与各时刻定位到的潜在声源的匹配概率进行评分。步骤S213的具体步骤可以包括:读取已存的各追踪声源在滤波器通道的存活时间、采样周期数量、各追踪声源与预设时间段内各时刻定位到的潜在声源的匹配概率;根据读取的上述存活时间、采样周期数量、匹配概率,计算各追踪声源的评分值。
可通过如下公式计算每个追踪声源的评分值(以Score表示):
Figure BDA0001529220150000112
其中,a1和a2为加权系数,且满足0<a1<1和0<a2<1,且a1+a2=1,例如a1=0.7,a2=0.3,a1和a2可以根据需要自定义,增加a1的权值可以增大追踪声源的存活时间对评分值的影响,增加a2的权值可以增大追踪声源与预设时间段内各时刻定位到的潜在声源的匹配概率对评分值的影响;
tlive为追踪声源在滤波器通道的存活时间,该值可以通过读取用于统计该滤波器通道的追踪声源存活时间的计数器的计数值来获得;
Pm(tlive-k)表示追踪声源与当前时刻之前的第k个时刻定位到的潜在声源的匹配概率;
W为采样周期的数量,例如为100个,可以根据需要来设置,假设采样频率是48000Hz,即采样周期Tn=1/48000s,即表示每秒会有48000个采样点,对采集的声源数据进行分帧时,1024个采样点组成一帧,其中位于前面的512个点是前一帧位于后面的512个采样点,剩余的512个采样点(1024个采样点中位于后面的512个采样点)是新采集的采样点,追踪位置每一帧更新一次;
L为预设时间段的时长,可以自定义,例如定义L=5秒。
上述评分值计算公式表示的含义为,在最初一段时间内,追踪声源在滤波器通道中存在的时间越长越不容易被删除,但是过了一定时间之后(比如大约100个采样周期之后),出现频次越高的声源越不容易被删除。
执行完步骤S213之后,执行步骤S215。
步骤S214:将新声源作为追踪声源添加到各未被占用的滤波器通道。
步骤S215:选取评分值最低的追踪声源。
可以对评分值排序,将评分值最低的追踪声源选取出。
步骤S216:将选取的追踪声源从所在滤波器通道删除,以将一新声源作为追踪声源添加到该滤波器通道。
通过本发明实施例的声源追踪方法可以实现动态声源管理,根据上述对声源定位追踪流程的详细介绍,本发明实施例的动态声源管理逻辑主要包括两个部分,一是追踪声源匹配更新及删除的处理逻辑;二是新增的声源的添加处理逻辑。
追踪声源匹配更新及删除的处理逻辑主要包括:将追踪声源与定位到的各潜在声源的匹配概率与分别与预先设定的阈值(即每个追踪声源对应的预设的匹配阈值)进行比较,如果大于该阈值,则将用于统计该滤波器通道的追踪声源未出现时间的计数器重置,否则累加该计数器;将该计数器的计数值与第二阈值比较,如果该计数值大于第二阈值,则表明在最近一段时间(该“最近一段时间”的具体时间范围,即:从统计该追踪声源未出现时间的计数器最近一次被重置到该计数器统计的该追踪声源的累计未出现时间大于第二阈值的时间点之间的一段时间范围)内当前追踪声源没有被匹配,即在该最近一段时间内该追踪声源没有出现,则将该追踪声源从滤波器通道中删除,否则进行追踪位置的更新。
新增的声源的添加处理逻辑主要包括:将潜在声源是新声源的概率与设定的阈值(即第一阈值)比较,如果大于该第一阈值,说明潜在声源可能是新增的声源,则获取当前的追踪声源的个数,如果当前的追踪声源的个数小于初始化的滤波器通道的个数,则直接进行添加该新增的声源的操作,否则,根据一定的准则(预设的评分规则),计算每个滤波器通道(或者每个追踪声源)的评分值,然后将评分值最低的追踪声源删除,将新增加的声源添加到评分值最低的追踪声源所在的滤波器通道。
本发明实施例可应用于电话会议、视频会议、机器人语音识别、智能家居等多种场合。以用于电话会议为例,假设由于硬件资源的限制,滤波器通道最多能设置4个,参会人员有8个,在某一时刻,有4个人同时说话(指不是同时说、同时停,而是在过程的某个时刻碰巧4人都在发声),如果此时第5个人要发声,当声源定位探测当第五个声源(为潜在声源)时,如果采用现有技术的声源追踪方案,由于没有硬件通道空闲,第5个人的声音是不会被捕捉到的,而使用本发明实施例的技术方案,可以对在滤波器通道已存在的4个人的声源(为追踪声源)进行评分,比如其中某人已经发声一段时间,但是在当前时刻之前的一个时间段内发声相对其他人较少,或者声音一直都比较小,则其获得的评分值就会比较低,其位置会被删除,从而第五个人的声音就会被捕获(被作为追踪声源添加到滤波器通道)。
根据本发明实施例,当滤波器通道被完全占用时,如果追踪到了新的声源(潜在声源),则可根据一定的标准对当前滤波器通道中的追踪声源进行评分,将分数最低的追踪声源删除,将新增加的声源添加进来。这样一方面提供在滤波器完全被占用的情况下,有新增加的声源到来时能提供相应的策略来处理,而不会忽视当前新增的声源;另一方面,又可以根据系统所在的硬件资源设置合适的滤波器通道,进行动态声源管理,既可以实现在滤波器通道没有空闲的情况下将新增的声源添加进来,又可以实现将一段时间内没有出现的追踪声源从滤波器通道中及时删除,使得新增加的声源可以被及时地处理,解决滤波器通道计算资源不足的问题。
图4是根据本发明实施例的声源追踪装置的主要模块示意图。
如图4所示,本发明实施例的声源追踪装置400主要包括:识别模块401、评价模块402、更新模块403。
识别模块401用于从定位到的潜在声源中识别出新声源。
新声源为与当前滤波器通道中的追踪声源不同的声源。
评价模块402用于如果当前各滤波器通道均被占用,则对每个追踪声源进行评价,并根据评价结果选取一追踪声源。
评价模块402具体可以用于:按照预设的评分规则计算每个追踪声源的评分值,并选取评分值最低的追踪声源。
更新模块403用于将选取的追踪声源从所在滤波器通道删除,以将新声源作为追踪声源添加到该滤波器通道。
声源追踪装置400还可以包括计算模块,该计算模块用于分别计算每个潜在声源与各追踪声源的匹配概率。
识别模块201具体可以用于根据定位到的每个潜在声源与各追踪声源的匹配概率,计算每个潜在声源为新声源的概率,并将为新声源的概率大于第一阈值的潜在声源识别为新声源。
声源追踪装置400还可以包括处理模块,处理模块用于根据每个潜在声源与各追踪声源的匹配概率,确定目标追踪声源和目标潜在声源;统计目标追踪声源的累计未出现时间;将累计未出现时间大于第二阈值的目标追踪声源从所在滤波器通道删除;将目标潜在声源作为追踪声源添加到当前未被占用的滤波器通道。
其中,目标追踪声源具体为与各潜在声源的匹配概率均小于预设的匹配阈值的追踪声源。
目标潜在声源具体为与各追踪声源的匹配概率均小于预设的匹配阈值的潜在声源。
评价模块402可以包括评分值计算子模块,评分值计算子模块可用于读取已存的各追踪声源在滤波器通道的存活时间、预设的采样周期数量、各追踪声源与预设时间段内各时刻定位到的潜在声源的匹配概率;根据各追踪声源在滤波器通道的存活时间、预设的采样周期数量、各追踪声源与预设时间段内各时刻定位到的潜在声源的匹配概率,计算各追踪声源的评分值。
更新模块可以包括声源添加子模块,声源添加子模块可以用于根据新声源被定位的时间顺序,将最先被定位到的新声源添加到该滤波器通道。
另外,在本发明实施例中声源追踪装置的具体实施内容,在上面所述声源追踪方法中已经详细说明了,故在此重复内容不再说明。
图5示出了可以应用本发明实施例的声源追踪方法或声源追踪装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的网站提供支持的后台管理服务器。后台管理服务器可以对接收到的语音请求等数据进行分析等处理,并将处理结果(例如语音处理信息)反馈给终端设备。
需要说明的是,本发明实施例所提供的声源追踪方法可以由服务器505或终端设备501、502、503执行,相应地,声源追踪装置一般设置于服务器505或终端设备501、502、503中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括识别模块401、评价模块402、更新模块403。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,识别模块401还可以被描述为“用于从定位到的潜在声源中识别出新声源的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:从定位到的潜在声源中识别出新声源,所述新声源为与当前滤波器通道中的追踪声源不同的声源;如果当前各滤波器通道均被占用,则对每个所述追踪声源进行评价,并根据评价结果选取一追踪声源;将选取的追踪声源从所在滤波器通道删除,以将所述新声源作为追踪声源添加到该滤波器通道。
根据本发明实施例的技术方案,从定位到的潜在声源中识别出新声源,该新声源为与当前滤波器通道中的追踪声源不同的声源;如果当前各滤波器通道均被占用,则对每个追踪声源进行评价,并根据评价结果选取一追踪声源;将选取的追踪声源从所在滤波器通道删除,以将新声源作为追踪声源添加到该滤波器通道。能够使新声源出现时能够被及时追踪到,并可根据硬件资源和计算能力设置合适的滤波器通道数量,解决滤波器通道计算资源不足的问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种声源追踪方法,其特征在于,包括:
从定位到的潜在声源中识别出新声源;
如果当前各滤波器通道均被占用,则对每个所述追踪声源进行评价,并根据评价结果选取一追踪声源,其中,读取已存的各追踪声源在滤波器通道的存活时间、预设的采样周期数量、各追踪声源与预设时间段内各时刻定位到的潜在声源的匹配概率,以计算各追踪声源的评分值,并选取所述评分值最低的追踪声源;
将选取的追踪声源从所在滤波器通道删除,以将所述新声源作为追踪声源添加到该滤波器通道。
2.根据权利要求1所述的方法,其特征在于,从定位到的潜在声源中识别出新声源的步骤之前,包括:
分别计算每个所述潜在声源与各追踪声源的匹配概率;
从定位到的潜在声源中识别出新声源的步骤,包括:
根据定位到的每个潜在声源与各追踪声源的匹配概率,计算所述每个潜在声源为新声源的概率;
将为新声源的概率大于第一阈值的所述潜在声源识别为新声源。
3.根据权利要求2所述的方法,其特征在于,从定位到的潜在声源中识别出新声源的步骤之前,还包括:
根据每个所述潜在声源与各追踪声源的匹配概率,确定目标追踪声源和目标潜在声源,其中,所述目标追踪声源为与各潜在声源的匹配概率均小于预设的匹配阈值的所述追踪声源,所述目标潜在声源为与各追踪声源的匹配概率均小于所述预设的匹配阈值的所述潜在声源;
统计所述目标追踪声源的累计未出现时间;
将所述累计未出现时间大于第二阈值的所述目标追踪声源从所在滤波器通道删除;
将所述目标潜在声源作为追踪声源添加到当前未被占用的滤波器通道。
4.根据权利要求1所述的方法,其特征在于,将所述新声源作为追踪声源添加到该滤波器通道的步骤,包括:
根据所述新声源被定位的时间顺序,将最先被定位到的新声源添加到该滤波器通道。
5.一种声源追踪装置,其特征在于,包括:
识别模块,用于从定位到的潜在声源中识别出新声源;
评价模块,用于如果当前各滤波器通道均被占用,则对每个所述追踪声源进行评价,并根据评价结果选取一追踪声源,其中,读取已存的各追踪声源在滤波器通道的存活时间、预设的采样周期数量、各追踪声源与预设时间段内各时刻定位到的潜在声源的匹配概率,以计算各追踪声源的评分值,并选取所述评分值最低的追踪声源;
更新模块,用于将选取的追踪声源从所在滤波器通道删除,以将所述新声源作为追踪声源添加到该滤波器通道。
6.根据权利要求5所述的装置,其特征在于,还包括计算模块,用于:
分别计算每个所述潜在声源与各追踪声源的匹配概率;
所述识别模块还用于:
根据定位到的每个潜在声源与各追踪声源的匹配概率,计算所述每个潜在声源为新声源的概率;
将为新声源的概率大于第一阈值的所述潜在声源识别为新声源。
7.根据权利要求6所述的装置,其特征在于,还包括处理模块,用于:
根据每个所述潜在声源与各追踪声源的匹配概率,确定目标追踪声源和目标潜在声源,其中,所述目标追踪声源为与各潜在声源的匹配概率均小于预设的匹配阈值的所述追踪声源,所述目标潜在声源为与各追踪声源的匹配概率均小于所述预设的匹配阈值的所述潜在声源;
统计所述目标追踪声源的累计未出现时间;
将所述累计未出现时间大于第二阈值的所述目标追踪声源从所在滤波器通道删除;
将所述目标潜在声源作为追踪声源添加到当前未被占用的滤波器通道。
8.根据权利要求5所述的装置,其特征在于,所述更新模块包括声源添加子模块,用于:
根据所述新声源被定位的时间顺序,将最先被定位到的新声源添加到该滤波器通道。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN201711455778.1A 2017-12-28 2017-12-28 一种声源追踪方法和装置 Active CN109975795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711455778.1A CN109975795B (zh) 2017-12-28 2017-12-28 一种声源追踪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711455778.1A CN109975795B (zh) 2017-12-28 2017-12-28 一种声源追踪方法和装置

Publications (2)

Publication Number Publication Date
CN109975795A CN109975795A (zh) 2019-07-05
CN109975795B true CN109975795B (zh) 2021-10-15

Family

ID=67074291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711455778.1A Active CN109975795B (zh) 2017-12-28 2017-12-28 一种声源追踪方法和装置

Country Status (1)

Country Link
CN (1) CN109975795B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI708941B (zh) * 2019-10-18 2020-11-01 財團法人金屬工業研究發展中心 聲音擷取裝置及加工機刀具狀態偵測設備

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5443454B2 (ja) * 2011-09-20 2014-03-19 トヨタ自動車株式会社 音源検出装置
KR20140002900A (ko) * 2012-06-28 2014-01-09 삼성전자주식회사 단말의 음원 재생 방법 및 그 단말
CN105590021B (zh) * 2015-11-06 2018-06-12 上海交通大学 基于麦克风阵列的动态数量声源跟踪方法
CN106405499A (zh) * 2016-09-08 2017-02-15 南京阿凡达机器人科技有限公司 一种机器人定位声源的方法
CN106483502B (zh) * 2016-09-23 2019-10-18 科大讯飞股份有限公司 一种声源定位方法及装置

Also Published As

Publication number Publication date
CN109975795A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
JP6912605B2 (ja) 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ
CN106873799B (zh) 输入方法和装置
CN110164467A (zh) 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN106165015B (zh) 用于促进基于加水印的回声管理的装置和方法
CN113257283B (zh) 音频信号的处理方法、装置、电子设备和存储介质
CN112687286A (zh) 音频设备的降噪模型的调整方法和装置
CN107680584B (zh) 用于切分音频的方法和装置
KR101735918B1 (ko) 통화 음질 개선을 위한 시스템 및 방법
CN113627547B (zh) 训练方法、电弧检测方法、装置、电子设备及存储介质
CN109975795B (zh) 一种声源追踪方法和装置
CN108962226B (zh) 用于检测语音的端点的方法和装置
CN106847299B (zh) 延时的估计方法及装置
CN110085264B (zh) 语音信号检测方法、装置、设备及存储介质
CN109710939B (zh) 用于确定主题的方法和装置
CN107895573B (zh) 用于识别信息的方法及装置
CN109960905B (zh) 信息处理方法、系统、介质和电子设备
CN113053392B (zh) 语音识别方法、语音识别装置、电子设备及介质
CN110750708A (zh) 关键词推荐方法、装置和电子设备
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN115083440A (zh) 音频信号降噪方法、电子设备和存储介质
CN112306560B (zh) 用于唤醒电子设备的方法和装置
CN112309418A (zh) 一种抑制风噪声的方法及装置
CN113409802B (zh) 语音信号的增强处理方法、装置、设备及存储介质
CN110534128A (zh) 一种噪音处理方法、装置、设备及存储介质
CN112309420B (zh) 一种检测风噪声的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant