CN114205731B - 发言人区域检测方法、装置、电子设备和存储介质 - Google Patents
发言人区域检测方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114205731B CN114205731B CN202111495322.4A CN202111495322A CN114205731B CN 114205731 B CN114205731 B CN 114205731B CN 202111495322 A CN202111495322 A CN 202111495322A CN 114205731 B CN114205731 B CN 114205731B
- Authority
- CN
- China
- Prior art keywords
- microphone
- current moment
- vector
- prediction
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 173
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000009499 grossing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明提供一种发言人区域检测方法、装置、电子设备和存储介质,其中方法包括:基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对该麦克风在当前时刻的预测向量进行线性预测,并确定该麦克风的线性预测结果与该麦克风在当前时刻的待预测信号间的预测误差;基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域;其中,预测向量包括该麦克风在当前时刻以前预设时长内拾取的原始信号,待预测信号是基于分布式麦克风中该麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的。本发明无需建立发言人方位与时延的对应关系,可以适应于大部分分布式麦克风构型,同时有着更高的检测准确性和更广泛的应用范围。
Description
技术领域
本发明涉及音频处理技术领域,尤其涉及一种发言人区域检测方法、装置、电子设备和存储介质。
背景技术
随着语音交互技术应用的越来越广,智能交互设备种类越来越多,对于拾音效果的要求也越来越高。其中,分布式麦克风相比传统麦克风阵列,麦克风阵列的间距通常2-5厘米,分布式麦克风之间配置的距离可达1到2米。因此,采用分布式麦克风可以实现更远距离的语音拾音。然而,传统的声源定位技术无法直接应用到分布式麦克风,因此对于分布式麦克风而言,需要全新的发言人区域检测方案。其中,发言人区域检测可以应用于后续发言人身份辨识、语音增强等应用,是分布式麦克风信号处理中的关键技术之一。
目前,传统信号处理的方法是通过声源定位来实现发言人区域辨识。其中,声源方位和麦克风之间信号延时需要有着明确的对应关系,通过检测最有效的延时实现声源定位。然而,分布式麦克风不存在方位与延时的直接对应关系,因此传统方法并不适用。此外,还有一些方法根据每个信号中混响的大小来判断发言人距离哪一个麦克风更近,从而判断发言人的区域。然而混响大小的估计本身很难精确,并且鲁棒性较差,容易受到风噪、胎噪等底噪的干扰,因此根据混响大小来判断发言人区域存在非常大的误差。
发明内容
本发明提供一种发言人区域检测方法、装置、电子设备和存储介质,用以解决现有技术中无法应用于分布式麦克风的发言人区域检测或检测准确性欠佳的缺陷。
本发明提供一种发言人区域检测方法,包括:
基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对所述任一麦克风在当前时刻的预测向量进行线性预测,并确定所述任一麦克风的线性预测结果与所述任一麦克风在当前时刻的待预测信号间的预测误差;
基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域;
其中,所述预测向量包括所述任一麦克风在当前时刻以前预设时长内拾取的原始信号,所述待预测信号是基于所述分布式麦克风中所述任一麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的。
根据本发明提供的一种发言人区域检测方法,任一麦克风在当前时刻的线性预测滤波器是基于如下步骤确定的:
基于任一麦克风在当前时刻的预测向量之间的自相关向量,以及所述任一麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器。
根据本发明提供的一种发言人区域检测方法,所述基于任一麦克风在当前时刻的预测向量之间的自相关向量,以及所述任一麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器,具体包括:
基于所述任一麦克风在当前时刻的预测向量,以及所述任一麦克风在前一时刻的自相关向量,确定所述任一麦克风在当前时刻的自相关向量;
基于所述任一麦克风在当前时刻的预测向量和待预测信号,以及所述任一麦克风在前一时刻的互相关向量,确定所述任一麦克风在当前时刻的互相关向量;
基于所述任一麦克风在当前时刻的自相关向量和互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器。
根据本发明提供的一种发言人区域检测方法,所述任一麦克风在当前时刻的自相关向量是基于如下公式确定得到的:
所述任一麦克风在当前时刻的互相关向量是基于如下公式确定得到的:
其中,ψm(n)为麦克风m在时刻n的自相关向量,ρm(n)为麦克风m在时刻n的互相关向量,和ym(n)分别为麦克风m在时刻n的预测向量和待预测信号,αp为相邻时刻之间的平滑系数。
根据本发明提供的一种发言人区域检测方法,所述基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域,具体包括:
基于任一麦克风的预测误差,确定所述任一麦克风的误差能量;
从所述分布式麦克风中筛选误差能量最小的麦克风;
基于所述误差能量最小的麦克风的位置,确定当前时刻发言人的区域。
根据本发明提供的一种发言人区域检测方法,所述基于任一麦克风的预测误差,确定所述任一麦克风的误差能量,具体包括:
基于所述任一麦克风在当前时刻以及历史时刻的预测误差,确定所述任一麦克风的误差能量。
根据本发明提供的一种发言人区域检测方法,所述任一麦克风的误差能量是基于如下公式确定得到的:
其中,ζm为麦克风m的误差能量,αE为能量平滑因子,K为历史时刻取值的窗口长度,em(n-k+1)为麦克风m在时刻n-k+1的预测误差。
本发明还提供一种发言人区域检测装置,包括:
线性预测单元,用于基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对所述任一麦克风在当前时刻的预测向量进行线性预测,并确定所述任一麦克风的线性预测结果与所述任一麦克风在当前时刻的待预测信号间的预测误差;
区域确定单元,用于基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域;
其中,所述预测向量包括所述任一麦克风在当前时刻以前预设时长内拾取的原始信号,所述待预测信号是基于所述分布式麦克风中所述任一麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述发言人区域检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述发言人区域检测方法的步骤。
本发明提供的发言人区域检测方法、装置、电子设备和存储介质,通过基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对该麦克风在当前时刻的预测向量进行线性预测,并确定该麦克风的线性预测结果与该麦克风在当前时刻的待预测信号间的预测误差,从而确定当前时刻发言人的区域,无需建立发言人方位与时延的对应关系,可以适应于大部分分布式麦克风构型,同时该方法还可以对各种底噪鲁棒,因此有着更高的检测准确性和更广泛的应用范围。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的发言人区域检测方法的流程示意图;
图2是本发明提供的发言人区域检测方法的详细示意图;
图3是本发明提供的发言人区域检测装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发言人区域检测是分布式麦克风信号处理中的关键技术之一。例如,在车载语音通讯系统中,发言人区域检测可以应用于发言人身份辨识(主驾、辅驾或者后排座位),用以保证后续语音交互、响应的准确性。然而,传统声源定位方式需要声源方位和麦克风之间信号延时存在明确的对应关系。然而,分布式麦克风不存在方位与延时的直接对应关系,因此传统方法并不适用。此外,根据每个信号中混响的大小来判断发言人区域的方式,由于混响大小的估计本身很难精确,且在有风噪、胎噪干扰的场景下准确率更低,因此该方式存在非常大的误差。
对此,本发明实施例提供了一种发言人区域检测方法,应用于分布式麦克风中。图1为本发明实施例提供的发言人区域检测方法的流程示意图,如图1所示,该方法包括:
步骤110,基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对所述任一麦克风在当前时刻的预测向量进行线性预测,并确定所述任一麦克风的线性预测结果与所述任一麦克风在当前时刻的待预测信号间的预测误差;
步骤120,基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域;
其中,所述预测向量包括所述任一麦克风在当前时刻以前预设时长内拾取的原始信号,所述待预测信号是基于所述分布式麦克风中所述任一麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的。
具体地,分布式麦克风中包含有至少两个麦克风阵元,且分布式麦克风中各麦克风阵元的位置可以根据实际拾音需求任意设定,本发明实施例对此不作具体限定。针对分布式麦克风中的各个麦克风,确定其各自在当前时刻对应的线性预测滤波器。其中,任一麦克风在当前时刻对应的线性预测滤波器用于基于该麦克风采集的音频信号,线性预测分布式麦克风中其他麦克风采集的音频信号。
具体而言,可以利用分布式麦克风中任一麦克风在当前时刻的线性预测滤波器,对该麦克风在当前时刻的预测向量进行线性预测,预测分布式麦克风中其他麦克风当前时刻拾取的原始信号,从而得到预测结果。其中,该麦克风在当前时刻的预测向量为麦克风在当前时刻以前预设时长内拾取的原始信号。例如,假设xm(n),m=1,2,...,M代表分布式麦克风中各个麦克风实时拾取的原始信号,其中n代表时间标签,m代表麦克风序号,共有M个麦克风。那么,麦克风m在时刻n的预测向量可以表示为:
其中,预设时长L的取值范围可以为10-30。此处,L的取值对线性预测的有效性有着重大影响。若L的取值过小,则线性预测的精度不足,而L的取值过大则会增大线性预测的计算复杂度。因此,为了兼顾足够的预测精度以及合适的计算复杂度,L的取值可以为12。
此处,线性预测的预测结果是基于该麦克风在当前时刻的预测向量确定的,因此预测结果的准确性受到该麦克风拾取的原始信号的完整程度影响。其中,麦克风离发言人的距离越近,该麦克风拾取的原始信号越完整,基于该原始信号进行线性预测后得到的预测结果的准确性越高,线性预测的有效性越高。因此,为了检测发言人区域,需要评估各个麦克风对应的预测结果的准确性,或线性预测的有效性。
为了评估线性预测的有效性,可以计算上述预测结果与该麦克风在当前时刻的待预测信号间的预测误差。例如,可以采用如下方式计算预测误差:
其中,em(n)为麦克风m在时刻n的预测误差,ym(n)为麦克风m在时刻n的待预测信号,为麦克风m在时刻n的线性预测滤波器。
此处,该麦克风在当前时刻的待预测信号是基于分布式麦克风中该麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的,其反映了其他麦克风的实际拾音情况。例如,可以求取该麦克风以外的其他麦克风在当前时刻拾取的原始信号的平均值,作为待预测信号。即,可采用如下方式构建麦克风m在时刻n的待预测信号ym(n):
正由于麦克风离发言人的距离越近,该麦克风拾取的原始信号越完整,基于该原始信号进行线性预测的有效性越高,因此,可以基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域。其中,预测误差越不明显,表明对应麦克风离发言人越近,发言人更有可能处于该麦克风所在位置的区域内。
可见,上述利用各麦克风线性预测的有效性确定发言人区域的方式,无需建立发言人方位与时延的对应关系,可以适应于大部分分布式麦克风构型,同时该方法还可以对各种底噪鲁棒,因此有着更高的检测准确性和更广泛的应用范围。
本发明实施例提供的方法,通过基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对该麦克风在当前时刻的预测向量进行线性预测,并确定该麦克风的线性预测结果与该麦克风在当前时刻的待预测信号间的预测误差,从而确定当前时刻发言人的区域,无需建立发言人方位与时延的对应关系,可以适应于大部分分布式麦克风构型,同时该方法还可以对各种底噪鲁棒,因此有着更高的检测准确性和更广泛的应用范围。
基于上述实施例,任一麦克风在当前时刻的线性预测滤波器是基于如下步骤确定的:
基于任一麦克风在当前时刻的预测向量之间的自相关向量,以及所述任一麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器。
具体地,对每一个麦克风信号,估计时域信号相关性,从而构建各个麦克风在当前时刻的线性预测滤波器。具体而言,可以计算任一麦克风在当前时刻的预测向量之间的自相关向量,以及该麦克风在当前时刻的预测向量与待预测信号间的互相关向量,并据此构建该麦克风在当前时刻的线性预测滤波器。其中,麦克风在当前时刻的预测向量之间的自相关向量可以表征预测向量自身在时间上的关联性,麦克风在当前时刻的预测向量与待预测信号间的互相关向量可以表征预测向量与待预测信号在时间上的关联性。根据预测向量自身在时间上的关联性以及预测向量与待预测信号在时间上的关联性,可以确定预测向量与待预测信号之间的映射关系,从而构建麦克风在当前时刻的线性预测滤波器。例如,可以利用如下方式构建麦克风m在时刻n的线性预测滤波器Hm(n):
Hm(n)=ψm(n)-1ρm(n)
其中,ψm(n)为麦克风m在时刻n的预测向量之间的自相关向量,ρm(n)为麦克风m在时刻n的预测向量与待预测信号间的互相关向量。利用该方式构建的线性预测滤波器,对于麦克风m对应的待预测信号而言,采用该滤波器可以保证预测误差最小。
基于上述任一实施例,所述基于任一麦克风在当前时刻的预测向量之间的自相关向量,以及所述任一麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器,具体包括:
基于所述任一麦克风在当前时刻的预测向量,以及所述任一麦克风在前一时刻的自相关向量,确定所述任一麦克风在当前时刻的自相关向量;
基于所述任一麦克风在当前时刻的预测向量和待预测信号,以及所述任一麦克风在前一时刻的互相关向量,确定所述任一麦克风在当前时刻的互相关向量;
基于所述任一麦克风在当前时刻的自相关向量和互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器。
具体地,可以根据任一麦克风在当前时刻的预测向量,以及该麦克风在前一时刻的自相关向量,确定该麦克风在当前时刻的自相关向量。类似地,可以根据该麦克风在当前时刻的预测向量和待预测信号,以及该麦克风在前一时刻的互相关向量,确定该麦克风在当前时刻的互相关向量。需要说明的是,本发明实施例不对自相关向量的确定步骤和互相关向量的确定步骤的执行顺序作任何限定,两个步骤可以以任何顺序先后执行,也可以同时执行。随后,根据该麦克风在当前时刻的自相关向量和互相关向量,构建该麦克风在当前时刻的线性预测滤波器。
基于上述任一实施例,所述任一麦克风在当前时刻的自相关向量是基于如下公式确定得到的:
所述任一麦克风在当前时刻的互相关向量是基于如下公式确定得到的:
其中,ψm(n)为麦克风m在时刻n的自相关向量,ρm(n)为麦克风m在时刻n的互相关向量,和ym(n)分别为麦克风m在时刻n的预测向量和待预测信号,αp为相邻时刻之间的平滑系数。
具体地,麦克风m在时刻n的自相关向量可以基于如下公式确定得到:
麦克风m在时刻n的互相关向量可以基于如下公式确定得到:
其中,ψm(n)为麦克风m在时刻n的自相关向量,ρm(n)为麦克风m在时刻n的互相关向量,和ym(n)分别为麦克风m在时刻n的预测向量和待预测信号。αp为相邻时刻之间的平滑系数,其取值范围为0到1。此处,为了保证足够的预测精度,同时避免线性预测在时间序列上变化较大,αp的取值可以为0.96。
基于上述任一实施例,步骤120具体包括:
基于任一麦克风的预测误差,确定所述任一麦克风的误差能量;
从所述分布式麦克风中筛选误差能量最小的麦克风;
基于所述误差能量最小的麦克风的位置,确定当前时刻发言人的区域。
具体地,为了评估各麦克风的线性预测滤波器的预测有效性,可以基于各麦克风的预测误差,估计其对应的误差能量。其中,预测误差越明显,对应的误差能量值越大。由于声音的传播速度是稳定的,若发言人距离麦克风m最近,那么声音信号到达麦克风m的时间最短,拾取的信号越完整,从而使得线性预测的有效性越高。因此,发言人距离任一麦克风越近,该麦克风对应的误差能量也最小,故可以根据各麦克风对应的误差能量,筛选误差能量最小的麦克风,从而根据该误差能量最小的麦克风的位置,确定当前时刻发言人的区域(即当前时刻发言人离该误差能量最小的麦克风最近,该误差能量最小的麦克风支撑的区域即发言人当前的区域)。此处,可以选择误差能量最小的麦克风的编码输出,代表发言人的区域检测结果。即,可采用如下方式确定发言人的区域检测结果κ:
κ=m,ifζm=min[ζ1,ζ2,...,ζM]
其中,ζm为麦克风m的误差能量。
基于上述任一实施例,所述基于任一麦克风的预测误差,确定所述任一麦克风的误差能量,具体包括:
基于所述任一麦克风在当前时刻以及历史时刻的预测误差,确定所述任一麦克风的误差能量。
具体地,可以根据任一麦克风在当前时刻以及历史时刻的预测误差,累积确定该麦克风的误差能量。其中,历史时刻取值的窗口长度可以根据实际应用场景的效果设定。若历史时刻取值的窗口长度越长,即计算误差能量时将越久之前的预测误差纳入计算,则误差能量计算的准确性越高,但相应的计算复杂度也越高。因此,选取合适的历史时刻取值的窗口长度,可以在计算量与准确率之间保持最优的平衡。
基于上述任一实施例,所述任一麦克风的误差能量是基于如下公式确定得到的:
其中,ζm为麦克风m的误差能量,αE为能量平滑因子,K为历史时刻取值的窗口长度,em(n-k+1)为麦克风m在时刻n-k+1的预测误差。
具体地,可以基于如下方式确定麦克风m当前的误差能量ζm:
其中,αE为能量平滑因子,该参数可以避免区域检测频繁的变动,更符合实际应用需求,且其取值范围为0到1,例如可以取值为0.92,以达到更好的检测效果。K为历史时刻取值的窗口长度,取值范围可以配置为16到512,为了在计算量与准确率之间保持最优的平衡,可以将K设为32。em(n-k+1)为麦克风m在时刻n-k+1的预测误差。
基于上述任一实施例,图2为本发明实施例提供的发言人区域检测方法的详细示意图,如图2所示,该方法包括:
对每一个麦克风m的原始信号,分别构建各个麦克风的预测向量和待预测信号;
对每一个麦克风的原始信号,估计时域信号相关性,包括确定各个麦克风在当前时刻的预测向量之间的自相关向量,以及各个麦克风在当前时刻的预测向量与待预测信号间的互相关向量;
基于各个麦克风在当前时刻的预测向量之间的自相关向量,以及各个麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建各个麦克风在当前时刻的线性预测滤波器;
利用各个麦克风在当前时刻的线性预测滤波器进行线性预测,并输出各个麦克风对应的预测误差;
基于各个麦克风对应的预测误差,估计各个麦克风的误差能量;
基于各个麦克风的误差能量,选择能量最小的麦克风对应的区域作为当前时刻发言人的区域,并输出区域检测结果。
下面对本发明提供的发言人区域检测装置进行描述,下文描述的发言人区域检测装置与上文描述的发言人区域检测方法可相互对应参照。
基于上述任一实施例,图3为本发明实施例提供的发言人区域检测装置的结构示意图,如图3所示,该装置包括:线性预测单元310和区域确定单元320。
其中,线性预测单元310用于基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对所述任一麦克风在当前时刻的预测向量进行线性预测,并确定所述任一麦克风的线性预测结果与所述任一麦克风在当前时刻的待预测信号间的预测误差;
区域确定单元320用于基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域;
其中,所述预测向量包括所述任一麦克风在当前时刻以前预设时长内拾取的原始信号,所述待预测信号是基于所述分布式麦克风中所述任一麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的。
本发明实施例提供的装置,通过基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对该麦克风在当前时刻的预测向量进行线性预测,并确定该麦克风的线性预测结果与该麦克风在当前时刻的待预测信号间的预测误差,从而确定当前时刻发言人的区域,无需建立发言人方位与时延的对应关系,可以适应于大部分分布式麦克风构型,同时该方法还可以对各种底噪鲁棒,因此有着更高的检测准确性和更广泛的应用范围。
基于上述任一实施例,任一麦克风在当前时刻的线性预测滤波器是基于如下步骤确定的:
基于任一麦克风在当前时刻的预测向量之间的自相关向量,以及所述任一麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器。
基于上述任一实施例,所述基于任一麦克风在当前时刻的预测向量之间的自相关向量,以及所述任一麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器,具体包括:
基于所述任一麦克风在当前时刻的预测向量,以及所述任一麦克风在前一时刻的自相关向量,确定所述任一麦克风在当前时刻的自相关向量;
基于所述任一麦克风在当前时刻的预测向量和待预测信号,以及所述任一麦克风在前一时刻的互相关向量,确定所述任一麦克风在当前时刻的互相关向量;
基于所述任一麦克风在当前时刻的自相关向量和互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器。
基于上述任一实施例,所述任一麦克风在当前时刻的自相关向量是基于如下公式确定得到的:
所述任一麦克风在当前时刻的互相关向量是基于如下公式确定得到的:
其中,ψm(n)为麦克风m在时刻n的自相关向量,ρm(n)为麦克风m在时刻n的互相关向量,和ym(n)分别为麦克风m在时刻n的预测向量和待预测信号,αp为相邻时刻之间的平滑系数。
基于上述任一实施例,区域确定单元320具体用于:
基于任一麦克风的预测误差,确定所述任一麦克风的误差能量;
从所述分布式麦克风中筛选误差能量最小的麦克风;
基于所述误差能量最小的麦克风的位置,确定当前时刻发言人的区域。
基于上述任一实施例,所述基于任一麦克风的预测误差,确定所述任一麦克风的误差能量,具体包括:
基于所述任一麦克风在当前时刻以及历史时刻的预测误差,确定所述任一麦克风的误差能量。
基于上述任一实施例,所述任一麦克风的误差能量是基于如下公式确定得到的:
其中,ζm为麦克风m的误差能量,αE为能量平滑因子,K为历史时刻取值的窗口长度,em(n-k+1)为麦克风m在时刻n-k+1的预测误差。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行发言人区域检测方法,该方法包括:基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对所述任一麦克风在当前时刻的预测向量进行线性预测,并确定所述任一麦克风的线性预测结果与所述任一麦克风在当前时刻的待预测信号间的预测误差;基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域;其中,所述预测向量包括所述任一麦克风在当前时刻以前预设时长内拾取的原始信号,所述待预测信号是基于所述分布式麦克风中所述任一麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的发言人区域检测方法,该方法包括:基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对所述任一麦克风在当前时刻的预测向量进行线性预测,并确定所述任一麦克风的线性预测结果与所述任一麦克风在当前时刻的待预测信号间的预测误差;基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域;其中,所述预测向量包括所述任一麦克风在当前时刻以前预设时长内拾取的原始信号,所述待预测信号是基于所述分布式麦克风中所述任一麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的发言人区域检测方法,该方法包括:基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对所述任一麦克风在当前时刻的预测向量进行线性预测,并确定所述任一麦克风的线性预测结果与所述任一麦克风在当前时刻的待预测信号间的预测误差;基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域;其中,所述预测向量包括所述任一麦克风在当前时刻以前预设时长内拾取的原始信号,所述待预测信号是基于所述分布式麦克风中所述任一麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种发言人区域检测方法,其特征在于,包括:
基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对所述任一麦克风在当前时刻的预测向量进行线性预测,并确定所述任一麦克风的线性预测结果与所述任一麦克风在当前时刻的待预测信号间的预测误差;
基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域;
其中,所述预测向量包括所述任一麦克风在当前时刻以前预设时长内拾取的原始信号,所述待预测信号是基于所述分布式麦克风中所述任一麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的;
其中,任一麦克风在当前时刻的线性预测滤波器是基于如下步骤确定的:
基于任一麦克风在当前时刻的预测向量之间的自相关向量,以及所述任一麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器;
其中,所述基于任一麦克风在当前时刻的预测向量之间的自相关向量,以及所述任一麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器,具体包括:
基于所述任一麦克风在当前时刻的预测向量,以及所述任一麦克风在前一时刻的自相关向量,确定所述任一麦克风在当前时刻的自相关向量;
基于所述任一麦克风在当前时刻的预测向量和待预测信号,以及所述任一麦克风在前一时刻的互相关向量,确定所述任一麦克风在当前时刻的互相关向量;
基于所述任一麦克风在当前时刻的自相关向量和互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器;
其中,所述任一麦克风在当前时刻的自相关向量是基于如下公式确定得到的:
所述任一麦克风在当前时刻的互相关向量是基于如下公式确定得到的:
其中,ψm(n)为麦克风m在时刻n的自相关向量,ρm(n)为麦克风m在时刻n的互相关向量,和ym(n)分别为麦克风m在时刻n的预测向量和待预测信号,αp为相邻时刻之间的平滑系数。
2.根据权利要求1所述的发言人区域检测方法,其特征在于,所述基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域,具体包括:
基于任一麦克风的预测误差,确定所述任一麦克风的误差能量;
从所述分布式麦克风中筛选误差能量最小的麦克风;
基于所述误差能量最小的麦克风的位置,确定当前时刻发言人的区域。
3.根据权利要求2所述的发言人区域检测方法,其特征在于,所述基于任一麦克风的预测误差,确定所述任一麦克风的误差能量,具体包括:
基于所述任一麦克风在当前时刻以及历史时刻的预测误差,确定所述任一麦克风的误差能量。
4.根据权利要求3所述的发言人区域检测方法,其特征在于,所述任一麦克风的误差能量是基于如下公式确定得到的:
其中,ζm为麦克风m的误差能量,αE为能量平滑因子,K为历史时刻取值的窗口长度,em(n-k+1)为麦克风m在时刻n-k+1的预测误差。
5.一种发言人区域检测装置,其特征在于,包括:
线性预测单元,用于基于分布式麦克风中任一麦克风在当前时刻的线性预测滤波器对所述任一麦克风在当前时刻的预测向量进行线性预测,并确定所述任一麦克风的线性预测结果与所述任一麦克风在当前时刻的待预测信号间的预测误差;
区域确定单元,用于基于每一麦克风的预测误差以及每一麦克风的位置,确定当前时刻发言人的区域;
其中,所述预测向量包括所述任一麦克风在当前时刻以前预设时长内拾取的原始信号,所述待预测信号是基于所述分布式麦克风中所述任一麦克风以外的其他麦克风在当前时刻拾取的原始信号确定的;
其中,任一麦克风在当前时刻的线性预测滤波器是基于如下步骤确定的:
基于任一麦克风在当前时刻的预测向量之间的自相关向量,以及所述任一麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器;
其中,所述基于任一麦克风在当前时刻的预测向量之间的自相关向量,以及所述任一麦克风在当前时刻的预测向量与待预测信号间的互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器,具体包括:
基于所述任一麦克风在当前时刻的预测向量,以及所述任一麦克风在前一时刻的自相关向量,确定所述任一麦克风在当前时刻的自相关向量;
基于所述任一麦克风在当前时刻的预测向量和待预测信号,以及所述任一麦克风在前一时刻的互相关向量,确定所述任一麦克风在当前时刻的互相关向量;
基于所述任一麦克风在当前时刻的自相关向量和互相关向量,构建所述任一麦克风在当前时刻的线性预测滤波器;
其中,所述任一麦克风在当前时刻的自相关向量是基于如下公式确定得到的:
所述任一麦克风在当前时刻的互相关向量是基于如下公式确定得到的:
其中,ψm(n)为麦克风m在时刻n的自相关向量,ρm(n)为麦克风m在时刻n的互相关向量,和ym(n)分别为麦克风m在时刻n的预测向量和待预测信号,αp为相邻时刻之间的平滑系数。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述发言人区域检测方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述发言人区域检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111495322.4A CN114205731B (zh) | 2021-12-08 | 2021-12-08 | 发言人区域检测方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111495322.4A CN114205731B (zh) | 2021-12-08 | 2021-12-08 | 发言人区域检测方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114205731A CN114205731A (zh) | 2022-03-18 |
CN114205731B true CN114205731B (zh) | 2023-12-26 |
Family
ID=80651437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111495322.4A Active CN114205731B (zh) | 2021-12-08 | 2021-12-08 | 发言人区域检测方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114205731B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172231A (zh) * | 2017-12-07 | 2018-06-15 | 中国科学院声学研究所 | 一种基于卡尔曼滤波的去混响方法及系统 |
CN109239667A (zh) * | 2018-10-26 | 2019-01-18 | 深圳市友杰智新科技有限公司 | 一种基于双麦克风阵列的声源定位方法 |
CN109788382A (zh) * | 2019-01-25 | 2019-05-21 | 深圳大学 | 一种分布式麦克风阵列拾音系统及方法 |
CN109845288A (zh) * | 2016-10-14 | 2019-06-04 | 诺基亚技术有限公司 | 用于麦克风之间的输出信号均衡的方法和装置 |
CN112463103A (zh) * | 2019-09-06 | 2021-03-09 | 北京声智科技有限公司 | 拾音方法、装置、电子设备及存储介质 |
CN113655440A (zh) * | 2021-08-09 | 2021-11-16 | 西南科技大学 | 一种自适应折中预白化的声源定位方法 |
CN113740803A (zh) * | 2021-08-19 | 2021-12-03 | 安徽创变信息科技有限公司 | 一种基于音视频特征的发言人定位跟踪方法及装置 |
-
2021
- 2021-12-08 CN CN202111495322.4A patent/CN114205731B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109845288A (zh) * | 2016-10-14 | 2019-06-04 | 诺基亚技术有限公司 | 用于麦克风之间的输出信号均衡的方法和装置 |
CN108172231A (zh) * | 2017-12-07 | 2018-06-15 | 中国科学院声学研究所 | 一种基于卡尔曼滤波的去混响方法及系统 |
CN109239667A (zh) * | 2018-10-26 | 2019-01-18 | 深圳市友杰智新科技有限公司 | 一种基于双麦克风阵列的声源定位方法 |
CN109788382A (zh) * | 2019-01-25 | 2019-05-21 | 深圳大学 | 一种分布式麦克风阵列拾音系统及方法 |
CN112463103A (zh) * | 2019-09-06 | 2021-03-09 | 北京声智科技有限公司 | 拾音方法、装置、电子设备及存储介质 |
CN113655440A (zh) * | 2021-08-09 | 2021-11-16 | 西南科技大学 | 一种自适应折中预白化的声源定位方法 |
CN113740803A (zh) * | 2021-08-19 | 2021-12-03 | 安徽创变信息科技有限公司 | 一种基于音视频特征的发言人定位跟踪方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114205731A (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7011075B2 (ja) | マイク・アレイに基づく対象音声取得方法及び装置 | |
US9947338B1 (en) | Echo latency estimation | |
US8908883B2 (en) | Microphone array structure able to reduce noise and improve speech quality and method thereof | |
US10602267B2 (en) | Sound signal processing apparatus and method for enhancing a sound signal | |
TWI711035B (zh) | 方位角估計的方法、設備、語音交互系統及儲存介質 | |
JP2021533423A (ja) | オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム | |
CN109509465B (zh) | 语音信号的处理方法、组件、设备及介质 | |
CN110556103A (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
US11869481B2 (en) | Speech signal recognition method and device | |
CN109643552A (zh) | 用于可变噪声状况中语音增强的鲁棒噪声估计 | |
JP4769663B2 (ja) | 音声区間検出装置及び音声区間検出方法 | |
CN103165137B (zh) | 一种非平稳噪声环境下传声器阵列的语音增强方法 | |
CN110085247B (zh) | 一种针对复杂噪声环境的双麦克风降噪方法 | |
WO2015196760A1 (zh) | 一种麦克风阵列语音检测方法及装置 | |
CN110120217B (zh) | 一种音频数据处理方法及装置 | |
US20200342891A1 (en) | Systems and methods for aduio signal processing using spectral-spatial mask estimation | |
CN107331386B (zh) | 音频信号的端点检测方法、装置、处理系统及计算机设备 | |
CN110610718B (zh) | 一种提取期望声源语音信号的方法及装置 | |
US20150010162A1 (en) | Systems and methods for optimizing an audio communication system | |
CN115062678B (zh) | 设备故障检测模型的训练方法、故障检测方法及装置 | |
CN111599366B (zh) | 一种车载多音区语音处理的方法和相关装置 | |
US20180188104A1 (en) | Signal detection device, signal detection method, and recording medium | |
CN114205731B (zh) | 发言人区域检测方法、装置、电子设备和存储介质 | |
CN110890099B (zh) | 声音信号处理方法、装置以及存储介质 | |
CN116935836A (zh) | 语音端点检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |