CN113687304A - 直达声检测方法、系统以及计算机可读存储介质 - Google Patents

直达声检测方法、系统以及计算机可读存储介质 Download PDF

Info

Publication number
CN113687304A
CN113687304A CN202110767190.XA CN202110767190A CN113687304A CN 113687304 A CN113687304 A CN 113687304A CN 202110767190 A CN202110767190 A CN 202110767190A CN 113687304 A CN113687304 A CN 113687304A
Authority
CN
China
Prior art keywords
signal
array
frequency point
target
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110767190.XA
Other languages
English (en)
Inventor
白炳潮
黄景标
林聚财
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202110767190.XA priority Critical patent/CN113687304A/zh
Publication of CN113687304A publication Critical patent/CN113687304A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/20Position of source determined by a plurality of spaced direction-finders

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种直达声检测方法、系统以及计算机可读存储介质,上述直达声检测方法包括:接收麦克风阵列采集获得的阵列信号,并根据阵列信号获取阵列频域信号;从阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点,并从阵列频域信号中获得第一目标频点所在位置的第一目标信号;根据第一目标信号获得对应的协方差矩阵,并对协方差矩阵进行特征值分解,以获得协方差矩阵的所有特征值和最大特征值;根据所有特征值和最大特征值从第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点,以利用第二目标频点进行声源定位。通过这样的设计方式,可以获得信噪比较高,受混响影响较小的频点,从而提升后续声源定位的准确度。

Description

直达声检测方法、系统以及计算机可读存储介质
技术领域
本申请涉及语音信号处理技术领域,特别是涉及一种直达声检测方法、系统以及计算机可读存储介质。
背景技术
在日常生活中,声学设备已经普遍应用于人们的生活中。在面对复杂的实际场景时,单麦克风的表现往往不如人意,为了达到更高质量的语音通信,我们还会采用麦克风阵列对语音信号进行处理。声源定位是麦克风阵列里一个十分重要的课题,但是声源定位的效果常常受到混响和噪声的影响,尤其是在混响环境下,声源定位的误差就会非常大,常用的声源定位方法往往无法达到理想的效果。在混响和噪声环境下进行声源定位时,如果能够取得受噪声和混响污染较小的直达声信号,那么声源定位的效果也会得到一个显著的提升。
目前所采用的方法为直接在功率谱上选取最大的功率点作为估计方位的候选点,但是该方法没有结合噪声谱选取频点,没有考虑实际场景中噪声和混响干扰的影响。因此,亟需一种新的直达声检测方法来解决上述问题。
发明内容
本申请主要解决的技术问题是提供一种直达声检测方法、系统以及计算机可读存储介质,可以获得信噪比较高且受混响影响较小的频点。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种直达声检测方法,包括:接收麦克风阵列采集获得的阵列信号,并根据所述阵列信号获取阵列频域信号;从所述阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点,并从所述阵列频域信号中获得所述第一目标频点所在位置的第一目标信号;根据所述第一目标信号获得对应的协方差矩阵,并对所述协方差矩阵进行特征值分解,以获得所述协方差矩阵的所有特征值和最大特征值;根据所有所述特征值和所述最大特征值从所述第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点,以利用所述第二目标频点进行声源定位。
其中,所述根据所有所述特征值和所述最大特征值从所述第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点,以利用所述第二目标频点进行声源定位的步骤,包括:获得所述最大特征值与所有所述特征值之和的比值,将大于第二门限值的所述比值对应的第一目标频点作为第二目标频点;其中,所述比值的范围为0-1。
其中,所述获得所述最大特征值与所有所述特征值之和的比值,将大于第二门限值的所述比值对应的第一目标频点作为第二目标频点的步骤之前,包括:根据混响时间获得语言函数的指数以及所述语言函数的值;其中,所述指数与所述混响时间成反比;响应于所述语言函数的值小于第一阈值,将所述第一阈值作为所述第二门限值;响应于所述语言函数的值大于第二阈值,将所述第二阈值作为所述第二门限值;响应于所述语言函数的值大于或等于所述第一阈值且小于或等于所述第二阈值,将所述语言函数的值作为所述第二门限值。
其中,所述根据所述第一目标信号获得对应的协方差矩阵的步骤,包括:根据所述第一目标信号获得对应的共轭转置矩阵;获得所述第一目标信号和所述共轭转置矩阵的乘积的期望值,并将所述期望值作为对应的所述协方差矩阵。
其中,所述对所述协方差矩阵进行特征值分解,以获得所述协方差矩阵的所有特征值和最大特征值的步骤,包括:将所述协方差矩阵分解为所述协方差矩阵的特征向量矩阵、所述协方差矩阵的特征值按从大到小顺序排列所构成的对角矩阵以及所述特征向量矩阵的共轭转置矩阵;根据所述对角矩阵获得所述协方差矩阵的所有特征值和最大特征值,其中,所述特征值为所述对角矩阵的主对角线元素。
其中,所述接收麦克风阵列采集获得的阵列信号,并根据所述阵列信号获取阵列频域信号的步骤,包括:接收麦克风阵列采集获得的阵列信号;对所述阵列信号依次进行分帧处理和加窗运算,以获得多个时域信号;利用快速傅立叶变换将所述多个时域信号转换为多个频域信号;根据所述频域信号获得导向矢量矩阵和声源信号的乘积与噪声信号的和值,并将所述和值作为所述阵列频域信号。
其中,所述从所述阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点,并从所述阵列频域信号中获得所述第一目标频点所在位置的第一目标信号的步骤,包括:获取所述阵列频域信号中其中一个麦克风的频域信号,并获得所述麦克风的频域信号中每个频点的功率;从所述麦克风的频域信号中筛选出所述功率大于所述第一门限值的第三目标频点;从所述阵列频域信号中筛选出与所述第三目标频点位置相同的第一目标频点,从所述阵列频域信号中获得所述第一目标频点所在位置的第一目标信号。
其中,所述从所述麦克风的频域信号中筛选出所述功率大于所述第一门限值的第三目标频点的步骤之前,包括:根据所述功率获得所述频点在预设时间阈值内的最小功率值,并将所述最小功率值作为噪声功率;获得第一倍数与所述噪声功率的乘积,并将所述乘积作为所述第一门限值。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种直达声检测系统,包括相互耦接的存储器和处理器,所述存储器内存储有程序指令,所述处理器用于执行所述程序指令以实现上述任一实施例所提及的直达声检测方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于实现上述任一实施例所提及的直达声检测方法。
区别于现有技术的情况,本申请的有益效果是:本申请中接收麦克风阵列采集获得的阵列信号,并根据阵列信号获取阵列频域信号,从阵列频域信号中筛选出信噪比较高的第一目标频点,再利用对协方差矩阵进行特征值分解,以获得协方差矩阵的所有特征值和最大特征值,根据所有特征值和最大特征值从第一目标频点中筛选出受混响影响较小且直达声占主导的第二目标频点,最终可以获得信噪比较高,受混响影响较小的频点,从而提升后续声源定位的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1是本申请直达声检测方法一实施方式的流程示意图;
图2是图1中步骤S1一实施方式的流程示意图;
图3是图1中步骤S2一实施方式的流程示意图;
图4是图3中步骤S21之前一实施方式的流程示意图;
图5是图1中步骤S3中对应的步骤一实施方式的流程示意图;
图6是图1中步骤S3中对应的步骤一实施方式的流程示意图;
图7是图1中步骤S4对应的步骤之前一实施方式的流程示意图;
图8是本申请直达声检测系统一实施方式的框架示意图;
图9是本申请直达声检测系统一实施方式的结构示意图;
图10是本申请计算机可读存储介质一实施方式的框架示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1是本申请直达声检测方法一实施方式的流程示意图。具体而言,该直达声检测方法包括:
S1:接收麦克风阵列采集获得的阵列信号,并根据阵列信号获取阵列频域信号。
具体地,在本实施例中,请参阅图2,图2是图1中步骤S1一实施方式的流程示意图。具体而言,步骤S1包括:
S10:接收麦克风阵列采集获得的阵列信号。
S11:对阵列信号依次进行分帧处理和加窗运算,以获得多个时域信号。
S12:利用快速傅立叶变换将多个时域信号转换为多个频域信号。
S13:根据频域信号获得导向矢量矩阵和声源信号的乘积与噪声信号的和值,并将和值作为阵列频域信号。
具体地,在本实施例中,根据频域信号获得导向矢量矩阵、声源信号以及噪声信号,并根据导向矢量矩阵、声源信号以及噪声信号获得频域信号模型。具体而言,上述频域信号模型为:
阵列频域信号:X(τ,fi)=A(fi,θ)S(τ,fi)+N(τ,fi)
导向矢量矩阵:
A(fi,θ)=[as1(fi1),as2(fi2),L,ask+1(fik+1)]∈CM*(k+1)
声源信号:S(τ,fi)=[s1(τ,fi),s2(τ,fi),L,sk+1(τ,fi)]T∈C(k+1)*1
噪声信号:N(τ,fi)=[n1(τ,fi),n2(τ,fi),L,nM(τ,fi)]T∈CM*1
阵列流型:
Figure BDA0003152219290000051
其中,τ表示声源达到第一个麦克风需要经过延迟τ,θi表示第i个目标位于θi方向,fi表示第fi个频点,d表示阵元间距,T表示转置,总共有k+1个目标,M个阵元。
S2:从阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点,并从阵列频域信号中获得第一目标频点所在位置的第一目标信号。
具体地,在本实施例中,请参阅图3,图3是图1中步骤S2一实施方式的流程示意图。具体而言,步骤S2包括:
S20:获取阵列频域信号中其中一个麦克风的频域信号,并获得麦克风的频域信号中每个频点的功率。
具体而言,获取麦克风阵列中其中给一个麦克风的频域信号,通过计算获得该麦克风的频域信号中给每个频点的功率P(t,fi),其中,t和fi表示在t时刻频点fi的功率。频点的功率P(t,fi)的计算方法为现有技术,本申请在此不再赘述。
S21:从麦克风的频域信号中筛选出功率大于第一门限值的第三目标频点。
具体地,在本实施例中,请参阅图4,图4是图3中步骤S21之前一实施方式的流程示意图。具体而言,步骤S21之前,包括:
S210:根据功率获得频点在预设时间阈值内的最小功率值,并将最小功率值作为噪声功率。
具体而言,考虑到语音的非平稳性和噪声的平稳性,统计每个频点在过去3秒里的最小功率值作为估计的噪声功率:
Pnoise(t,fi)=min(P(t0,fi)),t-3≤t0≤t
当然,上述预设时间阈值也可以根据用户需求设置成其他数值,本申请在此不作限定。
S211:获得第一倍数与噪声功率的乘积,并将乘积作为第一门限值。
具体地,在本实施例中,第一倍数设置为3,利用噪声功率Pnoise(t,fi)计算第一门限值:Pth(fi)=3*Pnoise(t,fi)。当然,在其他实施例中,第一倍数也可以设置为其他数值,本申请在此不作限定。
具体而言,返回至步骤S21,从上述麦克风的频域信号中筛选出功率P(t,fi)大于第一门限值Pth(fi)的第三目标频点,记为fj
S22:从阵列频域信号中筛选出与第三目标频点位置相同的第一目标频点,从阵列频域信号中获得第一目标频点所在位置的第一目标信号。
具体而言,从阵列频域信号X(τ,fi)中筛选出与第三目标频点fj位置相同的第一目标频点,并从阵列频域信号X(τ,fi)中获得第一目标频点所在位置的第一目标信号,记为X(τ,fj)。
S3:根据第一目标信号获得对应的协方差矩阵,并对协方差矩阵进行特征值分解,以获得协方差矩阵的所有特征值和最大特征值。
具体地,在本实施例中,请参阅图5,图5是图1中步骤S3中对应的步骤一实施方式的流程示意图。具体而言,步骤S3中根据第一目标信号获得对应的协方差矩阵的步骤包括:
S30:根据第一目标信号获得第一目标信号对应的共轭转置矩阵。
具体而言,根据第一目标信号X(τ,fj)获得第一目标信号X(τ,fj)对应的共轭转置矩阵XH(τ,fj),其中,H表示共轭转置。
S31:获得第一目标信号和共轭转置矩阵的乘积的期望值,并将期望值作为对应的协方差矩阵。
具体而言,根据第一目标信号X(τ,fj)和共轭转置矩阵XH(τ,fj)计算获得对应的协方差矩阵R(fj):
R(fj)=E{X(τ,fj)XH(τ,fj)}
其中,E{}表示期望值。
具体地,在本实施例中,请参阅图6,图6是图1中步骤S3中对应的步骤一实施方式的流程示意图。具体而言,步骤S3中对协方差矩阵进行特征值分解,以获得协方差矩阵的所有特征值和最大特征值的步骤包括:
S40:将协方差矩阵分解为协方差矩阵的特征向量矩阵、协方差矩阵的特征值按从大到小顺序排列所构成的对角矩阵以及特征向量矩阵的共轭转置矩阵。
具体而言,对协方差矩阵R(fj)进行特征值分解:
R(fj)=U(fj)Λ(fj)UH(fj)
其中,U(fj)表示协方差矩阵R(fj)的特征向量矩阵;Λ(fj)表示协方差矩阵的特征值按从大到小顺序排列所构成的对角矩阵,UH(fj)表示特征向量矩阵U(fj)的共轭转置矩阵。
S41:根据对角矩阵获得协方差矩阵的所有特征值和最大特征值。
具体而言,协方差矩阵R(fj)的所有特征值
Figure BDA0003152219290000071
为对角矩阵Λ(fj)的主对角线元素,从所有特征值
Figure BDA0003152219290000081
中挑选出最大特征值
Figure BDA0003152219290000082
S4:根据所有特征值和最大特征值从第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点,以利用第二目标频点进行声源定位。
具体地,在本实施例中,步骤S4包括:获得最大特征值
Figure BDA0003152219290000083
与所有特征值
Figure BDA0003152219290000084
之和的比值rj
Figure BDA0003152219290000085
将大于第二门限值rth的比值对应的第一目标频点作为第二目标频点。具体而言,上述比值的范围为0-1。
考虑到在只有单个声源存在时,从非目标角度入射到阵列的混响信号的能量要小于直达信号,也就是第二目标频点所在位置的信号是直达信号,其余的信号都是混响产生的信号。那么直达信号的能量在一些频点上是要大于混响信号的能量,根据所有特征值
Figure BDA0003152219290000086
和最大特征值
Figure BDA0003152219290000087
从第一目标频点中筛选出受混响影响较小且直达声占主导的第二目标频点,该第二目标频点则是直达声占主导的频点,使用该频点进行声源定位会有更好的估计性能,这样最终可以获得信噪比较高,受混响影响较小的频点,从而提升后续声源定位的准确度。
具体地,在本实施例中,请参阅图7,图7是图1中步骤S4对应的步骤之前一实施方式的流程示意图。具体而言,在获得最大特征值与所有特征值之和的比值,将大于第二门限值的比值对应的第一目标频点作为第二目标频点的步骤之前,包括:
S50:根据混响时间获得语言函数的指数以及语言函数的值。
具体而言,上述语言函数的指数与混响时间T60成反比,为
Figure BDA0003152219290000088
在本实施例中,T60是已知的混响时间。当然,在其他实施例中,混响时间T60也可以是通过其他方法计算得到。另外,在本实施例中,语言函数的值为
Figure BDA0003152219290000089
S51:判断语言函数的值与第一阈值和第二阈值的大小关系。
具体的,在本实施例中,第一阈值和第二阈值分别设置为0.1和0.8。当然,本申请对第一阈值和第二阈值的数值不作限定。判断语言函数的值
Figure BDA0003152219290000091
与第一阈值和第二阈值的大小关系,如下公式所示:
Figure BDA0003152219290000092
S52:当语言函数的值小于第一阈值时,将第一阈值作为第二门限值。
具体的,在本实施例中,当语言函数的值
Figure BDA0003152219290000093
小于0.1时,第二门限值rth=0.1。
S53:当语言函数的值大于第二阈值时,将第二阈值作为第二门限值。
具体的,在本实施例中,当语言函数的值
Figure BDA0003152219290000094
大于0.8时,第二门限值rth=0.8。
S54:当语言函数的值大于或等于第一阈值且小于或等于第二阈值时,将语言函数的值作为第二门限值。
具体的,在本实施例中,当语言函数的值
Figure BDA0003152219290000095
大于或等于0.1且小于或等于0.8时,第二门限值
Figure BDA0003152219290000096
根据混响时间T60计算第二门限值rth,当混响越重时,第二门限值rth就会越高;当混响越轻时,第二门限值rth就会越低。这样可以根据实际情况确定第二门限值rth,从而筛选出受混响影响较小的频点,从而提升后续声源定位的准确度。
请参阅图8,图8是本申请直达声检测系统一实施方式的框架示意图。该直达声检测系统具体包括:
获取模块10,用于接收麦克风阵列采集获得的阵列信号,并根据阵列信号获取阵列频域信号。
第一筛选模块12,与获取模块10耦接,用于从阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点。
处理模块14,与第一筛选模块12耦接,用于从阵列频域信号中获得第一目标频点所在位置的第一目标信号。当然,处理模块14还用于根据第一目标信号获得对应的协方差矩阵,并对协方差矩阵进行特征值分解,以获得协方差矩阵的所有特征值和最大特征值。
第二筛选模块16,与处理模块14耦接,用于根据所有特征值和最大特征值从第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点,以利用第二目标频点进行声源定位。
请参阅图9,图9是本申请直达声检测系统一实施方式的结构示意图。该直达声检测系统包括相互耦接的存储器20和处理器22。具体地,在本实施例中,存储器20内存储有程序指令,处理器22用于执行程序指令以实现上述任一实施例所提及的直达声检测方法。
具体而言,处理器22还可以称为CPU(Central Processing Unit,中央处理单元)。处理器22可能是一种集成电路芯片,具有信号的处理能力。处理器22还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器22可以由多个集成电路芯片共同实现。
请参阅图10,图10是本申请计算机可读存储介质一实施方式的框架示意图。该计算机可读存储介质30存储有计算机程序300,能够被计算机所读取,计算机程序300能够被处理器执行,以实现上述任一实施例中所提及的直达声检测方法。其中,该计算机程序300可以以软件产品的形式存储在上述计算机可读存储介质30中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。具有存储功能的计算机可读存储介质30可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
总而言之,区别于现有技术的情况,本申请中接收麦克风阵列采集获得的阵列信号,并根据阵列信号获取阵列频域信号,从阵列频域信号中筛选出信噪比较高的第一目标频点,再利用对协方差矩阵进行特征值分解,以获得协方差矩阵的所有特征值和最大特征值,根据所有特征值和最大特征值从第一目标频点中筛选出受混响影响较小且直达声占主导的第二目标频点,最终可以获得信噪比较高,受混响影响较小的频点,从而提升后续声源定位的准确度。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种直达声检测方法,其特征在于,包括:
接收麦克风阵列采集获得的阵列信号,并根据所述阵列信号获取阵列频域信号;
从所述阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点,并从所述阵列频域信号中获得所述第一目标频点所在位置的第一目标信号;
根据所述第一目标信号获得对应的协方差矩阵,并对所述协方差矩阵进行特征值分解,以获得所述协方差矩阵的所有特征值和最大特征值;
根据所有所述特征值和所述最大特征值从所述第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点,以利用所述第二目标频点进行声源定位。
2.根据权利要求1所述的直达声检测方法,其特征在于,所述根据所有所述特征值和所述最大特征值从所述第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点,以利用所述第二目标频点进行声源定位的步骤,包括:
获得所述最大特征值与所有所述特征值之和的比值,将大于第二门限值的所述比值对应的第一目标频点作为第二目标频点;其中,所述比值的范围为0-1。
3.根据权利要求2所述的直达声检测方法,其特征在于,所述获得所述最大特征值与所有所述特征值之和的比值,将大于第二门限值的所述比值对应的第一目标频点作为第二目标频点的步骤之前,包括:
根据混响时间获得语言函数的指数以及所述语言函数的值;其中,所述指数与所述混响时间成反比;
响应于所述语言函数的值小于第一阈值,将所述第一阈值作为所述第二门限值;
响应于所述语言函数的值大于第二阈值,将所述第二阈值作为所述第二门限值;
响应于所述语言函数的值大于或等于所述第一阈值且小于或等于所述第二阈值,将所述语言函数的值作为所述第二门限值。
4.根据权利要求1所述的直达声检测方法,其特征在于,所述根据所述第一目标信号获得对应的协方差矩阵的步骤,包括:
根据所述第一目标信号获得对应的共轭转置矩阵;
获得所述第一目标信号和所述共轭转置矩阵的乘积的期望值,并将所述期望值作为对应的所述协方差矩阵。
5.根据权利要求4所述的直达声检测方法,其特征在于,所述对所述协方差矩阵进行特征值分解,以获得所述协方差矩阵的所有特征值和最大特征值的步骤,包括:
将所述协方差矩阵分解为所述协方差矩阵的特征向量矩阵、所述协方差矩阵的特征值按从大到小顺序排列所构成的对角矩阵以及所述特征向量矩阵的共轭转置矩阵;
根据所述对角矩阵获得所述协方差矩阵的所有特征值和最大特征值,其中,所述特征值为所述对角矩阵的主对角线元素。
6.根据权利要求1所述的直达声检测方法,其特征在于,所述接收麦克风阵列采集获得的阵列信号,并根据所述阵列信号获取阵列频域信号的步骤,包括:
接收麦克风阵列采集获得的阵列信号;
对所述阵列信号依次进行分帧处理和加窗运算,以获得多个时域信号;
利用快速傅立叶变换将所述多个时域信号转换为多个频域信号;
根据所述频域信号获得导向矢量矩阵和声源信号的乘积与噪声信号的和值,并将所述和值作为所述阵列频域信号。
7.根据权利要求1所述的直达声检测方法,其特征在于,所述从所述阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点,并从所述阵列频域信号中获得所述第一目标频点所在位置的第一目标信号的步骤,包括:
获取所述阵列频域信号中其中一个麦克风的频域信号,并获得所述麦克风的频域信号中每个频点的功率;
从所述麦克风的频域信号中筛选出所述功率大于所述第一门限值的第三目标频点;
从所述阵列频域信号中筛选出与所述第三目标频点位置相同的第一目标频点,从所述阵列频域信号中获得所述第一目标频点所在位置的第一目标信号。
8.根据权利要求7所述的直达声检测方法,其特征在于,所述从所述麦克风的频域信号中筛选出所述功率大于所述第一门限值的第三目标频点的步骤之前,包括:
根据所述功率获得所述频点在预设时间阈值内的最小功率值,并将所述最小功率值作为噪声功率;
获得第一倍数与所述噪声功率的乘积,并将所述乘积作为所述第一门限值。
9.一种直达声检测系统,其特征在于,包括相互耦接的存储器和处理器,所述存储器内存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至8中任一项所述的直达声检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于实现权利要求1至8任一项所述的直达声检测方法。
CN202110767190.XA 2021-07-07 2021-07-07 直达声检测方法、系统以及计算机可读存储介质 Pending CN113687304A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110767190.XA CN113687304A (zh) 2021-07-07 2021-07-07 直达声检测方法、系统以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110767190.XA CN113687304A (zh) 2021-07-07 2021-07-07 直达声检测方法、系统以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113687304A true CN113687304A (zh) 2021-11-23

Family

ID=78576749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110767190.XA Pending CN113687304A (zh) 2021-07-07 2021-07-07 直达声检测方法、系统以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113687304A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020126859A1 (en) * 1997-10-31 2002-09-12 Ullrich Kenneth A. Assistive-listening system and method for television, radio & music systems
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位系统
CN107132505A (zh) * 2017-05-19 2017-09-05 中国人民解放军信息工程大学 直达与非直达混合场景中的多目标直接定位方法
CN107316649A (zh) * 2017-05-15 2017-11-03 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN108828525A (zh) * 2018-06-25 2018-11-16 大连大学 混响房间内分布式麦克风阵列多声源定位系统
CN108986838A (zh) * 2018-09-18 2018-12-11 东北大学 一种基于声源定位的自适应语音分离方法
CN110082725A (zh) * 2019-03-12 2019-08-02 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位系统
CN110133596A (zh) * 2019-05-13 2019-08-16 南京林业大学 一种基于频点信噪比和偏置软判决的阵列声源定位方法
CN110488223A (zh) * 2019-07-05 2019-11-22 东北电力大学 一种声源定位方法
CN110726972A (zh) * 2019-10-21 2020-01-24 南京南大电子智慧型服务机器人研究院有限公司 干扰及高混响环境下使用传声器阵列的语音声源定位方法
CN111044973A (zh) * 2019-12-31 2020-04-21 山东大学 一种用于麦克风方阵的mvdr目标声源定向拾音方法
CN111624553A (zh) * 2020-05-26 2020-09-04 锐迪科微电子科技(上海)有限公司 声源定位方法及系统、电子设备及存储介质
CN111679244A (zh) * 2020-05-13 2020-09-18 上海大学 一种基于平面波相对密度的直达声时频点选取方法
CN112799017A (zh) * 2021-04-07 2021-05-14 浙江华创视讯科技有限公司 声源定位方法、装置、存储介质及电子设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020126859A1 (en) * 1997-10-31 2002-09-12 Ullrich Kenneth A. Assistive-listening system and method for television, radio & music systems
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位系统
CN107316649A (zh) * 2017-05-15 2017-11-03 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN107132505A (zh) * 2017-05-19 2017-09-05 中国人民解放军信息工程大学 直达与非直达混合场景中的多目标直接定位方法
CN108828525A (zh) * 2018-06-25 2018-11-16 大连大学 混响房间内分布式麦克风阵列多声源定位系统
CN108986838A (zh) * 2018-09-18 2018-12-11 东北大学 一种基于声源定位的自适应语音分离方法
CN110082725A (zh) * 2019-03-12 2019-08-02 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位系统
CN110133596A (zh) * 2019-05-13 2019-08-16 南京林业大学 一种基于频点信噪比和偏置软判决的阵列声源定位方法
CN110488223A (zh) * 2019-07-05 2019-11-22 东北电力大学 一种声源定位方法
CN110726972A (zh) * 2019-10-21 2020-01-24 南京南大电子智慧型服务机器人研究院有限公司 干扰及高混响环境下使用传声器阵列的语音声源定位方法
CN111044973A (zh) * 2019-12-31 2020-04-21 山东大学 一种用于麦克风方阵的mvdr目标声源定向拾音方法
CN111679244A (zh) * 2020-05-13 2020-09-18 上海大学 一种基于平面波相对密度的直达声时频点选取方法
CN111624553A (zh) * 2020-05-26 2020-09-04 锐迪科微电子科技(上海)有限公司 声源定位方法及系统、电子设备及存储介质
CN112799017A (zh) * 2021-04-07 2021-05-14 浙江华创视讯科技有限公司 声源定位方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US20240233719A1 (en) Audio recognition method, method, apparatus for positioning target audio, and device
US10573301B2 (en) Neural network based time-frequency mask estimation and beamforming for speech pre-processing
EP3347894B1 (en) Arbitration between voice-enabled devices
Arberet et al. A robust method to count and locate audio sources in a multichannel underdetermined mixture
CN110148422B (zh) 基于传声器阵列确定声源信息的方法、装置及电子设备
US11257512B2 (en) Adaptive spatial VAD and time-frequency mask estimation for highly non-stationary noise sources
US20100217590A1 (en) Speaker localization system and method
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
JP2003337594A (ja) 音声認識装置、その音声認識方法及びプログラム
CN109119090A (zh) 语音处理方法、装置、存储介质及电子设备
CN108538306B (zh) 提高语音设备doa估计的方法及装置
WO2021023045A1 (zh) 多个信号的共同周期确定方法、装置和可读存储介质
US10755727B1 (en) Directional speech separation
CN110310651B (zh) 波束形成的自适应语音处理方法、移动终端及存储介质
CN110503973B (zh) 音频信号瞬态噪音抑制方法、系统以及存储介质
CN111681665A (zh) 一种全向降噪方法、设备及存储介质
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
CN116612776A (zh) 一种麦克风阵列的信号处理方法及装置
CN113782043A (zh) 语音采集方法、装置、电子设备及计算机可读存储介质
CN110992977A (zh) 一种目标声源的提取方法及装置
CN113687304A (zh) 直达声检测方法、系统以及计算机可读存储介质
CN115273909B (zh) 语音活性检测方法、装置、设备及计算机可读存储介质
Zhou et al. Design of a robust MVDR beamforming method with Low-Latency by reconstructing covariance matrix for speech enhancement
WO2020184210A1 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
JP7270869B2 (ja) 情報処理装置、出力方法、及び出力プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination