CN113138363A - 一种声源定位方法、装置、存储介质和电子设备 - Google Patents

一种声源定位方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN113138363A
CN113138363A CN202110433413.9A CN202110433413A CN113138363A CN 113138363 A CN113138363 A CN 113138363A CN 202110433413 A CN202110433413 A CN 202110433413A CN 113138363 A CN113138363 A CN 113138363A
Authority
CN
China
Prior art keywords
correlation operation
sound source
initial
operation result
directions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110433413.9A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Zhendi Intelligent Technology Co Ltd
Original Assignee
Suzhou Zhendi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Zhendi Intelligent Technology Co Ltd filed Critical Suzhou Zhendi Intelligent Technology Co Ltd
Priority to CN202110433413.9A priority Critical patent/CN113138363A/zh
Publication of CN113138363A publication Critical patent/CN113138363A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请实施例提供一种声源定位方法、装置、存储介质和电子设备,该声源定位方法包括:从获得的音频信号对应的频域信号中提取多个预设频点的信号;分别对每个预设频点的信号进行相关运算,以获得多个相关运算结果;根据多个相关运算结果,计算多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,多个初始方向矢量是与多个初始方向一一对应的;计算每个相关运算结果和每个相关运算结果对应的多个初始方向矢量的第一乘积值;确定多个初始方向中每个初始方向对应的第一乘积值的和;根据每个初始方向对应的第一乘积值的和,确定声源的第一目标方向。借助于上述技术方案,相比于现有的声源定位方法,本申请实施例能够降低计算复杂度。

Description

一种声源定位方法、装置、存储介质和电子设备
技术领域
本申请涉及语音识别技术领域,尤其涉及一种声源定位方法、装置、存储介质和电子设备。
背景技术
随着计算机技术的迅速发展,语音定向成为一个新兴的话题。在光线比较差或者有障碍物的复杂环境下对感兴趣的声源进行定位,甚至对目标声源进行跟踪,使得语音定向技术得到了广泛的应用。
目前,现有的声源定位方法可以是基于时间差来确定声源的位置的。
在实现本发明的过程中,发明人发现现有技术中存在如下问题:由于现有的声源定位方法是基于时间差来确定声源的位置的,故现有的声源定位方法存在着计算复杂度比较高的问题。
发明内容
本申请实施例的目的在于提供一种声源定位方法、装置、存储介质和电子设备,以解决现有技术中存在着的计算复杂度比较高的问题。
第一方面,本申请实施例提供了一种声源定位方法,该声源定位方法包括:从获得的音频信号对应的频域信号中提取多个预设频点的信号;分别对每个预设频点的信号进行相关运算,以获得多个相关运算结果;根据多个相关运算结果,计算多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,多个初始方向矢量是与多个初始方向一一对应的;计算每个相关运算结果和每个相关运算结果对应的多个初始方向矢量的第一乘积值;确定多个初始方向中每个初始方向对应的第一乘积值的和;根据每个初始方向对应的第一乘积值的和,确定声源的第一目标方向。
因此,本申请实施例针对音频信号的带宽特点,将音频信号转换到频域进行处理,并通过分别对每个预设频点的信号进行相关运算,以获得多个相关运算结果,随后根据多个相关运算结果,计算多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,多个初始方向矢量是与多个初始方向一一对应的,随后计算每个相关运算结果和每个相关运算结果对应的多个初始方向矢量的第一乘积值,随后确定多个初始方向中每个初始方向对应的第一乘积值的和,最后根据每个初始方向对应的第一乘积值的和,确定声源的第一目标方向,从而能够实现高精度的定向,并且相比于现有的声源定位方法,其能够满足智能设备的实时、高精度和降低计算复杂度的需求,并且对待定位声源是没有要求的。
这里需要说明的是,上述步骤是为了实现第一次方向匹配。
在一个可能的实施例中,音频信号为通过麦克风阵列采集的音频信号;其中,根据多个相关运算结果,计算多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,包括:根据每个相关运算结果、每个初始方向对应的方向信息和麦克风阵列的阵列信息,计算每个相关运算结果对应的多个初始方向矢量。
在一个可能的实施例中,根据每个初始方向对应的第一乘积值的和,确定声源的第一目标方向,包括:确定每个初始方向对应的第一乘积值的和中的第一最大和;将第一最大和对应的初始方向作为第一目标方向。
在一个可能的实施例中,声源定位方法还包括:根据多个相关运算结果,计算每个相关运算结果对应的多个参考方向矢量,多个参考方向矢量是与多个参考方向一一对应的,多个参考方向是以第一目标方向作为基准方向后确定的;计算每个相关运算结果和每个相关运算结果对应的多个参考方向矢量的第二乘积值;确定多个参考方向中每个参考方向对应的第二乘积值的和;根据每个参考方向对应的第二乘积值的和,确定声源的第二目标方向。
这里需要说明的是,上述步骤是为了实现第二次方向匹配。
在一个可能的实施例中,根据每个参考方向对应的第二乘积值的和,确定声源的第二目标方向,包括:确定每个参考方向对应的第二乘积值的和中的第二最大和;将第二最大和对应的参考方向作为第二目标方向。
在一个可能的实施例中,任意两个相邻的初始方向之间的夹角均为第一夹角,任意两个相邻的参考方向之间的夹角均为第二夹角,第二夹角小于第一夹角。
在一个可能的实施例中,声源定位方法还包括:对第一目标方向的音频信号或者第二目标方向的音频信号进行增强处理。
第二方面,本申请实施例提供了一种声源定位装置,该声源定位装置包括:提取模块,用于从获得的音频信号对应的频域信号中提取多个预设频点的信号;运算模块,用于分别对每个预设频点的信号进行相关运算,以获得多个相关运算结果;第一计算模块,用于根据多个相关运算结果,计算多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,多个初始方向矢量是与多个初始方向一一对应的;第二计算模块,用于计算每个相关运算结果和每个相关运算结果对应的多个初始方向矢量的第一乘积值;第一确定模块,用于确定多个初始方向中每个初始方向对应的第一乘积值的和;第二确定模块,用于根据每个初始方向对应的第一乘积值的和,确定声源的第一目标方向。
第三方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种语音处理方法的流程图;
图2示出了本申请实施例提供的一种声源定位方法的流程图;
图3示出了本申请实施例提供的一种声源定位装置的结构框图;
图4示出了本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
随着计算机技术的迅速发展,语音定向成为一个新兴的话题。在光线比较差或者有障碍物的复杂环境下对感兴趣的声源进行定位,甚至对目标声源进行跟踪,使得语音定向技术得到了广泛的应用。
然而,单个麦克风在噪声处理、声源定位和跟踪、语音提取和分离等方面存在明显的不足,严重影响了语音通信质量。如果使用多个麦克风组成阵列,对来自不同方向的信号进行空时处理,将有利于自动跟踪说话人的方向和位置并提高信噪比,从而弥补了上述不足。因此,基于麦克风阵列的声源定位及语音增强技术在视频会议、声音检测、助听器和车载免提电话等领域有着重要的应用价值。
目前,现有的声源定位方法是基于时间差来确定声源的位置的,或者是基于各种空间谱来确定声源的位置的。
但是,对于基于时间差来确定声源的位置的声源定位方法来说,该声源定位方法存在着计算复杂度比较高的问题;对于基于各种空间谱来确定声源的位置的声源定位方法来说,该声源定位方法存在着对音频信号的先验经验有依赖的问题。
基于此,本申请实施例巧妙地提出了一种声源定位方法,通过从获得的音频信号对应的频域信号中提取多个预设频点的信号,随后分别对每个预设频点的信号进行相关运算,以获得多个相关运算结果,随后根据多个相关运算结果,计算多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,多个初始方向矢量是与多个初始方向一一对应的,随后计算每个相关运算结果和每个相关运算结果对应的多个初始方向矢量的第一乘积值,随后确定多个初始方向中每个初始方向对应的第一乘积值的和,最后根据每个初始方向对应的第一乘积值的和,确定声源的第一目标方向。
因此,在获取到音频信号时,本申请实施例针对音频信号的带宽特点,将音频信号转换到频域进行处理,并通过分别对每个预设频点的信号进行相关运算,以获得多个相关运算结果,随后根据多个相关运算结果,计算多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,多个初始方向矢量是与多个初始方向一一对应的,随后计算每个相关运算结果和每个相关运算结果对应的多个初始方向矢量的第一乘积值,随后确定多个初始方向中每个初始方向对应的第一乘积值的和,最后根据每个初始方向对应的第一乘积值的和,确定声源的第一目标方向,从而能够实现高精度的定向,并且相比于现有的声源定位方法,其能够满足智能设备的实时、高精度和降低计算复杂度的需求,并且对待定位声源是没有要求的。
请参见图1,图1示出了本申请实施例提供的一种语音处理方法的流程图。如图1所示的语音处理方法可以由语音处理装置执行,该语音处理装置可以是能够执行该语音处理方法的各种设备,例如,无人机、服务器或者个人计算机等,本申请实施例并不局限于此。具体地,该语音处理方法包括:
步骤S110,采集音频信号。
应理解,音频信号可以是通过麦克风阵列采集的音频信号。
还应理解,音频信号可以是语音信号,也可以是其他信号等。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。
具体地,可由语音处理装置实现对音频信号的实时采集。
步骤S120,对音频信号进行检测,获得语音检测结果。
应理解,语音检测结果的具体结果可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,语音检测结果可以为音频信号的有效语音的开始位置和结束位置。有效语音可以是过滤掉环境声音后剩余的用户的语音。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。
具体地,可根据音频信号,确定音频信号中的有效语音的开始位置和结束位置。
应理解,根据音频信号,确定音频信号中的有效语音的开始位置和结束位置的具体方法可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,可根据短时过零率和语音短时幅度需满足其一的原则确定音频信号中的有效语音的开始位置和结束位置。
步骤S130,在获得语音检测结果后,判断是否启动语音定位。
在启动语音定位的情况下,执行步骤S140;在未启动语音定位的情况下,返回步骤S120。
步骤S140,根据语音检测结果,对音频信号进行声源定位,以确定声源的方向。
应理解,根据语音检测结果,对音频信号进行声源定位的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,根据语音检测结果,对音频信号进行声源定位的具体过程可参见图2所示的声源定位方法的相关描述,在此不再详细描述。
步骤S150,在确定声源的方向后,对指定的声源方向进行语音增强。
应理解,在确定声源的方向后,对指定的声源方向进行语音增强的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,在确定声源的方向后,可利用延时求和算法等对指定的声源方向的麦克风阵列信号进行语音增强。
也就是说,由于进行声源定位需要在智能设备上配备至少两个或以上的麦克风阵列,可通过采集模块负责采集音频信号,以及还可通过语音检测模块利用端点检测方法检测出音频信号,以及还可通过语音定位与跟踪模块对时域音频信号进行频域梳状滤波,选择预先指定的音频范围内子频带,对各子频带信号按照不同方向矢量进行匹配,然后将同一方向矢量匹配后的各子频带结果进行累积,比较各方向累积结果选择最大值对应的方向作为第二次方向匹配初始结果,第二次方向匹配时以上一次匹配方向为中心,进行进一步精确寻找。以及,语音增强模块根据检测出的音源方位对麦克风阵列信号进行方向设定,以增强该方向音频信号能量,从而能够更进一步可以根据音源方向进行讲话人的跟踪。
这里需要说明的是,为了便于理解上述步骤S140的具体过程,下面通过图2所示的声源定位方法来进行描述。
如图2所示,图2示出了本申请实施例提供的一种声源定位方法的流程图。如图2所示的声源定位方法可以由执行如图1的相关步骤的装置来执行,本申请实施例并不局限于此。具体地,该声源定位方法包括:
步骤S211,从获得的音频信号对应的频域信号中提取多个预设频点的信号。
应理解,该音频信号可以是指音频信号中的有效语音,从而后续可只对有效语音进行处理即可,从而也能够提高声源定位的效率。
这里需要说明的是,虽然上面是以音频信号为音频信号中的有效语音为例来进行描述的,但本领域的技术人员应当理解,该音频信号还可以是通过麦克风阵列采集的原始音频信号,本申请实施例并不局限于此。
还应理解,预设频点的具体频点可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,对于指定频段来说,预设频点可以是通过预设间隔频段确定的频点。
还应理解,指定频段对应的具体频段和预设间隔频段对应的具体频段均可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,在指定频段为100HZ至4000HZ且预设间隔频段为50HZ的情况下,预设频点可以是150HZ、200HZ、250HZ、300HZ等。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。
具体地,在获取到音频信号后,可对音频信号做傅里叶变换处理,以将音频信号变换到频域进行处理。此外,由于音频信号主要集中在100HZ至4000HZ,从而可利用预设间隔频段将多个预设频点的信号提取出来。
应理解,利用预设间隔频段将多个预设频点的信号提取出来的具体手段可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,可利用梳状滤波器对音频信号进行滤波处理,以获得多个预设频点的信号。
步骤S212,分别对每个预设频点的信号进行相关运算,以获得多个相关运算结果。其中,多个相关运算结果和多个预设频点的信号一一对应。
应理解,相关运算所包含的具体运算可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,相关运算包括自相关运算或者互相关运算。
这里需要说明的是,在分别对多个频点的信号进行相关运算的过程中,可通过并行运算的方式来进行运算,也可按照预设频点的顺序(例如,由小到大的顺序)进行运算,本申请实施例并不局限于此。
步骤S213,根据多个相关运算结果,计算多个相关运算结果中每个相关运算结果对应的多个初始方向矢量。其中,多个初始方向矢量是与多个初始方向一一对应的。
应理解,根据多个相关运算结果,计算多个相关运算结果中每个相关运算结果对应的多个初始方向矢量的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
可选地,在音频信号为通过麦克风阵列采集的音频信号的情况下,根据每个相关运算结果、每个初始方向对应的方向信息和麦克风阵列的阵型信息,计算每个相关运算结果对应的多个初始方向矢量。
应理解,初始方向对应的具体方向可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,多个初始方向中的每个初始方向均可以是感兴趣的方向或者想定位的方向(例如,对于正前方的0度到180度,可以对0度到180度中的每1度看作一个初始方向或者感兴趣方向(例如,1度作为一个初始方向,2度继续作为一个初始方向,3度继续作为一个初始方向等),从而可获得180个初始方向)。
还应理解,麦克风阵列的阵列信息可以是十字形阵型相关的阵列信息,也可以是圆形阵型相关的阵列信息等。也就是说,麦克风阵列的阵型信息可根据实际需求来进行设置,本申请实施例并不局限于此。
还应理解,根据每个相关运算结果、每个初始方向对应的方向信息和麦克风阵列的阵型信息,计算每个相关运算结果对应的多个初始方向矢量的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
为了便于理解初始方向矢量的计算过程,下面通过具体的实施例来进行描述。
例如,对于当前相关运算结果来说,可利用当前预设频点的信号、1度方向对应的方向信息和麦克风阵列的阵列信息,计算当前运算结果对应的1度方向的方向矢量。重复上述步骤,以分别计算2度方向到180度方向对应的方向矢量。
步骤S214,计算每个相关运算结果和每个相关运算结果对应的多个初始方向矢量的第一乘积值。
具体地,可根据每个相关运算结果和每个相关运算结果对应的多个初始方向矢量,计算每个相关运算结果和每个相关运算结果对应的多个初始方向矢量的第一乘积值,从而可按照各个方向对所有频点的信号的第一次匹配结果作累计求和。
例如,在多个相关运算结果包括第一相关运算结果且第一相关运算结果对应有3个初始方向矢量的情况下,可分别计算第一相关运算结果和3个初始方向矢量的乘积,以获得3个乘积值。
步骤S215,确定多个初始方向中每个初始方向对应的第一乘积值的和。
具体地,在获取到每个相关运算结果和每个相关运算结果对应的多个初始方向矢量的第一乘积值的情况下,可对所有第一乘积值进行分类归总,以确定每个初始方向对应的第一乘积值,并计算每个初始方向对应的所有第一乘积值的和。
例如,在所有第一乘积值为第一相关运算结果和第一相关运行结果对应的两个方向矢量(例如,第一方向对应的第一方向矢量和第二方向对应的第二方向矢量)的第一乘积值以及第二相关运算结果和第二相关运行结果对应的两个方向矢量的第一乘积值的情况下,可对所有第一乘积值进行分类,以获取第一方向对应的两个第一乘积值和第二方向对应的两个第一乘积值,随后可计算第一方向对应的两个乘积值的和,并计算第二方向对应的两个第一乘积值的和。
步骤S216,根据每个初始方向对应的第一乘积值的和,确定声源的第一目标方向。
具体地,根据每个初始方向对应的第一乘积值的和,确定每个初始方向对应的第一乘积值的和中的第一最大和,并将第一最大和对应的初始方向作为第一目标方向,从而可在第一次所有匹配方向上找寻第一最大和,并将第一最大和对应的初始方向作为第一目标方向。
这里需要说明的是,步骤S211至步骤S216实现的是第一次方向匹配,从而可第一次方向匹配来实现粗匹配,从而能够确定声源的方向。对于本领域的技术人员来说,若想确定更精准的声源的定位,可基于第一目标方向来实现第二次更精准的匹配,具体可参见步骤S217至步骤S220。
步骤S217,根据多个相关运算结果,计算每个相关运算结果对应的多个参考方向矢量。其中,多个参考方向矢量是与多个参考方向一一对应的,多个参考方向是以第一目标方向作为基准方向后确定的。
应理解,多个参考方向的确定方式可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,在确定第一目标方向后,可将第一目标方向作为中心,并可选取第一目标方向左右两侧的多个方向作为多个参考方向,并且任意两个相邻的参考方向之间的夹角(例如,0.1度)是小于任意两个相邻的初始方向之间的夹角(例如,1度)。
也就是说,任意两个相邻的初始方向之间的夹角均为第一夹角,任意两个相邻的参考方向之间的夹角均为第二夹角,第二夹角小于第一夹角。
这里还需要说明的是,步骤S217的具体过程与步骤S113的过程是类似的,具体可参见步骤S213的描述,在此不再重复赘述。
步骤S218,计算每个相关运算结果和每个相关运算结果对应的多个参考方向矢量的第二乘积值。
这里还需要说明的是,步骤S218的具体过程与步骤S114的过程是类似的,具体可参见步骤S214的描述,在此不再重复赘述。
步骤S219,确定多个参考方向中每个参考方向对应的第二乘积值的和。
这里还需要说明的是,步骤S219的具体过程与步骤S115的过程是类似的,具体可参见步骤S215的描述,在此不再重复赘述。
步骤S220,根据每个参考方向对应的第二乘积值的和,确定声源的第二目标方向。
这里还需要说明的是,步骤S220的具体过程与步骤S116的过程是类似的,具体可参见步骤S216的描述,在此不再重复赘述。
例如,确定每个参考方向对应的第二乘积值的和中的第二最大和,并可将第二最大和对应的参考方向作为第二目标方向。
因此,本申请实施例可通过步骤S217至步骤S220来实现第二次方向匹配,从而相比于一次匹配的过程,其能够更加精准的确定声源的方向。例如,通过步骤S211至步骤S216实现第一次方向匹配,以确定第一目标方向为150度,随后可通过步骤S217至步骤S220实现第二次方向匹配,以确定第二目标方向为149.7度。
此外,在获取到第一目标方向或者第二目标方向之后,可对应第一目标方向的音频信号或者第二方向的音频信号进行增强处理。
这里需要说明的是,步骤S217和步骤S220的过程也是可以省略的。
因此,本申请实施例可以通过两次匹配过程来实现快速高精准的定向,从而能够满足智能设备的实时、高精度等需求,并且对待定位声源无要求。
应理解,上述声源定位方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,修改或变形之后的内容也在本申请保护范围内。
请参见图3,图3示出了本申请实施例提供的一种声源定位装置300的结构框图,应理解,该声源定位装置300与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该声源定位装置300具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该声源定位装置300包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在声源定位装置300的操作系统(operating system,OS)中的软件功能模块。具体地,该声源定位装置300包括:
提取模块310,用于从获得的音频信号对应的频域信号中提取多个预设频点的信号;运算模块320,用于分别对每个预设频点的信号进行相关运算,以获得多个相关运算结果;第一计算模块330,用于根据多个相关运算结果,计算多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,多个初始方向矢量是与多个初始方向一一对应的;第二计算模块340,用于计算每个相关运算结果和每个相关运算结果对应的多个初始方向矢量的第一乘积值;第一确定模块350,用于确定多个初始方向中每个初始方向对应的第一乘积值的和;第二确定模块360,用于根据每个初始方向对应的第一乘积值的和,确定声源的第一目标方向。
在一个可能的实施例中,音频信号为通过麦克风阵列采集的音频信号;第一计算模块330,具体用于:根据每个相关运算结果、每个初始方向对应的方向信息和麦克风阵列的阵列信息,计算每个相关运算结果对应的多个初始方向矢量。
在一个可能的实施例中,第二确定模块360,具体用于:确定每个初始方向对应的第一乘积值的和中的第一最大和;将第一最大和对应的初始方向作为第一目标方向。
在一个可能的实施例中,声源定位装置还包括:第三计算模块(未示出),用于根据多个相关运算结果,计算每个相关运算结果对应的多个参考方向矢量,多个参考方向矢量是与多个参考方向一一对应的,多个参考方向是以第一目标方向作为基准方向后确定的;第四计算模块(未示出),用于计算每个相关运算结果和每个相关运算结果对应的多个参考方向矢量的第二乘积值;第三确定模块(未示出),用于确定多个参考方向中每个参考方向对应的第二乘积值的和;第四确定模块(未示出),用于根据每个参考方向对应的第二乘积值的和,确定声源的第二目标方向。
在一个可能的实施例中,第四确定模块,具体用于:确定每个参考方向对应的第二乘积值的和中的第二最大和;将第二最大和对应的参考方向作为第二目标方向。
在一个可能的实施例中,任意两个相邻的初始方向之间的夹角均为第一夹角,任意两个相邻的参考方向之间的夹角均为第二夹角,第二夹角小于第一夹角。
在一个可能的实施例中,声源定位装置还包括:增强模块(未示出),用于对第一目标方向的音频信号或者第二目标方向的音频信号进行增强处理。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
请参见图4,图4示出了本申请实施例提供的一种电子设备400的结构框图。电子设备400可以包括处理器410、通信接口420、存储器430和至少一个通信总线440。其中,通信总线440用于实现这些组件直接的连接通信。其中,本申请实施例中的通信接口420用于与其他设备进行信令或数据的通信。处理器410可以是一种集成电路芯片,具有信号的处理能力。上述的处理器410可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器410也可以是任何常规的处理器等。
存储器430可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器430中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器410执行时,电子设备400可以执行上述方法实施例中的各个步骤。
电子设备400还可以包括存储控制器、输入输出单元、音频单元、显示单元。
所述存储器430、存储控制器、处理器410、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线440实现电性连接。所述处理器410用于执行存储器430中存储的可执行模块。并且,电子设备400用于执行下述方法:从获得的音频信号对应的频域信号中提取多个预设频点的信号;分别对每个所述预设频点的信号进行相关运算,以获得多个相关运算结果;根据所述多个相关运算结果,计算所述多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,所述多个初始方向矢量是与多个初始方向一一对应的;计算所述每个相关运算结果和所述每个相关运算结果对应的多个初始方向矢量的第一乘积值;确定所述多个初始方向中每个初始方向对应的第一乘积值的和;根据所述每个初始方向对应的第一乘积值的和,确定所述声源的第一目标方向。
输入输出单元用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
音频单元向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
可以理解,图4所示的结构仅为示意,所述电子设备400还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
本申请还提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行方法实施例所述的方法。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种声源定位方法,其特征在于,包括:
从获得的音频信号对应的频域信号中提取多个预设频点的信号;
分别对每个所述预设频点的信号进行相关运算,以获得多个相关运算结果;
根据所述多个相关运算结果,计算所述多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,所述多个初始方向矢量是与多个初始方向一一对应的;
计算所述每个相关运算结果和所述每个相关运算结果对应的多个初始方向矢量的第一乘积值;
确定所述多个初始方向中每个初始方向对应的第一乘积值的和;
根据所述每个初始方向对应的第一乘积值的和,确定所述声源的第一目标方向。
2.根据权利要求1所述的声源定位方法,其特征在于,所述音频信号为通过麦克风阵列采集的音频信号;
其中,所述根据所述多个相关运算结果,计算所述多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,包括:
根据所述每个相关运算结果、所述每个初始方向对应的方向信息和所述麦克风阵列的阵列信息,计算所述每个相关运算结果对应的多个初始方向矢量。
3.根据权利要求1所述的声源定位方法,其特征在于,所述根据所述每个初始方向对应的第一乘积值的和,确定所述声源的第一目标方向,包括:
确定所述每个初始方向对应的第一乘积值的和中的第一最大和;
将所述第一最大和对应的初始方向作为所述第一目标方向。
4.根据权利要求1所述的声源定位方法,其特征在于,所述声源定位方法还包括:
根据所述多个相关运算结果,计算所述每个相关运算结果对应的多个参考方向矢量,所述多个参考方向矢量是与多个参考方向一一对应的,多个所述参考方向是以所述第一目标方向作为基准方向后确定的;
计算所述每个相关运算结果和所述每个相关运算结果对应的多个参考方向矢量的第二乘积值;
确定所述多个参考方向中每个参考方向对应的第二乘积值的和;
根据所述每个参考方向对应的第二乘积值的和,确定所述声源的第二目标方向。
5.根据权利要求4所述的声源定位方法,其特征在于,所述根据所述每个参考方向对应的第二乘积值的和,确定所述声源的第二目标方向,包括:
确定所述每个参考方向对应的第二乘积值的和中的第二最大和;
将所述第二最大和对应的参考方向作为所述第二目标方向。
6.根据权利要求4所述的声源定位方法,其特征在于,任意两个相邻的初始方向之间的夹角均为第一夹角,任意两个相邻的参考方向之间的夹角均为第二夹角,所述第二夹角小于所述第一夹角。
7.根据权利要求4所述的声源定位方法,其特征在于,所述声源定位方法还包括:
对所述第一目标方向的音频信号或者所述第二目标方向的音频信号进行增强处理。
8.一种声源定位装置,其特征在于,包括:
提取模块,用于从获得的音频信号对应的频域信号中提取多个预设频点的信号;
运算模块,用于分别对每个所述预设频点的信号进行相关运算,以获得多个相关运算结果;
第一计算模块,用于根据所述多个相关运算结果,计算所述多个相关运算结果中每个相关运算结果对应的多个初始方向矢量,所述多个初始方向矢量是与多个初始方向一一对应的;
第二计算模块,用于计算所述每个相关运算结果和所述每个相关运算结果对应的多个初始方向矢量的第一乘积值;
第一确定模块,用于确定所述多个初始方向中每个初始方向对应的第一乘积值的和;
第二确定模块,用于根据所述每个初始方向对应的第一乘积值的和,确定所述声源的第一目标方向。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一所述的声源定位方法。
10.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1-7任一所述的声源定位方法。
CN202110433413.9A 2021-04-22 2021-04-22 一种声源定位方法、装置、存储介质和电子设备 Pending CN113138363A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110433413.9A CN113138363A (zh) 2021-04-22 2021-04-22 一种声源定位方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110433413.9A CN113138363A (zh) 2021-04-22 2021-04-22 一种声源定位方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN113138363A true CN113138363A (zh) 2021-07-20

Family

ID=76813449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110433413.9A Pending CN113138363A (zh) 2021-04-22 2021-04-22 一种声源定位方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN113138363A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114353285A (zh) * 2022-01-26 2022-04-15 Tcl空调器(中山)有限公司 声源定位方法、装置、计算机设备、空调器以及存储介质
CN115598594A (zh) * 2022-10-13 2023-01-13 广州成至智能机器科技有限公司(Cn) 无人机声源定位方法、装置、无人机及可读存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2268064A1 (en) * 2009-06-25 2010-12-29 Berges Allmenndigitale Rädgivningstjeneste Device and method for converting spatial audio signal
JP2014059180A (ja) * 2012-09-14 2014-04-03 Honda Motor Co Ltd 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム
US9069065B1 (en) * 2012-06-27 2015-06-30 Rawles Llc Audio source localization
CN105044675A (zh) * 2015-07-16 2015-11-11 南京航空航天大学 一种srp声源定位的快速实现方法
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法
CN108141665A (zh) * 2015-10-26 2018-06-08 索尼公司 信号处理装置、信号处理方法和程序
WO2018133056A1 (zh) * 2017-01-22 2018-07-26 北京时代拓灵科技有限公司 一种声源定位的方法和装置
US20180255395A1 (en) * 2017-03-03 2018-09-06 Panasonic Intellectual Property Corporation Of America Sound source probing apparatus, sound source probing method, and storage medium storing program therefor
US20190075393A1 (en) * 2017-09-07 2019-03-07 Honda Motor Co., Ltd. Acoustic processing device, acoustic processing method, and program
JP2019047478A (ja) * 2017-09-04 2019-03-22 日本電信電話株式会社 音響信号処理装置、音響信号処理方法および音響信号処理プログラム
CN109597022A (zh) * 2018-11-30 2019-04-09 腾讯科技(深圳)有限公司 声源方位角运算、定位目标音频的方法、装置和设备
CN109782231A (zh) * 2019-01-17 2019-05-21 北京大学 一种基于多任务学习的端到端声源定位方法及系统
US20210058726A1 (en) * 2019-08-19 2021-02-25 Audio-Technica Corporation Method for determining microphone position and microphone system
CN112485761A (zh) * 2021-02-03 2021-03-12 成都启英泰伦科技有限公司 一种基于双麦克风的声源定位方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2268064A1 (en) * 2009-06-25 2010-12-29 Berges Allmenndigitale Rädgivningstjeneste Device and method for converting spatial audio signal
US9069065B1 (en) * 2012-06-27 2015-06-30 Rawles Llc Audio source localization
JP2014059180A (ja) * 2012-09-14 2014-04-03 Honda Motor Co Ltd 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム
CN105044675A (zh) * 2015-07-16 2015-11-11 南京航空航天大学 一种srp声源定位的快速实现方法
CN108141665A (zh) * 2015-10-26 2018-06-08 索尼公司 信号处理装置、信号处理方法和程序
WO2018133056A1 (zh) * 2017-01-22 2018-07-26 北京时代拓灵科技有限公司 一种声源定位的方法和装置
US20180255395A1 (en) * 2017-03-03 2018-09-06 Panasonic Intellectual Property Corporation Of America Sound source probing apparatus, sound source probing method, and storage medium storing program therefor
CN107479030A (zh) * 2017-07-14 2017-12-15 重庆邮电大学 基于分频和改进的广义互相关双耳时延估计方法
JP2019047478A (ja) * 2017-09-04 2019-03-22 日本電信電話株式会社 音響信号処理装置、音響信号処理方法および音響信号処理プログラム
US20190075393A1 (en) * 2017-09-07 2019-03-07 Honda Motor Co., Ltd. Acoustic processing device, acoustic processing method, and program
CN109597022A (zh) * 2018-11-30 2019-04-09 腾讯科技(深圳)有限公司 声源方位角运算、定位目标音频的方法、装置和设备
CN109782231A (zh) * 2019-01-17 2019-05-21 北京大学 一种基于多任务学习的端到端声源定位方法及系统
US20210058726A1 (en) * 2019-08-19 2021-02-25 Audio-Technica Corporation Method for determining microphone position and microphone system
CN112485761A (zh) * 2021-02-03 2021-03-12 成都启英泰伦科技有限公司 一种基于双麦克风的声源定位方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
PETER H. DAHL ET.L: "Vector Acoustic Analysis of Time-Separated Modal Arrivals From Explosive Sound Sources During the 2017 Seabed Characterization Experiment", IEEE JOURNAL OF OCEANIC ENGINEERING *
XAVIER ALAMEDA-PINEDA ET.L: "A Geometric Approach to Sound Source Localization from Time-Delay Estimates", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING *
徐海涛: "混响环境下基于语音声源定位的时延估计算法研究", 中国优秀硕士论文全文库信息科技辑, no. 2020 *
曾帆;黄惠祥;童峰;: "采用压缩感知的麦克风阵列远场声源方位估计", 兵器装备工程学报, no. 05 *
梅继丹等: "近场反卷积聚焦波束形成声图 测量", 声学学报, vol. 45, no. 1 *
邹吉武;孙大军;黄新华;兰华林;: "圆阵双基地声纳直达波抑制技术研究", 高技术通讯, no. 01 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114353285A (zh) * 2022-01-26 2022-04-15 Tcl空调器(中山)有限公司 声源定位方法、装置、计算机设备、空调器以及存储介质
CN114353285B (zh) * 2022-01-26 2023-02-17 Tcl空调器(中山)有限公司 声源定位方法、装置、计算机设备、空调器以及存储介质
CN115598594A (zh) * 2022-10-13 2023-01-13 广州成至智能机器科技有限公司(Cn) 无人机声源定位方法、装置、无人机及可读存储介质
CN115598594B (zh) * 2022-10-13 2023-05-05 广州成至智能机器科技有限公司 无人机声源定位方法、装置、无人机及可读存储介质

Similar Documents

Publication Publication Date Title
US10353198B2 (en) Head-mounted display with sound source detection
US20160187453A1 (en) Method and device for a mobile terminal to locate a sound source
JP4952698B2 (ja) 音声処理装置、音声処理方法およびプログラム
McCowan et al. Microphone array shape calibration in diffuse noise fields
CN113138363A (zh) 一种声源定位方法、装置、存储介质和电子设备
US8065115B2 (en) Method and system for identifying audible noise as wind noise in a hearing aid apparatus
Aarabi et al. Robust sound localization using multi-source audiovisual information fusion
CN110716180B (zh) 一种基于人脸检测的音频定位方法及装置
US11941968B2 (en) Systems and methods for identifying an acoustic source based on observed sound
EP2519831B1 (en) Method and system for determining the direction between a detection point and an acoustic source
CN110706719B (zh) 一种语音提取方法、装置、电子设备及存储介质
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
CN110970049A (zh) 多人声识别方法、装置、设备及可读存储介质
CN111643098A (zh) 一种基于智能声学设备的步态识别与情绪感知方法和系统
CN105245811A (zh) 一种录像方法及装置
JP2008135933A (ja) 音声強調処理システム
Xia et al. Csafe: An intelligent audio wearable platform for improving construction worker safety in urban environments
CN109997186B (zh) 一种用于分类声环境的设备和方法
US8108164B2 (en) Determination of a common fundamental frequency of harmonic signals
CN112233688B (zh) 音频降噪方法、装置、设备及介质
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Srinivasan et al. Internet of Things (IoT) based object recognition technologies
CN110275138B (zh) 一种利用优势声源成分移除的多声源定位方法
CN116910690A (zh) 一种基于数据融合的目标分类系统
CN113409800A (zh) 一种监控音频的处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210720

WD01 Invention patent application deemed withdrawn after publication