CN115620742B - 一种应用于声学成像的自动选频方法 - Google Patents

一种应用于声学成像的自动选频方法 Download PDF

Info

Publication number
CN115620742B
CN115620742B CN202211524056.8A CN202211524056A CN115620742B CN 115620742 B CN115620742 B CN 115620742B CN 202211524056 A CN202211524056 A CN 202211524056A CN 115620742 B CN115620742 B CN 115620742B
Authority
CN
China
Prior art keywords
frequency
acoustic
peak value
sound source
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211524056.8A
Other languages
English (en)
Other versions
CN115620742A (zh
Inventor
曹祖杨
杜子哲
闫昱甫
张凯强
曹琼华
包君健
方吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Crysound Electronics Co Ltd
Original Assignee
Hangzhou Crysound Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Crysound Electronics Co Ltd filed Critical Hangzhou Crysound Electronics Co Ltd
Priority to CN202211524056.8A priority Critical patent/CN115620742B/zh
Publication of CN115620742A publication Critical patent/CN115620742A/zh
Application granted granted Critical
Publication of CN115620742B publication Critical patent/CN115620742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本发明涉及一种应用于声学成像的自动选频方法,包括步骤:进行全频段扫描,获得若干张声学云图,进行峰值检测,并记录峰值位置,根据峰值的位置判断具有稳定峰值的有效声源位置,将声学云图拆分为频率分图,在每个频率分图中检测有效声源位置附近是否存在峰值,若否则将该频率分图剔除,对全部被保留的频率分图进行聚类,算聚类集合中全部频率分图的总能量,挑选备选簇直到备选簇的总能量达到全部频率分图的总能量某一指定比例,以对应的频率和进行选频。本发明的方法通过对比多张声学云图中的峰值位置,排除掉噪声源,再通过聚类对处于有效声源位置的声音进行能量计算,选频得到处于有效声源位置、且提供了大部分能量的频率范围。

Description

一种应用于声学成像的自动选频方法
技术领域
本发明属于声源定位技术领域,具体涉及一种应用于声学成像的自动选频方法。
背景技术
在声学成像时,用户的需求一般是对声源进行定位或成像,而实际的声环境较为复杂,充满了众多各种频率的噪音,如果直接成像,会由于噪音导致声源定位或成像失准、或者成像粗糙。
因此为了能够以较高精度进行成像,在声学成像时一般对成像频率加频率窗,也即仅对指定频率范围内的声音进行成像,而这一成像频率范围就需要进行额外的选取。
当前市场上的声学成像仪,大多需要手动调节声源频率来定位到声源,需要用户有一定的声学知识背景才能更好的发挥设备的最佳效果及最佳性能,不仅手动调节不仅较为繁琐、容易出错,而且提高了声学成像仪的使用门槛。
因此需要一种能够自动选频的方法,在声学成像时自动对成像频率进行选取,且具有较高准确性,能够准确定位声源所在的频率范围。
发明内容
基于现有技术中存在的上述缺点和不足,本发明的目的之一是至少解决现有技术中存在的上述问题之一或多个,换言之,本发明的目的之一是提供满足前述需求之一或多个的一种应用于声学成像的自动选频方法。
为了达到上述发明目的,本发明采用以下技术方案:
本发明提供了一种应用于声学成像的自动选频方法,方法具体包括如下步骤:
S1、进行全频段扫描,获得不同时刻的若干张声学云图;
S2、对若干张声学云图进行峰值检测,并记录每张声学云图中峰值的位置;
S3、根据每张声学云图中峰值的位置判断具有稳定峰值的有效声源位置;
S4、将声学云图拆分为若干不同频率的频率分图;
S5、在每个频率分图中检测有效声源位置附近是否存在峰值,若是则将该频率分图保留,若否则将该频率分图剔除;
S6、对全部被保留的频率分图进行聚类,得到聚类集合;
S7、计算聚类集合中全部频率分图的总能量,从聚类集合中挑选若干备选簇,使若干备选簇的总能量达到全部频率分图的总能量某一指定比例;
S8、以若干备选簇对应的频率和进行选频。
作为一种优选的实施方式,步骤S3具体包括:
S31、选中每张声学云图的同一指定区域,将该区域中所有峰值的坐标做均值,得到平均坐标;
S32、分别判断每张声学云图的该区域中各个峰值与平均坐标的距离,若某一峰值的距离小于预设距离阈值,则将该峰值加入该区域的有效峰值集合;
S33、判断该区域的有效峰值集合中峰值数是否大于预设数量阈值,若是,则将该区域的平均坐标作为有效声源位置,若否,则在该区域中不存在有效声源位置;
S34、返回S31,选中下一指定区域。
作为一种优选的实施方式,步骤S6中,聚类使用Kmeans聚类。
作为一种进一步优选的实施方式,步骤S6具体包括如下步骤:
S61、以频率初始化聚类中心;
S62、对全部被保留的频率分图进行聚类,使所有簇内误差平方和最小。
作为一种进一步优选的实施方式,Kmeans聚类的误差使用如下方法计算:
误差平方和 = (频率 – 聚类中心频率) * (频率 – 聚类中心频率)。
作为一种优选的实施方式,步骤S8具体包括如下步骤:
S81、根据备选簇对应的频率设置频选框;
S82、使用频选框进行选频。
作为一种优选的实施方式,步骤S2中,峰值检测使用FindPeaks方法。
作为一种优选的实施方式,步骤S7中,指定比例为:
若干备选簇的总能量达到全部频率分图的总能量的95%。
本发明与现有技术相比,有益效果是:
本发明的方法通过对比多张声学云图中的峰值位置,确定有效声源位置,然后通过对声学云图的各个频率分图与有效声源位置进行对比,排除掉不位于有效声源位置的假声源及噪声源,最后通过聚类对处于有效声源位置的声音进行能量计算,选频得到处于有效声源位置、且提供了大部分能量的频率范围,从而实现了声学成像的高精度自动选频。
附图说明
图1是本申请实施例的一种应用于声学成像的自动选频方法的流程图;
图2是本申请实施例的峰值检测示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在下述介绍中,提供了本申请的多个实施例,不同实施例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
下面的描述提供了示例,并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下,对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行,并且可以添加、省略或组合各种步骤。此外,可以将关于一些示例描述的特征组合到其他示例中。
为了便于更好地理解本申请实施例,在对本申请的具体实施方式进行详细地解释说明之前,先对其应用场景予以说明。
本发明提供了一种应用于声学成像的自动选频方法,方法具体包括如下步骤:
S1、使用声学成像仪进行全频段扫描,获得全频段的、不同时刻的多张声学云图,这些声学云图以一个较小的时间间隔依次采集,在本申请的某些实施例中,具体的,这些声学云图以40ms的时间间隔连续采集10张。
在实际的声学成像过程时,场景中经常会出现随机产生的噪声或偶发性进入成像区域的短暂声源,但这些噪声或短暂声源通常不具有稳定的特性,要么在时域上仅持续较短时间,要么在空间上具有位置不固定的移动特性。为了排除这些持续较短时间或移动的非有效声源,执行步骤S2、对每张声学云图分别进行峰值检测,并记录每张声学云图中峰值的位置。
作为一个具体举例,步骤S2的峰值检测示意图如图2所示,在一个声学云图中,检测得到如黑色标记的几个峰值点,峰值检测可以采用基于距离变换或是基于形态学灰度重建的峰值检测算法,优选使用FindPeaks方法进行检测。
在检测得到声学云图的峰值后,执行步骤S3、根据每张声学云图中峰值的位置判断具有稳定峰值的有效声源位置。
在本申请的某些实施例中,步骤S3具体包括如下步骤:
S31、在上述步骤所采集的每张声学云图中都选中同一个区域,然后将全部声学云图中该区域中所有于步骤S2检测得到的峰值的坐标全部叠加到一起,然后取均值得到平均坐标。
S32、单独选取一张声学云图,判断该张声学云图的上述区域中各个峰值与平均坐标的距离,若某一峰值的距离小于预设距离阈值,则将该峰值加入该区域的有效峰值集合。然后重新选取一张未选取过的声学云图,判断该张声学云图的上述区域中各个峰值与平均坐标的距离并加入有效峰值集合。对于同一个区域,全部声学云图共用同一个有效峰值集合。
S33、判断该区域的有效峰值集合中峰值数是否大于预设数量阈值,若是,则将该区域的平均坐标作为有效声源位置,若否,则在该区域中不存在有效声源位置。
上述步骤判断了一个区域中是否在多数声学云图中都具有峰值,若是,则说明该区域中在上述平均坐标附近大概率存在有效声源,将平均坐标作为有效声源位置。而如果峰值数不满足预设数量阈值,则说明某个声源曾短暂在该区域中存在然后消失或从该区域中移动离开,不满足稳定声源的条件,因此不存在有效声源。
这一判断是为了区分不同的峰值。假如一个位置存在有效声源,该位置会出现一个云图峰值而这个峰值坐标只会在这个小范围内变化,我们将一定范围内变化的峰值归到一起并加上持续时间的判定,就形成了对一个声源的跟踪。
执行完步骤S33后,则完成了一个区域的有效声源位置的判断,执行步骤S34、返回S31,选中下一指定区域,直到所有需要检测的区域都已经检测完成。
步骤S3得到了整个声学云图区域内可能的有效声源坐标,而接下来需要根据这些有效声源坐标对频率进行筛选,执行S4、将声学云图拆分为若干不同频率的频率分图。
作为一个具体的说明,声学云图一般是由众多频率的单张声学云图叠加组成的全频段声学云图,因此在步骤S4中,一般仅是直接将声学云图依照其叠加的频率再次拆分即可。
S5、在每个频率分图中检测有效声源位置附近是否存在峰值,若一张频率分图在有效声源位置附近某一区域存在峰值,则将该频率分图保留。若这张频率分图在有效声源位置附近某一区域不存在峰值,则说明声源不存在于该频率,因此将该频率分图剔除。
由于有效声源的频率一般分布在一个或多个特定的频率范围,因此可以通过对剩余的频率分图进行聚类的方式筛选出对确定有效声源最有帮助的频率范围。
S6、对全部被保留的频率分图进行聚类,得到聚类集合。
具体的,步骤S6使用Kmeans方法进行聚类,并更具体的以如下方法实施:
S61、随机选取某一个或多个频率,初始化聚类中心。
S62、使用全部被保留的频率分图作为聚类点,将各个频率分图都分配到某个频率簇中,并对频率簇的聚类中心进行迭代,直到所有簇内误差平方和最小。
更具体的,上述误差平方和使用如下公式计算:
误差平方和=(频率 – 聚类中心频率) * (频率 – 聚类中心频率)。
聚类完成后,执行步骤S7、计算聚类集合中全部频率分图的总能量,然后从聚类集合中选择最大的簇作为备选簇,计算该备选簇的总能量,判断该备选簇的总能量是否已经达到全部频率分图的总能量某一指定比例,这一指定比例在某些实施例中优选为95%。
若达到,则可以进入步骤S8以该备选簇的频率和进行选频,若没达到,则再选择第二大的簇加入备选簇,计算备选簇的总能量,依次添加簇加入备选簇,直到这些备选簇的总能量达到全部频率分图的总能量上述指定比例。
S8、以若干备选簇对应的频率和进行选频,如果是加入了多个备选簇,则以这些备选簇的频率和进行选频。
作为优选的实施方式,在本申请的部分实施例中,步骤S8包括如下步骤:
S81、根据备选簇对应的频率设置频选框,这一频选框可以是一整个连续的频选框、也可以是根据备选簇的分布和密度所选择的多个互相间隔开的频选框。
S82、使用步骤S81设置的频选框进行自动选频。
本领域的技术人员可以清楚地了解到本申请实施例的技术方案可借助软件和/或硬件来实现,其中硬件例如可以是现场可编程门阵列(Field-Programmable Gate Array,FPGA)、集成电路(Integrated Circuit,IC)等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

Claims (8)

1.一种应用于声学成像的自动选频方法,其特征在于,方法具体包括如下步骤:
S1、进行全频段扫描,获取不同时刻的若干张声学云图;
S2、对所述若干张声学云图进行峰值检测,并记录每张所述声学云图中峰值的位置;
S3、根据所述每张所述声学云图中所述峰值的位置判断具有稳定峰值的有效声源位置;
S4、将所述声学云图拆分为若干不同频率的频率分图;
S5、在每个所述频率分图中检测所述有效声源位置附近是否存在峰值,若是则将该频率分图保留,若否则将该频率分图剔除;
S6、对全部被保留的频率分图进行聚类,得到聚类集合;
S7、计算所述聚类集合中全部频率分图的总能量,从所述聚类集合中挑选若干备选簇,使所述若干备选簇的总能量达到所述全部频率分图的总能量某一指定比例;
S8、以所述若干备选簇对应的频率和进行选频。
2.如权利要求1所述的一种应用于声学成像的自动选频方法,其特征在于,所述步骤S3具体包括:
S31、选中每张所述声学云图的同一指定区域,将该区域中所有峰值的坐标做均值,得到平均坐标;
S32、分别判断每张所述声学云图的该区域中各个峰值与所述平均坐标的距离,若某一峰值的所述距离小于预设距离阈值,则将该峰值加入该区域的有效峰值集合;
S33、判断所述该区域的有效峰值集合中峰值数是否大于预设数量阈值,若是,则将该区域的平均坐标作为有效声源位置,若否,则在该区域中不存在有效声源位置;
S34、返回S31,选中下一指定区域。
3.如权利要求1所述的一种应用于声学成像的自动选频方法,其特征在于,所述步骤S6中,所述聚类使用Kmeans聚类。
4.如权利要求3所述的一种应用于声学成像的自动选频方法,其特征在于,所述步骤S6具体包括如下步骤:
S61、以频率初始化聚类中心;
S62、对所述全部被保留的频率分图进行聚类,使所有簇内误差平方和最小。
5.如权利要求4所述的一种应用于声学成像的自动选频方法,其特征在于,所述Kmeans聚类的误差平方和使用如下方法计算:
误差平方和 = (频率 – 聚类中心频率) * (频率 – 聚类中心频率)。
6.如权利要求1所述的一种应用于声学成像的自动选频方法,其特征在于,所述步骤S8具体包括如下步骤:
S81、根据所述备选簇对应的频率设置频选框;
S82、使用所述频选框进行选频。
7.如权利要求1所述的一种应用于声学成像的自动选频方法,其特征在于,所述步骤S2中,所述峰值检测使用FindPeaks方法。
8.如权利要求1所述的一种应用于声学成像的自动选频方法,其特征在于,所述步骤S7中,所述指定比例为:
所述若干备选簇的总能量达到所述全部频率分图的总能量的95%。
CN202211524056.8A 2022-12-01 2022-12-01 一种应用于声学成像的自动选频方法 Active CN115620742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211524056.8A CN115620742B (zh) 2022-12-01 2022-12-01 一种应用于声学成像的自动选频方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211524056.8A CN115620742B (zh) 2022-12-01 2022-12-01 一种应用于声学成像的自动选频方法

Publications (2)

Publication Number Publication Date
CN115620742A CN115620742A (zh) 2023-01-17
CN115620742B true CN115620742B (zh) 2023-03-31

Family

ID=84880458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211524056.8A Active CN115620742B (zh) 2022-12-01 2022-12-01 一种应用于声学成像的自动选频方法

Country Status (1)

Country Link
CN (1) CN115620742B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102480455A (zh) * 2010-11-26 2012-05-30 联芯科技有限公司 长期演进系统中主同步信号的检测方法和检测装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9736580B2 (en) * 2015-03-19 2017-08-15 Intel Corporation Acoustic camera based audio visual scene analysis
US10088868B1 (en) * 2018-01-05 2018-10-02 Merry Electronics(Shenzhen) Co., Ltd. Portable electronic device for acustic imaging and operating method for the same
CN111739554A (zh) * 2020-06-19 2020-10-02 浙江讯飞智能科技有限公司 声学成像频率确定方法、装置、设备及存储介质
CN114578289B (zh) * 2022-04-26 2022-09-27 浙江大学湖州研究院 一种高分辨率谱估计声阵列成像方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102480455A (zh) * 2010-11-26 2012-05-30 联芯科技有限公司 长期演进系统中主同步信号的检测方法和检测装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张沫 ; 郑慧峰 ; 朱勤丰 ; .基于图像处理的声相云图评价方法研究.计量学报.2020,(08),全文. *

Also Published As

Publication number Publication date
CN115620742A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
KR102192830B1 (ko) 트랙킹 네트워크를 포함한 CNN(Convolutional Neural Network)을 사용하여 이미지 상의 객체에 대응하는 바운딩 박스를 획득하기 위한 방법 및 이를 이용한 장치
CN110222787B (zh) 多尺度目标检测方法、装置、计算机设备及存储介质
US9521391B2 (en) Settings of a digital camera for depth map refinement
CN110378945B (zh) 深度图处理方法、装置和电子设备
CN111681197B (zh) 一种基于Siamese网络结构的遥感图像无监督变化检测方法
US7657059B2 (en) Method and apparatus for tracking an object
KR101899866B1 (ko) 병변 경계의 오류 검출 장치 및 방법, 병변 경계의 오류 수정 장치 및 방법 및, 병변 경계의 오류 검사 장치
CN106097379B (zh) 一种使用自适应阈值的图像篡改检测与定位方法
KR101811718B1 (ko) 영상 처리 방법 및 장치
CN102025959B (zh) 从低清晰度视频产生高清晰度视频的系统与方法
WO2012074361A1 (en) Method of image segmentation using intensity and depth information
JP4964171B2 (ja) 対象領域抽出方法および装置ならびにプログラム
CN109241345B (zh) 基于人脸识别的视频定位方法和装置
CN103198301B (zh) 虹膜定位方法及装置
CN101299239B (zh) 文字区域图像的获取方法及装置、文字识别系统
CN110245600B (zh) 自适应起始快速笔画宽度无人机道路检测方法
US20090116731A1 (en) Method and system for detection of concha and intertragal notch point in 3D undetailed ear impressions
Luo et al. Saliency density maximization for object detection and localization
KR20120112293A (ko) 이동체의 위치 판단 장치 및 위치 판단 방법
CN110599514A (zh) 图像分割的方法、装置、电子设备及存储介质
CN115620742B (zh) 一种应用于声学成像的自动选频方法
CN114529566A (zh) 图像处理方法、装置、设备及存储介质
CN112070035A (zh) 基于视频流的目标跟踪方法、装置及存储介质
CN116596895A (zh) 一种变电设备图像缺陷识别方法及系统
CN113591706A (zh) 一种人脸识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant