CN109473112A - 一种脉冲声纹识别方法、装置、电子设备及存储介质 - Google Patents

一种脉冲声纹识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109473112A
CN109473112A CN201811201153.7A CN201811201153A CN109473112A CN 109473112 A CN109473112 A CN 109473112A CN 201811201153 A CN201811201153 A CN 201811201153A CN 109473112 A CN109473112 A CN 109473112A
Authority
CN
China
Prior art keywords
wave
pulse
vocal print
signal
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811201153.7A
Other languages
English (en)
Other versions
CN109473112B (zh
Inventor
刘守文
杨立学
王志峰
江丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 3 Research Institute
Original Assignee
CETC 3 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 3 Research Institute filed Critical CETC 3 Research Institute
Priority to CN201811201153.7A priority Critical patent/CN109473112B/zh
Publication of CN109473112A publication Critical patent/CN109473112A/zh
Application granted granted Critical
Publication of CN109473112B publication Critical patent/CN109473112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种脉冲声纹识别方法,包括预先采集火炮的声音信号样本,并对声音信号样本进行分类数据截取,建立弹道波声纹数据库和非弹道波声纹数据库;基于弹道波声纹数据库训练层次聚类模型,基于非弹道波声纹数据库训练HMM模型;采用层次聚类模型,识别待测脉冲声纹信号为弹道波或非弹道波;如果识别的待测脉冲声纹信号为非弹道波,则进一步基于HMM模型识别待测脉冲声纹信号为膛口波、爆炸波或干扰波;通过该方法可以对火炮的脉冲声纹信号进行分层识别,提高了对火炮声纹脉冲信号的认知能力和抗干扰能力,提高了声探测设备对接收到的脉冲声纹的识别率,降低了火炮系统的虚警率。本发明还公开了一种脉冲声纹识别装置、电子设备和存储介质。

Description

一种脉冲声纹识别方法、装置、电子设备及存储介质
技术领域
本发明属于火炮脉冲声纹信号识别技术领域,具体涉及一种脉冲声纹识别方法、装置、电子设备及存储介质。
背景技术
火炮在发射时,火药爆炸会产生强烈的冲击波,在空气中以脉冲声波的形式向外传播。火炮产生的脉冲声信号主要包括几下几个方面:火炮在发射出膛的一瞬间会产生巨大的声响,此时的产生的声纹为膛口波;弹丸在空气中以超音速往前飞行时与空气强烈摩擦时会产生冲击波,此时的产生的声纹为弹道波;弹丸在落地爆炸的一瞬间所产生的声响,此时产生的声纹为爆炸波。
对于声探测装备来说,如果不能有效地识别脉冲声信号,将会影响声源定位精度,增加声探测设备的虚警率,使火炮系统打击错误目标。
目前对于火炮脉冲声纹识别的方法主要是通过提取谱重心、短时能量、短时过零率等时频特征,将提取到的所有特征矢量组成特征矢量集合,并采取支持向量机(SupportVector Machine,SVM)或是神经网络的方法对特征矢量集合进行训练,再使用分类器对膛口波、弹道波、爆炸波直接进行分类;
然而,上述识别火炮脉冲声纹的方法存在以下几个问题:
1.通过提取谱重心、短时能量、短时过零率等时频特征,这样会丢失火炮脉冲声信号较多的时频变化的特征信息;此外,这些特征在火炮脉冲声信号中以及干扰脉冲声信号中的可区分性不好,故导致火炮脉冲声纹的识别率较低;
2.通过支持向量机或者神经网络等分类器对膛口波、弹道波、爆炸波这三类信号进行分类,没有充分利用火炮脉冲声纹的时间序列瞬时变化的固有特性进行建模;此外,由于脉冲干扰信号具有未知多样性、特征不固定性,且采用未进行建模的支持向量机或者神经网络等分类器无法排除干扰脉冲声信号,也使得火炮脉冲声纹的识别率较低且抗干扰能力弱;
3.另外,由于弹道波时域波形的形状较固定,其波形形状类似于字母“N”,故经常被称为“N”波,采用上述现有技术中的识别火炮脉冲声纹的方法没有充分利用弹道波与膛口波、爆炸波以及脉冲干扰波的最大不同特征,即时域波形持续时间短、时域波形相对较为固定的特点,而是将4类脉冲声纹信号(即:弹道波与膛口波、爆炸波以及脉冲干扰波)以同一方法分类,难以很好地区分开这4类脉冲声纹信号,进而使得火炮脉冲声纹的识别率低。
因此现有技术中的火炮脉冲声纹识别的方法对脉冲声纹的认知能力和抗干扰能力较低,从而降低了火炮脉冲声纹信号的识别率。
发明内容
本发明的目的是提供一种脉冲声纹识别方法、装置、电子设备及存储介质,以识别待测脉冲声纹信号为膛口波、弹道波、爆炸波或干扰波,从而有效地提高了火炮脉冲声纹的识别率。
本发明的技术方案是:
一种脉冲声纹识别方法,包括:
步骤100:预先采集火炮的声音信号样本,并对所述声音信号样本进行分类数据截取,建立弹道波声纹数据库和非弹道波声纹数据库;
步骤200:基于所述弹道波声纹数据库训练层次聚类模型,基于所述非弹道波声纹数据库训练HMM模型;
步骤300:采用层次聚类模型,识别待测脉冲声纹信号为弹道波或非弹道波;
步骤400:如果识别所述待测脉冲声纹信号为非弹道波,则进一步基于HMM模型识别所述待测脉冲声纹信号为膛口波、爆炸波或干扰波。
进一步的,基于所述弹道波声纹数据库训练层次聚类模型包括以下几个子步骤:
步骤210:根据弹道波声纹数据库中初始脉冲声音样本信号的任意两个样本数据得到第一相关系数;
步骤220:构造所述第一相关系数的距离矩阵;
步骤230:根据所述第一相关系数的距离矩阵构建层次聚类树;
步骤240:根据预设的门限阈值创建聚类,获得弹道波声纹模板。
进一步的,步骤300包括以下子步骤:
步骤310:根据所述待测脉冲声纹信号和多个所述弹道波声纹模板得到多个第二相关系数;
步骤320:选取多个第二相关系数中的最大值,将所述最大值作为待测脉冲声纹信号的最大相似度;
步骤330:比较所述最大相似度和预设的门限阈值的大小,若所述最大相似度大于等于所述预设的门限阈值,则判定所述待测脉冲声纹信号为弹道波;若所述最大相似度小于所述预设的门限阈值,则判定所述待测脉冲声纹信号为非弹道波。
进一步的,基于所述非弹道波声纹数据库训练HMM模型包括以下几个子步骤:
步骤210':提取非弹道波声纹数据库中的归一化后的脉冲声音样本信号的MFCC特征,得到非弹道波的MFCC特征序列;
步骤220':利用所述非弹道波的MFCC特征序列对HMM模型进行训练,得到非弹道波的训练模型。
进一步的,步骤400包括以下子步骤:
步骤410:提取所述待测脉冲声纹信号的MFCC特征,得到待测脉冲声纹信号的MFCC特征序列;
步骤420:根据所述非弹道波的训练模型和所述待测脉冲声纹信号的MFCC特征序列,识别所述待测脉冲声纹信号为膛口波、爆炸波或干扰波。
一种脉冲声纹识别装置,所述脉冲声纹识别装置包括采集模块、训练模块、层次聚类识别模块和HMM模型识别模块;
所述采集模块用于预先采集火炮的声音信号样本,并对所述声音信号样本进行分类数据截取,建立弹道波声纹数据库和非弹道波声纹数据库;
所述训练模块用于基于所述弹道波声纹数据库训练层次聚类模型,基于所述非弹道波声纹数据库训练HMM模型;
所述层次聚类识别模块用于采用层次聚类模型,识别待测脉冲声纹信号为弹道波或非弹道波;
如果识别所述待测脉冲声纹信号为非弹道波,则所述HMM模型识别模块进一步基于HMM模型识别所述待测脉冲声纹信号为膛口波、爆炸波或干扰波。
进一步的,所述层次聚类识别模块包括相关系数获取模块、选取模块和比较模块;
所述相关系数获取模块用于根据所述待测脉冲声纹信号和多个所述弹道波声纹模板得到多个第二相关系数;
所述选取模块用于选取多个第二相关系数中的最大值,将所述最大值作为待测脉冲声纹信号的最大相似度;
所述比较模块用于比较所述最大相似度和预设的门限阈值的大小,若所述最大相似度大于等于所述预设的门限阈值,则判定所述待测脉冲声纹信号为弹道波;若所述最大相似度小于所述预设的门限阈值,则判定所述待测脉冲声纹信号为非弹道波。
一种电子设备,包括:处理器和存储器,所述存储器存储有计算机可读指令,所述计算机可读指令在被所述处理器执行时实现上述本发明的脉冲声纹识别方法。
一种计算机可读存储介质,述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令在被处理器或计算机运行时执行实现上述本发明的脉冲声纹识别方法。
本发明的有益效果为:本发明根据火炮声纹脉冲信号的固有的时频特征,弹道波固有的时域波形相对固定、且持续时间短的特点,首先采用层次聚类方法对弹道波进行识别;然后根据膛口波与爆炸波的时域波形变化相对较大,但频域特征较为明显的特点,采用HMM的方法对膛口波与爆炸波进行识别;通过这两种方法对火炮的脉冲声纹信号进行分层识别,提高了对火炮声纹脉冲信号的认知能力和抗干扰能力,从而提高了声探测设备对接收到的脉冲声纹的识别率,降低了火炮系统的虚警率。
附图说明
图1是本发明的一种脉冲声纹识别方法的一个实施例的流程图;
图2是本发明中基于层次聚类方法训练待测脉冲声纹信号的一个实施例的流程图;
图3是本发明的层次聚类树的一个实施例的示意图;
图4是本发明的基于HMM模型对非弹道波进行识别的一个实施例的流程图;
图5是本发明的获取非弹道波的MFCC特征的一个实施例的流程图;
图6是本发明中获取非弹道波的训练模型的一个实施例的流程图;
图7是本发明基于HMM模型识别非弹道波的一个实施例的流程图;
图8是本发明的一种脉冲声纹识别装置的一个实施例的结构示意图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
实施例一
一、基于层次聚类与HMM的脉冲声纹识别方法
图1是本发明的一种脉冲声纹识别方法的一个实施例的流程图,参见图1,该脉冲声纹识别方法包括以下几个步骤:
步骤100:预先采集火炮的声音信号样本,并对所述声音信号样本进行分类数据截取,建立弹道波声纹数据库和非弹道波声纹数据库;
具体的,可以通过信号观察及传声器距离炮位的位置、传声器接收到的火炮的声音信号的先后顺序对该火炮的声音信号进行截取、分类,将获得的初始脉冲声音样本信号放入声纹数据库中,建立弹道波声纹数据库和非弹道波声纹数据库;优选的,可以根据经验值对采集的火炮的声音信号进行分类,例如可以将采集的火炮声音信号预先分为4类,以获得膛口波、弹道波、爆炸波和干扰波初始脉冲声音样本信号,并将这4类初始脉冲声音样本信号分别放入带有标签的声纹数据库中,所述带有标签的声纹数据库可以包括弹道波声纹数据库和非弹道波声纹数据库,所述弹道波声纹数据库包括膛口波声纹数据库;所述非弹道波声纹数据库包括弹道波声纹数据库、爆炸波声纹数据库和干扰波声纹数据库。
并对上述声纹数据库中的初始脉冲声音样本信号S进行归一化预处理,获得归一化后的脉冲声音样本信号S';
具体的,归一化预处理方法如下:
其中,S为初始脉冲声音样本信号,S'为归一化后的脉冲声音样本信号,μ为初始脉冲声音样本信号的均值,σ为初始脉冲声音样本信号的标准差。
本实施例中,可以分别对上述膛口波、弹道波、爆炸波初始脉冲声音样本信号进行归一化预处理,以获得归一化后的膛口波、弹道波、爆炸波脉冲声音样本信号。
步骤200:基于所述弹道波声纹数据库训练层次聚类模型,基于所述非弹道波声纹数据库训练HMM模型;
步骤300:采用层次聚类模型,识别待测脉冲声纹信号为弹道波或非弹道波;
步骤400:如果识别所述待测脉冲声纹信号为非弹道波,则进一步基于HMM模型识别所述待测脉冲声纹信号为膛口波、爆炸波或干扰波。
(一)采用层次聚类方法识别待测脉冲声纹信号
在识别待测脉冲声纹信号前可先对弹道波声纹数据库中初始脉冲声音样本信号进行训练以获得弹道波声纹模板,通过该弹道波声纹模板来识别火炮中的待测脉冲声纹信号是弹道波还是非弹道波,下面将具体描述基于层次聚类方法的对弹道波声纹数据库中初始脉冲声音样本信号进行训练的过程。
1、基于层次聚类方法的训练阶段
图2是本发明中基于层次聚类方法训练弹道波声纹数据库中初始脉冲声音样本信号的一个实施例的流程图,参见图2,基于所述声纹数据库训练层次聚类模型包括以下子步骤210-240:
步骤210:根据弹道波声纹数据库中初始脉冲声音样本信号的任意两个样本数据得到第一相关系数;
步骤220:构造所述第一相关系数的距离矩阵;
步骤230:根据所述第一相关系数的距离矩阵构建层次聚类树;
步骤240:根据预设的门限阈值创建聚类,获得弹道波声纹模板。
下面将对步骤210-240作具体说明,图3是本发明的层次聚类树的一个实施例的示意图,参见图3,Sa'、Sb'、Sc'、Sd'、Se'、Sf'、Sg'分别为弹道波声纹数据库中的第a、b、c、d、e、f、g个归一化后的脉冲声音样本信号的样本值;其中,a、b、c、d、e、f、g的取值范围分别为1、2、3……M,且a≠b≠c≠d≠e≠f≠g,ρth'为预设的层次聚类树的门限阈值,Pi、Pj…Pk为预设的层次聚类树的门限阈值ρth'与层次聚类树的树干所生成的交点,i、j、k的取值范围分别为1、2、3……M,且i<j<k,M为弹道波声纹数据库中的样本总数量。
(1)在步骤210中,可以首先获取弹道波声纹数据库中的初始脉冲声音样本信号的全部样本数据,设该弹道波声纹数据库中的样本总数量为M;
再对弹道波声纹数据库中初始脉冲声音样本信号的任意两个样本值Si、Sj进行归一化处理得到归一化后的样本值Si'、Sj',归一化处理方法见公式(1);
最后根据这两个样本值Si'和Sj'得到第一相关系数ρij,具体计算公式如下:
其中,i=1,2,3.......M,j=1,2,3.......M,M为弹道波声纹数据库中样本的总数量,Si'、Sj'分别为弹道波声纹数据库中的第i个归一化后的样本值和第j个归一化后的样本值,cov(Si',Sj')为Si'与Sj'之间的协方差,D(Si')是Si'的方差、D(Sj')是Sj'的方差,ρij为Si'、Sj'这两个样本值的相关系数。
(2)在步骤220中,构造所述第一相关系数的距离矩阵的方法如下所示:
其中,i=1,2,3.......M,j=1,2,3.......M,M为弹道波声纹数据库中样本的总数量,ρij为Si'、Sj'两个归一化后的样本值的相关系数,DisArray为ρij的距离矩阵。
(3)具体的,步骤230包括以下几个子步骤,
步骤231:初始化所述弹道波声纹数据库中的全部样本数据,获得第一分类样本集,所述第一分类样本集的样本种类数量与所述弹道波声纹数据库中样本的总数量相同;
即初始化所述弹道波声纹数据库中的M个样本数据,并将每一个样本数据归为一类,以获得具有M类样本的第一分类样本集。
步骤232:根据所述第一相关系数的距离矩阵中的数值最大的相关系数,获取所述第一分类样本集中的两个样本。
步骤233:对所述第一分类样本集中的两个样本进行聚合,获得第二分类样本集;即根据第一相关系数的距离矩阵DisArray中数值最大的相关系数ρij(即相似度最大),得到所述第一分类样本集中的两个样本Sa'、Sb',并将样本Sa'、Sb'进行聚合(即将样本Sa',Sb'归为一类),将样本Sa'和Sb'的均值Sab'取代原有的两个样本Sa'和Sb',从而第一分类样本集中的样本种类数量就会减少1个,形成第二分类样本集。
步骤234:判断所述第二分类样本集中的样本数量是否为1;
若所述第二分类样本集中的样本数量为1,根据聚合历史,得到所述层次聚类树;
若所述第二分类样本集中的样本数量不为1,则对所述第二分类样本集构建距离矩阵,并返回步骤231和232,形成新的第二分类样本集,直至样本数量为1。
(4)具体的,在步骤240中,由于预设的门限阈值ρth'与层次聚类树的树干生成交点Pi、Pj…Pk,将交点Pi、Pj…Pk下的所有样本进行聚类,获得N类聚类样本;聚类后的N个聚类样本可以为Class1、Class2…Classi…ClassN,每一类聚类样本包括的样本个数为n1、n2、……ni……nN,其中1<i<N,ni<N,N为聚类后的类的数目。根据平均距离最小原则,即平均相似度最大原则,计算Classi类中第m个样本值Sm'与第1、2…k…ni个样本值的平均相似度,即:
其中,ni为Classi类中的样本数量,ρmk为弹道波声纹数据库中的第m个样本值Sm'与第k个样本值Sk'的相关系数,ρavg(m)为弹道波声纹数据库中的第m个样本值Sm'与第1,2…k…ni个样本值的平均相似度。
可以将上述得到的多个平均相似度中的最大值作为该Classi类中的样本点,将其作为的一个弹道波声纹模板;按照上述方法对N类中的每一类样本均选出一个弹道波声纹模板,最终获得N个弹道波声纹模板。
根据上述获得的弹道波声纹模板并基于层次聚类方法可以识别待测脉冲声纹信号为弹道波或非弹道波,下面将具体进行描述。
2、基于层次聚类方法的识别阶段
具体地,识别待测脉冲声纹信号为弹道波或非弹道波可包括以下子步骤:
步骤310:根据所述待测脉冲声纹信号和多个所述弹道波声纹模板得到多个第二相关系数;
具体地,可以先对所述待测脉冲声纹信号进行归一化,在本实施例中,识别阶段对待测脉冲声纹信号进行归一化的方法与训练阶段对声纹数据库中的初始脉冲声音样本信号进行归一化的方法相同,在此不再赘述。
具体的,将归一化后的待测脉冲声纹信号分别与步骤240中最终获得的N个弹道波声纹模板进行计算,得到N个第二相关系数,在本实施例中,得到所述第二相关系数的方法与训练阶段的得到第一相关系数的方法一致,在此不再赘述。
步骤320:选取多个第二相关系数中的最大值,将所述最大值作为待测脉冲声纹信号的最大相似度;
即从N个第二相关系数中,选取一个最大值,将该最大值作为待测脉冲声纹信号的最大相似度。
步骤330:比较所述最大相似度和预设的门限阈值的大小,判定所述待测脉冲声纹信号为弹道波或非弹道波;
具体的,若所述最大相似度大于等于所述预设的门限阈值,则判定所述待测脉冲声纹信号为即弹道波;
若所述最大相似度小于所述预设的门限阈值,则判定所述待测脉冲声纹信号为第非弹道波。
(二)基于HMM模型识别出膛口波、爆炸波与干扰波
图4是本发明的基于HMM模型对非弹道波进行识别的一个实施例的流程图;参见图4,在采用层次聚类方法识别出待测脉冲声纹信号为非弹道波后,再基于HMM模型(隐马尔可夫模型,Hidden Markov Model)对识别出的非弹道波进一步进行识别,以识别出该非弹道波是膛口波、爆炸波或干扰波。
本实施例中,可以基于HMM模型预先对膛口波声纹数据库中的归一化后的膛口波脉冲声音样本信号和爆炸波声纹数据库中的归一化后的爆炸波脉冲声音样本信号进行训练,从而获得膛口波HMM模型和爆炸波HMM模型;然后再利用HMM模型对非弹道波进行识别,以识别出该非弹道波是膛口波、爆炸波或干扰波,下面将具体描述基于HMM模型对非弹道波进行训练和识别的过程。
1、HMM模型训练阶段
具体的,基于所述声纹数据库训练HMM模型包括以下几个子步骤:
步骤210':提取非弹道波声纹数据库中的归一化后的脉冲声音样本信号的MFCC特征,得到非弹道波的MFCC特征序列;
步骤220':利用所述非弹道波的MFCC特征序列对HMM模型对进行训练,得到非弹道波的训练模型。
以下是步骤210'和220'的具体实现过程:
(1)图5是本发明的获取非弹道波的MFCC特征的一个实施例的流程图,参见图5,步骤210'包括步骤211'-步骤215',
步骤211':对非弹道波脉冲声音样本信号预处理,即采用分帧加窗的方式,将所述非弹道波转化为非弹道波的帧信号;
具体的,根据非弹道波脉冲声音样本信号的时变特性及短时平稳性,首先对归一化后的非弹道波脉冲声音样本信号S'(q)(q指样本的第q个采样点,q=1,2,3………Q,Q为样本信号的总长度)进行分帧截取处理,其中,分帧截取的长度为N,为了保证帧与帧之间的平滑过渡,前一帧与后一帧会有一定的交叠部分,交叠部分与帧长的比值可以选取0~1/2,分帧后的信号为si(n)(n=1,2,3……N,N为信号分帧后的帧长,i指第i帧);然后对非弹道波帧信号si(n)采用汉明窗进行加窗处理,以减少声纹帧的频带边界截断效应,分帧、加窗后的非弹道波的帧信号的具体公式如下;
xi(n)=si(n)w(n) (5)
其中,xi(n)为加窗之后的非弹道波的第i帧信号的第n个采样点值,si(n)为加窗之前的非弹道波的第i帧信号的第n个采样点值,w(n)为汉明窗函数,汉明窗函数的表达式如下:
N为信号分帧后的帧长。
优选的,本实施例中,可以选取采样率为8192,并可设置一帧信号为一个基本单位;N可取值为128,帧移可取值为64。
步骤212':将非弹道波的帧信号转换成非弹道波的频域信号;
具体的,以上述步骤211'得到的非弹道波的帧信号xi(n)表示非弹道波的时域信号,本实施例中,可以采用DFT、FFT等傅里叶变换将非弹道波的帧信号xi(n)转换成非弹道波的频域信号X(i,k),下面以FFT为例来具体说明:
X(i,k)=FFT(xi(n)) (6)
其中,k为非弹道波的帧信号在频域中的第k条谱线,i指第i帧,X(i,k)为非弹道波的频域信号。
步骤213':根据所述非弹道波的频域信号,得到谱线能量;
E(i,k)=[Xi(k)]2 (7)
其中,Xi(k)为信号频谱,E(i,k)为谱线能量。
步骤214':根据所述谱线能量获取Mel滤波器组的能量;
为了能够更好地对非弹道波声纹数据库中的膛口波和爆炸波进行训练,本实施例中将上述谱线能量Xi(k)输入到Mel滤波器(Mel-frequency cepstral coefficients)组中,具体的,所述Mel滤波器组可包括M个三角形滤波器,获取Mel滤波器组的能量的公式如下:
其中,Hm(k)为Mel滤波器的频率响应,S(i,m)为Mel滤波器组的能量。
步骤215':采用DCT倒谱得到非弹道波的MFCC特征序列;
具体的,本实施例中采用DCT倒谱(离散余弦变换,Discrete Cosine Transform)对上述Mel滤波器组的能量进行变换,即将所述Mel滤波器组的能量取对数后并采用DCT方法得到非弹道波的MFCC特征序列;
其中,S(i,m)为非弹道波的帧信号在美尔滤波器中的能量,m为第m个美尔滤波器(共有M个美尔滤波器),i为第i帧,l为Mel滤波器组的能量在DCT后的第l条谱线。
(2)本实施例中,可以利用Viterbi算法(维特比算法)对HMM模型不断进行迭代,直到HMM模型收敛获得非弹道波的训练模型。
在对HMM模型进行训练前,可以预设该非弹道波的MFCC特征序列的最大训练次数为H、归一化收敛阈值为T。
图6是本发明中获取非弹道波的训练模型的一个实施例的流程图,图7是本发明基于HMM模型识别非弹道波的一个实施例的流程图,参见图6和7,可以首先获取非弹道波的MFCC特征序列的参数,再通过下述步骤221'和222'来获得非弹道波的训练模型。
步骤221':初始化HMM模型的参数;
即给定HMM模型的参数λ=(π,A,B),通过该参数λ=(π,A,B)获取非弹道波的MFCC特征序列的输出概率P(O|λ);其中,π为HMM模型初始状态概率集合,A为状态转移概率矩阵,B为输出观测值概率矩阵;
步骤222':通过判断HMM模型的训练次数与最大迭代次数的关系,获得非弹道波的训练模型;
若是,即HMM模型的训练次数大于或等于最大迭代次数H,则HMM模型参数即使不收敛也停止迭代,这样就训练出了每一类别HMM模型的参数λ和输出的收敛概率阈值Pth;其中,在给定参数λ的条件下,所述输出的收敛概率阈值Pth可以通过统计非弹道波声纹数据库中的全部样本中的HMM模型中的输出概率的最小值,将该输出概率的最小值作为输出概率阈值Pth
若否,即HMM模型的训练次数小于最大迭代次数H,HMM模型继续迭代直到HMM模型参数收敛;
具体的,首先,利用Baum-Welch重估算法(向前向后算法)对所述参数λ进行重估,得到HMM模型的更新后的参数
其次,利用Viterbi算法(维特比算法)获得非弹道波的MFCC特征序列更新后的输出概率
然后通过更新后的输出概率和归一化收敛阈值T,获得输出概率阈值Pth,即通过观察更新后的输出概率的变化,若则说明新的HMM模型参数不是收敛模型,并将新的参数赋值给原先的参数λ,HMM模型继续进行迭代直到HMM模型参数收敛,最终获得非弹道波的训练模型,所述非弹道波的训练模型包括HMM膛口波训练模型和HMM爆炸波训练模型。
2、HMM模型识别阶段
具体的,对非弹道波进行识别包括以下2个子步骤,
步骤410:提取所述待测脉冲声纹信号的MFCC特征,得到待测脉冲声纹信号的MFCC特征序列;
在提取待测脉冲声纹信号的MFCC特征前,可以先对待测脉冲声纹信号进行预处理,其预处理方法以及提取待测脉冲声纹信号的MFCC特征序列的方法与训练阶段步骤210'的方法一致,在此不再赘述。
步骤420:根据所述非弹道波的训练模型和所述待测脉冲声纹信号的MFCC特征序列,识别所述待测脉冲声纹信号为膛口波、爆炸波或干扰波;
具体的,将非弹道波的MFCC特征序列分别输入到训练好的膛口波HMM训练模型和爆炸波HMM训练模型中,获得非弹道波的MFCC特征序列在膛口波HMM训练模型中的输出概率P1、在爆炸波HMM训练模型中的输出概率P2
并根据经验值可以预先设定膛口波和爆炸波的输出概率阈值分别为Pth1和Pth2
将输出概率P1和P2与所述Pth1、Pth2进行比较,若P1<Pth1且P2<Pth2,则该非弹道波为干扰波;
若不满足前述条件(即P1<Pth1且P2<Pth2),在P1>P2时,非弹道波为膛口波;若P1<P2,则该非弹道波为爆炸波。
实施例二
图8是本发明的一种脉冲声纹识别装置的一个实施例的结构示意图,参见图8,
所述脉冲声纹识别装置包括采集模块、训练模块、层次聚类识别模块和HMM模型识别模块;
所述采集模块用于预先采集火炮的声音信号样本,并对所述声音信号样本进行分类数据截取,建立弹道波声纹数据库和非弹道波声纹数据库;
所述训练模块用于基于所述弹道波声纹数据库训练层次聚类模型,基于所述非弹道波声纹数据库训练HMM模型;
所述层次聚类识别模块用于采用层次聚类模型,识别待测脉冲声纹信号为弹道波或非弹道波;
如果识别所述待测脉冲声纹信号为非弹道波,则所述HMM模型识别模块进一步基于HMM模型识别所述待测脉冲声纹信号为膛口波、爆炸波或干扰波。
进一步的,所述层次聚类识别模块包括相关系数获取模块、选取模块和比较模块;
所述相关系数获取模块用于根据所述待测脉冲声纹信号和多个所述弹道波声纹模板得到多个第二相关系数;
所述选取模块用于选取多个第二相关系数中的最大值,将所述最大值作为待测脉冲声纹信号的最大相似度;
所述比较模块用于比较所述最大相似度和预设的门限阈值的大小,若所述最大相似度大于等于所述预设的门限阈值,则判定所述待测脉冲声纹信号为弹道波;若所述最大相似度小于所述预设的门限阈值,则判定所述待测脉冲声纹信号为非弹道波。
在本实施例中的脉冲声纹识别装置对待测脉冲声纹信号的识别过程与实施例一中的识别过程大体一致,在此不再赘述。
实施例三
在本实施例中,提供一种电子设备,包括但不限于智能手机、固定电话、平板电脑、笔记本电脑、穿戴式设备等电子设备,所述电子设备包括:处理器和存储器,所述存储器存储有计算机可读指令,所述计算机可读指令在被所述处理器执行时实现上述本发明的脉冲声纹识别方法。
实施例四
在本实施例中,提供一种计算机可读存储介质,可以为ROM(例如只读存储器、FLASH存储器、转移装置等)、光学存储介质(例如,CD-ROM、DVD-ROM、纸卡等)、磁存储介质(例如,磁带、磁盘驱动器等)或其他类型的程序存储器;所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令在被处理器或计算机运行时执行上述本发明的脉冲声纹识别方法。
本发明具有以下优点:
本发明根据火炮声纹脉冲信号的固有的时频特征,弹道波固有的时域波形相对固定、且持续时间短的特点,首先采用层次聚类方法对弹道波进行识别;然后根据膛口波与爆炸波的时域波形变化相对较大,但频域特征较为明显的特点,采用HMM的方法对膛口波与爆炸波进行识别;通过这两种方法对火炮的脉冲声纹信号进行分层识别,提高了对火炮声纹脉冲信号的认知能力和抗干扰能力,提高了声探测设备对接收到的脉冲声纹的识别率,降低了火炮系统的虚警率。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种脉冲声纹识别方法,其特征在于,
步骤100:预先采集火炮的声音信号样本,并对所述声音信号样本进行分类数据截取,建立弹道波声纹数据库和非弹道波声纹数据库;
步骤200:基于所述弹道波声纹数据库训练层次聚类模型,基于所述非弹道波声纹数据库训练HMM模型;
步骤300:采用层次聚类模型,识别待测脉冲声纹信号为弹道波或非弹道波;
步骤400:如果识别所述待测脉冲声纹信号为非弹道波,则进一步基于HMM模型识别所述待测脉冲声纹信号为膛口波、爆炸波或干扰波。
2.根据权利要求1所述的脉冲声纹识别方法,其特征在于,基于所述弹道波声纹数据库训练层次聚类模型包括以下几个子步骤:
步骤210:根据弹道波声纹数据库中初始脉冲声音样本信号的任意两个样本数据得到第一相关系数;
步骤220:构造所述第一相关系数的距离矩阵;
步骤230:根据所述第一相关系数的距离矩阵构建层次聚类树;
步骤240:根据预设的门限阈值创建聚类,获得弹道波声纹模板。
3.根据权利要求2所述的脉冲声纹识别方法,其特征在于,步骤300包括以下子步骤:
步骤310:根据所述待测脉冲声纹信号和多个所述弹道波声纹模板得到多个第二相关系数;
步骤320:选取多个第二相关系数中的最大值,将所述最大值作为待测脉冲声纹信号的最大相似度;
步骤330:比较所述最大相似度和预设的门限阈值的大小,若所述最大相似度大于等于所述预设的门限阈值,则判定所述待测脉冲声纹信号为弹道波;若所述最大相似度小于所述预设的门限阈值,则判定所述待测脉冲声纹信号为非弹道波。
4.根据权利要求1所述的脉冲声纹识别方法,其特征在于,基于所述非弹道波声纹数据库训练HMM模型包括以下几个子步骤:
步骤210':提取非弹道波声纹数据库中的归一化后的脉冲声音样本信号的MFCC特征,得到非弹道波的MFCC特征序列;
步骤220':利用所述非弹道波的MFCC特征序列对HMM模型进行训练,得到非弹道波的训练模型。
5.根据权利要求4所述的脉冲声纹识别方法,其特征在于,步骤400包括以下子步骤:
步骤410:提取所述待测脉冲声纹信号的MFCC特征,得到待测脉冲声纹信号的MFCC特征序列;
步骤420:根据所述非弹道波的训练模型和所述待测脉冲声纹信号的MFCC特征序列,识别所述待测脉冲声纹信号为膛口波、爆炸波或干扰波。
6.一种脉冲声纹识别装置,其特征在于,所述脉冲声纹识别装置包括采集模块、训练模块、层次聚类识别模块和HMM模型识别模块;
所述采集模块用于预先采集火炮的声音信号样本,并对所述声音信号样本进行分类数据截取,建立弹道波声纹数据库和非弹道波声纹数据库;
所述训练模块用于基于所述弹道波声纹数据库训练层次聚类模型,基于所述非弹道波声纹数据库训练HMM模型;
所述层次聚类识别模块用于采用层次聚类模型,识别待测脉冲声纹信号为弹道波或非弹道波;
如果识别所述待测脉冲声纹信号为非弹道波,则所述HMM模型识别模块进一步基于HMM模型识别所述待测脉冲声纹信号为膛口波、爆炸波或干扰波。
7.根据权利要求6所述的脉冲声纹识别装置,其特征在于,所述层次聚类识别模块包括相关系数获取模块、选取模块和比较模块;
所述相关系数获取模块用于根据所述待测脉冲声纹信号和多个所述弹道波声纹模板得到多个第二相关系数;
所述选取模块用于选取多个第二相关系数中的最大值,将所述最大值作为待测脉冲声纹信号的最大相似度;
所述比较模块用于比较所述最大相似度和预设的门限阈值的大小,若所述最大相似度大于等于所述预设的门限阈值,则判定所述待测脉冲声纹信号为弹道波;若所述最大相似度小于所述预设的门限阈值,则判定所述待测脉冲声纹信号为非弹道波。
8.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有计算机可读指令,所述计算机可读指令在被所述处理器执行时实现根据权利要求1-5任一项所述的脉冲声纹识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令在被处理器或计算机运行时执行根据权利要求1-5任一项所述的脉冲声纹识别方法。
CN201811201153.7A 2018-10-16 2018-10-16 一种脉冲声纹识别方法、装置、电子设备及存储介质 Active CN109473112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811201153.7A CN109473112B (zh) 2018-10-16 2018-10-16 一种脉冲声纹识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811201153.7A CN109473112B (zh) 2018-10-16 2018-10-16 一种脉冲声纹识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN109473112A true CN109473112A (zh) 2019-03-15
CN109473112B CN109473112B (zh) 2021-10-26

Family

ID=65665137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811201153.7A Active CN109473112B (zh) 2018-10-16 2018-10-16 一种脉冲声纹识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109473112B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782879A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 基于样本量的声纹聚类方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522082A (zh) * 2011-12-27 2012-06-27 重庆大学 一种公共场所异常声音的识别与定位方法
CN103824557A (zh) * 2014-02-19 2014-05-28 清华大学 一种具有自定义功能的音频检测分类方法
CN105989854A (zh) * 2015-02-27 2016-10-05 佳能株式会社 冲击声检测装置和冲击声检测方法
US20160379666A1 (en) * 2014-02-06 2016-12-29 Otosense Inc. Employing user input to facilitate inferential sound recognition based on patterns of sound primitives
US20170103776A1 (en) * 2015-10-12 2017-04-13 Gwangju Institute Of Science And Technology Sound Detection Method for Recognizing Hazard Situation
CN107862279A (zh) * 2017-11-03 2018-03-30 中国电子科技集团公司第三研究所 一种脉冲声信号识别分类方法
CN108269566A (zh) * 2018-01-17 2018-07-10 南京理工大学 一种基于多尺度子带能量集特征的膛口波识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102522082A (zh) * 2011-12-27 2012-06-27 重庆大学 一种公共场所异常声音的识别与定位方法
US20160379666A1 (en) * 2014-02-06 2016-12-29 Otosense Inc. Employing user input to facilitate inferential sound recognition based on patterns of sound primitives
CN103824557A (zh) * 2014-02-19 2014-05-28 清华大学 一种具有自定义功能的音频检测分类方法
CN105989854A (zh) * 2015-02-27 2016-10-05 佳能株式会社 冲击声检测装置和冲击声检测方法
US20170103776A1 (en) * 2015-10-12 2017-04-13 Gwangju Institute Of Science And Technology Sound Detection Method for Recognizing Hazard Situation
CN107862279A (zh) * 2017-11-03 2018-03-30 中国电子科技集团公司第三研究所 一种脉冲声信号识别分类方法
CN108269566A (zh) * 2018-01-17 2018-07-10 南京理工大学 一种基于多尺度子带能量集特征的膛口波识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘颖: "《枪声马赫波及膛口激波信号识别方法及性能分析》", 《2014第二届中国指挥控制大会论文集(上)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782879A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 基于样本量的声纹聚类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109473112B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN107610707B (zh) 一种声纹识别方法及装置
US10049657B2 (en) Using machine learning to classify phone posterior context information and estimating boundaries in speech from combined boundary posteriors
CN110289003A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN108831445A (zh) 四川方言识别方法、声学模型训练方法、装置及设备
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
Ravanelli et al. Audio concept classification with hierarchical deep neural networks
CN105654944A (zh) 一种融合了短时与长时特征建模的环境声识别方法及装置
Todkar et al. Speaker recognition techniques: A review
Wang et al. Exploring audio semantic concepts for event-based video retrieval
CN111816185A (zh) 一种对混合语音中说话人的识别方法及装置
CN110473571A (zh) 基于短视频语音的情感识别方法和装置
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN104464738A (zh) 一种面向智能移动设备的声纹识别方法
Agranat Bat species identification from zero crossing and full spectrum echolocation calls using Hidden Markov Models, Fisher scores, unsupervised clustering and balanced winnow pairwise classifiers
Rao et al. Exploring the impact of optimal clusters on cluster purity
CN109473112A (zh) 一种脉冲声纹识别方法、装置、电子设备及存储介质
Birla A robust unsupervised pattern discovery and clustering of speech signals
van Bemmel et al. Beyond neural-on-neural approaches to speaker gender protection
Dennis et al. Generalized Hough transform for speech pattern classification
Thenkanidiyoor et al. Dynamic kernels based approaches to analysis of varying length patterns in speech and image processing tasks
Vasudev et al. Query-by-example spoken term detection using bessel features
Abdiche et al. Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks
Glüge et al. SEGMENTED–MEMORY RECURRENT NEURAL NETWORKS VERSUS HIDDEN MARKOV MODELS IN EMOTION RECOGNITION FROM SPEECH
Gutkin et al. Structural representation of speech for phonetic classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant