CN112233694A - 一种目标识别方法、装置、存储介质及电子设备 - Google Patents
一种目标识别方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN112233694A CN112233694A CN202011077729.0A CN202011077729A CN112233694A CN 112233694 A CN112233694 A CN 112233694A CN 202011077729 A CN202011077729 A CN 202011077729A CN 112233694 A CN112233694 A CN 112233694A
- Authority
- CN
- China
- Prior art keywords
- classification
- features
- classification model
- sound data
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013145 classification model Methods 0.000 claims abstract description 114
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 46
- 238000005457 optimization Methods 0.000 claims description 20
- 238000007667 floating Methods 0.000 claims description 17
- 238000010845 search algorithm Methods 0.000 claims description 17
- 238000000585 Mann–Whitney U test Methods 0.000 claims description 16
- 125000002015 acyclic group Chemical group 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims 1
- 239000013598 vector Substances 0.000 description 14
- 238000001514 detection method Methods 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 239000006185 dispersion Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 description 1
- 230000003471 anti-radiation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pure & Applied Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Discrete Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本方案公开了一种目标识别方法,该方法的步骤包括:对获取的声音数据进行处理,获得该声音数据的声纹特征;基于第一分类模型对所述声纹特征进行特征识别,判断所述声音数据是否为噪声;若所述声音数据不是噪声,则基于多个不同的第二分类模型依次对所述声纹特征进行特征识别,输出一组或多组识别结果;其中,所述第一分类模型和所述第二分类模型皆为二分类的分类模型,所述二分类的分类模型通过正则化线性分类器建立,该方法对数据运算及存储的资源占用小,适于长时间无人值守的低功耗战场传感设备平台。
Description
技术领域
本发明涉及声探测技术领域。更具体地,涉及一种目标识别方法、装置、存储介质及电子设备。
背景技术
声探测技术是一种利用目标发出或反射的声波,对其进行测量,从而进行识别、定位和跟踪等。20世纪80年代后,隐身飞机、直升机和无人机等高科技武器的充分发展及反辐射武器装备的大量使用,声探测技术对低空/超低空目标探测的优势得以展现。
目前,在战场侦察中使用声探测技术进行目标检测和识别,目前常用的方法主要是通过麦克风阵列对声目标进行分类,即通过麦克风阵列对目标进行定向,根据定向结果对声纹数据进行波束形成,然后对波束形成后的信号数据进行特征提取,再与定向角度变化量共同融入分类器进行分类。
由于需要通过麦克风阵列进行分类,因而对麦克风数量有一定的要求,且由于对目标信号数据的定向和波束形成涉及大量运算,因而使用现有方法会导致设备整体功耗偏高且复杂度高;对硬件平台的运算资源要求较高;难以实现小型化及低功耗设计等问题。
发明内容
本发明的一个目的提供一种目标识别方法,该方法对数据运算及存储的资源占用小,适于长时间无人值守的低功耗战场传感设备平台。
本发明的另一个目的在于提供一种执行上述识别方法的装置、存储介质和电子设备。
为达到上述目的,本发明提供的技术方案如下:
第一方面,提供一种目标识别方法,该方法的步骤包括:
对获取的声音数据进行处理,获得该声音数据的声纹特征;
基于第一分类模型对所述声纹特征进行特征识别,判断所述声音数据是否为噪声;
若所述声音数据不是噪声,则基于多个不同的第二分类模型依次对所述声纹特征进行特征识别,输出一组或多组识别结果;
其中,所述第一分类模型和所述第二分类模型皆为二分类的分类模型,所述二分类的分类模型通过正则化线性分类器建立。
在一个优选地实施例中,所述第一分类模型和/或第二分类模型的训练步骤如下:
对获取的声音数据进行分帧,并计算各帧数据的快速傅里叶变换,获得所述声音数据的原始分类特征;
基于Wilcoxon秩和检验及顺序浮动后向搜索算法对所述原始分类特征进行两级优化,获得最优分类特征,并基于所述最优分类特征训练分类模型。
在一个优选地实施例中,所述基于Wilcoxon秩和检验及顺序浮动后向搜索算法对所述原始分类特征进行两级优化,获得最优分类特征,并基于所述最优分类特征训练分类模型进一步包括:
通过Wilcoxon秩和检验对所述原始分类特征进行初级优化,排除在类别差异中不显著的特征,获得初级优化分类特征;
采用顺序浮动后向搜索算法在所述初级优化分类特征中搜寻最优分类特征,获得最优分类特征,基于所述最优分类特征训练分类模型。
在一个优选地实施例中,获取的声音数据包括用于训练第一分类模型所采集的全部待识别的目标声音数据及没有目标存在时的环境声音数据;和用于训练第二分类模型所采集的全部待识别的目标中任意两种目标的声音数据。
在一个优选地实施例中,该方法进一步包括基于所述第一分类模型和所述第二分类模型建立三层有向无环分类模型,将第一分类模型作为顶层分类节点,将多个第二分类模型中训练准确率最高的分类模型作为第二层分类节点,其余第二分类模型作为第三层分类节点。
第二方面,提供一种目标识别装置,该装置包括:
识别单元,用于对获取的声音数据进行处理,获得该声音数据的声纹特征;
基于第一分类模型对所述声纹特征进行特征识别,判断所述声音数据是否为噪声;
若所述声音数据不是噪声,则基于多个不同的第二分类模型依次对所述声纹特征进行特征识别,输出一组或多组识别结果;
其中,所述第一分类模型和所述第二分类模型皆为二分类的分类模型,所述二分类的分类模型通过正则化线性分类器建立。
第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述目标识别方法的步骤。
第四方面,提供一种电子设备,包括:存储器,一个或多个处理器;存储器与处理器通过通信总线相连;处理器被配置为执行存储器中的指令;所述存储器中存储有用于执行上述目标识别方法中各个步骤的指令。
本方案的有益效果如下:
本方案提出的目标识别方法,只在训练阶段涉及大量数据处理及运算,在实际应用阶段则只需较为简单的特征选择和分类识别,就可实现对场景目标的分类识别。这种识别方法对硬件平台运算及存储资源要求小,同时可降低设备内部电路复杂程度和整体功耗。对数据运算及存储资源的占用小,能够满足低功耗、小型化和高可靠性的要求,可适于战场侦察传感设备的应用。
附图说明
为了更清楚地说明本方案的实施,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本方案的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中识别流程示意图;
图2为一个实施例中的模型训练流程示意图;
图3为一个实施例中一种识别装置的示意图;
图4为一个实施例中一种电子设备的示意图;
图5为一个实施例中的训练及识别流程示意图;
图6为一个实施例中三层有向无环正则化线性分类器模型示意图。
具体实施方式
下面将结合附图对本方案的实施方式作进一步地详细描述。显然,所描述的实施例仅是本方案的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本方案中的实施例及实施例中的特征可以相互组合。
说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备,不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前已有的对声目标进行分类的方法是借助麦克风阵列对声目标进行分类,也就是通过麦克风阵列对目标进行定向,根据定向结果对声音信号进行波束形成,然后对波束形成后的信号进行特征提取,再与定向角度变化量共同融入分类器进行分类。而这种分类识别方法会存在如下的问题:
1.麦克风阵列要求的声传感器数量不低于3个,导致设备的整体功耗偏高且涉及复杂度高;
2.对目标信号进行定向和波束形成涉及大量运算,对硬件平台的运算资源要求较高;
3.定向精度决定了波束形成及最终的分类准确率,而高精度的定向算法对麦克风阵列孔径及数据采样频率较高,难以实现小型化及低功耗设计。
在现代战争中,有时需要通过声探测设备对战场目标进行探测,这就要求声探测设备能满足低功耗、小型化和高可靠性。然而已有的声探测识别分类技术在信息传输能力、数据处理能力以及能源供应技术等方面均限制了声探测技术在军用领域的推广应用。而由于不同的战场目标(轮式车、履带装甲车辆及低空飞行的直升机)所发出的声音在频域上有较大区别,通过特定的特征选择方法,可获得各类目标最具代表性的分类特征,并通过多级分类形式,进一步提高对目标的判别准确性,因而本发明的一个方面是提供一种目标识别方法,该方法基于单个声传感器就能对目标进行探测识别,适用于对在战场场景中经常出现的几类目标进行分类识别。该方法只在训练阶段涉及大量数据处理及运算,在实际应用阶段则只需较为简单的特征选择和分类识别,就可实现对场景目标的分类识别。这种识别方法对硬件平台运算及存储资源要求小,同时可降低设备内部电路复杂程度和整体功耗。在陆战场经常出现的目标包括轮式车辆、履带装甲车辆以及低空飞行的直升机。
结合图1和图2,本发明提供的目标识别方法,包括如下步骤:
S100,对获取的声音数据进行处理,获得该声音数据的声纹特征;
S200,基于第一分类模型对所述声纹特征进行特征识别,判断所述声音数据是否为噪声;
S300,若所述声音数据不是噪声,则基于多个不同的第二分类模型依次对所述声纹特征进行特征识别,输出一组或多组识别结果;
所述第一分类模型和所述第二分类模型皆为二分类的分类模型,所述二分类的分类模型通过正则化线性分类器建立。
在一个实施例中,声音数据为实时采集的声音数据,对声音数据进行处理获得用于识别的声纹特征,将该声纹特征依次输入第一分类模型和第二分类模型,经过分类判别,输出识别结果。
在经过第一分类模型判别后,如果实时采集的声音数据不是噪声的声音数据,那么为了判别出是哪种目标的声纹特征,将该声纹特征继续输入第二分类模型进行判别,为了准确判别输入的目标声纹特征,输入第二分类模型的声纹特征需连续依次经过多个不同的第二分类模型进行判别,以获得该目标的识别结果。
在一个实施例中,为了减小判别时占用的资源和降低数据要求,将多分类问题细分为多个二分类问题,并通过正则化线性分类器建立二分类的分类模型。
训练分类模型的步骤包括,
S400,对获取的声音数据进行分帧,并计算各帧数据的快速傅里叶变换,
获得所述声音数据的原始分类特征;
S500,基于Wilcoxon秩和检验及顺序浮动后向搜索算法对所述原始分类特征进行两级优化,获得最优分类特征,并基于所述最优分类特征训练分类模型。
该步骤则进一步包括,通过Wilcoxon秩和检验对所述原始分类特征进行初级优化,排除在类别差异中不显著的特征,获得初级优化分类特征;
采用顺序浮动后向搜索算法在所述初级优化分类特征中搜寻最优分类特征,获得最优分类特征,基于所述最优分类特征训练分类模型。
在一个实施例中,在对获取的声音数据进行分帧时,每采集满一帧声音数据,即对该帧数据进行快速傅里叶变换。
在另一个实施例中,在训练第一分类模型时,获取的声音数据包括全部待识别的目标声音数据及没有目标存在时的环境声音数据,在对获取的声音数据进行分帧和快速傅里叶变换处理后,获得这些声音数据的原始分类特征,将这些原始分类特征按照“噪声”特征和“目标”特征分成两类,形成“噪声/目标”的特征合集,此时的“目标”特征是包括了全部待识别目标的特征;通过Wilcoxon秩和检验对“噪声/目标”特征合集进行初步筛选,排除在两个类别中差异不显著的特征,获得初级优化后的特征集,通过顺序浮动后向搜索算法继续对初级优化后的特征集进行优化,获得最终用于分类的最优特征集。同时获得用于判断一个新的声纹特征是否为最优分类特征的最优特征标签。
在又一个实施例中,在训练第二分类模型时,获取的声音数据包括全部待识别的目标中任意两种目标的声音数据,在对获取的声音数据进行分帧和快速傅里叶变换处理后,获得这些声音数据的原始分类特征,将这些原始分类特征按照“目标1”特征和“目标2”特征分成两类,形成“目标1/目标2”的特征合集,也可能按照“目标1”特征和“目标3”特征分成两类,形成“目标1/目标3”的特征合集,也可能按照“目标2”特征和“目标3”特征分成两类,形成“目标2/目标3”的特征合集;通过Wilcoxon秩和检验对特征合集进行初步筛选,排除在两个类别中差异不显著的特征,获得初级优化后的特征集,通过顺序浮动后向搜索算法继续对初级优化后的特征集进行优化,获得最终用于分类的最优特征集。同时获得用于判断一个新的声纹特征是否为最优分类特征的最优特征标签。
在一个实施例中,在获得了第一分类模型和第二分类模型后,对第一分类模型和第二分类模型进行分级,建立三层有向无环分类模型,将“噪声/目标”分类模型作为三层有向无环分类模型的顶层分类节点,将“目标1/目标2”,“目标1/目标3”和“目标2/目标3”分类模型中训练准确率最高的分类模型作为第二层分类节点,其余两个分类模型作为第三层分类节点。
在一个实施例中,对实时获取的一个新的声音数据进行识别,首先对声音数据进行快速傅里叶变换获得声纹原始特征,借助训练分类模型时获得的最优特征标签,对声纹原始特征进行选择,得到声纹最优特征,提取与顶层分类模型对应的特征向量,输入顶层分类模型,如果顶层分类模型判别当前数据为“噪声”,则本次判别的最终结果为噪声,若顶层分类模型判别当前数据为“目标”,则根据第二层分类节点和第三层分类节点进行判别,直至输出最终识别结果。
实施例中用到的Wilcoxon秩和检验是一种非参数检验方法,用于检验两类数量不等且非高斯分布的两类样本的差异显著性;而顺序浮动后向搜索算法是一种由多到少的特征选择方法,该方法通过对备选特征集进行多次剔除和增加特征的操作,最终实现最优特征的选择,其执行过程如下:
在实施例中,判别因子定义为:
其中,trace()表示矩阵的求迹运算,Sw表示类内离散度矩阵,Sm表示混合离散度矩阵,可由下式计算获得:
Sm=Sw+Sb,
其中,Sb表示类间离散度矩阵。
实施例中的第一分类模型和第二分类模型均通过正则化线性分类器训练得到,该分类器是在线性分类器基础上改进得到,典型的线性分类器可以写为:
y=wTx,
其中,y代表投影结果,x为分类器输入的最优特征向量,w投影超平面,可通过下式计算获得:
其中,μ1和μ2为两类训练样本的均值向量。
正则化线性分类器则是用于弥补训练样本数量较少的情况,与典型线性分类器的不同之处在于对类内离散度矩阵的方式:
S′w=(1-λ)Sw+λvI,
上式中,λ∈[0,1]为正则化修正因子,v为Sw特征值的均值,I为单位矩阵,S′w即为正则化修正后的类内离散度矩阵。
本实施例中提供的方法将需要大量数据运算的过程分配至训练过程,可以借助高性能计算机完成多级特征优化及模型训练,在战场环境实际应用时只需少量计算即可完成目标的分类判定,并且本方法只需单个声传感器进行数据采集即可实现,对设备的电路复杂度、体积以及功耗要求小,可以实现侦察设备的低功耗、小型化及高可靠性的使用需求。
如图3所示,本发明提供的另一个方面是提供一种识别装置101,该装置包括:采集单元102,训练单元103,识别单元104。
识别装置工作时,由识别单元104基于所述分类模型对采集单元102新采集的声音数据,经过数据处理获得声纹特征,输入第一分类模型和全部第二模型进行识别,得出识别结果。这里的第一分类模型和第二分类模型由训练单元103训练得到,训练单元103进行训练时,对采集单元102已经获取的声音数据,基于快速傅里叶变换进行处理,获得所述声音数据的声纹特征;基于Wilcoxon秩和检验及顺序浮动后向搜索算法对所述声纹特征集进行两级优化,获得最优分类特征集,并基于所述最优分类特征集训练分类模型。
在上述识别方法实施方式的基础上,本实施例进一步提供一种计算机可读存储介质。该计算机可读存储介质用于实现上述识别方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本实施例中的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本方案操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如JAvA、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在上述数据采集方法实施方式的基础上,本方案进一步提供一种电子设备。图4所示电子设备仅仅是一个示例,不应对本方案实施例的功能和使用范围带来任何限制。
如图4所示,电子设备201以通用计算设备的形式表现。电子设备201的组件可以包括但不限于:至少一个存储单元202、至少一个处理单元203、显示单元204和用于连接不同系统组件的总线205。
其中,所述存储单元202存储有程序代码,所述程序代码可以被所述处理单元203执行,使得所述处理单元203执行上述数据采集方法中描述的各种示例性实施方式的步骤。例如,所述处理单元203可以执行如图1至图3中所示的步骤。
存储单元202可以包括易失性存储单元,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元(ROM)。
存储单元202还可以包括具有程序模块的程序/实用工具,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线205可以包括数据总线、地址总线和控制总线。
电子设备201也可以与一个或多个外部设备207(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口206进行。应当明白,尽管图中未示出,可以结合电子设备201使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
下面结合图5和图6,通过实例对本方案做进一步说明。
一.训练分类模型
结合陆地战场环境及在该环境中经常出现的待识别目标,对上述方案做进一步说明。
由于在陆地战场环境中,经常出现的需要探测识别的目标包括轮式车辆、履带装甲车辆及低空飞行的直升机等目标。
以轮式车辆、履带装甲车辆及低空飞行的直升机作为待识别目标,将没有任何目标存在的陆地战场环境声音作为噪声,采集陆地战场环境噪声数据,以及各类待识别目标的声音数据,建立声音数据库。
对采集的轮式车辆、履带装甲车辆及低空飞行的直升机的声音数据进行分子,每采集满一帧数据就进行快速傅里叶变换,获得各种声音数据的原始分类特征。
将轮式车辆、履带装甲车辆及低空飞行的直升机等声音数据的原始分类特征混合,获得“目标”原始分类特征集,再将采集的陆地战场环境噪声进行快速傅里叶变换,获得环境“噪声”的原始分类特征,将“噪声”原始分类特征与“目标”原始分类特征集混合,获得“噪声/目标”原始分类特征集。
将轮式车和履带装甲车的声音数据的原始分类特征混合,获得“轮式车/履带装甲车”原始分类特征集。
将轮式车和直升机的声音数据的原始分类特征混合,获得“轮式车/直升机”原始分类特征集。
将履带装甲车和直升机的声音数据的原始分类特征混合,获得“履带装甲车/直升机”原始分类特征集。
通过Wilcoxon秩和检验对“噪声/目标”原始分类特征集进行初级优化,获得“噪声/目标”初级优化分类特征集;
采用顺序浮动后向搜索算法在“噪声/目标”初级优化分类特征集中搜寻最优分类特征,获得“噪声/目标”最优分类特征集,同时获得用于判断一个新的声纹特征是否为最优分类特征的最优特征标签。并基于“噪声/目标”最优分类特征集训练“噪声/目标”分类模型。
通过Wilcoxon秩和检验对“轮式车/履带装甲车”原始分类特征集进行初级优化,获得“轮式车/履带装甲车”初级优化分类特征集;
采用顺序浮动后向搜索算法在“轮式车/履带装甲车”初级优化分类特征集中搜寻最优分类特征,获得“轮式车/履带装甲车”最优分类特征集,同时获得用于判断一个新的声纹特征是否为最优分类特征的最优特征标签。并基于“轮式车/履带装甲车”最优分类特征集训练“轮式车/履带装甲车”分类模型。
通过Wilcoxon秩和检验对“轮式车/直升机”原始分类特征集进行初级优化,获得“轮式车/直升机”初级优化分类特征集;
采用顺序浮动后向搜索算法在“轮式车/直升机”初级优化分类特征集中搜寻最优分类特征,获得“轮式车/直升机”最优分类特征集,同时获得用于判断一个新的声纹特征是否为最优分类特征的最优特征标签。并基于“轮式车/直升机”最优分类特征集训练“轮式车/直升机”分类模型。
通过Wilcoxon秩和检验对“履带装甲车/直升机”原始分类特征集进行初级优化,获得“履带装甲车/直升机”初级优化分类特征集;
采用顺序浮动后向搜索算法在“履带装甲车/直升机”初级优化分类特征集中搜寻最优分类特征,获得“履带装甲车/直升机”最优分类特征集,同时获得用于判断一个新的声纹特征是否为最优分类特征的最优特征标签。并基于“履带装甲车/直升机”最优分类特征集训练“履带装甲车/直升机”分类模型。
本实施例中,原始分类特征指对每一帧数据进行快速傅里叶变换之后获得的各个频点对应的功率谱特征,采集单元的声识别系统的采样频率为4096Hz,一帧的长度为1秒,因此采集的一帧数据包括4096个数据点,对该帧数据进行点数为4096的快速傅里叶变换之后,可以获得0Hz、1Hz、2Hz、直到2047Hz对应的功率谱值(共2048个),这些功率谱值即为原始分类特征,本实例中对原始分类特征的优化是指在这些原始特征中找出最优的组合。
例如在本实例中,在进行“噪声/目标”的分类训练过程中,通过特征优化过程发现,第3Hz、第7Hz、第12Hz以及第35Hz对应的功率谱值组成的特征向量可以较好的区分噪声和目标,则所述的最优特征标签即为3Hz、7Hz、12Hz、35Hz,在后续识别过程中只需要提取这几个频点对应的功率谱值即可。
将训练得到的四个分类模型进行分级,建立三层有向无环分类模型,将第一分类模型“噪声/目标”分类模型1作为顶层分类节点的模型,假设完成“轮式车/履带装甲车”、“轮式车/直升机”和“履带装甲车/直升机”三个第二分类模型的训练后发现“轮式车/履带装甲车”的训练准确率最高,则将第二分类模型“轮式车/履带装甲车”的分类模型2作为第二层分类节点的模型,第二分类模型“轮式车/直升机”的分类模型3作为第三层分类节点的模型,第二分类模型“履带装甲车/直升机”的分类模型4作为第三层分类节点的模型。
二.识别待测目标
在包含轮式车辆这种待识别目标的陆地战场情景下,采集待识别目标声音数据,对声音数据进行快速傅里叶变换,获得原始分类特征。
基于训练分类模型时获得的最优特征标签对声纹特征继续进行选择得到用于识别的最优特征,提取与“噪声/目标”分类形式对应的特征向量;
例如在本实例中,与“噪声/目标”分类形式对应的特征向量是根据在进行“噪声/目标”的分类训练过程中,获得的最优特征标签“3Hz、7Hz、12Hz、35Hz”,提取的功率谱值,提取的功率谱值组成的向量{P3Hz,P7Hz,P12Hz,P35Hz}即为“噪声/目标”分类形式对应的特征向量,向量P3Hz表示第3Hz对应的功率谱值,其他依次类推。
将特征向量输入顶层分类节点的“噪声/目标”分类模型1,如果顶层分类节点的分类模型1判别当前数据为噪声数据,则输出1,表示判别的最终结果为“噪声”,若顶层分类节点的分类模型1判别当前数据为“目标”,提取与分类模型对应的特征向量,将特征向量输入第二层分类节点“轮式车/履带装甲车”的分类模型2,当第二层分类节点的分类模型2识别结果为“轮式车”时,此时应理解为“非履带装甲车”,同理,当第二层分类节点的分类模型识别结果为“履带装甲车”时,则应理解为“非轮式车”;当第二层分类节点“轮式车/履带装甲车”分类模型2的识别结果为“非履带装甲车”时,则再通过第三层分类节点的“轮式车/直升机”分类模型3进行具体目标类型判别,反之则通过第三层分类节点的“履带装甲车/直升机”分类模型4进行判别;第三层分类节点的分类模型3的输出为“轮式车”或“直升机”,分类模型4的输出为“履带装甲车”或“直升机”,这四个输出分别对应“输出2”-“输出5”,其中“输出3”和“输出5”相同,均指向“直升机”目标。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (8)
1.一种目标识别方法,其特征在于,该方法的步骤包括:
对获取的声音数据进行处理,获得该声音数据的声纹特征;
基于第一分类模型对所述声纹特征进行特征识别,判断所述声音数据是否为噪声;
若所述声音数据不是噪声,则基于多个不同的第二分类模型依次对所述声纹特征进行特征识别,输出一组或多组识别结果;
其中,所述第一分类模型和所述第二分类模型皆为二分类的分类模型,所述二分类的分类模型通过正则化线性分类器建立。
2.根据权利要求1所述的目标识别方法,其特征在于,所述第一分类模型和/或第二分类模型的训练步骤如下:
对获取的声音数据进行分帧,并计算各帧数据的快速傅里叶变换,获得所述声音数据的原始分类特征;
基于Wilcoxon秩和检验及顺序浮动后向搜索算法对所述原始分类特征进行两级优化,获得最优分类特征,并基于所述最优分类特征训练分类模型。
3.根据权利要求2所述的目标识别方法,其特征在于,所述基于Wilcoxon秩和检验及顺序浮动后向搜索算法对所述原始分类特征进行两级优化,获得最优分类特征,并基于所述最优分类特征训练分类模型进一步包括:
通过Wilcoxon秩和检验对所述原始分类特征进行初级优化,排除在类别差异中不显著的特征,获得初级优化分类特征;
采用顺序浮动后向搜索算法在所述初级优化分类特征中搜寻最优分类特征,获得最优分类特征,基于所述最优分类特征训练分类模型。
4.根据权利要求2所述的目标识别方法,其特征在于,获取的声音数据包括用于训练第一分类模型所采集的全部待识别的目标声音数据及没有目标存在时的环境声音数据;和用于训练第二分类模型所采集的全部待识别的目标中任意两种目标的声音数据。
5.根据权利要求1所述的目标识别方法,其特征在于,该方法进一步包括基于所述第一分类模型和所述第二分类模型建立三层有向无环分类模型,将第一分类模型作为顶层分类节点,将多个第二分类模型中训练准确率最高的分类模型作为第二层分类节点,其余第二分类模型作为第三层分类节点。
6.一种目标识别装置,其特征在于,该装置包括:
识别单元,用于对获取的声音数据进行处理,获得该声音数据的声纹特征;
基于第一分类模型对所述声纹特征进行特征识别,判断所述声音数据是否为噪声;
所述声音数据不是噪声,则基于多个不同的第二分类模型依次对所述声纹特征进行特征识别,输出一组或多组识别结果;
其中,所述第一分类模型和所述第二分类模型皆为二分类的分类模型,所述二分类的分类模型通过正则化线性分类器建立。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
8.一种电子设备,其特征在于,包括:存储器,一个或多个处理器;存储器与处理器通过通信总线相连;处理器被配置为执行存储器中的指令;所述存储器中存储有用于执行如权利要求1至5任一项所述方法中各个步骤的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011077729.0A CN112233694B (zh) | 2020-10-10 | 2020-10-10 | 一种目标识别方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011077729.0A CN112233694B (zh) | 2020-10-10 | 2020-10-10 | 一种目标识别方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112233694A true CN112233694A (zh) | 2021-01-15 |
CN112233694B CN112233694B (zh) | 2024-03-05 |
Family
ID=74111856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011077729.0A Active CN112233694B (zh) | 2020-10-10 | 2020-10-10 | 一种目标识别方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233694B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070225972A1 (en) * | 2006-03-18 | 2007-09-27 | Samsung Electronics Co., Ltd. | Speech signal classification system and method |
WO2015083091A2 (en) * | 2013-12-06 | 2015-06-11 | Tata Consultancy Services Limited | System and method to provide classification of noise data of human crowd |
CN109920448A (zh) * | 2019-02-26 | 2019-06-21 | 江苏大学 | 一种自动驾驶车辆交通环境特种声音的识别系统及方法 |
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
CN110473566A (zh) * | 2019-07-25 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN110634493A (zh) * | 2019-09-09 | 2019-12-31 | 国网湖南省电力有限公司 | 基于声纹图像特征的变压器状态识别方法、系统及介质 |
US20200058293A1 (en) * | 2017-10-23 | 2020-02-20 | Tencent Technology (Shenzhen) Company Limited | Object recognition method, computer device, and computer-readable storage medium |
CN111679971A (zh) * | 2020-05-20 | 2020-09-18 | 北京航空航天大学 | 一种基于Adaboost的软件缺陷预测方法 |
-
2020
- 2020-10-10 CN CN202011077729.0A patent/CN112233694B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070225972A1 (en) * | 2006-03-18 | 2007-09-27 | Samsung Electronics Co., Ltd. | Speech signal classification system and method |
WO2015083091A2 (en) * | 2013-12-06 | 2015-06-11 | Tata Consultancy Services Limited | System and method to provide classification of noise data of human crowd |
US20200058293A1 (en) * | 2017-10-23 | 2020-02-20 | Tencent Technology (Shenzhen) Company Limited | Object recognition method, computer device, and computer-readable storage medium |
CN109920448A (zh) * | 2019-02-26 | 2019-06-21 | 江苏大学 | 一种自动驾驶车辆交通环境特种声音的识别系统及方法 |
CN110473566A (zh) * | 2019-07-25 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
CN110634493A (zh) * | 2019-09-09 | 2019-12-31 | 国网湖南省电力有限公司 | 基于声纹图像特征的变压器状态识别方法、系统及介质 |
CN111679971A (zh) * | 2020-05-20 | 2020-09-18 | 北京航空航天大学 | 一种基于Adaboost的软件缺陷预测方法 |
Non-Patent Citations (3)
Title |
---|
TENGTENG 等: "EEG-Based Detection of Driver Emergency Braking Intention for Brain-Controlled Vehicles", 《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》, vol. 19, no. 6, pages 1766 - 1773, XP011684428, DOI: 10.1109/TITS.2017.2740427 * |
张少康 等: "基于多类别特征融合的水声目标噪声识别分类技术", 西北工业大学学报, no. 02, pages 143 - 153 * |
杨春勇 等: "融合声纹信息的能量谱图在鸟类识别中的研究", 《应用声学》, vol. 39, no. 3, pages 453 - 463 * |
Also Published As
Publication number | Publication date |
---|---|
CN112233694B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230084869A1 (en) | System for simplified generation of systems for broad area geospatial object detection | |
US10636169B2 (en) | Synthesizing training data for broad area geospatial object detection | |
WO2019232772A1 (en) | Systems and methods for content identification | |
CN106295613A (zh) | 一种无人机目标定位方法及系统 | |
CN112633459A (zh) | 训练神经网络的方法、数据处理方法和相关装置 | |
CN112906823A (zh) | 目标对象识别模型训练方法、识别方法及识别装置 | |
Zhang et al. | Cognitive template-clustering improved linemod for efficient multi-object pose estimation | |
CN114170531B (zh) | 基于困难样本迁移学习的红外图像目标检测方法和装置 | |
CN116226785A (zh) | 目标对象识别方法、多模态识别模型的训练方法和装置 | |
CN115457365A (zh) | 一种模型的解释方法、装置、电子设备及存储介质 | |
CN112489089A (zh) | 一种微型固定翼无人机机载地面运动目标识别与跟踪方法 | |
Yang et al. | Foreground enhancement network for object detection in sonar images | |
US11280899B2 (en) | Target recognition from SAR data using range profiles and a long short-term memory (LSTM) network | |
Chen et al. | Small target detection algorithm for printing defects detection based on context structure perception and multi-scale feature fusion | |
CN113870863A (zh) | 声纹识别方法及装置、存储介质及电子设备 | |
CN112233694B (zh) | 一种目标识别方法、装置、存储介质及电子设备 | |
CN117173247B (zh) | 基于2D激光雷达与LightGBM的室外定位与构图方法及系统 | |
CN104851090B (zh) | 图像变化检测方法及装置 | |
Thoudoju | Detection of aircraft, vehicles and ships in aerial and satellite imagery using evolutionary deep learning | |
CN116910690A (zh) | 一种基于数据融合的目标分类系统 | |
Qian et al. | ARNet: Prior Knowledge Reasoning Network for Aircraft Detection in Remote-Sensing Images | |
CN116662929A (zh) | 雷达信号识别模型的训练方法以及雷达信号识别方法 | |
McCoy et al. | Ensemble learning for uav detection: Developing a multi-class multimodal dataset | |
CN111291624B (zh) | 一种挖掘机目标识别方法及系统 | |
KR20230093826A (ko) | 동물 탐지 및 분류를 위한 영상 데이터 라벨링 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |