CN111540381B - 一种基于随机森林的话音模拟调制特征识别方法 - Google Patents
一种基于随机森林的话音模拟调制特征识别方法 Download PDFInfo
- Publication number
- CN111540381B CN111540381B CN202010330032.3A CN202010330032A CN111540381B CN 111540381 B CN111540381 B CN 111540381B CN 202010330032 A CN202010330032 A CN 202010330032A CN 111540381 B CN111540381 B CN 111540381B
- Authority
- CN
- China
- Prior art keywords
- instantaneous
- calculating
- amplitude
- voice
- modulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000004088 simulation Methods 0.000 title claims abstract description 11
- 230000003595 spectral effect Effects 0.000 claims abstract description 41
- 238000001228 spectrum Methods 0.000 claims abstract description 33
- 230000005484 gravity Effects 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000001052 transient effect Effects 0.000 claims 1
- 238000003066 decision tree Methods 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000012706 support-vector machine Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于随机森林的话音模拟调制特征识别方法,属于通信信号处理技术领域。对于具有非平稳特性的话音模拟调制信号,需要构建能够充分反映话音非平稳特性的特征集,并设计具有较强鲁棒性的简易分类器,以提升话音模拟调制识别的适应性。该方法利用频谱重心位置能量完成信号检测,利用信号瞬时波形构建特征集。该特征集引入了瞬时波形峰值谱线相关系数特征,能够有效剔除单频幅度或频率调制的干扰,同时构建短时能量分布峰度特征,充分反映话音模拟调制的非平稳特性。在此基础上,设计了基于随机森林的话音模拟调制特征识别流程,相比决策树、支撑矢量机等,该方法计算简单,能够以更高的准确率识别话音模拟调制方式,具有较强的工程应用性。
Description
技术领域
本发明涉及信息感知与识别领域,尤其涉及一种基于随机森林的话音模拟调制方式识别方法。
背景技术
话音模拟幅度调制或频率调制信号在实际电磁环境中的应用十分广泛,但由于调制信号受话音不连续、音量变化范围大、统计特性非平稳等因素的影响,加之较为灵活的调制指数及时变传播环境,使得提取稳定的单一检验特征比较困难。如何提取有效的统计特征集、设计具有较强鲁棒性的简易分类器,是提升话音模拟调制识别环境适应性面临的基本问题。
目前模拟调制识别方法主要是基于瞬时幅度、瞬时频率、瞬时相位等瞬时特征和功率谱,提取相应统计量形成特征集,对特征集采用决策树、支撑矢量机、神经网络等进行分类识别。特征集通常包括归一化零中心瞬时幅度谱密度最大值、瞬时相位非线性分量标准差、谱对称度等。归一化零中心瞬时幅度谱密度最大值能够反映瞬时包络中是否存在调制信息,对于恒定包络该值近似为零。瞬时相位非线性分量标准差反映了瞬时相位中除载频分量之外包含的变化信息,对于相位或频率调制波形,该特征具有较大的取值。这些特征虽然能够反映幅度调制或频率调制的特征,但未能充分反映话音调制的非平稳特性,不能可靠区分话音与非话音幅度调制和频率调制。基于决策树的分类器虽然应用简单,但决策树顶层特征量的权值过重,难以确定最优判决门限,整体适应性较差。支撑矢量机的分类性能取决于核函数的选择,且计算量较大。神经网络分类器需要优化网络参数设计,达到较好分类效果需要的数据量较大,同时加速处理占用资源较多。
总之,现有的特征集设计没有考虑话音时变非平稳特性,基于决策树的分类器设计未能利用特征集的综合信息导致难以最优化阈值设置,基于支撑矢量机和神经网络的分类器,设计核心参数较多且计算复杂。
发明内容
本发明所要解决的技术问题是针对话音模拟调制,在已有特征集的基础上,提出了能够体现话音的时变非平稳特性的瞬时能量峰度特征,及能够有效区分单频调制的峰值谱线相关系数特征,并采用随机森林学习算法作为分类器,设计了基于随机森林的话音模拟调制方式识别流程,在提高识别准确率的同时,计算简单,便于工程应用。
本发明采用的技术方案为:
一种基于随机森林的话音模拟调制特征识别方法,包括以下步骤:
步骤1:计算所有样本信号的估计功率谱和功率重心位置,基于频谱重心能量对信号进行检测,若存在信号则执行步骤2,否则继续检测;
步骤2:根据各样本信号的估计功率谱和功率重心位置,按照能量占比原则估计信号带宽,根据信号带宽计算各样本信号的瞬时幅度、瞬时相位和瞬时频率;
步骤3:根据瞬时幅度计算归一化零中心瞬时幅度谱密度最大值、瞬时幅度峰值谱线相关系数和瞬时幅度短时能量分布峰度;根据瞬时相位计算瞬时相位非线性分量标准差,根据瞬时频率计算瞬时频率峰值谱线相关系数和时频率短时能量分布峰度;构建基于瞬时信息的特征集{F};
步骤4:从样本数据中选取部分样本作为训练集,剩余作为测试集,根据训练集中每个样本信号的特征集训练随机森林分类器;
步骤5:提取测试集样本的样本特征,将每个样本信号的特征集输入随机森林分类器进行分类识别,得出最终识别结果。
其中,步骤1中基于频谱重心能量对信号进行检测,具体为:
缓存N点的样本数据r(n),采用窗长为L步进为D的汉明窗w(n)进行数据分段处理,分段数为K,观测数据点数N=L+D(K-1),则第i段数据表示为ri(n),i=1,2,...,K,其周期图谱Pi(k)表示为:
则信号的估计功率谱P(k)为:
功率重心位置kc的估计方法如下:
当估计功率谱P(k)重心位置kc处对应谱值超过预设阈值时,认为存在信号。
其中,步骤3具体为:
根据瞬时幅度a(n),计算归一化零中心瞬时幅度谱密度最大值γmax:
γmax=max|DFT(Acn)|2/N
根据瞬时相位θ(n),计算瞬时相位非线性分量标准差σdp:
根据瞬时幅度a(n),计算瞬时幅度峰值谱线相关系数Cra:
对瞬时幅度a(n)做傅立叶变换得到幅度谱|a(f)|,确定其中对应峰值的谱线,根据该谱线及其邻近谱线重构信号a‘(n),得a(n)与a‘(n)相关系数Cra:
其中C(x,y)表示向量x、y的协方差:
C(x,y)=E[(x-h(x))(y-h(y))]
根据归一化零中心瞬时幅度Acn(n),计算其短时能量hA(n)分布直方图Ha的峰度Ga,短时能量统计窗长为L1,直方图统计分段数为M1,其中:
根据瞬时频率ω(n),计算瞬时频率峰值谱线相关系数Crω:
对瞬时频率ω(n)做傅立叶变换得到幅度谱|ω(f)|,确定其中对应峰值的谱线,根据该谱线及其邻近谱线重构信号ω'(n),得ω(n)与ω'(n)相关系数Crω:
根据归一化零中心瞬时频率ω(n),计算其短时能量hω(n)分布直方图Hω的峰度Gω,短时能量统计窗长为L1,直方图统计分段数为M1,其中:
构造特征集{F:γmax,σdp,Cra,Ga,Crω,Gω}。
本发明与现有技术相比优点为:在已有特征集的基础上,提出了能够体现话音的时变非平稳特性的瞬时信息峰度特征等,并采用随机森林学习算法作为分类器,设计了基于随机森林的话音模拟调制特征识别流程,在提高识别准确率的同时,计算简单,便于工程应用。因此,新方法能提高识别的效率、准确率以及适用范围。
附图说明
图1为本发明识别流程。
具体实施方法
下面结合附图对本发明作进一步解释说明。
一种基于随机森林的话音模拟调制特征识别方法,如图1所示,包括以下步骤:
步骤1:计算所有样本信号的估计功率谱和功率重心位置,基于频谱重心能量对信号进行检测,若存在信号则执行步骤2,否则继续检测;
缓存N点的观测数据r(n),采用窗长为L步进为D的汉明窗w(n)进行数据分段处理,分段数为K,观测数据点数N=L+D(K-1),则第i段数据表示为ri(n),i=1,2,...,K,其周期图谱Pi(k)可表示为:
则信号谱估计P(k)为:
当谱估计P(k)重心位置kc处对应谱值超过预设阈值时,认为存在信号。重心位置kc的估计方法如下:
步骤2:根据各样本信号的估计功率谱和功率重心位置,按照能量占比原则估计信号带宽,根据信号带宽计算各样本信号的瞬时幅度、瞬时相位和瞬时频率;
根据估计功率谱P(k)和功率重心位置,按照能量占比原则估计信号带宽,即在占据带宽频率范围内信号平均功率占分析带内总功率的百分比,完成信号带宽估计。
根据估计信号带宽,对信号进行带通滤波及正交下变频处理,得到信号的等效基带表达rb(n)=I(n)+jQ(n)=a(n)e-j(Δωn+θ(n)),通过rb(n)完成瞬时包络a(n)、瞬时相位θ(n)和瞬时频率ω(n)的计算方法如下:
ω(n)=θ(n)-θ(n-1)
计算得到的θ(n)位于(-π,π),是一种折叠的瞬时相位,采用下面的方法去折叠:
设当前点的相位为θ(n),前一点的相位为θ(n-1),
若|θ(n)-θ(n-1)|≤π,则当前相位值保持不变,
若θ(n)-θ(n-1)>π,则当前点及其以后的各点相位一律减去2π,
若θ(n)-θ(n-1)<-π,则当前点及其以后的各点相位一律加上2π。
步骤3:构建基于瞬时信息的特征集{F}
根据瞬时幅度a(n),计算归一化零中心瞬时幅度谱密度最大值γmax:
γmax=max|DFT(Acn)|2/N
根据瞬时相位θ(n),计算瞬时相位非线性分量标准差σdp:
根据瞬时幅度a(n),计算瞬时幅度峰值谱线相关系数Cra:
对瞬时幅度a(n)做傅立叶变换得到幅度谱|a(f)|,确定其中对应峰值的谱线,根据该谱线及其邻近谱线重构信号a‘(n),可得a(n)与a‘(n)相关系数Cra:
其中C(x,y)表示向量x、y的协方差:
C(x,y)=E[(x-h(x))(y-h(y))]
根据归一化零中心瞬时幅度Acn(n),计算其短时能量hA(n)分布直方图Ha的峰度Ga,短时能量统计窗长为L1,直方图统计分段数为M1,其中:
根据瞬时频率ω(n),计算瞬时频率峰值谱线相关系数Crω:
对瞬时频率ω(n)做傅立叶变换得到幅度谱|ω(f)|,确定其中对应峰值的谱线,根据该谱线及其邻近谱线重构信号ω'(n),可得ω(n)与ω'(n)相关系数Crω:
根据归一化零中心瞬时频率ω(n),计算其短时能量hω(n)分布直方图Hω的峰度Gω,短时能量统计窗长为L1,直方图统计分段数为M1,其中:
构造特征集{F:γmax,σdp,Cra,Ga,Crω,Gω}
步骤4:基于随机森林的训练学习
从模拟调制数据集中随机选取60%的样本数据作为训练集,其余40%作为测试集。假设该训练集中共有训练样本M个,每个样本可表示为{(Fi,bi)|i=1,2,...,M},其中Fi代表样本i的特征向量,bi代表样本i所属的类别标签。设每个样本特征向量的维数为d(本专利中d=6),随机森林训练中每个划分节点选取的特征子集维数为k(本专利中k=4)。则使用以下步骤训练NQ个基决策树(本专利中NQ=50)以组成随机森林分类器:
1.从训练集中通过可重复采样的方式采样M个样本,组成当前基决策树的训练集;
2.从所有特征中随机选取k个特征组成当前节点特征子集K;
3.从子集K中选取一个最优特征用于当前节点划分,以形成不同的划分分支;
4.对于不同分支,判断其是否满足结束条件(该分支上所有样本属同一类别或达到指定深度),若满足则结束该分支,若不满足则以当前节点为分支返回2步。
对于2步中最优划分特征的选择,我们希望随着划分过程的不断进行,决策树分支节点所包含的样本尽可能属于同一类别。基于此原则,本专利使用信息增益作为最优划分特征选择的标准。
假设使用特征f对样本集D划分,划分后可以产生v个分支,每个分支记为Dv,则下式可计算出利用特征f进行划分的信息增益:
其中Ent(D)表示样本集D的信息熵,假定当前样本集合D中第y类样本所占的比例为py(y=1,2,…,|Y|),其中Y为类别集合,|Y|表是类别数(本专利|Y|=5),则D的信息熵定义为
信息增益越大表明利用该特征进行划分所获得的效果越优,所以此处选择特征子集中信息增益最大的特征作为当前最优划分特征。
步骤5:测试识别
提取测试集样本的样本特征。将特征向量输入随机森林分类器进行分类识别。具体步骤如下:
1.将测试集特征向量输入随机森林中的NQ个决策树中进行判决;
2.给出该样本在每个决策树中的判决结果及对应的判决概率,设该样本在第n个决策树中识别为类别y的概率为pny;
3.综合每个决策树的决策结果,根据以下公式给出该样本在每个类别上的识别概率:
4.选取py最大的类别作为最终识别结果:
y*=argmax1≤y≤|Y|py
经过以上步骤的处理,就可以实现话音模拟调制特征的识别。
下面以实际采集的话音模拟幅度调制1000组数据、话音模拟频率调制1000组数据,单音幅度调制1000组,单音频率调制1000组,共4000组,采样频率92kHz,中频带宽30kHz,信噪比10dB为例,学习训练样本2400组,测试样本1600组,给出本发明的一个实例。
步骤1:检测信号是否存在
计算各样本谱估计重心位置处谱线能量,谱估计重心处谱线值分布与谱估计最大值处谱线分布基本一致,因此通过重心位置处谱线能量检测能够准确判断信号是否存在。
步骤2:计算信号瞬时幅度、瞬时相位、瞬时频率
计算各样本计算的瞬时幅度、瞬时相位、瞬时频率波形。话音调幅、单频调幅的瞬时幅度波形波动较大,瞬时幅度能反映话音模拟幅度调制时话音的时变非平稳特性。话音调频、单音调频瞬时频率波形波动较大,瞬时频率能反映话音模拟频率调制时话音的时变非平稳特性。
步骤3:构建特征集{F}
计算各样本特征集分布,话音调幅、单频调幅的归一化零中心瞬时幅度谱密度最大值γmax较大,而话音调频、单频调频对应的γmax近似为零,因此归一化零中心瞬时幅度谱密度最大值γmax能够有效判断瞬时包络是否恒定以区分幅度调制和频率调制。话音调幅尤其是单音调幅的瞬时相位非线性分量标准差σdp较小,而话音调频尤其是单音调频对应的σdp较大,因此瞬时相位非线性分量标准差σdp能够有效分析瞬时相位是否恒定以区分幅度调制和频率调制。单音调幅的瞬时幅度峰值谱线相关系数Cra近似等于1,话音调幅对应的Cra小于1,因此瞬时幅度峰值谱线相关系数Cra能够有效检测幅度调制中是否存在显著单频分量以区分话音调幅与单音调幅。单音调频的瞬时频率峰值谱线相关系数Crω近似等于1,话音调频对应的Crω小于1,因此瞬时频率峰值谱线相关系数Crω能够有效检测频率调制中是否存在显著单频分量以区分话音调频与单音调频。话音调频的瞬时包络短时能量分布峰度Ga近似为8,话音调幅对应的Ga小于8,因此瞬时包络短时能量分布峰度Ga能够有效分析瞬时包络能量变化情况以识别话音调幅。话音调幅的瞬时频率短时能量分布峰度Gω近似为8,话音调频对应的Gω近似为2,因此瞬时频率短时能量分布峰度Gω能够有效分析瞬时包络能量变化情况以识别话音调频。
步骤4:训练学习
由特征集基于随机森林算法进行训练学习,得到随机森林分类模型中各个特征的重要性权重结果如下所示:
表1特征重要性权重分布
由模型结果参数可以看出,各特征权重分布与特征设计相符。
步骤5:测试识别
识别结果混淆矩阵如下表所示:
表2识别结果混淆矩阵
话音调幅 | 单音调幅 | 话音调频 | 单音调频 | |
话音调幅 | 100% | 0 | 0 | 0 |
单音调幅 | 0 | 100% | 0 | 0 |
话音调频 | 0 | 0 | 100% | 0 |
单音调频 | 0.23753% | 0 | 0 | 99.76247% |
识别时间0.125s,识别正确率99.9375%。
Claims (2)
1.一种基于随机森林的话音模拟调制特征识别方法,其特征在于,包括以下步骤:
步骤1:计算所有样本信号的估计功率谱和功率重心位置,基于频谱重心能量对信号进行检测,若存在信号则执行步骤2,否则继续检测;
步骤2:根据各样本信号的估计功率谱和功率重心位置,按照能量占比原则估计信号带宽,根据信号带宽计算各样本信号的瞬时幅度、瞬时相位和瞬时频率;
步骤3:根据瞬时幅度计算归一化零中心瞬时幅度谱密度最大值、瞬时幅度峰值谱线相关系数和瞬时幅度短时能量分布峰度;根据瞬时相位计算瞬时相位非线性分量标准差;根据瞬时频率计算瞬时频率峰值谱线相关系数和时频率短时能量分布峰度;构建各样本信号基于瞬时信息的特征集;
步骤4:从样本数据中选取部分样本作为训练集,剩余作为测试集,根据训练集中每个样本信号的特征集训练随机森林分类器;
步骤5:提取测试集样本的样本特征,将每个样本信号的特征集输入随机森林分类器进行分类识别,得出最终识别结果;
其中,步骤1中基于频谱重心能量对信号进行检测,具体为:
缓存N点的样本数据,采用窗长为L步进为D的汉明窗进行数据分段处理,分段数为,观测数据点数,则第段数据表示为,其周期图谱表示为:
,
则信号的估计功率谱为:
功率重心位置的估计方法如下:
当估计功率谱重心位置处对应谱值超过预设阈值时,认为存在信号;
其中,步骤3具体为:
根据瞬时幅度,计算归一化零中心瞬时幅度谱密度最大值:
其中,,,;
根据瞬时相位,计算瞬时相位非线性分量标准差:
其中,为归一化瞬时包络中超过阈值的点数,为去除线性相位分量后瞬时相位波形;
根据瞬时幅度,计算瞬时幅度峰值谱线相关系数:
对瞬时幅度做傅立叶变换得到幅度谱,确定其中对应峰值的谱线,根据该谱线及其邻近谱线重构信号,得与相关系数:
其中表示向量、的协方差:
根据归一化零中心瞬时幅度,计算其短时能量分布直方图的峰度,短时能量统计窗长为,直方图统计分段数为,其中:
其中,、分别是直方图的二阶矩、四阶矩;
根据瞬时频率,计算瞬时频率峰值谱线相关系数:
对瞬时频率做傅立叶变换得到幅度谱,确定其中对应峰值的谱线,根据该谱线及其邻近谱线重构信号,得与相关系数:
根据归一化零中心瞬时频率,计算其短时能量分布直方图的峰度,短时能量统计窗长为,直方图统计分段数为,其中:
其中,、分别是直方图的二阶矩、四阶矩;
构造特征集。
2.根据权利要求1所述的基于随机森林的话音模拟调制特征识别方法,其特征在于,步骤4将随机森林分类器用于特征集的学习训练与识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010330032.3A CN111540381B (zh) | 2020-04-24 | 2020-04-24 | 一种基于随机森林的话音模拟调制特征识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010330032.3A CN111540381B (zh) | 2020-04-24 | 2020-04-24 | 一种基于随机森林的话音模拟调制特征识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111540381A CN111540381A (zh) | 2020-08-14 |
CN111540381B true CN111540381B (zh) | 2023-04-18 |
Family
ID=71975496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010330032.3A Active CN111540381B (zh) | 2020-04-24 | 2020-04-24 | 一种基于随机森林的话音模拟调制特征识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111540381B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112491764B (zh) * | 2020-11-17 | 2022-07-12 | 同方电子科技有限公司 | 一种基于瞬时特征空中模拟信号的识别方法 |
CN117807529B (zh) * | 2024-02-29 | 2024-05-07 | 南京工业大学 | 一种信号发生器输出信号的调制方式识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5581642A (en) * | 1994-09-09 | 1996-12-03 | Deacon Research | Optical frequency channel selection filter with electronically-controlled grating structures |
CN108830308A (zh) * | 2018-05-31 | 2018-11-16 | 西安电子科技大学 | 一种基于信号的传统特征与深度特征融合的调制识别方法 |
CN109802903A (zh) * | 2019-03-13 | 2019-05-24 | 哈尔滨工业大学 | 基于全双工信号对消的物理层安全传输方法 |
CN110740412A (zh) * | 2018-07-18 | 2020-01-31 | 奥迪康有限公司 | 包括语音存在概率估计器的听力装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1292036B1 (en) * | 2001-08-23 | 2012-08-01 | Nippon Telegraph And Telephone Corporation | Digital signal decoding methods and apparatuses |
-
2020
- 2020-04-24 CN CN202010330032.3A patent/CN111540381B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5581642A (en) * | 1994-09-09 | 1996-12-03 | Deacon Research | Optical frequency channel selection filter with electronically-controlled grating structures |
CN108830308A (zh) * | 2018-05-31 | 2018-11-16 | 西安电子科技大学 | 一种基于信号的传统特征与深度特征融合的调制识别方法 |
CN110740412A (zh) * | 2018-07-18 | 2020-01-31 | 奥迪康有限公司 | 包括语音存在概率估计器的听力装置 |
CN109802903A (zh) * | 2019-03-13 | 2019-05-24 | 哈尔滨工业大学 | 基于全双工信号对消的物理层安全传输方法 |
Non-Patent Citations (2)
Title |
---|
王玲.通信信号调制样式的自动识别.信息科技辑.2006,全文. * |
谭正骄.基于随机森林的通信信号调制识别算法研究.信息科技辑.2019,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111540381A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111540381B (zh) | 一种基于随机森林的话音模拟调制特征识别方法 | |
CN111238843B (zh) | 一种基于快速谱峭度分析的风机健康评价方法 | |
CN107392123B (zh) | 一种基于相参积累消噪的射频指纹特征提取和识别方法 | |
CN106772331A (zh) | 目标识别方法和目标识别装置 | |
CN106357575A (zh) | 一种多参数联合估计的干扰类型识别方法 | |
CN110176250B (zh) | 一种基于局部学习的鲁棒声学场景识别方法 | |
CN112637834B (zh) | 一种无线通信设备的指纹融合识别方法及装置 | |
CN103632681B (zh) | 一种谱包络静音检测方法 | |
CN113225282A (zh) | 一种基于bp神经网络的通信信号调制识别方法 | |
CN113452637B (zh) | 基于特征选择和支持向量机的水声通信信号调制识别方法 | |
Wang et al. | Radar HRRP target recognition in frequency domain based on autoregressive model | |
CN111583963B (zh) | 一种重复音频检测方法、装置、设备及存储介质 | |
CN109660475B (zh) | 一种非合作相位编码水声通信信号自主辨识方法 | |
CN115378776A (zh) | 一种基于循环谱参数的mfsk调制识别方法 | |
CN107341519B (zh) | 一种基于多分辨率分析的支持向量机识别优化方法 | |
CN108597537A (zh) | 一种音频信号相似度检测方法 | |
CN112086105A (zh) | 一种基于Gammatone分频带连续谱特征的目标识别方法 | |
CN111402898A (zh) | 音频信号处理方法、装置、设备及存储介质 | |
Wang et al. | Modulated Signal Open-Set Identification of Complex Convolutional Neural Networks Combined with Incremental Learning | |
Yu et al. | Unknown radar signal recognition technology based on DS Evidence Theory | |
CN109793511A (zh) | 基于深度学习技术的心电信号噪声检测算法 | |
CN113408420B (zh) | 基于多维度参数提取和支持向量机的扩频信号识别方法 | |
CN113033486B (zh) | 基于广义分形理论的信号特征提取与调制类型识别方法 | |
CN111740930B (zh) | 基于多特征分层处理的多类型非合作水声信号识别方法 | |
Hung et al. | Temporal Convolution Network-based Onset Detection and Query by Humming System Design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |