CN111540381B

CN111540381B - 一种基于随机森林的话音模拟调制特征识别方法

Info

Publication number: CN111540381B
Application number: CN202010330032.3A
Authority: CN
Inventors: 史飞; 杨鸿杰; 刘芳; 王济
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-04-18
Anticipated expiration: 2040-04-24
Also published as: CN111540381A

Abstract

本发明公开了一种基于随机森林的话音模拟调制特征识别方法，属于通信信号处理技术领域。对于具有非平稳特性的话音模拟调制信号，需要构建能够充分反映话音非平稳特性的特征集，并设计具有较强鲁棒性的简易分类器，以提升话音模拟调制识别的适应性。该方法利用频谱重心位置能量完成信号检测，利用信号瞬时波形构建特征集。该特征集引入了瞬时波形峰值谱线相关系数特征，能够有效剔除单频幅度或频率调制的干扰，同时构建短时能量分布峰度特征，充分反映话音模拟调制的非平稳特性。在此基础上，设计了基于随机森林的话音模拟调制特征识别流程，相比决策树、支撑矢量机等，该方法计算简单，能够以更高的准确率识别话音模拟调制方式，具有较强的工程应用性。

Description

一种基于随机森林的话音模拟调制特征识别方法

技术领域

本发明涉及信息感知与识别领域，尤其涉及一种基于随机森林的话音模拟调制方式识别方法。

背景技术

话音模拟幅度调制或频率调制信号在实际电磁环境中的应用十分广泛，但由于调制信号受话音不连续、音量变化范围大、统计特性非平稳等因素的影响，加之较为灵活的调制指数及时变传播环境，使得提取稳定的单一检验特征比较困难。如何提取有效的统计特征集、设计具有较强鲁棒性的简易分类器，是提升话音模拟调制识别环境适应性面临的基本问题。

目前模拟调制识别方法主要是基于瞬时幅度、瞬时频率、瞬时相位等瞬时特征和功率谱，提取相应统计量形成特征集，对特征集采用决策树、支撑矢量机、神经网络等进行分类识别。特征集通常包括归一化零中心瞬时幅度谱密度最大值、瞬时相位非线性分量标准差、谱对称度等。归一化零中心瞬时幅度谱密度最大值能够反映瞬时包络中是否存在调制信息，对于恒定包络该值近似为零。瞬时相位非线性分量标准差反映了瞬时相位中除载频分量之外包含的变化信息，对于相位或频率调制波形，该特征具有较大的取值。这些特征虽然能够反映幅度调制或频率调制的特征，但未能充分反映话音调制的非平稳特性，不能可靠区分话音与非话音幅度调制和频率调制。基于决策树的分类器虽然应用简单，但决策树顶层特征量的权值过重，难以确定最优判决门限，整体适应性较差。支撑矢量机的分类性能取决于核函数的选择，且计算量较大。神经网络分类器需要优化网络参数设计，达到较好分类效果需要的数据量较大，同时加速处理占用资源较多。

总之，现有的特征集设计没有考虑话音时变非平稳特性，基于决策树的分类器设计未能利用特征集的综合信息导致难以最优化阈值设置，基于支撑矢量机和神经网络的分类器，设计核心参数较多且计算复杂。

发明内容

本发明所要解决的技术问题是针对话音模拟调制，在已有特征集的基础上，提出了能够体现话音的时变非平稳特性的瞬时能量峰度特征，及能够有效区分单频调制的峰值谱线相关系数特征，并采用随机森林学习算法作为分类器，设计了基于随机森林的话音模拟调制方式识别流程，在提高识别准确率的同时，计算简单，便于工程应用。

本发明采用的技术方案为：

一种基于随机森林的话音模拟调制特征识别方法，包括以下步骤：

步骤1：计算所有样本信号的估计功率谱和功率重心位置，基于频谱重心能量对信号进行检测，若存在信号则执行步骤2，否则继续检测；

步骤2：根据各样本信号的估计功率谱和功率重心位置，按照能量占比原则估计信号带宽，根据信号带宽计算各样本信号的瞬时幅度、瞬时相位和瞬时频率；

步骤3：根据瞬时幅度计算归一化零中心瞬时幅度谱密度最大值、瞬时幅度峰值谱线相关系数和瞬时幅度短时能量分布峰度；根据瞬时相位计算瞬时相位非线性分量标准差，根据瞬时频率计算瞬时频率峰值谱线相关系数和时频率短时能量分布峰度；构建基于瞬时信息的特征集{F}；

步骤4：从样本数据中选取部分样本作为训练集，剩余作为测试集，根据训练集中每个样本信号的特征集训练随机森林分类器；

步骤5：提取测试集样本的样本特征，将每个样本信号的特征集输入随机森林分类器进行分类识别，得出最终识别结果。

其中，步骤1中基于频谱重心能量对信号进行检测，具体为：

缓存N点的样本数据r(n)，采用窗长为L步进为D的汉明窗w(n)进行数据分段处理，分段数为K，观测数据点数N＝L+D(K-1),则第i段数据表示为r_i(n)，i＝1，2，...，K，其周期图谱Pⁱ(k)表示为：

则信号的估计功率谱P(k)为：

功率重心位置k_c的估计方法如下：

当估计功率谱P(k)重心位置k_c处对应谱值超过预设阈值时，认为存在信号。

其中，步骤3具体为：

根据瞬时幅度a(n)，计算归一化零中心瞬时幅度谱密度最大值γ_max：

γ_max＝max|DFT(A_cn)|²/N

其中，A_cn(n)＝A(n)-1,A(n)＝a(n)/μ,

根据瞬时相位θ(n)，计算瞬时相位非线性分量标准差σ_dp：

其中，N_c为归一化瞬时包络A(n)中超过阈值A_t的点数，

为去除线性相位分量后瞬时相位波形；

根据瞬时幅度a(n)，计算瞬时幅度峰值谱线相关系数Cr_a：

对瞬时幅度a(n)做傅立叶变换得到幅度谱|a(f)|，确定其中对应峰值的谱线，根据该谱线及其邻近谱线重构信号a‘(n)，得a(n)与a‘(n)相关系数Cr_a：

其中C(x，y)表示向量x、y的协方差：

C(x，y)＝E[(x-h(x))(y-h(y))]

根据归一化零中心瞬时幅度A_cn(n)，计算其短时能量h_A(n)分布直方图H_a的峰度G_a，短时能量统计窗长为L₁，直方图统计分段数为M₁，其中：

其中，

分别是直方图H_a的二阶矩、四阶矩；

根据瞬时频率ω(n)，计算瞬时频率峰值谱线相关系数Cr_ω：

对瞬时频率ω(n)做傅立叶变换得到幅度谱|ω(f)|，确定其中对应峰值的谱线，根据该谱线及其邻近谱线重构信号ω'(n)，得ω(n)与ω'(n)相关系数Cr_ω：

根据归一化零中心瞬时频率ω(n)，计算其短时能量h_ω(n)分布直方图H_ω的峰度G_ω，短时能量统计窗长为L₁，直方图统计分段数为M₁，其中：

其中，

分别是直方图H_ω的二阶矩、四阶矩；

构造特征集{F:γ_max，σ_dp，Cr_a，G_a，Cr_ω，G_ω}。

本发明与现有技术相比优点为：在已有特征集的基础上，提出了能够体现话音的时变非平稳特性的瞬时信息峰度特征等，并采用随机森林学习算法作为分类器，设计了基于随机森林的话音模拟调制特征识别流程，在提高识别准确率的同时，计算简单，便于工程应用。因此，新方法能提高识别的效率、准确率以及适用范围。

附图说明

图1为本发明识别流程。

具体实施方法

下面结合附图对本发明作进一步解释说明。

一种基于随机森林的话音模拟调制特征识别方法，如图1所示，包括以下步骤：

缓存N点的观测数据r(n)，采用窗长为L步进为D的汉明窗w(n)进行数据分段处理，分段数为K，观测数据点数N＝L+D(K-1),则第i段数据表示为r_i(n)，i＝1，2，...，K，其周期图谱Pⁱ(k)可表示为：

则信号谱估计P(k)为：

当谱估计P(k)重心位置k_c处对应谱值超过预设阈值时，认为存在信号。重心位置k_c的估计方法如下：

根据估计功率谱P(k)和功率重心位置，按照能量占比原则估计信号带宽，即在占据带宽频率范围内信号平均功率占分析带内总功率的百分比，完成信号带宽估计。

根据估计信号带宽，对信号进行带通滤波及正交下变频处理，得到信号的等效基带表达r_b(n)＝I(n)+jQ(n)＝a(n)e^{-j(Δωn+θ(n))},通过r_b(n)完成瞬时包络a(n)、瞬时相位θ(n)和瞬时频率ω(n)的计算方法如下：

ω(n)＝θ(n)-θ(n-1)

计算得到的θ(n)位于(-π，π)，是一种折叠的瞬时相位，采用下面的方法去折叠：

设当前点的相位为θ(n)，前一点的相位为θ(n-1)，

若|θ(n)-θ(n-1)|≤π，则当前相位值保持不变，

若θ(n)-θ(n-1)＞π，则当前点及其以后的各点相位一律减去2π，

若θ(n)-θ(n-1)＜-π，则当前点及其以后的各点相位一律加上2π。

步骤3：构建基于瞬时信息的特征集{F}

γ_max＝max|DFT(A_cn)|²/N

其中，A_cn(n)＝A(n)-1,A(n)＝a(n)/μ,

根据瞬时相位θ(n)，计算瞬时相位非线性分量标准差σ_dp：

其中，N_c为归一化瞬时包络A(n)中超过阈值A_t的点数，

去除线性相位分量后瞬时相位波形。

根据瞬时幅度a(n)，计算瞬时幅度峰值谱线相关系数Cr_a：

对瞬时幅度a(n)做傅立叶变换得到幅度谱|a(f)|，确定其中对应峰值的谱线，根据该谱线及其邻近谱线重构信号a‘(n)，可得a(n)与a‘(n)相关系数Cr_a：

其中C(x，y)表示向量x、y的协方差：

C(x，y)＝E[(x-h(x))(y-h(y))]

其中，

分别是直方图H_a的二阶矩、四阶矩。

根据瞬时频率ω(n)，计算瞬时频率峰值谱线相关系数Cr_ω：

对瞬时频率ω(n)做傅立叶变换得到幅度谱|ω(f)|，确定其中对应峰值的谱线，根据该谱线及其邻近谱线重构信号ω'(n)，可得ω(n)与ω'(n)相关系数Cr_ω：

其中，

分别是直方图H_ω的二阶矩、四阶矩。

构造特征集{F:γ_max，σ_dp，Cr_a，G_a，Cr_ω，G_ω}

步骤4：基于随机森林的训练学习

从模拟调制数据集中随机选取60％的样本数据作为训练集，其余40％作为测试集。假设该训练集中共有训练样本M个，每个样本可表示为{(F_i，b_i)|i＝1，2，...，M}，其中F_i代表样本i的特征向量，b_i代表样本i所属的类别标签。设每个样本特征向量的维数为d(本专利中d＝6)，随机森林训练中每个划分节点选取的特征子集维数为k(本专利中k＝4)。则使用以下步骤训练NQ个基决策树(本专利中NQ＝50)以组成随机森林分类器：

1.从训练集中通过可重复采样的方式采样M个样本，组成当前基决策树的训练集；

2.从所有特征中随机选取k个特征组成当前节点特征子集K；

3.从子集K中选取一个最优特征用于当前节点划分，以形成不同的划分分支；

4.对于不同分支，判断其是否满足结束条件(该分支上所有样本属同一类别或达到指定深度)，若满足则结束该分支，若不满足则以当前节点为分支返回2步。

对于2步中最优划分特征的选择，我们希望随着划分过程的不断进行，决策树分支节点所包含的样本尽可能属于同一类别。基于此原则，本专利使用信息增益作为最优划分特征选择的标准。

假设使用特征f对样本集D划分，划分后可以产生v个分支，每个分支记为D^v,则下式可计算出利用特征f进行划分的信息增益：

其中Ent(D)表示样本集D的信息熵，假定当前样本集合D中第y类样本所占的比例为p_y(y＝1,2，…,|Y|)，其中Y为类别集合，|Y|表是类别数(本专利|Y|＝5),则D的信息熵定义为

信息增益越大表明利用该特征进行划分所获得的效果越优，所以此处选择特征子集中信息增益最大的特征作为当前最优划分特征。

步骤5：测试识别

提取测试集样本的样本特征。将特征向量输入随机森林分类器进行分类识别。具体步骤如下：

1.将测试集特征向量输入随机森林中的NQ个决策树中进行判决；

2.给出该样本在每个决策树中的判决结果及对应的判决概率，设该样本在第n个决策树中识别为类别y的概率为p_ny；

3.综合每个决策树的决策结果，根据以下公式给出该样本在每个类别上的识别概率：

4.选取p_y最大的类别作为最终识别结果：

y*＝argmax_1≤y≤|Y|p_y

经过以上步骤的处理，就可以实现话音模拟调制特征的识别。

下面以实际采集的话音模拟幅度调制1000组数据、话音模拟频率调制1000组数据，单音幅度调制1000组，单音频率调制1000组，共4000组，采样频率92kHz，中频带宽30kHz，信噪比10dB为例，学习训练样本2400组，测试样本1600组，给出本发明的一个实例。

步骤1：检测信号是否存在

计算各样本谱估计重心位置处谱线能量，谱估计重心处谱线值分布与谱估计最大值处谱线分布基本一致，因此通过重心位置处谱线能量检测能够准确判断信号是否存在。

步骤2：计算信号瞬时幅度、瞬时相位、瞬时频率

计算各样本计算的瞬时幅度、瞬时相位、瞬时频率波形。话音调幅、单频调幅的瞬时幅度波形波动较大，瞬时幅度能反映话音模拟幅度调制时话音的时变非平稳特性。话音调频、单音调频瞬时频率波形波动较大，瞬时频率能反映话音模拟频率调制时话音的时变非平稳特性。

步骤3：构建特征集{F}

计算各样本特征集分布，话音调幅、单频调幅的归一化零中心瞬时幅度谱密度最大值γ_max较大，而话音调频、单频调频对应的γ_max近似为零，因此归一化零中心瞬时幅度谱密度最大值γ_max能够有效判断瞬时包络是否恒定以区分幅度调制和频率调制。话音调幅尤其是单音调幅的瞬时相位非线性分量标准差σ_dp较小，而话音调频尤其是单音调频对应的σ_dp较大，因此瞬时相位非线性分量标准差σ_dp能够有效分析瞬时相位是否恒定以区分幅度调制和频率调制。单音调幅的瞬时幅度峰值谱线相关系数Cr_a近似等于1，话音调幅对应的Cr_a小于1，因此瞬时幅度峰值谱线相关系数Cr_a能够有效检测幅度调制中是否存在显著单频分量以区分话音调幅与单音调幅。单音调频的瞬时频率峰值谱线相关系数Cr_ω近似等于1，话音调频对应的Cr_ω小于1，因此瞬时频率峰值谱线相关系数Cr_ω能够有效检测频率调制中是否存在显著单频分量以区分话音调频与单音调频。话音调频的瞬时包络短时能量分布峰度G_a近似为8，话音调幅对应的G_a小于8，因此瞬时包络短时能量分布峰度G_a能够有效分析瞬时包络能量变化情况以识别话音调幅。话音调幅的瞬时频率短时能量分布峰度G_ω近似为8，话音调频对应的G_ω近似为2，因此瞬时频率短时能量分布峰度G_ω能够有效分析瞬时包络能量变化情况以识别话音调频。

步骤4：训练学习

由特征集基于随机森林算法进行训练学习，得到随机森林分类模型中各个特征的重要性权重结果如下所示：

表1特征重要性权重分布

由模型结果参数可以看出，各特征权重分布与特征设计相符。

步骤5：测试识别

识别结果混淆矩阵如下表所示：

表2识别结果混淆矩阵

	话音调幅	单音调幅	话音调频	单音调频
					话音调幅	100％	0	0	0
单音调幅	0	100％	0	0
					话音调频	0	0	100％	0
单音调频	0.23753％	0	0	99.76247％

识别时间0.125s，识别正确率99.9375％。

Claims

1.一种基于随机森林的话音模拟调制特征识别方法，其特征在于，包括以下步骤：

步骤3：根据瞬时幅度计算归一化零中心瞬时幅度谱密度最大值、瞬时幅度峰值谱线相关系数和瞬时幅度短时能量分布峰度；根据瞬时相位计算瞬时相位非线性分量标准差；根据瞬时频率计算瞬时频率峰值谱线相关系数和时频率短时能量分布峰度；构建各样本信号基于瞬时信息的特征集；

步骤5：提取测试集样本的样本特征，将每个样本信号的特征集输入随机森林分类器进行分类识别，得出最终识别结果；

其中，步骤1中基于频谱重心能量对信号进行检测，具体为：

缓存N点的样本数据，采用窗长为L步进为D的汉明窗进行数据分段处理，分段数为，观测数据点数,则第段数据表示为，其周期图谱表示为：

,

则信号的估计功率谱为：

功率重心位置的估计方法如下：

当估计功率谱重心位置处对应谱值超过预设阈值时，认为存在信号；

其中，步骤3具体为：

根据瞬时幅度，计算归一化零中心瞬时幅度谱密度最大值：

其中，,,；

根据瞬时相位，计算瞬时相位非线性分量标准差：

其中，为归一化瞬时包络中超过阈值的点数，为去除线性相位分量后瞬时相位波形；

根据瞬时幅度，计算瞬时幅度峰值谱线相关系数：

对瞬时幅度做傅立叶变换得到幅度谱，确定其中对应峰值的谱线，根据该谱线及其邻近谱线重构信号，得与相关系数：

其中表示向量、的协方差：

根据归一化零中心瞬时幅度，计算其短时能量分布直方图的峰度，短时能量统计窗长为，直方图统计分段数为，其中：

其中，、分别是直方图的二阶矩、四阶矩；

根据瞬时频率，计算瞬时频率峰值谱线相关系数：

对瞬时频率做傅立叶变换得到幅度谱，确定其中对应峰值的谱线，根据该谱线及其邻近谱线重构信号，得与相关系数：

根据归一化零中心瞬时频率，计算其短时能量分布直方图的峰度，短时能量统计窗长为，直方图统计分段数为，其中：

其中，、分别是直方图的二阶矩、四阶矩；

构造特征集。

2.根据权利要求1所述的基于随机森林的话音模拟调制特征识别方法，其特征在于，步骤4将随机森林分类器用于特征集的学习训练与识别。