CN110781906B

CN110781906B - 一种基于半监督支持向量机的n-γ甄别方法

Info

Publication number: CN110781906B
Application number: CN201810857700.0A
Authority: CN
Inventors: 刘寅宇; 刘利芳; 代刚; 邢占强; 李顺
Original assignee: Institute of Electronic Engineering of CAEP
Current assignee: Institute of Electronic Engineering of CAEP
Priority date: 2018-07-31
Filing date: 2018-07-31
Publication date: 2023-05-30
Anticipated expiration: 2038-07-31
Also published as: CN110781906A

Abstract

本发明属于本发明涉及中子探测技术领域，具体涉及一种基于半监督支持向量机的n‑γ甄别方法,其特征在于包括如下步骤：a)利用模拟数字变换器对探测器输出脉冲信号进行模数变换，收集数字化的探测器脉冲信号，形成训练数据集；利用训练数据集结合半监督的学习方法训练出一个支持向量机，得到一个最优分类超平面；b)对新探测得到的脉冲进行数字化，并进行特征提取预处理：提取脉冲信号的重要特征信息；c)将提取到的特征信息输入到支持向量机中，利用上述分类超平面结合上述提取特征进行对新探测到的脉冲样本进行分类预测。

Description

一种基于半监督支持向量机的n-γ甄别方法

技术领域

本发明涉及中子探测技术领域，具体涉及一种基于半监督支持向量机的n-γ甄别方法。

背景技术

由于中子与周围环境的非弹性散射、慢化中子的辐射俘获等原因，存在中子的场合几乎都伴随着大量的γ射线本底；随着中子探测技术在测井、违禁物品检测、环境辐射检测、医学及军用领域的广泛应用，n-γ甄别(中子与伽马射线甄别)技术逐渐成为中子探测中的关键技术。目前常用的n-γ甄别技术有上升时间法、电荷比较法、神经网络法、脉冲梯度法、小波变换法；而这些方法仅仅利用了脉冲信号的一种或者两种特征信息进行n-γ甄别。

典型探测器由闪烁体、光导、光电倍增管、分压管和射极跟随器构成，如图1所示。

不同质量与电荷的射线粒子在探测器的闪烁体中激发的光脉冲信号含有不同衰减时间成分，因此探测器闪烁体输出的中子和γ射线光脉冲信号中的快、慢成分强度比不同；当探测器光电倍增管正常工作时(即工作于线性范围时)，从探测器光电倍增管的阳极或者某一个倍增极引出的电流脉冲形状反映了探测器闪烁体发射的光脉冲形状。该电流脉冲可表示为：

其中τ_f、τ_s及I_f(ρ)、I_s(ρ)分别是快慢成分的衰减时间及电流脉冲最大值。目前常见的电荷脉冲甄别方法原理及步骤如下：

1)对探测器输出的电流脉冲进行积分，可得电荷脉冲如下：

2)由1)可知，积分后的电荷脉冲也是由快、慢两部分组成，因此通过对探测器输出脉冲进行积分得到的中子和γ射线的电荷脉冲信号的Q_f(ρ)/Q_s(ρ)、Q(ρ)/Q_s(ρ)或Q(ρ)/Q_f(ρ)都不一样。

3)对探测器输出电流脉冲信号进行积分可通过两种方法进行：在模拟型甄别装置中利用专门的电流积分回路进行积分；在数字型装置中通过计算电流脉冲面积获得积分结果。此处以数字型装置为例，对于图2所示的电流脉冲信号，其全峰面积S便是脉冲的总电荷量Q(ρ)，而从t₀(t₀≈τ_f)时刻至峰尾的面积

便为脉冲信号慢成分电荷量Q_s(ρ)。

4)以S/S_t作为特征空间，利用探测器对混合辐射场中通过探测器测量得到的大量的中子和γ射线进行统计，得到如图3所示统计结果；中子和γ射线在该特征空间中均服从高斯分布：图中左边为γ射线统计分布(Gamma Distribution)，右边为中子统计分布(NeutronDistribution)。

5)对于探测器每一次测量得到的射线粒子，利用S/S_t作为特征信息可结合上图统计结果进行n-γ甄别：对于S/S_t小于γ接受边界BoundaryG(BoundaryG＝u_n-3σ_n，u_n为中子分布期望，σ_n中子分布标准差)的认为是γ射线，S/S_t大于n接受边界BoundaryN(BoundaryN＝u_γ+3σ_γ)的认为是n射线，而对于S/S_t在BoundaryG与BoundaryN之间(如图3中阴影区域)的无法准确甄别。

目前的n-γ甄别技术，在甄别过程中仅利用了探测器输出脉冲信号的一维或者二维特征信息。上升时间法仅利用了探测器输出中子和γ射线脉冲的上升时间有所差异这一特征；电荷比较法仅利用了中子和γ射线产生的光脉冲的快、慢成分的比例不同这一特征；脉冲梯度法仅利用了中子和γ射线的脉冲衰减时间不同这一特征；小波变换法利用了中子和γ射线产生脉冲在频域上特征信息进行甄别。对于绝大部分n-γ甄别探测器而言，这种利用一维特征信息进行n-γ甄别的方法其甄别效果不理想：在特征空间中存在无法准确甄别的区域。

此外，目前在n-γ甄别中采用过神经网络方法。但是由于计算量和复杂度方面的计算，该方法仅仅使用了脉冲波峰后的20～40nS之间的样本点作为特征信息。同时，神经网络法具有以下两方面缺点：一是该方法结构复杂、网络庞大；二是该方法需要大量已知类别的中子和γ射线在探测器中产生的脉冲信号数据集作为标准样本用于训练，在实际环境中几乎无法获取到足够的这样的标准样本。

发明内容

针对上述现有技术中的不足，本发明提供了一种基于半监督支持向量机的n-γ甄别方法。

本发明的发明目的如下：

1.本方法核心目标是通过利用探测器输出脉冲信号的多维度特征信息(例如，脉冲信号上升时间、下降时间、脉冲幅度、脉冲总电荷量和脉冲慢成分电荷量等)来提升n-γ甄别效果，以实现对现有技术中无法甄别的脉冲信号样本进行甄别分类。

2.本方法通过特征提取预处理提取了脉冲信号中比较重要的几种特征信息，而不是单纯利用脉冲信号的全部原始数据进行向量机训练及甄别，这种方法有效降低了方法的复杂度和方法对训练样本规模的需求。

3.本方法结合传统甄别方法与半监督学习，摆脱了支持向量机训练过程对于标准样本的依赖。

一种基于半监督支持向量机的n-γ甄别方法，其特征在于包括如下步骤：

a)利用模拟数字变换器对探测器输出脉冲信号进行模数变换，收集数字化的探测器脉冲信号，形成训练数据集；利用训练数据集结合半监督的学习方法训练出一个支持向量机，得到一个最优分类超平面；

b)对新探测得到的脉冲进行数字化，并进行特征提取预处理：提取脉冲信号的重要特征信息；

c)将提取到的特征信息输入到支持向量机中，利用上述分类超平面结合上述提取特征进行对新探测到的脉冲样本进行分类预测。

所述步骤a)的详细步骤为利用模拟数字变换器对探测器输出的模拟脉冲信号进行变换和收集，形成一定数量规模(记数据规模为N)的未带标记(即未进行n-γ甄别，每一个脉冲信号所属粒子种类未知)的脉冲信号数据集U₁。

所述b)的详细步骤为对脉冲信号数据集U₁中每一个脉冲信号u₁(i)其中(0＜i≤N)进行特征信息提取预处理：提取脉冲总电荷量(脉冲全面积)、慢成分电荷量(脉冲t₀时刻至峰尾的面积)、上升时间、下降时间及脉冲幅度，即图2所示脉冲信号的全面积S、慢成分电荷面积

上升时间T_R、下降时间T_F和脉冲幅度Amp。并将数据集U₁进行特征信息预处理得到的特征信息数据集记为U₂，特征数据集中每一条数据记录都包含了S、/>

T_R、T_F和Amp五维特征信息即/>

所述特征数据集U₂由电荷比较法进行甄别分类，并对数据集U₂中电荷比较法能够进行准确甄别的数据记录u₂(i)添加相应的类别标签L(i)，收集数据集U₂中所有带类别标签的数据记录形成带标签数据集U₃，数据集中每一条数据记录u₃(i)＝{u₂(i),L(i)}；剩余无法甄别数据记录形成未带标签数据集U₄。

所述向量机半监督训练详细步骤为：利用带标签数据集U₃训练出一个能够对数据集中数据进行准确分类的支持向量机SVM1，在数据集U₃中，寻找到一个划分超平面，将两种类别的样本分开，划分超平面由如下公式(1)得到：ω^Tu₂+b＝0,其中ω为寻找的划分超平面的法向量，b为超平面偏移项，u₂代表输入特征空间；支持向量机训练过程由如下公式(2)得到：

s.t.L(i)(ω^Tu₂(i)+b)≥1-ξ_i,ξ_i≥0,i＝1,2,…,M.，其中M为数据集U₃的数据规模，ξ_i为松弛变量，C＞0为一个常数。

所述未带标签数据集U₄经过上述步骤中得到的支持向量机SVM1进行分类，并将数据集U₄中每一条样本u₄(i)的SVM1分类结果作为伪标记PL(i)赋予该样本，从而形成带伪标记的样本数据集U₅，该数据集中每一条数据记录u₅(i)＝{u₄(i),PL(i)}；结合带伪标签的数据集U₅和带标签的数据集U₃重新训练一个支持向量机SVM2，在训练过程中对数据集U₅中要对两个伪标记指派为异类且很可能发生错误的样本进行标记交换。

所述向量机训练过程详细步骤如下：在利用伪标记样本数据集U₅重新训练支持向量机的过程中，对公式(2)的训练过程中添加约束项得到新的公式(3)：

s.t.L(i)(ω^Tu₂(i)+b)≥1-ξ_i,i＝1,2,…,M.

PL(i)(ω^Tu₂(i)+b)≥1-ξ_i,i＝M+1,M+2,…,N.

ξ_i≥0,i＝1,2,…,N.其中C_P代表伪标记样本在训练过程中的影响权重，设置0＜C_P＜C，将SVM1代入公式(3)并对数据集U₅进行预测，找到两个标记指派为异类并且可能发生错误的伪标记样本，交互其标记；重新基于公式(3)求解超平面，再找出两个标记指派为异类并且可能发生错误的伪标记样本，直至标记指派完成；逐渐增大C_P，开始新一轮的训练，直至C_P＝C；完成训练后得到的SVM即目标SVM。

本发明的有益效果：

1.本发明所涉及到的方法对脉冲进行分类甄别时利用了脉冲的多维度特征信息。

2.本发明利用了支持向量机寻找一个最优划分超平面，以实现数据集在高纬度特征空间中高效分类。

3.本发明支持向量机在半监督学习训练过程中利用了传统n-γ甄别方法的甄别结果作为训练样本。而不是利用模拟得到的脉冲数据集作为训练样本集，最大程度保证了训练数据集与实际应用待甄别数据的一致性。

4.本发明支持向量机在进行向量机训练之前对训练样本数据集进行了特征提取预处理。而不是将原始的全部脉冲信息作为特征进行向量机训练，降低了支持向量机训练阶段的时间和计算能力开销。

5.本发明提出的基于半监督支持向量机的n-γ甄别方法，在对脉冲进行分类甄别时利用了脉冲的多维度特征信息，而不是传统方法的一维特征信息；利用更多维度的特征信息可提高甄别精度，实现对传统甄别方法中存在的无法甄别区域进行甄别。

6.本发明提出的基于半监督支持向量机的n-γ甄别方法，利用传统甄别方法能够进行准确甄别分类的样本子集作为支持向量机的训练数据集，这种方案最大程度保证了训练数据集与实际待甄别分类数据的一致性，同时摆脱了训练过程中对模拟数据集的依赖。

7.本发明提出的基于半监督支持向量机的n-γ甄别方法，在支持向量机训练和利用向量机对未标记样本进行分类预测之前进行了特征提取预处理，提取了脉冲信号幅度、脉冲信号总电荷量、慢成分电荷量、脉冲上升时间和脉冲下降时间作为脉冲信号特征矩阵，这种方案降低了支持向量机在训练过程中的时间和计算性能消耗，同时降低了对训练数据集规模的需求。

附图说明

图1为现有技术中辐射探测器结构示意；

图2为现有技术中探测器输出电流脉冲示意图；

图3为现有技术中中子和γ射线在S/S_t特征空间中的统计分布示意图；

图4为本发明中涉及基于半监督支持向量机的n-γ甄别方法的流程图；

图5为本发明中支持向量机半监督训练过程的流程图；

图6为本发明中利用数据集U5和U3训练支持向量机的流程图。

具体实施方式

实施例1：

T_R、T_F和Amp五维特征信息即/>

实施例2：

T_R、T_F和Amp五维特征信息即/>

实施例3：

T_R、T_F和Amp五维特征信息即/>

实施例4：

T_R、T_F和Amp五维特征信息即/>

实施例5：

T_R、T_F和Amp五维特征信息即/>

s.t.L(i)(ω^Tu₂(i)+b)≥1-ξ_i,i＝1,2,…,M.

PL(i)(ω^Tu₂(i)+b)≥1-ξ_i,i＝M+1,M+2,…,N.

Claims

1.一种基于半监督支持向量机的n-γ甄别方法，其特征在于包括如下步骤：

a)利用模拟数字变换器对探测器输出脉冲信号进行模数变换，收集数字化的探测器脉冲信号，形成一定数量规模的未带标记的脉冲信号数据集U₁，所述数量规模设定为N，其中，0＜i≤N；利用训练数据集结合半监督的学习方法训练出一个支持向量机，得到一个最优分类超平面；

b)对新探测得到的脉冲进行数字化，并进对脉冲信号数据集U₁中每一个脉冲信号u₁(i)进行特征信息提取预处理：提取脉冲信号的全面积S、慢成分电荷面积

上升时间T_R、下降时间T_F和脉冲幅度Amp，并将脉冲信号数据集U₁进行特征信息预处理得到的特征信息数据集记为U₂，特征信息数据集中每一条数据记录都包含了S、/>

T_R、T_F和Amp五维特征信息即

c)将提取到的特征信息输入到支持向量机中，利用上述分类超平面结合上述提取特征进行对新探测到的脉冲样本进行分类预测；

所述特征信息数据集U₂由电荷比较法进行甄别分类，并对数据集U₂中电荷比较法能够进行准确甄别的数据记录u₂(i)添加相应的类别标签L(i)，收集数据集U₂中所有带类别标签的数据记录形成带标签数据集U₃，数据集中每一条数据记录u₃(i)＝{u₂(i),L(i)}；剩余无法甄别数据记录形成未带标签数据集U₄；

向量机半监督训练详细步骤为：利用带标签数据集U₃训练出一个能够对数据集中数据进行准确分类的支持向量机SVM1，在数据集U₃中，寻找到一个划分超平面，将两种类别的样本分开，划分超平面由如下公式(1)得到：

ω^Tu₂+b＝0 (1)

其中，ω为寻找的划分超平面的法向量，b为超平面偏移项，u₂代表输入特征空间；

支持向量机训练过程由如下公式(2)得到：

其中，M为数据集U₃的数据规模，ξ_i为松弛变量；C＞0，C为一个常数；所述未带标签数据集U₄经过上述步骤中得到的支持向量机SVM1进行分类，并将数据集U₄中每一条样本u₄(i)的SVM1分类结果作为伪标记PL(i)赋予该样本，从而形成带伪标记的样本数据集U₅，该数据集中每一条数据记录u₅(i)＝{u₄(i),PL(i)}；结合带伪标签的数据集U₅和带标签的数据集U₃重新训练一个支持向量机SVM2，在训练过程中对数据集U₅中要对两个伪标记指派为异类且很可能发生错误的样本进行标记交换。

2.根据权利要求1所述一种基于半监督支持向量机的n-γ甄别方法，其特征在于：所述向量机训练过程详细步骤如下：在利用伪标记样本数据集U₅重新训练支持向量机的过程中，对公式(2)的训练过程中添加约束项得到新的公式(3)：

s.t.L(i)(ω^Tu₂(i)+b)≥1-ξ_i,i＝1,2,…,M

PL(i)(ω^Tu₂(i)+b)≥1-ξ_i,i＝M+1,M+2,…,N

ξ_i≥0,i＝1,2,…,N (3)

其中：C_P代表伪标记样本在训练过程中的影响权重；

设置0＜C_P＜C，将SVM1代入公式(3)并对数据集U₅进行预测，找到两个标记指派为异类并且可能发生错误的伪标记样本，交互其标记；重新基于公式(3)求解超平面，再找出两个标记指派为异类并且可能发生错误的伪标记样本，直至标记指派完成；逐渐增大C_P，开始新一轮的训练，直至C_P＝C；完成训练后得到的SVM即目标SVM。