CN114897004A - 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法 - Google Patents
一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法 Download PDFInfo
- Publication number
- CN114897004A CN114897004A CN202210394146.3A CN202210394146A CN114897004A CN 114897004 A CN114897004 A CN 114897004A CN 202210394146 A CN202210394146 A CN 202210394146A CN 114897004 A CN114897004 A CN 114897004A
- Authority
- CN
- China
- Prior art keywords
- pulse
- trapezoidal
- model
- stacking
- kernel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E30/00—Energy generation of nuclear origin
- Y02E30/30—Nuclear fission reactors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
本发明公开了一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法,是对梯形成形后的上升沿变缓的堆积阶跃核脉冲进行识别。首先,将欲进行参数识别的梯形堆积核脉冲看成是由N个上升沿变缓的阶跃脉冲堆积后经过梯形成形后得到的。其次,制作含有多个样本的数据集,每个样本含有其对应梯形堆积核脉冲的采样值及脉冲的参数集。然后,各个样本对应的梯形堆积核脉冲的采样值以及相应的位置编码作为Transformer模型的输入数据。接着,用Transformer模型中的多层编码器与解码器提取特征,并对其内部的前馈神经网络进行训练。最后,用训练完成后的Transformer模型对欲进行参数识别的原始梯形堆积核脉冲进行参数识别。该方法大大降低了梯形堆积核脉冲的舍弃率,提高了放射性测量的准确度和可信度。
Description
技术领域
本发明涉及一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法。
背景技术
数字成形技术已成为核脉冲信号的一种重要成形方法,这有利于采用数字信号处理的方法进行核信号的识别,大大提高了核仪器的性能。在高速计数时,无论采用何种成形方法,相邻核脉冲的堆积是难以避免的;所以,数字成形后堆积核脉冲的参数识别仍然是一个难题。以梯形成形方法为例,上升沿变缓的阶跃核脉冲成形为梯形脉冲后,信号得以展宽便于幅值的识别,但是与原始的核脉冲相比,梯形脉冲仍然会出现堆积的现象。近年来,国内外在梯形核脉冲的成形、采集、识别方面进行了较为深入的研究,但对于堆积较为严重的梯形核脉冲的参数识别仍然效果不佳。深度学习技术,自从提出之时便受到各领域学者的广泛关注,随着计算机科学与技术的不断发展,以及深度学习技术在理论上的不断突破,目前该项技术已成为非常热门的智能科学技术,被广泛地应用在众多领域并且取得了非常优秀的效果。目前将深度学习技术引入核脉冲的参数识别的相关研究还处于初步探索阶段,虽然已经有部分学者及研究团队利用循环神经网络(RNN)识别堆积脉冲的参数,但是由于RNN在面对长序列时无法完全消除梯度消失和梯度爆炸的问题,且该模型中的每一个节点都依赖它前一步的节点,因此在训练过程中对于输入脉冲序列的计算是线性的,这就导致其处理大规模且复杂度较高的脉冲序列时效率不高。为了进一步提高堆积脉冲识别的准确率和效率,本发明专利采用了目前在自然语言处理(NLP)领域内非常先进的Transformer模型,并加以一定的改进,使其能够更好地适应和处理核脉冲数据。综上所述,本发明专利针对由多个上升沿变缓的阶跃信号经过梯形成形后的脉冲堆积信号,提出了基于深度学习Transformer模型的梯形堆积核脉冲的识别方法,用于识别梯形堆积核脉冲的参数。这对于成形算法的验证,以及后续核脉冲参数的获取等过程具有重要意义。
发明内容
本发明的目的在于公开一种基于深度学习Transformer模型的梯形堆积核脉冲的识别方法,用于识别由多个上升沿变缓的阶跃信号经过梯形成形后的梯形堆积核脉冲的参数。该方法在一定程度上解决了相邻核脉冲因梯形成形后脉冲信号堆积而难以准确识别相关信息的技术难题,这对于提高放射性测量的精度具有较大意义。
本发明对梯形成形后的堆积核脉冲进行识别是通过以下具体步骤①~⑤实现的。
步骤①将放射性测量中所获得的欲进行参数识别的梯形堆积核脉冲看成是由N个上升沿变缓的阶跃核脉冲叠加后经过梯形成形后得到的,这些核脉冲的个数N应根据欲进行参数识别的堆积核脉冲的具体情况而定。
步骤②制作含有多个样本的数据集,数据集中包含采样集Vo和参数集θ。其中采样集为每个样本的梯形堆积核脉冲的采样值集合。参数集包含成形前的上升沿变缓的阶跃核脉冲信号的参数以及相应的梯形成形参数。接着,将数据集按照一定比例划分为训练集(Train Set)、测试集(Test Set)、验证集(Validation Set);其中,训练集用于Transformer模型的训练,测试集用于模型训练完成后检验模型的泛化能力,验证集用于检验训练完成的模型是否出现过拟合现象。
步骤③将步骤②划分出的训练集用于Transformer模型的训练,训练集中各个样本对应的梯形堆积核脉冲作为Transformer模型的输入数据,其中采样集Vo输入编码器(Encoder),参数集θ输入解码器(Decoder)中。对于输入每个编码器(Encoder)中的Vo数据集,利用Encoder 的自注意力模块(Self-Attention,SA)得到一个加权特征向量Z。为了防止网络在训练过程中出现退化现象,需要利用残差模块对Z向量进行处理。此外,为了尽可能提高网络训练速度的稳定性还需要对输入数据进行归一化处理。接着,将该特征向量Z传入前馈神经网络 (Feed Forward Neural Network,FFN);然后将FFN网络的输出值分别传向下一层Encoder 中,直到最后一层Encoder的输出作为Decoder的输入。对于Decoder中的输入数据则分为两种情况,在模型训练阶段输入参数集θ,而在模型预测阶段则输入上一次模型的输出序列。数据在进入Decoder后首先需要添加一个掩码(mask)模块对数据的某些特征值进行掩盖,以保证模型在参数更新过程中保持鲁棒性。接着,与Encoder中的SA模块同理,Decoder中的数据也需要经过该模块处理。然后,将处理过的数据输入FFN经过前向传播后输出,并将数据传向下一层Decoder。以此类推,直到最后一层Decoder运算完成。
步骤④在完成步骤③后,对Transformer中的神经网络进行反向传播。通过选择合适的损失函数,使得网络能够高效快速的迭代计算出最佳的权值参数。此外,鉴于Transformer 模型的规模较大,复杂程度较传统的RNN网络更高,因此还需要设计一套可变学习率模型来保证训练的精度和效果。
步骤⑤经过步骤③和④和相应反向传播后,当一个具有识别梯形堆积核脉冲参数集合能力的Transformer模型训练完成后,将训练完成的Transformer模型结构、权重、训练配置及优化器状态等重要信息保存;然后将步骤①中欲进行参数识别的原始梯形堆积核脉冲的采样值作为Transformer模型的输入,进而由Transformer模型的输出得到所需识别的脉冲参数集合θ。
通过以上步骤①~⑤即完成梯形堆积核脉冲的识别。
本发明的有益效果是:
在进行放射性测量中,相邻核脉冲的堆积是不可避免的,特别是在高速计数时,堆积现象更是屡见不鲜且更为严重,这给脉冲成形及核信号参数的识别带来困难。近年来,国内外在梯形核脉冲的采集、识别方面进行了较为深入的研究,但对于堆积较为严重的梯形核脉冲的参数识别却效果不佳,曾有针对由多个指数衰减信号经过梯形成形后的脉冲堆积核信号参数识别的报道。特别地,本发明专利针对由多个上升沿变缓的阶跃核脉冲经过梯形成形后的脉冲堆积核信号,通过对该脉冲信号离散化处理,使其具有时间序列的特征,并提出了基于深度学习Transformer模型的梯形堆积核脉冲的参数识别方法,相较于采用RNN(包含LSTM、 GRU)模型对于堆积脉冲的识别方法,使用本专利的方法由于采用了并行训练的机制并且能够较好的处理脉冲序列之间的依赖问题,因此据有识别精度高、速度快、效果好的优点。该发明将深度学习技术引入核脉冲参数识别,大大降低了梯形堆积核脉冲的舍弃率,提高了放射性测量的准确度和可信度;有利于分析由探测器及其后续电路响应特性的变化所导致的信号参数的波动,比如,上升沿变缓的阶跃脉冲信号时间常数的波动性;这对于核仪器波形成形算法及能谱漂移纠正算法的验证,电路响应特性的分析,参数随时间及外界条件的变化关系分析,以及后续核脉冲参数的获取等过程具有重要意义。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和过程,但本发明的保护范围不限于下述的实施例。
设放射性测量中所获得的欲进行参数识别的原始梯形堆积核脉冲为Vo(mTS),采用本方法对脉冲Vo(mTS)进行识别是按如下具体步骤①~⑤进行的。
步骤①将欲进行参数识别的原始梯形堆积核脉冲Vo(mTS)看成是由N个上升沿变缓的阶跃核脉冲叠加后经过梯形成形后得到的,亦即将这N个上升沿变缓的阶跃核脉冲的叠加信号Ve(kTS)作为梯形成形算法的输入信号;N个上升沿变缓的阶跃核脉冲的叠加信号Ve(kTS)表示为:
所述梯形成形,是指将Ve(kTS)作为如下梯形成形算法的输入信号进而得到输出信号 Vo(mTs):
公式(1)和(2)中,u(kTs-Ti)表示阶跃函数;k=1,2,3,…,K;K为Ve(kTS)的离散点数;τ为上升沿变缓的阶跃脉冲的衰减时间常数;TS为采样周期;Ai和Ti分别表示第i个上升沿变缓的阶跃核脉冲的幅值及发生时间;p为梯形脉冲与阶跃脉冲的幅值比例系数 p=Vo(mTs)/Ve(mTs);na=ta/Ts,nb=(ta+D)/Ts,nc=tc/Ts,ta为梯形脉冲的上升沿时间,D 为梯形脉冲的平顶宽度时间,整个梯形成形时间tc=2ta+D;m=1,2,3,…,K+2+nc。
步骤②制作含有n个样本的数据集,数据集的矩阵表示形式如下:
表达式(3)中每一行代表一个样本的数据;每个样本的前K+2+nc个数据为该样本对应的梯形堆积核脉冲的采样值,设该梯形堆积核脉冲按步骤①的成形方法进行成形前的输入信号Ve(kTS)的参数为Ai(i=1,2,...,N)、Ti(i=1,2,...,N)和τ,并设梯形成形时的上升沿时间为ta,平顶宽度时间为D,则将这些参数构成为该样本的参数集合θ,即θ=[A1,A2,...,AN,T1,T2,...,TN,τ,ta,D];例如,第i个样本对应的梯形堆积核脉冲Vo(mTS)的采样值为[Vo(TS)]i,[Vo(2TS)]i,[Vo(3TS)]i,…,[Vo((K+2+nc)TS)]i;第i个样本的参数集合则变为θi。参数集合θ随机产生。
接着,将数据集按照一定比例划分为训练集(Train Set)、测试集(Test Set)、验证集 (Validation Set)。其中,训练集用于Transformer模型的训练;测试集用于模型训练完成后检验模型的泛化能力;验证集用于检验训练完成后的模型是否出现过拟合现象。
步骤③将训练集用于Transformer模型的训练;在训练Transformer时的前向传播过程中,将步骤②划分出的训练集中的各个样本对应的梯形堆积核脉冲Vo(mTS)的采样值作为 Transformer模型的输入数据。不同于循环神经网络具有天然的时间有序性,Transformer模型需要引入位置编码参数PE(Position Encoding),确立每个核脉冲的采样值在核脉冲序列中的相对位置,从而使得网络模型中的多头注意力机制能够充分识别维度更加丰富的核脉冲序列信息。而描述这种相对位置信息最好的方式就是利用函数周期性,因此采用正余弦位置编码的方式获取每个采样周期Ts内的脉冲序列位置信息,其数学模型为:
pos表示脉冲采样值在脉冲序列中的绝对位置,即pos=0,1,…K+1+nc。dm为位置向量的维度,通常设定dm=K+2+nc;2j和2j+1表示奇偶性;j为位置向量的某一维度,即j=0,1,2…K+1+nc。接着,将位置编码与核脉冲序列叠加后形成的脉冲序列向量Vp(mTS)作为输入Transformer模型的数据。
Vp(mTs)=[Vo(mTs)pos PEpos] (6)
Transformer模型一般包含6层Encoder和Decoder,其中Encoder层由多头注意力模型 MHA(Multi-HeadAttention)和全连接神经网络FFN(FeedForwardNetwork)组成。对于MHA模型,其在自注意力模型Self-Attention(SA)的基础上,对于添加完位置编码的脉冲序列向量 Vp(mTS)采用了多组的权重矩阵进行变换得到多组的搜索向量Q(Query),关键词向量K(Keys), 价值向量V(Values)。对于Decoder模型,其相较于Encoder最大的区别在于引入了带掩码的注意力模型。整个Transformer模型按如下A、B、C、D环节实现。
A、注意力模型SA的计算
对于添加完位置编码的脉冲序列向量Vp(mTS),采用三个权值矩阵WQ,WK,WV,分别将Vp(mTS)转化为MHA模型所需的搜索向量Q(Query),关键词向量K(Keys),价值向量V(Values)。
因此,SA的数学模型为:
K=Vp(mTs)KQ (7)
Q=Vp(mTs)WQ (8)
V=Vp(mTs)VQ (9)
其中,dk为K向量的维度。因此,对于有H个注意力机制的MHA,可以理解为其由H个SA 模型拼接后经过线性变换而成,其数学模型为:
MHA(K,Q,V)=Concat[SA(Kh,Qh,Vh)]Wo (11)
B、残差模型的计算
对于输出残差模型的数据先进行归一化处理,其主要目的在于加快训练的速度和提高训练的稳定性。由于在设计一个神经网络时并不知道其层数的最佳值,因此实际上的神经网络层数往往会比理想的层数更多。然而,多余的层数会影响网络的训练效果,这就导致了神经网络的退化。为了解决该问题,业界通常引入残差神经网络ResNet来解决网络退化的问题。其数学模型为:
ResNet(K,Q,V)=relu[MHA(K,Q,V)]+MHA(K,Q,V) (12)
C、全连接前馈神经网络模型的计算
对于B环节中归一化处理过后的脉冲序列数据,将其输入进全连接神经网络FCFFN(Fully ConnectedFeed-ForwardNetwork),其数学模型为:
FCFFN(K,Q,V)=max[0,ResNet(K,Q,V)W1+b1]W2+b2 (13)
其中W1,W2,b1,b2为神经网络的权重与偏置。
D、Decoder中掩码多头注意力模型的计算
核脉冲序列数据在经过多个Encoder模型后传入Decoder模型中,Decoder模型与Encoder 模型非常相似,二者之间最大的不同在于注意力模型。相较于Encoder的MHA模型,Decoder 的多头注意力模型增加了一个掩码,使其能够对某些值进行掩盖,使得网络在训练过程中某些参数在更新时不产生效果。因此,该模型也被称为掩码多头注意力模型MMHA(Masked Multi-Head Attention)。通常使用和QKT同样维度的矩阵M作为mask矩阵,即:
接着在SA模型中用QKT点乘M,由softmax函数的性质可知,当自变量趋近于-∞时,因变量为0,从而实现了对于注意力模型的遮掩效果。则MMHA模型可以表示为:
MMHA(K,Q,V)=Concat[MSA(Kh,Qh,Vh)]Wo (15)
其中:
接着,将输出注意力模型的数据经过环节B、C后前向传播结束。
步骤④梯形堆积核脉冲反向传播训练。因为在定义Transformer时,脉冲序列向量所对应的三个矩阵WQ,WK,WV的初值是随机的。所以,单次前向传播迭代输出的预测脉冲参数集合θi'与训练集中的实际脉冲参数集合θi的误差可以通过损失函数计算。对于有q个样本的训练集,将参数集合θi的交叉熵(CE)值作为损失函数的函数值LossCE,即损失函数的计算式为:
此外,由于Transformer的模型规模较为庞大,其在训练的初始阶段,模型鲁棒性较差,采用较大的学习率会增加损失值的收敛难度。因此为了保证训练的效果和精度,本专利采用了带有预热机制的可变学习率,使得学习率的总体变化满足先增大后减小的趋势。其目的在于先让损失值下降到一定程度后,再逐渐恢复模型的学习率,故该学习率LR的数学模型为:
其中Sn为训练的步数,Ws为预热参数,且设置该参数值为4000。
将LossCE与损失函数的梯度一起反馈给网络来更新权重,实现减少后续迭代中误差的目的。
步骤⑤训练模型的保存与调用
当一个具有识别梯形堆积核脉冲参数集合θ能力的Transformer模型训练完成后,将训练完成的模型结构、权重、训练配置及优化器状态等重要信息保存为HDF5(Hierarchical Data Format 5,HDF5)文件;然后将步骤①中欲进行参数识别的原始梯形堆积核脉冲的采样值作为Transformer模型的输入,进而由Transformer模型的输出得到所需识别的脉冲参数集合θ。
通过以上步骤①~⑤完成梯形堆积核脉冲的识别。
如上所述基于深度学习技术对梯形成形后得到的梯形堆积核脉冲进行参数识别的方法,克服了传统循环神经网络固有的顺序属性带来的并行化训练困难以及算法受到数学模型规模限制无法对整个样本识别特征的局限,借用上升沿变缓的阶跃脉冲序列与梯形成形的参数作为样本集,从全局意义上让Transformer通过不断迭代训练建立起每种指数脉冲序列和与之对应的梯形成形后的参数之间的映射关系,从而实现梯形堆积核脉冲的参数识别,进而获取其中各个核脉冲的参数。本方法大大降低了梯形堆积核脉冲的舍弃率,提高了放射性测量的准确度和可信度;有利于分析由探测器及其后续电路响应特性的变化所导致的信号参数的波动,比如,上升沿变缓的阶跃脉冲信号时间常数的波动性;这对于核仪器波形成形算法及能谱漂移纠正算法的验证,参数随时间及外界条件的变化关系分析,以及后续核脉冲参数的获取等过程具有重要意义。同时,本发明将训练完成的模型以HDF5文件格式保存,可以让其它计算机设备直接加载该模型即可完成识别脉冲参数的工作。
在本发明上述的实施例中,对梯形成形后的堆积核脉冲的参数识别方法进行了详细说明,但需说明的是,以上所述仅为本发明的一个实施例而已,当其它类型的脉冲在涉及利用本文所提深度学习Transformer脉冲参数识别时,本发明仍有效,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法,用于对由多个上升沿变缓的阶跃信号经过梯形成形后的梯形堆积核脉冲进行识别,通过以下方法实现:
①梯形堆积核脉冲Vo(mTS)看成是由N个上升沿变缓的阶跃核脉冲叠加后经过梯形成形后得到的,按如下方法实现:
N个上升沿变缓的阶跃核脉冲的叠加信号Ve(kTS)表示为:
将Ve(kTS)作为如下梯形成形算法的输入信号而实现输出信号Vo(mTs):
公式(1)和(2)中,u(kTs-Ti)表示阶跃函数;k=1,2,3,…,K;K为Ve(kTS)的离散点数;τ为上升沿变缓的阶跃脉冲的衰减时间常数;TS为采样周期;Ai和Ti分别表示第i个上升沿变缓的阶跃核脉冲的幅值及发生时间;p为梯形脉冲与阶跃脉冲的幅值比例系数p=Vo(mTs)/Ve(mTs);na=ta/Ts,nb=(ta+D)/Ts,nc=tc/Ts,ta为梯形脉冲的上升沿时间,D为梯形脉冲的平顶宽度时间,整个梯形成形时间tc=2ta+D;m=1,2,3,…,K+2+nc;
②制作含有n个样本的数据集,数据集的矩阵表示形式如下:
表达式(3)中每一行代表一个样本的数据;每个样本的前K+2+nc个数据为该样本对应的梯形堆积核脉冲的采样值,设该梯形堆积核脉冲按步骤①的成形方法进行成形前的输入信号Ve(kTS)的参数为Ai(i=1,2,...,N)、Ti(i=1,2,...,N)和τ,并设梯形成形时的上升沿时间为ta,平顶宽度时间为D,则将这些参数构成为该样本的参数集合θ,即θ=[A1,A2,...,AN,T1,T2,...,TN,τ,ta,D];例如,第i个样本对应的梯形堆积核脉冲Vo(mTS)的采样值为[Vo(TS)]i,[Vo(2TS)]i,[Vo(3TS)]i,…,[Vo((K+2+nc)TS)]i;第i个样本的参数集合则变为θi。参数集合θ随机产生。并将数据集按照一定比例划分为训练集(Train Set)、测试集(TestSet)、验证集(Validation Set);
③将训练集用于Transformer模型的训练;在训练Transformer时的前向传播过程中,训练集中的各个样本对应的梯形堆积核脉冲Vo(mTS)与位置编码叠加后作为Transformer模型的输入数据;整个Transformer模型按如下A、B、C、D环节实现:
A、注意力模型SA的计算
对于添加完位置编码的脉冲序列向量Vp(mTS),采用三个权值矩阵WQ,WK,WV,分别将Vp(mTS)转化为MHA模型所需的搜索向量Q(Query),关键词向量K(Keys),价值向量V(Values)。因此,SA的数学模型为:
K=Vp(mTs)KQ (4)
Q=Vp(mTs)WQ (5)
V=Vp(mTs)VQ (6)
其中,dk为K向量的维度。因此,对于有H个注意力机制的MHA,可以理解为其由H个SA模型拼接后经过线性变换而成,其数学模型为:
MHA(K,Q,V)=Concat[SA(Kh,Qh,Vh)]Wo (8)
B、残差模型的计算
引入残差神经网络ResNet来解决网络退化的问题。其数学模型为:
ResNet(K,Q,V)=relu[MHA(K,Q,V)]+MHA(K,Q,V) (9)
C、全连接前馈神经网络模型的计算
对于B环节中归一化处理过后的脉冲序列数据,将其输入进全连接神经网络FCFFN(Fully Connected Feed-Forward Network),其数学模型为:
FCFFN(K,Q,V)=max[0,ResNet(K,Q,V)W1+b1]W2+b2 (10)
其中W1,W2,b1,b2为神经网络的权重与偏置;
D、Decoder中掩码多头注意力模型的计算
核脉冲序列数据在经过多个Encoder模型后传入Decoder模型中,Decoder相较于Encoder的MHA模型,Decoder采用掩码多头注意力模型MMHA(Masked Multi-HeadAttention)。通常使用和QKT同样维度的矩阵M作为mask矩阵,即:
接着在SA模型中用QKT点乘M。MMHA模型可以表示为:
MMHA(K,Q,V)=Concat[MSA(Kh,Qh,Vh)]Wo (12)
其中:
接着,将输出注意力模型的数据经过环节B、C后前向传播结束;
④梯形堆积核脉冲反向传播训练。对于有q个样本的训练集,将参数集合θi的交叉熵(CE)值作为损失函数的函数值LossCE,即损失函数的计算式为:
为了让损失值下降到一定程度后,再逐渐恢复模型的学习率,采用带有预热机制的可变学习率,该学习率LR的数学模型为:
其中Sn为训练的步数,Ws为预热参数,且设置该参数值为4000;
将LossCE与损失函数的梯度一起反馈给网络来更新权重,实现减少后续迭代中误差的目的;
⑤当一个具有识别脉冲参数集合θ能力的Transformer模型训练完成后,将训练完成的模型结构、权重、训练配置及优化器状态等重要信息保存为HDF5(Hierarchical DataFormat 5,HDF5)文件;然后将步骤①中欲进行参数识别的原始梯形堆积核脉冲的采样值作为Transformer模型的输入,进而由Transformer模型的输出得到所需提取的脉冲参数集合θ;
通过以上步骤①~⑤完成梯形堆积核脉冲的识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210394146.3A CN114897004B (zh) | 2022-04-15 | 2022-04-15 | 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210394146.3A CN114897004B (zh) | 2022-04-15 | 2022-04-15 | 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114897004A true CN114897004A (zh) | 2022-08-12 |
CN114897004B CN114897004B (zh) | 2023-05-02 |
Family
ID=82716557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210394146.3A Active CN114897004B (zh) | 2022-04-15 | 2022-04-15 | 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114897004B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432703A (zh) * | 2023-06-12 | 2023-07-14 | 成都大学 | 基于复合神经网络模型的脉冲高度估计方法、系统及终端 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102046624A (zh) * | 2008-03-31 | 2011-05-04 | 埃沃特克股份有限公司 | 作为组胺h3受体拮抗剂的四氢萘啶及其氮杂衍生物 |
CN105866557A (zh) * | 2016-03-22 | 2016-08-17 | 成都理工大学 | 一种实现ghz脉冲通过率的时间、能量双谱同步测量系统 |
CN105989410A (zh) * | 2015-03-05 | 2016-10-05 | 成都理工大学 | 一种重叠核脉冲分解方法 |
CN106156852A (zh) * | 2015-04-22 | 2016-11-23 | 成都理工大学 | 一种高斯重叠核脉冲估计方法 |
CN106896395A (zh) * | 2017-04-27 | 2017-06-27 | 西南科技大学 | 一种基于信号稀疏表示的微弱放射性信号的检测装置 |
CN108398711A (zh) * | 2018-01-31 | 2018-08-14 | 成都理工大学 | 一种基于双层参数模型的脉冲识别方法 |
CN109507709A (zh) * | 2018-11-21 | 2019-03-22 | 成都理工大学 | 核脉冲信号处理方法及装置 |
CN110276441A (zh) * | 2019-05-20 | 2019-09-24 | 成都理工大学 | 一种基于深度学习的梯形重叠核脉冲估计方法 |
CN110347965A (zh) * | 2019-07-17 | 2019-10-18 | 四川新先达测控技术有限公司 | 核脉冲信号处理方法及装置 |
CN111968629A (zh) * | 2020-07-08 | 2020-11-20 | 重庆邮电大学 | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 |
CN112150568A (zh) * | 2020-09-16 | 2020-12-29 | 浙江大学 | 基于Transformer模型的磁共振指纹成像重建方法 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN112764082A (zh) * | 2020-12-08 | 2021-05-07 | 武汉第二船舶设计研究所(中国船舶重工集团公司第七一九研究所) | 一种基于fpga的核脉冲数字化成形采样方法 |
WO2021128510A1 (zh) * | 2019-12-27 | 2021-07-01 | 江苏科技大学 | 基于sdae和改进gwo-svm的轴承缺陷识别方法 |
WO2022057116A1 (zh) * | 2020-09-15 | 2022-03-24 | 南京文图景信息科技有限公司 | 一种基于Transformer深度学习模型的多语种地名词根汉译方法 |
CN114236594A (zh) * | 2021-12-09 | 2022-03-25 | 电子科技大学 | 一种核脉冲信号数字三角-梯形双通道成形方法 |
CN114280093A (zh) * | 2021-12-13 | 2022-04-05 | 中国科学技术大学 | 小型超低场核磁共振谱仪 |
CN114301457A (zh) * | 2021-12-17 | 2022-04-08 | 中国兵器装备集团自动化研究所有限公司 | 一种核素采样方法、采样装置、识别方法及识别装置 |
-
2022
- 2022-04-15 CN CN202210394146.3A patent/CN114897004B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102046624A (zh) * | 2008-03-31 | 2011-05-04 | 埃沃特克股份有限公司 | 作为组胺h3受体拮抗剂的四氢萘啶及其氮杂衍生物 |
CN105989410A (zh) * | 2015-03-05 | 2016-10-05 | 成都理工大学 | 一种重叠核脉冲分解方法 |
CN106156852A (zh) * | 2015-04-22 | 2016-11-23 | 成都理工大学 | 一种高斯重叠核脉冲估计方法 |
CN105866557A (zh) * | 2016-03-22 | 2016-08-17 | 成都理工大学 | 一种实现ghz脉冲通过率的时间、能量双谱同步测量系统 |
CN106896395A (zh) * | 2017-04-27 | 2017-06-27 | 西南科技大学 | 一种基于信号稀疏表示的微弱放射性信号的检测装置 |
CN108398711A (zh) * | 2018-01-31 | 2018-08-14 | 成都理工大学 | 一种基于双层参数模型的脉冲识别方法 |
CN109507709A (zh) * | 2018-11-21 | 2019-03-22 | 成都理工大学 | 核脉冲信号处理方法及装置 |
CN110276441A (zh) * | 2019-05-20 | 2019-09-24 | 成都理工大学 | 一种基于深度学习的梯形重叠核脉冲估计方法 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN110347965A (zh) * | 2019-07-17 | 2019-10-18 | 四川新先达测控技术有限公司 | 核脉冲信号处理方法及装置 |
WO2021128510A1 (zh) * | 2019-12-27 | 2021-07-01 | 江苏科技大学 | 基于sdae和改进gwo-svm的轴承缺陷识别方法 |
CN111968629A (zh) * | 2020-07-08 | 2020-11-20 | 重庆邮电大学 | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 |
WO2022057116A1 (zh) * | 2020-09-15 | 2022-03-24 | 南京文图景信息科技有限公司 | 一种基于Transformer深度学习模型的多语种地名词根汉译方法 |
CN112150568A (zh) * | 2020-09-16 | 2020-12-29 | 浙江大学 | 基于Transformer模型的磁共振指纹成像重建方法 |
CN112764082A (zh) * | 2020-12-08 | 2021-05-07 | 武汉第二船舶设计研究所(中国船舶重工集团公司第七一九研究所) | 一种基于fpga的核脉冲数字化成形采样方法 |
CN114236594A (zh) * | 2021-12-09 | 2022-03-25 | 电子科技大学 | 一种核脉冲信号数字三角-梯形双通道成形方法 |
CN114280093A (zh) * | 2021-12-13 | 2022-04-05 | 中国科学技术大学 | 小型超低场核磁共振谱仪 |
CN114301457A (zh) * | 2021-12-17 | 2022-04-08 | 中国兵器装备集团自动化研究所有限公司 | 一种核素采样方法、采样装置、识别方法及识别装置 |
Non-Patent Citations (5)
Title |
---|
DAVIDE AGUGLIA等: ""Frequency-Domain Maximum-Likelihood Estimation of High-Voltage Pulse Transformer Model Parameters"" * |
XINGKE MA等: ""Estimation of trapezoidal-shaped overlapping nuclear pulse parameters based on a deep learning CNN-LSTM model"" * |
ZHOU JIAN BIN: ""Trapezoidal pulse shaping for pile-up pulse identification in X-ray spectrometry"" * |
周伟等: ""核脉冲信息数字梯形成形方法"" * |
马兴科: ""深度学习模型在识别堆积核脉冲中的研究与应用"" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432703A (zh) * | 2023-06-12 | 2023-07-14 | 成都大学 | 基于复合神经网络模型的脉冲高度估计方法、系统及终端 |
CN116432703B (zh) * | 2023-06-12 | 2023-08-29 | 成都大学 | 基于复合神经网络模型的脉冲高度估计方法、系统及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN114897004B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414481B (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
CN110276441B (zh) | 一种基于深度学习的梯形重叠核脉冲估计方法 | |
CN107679618A (zh) | 一种静态策略定点化训练方法及装置 | |
CN114611792A (zh) | 一种基于混合CNN-Transformer模型的大气臭氧浓度预测方法 | |
CN113988449B (zh) | 基于Transformer模型的风电功率预测方法 | |
CN116342167B (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
CN111882042B (zh) | 用于液体状态机的神经网络架构自动搜索方法、系统及介质 | |
CN115688784A (zh) | 一种融合字与词语特征的中文命名实体识别方法 | |
CN114897004B (zh) | 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法 | |
CN116433223A (zh) | 基于双域稀疏Transformer模型的变电站设备故障预警方法及设备 | |
CN114238649B (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN114153942B (zh) | 一种基于动态注意力机制的事件时序关系抽取方法 | |
Ma et al. | Estimation of trapezoidal-shaped overlapping nuclear pulse parameters based on a deep learning CNN-LSTM model | |
CN114595341A (zh) | 一种基于知识图谱的复杂问题语义理解方法 | |
CN115424663B (zh) | 一种基于attention的双向表示模型的RNA修饰位点预测方法 | |
CN111813907A (zh) | 一种自然语言问答技术中的问句意图识别方法 | |
CN115034236B (zh) | 一种基于知识蒸馏的中英机器翻译方法 | |
CN110399619A (zh) | 面向神经机器翻译的位置编码方法及计算机存储介质 | |
CN112735604B (zh) | 一种基于深度学习算法的新型冠状病毒分类方法 | |
CN113449524B (zh) | 一种命名实体识别方法、系统、设备以及介质 | |
CN114662659A (zh) | 一种基于多阶段迁移学习策略综合的众包文本集成方法 | |
CN113886593A (zh) | 一种利用指代依赖提升关系抽取性能的方法 | |
CN113257240A (zh) | 一种基于对抗训练的端到端的语音识别方法 | |
CN111951792A (zh) | 一种基于分组卷积神经网络的标点标注模型 | |
CN118098212B (zh) | 一种基于Whisper模型的住院医师临床口试智能评分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |