CN113469263A

CN113469263A - 适于小样本的预测模型训练方法、装置及相关设备

Info

Publication number: CN113469263A
Application number: CN202110789134.6A
Authority: CN
Inventors: 荆戈; 杨华胜; 白洁
Original assignee: Runlian Software System Shenzhen Co Ltd
Current assignee: Runlian Intelligent Technology Co ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-10-01
Anticipated expiration: 2041-07-13
Also published as: CN113469263B

Abstract

本发明实施例公开了适于小样本的预测模型训练方法、装置及相关设备。该方法包括获取终缩聚反应器的特征数据，并根据位置算法对每一个特征数据进行采样位序计算，得到位序序列；将位序序列和特征数据的时间序列进行合并，得到样本序列；通过预设多层自注意力网络对样本序列进行注意力特征提取得到多个单层注意力特征，并对所有单层注意力特征进行拼接，得到全注意力特征；获取终缩聚反应器不同运行状态的全注意力特征，从任意两种运行状态的全注意力特征中提取出标量样本、正样本以及负样本进行组合，得到组合特征；基于全注意力特征和组合特征对预设的故障预测网络进行训练，得到目标故障预测网络。该方法大幅降低对样本数据量的需求。

Description

适于小样本的预测模型训练方法、装置及相关设备

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种适于小样本的预测模型训练方法、装置及相关设备。

背景技术

SSP(聚酯固相缩聚)生产线中，搅拌器作为主反应器的主要组件，体积最大并且结构也是相对最复杂，而且与其他设备是串联关系。如果发生故障，一方面需要停掉整个生产线对其进行故障诊断与维修，从而造成非计划停机的设备闲置损失；另一方面，突发性的非计划停机，也会造成设备中的化学材料反应物质由于反应不充分，而造成原材料浪费。

故障预测现在是工业互联网应用的核心内容，而传统的支持向量机(SVM)，随机森林算法(RF)，梯度下降树(GBDT)等机器学习算法，对高维非线性的模型处理效果不是很理想；卷积神经网络(CNN)考虑不到时间序列数据的前后关系，对结果预测不准确；循环神经网络(RNN)对长时间序列的数据大概率会出现梯度消失的风险；长短期记忆人工神经网络(LSTM)对高纬度小样本数据的分类效果比较差极易出现过拟合的状况。没有考虑到化学材料生产环境，设置具有针对性的算法机理模型，并且作为工业传感器采集的数据，数据存在变化量少，数据样本少的特点。因此迫切需要一种应对数据样本少时的故障预测模型训练方法。

发明内容

本发明实施例提供了一种适于小样本的预测模型训练方法、装置及相关设备，旨在解决现有技术中数据样本数量少时终缩聚反应器故障预测不准确的问题。

第一方面，本发明实施例提供了一种适于小样本的预测模型训练方法，其包括：

获取终缩聚反应器的特征数据，并根据位置算法对每一个所述的特征数据进行采样位序计算，得到位序序列；

获取所述特征数据对应的时间序列，将所述位序序列和时间序列进行合并，得到样本序列；

通过预设多层自注意力网络对所述样本序列进行注意力特征提取得到多个单层注意力特征，并对所有单层注意力特征进行拼接，得到全注意力特征；

获取终缩聚反应器不同运行状态的所述全注意力特征，从任意两种运行状态的所述全注意力特征中提取出标量样本、正样本以及负样本，并将所述标量样本、正样本以及负样本进行组合，得到组合特征；

基于所述全注意力特征和组合特征对预设的故障预测网络进行训练，得到目标故障预测网络。

第二方面，本发明实施例提供了一种适于小样本的预测模型训练装置，其包括：

计算模块，用于获取终缩聚反应器的特征数据，并根据位置算法对每一个所述的特征数据进行采样位序计算，得到位序序列；

合并模块，用于获取所述特征数据对应的时间序列，将所述位序序列和时间序列进行合并，得到样本序列；

提取模块，用于通过预设多层自注意力网络对所述样本序列进行注意力特征提取得到多个单层注意力特征，并对所有单层注意力特征进行拼接，得到全注意力特征；

拼接模块，用于获取终缩聚反应器不同运行状态的所述全注意力特征，从任意两种运行状态的所述全注意力特征中提取出标量样本、正样本以及负样本，并将所述标量样本、正样本以及负样本进行组合，得到组合特征；

训练模块，用于基于所述全注意力特征和组合特征对预设的故障预测网络进行训练，得到目标故障预测网络。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的适于小样本的预测模型训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的适于小样本的预测模型训练方法。

本发明实施例提供了一种适于小样本的预测模型训练方法、装置及相关设备。该方法包括获取终缩聚反应器的特征数据，并根据位置算法对每一个所述的特征数据进行采样位序计算，得到位序序列；获取所述特征数据对应的时间序列，将所述位序序列和时间序列进行合并，得到样本序列；通过预设多层自注意力网络对所述样本序列进行注意力特征提取得到多个单层注意力特征，并对所有单层注意力特征进行拼接，得到全注意力特征；获取终缩聚反应器不同运行状态的所述全注意力特征，从任意两种运行状态的所述全注意力特征中提取出标量样本、正样本以及负样本，并将所述标量样本、正样本以及负样本进行组合，得到组合特征；基于所述全注意力特征和组合特征对预设的故障预测网络进行训练，得到目标故障预测网络。该方法通过对终缩聚反应器的特征数据进行特征增强，得到全注意力特征后进行随机组合，形成组合特征，利用组合特征的构建增加样本数据的数量，大幅降低终缩聚反应器的故障预测模型对样本数据量的需求，保证样本数据量不高时故障预测模型对终缩聚反应器进行故障预测的准确率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的适于小样本的预测模型训练方法一实施例的流程示意图；

图2为本发明实施例提供的适于小样本的预测模型训练方法另一实施例步骤S140的子流程示意图；

图3为本发明实施例提供的适于小样本的预测模型训练装置的示意性框图；

图4为本发明实施例提供的适于小样本的预测模型训练方法中自注意力网络的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1为本发明实施例提供的适于小样本的预测模型训练方法的流程示意图，该方法包括步骤S110～S150。

步骤S110、获取终缩聚反应器的特征数据，并根据位置算法对每一个所述的特征数据进行采样位序计算，得到位序序列；

本实施例中，通过在终缩聚反应器的搅拌机上搅拌箱安装传感器或自动控制(DCS)系统，从传感器或从自动控制(DCS)系统上提取终缩聚反应器上获取终缩聚反应器的特征数据。其中，特征数据至少包括终缩聚反应器中搅拌器的震动、设备内部的温度、噪音、输入扭矩和输出扭矩等。为了加快计算速度，可以对提取的特征数据进行批标准化(BatchNormalization)操作。为了减少计算层数，并且根据特征数据的采集时间排序，因此特征数据为一个时间序列，利用位置算法对每一个特征数据进行采样位序计算，得到特征数据的位序序列。采样位序包括奇数位和偶数位，具体的，位置算法如下：

在同一运行状态中处于偶数位的特征数据按以下公式计算:

p＝sin(pos/1000²ⁱ)，

在同一运行状态中处于奇数位的特征数据按以下公式计算:

p＝cos(pos/1000²ⁱ)

其中，p表示数据的采样位序，pos表示当前时段在整个采集周期内的位置，i表示同一时间内采集数据向量内当前数据所处的位置。

步骤S120、获取所述特征数据对应的时间序列，将所述位序序列和时间序列进行合并，得到样本序列；

本实施例中，为了获取特征数据的相对位置和绝对位置，对所获得的位置序列和特征数据对应的时间序列进行求和，得到具有相对位置信息和绝对位置信息的样本序列。

步骤S130、通过预设多层自注意力网络对所述样本序列进行注意力特征提取得到多个单层注意力特征，并对所有单层注意力特征进行拼接，得到全注意力特征；

本实施例中，通过预设多层自注意力网络对样本序列进行注意力特征提取，每一层自注意力特征网络得到一个单层注意力特征，最后将多个单词注意力特征进行拼接，得到样本序列的全注意力特征。

例如，使用8层自注意力网络，以第一层为例，存在：

K₁＝XW_k1，

V₁＝XW_v1，

Q₁＝XW_q1，

其中，X表示样本序列，K₁、V₁、Q₁表示单层自注意力网络的系数矩阵，W_k1、V_k1、Q_k1表示系数矩阵的权重矩阵。

接着可以得到单层自注意力特征：

其中，||d||为向量的模。需要指的的是，由于采集的特征数据量值变化较大，为了保证数据的平稳因而需要除以向量的模。

按第一层的计算方法可以依次得到其余7层自注意力网络的自注意力特征提取结果(单层注意力特征)Z₂至Z₈。

接着对8个自注意力网络的单层注意力特征进行拼接，得到自注意力机制的最终结果：

Z＝concate(Z₁，Z₂，Z₃，Z₄，Z₅，Z₆，Z₇，Z₈)，其中concate表示矩阵拼接函数。

进一步的，为了加快计算速度，可以对Z进行归一化处理，则有：

其中，z为全注意力特征，m为z的列数，

为归一化结果，δ为方差，ε为极小值。

此外，为了减少梯度消失需要，对归一化后的全注意力特征进行变换：

为了方便实现多层自注意力机制，在残差处理完成后，加入了一个前馈神经网络，将样本序列的维数大小转换成特征数据的维数大小，激活函数为relu，表达式如下：

其中，

为转换后的矩阵的值，z_i为样本序列的值，W₁、W₂为权重矩阵，b₁、b₂为偏置项。

需要知道的是，如图4的网络重复进行N次，得到特征数据的全注意力特征，N的值与自注意力网络的层数一致。

步骤S140、获取终缩聚反应器不同运行状态的所述全注意力特征，从任意两种运行状态的所述全注意力特征中提取出标量样本、正样本以及负样本，并将所述标量样本、正样本以及负样本进行组合，得到组合特征；

本实施例中，获取终缩聚反应器不同运行状态的全注意力特征，运行状态如终缩聚反应器正常运行状态、亚正常运行状态及故障状态。随机从不同运行状态中选择两种运行状态，在两种运行状态中的全注意力特征中选取标量样本、正样本和负样本，并基于标量样本、正样本和负样本进行组合，得到组合特征，将组合特征也作为训练网络的数据特征，增加特征数据的特征数量。

如图2所示，在一实施例中，步骤S140包括：

步骤S141、获取终缩聚反应器不同运行状态的所述全注意力特征，得到至少三个运行状态的全注意力特征；

步骤S142、随机从所有全注意力特征中选择两种运行状态的全注意力特征，从其中一个全注意力特征中随机选取不同时间的两个全注意力特征分别作为所述标量样本和正样本，从另一个全注意力特征中随机选取一个全注意力特征作为所述负样本。

本实施例中，获取终缩聚反应器不同运行状态的所述全注意力特征，得到至少三个运行状态的全注意力特征；随机从所有全注意力特征中选择两种运行状态的全注意力特征，从其中一个全注意力特征中随机选取不同时间的两个全注意力特征分别作为标量样本和正样本，从另一个全注意力特征中随机选取一个全注意力特征作为负样本。

例如，从三种运行状态的全注意力特征中选取正常运行状态和故障状态的全注意力特征，接着随机从正常运行状态中选择一个时间对应的全注意力特征作为标量样本，再选取另一个时间对应的全注意力特征作为正样本；接着从故障状态中选取一个时间对应的全注意力特征作为负样本。

在标量样本、正样本以及负样本的选择完成后，使用二范式计算样本间的距离，具体如下：

其中，x⁺表示正样本，表示负样本，x^a表示标量样本，d⁺为所述标量样本与正样本之间的距离，d^-为所述标量样本与负样本之间的距离。

步骤S150、基于所述全注意力特征和组合特征对预设的故障预测网络进行训练，得到目标故障预测网络。

本实施例中，基于全注意力特征和组合特征对预设的故障预测网络进行训练，得到目标故障预测网络。其中，预设损失函数，通过计算损失函数对故障预测网络进行反向传播，优化整个故障预测网络，损失函数如下：

Loss(x^a,x⁺,x^-)＝max{0,d⁺+a-d^-}，

其中，x⁺表示正样本，表示负样本，x^a表示标量样本，d⁺为所述标量样本与正样本之间的距离，d^-为x^-所述标量样本与负样本之间的距离，a为预设参数。

进一步的，通过预设损失函数优化整个故障预测网络后，测试集中的向量对每个分类向量求二范式距离，距离值最小即为该判定值，如果距离值量级一致，则为新的故障类型。最后根据预设误差函数检验所述最终预测值与实际值的误差，其中，所述误差函数如下：

其中，X为误差值，

为最终预测值，y_i为实际值。

该方法通过对终缩聚反应器的特征数据进行特征增强，得到全注意力特征后进行随机组合，形成组合特征，利用组合特征的构建增加样本数据的数量，大幅降低终缩聚反应器的故障预测模型对样本数据量的需求，保证样本数据量不高时故障预测模型对终缩聚反应器进行故障预测的准确率。

如图3所示，适于小样本的预测模型训练装置100包括计算模块110、合并模块120、提取模块130、拼接模块140、训练模块150。

计算模块110，用于获取终缩聚反应器的特征数据，并根据位置算法对每一个所述的特征数据进行采样位序计算，得到位序序列；

合并模块120，用于获取所述特征数据对应的时间序列，将所述位序序列和时间序列进行合并，得到样本序列；

提取模块130，用于通过预设多层自注意力网络对所述样本序列进行注意力特征提取得到多个单层注意力特征，并对所有单层注意力特征进行拼接，得到全注意力特征；

拼接模块140，用于获取终缩聚反应器不同运行状态的所述全注意力特征，从任意两种运行状态的所述全注意力特征中提取出标量样本、正样本以及负样本，并将所述标量样本、正样本以及负样本进行组合，得到组合特征；

训练模块150，用于基于所述全注意力特征和组合特征对预设的故障预测网络进行训练，得到目标故障预测网络。

在一实施例中，拼接模块140包括：

获取单元，用于获取终缩聚反应器不同运行状态的所述全注意力特征，得到至少三个运行状态的全注意力特征；

选取单元，用于随机从所有全注意力特征中选择两种运行状态的全注意力特征，从其中一个全注意力特征中随机选取不同时间的两个全注意力特征分别作为所述标量样本和正样本，从另一个全注意力特征中随机选取一个全注意力特征作为所述负样本。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的适于小样本的预测模型训练方法。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如上所述的适于小样本的预测模型训练方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种适于小样本的预测模型训练方法，其特征在于，包括：

2.根据权利要求1所述的适于小样本的预测模型训练方法，其特征在于，所述位置算法如下：

在同一运行状态中处于偶数位的特征数据按以下公式计算:

p＝sin(pos/1000²ⁱ)，

在同一运行状态中处于奇数位的特征数据按以下公式计算:

p＝cos(pos/1000²ⁱ)

3.根据权利要求1所述的适于小样本的预测模型训练方法，其特征在于，在所述通过预设多层自注意力网络对所述样本序列进行注意力特征提取得到多个单层注意力特征，并对所有单层注意力特征进行拼接，得到全注意力特征之后，还包括：

对所述全注意力特征进行归一化处理，归一化计算方式如下：

其中，z为全注意力特征，m为z的列数，

为归一化结果，δ为方差，ε为极小值。

4.根据权利要求1所述的适于小样本的预测模型训练方法，其特征在于，所述多层注意力网络中设有前馈神经网络，所述前馈神经网络转换表达式如下：

其中，

为转换后的矩阵的值，z_i为所述样本序列的值，W₁、W₂为权重矩阵，b₁、b₂为偏置项。

5.根据权利要求1所述的适于小样本的预测模型训练方法，其特征在于，所述获取终缩聚反应器不同运行状态的所述全注意力特征，从任意两种运行状态的所述全注意力特征中提取出标量样本、正样本以及负样本，包括：

获取终缩聚反应器不同运行状态的所述全注意力特征，得到至少三个运行状态的全注意力特征；

随机从所有全注意力特征中选择两种运行状态的全注意力特征，从其中一个全注意力特征中随机选取不同时间的两个全注意力特征分别作为所述标量样本和正样本，从另一个全注意力特征中随机选取一个全注意力特征作为所述负样本。

6.根据权利要求5所述的适于小样本的预测模型训练方法，其特征在于，在所述将所述标量样本、正样本以及负样本进行组合，得到组合特征之后，包括：

使用二范式计算所述正样本和负样本的距离，具体如下：

7.根据权利要求1所述的适于小样本的预测模型训练方法，其特征在于，在所述基于所述全注意力特征和组合特征对预设的故障预测网络进行训练，得到目标故障预测网络之后，包括：

预设损失函数，通过计算所述损失函数对所述故障预测网络进行反向传播，优化所述故障预测网络；

其中所述损失函数表达式如下：

Loss(x^a,x⁺,x^-)＝max{0,d⁺+a-d^-}，

8.一种适于小样本的预测模型训练装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的适于小样本的预测模型训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的适于小样本的预测模型训练方法。