CN116306832A - 一种用于多维序列数据的多模生成对抗神经网络建模方法及装置 - Google Patents

一种用于多维序列数据的多模生成对抗神经网络建模方法及装置 Download PDF

Info

Publication number
CN116306832A
CN116306832A CN202310285116.3A CN202310285116A CN116306832A CN 116306832 A CN116306832 A CN 116306832A CN 202310285116 A CN202310285116 A CN 202310285116A CN 116306832 A CN116306832 A CN 116306832A
Authority
CN
China
Prior art keywords
data
training
model
module
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310285116.3A
Other languages
English (en)
Inventor
陈新
许韶华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310285116.3A priority Critical patent/CN116306832A/zh
Publication of CN116306832A publication Critical patent/CN116306832A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于多维序列数据的多模生成对抗网络建模方法及装置。包括将原始观察数据进行规范化整理,得到形式统一的规范观察数据,基于规范观察数据组织用于多模生成对抗网络模型训练的例子,设计基础模块的结构以及训练模式,建立多模生成对抗网络模型等步骤。本模型适用于对存在部分指标数据缺失的序列数据进行学习,减少残缺数据样本的浪费。同时在特征空间中对模型进行训练,降低了数据维度和模型训练的复杂度,避免过拟合现象的出现,在模型的训练中,不断更新同一位置的多种可能的特征数据,增加了潜在可用于训练的例子;相比于传统的生成对抗网络,需要使用大量的正样本用于模型训练。

Description

一种用于多维序列数据的多模生成对抗神经网络建模方法及 装置
技术领域
本发明属于计算方法领域,是一种用于多维序列数据的多模生成对抗网络建模方法及装置。
背景技术
序列是生活中常见的一种信息集合形式,如自然语言、语音以及时间序列等。序列是由位置所构成,每个位置具有多个可观察的指标,且位置之间具有相关性,而非独立分布。对多维序列数据建模,可以解决日常生活及工业生产中遇到的大多数问题,例如股票市值的趋势分析、气象状态的实时监控以及发酵过程的产量预测等。因此建立一种对多维序列数据建立神经网络模型的方法,实现对序列变化内在机制的学习以及观察指标的预测,成为人工智能领域对序列研究的一个重要方向。
本专利以生物发酵过程的模拟与预测为应用场景对所提出的建模方法进行阐述。生物发酵过程是由数个时间点构成的时间序列,在发酵周期的各个时间点采集一组固定指标,常见的指标包括转录组、代谢组以及发酵工艺参数等,统称为系统状态数据。在实际生产中,由于大量不可控的因素,如操作失误、仪器故障和检测失败等原因,真实的发酵时序数据不可避免地含有缺失时间点或者缺失指标。其次,发酵过程的系统状态变化通常具有非线性特征,指标之间往往是耦合相关的,并且数据维度的数量远远高于样本的绝对数量。
利用人工神经网络可以对多维复杂的非线性体系进行深度建模,获得准确度较高的预测模型。目前的时序模型首先需要对缺失数据进行预处理,通过对连续多个时间点的系统状态进行学习,从而对下一个时间点进行预测。这种方法通常需要大量的例子进行学习训练,而在实际生产中,往往无法获得如此庞大且完整的样本数据,因此其工业应用价值不高。此外,此类模型对于时间点特征数据的提取以及时序模型的训练是设置在独立的阶段或框架下进行的,所提取的特征数据不一定是适用于时序建模的最优表征,从而无法对复杂的发酵体系精确建模。
综上所述,目前利用人工神经网络对多维序列数据的建模具有以下不足:
1)实际应用场景下能够完成采集及多种指标检测的序列样本数少;
2)真实样本中部分指标数据缺失的序列数据无法被学习,造成数据浪费;
3)观察数据的维度过大,导致模型计算复杂度增高,容易产生过拟合现象;
4)独立于序列模型训练的特征提取过程,忽略了不同序列位置之间的相互关系,所获得的特征不一定是适用于序列建模的最优表征;
5)多阶段框架下的模型训练过程步骤繁琐、计算过程复杂,并且会使得误差累积,导致模型预测性能较差。
为了解决上述存在的问题,本专利提出了一种具有全新机制的对多维序列数据建模的多模生成对抗神经网络:该模型由三个子模块所构成,分别为数据发生器(F)、生成器(G)和鉴别器(D)。与传统的生成对抗网络不同,本专利所提出的模型不使用随机噪声作为起始输入,而是采用多模式生成,即每个序列位置(如时间点)对应一个数据发生器(F),由发生器获得各个序列位置的特征数据作为输入。利用数据发生器(F)与鉴别器(D)组成的发生-鉴别嵌合模块可以实现对于序列位置特征数据的提取以及鉴别器的训练;而由数据发生器(F)、生成器(G)及鉴别器(D)所构成的生成-鉴别嵌合模块可以实现对后一个序列位置特征数据的生成以及生成器的训练。通过交替对两个嵌合结构进行训练和学习,获得在最优特征表征下的序列变化机制学习模型。该模型不仅实现了对缺失值的插值、特征数据的最优表征以及生成器的训练在同一框架下完成,并在训练中对同一序列位置引入了多种可能的特征表示,增加了潜在的可用于训练的例子,提高了模型的准确度。
基于上述的建模方法对发酵过程构建神经网络模型,根据当前的系统状态数据,准确预测一个单位时间后的系统状态,不仅可以降低工业发酵成本,提高产物产量,还可以指导对工程菌株的研究与改造工作,获得更好的产业收益。
发明内容
本发明公开了一种用于多维序列数据的多模生成对抗网络建模方法及装置,能够在特征空间内利用多模生成对抗网络模型对多维序列数据变化进行建模。以下以生物发酵的时序建模为应用场景详述本发明所提供的技术方案:
一种用于多维序列数据的多模生成对抗网络建模方法,包括以下步骤:
1)将原始观察数据进行规范化整理,得到形式统一的规范观察数据;
2)基于规范观察数据组织用于多模生成对抗网络模型训练的例子;
3)设计基础模块的结构以及训练模式,建立多模生成对抗网络模型;
4)利用步骤2)中的训练例子对步骤3)中建立的多模生成对抗网络模型进行训练,得到模型的参数矩阵;
5)利用步骤2)中的训练例子,评估步骤3)所设计的多模生成对抗网络模型结构以及步骤4)训练过程所更新的参数对模型精度的影响,选取不同结构与参数组合下最优的结果作为最终的发酵时序模型;
6)基于最终的发酵时序模型,使用测试例子来评估模型的准确性,并对真实应用场景下的系统状态变化做出预测;
所述的步骤3)中的多模生成对抗网络模型具有如下特征:
其结构为一个包含三种基础模块的神经网络:分别为数据发生器(F)、生成器(G)和鉴别器(D);其中每个时间点对应一个数据发生器(F),为一个具有固定数值起始单元的单层或多层的神经网络结构。由数据发生器(F)和鉴别器(D)构成发生-鉴别嵌合模块(F-D),用于每个时间点特征数据的提取以及鉴别器(D)的训练;由数据发生器(F)、生成器(G)和鉴别器(D)构成生成-鉴别嵌合模块(F-G-D),用于对单位时间后特征数据的生成以及生成器的训练,在发生-鉴别嵌合模块(F-D)和生成-鉴别嵌合模块(F-G-D)两种模式的交替训练下,能够实现在最优的特征空间内对发酵时序模型的训练。
作为进一步地改进,本发明所述的基础模块结构按如下方式建立:每个时间点对应一个数据发生器(F),输入层为一个具有固定数值的神经元,输出层神经元节点数为特征数据维数(为了方便神经网络模型的矩阵运算,所有时间点的数据发生器(F)将整合成1个以数量矩阵作为输入的模式进行运算);生成器(G)的输入层和输出层的神经元节点数均为特征数据维数;鉴别器(D)的输入层神经元节点数为特征数据维数,输出层神经元节点数为观察数据维数。所有模型结构采用全连接结构。
作为进一步地改进,本发明所述的步骤1)具体为:检测获得多个批次的多个时间点的多维观察数据,每个批次包括一组时间点,每个时间点的观察数据包括一组指标,每个指标的观察数据为一个具体的值;将多维时间序列观察数据整理为四元组的组织形式,即批次、时间、指标、值。根据现有数据的总时间点数建立对应的数量矩阵,其中数量矩阵中j列j行的数值代表第j个时间点的数据发生器(F)的输入数据。
作为进一步地改进,本发明所述的步骤2)中组织的训练例子根据不同训练阶段分为2组。首先在发生-鉴别嵌合模块(F-D)训练时,将每个时间点的数据发生器(F)与对应的系统状态观察数据(以四元组形式表示)作为1个训练例子。在嵌合模块的网络参数完成更新后,可以获得所有时间点的特征数据;然后对生成-鉴别嵌合模块(F-G-D)进行训练,将间隔一个单位时间的两个时间点的数据组织为一个例子,其中前一个时间点采用对应的数据发生器(F),后一个时间点采用系统状态的观察数据(以四元组形式表示)。
作为进一步地改进,本发明所述的步骤4)的训练方式具体为:
4.1)本模型由两步训练构成:首先由发生-鉴别嵌合模块(F-D)对所有时间点的例子计算模型损失;将训练例子中的数据发生器(F)输入到该训练结构中,通过前向传播得到网络输出数据,由网络输出数据与对应的观察数据计算相应的损失值。如将Ta时间点的数据发生器
Figure BDA0004139506370000041
输入到该嵌合模块中得到网络输出数据/>
Figure BDA0004139506370000042
与Ta时间点的观察数据/>
Figure BDA0004139506370000043
可得损失值LossF-D,公式为/>
Figure BDA0004139506370000044
在模型损失值的基础上,通过反向传播计算梯度并使用梯度下降法对(F-D)嵌合模块中的网络权值参数(为表示方便,网络权重参数和网络偏置参数统称为网络权值参数)进行更新。
4.2)在完成数据生成器(F)和鉴别器(D)的权值参数更新后,则进行第二步,即生成-鉴别嵌合模块(F-G-D)的训练。固定鉴别器(D)的网络权值参数,计算单位时间后的预测值与真实数据间的损失值。如将Ta时间点的数据发生器
Figure BDA0004139506370000045
输入到(F-G-D)模块中得到网络输出数据/>
Figure BDA0004139506370000046
与Ta+1时间点的观察数据/>
Figure BDA0004139506370000047
可得损失值LossF-G-D,公式为
Figure BDA0004139506370000048
Figure BDA0004139506370000049
在模型损失值的基础上,通过反向传播计算梯度并使用梯度下降法对(F-G-D)嵌合模块中的网络权值参数进行更新,该过程会对第一步所更新的/>
Figure BDA0004139506370000051
模块的权值参数进行再次更新,使其所提取特征更适用于时序建模。
4.3)分别对模型中的两个嵌合模块(F-D)和(F-G-D)计算相应的损失值,判断是否每个嵌合模块的损失值都收敛,若均已收敛,则进行下一步,否则继续步骤4.1)、4.2)、4.3),直至两个嵌合模块的损失值均收敛,得到结果模型。
作为进一步地改进,本发明所述的步骤5)具体指从模型的超参数层面对建模过程进行优化,具体的超参数包括:特征维数;网络模块的结构参数(数据发生器、生成器、鉴别器网络的每层节点数,隐藏层数量);梯度下降方法的学习率;每次训练投入训练数据例子数;单个嵌合模块的训练次数;模型交替训练的循环次数;采用上述超参数的不同组合构建相应的神经网络并进行训练,得到新的结果模型;评估不同超参数组合下的结果模型对观察数据的拟合精度,选取最优模型。
作为进一步地改进,本发明所述的步骤6)中利用所构建的时序模型进行预测的方式为:
6.1)将起始预测的Ta时间点的观察数据进行规范化整理,固定步骤5)中获得的最优模型中鉴别器(D)和生成器(G)的网络结构与网络参数,将Ta时间点的数据发生器
Figure BDA0004139506370000052
输入到(F-D)嵌合模块中,与Ta时间点的观察数据/>
Figure BDA0004139506370000053
可得损失值LossF-D,公式为
Figure BDA0004139506370000054
通过反向传播计算梯度并使用梯度下降法对/>
Figure BDA0004139506370000055
模块中的网络权值参数进行更新直至损失值收敛。
6.2)在完成对Ta时间点的数据发生器
Figure BDA0004139506370000056
模块的网络参数更新后,将其输入至(F-G-D)嵌合模块中,获得Ta+1时间点的系统状态的预测数据/>
Figure BDA0004139506370000057
本发明还公开了一种用于多维序列数据的多模生成对抗网络建模装置,包括以下单元:
获取单元:用于将原始观察数据进行规范化整理,得到形式统一的规范观察数据。
组织单元:用于将获取的规范观察数据组织成用于多模生成对抗网络模型训练的例子。
构建单元:用于设计基础模块的结构以及训练模式,建立多模生成对抗网络模型。
训练单元:用于利用训练例子对建立的多模生成对抗网络模型进行训练,得到模型的参数矩阵。
优化单元:用于利用训练例子,评估所设计的多模生成对抗网络模型结构以及训练过程所更新的参数对模型精度的影响,选取不同结构与参数组合下最优的结果作为最终结果模型。
预测单元:基于最终优化的结果模型,利用任意一个序列位置的多维观察数据进行训练,获得该位置的数据发生器;并对下一个序列位置的多维观察数据进行预测,实现对多维参数、多位置间隔的序列预测任务。
所设计的多模生成对抗神经网络结构具有如下特征:
该结构主要由数据发生器(F)、生成器(G)和鉴别器(D)三个基础模块所构成。其中每个序列位置(如时间点)对应一个数据发生器,由数据发生器(F)与鉴别器(D)组成的发生-鉴别嵌合模块可以实现对于序列位置特征数据的提取以及鉴别器的训练;由数据发生器(F)、生成器(G)及鉴别器(D)所构成的生成-鉴别嵌合模块可以实现对后一个序列位置特征数据的生成以及生成器的训练。在两种模式的交替训练下,能够实现在最优的特征空间内对序列变化机制的学习。
本发明的有益效果如下:
1)本模型适用于对存在部分指标数据缺失的序列数据进行学习,减少残缺数据样本的浪费。同时在特征空间中对模型进行训练,降低了数据维度和模型训练的复杂度,避免过拟合现象的出现。
2)每个序列位置对应一个数据发生器(F),在同一框架下由当前位置与后一个位置的多维观察数据共同训练获得,关联了相邻位置间的相关性,提高了模型的准确性和拟合精度。
3)在模型的训练中,不断更新同一位置的多种可能的特征数据,增加了潜在可用于训练的例子;相比于传统的生成对抗网络,需要使用大量的正样本用于模型训练,本模型可适用于小样本的应用场景,如生物发酵等。
4)在预测任务中,基于任意序列位置的多维观察数据,可获得相应的数据发生器(F),通过连续多次生成器(G)的计算以及鉴别器(D)的转化,可以预测多个位置间隔后的多维观察数据。
5)本发明的多模生成对抗网络结构与训练方式可以实现系统内多维参数、多序列位置间隔的预测任务。
附图说明
图1为多模生成对抗网络模型的训练步骤示意图;
图2为基础模块的结构示意图;
图3为多模生成对抗网络模型的结构示意图。
具体实施方式
本发明设计的多模生成对抗网络模型包含三个基础模块:数据发生器(F)、生成器(G)和鉴别器(D),可用于模拟和预测生物发酵过程的变化机制,指导工业发酵的优化以及工程菌株的改造。本发明公开的方法通过以下步骤对生物发酵体系的过程建模。图1为模型的训练步骤示意图。
1.整理时序数据格式为四元组织形式
生物发酵体系的指标包括指征菌种生长状态的指标和发酵工艺参数。菌种生长状态可以通过多种组学技术表征(如转录组、蛋白组、代谢组等),发酵工艺参数可以采用在线检测设备进行实时采集。发酵过程是由多个时间点组成的时间序列;因此,这些发酵时序数据可以整理为这样的四元组织形式:批次、时间、指标、值。发酵时序数据分为训练数据和测试数据。训练数据用于构建模型,测试数据用于评估模型的精度。
设训练数据和测试数据均为以阿卡波糖为目标产物的放线菌发酵过程中测量得到的多个批次、多个时间点的代谢组数据。假设有(M+U)个批次(例如M=7,U=3),每个批次有(K+1)个时间点(例如K=10,每个时间点分别记为T1,T2,T3…T11)。
对(M+U)个批次的放线菌发酵过程中每个批次对应的(K+1)个时间点的样本,通过质谱测定每个样本中的各类化合物的丰度,即发酵代谢组数据。选定其中q个与阿卡波糖合成相关的化合物,并提取各个时间点相应的化合物丰度,作为该时间点生物发酵系统状态的观察数据,并将质谱没有检测到的化合物丰度记为缺失。记在这批样本中,其中第2个批次的T3时间点和第3批次的T2时间点,由于样本测定的实验失败,造成数据缺失。
将(M+U)个批次的放线菌发酵数据分为训练数据和测试数据,其中有M个批次为训练数据批次,有U个批次为测试数据批次。因此,所有数据共有(M+U)个批次,每个批次有(K+1)个时间点(T1,T2,T3…TK+1),每个时间点有q维指标数据值,其中第m个批次中第p个时间点的q维数据表示为
Figure BDA0004139506370000081
2.构建多模生成对抗神经网络模型
图3为本专利所设计的多模生成对抗神经网络模型,该模型由3个基础模块所构成,分别为数据发生器(F)、生成器(G)以及鉴别器(D),三个模块均为由输入层、隐藏层及输出层组成的全连接神经网络,结构示意图如图2所示。
本专利的特点之一是多模态,即每个时间点对应一个数据发生器(F),具有不同的神经网络权值参数。F模块的输入为一个具有固定值的神经元,输出层节点数为特征数据维数e,隐藏层的节点数均为s1、隐藏层层数为f1。为了方便神经网络模型的矩阵运算,所有时间点的数据发生器(F)将整合成一个以数量矩阵作为输入的模式进行运算。如放线菌发酵训练数据有M个批次,每个批次有(K+1)个时间点,所以数据总共有M(K+1)个时间点,根据该结果可以构建数量矩阵IZ,其中Z=M(K+1)。数量矩阵中j列j行的数值代表第j个时间点的数据发生器(F)的输入数据
Figure BDA0004139506370000083
其中第m个批次中第p个时间点的数据发生器(F)的输入数据表示为/>
Figure BDA0004139506370000082
鉴别器(D)的输入层的节点数为特征数据维数e、隐藏层的节点数均为s2、隐藏层层数为f2、输出层的节点数为观察数据维数r。生成器(G)的输入层与输出层的节点数均为e,隐藏层的节点数均为s3,隐藏层层数为f3
该模型包含两种嵌合模块,分别参与不同的训练模式:由数据发生器(F)与鉴别器(D)所构成的发生-鉴别嵌合模块以及由数据发生器(F)、生成器(G)和鉴别器(D)所构成的生成-鉴别嵌合模块。D模块以及G模块的网络权值参数分别以WD,WG进行表示。而多模的F模块由于采用数量矩阵的输入模式,因此也可用单个WF进行表示。对训练结构中的F模块、D模块以及G模块初始的权值参数设置为相同随机值:
Figure BDA0004139506370000091
3.组织发生-鉴别嵌合模块(F-D)的训练用例
将M个批次的放线菌发酵数据作为训练数据,对任一批次的任一时间点的数据发生器(F)和多维指标的观察数据(四元组织形式)组织为一个例子,Ta表示任一时间点,实例训练数据被组织为:
批次1例子集合D1
Figure BDA0004139506370000092
批次2例子集合D2
Figure BDA0004139506370000093
批次3例子集合D3
Figure BDA0004139506370000094
批次m例子集合Dm
Figure BDA0004139506370000095
其中4≤m≤M-1,m∈N*
批次M例子集合DM:
Figure BDA0004139506370000096
再将各个批次中的例子汇总合并,并重新组织为:
Figure BDA0004139506370000097
4.计算发生-鉴别嵌合模块(F-D)的损失值
将集合DataF-D:
Figure BDA0004139506370000098
中的时间点的数据发生器/>
Figure BDA0004139506370000099
输入到F-D嵌合模块中,得到输出数据/>
Figure BDA00041395063700000910
其中a≤K+1。/>
Figure BDA00041395063700000911
与Ta时间点多维观察数据/>
Figure BDA00041395063700000912
可计算得损失值LossF-D,计算公式为/>
Figure BDA0004139506370000101
其中对缺失观察值的系统状态参数,其损失值均设定为0。
5.通过反向传播更新F-D嵌合模块的网络权值参数
基于步骤4定义的损失函数,F-D嵌合模块采用反向传播算法来计算梯度,并使用SGD随机梯度下降方法对数据发生器(F)和解码器(D)的权值参数进行多次循环更新。
具体的梯度计算公式为:
Figure BDA0004139506370000102
Figure BDA0004139506370000103
6.组织生成-鉴别嵌合模块(F-G-D)的训练用例
在完成F-D嵌合模块的损失值计算以及网络权值参数的更新后,固定鉴别器(D)的网络结构,然后进行生成-鉴别模式的训练。
将同一批次内任一时间点的数据发生器(F)以及单位时间之后多维指标的观察数据组织为一个例子,Ta表示任一时间点,其中TK+1时间点没有对应的单位时间之后的观察数据,记作YNA,实例训练数据被组织为:
批次1例子集合DG1
Figure BDA0004139506370000104
批次2例子集合DG2
Figure BDA0004139506370000105
批次3例子集合DG3
Figure BDA0004139506370000106
批次m例子集合DGm
Figure BDA0004139506370000107
其中4≤m≤M-1,m∈N*
批次M例子集合DGM
Figure BDA0004139506370000108
再将各个批次中的例子汇总合并,并重新组织为:
Figure BDA0004139506370000109
7.计算生成-鉴别嵌合模块(F-G-D)的损失值
将集合DataF-G-D:
Figure BDA0004139506370000111
中的时间点的数据发生器/>
Figure BDA0004139506370000112
输入到F-G-D嵌合模块中,得到输出数据/>
Figure BDA0004139506370000113
其中a≤K+1。/>
Figure BDA0004139506370000114
与Ta+1时间点的观察数据/>
Figure BDA0004139506370000115
可计算得损失值LossF-G-D,计算公式为
Figure BDA0004139506370000116
其中所有批次TK+1时间点的特征损失值均设定为0。
8.通过反向传播更新F-G-D嵌合模块的网络权值参数
基于步骤7定义的损失函数,F-G-D嵌合模块采用反向传播算法来计算梯度,并使用SGD随机梯度下降方法对数据发生器(F)和生成器(G)的网络权值参数进行更新。
具体的梯度计算公式为:
Figure BDA0004139506370000117
Figure BDA0004139506370000118
9.双模式循环交替训练优化
采用以上方法进行梯度计算,交替对F-D和F-G-D两个嵌合模块的网络权值参数进行更新,完成后结束本次训练,进入下一次循环训练计算。
设置循环交替训练的次数为H,每次训练中对F-D嵌合模块的权值参数更新的次数为N,对F-G-D嵌合模块的权值参数更新的次数为V。在第t次循环训练中,F、D和G模块的起始权值参数为第t-1次循环训练所更新的权值参数,训练流程为:
在第h次交替训练时,发生-鉴嵌合模块的第n次训练中,F和D模块的更新梯度分别为:
Figure BDA0004139506370000119
其中,α表示SGD梯度下降方法的学习率;/>
Figure BDA00041395063700001110
分别表示第n-1次训练后F和D模块所更新的权值参数,/>
Figure BDA00041395063700001111
表示第n次训练后对应模块所更新的权值参数。
在生成-鉴别嵌合模块训练时,第v次训练中F和G模块的更新梯度分别为:
Figure BDA0004139506370000121
其中,α表示SGD梯度下降方法的学习率;/>
Figure BDA0004139506370000122
分别表示第v-1次训练后F和G模块所更新的权值参数,/>
Figure BDA0004139506370000123
表示第v次训练后对应模块所更新的权值参数。
10.在全部训练结构损失收敛后得到结果模型
在第9步的每次循环交替训练后,向模型中输入全部训练例子,按照第4步的方式,可以得到F-D嵌合模块的全部数据的损失值;按照第7步的方式,可以得到F-G-D嵌合模块的全部数据的损失值。具体计算为:
计算F-D嵌合模块的损失值,即
Figure BDA0004139506370000124
Figure BDA0004139506370000125
计算F-G嵌合模块的损失值,即
Figure BDA0004139506370000126
Figure BDA0004139506370000127
判断LossF-D和LossF-G-D是否都收敛,如果是,则进行下一步,否则继续步骤9的循环优化计算,直至LossF-D和lossF-G-D都收敛。记作训练过程经历H次交替循环训练后模型的整体损失收敛。
11.调整模型的超参数,优化结果模型
步骤10完成训练得到结果模型后,调整模型的超参数:特征维数e,网络模块的结构参数(数据发生器的隐藏层的节点数s1、隐藏层层数f1;鉴别器的隐藏层的节点数s2,隐藏层层数为f2;生成器的隐藏层的节点数s3,隐藏层层数为f3;),SGD随机梯度下降方法的学习率α,交替循环训练的次数H,每次循环训练中单个嵌合模块的权值参数的更新次数(F-D嵌合模块的更新次数N以及F-G-D嵌合模块的更新次数V);单次循环训练投入训练例子数。通过对超参数的组合调整后,重复步骤4-10直至网络Loss差值收敛,终止训练。
12.实现时序数据预测并验证预测精度
基于步骤11超参数优化后得到的最优组合,获得最终的发酵时序模型,可以实现时序数据的预测:
将应用案例中第一步所述的U个批次的放线菌发酵数据作为测试数据,每个批次有K+1个时间点(T1,T2,T3…TK+1),每个时间有q个指标,将测试数据根据步骤1中的四元组织形式,对同一批次内相隔单位时间的两个时间点的系统状态数据组织为一个例子,Ta和Ta+1分别表示为例子的相邻时间点,其中TK+1时间点没有对应的单位时间之后的系统状态数据,因此不纳入测试数据集,实例测试数据被组织为:
批次1例子集合D1
Figure BDA0004139506370000131
批次2例子集合D2
Figure BDA0004139506370000132
批次3例子集合D3
Figure BDA0004139506370000133
批次m例子集合Dm
Figure BDA0004139506370000134
其中4≤m≤U-1,m∈N*
批次例子集合DU
Figure BDA0004139506370000135
再将各个批次中的例子汇总合并,并重新组织为:
Figure BDA0004139506370000136
其中Test中测试例子的总数量记为T。
首先将Ta时间点的数据发生器
Figure BDA0004139506370000137
和系统状态数据/>
Figure BDA0004139506370000138
通过F-D嵌合模块完成对F模块的训练,再经由F-G-D嵌合模块输出单位时间后Ta+1的预测系统状态数据/>
Figure BDA0004139506370000139
并进行精度评估:
模型的预测精度为:
Figure BDA00041395063700001310
此外,通过串联生成器(G)进行连续计算可用于多个单位时间间隔的生物发酵体系中状态改变的精准预测。
本发明还公开了一种用于多维序列数据的多模生成对抗网络建模装置,包括以下单元:
获取单元:用于将原始观察数据进行规范化整理,得到形式统一的规范观察数据。
组织单元:用于将获取的规范观察数据组织成用于多模生成对抗网络模型训练的例子。
构建单元:用于设计基础模块的结构以及训练模式,建立多模生成对抗网络模型。
训练单元:用于利用训练例子对建立的多模生成对抗网络模型进行训练,得到模型的参数矩阵。
优化单元:用于利用训练例子,评估所设计的多模生成对抗网络模型结构以及训练过程所更新的参数对模型精度的影响,选取不同结构与参数组合下最优的结果作为最终结果模型。
预测单元:基于最终优化的结果模型,利用任意一个序列位置的多维观察数据进行训练,获得该位置的数据发生器;并对下一个序列位置的多维观察数据进行预测,实现对多维参数、多位置间隔的序列预测任务。
所设计的多模生成对抗神经网络结构具有如下特征:
该结构主要由数据发生器(F)、生成器(G)和鉴别器(D)三个基础模块所构成。其中每个序列位置(如时间点)对应一个数据发生器,由数据发生器(F)与鉴别器(D)组成的发生-鉴别嵌合模块可以实现对于序列位置特征数据的提取以及鉴别器的训练;由数据发生器(F)、生成器(G)及鉴别器(D)所构成的生成-鉴别嵌合模块可以实现对后一个序列位置特征数据的生成以及生成器的训练。在两种模式的交替训练下,能够实现在最优的特征空间内对序列变化机制的学习。
以上并非是对本专利具体实施方式的限制。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明实质范围的前提下,还可以做出若干变化、改型、添加或替换,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种用于多维序列数据的多模生成对抗网络建模方法,其特征在于,包括以下步骤:
1)将原始观察数据进行规范化整理,得到形式统一的规范观察数据;
2)基于规范观察数据组织用于多模生成对抗网络模型训练例子;
3)设计基础模块的结构以及训练模式,建立多模生成对抗网络模型;
4)利用步骤2)中的训练例子对步骤3)中建立的多模生成对抗网络模型进行训练,得到模型的参数矩阵;
5)利用步骤2)中的训练例子,评估步骤3)所设计的多模生成对抗网络模型结构以及步骤4)训练过程所更新的参数对模型精度的影响,选取不同结构与参数组合下最优的结果作为最终的发酵时序模型;
6)基于最终的发酵时序模型,使用测试例子来评估模型的准确性,并对真实应用场景下的系统状态变化做出预测;
所述的步骤3)中的多模生成对抗网络模型具有如下特征:
其结构为一个包含三种基础模块的神经网络:分别为数据发生器(F)、生成器(G)和鉴别器(D);其中每个时间点对应一个数据发生器(F),为一个具有固定数值起始单元的单层或多层的神经网络结构,由数据发生器(F)和鉴别器(D)构成发生-鉴别嵌合模块(F-D),用于每个时间点特征数据的提取以及鉴别器(D)的训练;由数据发生器(F)、生成器(G)和鉴别器(D)构成生成-鉴别嵌合模块(F-G-D),用于对单位时间后特征数据的生成以及生成器的训练,在发生-鉴别嵌合模块(F-D)和生成-鉴别嵌合模块(F-G-D)两种模式的交替训练下,能够实现在最优的特征空间内对发酵时序模型的训练。
2.根据权利要求1所述的用于多维序列数据的多模生成对抗网络建模方法,其特征在于,所述的基础模块结构按如下方式建立:每个时间点对应一个数据发生器(F),输入层为一个具有固定数值的神经元,输出层神经元节点数为特征数据维数;生成器(G)的输入层和输出层的神经元节点数均为特征数据维数;鉴别器(D)的输入层神经元节点数为特征数据维数,输出层神经元节点数为观察数据维数,所有模型结构采用全连接结构。
3.根据权利要求1所述的用于多维序列数据的多模生成对抗网络建模方法,其特征在于,所述步骤1)中,原始数据规范化整理的方式为:检测获得多个批次的多个时间点的多维观察数据,每个批次包括一组时间点,每个时间点的观察数据包括一组指标,每个指标的观察数据为一个具体的值;将多维时间序列观察数据整理为四元组的组织形式,即批次、时间、指标、值,根据现有数据的总时间点数建立对应的数量矩阵,其中数量矩阵中j列j行的数值代表第j个时间点的数据发生器(F)的输入数据。
4.根据权利要求1所述的用于多维序列数据的多模生成对抗网络建模方法,其特征在于,所述步骤2)中组织训练例子的方式为:根据不同训练阶段分为2组,首先在发生-鉴别嵌合模块(F-D)训练时,将每个时间点的数据发生器(F)与对应的系统状态观察数据(以四元组形式表示)作为1个训练例子;在嵌合模块的网络参数完成更新后,获得所有时间点的特征数据;然后对生成-鉴别嵌合模块(F-G-D)进行训练,将间隔一个单位时间的两个时间点的数据组织为一个例子,其中前一个时间点采用对应的数据发生器(F),后一个时间点采用系统状态的观察数据(以四元组形式表示)。
5.根据权利要求1所述的用于多维序列数据的多模生成对抗网络建模方法,其特征在于,所述步骤4)中的训练方式具体为:
4.1)首先由发生-鉴别嵌合模块(F-D)对所有时间点的例子计算模型损失;将训练例子中的数据发生器(F)输入到该训练结构中,通过前向传播得到网络输出数据,由网络输出数据与对应的观察数据计算相应的损失值;在模型损失值的基础上,通过反向传播计算梯度并使用梯度下降法对(F-D)嵌合模块中的网络权值参数进行更新;
4.2)在完成数据生成器(F)和鉴别器(D)的权值参数更新后,生成-鉴别嵌合模块(F-G-D)的训练,固定鉴别器(D)的网络权值参数,计算单位时间后的预测值与真实数据间的损失值,模型损失值的基础上,通过反向传播计算梯度并使用梯度下降法对(F-G-D)嵌合模块中的网络权值参数进行更新,该过程会对4.1)所更新的
Figure FDA0004139506360000021
模块的权值参数进行再次更新,使其所提取特征更适用于时序建模。
4.3)分别对模型中的两个嵌合模块(F-D)和(F-G-D)计算相应的损失值,判断是否每个嵌合模块的损失值都收敛,若均已收敛,则进行步骤5),否则继续步骤4.1)、4.2)、4.3),直至两个嵌合模块的损失值均收敛,得到结果模型。
6.根据权利要求1所述的用于多维序列数据的多模生成对抗网络建模方法,其特征在于,所述步骤5)具体指从模型的超参数层面对建模过程进行优化,具体的超参数包括:特征维数;网络模块的结构参数(数据发生器、生成器、鉴别器网络的每层节点数,隐藏层数量);梯度下降方法的学习率;每次训练投入训练数据例子数;单个嵌合模块的训练次数;模型交替训练的循环次数;采用上述超参数的不同组合构建相应的神经网络并进行训练,得到新的结果模型;评估不同超参数组合下的结果模型对观察数据的拟合精度,选取最优模型。
7.根据权利要求1所述的用于多维序列数据的多模生成对抗网络建模方法,其特征在于,利用所述步骤6)中的时序模型进行预测的方式为:
6.1)将起始预测的Ta时间点的观察数据进行规范化整理,固定步骤5)中获得的最优模型中鉴别器(D)和生成器(G)的网络结构与网络参数,将Ta时间点的数据发生器
Figure FDA0004139506360000031
输入到(F-D)嵌合模块中获得网络输出数据,由输出数据与Ta时间点的观察数据计算损失值,通过反向传播计算梯度并使用梯度下降法对/>
Figure FDA0004139506360000032
模块中的网络权值参数进行更新直至损失值收敛;
6.2)在完成对Ta时间点的数据发生器
Figure FDA0004139506360000033
模块的网络参数更新后,将其输入至(F-G-D)嵌合模块中,获得Ta+1时间点的系统状态的预测数据。
8.一种用于多维序列数据的多模生成对抗网络建模装置,其特征在于,包括以下单元:
获取单元:用于将原始观察数据进行规范化整理,得到形式统一的规范观察数据;
组织单元:用于将获取的规范观察数据组织成用于多模生成对抗网络模型训练的例子;
构建单元:用于设计基础模块的结构以及训练模式,建立多模生成对抗网络模型;
训练单元:用于利用训练例子对建立的多模生成对抗网络模型进行训练,得到模型的参数矩阵;
优化单元:用于利用训练例子,评估所设计的多模生成对抗网络模型结构以及训练过程所更新的参数对模型精度的影响,选取不同结构与参数组合下最优的结果作为最终结果模型;
预测单元:基于最终优化的结果模型,利用任意一个序列位置的多维观察数据进行训练,获得该位置的数据发生器;并对下一个序列位置的多维观察数据进行预测,实现对多维参数、多位置间隔的序列预测任务;
所述的多模生成对抗神经网络结构具有如下特征:
该结构主要由数据发生器(F)、生成器(G)和鉴别器(D)三个基础模块所构成,其中每个序列位置(如时间点)对应一个数据发生器,由数据发生器(F)与鉴别器(D)组成的发生-鉴别嵌合模块可以实现对于序列位置特征数据的提取以及鉴别器的训练;由数据发生器(F)、生成器(G)及鉴别器(D)所构成的生成-鉴别嵌合模块可以实现对后一个序列位置特征数据的生成以及生成器的训练,在两种模式的交替训练下,能够实现在最优的特征空间内对序列变化机制的学习。
CN202310285116.3A 2023-03-22 2023-03-22 一种用于多维序列数据的多模生成对抗神经网络建模方法及装置 Pending CN116306832A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310285116.3A CN116306832A (zh) 2023-03-22 2023-03-22 一种用于多维序列数据的多模生成对抗神经网络建模方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310285116.3A CN116306832A (zh) 2023-03-22 2023-03-22 一种用于多维序列数据的多模生成对抗神经网络建模方法及装置

Publications (1)

Publication Number Publication Date
CN116306832A true CN116306832A (zh) 2023-06-23

Family

ID=86830324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310285116.3A Pending CN116306832A (zh) 2023-03-22 2023-03-22 一种用于多维序列数据的多模生成对抗神经网络建模方法及装置

Country Status (1)

Country Link
CN (1) CN116306832A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743808A (zh) * 2024-02-20 2024-03-22 中铁西南科学研究院有限公司 一种隧道变形预测方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743808A (zh) * 2024-02-20 2024-03-22 中铁西南科学研究院有限公司 一种隧道变形预测方法、系统、设备及介质
CN117743808B (zh) * 2024-02-20 2024-05-14 中铁西南科学研究院有限公司 一种隧道变形预测方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN109492822B (zh) 空气污染物浓度时空域关联预测方法
CN111079836B (zh) 基于伪标签方法和弱监督学习的过程数据故障分类方法
CN113723010B (zh) 一种基于lstm温度-位移相关模型的桥梁损伤预警方法
CN112257911B (zh) 基于并行时空注意力机制的tcn多元时间序列预测方法
CN110083125B (zh) 一种基于深度学习的机床热误差建模方法
CN107992976A (zh) 热点话题早期发展趋势预测系统及预测方法
CN114239718B (zh) 基于多元时序数据分析的高精度长期时间序列预测方法
CN109102002A (zh) 结合卷积神经网络和概念机递归神经网络的图像分类方法
CN115495991A (zh) 一种基于时间卷积网络的降水区间预测方法
CN111046961B (zh) 基于双向长短时记忆单元和胶囊网络的故障分类方法
CN111950784A (zh) 一种融合注意力机制的产能预测方法
CN116306832A (zh) 一种用于多维序列数据的多模生成对抗神经网络建模方法及装置
CN111292124A (zh) 一种基于优化组合神经网络的需水预测方法
CN113836783A (zh) 斜拉桥主梁温致挠度监测基准值的数字回归模型建模方法
CN114692507A (zh) 基于堆叠泊松自编码器网络的计数数据软测量建模方法
CN116680548B (zh) 一种针对多源观测数据的时间序列干旱因果分析方法
CN117458480A (zh) 基于改进lof的光伏发电功率短期预测方法及系统
CN117313516A (zh) 一种基于时空图嵌入的发酵产物预测方法
CN112381664A (zh) 电网短期负荷预测方法、预测装置及存储介质
CN115587625A (zh) 一种在特征空间内进行多维时序数据建模的神经网络方法及装置
CN116128165A (zh) 一种基于miv-bp的建筑构件质量预测方法及系统
CN113255207A (zh) 基于迭代多输出-马尔科夫链的空分系统氩馏分变量多步预测方法
CN109884893A (zh) 一种多工序变量间动态时滞估计方法
CN115600667A (zh) 一种对系统多维度状态变化时间序列数据进行建模的方法及装置
CN117648890B (zh) 一种基于人工智能的半导体器件建模方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination