CN115983370A - 散乱数据插值模型训练方法、插值方法及装置 - Google Patents

散乱数据插值模型训练方法、插值方法及装置 Download PDF

Info

Publication number
CN115983370A
CN115983370A CN202211490956.5A CN202211490956A CN115983370A CN 115983370 A CN115983370 A CN 115983370A CN 202211490956 A CN202211490956 A CN 202211490956A CN 115983370 A CN115983370 A CN 115983370A
Authority
CN
China
Prior art keywords
data
matrix
sequence
mask
scattered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211490956.5A
Other languages
English (en)
Inventor
刘亮
马华东
李雅琪
高雨佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202211490956.5A priority Critical patent/CN115983370A/zh
Publication of CN115983370A publication Critical patent/CN115983370A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明提供一种散乱数据插值模型训练方法、插值方法及装置,包括:获取训练样本集,每个样本包括散乱数据及其对应的真实数据;获取初始网络模型,该模型包括数据预处理模块、编码器和解码器;将各散乱数据输入数据预处理模块网格化得到数字矩阵;为数字矩阵构建掩码矩阵;对数字矩阵进行掩码嵌入和位置编码;将多个数字矩阵封装为张量,提取可见元素构成特征序列输入编码器;编码器对可见元素特征序列进行特征提取,与待插值元素拼接后输入解码器,解码器综合局部与全局信息生成预测数据,利用预测数据和真实数据间的损失更新优化初始网络模型,最终得到散乱数据插值模型。本发明提供的模型能够用于散乱数据插值,并达到较高的准确度。

Description

散乱数据插值模型训练方法、插值方法及装置
技术领域
本发明涉及信息数据处理技术领域,尤其涉及一种散乱数据插值模型训练方法、插值方法及装置。
背景技术
大多数来自物理世界的测量数据、科学实验所得的数据往往是散乱分布的。空间插值算法的主要任务是根据采样点的测量值预测未知点或区域的值。在环境数据方面,插值可具体运用在还原未知区域的气温、降水量、湿度、空气质量等任务中,对于环境学以及地质学研究有重要作用。获取连续的空间数据对于环境学研究人员对环境现象做出合理的解释、有效的决策有重要的作用。
对于散乱数据插值的工作流程可以看作是一个数据生成过程,且只能获取关于已知点的有限数据。目的是通过学习位置属性之间的相互性,生成空间的精确全局映射。散乱数据的插值可用于对测量数据和实验数据的未知区域预测,在真实数据集中可以对包括气象数据、地质数据在内的各种环境数据进行未知点还原;在测量信号中可以对不均匀分布的信号进行补全和预测,方便进一步的数据分析和研究。因此,散乱数据的插值有着广泛的应用空间。
然而大多情况下,散乱数据难以直接进行处理。针对这类不规则的散乱数据,一种有效的处理方式是将散乱数据插值成均匀分布的规则数据。目前,常用的插值方法主要是基于统计模型的传统插值方式,例如反距离加权法、克里格插值法等,但仍存在较多缺陷。大多传统的插值模型均受限于几何空间,同时,当数据量非常稀疏且数据分布未知时,准确率很低。对于反距离加权法和克里金插值法,两种方法实现均很简单,但相应的插值精度低,容易产生平滑效应,尤其对于数据量稀疏的散乱数据。并且,克里金插值法的建模对象是平稳高斯过程,对于存在突变或区域内有较大变化的散乱数据插值效果并不理想。
发明内容
鉴于此,本发明实施例提供了一种散乱数据插值模型训练方法、插值方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有插值技术无法直接应用于散乱数据且插值准确率低的问题。
一方面,本发明提供一种散乱数据插值模型训练方法,其特征在于,该方法包括以下步骤:
获取真实数据集,对所述真实数据集中每个真实数据随机采样得到对应的散乱数据,将一对散乱数据和相应的真实数据作为样本,构建训练样本集;
获取初始网络模型;所述初始网络模型包括数据预处理模块、编码器和解码器;所述编码器为Vision Transformer模块;所述解码器包括基于局部注意力的第一Transformer模块和基于稀疏全局注意力的第二Transformer模块;将各个样本中的散乱数据输入所述数据预处理模块,将所述散乱数据做平面网格化处理得到数字矩阵,为所述数字矩阵构建掩码矩阵,所述掩码矩阵中可见元素位置的值设置为0,待插值元素位置的值设置为1;将所述数字矩阵通过嵌入层转换维度生成多维特征向量;所述数字矩阵通过预设方法为各元素构建位置向量;将所述多维特征向量与所述位置向量进行拼接,得到整体特征向量;将连续的预设数量个带有所述整体特征向量的数字矩阵封装为张量,并将所述张量沿通道拉平为第一特征序列;根据所述掩码矩阵提取所述第一特征序列中的可见元素,构建可见元素特征序列并输入所述编码器;所述编码器对所述可见元素特征序列进行特征提取,得到第二特征序列;将所述第二特征序列与基于所述掩码矩阵生成的掩码矩阵向量进行拼接,生成掩码特征矩阵;将所述掩码特征矩阵输入所述第一Transformer模块,对所述掩码特征矩阵划分不重叠窗口计算自注意力,输出第一解码数据;将所述第一解码数据输入所述第二Transformer模块,对所述第一解码数据使用预设网格得到自适应大小的窗口,在所述预设网格上计算自注意力,得到第二解码数据;将所述掩码矩阵中的可见元素替换所述第二解码数据中的可见元素,以得到经过插值后的预测数据;
采用所述训练样本集对所述初始网络模型进行训练,构建所述预测数据和所述真实数据之间的损失,利用所述损失对所述初始网络模型的参数进行迭代,最终训练得到散乱数据插值模型。
在本发明的一些实施例中,所述数字矩阵通过嵌入层转换维度生成多维特征向量,还包括:
所述数字矩阵通过嵌入层将原维度中的张量通道数转换为d,计算式为:
x'i=[xclass,x1E,x2E,...,xNE],E∈Rl×c×d
其中,x'i表示所述多维特征向量;xclass表示可学习的特征向量;xN表示所述数字矩阵;N表示所述数字矩阵中元素的总数量;E表示嵌入向量;R表示向量空间;l表示所述第一特征序列的长度;c表示所述张量通道数;d表示转换的维度。
在本发明的一些实施例中,所述数字矩阵通过预设方法为各元素构建位置向量,还包括:
所述数字矩阵使用不同频率的正弦函数和余弦函数来进行位置编码,计算式为:
Figure BDA0003964935210000031
Figure BDA0003964935210000032
其中,pos表示各元素在所述多维特征向量中的位置;i和d均表示维度。
在本发明的一些实施例中,根据所述掩码矩阵提取所述第一特征序列中的可见元素,构建可见元素特征序列并输入所述编码器,还包括:
所述第一特征序列根据所述掩码矩阵中标记的各元素的位置顺序将所有可见元素提取至所述第一特征序列前端,将所有待插值元素排列至所述第一特征序列末端,对排序后的第一特征序列进行切割,仅保留可见元素部分,构建可见元素特征序列。
在本发明的一些实施例中,所述Vision Transformer模块由连续的多个Transformer块组成,每个Transformer块依次由第一归一化层、多头自注意力模块、第一残差层、第二归一化层、第一多层感知机层以及第二残差层构成;所述多头自注意力模块的自注意力计算式为:
Figure BDA0003964935210000033
其中,Q,K,V分别为可学习的特征向量;dk为特征向量K的维度;(·)T表示转置。
在本发明的一些实施例中,将所述第二特征序列与基于所述掩码矩阵生成的掩码矩阵向量进行拼接,生成掩码特征矩阵之后,还包括:
将所述掩码特征矩阵通过所述第一多层感知机层将特征维度降低至所述解码器的维度,并进行解压缩处理,将所述掩码特征矩阵还原为与所述数字矩阵一致的平面形状。
在本发明的一些实施例中,所述第一Transformer模块依次由第三归一化层、窗口自注意力模块、第四归一化层以及第二多层感知机层构成;所述第二Transformer模块依次由第五归一化层、网格自注意力模块、第六归一化层以及第三多层感知机层构成;
所述窗口自注意力模块的自注意力计算式为:
Figure BDA0003964935210000041
其中,Q,K,V分别为可学习的特征向量;dk为特征向量K的维度;(·)T表示转置;B为可训练参数。
所述网格自注意力模块的自注意力计算式为:
Figure BDA0003964935210000042
其中,Q,K,V分别为可学习的特征向量;dk为特征向量K的维度;(·)T表示转置;B为可训练参数。
在本发明的一些实施例中,构建所述预测数据和所述真实数据之间的损失,所述损失的计算式为:
Figure BDA0003964935210000043
其中,n表示每个张量中数字矩阵的数量,即所述预设数量;X'pred表示所述预测数据;Xtarget表示所述真实数据;M表示所述掩码矩阵。
另一方面,本发明还提供一种散乱数据插值方法,其特征在于,该方法包括以下步骤:
获取待插值的散乱数据;
将所述散乱数据输入如上文提及的任一项所述散乱数据插值模型训练方法得到的散乱数据插值模型,以生成最终插值数据。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中提及的任意一项所述方法的步骤。
本发明的有益效果至少是:
本发明提供一种散乱数据插值模型训练方法、插值方法及装置,通过获取真实数据集,并对真实数据集随机采样得到散乱数据构建训练样本集,对本发明模型进行训练,构建预测数据与真实数据的损失,利用损失优化模型,最终得到满足预设性能要求的散乱数据插值模型。本发明训练的散乱数据插值模型包括数据预处理模块、编码器和解码器;编码器选用VisionTransformer模块,利用全局注意力对可见元素进行全局特征提取,充分学习可见元素的潜在特征;解码器由基于局部注意力的Transformer模块和基于稀疏全局注意力的Transformer模块组成,即采用局部注意力和全局注意力结合的网络模型作为插值生成网络,充分捕捉各种大小的感受野下的特征,使生成的预测数据更加精确。其中,还构建了掩码矩阵记录各元素位置关系,便于在数据处理中还原初始位置;利用不同频率的正弦函数和余弦函数来进行位置编码,捕捉散乱数据之间的位置信息,最终实现散乱数据插值。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1为本发明一实施例中散乱数据插值模型训练方法步骤示意图。
图2为本发明一实施例中散乱数据插值模型训练方法结构示意图。
图3为本发明一实施例中散乱数据插值模型结构示意图。
图4为本发明一实施例中散乱数据插值模型训练方法的数据处理流程示意图。
图5为本发明一实施例中散乱数据插值模型与现有技术效果对比示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
这里需要强调的是,在下文中提及的各步骤标记并不是对各步骤先后顺序的限定,而应当理解为可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
为了解决现有插值技术无法直接应用于散乱数据且插值准确率低的问题,本发明提供一种散乱数据插值模型训练方法,如图1和图2所示,该方法包括以下步骤S101~S103:
步骤S101:获取真实数据集,对真实数据集中每个真实数据随机采样得到对应的散乱数据,将一对散乱数据和相应的真实数据作为样本,构建训练样本集。
步骤S102:获取初始网络模型;该初始网络模型包括数据预处理模块、编码器和解码器;编码器为Vision Transformer模块;解码器包括基于局部注意力的第一Transformer模块和基于稀疏全局注意力的第二Transformer模块;将各个样本中的散乱数据输入数据预处理模块,将散乱数据做平面网格化处理得到数字矩阵,为数字矩阵构建掩码矩阵,其中,掩码矩阵中可见元素位置的值设置为0,待插值元素位置的值设置为1;将数字矩阵通过嵌入层转换维度生成多维特征向量;数字矩阵通过预设方法为各元素构建位置向量;将多维特征向量与位置向量进行拼接,得到整体特征向量;将连续的预设数量个带有整体特征向量的数字矩阵封装为张量,并将张量沿通道拉平为第一特征序列;根据掩码矩阵提取第一特征序列中的可见元素,构建可见元素特征序列并输入编码器;编码器对可见元素特征序列进行特征提取,得到第二特征序列;第二特征序列与基于掩码矩阵生成的掩码矩阵向量进行拼接,生成掩码特征矩阵;将掩码特征矩阵输入第一Transformer模块,对掩码特征矩阵划分不重叠窗口计算自注意力,输出第一解码数据;将第一解码数据输入第二Transformer模块,对第一解码数据使用预设网格得到自适应大小的窗口,在预设网格上计算自注意力,得到第二解码数据;将掩码矩阵中的可见元素替换第二解码数据中的可见元素,以得到经过插值后的预测数据。
步骤S103:采用训练样本集对初始网络模型进行训练,构建预测数据和真实数据之间的损失,利用损失对初始网络模型的参数进行迭代,最终训练得到散乱数据插值模型。
散乱数据是指在二维平面域或三维空间中随机分布的抽样数据点,因此,在步骤S101中,通过对真实数据进行随机采样得到对应的散乱数据,并将散乱数据-真实数据作为样本,构建训练样本集。其中,散乱数据作为初始网络模型的输入,真实数据用于与初始网络模型生成的预测数据进行比较,构建损失,以优化初始模型的参数与性能。
在步骤S102中,获取待训练的初始网络模型,该初始网络模型的结构如图3所示,依次包括数据预处理模块、编码器和解码器。
散乱数据插值模型训练方法的数据处理流程如图4所示,具体的:
将各样本中的散乱数据输入数据预处理模块,进行预处理操作:
对散乱数据做平面网格化处理,网格元素的值为当前网格内存在的散乱点的值。若同一网格内存在多个散乱点,则取网格内所有散乱点的平均值作为该网格的值;若一网格中没有散乱点,则该网格的值为0,根据各网格的值构建数字矩阵。将各非0值网络记作可见元素,各0值网格记作待插值元素,由此识别需要插值的位置坐标。重复以上操作,对训练样本集中所有散乱数据做平面网格化处理,构建数字矩阵。
将连续输入数据预处理模块的每预设数量个数字矩阵封装为一个张量,使得在后续编码器中可以进行批量处理,减轻运算量,加快初始网络模型训练。
在一些实施例中,每预设数量个数字矩阵封装为一个[b,c,h,w]张量,并记作Xi∈Rb×c×h×w,其中,R表示向量空间;b表示每个张量中数字矩阵的数量;c表示张量通道数;h表示张量的高;w表示张量的宽,相应的,数字矩阵记作xi∈Rc×h×w
为各数字矩阵生成对应的01掩码矩阵,在该掩码矩阵中,可见元素位置的值为0,待插值元素位置的值为1。在一些实施例中,掩码矩阵记作M∈Rb×1×h×w
将各数字矩阵输入一个嵌入层,转换维度生成相应数字矩阵的多维特征向量,以捕捉更多的特征。
在一些实施例中,将数字矩阵通过嵌入层将原维度中的张量通道数转换为d,生成多维特征向量,即将xi∈Rc×h×w转换为x'i∈Rh×w×d,计算式如公式(1)所示:
x'i=[xclass,x1E,x2E,...,xNE],E∈Rl×c×d;     (1)
其中,x'i表示多维特征向量;xclass表示可学习的特征向量;x表示数字矩阵;N表示数字矩阵中元素的总数量;E表示嵌入向量;R表示向量空间;l=h×w与N的数值一致,表示第一特征序列的长度;c表示张量通道数;d表示转换的维度。
为了捕捉散乱点之间的位置信息,各数字矩阵通过预设方法为各元素构建位置向量。
在一些实施例中,数字矩阵使用不同频率的正弦函数和余弦函数来进行位置编码,构建位置向量,计算式如公式(2)和公式(3)所示:
Figure BDA0003964935210000081
Figure BDA0003964935210000082
其中,pos表示各元素在多维特征向量中的位置;i和d均表示维度。
在上文中,各数字矩阵通过嵌入层将维度转换为d维度,与位置编码得到的位置向量维度一致,因此可以直接将多维特征向量与位置向量进行拼接,得到数字矩阵的整体特征向量。
在基于以上预处理操作后,将由预设数量个带有整体特征向量的数字矩阵封装得到的张量沿着通道拉平为第一特征序列,记作X'i∈Rb×c×l,其中,l=h×w,表示每个第一特征序列的长度。
根据上文生成的01掩码矩阵对第一特征序列重新排序,按照位置顺序将在掩码矩阵中值为0的可见元素提取至第一特征序列的前端,将在掩码矩阵中值为1的待插值元素提取至第一特征序列的末端。以排序后相邻的可见元素与待插值元素为界,切割排序后的第一特征序列,仅保留可见元素部分,构建可见元素特征序列。
在一些实施例中,可见元素特征序列记作Xmasked∈Rb×(l×p)×d,其中,p表示可见元素与所有元素的比值。
将可见元素特征序列输入编码器,编码器对可见元素特征序列进行特征提取,得到第二特征序列。在一些实施例中,第二特征序列记作X'masked∈Rb×(l×p)×d
在一些实施例中,编码器选用Vision Transformer模块,Vision Transformer模块由连续的多个Transformer块组成(在图3中仅画出一个Transformer块作为结构参考),每个Transformer块依次由第一归一化层(在图3中未画出)、多头自注意力模块、第一残差层、第二归一化层、第一多层感知机层以及第二残差层构成。在多头自注意力模块计算自注意力,以提取特征,计算式如公式(4)所示:
Figure BDA0003964935210000083
其中,Q,K,V分别为可学习的特征向量;dk为特征向量的维度;(·)T表示转置。
将掩码矩阵M转换为可学习的掩码矩阵向量Xmask_token,将第二特征序列X'masked与掩码矩阵向量Xmask_token拼接,并根据掩码矩阵M还原可见元素和待插值元素的位置,生成掩码特征矩阵Xenc_out∈Rb×l×d,作为编码器的输出。
在一些实施例中,生成掩码特征矩阵后,还包括以下步骤:
将掩码特征矩阵Xenc_out通过线性层做特征降维处理,将特征维度降低到解码器维度,示例性的,解码器维度为d′,则降维后的掩码特征矩阵记作X′enc_out∈Rb×l×d′,并且,对降维后的掩码特征矩阵再做解压缩处理,将降维后的掩码特征矩阵还原为与数字矩阵xi∈Rc ×h×w一致的平面形状,最终得到解码器的输入,记作Xdec∈Rb×h×w×d′
将进行降维以及解压缩处理后的掩码特征矩阵输入解码器,解码器由多轴Transformer模块组成,其中,注意力模块由局部注意力模块和稀疏全局注意力两种模块交替构成。
先将Xdec输入基于局部注意力的第一Transformer模块,在一些实施例中,第一Transformer模块依次由第三归一化层(在图3中未画出)、窗口自注意力模块、第四归一化层以及第二多层感知机层构成。将处理后的掩码特征矩阵Xdec∈Rb×h×w×d′根据每个张量中数字矩阵的数量b拆分为b个解码器输入特征xdec∈Rh×w×d′。窗口自注意力模块将各编码器输入特征xdec划分为不重叠的窗口,示例性的,窗口大小为P×P,由此,解码器输入特征xdec转化为形状张量
Figure BDA0003964935210000091
以表示划分为不重叠的窗口,对每个窗口执行相对自注意力计算,计算式如公式(5)所示:
Figure BDA0003964935210000092
其中,Q,K,V分别为可学习的特征向量;dk为特征向量K的维度;(·)T表示转置;B为可训练参数。与普通注意力相比,相对自注意力增加了一个可训练参数B∈R(2h-1)(2w-1),用于表示窗口的相对位置偏差。
计算相对自注意力后,将划分的窗口进行还原,并通过第二多层感知机层输出第一Transformer模块的第一解码数据。将第一解码数据输入基于稀疏全局注意力的第二Transformer模块。在一些实施例中,第二Transformer模块依次由第五归一化层(在图3中未画出)、网格自注意力模块、第六归一化层以及第三多层感知机层构成。网格自注意力模块使用固定大小的均匀网格将解码器输入特征xdec网格化,示例性的,网格大小为P×P,则输入特征xdec被网格化为
Figure BDA0003964935210000093
的形状张量,得到自适应大小的窗口
Figure BDA0003964935210000094
在网格P×P使用自注意力计算,计算式与公式(5)相同:
Figure BDA0003964935210000095
其中,Q,K,V分别为可学习的特征向量;dk为特征向量K的维度;(·)T表示转置;B为可训练参数。在窗口自注意力模块和网格自注意力模块中,通过使用窗口和网格可以有效平衡局部和全局之间的计算,实现局部和全局之间的信息交互,更好地关注到局部特征,平衡散乱数据由于分布不均匀导致的误差。
计算自注意力后,将划分的网格进行还原,并通过第三多层感知机层输出第二Transformer模块解码后的数据。
将第二Transformer模块解码后的数据再依次输入一个归一化层和一个线性层,使得数据维度降为1,得到第二解码数据Xpred∈Rb×h×w×1
对于第二解码数据Xpred仅保留其中待插值元素位置的值,并根据掩码矩阵M记录的各元素之间的位置关系,将其与原有的可见元素进行拼接,得到最终的预测数据X'pred,即在最终的预测数据中,只有待插值元素是通过初始网络模型生成的,可见元素仍使用原始的值。
在步骤S103中,采用训练样本集对初始网络模型进行训练,构建预测数据和真实数据之间的损失,并利用损失对初始网络模型的参数进行迭代,最终训练得到散乱数据插值模型。
在一些实施例中,损失的计算式如公式(6)所示:
Figure BDA0003964935210000101
其中,n表示每个张量中数字矩阵的数量,即上文提及的预设数量;X'pred表示预测数据;Xtarget表示散乱数据在样本中对应的真实数据;M表示掩码矩阵。
在一些实施例中,利用AdamW优化器优化损失,通过反向传播算法更新模型参数,以完成训练得到最优模型,即散乱数据插值模型。
如图5所示,将本发明得到的散乱数据插值模型与现有的SRCNN模型、SI-AGAN模型、最近邻插值模型,以及本发明模型的变体ViT-CNN模型、ViT-ViT模型分别进行插值效果对比。
采用ASTER GDEM数据集作为输入,可以直观的观察到,本发明提供的散乱数据插值模型具备较高的插值准确度,同时,实验数据表明,本发明提供的散乱数据插值模型能够适用于已知信号密度只有25%的插值任务,具有更强的泛化能力。
本发明还提供一种散乱数据插值方法,该方法包括以下步骤S101~S102:
步骤S101:获取待插值的散乱数据。
步骤S102:将散乱数据输入如上文所述的散乱数据插值模型训练方法得到的散乱数据插值模型,以生成最终插值数据。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现散乱数据插值模型训练方法和散乱数据插值方法的步骤。
与上述方法相应地,本发明还提供了一种设备,该设备包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该设备实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
综上所述,本发明提供一种散乱数据插值模型训练方法、插值方法及装置,通过获取真实数据集,并对真实数据集随机采样得到散乱数据构建训练样本集,对本发明模型进行训练,构建预测数据与真实数据的损失,利用损失优化模型,最终得到满足预设性能要求的散乱数据插值模型。本发明训练的散乱数据插值模型包括数据预处理模块、编码器和解码器;编码器选用Vision Transformer模块,利用全局注意力对可见元素进行全局特征提取,充分学习可见元素的潜在特征;解码器由基于局部注意力的Transformer模块和基于稀疏全局注意力的Transformer模块组成,即采用局部注意力和全局注意力结合的网络模型作为插值生成网络,充分捕捉各种大小的感受野下的特征,使生成的预测数据更加精确。其中,还构建了掩码矩阵记录各元素位置关系,便于在数据处理中还原初始位置;利用不同频率的正弦函数和余弦函数来进行位置编码,捕捉散乱数据之间的位置信息,最终实现散乱数据插值。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种散乱数据插值模型训练方法,其特征在于,该方法包括以下步骤:
获取真实数据集,对所述真实数据集中每个真实数据随机采样得到对应的散乱数据,将一对散乱数据和相应的真实数据作为样本,构建训练样本集;
获取初始网络模型;所述初始网络模型包括数据预处理模块、编码器和解码器;所述编码器为Vision Transformer模块;所述解码器包括基于局部注意力的第一Transformer模块和基于稀疏全局注意力的第二Transformer模块;将各个样本中的散乱数据输入所述数据预处理模块,将所述散乱数据做平面网格化处理得到数字矩阵,为所述数字矩阵构建掩码矩阵,所述掩码矩阵中可见元素位置的值设置为0,待插值元素位置的值设置为1;将所述数字矩阵通过嵌入层转换维度生成多维特征向量;所述数字矩阵通过预设方法为各元素构建位置向量;将所述多维特征向量与所述位置向量进行拼接,得到整体特征向量;将连续的预设数量个带有所述整体特征向量的数字矩阵封装为张量,并将所述张量沿通道拉平为第一特征序列;根据所述掩码矩阵提取所述第一特征序列中的可见元素,构建可见元素特征序列并输入所述编码器;所述编码器对所述可见元素特征序列进行特征提取,得到第二特征序列;将所述第二特征序列与基于所述掩码矩阵生成的掩码矩阵向量进行拼接,生成掩码特征矩阵;将所述掩码特征矩阵输入所述第一Transformer模块,对所述掩码特征矩阵划分不重叠窗口计算自注意力,输出第一解码数据;将所述第一解码数据输入所述第二Transformer模块,对所述第一解码数据使用预设网格得到自适应大小的窗口,在所述预设网格上计算自注意力,得到第二解码数据;将所述掩码矩阵中的可见元素替换所述第二解码数据中的可见元素,以得到经过插值后的预测数据;
采用所述训练样本集对所述初始网络模型进行训练,构建所述预测数据和所述真实数据之间的损失,利用所述损失对所述初始网络模型的参数进行迭代,最终训练得到散乱数据插值模型。
2.根据权利要求1所述的散乱数据插值模型训练方法,其特征在于,所述数字矩阵通过嵌入层转换维度生成多维特征向量,还包括:
所述数字矩阵通过嵌入层将原维度中的张量通道数转换为d,计算式为:
x'i=[xclass,x1E,x2E,...,xNE],E∈Rl×c×d
其中,x'i表示所述多维特征向量;xclass表示可学习的特征向量;xN表示所述数字矩阵;N表示所述数字矩阵中元素的总数量;E表示嵌入向量;R表示向量空间;l表示所述第一特征序列的长度;c表示所述张量通道数;d表示转换的维度。
3.根据权利要求1所述的散乱数据插值模型训练方法,其特征在于,所述数字矩阵通过预设方法为各元素构建位置向量,还包括:
所述数字矩阵使用不同频率的正弦函数和余弦函数来进行位置编码,计算式为:
Figure FDA0003964935200000021
Figure FDA0003964935200000022
其中,pos表示各元素在所述多维特征向量中的位置;i和d均表示维度。
4.根据权利要求1所述的散乱数据插值模型训练方法,其特征在于,根据所述掩码矩阵提取所述第一特征序列中的可见元素,构建可见元素特征序列并输入所述编码器,还包括:
所述第一特征序列根据所述掩码矩阵中标记的各元素的位置顺序将所有可见元素提取至所述第一特征序列前端,将所有待插值元素排列至所述第一特征序列末端,对排序后的第一特征序列进行切割,仅保留可见元素部分,构建可见元素特征序列。
5.根据权利要求1所述的散乱数据插值模型训练方法,其特征在于,所述VisionTransformer模块由连续的多个Transformer块组成,每个Transformer块依次由第一归一化层、多头自注意力模块、第一残差层、第二归一化层、第一多层感知机层以及第二残差层构成;所述多头自注意力模块的自注意力计算式为:
Figure FDA0003964935200000023
其中,Q,K,V分别为可学习的特征向量;dk为特征向量K的维度;(·)T表示转置。
6.根据权利要求5所述的散乱数据插值模型训练方法,其特征在于,将所述第二特征序列与基于所述掩码矩阵生成的掩码矩阵向量进行拼接,生成掩码特征矩阵之后,还包括:
将所述掩码特征矩阵通过所述第一多层感知机层将特征维度降低至所述解码器的维度,并进行解压缩处理,将所述掩码特征矩阵还原为与所述数字矩阵一致的平面形状。
7.根据权利要求1所述的散乱数据插值模型训练方法,其特征在于,所述第一Transformer模块依次由第三归一化层、窗口自注意力模块、第四归一化层以及第二多层感知机层构成;所述第二Transformer模块依次由第五归一化层、网格自注意力模块、第六归一化层以及第三多层感知机层构成;
所述窗口自注意力模块的自注意力计算式为:
Figure FDA0003964935200000031
其中,Q,K,V分别为可学习的特征向量;dk为特征向量K的维度;(·)T表示转置;B为可训练参数。
所述网格自注意力模块的自注意力计算式为:
Figure FDA0003964935200000032
其中,Q,K,V分别为可学习的特征向量;dk为特征向量K的维度;(·)T表示转置;B为可训练参数。
8.根据权利要求1所述的散乱数据插值模型训练方法,其特征在于,构建所述预测数据和所述真实数据之间的损失,所述损失的计算式为:
Figure FDA0003964935200000033
其中,n表示每个张量中数字矩阵的数量,即所述预设数量;X'pred表示所述预测数据;Xtarget表示所述真实数据;M表示所述掩码矩阵。
9.一种散乱数据插值方法,其特征在于,该方法包括以下步骤:
获取待插值的散乱数据;
将所述散乱数据输入如权利要求1至8中任一项所述散乱数据插值模型训练方法得到的散乱数据插值模型,以生成最终插值数据。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。
CN202211490956.5A 2022-11-25 2022-11-25 散乱数据插值模型训练方法、插值方法及装置 Pending CN115983370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211490956.5A CN115983370A (zh) 2022-11-25 2022-11-25 散乱数据插值模型训练方法、插值方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211490956.5A CN115983370A (zh) 2022-11-25 2022-11-25 散乱数据插值模型训练方法、插值方法及装置

Publications (1)

Publication Number Publication Date
CN115983370A true CN115983370A (zh) 2023-04-18

Family

ID=85971193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211490956.5A Pending CN115983370A (zh) 2022-11-25 2022-11-25 散乱数据插值模型训练方法、插值方法及装置

Country Status (1)

Country Link
CN (1) CN115983370A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050460A (zh) * 2023-03-23 2023-05-02 中南大学 基于注意力神经网络的气温数据空间插值方法
CN117995277A (zh) * 2024-02-07 2024-05-07 扬州大学 一种适用于长序列的对数位置编码方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050460A (zh) * 2023-03-23 2023-05-02 中南大学 基于注意力神经网络的气温数据空间插值方法
CN117995277A (zh) * 2024-02-07 2024-05-07 扬州大学 一种适用于长序列的对数位置编码方法

Similar Documents

Publication Publication Date Title
Yang et al. Single-image super-resolution reconstruction via learned geometric dictionaries and clustered sparse coding
CN115983370A (zh) 散乱数据插值模型训练方法、插值方法及装置
Won et al. Stochastic image processing
CN113705809B (zh) 一种数据预测模型训练方法、工业指标预测方法和装置
CN108921801B (zh) 用于生成图像的方法和装置
Li A comprehensive survey of sparse regularization: Fundamental, state-of-the-art methodologies and applications on fault diagnosis
Wang et al. Semi-NMF-based reconstruction for hyperspectral compressed sensing
Payan et al. Mean square error approximation for wavelet-based semiregular mesh compression
CN116933124A (zh) 时间序列数据预测方法、装置、设备及存储介质
Lalos et al. Adaptive compression of animated meshes by exploiting orthogonal iterations
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
Underwood et al. Understanding the effects of modern compressors on the community earth science model
CN117372617A (zh) 一种基于GCN-Transformer模型的点云数据重建方法及电子设备
US12045935B2 (en) Method, electronic device, and computer program product for generating target object
CN117094431A (zh) 一种多尺度熵门控的DWTformer气象数据时序预测方法及设备
CN117079005A (zh) 一种光缆故障监测方法、系统、装置及可读存储介质
Sarinova et al. Hyperspectral regression lossless compression algorithm of aerospace images
Gou et al. Image super‐resolution based on the pairwise dictionary selected learning and improved bilateral regularisation
CN112528869B (zh) 一种基于复数神经网络的无相位数据成像方法
CN109840888B (zh) 一种基于联合约束的图像超分辨率重建方法
CN111382761B (zh) 一种基于cnn的检测器、图像检测方法及终端
Sinha et al. A fast nonparametric noncausal MRF-based texture synthesis scheme using a novel FKDE algorithm
Liang et al. Spectral clustering based on high‐frequency texture components for face datasets
CN117036982B (zh) 海上养殖区的光学卫星图像处理方法和装置、设备和介质
CN112801142B (zh) 一种基于张量自回归滑动平均模型的视频分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication