CN116542290A

CN116542290A - 基于多源多维数据的信息预测模型构建方法、装置及应用

Info

Publication number: CN116542290A
Application number: CN202310745780.1A
Authority: CN
Inventors: 郁强; 张香伟; 毛云青; 王德平; 葛俊
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2023-06-25
Filing date: 2023-06-25
Publication date: 2023-08-04
Anticipated expiration: 2043-06-25
Also published as: CN116542290B

Abstract

本申请提出了一种基于多源多维数据的信息预测模型的构建方法、装置及应用，包括以下步骤：构建包括编码模块和解码模块的信息预测模型，编码模块由多个编码器串联，并在编码器中添加多头多层注意力机制，解码器通过非平稳注意力机制对输入张量进行处理并得到注意结果，最后一个解码器的输出即为模型的预测输出，并通过设置损失函数和最大迭代次数对模型进行迭代训练。本方案通过在编码器中添加多头多层注意力机制可以有效地捕获局部和全局依赖关系，同时保留序列信息，并通过在解码模块中添加两个残差连接，来防止解码过程中的梯度消失问题以及保证多样性避免模型崩溃。

Description

基于多源多维数据的信息预测模型构建方法、装置及应用

技术领域

本申请涉及深度学习领域，特别是涉及一种基于多源多维数据的信息预测模型的构建方法、装置及应用。

背景技术

对数据进行汇总训练可以采用Transformer模型，Transformer模型的关键思想是注意力机制，它允许模型在处理输入序列时同时考虑序列中的位置，这种机制使得模型能够更好的捕捉输入序列中的关系和依赖关系，从而更好地理解和生成文本，Transformer模型由编码器和解码器组成，编码器负责将输入序列转化为一系列的高维表示，而解码器则使用这些表示来生成目标序列，每个编码器和解码器层中都包含多个自注意力机制和前馈神经网络，当数据来源多，数据量大时，在Transformer在残差模块之间放置层归一化会导致输出层附近参数的预期梯度很大，从而造成梯度消失，在Transformer的注意力和全连接层之前放置层归一化虽然可以解决梯度消失问题，但是会导致表征崩溃。

综上所述，亟需一种可以对多源多维的数据进行整合训练且能更好地控制预期梯度，防止表征崩溃，并且保障数据安全的方法。

发明内容

本申请实施例提供了一种基于多源多维数据的信息预测模型构建方法、装置及应用，本方案通过在编码器中添加多头多层注意力机制可以有效地捕获局部和全局依赖关系，同时保留序列信息，并通过在解码模块中添加两个残差连接，来防止解码过程中的梯度消失问题以及保证多样性避免模型崩溃。

第一方面，本申请实施例提供了一种基于多源多维数据的信息预测模型构建方法，所述方法包括：

构建信息预测模型，所述信息预测模型包括依次串联的编码模块以及解码模块；

获取至少一企业的多维数据，根据所述多维数据标记对应的预测信息后将所述训练样本转换为嵌入矩阵输入到所述信息预测模型；

所述编码模块由多个相同的transformer编码器串联组成，所述编码器使用多头多层注意力机制对所述嵌入矩阵进行特征提取得到编码向量，所述多头多层注意力机制为多个卷积注意力机制并行组成，将所述编码向量作为下一个编码器的输入，最后一个编码器的输出为输入张量；

所述解码模块由多个解码器组成，所述解码器的输入为所述输入张量以及所述嵌入矩阵，所述解码器通过非平稳注意力机制对所述输入张量进行处理得到注意结果，所述注意结果与所述输入张量进行特征相加后进行归一化得到第一归一结果，所述注意结果与所述嵌入矩阵进行特征相加得到第二归一结果，将所述第一归一结果与所述第二归一结果进行特征相加得到第三归一结果，所述第三归一结果经过多层感知机得到多层感知结果，所述多层感知结果与所述第三归一结果进行特征相加得到新的输入张量，新的输入张量作为下一个解码器的输入张量，最后一个解码模块的输出为所述信息预测模型的预测结果；

设置损失函数以及最大迭代次数，对所述信息预测模型进行迭代训练直到所述信息预测模型满足迭代次数或模型的损失函数满足设置条件，保存信息预测模型的参数结束训练得到训练好的信息预测模型。

第二方面，本申请实施例提供了一种基于多源多维数据的信息预测方法，包括：

获取至少一企业的多维数据，将多维数据转换为嵌入矩阵输入到第一方面训练好的信息预测模型中，所述信息预测模型包括依次串联的编码模块以及解码模块；

所述编码模块有多个相同的transformer编码器串联组成，所述编码器使用多头多层注意力机制对所述嵌入矩阵进行特征提取得到编码向量，所述多头多层注意力机制为多个卷积注意力机制并行组成，将所述编码向量作为下一个编码器的输入，最后一个编码器的输出为输入张量；

所述解码模块由多个解码器组成，所述解码器的输入为所述输入张量以及所述嵌入矩阵，所述解码器通过非平稳注意力机制对所述输入张量进行处理得到注意结果，所述注意结果与所述输入张量进行特征相加后进行归一化得到第一归一结果，所述注意结果与所述嵌入矩阵进行特征相加得到第二归一结果，将所述第一归一结果与所述第二归一结果进行特征相加得到第三归一结果，所述第三归一结果经过多层感知机得到多层感知结果，所述多层感知结果与所述第三归一结果进行特征相加得到新的输入张量，新的输入张量作为下一个解码器的输入张量，最后一个解码模块的输出为所述信息预测模型的预测结果。

第三方面，本申请实施例提供了一种基于多源多维数据的信息预测模型构建方法装置，包括：

构建模块：构建信息预测模型，所述信息预测模型包括依次串联的编码模块以及解码模块；

输入模块：获取至少一企业的多维数据，根据所述多维数据标记对应的预测信息后将所述训练样本转换为嵌入矩阵输入到所述信息预测模型；

编码模块：所述编码模块由多个相同的transformer编码器串联组成，所述编码器使用多头多层注意力机制对所述嵌入矩阵进行特征提取得到编码向量，所述多头多层注意力机制为多个卷积注意力机制并行组成，将所述编码向量作为下一个编码器的输入，最后一个编码器的输出为输入张量；

解码模块：所述解码模块由多个解码器组成，所述解码器的输入为所述输入张量以及所述嵌入矩阵，所述解码器通过非平稳注意力机制对所述输入张量进行处理得到注意结果，所述注意结果与所述输入张量进行特征相加后进行归一化得到第一归一结果，所述注意结果与所述嵌入矩阵进行特征相加得到第二归一结果，将所述第一归一结果与所述第二归一结果进行特征相加得到第三归一结果，所述第三归一结果经过多层感知机得到多层感知结果，所述多层感知结果与所述第三归一结果进行特征相加得到新的输入张量，新的输入张量作为下一个解码器的输入张量，最后一个解码模块的输出为所述信息预测模型的预测结果；

训练模块：设置损失函数以及最大迭代次数，对所述信息预测模型进行迭代训练直到所述信息预测模型满足迭代次数或模型的损失函数满足设置条件，保存信息预测模型的参数结束训练得到训练好的信息预测模型。

第四方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行一种基于多源多维数据的信息预测模型构建方法或一种基于多源多维数据的信息预测方法。

第五方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括一种基于多源多维数据的信息预测模型构建方法或一种基于多源多维数据的信息预测方法。

本发明的主要贡献和创新点如下：

本方案通过在编码模块中添加多头多层卷积注意力机制，多头多层卷积注意力在保留文本序列信息的前提下将每个上下文信息从复杂词空间转换为信息量更大的卷积滤波器空间，并且能够有效地捕获局部和全局的依赖关系，同时保留序列信息；本方案在解码器和编码器中添加两个层归一化，使用层归一化能够更好的适应序列数据的变化，避免了由于不同批次均值和方差的不同导致的问题，并且在解码器中设置两个残差连接，一个前残差连接用来防止梯度消失，另一个残差连接用来保持多样性从而避免模型崩溃，从而达到更好的训练效果。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种基于多源多维数据的信息预测模型的构建方法的流程示意图；

图2是根据本申请实施例的多头多层卷积注意力的结构示意图；

图3是根据本申请实施例的解码器的结构示意图；

图4是根据本申请实施例的非平稳注意力机制示意图；

图5是根据本申请实施例的一种基于多源多维数据的信息预测模型装置的结构框图；

图6是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本申请实施例提供了一种基于多源多维数据的信息预测模型构建方法，具体地，参考图1，所述方法包括：

在一些实施例中，在“根据所述多维数据标记对应的预测信息后将所述训练样本转换为嵌入矩阵输入到所述信息预测模型”步骤中，获取所述训练样本的输入序列和与所述输入序列对应的位置编码，将所述输入序列转换为向量表示结合所述位置编码得到嵌入矩阵输入到所述信息预测模型中。

具体的，在所述编码器中添加与序列对应的位置编码可以帮助模型理解每一单词、句子在序列中的相对位置。

具体的，所述位置编码的维度与所述输入序列的维度相同。

在一些实施例中，在“所述编码器使用多头多层注意力机制对所述嵌入矩阵进行特征提取得到编码向量”步骤中，所述多头多层卷积注意力机制的结构如图2所示，使用不同大小的卷积核对嵌入矩阵中的多个连续子矩阵进行卷积得到特征图集合，将所述特征图集合中每一特征图的特征映射值作为注意力权值，使用注意力权值对语义卷积滤波器进行加权得到与每一特征图对应的局部特征，这些局部特征为所述编码向量。

进一步的，对一特征图进行最大池化得到嵌入矩阵的全局特征，使用所述全局特征对所述语义卷积滤波器进行调节。

具体的，由于transformer中的自注意力机制会考虑所有元素的加权平均操作，分散注意力分布，所以transformer可能会忽略文本分类任务很重要的相邻元素之间的关系，所以本方案利用卷积滤波器提取语义，将嵌入矩阵从复杂的词空间转换到卷积滤波器空间，并通过最大池化获取全局特征从而有效地捕获局部和全局依赖关系，同时保留序列信息。

具体的，通过m种不同大小的卷积核F来对所述嵌入矩阵中的n阶子矩阵做卷积操作得到特征图集合，每一特征图中的值表示上下文和卷积滤波器之间的语义相关性，将特征图中的特征映射值作为注意权值并对语义卷积滤波器进行集中处理，可以在保留序列信息的前提下，将嵌入矩阵从复杂的词空间转换为信息量更大的卷积滤波空间。

具体的，通过多头多层卷积注意力来捕获不同子词空间中的重要上下文特征，不同子词空间中的上下文信息具有不同的贡献，从而使得模型能够有效地捕获更高级别的语义，由于上层涉及更加广泛地卷积上下文，因此能够引入更多抽象和判别性的表示。

在一些实施例中，所述解码器的结构如图3所示，所述解码器中的归一化为层归一化。

在所述解码器采用双重残差模块，并使用层归一化的方式对每一步骤的计算结果进行归一，这是因为层归一化更适用于序列数据，在NLP任务重，输入通常是一系列标记的序列，例如单词或字符，这种序列数据通常具有可变的长度和不同的分布，与固定大小的图像批次相比，序列的不同位置可能具有截然不同的统计属性，因此使用批归一化可能会导致不同位置的特征之间出现耦合，相比之下，层归一化可以更好地适应序列数据的变化。

层归一化避免了对小批次大小的依赖：在批归一化中，对于每个小批次，特征的均值和方差是在该小批次上计算的。对于小批次，可能会出现均值和方差计算上的不准确性，从而导致性能下降。相比之下，层归一化不涉及小批次的计算，而是仅使用样本的特征，这使得它对小批次大小的依赖更小。

层归一化更适用于深度网络：随着神经网络的加深，批归一化计算的均值和方差将越来越不可靠，这会导致性能下降。而层归一化则不会受到这个问题的影响，因为它在每个特征上进行归一化，而不是在整个批次上计算。

层归一化可以更好地适应动态计算图：在深度学习中，一些计算图是动态的，其中图的结构在运行时可以更改。批归一化的计算依赖于图的结构，因此在这些情况下可能会遇到困难。相比之下，层归一化只依赖于每个特征的值，因此在动态计算图的环境下更容易使用。

在一些实施例中，所述解码器包括两个残差连接，第一残差连接为所述注意结果与所述输入张量进行特征相加，第二残差连接为所述注意结果与所述嵌入矩阵进行特征相加。

具体的，第一残差连接可以有效避免梯度消失的问题，第二残差连接可以保持多样性以避免崩溃问题。

在一些实施例中，在“所述解码器通过非平稳注意力机制对所述输入张量进行处理得到注意结果”步骤中，所述非平稳注意力机制如图4所示，先根据所述输入张量的序列长度来计算序列均值与序列方差，根据序列均值与序列方差计算输入到非平稳注意力机制中的Q’矩阵、K’矩阵以及V’矩阵，并在非平稳注意力机制中引入第一尺度变化因子以及第二尺度变化因子，使用第一第一尺度变化因子以及第二尺度变化因子对Q’矩阵和K’矩阵的乘积进行尺度重塑得到重塑结果，再通过激活函数对重塑结果进行输出得到输出结果，将输出结果与V’矩阵进行矩阵相乘得到注意结果。

具体的，对于每个输入张量的序列，利用输入序列的均值和方差将其转换为0均值1方差的高斯分布以此来消除不同时间窗口时间序列统计量的差异，公式（3）为输入序列的序列均值，S为输入序列的长度，xi是输入序列的第i个输入，公式（4）是输入序列的序列方差，公式（5）用来计输入序列的第i个输入，表示元素级乘法。

进一步的，根据序列均值以及序列方差计算Q’矩阵和K’矩阵的转置矩阵的乘积如公式（8）所示，由SoftMax激活可以用公式（9）表示，结合公式（8）和公式（9）可以得到公式（10）。

其中，I是一个全为1的向量。

具体的，所述第一尺度变化因子为因子缩放标量τ，所述第二尺度变化因子为平移向量Δ，所述第一尺度变化因子与所述第二尺度变化因子在所有的非平稳注意机制中共享，τ和Δ的计算方式如下所示：

其中，MLP表示多层感知机。

具体的，所述非平稳注意力机制从平稳化序列Q’、K’和非平稳化序列x、、/>中学习时间依赖关系，并乘以平稳化的值V’，具体公式如下：

具体的，本方案采用非平稳注意力机制取代了原始的注意力机制，以近似从非平稳序列中学习到的注意力，它使用学习到的非平稳因子τ和Δ来重新调整当前的时间依赖权重。

具体的，在解码器中利用序列均值以及序列方差来进行反向处理去归一化从而获得模型的最终预测结果，具体公式如公式（6）和公式（7）所示：

其中，表示模型的最终预测结果。

在一些具体实施例中，随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch，选定激活函数RELU，选定损失函数Loss以及当前数据下最大迭代次数（代数）；输入数据反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

具体的，搜集一批新的数据，让模型去测试这一批数据，将误报作为负样本，随后这些没测试到结果的数据进行数据标注和数据增强，然后在原有模型的基础上在训练出一个新的模型，测试模型效果检查准确度是否达标，如果新的模型未达标预期准确度，则加入新的数据并对网络调整参数训练，如果模型精度已经达到要求并且在目前训练数据下最优时停止训练，循环这个步骤以达到模型适合实际环境中样本的复杂度。

具体的，由于本方案采用的是来自不同企业的多维数据，所以本方案要保证每一企业数据的安全性。

在一些具体实施例中，先将多个企业的多源数据进行样本对齐，方便后续训练，本方案采用隐私集合求交集的方式进行样本对齐。

具体的，所述隐私集合求交集实现了在各方都不泄露自己的样本数据的前提下，完成一次对大家共有样本的确认，完成PSI后，大家确认了一部分"多方共有"的样本，后续的训练就都围绕着这批多方共有的样本进行，而其他的样本数据，则不再参与后续的过程。

在一些具体实施例中，由于本方案使用的是多家企业的多维数据，所以为了保护每一企业的数据隐私，对每一企业的多维数据进行加密，使每一企业的多源数据不对外泄漏。

在一些实施例中，采用纵向联邦学习的方式来使用不同企业的多维数据对所述信息预测模型进行训练，构建一个联邦服务器，企业将自身的多维数据加密后发送给所述联邦服务器，所述联邦服务器将加密后的多维数据发送给每一企业，每一企业使用接收到的加密后的多维数据结合自身的多维数据对同一信息预测模型进行训练。

在一些具体实施例中，本方案使用“UCI Adult”公开数据集来对信息预测模型进行训练，这个数据集中的数据来自1994年的美国人口普查数据，数据集中包含我们需要的各个维度。数据集分为了训练集和测试集，训练集包含了32560条数据，测试集包含了16280条数据。数据预处理包含以下几步：1.填充数据中的缺失值。2.将离散值变为one-hot向量。3.求出各个连续值的均值与方差，对连续值进行标准化处理。处理完的数据集，特征维度为107维，外加1维的标签。将各个维度的数据按照场景中的要求分别部署在三个独立的节点上，以完成纵向联邦学习的场景设置。在整个训练过程中，保证每个节点都绝对不对外发送原始数据。

在一些具体实施例中，本方案的系统实现使用Facebook的开源框架CrypTen进行，Crypten是Facebook AI Research开发的一个Python库，用于实现安全多方计算（SecureMulti-Party Computation，SMPC）和纵向联邦学习（Vertical Federated Learning，VFL）等隐私保护技术。Crypten提供了一组高级API，使得开发者可以使用Python编写安全的机器学习算法，而无需了解底层的加密协议和安全协议。Crypten支持使用加密技术对张量进行加密和解密，同时提供了一组常用的张量操作，例如加法、乘法、卷积和池化等。Crypten还支持使用深度学习框架PyTorch进行模型训练和推理，同时提供了一组高级API，例如FederatedDataset和FederatedDataLoader，用于实现纵向联邦学习。Crypten的优点包括易于使用、高效、可扩展和灵活。系统搭建：使用3台不同的机器作为企业A、B、C，每台机器可以互联。将切分后的数据用numpy保存为.npz格式，放在3台不同的机器上，训练集命名为train.npz，测试集命名为test.npz。接下来，需要配置每个参与方的环境变量。首先，我们需要设置参与方数量，即WORLD_SIZE，这里为3。然后，需要为每个企业分配一个编号，即RANK。现在总共有3个企业，所以RANK需要为0、1、2。我们设A的RANK为0，B的RANK为1，C的RANK为2。最后，我们需要配置一个各个参与方用来“交会”的地址，即RENDEZVOUS。这个地址用来在各个企业在初始化时，互相确认身份与连接。这个地址可以为一个RANK0机器上的tcp地址，也可以为一个共享文件系统的文件名（需要各个参与方都能连接）。这里，我们选择使用tcp地址，即RENDEZVOUS="tcp://{ip}:{port}"。在A、B、C三台机器上配置好各自的环境变量，即可开始运行代码。

实施例二

一种基于多源多维数据的信息预测方法，包括：

获取至少一企业的多维数据，将多维数据转换为嵌入矩阵输入到实施例一所述训练好的信息预测模型中，所述信息预测模型包括依次串联的编码模块以及解码模块；

所述编码模块由多个解码器组成，所述解码器的输入为所述输入张量以及所述嵌入矩阵，所述解码器通过非平稳注意力机制对所述输入张量进行处理得到注意结果，所述注意结果与所述输入张量进行特征相加后进行归一化得到第一归一结果，所述注意结果与所述嵌入矩阵进行特征相加得到第二归一结果，将所述第一归一结果与所述第二归一结果进行特征相加得到第三归一结果，所述第三归一结果经过多层感知机得到多整感知结果，所述多层感知结果与所述第三归一结果进行特征相加得到新的输入张量，新的输入张量作为下一个解码器的输入张量，最后一个解码模块的输出为所述信息预测模型的预测结果。

实施例三

基于相同的构思，参考图5，本申请还提出了一种基于多源多维数据的信息预测模型构建装置，包括：

解码模块：所述编码模块由多个解码器组成，所述解码器的输入为所述输入张量以及所述嵌入矩阵，所述解码器通过非平稳注意力机制对所述输入张量进行处理得到注意结果，所述注意结果与所述输入张量进行特征相加后进行归一化得到第一归一结果，所述注意结果与所述嵌入矩阵进行特征相加得到第二归一结果，将所述第一归一结果与所述第二归一结果进行特征相加得到第三归一结果，所述第三归一结果经过多层感知机得到多整感知结果，所述多层感知结果与所述第三归一结果进行特征相加得到新的输入张量，新的输入张量作为下一个解码器的输入张量，最后一个解码模块的输出为所述信息预测模型的预测结果；

实施例四

本实施例还提供了一种电子装置，参考图6，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种基于多源多维数据的信息预测模型构建方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是企业的多维数据等，输出的信息可以是信息预测结果等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

S101、构建信息预测模型，所述信息预测模型包括依次串联的编码模块以及解码模块；

S102、获取至少一企业的多维数据，根据所述多维数据标记对应的预测信息后将所述训练样本转换为嵌入矩阵输入到所述信息预测模型；

S103、所述编码模块由多个相同的transformer编码器串联组成，所述编码器使用多头多层注意力机制对所述嵌入矩阵进行特征提取得到编码向量，所述多头多层注意力机制为多个卷积注意力机制并行组成，将所述编码向量作为下一个编码器的输入，最后一个编码器的输出为输入张量；

S104、所述编码模块由多个解码器组成，所述解码器的输入为所述输入张量以及所述嵌入矩阵，所述解码器通过非平稳注意力机制对所述输入张量进行处理得到注意结果，所述注意结果与所述输入张量进行特征相加后进行归一化得到第一归一结果，所述注意结果与所述嵌入矩阵进行特征相加得到第二归一结果，将所述第一归一结果与所述第二归一结果进行特征相加得到第三归一结果，所述第三归一结果经过多层感知机得到多整感知结果，所述多层感知结果与所述第三归一结果进行特征相加得到新的输入张量，新的输入张量作为下一个解码器的输入张量，最后一个解码模块的输出为所述信息预测模型的预测结果；

S105、设置损失函数以及最大迭代次数，对所述信息预测模型进行迭代训练直到所述信息预测模型满足迭代次数或模型的损失函数满足设置条件，保存信息预测模型的参数结束训练得到训练好的信息预测模型。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图6中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于多源多维数据的信息预测模型的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多源多维数据的信息预测模型的构建方法，其特征在于，在“根据所述多维数据标记对应的预测信息后将所述训练样本转换为嵌入矩阵输入到所述信息预测模型”步骤中，获取所述训练样本的输入序列和与所述输入序列对应的位置编码，将所述输入序列转换为向量表示结合所述位置编码得到嵌入矩阵输入到所述信息预测模型中。

3.根据权利要求1所述的一种基于多源多维数据的信息预测模型的构建方法，其特征在于，在“所述编码器使用多头多层注意力机制对所述嵌入矩阵进行特征提取得到编码向量”步骤中，使用不同大小的卷积核对嵌入矩阵中的多个连续子矩阵进行卷积得到特征图集合，将所述特征图集合中每一特征图的特征映射值作为注意力权值，使用注意力权值对语义卷积滤波器进行加权得到与每一特征图对应的局部特征，这些局部特征为所述编码向量。

4.根据权利要求3所述的一种基于多源多维数据的信息预测模型的构建方法，其特征在于，对一特征图进行最大池化得到嵌入矩阵的全局特征，使用所述全局特征对所述语义卷积滤波器进行调节。

5.根据权利要求1所述的一种基于多源多维数据的信息预测模型的构建方法，其特征在于，所述解码器中的归一化为层归一化。

6.根据权利要求1所述的一种基于多源多维数据的信息预测模型的构建方法，其特征在于，在“所述解码器通过非平稳注意力机制对所述输入张量进行处理得到注意结果”步骤中，先根据所述输入张量的序列长度来计算序列均值与序列方差，根据序列均值与序列方差计算输入到非平稳注意力机制中的Q’矩阵、K’矩阵以及V’矩阵，并在非平稳注意力机制中引入第一尺度变化因子以及第二尺度变化因子，使用第一尺度变化因子以及第二尺度变化因子对Q’矩阵和K’矩阵的乘积进行尺度重塑得到重塑结果，再通过激活函数对重塑结果进行输出得到输出结果，将输出结果与V’矩阵进行矩阵相乘得到注意结果。

7.一种基于多源多维数据的信息预测方法，其特征在于，包括以下步骤：

获取至少一企业的多维数据，将多维数据转换为嵌入矩阵输入到权利要求1训练好的信息预测模型中，所述信息预测模型包括依次串联的编码模块以及解码模块；

8.基于多源多维数据的信息预测模型构建装置，其特征在于，包括以下步骤：

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1-6任一所述的一种基于多源多维数据信息预测模型的构建方法或权利要求7所述的一种基于多源多维数据的信息预测方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1-6任一所述的一种基于多源多维数据的信息预测模型构建方法或权利要求7所述的一种基于多源多维数据的信息预测方法。