CN116522099A - 时序数据自监督预训练模型、构建方法、设备及存储介质 - Google Patents
时序数据自监督预训练模型、构建方法、设备及存储介质 Download PDFInfo
- Publication number
- CN116522099A CN116522099A CN202310511445.5A CN202310511445A CN116522099A CN 116522099 A CN116522099 A CN 116522099A CN 202310511445 A CN202310511445 A CN 202310511445A CN 116522099 A CN116522099 A CN 116522099A
- Authority
- CN
- China
- Prior art keywords
- data
- features
- mask
- feature
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 84
- 238000010276 construction Methods 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000007246 mechanism Effects 0.000 claims abstract description 29
- 230000000873 masking effect Effects 0.000 claims abstract description 26
- 230000003993 interaction Effects 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 22
- 238000005457 optimization Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- HSFWRNGVRCDJHI-UHFFFAOYSA-N alpha-acetylene Natural products C#C HSFWRNGVRCDJHI-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 125000002534 ethynyl group Chemical group [H]C#C* 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种时序数据自监督预训练模型、构建方法、设备及存储介质,该构建方法包括:构建特征提取模块,特征提取模块用于提取进行部分掩码后的输入时序数据的数据特征;构建动态掩码特征生成器,动态掩码特征生成器用于基于自注意力机制为数据特征生成动态掩码特征,并结合动态掩码特征和数据特征生成组合特征;构建频域掩码预测模块,频域掩码预测模块用于根据组合特征对输入时序数据进行预测,获得重建数据;基于特征提取模块、动态掩码特征生成器和频域掩码预测模块构建预训练模型。通过实施本发明,为预训练模型输入特定于输入实例的知识,提高了预训练模型的精度。
Description
技术领域
本发明涉及时序数据预训练技术领域,尤其涉及一种时序数据自监督预训练模型、构建方法、设备及存储介质。
背景技术
近年来,时序数据分析在许多领域发挥着重要的作用,包括金融市场、需求预测、气候建模等。电网场景下配置了丰富的传感器装置,产生了海量的在线监测时序数据,通过时序预测等时序分析技术可以有效的检测出电网场景下的异常状态,从而提升故障诊断的智能化水平,提前防范重大故障的发生,有力支撑新型电力系统建设。
自监督训练作为一种通用的模型预训练学习范式,可以学习到数据的关键信息和固有模式,而忽略掉数据中存在的噪声,有利于模型泛化能力的提升。针对时序数据,目前学界内的主流自监督预训练方法分为判别式方法和生成式方法两种类型,其中判别式方法基于对比学习,该类方法将数据分别与正例样本和负例样本在特征空间进行对比,从而学习到样本的特征表示;而生成式方法则基于掩码生成,该类方法通过自编码器将数据样本编码成特征再解码重构,特征重构效果表明了学习特征的表示能力。相较于判别式方法,生成式方法在训练范式上与时序预测范式保持了较高的一致性,所以拥有更佳的预测准确率。
但是,现有生成式方法仅关注粗粒度的掩码建模方式,预训练过程中对所有输入数据不加区别地使用共享掩码特征进行掩码重建,忽略了输入数据实例级别的细粒度上下文信息,导致了时序数据的数据特征的提取结果欠佳。
发明内容
有鉴于此,本发明实施例提供了一种时序数据自监督预训练模型、构建方法、设备及存储介质,以解决现有技术中时序数据的数据特征的提取结果欠佳的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供了一种时序数据自监督预训练模型的构建方法,包括:构建特征提取模块,所述特征提取模块用于提取进行部分掩码后的输入时序数据的数据特征;构建动态掩码特征生成器,所述动态掩码特征生成器用于基于自注意力机制为所述数据特征生成动态掩码特征,并结合所述动态掩码特征和所述数据特征生成组合特征;构建频域掩码预测模块,所述频域掩码预测模块用于根据所述组合特征对所述输入时序数据进行预测,获得重建数据;基于所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块构建预训练模型。
可选地,时序数据自监督预训练模型的构建方法还包括:构建模型优化模块,所述模型优化模块用于根据所述重建数据和所述输入时序数据的误差损失调整所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块中的参数。
本发明实施例第二方面提供了一种时序数据自监督预训练模型,包括:特征提取模块,用于提取进行部分掩码后的输入时序数据的数据特征;动态掩码特征生成器,用于基于自注意力机制为所述数据特征生成动态掩码特征,并结合所述动态掩码特征和所述数据特征生成组合特征;频域掩码预测模块,根据所述组合特征对所述输入时序数据进行预测,获得重建数据。
可选地,时序数据自监督预训练模型还包括:模型优化模块,用于根据所述重建数据和所述输入时序数据的误差损失对所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块中的参数进行调整。
可选地,所述动态掩码特征生成器包括:特征填充层,用于在所述数据特征的掩码时间点上填充预设的共享掩码特征;第一位置编码层,用于为填充预设的共享掩码特征后的数据特征添加时序位置信息;降维线性层,用于将添加时序位置信息后的数据特征进行降维处理;第一Transformer块,用于基于自注意力机制对降维处理后的数据特征进行信息交互;升维线性层,用于对进行信息交互后的数据特征进行升维处理,得到所述动态掩码特征;特征组合层,用于将所述动态掩码特征和所述数据特征进行时间点上的组合,得到组合特征。
可选地,所述频域掩码预测模块,包括:离散傅里叶变换层,用于基于离散傅里叶变换将所述组合特征变换到频域中;频域线性层,用于在频域中对所述组合特征进行信息交互处理,得到交互特征;离散傅里叶逆变换层,用于基于离散傅里叶逆变换将所述交互特征变换回时域中,得到所述交互特征对应的时域特征;线性预测层,用于对所述时域特征进行输入时序数据的重建预测,获取重建数据。
可选地,所述特征提取模块包括:线性嵌入层,用于将输入时序数据映射到特征空间,得到所述输入时序数据在每个时间点的特征;第二位置编码层,用于为每个时间点的特征添加时序位置信息;掩码模块,用于根据预设规则对部分时间点的特征进行特征掩码;第二Transformer块,用于基于自注意力机制将进行特征掩码后的未掩码特征进行信息交互,得到增强后的未掩码特征,并将增强后的未掩码特征作为输入时序数据的数据特征。
可选地,所述模型优化模块包括:误差计算模块,用于基于预设损失函数计算掩码位置上的所述重建数据和所述输入时序数据的误差损失;调整模块,用于基于所述损失误差对所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块中的参数进行调整。
本发明实施例第三方面提供一种时序数据自监督预训练模型的构建装置,包括:第一构建模块,用于构建特征提取模块,所述特征提取模块用于提取进行部分掩码后的输入时序数据的数据特征;第二构建模块,用于构建动态掩码特征生成器,所述动态掩码特征生成器用于基于自注意力机制为所述数据特征生成动态掩码特征,并结合所述动态掩码特征和所述数据特征生成组合特征;第三构建模块,用于构建频域掩码预测模块,所述频域掩码预测模块用于根据所述组合特征对所述输入时序数据进行预测,获得重建数据;第四构建模块,用于基于所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块构建预训练模型。
可选地,时序数据自监督预训练模型的构建装置还包括:第五构建模块,用于构建模型优化模块,所述模型优化模块用于根据所述重建数据和所述输入时序数据的误差损失调整所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块中的参数。
本发明实施例第四方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面任一项所述的时序数据自监督预训练模型的构建方法。
本发明实施例第五方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面任一项所述的时序数据自监督预训练模型的构建方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例提供的时序数据自监督预训练模型、构建方法、设备及存储介质,通过构建特征提取模块,所述特征提取模块用于提取进行部分掩码后的输入时序数据的数据特征;构建动态掩码特征生成器,所述动态掩码特征生成器用于基于自注意力机制为所述数据特征生成动态掩码特征,并结合所述动态掩码特征和所述数据特征生成组合特征;构建频域掩码预测模块,所述频域掩码预测模块用于根据所述组合特征对所述输入时序数据进行预测,获得重建数据;基于所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块构建预训练模型。在该构建方法中,针对输入时序数据的数据特征,通过自注意力机制为掩码后的数据特征生成动态掩码特征,从而为预训练模型输入特定于输入实例的知识,提高了预训练模型的精度。
附图说明
为了更清楚地表达说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中时序数据自监督预训练模型的构建方法的流程图;
图2为本发明实施例中时序数据自监督预训练模型的结构示意图;
图3为本发明实施例中时序数据自监督预训练模型的工作流程图;
图4为本发明实施例中特征提取模块的结构示意图;
图5为本发明实施例中特征提取模块的工作流程图;
图6为本发明实施例中动态掩码特征生成器的结构示意图;
图7为本发明实施例中动态掩码特征生成器填充共享掩码特征的示意图;
图8为本发明实施例中动态掩码特征生成器的工作流程图;
图9为本发明实施例中频域掩码预测模块的结构示意图;
图10为本发明实施例中频域掩码预测模块的工作流程图;
图11为本发明实施例中模型优化模块的工作流程图;
图12为本发明实施例中电子设备的结构示意图;
图13为本发明实施例中计算机可读存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
正如在背景技术中的问题,即现有生成式方法仅关注粗粒度的掩码建模方式,预训练过程中对所有输入数据不加区别地使用共享掩码特征进行掩码重建,忽略了输入数据实例级别的细粒度上下文信息,导致了时序数据特征的提取结果欠佳。有鉴于此,本发明实施例提出了一种时序数据自监督预训练模型的构建方法,针对时序数据特性,通过动态掩码特征生成器为每个输入实例生成动态掩码特征,从而为模型引入特定于输入实例的知识,实现了电网时序数据的高精度掩码建模。
本发明实施例提供的一种时序数据自监督预训练模型的构建方法,如图1所示,该构建方法包括:
步骤S100:构建特征提取模块,特征提取模块用于提取进行部分掩码后的输入时序数据的数据特征。
具体地,输入时序数据可以是电网时序数据,例如油色谱数据(甲烷、乙炔等气体含量)、电气监测量(电压、电流等)、变压器油温、用电负荷等。
特征提取模块主要由线性嵌入层、位置编码层、掩码模块和Transformer块组成。特征提取模块的工作流程如图5所示,通过线性嵌入层将输入时序数据映射到特征空间,在特征空间中每一个时间点对应生成一个特征向量,得到输入时序数据在每个时间点的特征;位置编码层为每个时间点的特征添加时序位置信息,添加时序位置信息的目的是让每个时间点上的特征具有时序先后信息,使得后面特征交互过程中能够感知到时间点之间的距离;然后,掩码模块根据预设规则对部分时间点的特征进行特征掩码,例如随机选择固定比例时间点的位置进行特征掩码,保留未掩码时间点位置的特征,即保留未掩码特征;Transformer块基于自注意力机制将未掩码特征进行信息交互,得到增强后的未掩码特征,并将增强后的未掩码特征作为输入时序数据的数据特征,从而实现输入时序数据特征的提取。
步骤S200:构建动态掩码特征生成器,动态掩码特征生成器用于基于自注意力机制为数据特征生成动态掩码特征,并结合动态掩码特征和数据特征生成组合特征。
具体地,动态掩码特征生成器包括特征填充层、位置编码层、降维线性层、Transformer块、升维线性层和特征组合层,动态掩码特征生成器的工作流程如图8所示。特征填充层用于在数据特征的掩码时间点上填充预设的共享掩码特征,具体的计算方式为:
Tai,k=Pad(V,M,maskd_index)
Tai,k表示通过复制操作扩展预设的共享掩码特征M,并将共享掩码特征M在数据特征即增强后的未掩码特征V之间的掩码时间点位置(maskd_index)上进行填充。位置编码层用于为填充预设的共享掩码特征后的数据特征添加时序位置信息,实现共享掩码特征的差异化。降维线性层用于将添加时序位置信息后的数据特征进行降维处理,减少Transformer块的计算复杂度,降维后的数据特征通过Transformer块的自注意力机制进行信息交互,并通过升维线性层实现原始维度的复原,得到动态掩码特征。降维线性层、Transformer块和升维线性层的具体计算方式分别如下所示:
Y=TransBlock(X)
其中,Wred和Bred分别为降维线性层的权重和偏置参数,l为输入时序长度,d为数据特征的向量维度,ds为降维后的数据特征的向量维度,i为时间点索引,j为输入特征的数值索引,k为输出特征的数值索引,X为降维后时序特征,TransBlock为Transformer块,Y为信息交互后的特征,/>Binc∈Rl×d,Winc和Binc分别为升维线性层的权重和偏置参数,Z为动态掩码特征。在获得动态掩码特征后,特征组合层将动态掩码特征和数据特征即增强后的未掩码特征进行时间点上的组合,得到组合特征。
步骤S300:构建频域掩码预测模块,频域掩码预测模块用于根据组合特征对输入时序数据进行预测,获得重建数据。
具体地,频域掩码预测模块包括离散傅里叶变换层、频域线性层、离散傅里叶逆变换层和线性预测层,频域掩码预测模块的工作流程如图10所示。首先,离散傅里叶变换层基于离散傅里叶变换将组合特征变换到频域中;其次,通过频域线性层在频域中对组合特征进行信息交互处理,得到交互特征;然后离散傅里叶逆变换层基于离散傅里叶逆变换将交互特征变换回时域中,得到交互特征对应的时域特征。离散傅里叶变换层、频域线性层和离散傅里叶逆变换层这三层整体的计算方式如下:
其中,F和F-1分别是离散傅里叶变换和逆变换,C∈Rl×d为输入组合特征,F(C)∈Rn ×d为频域特征,Wf∈Rn×d×d和Bf∈Rn×d分别为频域线性层的权重和偏置参数,Tbh,k∈Rl×d为变换后生成的时域特征,h为频域值索引。
最后,时域特征通过线性预测层进行输入时序数据的重建预测,获取重建数据。线性预测层具体的计算方式如下:
其中,Wt∈Rl×d×d和Bt∈Rl×d分别为线性预测层的权重和偏置参数,Pi,k为输入时序数据的重建预测数值,即重建数据。通过在频域空间内进行信息交互处理,能够基于关键频率信息对组合特征进行重建得到交互特征,从而有效避免了时序数据噪声的过拟合问题,提升时序提取特征的泛化能力。
步骤S400:基于特征提取模块、动态掩码特征生成器和频域掩码预测模块构建预训练模型。
具体地,预训练模型包括步骤S100至步骤S300中构建的特征提取模块、动态掩码特征生成器和频域掩码预测模块。需要了解的是,本发明实施实例中构建预训练模型的目的是获得预训练好的特征提取模块,特征提取模块可以用于例如时序预测任务等各种下游时序任务的特征提取,提取的特征用于各种下游时序任务的数据处理。
本发明实施例的时序数据自监督预训练模型的构建方法,通过构建特征提取模块,特征提取模块用于提取进行部分掩码后的输入时序数据的数据特征;构建动态掩码特征生成器,动态掩码特征生成器用于基于自注意力机制为数据特征生成动态掩码特征,并结合动态掩码特征和数据特征生成组合特征;构建频域掩码预测模块,频域掩码预测模块用于根据组合特征对输入时序数据进行预测,获得重建数据;基于特征提取模块、动态掩码特征生成器和频域掩码预测模块构建预训练模型。由此,在该构建方法中,针对输入时序数据的数据特征,通过自注意力机制为掩码后的数据特征生成动态掩码特征,从而为预训练模型输入特定于输入实例的知识,提高了预训练模型的精度。
在一实施例中,时序数据自监督预训练模型的构建方法还包括:
构建模型优化模块,模型优化模块用于根据重建数据和输入时序数据的误差损失调整特征提取模块、动态掩码特征生成器和频域掩码预测模块中的参数。
具体地,模型优化模块包括误差计算模块和调整模块,误差计算模块用于基于预设损失函数计算掩码位置上的重建数据和输入时序数据的误差损失;调整模块,用于基于损失误差对特征提取模块、动态掩码特征生成器和频域掩码预测模块中的参数进行调整。
模型优化模块的工作流程如图11所示。在模型优化过程中,误差计算模块仅在掩码位置上计算重建数据和输入时序数据的误差损失,例如有输入时序数据存在5个时间点上的特征,在时间点2和时间点4上进行掩码,则只需要计算时间点2和时间点4上的重建数据和输入时序数据的误差损失。具体地,预设损失函数可以采用均方损失误差,即预设损失函数可以表示为:
Lrec=MSE(pred[masked_index],target[masked_index])
其中,MSE为均方误差损失,pred和target分别为重建预测数值和目标数值,masked_index为掩码位置的时间步索引,Lrec为计算的误差损失。在其他实施例中,也可以采用其他的损失函数计算损失误差,本发明实施例对损失函数的具体选择不作限定。
在计算误差损失后,调整模块将误差损失的数值在预训练模型上反向传播,计算预训练模型中每个可更新参数的梯度,并按照梯度数值更新预训练模型中的所有参数,重复上述步骤,直到迭代次数达到阈值或前后两次损失误差的差距小于阈值。
在本发明实施例中,动态掩码特征生成器通过自注意力机制为掩码后的数据特征生成动态掩码特征,考虑了数据实例级别的细粒度上下文信息,为构建的预训练模型输入特定于输入实例的知识,从而为预训练模型输入特定于输入实例的知识,提高了预训练模型的精度,并且由于预训练模型输入了特定于输入实例的知识,频域掩码预测模块对输入时序数据进行预测获得重建数据更加准确,基于重建数据和输入时序数据的误差损失进行模型优化的效果更佳,从而使构建的特征提取模块能够提取具有强泛化能力的通用特征,在将特征提取模块应用在如时序预测等各种下游时序任务时,将大大提升下游时序任务的训练速度和预测精度。
本发明实施例还提供一种时序数据自监督预训练模型,如图2所示,该预训练模型包括:
特征提取模块,用于提取进行部分掩码后的输入时序数据的数据特征。
动态掩码特征生成器,用于基于自注意力机制为数据特征生成动态掩码特征,并结合动态掩码特征和数据特征生成组合特征。
频域掩码预测模块,根据组合特征对输入时序数据进行预测,获得重建数据。
本发明实施例的构建方法构建的预训练模型的工作流程如图3所示。特征提取模块将输入时序数据通过特征提取模块映射到特征空间,随机选择固定比例时间点的位置进行特征掩码,保留未掩码时间点位置的特征;基于未掩码时间点位置的特征,通过动态掩码特征生成器生成实例级的动态掩码特征,实现输入实例知识的引入;使用动态掩码特征在掩码时间步上完成填充,通过频域掩码预测模块实现输入时序数据的重建。
本发明实施例的时序数据自监督预训练模型,通过特征提取模块提取进行部分掩码后的输入时序数据的数据特征;动态掩码特征生成器基于自注意力机制为数据特征生成动态掩码特征,并结合动态掩码特征和数据特征生成组合特征;频域掩码预测模块根据组合特征对输入时序数据进行预测,获得重建数据。由此,针对输入时序数据的数据特征,通过自注意力机制为掩码后的数据特征生成动态掩码特征,从而为预训练模型输入特定于输入实例的知识,提高了预训练模型的精度。
在一实施例中,如图4,特征提取模块包括:线性嵌入层,用于将输入时序数据映射到特征空间,得到输入时序数据在每个时间点的特征;第二位置编码层,用于为每个时间点的特征添加时序位置信息;掩码模块,用于根据预设规则对部分时间点的特征进行特征掩码;第二Transformer块,用于基于自注意力机制将进行特征掩码后的未掩码特征进行信息交互,得到增强后的未掩码特征,并将增强后的未掩码特征作为输入时序数据的数据特征。
通过线性嵌入层将输入时序数据映射到特征空间,在特征空间中,每一个时间点对应生成一个特征向量,得到输入时序数据在每个时间点的特征;第二位置编码层为每个时间点的特征添加时序位置信息,添加时序位置信息的目的是让每个时间点上的特征具有时序先后信息,使得后面特征交互过程中能够感知到时间点之间的距离;然后,掩码模块根据预设规则对部分时间点的特征进行特征掩码,例如随机选择固定比例时间点的位置进行特征掩码,保留未掩码时间点位置的特征,即保留未掩码特征;第二Transformer块基于自注意力机制将未掩码特征进行信息交互,得到增强后的未掩码特征,并将增强后的未掩码特征作为输入时序数据的数据特征,从而实现输入时序数据特征的提取。
在一实施例中,如图6和图7所示,动态掩码特征生成器包括:特征填充层,用于在数据特征的掩码时间点上填充预设的共享掩码特征;第一位置编码层,用于为填充预设的共享掩码特征后的数据特征添加时序位置信息;降维线性层,用于将添加时序位置信息后的数据特征进行降维处理;第一Transformer块,用于基于自注意力机制对降维处理后的数据特征进行信息交互;升维线性层,用于对进行信息交互后的数据特征进行升维处理,得到动态掩码特征;特征组合层,用于将动态掩码特征和数据特征进行时间点上的组合,得到组合特征。
特征填充层用于在数据特征的掩码时间点上填充预设的共享掩码特征,具体的计算方式为:
Tai,k=Pad(V,M,maskd_index)
Tai,k表示通过复制操作扩展预设的共享掩码特征M,并将共享掩码特征M在数据特征即增强后的未掩码特征V之间的掩码时间点位置(maskd_index)上进行填充。第一位置编码层用于为填充预设的共享掩码特征后的数据特征添加时序位置信息,实现共享掩码特征的差异化。降维线性层用于将添加时序位置信息后的数据特征进行降维处理,减少Transformer块的计算复杂度,降维后的数据特征通过第一Transformer块的自注意力机制进行信息交互,并通过升维线性层实现原始维度的复原,得到动态掩码特征。降维线性层、Transformer块和升维线性层的具体计算方式分别如下所示:
Y=TransBlock(X)
其中,l为输入时序长度,d为数据特征的向量维度,ds为降维后的数据特征的向量维度,Wred和Bred分别为降维线性层的权重和偏置参数,X为降维后时序特征,TransBlock为Transformer块,Y为信息交互后的特征,Binc∈Rl×d,Winc和Binc分别为升维线性层的权重和偏置参数,i为时间点索引,j为输入特征的数值索引,k为输出特征的数值索引,Z为动态掩码特征。动态掩码特征生成器考虑了数据实例级别的细粒度上下文信息,通过自注意力机制为掩码后的数据特征生成动态掩码特征,为构建的预训练模型输入特定于输入实例的知识,从而使预训练后的特征提取模块能够提取具有强泛化能力的通用特征。
在获得动态掩码特征后,特征组合层将动态掩码特征和数据特征即增强后的为掩码特征进行时间点上的组合,得到组合特征。
在一实施例中,如图9所示,频域掩码预测模块,包括:离散傅里叶变换层,用于基于离散傅里叶变换将组合特征变换到频域中;频域线性层,用于在频域中对组合特征进行信息交互处理,得到交互特征;离散傅里叶逆变换层,用于基于离散傅里叶逆变换将交互特征变换回时域中,得到交互特征对应的时域特征;线性预测层,用于对时域特征进行输入时序数据的重建预测,获取重建数据。
首先,离散傅里叶变换层基于离散傅里叶变换将组合特征变换到频域中;其次,通过频域线性层在频域中对组合特征进行信息交互处理,得到交互特征;然后离散傅里叶逆变换层基于离散傅里叶逆变换将交互特征变换回时域中,得到交互特征对应的时域特征。离散傅里叶变换层、频域线性层和离散傅里叶逆变换层这三层整体的计算方式如下:
其中,F和F-1分别是离散傅里叶变换和逆变换,C∈Rl×d为输入组合特征,F(C)∈Rn ×d为频域特征,Wf∈Rn×d×d和Bf∈Rn×d分别为频域线性层的权重和偏置参数,Tbh,k∈Rl×d为变换后生成的时域特征,h为频域值索引。
最后,时域特征通过线性预测层进行输入时序数据的重建预测,获取重建数据。线性预测层具体的计算方式如下:
其中,Wt∈Rl×d×d和Bt∈Rl×d分别为线性预测层的权重和偏置参数,Pi,k为输入时序数据的重建预测数值,即重建数据。通过在频域空间内进行信息交互处理,能够基于关键频率信息对组合特征进行重建得到交互特征,从而有效避免了时序数据噪声的过拟合问题,提升时序提取特征的泛化能力。
在一实施例中,时序数据自监督预训练模型还包括:模型优化模块,用于根据重建数据和输入时序数据的误差损失对特征提取模块、动态掩码特征生成器和频域掩码预测模块中的参数进行调整。
具体地,模型优化模块根据掩码位置重建数据和输入时序数据计算均方误差损失,实现时序预训练模型的端到端训练。采用历史的输入时序数据作为训练集对特征提取模块、动态掩码特征生成器和频域掩码预测模块中的参数进行训练,例如特征提取模块中线性嵌入层和Transformer块中的参数进行预训练,从而调整特征提取模块、动态掩码特征生成器和频域掩码预测模块中的参数。
具体地,模型优化模块包括:误差计算模块,用于基于预设损失函数计算掩码位置上的重建数据和输入时序数据的误差损失;调整模块,用于基于损失误差对特征提取模块、动态掩码特征生成器和频域掩码预测模块中的参数进行调整。
在模型优化过程中,误差计算模块仅在掩码位置上计算重建数据和输入时序数据的误差损失,例如有输入时序数据存在5个时间点上的特征,在时间点2和时间点4上进行掩码,则只需要计算时间点2和时间点4上的重建数据和输入时序数据的误差损失。具体地,预设损失函数可以采用均方损失误差,即预设损失函数可以表示为:
Lrec=MSE(pred[masked_index],target[masked_index])
其中,MSE为均方误差损失,pred和target分别为重建预测数值和目标数值,masked_index为掩码位置的时间步索引,Lrec为计算的误差损失。在其他实施例中,也可以采用其他的损失函数计算损失误差,本发明实施例对损失函数的具体选择不作限定。
在计算误差损失后,调整模块将误差损失的数值在预训练模型上反向传播,计算预训练模型中每个可更新参数的梯度,并按照梯度数值更新预训练模型中的所有参数,重复上述步骤,直到迭代次数达到阈值或前后两次损失误差的差距小于阈值。
本发明实施例还提供一种时序数据自监督预训练模型的构建装置,包括:第一构建模块,用于构建特征提取模块,所述特征提取模块用于提取进行部分掩码后的输入时序数据的数据特征;第二构建模块,用于构建动态掩码特征生成器,所述动态掩码特征生成器用于基于自注意力机制为所述数据特征生成动态掩码特征,并结合所述动态掩码特征和所述数据特征生成组合特征;第三构建模块,用于构建频域掩码预测模块,所述频域掩码预测模块用于根据所述组合特征对所述输入时序数据进行预测,获得重建数据;第四构建模块,用于基于所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块构建预训练模型。
在一实施例中,时序数据自监督预训练模型的构建装置还包括:第五构建模块,用于构建模型优化模块,所述模型优化模块用于根据所述重建数据和所述输入时序数据的误差损失调整所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块中的参数。
本发明实施例提供的时序数据自监督预训练模型的构建装置,针对输入时序数据的数据特征,通过自注意力机制为掩码后的数据特征生成动态掩码特征,从而为预训练模型输入特定于输入实例的知识,提高了预训练模型的精度。
本发明实施例还提供了一种电子设备,如图12所示,包括:存储器420和处理器410,存储器420和处理器410之间互相通信连接,存储器420存储有计算机指令,处理器410通过执行计算机指令,从而执行如本发明上述实施例中的时序数据自监督预训练模型的构建方法。其中处理器410和存储器420可以通过总线或者其他方式连接。处理器410可以为中央处理器(Central Processing Unit,CPU)。处理器410还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。存储器420作为一种非暂态计算机存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器410通过运行存储在存储器420中的非暂态软件程序、指令以及模块,从而执行处理器410的各种功能应用以及数据处理,即实现上述方法实施例中的时序数据自监督预训练模型的构建方法。存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器410所创建的数据等。此外,存储器420可以包括高速随机存取存储器420,还可以包括非暂态存储器420,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器420,这些远程存储器420可以通过网络连接至处理器410。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。一个或者多个模块存储在存储器420中,当被处理器410执行时,执行如上述方法实施例中的时序数据自监督预训练模型的构建方法。上述电子设备具体细节可以对应上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,如图13所示,其上存储有计算机程序510,该指令被处理器执行时实现上述实施例中时序数据自监督预训练模型的构建方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序510可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种时序数据自监督预训练模型的构建方法,其特征在于,包括:
构建特征提取模块,所述特征提取模块用于提取进行部分掩码后的输入时序数据的数据特征;
构建动态掩码特征生成器,所述动态掩码特征生成器用于基于自注意力机制为所述数据特征生成动态掩码特征,并结合所述动态掩码特征和所述数据特征生成组合特征;
构建频域掩码预测模块,所述频域掩码预测模块用于根据所述组合特征对所述输入时序数据进行预测,获得重建数据;
基于所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块构建预训练模型。
2.根据权利要求1所述的时序数据自监督预训练模型的构建方法,其特征在于,还包括:
构建模型优化模块,所述模型优化模块用于根据所述重建数据和所述输入时序数据的误差损失调整所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块中的参数。
3.一种时序数据自监督预训练模型,其特征在于,包括:
特征提取模块,用于提取进行部分掩码后的输入时序数据的数据特征;
动态掩码特征生成器,用于基于自注意力机制为所述数据特征生成动态掩码特征,并结合所述动态掩码特征和所述数据特征生成组合特征;
频域掩码预测模块,根据所述组合特征对所述输入时序数据进行预测,获得重建数据。
4.根据权利要求3所述的时序数据自监督预训练模型,其特征在于,还包括:
模型优化模块,用于根据所述重建数据和所述输入时序数据的误差损失对所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块中的参数进行调整。
5.根据权利要求4所述的时序数据自监督预训练模型,其特征在于,所述动态掩码特征生成器包括:
特征填充层,用于在所述数据特征的掩码时间点上填充预设的共享掩码特征;
第一位置编码层,用于为填充预设的共享掩码特征后的数据特征添加时序位置信息;
降维线性层,用于将添加时序位置信息后的数据特征进行降维处理;
第一Transformer块,用于基于自注意力机制对降维处理后的数据特征进行信息交互;
升维线性层,用于对进行信息交互后的数据特征进行升维处理,得到所述动态掩码特征;
特征组合层,用于将所述动态掩码特征和所述数据特征进行时间点上的组合,得到组合特征。
6.根据权利要求3所述的时序数据自监督预训练模型,其特征在于,所述频域掩码预测模块,包括:
离散傅里叶变换层,用于基于离散傅里叶变换将所述组合特征变换到频域中;
频域线性层,用于在频域中对所述组合特征进行信息交互处理,得到交互特征;
离散傅里叶逆变换层,用于基于离散傅里叶逆变换将所述交互特征变换回时域中,得到所述交互特征对应的时域特征;
线性预测层,用于对所述时域特征进行输入时序数据的重建预测,获取重建数据。
7.根据权利要求3所述的时序数据自监督预训练模型,其特征在于,所述特征提取模块包括:
线性嵌入层,用于将输入时序数据映射到特征空间,得到所述输入时序数据在每个时间点的特征;
第二位置编码层,用于为每个时间点的特征添加时序位置信息;
掩码模块,用于根据预设规则对部分时间点的特征进行特征掩码;
第二Transformer块,用于基于自注意力机制将进行特征掩码后的未掩码特征进行信息交互,得到增强后的未掩码特征,并将增强后的未掩码特征作为输入时序数据的数据特征。
8.根据权利要求4所述的时序数据自监督预训练模型,其特征在于,所述模型优化模块包括:
误差计算模块,用于基于预设损失函数计算掩码位置上的所述重建数据和所述输入时序数据的误差损失;
调整模块,用于基于所述损失误差对所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块中的参数进行调整。
9.一种时序数据自监督预训练模型的构建装置,其特征在于,包括:
第一构建模块,用于构建特征提取模块,所述特征提取模块用于提取进行部分掩码后的输入时序数据的数据特征;
第二构建模块,用于构建动态掩码特征生成器,所述动态掩码特征生成器用于基于自注意力机制为所述数据特征生成动态掩码特征,并结合所述动态掩码特征和所述数据特征生成组合特征;
第三构建模块,用于构建频域掩码预测模块,所述频域掩码预测模块用于根据所述组合特征对所述输入时序数据进行预测,获得重建数据;
第四构建模块,用于基于所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块构建预训练模型。
10.根据权利要求9所述的时序数据自监督预训练模型的构建装置,其特征在于,还包括:
第五构建模块,用于构建模型优化模块,所述模型优化模块用于根据所述重建数据和所述输入时序数据的误差损失调整所述特征提取模块、所述动态掩码特征生成器和所述频域掩码预测模块中的参数。
11.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1或2所述的时序数据自监督预训练模型的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310511445.5A CN116522099A (zh) | 2023-05-08 | 2023-05-08 | 时序数据自监督预训练模型、构建方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310511445.5A CN116522099A (zh) | 2023-05-08 | 2023-05-08 | 时序数据自监督预训练模型、构建方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116522099A true CN116522099A (zh) | 2023-08-01 |
Family
ID=87400799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310511445.5A Pending CN116522099A (zh) | 2023-05-08 | 2023-05-08 | 时序数据自监督预训练模型、构建方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522099A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116776228A (zh) * | 2023-08-17 | 2023-09-19 | 合肥工业大学 | 一种电网时序数据解耦自监督预训练方法与系统 |
-
2023
- 2023-05-08 CN CN202310511445.5A patent/CN116522099A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116776228A (zh) * | 2023-08-17 | 2023-09-19 | 合肥工业大学 | 一种电网时序数据解耦自监督预训练方法与系统 |
CN116776228B (zh) * | 2023-08-17 | 2023-10-20 | 合肥工业大学 | 一种电网时序数据解耦自监督预训练方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112863180B (zh) | 交通速度预测方法、装置、电子设备及计算机可读介质 | |
CN114549925B (zh) | 一种基于深度学习的海浪有效波高时间序列预测方法 | |
CN112364975A (zh) | 基于图神经网络的终端运行状态预测方法及系统 | |
CN114285728B (zh) | 一种预测模型训练方法、流量预测方法、装置及存储介质 | |
Kavitha et al. | Multimodal medical image fusion based on integer wavelet transform and neuro-fuzzy | |
CN116522099A (zh) | 时序数据自监督预训练模型、构建方法、设备及存储介质 | |
CN116579413A (zh) | 时序数据预训练模型微调方法及装置、时序数据预测模型 | |
Cao et al. | UTrans-Net: A model for short-term precipitation prediction | |
CN116757062A (zh) | 电力负荷频率特性分析方法、装置、设备和存储介质 | |
Trong et al. | Short-term PV power forecast using hybrid deep learning model and Variational Mode Decomposition | |
CN114219027A (zh) | 一种基于离散小波变换的轻量级时间序列预测方法 | |
Luo et al. | TFDNet: Time-Frequency Enhanced Decomposed Network for Long-term Time Series Forecasting | |
CN115796259B (zh) | 模型训练方法、数据处理方法、预测方法及装置、设备 | |
CN115481778A (zh) | 一种短期负荷预测方法及终端机 | |
CN115907000A (zh) | 一种用于电力系统最优潮流预测的小样本学习方法 | |
Bosma et al. | Estimating solar and wind power production using computer vision deep learning techniques on weather maps | |
Li et al. | Monthly Mean Meteorological Temperature Prediction Based on VMD‐DSE and Volterra Adaptive Model | |
Liu et al. | Static grid equivalent models based on artificial neural networks | |
CN114564512A (zh) | 时间序列预测方法、装置、电子设备及存储介质 | |
Chu et al. | Deep Encoder Cross Network for Estimated Time of Arrival | |
Huang et al. | Trendformer: Trend adaptive transformer for traffic flow prediction | |
Fang et al. | Dual-branch cross-dimensional self-attention-based imputation model for multivariate time series | |
Zheng et al. | Multi‐channel response reconstruction using transformer based generative adversarial network | |
CN113792941B (zh) | 预测道路通行速度的方法、装置、计算机设备及存储介质 | |
CN114363951B (zh) | 一种多小区间流量协同预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |