CN117852624A - 时序信号预测模型的训练方法、预测方法、装置及设备 - Google Patents

时序信号预测模型的训练方法、预测方法、装置及设备 Download PDF

Info

Publication number
CN117852624A
CN117852624A CN202410263944.1A CN202410263944A CN117852624A CN 117852624 A CN117852624 A CN 117852624A CN 202410263944 A CN202410263944 A CN 202410263944A CN 117852624 A CN117852624 A CN 117852624A
Authority
CN
China
Prior art keywords
text
sample
sequence
image
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410263944.1A
Other languages
English (en)
Other versions
CN117852624B (zh
Inventor
沈雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410263944.1A priority Critical patent/CN117852624B/zh
Publication of CN117852624A publication Critical patent/CN117852624A/zh
Application granted granted Critical
Publication of CN117852624B publication Critical patent/CN117852624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种时序信号预测模型的训练方法、预测方法、装置及设备。时序信号预测模型包括特征提取网络和回归器,方法包括:对第一样本中的样本图像进行分块处理,得到图像块序列,对第一样本中的样本描述文本进行分块处理,得到文本块序列;基于第一样本中样本图像对应的图像块序列、样本描述文本对应的文本块序列及第一样本的标签,对特征提取网络进行预训练;根据第二样本中历史时序信号和历史时序信号对应的下一时间段的实际时序信号,对回归器和预训练后的特征提取网络进行微调训练。通过上述方法,在预训练阶段使特征提取网络学习到提取有效特征的能力,在微调训练阶段仅需少量目标域样本即可使时序信号预测模型达到良好的性能。

Description

时序信号预测模型的训练方法、预测方法、装置及设备
技术领域
本申请涉及机器学习技术领域,更具体地,涉及一种时序信号预测模型的训练方法、预测方法、装置及设备。
背景技术
随着时序预测技术的快速发展,其在各领域中的应用越来越广泛。目前,时序预测技术通常可以分为以下几类:第一类是基于机理模型,该类方法通过建立目标系统机理模型,对整个系统运行状态进行建模,进而预测时序信号的未来变化;第二类是数据驱动方法,使用统计学、机器学习、深度学习模型等建立时间序列预测模型,预测时序参数的变化。其中,基于机理模型的预测方法对数据需求少、可用实验室环境数据精准模拟,但只适用于单一系统;基于数据驱动方法可以融合外界影响因素,但依赖大规模携带样本标签的样本数据来进行训练,但是此类大规模携带样本标签的数据的积累需要消耗大量的资源和时间。当数据量不足时,现有时序预测方法的性能会有显著下降。
发明内容
有鉴于此,本申请实施例提出了一种时序信号预测模型的训练方法、预测方法、装置及设备,可以有效避免时序预测模型的训练需要大规模携带样本标签的数据时,此类数据的积累需要消耗大量的资源和时间的问题。
第一方面,本申请实施例提供了一种时序信号预测模型的训练方法,所述时序信号预测模型包括特征提取网络和回归器,所述方法包括:获取第一训练集,所述第一训练集包括多个第一样本和各第一样本的标签,所述第一样本包括样本图像和样本描述文本,所述标签用于指示样本描述文本与样本图像之间的匹配性;对所述第一样本中的样本图像进行分块处理,得到图像块序列,以及对所述第一样本中的样本描述文本进行分块处理,得到文本块序列;基于第一样本中样本图像对应的图像块序列、样本描述文本对应的文本块序列以及所述第一样本的标签,对特征提取网络进行预训练;获取目标域训练集,所述目标域训练集包括多个第二样本,所述第二样本包括目标域中的历史时序信号和历史时序信号对应的下一时间段的实际时序信号;根据第二样本中所述历史时序信号和所述历史时序信号对应的下一时间段的实际时序信号,对所述回归器和预训练后的特征提取网络进行微调训练。
第二方面,本申请实施例提供了一种时序信号的预测方法,所述方法包括:获取待预测时间段之前目标域的目标时序信号;由时序信号预测模型基于所述目标时序信号,预测得到待预测时间段对应的预测信号值,所述时序信号预测模型是按照如前述的时序信号预测模型的训练方法进行训练得到的。
第三方面,本申请实施例提供了一种时序信号预测模型的训练装置,所述时序信号预测模型包括特征提取网络和回归器,所述装置包括:第一训练集获取模块,用于获取第一训练集,所述第一训练集包括多个第一样本和各第一样本的标签,所述第一样本包括样本图像和样本描述文本,所述标签用于指示样本描述文本与样本图像之间的匹配性;分块处理模块,用于对所述第一样本中的样本图像进行分块处理,得到图像块序列,以及对所述第一样本中的样本描述文本进行分块处理,得到文本块序列;预训练模块,用于基于第一样本中样本图像对应的图像块序列、样本描述文本对应的文本块序列以及所述第一样本的标签,对特征提取网络进行预训练;第二训练集获取模块,用于获取目标域训练集,所述目标域训练集包括多个第二样本,所述第二样本包括目标域中的历史时序信号和历史时序信号对应的下一时间段的实际时序信号;微调训练模块,用于根据第二样本中所述历史时序信号和所述历史时序信号对应的下一时间段的实际时序信号,对所述回归器和预训练后的特征提取网络进行微调训练。
在一种可实施方式中,所述微调训练模块包括:线性编码子模块、位置编码子模块、融合子模块、第一特征提取子模块、预测子模块、第一损失确定子模块以及微调子模块。线性编码子模块,用于对所述历史时序信号进行线性编码,得到所述历史时序信号的线性编码特征;位置编码子模块,用于对所述历史时序信号进行位置编码,得到所述历史时序信号的位置编码特征;融合子模块,用于将所述历史时序信号的线性编码特征和位置编码特征进行融合,得到历史编码特征;第一特征提取子模块,用于由所述预训练后的特征提取网络基于所述历史编码特征进行特征提取,得到历史时序信号的特征;预测子模块,用于由所述回归器基于历史时序信号的特征进行预测,得到历史时序信号对应的下一时间段的预测信号值;第一损失确定子模块,用于基于所述下一时间段的实际时序信号和预测信号值,得到第一模型损失;微调子模块,用于根据所述第一模型损失调整所述预训练后的特征提取网络以及所述回归器的参数,直至达到微调训练结束条件。
在一种可实施方式中,所述特征提取网络包括多头注意力层、残差连接和归一化层、以及前馈神经网络;微调子模块,还用于冻结所述多头注意力层和所述前馈神经网络的参数;根据第一模型损失调整所述回归器和所述残差连接和归一化层的参数。
在一种可实施方式中,所述预训练模块包括图像编码子模块、文本编码子模块、图像特征提取子模块、文本特征提取子模块、第二损失确定子模块以及预训练子模块。图像编码子模块,用于对所述图像块序列进行编码,得到所述图像块序列的图像编码特征序列,所述图像编码特征序列中各图像块的特征是将图像块的线性编码特征和位置编码特征进行融合得到的;文本编码子模块,用于对所述文本块序列进行编码,得到所述文本块序列的文本编码特征序列,所述文本编码特征序列中各文本块的特征是将文本块的线性编码特征和位置编码特征进行融合得到的;图像特征提取子模块,用于利用所述特征提取网络对所述图像编码特征序列进行特征提取,得到图像特征;图像特征提取子模块,用于利用所述特征提取网络对所述文本编码特征序列进行特征提取,得到文本特征;第二损失确定子模块,用于基于所述图像特征、所述文本特征以及所述第一样本的标签,得到第二模型损失;预训练子模块,用于基于所述第二模型损失调整所述特征提取网络的参数,直至达到预训练结束条件。
在一种可实施方式中,图像编码子模块,还用于对所述图像块序列中的各图像块分别进行位置编码,得到每个所述图像块的位置编码特征;对所述图像块序列中的各图像块分别进行线性编码,得到每个所述图像块的线性编码特征;针对所述图像块序列中的每个图像块,将该图像块的位置编码特征和线性编码特征进行融合,得到该图像块的特征;按照图像块在所述图像块序列中的位置,将多个图像块的特征进行组合,得到所述图像块序列的图像编码特征序列。文本编码子模块,还用于对所述文本块序列中的各文本块分别进行位置编码,得到每个所述文本块的位置编码特征;对所述文本块序列中的各文本块分别进行线性编码,得到每个所述文本块的线性编码特征;针对所述文本块序列中的每个文本块,将该文本块的位置编码特征和线性编码特征进行融合,得到该文本块的特征;按照文本块在所述文本块序列中的位置,将多个文本块的特征进行组合,得到所述文本块序列的文本编码特征序列。
在一种可实施方式中,所述预训练模块还包括第一归一化处理子模块和第二归一化处理子模块,所述第一归一化处理子模块,用于对每个所述图像块中各像素点的像素值进行归一化处理,得到归一化处理后的图像块序列,以对归一化处理后的图像块序列进行编码;所述第二归一化处理子模块,用于对各所述文本块中的文字进行嵌入处理得到文本向量;对各所述文本块中文字的文本向量进行归一化处理,得到归一化处理后的文本块序列,以对归一化处理后的文本块序列进行编码。
在一种可实施方式中,第二损失确定子模块,还用于将所述图像特征、所述文本特征进行特征维度变换处理,得到维度相同的目标文本特征和目标图像特征;计算对应于同一第一样本的所述目标文本特征和所述目标图像特征之间的特征相似度;基于所述特征相似度和所述第一样本的标签,得到第二模型损失。
在一种可实施方式中,第二损失确定子模块,还用于基于各所述第一样本的标签,确定同一批次的第一样本中的正向样本和负向样本,所述正向样本是指标签指示样本描述文本与样本图像的内容匹配的第一样本;所述负向样本是指标签指示样本描述文本与样本图像的内容不匹配的第一样本;基于所述同一批次的第一样本中正向样本对应的特征相似度和负向样本对应的特征相似度,确定所述第二模型损失;其中,所述第二模型损失与正向样本对应的特征相似度正相关;所述第二模型损失与负向样本对应的特征相似度负相关。
第四方面,本申请实施例提供了一种时序信号的预测装置,所述装置包括:目标域信号获取模块,用于获取待预测时间段之前目标域的目标时序信号;信号预测模块,用于利用时序信号预测模型基于所述目标时序信号,预测得到待预测时间段对应的预测信号值,所述时序信号预测模型是按照如前述的时序信号预测模型的训练装置获得。
在一种可实施方式中,所述装置还包括实际信号获取模块和校验模块,实际信号获取模块,用于获取待预测时间段对应的实际信号值;校验模块,用于基于待预测时间段的预测信号值对所述待预测时间段对应的实际信号值进行校验,得到校验结果。
在一种可实施方式中,所述待预测时间段为参考时序信号中信号值缺失的时间段;所述装置还包括信号补全模块,用于基于所述预测时间段的预测信号值对所述参考时序信号中的所述预测时间段进行信号值补全。
第五方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行上述的方法。
第七方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质获取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
本申请实施例提供的一种时序信号预测模型的训练方法、预测方法、装置及设备,方法包括:获取第一训练集,第一训练集包括多个第一样本和各第一样本的标签,第一样本包括样本图像和样本描述文本,标签用于指示样本描述文本与样本图像之间的匹配性;对第一样本中的样本图像进行分块处理,得到图像块序列,以及对第一样本中的样本描述文本进行分块处理,得到文本块序列;基于第一样本中样本图像对应的图像块序列、样本描述文本对应的文本块序列以及第一样本的标签,对特征提取网络进行预训练;获取目标域训练集,目标域训练集包括多个第二样本,第二样本包括目标域中的历史时序信号和历史时序信号对应的下一时间段的实际时序信号;根据第二样本中历史时序信号和历史时序信号对应的下一时间段的实际时序信号,对回归器和预训练后的特征提取网络进行微调训练。通过采用上述方法,使预训练后的特征提取网络已经在大量的数据上进行了训练,学习到了从原始图像或文本数据中提取有效特征的能力,还学习了如何处理复杂的视觉或语言信息。后续对回归器和预训练后的特征提取网络进行微调训练时,由于预训练阶段学习到的知识可以迁移到时序预测任务中,且历史时序信号中同样包含了各种复杂模式和趋势,通过迁移学习和微调,模型能够更快地适应新的任务领域,且由于训练后的特征提取网络可以利用在源域中已经学到的知识和特征,快速适应目标域中的新数据,因此,在后续的微调阶段只需使用少量的目标域样本数据就可以实现良好的性能,从而避免了相关技术中存在的时序预测模型训练需要大规模携带样本标签的数据造成的数据积累需要消耗大量的资源和时间的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种时序信号预测模型的训练方法的应用场景图;
图2示出了本申请实施例提出的一种时序信号预测模型的训练方法的流程示意图;
图3示出了图2中步骤S130的流程示意图;
图4示出了图2中步骤S150的流程示意图;
图5示出了本申请实施例提出的一种时序信号的预测方法的流程示意图;
图6示出了本申请实施例提出的一种时序信号的预测方法的另一流程示意图;
图7示出了本申请实施例提出的一种存在信号缺失时的用电量的时序信号示意图;
图8示出了本申请实施例提供的一种利用本方案的时序信号的预测方法对图7进行信号补全后的用电量的时序信号示意图;
图9示出了本申请实施例提出的一种时序信号预测模型的训练方法的流程框图;
图10示出了本申请实施例提供的一种时序信号预测模型的训练装置的连接框图;
图11示出了本申请实施例提供的一种时序预测装置的连接框图;
图12示出了用于执行本申请实施例的方法的电子设备的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,并发挥越来越重要的价值。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。以人工智能应用在机器学习上为例进行说明:
其中,机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。本申请的方案主要是利用机器学习模型进行时序信号预测。
下面说明本发明实施例提供的用于执行上述时序信号预测模型的训练方法的示例性应用,本发明实施例提供的时序信号预测模型的训练方法可以应用于如图1所示的应用环境中的服务器中。
图1是根据本申请一实施例示出的应用场景的示意图,该应用场景包括终端设备10和通过网络与终端设备10通信连接的服务器20。
终端设备10,终端设备10具体可以是手机、电脑、平板电脑或者车载终端等,终端设备10可以设有用于展示时序图的客户端。
网络可以是广域网或者局域网,或者是二者的组合。终端设备10可以是智能手机、智能电视、平板电脑、笔记本电脑或者台式计算机等。
服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
若利用如图1中的终端设备10和服务器20进行时序信号预测模型的训练,时序信号预测模型包括特征提取网络和回归器,具体的训练过程如下:终端设备10向服务器20上传第一训练集和目标域训练集,其中,第一训练集包括多个第一样本和各第一样本的标签,第一样本包括样本图像和样本描述文本,标签用于指示样本描述文本与样本图像之间的匹配性;目标域训练集包括多个第二样本,第二样本包括目标域中的历史时序信号和历史时序信号对应的下一时间段的实际时序信号。
服务器20在获取到第一训练集和目标域训练集后,针对各第一样本,对第一样本中的样本图像进行分块处理得到图像块序列,以及对第一样本中的样本描述文本进行分块处理,得到文本块序列;基于第一样本中样本图像对应的图像块序列、样本描述文本对应的文本块序列以及第一样本的标签,对特征提取网络进行预训练;根据第二样本中历史时序信号和历史时序信号对应的下一时间段的实际时序信号,对回归器和预训练后的特征提取网络进行微调训练。
在微调训练完成后,服务器20还可以接收终端设备10发送的目标域的目标时序信号,并利用时序信号预测模型基于目标时序信号预测得到待预测时间段对应的预测信号值,并向终端设备10返回预测信号值,以使终端设备10显示该预测信号值。
通过采用上述的训练方法,通过获取样本图像的图像块序列以及获取样本描述文本的文本块序列,以利用图像块序列和文本序列对特征提取网络进行预训练,从处理图像和文本数据开始,逐步引入时序信号,使预训练后的特征提取网络能更好地理解和处理时间序列数据的动态性和依赖关系,同时使得特征提取网络能够进行跨模态学习,以实现将图像和文本数据融合到一个统一的特征空间中从而有助于特征提取网络更好地理解不同类型数据之间的内在联系,为后续处理时序信号提供更丰富、更全面的特征表示。此外,由于预训练后的特征提取网络已经在大量的数据上进行了训练,且特征提取网络在预训练阶段学习到了从原始图像或文本数据中提取有效特征的能力,还学习了如何处理复杂的视觉或语言信息。后续对回归器和预训练后的特征提取网络进行微调训练时,由于预训练阶段学习到的知识可以迁移到时序预测任务中,且历史时序信号中同样包含了各种复杂模式和趋势,通过迁移学习和微调,模型能够更快地适应新的任务领域,且由于训练后的特征提取网络可以利用在源域中已经学到的知识和特征,快速适应目标域中的新数据,因此,在后续的微调阶段只需使用少量的目标域样本数据就可以实现良好的性能,从而避免了相关技术中存在的时序预测模型训练需要大规模携带样本标签的数据造成的数据积累需要消耗大量的资源和时间的问题。
应当理解,上述的方法步骤也可以仅由终端设备10来执行或者仅由服务器20来执行,也即,上述描述的方法步骤仅仅是示意性的,并不作为本方案的限制。
下面将结合附图具体描述本申请的各实施例。
请阅图2,图2所示为本申请还提供一种时序信号预测模型的训练方法,可以应用于电子设备,该电子设备可以是上述的终端设备10或服务器20,该方法包括:
步骤S110:获取第一训练集。
第一训练集包括多个第一样本和各第一样本的标签,第一样本包括样本图像和样本描述文本,标签用于指示样本描述文本与样本图像之间的匹配性。
示例性的,标签可以用于指示样本描述文本与样本图像之间是否匹配(示例性的,可以用数字“1”表示匹配,用数字“0”表示不匹配),标签还用于指示样本描述文本与样本图像匹配的概率(示例性的,可以用“0到1”之间的数值表示匹配的概率)。
在第一样本的标签指示样本描述文本与样本图像匹配时,若样本图像中包括目标对象,则样本描述文本可以是描述该目标对象的属性和/或状态的文本,如描述目标对象的颜色、形状、体积、动作等的文本。示例性的,若第一样本图像中包括的目标对象为“狗”,则对应的样本描述文本可以是描述该对象的形态、毛色、品种、动作等的文本,若目标对象为银杏,则对应的描述文本可以包括描述银杏的形态特征(例如树叶、种子、枝干等各自的形态和颜色)、银杏所在位置、数量等的描述文本。
在第一样本的标签指示样本描述文本与样本图像不匹配时,则样本图像中包括目标对象,且样本描述文本描述的内容可能不是目标对象相关的内容,和/或样本描述文本描述的形态特征与目标对象对应的形态特征不同。示例性的,样本图像中包括目标对象为“狗”,描述文本为描述“猫”的形态、毛色、品种以及动作等的文本。
上述获取第一训练集的方式可以有多种,例如,可以是由专业人员对多张图像和多个描述文本进行逐一标注以确定图像和描述文本之间的匹配关系从而得到第一训练集。也可以是利用语言模型和/或图像识别模型对大量数据进行初步标注,并基于标注结果筛选出第一训练集;也可以是利用文生图模型生成的多个文本和各自对应的图像,并基于文本和文本对应生成的图像建立多个文本和图像之间的匹配关系从而得到第一训练集;还可以是从目标开源数据集中选取第一训练集,其中,目标开源数据集可以是GVN数据集(Grounded Vision Narratives ,用于研究视觉叙事和理解多模态交互的数据集)、MSCOCO(Microsoft Common Objects in Context,大规模的图像识别和图文数据集)或者image-Text-Playground数据集(探索图像、文本和交互之间关系的开源数据集)。
应当理解,上述获取第一样本集的方式仅为示意性的,还可以有更多的获取方式,在此不作具体限定。
步骤S120:对第一样本中的样本图像进行分块处理,得到图像块序列,以及对第一样本中的样本描述文本进行分块处理,得到文本块序列。
其中,对于样本图像,可以将图像划分为固定大小的图像块,并按照图像块的空间顺序进行排列以得到图像块序列。也可以根据空间区域或关键对象的位置将其划分为多个图像块,并按照各图像块的中心点的空间顺序对各图像块进行排序,得到图像块序列,示例性的,可以将图像划分为前景和背景区域,或根据关键对象的位置将其划分为多个区域。还可以根据图像的具体内容自适应地进行划分,例如对于图像,可以根据纹理、颜色或形状等特征进行自适应划分,并根据各图像块的中心点的空间顺序对各图像块进行排序。上述对样本图像进行划分的方式以及对划分得到的各图像块的排序方式仅为示意性的,还可以有更多的划分方式和排列方式,在此不作具体限定。
对于样本描述文本,也可以将样本描述文本划分为固定长度的文本块,这种划分方式可以确保每个文本块具有相似的信息量,在划分得到的多个文本块后,可以按照文本块的时间顺序、逻辑顺序或各文本块在文本中的位置顺序进行排列得到文本块序列,例如,在描述一段连续动作的文本中,可以将动作的顺序作为文本块的排列依据。也可以根据主题或语义内容进行划分,例如,可以将描述文本划分为多个段落或句子,每个段落或句子描述图像中的一个主题或概念,并根据各文本块在文本中的位置对多个文本块进行排列得到文本块序列,其中,每个文本块描述图像中的一个特定方面或主题,这种方式可以提供更加丰富和多角度的描述。还可以根据文本的具体内容自适应地进行划分,例如,可以根据词频、语义重要性等进行自适应划分,根据划分后的各文本块在文本中的位置对多个文本块进行排列得到文本块序列。上述对样本描述文本进行划分的方式以及对划分得到的各文本块的排序方式仅为示意性的,还可以有更多的划分方式和排列方式,在此不作具体限定。
在一种可实施方式中,可以对第一样本中的样本图像划分为固定大小的图像块,得到图像块序列,并按照图像块的空间顺序进行排列以得到图像块序列;以及对样本描述文本划分为固定长度的文本块,按照文本块的时间顺序、逻辑顺序或在文本块在文本中的位置顺序进行排列得到文本块序列。
在另一种可实施方式中,可以根据样本图像中关键对象的位置将样本图像划分为多个区域,并按照关键图像在图中的位置对划分得到的多个区域进行排序,得到样本图像序列;以及根据主样本描述文本的主题或语义内容进行划分,得到多个文本块,并根据各文本块在文本中的位置对多个文本块进行排列,得到文本块序列。
步骤S130:基于第一样本中样本图像对应的图像块序列、样本描述文本对应的文本块序列以及第一样本的标签,对特征提取网络进行预训练。
其中,上述步骤S130具体可以是利用特征提取网络对第一样本中样本图像对应的图像块序列进行特征提取,得到图像特征,以及利用特征提取网络对第一样本中样本描述文本对应的文本块序列进行特征提取,得到文本特征,并基于图像特征和文本特征以及第一样本的标签,确定第二模型损失,基于第二模型损失调整特征提取网络的参数,直至达到预训练结束条件。
通过对样本图像和样本描述文本进行分块处理,以便在利用特征提取网络进行特征提取时,实现将局部特征和全局特征结合起来,增强特征提取网络对图像和文本的表示能力。其中,图像块序列可以帮助网络捕捉到样本图像中的局部细节信息,而文本块序列则有助于网络理解样本描述文本的语义信息和上下文信息。此外,特征提取网络在进行特征提取时,还可以更加关注图像和文本中的关键信息,忽略不相关或冗余的信息以实现信息筛选,这种信息筛选有助于提高模型的泛化能力,使特征提取网络在面对不同任务和数据分布时能够更好地适应和表现。进一步的,通过对样本图像和样本描述文本进行分块处理,可以将复杂的图像和文本信息分解为更小、更易于处理的部分,从而助于特征提取网络的训练和优化。
其中,特征提取网络可以是卷积神经网络、循环神经网络或者Transformer网络等任意能够分别对图像块序列进行特征提取和对文本块序列进行特征提取的特征提取网络。
在特征提取网络为卷积神经网络时,上述步骤S130可以是,先将文本块序列中的每个文本块通过嵌入层转换为固定维度的向量,然后通过卷积神经网络中的卷积层和池化层对嵌入向量进行卷积和池化操作,提取样本描述文本的特征;类似的,将图像块序列中的每个图像块通过卷积层和池化层进行卷积和池化操作,提取样本图像的特征;使用平均池化、最大池化或者全连接层等方法将样本描述文本的特征和样本图像的特征转换为固定维度的向量,之后使用余弦相似度、欧几里得距离等方法计算固定维度样本描述文本的特征和样本图像的特征之间的相似度,从而根据该相似度和第一样本的标签确定损失,以基于该损失调整特征提取网络的参数,以对特征提取网络进行预训练。
在特征提取网络为循环神经网络时,上述步骤S130可以是,将文本块序列输入到循环神经网络中,通过循环神经网络对文本块序列进行迭代处理,学习文本中的时序依赖关系和特征表示;对图像块序列可以先使用卷积神经网络(CNN)对图像块序列进行特征提取,提取图像中的局部特征。然后将提取出的特征向量作为RNN的输入,进一步提取时序特征;可以对提取到的样本描述文本的特征和样本图像的特征使用平均池化、最大池化或者全连接层等方法将转换为固定维度的特征;之后使用余弦相似度、欧几里得距离等方法计算固定维度的样本描述文本的特征和样本图像的特征之间的相似度,之后基于该相似度和第一样本的标签确定损失,以基于该损失调整特征提取网络的参数,以对特征提取网络进行预训练。
在特征提取网络为Transformer网络时,上述步骤S130可以是,将文本块序列输入到Transformer网络中,通过多层自注意力机制和注意力机制对文本块序列进行特征提取,学习文本中的上下文信息和特征表示以得到样本描述文本的特征;对于图像块序列,可以使用卷积神经网络(CNN)对图像块序列进行特征提取,提取图像中的局部特征,然后将提取出的特征向量作为Transformer网络的输入,进一步提取上下文特征,从而得到样本图像的特征。也可以对图像块中的像素值进行归一化处理后,利用多层自注意力机制和注意力机制对图像块序列进行特征提取,得到样本图像的特征;之后,对提取到的样本描述文本的特征和样本图像的特征使用平均池化、最大池化或者全连接层等方法将转换为固定维度的特征;之后使用余弦相似度、欧几里得距离等方法计算固定维度的样本描述文本的特征和样本图像的特征之间的相似度,之后基于该相似度和第一样本的标签确定损失,以基于该损失调整特征提取网络的参数,以对特征提取网络进行预训练。
应当理解,上述进行特征提取的过程仅为示意性的,在特征提取网络的网络结构不同时,对应的特征提取过程不同,在本申请实施例不作具体限定。
考虑到样本图像和样本描述文本需要采用同一特征提取网络进行特征提取,因此,需要将样本图像和样本描述文本中的至少一种处理,以将图像块序列和文本块序列转换成适合进行特征提取的形式。
在一种可实施方式中,可以将非数值型数据转换为数值型数据,以便能够使用数学运算和机器学习算法进行处理。相应的,在将图像块序列输入到特征提取网络进行处理之前,可以将图像块中各像素点的像素值进行归一化处理;在将文本块序列输入到特征提取网络进行处理之前,可以将文本块中的各个字进行嵌入处理,并对嵌入处理后的文本块序列中的各文本块进行归一化处理。
在另一种可是实施方式中,在将图像块序列输入到特征提取网络进行处理之前,可以对图像块序列进行编码,得到图像块序列的图像编码特征序列;在将文本块序列输入到特征提取网络进行处理之前,可以对文本块序列进行编码,得到文本块序列的文本编码特征序列。
其中,为增强特征提取网络对数据中位置信息和结构信息的理解和利用能力,从而提高模型的性能和准确性,图像编码特征序列中各图像块的特征是将图像块的线性编码特征和位置编码特征进行融合得到的;文本编码特征序列中各文本块的特征是将文本块的线性编码特征和位置编码特征进行融合得到的。
步骤S140:获取目标域训练集。
目标域训练集包括多个第二样本,第二样本包括目标域中的历史时序信号和历史时序信号对应的下一时间段的实际时序信号。
上述目标域的时序信号可以是天气、交通流量、电力、空气质量、产品的销量、股票或者能源需求等领域的,可以随时间变化且具有一定规律的信号。
其中,获取目标域训练集的方式可以是,从目标域的相关平台、数据库或API中抓取历史时序信号和对应的下一时间段的实际时序信号;也可以是从目标域的开源数据平台中获取目标域训练集。上述获取目标域训练集的方式仅仅是示意性的,根据实际需求进行设置即可。
步骤S150:根据第二样本中历史时序信号和历史时序信号对应的下一时间段的实际时序信号,对回归器和预训练后的特征提取网络进行微调训练。
上述步骤S150具体可以是:由预训练后的特征提取网络对历史时序信号进行特征提取,得到历史时序信号的特征;由回归器基于历史时序信号的特征进行预测,得到历史时序信号对应的下一时间段的预测信号值;基于下一时间段的实际时序信号和预测信号值,得到第一模型损失;根据第一模型损失调整预训练后的特征提取网络以及回归器的参数,直至达到微调训练结束条件。
其中,下一时间段的实际时序信号中可以包括下一时间段内的至少一个时刻的实际信号值。
考虑到预训练后的特征提取网络为利用第一样本集训练得到,预训练后的特征提取网络通常需要输入固定格式的数据。因此,可以对时序信号进行编码可将原始信号转换为这种固定格式,以便于输入到网络中进行特征提取。在本申请中,可以对历史时序信号进行编码(如,采用线性编码、位置编码、差分编码或者增量编码等中的至少一种进行编码),以使对历史时序信号进行编码后的数据格式与前述对样本图像及样本描述文本编码后的数据格式相同。
回归器可以是线性回归器、岭回归器、决策树回归器、支持向量机回归器或者神经网络回归器(如,长短记忆网络)等,只要能够实现根据历史时序信号的特征进行预测,得到历史时序信号对应的下一时间段的预测信号值即可。
其中,调整预训练后的特征提取网络以及回归器的参数时,可以对预训练后的特征提取网络中的部分参数进行固定,并调整回归器的参数以及预训练后的特征提取网络中未被固定的参数。
通过采用本申请的时序信号预测模型的训练方法,通过获取样本图像的提取图像块序列以及获取样本描述文本的文本块序列,以利用图像块序列和文本序列对特征提取网络进行训练,从处理图像和文本数据开始,逐步引入时序信号,使预训练后的特征提取网络能更好地理解和处理时间序列数据的动态性和依赖关系,同时使得特征提取网络能够进行跨模态学习,以实现将图像和文本数据融合到一个统一的特征空间中从而有助于特征提取网络更好地理解不同类型数据之间的内在联系,为后续处理时序信号提供更丰富、更全面的特征表示。此外,由于预训练后的特征提取网络已经在大量的数据上进行了训练,且特征提取网络在预训练阶段学习到了从原始图像或文本数据中提取有效特征的能力,还学习了如何处理复杂的视觉或语言信息。后续对回归器和预训练后的特征提取网络进行微调训练时,由于预训练阶段学习到的知识可以迁移到时序预测任务中,且历史时序信号中同样包含了各种复杂模式和趋势,通过迁移学习和微调,模型能够更快地适应新的任务领域,且由于训练后的特征提取网络可以利用在源域中已经学到的知识和特征,快速适应目标域中的新数据,因此,在后续的微调阶段只需使用少量的目标域样本数据就可以实现良好的性能,从而避免了相关技术中存在的时序预测模型训练需要大规模携带样本标签的数据造成的数据积累需要消耗大量的资源和时间的问题。
请参阅图3,在一种可实施方式中,上述步骤S130可以包括:
步骤S131:对图像块序列进行编码,得到图像块序列的图像编码特征序列。
其中,图像编码特征序列中各图像块的特征是将图像块的线性编码特征和位置编码特征进行融合得到的。
具体的,可以对图像块序列中的各图像块分别进行位置编码,得到每个图像块的位置编码特征;对图像块序列中的各图像块分别进行线性编码,得到每个图像块的线性编码特征;针对图像块序列中的每个图像块,将该图像块的位置编码特征和线性编码特征进行融合,得到该图像块的特征;按照图像块在图像块序列中的位置,将多个图像块的特征进行组合,得到图像块序列的图像编码特征序列。
其中,在对图像块序列中的各图像块分别进行位置编码时,对于每个图像块,计算该图像块相对于图像整体位置的位置信息(如,坐标),之后通过信息该位置信息的重要性并转换为编码形式,之后,还可以将每个图像块的位置信息的编码形式与其本身的像素值或特征表示进行合并,得到图像块的位置编码。
在对图像块序列中的各图像块分别进行线性编码时,可以对图像块进行线性变化处理,得到线性变化处理后的结果,该结果即为图像块的线性编码特征。
上述对图像块的位置编码特征和线性编码特征进行融合的方式可以是,将图像块的位置编码特征与线性编码特征进行拼接、相乘或者对位相加等。
通过对图像块进行位置编码,可以使特征提取网络可以更好地理解和利用图像中各块的位置信息,从而可以捕获图像中的空间信息和结构,有助于特征提取网络更好地理解和利用图像中的空间关系和上下文信息。对图像块进行线性编码可以使特征提取网络捕捉图像中的连续特征和模式,提高对图像中动态内容的理解和分类准确性。
步骤S132:对文本块序列进行编码,得到文本块序列的文本编码特征序列。
其中,文本编码特征序列中各文本块的特征是将文本块的线性编码特征和位置编码特征进行融合得到的。
具体的,对文本块序列中的各文本块分别进行位置编码,得到每个文本块的位置编码特征;对文本块序列中的各文本块分别进行线性编码,得到每个文本块的线性编码特征;针对文本块序列中的每个文本块,将该文本块的位置编码特征和线性编码特征进行融合,得到该文本块的特征;按照文本块在文本块序列中的位置,将多个文本块的特征进行组合,得到文本块序列的文本编码特征序列。
其中,对文本块进行位置编码和线性编码的过程与对图像块进行位置编码和线性编码的过程类似,可以参阅前述步骤S131,此处不再一一赘述。
在一种可实施方式中,可以将图像块的位置编码特征与线性编码特征进行拼接。以及将文本块的位置编码特征线性编码特征进行拼接,得到该图像块的特征。
通过对文本块进行位置编码,可以使特征提取网络可以更好地理解和利用文本中的语法结构和信息流动,从而捕捉文本中的结构信息和语义关系,提高对文本的理解和分类准确性。通过文本块进行线性编码,捕获文本中的语法和句法结构从而使特征提取网络更好地理解文本的结构和语义信息,提高对文本的理解准确性。
步骤S133:利用特征提取网络对图像编码特征序列进行特征提取,得到图像特征。
步骤S134:利用特征提取网络对文本编码特征序列进行特征提取,得到文本特征。
应当理解,在上述步骤S133和S134中,采用的特征提取网络模型的模型结构不同时,对应的特征提取过程也不同,前述步骤S130中已描述了采用不同的特征提取网络时的提取过程,此处不再一一赘述。
示例性的,在特征提取网络包括Transformer网络时,特征提取网络包括多头注意力层、第一归一化和全连接层、前馈神经网络以及第二归一化和全连接层,其中,多头注意力层首先计算查询(Q)、键(K)和值(V)的矩阵。这些矩阵由输入特征序列(图像编码特征序列或文本编码特征序列)计算得出,并用于计算注意力权重。然后,使用这些权重对值矩阵进行加权求和,生成每个输入位置的输出特征向量。第二归一化和全连接层中的第一归一化层对来自多头注意力层的特征进行归一化处理,第一全连接层用于将第一归一化层的输出转换为更高维或更低维的空间表示,使其更适合特征提取网络的处理或特定任务。前馈神经网络用于将第一全连接层输出的特征进行一系列线性变换和非线性激活函数进行变换,产生更复杂的特征表示;第二归一化和全连接层中的找到第二归一化层对前馈网络产生的特征进行进一步的归一化处理,第二全连接层用于将第二归一化层的输出的归一化处理后的特征转换为更高维或更低维的特征。从而实现对图像编码特征序列提取得到图像特征,以及对文本编码特征序列提取得到文本特征。
步骤S135:基于图像特征、文本特征以及第一样本的标签,得到第二模型损失。
其中,上述步骤S135具体可以是,将图像特征、文本特征进行特征维度变换处理,得到维度相同的目标文本特征和目标图像特征;计算对应于同一第一样本的目标文本特征和目标图像特征之间的特征相似度;基于特征相似度和第一样本的标签,得到第二模型损失。
其中,可以基于余弦相似度或欧几里得相似度计算对应于同一第一样本的目标文本特征和目标图像特征之间的特征相似度。可以利用损失函数基于特征相似度和第一样本的标签,得到第二模型损失时,其中,损失函数可以是对比损失函数、余弦相似度损失函数以及交叉熵损失函数等中的一种或多种,还可以是根据任务需求自定义的损失函数,根据实际需求进行选取即可。
其中,上述步骤S135还可以是:基于各第一样本的标签,确定同一批次的第一样本中的正向样本和负向样本,正向样本是指标签指示样本描述文本与样本图像的内容匹配的第一样本;负向样本是指标签指示样本描述文本与样本图像的内容不匹配的第一样本;基于同一批次的第一样本中正向样本对应的特征相似度和负向样本对应的特征相似度,确定第二模型损失;其中,第二模型损失与正向样本对应的特征相似度正相关;第二模型损失与负向样本对应的特征相似度负相关。
其中,上述的损失函数可以是任意的,只要能够实现使第二模型损失与正向样本的特征相似度正相关,与负向样本的特征相似度负相关即可。示例性的,可以采用对比损失函数基于同一批次的第一样本中正向样本对应的特征相似度和负向样本对应的特征相似度,确定第二模型损失。对比损失函数可以是:L = λ * (1 - sim(text, image)) - (1 -λ) * sim(text, image_negative);其中,L是总损失,sim(text, image)是文本和图像的正向样本特征相似度,sim(text, image_negative)是文本和负向样本图像的特征相似度,λ是一个平衡参数,用于调节正向和负向样本对总损失的贡献。应当理解,上述的损失函数仅为示意性,还可以其他的损失函数,在本申请实施例不作具体限定。
在该实施方式下,通过区分正向样本和负向样本,使得特征提取网络能够更好地理解文本和图像之间的匹配关系,正向样本帮助模型学习文本和图像之间的一致性,而负向样本则帮助模型学习不一致性,从而有助于提高模型的判断和决策能力。此外,由于负向样本的存在,模型不仅学习了匹配的样本,还学习了不匹配的样本,使得特征提取网络在面对新的、未见过的数据时,能够更好地泛化,例如,在后续存在一些与负向样本相似的噪声或异常特征,模型也能有效地识别并排除它们,从而更准确地提取关键特征。
步骤S136:基于第二模型损失调整特征提取网络的参数,直至达到预训练结束条件。
其中,预训练结束条件可以是,预训练迭代次数达到预训练次数,或者第二模型损失小于预设损失阈值。
通过上述步骤S131-S136中对特征提取网络进行预训练,使得特征提取网络在预训练过程中通过对大量图像和文本数据进行学习,可以了解不同数据分布的特征和模式,从而有助于提升特征提取网络对未见过的数据的泛化能力。通过在预训练阶段,利用图像块序列和文本序列对特征提取网络进行预训练,从处理图像和文本数据开始,逐步引入时序信号,使预训练后的特征提取网络能更好地理解和处理时间序列数据的动态性和依赖关系,同时使得特征提取网络能够进行跨模态学习,以实现将图像和文本数据融合到一个统一的特征空间中从而有助于特征提取网络更好地理解不同类型数据之间的内在联系,为后续处理时序信号提供更丰富、更全面的特征表示。进一步的,在特征提取过程,由于线性编码特征有助于理解文本或图像中的顺序和连续性,而位置编码特征强调每个部分的重要性和其在整体中的位置,将两者融合,可以同时获得内容的顺序性和位置重要性,从而可以在对特征提取网络预训练过程中为特征提取网络提供更丰富的特征表示,有助于特征提取网络更好地适应各种不同长度、顺序和结构的文本或图像输入。这种泛化能力的增强有助于提高特征提取网络在后续预训练和微调过程中的性能和鲁棒性。
在该种实施方式下,在执行步骤S131之前,上述步骤S130还包括:对每个图像块中各像素点的像素值进行归一化处理,得到归一化处理后的图像块序列,以对归一化处理后的图像块序列进行编码。
上述的归一化处理的方式可以是最小-最大归一化处理的方式,也可以是Z-score归一化处理的方式或者对比度归一化的方式,根据实际需求进行选取即可,在此不作具体限定。
通过对每个图像块中各像素点的像素值进行归一化处理,可以确保图像数据的稳定性和一致性。其中,归一化处理可以将像素值转换到一个统一的范围,如0-1或-1-1,这样可以消除不同图像之间的规模差异,使得后续特征提取网络能够更加专注于图像内容而不是像素值的绝对大小。
在执行步骤S132之前,上述步骤S130还包括:对各文本块中的文字进行嵌入处理得到文本向量;对各文本块中文字的文本向量进行归一化处理,得到归一化处理后的文本块序列,以对归一化处理后的文本块序列进行编码。
其中,对各文本块中的文字进行嵌入处理得到文本向量时,可以基于词袋模型进行嵌入处理,也可以基于Word2Vec模型进行嵌入处理,还可以利用GloVe模型进行嵌入处理,其中上述进行嵌入处理的方式仅为示意性的,还可以有更多的嵌入处理方式,此处不作具体限定。
文本块中文字的文本向量进行归一化处理的方式有多种,例如,可以是Min-Max归一化处理的方式,也可以是Z-score归一化处理的方式,根据实际需求进行选取即可,在此不作具体限定。
通过对将文本块中的文字进行嵌入处理得到文本向量,使得特征提取网络可以更好地理解文本内容,并从语义层面进行学习和比较。通过将文本块中文字的文本向量进行归一化处理,充分考虑到了不同的文本长度和内容可能会有不同的词频和分布。通过归一化处理可以确保文本数据在统一的尺度上,消除词频或文本规模对特征提取网络的影响,也即在对文本块中文字的文本向量进行归一化处理使得特征提取网络更加专注于文本的语义和上下文信息,而不被词频或文本长度所干扰。
请参阅图4,在一种可选实施方式中,上述步骤S150包括:
步骤S151:对历史时序信号进行线性编码,得到历史时序信号的线性编码特征。
其中,在对历史时序信号进行线性编码时,可以将历史时序信号作为一个整体进行线性编码,也可以将历史时序信号划分为多个时间窗口对应的时序信号,并对每个时间窗口对应的时序信号进行线性编码。其中,多个时间窗口对应的时长可以相同,且可以与下一时间段对应的时长相同。
步骤S152:对历史时序信号进行位置编码,得到历史时序信号的位置编码特征。
其中,在对历史时序信号进行位置编码时,可以将历史时序信号作为一个整体进行位置编码,也可以将历史时序信号划分为多个时间窗口对应的时序信号,并对每个时间窗口对应的时序信号进行位置编码。其中,多个时间窗口对应的时长可以相同,且可以与下一时间段对应的时长相同。
步骤S153:将历史时序信号的线性编码特征和位置编码特征进行融合,得到历史编码特征。
其中,将历史时序信号的线性编码特征和位置编码特征进行融合的方式可以是拼接、对位相加或者相乘等,根据实际需求进行设置即可。
应当理解,若历史时序信号的线性编码特征中包括多个时间窗口对应的时序信号的编码特征,则该时间窗口对应的时序信号的编码特征可以由该时间窗口对应的时序信号的线性编码特征和位置编码特征融合得到。相应的,历史编码特征可以是由多个时间窗口对应的编码特征构成的特征序列。
由于线性编码通常是将时序信号转换为一系列线性组合的过程,以便提取信号中的线性模式和趋势;位置编码考虑了时序信号中各个时间点的位置信息,通常用于捕捉序列中的位置依赖关系;通过融合历史时序信号的线性编码特征和位置编码特征,可以结合两种特征的优势,更全面地表示历史时序信号。
步骤S154:由预训练后的特征提取网络基于历史编码特征进行特征提取,得到历史时序信号的特征。
步骤S155:由回归器基于历史时序信号的特征进行预测,得到历史时序信号对应的下一时间段的预测信号值。
步骤S156:基于下一时间段的实际时序信号和预测信号值,得到第一模型损失。
其中,具体可以利用损失函数基于下一时间段的实际时序信号和预测信号值得到第一模型损失,其中,第一模型损失对应的损失函数可以是均方误差损失函数(MeanSquared Error,MSE)或平均绝对误差损失函数(Mean Absolute Error,MAE)等回归任务的损失函数。这些损失函数衡量了预测信号值与实际信号值之间的误差,通过最小化损失函数,可以使得模型学习到更准确的预测。
步骤S157:根据第一模型损失调整预训练后的特征提取网络以及回归器的参数,直至达到微调训练结束条件。
其中,在时序信号预测模型中所采用的特征提取网络的网络结构不同时,则对应调整的参数可能不同。考虑到在特征提取网络预训练阶段和微调阶段中,由于预训练阶段特征提取网络已经从大量数据中学习了通用的特征表示,这些特征表示可以被看作是一种“知识”,这种知识可以被迁移到目标域的数据上,从而加速模型的训练和提高性能。因此,在调参阶段,负责提取输入数据的特征的层级或结构(如卷积层、池化层以及多头注意力层等)可以不作调整,也即可以仅对回归器的参数以及特征提取网络中的归一化层和全连接层的参数进行调参。
在一种可实施方式中,若特征提取网络为transformer网络,特征提取网络包括多头注意力层、残差连接和归一化层、以及前馈神经网络,则上述步骤S157可以是,冻结多头注意力层和前馈神经网络的参数;根据第一模型损失调整回归器和残差连接和归一化层的参数。
通过采用上述步骤S151-S157,通过预训练的特征提取网络已经学习到了通用的图像特征表示,结合前述步骤的微调训练可以使得时序信号预测模型更好地适应目标域的时序数据分布,提高模型的泛化能力;通过融合历史时序信号的线性编码特征和位置编码特征,可以结合两种特征的优势,更全面地表示历史时序信号,从而提升模型的预测精度。
请参阅图5所示,本申请实施例还提供一种时序信号的预测方法,该方法包括:
步骤S210:获取待预测时间段之前目标域的目标时序信号。
其中,待预测时间段可以是可以是某一时序信号中缺失时序信号的时间段,也可以是某一时序信号中存在某一段需要检验或对比时序信号的时间段,还可以是未来时间段,还可以任意需要预测的时间段。
目标域的目标时序信号可以是如前述的天气、交通流量、电力、空气质量、产品的销量、股票或者能源需求等领域的可以随时间变化且具有一定规律的信号。也即目标时序信号与前述的目标域训练集中的历史时序信号对应的领域相同,即同为天气、交通流量、电力、空气质量、产品的销量、股票或者能源需求等的时序信号。
步骤S220:由时序信号预测模型基于目标时序信号,预测得到待预测时间段对应的预测信号值。
其中,时序信号预测模型是按照前述实施例中的时序信号预测模型的训练方法进行训练得到的。
其中,时序信号基于目标时序信号,预测得到待预测时间段对应的预测信号值的方式,可以具体参照前述实施例中对步骤S150及步骤S151-S155的具体描述,在本申请实施例不再一一赘述。
通过采用上述方法,可以实现利用训练得到的时序信号预测模型进行时序信号的准确预测。
为实现对生成目标域的目标时序信号的设备或模型进行异常检测,以及实现对时序信号预测模型进行校验以发现并处理潜在的问题,同时提供决策支持,并促进该时序信号预测模型的持续改进。请参阅图6,在一种可实施方式中,方法还包括:
步骤S230:获取待预测时间段对应的实际信号值。
其中,获取待预测时间段对应的实际信号值的方式可以有多种,可以根据目标域的时序信号的采集方式或生成的方式的不同来获取,例如,可以是通过实时监测和采集设备来获取待预测时间段的实时数据,这些数据即为实际信号值;若待预测时间段对应的实际信号和目标时序信号均位于某一历史时序信号中,则可以通过回溯历史数据来获取待预测时间段的实际信号值。还可以是从第三方数据提供商或公开数据集中获取待预测时间段对应的实际信号值。应当理解,上述获取待预测时间段对应的实际信号的方式仅为示意性的,还可以有更多的获取方式,在此不作一一赘述。
步骤S240:基于对待预测时间段对应的实际信号值进行校验,得到校验结果。
其中,基于待预测时间段的预测信号值对待预测时间段对应的实际信号值进行校验的方式可以是,将预测信号值与实际信号值进行对比,计算两者之间的误差。误差的计算方式可以根据具体任务和需求选择,如均方误差、平均绝对误差、相对误差等。通过将上述的误差与误差的置信区间进行对比以确定校验结果。如果预测误差在置信区间内,可以认为待预测时间段的预测信号值或实际信号值均是可靠的;如果预测误差超出置信区间,则说明待预测时间段的预测信号值或实际信号值可能存在异常。
其中,误差的置信区间可以是基于经验设置的,可以是根据历史数据的统计规律和置信水平确定。
为实现在目标域的某一段参考时序信号中存在缺失时序信号的时间段时,对该时间段的时序信号进行补全,以提升参考时序信号的完整性,可实施方式中,若待预测时间段为参考时序信号中信号值缺失的时间段;
方法还包括:基于预测时间段的预测信号值对参考时序信号中的预测时间段进行信号值补全。
通过对参考时序信号进行补全,以使补全后的参考时序信号保持了原有的连续性,使得数据在时间维度上更加平滑和一致;在整个信号补全过程中,可以减少人工干预和数据清洗的成本,提高数据处理效率。进一步的,补全后的参考时序信号可以应用于更多的分析和预测任务中,如趋势分析、模式识别、异常检测等。
如图7所示,示出了某电力公司统计的一段时间内的用电量时序图,图中,可能由于统计设备故障等原因造成T5-T6这一时间段发生电量数据缺失,通过采用本申请的上述方法步骤,将0-T5时间段的数据作为历史时序数据,将T5-T6时间段作为待预测时间段,利用前述实施例中训练得到的时序预测模型基于历史时序数据进行预测,可以得到T5-T6时间段的预测信号值,基于预测时间段的预测信号值对参考时序信号中的预测时间段进行信号值补全可以得到如图8所示的补全后的时序数据,从而便于后续对补全后的时序数据进行处理。
请参阅图9所示,示出了一种时序信号预测模型的训练方法的流程框图,其中,时序信号预测模型的训练方法具体分为两个阶段,第一个阶段是预训练阶段,第二个阶段是微调训练阶段。
一、预训练阶段:可以将特征特征提取网络具体应用在图文大模型中,以对图文大模型进行训练,从而实现对特征提取网络的预训练。其中,特征提取网络为transformer网络,且特征提取网络包括多个transformer模块,每个transformer模块包括多头注意力层、归一化和全连接层层以及前馈神经网络,图文大模型的训练过程如下:
获取包括成对的样本图像(x_image)和样本描述文本(x_text)的第一样本。
对样本图像进行patch切分,可以分成9*9或者16*16的块patch,从而得到图像块x_image_patch,并对每个图像块中像素点的像素值进行0-1归一化。
对样本描述文本按描述内容进行切分,得到样本块x_image_patch,并对每个文本块中的文字进行嵌入处理得到文本向量后进行0-1归一化。
对图像块序列中的各图像块分别进行位置编码,得到每个图像块的位置编码特征(x_image_patch_features_position);对图像块序列中的各图像块分别进行线性编码,得到每个图像块的线性编码特征(x_image_patch_features_linear);针对图像块序列中的每个图像块,将该图像块的位置编码特征和线性编码特征进行融合,得到该图像块的特征(x_image_patch_features);按照图像块在图像块序列中的位置,将多个图像块的特征进行组合,得到图像块序列的图像编码特征序列(image_features)。
对文本块序列中的各文本块分别进行位置编码,得到每个文本块的位置编码特征(x_text_patch_features_position);对文本块序列中的各文本块分别进行线性编码,得到每个文本块的线性编码特征(x_text_patch_features_linear);针对文本块序列中的每个文本块,将该文本块的位置编码特征和线性编码特征进行融合,得到该文本块的特征(x_text_patch_features);按照文本块在文本块序列中的位置,将多个文本块的特征进行组合,得到文本块序列的文本编码特征序列(text_features)。
利用特征提取网络(如图9中的虚线框部分)对图像编码特征序列进行特征提取得到图像特征,以及对文本编码特征序列进行特征提取得到文本特征,之后,利用线性层将图像特征和文本特征转换到相同维度下以进行对比损失计算。
在进行对比损失计算时,可以基于各第一样本的标签,确定同一批次的第一样本中的正向样本和负向样本,正向样本是指标签指示样本描述文本与样本图像的内容匹配的第一样本;负向样本是指标签指示样本描述文本与样本图像的内容不匹配的第一样本,基于同一批次的第一样本中正向样本对应的特征相似度和负向样本对应的特征相似度,确定第二模型损失;其中,第二模型损失与正向样本对应的特征相似度正相关;第二模型损失与负向样本对应的特征相似度负相关,从而拉高正样本对的余弦相似度,拉低负样本对的余弦相似度,第二模型损失如下:Loss_constructive = 1-pos_sim + neg_sim;pos_sim为负向样本对应的特征相似度;neg_sim为正向样本对应的特征相似度。后续可以基于对比损失计算得到的第二模型损失调整线性层、特征提取网络、对样本图像和样本描述文本进行位置编码的编码器和进行线性编码的编码器。
二、微调训练阶段:时序预测模型继承图文大模型中transformer 模块中的多头注意力层和前馈神经网络层。通过对图文大模型训练后这两层网络包含了对大规模知识的通用特征提取能力。之后,利用第二样本对预训练后的特征提取网络进行微调训练,该第二样本包括目标域中的历史时序信号和历史时序信号对应的下一时间段的实际时序信号。在具体微调过程中可以包括如下步骤:
对第二样本中的历史时序信号按固定时间窗口T进行切分,并对每个时间窗口内时序信号进行归一化处理。
将归一化处理后的时间窗口内的时序信号进行线性编码,得到时序信号的线性编码特征,以及将归一化处理后的时间窗口内的时序信号进行位置编码,得到时序信号的位置编码特征;针对每个时间窗口,将该时间窗口的位置编码特征和线性编码特征进行融合得到该时间窗口的特征;之后,按照时间窗口对应在历史时序信号中的位置对将多个时间窗口的特征进行组合,得到历史时序信号的编码特征。
利用预训练后的特征提取网络对历史时序信号的编码特征进行特征提取,得到历史时序信号的特征(features_final)。
利用岭回归作为回归器由前t个时间窗口信号特征,回归t+1个时间窗口的预测信号值。即预测信号值predict_signal_t+1 = regressor(features_final)。其中,regressor表示岭回归,岭回归是一种处理共线性数据的线性回归扩展,通过添加一个惩罚项来防止过拟合,并具有较好的稳健性和解释性。
计算t+1时刻的预测信号predict_signal_t+1和实际信号true_signal_t+1之间的均方根作为第一模型损失。冻结多头注意力层和前馈神经网络的参数;根据第一模型损失调整回归器和残差连接和归一化层的参数。还可以根据第一模型损失对时间窗口内的时序信号进行线性编码的编码器和进行位置编码的编码器。
在微调训练结束后即完成了对时序信号预测模型的训练。
如下表是本方案选择了交通Traffic、天气Weather、电力Electricity三个数据集作为效果验证数据集,选择当前最先进的时间序列预测模型,如TimesNet、ETSformer、DLinear作为比较方法,使用预测信号和真实信号之间的均方根误差作为衡量指标。在验证时,为了体现本实施例中的方法在小数据量下的效果,仅使用10%的训练集样本作为本实施例的训练数据。从实验结果可以看到,本申请实施例在仅使用10%训练数据的情况下,效果仍然优于SOTA方法使用100%训练数据的预测效果。充分体现了本申请实施例在小数据量下的性能。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图10,本申请另一实施例提供了一种时序预测模型的训练装置300,装置300包括:第一训练集获取模块310,用于获取第一训练集,第一训练集包括多个第一样本和各第一样本的标签,第一样本包括样本图像和样本描述文本,标签用于指示样本描述文本与样本图像之间的匹配性;分块处理模块320,用于对第一样本中的样本图像进行分块处理,得到图像块序列,以及对第一样本中的样本描述文本进行分块处理,得到文本块序列;预训练模块330,用于基于第一样本中样本图像对应的图像块序列、样本描述文本对应的文本块序列以及第一样本的标签,对特征提取网络进行预训练;第二训练集获取模块340,用于获取目标域训练集,目标域训练集包括多个第二样本,第二样本包括目标域中的历史时序信号和历史时序信号对应的下一时间段的实际时序信号;微调训练模块350,用于根据第二样本中历史时序信号和历史时序信号对应的下一时间段的实际时序信号,对回归器和预训练后的特征提取网络进行微调训练。
在一种可实施方式中,微调训练模块350包括:线性编码子模块、位置编码子模块、融合子模块、第一特征提取子模块、预测子模块、第一损失确定子模块以及微调子模块。线性编码子模块,用于对历史时序信号进行线性编码,得到历史时序信号的线性编码特征;位置编码子模块,用于对历史时序信号进行位置编码,得到历史时序信号的位置编码特征;融合子模块,用于将历史时序信号的线性编码特征和位置编码特征进行融合,得到历史编码特征;第一特征提取子模块,用于由预训练后的特征提取网络基于历史编码特征进行特征提取,得到历史时序信号的特征;预测子模块,用于由回归器基于历史时序信号的特征进行预测,得到历史时序信号对应的下一时间段的预测信号值;第一损失确定子模块,用于基于下一时间段的实际时序信号和预测信号值,得到第一模型损失;微调子模块,用于根据第一模型损失调整预训练后的特征提取网络以及回归器的参数,直至达到微调训练结束条件。
在一种可实施方式中,特征提取网络包括多头注意力层、残差连接和归一化层、以及前馈神经网络;微调子模块,还用于冻结多头注意力层和前馈神经网络的参数;根据第一模型损失调整回归器和残差连接和归一化层的参数。
在一种可实施方式中,预训练模块包括图像编码子模块、文本编码子模块、图像特征提取子模块、文本特征提取子模块、第二损失确定子模块以及预训练子模块。图像编码子模块,用于对图像块序列进行编码,得到图像块序列的图像编码特征序列,图像编码特征序列中各图像块的特征是将图像块的线性编码特征和位置编码特征进行融合得到的;文本编码子模块,用于对文本块序列进行编码,得到文本块序列的文本编码特征序列,文本编码特征序列中各文本块的特征是将文本块的线性编码特征和位置编码特征进行融合得到的;图像特征提取子模块,用于利用特征提取网络对图像编码特征序列进行特征提取,得到图像特征;图像特征提取子模块,用于利用特征提取网络对文本编码特征序列进行特征提取,得到文本特征;第二损失确定子模块,用于基于图像特征、文本特征以及第一样本的标签,得到第二模型损失;预训练子模块,用于基于第二模型损失调整特征提取网络的参数,直至达到预训练结束条件。
在一种可实施方式中,图像编码子模块,还用于对图像块序列中的各图像块分别进行位置编码,得到每个图像块的位置编码特征;对图像块序列中的各图像块分别进行线性编码,得到每个图像块的线性编码特征;针对图像块序列中的每个图像块,将该图像块的位置编码特征和线性编码特征进行融合,得到该图像块的特征;按照图像块在图像块序列中的位置,将多个图像块的特征进行组合,得到图像块序列的图像编码特征序列。文本编码子模块,还用于对文本块序列中的各文本块分别进行位置编码,得到每个文本块的位置编码特征;对文本块序列中的各文本块分别进行线性编码,得到每个文本块的线性编码特征;针对文本块序列中的每个文本块,将该文本块的位置编码特征和线性编码特征进行融合,得到该文本块的特征;按照文本块在文本块序列中的位置,将多个文本块的特征进行组合,得到文本块序列的文本编码特征序列。
在一种可实施方式中,预训练模块330还包括第一归一化处理子模块和第二归一化处理子模块,第一归一化处理子模块,用于对每个图像块中各像素点的像素值进行归一化处理,得到归一化处理后的图像块序列,以对归一化处理后的图像块序列进行编码;第二归一化处理子模块,用于对各文本块中的文字进行嵌入处理得到文本向量;对各文本块中文字的文本向量进行归一化处理,得到归一化处理后的文本块序列,以对归一化处理后的文本块序列进行编码。
在一种可实施方式中,第二损失确定子模块,还用于将图像特征、文本特征进行特征维度变换处理,得到维度相同的目标文本特征和目标图像特征;计算对应于同一第一样本的目标文本特征和目标图像特征之间的特征相似度;基于特征相似度和第一样本的标签,得到第二模型损失。
在一种可实施方式中,第二损失确定子模块,还用于基于各第一样本的标签,确定同一批次的第一样本中的正向样本和负向样本,正向样本是指标签指示样本描述文本与样本图像的内容匹配的第一样本;负向样本是指标签指示样本描述文本与样本图像的内容不匹配的第一样本;基于同一批次的第一样本中正向样本对应的特征相似度和负向样本对应的特征相似度,确定第二模型损失;其中,第二模型损失与正向样本对应的特征相似度正相关;第二模型损失与负向样本对应的特征相似度负相关。
请参阅图11,本申请又一实施例提供了一种时序信息的预测装置400,装置400包括:目标域信号获取模块410,用于获取待预测时间段之前目标域的目标时序信号;信号预测模块420,用于利用时序信号预测模型基于目标时序信号,预测得到待预测时间段对应的预测信号值,时序信号预测模型是按照如前述的时序信号预测模型的训练装置获得。
在一种可实施方式中,装置400还包括实际信号获取模块和校验模块,实际信号获取模块,用于获取待预测时间段对应的实际信号值;校验模块,用于基于待预测时间段的预测信号值对待预测时间段对应的实际信号值进行校验,得到校验结果。
在一种可实施方式中,待预测时间段为参考时序信号中信号值缺失的时间段;装置还包括信号补全模块,用于基于预测时间段的预测信号值对参考时序信号中的预测时间段进行信号值补全。
上述时序信号预测模型的训练装置及时序信息的预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。需要说明的是,本申请中装置实施例与前述方法实施例是相互对应的,装置实施例中具体的原理可以参见前述方法实施例中的内容,此处不再赘述。
下面将结合图12对本申请提供的一种电子设备进行说明。
请参阅图12,基于上述实施例提供的时序信号预测模型的训练方法及时序信息预测方法,本申请实施例还提供的另一种包括可以执行前述方法的处理器102的电子设备100,该电子设备100可以为服务器或终端设备,终端设备可以是智能手机、平板电脑、计算机或者便携式计算机等设备。
电子设备100还包括存储器104。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
其中,处理器102可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器102利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(DigitalSignal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit,CPU)、图像处理器(GraphicsProcessing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。
存储器104可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所获取的数据(如,第一训练集和目标域训练集)等。
电子设备100还可以包括网络模块以及屏幕,网络模块用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯,例如和音频播放设备进行通讯。网络模块可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。网络模块可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。屏幕可以进行界面内容的显示以及进行数据交互,以及通过屏幕录入音频等。
在一些实施例中,电子设备100还可以包括有:外设接口106和至少一个外围设备。处理器102、存储器104和外设接口106之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外设接口连接。具体地,外围设备包括:射频组件108、定位组件112、摄像头114、音频组件116、显示屏118以及电源122等中的至少一种。
外设接口106可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器102和存储器104。在一些实施例中,处理器102、存储器104和外设接口106被集成在同一芯片或电路板上;在一些其他实施例中,处理器102、存储器104和外设接口106中的任意一个或两个可以在单独的芯片或电路板上实现,本申请实施例对此不加以限定。
射频组件108用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频组件108通过电磁信号与通信网络以及其他通信设备进行通信。射频组件108将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频组件108包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频组件108可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频组件108还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
定位组件112用于定位电子设备的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件112可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、北斗系统或伽利略系统的定位组件。
摄像头114用于采集图像或视频。可选地,摄像头114包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备100的前面板,后置摄像头设置在电子设备100的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头114还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频组件116可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器102进行处理,或者输入至射频组件108以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器102或射频组件108的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频组件114还可以包括耳机插孔。
显示屏118用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏118是触摸显示屏时,显示屏118还具有采集在显示屏118的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器102进行处理。此时,显示屏118还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏118可以为一个,设置电子设备100的前面板;在另一些实施例中,显示屏118可以为至少两个,分别设置在电子设备100的不同表面或呈折叠设计;在又一些实施例中,显示屏118可以是柔性显示屏,设置在电子设备100的弯曲表面上或折叠面上。甚至,显示屏118还可以设置成非矩形的不规则图形,也即异形屏。显示屏118可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,机发光二极管)等材质制备。
电源122用于为电子设备100中的各个组件进行供电。电源122可以是交流电、直流电、一次性电池或可充电电池。当电源122包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本申请实施例还提供一种计算机可读存储介质的结构框图。该计算机可读介质中存储有程序代码,程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中描述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (16)

1.一种时序信号预测模型的训练方法,其特征在于,所述时序信号预测模型包括特征提取网络和回归器,所述方法包括:
获取第一训练集,所述第一训练集包括多个第一样本和各第一样本的标签,所述第一样本包括样本图像和样本描述文本,所述标签用于指示样本描述文本与样本图像之间的匹配性;
对所述第一样本中的样本图像进行分块处理,得到图像块序列,以及对所述第一样本中的样本描述文本进行分块处理,得到文本块序列;
基于第一样本中样本图像对应的图像块序列、样本描述文本对应的文本块序列以及所述第一样本的标签,对特征提取网络进行预训练;
获取目标域训练集,所述目标域训练集包括多个第二样本,所述第二样本包括目标域中的历史时序信号和历史时序信号对应的下一时间段的实际时序信号;
根据第二样本中所述历史时序信号和所述历史时序信号对应的下一时间段的实际时序信号,对所述回归器和预训练后的特征提取网络进行微调训练。
2.根据权利要求1所述的方法,其特征在于,所述根据第二样本中所述历史时序信号和所述历史时序信号对应的下一时间段的实际时序信号,对所述回归器和预训练后的特征提取网络进行微调训练,包括:
对所述历史时序信号进行线性编码,得到所述历史时序信号的线性编码特征;
对所述历史时序信号进行位置编码,得到所述历史时序信号的位置编码特征;
将所述历史时序信号的线性编码特征和位置编码特征进行融合,得到历史编码特征;
由所述预训练后的特征提取网络基于所述历史编码特征进行特征提取,得到历史时序信号的特征;
由所述回归器基于历史时序信号的特征进行预测,得到历史时序信号对应的下一时间段的预测信号值;
基于所述下一时间段的实际时序信号和预测信号值,得到第一模型损失;
根据所述第一模型损失调整所述预训练后的特征提取网络以及所述回归器的参数,直至达到微调训练结束条件。
3.根据权利要求2所述的方法,其特征在于,所述特征提取网络包括多头注意力层、残差连接和归一化层、以及前馈神经网络;
所述根据所述第一模型损失调整所述预训练后的特征提取网络以及所述回归器的参数,包括:
冻结所述多头注意力层和所述前馈神经网络的参数;
根据第一模型损失调整所述回归器和所述残差连接和归一化层的参数。
4.根据权利要求1所述的方法,其特征在于,所述基于第一样本中样本图像对应的图像块序列、样本描述文本对应的分词序列以及所述第一样本的标签,对特征提取网络进行预训练,包括:
对所述图像块序列进行编码,得到所述图像块序列的图像编码特征序列,所述图像编码特征序列中各图像块的特征是将图像块的线性编码特征和位置编码特征进行融合得到的;
对所述文本块序列进行编码,得到所述文本块序列的文本编码特征序列,所述文本编码特征序列中各文本块的特征是将文本块的线性编码特征和位置编码特征进行融合得到的;
利用所述特征提取网络对所述图像编码特征序列进行特征提取,得到图像特征;
利用所述特征提取网络对所述文本编码特征序列进行特征提取,得到文本特征;
基于所述图像特征、所述文本特征以及所述第一样本的标签,得到第二模型损失;
基于所述第二模型损失调整所述特征提取网络的参数,直至达到预训练结束条件。
5.根据权利要求4所述的方法,其特征在于,所述对所述图像块序列进行编码,得到所述图像块序列的图像编码特征序列,包括:
对所述图像块序列中的各图像块分别进行位置编码,得到每个所述图像块的位置编码特征;
对所述图像块序列中的各图像块分别进行线性编码,得到每个所述图像块的线性编码特征;
针对所述图像块序列中的每个图像块,将该图像块的位置编码特征和线性编码特征进行融合,得到该图像块的特征;
按照图像块在所述图像块序列中的位置,将多个图像块的特征进行组合,得到所述图像块序列的图像编码特征序列;
所述对所述文本块序列进行编码,得到所述文本块序列的文本编码特征序列,包括:
对所述文本块序列中的各文本块分别进行位置编码,得到每个所述文本块的位置编码特征;
对所述文本块序列中的各文本块分别进行线性编码,得到每个所述文本块的线性编码特征;
针对所述文本块序列中的每个文本块,将该文本块的位置编码特征和线性编码特征进行融合,得到该文本块的特征;
按照文本块在所述文本块序列中的位置,将多个文本块的特征进行组合,得到所述文本块序列的文本编码特征序列。
6.根据权利要求4所述的方法,其特征在于,所述对所述图像块序列进行编码,得到所述图像块序列的图像编码特征序列之前,所述方法还包括:
对每个所述图像块中各像素点的像素值进行归一化处理,得到归一化处理后的图像块序列,以对归一化处理后的图像块序列进行编码;
对所述文本块序列进行编码,得到所述文本块序列的文本编码特征序列之前,所述方法还包括:
对各所述文本块中的文字进行嵌入处理得到文本向量;
对各所述文本块中文字的文本向量进行归一化处理,得到归一化处理后的文本块序列,以对归一化处理后的文本块序列进行编码。
7.根据权利要求4所述的方法,其特征在于,所述基于所述图像特征、所述文本特征以及所述第一样本的标签,得到第二模型损失,包括:
将所述图像特征、所述文本特征进行特征维度变换处理,得到维度相同的目标文本特征和目标图像特征;
计算对应于同一第一样本的所述目标文本特征和所述目标图像特征之间的特征相似度;
基于所述特征相似度和所述第一样本的标签,得到第二模型损失。
8.根据权利要求7所述的方法,其特征在于,所述基于所述特征相似度和所述第一样本的标签,得到第二模型损失,包括:
基于各所述第一样本的标签,确定同一批次的第一样本中的正向样本和负向样本,所述正向样本是指标签指示样本描述文本与样本图像的内容匹配的第一样本;所述负向样本是指标签指示样本描述文本与样本图像的内容不匹配的第一样本;
基于所述同一批次的第一样本中正向样本对应的特征相似度和负向样本对应的特征相似度,确定所述第二模型损失;其中,所述第二模型损失与正向样本对应的特征相似度正相关;所述第二模型损失与负向样本对应的特征相似度负相关。
9.一种时序信号的预测方法,其特征在于,所述方法包括:
获取待预测时间段之前目标域的目标时序信号;
由时序信号预测模型基于所述目标时序信号,预测得到待预测时间段对应的预测信号值,所述时序信号预测模型是按照如权利要求1至8中任一项所述的方法进行训练得到的。
10.根据权利要求9所述的方法,其特征在于,所述由时序信号预测模型基于所述目标时序信号,预测得到待预测时间段对应的预测信号值之后,所述方法还包括:
获取待预测时间段对应的实际信号值;
基于待预测时间段的预测信号值对所述待预测时间段对应的实际信号值进行校验,得到校验结果。
11.根据权利要求9所述的方法,其特征在于,所述待预测时间段为参考时序信号中信号值缺失的时间段;
所述由时序信号预测模型基于所述目标时序信号,预测得到待预测时间段对应的预测信号值,之后,所述方法还包括:
基于所述预测时间段的预测信号值对所述参考时序信号中的所述预测时间段进行信号值补全。
12.一种时序信号预测模型的训练装置,其特征在于,所述时序信号预测模型包括特征提取网络和回归器,所述装置包括:
第一训练集获取模块,用于获取第一训练集,所述第一训练集包括多个第一样本和各第一样本的标签,所述第一样本包括样本图像和样本描述文本,所述标签用于指示样本描述文本与样本图像之间的匹配性;
分块处理模块,用于对所述第一样本中的样本图像进行分块处理,得到图像块序列,以及对所述第一样本中的样本描述文本进行分块处理,得到文本块序列;
预训练模块,用于基于第一样本中样本图像对应的图像块序列、样本描述文本对应的文本块序列以及所述第一样本的标签,对特征提取网络进行预训练;
第二训练集获取模块,用于获取目标域训练集,所述目标域训练集包括多个第二样本,所述第二样本包括目标域中的历史时序信号和历史时序信号对应的下一时间段的实际时序信号;
微调训练模块,用于根据第二样本中所述历史时序信号和所述历史时序信号对应的下一时间段的实际时序信号,对所述回归器和预训练后的特征提取网络进行微调训练。
13.一种时序信号的预测装置,其特征在于,所述装置包括:
目标域信号获取模块,用于获取待预测时间段之前目标域的目标时序信号;
信号预测模块,用于利用时序信号预测模型基于所述目标时序信号,预测得到待预测时间段对应的预测信号值,所述时序信号预测模型是按照如权利要求12所述的时序信号预测模型的训练装置获得。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-8或9-11中任意一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-8或9-11中任意一项所述的方法。
16.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-8或9-11中任意一项所述方法的步骤。
CN202410263944.1A 2024-03-08 2024-03-08 时序信号预测模型的训练方法、预测方法、装置及设备 Active CN117852624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410263944.1A CN117852624B (zh) 2024-03-08 2024-03-08 时序信号预测模型的训练方法、预测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410263944.1A CN117852624B (zh) 2024-03-08 2024-03-08 时序信号预测模型的训练方法、预测方法、装置及设备

Publications (2)

Publication Number Publication Date
CN117852624A true CN117852624A (zh) 2024-04-09
CN117852624B CN117852624B (zh) 2024-07-09

Family

ID=90535051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410263944.1A Active CN117852624B (zh) 2024-03-08 2024-03-08 时序信号预测模型的训练方法、预测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN117852624B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444951A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 样本识别模型的生成方法、装置、计算机设备和存储介质
CN113762501A (zh) * 2021-04-20 2021-12-07 京东城市(北京)数字科技有限公司 预测模型的训练方法、装置、设备和存储介质
CN114118435A (zh) * 2021-06-02 2022-03-01 京东城市(北京)数字科技有限公司 基于迁移学习的时序模型训练方法和用于时序预测的方法
CN115099358A (zh) * 2022-07-11 2022-09-23 电子科技大学 基于字典创建与领域自适应的开放世界目标检测训练方法
US20230019211A1 (en) * 2021-06-30 2023-01-19 Nvidia Corporation Pretraining framework for neural networks
CN116129179A (zh) * 2022-12-23 2023-05-16 上海弘玑信息技术有限公司 跨模态模型的训练方法及装置、电子设备、存储介质
CN116631066A (zh) * 2022-02-10 2023-08-22 重庆傲雄在线信息技术有限公司 基于多模态联合预训练方式的签名鉴别方法及系统
US20230281400A1 (en) * 2022-03-03 2023-09-07 Google Llc Systems and Methods for Pretraining Image Processing Models
CN116977885A (zh) * 2022-11-10 2023-10-31 腾讯科技(深圳)有限公司 视频文本任务处理方法、装置、电子设备及可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444951A (zh) * 2020-03-24 2020-07-24 腾讯科技(深圳)有限公司 样本识别模型的生成方法、装置、计算机设备和存储介质
CN113762501A (zh) * 2021-04-20 2021-12-07 京东城市(北京)数字科技有限公司 预测模型的训练方法、装置、设备和存储介质
CN114118435A (zh) * 2021-06-02 2022-03-01 京东城市(北京)数字科技有限公司 基于迁移学习的时序模型训练方法和用于时序预测的方法
US20230019211A1 (en) * 2021-06-30 2023-01-19 Nvidia Corporation Pretraining framework for neural networks
CN116631066A (zh) * 2022-02-10 2023-08-22 重庆傲雄在线信息技术有限公司 基于多模态联合预训练方式的签名鉴别方法及系统
US20230281400A1 (en) * 2022-03-03 2023-09-07 Google Llc Systems and Methods for Pretraining Image Processing Models
CN115099358A (zh) * 2022-07-11 2022-09-23 电子科技大学 基于字典创建与领域自适应的开放世界目标检测训练方法
CN116977885A (zh) * 2022-11-10 2023-10-31 腾讯科技(深圳)有限公司 视频文本任务处理方法、装置、电子设备及可读存储介质
CN116129179A (zh) * 2022-12-23 2023-05-16 上海弘玑信息技术有限公司 跨模态模型的训练方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN117852624B (zh) 2024-07-09

Similar Documents

Publication Publication Date Title
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112990390B (zh) 一种图像识别模型的训练方法、图像识别的方法及装置
WO2024041479A1 (zh) 一种数据处理方法及其装置
CN111709398A (zh) 一种图像识别的方法、图像识别模型的训练方法及装置
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN116935188A (zh) 模型训练方法、图像识别方法、装置、设备及介质
CN117854156B (zh) 一种特征提取模型的训练方法和相关装置
CN116775915A (zh) 资源推荐方法、推荐预测模型训练方法、装置及设备
CN117556036A (zh) 摘要生成模型的训练方法、摘要生成方法、装置及设备
CN117493881A (zh) 一种模型生成方法、装置、设备及存储介质
CN117218507A (zh) 图像处理模型训练方法、图像处理方法、装置及电子设备
CN117852624B (zh) 时序信号预测模型的训练方法、预测方法、装置及设备
CN116129007A (zh) 图像处理方法、装置、设备及存储介质
CN114969360A (zh) 文本信息处理方法、装置、设备及存储介质
CN114663710A (zh) 轨迹识别方法、装置、设备及存储介质
CN114722893A (zh) 模型生成方法、图像标注方法、装置以及电子设备
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
CN114547308A (zh) 文本处理的方法、装置、电子设备及存储介质
CN114117037A (zh) 意图识别方法、装置、设备和存储介质
CN114372205B (zh) 特征量化模型的训练方法、装置以及设备
CN117975484B (zh) 变化检测模型的训练方法、变化检测方法、装置及设备
CN115205733B (zh) 视频识别方法、装置、设备、系统及存储介质
WO2024174583A1 (zh) 一种模型训练方法、装置、设备、存储介质及产品
CN116824196A (zh) 图像分类模型的训练方法、图像分类方法、装置以及设备
CN117789103A (zh) 场景识别方法、模型训练方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant