CN110909862A - 基于卷积神经网络的注意力权重计算方法和装置 - Google Patents

基于卷积神经网络的注意力权重计算方法和装置 Download PDF

Info

Publication number
CN110909862A
CN110909862A CN201910962685.0A CN201910962685A CN110909862A CN 110909862 A CN110909862 A CN 110909862A CN 201910962685 A CN201910962685 A CN 201910962685A CN 110909862 A CN110909862 A CN 110909862A
Authority
CN
China
Prior art keywords
attention
attention weight
hidden layer
data
influence factors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910962685.0A
Other languages
English (en)
Inventor
陈曦
李薿
庄伯金
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910962685.0A priority Critical patent/CN110909862A/zh
Publication of CN110909862A publication Critical patent/CN110909862A/zh
Priority to PCT/CN2020/093549 priority patent/WO2021068528A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于卷积神经网络的注意力权重计算方法,该方法包括:接收时序数据,并使用自注意力机制计算时序数据中各特征的注意力权重;对时序数据进行多层注意力权重提取,并获得中间隐藏层影响因素;根据中间隐藏层影响因素和预先获取的基准数据计算不同时刻基准数据的注意力权重;对基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素;根据最后一层的注意力权重和中间隐藏层影响因素获取并显示预测结果至客户端。其使用卷积操作提取注意力权重,可以从历史信息中获得信息;使用因果卷积的方式,可以避免未来时刻的信息泄露。本发明还通过修正卷积核的权重并采用多层提取方式,可以准确地获取注意力权重。

Description

基于卷积神经网络的注意力权重计算方法和装置
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于卷积神经网络的注意力权重计算方法和装置。
背景技术
近年来,深度学习技术得到了飞速发展,在解决高级抽象认知问题,例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐和智能机器人等领域得到了广泛应用,成为学术界和工业界的研究热点。
深度神经网络是人工智能领域具有最高发展水平的感知模型之一,其通过建立模型来模拟人类大脑的神经连接结构,通过多个变换阶段分层对数据特征进行描述,为图像、视频和音频等大规模数据处理任务带来突破性进展。深度神经网络模型是一种运算模型,由大量节点通过网状互连结构构成,这些节点被称为神经元。每两个节点间连接强度都代表通过该连接信号在两个节点间的加权重,即权重,与人类神经网络中的记忆相对应。
注意力机制是一种策略,最早是在视觉图像领域提出来的。注意力机制的思想是提高有用信息的权重,从而让任务处理装置更专注于找到输入数据中显著的与当前输出相关的有用信息,从而提高输出的质量。从应用层面上来说,注意力机制分为空间注意力机制和时序注意力机制。
目前的时序注意力模型主要有两种,一种使用在RNN模型之中,通过前一时间步(t-1)的state推算下一时间步(t)的注意力权重值。这种方式过于注重前一时间步(t-1)的影响力,而对更早的时间步(如t-2)及现时(t)的影响力估计不足。另一种则通过输入tensor矩阵相乘的方式计算注意力权重,缺少可训练参数。并且其attention形式需要通过连接dense层进行特征提取,一方面模型参数过大,另一方面,在时序模型中简单使用dense层,存在未来信息泄露的风险。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基于卷积神经网络注意力权重计算方法和装置。
为了实现上述目的,本发明第一方面提出了一种基于卷积神经网络的注意力权重计算方法,包括:
接收时序数据,并使用自注意力机制计算所述时序数据中各特征的注意力权重;
对所述时序数据进行多层注意力权重提取,并获得中间隐藏层影响因素;
根据中间隐藏层影响因素和预先获取的基准数据计算不同时刻基准数据的注意力权重;
对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素;
根据最后一层的注意力权重和中间隐藏层影响因素获取与所述时序数据对应的预测结果,并显示所述预测结果至客户端。
本方案中,使用自注意力机制计算所述时序数据中各特征的注意力权重,还包括:
使用可变形卷积机制对所述时序数据进行特征提取,以获取时间维度信息;
通过归一化指数函数层获取不同特征在不同时刻的注意力贡献值。
本方案中,对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素,还包括:
对上一层的中间隐藏层影响因素进行自注意力更新处理;
根据更新后的中间隐藏层影响因素和上一层得到的基准数据的注意力权重计算下一层基准数据的注意力权重。
本方案中,根据最后一层的注意力权重和中间隐藏层影响因素获取并显示与所述时序数据对应的预测结果,还包括:
将预测结果进行线性变换,并通过归一化指数函数输出分类预测结果。
本方案中,所述中间隐藏层影响因素根据历史时间信息和空间信息提取生成。
本方案中,在接收时序数据之后,还包括:
对所述时序数据进行扩张因果卷积操作以提取注意力权重。
本方案中,所述时序数据为数值转移历史数据,所述历史数据包括每日数值转移阈值、数值转移量、数值转移价值以及数值转移指数;与所述时序数据对应的预测结果为预设时间段内数值转移的各项预测结果,所述预设时间段为一天、一周、一个月中的任意一种。
本发明第二方面还提出一种基于卷积神经网络的注意力权重计算装置,所述基于卷积神经网络的注意力权重计算装置包括:
输入模块,用于接收时序数据,并使用自注意力机制计算所述时序数据中各特征的注意力权重;
提取模块,对所述时序数据进行多层注意力权重提取,并获得中间隐藏层影响因素;
计算模块,根据中间隐藏层影响因素和预先获取的基准数据计算不同时刻基准数据的注意力权重;
学习模块,对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素;
输出模块,根据最后一层的注意力权重和中间隐藏层影响因素获取与所述时序数据对应的预测结果,并显示所述预测结果至客户端。
本发明第三方面还提出一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于卷积神经网络的注意力权重计算方法。
本发明第四方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于卷积神经网络的注意力权重计算方法程序,所述基于卷积神经网络的注意力权重计算方法程序被处理器执行时,实现如上述的一种基于卷积神经网络的注意力权重计算方法的步骤。
本发明通过接收时序数据,并使用自注意力机制计算所述时序数据中各特征的注意力权重;对所述时序数据进行多层注意力权重提取,并获得中间隐藏层影响因素;根据中间隐藏层影响因素和预先获取的基准数据计算不同时刻基准数据的注意力权重;对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素;根据最后一层的注意力权重和中间隐藏层影响因素获取与所述时序数据对应的预测结果,并显示所述预测结果至客户端。本发明使用卷积操作提取注意力权重,可以从更早的历史信息中获得信息;使用因果卷积的方式,可以避免未来时刻的信息泄露。本发明还通过修正卷积核的权重并采用多层提取的方式,可以更准确地获取注意力权重。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了本发明一种基于卷积神经网络的注意力权重计算方法的流程图;
图2示出了本发明一种基于时间卷积网络的注意力模型的框图;
图3示出了本发明一种注意力模块的框图;
图4示出了本发明一种可变形卷积的示意图;
图5示出了本发明一种解码器注意力模块的框图;
图6示出了本发明一种基于卷积神经网络的注意力权重计算装置的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于卷积神经网络的注意力权重计算方法的流程图。
如图1所示,本发明第一方面提出一种基于卷积神经网络的注意力权重计算方法,包括:
S102,接收时序数据,并使用自注意力机制计算所述时序数据中各特征的注意力权重;
S104,对所述时序数据进行多层注意力权重提取,并获得中间隐藏层影响因素;
S106,根据中间隐藏层影响因素和预先获取的基准数据计算不同时刻基准数据的注意力权重;
S108,对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素;
S110,根据最后一层的注意力权重和中间隐藏层影响因素获取与所述时序数据对应的预测结果,并显示所述预测结果至客户端。
本实施例提供的该方法,对时序数据进行处理,最终获取与时序数据对应的预测结果,并将该预测结果显示至客户端,以供客户端根据该预测结果实现预测。
如:当时序数据为金融市场历史数据时,将于该金融市场历史数据对应的预测结果显示至客户端,以供客户端根据该预测结果对金融市场的风向进行预测。
根据本发明的实施例,使用自注意力机制计算所述时序数据中各特征的注意力权重,还包括:
使用可变形卷积机制对所述时序数据进行特征提取,以获取时间维度信息;
通过归一化指数函数层获取不同特征在不同时刻的注意力贡献值。
根据本发明的实施例,对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素,还包括:
对上一层的中间隐藏层影响因素进行自注意力更新处理;
根据更新后的中间隐藏层影响因素和上一层得到的基准数据的注意力权重计算下一层基准数据的注意力权重。
根据本发明的实施例,根据最后一层的注意力权重和中间隐藏层影响因素获取并显示与所述时序数据对应的预测结果,还包括:
将预测结果进行线性变换,并通过归一化指数函数输出分类预测结果。
需要说明的是,归一化指数函数(softmax),是逻辑函数的一种推广,其在机器学习和深度学习中有着非常广泛的应用。尤其在处理多分类(C>2)问题,分类器最后的输出单元需要归一化指数函数进行数值处理。关于归一化指数函数表达式为:
Figure BDA0002229455150000071
其中,Vi是分类器前级输出单元的输出;i表示类别索引,C表示总的类别个数;Si表示当前元素的指数与所有元素指数和的比值。归一化指数函数可以将多分类的输出数值转化为相对概率,更容易理解和比较。
优选的,所述中间隐藏层影响因素根据历史时间信息和空间信息提取生成。
根据本发明的实施例,在接收时序数据之后,还包括:
对所述时序数据进行扩张因果卷积操作以提取注意力权重。
进一步的,所述时序数据为数值转移历史数据,所述历史数据包括每日数值转移阈值、数值转移量、数值转移价值以及数值转移指数;与所述时序数据对应的预测结果为预设时间段内数值转移的各项预测结果,所述预设时间段为一天、一周、一个月中的任意一种。
如:数值转移历史数据为股票市场的历史数据,股票市场的历史数据包括每日收盘价、交易量、交易额以及行业指数;与股票市场的历史数据对应的预测结果为未来预设时间段内股票市场的涨跌情况,所述预设时间段为一天、一周、一个月中的任意一种。
根据本发明的实施例,可以预先建立基于时间卷积网络的注意力模型,如图2所示,所述注意力模型包括N个编码器注意力模块及M个解码器注意力模块。
以A股市场汽车行业为例,首先获取到汽车行业的股票每日历史数据,如每日收盘价、交易量、交易额、行业指数等指标,同时计算出波动率、ma均值、涨跌幅等统计指标。将上述多种指标作为特征输入到注意力模型中,此输入为一个三维张量,第一维度为数据个数,第二维度为数据的时间维度,如输入数据为历史60天或90天的日频数据,第三维度为特征维度。
将上述历史数据整理为时序数据,之后,将时序数据输入到编码器注意力模块中,在注意力模块中使用自注意力机制计算时序数据中各特征的注意力权重,特别地,可以将扩张因果卷积作为注意力模块用于对时序数据进行注意力权重的提取。所述扩张因果卷积通过设置不同的扩张率改变卷积核感受野,以获取更早的历史信息。
需要说明的是,可以将扩展因果卷积作为提取注意力权重的注意力模块,通过扩展因果卷积可以同时提取所有时间点的注意力权重。注意力模块结构如图3所示,自注意力即图中的Q=K=V,其中,Q代表query,K代表key,V代表value。具体地,以Q为例,通过扩展因果卷积模块对Q进行特征提取,提取后在输出Q’之中,t时刻的信息包含了t-1,t-2…时刻的历史信息,具体时长与扩张率有关。通过将扩张率设置为可学习的参数,使注意力模型可以自适应地选择最佳的时长。在提取之后,将中间层输出Q’与K’通过矩阵相乘函数进行矩阵相乘,并通过归一化指数函数进行压缩来获取注意力权重。
需要说明的是,在注意力权重的计算过程中,可以使用可变形卷积机制进行特征提取,以获取全面的时间维度信息,可变形卷积机制可以在训练过程中自动学习合适的扩张率,以获取更准确、全面的时间维度信息。之后,通过归一化指数函数层获取不同特征在不同时刻的注意力贡献值。最后,通过多层注意力模块的堆叠,对时序数据进行多层注意力提取,并获得解码器注意力模块的中间隐藏层输出H,其代表了从历史时间、空间信息中通过多层提取抽象出的影响力因素。
如图4所示,基于3×3标准可变形卷积的采样位置进行说明:(a)标准卷积的规则采样网格;(b)变形的采样位置,在可变形卷积中具有增强偏移;(c)和(d)是(b)的特殊情况,表明变形卷积概括了各种尺度变换、(各向异性)纵横比和旋转。
需要说明的是,可变形卷积的表达式为:
Figure BDA0002229455150000091
其中,偏移量Δpn可以通过双线性插值实现,具体表达式为:
Figure BDA0002229455150000101
上述式中,G(.,.)为双线性插值核。
如图5所示,将前述的隐藏层输出H输入到解码器注意力模块中,在注意力模块中与基准输入共同计算不同时刻基准输入的注意力权重,计算后作为该层注意力模块的输出。同时,通过自注意力模块对隐藏层输出H做自注意力更新处理,更新后的H作为下一层注意力模块的隐藏层输入。之后,通过多层注意力模块的堆叠,对基准输入进行多层注意力权重提取,并在此过程中不断更新隐藏层输出H,进而获取最终的输出预测值,即预测未来一段时间内(如1天或1周)的涨跌情况。具体的,可以将解码器的输出结果进行线性变换,并通过归一化指数函数输出最终的分类预测值,对股价变化进行分类预测(如涨、跌)。
需要说明是,所述注意力模型还包括位置编码,所述位置编码用于对输入序列置入位置信息。优选的,所述位置信息可以包括输入序列中各元素的位置关系。
可以理解,上述基于时间卷积网络的注意力模型,通过对时序数据进行可变形卷积操作以提取注意力权重,之后,对提取到的注意力权重再通过注意力模块的堆叠以对时序数据提取多次自注意力,得到中间层输出H。使用这种方式得到的注意力权重,不仅可以考虑前一时间步(t-1)的影响,还可以考虑到更早时刻(t-2,t-3...)及当前时刻(t)的影响因素。此外,通过多层注意力机制,可以更准确地提取到注意力的权重值。
可以理解,本发明使用可变形卷积作为注意力权重的提取方式,这种方式可以从更早的历史数据中提取信息,同时其提取的时间跨度可以学习,因此,具有更好的灵活性和准确性。
可以理解,在解码器注意力模块的注意力模块中,同时对时序数据和隐藏层输出H进行更新,即在学习过程中根据反馈不断对H进行调整,从而使获取的注意力权重更加准确。
如图6所示,本发明第二方面还提出一种基于卷积神经网络的注意力权重计算装置6,所述基于卷积神经网络的注意力权重计算装置6包括:
输入模块61,用于接收时序数据,并使用自注意力机制计算所述时序数据中各特征的注意力权重;
提取模块62,对所述时序数据进行多层注意力权重提取,并获得中间隐藏层影响因素;
计算模块63,根据中间隐藏层影响因素和预先获取的基准数据计算不同时刻基准数据的注意力权重;
学习模块64,对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素;
输出模块65,根据最后一层的注意力权重和中间隐藏层影响因素获取与所述时序数据对应的预测结果,并显示所述预测结果至客户端。
根据本发明的实施例,使用自注意力机制计算所述时序数据中各特征的注意力权重,还包括:
使用可变形卷积机制对所述时序数据进行特征提取,以获取时间维度信息;
通过归一化指数函数层获取不同特征在不同时刻的注意力贡献值。
根据本发明的实施例,对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素,还包括:
对上一层的中间隐藏层影响因素进行自注意力更新处理;
根据更新后的中间隐藏层影响因素和上一层得到的基准数据的注意力权重计算下一层基准数据的注意力权重。
根据本发明的实施例,根据最后一层的注意力权重和中间隐藏层影响因素获取并显示与所述时序数据对应的预测结果,还包括:
将预测结果进行线性变换,并通过归一化指数函数输出分类预测结果。
需要说明的是,归一化指数函数,是逻辑函数的一种推广,其在机器学习和深度学习中有着非常广泛的应用。尤其在处理多分类(C>2)问题,分类器最后的输出单元需要归一化指数函数进行数值处理。关于归一化指数函数表达式为:
Figure BDA0002229455150000121
其中,Vi是分类器前级输出单元的输出;i表示类别索引,C表示总的类别个数;Si表示当前元素的指数与所有元素指数和的比值。归一化指数函数可以将多分类的输出数值转化为相对概率,更容易理解和比较。
优选的,所述中间隐藏层影响因素根据历史时间和空间信息提取生成。
根据本发明的实施例,在接收时序数据之后,还包括:
对所述时序数据进行扩张因果卷积操作以提取注意力权重。
进一步的,所述时序数据为股票市场的历史数据,所述历史数据包括每日收盘价、交易量、交易额以及行业指数;与所述时序数据对应的预测结果为未来预设时间段内股票市场的涨跌情况,所述预设时间段为一天、一周、一个月的任意一种。
根据本发明的实施例,所述装置还包括基于时间卷积网络的注意力模型,所述注意力模型包括N个编码器注意力模块及M个解码器注意力模块。
以A股市场汽车行业为例,首先获取到汽车行业的股票每日历史数据,如每日收盘价、交易量、交易额、行业指数等指标,同时计算出波动率、ma均值、涨跌幅等统计指标。将上述多种指标作为特征输入到注意力模型中,此输入为一个三维张量,第一维度为数据个数,第二维度为数据的时间维度,如输入数据为历史60天或90天的日频数据,第三维度为特征维度。
将上述历史数据整理为时序数据,之后,将时序数据输入到编码器注意力模块中,在注意力模块中使用自注意力机制计算时序数据中各特征的注意力权重,特别地,可以将扩张因果卷积作为注意力模块用于对时序数据进行注意力权重的提取。所述扩张因果卷积通过设置不同的扩张率改变卷积核感受野,以获取更早的历史信息。
需要说明的是,可以将扩展因果卷积作为提取注意力权重的注意力模块,通过扩展因果卷积可以同时提取所有时间点的注意力权重。自注意力即Q=K=V,其中,Q代表query,K代表key,V代表value。具体地,以Q为例,通过扩展因果卷积模块对Q进行特征提取,提取后在输出Q’之中,t时刻的信息包含了t-1,t-2…时刻的历史信息,具体时长与扩张率有关。通过将扩张率设置为可学习的参数,使注意力模型可以自适应地选择最佳的时长。在提取之后,将中间层输出Q’与K’通过矩阵相乘函数进行矩阵相乘,并通过归一化指数函数函数进行压缩来获取注意力权重。
需要说明的是,在注意力权重的计算过程中,可以使用可变形卷积机制进行特征提取,以获取全面的时间维度信息,可变形卷积机制可以在训练过程中自动学习合适的扩张率,以获取更准确、全面的时间维度信息。之后,通过归一化指数函数层获取不同特征在不同时刻的注意力贡献值。最后,通过多层注意力模块的堆叠,对时序数据进行多层注意力提取,并获得编码器注意力模块的中间隐藏层输出H,其代表了从历史时间、空间信息中通过多层提取抽象出的影响力因素。
基于3×3标准可变形卷积的采样位置进行说明:(a)标准卷积的规则采样网格;(b)变形的采样位置,在可变形卷积中具有增强偏移;(c)和(d)是(b)的特殊情况,表明变形卷积概括了各种尺度变换、(各向异性)纵横比和旋转。
需要说明的是,可变形卷积的表达式为:
Figure BDA0002229455150000141
其中,偏移量Δpn可以通过双线性插值实现,具体表达式为:
Figure BDA0002229455150000142
上述式中,G(.,.)为双线性插值核。
将前述的隐藏层输出H输入到解码器注意力模块中,在注意力模块中与基准输入共同计算不同时刻基准输入的注意力权重,计算后作为该层注意力模块的输出。同时,通过自注意力模块对隐藏层输出H做自注意力更新处理,更新后的H作为下一层注意力模块的隐藏层输入。之后,通过多层注意力模块的堆叠,对基准输入进行多层注意力权重提取,并在此过程中不断更新隐藏层输出H,进而获取最终的输出预测值,即预测未来一段时间内(如1天或1周)的涨跌情况。具体的,可以将解码器的输出结果进行线性变换,并通过归一化指数函数函数输出最终的分类预测值,对股价变化进行分类预测(如涨、跌)。
需要说明是,所述注意力模型还包括位置编码,所述位置编码用于对输入序列置入位置信息。优选的,所述位置信息可以包括输入序列中各元素的位置关系。
可以理解,上述基于时间卷积网络的注意力模型,通过对时序数据进行可变形卷积操作以提取注意力权重,之后,对提取到的注意力权重再通过注意力模块的堆叠以对时序数据提取多次自注意力,得到中间层输出H。使用这种方式得到的注意力权重,不仅可以考虑前一时间步(t-1)的影响,还可以考虑到更早时刻(t-2,t-3...)及当前时刻(t)的影响因素。此外,通过多层注意力机制,可以更准确地提取到注意力的权重值。
可以理解,本发明使用可变形卷积作为注意力权重的提取方式,这种方式可以从更早的历史数据中提取信息,同时其提取的时间跨度可以学习,因此,具有更好的灵活性和准确性。
可以理解,在解码器注意力模块的注意力模块中,同时对时序数据和隐藏层输出H进行更新,即在学习过程中根据反馈不断对H进行调整,从而使获取的注意力权重更加准确。
本发明第三方面还提出一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于卷积神经网络的注意力权重计算方法。
需要说明的是,所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
需要说明的是,所述电子设备还可以包括显示器,所述预测结果通过显示器反馈给用户。所述显示器也可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器用于显示在电子设备中处理的信息以及用于显示可视化的工作界面。
本发明第四方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于卷积神经网络的注意力权重计算方法程序,所述基于卷积神经网络的注意力权重计算方法程序被处理器执行时,实现如上述的一种基于卷积神经网络的注意力权重计算方法的步骤。
本发明通过接收时序数据,并使用自注意力机制计算所述时序数据中各特征的注意力权重;对所述时序数据进行多层注意力权重提取,并获得中间隐藏层影响因素;根据中间隐藏层影响因素和预先获取的基准数据计算不同时刻基准数据的注意力权重;对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素;根据最后一层的注意力权重和中间隐藏层影响因素获取并显示与所述时序数据对应的预测结果至客户端。本发明使用卷积操作提取注意力权重,可以从更早的历史信息中获得信息;使用因果卷积的方式,可以避免未来时刻的信息泄露。本发明还通过修正卷积核的权重并采用多层提取的方式,可以更准确地获取注意力权重。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于卷积神经网络的注意力权重计算方法,其特征在于,包括:
接收时序数据,并使用自注意力机制计算所述时序数据中各特征的注意力权重;
对所述时序数据进行多层注意力权重提取,并获得中间隐藏层影响因素;
根据中间隐藏层影响因素和预先获取的基准数据计算不同时刻基准数据的注意力权重;
对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素;
根据最后一层的注意力权重和中间隐藏层影响因素获取与所述时序数据对应的预测结果,并显示所述预测结果至客户端。
2.根据权利要求1所述的一种基于卷积神经网络的注意力权重计算方法,其特征在于,使用自注意力机制计算所述时序数据中各特征的注意力权重,还包括:
使用可变形卷积机制对所述时序数据进行特征提取,以获取时间维度信息;
通过归一化指数函数层获取不同特征在不同时刻的注意力贡献值。
3.根据权利要求1所述的一种基于卷积神经网络的注意力权重计算方法,其特征在于,对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素,还包括:
对上一层的中间隐藏层影响因素进行自注意力更新处理;
根据更新后的中间隐藏层影响因素和上一层得到的基准数据的注意力权重计算下一层基准数据的注意力权重。
4.根据权利要求1所述的一种基于卷积神经网络的注意力权重计算方法,其特征在于,根据最后一层的注意力权重和中间隐藏层影响因素获取并显示与所述时序数据对应的预测结果,还包括:
将预测结果进行线性变换,并通过归一化指数函数输出分类预测结果。
5.根据权利要求1所述的一种基于卷积神经网络的注意力权重计算方法,其特征在于,所述中间隐藏层影响因素根据历史时间信息和空间信息提取生成。
6.根据权利要求1所述的一种基于卷积神经网络的注意力权重计算方法,其特征在于,在接收时序数据之后,还包括:
对所述时序数据进行扩张因果卷积操作以提取注意力权重。
7.根据权利要求1所述的一种基于卷积神经网络的注意力权重计算方法,其特征在于,
所述时序数据为数值转移历史数据,所述历史数据包括每日数值转移阈值、数值转移量、数值转移价值以及数值转移指数;与所述时序数据对应的预测结果为预设时间段内数值转移的各项预测结果,所述预设时间段为一天、一周、一个月中的任意一种。
8.一种基于卷积神经网络的注意力权重计算装置,其特征在于,所述基于卷积神经网络的注意力权重计算装置包括:
输入模块,用于接收时序数据,并使用自注意力机制计算所述时序数据中各特征的注意力权重;
提取模块,对所述时序数据进行多层注意力权重提取,并获得中间隐藏层影响因素;
计算模块,根据中间隐藏层影响因素和预先获取的基准数据计算不同时刻基准数据的注意力权重;
学习模块,对所述基准数据进行多层注意力权重提取,并使用自注意力机制更新中间隐藏层影响因素;
输出模块,根据最后一层的注意力权重和中间隐藏层影响因素获取与所述时序数据对应的预测结果,并显示所述预测结果至客户端。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的基于卷积神经网络的注意力权重计算方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于卷积神经网络的注意力权重计算方法程序,所述基于卷积神经网络的注意力权重计算方法程序被处理器执行时,实现如权利要求1至7中任一项所述的一种基于卷积神经网络的注意力权重计算方法的步骤。
CN201910962685.0A 2019-10-11 2019-10-11 基于卷积神经网络的注意力权重计算方法和装置 Pending CN110909862A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910962685.0A CN110909862A (zh) 2019-10-11 2019-10-11 基于卷积神经网络的注意力权重计算方法和装置
PCT/CN2020/093549 WO2021068528A1 (zh) 2019-10-11 2020-05-29 基于卷积神经网络的注意力权重计算方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910962685.0A CN110909862A (zh) 2019-10-11 2019-10-11 基于卷积神经网络的注意力权重计算方法和装置

Publications (1)

Publication Number Publication Date
CN110909862A true CN110909862A (zh) 2020-03-24

Family

ID=69815554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910962685.0A Pending CN110909862A (zh) 2019-10-11 2019-10-11 基于卷积神经网络的注意力权重计算方法和装置

Country Status (2)

Country Link
CN (1) CN110909862A (zh)
WO (1) WO2021068528A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507521A (zh) * 2020-04-15 2020-08-07 北京智芯微电子科技有限公司 台区电力负荷预测方法及预测装置
CN112183886A (zh) * 2020-10-22 2021-01-05 南京信息工程大学 基于卷积网络和注意力机制的短时临近降雨预测方法
WO2021068528A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法、装置及设备
CN113283529A (zh) * 2021-06-08 2021-08-20 南通大学 一种面向多模态图像能见度检测的神经网络构建方法
CN114795178A (zh) * 2022-04-28 2022-07-29 电子科技大学 一种基于多注意力神经网络的大脑状态解码方法
CN115841343A (zh) * 2022-12-16 2023-03-24 广州飞狮数字科技有限公司 一种销售额度的确定方法及装置
CN116307266A (zh) * 2023-05-15 2023-06-23 山东建筑大学 作物生长预测方法、装置、电子设备及存储介质
CN116839900A (zh) * 2023-07-06 2023-10-03 昌辉汽车转向系统(黄山)有限公司 基于因果注意的时序卷积网络的故障诊断方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380237A (zh) * 2021-06-09 2021-09-10 中国科学技术大学 增强局部依赖关系无监督预训练语音识别模型及训练方法
CN113591593B (zh) * 2021-07-06 2023-08-15 厦门路桥信息股份有限公司 基于因果干预的异常天气下目标检测方法、设备及介质
CN113535399B (zh) * 2021-07-15 2023-04-25 电子科技大学 一种nfv资源调度方法、装置以及系统
CN113655884A (zh) * 2021-08-17 2021-11-16 河北师范大学 设备控制方法、终端及系统
CN113806534B (zh) * 2021-09-03 2023-04-18 电子科技大学 一种面向社交网络的热点事件预测方法
CN113705809B (zh) * 2021-09-07 2024-03-19 北京航空航天大学 一种数据预测模型训练方法、工业指标预测方法和装置
CN114444572A (zh) * 2021-12-25 2022-05-06 西北工业大学 一种面向数据错误的空中目标意图识别方法及装置
CN114819053B (zh) * 2022-03-04 2024-05-03 中国人民解放军国防科技大学 基于时空卷积lstm的平均波向预报偏差订正方法
CN114971007A (zh) * 2022-05-20 2022-08-30 山东华科信息技术有限公司 基于多尺度图卷积神经网络的光伏发电预测方法及系统
CN115174421B (zh) * 2022-06-13 2023-05-23 湖北工业大学 基于自监督解缠绕超图注意力的网络故障预测方法及装置
CN116310810B (zh) * 2022-12-06 2023-09-15 青岛柯锐思德电子科技有限公司 基于空间注意力引导可变卷积的跨域高光谱图像分类方法
CN116128122B (zh) * 2023-01-03 2023-09-12 北京交通大学 一种考虑突发因素的城市轨道交通短时客流预测方法
CN115880567B (zh) * 2023-03-03 2023-07-25 深圳精智达技术股份有限公司 一种自注意力的计算方法、装置、电子设备和存储介质
CN116417992B (zh) * 2023-03-10 2024-03-19 华中科技大学 基于时空注意力机制的风机功率预测模型建立方法及应用
CN117237749A (zh) * 2023-09-15 2023-12-15 上海谱希和光基因科技有限公司 一种眼轴长度预测方法、系统、设备
CN116955965B (zh) * 2023-09-20 2024-02-02 山东鑫泰莱光电股份有限公司 一种基于太阳能数据故障预测方法、设备以及存储介质
CN117114207B (zh) * 2023-10-23 2024-02-06 山东科技大学 一种海上人员漂移轨迹预测方法
CN117725841B (zh) * 2024-02-04 2024-04-30 宝鸡核力材料科技有限公司 一种用于提升tc4卷带成材率的方法及系统
CN117975573A (zh) * 2024-03-29 2024-05-03 华南理工大学 基于CNN-Transformer混合模型的手语翻译方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6384065B2 (ja) * 2014-03-04 2018-09-05 日本電気株式会社 情報処理装置、学習方法、及び、プログラム
CN110163401B (zh) * 2018-02-12 2023-05-26 腾讯科技(深圳)有限公司 时间序列的预测方法、数据预测方法和装置
CN109710919A (zh) * 2018-11-27 2019-05-03 杭州电子科技大学 一种融合注意力机制的神经网络事件抽取方法
CN109598387A (zh) * 2018-12-14 2019-04-09 华东师范大学 基于双向跨模态注意力网络模型的股价预测方法及系统
CN110909862A (zh) * 2019-10-11 2020-03-24 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068528A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法、装置及设备
CN111507521B (zh) * 2020-04-15 2023-12-01 北京智芯微电子科技有限公司 台区电力负荷预测方法及预测装置
CN111507521A (zh) * 2020-04-15 2020-08-07 北京智芯微电子科技有限公司 台区电力负荷预测方法及预测装置
CN112183886A (zh) * 2020-10-22 2021-01-05 南京信息工程大学 基于卷积网络和注意力机制的短时临近降雨预测方法
CN112183886B (zh) * 2020-10-22 2024-03-15 南京信息工程大学 基于卷积网络和注意力机制的短时临近降雨预测方法
CN113283529A (zh) * 2021-06-08 2021-08-20 南通大学 一种面向多模态图像能见度检测的神经网络构建方法
CN113283529B (zh) * 2021-06-08 2022-09-06 南通大学 一种面向多模态图像能见度检测的神经网络构建方法
CN114795178A (zh) * 2022-04-28 2022-07-29 电子科技大学 一种基于多注意力神经网络的大脑状态解码方法
CN114795178B (zh) * 2022-04-28 2023-05-05 电子科技大学 一种基于多注意力神经网络的大脑状态解码方法
CN115841343A (zh) * 2022-12-16 2023-03-24 广州飞狮数字科技有限公司 一种销售额度的确定方法及装置
CN115841343B (zh) * 2022-12-16 2024-01-30 广州飞狮数字科技有限公司 一种销售额度的确定方法及装置
CN116307266A (zh) * 2023-05-15 2023-06-23 山东建筑大学 作物生长预测方法、装置、电子设备及存储介质
CN116839900A (zh) * 2023-07-06 2023-10-03 昌辉汽车转向系统(黄山)有限公司 基于因果注意的时序卷积网络的故障诊断方法
CN116839900B (zh) * 2023-07-06 2024-01-30 昌辉汽车转向系统(黄山)有限公司 基于因果注意的时序卷积网络的故障诊断方法

Also Published As

Publication number Publication date
WO2021068528A1 (zh) 2021-04-15

Similar Documents

Publication Publication Date Title
CN110909862A (zh) 基于卷积神经网络的注意力权重计算方法和装置
Basha et al. Impact of fully connected layers on performance of convolutional neural networks for image classification
US11966839B2 (en) Auto-regressive neural network systems with a soft attention mechanism using support data patches
Qian et al. Deep learning for steganalysis via convolutional neural networks
US8504493B2 (en) Self-organizing sequential memory pattern machine and reinforcement learning method
US10776691B1 (en) System and method for optimizing indirect encodings in the learning of mappings
CN113807399B (zh) 一种神经网络训练方法、检测方法以及装置
JP7207309B2 (ja) プログラム、情報処理方法、および情報処理装置
Ahn et al. Interactive text2pickup networks for natural language-based human–robot collaboration
CN112418292A (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN111309878B (zh) 检索式问答方法、模型训练方法、服务器及存储介质
CN114266897A (zh) 痘痘类别的预测方法、装置、电子设备及存储介质
CN115238909A (zh) 一种基于联邦学习的数据价值评估方法及其相关设备
CN109242089B (zh) 递进监督深度学习神经网络训练方法、系统、介质和设备
CN114445121A (zh) 一种广告点击率预测模型构建及广告点击率预测方法
CN113821724A (zh) 一种基于时间间隔增强的图神经网络推荐方法
CN110543566B (zh) 一种基于自注意力近邻关系编码的意图分类方法
Seddik et al. Multi-variable time series decoding with Long Short-Term Memory and mixture attention
CN116739154A (zh) 一种故障预测方法及其相关设备
CN110796195B (zh) 一种包含在线小样本激励的图像分类方法
CN111563413B (zh) 一种基于混合双模型的年龄预测方法
CN114155422A (zh) 一种视觉问题回答的实现方法、装置、设备及存储介质
JP6910061B2 (ja) テキスト生成装置、テキスト生成方法及びテキスト生成プログラム
CN111782802A (zh) 基于机器学习获得商品对应国民经济制造业的方法及系统
CN110362774B (zh) 点击率预估模型的建立方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination