CN110245263A - 一种聚合方法、装置、电子设备及存储介质 - Google Patents

一种聚合方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110245263A
CN110245263A CN201910403843.9A CN201910403843A CN110245263A CN 110245263 A CN110245263 A CN 110245263A CN 201910403843 A CN201910403843 A CN 201910403843A CN 110245263 A CN110245263 A CN 110245263A
Authority
CN
China
Prior art keywords
matrix
vector
obtains
intermediary
full articulamentum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910403843.9A
Other languages
English (en)
Other versions
CN110245263B (zh
Inventor
梁大为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910403843.9A priority Critical patent/CN110245263B/zh
Publication of CN110245263A publication Critical patent/CN110245263A/zh
Application granted granted Critical
Publication of CN110245263B publication Critical patent/CN110245263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种聚合方法、装置、电子设备及存储介质。通过本申请,可以将输入矩阵转换为多个不同的第一矩阵,然后基于多个不同的第一矩阵,从而可以提高多个第一矩阵的表达能力,以使多个第一矩阵能够尽可能地表达出视频的特征,如此,可以提高获取到的目标向量的表达能力,以使目标向量能够尽可能地表达出视频的特征,进而之后在根据目标向量来获取视频的分类时可以提高分类的准确率。

Description

一种聚合方法、装置、电子设备及存储介质
技术领域
本申请涉及数据分类技术领域,特别是涉及一种聚合方法、装置、电子设备及存储介质。
背景技术
当前,在大数据的环境下,视频分类对于视频的存储管理以及兴趣推荐具有十分重要的作用。
目前主流的视频分类方法都是基于神经网络对视频分类,在需要对视频分类时,通常需要对视频采样,得到若干张图像,并根据每一张图像分别获取一个固定长度的特征向量,然后将提取出的多个特征向量聚合为一个特征向量,再将聚合得到的特征向量输入神经网络中,得到神经网络输出的视频的分类。
然而,现有技术中的对视频分类的准确率较低。
发明内容
本申请示出了一种聚合方法、装置、电子设备及存储介质。
第一方面,本申请示出了一种聚合方法,所述方法包括:
获取多个第一矩阵;
对每一个第一矩阵分别进行注意力池化操作和转置操作,得到多个第二矩阵;
将多个第二矩阵聚合为三维的第三矩阵;
对每一个第一矩阵分别进行时序平均池化操作,得到多个第一向量;
将多个第一向量聚合为第二向量;
将所述第二向量输入第一全连接层,并对所述第一全连接层的输出进行重组,得到第四矩阵;
对所述第四矩阵进行逐行软最大softmax操作,得到第五矩阵;
根据所述第三矩阵和所述第五矩阵获取第六矩阵;
对所述第六矩阵进行逐列的范数归一化操作以及展开操作得到第三向量;
对所述第三向量进行范数归一化操作,得到目标向量。
在一个可选的实现方式中,所述根据所述第三矩阵和所述第五矩阵获取第六矩阵,包括:
将所述第三矩阵与所述第五矩阵逐元素相乘,得到三维中间矩阵;
将所述三维中间矩阵拟合为二维矩阵,并作为第六矩阵。
在一个可选的实现方式中,所述将所述三维中间矩阵拟合为二维矩阵,并作为第六矩阵,包括:
沿着所述三维中间矩阵的预设维度,将相同位置上的数值进行加权求和,将加权求和后得到的数值组成二维矩阵,并作为所述第六矩阵。
在一个可选的实现方式中,所述将第二向量输入预设全连接层,并对预设全连接层的输出进行重组,得到第四矩阵,包括:
将第二向量输入所述第一全连接层,得到所述第一全连接层的输出;
对所述第一全连接层的输出进行层归一化操作,得到归一化后的输出;
将归一化后的输出重组为第四矩阵。
在一个可选的实现方式中,所述获取多个第一矩阵,包括:
获取输入矩阵;
对所述输入矩阵分别进行多次特征处理操作,得到多个不同的第一矩阵。
在一个可选的实现方式中,所述对所述输入矩阵分别进行多次特征处理操作,得到多个不同的第一矩阵,包括:
根据所述输入矩阵和预设线性投影层获取第一中间矩阵;
将所述第一中间矩阵进行时序平均池化操作,得到第一中间向量;
根据所述第一中间向量和第二全连接层获取第二中间向量;
根据所述第二中间向量和第三全连接层获取所述第三中间向量;
根据所述第一中间矩阵和所述第三中间向量获取第一矩阵。
在一个可选的实现方式中,所述根据第一中间向量和第二全连接层获取第二中间向量,包括:
将所述第一中间向量输入所述第二全连接层;
对所述第二全连接层的输出进行层归一化操作,得到层归一化向量;
将所述层归一化向量进行整流线性单元激活操作,得到第二中间向量。
在一个可选的实现方式中,所述根据第二中间向量和第三全连接层获取所述第三中间向量,包括:
将所述第二中间向量输入所述第三全连接层;
对所述第三全连接层的输出进行层归一化操作,得到层归一化向量;
将所述层归一化向量进行双弯曲函数sigmoid激活操作,得到第三中间向量。
在一个可选的实现方式中,所述根据所述第一中间矩阵和所述第三中间向量获取第一矩阵,包括:
将所述第一中间矩阵与所述第一中间向量逐元素相乘,得到所述第一矩阵。
在一个可选的实现方式中,所述对每一个第一矩阵分别进行注意力池化和转置操作,得到多个第二矩阵,包括:
对于任意一个第一矩阵,对所述第一矩阵进行注意力池化操作,得到第二中间矩阵,对所述第二中间矩阵进行转置操作,得到一个第二矩阵。
在一个可选的实现方式中,所述对所述第一矩阵进行注意力池化操作,得到第二中间矩阵,包括:
根据所述第一矩阵与预设注意力矩阵获取第三中间矩阵;
对所述第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到第四中间矩阵;
根据所述第一矩阵和所述第四中间矩阵获取所述第二中间矩阵。
在一个可选的实现方式中,所述根据所述第一矩阵和所述第四中间矩阵获取所述第二中间矩阵,包括:
对所述第一矩阵进行转置操作,得到所述第五中间矩阵;
将所述第四中间矩阵与所述第五中间矩阵相乘,得到所述第二中间矩阵。
在一个可选的实现方式中,所述对所述第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到第四中间矩阵,包括:
对所述第三中间矩阵进行层归一化操作,得到层归一化后的第三中间矩阵;
将层归一化后的第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到所述第四中间矩阵。
第二方面,本申请示出了一种聚合装置,所述装置包括:
第一获取模块,用于获取多个第一矩阵;
第一操作模块,用于对每一个第一矩阵分别进行注意力池化操作和转置操作,得到多个第二矩阵;
第一聚合模块,用于将多个第二矩阵聚合为三维的第三矩阵;
第二操作模块,用于对每一个第一矩阵分别进行时序平均池化操作,得到多个第一向量;
第二聚合模块,用于将多个第一向量聚合为第二向量;
重组模块,用于将所述第二向量输入第一全连接层,并对所述第一全连接层的输出进行重组,得到第四矩阵;
第三操作模块,用于对所述第四矩阵进行逐行软最大softmax操作,得到第五矩阵;
第二获取模块,用于根据所述第三矩阵和所述第五矩阵获取第六矩阵;
第四操作模块,用于对所述第六矩阵进行逐列的范数归一化操作以及展开操作得到第三向量;
第五操作模块,用于对所述第三向量进行范数归一化操作,得到目标向量。
在一个可选的实现方式中,所述第二获取模块包括:
相乘单元,用于将所述第三矩阵与所述第五矩阵逐元素相乘,得到三维中间矩阵;
拟合单元,用于将所述三维中间矩阵拟合为二维矩阵,并作为第六矩阵。
在一个可选的实现方式中,所述拟合单元包括:
求和子单元,用于沿着所述三维中间矩阵的预设维度,将相同位置上的数值进行加权求和;
组成单元,用于将加权求和后得到的数值组成二维矩阵,并作为所述第六矩阵。
在一个可选的实现方式中,所述重组模块包括:
输入单元,用于将第二向量输入所述第一全连接层,得到所述第一全连接层的输出;
第一操作单元,用于对所述第一全连接层的输出进行层归一化操作,得到归一化后的输出;
重组单元,用于将归一化后的输出重组为第四矩阵。
在一个可选的实现方式中,所述第一获取模块包括:
获取单元,用于获取输入矩阵;
第二操作单元,用于对所述输入矩阵分别进行多次特征处理操作,得到多个不同的第一矩阵。
在一个可选的实现方式中,所述第二操作单元包括:
第一获取子单元,用于根据所述输入矩阵和预设线性投影层获取第一中间矩阵;
第一操作子单元,用于将所述第一中间矩阵进行时序平均池化操作,得到第一中间向量;
第二获取子单元,用于根据所述第一中间向量和第二全连接层获取第二中间向量;
第三获取子单元,用于根据所述第二中间向量和第三全连接层获取所述第三中间向量;
第四获取子单元,用于根据所述第一中间矩阵和所述第三中间向量获取第一矩阵。
在一个可选的实现方式中,所述第二获取子单元具体用于:将所述第一中间向量输入所述第二全连接层;对所述第二全连接层的输出进行层归一化操作,得到层归一化向量;将所述层归一化向量进行整流线性单元激活操作,得到第二中间向量。
在一个可选的实现方式中,所述第三获取子单元具体用于:将所述第二中间向量输入所述第三全连接层;对所述第三全连接层的输出进行层归一化操作,得到层归一化向量;将所述层归一化向量进行双弯曲函数sigmoid激活操作,得到第三中间向量。
在一个可选的实现方式中,所述第四获取子单元具体用于:将所述第一中间矩阵与所述第一中间向量逐元素相乘,得到所述第一矩阵。
在一个可选的实现方式中,所述第一操作模块包括:
第三操作单元,用于对于任意一个第一矩阵,对所述第一矩阵进行注意力池化操作,得到第二中间矩阵,第四操作单元,用于对所述第二中间矩阵进行转置操作,得到一个第二矩阵。
在一个可选的实现方式中,所述第三操作单元包括:
第五获取子单元,用于根据所述第一矩阵与预设注意力矩阵获取第三中间矩阵;
第二操作子单元,用于对所述第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到第四中间矩阵;
第六获取子单元,用于根据所述第一矩阵和所述第四中间矩阵获取所述第二中间矩阵。
在一个可选的实现方式中,所述第六获取子单元具体用于:对所述第一矩阵进行转置操作,得到所述第五中间矩阵;将所述第四中间矩阵与所述第五中间矩阵相乘,得到所述第二中间矩阵。
在一个可选的实现方式中,所述第二操作子单元具体用于:对所述第三中间矩阵进行层归一化操作,得到层归一化后的第三中间矩阵;将层归一化后的第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到所述第四中间矩阵。
第三方面,本申请示出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的聚合方法的步骤。
第四方面,本申请示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的聚合方法的步骤。
本申请包括以下优点:
在本申请中,在进行范数归一化操作时,往往是使用范数归一化对应的模型进行,范数归一化对应的模型中包括参数,将一个矩阵输入至范数归一化对应的模型中,得到范数归一化对应的模型输出的范数归一化后的另一矩阵,其中,范数归一化对应的模型对输入的该一个矩阵处理时,往往需要使用范数归一化对应的模型中的参数对输入的该一个矩阵处理,其中,范数归一化对应的模型中的参数的数量往往需要与输入的该一个矩阵中的参数的数量相匹配,例如,如果输入的该一个矩阵中的参数的数量越多,范数归一化对应的模型中的参数的数量就需要越多,否则就无法需要使用范数归一化对应的模型中的参数成功地对输入的该一个矩阵处理,如果输入的该一个矩阵中的参数的数量越少,范数归一化对应的模型中的参数的数量就可以越少。
在本申请中,第三矩阵为三维矩阵,将第三矩阵与第五矩阵拟合为一个作为二维矩阵的第六矩阵,作为二维矩阵的第六矩阵中的参数的数量小于三矩阵与第五矩阵中的的参数的数量,如此可以降低范数归一化操作对应的模型中的参数的数量,节省范数归一化操作对应的模型所占的存储空间,以及,由于范数归一化操作对应的模型中的参数的数量越多,则使用范数归一化操作对应的模型进行范数归一化操作时的过拟合风险越高,因此,本申请可以降低过拟合风险。
其中,将相同位置上的数值进行加权求和时,不同位置上的数值对应的权重是可以通过自学习得到的,且权重依赖于第三矩阵,也即,会依赖于第一矩阵,由于不同的第一矩阵不同,因此不同的第一矩阵中可以表达出的视频的特征的力度是不同的,因此,不同位置上的数值对应的权重是可以通过自学习得到,在自学习过程中,往往可以将表达出的视频的特征的力度较高的第一矩阵对应的权重设置的较高,以及将表达出的视频的特征的力度较低的第一矩阵对应的权重设置的较低,从而可以使得的第六矩阵可以尽可能地表达出视频的特征,进而之后在根据目标向量来获取视频的分类时可以提高分类的准确率。
通过本申请,可以将输入矩阵转换为多个不同的第一矩阵,然后基于多个不同的第一矩阵,从而可以提高多个第一矩阵的表达能力,以使多个第一矩阵能够尽可能地表达出视频的特征,如此,可以提高根据图1所示的流程获取到的目标向量的表达能力,以使目标向量能够尽可能地表达出视频的特征,进而之后在根据目标向量来获取视频的分类时可以提高分类的准确率。
附图说明
图1是本申请的一种聚合方法的步骤流程图。
图2是本申请的一种聚合方法的步骤流程图。
图3是本申请的一种获取第一矩阵的方法的步骤流程图。
图4是本申请的一种获取第一矩阵的方法的步骤流程图。
图5是本申请的一种获取第二矩阵的方法的步骤流程图。
图6是本申请的一种获取第二矩阵的方法的步骤流程图。
图7是本申请的一种聚合装置的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
参照图1和2,示出了本申请的一种聚合方法的步骤流程图,具体可以包括如下步骤:
在步骤S101中,获取多个第一矩阵。
在本申请中,当需要处理视频时,例如当需要对视频分类时,可以获取视频的特征,然后将视频的特征输入至分类模型中,得到分类模型输出的视频的类型。
其中,在获取视频的特征时,可以根据视频中的图像获取一个输入矩阵,然后根据输入矩阵获取多个第一矩阵,再根据本申请之后的步骤来将多个第一矩融合为一个目标向量,并作为视频的特征。
其中,根据输入矩阵获取多个第一矩阵的具体获取方法可以参见图3和图4所示的实施例,在此不做详述。
在本申请中,为了提高多个第一矩阵的表达能力,以使多个第一矩阵能够尽可能地表达出视频的特征,本申请获取的多个第一矩阵可以不全相同。
其中,可以将每一个第一矩阵分别看做由多个向量组成的矩阵,多个第一矩阵分别包括的向量的维度均相同且多个第一矩阵分别包括的向量的数量均相同,然而,多个第一矩阵包括的向量中的元素可以不同。向量的维度可以为向量中包括的元素的数量,元素可以为数值等等。
例如,每一个第一矩阵包括的向量的数量可以为N,每一个向量的维度可以为D,则第一矩阵可以表示为D*N的矩阵。
在步骤S102中,对每一个第一矩阵分别进行注意力池化操作和转置操作,得到多个第二矩阵。
在本申请中,对于任意一个第一矩阵,可以对该第一矩阵进行注意力池化操作,得到一个矩阵,然后对得到的该矩阵进行转置操作,得到另一个矩阵,并作为第二矩阵D*K。
对于其他每一个第一矩阵,同样执行上述操作,如此可以得到多个第二矩阵D*K。
其中,本步骤具体的流程可以参见之后图5和图6所示的实施例,在此不做详述。
在步骤S103中,将多个第二矩阵聚合为三维的第三矩阵。
在本申请中,假设第一矩阵为G个,则第二矩阵也为G个,对于任意一个第二矩阵D*K,可以将该第二矩阵D*K扩展为三维矩阵D*K*1,对于其他每一个第二矩阵,同样执行上述操作,如此,可以得到G个三维矩阵D*K*1,然后将G个三维矩阵D*K*1按照第三个维度组成一个三维的矩阵D*K*G,即为第三矩阵。
在步骤S104中,对每一个第一矩阵分别进行时序平均池化操作,得到多个第一向量。
在本申请中,对于任意一个第一矩阵,对于该第一矩阵中的任意一个向量,该向量中的每一个元素在该向量中都具备特定的位置,例如第几列等,对于该第一矩阵中的其他每一个向量,同样如此。
因此,对于任意一个位置,可以计算该第一矩阵中的每一个向量中该位置中的元素之间平均值,然后将这些平均值按照其对应的位置组成一个向量,并作为第一向量。
对于其他每一个第一矩阵,同样执行上述操作,如此可以得到多个第一向量。
例如,假设第一矩阵包括的向量的维度为D,则第一向量可以用D*1来表示。
在步骤S105中,将多个第一向量聚合为第二向量。
在本申请中,可以将多个第一向量依次首尾相连,组成第二向量。
例如,假设有三个第一向量,分别为[03 24 58 15]、[45 85 93 24]以及[47 1210 26]、将这三个第一向量首尾相连,得到第二向量[03 24 58 15 45 85 93 24 47 12 1026]。
例如,假设第一矩阵为G个,则第一向量的数量也为G个,将G个第一向量D*1依次首尾相连,得到第二向量DG*1。
在步骤S106中,将第二向量输入第一全连接层,并对第一全连接层的输出进行重组,得到第四矩阵。
在本步骤中,可以将第二向量输入第一全连接层,从而可以得到第一全连接层的输出。第一全连接层的输出即为一个向量,为了将该向量中的参数统一至一个区间内,可以对第一全连接层的输出进行层归一化操作,得到归一化后的输出,归一化后的输出也为一个向量,然后将归一化后的输出重组为第四矩阵。
例如,假设第二向量为DG*1的向量,第一全连接层包括维度为K*G的向量,K为注意力向量的数量,注意力向量的维度与第一矩阵中的向量的维度相同,注意力向量的数量是一个可选择的数值,例如64、128或256等,本申请对此不加以限定。第一矩阵的数量为G,因此,第一全连接层的输出即为包括K*G个元素的向量,然后将该向量中每K个数值作为一个向量,将G个向量组成一个矩阵,即为第四矩阵K*G。
例如,将第1~k个元素构成矩阵的第1列,第k+1~2k个元素构成矩阵的第2列,依次类推,从而得到第四矩阵K*G。
其中,事先在训练第一全连接层的过程中,可以样本向量输入第一全连接层,从而可以得到第一全连接层的样本输出,样本输出即为一个向量,为了加速第一全连接层中的参数的收敛,以提高训练效率,以及为了将样本输出中的参数统一至一个区间内,可以对第一全连接层的样本输出进行层归一化操作,得到归一化后的样本输出,归一化后的样本输出也为一个向量,然后将归一化后的样本输出重组。
在步骤S107中,对第四矩阵进行逐行softmax操作,得到第五矩阵。
在本步骤中,对于第四矩阵中的任意一行,可以计算该行中的各个元素的指数,然后计算各个元素的指数之间的和值,然后计算各个元素的指数与该和值之间的比值,再将各个元素的指数与该和值之间的比值组成新的一行。
对于第四矩阵中的每一行,同样执行上述操作,从而可以得到多个新的一行,然后将多个新的一行组成一个新的矩阵,即为第五矩阵。
其中,在对第四矩阵进行逐行softmax操作时,并未对第四矩阵的行数和列数进行改变,因此,第五矩阵也可以使用K*G来表示。
在步骤S108中,根据第三矩阵和第五矩阵获取第六矩阵。
本步骤具体可以通过如下流程实现,包括:
1081、将第三矩阵与第五矩阵逐元素相乘,得到三维中间矩阵。
在本申请中,第三矩阵为三维矩阵,可以按照其中一个特定的维度,将第三矩阵看做多个二维矩阵,对于任意一个二维矩阵,将该二维矩阵与第五矩阵逐元素相乘,得到一个新的二维矩阵,对于其他每一个二维矩阵,同样执行上述操作,从而可以得到多个新的二维矩阵,多个新的二维矩阵组成的矩阵即为三维中间矩阵。
例如,在本申请中,可以将第三矩阵D*K*G看成D个二维矩阵K*G,然后对于任意一个二维矩阵K*G,将该二维矩阵K*G与第五矩阵K*G逐元素相乘,得到新的二维矩阵K*G,对于其他每一个二维矩阵K*G,同样执行上述操作,从而可以得到多个新的二维矩阵K*G,多个新的二维矩阵K*G组成的矩阵即为三维中间矩阵D*K*G。
1082、将三维中间矩阵拟合为二维矩阵,并作为第六矩阵。
在本申请中,可以按照步骤1081中的特定的维度,将三维中间矩阵看做多个二维矩阵,对于任意一个二维矩阵,该二维矩阵中的每一个元素在该二维矩阵中都就具备各自的位置,例如第几行第几列,对其他每一个二维矩阵,同样如此。
如此,可以沿着三维中间矩阵的该特定的维度,将相同位置上的数值进行加权求和,将加权求和后得到的数值组成一个二维矩阵,并作为第六矩阵。
例如,沿着三维中间矩阵D*K*G的该特定的维度G,将相同位置上的数值进行加权求和,将加权求和后得到的数值组成二维矩阵D*K,并作为第六矩阵D*K。
在步骤S109中,对第六矩阵进行逐列的范数归一化操作以及展开操作得到第三向量。
对于第六矩阵中的任意一列,计算该列中的各个元素之间的平方和的开方,然后将各个元素除以该开方,对于第六矩阵中的其他每一列,同样执行上述操作,如此,得到一个新矩阵,然后将该矩阵展开为一个向量,即为第三向量。
例如,对第六矩阵D*K进行逐列的范数归一化操作并未改变第六矩阵的维度,因此,得到的新的矩阵可以用D*K表示,然后将新的矩阵D*K中的任意相邻的两行中的靠上方的行的尾部与靠下方的行的首部相连,得到第三向量DK*1。
在步骤S110中,对第三向量进行范数归一化操作,得到目标向量。
在本申请中,可以计算第三向量中的各个元素之间的平方和的开方,然后将第三向量中的各个元素除以该开方之间的比值,从而得到目标向量。
例如,对第三向量DK*1进行范数归一化操作并未改变第三向量的维度,因此,目标向量也可以用DK*1表示。
进一步地,可以将目标向量输入分类模型中,得到视频的分类。
在本申请中,在进行范数归一化操作时,往往是使用范数归一化对应的模型进行,范数归一化对应的模型中包括参数,将一个矩阵输入至范数归一化对应的模型中,得到范数归一化对应的模型输出的范数归一化后的另一矩阵,其中,范数归一化对应的模型对输入的该一个矩阵处理时,往往需要使用范数归一化对应的模型中的参数对输入的该一个矩阵处理,其中,范数归一化对应的模型中的参数的数量往往需要与输入的该一个矩阵中的参数的数量相匹配,例如,如果输入的该一个矩阵中的参数的数量越多,范数归一化对应的模型中的参数的数量就需要越多,否则就无法需要使用范数归一化对应的模型中的参数成功地对输入的该一个矩阵处理,如果输入的该一个矩阵中的参数的数量越少,范数归一化对应的模型中的参数的数量就可以越少。
在本申请中,第三矩阵为三维矩阵,将第三矩阵与第五矩阵拟合为一个作为二维矩阵的第六矩阵,作为二维矩阵的第六矩阵中的参数的数量小于三矩阵与第五矩阵中的的参数的数量,如此可以降低范数归一化操作对应的模型中的参数的数量,节省范数归一化操作对应的模型所占的存储空间,以及,由于范数归一化操作对应的模型中的参数的数量越多,则使用范数归一化操作对应的模型进行范数归一化操作时的过拟合风险越高,因此,本申请可以降低过拟合风险。
其中,将相同位置上的数值进行加权求和时,不同位置上的数值对应的权重是可以通过自学习得到的,且权重依赖于第三矩阵,也即,会依赖于第一矩阵,由于不同的第一矩阵不同,因此不同的第一矩阵中可以表达出的视频的特征的力度是不同的,因此,不同位置上的数值对应的权重是可以通过自学习得到,在自学习过程中,往往可以将表达出的视频的特征的力度较高的第一矩阵对应的权重设置的较高,以及将表达出的视频的特征的力度较低的第一矩阵对应的权重设置的较低,从而可以使得的第六矩阵可以尽可能地表达出视频的特征,进而之后在根据目标向量来获取视频的分类时可以提高分类的准确率。
在本申请另一实施例中,参见图3和4,步骤S101包括:
在步骤S201中,获取输入矩阵。
在本申请中,当需要处理视频时,例如当需要对视频分类时,可以获取视频的特征,然后将视频的特征输入至分类模型中,得到分类模型输出的视频的类型。
其中,由于视频包括多帧按照时间顺序排列的图像,因此,可以每间隔一段时间采集视频中的一帧图像,例如,共采集到视频中的N帧图像,然后提取每一帧图像的特征向量,每一个特征向量可以包括D’个元素,也即,每一个特征向量的维度为D’,然后将每一帧图片的特征向量组成视频的特征矩阵,该特征矩阵即为本步骤中的输入矩阵,输入矩阵可以用于D’*N来表示。
其中,在提取每一帧图像的特征向量时,可以将图像输入神经网络中,神经网络中包括多个级联的层,相邻的顺序靠前的层的输出即为顺序靠后的层的输入,多个级联的层除了输入层和输出层都是隐藏层,本申请可以将神经网络中的最后一个隐藏层输出的向量作为图像的特征向量等。
在步骤S202中,对输入矩阵分别进行多次特征处理操作,得到多个不同的第一矩阵。
在本申请中,输入矩阵是由多个向量组成,如此,对输入矩阵进行一次特征处理操作时,可以提高输入矩阵中的各个向量的维度,例如,在输入矩阵中的每一个向量中的任意位置增加随机元素。或者,降低输入矩阵中的向量的的维度,例如,删除输入矩阵中的每一个向量中的任意位置处的元素。或者,可以提高输入矩阵中的向量的数量,例如,在输入矩阵中的任意位置处增加一个随机向量。或者,减少输入矩阵中的向量的数量,例如,在数据矩阵中随机删除一个向量等。如此,在对输入矩阵分别进行多次特征处理操作之后,可以得到多个不同的第一矩阵。
具体地,对输入矩阵进行一次特征处理操作的流程可以包括:
2021、根据输入矩阵和预设线性投影层获取第一中间矩阵。
在本申请中,可以将输入矩阵D’*N的输入至预设线性投影层,得到D*N的第一矩阵。
其中,预设线性投影层的维数可以与输入矩阵的维度相同,也可以大于或小于输入矩阵的维数,预设线性投影层可以采用TensorFlow中的1x1卷积等方式来实现线性投影层。
其中,预设线性投影层包括y=wx+b,其中,w是投影矩阵,x是输入向量,b是偏置向量,y是输出向量,投影矩阵w中的参数和偏置向量b中的参数均是可学习的。
在本申请中,可以将输入矩阵拆分为多个列向量,对于任意一个列向量,可以将该列向量作为x与投影矩阵w逐点相乘,再将相乘结果与偏置向量b相加,得到一个新的列向量,即得到一个输出向量y。对于其他每一个列向量,同样执行上述操作,从而得到多个新的列向量,新的列向量的数量与拆分得到的列向量的数量相同,可以将多个新的列向量组成一个矩阵,作为第一中间矩阵。然后,重复多次上述过程,每一次的过程中的投影矩阵w不同和/或偏置向量b不同,例如,投影矩阵w的维度不同等。
2022、对第一中间矩阵进行时序平均池化操作,得到第一中间向量。
在本申请中,对于第一中间矩阵中的任意一个向量,该向量中的每一个元素在该向量中都具备特定的位置,例如第几列等,对于第一中间矩阵中的其他每一个向量,同样如此。
因此,对于任意一个位置,可以计算第一中间矩阵中的每一个向量中该位置中的元素之间平均值,然后将这些平均值按照对应的位置组成一个向量,作为第一中间向量。
例如,假设第一中间矩阵可以用D*N来表示,则第一中间向量可以用D*1来表示。
2023、根据第一中间向量和第二全连接层获取第二中间向量。
在本步骤中,可以将第一中间向量输入第二全连接层,从而可以得到第二全连接层的输出,第二全连接层的输出即为一个向量,为了将该向量中的参数统一至一个区间内,然后可以对第二全连接层的输出进行层归一化操作,得到层归一化向量,之后将层归一化向量进行整流线性单元激活操作,得到第二中间向量。
例如,假设第一中间向量为D*1的向量,第二全连接层为(D/2)*1的向量,则最终得到的第二中间向量可以用(D/2)*1表示。
其中,事先在训练第二全连接层的过程中,可以样本向量输入第二全连接层,从而可以得到第二全连接层的样本输出,样本输出即为一个向量,为了加速第二全连接层中的参数的收敛,以提高训练效率,以及为了将样本输出中的参数统一至一个区间内,可以对第二全连接层的样本输出进行层归一化操作,得到归一化后的样本输出,归一化后的样本输出也为一个向量。
2024、根据第二中间向量和第三全连接层获取第三中间向量。
在本步骤中,可以将第二中间向量输入第三全连接层,从而可以得到第三全连接层的输出,第三全连接层的输出即为一个向量,为了将该向量中的参数统一至一个区间内,可以对第三全连接层的输出进行层归一化操作,得到层归一化向量,之后将层归一化向量进行双弯曲函数sigmoid激活操作,得到第三中间向量。
例如,假设第二中间向量为(D/2)*1的向量,第三全连接层包括D*1的向量,其最终输出的第三中间向量可以用D*1表示。
其中,事先在训练第三全连接层的过程中,可以样本向量输入第三全连接层,从而可以得到第三全连接层的样本输出,样本输出即为一个向量,为了加速第三全连接层中的参数的收敛,以提高训练效率,以及为了将样本输出中的参数统一至一个区间内,可以对第三全连接层的样本输出进行层归一化操作,得到归一化后的样本输出,归一化后的样本输出也为一个向量。
2025、根据第一中间矩阵和第三中间向量获取第一矩阵。
可以将第一中间矩阵与第一中间向量逐元素相乘,得到第一矩阵。
例如,将第一中间矩阵D*N与第一中间向量D*1逐元素相乘,得到第一矩阵D*N。
通过本申请,可以将输入矩阵转换为多个不同的第一矩阵,然后基于多个不同的第一矩阵,从而可以提高多个第一矩阵的表达能力,以使多个第一矩阵能够尽可能地表达出视频的特征,如此,可以提高根据图1所示的流程获取到的目标向量的表达能力,以使目标向量能够尽可能地表达出视频的特征,进而之后在根据目标向量来获取视频的分类时可以提高分类的准确率。
在本申请另一实施例中,参见图5和6,对于任意一个第一矩阵,可以通过如下流程来根据该第一矩阵获取一个第二矩阵,对于其他每一个第一矩阵,同样如此。
在步骤S301中,对第一矩阵进行注意力池化操作,得到第二中间矩阵。
本步骤具体可以通过如下流程实现,包括:
3011、根据第一矩阵与预设注意力矩阵获取第三中间矩阵。
在本申请中,预设注意力矩阵的维度可以为K*D。
可以将预设注意力矩阵与第一矩阵相乘,得到第三中间矩阵。
例如,第一矩阵为D*N,将注意力矩阵K*D与第一矩阵D*N相乘,得到第三中间矩阵K*N。
3012、对第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,随机失活操作就是在训练的过程中将其操作的向量或矩阵按照一个预设的比例随机置成0值,得到第四中间矩阵。
本步骤可以通过如下流程实现,包括:
11)、对第三中间矩阵进行层归一化操作,得到层归一化后的第三中间矩阵。
在本申请中,为了将第三中间矩阵中的参数统一至一个区间内,可以对第三中间矩阵进行层归一化操作,得到层归一化后的第三中间矩阵。
12)、将层归一化后的第三中间矩阵进行逐行softmax操作。
在本步骤中,对于层归一化后的第三中间矩阵中的任意一行,可以计算该行中的各个元素的指数,然后计算各个元素的指数之间的和值,然后计算各个元素的指数与该和值之间的比值,再将各个元素的指数与该和值之间的比值组成新的一行。
对于层归一化后的第三中间矩阵中的每一行,同样执行上述操作,从而可以得到多个新的一行,然后将多个新的一行组成一个新的矩阵,即为softmax操作后的输出。
13)、对softmax操作后的输出进行随机失活dropout操作,得到第四中间矩阵。
例如,对softmax操作后的输出进行随机失活dropout操作,得到第四中间矩阵K*N。
3013、根据第一矩阵和第四中间矩阵获取第二中间矩阵。
在本步骤中,可以对第一矩阵进行转置操作,得到第五中间矩阵。然后将第四中间矩阵与第五中间矩阵相乘,得到第二中间矩阵。
例如,对第一矩阵D*N进行转置操作,得到第五中间矩阵N*D。然后将第四中间矩阵K*N与第五中间矩阵N*D相乘,得到第二中间矩阵K*D。
在步骤S302中,对第二中间矩阵进行转置操作,得到一个第二矩阵。
例如,对第二中间矩阵K*D进行转置操作,得到第二矩阵D*K。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本申请所必须的。
参照图7,示出了本申请的一种聚合装置的结构框图,该装置具体可以包括如下模块:
第一获取模块01,用于获取多个第一矩阵;
第一操作模块02,用于对每一个第一矩阵分别进行注意力池化操作和转置操作,得到多个第二矩阵;
第一聚合模块03,用于将多个第二矩阵聚合为三维的第三矩阵;
第二操作模块04,用于对每一个第一矩阵分别进行时序平均池化操作,得到多个第一向量;
第二聚合模块05,用于将多个第一向量聚合为第二向量;
重组模块06,用于将所述第二向量输入第一全连接层,并对所述第一全连接层的输出进行重组,得到第四矩阵;
第三操作模块07,用于对所述第四矩阵进行逐行软最大softmax操作,得到第五矩阵;
第二获取模块08,用于根据所述第三矩阵和所述第五矩阵获取第六矩阵;
第四操作模块09,用于对所述第六矩阵进行逐列的范数归一化操作以及展开操作得到第三向量;
第五操作模块10,用于对所述第三向量进行范数归一化操作,得到目标向量。
在一个可选的实现方式中,所述第二获取模块08包括:
相乘单元081,用于将所述第三矩阵与所述第五矩阵逐元素相乘,得到三维中间矩阵;
拟合单元082,用于将所述三维中间矩阵拟合为二维矩阵,并作为第六矩阵。
在一个可选的实现方式中,所述拟合单元082包括:
求和子单元,用于沿着所述三维中间矩阵的预设维度,将相同位置上的数值进行加权求和;
组成单元,用于将加权求和后得到的数值组成二维矩阵,并作为所述第六矩阵。
在一个可选的实现方式中,所述重组模块06包括:
输入单元061,用于将第二向量输入所述第一全连接层,得到所述第一全连接层的输出;
第一操作单元062,用于对所述第一全连接层的输出进行层归一化操作,得到归一化后的输出;
重组单元063,用于将归一化后的输出重组为第四矩阵。
在一个可选的实现方式中,所述第一获取模块01包括:
获取单元011,用于获取输入矩阵;
第二操作单元012,用于对所述输入矩阵分别进行多次特征处理操作,得到多个不同的第一矩阵。
在一个可选的实现方式中,所述第二操作单元012包括:
第一获取子单元,用于根据所述输入矩阵和预设线性投影层获取第一中间矩阵;
第一操作子单元,用于将所述第一中间矩阵进行时序平均池化操作,得到第一中间向量;
第二获取子单元,用于根据所述第一中间向量和第二全连接层获取第二中间向量;
第三获取子单元,用于根据所述第二中间向量和第三全连接层获取所述第三中间向量;
第四获取子单元,用于根据所述第一中间矩阵和所述第三中间向量获取第一矩阵。
在一个可选的实现方式中,所述第二获取子单元具体用于:将所述第一中间向量输入所述第二全连接层;对所述第二全连接层的输出进行层归一化操作,得到层归一化向量;将所述层归一化向量进行整流线性单元激活操作,得到第二中间向量。
在一个可选的实现方式中,所述第三获取子单元具体用于:将所述第二中间向量输入所述第三全连接层;对所述第三全连接层的输出进行层归一化操作,得到层归一化向量;将所述层归一化向量进行双弯曲函数sigmoid激活操作,得到第三中间向量。
在一个可选的实现方式中,所述第四获取子单元具体用于:将所述第一中间矩阵与所述第一中间向量逐元素相乘,得到所述第一矩阵。
在一个可选的实现方式中,所述第一操作模块02包括:
第三操作单元021,用于对于任意一个第一矩阵,对所述第一矩阵进行注意力池化操作,得到第二中间矩阵,第四操作单元022,用于对所述第二中间矩阵进行转置操作,得到一个第二矩阵。
在一个可选的实现方式中,所述第三操作单元021包括:
第五获取子单元,用于根据所述第一矩阵与预设注意力矩阵获取第三中间矩阵;
第二操作子单元,用于对所述第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到第四中间矩阵;
第六获取子单元,用于根据所述第一矩阵和所述第四中间矩阵获取所述第二中间矩阵。
在一个可选的实现方式中,所述第六获取子单元具体用于:对所述第一矩阵进行转置操作,得到所述第五中间矩阵;将所述第四中间矩阵与所述第五中间矩阵相乘,得到所述第二中间矩阵。
在一个可选的实现方式中,所述第二操作子单元具体用于:对所述第三中间矩阵进行层归一化操作,得到层归一化后的第三中间矩阵;将层归一化后的第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到所述第四中间矩阵。
第三方面,本申请示出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的聚合方法的步骤。
第四方面,本申请示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的聚合方法的步骤。
本申请包括以下优点:
在本申请中,在进行范数归一化操作时,往往是使用范数归一化对应的模型进行,范数归一化对应的模型中包括参数,将一个矩阵输入至范数归一化对应的模型中,得到范数归一化对应的模型输出的范数归一化后的另一矩阵,其中,范数归一化对应的模型对输入的该一个矩阵处理时,往往需要使用范数归一化对应的模型中的参数对输入的该一个矩阵处理,其中,范数归一化对应的模型中的参数的数量往往需要与输入的该一个矩阵中的参数的数量相匹配,例如,如果输入的该一个矩阵中的参数的数量越多,范数归一化对应的模型中的参数的数量就需要越多,否则就无法需要使用范数归一化对应的模型中的参数成功地对输入的该一个矩阵处理,如果输入的该一个矩阵中的参数的数量越少,范数归一化对应的模型中的参数的数量就可以越少。
在本申请中,第三矩阵为三维矩阵,将第三矩阵与第五矩阵拟合为一个作为二维矩阵的第六矩阵,作为二维矩阵的第六矩阵中的参数的数量小于三矩阵与第五矩阵中的的参数的数量,如此可以降低范数归一化操作对应的模型中的参数的数量,节省范数归一化操作对应的模型所占的存储空间,以及,由于范数归一化操作对应的模型中的参数的数量越多,则使用范数归一化操作对应的模型进行范数归一化操作时的过拟合风险越高,因此,本申请可以降低过拟合风险。
其中,将相同位置上的数值进行加权求和时,不同位置上的数值对应的权重是可以通过自学习得到的,且权重依赖于第三矩阵,也即,会依赖于第一矩阵,由于不同的第一矩阵不同,因此不同的第一矩阵中可以表达出的视频的特征的力度是不同的,因此,不同位置上的数值对应的权重是可以通过自学习得到,在自学习过程中,往往可以将表达出的视频的特征的力度较高的第一矩阵对应的权重设置的较高,以及将表达出的视频的特征的力度较低的第一矩阵对应的权重设置的较低,从而可以使得的第六矩阵可以尽可能地表达出视频的特征,进而之后在根据目标向量来获取视频的分类时可以提高分类的准确率。
通过本申请,可以将输入矩阵转换为多个不同的第一矩阵,然后基于多个不同的第一矩阵,从而可以提高多个第一矩阵的表达能力,以使多个第一矩阵能够尽可能地表达出视频的特征,如此,可以提高根据图1所示的流程获取到的目标向量的表达能力,以使目标向量能够尽可能地表达出视频的特征,进而之后在根据目标向量来获取视频的分类时可以提高分类的准确率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种聚合方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (28)

1.一种聚合方法,其特征在于,所述方法包括:
获取多个第一矩阵;
对每一个第一矩阵分别进行注意力池化操作和转置操作,得到多个第二矩阵;
将多个第二矩阵聚合为三维的第三矩阵;
对每一个第一矩阵分别进行时序平均池化操作,得到多个第一向量;
将多个第一向量聚合为第二向量;
将所述第二向量输入第一全连接层,并对所述第一全连接层的输出进行重组,得到第四矩阵;
对所述第四矩阵进行逐行软最大softmax操作,得到第五矩阵;
根据所述第三矩阵和所述第五矩阵获取第六矩阵;
对所述第六矩阵进行逐列的范数归一化操作以及展开操作得到第三向量;
对所述第三向量进行范数归一化操作,得到目标向量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第三矩阵和所述第五矩阵获取第六矩阵,包括:
将所述第三矩阵与所述第五矩阵逐元素相乘,得到三维中间矩阵;
将所述三维中间矩阵拟合为二维矩阵,并作为第六矩阵。
3.根据权利要求2所述的方法,其特征在于,所述将所述三维中间矩阵拟合为二维矩阵,并作为第六矩阵,包括:
沿着所述三维中间矩阵的预设维度,将相同位置上的数值进行加权求和,将加权求和后得到的数值组成二维矩阵,并作为所述第六矩阵。
4.根据权利要求1所述的方法,其特征在于,所述将第二向量输入预设全连接层,并对预设全连接层的输出进行重组,得到第四矩阵,包括:
将第二向量输入所述第一全连接层,得到所述第一全连接层的输出;
对所述第一全连接层的输出进行层归一化操作,得到归一化后的输出;
将归一化后的输出重组为第四矩阵。
5.根据权利要求1所述的方法,其特征在于,所述获取多个第一矩阵,包括:
获取输入矩阵;
对所述输入矩阵分别进行多次特征处理操作,得到多个不同的第一矩阵。
6.根据权利要求5所述的方法,其特征在于,所述对所述输入矩阵分别进行多次特征处理操作,得到多个不同的第一矩阵,包括:
根据所述输入矩阵和预设线性投影层获取第一中间矩阵;
将所述第一中间矩阵进行时序平均池化操作,得到第一中间向量;
根据所述第一中间向量和第二全连接层获取第二中间向量;
根据所述第二中间向量和第三全连接层获取所述第三中间向量;
根据所述第一中间矩阵和所述第三中间向量获取第一矩阵。
7.根据权利要求6所述的方法,其特征在于,所述根据第一中间向量和第二全连接层获取第二中间向量,包括:
将所述第一中间向量输入所述第二全连接层;
对所述第二全连接层的输出进行层归一化操作,得到层归一化向量;
将所述层归一化向量进行整流线性单元激活操作,得到第二中间向量。
8.根据权利要求6所述的方法,其特征在于,所述根据第二中间向量和第三全连接层获取所述第三中间向量,包括:
将所述第二中间向量输入所述第三全连接层;
对所述第三全连接层的输出进行层归一化操作,得到层归一化向量;
将所述层归一化向量进行双弯曲函数sigmoid激活操作,得到第三中间向量。
9.根据权利要求6所述的方法,其特征在于,所述根据所述第一中间矩阵和所述第三中间向量获取第一矩阵,包括:
将所述第一中间矩阵与所述第一中间向量逐元素相乘,得到所述第一矩阵。
10.根据权利要求1所述的方法,其特征在于,所述对每一个第一矩阵分别进行注意力池化和转置操作,得到多个第二矩阵,包括:
对于任意一个第一矩阵,对所述第一矩阵进行注意力池化操作,得到第二中间矩阵,对所述第二中间矩阵进行转置操作,得到一个第二矩阵。
11.根据权利要求10所述的方法,其特征在于,所述对所述第一矩阵进行注意力池化操作,得到第二中间矩阵,包括:
根据所述第一矩阵与预设注意力矩阵获取第三中间矩阵;
对所述第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到第四中间矩阵;
根据所述第一矩阵和所述第四中间矩阵获取所述第二中间矩阵。
12.根据权利要求11所述的方法,其特征在于,所述根据所述第一矩阵和所述第四中间矩阵获取所述第二中间矩阵,包括:
对所述第一矩阵进行转置操作,得到所述第五中间矩阵;
将所述第四中间矩阵与所述第五中间矩阵相乘,得到所述第二中间矩阵。
13.根据权利要求11所述的方法,其特征在于,所述对所述第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到第四中间矩阵,包括:
对所述第三中间矩阵进行层归一化操作,得到层归一化后的第三中间矩阵;
将层归一化后的第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到所述第四中间矩阵。
14.一种聚合装置,其特征在于,所述装置包括:
第一获取模块,用于获取多个第一矩阵;
第一操作模块,用于对每一个第一矩阵分别进行注意力池化操作和转置操作,得到多个第二矩阵;
第一聚合模块,用于将多个第二矩阵聚合为三维的第三矩阵;
第二操作模块,用于对每一个第一矩阵分别进行时序平均池化操作,得到多个第一向量;
第二聚合模块,用于将多个第一向量聚合为第二向量;
重组模块,用于将所述第二向量输入第一全连接层,并对所述第一全连接层的输出进行重组,得到第四矩阵;
第三操作模块,用于对所述第四矩阵进行逐行软最大softmax操作,得到第五矩阵;
第二获取模块,用于根据所述第三矩阵和所述第五矩阵获取第六矩阵;
第四操作模块,用于对所述第六矩阵进行逐列的范数归一化操作以及展开操作得到第三向量;
第五操作模块,用于对所述第三向量进行范数归一化操作,得到目标向量。
15.根据权利要求14所述的装置,其特征在于,所述第二获取模块包括:
相乘单元,用于将所述第三矩阵与所述第五矩阵逐元素相乘,得到三维中间矩阵;
拟合单元,用于将所述三维中间矩阵拟合为二维矩阵,并作为第六矩阵。
16.根据权利要求15所述的装置,其特征在于,所述拟合单元包括:
求和子单元,用于沿着所述三维中间矩阵的预设维度,将相同位置上的数值进行加权求和;
组成单元,用于将加权求和后得到的数值组成二维矩阵,并作为所述第六矩阵。
17.根据权利要求14所述的装置,其特征在于,所述重组模块包括:
输入单元,用于将第二向量输入所述第一全连接层,得到所述第一全连接层的输出;
第一操作单元,用于对所述第一全连接层的输出进行层归一化操作,得到归一化后的输出;
重组单元,用于将归一化后的输出重组为第四矩阵。
18.根据权利要求14所述的装置,其特征在于,所述第一获取模块包括:
获取单元,用于获取输入矩阵;
第二操作单元,用于对所述输入矩阵分别进行多次特征处理操作,得到多个不同的第一矩阵。
19.根据权利要求18所述的装置,其特征在于,所述第二操作单元包括:
第一获取子单元,用于根据所述输入矩阵和预设线性投影层获取第一中间矩阵;
第一操作子单元,用于将所述第一中间矩阵进行时序平均池化操作,得到第一中间向量;
第二获取子单元,用于根据所述第一中间向量和第二全连接层获取第二中间向量;
第三获取子单元,用于根据所述第二中间向量和第三全连接层获取所述第三中间向量;
第四获取子单元,用于根据所述第一中间矩阵和所述第三中间向量获取第一矩阵。
20.根据权利要求19所述的装置,其特征在于,所述第二获取子单元具体用于:将所述第一中间向量输入所述第二全连接层;对所述第二全连接层的输出进行层归一化操作,得到层归一化向量;将所述层归一化向量进行整流线性单元激活操作,得到第二中间向量。
21.根据权利要求19所述的装置,其特征在于,所述第三获取子单元具体用于:将所述第二中间向量输入所述第三全连接层;对所述第三全连接层的输出进行层归一化操作,得到层归一化向量;将所述层归一化向量进行双弯曲函数sigmoid激活操作,得到第三中间向量。
22.根据权利要求19所述的装置,其特征在于,所述第四获取子单元具体用于:将所述第一中间矩阵与所述第一中间向量逐元素相乘,得到所述第一矩阵。
23.根据权利要求14所述的装置,其特征在于,所述第一操作模块包括:
第三操作单元,用于对于任意一个第一矩阵,对所述第一矩阵进行注意力池化操作,得到第二中间矩阵,第四操作单元,用于对所述第二中间矩阵进行转置操作,得到一个第二矩阵。
24.根据权利要求23所述的装置,其特征在于,所述第三操作单元包括:
第五获取子单元,用于根据所述第一矩阵与预设注意力矩阵获取第三中间矩阵;
第二操作子单元,用于对所述第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到第四中间矩阵;
第六获取子单元,用于根据所述第一矩阵和所述第四中间矩阵获取所述第二中间矩阵。
25.根据权利要求24所述的装置,其特征在于,所述第六获取子单元具体用于:对所述第一矩阵进行转置操作,得到所述第五中间矩阵;将所述第四中间矩阵与所述第五中间矩阵相乘,得到所述第二中间矩阵。
26.根据权利要求24所述的装置,其特征在于,所述第二操作子单元具体用于:对所述第三中间矩阵进行层归一化操作,得到层归一化后的第三中间矩阵;将层归一化后的第三中间矩阵进行逐行softmax操作以及随机失活dropout操作,得到所述第四中间矩阵。
27.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至13中任一项所述的聚合方法的步骤。
28.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至13中任一项所述的聚合方法的步骤。
CN201910403843.9A 2019-05-15 2019-05-15 一种聚合方法、装置、电子设备及存储介质 Active CN110245263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910403843.9A CN110245263B (zh) 2019-05-15 2019-05-15 一种聚合方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910403843.9A CN110245263B (zh) 2019-05-15 2019-05-15 一种聚合方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110245263A true CN110245263A (zh) 2019-09-17
CN110245263B CN110245263B (zh) 2021-08-20

Family

ID=67884052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910403843.9A Active CN110245263B (zh) 2019-05-15 2019-05-15 一种聚合方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110245263B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
US20180053057A1 (en) * 2016-08-18 2018-02-22 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
US9947228B1 (en) * 2017-10-05 2018-04-17 StradVision, Inc. Method for monitoring blind spot of vehicle and blind spot monitor using the same
CN108230294A (zh) * 2017-06-14 2018-06-29 北京市商汤科技开发有限公司 图像检测方法、装置、电子设备和存储介质
CN109101948A (zh) * 2018-08-28 2018-12-28 电子科技大学 一种基于时空及通道的多注意力机制视频描述方法
CN109190482A (zh) * 2018-08-06 2019-01-11 北京奇艺世纪科技有限公司 多标签视频分类方法及系统、系统训练方法及装置
CN109271912A (zh) * 2018-09-05 2019-01-25 中国电子科技集团公司第三研究所 视频分类方法、装置、电子设备及存储介质
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053057A1 (en) * 2016-08-18 2018-02-22 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN108230294A (zh) * 2017-06-14 2018-06-29 北京市商汤科技开发有限公司 图像检测方法、装置、电子设备和存储介质
US9947228B1 (en) * 2017-10-05 2018-04-17 StradVision, Inc. Method for monitoring blind spot of vehicle and blind spot monitor using the same
CN109190482A (zh) * 2018-08-06 2019-01-11 北京奇艺世纪科技有限公司 多标签视频分类方法及系统、系统训练方法及装置
CN109101948A (zh) * 2018-08-28 2018-12-28 电子科技大学 一种基于时空及通道的多注意力机制视频描述方法
CN109271912A (zh) * 2018-09-05 2019-01-25 中国电子科技集团公司第三研究所 视频分类方法、装置、电子设备及存储介质
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S.JI等: "3D convolutional neural networks for human action recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
刘伟: "基于卷积神经网络的视频分类检索", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN110245263B (zh) 2021-08-20

Similar Documents

Publication Publication Date Title
DE202016107439U1 (de) Vorabruf von Gewichten zur Verwendung in einem neuralen Netzwerkprozessor
Davis et al. Max-stable processes for modeling extremes observed in space and time
Al-Azzeh et al. Performance analysis of artificial neural networks used for color image recognition and retrieving
CN103914353A (zh) 结合软件可靠性测试与硬件可靠性试验的联合试验方法
AT7710U2 (de) Verfahren zur erstellung eines modells einer steuergrösse für nichtlineare, stationäre reale systeme, beispielsweise verbrennungsmotoren oder teilsystemen davon
CN109493297A (zh) 低质量人脸图像增强方法、系统、设备及存储介质
CN114283320B (zh) 基于全卷积的无分支结构目标检测方法
CN109101717A (zh) 基于现实与模糊数据深度融合学习的固体火箭发动机可靠性预测方法
CN110321473A (zh) 基于多模态注意力的多样性偏好信息推送方法、系统、介质及设备
CN106227964B (zh) 基于扩张状态观测器的迟滞非线性系统参数辨识方法
Osawa et al. Accelerating matrix multiplication in deep learning by using low-rank approximation
CN110135524A (zh) 自动化的模型训练方法、装置、设备及介质
CN109033021A (zh) 一种基于变参收敛神经网络的线性方程求解器设计方法
CN108399609A (zh) 一种三维点云数据的修补方法、装置和机器人
Xiao Stability test for 2-D continuous-discrete systems
El-Kasri et al. Uncertain 2D continuous systems with state delay: filter design using an H∞ polynomial approach
Krainak et al. Static team problems--Part II: Affine control laws, projections, algorithms, and the LEGT problem
CN110245263A (zh) 一种聚合方法、装置、电子设备及存储介质
CN111340950A (zh) 数字高程模型重建方法及装置
CN106663186A (zh) 用于脸部识别的方法和系统
Yucesan et al. Estimating parameters and discrepancy of computer models with graphs and neural networks
CN110110625A (zh) Sar图像目标识别方法及装置
CN113718071B (zh) 高炉鼓风机的控制方法
CN109117946A (zh) 神经网络计算处理模型
Abdelrahman et al. Data-Based dynamic haptic interaction model with deformable 3D objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant