CN107220616B - 一种基于自适应权重的双路协同学习的视频分类方法 - Google Patents

一种基于自适应权重的双路协同学习的视频分类方法 Download PDF

Info

Publication number
CN107220616B
CN107220616B CN201710379016.1A CN201710379016A CN107220616B CN 107220616 B CN107220616 B CN 107220616B CN 201710379016 A CN201710379016 A CN 201710379016A CN 107220616 B CN107220616 B CN 107220616B
Authority
CN
China
Prior art keywords
video
learning
motion
static
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710379016.1A
Other languages
English (en)
Other versions
CN107220616A (zh
Inventor
彭宇新
赵韫禛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710379016.1A priority Critical patent/CN107220616B/zh
Publication of CN107220616A publication Critical patent/CN107220616A/zh
Application granted granted Critical
Publication of CN107220616B publication Critical patent/CN107220616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于自适应权重的双路协同学习的视频分类方法,包括以下步骤:利用视频训练样本,对预先使用大规模图像数据集训练好的卷积神经网络模型进行精细调整,得到适用于视频特征学习的卷积神经网络模型;利用训练得到的卷积神经网络模型,提取视频的运动和静态特征,并通过运动‑静态协同学习优化这两种特征的表示,最终输出与运动和静态特征对应的两种预测得分;利用两种预测得分,对于每个类别自适应地学习融合权重,并根据得到的权重预测视频所属的语义类别。本发明通过协同学习和自适应权重学习提高了视频分类的准确率。

Description

一种基于自适应权重的双路协同学习的视频分类方法
技术领域
本发明涉及视频分类技术领域,具体涉及一种基于自适应权重的双路协同学习的视频分类方法。
背景技术
随着网络和多媒体技术的迅速普及与发展,互联网上的视频内容呈现快速增长的趋势。有研究报告指出,YouTube视频网站每分钟上传视频总长超过300小时。视频分类是指通过分析视频的内容给出其具体的类别信息,是视频与知识进行关联的关键步骤,在智能监控、人机交互、老年人护理等方面都发挥着重要作用。
近年来,视频分类受到了研究人员的广泛关注。该问题主要面临着来自以下几方面的挑战:其一,对于相当一部分类别,视频中会出现复杂多变的物体,容易对视频分类造成干扰。例如,对于“生日宴会”这个类别的视频,其中可能出现鲜花、蛋糕、小刀等复杂的物体;其二,属于同种类别的视频也可能具有相当大的差异。例如,对于“婚礼”这个类别的视频,婚礼可能在宴会厅中举办,也可能在草坪上举办;其三,属于不同类别的视频,其差异可能相对较小。例如,对于“颠球”和“罚点球”这两个类别的视频,它们都包含绿茵草坪、人、足球等物体;其四,相对于图片,受限于拍摄器械、存储空间等的约束,视频往往不清晰,而数据量可能会很大(一个视频往往由成百上千个帧组成),因此,对于视频的特征提取及处理会更加困难。
传统方法使用手工特征进行视频分类,但是随着视频数量的飞速增长、视频语义类别的扩充,需要更加强大的特征来支持视频分类。得益于深度学习技术的突破性进展,深度学习在大规模图像分类、语音识别等领域都取得了良好的效果。在视频分类上,研究人员也利用深度网络建模视频的运动和静态特征,取得了超越传统手工特征的效果。基于深度学习的视频分类方法一般采用两路网络来建模视频中的运动和静态信息。现有方法把视频的帧和光流分别作为两路网络的输入,其中视频帧一路用来提取视频中的静态特征,光流一路则用来提取视频中的运动特征。之后采用平均融合的方式对两路信息进行处理,取得最终的结果。然而,这些方法一方面忽略了运动和静态特征之间的联系,因此特征表达能力不足;另一方面,平均融合的方式忽略了不同类别视频对于运动和静态两路特征侧重的不同,难以取得较好的分类效果。
发明内容
针对现有技术的不足,本发明提出一种基于自适应权重的双路协同学习的视频分类方法,能够协同优化视频中运动和静态两种特征,并为不同类别的视频自适应地学习不同的融合权重,将二者有机地结合在一起,提高了视频分类的准确率。
为达到以上目的,本发明采用的技术方案如下:
一种基于自适应权重的双路协同学习的视频分类方法,用于根据视频内容自动判断所属的语义类别,包括以下步骤:
(1)训练卷积神经网络模型:利用视频训练样本,对预先使用大规模图像数据集训练好的卷积神经网络模型进行精细调整,从而得到适用于视频特征学习的卷积神经网络模型,并提取视频的运动和静态两种特征;
(2)构建并训练运动-静态协同学习模型:设计协同学习层以构建运动-静态协同学习模型,利用步骤(1)中得到的视频的运动和静态特征作为输入,通过协同学习优化各自特征的表示,并最终输出视频的运动和静态特征对应的预测得分;
(3)自适应视频分类:利用步骤(2)中得到的两种预测得分,对于每个语义类别自适应学习不同的融合权重,得到运动和静态特征对于不同语义类别所起到作用的权值,并根据得到的权值预测视频所属的语义类别。
进一步,上述一种基于自适应权重的双路协同学习的视频分类方法,所述步骤(1)中的第一步是预训练(pre-training)卷积神经网络,即利用大规模的图像数据集训练得到卷积神经网络模型。
进一步,上述一种基于自适应权重的双路协同学习的视频分类方法,所述步骤(1)中的第二步是精细调整(fine-tuning)卷积神经网络模型,即利用已标注的视频对卷积神经网络模型的参数进行调整,使其能够更好地适用于视频分类任务。
进一步,上述一种基于自适应权重的双路协同学习的视频分类方法,所述步骤(2)中,运动-静态协同学习模型由一个自定义的协同学习层(collaborative learninglayer)以及两个全连接层组成。其中自定义的协同学习层通过迭代操作使两种特征互相指导优化;全连接层则将这两种特征连接到损失函数,从而输出预测得分。
进一步,上述一种基于自适应权重的双路协同学习的视频分类方法,所述步骤(3)中,将步骤(2)中的预测得分作为输入,针对每个语义类别学习其各自的融合权重。
本发明的效果在于:与现有方法相比,本发明能够使视频的运动特征与静态特征互为指导、协同优化,并根据不同语义类别学习特征融合权重,使视频分类的效果有较大提升。
本发明之所以具有上述发明效果,其原因在于:一方面,本方法与现有方法最大的区别在于采用了运动-静态协同学习模型。本方法通过协同学习模型优化视频的运动和静态两种特征表示;而传统方法则直接使用视频的运动和静态两种特征进行分类。另一方面,融合权重对于视频分类的准确性至关重要。本方法利用自适应权重模型对不同的视频类别学习不同的融合权重,而现有方法则直接对两种视频特征对应的预测得分平均融合。因此,本方法能够提升视频分类的准确率。
附图说明
图1是本发明的基于自适应权重的双路协同学习的视频分类方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
本发明的一种基于自适应权重的双路协同学习的视频分类方法,其流程如图1所示,具体包含以下步骤:
(1)训练卷积神经网络模型
本实施例利用ImageNet等大规模图像数据集预训练得到卷积神经网络(convolutional neural network,CNN)模型,并将其迁移到视频分类的任务上。CNN通过加强神经网络中相邻层之间节点的局部连接模式来挖掘图像的空间局部关联信息,能够更好地获得图像特征,适用于识别和分类等任务。CNN模型包含N层卷积层和M层全连接层,其中N,M>1。
本实施例对CNN模型进行预训练的过程,本质上是CNN模型参数不断调整向训练数据拟合的过程。具体地,模型输入是图像,在训练过程中,利用前向传播算法和反向传播(back-propagation)算法对模型中的参数进行学习优化。这一步是预训练阶段,经过这一阶段,CNN模型已经具有一定的视频分类能力,但是还需要针对视频分类任务调整以取得更高准确率。
之后,对于视频分类的训练样本提取视频的帧和光流,并对CNN模型的顶层网络结构进行修改,然后采用反向传播算法进行学习。在学习过程中,通过控制学习参数,减小底层网络的学习速度,充分保存迁移过来的丰富底层特征;同时扩大深层网络的学习速度,使得整个网络较快地适应视频分类任务,自动调节深层神经元对于视频类别进行判断的能力。最终,我们得到两个CNN模型:其中一个接受视频的光流为输入,输出视频的运动特征;另一个接受视频帧为输入,输出视频的静态特征。
(2)构建并训练运动-静态协同学习模型
运动-静态协同学习模型由一个自定义的协同学习层(collaborative learninglayer),以及两个全连接层组成,其中自定义的协同学习层起主要作用,通过迭代操作使两种特征互相指导优化,全连接层则将视频的运动和静态特征连接到损失函数,从而输出视频的预测得分。
具体地,在时刻t,使用视频的静态特征,优化运动特征的表示。定义视频的运动特征为
Figure BDA0001304732650000041
其中N表示视频中帧的数量,在协同学习网络中,通过公式得到:
Figure BDA0001304732650000042
其中,H表示网络的隐状态输出,
Figure BDA0001304732650000043
表示网络层的权值,1T表示全1向量,softmax表示损失函数,os表示t-1时刻由视频静态特征合成的视频特征,om表示由视频的运动特征合成的视频特征,zm表示由运动特征学习而得到的优化系数,
Figure BDA0001304732650000044
表示每个视频帧对应的优化系数,
Figure BDA0001304732650000045
表示每个视频帧对应的运动特征。
在时刻t+1,使用视频的运动特征优化静态特征的表示。定义视频的静态特征为
Figure BDA0001304732650000046
在协同学习网络中,通过公式得到:
Figure BDA0001304732650000047
其中,
Figure BDA0001304732650000048
表示网络层的权值,os表示t时刻由视频静态特征合成的视频特征,om表示由视频的运动特征合成的视频特征,zs表示由静态特征学习而得到的优化系数,
Figure BDA0001304732650000049
表示每个视频帧对应的优化系数,
Figure BDA00013047326500000410
表示每个视频帧对应的静态特征。
应用softmax损失函数驱动上述迭代优化过程,直至损失函数收敛。之后用训练得到的模型,通过softmax损失函数计算输出运动和静态两种特征的预测得分。
(3)自适应视频分类
该模型以(2)中输出的两种特征的预测得分为输入,自适应地对于不同视频类别学习融合权重。具体地,对于(2)中两种特征的预测得分,首先融合第j个语义类别中的第i个训练数据的得分:
Figure BDA00013047326500000411
其中
Figure BDA0001304732650000051
代表第m路输入中,第j个语义类别中的第i个训练数据的得分,T表示矩阵的转置。对于第j个语义类别,定义融合权重为:
Wj=[wj,1,wj,2] (4)
其中wj,1,wj,2分别表示第1路和第2路输入对应的融合权重,这里限制wj,1+wj,2=1,且wj,1,wj,2>0。每个语义类别的融合权重由下面的目标函数单独训练得到:
Figure BDA0001304732650000052
其中Pj约束语义类别类内的关系,Nj约束语义类别类间的关系,λ表示正负样本的平衡参数,Pj定义为:
Figure BDA0001304732650000053
上述公式中,nj代表第j个语义类别的训练数据的个数,Jj表示第j维为1,其他维均为0的列向量。该项的目标是最大化Wj
Figure BDA0001304732650000054
的第j列数据的乘积,使得该语义类别的训练数据得分在融合权重下的内积尽可能大。类似地,Nj定义为:
Figure BDA0001304732650000055
其中,c表示语义的类别数目,nk表示第k个语义类别的训练数据的个数,该项的目标是使得不属于该语义类别的训练数据在融合权重下的内积尽可能小。由上述两项,得到最终的目标函数:
Figure BDA0001304732650000056
通过求解上述目标函数,可以得到每个语义类别单独的融合权重。在预测视频的语义类别时,对于输入的两路视频特征St=[st,1 T,st,2 T]T,通过下面的公式预测视频的语义类别:
Figure BDA0001304732650000057
通过上述方法,本发明不仅考虑两路输入的约束关系,也考虑不同类别的类内和类间的约束关系,使视频分类效果得到提升。
下面的实验结果表明,与现有方法相比,本发明可以取得更高的视频分类准确率。
数据集:我们采用公开数据集HMDB51来验证本发明的有效性。HMDB51数据集由6766个视频组成,这些视频分为51个类别,在镜头运动、视角、视频质量等方面各有不同,每个视频都有唯一的类别。
现有方法:对视频提取运动和静态特征,并平均融合其得分。即Simonyan等人在文献“Two-Stream Convolutional Networks for Action Recognition in Videos”中提出的方法。
本发明:本实施例的方法。
实验采用准确率的指标来评测视频分类的效果。准确率越高,说明视频分类的效果越好。从表1可以看出,本发明取得了更好的视频分类效果。现有方法不经优化地直接使用视频的运动和静态两种特征,并对两种视频特征对应的预测得分平均融合,导致其视频分类的效果低于本发明。本发明通过协同学习模型优化视频的运动和静态两种特征表示,并通过自适应权重模型对不同的视频语义类别学习不同的融合权重,因此能够提高视频分类的准确率。
表1.本发明与现有方法的对比实验结果
方法 准确率
现有方法 0.676
本发明 0.687
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种基于自适应权重的双路协同学习的视频分类方法,包括以下步骤:
(1)利用视频训练样本,对预先使用大规模图像数据集训练好的卷积神经网络模型进行精细调整,从而得到适用于视频特征学习的卷积神经网络模型,并提取视频的运动和静态两种特征;
(2)构建运动-静态协同学习模型,由一个自定义的协同学习层和两个全连接层组成,利用步骤(1)中得到的视频的运动和静态特征作为输入,通过协同学习层进行特征优化,并通过全连接层输出视频的运动和静态特征对应的预测得分;
(3)利用步骤(2)中得到的两种预测得分,通过自适应权重学习方法对于每个语义类别学习不同的融合权重,得到运动和静态特征对于不同语义类别所起到作用的权值,并根据得到的权值预测视频所属的语义类别;
所述自定义的协同学习层通过迭代操作,使两种特征互相指导学习和优化;
在时刻t,利用静态特征优化运动特征的公式如下:
Figure FDA0002765636320000011
其中,H表示网络的隐状态输出,Wm
Figure FDA0002765636320000012
表示网络层的权值,1T表示全1向量,softmax表示损失函数,
Figure FDA0002765636320000013
表示视频的运动特征,
Figure FDA0002765636320000014
表示t-1时刻由视频静态特征合成的视频特征,
Figure FDA0002765636320000015
表示t时刻由视频的运动特征合成的视频特征,zm表示由运动特征学习而得到的优化系数,
Figure FDA0002765636320000016
表示每个视频帧对应的优化系数,
Figure FDA0002765636320000017
表示每个视频帧对应的运动特征;
在时刻t+1,利用运动特征优化静态特征的公式如下:
Figure FDA0002765636320000018
其中,Ws
Figure FDA0002765636320000019
表示网络层的权值,
Figure FDA00027656363200000110
表示视频的静态特征,
Figure FDA00027656363200000111
表示t时刻由视频的运动特征合成的视频特征,
Figure FDA00027656363200000112
表示t+1时刻由视频静态特征合成的视频特征,zs表示由静态特征学习而得到的优化系数,
Figure FDA00027656363200000113
表示每个视频帧对应的优化系数,
Figure FDA00027656363200000114
表示每个视频帧对应的静态特征;
步骤(2)中两个全连接层将视频的运动和静态特征连接到损失函数,从而输出视频的预测得分;
步骤(3)中的自适应权重学习方法利用如下公式得到运动和静态信息对于不同类别所起到作用的权值:
arg max Pj-λNj
其中Pj约束语义类别类内的关系,Nj约束语义类别类间的关系,λ表示正负样本的平衡参数,并根据得到的权重预测视频所属的语义类别;Pj和Nj的定义分别是:
Figure FDA0002765636320000021
其中Wj表示需要学习的对第j个语义类别的融合权重;
Figure FDA0002765636320000022
表示第j个语义类别中的第i个训练数据的得分;Jj表示第j维为1,其他维均为0的列向量;nj代表第j个语义类别的训练数据的个数;nk表示第k个语义类别的训练数据的个数;c表示语义的类别数目;最终的目标函数为:
Figure FDA0002765636320000023
通过求解上述目标函数,得到每个语义类别单独的融合权重;在预测视频的语义类别时,对于输入的两路视频特征St,通过下面的公式预测视频的语义类别:
Figure FDA0002765636320000024
2.如权利要求1所述的方法,其特征在于,步骤(1)中卷积神经网络模型的训练过程包括两步,第一步是利用大规模图像数据集预训练卷积神经网络模型,是卷积神经网络模型参数不断调整向训练数据拟合的过程;第二步是利用已标注的视频精细调整卷积神经网络模型。
3.如权利要求2所述的方法,其特征在于,所述卷积神经网络模型,在预训练过程中利用前向传播算法和反向传播算法对模型中的参数进行学习优化。
4.如权利要求2所述的方法,其特征在于,所述精细调整卷积神经网络模型的方法是:首先提取训练视频的帧和光流,然后采用反向传播算法进一步学习;在学习过程中,通过控制学习参数,减小底层网络的学习速度,充分保存迁移过来的丰富底层特征,扩大深层网络的学习速度,使得整个网络较快地适应视频类型检测任务,自动调节深层神经元对于视频语义类别的分类能力,以得到适用于视频特征学习的卷积神经网络。
CN201710379016.1A 2017-05-25 2017-05-25 一种基于自适应权重的双路协同学习的视频分类方法 Active CN107220616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710379016.1A CN107220616B (zh) 2017-05-25 2017-05-25 一种基于自适应权重的双路协同学习的视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710379016.1A CN107220616B (zh) 2017-05-25 2017-05-25 一种基于自适应权重的双路协同学习的视频分类方法

Publications (2)

Publication Number Publication Date
CN107220616A CN107220616A (zh) 2017-09-29
CN107220616B true CN107220616B (zh) 2021-01-19

Family

ID=59944482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710379016.1A Active CN107220616B (zh) 2017-05-25 2017-05-25 一种基于自适应权重的双路协同学习的视频分类方法

Country Status (1)

Country Link
CN (1) CN107220616B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108010061A (zh) * 2017-12-19 2018-05-08 湖南丹尼尔智能科技有限公司 一种基于运动边界指导的深度学习光流估计方法
CN108898174A (zh) * 2018-06-25 2018-11-27 Oppo(重庆)智能科技有限公司 一种场景数据采集方法、场景数据采集装置及电子设备
US10318842B1 (en) * 2018-09-05 2019-06-11 StradVision, Inc. Learning method, learning device for optimizing parameters of CNN by using multiple video frames and testing method, testing device using the same
TWI709188B (zh) 2018-09-27 2020-11-01 財團法人工業技術研究院 基於機率融合的分類器、分類方法及分類系統
CN109522867A (zh) * 2018-11-30 2019-03-26 国信优易数据有限公司 一种视频分类方法、装置、设备和介质
CN110889375B (zh) * 2019-11-28 2022-12-20 长沙理工大学 用于行为识别的隐双流协作学习网络及方法
CN111209970B (zh) * 2020-01-08 2023-04-25 Oppo(重庆)智能科技有限公司 视频分类方法、装置、存储介质及服务器
CN112257526B (zh) * 2020-10-10 2023-06-20 中国科学院深圳先进技术研究院 一种基于特征交互学习的动作识别方法及终端设备
CN112949433B (zh) * 2021-02-18 2022-07-22 北京百度网讯科技有限公司 视频分类模型的生成方法、装置、设备和存储介质
CN115119013B (zh) * 2022-03-26 2023-05-05 浙江九鑫智能科技有限公司 多级数据机控应用系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012044380A2 (en) * 2010-06-18 2012-04-05 William Marsh Rice University Method and apparatus for compressive acquisition and recovery of dynamic imagery
US8774499B2 (en) * 2011-02-28 2014-07-08 Seiko Epson Corporation Embedded optical flow features
CN103345764B (zh) * 2013-07-12 2016-02-10 西安电子科技大学 一种基于对象内容的双层监控视频摘要生成方法
CN105488812A (zh) * 2015-11-24 2016-04-13 江南大学 一种融合运动特征的时空显著性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-Modal Video Concept Extraction Using Co-Training;Rong Yan等;《IEEE》;20051024;第1-4页 *
基于Co-Training策略的视频广告文本检测;刘楠等;《北京交通大学学报》;20101115;第34卷(第5期);第1-7页 *

Also Published As

Publication number Publication date
CN107220616A (zh) 2017-09-29

Similar Documents

Publication Publication Date Title
CN107220616B (zh) 一种基于自适应权重的双路协同学习的视频分类方法
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
AU2020100710A4 (en) A method for sentiment analysis of film reviews based on deep learning and natural language processing
CN110164476B (zh) 一种基于多输出特征融合的blstm的语音情感识别方法
CN109145112A (zh) 一种基于全局信息注意力机制的商品评论分类方法
CN109767759A (zh) 基于改进型cldnn结构的端到端语音识别方法
CN113905391B (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
CN109271522A (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN109783739A (zh) 一种基于层叠稀疏降噪自编码器增强的协同过滤推荐方法
CN115438732B (zh) 面向冷启动用户基于分类偏好迁移的跨域推荐方法
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN109409307B (zh) 一种基于时空上下文分析的在线视频行为检测方法
CN111950655A (zh) 一种基于多领域知识驱动的图像美学质量评价方法
CN110674483B (zh) 一种基于多模态信息的身份识别方法
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN111477247A (zh) 基于gan的语音对抗样本生成方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN110059220A (zh) 一种基于深度学习与贝叶斯概率矩阵分解的电影推荐方法
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
Zhang et al. Evolving neural network classifiers and feature subset using artificial fish swarm
CN115424177A (zh) 一种基于增量学习的孪生网络目标跟踪的方法
CN111723285A (zh) 一种基于评分的深度谱卷积协同过滤推荐方法
CN107341471B (zh) 一种基于双层条件随机场的人体行为识别方法
CN112116685A (zh) 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法
CN112149734A (zh) 一种基于堆叠自编码器的跨域推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant