CN110929099B - 一种基于多任务学习的短视频帧语义提取方法及系统 - Google Patents

一种基于多任务学习的短视频帧语义提取方法及系统 Download PDF

Info

Publication number
CN110929099B
CN110929099B CN201911186838.3A CN201911186838A CN110929099B CN 110929099 B CN110929099 B CN 110929099B CN 201911186838 A CN201911186838 A CN 201911186838A CN 110929099 B CN110929099 B CN 110929099B
Authority
CN
China
Prior art keywords
short video
face
channel
loss
face recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911186838.3A
Other languages
English (en)
Other versions
CN110929099A (zh
Inventor
范俊
顾湘余
熊永春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xiaoying Innovation Technology Co ltd
Original Assignee
Hangzhou Xiaoying Innovation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xiaoying Innovation Technology Co ltd filed Critical Hangzhou Xiaoying Innovation Technology Co ltd
Priority to CN201911186838.3A priority Critical patent/CN110929099B/zh
Publication of CN110929099A publication Critical patent/CN110929099A/zh
Application granted granted Critical
Publication of CN110929099B publication Critical patent/CN110929099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多任务学习的短视频帧语义提取方法及系统,该提取方法包括步骤:S1、构建包括图片分类通道、人脸识别通道的卷积神经网络;S2、通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;S3、基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。本发明针对短视频的特点,采用多任务学习的方式,同时提取短视频帧的粗粒度特征及人物特征,使短视频语义提取的信息更加全面、快速。

Description

一种基于多任务学习的短视频帧语义提取方法及系统
技术领域
本发明涉及语义提取领域,具体涉及一种基于多任务学习的短视频帧语义提取方法及系统。
背景技术
随着计算机技术与信息技术的快速发展,视频的制作方法与上传途径变得日益便捷,致使海量的视频资源存在与互联网中,各大视频门户为解决视频信息过载问题,会向用户提供视频搜索和推荐等功能。为了能够有效地管理视频资源并高效地实现上述功能,对视频特征进行精准的提取和规范化的标引尤为重要。
现有的视频帧语义提取主要基于CNN的有监督图片表征学习及自动编码器。基于CNN的表征学习通常是在标注的图片数据集上训练一个完成某个有监督任务(通常是分类)的卷积神经网络,然后利用卷积神经网络中间某一层作为该图片的压缩表示。这个中间层一般选取全连接层之前的卷积层的输出。自编码器是一种无监督学习方法。自编码器包含一个编码器和一个解码器。编码器对输入图片进行一系列处理,得到一个中间表示;解码器从这个中间表示恢复出图片,目标是输入和输出的误差最小。因为这个中间表示可以恢复出原始图片,因此认为它包含了原始输入的几乎所有信息,而且维度通常比较小,因此可以作为图片的压缩表示。
然而,基于CNN的有监督图片表征学习需要大量的标注数据。目前的做法一般是在无标记样本上预训练部分网络,在用标注数据训练整个网络;其次,训练网络基本都是单目标的(大多数是分类),一些重要特征可能学习不到。例如短视频帧中,面积很小,但是信息量很大的人脸。相反,一些模板素材信息占画面的面积很大,但是信息量很小。编码器作为表征学习的一种方法,对数据的要求很低。但是由于缺乏指导,自编码器的目标是学习到更多的信息,而不是相关信息。
短视频内容大多数都是以人物为主体。如:同一个歌星的MV,同一个影星的电影,同一个网红的vlog,可能场景完全不同(山、水、森林、室内),但是,这些视频的受众有个共同点:喜欢短视频里面的某个人物。所以,在对短视频做表征学习的时候,仅仅考虑普通的图像特征是不够的,还需要考虑人物特征。因此,如何实现视短频帧语义的全面提取,是本领域亟待解决的问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于多任务学习的短视频帧语义提取方法及系统。针对短视频的特点,采用多任务学习的方式,同时提取短视频帧的粗粒度特征及人物特征,使短视频提取的语义信息更加全面、快速。。
为了实现以上目的,本发明采用以下技术方案:
一种基于多任务学习的短视频帧语义提取方法,包括步骤:
S1、构建包括图片分类通道、人脸识别通道的卷积神经网络;
S2、通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
S3、基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。
进一步地,所述图片分类通道包括一个图片分类卷积神经网络,所述人脸识别通道包括三个人脸识别卷积神经网络,所述三个人脸识别卷积神经网络共享参数;所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层。
进一步地,整个所述任务短视频语义提取模型的损失函数为:
Lossoverall=Lossface+λLossclassify
其中,Lossclassify为图片分类通道的损失函数,Lossface为人脸识别通道的损失函数,λ是调节分类损失和人脸识别损失作用的调节参数。
进一步地,图片分类通道的损失函数Lossclassify为:
其中,n是类别数,yc是训练样本的标记,pc是模型的预测概率;
人脸识别通道的损失函数Lossface为:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中,anchor代表基准人脸;positive代表和anchor属于同一个人的正样本;negative代表和anchor不属于同一个人负样本;d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
进一步地,所述粗粒度特征包括短视频帧的场景、色彩、物体。
本发明还提出一种基于多任务学习的短视频帧语义提取系统,包括:
构建模块,用于构建包括图片分类通道、人脸识别通道的卷积神经网络;
训练模块,用于通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
语义提取模块,用于基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。
进一步地,所述图片分类通道包括一个图片分类卷积神经网络,所述人脸识别通道包括三个人脸识别卷积神经网络,所述三个人脸识别卷积神经网络共享参数,所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层。
进一步地,整个所述任务短视频语义提取模型的损失函数为:
Lossoverall=Lossface+λLossclassify
其中,Lossclassify为图片分类通道的损失函数,Lossface为人脸识别通道的损失函数,λ是调节分类损失和人脸识别损失作用的调节参数。
进一步地,图片分类通道的损失函数Lossclassify为:
其中,n是类别数,yc是训练样本的标记,pc是模型的预测概率;
人脸识别通道的损失函数Lossface为:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中,anchor代表基准人脸;positive代表和anchor属于同一个人的正样本;negative代表和anchor不属于同一个人负样本;d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
进一步地,所述粗粒度特征包括短视频帧的场景、色彩、物体。
与现有技术相比,本发明针对短视频中人脸信息占用的面积很小、但人脸信息是人们在关注短视频时重点关注的信息的特点,提出了包括图片分类通道、人脸识别通道的卷积神经网络。通过图片分类通道是学习视频帧的粗粒度特征,包括图片的场景、色彩、物体等;通过人脸识别通道是学习视频中的人物特征。克服了现有的针对短视频帧的语义提取存在遗漏重要特征的问题,能够更全面地获取短视频帧中所包括的语义信息,进一步能够提高基于提取的语义所进行短视频推荐等功能的性能。此外,本发明引入利用多任务学习方式,提高了语义提取的性能。且多任务短视频语义提取模型的性能由两个任务共同决定,相互影响,能够整体提高多个任务的学习效率。
附图说明
图1是实施例一提供的一种基于多任务学习的短视频帧语义提取方法流程图;
图2是实施例二提供的一种基于多任务学习的短视频帧语义提取系统结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
实施例一
如图1所示,本实施例提出了一种基于多任务学习的短视频帧语义提取方法,包括:
S1、构建包括图片分类通道、人脸识别通道的卷积神经网络;
现有的短视频内容大多数都是以人物为主体,而现有的视频帧语义提取方法仅考虑普通的图像特征,没考虑人物特征,因此不能全面地提取短视频中的有效语义。因此,本发明构建包括图片分类通道、人脸识别通道的卷积神经网络,能够同时提取普通的图像特征及人物特征的语义,实现针对短视频帧的多任务学习。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络。主要由输入层、卷积层、池化层、全连接层、输出层组成。输入层是需要处理的短视频帧数据,对于计算机而言可将其理解为若干矩阵。卷积层是卷积神经网络的重要组成部分,通过输入层和卷积层之间的矩阵卷积运算,提取输入短视频帧的特征。池化层通常设置在卷积层之后,对输入的短视频帧的目标区域像素取平均值或最大值,即降采样处理,降低特征图像分辨率的同时避免出现过拟合。全连接层位于最后一个池化层和输出层之间,其中每一个神经元都与前一层的全部神经元相连接,并根据目标检测的需要,有针对性地将特征向量映射到输出层。输出层位于神经网络的最后,其作用是对权连接层映射过来的输入向量进行分类。卷积层与池化层可以根据需要重复多次,其中不同的卷积核负责提取多种特征,池化层提供平移不变性和降维。
本发明构建相互独立的图片分类通道、人脸识别通道,图片分类通道用于提取短视频帧的普通图像特征,对视频帧进行分类,人脸识别通道用于提取短视频帧中的人脸特征。目前主流的图片分类框架,大都是CNN网络,因此,本发明也采用CNN网络进行短视频帧的普通图像特征的提取。人脸识别从直观上来说和分类任务类似,但是也有一些特殊性。分类任务的类别数目通常是固定的,而人脸识别问题则不然,所以人脸识别通常都是学习一个人脸的表征,然后同一个表征空间内寻找是否有相同的人脸。其次,分类任务专注的是粗粒度的识别,而人脸识别需要捕捉细粒度的差别。本发明图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层。输入层接收短视频帧图片的R、G、B分量,R对应选取图片的红色通道,G对应选取图片的绿色通道,B对应选取图片的蓝色通道。
S2、通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
本发明加载标注了类别信息及人脸信息的视频帧数据。为了提高语义提取的精确性,本发明对采集的视频帧数据分别随机进行旋转、平移、错切变换、缩放等图像增强操作以扩充数据样例,其中旋转角度、缩放比例等操作均随机选取对应数值以保证生成图片的随机性。通过数据增强操作,提高样本量。
由于短视频帧图片可能存在大量噪声,影响语义提取效果。因此,本发明在输入短视频帧图片后,对其进行去噪。由于图片中的大多数噪声均属于高斯噪声,因此,本发明采用高斯滤波器进行去噪,得到滤波效果图;高斯滤波公式如下:
其中,x表示像素RGB值,μ表示半径Radius范围内的像素值均值,σ表示半径Radius范围内像素值的方差。
对于图片分类通道,本发明采用softmax多类别分类器和交叉熵损失函数(CrossEntropy Error Function),激活函数增强网络的非线性表达能力。具体地,短视频帧图片分类通道的损失为:
其中n是类别数,yc是训练样本的标记,pc是模型的预测概率。
对于人脸识别通道,本发明采用triplet loss。triplet loss也是通过训练一个CNN网络来对人脸进行编码,但是它的输入是三张短视频帧图片,即输入是一个三元组<a,p,n>,其中a是anchor,代表基准人脸;p为positive,代表正样本,即和anchor属于同一个人;n是negative,代表负样本,即和anchor不属于同一个人。
因此,本发明多任务短视频语义提取模型包括一个人脸识别通道、一个图片分类通道,图片分类通道包括一个图片分类卷积神经网络,人脸识别通道包括三个人脸识别卷积神经网络,三个人脸识别卷积神经网络共享参数。三张短视频帧图片分别通过三个人脸识别卷积神经网络,分别得到各自对应的向量表征,通过三个向量计算损失,目标是拉近anchor和positive向量之间的距离,拉大anchor和negative向量之间的距离。目标函数可以写成以下形式:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
图片分类通道是用于学习视频帧的粗粒度特征,包括图片的场景、色彩、物体等;人脸识别通道是用于学习视频中的人物特征。由于多任务短视频语义提取模型包括图片分类通道及人脸识别通道,因此,整个多任务短视频语义提取模型的损失函数为:
其中λ是调节参数,作用是调节分类损失和人脸识别损失的作用。
本发明将去噪后的短视频帧样本数据输入卷积神经网络,图片分类通道、人脸识别通道分别学习视频帧的粗粒度特征、人物特征。通过计算整个多任务短视频语义提取模型的损失函数对多任务短视频语义提取模型进行优化,训练生成多任务短视频语义提取模型。
S3、基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。
训练生成多任务短视频语义提取模型后,就可以对需要进行特征提取的视频帧图片进行特征提取,以获取既包括视频帧的粗粒度特征,包括图片的场景、色彩、物体等;也包视频中的人物特征的语义信息。
对于需要进行语义提取的短视频,通过固定帧截取视频帧图片。将截取的视频帧图片输入训练好的多任务短视频语义提取模型。图片分类通道学习视频帧的粗粒度特征;人脸识别通道学习视频中的人物特征。图片分类通道与人脸识别通道共享输出层,输出层将两个通道获取的特征进行整合输出,以得到最终的短视频帧语义信息。
实施例二
如图2所示,本实施例提出了一种基于多任务学习的短视频帧语义提取系统,包括:
构建模块,用于构建包括图片分类通道、人脸识别通道的卷积神经网络;
现有的短视频内容大多数都是以人物为主体,而现有的视频帧语义提取方法仅考虑普通的图像特征,没考虑人物特征,因此不能全面地提取短视频中的有效语义。因此,本发明构建包括图片分类通道、人脸识别通道的卷积神经网络,能够同时提取普通的图像特征及人物特征的语义,实现针对短视频帧的多任务学习。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络。主要由输入层、卷积层、池化层、全连接层、输出层组成。输入层是需要处理的短视频帧数据,对于计算机而言可将其理解为若干矩阵。卷积层是卷积神经网络的重要组成部分,通过输入层和卷积层之间的矩阵卷积运算,提取输入短视频帧的特征。池化层通常设置在卷积层之后,对输入的短视频帧的目标区域像素取平均值或最大值,即降采样处理,降低特征图像分辨率的同时避免出现过拟合。全连接层位于最后一个池化层和输出层之间,其中每一个神经元都与前一层的全部神经元相连接,并根据目标检测的需要,有针对性地将特征向量映射到输出层。输出层位于神经网络的最后,其作用是对权连接层映射过来的输入向量进行分类。卷积层与池化层可以根据需要重复多次,其中不同的卷积核负责提取多种特征,池化层提供平移不变性和降维。
本发明构建相互独立的图片分类通道、人脸识别通道,图片分类通道用于提取短视频帧的普通图像特征,对视频帧进行分类,人脸识别通道用于提取短视频帧中的人脸特征。目前主流的图片分类框架,大都是CNN网络,因此,本发明也采用CNN网络进行短视频帧的普通图像特征的提取。人脸识别从直观上来说和分类任务类似,但是也有一些特殊性。分类任务的类别数目通常是固定的,而人脸识别问题则不然,所以人脸识别通常都是学习一个人脸的表征,然后同一个表征空间内寻找是否有相同的人脸。其次,分类任务专注的是粗粒度的识别,而人脸识别需要捕捉细粒度的差别。本发明图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层。输入层接收短视频帧图片的R、G、B分量,R对应选取图片的红色通道,G对应选取图片的绿色通道,B对应选取图片的蓝色通道。
训练模块,用于通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
本发明加载标注了类别信息及人脸信息的视频帧数据。为了提高语义提取的精确性,本发明对采集的视频帧数据分别随机进行旋转、平移、错切变换、缩放等图像增强操作以扩充数据样例,其中旋转角度、缩放比例等操作均随机选取对应数值以保证生成图片的随机性。通过数据增强操作,提高样本量。
由于短视频帧图片可能存在大量噪声,影响语义提取效果。因此,本发明在输入短视频帧图片后,对其进行去噪。由于图片中的大多数噪声均属于高斯噪声,因此,本发明采用高斯滤波器进行去噪,得到滤波效果图;高斯滤波公式如下:
其中,x表示像素RGB值,μ表示半径Radius范围内的像素值均值,σ表示半径Radius范围内像素值的方差。
对于图片分类通道,本发明采用softmax多类别分类器和交叉熵损失函数(CrossEntropy Error Function),激活函数增强网络的非线性表达能力。具体地,短视频帧图片分类通道的损失为:
其中n是类别数,yc是训练样本的标记,pc是模型的预测概率。
对于人脸识别通道,本发明采用triplet loss。triplet loss也是通过训练一个CNN网络来对人脸进行编码,但是它的输入是三张短视频帧图片,即输入是一个三元组<a,p,n>,其中a是anchor,代表基准人脸;p为positive,代表正样本,即和anchor属于同一个人;n是negative,代表负样本,即和anchor不属于同一个人。
因此,本发明多任务短视频语义提取模型包括一个人脸识别通道、一个图片分类通道。图片分类通道包括一个图片分类卷积神经网络,人脸识别通道包括三个人脸识别卷积神经网络。三张短视频帧图片分别通过三个人脸识别卷积神经网络,分别得到各自对应的向量表征,通过三个向量计算损失,目标是拉近anchor和positive向量之间的距离,拉大anchor和negative向量之间的距离。目标函数可以写成以下形式:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
图片分类通道是用于学习视频帧的粗粒度特征,包括图片的场景、色彩、物体等;人脸识别通道是用于学习视频中的人物特征。由于多任务短视频语义提取模型包括图片分类通道及人脸识别通道,因此,整个多任务短视频语义提取模型的损失函数为:
其中λ是调节参数,作用是调节分类损失和人脸识别损失的作用。
本发明将去噪后的短视频帧样本数据输入卷积神经网络,图片分类通道、人脸识别通道分别学习视频帧的粗粒度特征、人物特征。通过计算整个多任务短视频语义提取模型的损失函数对多任务短视频语义提取模型进行优化,训练生成多任务短视频语义提取模型。
语义提取模块,用于基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征。
训练生成多任务短视频语义提取模型后,就可以对需要进行特征提取的视频帧图片进行特征提取,以获取既包括视频帧的粗粒度特征,包括图片的场景、色彩、物体等;也包视频中的人物特征的语义信息。
对于需要进行语义提取的短视频,通过固定帧截取视频帧图片。将截取的视频帧图片输入训练好的多任务短视频语义提取模型。图片分类通道学习视频帧的粗粒度特征;人脸识别通道学习视频中的人物特征。图片分类通道与人脸识别通道共享输出层,输出层将两个通道获取的特征进行整合输出,以得到最终的短视频帧语义信息。
由此可知,本发明提出的基于多任务学习的短视频帧语义提取方法及系统,针对短视频中人脸信息占用的面积很小、但人脸信息是人们在关注短视频时重点关注的信息的特点,提出了包括图片分类通道、人脸识别通道的卷积神经网络。通过图片分类通道是学习视频帧的粗粒度特征,包括图片的场景、色彩、物体等;通过人脸识别通道是学习视频中的人物特征。克服了现有的针对短视频帧的语义提取存在遗漏重要特征的问题,能够更全面地获取短视频帧中所包括的语义信息,进一步能够提高基于提取的语义所进行短视频推荐等功能的性能。此外,本发明引入利用多任务学习方式,提高了语义提取的性能。且多任务短视频语义提取模型的性能由两个任务共同决定,相互影响,能够整体提高多个任务的学习效率。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (4)

1.一种基于多任务学习的短视频帧语义提取方法,其特征在于,包括步骤:
S1、构建包括图片分类通道、人脸识别通道的卷积神经网络;
S2、通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
S3、基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征;
所述图片分类通道包括一个图片分类卷积神经网络,所述人脸识别通道包括三个人脸识别卷积神经网络,所述三个人脸识别卷积神经网络共享参数;所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层;
整个所述任务短视频语义提取模型的损失函数为:
Lossoverall=Lossface+λLossclassify
其中,Lossclassify为图片分类通道的损失函数,Lossface为人脸识别通道的损失函数,λ是调节分类损失和人脸识别损失作用的调节参数;
图片分类通道的损失函数Lossclassify为:
其中,n是类别数,yc是训练样本的标记,pc是模型的预测概率;
人脸识别通道的损失函数Lossface为:
Lossface=max(d(anchor,positive)-d(anchor,negative)+margin,0)
其中,anchor代表基准人脸;positive代表和anchor属于同一个人的正样本;negative代表和anchor不属于同一个人负样本;d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
2.根据权利要求1所述的语义提取方法,其特征在于,所述粗粒度特征包括短视频帧的场景、色彩、物体。
3.一种基于多任务学习的短视频帧语义提取系统,其特征在于,包括:
构建模块,用于构建包括图片分类通道、人脸识别通道的卷积神经网络;
训练模块,用于通过短视频帧样本数据对卷积神经网络进行训练,得到多任务短视频语义提取模型;
语义提取模块,用于基于多任务短视频语义提取模型对视频帧语义进行提取,得到包括粗粒度特征及人脸特征的语义特征;
所述图片分类通道包括一个图片分类卷积神经网络,所述人脸识别通道包括三个人脸识别卷积神经网络,所述三个人脸识别卷积神经网络共享参数;所述图片分类通道、人脸识别通道分别包括独立的输入层、卷积层、池化层、全连接层,共享一个输出层;
整个所述任务短视频语义提取模型的损失函数为:
Lossoverall=Lossface+λLossclassify
图片分类通道的损失函数Lossclassify为:
其中,anchor代表基准人脸;positive代表和anchor属于同一个人的正样本;negative代表和anchor不属于同一个人负样本;d(a,b)表示向量a和b之间的距离,margin是一个附加约束,约束负样本和基准人脸的距离大于正样本与基准人脸的距离,且距离的差值不小于margin。
4.根据权利要求3所述的语义提取系统,其特征在于,所述粗粒度特征包括短视频帧的场景、色彩、物体。
CN201911186838.3A 2019-11-28 2019-11-28 一种基于多任务学习的短视频帧语义提取方法及系统 Active CN110929099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911186838.3A CN110929099B (zh) 2019-11-28 2019-11-28 一种基于多任务学习的短视频帧语义提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911186838.3A CN110929099B (zh) 2019-11-28 2019-11-28 一种基于多任务学习的短视频帧语义提取方法及系统

Publications (2)

Publication Number Publication Date
CN110929099A CN110929099A (zh) 2020-03-27
CN110929099B true CN110929099B (zh) 2023-07-21

Family

ID=69846980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911186838.3A Active CN110929099B (zh) 2019-11-28 2019-11-28 一种基于多任务学习的短视频帧语义提取方法及系统

Country Status (1)

Country Link
CN (1) CN110929099B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111582127A (zh) * 2020-04-30 2020-08-25 南京邮电大学 一种视频社会语义分类方法及系统
CN111462555A (zh) * 2020-05-25 2020-07-28 四川信息职业技术学院 一种用于英语口语教学的Vlog视频系统及其使用方法
CN113177478B (zh) * 2021-04-29 2022-08-05 西华大学 一种基于迁移学习的短视频语义标注方法
CN113065533B (zh) * 2021-06-01 2021-11-02 北京达佳互联信息技术有限公司 一种特征提取模型生成方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN206907100U (zh) * 2017-07-03 2018-01-19 宫森林 一种人脸识别考勤装置
CN108038467A (zh) * 2017-12-26 2018-05-15 南京信息工程大学 一种镜像图与粗细层次结合的稀疏人脸识别方法
CN108073941A (zh) * 2016-11-17 2018-05-25 江南大学 一种基于深度学习的图像语义生成方法
CN108764207A (zh) * 2018-06-07 2018-11-06 厦门大学 一种基于多任务卷积神经网络的人脸表情识别方法
CN109002845A (zh) * 2018-06-29 2018-12-14 西安交通大学 基于深度卷积神经网络的细粒度图像分类方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815566B (zh) * 2016-12-29 2021-04-16 天津中科智能识别产业技术研究院有限公司 一种基于多任务卷积神经网络的人脸检索方法
CN106980641B (zh) * 2017-02-09 2020-01-21 上海媒智科技有限公司 基于卷积神经网络的无监督哈希快速图片检索系统及方法
CN109726619A (zh) * 2017-10-31 2019-05-07 深圳市祈飞科技有限公司 一种基于参数共享的卷积神经网络人脸识别方法及系统
CN107886062B (zh) * 2017-11-03 2019-05-10 北京达佳互联信息技术有限公司 图像处理方法、系统及服务器
CN108009528B (zh) * 2017-12-26 2020-04-07 广州广电运通金融电子股份有限公司 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质
CN108256450A (zh) * 2018-01-04 2018-07-06 天津大学 一种基于深度学习的人脸识别和人脸验证的监督学习方法
CN108921026A (zh) * 2018-06-01 2018-11-30 平安科技(深圳)有限公司 动物身份的识别方法、装置、计算机设备和存储介质
CN109033938A (zh) * 2018-06-01 2018-12-18 上海阅面网络科技有限公司 一种基于可区分性特征融合的人脸识别方法
CN109784366A (zh) * 2018-12-07 2019-05-21 北京飞搜科技有限公司 目标物体的细粒度分类方法、装置与电子设备
CN110059206A (zh) * 2019-03-29 2019-07-26 银江股份有限公司 一种基于深度表征学习的大规模哈希图像检索方法
CN110084215A (zh) * 2019-05-05 2019-08-02 上海海事大学 一种二值化三元组孪生网络模型的行人重识别方法及系统
CN110458233B (zh) * 2019-08-13 2024-02-13 腾讯云计算(北京)有限责任公司 混合粒度物体识别模型训练及识别方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073941A (zh) * 2016-11-17 2018-05-25 江南大学 一种基于深度学习的图像语义生成方法
CN206907100U (zh) * 2017-07-03 2018-01-19 宫森林 一种人脸识别考勤装置
CN108038467A (zh) * 2017-12-26 2018-05-15 南京信息工程大学 一种镜像图与粗细层次结合的稀疏人脸识别方法
CN108764207A (zh) * 2018-06-07 2018-11-06 厦门大学 一种基于多任务卷积神经网络的人脸表情识别方法
CN109002845A (zh) * 2018-06-29 2018-12-14 西安交通大学 基于深度卷积神经网络的细粒度图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于区域建议网络的图像语义分割方法;杨志尧;彭召意;文志强;;计算机与现代化(第02期);126-130 *
基于深度多任务学习的层次分类;赵其鲁;李宗民;;计算机辅助设计与图形学学报(第05期);142-148 *

Also Published As

Publication number Publication date
CN110929099A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN108830855B (zh) 一种基于多尺度低层特征融合的全卷积网络语义分割方法
CN110929099B (zh) 一种基于多任务学习的短视频帧语义提取方法及系统
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及系统
WO2020216227A9 (zh) 图像分类方法、数据处理方法和装置
CN106919920B (zh) 基于卷积特征和空间视觉词袋模型的场景识别方法
US20220230282A1 (en) Image processing method, image processing apparatus, electronic device and computer-readable storage medium
Bianco et al. Predicting image aesthetics with deep learning
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN111274987B (zh) 人脸表情识别方法及人脸表情识别装置
WO2023206944A1 (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN112069884A (zh) 一种暴力视频分类方法、系统和存储介质
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
Mukherjee et al. Potential of deep features for opinion-unaware, distortion-unaware, no-reference image quality assessment
Tu et al. DTCM: Joint optimization of dark enhancement and action recognition in videos
CN116152226A (zh) 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Al Sobbahi et al. Low-light image enhancement using image-to-frequency filter learning
Yang et al. Deep Learning Based Image Quality Assessment: A Survey
Li et al. The Instance-Aware Automatic Image Colorization Based on Deep Convolutional Neural Network.
CN116596891A (zh) 基于半监督多任务检测的木地板颜色分类及缺陷检测方法
CN115797642A (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法
Xu et al. Blind image quality assessment by pairwise ranking image series
Debnath et al. A novel approach using deep convolutional neural network to classify the photographs based on leading-line by fine-tuning the pre-trained VGG16 neural network
CN113077525A (zh) 一种基于频域对比学习的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 22nd floor, block a, Huaxing Times Square, 478 Wensan Road, Xihu District, Hangzhou, Zhejiang 310000

Applicant after: Hangzhou Xiaoying Innovation Technology Co.,Ltd.

Address before: 16 / F, HANGGANG Metallurgical Science and technology building, 294 Tianmushan Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Applicant before: HANGZHOU QUWEI SCIENCE & TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant