CN113570509A - 数据处理方法以及计算机设备 - Google Patents

数据处理方法以及计算机设备 Download PDF

Info

Publication number
CN113570509A
CN113570509A CN202110062892.8A CN202110062892A CN113570509A CN 113570509 A CN113570509 A CN 113570509A CN 202110062892 A CN202110062892 A CN 202110062892A CN 113570509 A CN113570509 A CN 113570509A
Authority
CN
China
Prior art keywords
excitation
sample
image
data
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110062892.8A
Other languages
English (en)
Inventor
何盛烽
任苏成
孙子荀
邓大付
王巨宏
刘婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Tencent Technology Shenzhen Co Ltd
Original Assignee
South China University of Technology SCUT
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Tencent Technology Shenzhen Co Ltd filed Critical South China University of Technology SCUT
Publication of CN113570509A publication Critical patent/CN113570509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种数据处理方法以及计算机设备,该方法涉及人工智能技术中的目标检测技术,可以应用在视频显著性检测领域;包括:获取多媒体数据对应的数据结构特征,生成数据结构特征对应的激励图像;激励图像用于突出多媒体数据中的显著对象所在的预测区域;获取多媒体数据对应的显著内容特征,根据激励图像对显著内容特征进行特征增强,得到激励内容特征;生成激励内容特征对应的对象区域图像;对象区域图像用于检测多媒体数据中的显著对象。采用本申请实施例,可以提高多媒体数据的显著性检测准确度。

Description

数据处理方法以及计算机设备
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法以及计算机设备。
背景技术
视觉显著性检测(Visual Saliency Detection)是指通过智能算法模拟人的视觉特点,提取图像中的显著性区域(即人类感兴趣的区域)。互联网技术的快速发展带来大数据量的传播,如何从大量的视频数据中快速提取显著性区域已经成为一个热点关注问题。
现有技术中,可以将视频划分为多个视频帧,分别对每个视频帧进行特征提取,获取每个视频帧分别对应的特征信息,根据特征信息对视频进行显著性检测。然而,由于视频中的显著对象存在运动,可能导致视频中不显著的对象在某些单个视频帧中变得显著,造成从视频帧提取到的特征信息缺乏全局信息,进而导致视频的显著性检测结果的准确性过低。
发明内容
本申请实施例提供一种数据处理方法以及计算机设备,可以提高多媒体数据的显著性检测准确度。
本申请实施例一方面提供了一种数据处理方法,包括:
获取多媒体数据对应的数据结构特征,生成数据结构特征对应的激励图像;激励图像用于突出多媒体数据中的显著对象所在的预测区域;
获取多媒体数据对应的显著内容特征,根据激励图像对显著内容特征进行特征增强,得到激励内容特征;
生成激励内容特征对应的对象区域图像;对象区域图像用于检测多媒体数据中的显著对象。
本申请实施例一方面提供了一种数据处理方法,包括:
获取样本数据,在初始数据检测模型的初始激励预测组件中,获取样本数据对应的样本数据结构特征,生成样本数据结构特征对应的样本激励图像;样本激励图像用于突出样本数据中的样本对象所在的预测区域;
在初始数据检测模型的初始显著性预测组件中,获取样本数据对应的样本内容特征,根据样本激励图像对样本内容特征进行特征增强,得到样本激励内容特征;
在初始显著性预测组件中生成样本数据对应的样本区域图像;
根据样本激励图像、样本区域图像以及样本数据对应的样本标签,对初始数据检测模型中的网络参数进行修正,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型;数据检测模型用于检测多媒体数据中所包含的显著对象。
本申请实施例一方面提供了一种数据处理装置,包括:
激励图像生成模块,用于获取多媒体数据对应的数据结构特征,生成数据结构特征对应的激励图像;激励图像用于突出多媒体数据中的显著对象所在的预测区域;
第一激励模块,用于获取多媒体数据对应的显著内容特征,根据激励图像对显著内容特征进行特征增强,得到激励内容特征;
显著性图生成模块,用于生成激励内容特征对应的对象区域图像;对象区域图像用于检测多媒体数据中的显著对象。
其中,数据结构特征包括空间特征,激励图像包括空间激励图像;
激励图像生成模块包括:
数据输入单元,用于获取多媒体数据,将多媒体数据输入至数据检测模型中的空间激励预测组件;
空间特征提取单元,用于根据空间激励预测组件中的空间编码器,对多媒体数据进行特征提取,得到多媒体数据对应的空间特征;
空间特征解码单元,用于根据空间激励预测组件中的空间解码器,对空间特征进行解码,生成多媒体数据对应的空间激励图像。
其中,空间编码器包括残差块和空洞卷积层;
空间特征提取单元包括:
第一卷积处理子单元,用于根据空间激励预测组件中的残差块,对多媒体数据进行卷积处理,得到多媒体数据对应的残差卷积特征;
第二卷积处理子单元,用于获取空洞卷积层对应的空洞率,根据空洞率对残差卷积特征进行卷积处理,得到残差卷积特征对应的空洞卷积特征;
卷积特征拼接子单元,用于将残差卷积特征和空洞卷积特征,确定为多媒体数据对应的空间特征。
其中,多媒体数据包括视频数据,数据结构特征包括时间特征,激励图像包括时间激励图像;
激励图像生成模块包括:
视频帧获取单元,用于获取视频数据,在视频数据中获取相邻的视频帧Tn-1和视频帧Tn;n为小于或等于视频数据所划分的视频帧数量的正整数;
光流图像获取单元,用于获取视频帧Tn-1和视频帧Tn之间的光流图像;光流图像用于表征视频数据中的显著对象的像素运动;
时间特征提取单元,用于将光流图像输入至数据检测模型中的时间激励预测组件,根据时间激励预测组件中的时间编码器,对光流图像进行特征提取,得到光流图像对应的时间特征;
时间特征解码单元,用于根据时间激励预测组件中的时间解码器,对时间特征进行解码,生成光流图像对应的时间激励图像。
其中,多媒体数据包括视频数据,数据结构特征包括空间特征和时间特征,激励图像包括空间激励图像和时间激励图像;
激励图像生成模块包括:
空间激励图像生成单元,用于将视频数据输入至数据检测模型中的空间激励预测组件,在空间激励预测组件中获取视频数据对应的空间特征,生成空间特征对应的空间激励图像;
运动特征获取单元,用于获取视频数据对应的光流图像,将光流图像输入至数据检测模型中的时间激励预测组件,根据时间激励预测组件中的时间编码器,获取光流图像对应的对象运动特征;光流图像用于表征视频数据中的显著对象的像素运动;
时间激励单元,用于根据空间激励图像对对象运动特征进行特征增强,得到光流图像对应的时间特征;
时间激励图像生成单元,用于根据时间激励预测组件中的时间解码器,生成光流图像对应的时间激励图像。
其中,时间激励单元包括:
点乘运算子单元,用于将空间激励图像与对象运动特征进行点乘运算,得到光流图像对应的过渡特征;
激励子单元,用于获取对象运动特征对应的激励率,根据激励率、过渡特征以及对象运动特征,生成光流图像对应的时间特征;激励率用于平衡过渡特征和对象运动特征之间的关系。
其中,多媒体数据包括视频数据中的视频帧Tn,n为小于或等于视频数据所划分的视频帧数量的正整数;
第一激励模块包括:
显著性提取单元,用于将视频帧Tn输入至数据检测模型中的显著性预测组件,根据显著性预测组件中的显著性编码器,对视频帧Tn进行特征提取,得到视频帧Tn对应的内容卷积特征;
隐含状态获取单元,用于根据显著性预测组件中的卷积循环神经网络,获取视频数据中的视频帧Tn-1所对应的隐含状态特征;
时间信息添加单元,用于根据隐含状态特征和内容卷积特征,生成视频帧Tn对应的显著内容特征。
其中,第一激励模块包括:
第一特征增强单元,用于根据空间激励图像对显著内容特征进行特征增强,得到视频数据对应的空间激励特征;
第二特征增强单元,用于根据时间激励图像对显著内容特征进行特征增强,得到视频数据对应的时间激励特征;
激励特征拼接单元,用于将空间激励特征和时间激励特征,确定为视频数据对应的激励内容特征。
其中,显著性图生成模块包括:
在线激励图像生成单元,用于根据显著性预测组件中的显著性解码器,对激励内容特征进行解码,生成激励内容特征对应的在线激励图像;
在线激励单元,用于根据在线激励图像对显著内容特征进行特征增强,得到多媒体数据对应的优化激励内容特征,生成优化激励内容特征对应的对象区域图像。
本申请实施例一方面提供了一种数据处理装置,包括:
样本激励图像生成模块,用于获取样本数据,在初始数据检测模型的初始激励预测组件中,获取样本数据对应的样本数据结构特征,生成样本数据结构特征对应的样本激励图像;样本激励图像用于突出样本数据中的样本对象所在的预测区域;
第二激励模块,用于在初始数据检测模型的初始显著性预测组件中,获取样本数据对应的样本内容特征,根据样本激励图像对样本内容特征进行特征增强,得到样本激励内容特征;
样本图像生成模块,用于在初始显著性预测组件中生成样本数据对应的样本区域图像;
网络参数修正模块,用于根据样本激励图像、样本区域图像以及样本数据对应的样本标签,对初始数据检测模型中的网络参数进行修正,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型;数据检测模型用于检测多媒体数据中所包含的显著对象。
其中,初始激励预测组件包括初始空间激励预测组件和初始时间激励预测组件;
样本激励图像生成模块包括:
样本空间激励图像获取单元,用于将样本数据输入至初始数据检测模型中的初始空间激励预测组件,在初始空间激励预测组件中获取样本数据对应的样本空间激励图像;
样本运动特征获取单元,用于获取样本数据对应的样本光流图像,将样本光流图像输入至初始时间激励预测组件,在初始时间激励预测组件中获取样本光流图像对应的样本运动特征;
样本时间激励图像获取单元,用于根据样本空间激励图像对样本运动特征进行特征增强,得到样本数据对应的样本时间特征,根据样本时间特征生成样本数据对应的样本时间激励图像。
其中,网络参数修正模块包括:
第一损失函数确定单元,用于获取样本数据对应的样本标签,根据样本空间激励图像与样本标签之间的误差,确定初始空间激励预测组件对应的第一损失函数;
第二损失函数确定单元,用于根据样本时间激励图像与样本标签之间的误差,确定初始时间激励预测组件对应的第二损失函数;
第三损失函数确定单元,用于根据样本区域图像与样本标签之间的误差,确定初始显著性预测组件对应的第三损失函数;
参数修正单元,用于根据第一损失函数、第二损失函数以及第三损失函数,对初始数据检测模型中的网络参数进行修正,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型。
其中,第一损失函数确定单元包括:
交叉熵损失生成子单元,用于根据样本标签获取样本空间激励图像对应的类别概率分布,根据类别概率分布生成交叉熵损失函数;
结构相似性损失子单元,用于将样本空间激励图像划分为K个激励图像区块,将样本标签划分为K个标签区块,根据K个激励图像区块与K个标签区块之间的结构相似度,生成结构相似性损失函数;K为正整数;
交并比损失子单元,用于获取样本空间激励图像与样本标签之间的并集和交集,根据并集和交集生成交并比损失函数;
损失函数相加子单元,用于将交叉熵损失函数、结构相似性损失函数以及交并比损失函数,确定为初始空间激励预测组件对应的第一损失函数。
其中,该装置还包括:
训练次数获取模块,用于获取初始数据检测模型的训练次数;
训练次数判断模块,用于当训练次数小于或等于第一阈值时,根据样本标签对样本内容特征进行特征增强,得到样本激励内容特征;
该训练次数判断模块,还用于当训练次数大于第一阈值,且训练次数小于或等于第二阈值时,根据课程学习率、样本标签以及样本激励率生成候选激励图像,根据候选激励图像对样本内容特征进行特征增强,得到样本激励内容特征;
该训练次数判断模块,还用于当训练次数小于第二阈值时,执行根据样本激励图像对样本内容特征进行特征增强,得到样本激励内容特征的步骤。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中一方面中方法的步骤。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行如本申请实施例中一方面中方法的步骤。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面的各种可选方式中提供的方法。
本申请实施例可以通过获取多媒体数据对应的数据结构特征,生成该数据结构特征对应的激励图像,该激励图像可以用于突出多媒体数据中的显著对象所在的预测区域,进而可以获取多媒体数据对应的显著内容特征,根据激励图像对显著内容特征进行特征增强得到激励内容特征,可以生成激励内容特征对应的对象区域图像,该对象区域图像可以用于检测该多媒体数据中的显著对象。可见,可以从多媒体数据中获取数据结构特征和显著内容特征,并生成数据结构特征对应的激励图像,通过激励图像对显著内容特征进行特征增强,使得最终生成的对象区域图像可以准确地捕捉到多媒体数据中的显著对象,可以提高多媒体数据的显著性检测准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种显著性检测场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种空洞卷积处理的平面示意图;
图5是本申请实施例提供的一种激励模块的结构示意图;
图6是本申请实施例提供的一种数据检测模型的框架结构示意图;
图7是本申请实施例提供的一种视频显著性检测的应用场景示意图;
图8是本申请实施例提供的一种数据处理方法的流程示意图;
图9是本申请实施例提供的一种数据检测模型的训练示意图;
图10是本申请实施例提供的一种视频显著性检测的实验结果示意图;
图11是本申请实施例提供的一种数据处理装置的结构示意图;
图12是本申请实施例提供的一种数据处理装置的结构示意图;
图13是本申请实施例提供的一种计算机设备的结构示意图;
图14是本申请实施例提提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及人工智能(Artificial Intelligence,AI)技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例具体涉及人工智能技术下属的计算机视觉技术(Computer Vision,CV)。
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例具体涉及计算机视觉技术中的视频显著性检测。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10d和用户终端集群,该用户终端集群可以包括一个或者多个用户终端,这里不对用户终端的数量进行限制。如图1所示,该用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端10a、用户终端10b以及用户终端10c等均可以包括:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等具有视频/图像播放功能的智能终端。如图1所示,用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。
在数据处理场景中,以图1所示的用户终端10a为例,用户终端10a可以获取多媒体数据(例如,视频数据,或者图像数据),该多媒体数据可以为从互联网所下载的视频数据或者图像数据,或者为通过用户终端10a中的相机实时拍摄的照片或视频等。用户终端10a可以从多媒体数据中提取数据结构特征(例如,时间特征,或者空间特征),通过对数据结构特征进行解码可以生成激励图像,该激励图像可以用于突出多媒体数据中的显著对象所在的预测区域,即激励图像可以在多媒体数据的显著性检测中起到一个指导作用,以更准确地确定显著对象在多媒体数据中的形状和位置。用户终端10a还可以从多媒体数据中提取显著内容特征,根据上述得到的激励图像对显著内容特征进行特征增强,得到激励内容特征,进而对激励内容特征进行解码后可以生成对象区域图像,该对象区域图像可以用于检测多媒体数据中的显著对象。本申请实施例可以通过多媒体数据的激励图像,对所提取到的显著内容特征进行特征增强,生成的激励内容特征更能表达多媒体数据中所包含的全局信息,基于激励内容特征所生成的对象区域图像,可以提高多媒体数据中的显著性检测准确度。
请一并参见图2,图2是本申请实施例提供的一种显著性检测场景示意图。以上述图1所对应实施例中的用户终端10a为例,对图像数据的显著性检测过程进行详细说明。如图2所示,用户终端10a可以获取通过摄像设备(例如,单反相机、手机摄像头等)所拍摄的旅游照片,并将该旅游照片作为待检测图像20a。
用户终端10a可以获取数据检测模型,该数据检测模型可以用于生成待检测图像20a对应的对象区域图像20i,该对象区域图像20i可以用于确定待检测图像20a中所包含的显著对象的形状和位置。其中,该数据检测模型可以包括激励预测组件20b和显著性检测组件20e,该激励预测组件20b可以用于预测具有丰富结构信息(例如,空间信息)的数据结构特征20c,并生成该数据结构特征20c对应的激励图像20d;该显著性检测组件20e可以用于预测具有显著对象信息的显著内容特征20f,并生成显著内容特征20f对应的对象区域图像20i。激励预测组件20b可以是根据空洞残差卷积网络(Dilated residual convolutionneural network)和半课程学习训练得到的,显著性检测组件20e可以是根据空洞残差卷积网络训练得到的。
其中,生成激励图像20d的具体过程可以包括:用户终端10a可以首先将待检测图像20a输入激励预测组件20b的编码器1中,即采用多个残差块对待检测图像20a进行卷积运算和池化运算,得到待检测图像20a对应的深度特征。为了处理显著对象尺寸的不确定性,可以在编码器1中引入空洞卷积(Dilated Convolutions,也可以称为扩张卷积,或者膨胀卷积)来提取多层次特征图,即可以通过设置不同的空洞率(dilation rate),对深度特征进行空洞卷积处理,得到具有不同尺度的空洞卷积特征图。用户终端10a可以将深度特征图和不同尺度的空洞卷积特征图作为与待检测图像20a相关联的数据结构特征20c。用户终端10a可以根据激励预测组件20b中的解码器1,对数据结构特征20c进行解码,生成数据结构特征20c对应的激励图像20d,该激励图像20d可以包含待检测图像20a中的空间结构信息,对预测待检测图像20a中的显著对象具有指导作用。
进一步地,生成对象区域图像20i的具体过程可以包括:用户终端10a可以将待检测图像20a输入显著性预测组件20e的编码器2中,即可以通过残差块和空洞卷积对待检测图像20a进行特征提取,得到待检测图像20a对应的显著内容特征20f。需要说明的是,激励预测组件20b中的编码器1与显著性预测组件20e中的编码器2具有相同的结构,即编码器1所包含的残差块数量、空洞卷积级数、每个残差块中所使用的卷积核的大小等结构,均与编码器2相同;但组件中所使用的网络参数是不相同的,如卷积核的参数,残差块中的网络参数等均是不相同的。当然,激励预测组件20b中的解码器1与显著性预测组件20e中的解码器2同样是具有相同的结构,但所采用的参数不同。
用户终端10a从待检测图像20a中提取到显著内容特征20f后,可以将显著内容特征20f输入激励模块20g,与此同时,根据激励预测组件20b所生成的激励图像20d也可以输入至激励模块20g,用户终端10a可以对显著内容特征20f和激励图像20d进行点乘运算,即显著内容特征20f可以表示为一个特征矩阵(如特征矩阵A),激励图像20d额可以表示为一个特征矩阵(如特征矩阵B),通过将特征均镇A和特征矩阵B中的元素对应相乘,得到一个新的特征矩阵。用户终端10a可以获取激励率β,将新的特征矩阵与激励率β之间的乘积,加上显著内容特征20f与(1-β)之间的乘积,得到激励内容特征20h。用户终端10a可以根据显著性预测组件20e中的解码器2,对激励内容特征20h进行解码,生成激励内容特征20h对应的对象区域图像20i。
用户终端10a在获取到对象区域图像20i后,可以根据对象区域图像20i可以确定待检测图像20a中所包含的显著对象的形状和位置,并对待检测图像20a进行后续处理。例如,用户终端10a在待检测图像20a中检测到显著对象后,可以对显著对象所在区域进行图像优化处理(例如,增加对比度,增加透明度,增加滤镜等),或者对检测到的显著对象进行识别,得到针对该显著对象的识别结果等。用户终端10a还可以根据对象区域图像20i,确定待检测图像20a中的前景区域和背景区域,并且可以对背景区域进行虚化处理。其中,待检测图像20a中显著对象所在区域可以称为待检测图像20a的前景区域,如对象区域图像20i中的白色区域,待检测图像20a中除显著对象所在区域之外的其余区域均可以称为背景区域,如对象区域图像20i中的黑色区域。
请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。可以理解地,该数据处理方法可以由计算机设备执行,该计算机设备可以为用户终端,或者为服务器,或者为用户终端和服务器组成的系统,或者为一个计算机程序应用(包括程序代码),这里不做具体限定。如图3所示,该数据处理方法可以包括以下步骤:
步骤S101,获取多媒体数据对应的数据结构特征,生成数据结构特征对应的激励图像;激励图像用于突出多媒体数据中的显著对象所在的预测区域。
具体的,计算机设备(如上述图1所对应实施例中的用户终端10a)可以获取多媒体数据(如上述图2所对应实施例中的待检测图像20a),并将多媒体数据输入至已经训练好的数据检测模型,根据数据检测模型对多媒体数据进行显著性检测,以生成用于检测多媒体数据中的显著对象的对象区域图像(如上述图2所对应实施例中的对象区域图像20i)。其中,本申请实施例中的多媒体数据可以为视频数据,也可以为图像数据;该多媒体数据可以是指该计算机设备从互联网中下载到的视频/图像数据,或者是在多媒体应用(如视频播放应用)中获得的视频/图像数据,或者是使用摄像设备所拍摄的视频/图像数据(例如,照片、拍摄视频、监控视频等),本申请对多媒体数据的来源不做限定。
需要说明的是,显著性检测可以理解为检测多媒体数据中最突出并最吸引人的区域或者物体,可以将多媒体数据中最突出且最吸引人的区域或物体称为显著对象。数据检测模型可以是指对多媒体数据进行显著性检测的网络模型,该数据检测模型可以包括至少两个分支,每个分支均可以看成是一个网络组件,如该数据检测模型可以包括空间激励预测组件(如上述图2所对应实施例中的激励预测组件20b)和显著性预测组件(如上述图2所对应实施例中的显著性预测组件20f)两个分支,或者该数据检测模型可以包括时间激励预测组件和显著性预测组件两个分支,或者该数据检测模型可以包括空间激励预测组件、时间激励预测组件以及显著性预测组件三个分支。其中,空间激励预测组件可以用于提取多媒体数据中的空间信息,并生成空间激励图像;时间激励预测组件可以用于提取多媒体数据中的时间信息(此时的多媒体数据为视频数据),并生成时间激励图像;显著性预测组件可以用于提取多媒体数据中的显著内容,并生成针对显著对象的对象区域图像,即可以用于预测显著性。多媒体数据的空间信息和时间信息均可以称为多媒体数据对应的数据结构特征,空间激励图像和时间激励图像均可以称为多媒体数据对应的激励图像,该激励图像可以用于突出多媒体数据中的显著对象所在的预测区域。
可以理解的是,计算机设备将多媒体数据输入至数据检测模型,实际上是将多媒体数据分别输入至数据检测模型的不同分支中。对于数据检测模型的空间激励预测组件,此时的数据结构特征包括空间特征,激励图像包括空间激励图像。计算机设备将多媒体数据输入至该空间激励预测组件后,可以根据空间激励预测组件中的空间编码器(如上述图2所对应实施例中的编码器1),对多媒体数据进行特征提取,得到多媒体数据对应的空间特征(也可以称为空间信息),进而可以根据空间激励预测组件中的空间解码器(如上述图2所对应实施例中的解码器1),对空间特征进行解码,生成多媒体数据对应的空间激励图像。空间编码器在本质上可以理解为对多媒体数据进行下采样进行特征提取的过程,空间解码器在本质上可以理解为对空间特征进行上采样生成图像的过程。
其中,空间编码器可以为空洞残差卷积网络,该空洞残差卷积网络可以包括多个残差块和空洞卷积层(该空洞残差卷积网络可以为ResNet网络+空洞卷积层所构成的网络,ResNet网络为卷积神经网络中的一种模型结构),残差块可以是指将输入信息直接跳过一个或多个卷积层,传输到后面的网络层,有利于保护多媒体信息的完整性。例如,若某残差块包括2个卷积层,输入信息为A,则计算机设备可以将信息A输入该残差块后,可以通过第一个卷积层对信息A进行卷积运算,在第一个卷积层中输出信息B,此时的信息B可以作为第二个卷积层的输入信息,通过第二个卷积层对信息B进行卷积运算,可以在第二个卷积层中输出信息C,此时可以直接将信息A跳过该残差块中的2个卷积层与信息C一起输入至下一个残差块,这个过程也可以称为残差连接。
计算机设备可以根据空间激励预测组件中所包含的残差块,对多媒体数据进行卷积处理,得到多媒体数据对应的残差卷积特征,即采用空洞残差卷积网络中的多个相连的残差块,依次对多媒体数据进行卷积处理以提取深层特征,此时的深层特征可以称为残差卷积特征。每个残差块均可以由一个或多个卷积层、归一化、激活函数构成,下面以多个残差块中的任意一个卷积层为例,对多媒体数据的卷积处理过程进行详细描述。每个卷积层可以对应一个或者多个卷积核(kernel,也可以称为滤波器,或者称为感受野),卷积处理可以是指卷积核与多媒体数据对应的输入矩阵进行矩阵乘法运算,卷积运算后的输出图像特征的行数Hout和列数Wout是由输入矩阵的大小、卷积核的大小、步长(stride)以及边界填充(padding)共同决定的,即Hout=(Hin-Hkerner+2*padding)/stride+1,Wout=(Win-Wkerner+2*padding)/stride+1。Hin,Hkerner分别表示输出图像特征的行数和卷积核的行数;Win,Wkerner分别表示输入矩阵的列数和卷积核的列数。
可选的,在卷积层的后面还可以嵌入一个池化层,该池化层可以为平均池化,也可以为最大池化层,平均池化运算方法是在该池化层的前一个卷积层所输出的图像特征的每一个行(或者是列)中计算出一个平均数值代表该行(或者列),最大池化运算是在该池化层的前一个卷积层所输出的图像特征的每一行(或者列)中选择一个最大数值来代表该行(或者列)。
假设残差块中包括两个卷积层,则在经过两次卷积运算后,可以将两次卷积后的输出与卷积运算前的输入进行相加,并通过激活函数后可以得到残差块对应的输出结果,该输出结果的计算公式可以表示为:
Figure BDA0002903005790000141
其中,Rout可以表示为残差块的输出结果,x可以表示为残差块的输入,W1,W2分别表示为第一次卷积运算和第二次卷积运算中的权重,σ可以表示为激活函数。空洞残差卷积网络中的每个残差块均可以执行上述操作,最终可以输出多媒体数据的残差卷积特征。
需要说明的是,多媒体数据的数量可以有n(n为正整数)个,第n个多媒体数据对应的残差卷积特征可以表示为Xn,残差卷积特征Xn可以表示为ResNet网络最后一层所输出的针对第n个多媒体数据的输出结果,该残差卷积特征Xn的尺度可以表示为w×h×c,第一维度w表示差卷积特征Xn的宽度,第二维度h表示差卷积特征Xn的高度,第三维度c表示差卷积特征Xn的通道数。
由于不同多媒体数据中的显著对象具有不同的形状和大小,为了让数据检测模型适应不同尺寸的显著对象,以提取更具表征能力的特征,在空间编码器中可以引入空洞卷积,即空洞残差卷积网络可以包括空洞卷积层,通过对残差卷积特征进行空洞卷积处理,以提取具有不同尺度的多层次特征图。进一步地,计算机设备可以获取空洞卷积层对应的空洞率,根据空洞率对残差卷积特征进行卷积处理,得到残差卷积特征对应的空洞卷积特征,进而可以将残差卷积特征和空洞卷积特征,确定为多媒体数据对应的空间特征。其中,空洞卷积可以是在标准的卷积特征图中注入空洞,以此来增加感受野;与标准卷积处理相比,空洞卷积处理引入了空洞率,该空洞率可以用于表示卷积核的间隔数量,标准卷积处理中的空洞率为1。
计算机设备可以通过不断提高空洞率来提取具有不同尺度的多层次特征,该空洞率可以表示为
Figure BDA0002903005790000151
M为表征最大空洞率的正整数,或者可以表示为空洞卷积层的层数,k为小于或等于M的正整数。当k等于1时,空洞率为2,即在空洞卷积处理中卷积核的间隔数量为1;当k等于2时,空洞率为4,即在空洞卷积处理中卷积核的间隔数量为3;第k个空洞卷积层提取到的与第n个多媒体数据相关联的空洞卷积特征可以表示为
Figure BDA0002903005790000152
该空洞卷积特征
Figure BDA0002903005790000153
的尺度可以表示为w×h×c′,c′表示空洞卷积特征
Figure BDA0002903005790000154
的通道数。
计算机设备可以将残差卷积特征Xn和M个空洞卷积层输出的空洞卷积特征构成一个特征集合(该特征集合可以称为空间特征
Figure BDA0002903005790000155
),该空间特征
Figure BDA0002903005790000156
丁以表示为:
Figure BDA0002903005790000157
其中,
Figure BDA0002903005790000158
的尺度可以表示为w×h×(c+M×c′),空间特和
Figure BDA0002903005790000159
不仅保留了原始的残差卷积特征Xn,而且具有更大的感受野,有利于获取多尺度信息。计算机设备可以将空间特征
Figure BDA00029030057900001510
输入空间激励预测组件的空间解码器中,通过空间解码器对空间特征
Figure BDA00029030057900001511
进行解码,可以生成多媒体数据对应的空间激励图像
Figure BDA00029030057900001512
请一并参见图4,图4是本申请实施例提供的一种空洞卷积处理的平面示意图。如图4所示,假设残差卷积特征Xn的具体尺寸为17×17×1(第一维度用于标识特征宽度,第二维度用于标识特征高度,第三维度用于标识通道数),即残差卷积特征Xn可以是1通道的17×17矩阵,卷积核的尺寸为3×3×1(第一维度用于标识卷积核宽度,第二维度用于标识卷积核高度,第三维度用于卷积核通道数),即卷积核可以是1通道的3×3矩阵,该卷积核可以具有9个参数。
当空洞率为1时,表示此时的空洞卷积处理即为标准的卷积处理,卷积核的感受野为3×3=9,如特征矩阵30a所示,该特征矩阵30a中存在3×3个相邻的元素与卷积核发生卷积操作,其余的元素可以忽略,即特征矩阵30a中的9个圆点(即9个元素)的权重不为0,其余元素的权重为0。
当空洞率为2时,表示此时的空洞卷积处理中,卷积核的感受野为7×7=49,如特征矩阵30b所示,该特征矩阵30b的每个尺寸为7×7的感受野中,仍然只有9个元素可以与卷积核发生卷积操作,其余元素可以忽略,即特征矩阵30b中的9个圆点(即9个元素)的权重不为0,其余元素的权重为0,两个相邻圆点之间相隔1个元素。
当空洞率为2时,表示此时的空洞卷积处理中,卷积核的感受野为15×15=225,如特征矩阵30c所示,该特征矩阵30c的每个尺寸为15×15的感受野中,仍然只有9个元素可以与卷积核发生卷积操作,其余元素可以忽略,即特征矩阵30c中的9个圆点(即9个元素)的权重不为0,其余元素的权重为0,两个相邻圆点之间相隔3个元素。
从图4可以看出,不管空洞率如何变化,卷积核的参数个数始终保持不变,而感受野的大小随着空洞率的增加呈指数增长。该空洞率可以用于表示卷积处理中感受野的扩张大小,通过在空间编码器中引入空洞卷积,可以获取多媒体数据中的多层次信息,进而可以丰富提取到的空间信息。
可选的,若数据检测模型包括时间激励预测组件,但不包括空间激励预测组件,则此时的多媒体数据可以为视频数据(当多媒体数据为图像数据时,无需使用时间激励预测组件),数据结构特征可以为时间特征,根据时间激励预测组件所生成的激励图像可以为时间激励图像,即计算机设备可以获取视频数据,并对视频数据进行分帧处理,将视频数据划分为一系列视频帧{T1,T2,...,Tn},即将视频数据划分为n个视频帧。
计算机设备可以在n个视频帧中获取相邻的视频帧Tn-1和视频帧Tn,n为小于或等于视频数据所划分的视频帧数量的正整数,此处默认视频帧Tn为视频数据中的当前视频帧。计算机设备可以获取视频帧Tn-1至视频帧Tn的光流图像,并将光流图像输入至数据检测模型中的时间激励预测组件,根据时间激励预测组件中的时间编码器对光流图像进行特征提取,可以得到光流图像对应的时间特征(此时的时间特征可以包含视频图像中的时间信息,为时间编码器的输出结果),进而可以根据时间激励预测组件中的时间解码器,对时间特征进行解码,生成光流图像对应的时间激励图像。其中,光流可以是指空间运动物体在观察成像平面上的像素运动的瞬时速度,即光流图像可以用于表征视频数据中的显著对象的像素运动。
需要说明的是,时间激励预测组件的网络结构与空间激励预测组件的网络结构相同,也就是说时间编码器的网络结构与空间编码器的网络结构相同,时间解码器的网络结构与空间解码器的网络结构也是相同的,但是时间激励预测组件中的参数与空间激励预测组件中的参数是不相同的。换言之,时间编码器可以包括空洞残差卷积网络,通过空洞残差卷积网络中的残差块对光流图像进行卷积处理,得到光流图像对应的深度残差卷积特征,进而可以通过空洞残差卷积网络中的空洞卷积层,得到深度残差卷积特征对应的空洞卷积特征,将时间编码器中的深度残差卷积特征和空洞卷积特征作为光流图像对应的时间特征,此处时间特征的提取过程,可以参见前述对空间特征提取过程的描述,这里不再进行赘述。
可选的,若数据检测模型同时包括时间激励预测组件和空间激励预测组件,则此时的多媒体数据可以为视频数据,数据结构特征可以包括时间特征和空间特征,激励图像可以包括空间激励图像和时间激励图像,此时的时间激励预测组件中可以包括空间激励模块。计算机设备可以获取视频数据对应的光流图像(即视频数据中的视频帧Tn-1至视频帧Tn的光流图像),将光流图像输入至数据检测模型中的时间激励预测组件,根据时间激励预测组件中的时间编码器,可以获取光流图像对应的对象运动特征(此时的对象运动特征可以是指时间编码器的输出结果)。计算机设备可以对对象运动特征进行空间激励,即根据空间激励图像对对象运动特征进行特征增强,得到光流图像对应的时间特征,进而可以根据时间激励预测组件中的时间解码器对时间特征进行解码,生成光流图像对应的时间激励图像。
基于空间激励图像进行特征增强后的时间特征可以结合空间激励图像中所包含的空间信息,也可以理解为空间激励后的时间特征。计算机设备可以将空间激励图像与对象运动特征进行点乘运算,得到光流图像对应的过渡特征;获取对象运动特征对应的激励率,根据激励率、过渡特征以及对象运动特征,生成光流图像对应的时间特征,该激励率用于平衡过渡特征和对象运动特征之间的关系。其中,激励模块实质上可以理解为特征的融合过程,即将对象运动特征和空间激励图像进行特征融合,可以加强空间特征的指导作用,时间特征的具体计算公式可以表示为:
Figure BDA0002903005790000171
其中,
Figure BDA0002903005790000172
可以表示为视频帧Tn经过空间激励处理后的时间特征,⊙可以表示为矩阵点乘运算,βs→t可以表示为时间激励预测组件中的时间激励率,
Figure BDA0002903005790000173
丁以表示为空间激励预测组件中所生成的针对视频帧Tn的空间激励图像,
Figure BDA0002903005790000174
可以表示为视频帧Tn-1至视频帧Tn的光流图像所对应的对象运动特征。
计算机设备可以将时间特征
Figure BDA0002903005790000175
输入时间激励预测组件中的时间解码器,根据时间解码器对时间特征
Figure BDA0002903005790000182
进行解码,生成视频帧Tn对应的时间激励图像
Figure BDA0002903005790000181
请一并参见图5,图5是本申请实施例提供的一种激励模块的结构示意图。如图5所示,计算机设备可以通过时间激励预测组件中的时间编码器,对视频帧Tn-1至视频帧Tn的光流图像进行特征提取,得到光流图像对应的对象运动特征40a,将对象运动特征40a和空间激励预测组件所生成的空间激励图像40b进行点乘运算,得到光流图像的过渡特征40c。计算机设备可以获取时间激励预测组件中的激励率βs→t,将激励率βs→t和过渡特征40c的乘积,以及参数(1-βs→t)和对象运动特征40a的乘积相加,得到光流图像对应的时间特征40d。
步骤S102,获取多媒体数据对应的显著内容特征,根据激励图像对显著内容特征进行特征增强,得到激励内容特征。
具体的,计算机设备可以将多媒体数据输入至数据检测模型中的显著性预测组件,根据该显著性预测组件中的显著性编码器对多媒体数据进行特征提取,得到多媒体数据对应的显著内容特征(此时的显著内容特征可以是指显著性编码器的输出结果)。其中,该显著性预测组件可以包括显著性编码器和显著性解码器,该显著性编码器的网络结构与空间编码器的网络结构相同,但是显著性编码器和空间编码器的网络参数不同;同理,该显著性解码器的网络结构与空间解码器的网络结构相同,但是显著性解码器和空间解码器的网络参数不相同。换言之,数据检测模型中空间编码器、时间编码器以及显著性编码器均具有相同的网络结构,但是空间编码器、时间编码器以及显著性编码器的网络参数均不相同;空间解码器、时间解码器以及显著性解码器同样具有相同的网络结构,但是空间解码器、时间解码器以及显著性解码器的网络参数均不相同。上述显著性特征的提取过程可以参见上述步骤S101中对空间特征提取过程的描述,这里不再进行赘述。
可选的,当多媒体数据为视频数据时,为了考虑到相邻视频帧之间的时间信息,可以在显著性预测组件中引入卷积循环神经网络(Convolutional Long Short-TermMemory,ConvLSTM),将时间信息注入到从显著性编码器提取的内容特征中。其中,ConvLSTM网络可以是指在长短期记忆网络(LongShort-TermMemory,LSTM)的全连接层更换为卷积层,进行卷积操作,不仅可以获取视频数据中的n个视频帧之间的时序关系,还可以类似于卷积层一样提取特征,提取视频帧的内容特征,即通过ConvLSTM网络可以获取视频帧对应的时间内容特征。可选的,显著性预测组件中的ConvLSTM可以替换为注意力、Transformer机制。
在显著性预测组件中引入ConvLSTM网络后,计算机设备可以将视频帧Tn输入至数据检测模型中的显著性预测组件,根据显著性预测组件中的显著性编码器对视频帧Tn进行特征提取,可以得到视频帧Tn对应的内容卷积特征(此时内容卷积特征为显著性编码器的输出结果)。计算机设备可以根据显著性预测组件中的卷积循环神经网络,获取视频数据中的视频帧Tn-1所对应的隐含状态特征,进而可以根据隐含状态特征和内容卷积特征,生成视频帧Tn对应的显著内容特征。需要说明的是,若显著性预测组件没有引入ConvLSTM网络,则可以将显著性编码器的输出结果确定为显著内容特征;若显著性预测组件中引入了ConvLSTM网络,则可以将显著性编码器的输出结果确定为内容卷积特征,将注入了时间信息的内容卷积特征确定为显著内容特征。
计算机设备可以对视频数据中的所有视频帧进行正向编码,首先可以初始化隐含状态特和
Figure BDA0002903005790000191
根据显著性预测组件中的显著性编码器对视频帧T1进行编码,可以得到视频帧T1对应的内容卷积特征
Figure BDA0002903005790000192
进而可以通过ConvLSTM网络对内容卷积特征
Figure BDA0002903005790000193
和隐含状态特征
Figure BDA0002903005790000194
进行正向编码,得到视频帧T1对应的隐含状态特和
Figure BDA0002903005790000195
随后,计算机设备可以根据显著性预测组件中的显著性编码器对视频帧T2进行编码,得到视频帧T2对应的内容卷积特征
Figure BDA0002903005790000196
进而可以通过ConvLSTM网络对内容卷积特征
Figure BDA0002903005790000197
和隐含状态特征
Figure BDA0002903005790000198
进行正向编码,可以得到视频帧T2对应的隐含状态特征
Figure BDA0002903005790000199
同理,通过ConvLSTM网络可以得到视频帧Tn对应的隐含状态特征
Figure BDA00029030057900001910
ConvLSTM网络的正向编码与反向编码的过程除了输入视频帧的顺序不同(正向编码可以是指将视频帧按照从前往后的顺序进行编码,反向编码可以是指将视频帧按照从后往前的顺序进行编码),其余的过程都相同。这样可以确保视频帧的时序信息不会随着视频帧序列而消减。
其中,通过显著性编码器所提取到的与视频帧Tn相关联的内容卷积特征可以表示为
Figure BDA00029030057900001911
通过ConvLSTM网络的正向编码可以获取视频帧Tn-1对应的正向隐含状态特征为
Figure BDA00029030057900001912
通过ConvLSTM网络的反向编码可以获取视频帧Tn-1对应的反向隐含状态特征
Figure BDA00029030057900001913
(正向隐含状态特征为
Figure BDA00029030057900001914
和反向隐含状态特征
Figure BDA00029030057900001915
可以称为视频帧Tn-1对应的隐含状态特征)。对于视频帧Tn,正向隐含状态特征
Figure BDA0002903005790000201
和反向隐含状态特征
Figure BDA0002903005790000202
可以分别表示为:
Figure BDA0002903005790000203
Figure BDA0002903005790000204
计算机设备根据上述公式(4)和公式(5),计算得到视频帧Tn对应的正向隐含状态特和
Figure BDA0002903005790000205
和反向隐含状态特征
Figure BDA0002903005790000206
并将正向隐含状态特和
Figure BDA0002903005790000207
和反向隐含状态特征
Figure BDA0002903005790000208
确定为视频帧Tn对应的显著内容特征。
可选的,若数据检测模型包括空间激励预测组件和显著性预测组件,则计算机设备可以根据空间激励图像对显著内容特征进行特征增强,得到该显著内容特征对应的空间激励特征,此时的空间激励特征可以作为视频帧Tn对应的激励内容特征。该激励内容特征可以包括空间激励后的正向隐含状态特征
Figure BDA0002903005790000209
以及空间激励后的反向隐含状态特征
Figure BDA00029030057900002010
其计算方式可以表示为:
Figure BDA00029030057900002011
Figure BDA00029030057900002012
其中,公式(6)中的
Figure BDA00029030057900002013
可以表示空间激励后的正向隐含状态特征
Figure BDA00029030057900002014
可以表示为空间激励预测组件中生成的空间激励图像,
Figure BDA00029030057900002015
可以表示为显著性预测组件的空间激励模块中的正向激励率;公式(7)中的
Figure BDA00029030057900002016
可以表示空间激励后的反向隐含状态特和
Figure BDA00029030057900002017
丁以表示为显著性预测组件的空间激励模块中的反向激励率。
可选的,若数据检测模型包括时间激励预测组件和显著性预测组件,则计算机设备可以根据时间激励图像对显著内容特征进行特征增强,得到该显著内容特征对应的时间激励特征,此时的时间激励特征可以作为视频帧Tn对应的激励内容特征。该激励内容特征可以包括时间激励后的正向隐含状态特征
Figure BDA00029030057900002018
以及时间激励后的反向隐含状态特征
Figure BDA00029030057900002019
其计算方式可以表示为:
Figure BDA00029030057900002020
Figure BDA00029030057900002021
其中,公式(8)中的
Figure BDA00029030057900002022
可以表示时间激励后的正向隐含状态特征
Figure BDA00029030057900002023
可以表示为时间激励预测组件中生成的时间激励图像,
Figure BDA00029030057900002024
可以表示为显著性预测组件的时间激励模块中的正向激励率;公式(9)中的
Figure BDA00029030057900002025
可以表示时间激励后的反向隐含状态特征
Figure BDA00029030057900002026
可以表示为显著性预测组件的时间激励模块中的反向激励率。
可选的,若数据检测模型包括时间激励预测组件、空间激励预测组件以及显著性预测组件,则计算机设备可以根据空间激励图像对显著内容特征进行特征增强,得到该显著内容特征对应的空间激励特征;同时可以根据时间激励图像对显著内容特征进行特征增强,得到该显著内容特征对应的时间激励特征,进而可以将空间激励特征和时间激励特征作为视频帧Tn对应的激励内容特征。此时的激励内容特征可以包括空间激励后的正向隐含状态特征
Figure BDA0002903005790000211
时间激励后的正向隐含状态特征
Figure BDA0002903005790000212
空间激励后的反向隐含状态特征
Figure BDA0002903005790000213
以及时间激励后的反向隐含状态特征
Figure BDA0002903005790000214
其计算方式可以表示为:
Figure BDA0002903005790000215
Figure BDA0002903005790000216
其中,cat表示特征连接操作,公式(10)可以表示公式(6)和公式(8)相加之后的结果,公式(11)可以表示为公式(7)和公式(9)相加之后的结果,即公式(10)中的
Figure BDA0002903005790000217
可以表示空间激励后的正向隐含状态特征
Figure BDA0002903005790000218
和时间激励后的正向隐含状态特征
Figure BDA0002903005790000219
之和,公式(11)中的
Figure BDA00029030057900002110
可以表示空间激励后的反向隐含状态特征
Figure BDA00029030057900002111
和时间激励后的反向隐含状态特征
Figure BDA00029030057900002112
之和。计算机设备可以将
Figure BDA00029030057900002113
Figure BDA00029030057900002114
进行连接,得到视频帧Tn对应的激励内容特征。
需要说明的是,计算机设备在根据空间激励图像
Figure BDA00029030057900002115
和时间激励图像
Figure BDA00029030057900002116
对显著内容特征进行特征增强时,首先需要对空间激励图像
Figure BDA00029030057900002117
和时间激励图像
Figure BDA00029030057900002118
进行降采样处理,使得降采样后的空间激励图像
Figure BDA00029030057900002119
的大小与显著内容特征的大小相同,降采样后的时间激励图像
Figure BDA00029030057900002120
的大小与显著内容特征的大小相同。
步骤S103,生成激励内容特征对应的对象区域图像;对象区域图像用于检测多媒体数据中的显著对象。
具体的,计算机设备可以将激励内容特征输入至显著性预测组件中的显著性解码器,根据该显著性解码器对激励内容特征进行解码,生成多媒体数据对应的对象区域图像,该对象区域图像可用于检测多媒体数据中的显著对象。
可选的,数据检测模型中还可以包括在线激励机制,即计算机设备可以根据显著性预测组件中的显著性解码器,对激励内容特征进行解码,生成激励内容特征对应的在线激励图像,进而可以根据在线激励图像对显著内容特征进行特征增强,得到多媒体数据对应的优化激励内容特征,可以将优化激励内容特征输入至显著性解码器,生成该优化激励内容特征对应的对象区域图像。在数据检测模型的实际应用过程中,可以将显著性解码器的输出图像作为在线激励图像,使用在线激励图像反复替换空间激励图像和时间激励图像,对显著内容特征进行在线激励处理,可以得到在线激励后的显著性特征,进而可以通过显著性解码器生成最终的对象区域图像,使用在线激励可以对多媒体数据的显著性检测提供更好的指导作用。
请一并参见图6,图6是本申请实施例提供的一种数据检测模型的框架结构示意图。如图6所示,数据检测模型可以包括空间激励预测组件50a、时间激励预测组件50d以及显著性预测组件50h。其中,空间激励预测组件50a可以包括空间编码器和空间解码器,时间激励预测组件50d可以包括时间编码器和时间解码器,显著性预测组件50h可以包括显著性编码器和显著性解码器;空间编码器、时间编码器以及显著性编码器的网络结构是相同的,但是三者的网络参数是不相同的,空间解码器、时间解码器以及显著性解码器的网络结构也是相同的,但是三者的网络参数是不相同的。
对于视频数据中的当前视频帧Tn,计算机设备可以将视频帧Tn输入至空间编码器,在视频帧Tn中提取空间特征50b,进而可以将空间特征50b输入至空间解码器,根据该空间解码器可以生成空间激励图像50c。
计算机设备可以获取视频帧Tn-1至视频帧Tn的光流图像50e,将光流图像50e输入至时间编码器,在光流图像50e中提取视频帧Tn对应的对象运动特征;根据时间激励预测组件50d中的激励模块1,可以基于空间激励图像50c对对象运动特征进行空间激励,得到视频帧Tn对应的时间特征50f;进而可以将时间特征50f输入至时间解码器,根据该时间解码器可以生成时间激励图像50g。
随后,计算机设备可以将视频帧Tn输入至显著性编码器,在视频帧Tn中提取内容卷积特征50i;在显著性预测组件50h中可以引入ConvLSTM网络,通过ConvLSTM网络可以对视频帧Tn-1对应的隐含状态特征50k和内容卷积特征50i进行双向编码,得到视频帧Tn对应的显著内容特征50j。计算机设备可以通过显著性预测组件50h中的激励模块2,基于空间激励图像50c对显著内容特征50j进行空间激励,得到空间激励后的显著内容特征50j;通过显著性预测组件50h中的激励模块3,基于时间激励图像50g对显著内容特征50j进行时间激励,得到时间激励后的显著内容特征50j;计算机设备可以将空间激励后的显著内容特征50j和时间激励后的显著内容特征50j作为视频帧Tn对应的激励内容特征50m,进而可以将激励内容特征50m输入至显著性解码器,根据该显著性解码器可以生成在线激励图像50n。
计算机设备可以将在线激励图像50n替换空间激励图像50c和时间激励图像50g,对显著内容特征50j进行激励处理,得到优化后的在线激励图像,计算机设备还可以重复执行上述过程,最后输出针对显著对象的对象区域图像。
可选的,计算机设备生成对象区域图像后,可以从多媒体数据中提取出显著对象所在的重点区域。当多媒体数据为视频数据时,该重点区域可以作为视频理解任务的预处理步骤,即在视频理解任务中,可以对所提取到的重点区域进行分析,可以提高视频理解的正确性。可选的,该重点区域还可以作为目标追踪任务的预处理步骤,即在目标追踪任务中,可以将重点区域作为目标(即显著对象)所在的区域,通过对重点区域进行识别,可以提高目标追踪中的检测准确率。
可选的,计算机设备还可以将数据检测模型部署在移动终端侧,可以用于手机相机中的美颜的前景背景区分,对图像或视频进行显著性检测后可以提取出包含显著对象的重点区域,该重点区域可以为后续背景虚化、人像处理做准备。请一并参见图7,图7是本申请实施例提供的一种视频显著性检测的应用场景示意图。数据检测模型可以部署在移动终端侧,如图7所示,该数据检测模型可以部署在用户终端60a中,当用户终端60b的使用者(如用户A)选择用户终端60a中的相机应用图标60b后,用户终端60b可以响应针对相机应用图标60b的触发操作,在用户终端60a中打开相机应用,用户A可以通过相机应用实时拍摄照片60c。
用户A可以通过相机应用中的功能控件对拍摄的照片60c进行处理,如相机应用中可以包括“修剪”、“旋转”、“滤镜”、“马赛克”以及“背景虚化”等控件。用户A可以对“背景虚化”控件执行触发操作,用户终端60a可以响应针对“背景虚化”控件的触发操作,可以使用数据检测模型对照片60c进行显著性检测,得到照片60c对应的对象区域图像60d。
用户终端60a可以根据对象区域图像60d,在照片60d中提取出包含显著对象(即照片60c中的前景区域,白色区域中的蝴蝶)的重点区域;用户终端60a可以对照片60d中除白色区域之外的背景区域进行虚化处理,得到背景虚化处理后的照片60e。用户终端60a在得到照片60e后,可以在相机应用中显示该照片60e,并在相机应用中显示存储提示框60f,该存储提示框60f可以包括“是”和“否”两个控件,当用户A满意照片60e时,可以触发存储提示框60f中的“是”控件,将照片60e存储在用户终端60a的本地中;当用户A不满意照片60e时,可以触发存储提示框60f中的“否”控件,取消该照片60e并对照片60c重新进行背景虚化处理,直至获得用户A满意的背景虚化照片。
本申请实施例中,可以从多媒体数据(如视频数据或者图像数据)中获取空间特征和时间特征,根据空间特征生成多媒体数据对应的空间激励图像,根据时间特征生成多媒体数据对应的时间激励图像,使用激励机制对多媒体数据中的显著内容特征进行特征增强,使得生成的对象区域图像不仅可以准确地捕捉到多媒体数据中的显著对象,还可以准确检测到显著对象的边界,进而可以提高多媒体数据的显著性检测准确度;在显著性检测应用中,可以将对象区域图像作为在线激励图像,通过在线激励图像生成优化后的对象区域图像,进一步提高多媒体数据的显著性检测准确性;根据对象区域图像可以提取多媒体数据中的重点区域,可以为多媒体数据的后续处理任务(例如、视频内容理解、图像修改、目标追踪等)提供更准确地处理区域,有利于后续处理任务的成功率。
请参见图8,图8是本申请实施例提供的一种数据处理方法的流程示意图。可以理解地,该数据处理方法可以由计算机设备执行,该计算机设备可以为用户终端,或者为服务器,或者为用户终端和服务器组成的系统,或者为一个计算机程序应用(包括程序代码),这里不做具体限定。如图8所示,该数据处理方法可以包括以下步骤:
步骤S201,获取样本数据,在初始数据检测模型的初始激励预测组件中,获取样本数据对应的样本数据结构特征,生成样本数据结构特征对应的样本激励图像;样本激励图像用于突出样本数据中的样本对象所在的预测区域。
具体的,可以理解的是,数据检测模型在使用之前,还需要对其进行训练,下面将结合图9,对数据检测模型的训练过程进行详细说明。图9是本申请实施例提供的一种数据检测模型的训练示意图,如图9所示,该数据检测模型可以包括初始空间激励预测组件70a、初始时间激励预测组件70d以及初始显著性预测组件70h。换言之,数据检测模型的训练过程可以是指初始空间激励预测组件70a、初始时间激励预测组件70d以及初始显著性预测组件70h三个分支的训练过程。需要说明的是,本申请实施例中,可以将未完成训练的数据检测模型称为初始数据检测模型,初始空间激励预测组件70a可以理解为未训练完成的空间激励预测组件,初始时间激励预测组件70d可以理解为未训练完成的时间激励预测组件,初始显著性预测组件70h可以理解为未训练完成的显著性预测组件。
计算机设备可以首先获取样本数据,该样本数据可以携带标注的样本标签,该样本标签可以用于标记样本数据中的样本对象的实际形状和位置。本申请中的样本数据可以是指进行标注的一系列视频帧(这些视频帧可以是对不同的视频数据进行分帧处理后得到的),样本数据中的样本对象可以是指视频数据中的显著物品或显著区域。
计算机设备可以将样本数据输入至初始数据检测模型,即首先将样本数据输入至初始数据检测模型中的初始空间激励预测组件70a,根据初始空间激励预测组件70a中的空间编码器对样本数据进行编码,得到样本数据对应的样本空间特征70b,将样本空间特征70b输入至空间解码器进行解码,可以生成样本数据对应的样本空间激励图像。随后,计算机设备可以获取样本数据对应的样本光流图像70e,将样本光流图像70e输入至初始时间激励预测组件70d,根据初始时间激励预测组件70d中的时间编码器对样本光流图像70e进行编码,得到样本光流图像70e对应的样本运动特征,进而可以通过初始时间激励预测组件70d中的激励模块,根据样本空间激励图像对样本运动特征进行特征增强(即激励处理),得到样本数据对应的样本时间特征70f,将样本时间特征70f输入至时间解码器进行解码,生成样本数据对应的样本时间激励图像。其中,样本空间激励图像和样本时间激励图像的生成过程可以参见上述图3所对应实施例的步骤S101中,对生成空间激励图像和时间激励图像的描述,这里不再进行赘述。
步骤S202,在初始数据检测模型的初始显著性预测组件中,获取样本数据对应的样本内容特征,根据样本激励图像对样本内容特征进行特征增强,得到样本激励内容特征。
具体的,计算机设备可以将样本数据输入至初始显著性预测组件70h,根据显著性编码器对样本数据进行编码,得到样本数据对应的样本卷积内容特征70i,进而可以在初始显著性预测组件70h中引入ConvLSTM网络,通过ConvLSTM网络对样本卷积内容特征70i和前一个样本数据的隐含状态特征70k进行双向编码,得到样本数据对应的样本内容特征70j。计算机设备可以根据样本空间激励图像对样本内容特征70j进行空间激励(即特征增强),得到空间激励后的样本内容特征70j,根据样本时间激励图像对样本内容特征70j进行时间激励(即特恒增强),得到时间激励后的样本内容特征70j,进而可以将空间激励后的样本内容特征70j和时间激励后的样本内容特征70j确定为样本激励内容特征70m。其中,样本激励内容特征70m的具体提取过程可以参见上述图3所对应实施例的步骤S102中,对激励内容特征提取过程的描述,这里不再进行赘述。
步骤S203,在初始显著性预测组件中生成样本数据对应的样本区域图像。
具体的,计算机设备可以将样本激励内容特征70m输入至显著性解码器,根据显著性解码器对样本激励内容特征70m进行解码,生成样本数据对应的样本区域图像。
步骤S204,根据样本激励图像、样本区域图像以及样本数据对应的样本标签,对初始数据检测模型中的网络参数进行修正,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型;数据检测模型用于检测多媒体数据中所包含的显著对象。
具体的,计算机设备可以根据样本空间激励图像、样本时间激励图像、样本区域图像以及样本标签,对初始数据检测模型中的网络参数进行修正,在训练完成后,可以保存网络参数,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型。训练完成的数据检测模型可以用于检测视频数据中所包含的显著对象。其中,初始数据检测模型中的网络参数可以包括但不限于:初始空间激励预测组件70a、初始时间激励预测组件70d以及初始显著性预测组件70h三个分支中的编码器参数、解码器参数、激励率、ConvLSTM网络参数。
换言之,初始数据检测模型的训练过程可以包括:根据样本空间激励图像和样本标签,确定初始空间激励预测组件70a对应的第一损失函数,即通过最小化第一损失函数来调整初始空间激励预测组件70a中的网络参数;根据样本时间激励图像和样本标签,确定初始时间激励预测组件对应的第二损失函数,即通过最小化第二损失函数来调整初始时间激励预测组件70d中的网络参数;根据样本区域图像70n和样本标签,确定初始显著性预测组件70h对应的第三损失函数,即通过最小化第三损失函数来调整初始显著性预测组件70h中的网络参数。
本申请实施例中,可以使用交叉熵损失、SSIM(结构相似)损失以及IoU(交并比)损失,分别在像素级、区块级以及对象级衡量样本区域图像的质量,即可以根据交叉熵损失、SSIM损失以及IoU损失,对初始数据检测模型中的网络参数进行调整。
其中,计算机设备可以根据样本标签获取样本空间激励图像对应的类别概率分布,根据类别概率分布生成交叉熵损失函数;进而可以将样本空间激励图像划分为K(K为正整数)个激励图像区块,将样本标签划分为K个标签区块,进而可以根据K个激励图像区块与K个标签区块之间的结构相似度,生成结构相似性损失函数;进而可以获取样本空间激励图像与样本标签之间的并集和交集,根据并集和交集生成交并比损失函数;计算机设备可以将交叉熵损失函数、结构相似性损失函数以及交并比损失函数,确定为初始空间激励预测组件70a对应的第一损失函数。该第一损失函数l1(Ss,GT)可以表示为:
Figure BDA0002903005790000271
Figure BDA0002903005790000272
Figure BDA0002903005790000273
Figure BDA0002903005790000274
其中,
Figure BDA0002903005790000275
表示初始空间激励预测组件70a对应的交叉熵损失函数,
Figure BDA0002903005790000276
表示初始空间激励预测组件70a对应的结构相似性损失函数,
Figure BDA0002903005790000277
表示初始空间激励预测组件70a对应的交叉熵损失函数;Ss表示样本空间激励图像,GT表示样本标签。
对于公式(14),计算机设备可以将样本空间激励图像和样本标签进行划分,如可以将样本空间激励图像划分为K个激励图像区块,每个激励图像区块均可以包括N×N个元素,也可以将样本标签划分为K个标签区块,每个标签区块均可以包括N×N个元素。对于激励图像区块X={xi|i=1,...,N2}和标签区块Y={yi|i=1,...,N2},公式(14)中的μx,μy可以分别表示为激励图像区块X的均值和方差,σx,σy可以分别表示为标签区块Y的均值和方差,σxy表示协方差,c1和c2为参数,本申请实施例可以将c1和c2的数值设置为:c1=0.012,c2=0.032,c1和c2可以用于保持损失函数的稳定性。
同理,初始时间激励预测组件70d对应的第二损失函数l2(St,GT)可以表示为:
Figure BDA0002903005790000281
其中,
Figure BDA0002903005790000282
表示初始时间激励预测组件70d对应的交叉熵损失函数,
Figure BDA0002903005790000283
表示初始时间激励预测组件70d对应的结构相似性损失函数,
Figure BDA0002903005790000284
表示初始时间激励预测组件70d对应的交叉熵损失函数;St表示样本时间激励图像。
同理,初始显著性预测组件70h对应的第二损失函数l3(Sv,GT)可以表示为:
Figure BDA0002903005790000285
其中,
Figure BDA0002903005790000286
表示初始显著性预测组件70h对应的交叉熵损失函数,
Figure BDA0002903005790000287
表示初始显著性预测组件70h对应的结构相似性损失函数,
Figure BDA0002903005790000288
表示初始显著性预测组件70h对应的交叉熵损失函数;Sv表示样本区域图像。
进一步,可以将第一损失函数l1(Ss,GT)、第二损失函数l2(St,GT)以及第二损失函数l3(Sv,GT)确定为初始数据检测模型的总目标损失函数,该总目标损失函数L可以表示为:
L=l1(Ss,GT)+l2(St,GT)+l3(Sv,GT) (18)
通过最小化公式(18)中的总目标损失函数,可以对初始数据检测模型的网络参数进行不断调整,直至完成训练,获得训练完成的数据检测模型。
可选的,在初始数据检测模型的训练过程中,可以在初始空间激励预测组件70a和初始时间激励预测组件70d中使用半课程学习(Semi-Curriculum Learning)策略更新样本激励图像(包括样本空间激励图像和样本时间激励图像)。如图9所示,空间激励图像集70c可以表示为初始空间激励预测组件70a中的样本空间激励图像学习过程,时间激励图像集70g可以表示为初始时间激励预测组件70d中的样本时间激励图像学习过程。
下面以初始空间激励预测组件70a中的样本空间激励图像学习过程为例,对半课程学习进行相似描述。半课程学习可以是指首先使用简单的任务进行训练(可以直接根据样本标签对样本空间激励图像进行更新),然后再逐步用更难的任务继续进行训练(可以使用初始空间激励预测组件70a中所生成的样本空间激励图像,代替样本标签对样本空间激励图像进行更新),可以对初始空间激励预测组件70a进行更好的优化。样本空间激励图像的更新过程可以表示为
Es=α⊙GT+(1-α)⊙Ss (19)
其中,α可以表示为课程学习率,在训练过程中可以从最开始的1自动下降到0,这样的操作会使得空间激励逐渐从标签迁移到可学习的样本空间激励图像;Es可以表示为更新后的样本空间激励图像,即候选空间激励图像。
可选的,在训练过程中可以将半课程学习分为三个课程阶段,随着训练轮次的变化,公式(19)中的样本空间激励图像Es可以更新为:
Figure BDA0002903005790000291
其中,epoch可以表示为完整训练一次所有样本数据的次数,当epoch≤2(可以看成第一阈值)时,可以使用样本标签GT作为空间激励图像对初始时间激励预测组件70d和初始显著性预测组件70h进行空间激励;当2<epoch≤10(可以看成第二阈值)时,可以使用α⊙GT+(1-α)⊙Ss作为空间激励图像对初始时间激励预测组件70d和初始显著性预测组件70h进行空间激励;当epoch>10时,可以将空间解码器的输出结果Ss对初始时间激励预测组件70d和初始显著性预测组件70h进行空间激励。在本申请实施例的具体实现过程中,epoch可以设置为15次。
阶段1:由于视频显著性检测中前景和背景像素的不平衡,利用样本标签作为空间激励图像,加强了网络对显著区域的聚焦,为训练初期优化提供了捷径。
阶段2:数据检测模型往往依赖于完美的真值图(样本标签),一旦去除了真值图,数据检测模型的性能就会下降。因此,本申请实施例中可以逐渐使用初始空间激励预测组件70a的输出结果(由课程学习率α控制)取代了样本标签。在该阶段2中,初始空间激励预测组件70a的输出结果是为了引入扰动,防止数据检测模型对样本标签过于依赖。
阶段3:当α衰减为零时,数据检测模型只受到初始空间激励预测组件70a的输出结果的激发。可以避免数据检测模型对样本标签的过度依赖。
基于上述过程对初始数据检测模型完成训练后,为了验证数据检测模型的性能,可以使用实验数据集对训练好的数据检测模型进行验证。本申请实施例中,可以使用最常用的视频显著性检测数据集对训练好的数据检测模型进行验证,视频显著性检测数据集可以包括但不限于:Freiburg-Berkeley运动分割数据集(FBMS)、视频显著性检测数据集(ViSal)、密集注释的视频分割数据集(DAVIS)和密集注释的视频显著目标检测数据集(DAVSOD)。其中,FBMS数据集可以包含59个视频,其中包括720个携带样本标签的视频帧,有29个视频用于初始数据检测模型的训练,其余的视频可以用于测试训练好的数据检测模型。DAVIS数据集是一个高质量、高分辨率的数据集,该DAVIS数据集包括480p和1080p两种分辨率的密集标注数据集,共有50个视频序列,在像素级有3455个密集标注视频帧。30个视频中的2079个视频帧用于初始数据检测模型的训练,20个视频中的1376个视频帧用于测试训练好的数据检测模型。ViSal数据集可以是指一个专门设计用于视频显著性检测的数据集,它包括17个视频和193个手动标注的视频帧。DAVSOD数据集可以是指最具挑战性的视频显著性检测数据集,具有像素级注释和眼睛注视(eye-fixation)标签。
本申请实施例中,计算机设备可以将本申请中的数据检测模型与现有的针对图像的显著性检测方法,以及针对视频的显著性检测方法进行对比。其中,现有的基于图像的显著性检测方法可以包括但不限于:DSS(Deeply supervised salient object Detectionwith short connection,跳越短链接的深度显著性检测方法,一种静态图像显著性检测模型)、BMPM(bi-directional message passing model for salient object detection,双向消息传递显著性检测模型)、BASNet(Boundary-Aware Salient object Detection,一种关注边缘的显著性检测算法)。现有的基于视频的显著性检测方法可以包括但不限于:SIVM(Segment salient objects from images and videos,一种用于图像和视频分割显著物体的显著性检测方法)、MSTM(real time salient object detection with minimalspanning tree,一种基于最小生成树的实时显著性检测方法)、SFLR(video saliencydetection via spatial-temporal fusion and low-rank coherence diffusion,一种基于空时融合和低阶相干扩散的视频显著性检测方法)、SCOM(spatiotemporal constrainedoptimization for salient object detection,一种使用时空约束优化的显著性检测方法)、SCNN(weakly supervised salient object detection with spatiotemporalcascade neural networks,用于弱监督显著性检测得时空级联神经网络)、FCNS(videosalient object detection via fully convolutional networks,基于全连接卷积网络显著性检测)、FGRNE(Flow guided recurrent neural encoder for video salientobject detection,用于显著性检测的光流引导循环神经编码器)、PDBM(pyramid dilateddeeper convlstm for video salient object detection,基于金字塔扩张和卷积循环神经网络的显著性检测方法)、SSAV(saliency-shift aware video salient objectdetection,面向显著性转移而的视频显著性检测方法)、MGAN(motion guided attentionmodel for video salient object detection,用于显著性检测的运动引导注意力模型)。
其中,本申请提出的显著性检测方法可以根据是否使用在线激励分别进行实验,当数据检测模型中采用空间激励、时间激励两重激励时,此时的显著性检测方法可以称为方法1;当数据检测模型中采用空间激励、时间激励以及在线激励三重激励时,此时的显著性检测方法可以称为方法2。本申请实施例中提供的方法1、方法2、现有的针对图像的显著性检测方法,以及针对视频的显著性检测方法,在FBMS数据集和ViSal数据集的实验结果如下表1所示:
表1
Figure BDA0002903005790000311
Figure BDA0002903005790000322
其中,本申请实施例中提供的方法1、方法2、现有的针对图像的显著性检测方法,以及针对视频的显著性检测方法,在DAVIS数据集和DAVSOD数据集中的实验结果如表2所示:
表2
Figure BDA0002903005790000321
需要说明的是,在具体实验过程中,可以使用均方误差(Mean Square Error,MSE)、F度量值(F-measure,查全率和查准率在非负权重β下的加权调和平均值,可以表示为max Fβ)以及S度量值(可以同时衡量显著物体和背景的检测结果的方法)作为评价指标,来衡量各显著性检测方法的效果。训练数据检测模型的目的是让均方误差尽可能小,同时使F度量值和S度量值尽可能大。可选的,在实验中,还可以使用其余指标(例如,mean Fβ和E度量,mean Fβ相比max Fβ,更关注边界信息,E度量可以结合局部像素值和图像级平均值)来衡量各显著性检测方法的效果,如本申请不对方法的评价指标做限定。
由上述表1和表2可知,本申请实施例提供的方法1和方法2在个显著性检测方法的实验结果中,具有最好的统计结果。在实验中使用在线激励时(如方法2),可以发现最终得到的显著性图像的准确度得到提高。实验结果表明,即使不需要进一步的训练,精确的在线激励图像也能为数据检测模型提供更精确的引导。
可选的,通过上述表1和表2,数据集也对数据检测模型的性能造成较大的影响。对于视频数据,往往会把注意力集中在移动的物体上,有些运动的显著对象在单个视频帧中不明显,显著对象的运动会分散数据检测模型的注意力。例如,对于ViSal数据集这种具有突出目标对象的简单数据集,无论是基于图像的显著性检测方法,还是基于视频的显著性检测方法,其性能都是很好的。然而在一些复杂的数据集中,如DAVSOD数据集和FBMS数据集中,时间域中的显著对象在空间域中并不显著,即运动对象在某些单个视频帧中不明显(例如,运动对象在某些单个视频帧中的显示区域占整个视频帧的比例较小,如仅占10%),各显著性检测方法在DAVSOD数据集和FBMS数据集中的统计结果比ViSal数据集中的统计结果要差一些。由于本申请实施例提出的方法1和方法2均可以包括空间激励和时间激励,可以从空间和时间角度强化特定信息,相比现有的显著性检测方法,具有更好的性能。
请一并参见图10,图10是本申请实施例提供的一种视频显著性检测的实验结果示意图。如图10所示中的第a列表示为实验中各显著性检测方法的输入原图像,第b列表示原图像对应的标签图像,第c列表示方法1(没有使用在线激励)输出的显著性图像,第d列至第j列表示现有显著性检测方法输出的显著性图像,第d列具体表示为MGAN方法输出的显著性图像,第e列具体表示为SSAV方法输出的显著性图像,第f列具体表示为PDBM方法输出的显著性图像,第g列具体表示为FCNS方法输出的显著性图像,第h列具体表示为BASNet方法输出的显著性图像,第i列具体表示为BMPM方法输出的显著性图像,第j列具体表示为DSS方法输出的显著性图像。
如图10所示,第h列至第j列所显示的显著性图像中,由于缺少时间信息而无法区分前景和背景;第d列至第g列所显示的显著性图像中,由于时间特征和空间特征之间的矛盾,预测的显著对象的边界不清晰,内部区域模糊。相比而言,方法1对应的显著性图像中显示了清晰的边界和内部显著区域,可以提高内部显著区域的真实性(与标签图像相比)。
本申请实施例中,可以设置空间激励和时间激励两种类型的激励策略,对数据检测模型进行训练,可以增强视频数据的显著性检测准确度;在训练过程中使用半课程学习(改变标签学习率)进行模型训练,即在训练一开始可以通过使用标签选择性的增强特征,然后逐步增加任务难度,使用可学习的激励图像代替标签进行激励,可以提高数据检测模型的训练效率,加快收敛速度。
请参见图11,图11是本申请实施例提供的一种数据处理装置的结构示意图。如图11所示,该数据处理装置1可以包括:激励图像生成模块11,第一激励模块12,显著性图生成模块13;
激励图像生成模块11,用于获取多媒体数据对应的数据结构特征,生成数据结构特征对应的激励图像;激励图像用于突出多媒体数据中的显著对象所在的预测区域;
第一激励模块12,用于获取多媒体数据对应的显著内容特征,根据激励图像对显著内容特征进行特征增强,得到激励内容特征;
显著性图生成模块13,用于生成激励内容特征对应的对象区域图像;对象区域图像用于检测多媒体数据中的显著对象。
其中,激励图像生成模块11,第一激励模块12,显著性图生成模块13的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
请一并参见图11,数据结构特征包括空间特征,激励图像包括空间激励图像;
激励图像生成模块11可以包括:数据输入单元1101,空间特征提取单元1102,空间特征解码单元1103;
数据输入单元1101,用于获取多媒体数据,将多媒体数据输入至数据检测模型中的空间激励预测组件;
空间特征提取单元1102,用于根据空间激励预测组件中的空间编码器,对多媒体数据进行特征提取,得到多媒体数据对应的空间特征;
空间特征解码单元1103,用于根据空间激励预测组件中的空间解码器,对空间特征进行解码,生成多媒体数据对应的空间激励图像。
其中,数据输入单元1101,空间特征提取单元1102,空间特征解码单元1103的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图11,空间编码器包括残差块和空洞卷积层;
空间特征提取单元1102可以包括:第一卷积处理子单元11021,第二卷积处理子单元11022,卷积特征拼接子单元11023;
第一卷积处理子单元11021,用于根据空间激励预测组件中的残差块,对多媒体数据进行卷积处理,得到多媒体数据对应的残差卷积特征;
第二卷积处理子单元11022,用于获取空洞卷积层对应的空洞率,根据空洞率对残差卷积特征进行卷积处理,得到残差卷积特征对应的空洞卷积特征;
卷积特征拼接子单元11023,用于将残差卷积特征和空洞卷积特征,确定为多媒体数据对应的空间特征。
其中,第一卷积处理子单元11021,第二卷积处理子单元11022,卷积特征拼接子单元11023的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图11,多媒体数据包括视频数据,数据结构特征包括时间特征,激励图像包括时间激励图像;
激励图像生成模块11可以包括:视频帧获取单元1104,光流图像获取单元1105,时间特征提取单元1106,时间特征解码单元1107;
视频帧获取单元1104,用于获取视频数据,在视频数据中获取相邻的视频帧Tn-1和视频帧Tn;n为小于或等于视频数据所划分的视频帧数量的正整数;
光流图像获取单元1105,用于获取视频帧Tn-1和视频帧Tn之间的光流图像;光流图像用于表征视频数据中的显著对象的像素运动;
时间特征提取单元1106,用于将光流图像输入至数据检测模型中的时间激励预测组件,根据时间激励预测组件中的时间编码器,对光流图像进行特征提取,得到光流图像对应的时间特征;
时间特征解码单元1107,用于根据时间激励预测组件中的时间解码器,对时间特征进行解码,生成光流图像对应的时间激励图像。
其中,视频帧获取单元1104,光流图像获取单元1105,时间特征提取单元1106,时间特征解码单元1107的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图11,多媒体数据包括视频数据,数据结构特征包括空间特征和时间特征,激励图像包括空间激励图像和时间激励图像;
激励图像生成模块11可以包括:空间激励图像生成单元1108,运动特征获取单元1109,时间激励单元1110,时间激励图像生成单元1111;
空间激励图像生成单元1108,用于将视频数据输入至数据检测模型中的空间激励预测组件,在空间激励预测组件中获取视频数据对应的空间特征,生成空间特征对应的空间激励图像;
运动特征获取单元1109,用于获取视频数据对应的光流图像,将光流图像输入至数据检测模型中的时间激励预测组件,根据时间激励预测组件中的时间编码器,获取光流图像对应的对象运动特征;光流图像用于表征视频数据中的显著对象的像素运动;
时间激励单元1110,用于根据空间激励图像对对象运动特征进行特征增强,得到光流图像对应的时间特征;
时间激励图像生成单元1111,用于根据时间激励预测组件中的时间解码器,生成光流图像对应的时间激励图像。
其中,空间激励图像生成单元1108,运动特征获取单元1109,时间激励单元1110,时间激励图像生成单元1111的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
其中,当数据输入单元1101,空间特征提取单元1102,空间特征解码单元1103在执行相应的操作时,视频帧获取单元1104,光流图像获取单元1105,时间特征提取单元1106,时间特征解码单元1107,空间激励图像生成单元1108,运动特征获取单元1109,时间激励单元1110,时间激励图像生成单元1111均暂停执行操作;当视频帧获取单元1104,光流图像获取单元1105,时间特征提取单元1106,时间特征解码单元1107在执行相应的操作时,数据输入单元1101,空间特征提取单元1102,空间特征解码单元1103,空间激励图像生成单元1108,运动特征获取单元1109,时间激励单元1110,时间激励图像生成单元1111均暂停执行操作;当空间激励图像生成单元1108,运动特征获取单元1109,时间激励单元1110,时间激励图像生成单元1111在执行相应的操作时,数据输入单元1101,空间特征提取单元1102,空间特征解码单元1103,视频帧获取单元1104,光流图像获取单元1105,时间特征提取单元1106,时间特征解码单元1107均暂停执行操作。
请一并参见图11,时间激励单元1110可以包括:点乘运算子单元11101,激励子单元11102;
点乘运算子单元11101,用于将空间激励图像与对象运动特征进行点乘运算,得到光流图像对应的过渡特征;
激励子单元11102,用于获取对象运动特征对应的激励率,根据激励率、过渡特征以及对象运动特征,生成光流图像对应的时间特征;激励率用于平衡过渡特征和对象运动特征之间的关系。
其中,点乘运算子单元11101,激励子单元11102的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
请一并参见图11,多媒体数据包括视频数据中的视频帧Tn,n为小于或等于视频数据所划分的视频帧数量的正整数;
第一激励模块12可以包括:显著性提取单元121,隐含状态获取单元122,时间信息添加单元123,第一特征增强单元124,第二特征增强单元125,激励特征拼接单元126;
显著性提取单元121,用于将视频帧Tn输入至数据检测模型中的显著性预测组件,根据显著性预测组件中的显著性编码器,对视频帧Tn进行特征提取,得到视频帧Tn对应的内容卷积特征;
隐含状态获取单元122,用于根据显著性预测组件中的卷积循环神经网络,获取视频数据中的视频帧Tn-1所对应的隐含状态特征;
时间信息添加单元123,用于根据隐含状态特征和内容卷积特征,生成视频帧Tn对应的显著内容特征。
第一特征增强单元124,用于根据空间激励图像对显著内容特征进行特征增强,得到视频数据对应的空间激励特征;
第二特征增强单元125,用于根据时间激励图像对显著内容特征进行特征增强,得到视频数据对应的时间激励特征;
激励特征拼接单元126,用于将空间激励特征和时间激励特征,确定为视频数据对应的激励内容特征。
其中,显著性提取单元121,隐含状态获取单元122,时间信息添加单元123,第一特征增强单元124,第二特征增强单元125,激励特征拼接单元126的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
请一并参见图11,显著性图生成模块13可以包括:在线激励图像生成单元131,在线激励单元132;
在线激励图像生成单元131,用于根据显著性预测组件中的显著性解码器,对激励内容特征进行解码,生成激励内容特征对应的在线激励图像;
在线激励单元132,用于根据在线激励图像对显著内容特征进行特征增强,得到多媒体数据对应的优化激励内容特征,生成优化激励内容特征对应的对象区域图像。
其中,在线激励图像生成单元131,在线激励单元132的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
本申请实施例中,可以从多媒体数据(如视频数据或者图像数据)中获取空间特征和时间特征,根据空间特征生成多媒体数据对应的空间激励图像,根据时间特征生成多媒体数据对应的时间激励图像,使用激励机制对多媒体数据中的显著内容特征进行特征增强,使得生成的对象区域图像不仅可以准确地捕捉到多媒体数据中的显著对象,还可以准确检测到显著对象的边界,进而可以提高多媒体数据的显著性检测准确度;在显著性检测应用中,可以将对象区域图像作为在线激励图像,通过在线激励图像生成优化后的对象区域图像,进一步提高多媒体数据的显著性检测准确性;根据对象区域图像可以提取多媒体数据中的重点区域,可以为多媒体数据的后续处理任务(例如、视频内容理解、图像修改、目标追踪等)提供更准确地处理区域,有利于后续处理任务的成功率。
请参见图12,图12是本申请实施例提供的一种数据处理装置的结构示意图。如图12所示,该数据处理装置2可以包括:样本激励图像生成模块21,第二激励模块22,样本图像生成模块23,网络参数修正模块24;
样本激励图像生成模块21,用于获取样本数据,在初始数据检测模型的初始激励预测组件中,获取样本数据对应的样本数据结构特征,生成样本数据结构特征对应的样本激励图像;样本激励图像用于突出样本数据中的样本对象所在的预测区域;
第二激励模块22,用于在初始数据检测模型的初始显著性预测组件中,获取样本数据对应的样本内容特征,根据样本激励图像对样本内容特征进行特征增强,得到样本激励内容特征;
样本图像生成模块23,用于在初始显著性预测组件中生成样本数据对应的样本区域图像;
网络参数修正模块24,用于根据样本激励图像、样本区域图像以及样本数据对应的样本标签,对初始数据检测模型中的网络参数进行修正,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型;数据检测模型用于检测多媒体数据中所包含的显著对象。
其中,样本激励图像生成模块21,第二激励模块22,样本图像生成模块23,网络参数修正模块24的具体功能实现方式可以参见上述图8所对应实施例中的步骤S201-步骤S204,这里不再进行赘述。
请一并参见图12,初始激励预测组件包括初始空间激励预测组件和初始时间激励预测组件;
样本激励图像生成模块21可以包括:样本空间激励图像获取单元211,样本运动特征获取单元212,样本时间激励图像获取单元213;
样本空间激励图像获取单元211,用于将样本数据输入至初始数据检测模型中的初始空间激励预测组件,在初始空间激励预测组件中获取样本数据对应的样本空间激励图像;
样本运动特征获取单元212,用于获取样本数据对应的样本光流图像,将样本光流图像输入至初始时间激励预测组件,在初始时间激励预测组件中获取样本光流图像对应的样本运动特征;
样本时间激励图像获取单元213,用于根据样本空间激励图像对样本运动特征进行特征增强,得到样本数据对应的样本时间特征,根据样本时间特征生成样本数据对应的样本时间激励图像。
其中,样本空间激励图像获取单元211,样本运动特征获取单元212,样本时间激励图像获取单元213的具体功能实现方式可以参见上述图8所对应实施例中的步骤S201,这里不再进行赘述。
请一并参见图12,网络参数修正模块24可以包括:第一损失函数确定单元241,第二损失函数确定单元242,第三损失函数确定单元243,参数修正单元244;
第一损失函数确定单元241,用于获取样本数据对应的样本标签,根据样本空间激励图像与样本标签之间的误差,确定初始空间激励预测组件对应的第一损失函数;
第二损失函数确定单元242,用于根据样本时间激励图像与样本标签之间的误差,确定初始时间激励预测组件对应的第二损失函数;
第三损失函数确定单元243,用于根据样本区域图像与样本标签之间的误差,确定初始显著性预测组件对应的第三损失函数;
参数修正单元244,用于根据第一损失函数、第二损失函数以及第三损失函数,对初始数据检测模型中的网络参数进行修正,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型。
其中,第一损失函数确定单元241,第二损失函数确定单元242,第三损失函数确定单元243,参数修正单元244的具体功能实现方式可以参见上述图8所对应实施例中的步骤S204,这里不再进行赘述。
请一并参见图12,第一损失函数确定单元241可以包括:交叉熵损失生成子单元2411,结构相似性损失子单元2412,交并比损失子单元2413,损失函数相加子单元2414;
交叉熵损失生成子单元2411,用于根据样本标签获取样本空间激励图像对应的类别概率分布,根据类别概率分布生成交叉熵损失函数;
结构相似性损失子单元2412,用于将样本空间激励图像划分为K个激励图像区块,将样本标签划分为K个标签区块,根据K个激励图像区块与K个标签区块之间的结构相似度,生成结构相似性损失函数;K为正整数;
交并比损失子单元2413,用于获取样本空间激励图像与样本标签之间的并集和交集,根据并集和交集生成交并比损失函数;
损失函数相加子单元2414,用于将交叉熵损失函数、结构相似性损失函数以及交并比损失函数,确定为初始空间激励预测组件对应的第一损失函数。
其中,交叉熵损失生成子单元2411,结构相似性损失子单元2412,交并比损失子单元2413,损失函数相加子单元2414的具体功能实现方式可以参见上述图8所对应实施例中的步骤S204,这里不再进行赘述。
请一并参见图12,该数据处理装置2还可以包括:训练次数获取模块25,训练次数判断模块26;
训练次数获取模块25,用于获取初始数据检测模型的训练次数;
训练次数判断模块26,用于当训练次数小于或等于第一阈值时,根据样本标签对样本内容特征进行特征增强,得到样本激励内容特征;
该训练次数判断模块26,还用于当训练次数大于第一阈值,且训练次数小于或等于第二阈值时,根据课程学习率、样本标签以及样本激励率生成候选激励图像,根据候选激励图像对样本内容特征进行特征增强,得到样本激励内容特征;
该训练次数判断模块26,还用于当训练次数小于第二阈值时,执行根据样本激励图像对样本内容特征进行特征增强,得到样本激励内容特征的步骤。
其中,训练次数获取模块25,训练次数判断模块26的具体功能实现方式可以参见上述图8所对应实施例中的步骤S204,这里不再进行赘述。
本申请实施例中,可以设置空间激励和时间激励两种类型的激励策略,对数据检测模型进行训练,可以增强视频数据的显著性检测准确度;在训练过程中使用半课程学习(改变标签学习率)进行模型训练,即在训练一开始可以通过使用标签选择性的增强特征,然后逐步增加任务难度,使用可学习的激励图像代替标签进行激励,可以提高数据检测模型的训练效率,加快收敛速度。
请参见图13,图13是本申请实施例提供的一种计算机设备的结构示意图。如图13所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图13所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取多媒体数据对应的数据结构特征,生成数据结构特征对应的激励图像;激励图像用于突出多媒体数据中的显著对象所在的预测区域;
获取多媒体数据对应的显著内容特征,根据激励图像对显著内容特征进行特征增强,得到激励内容特征;
生成激励内容特征对应的对象区域图像;对象区域图像用于检测多媒体数据中的显著对象。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对数据处理方法的描述,也可执行前文图11所对应实施例中对数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
请参见图14,图14是本申请实施例提供的一种计算机设备的结构示意图。如图14所示,该计算机设备2000可以包括:处理器2001,网络接口2004和存储器2005,此外,上述计算机设备2000还可以包括:用户接口2003,和至少一个通信总线2002。其中,通信总线2002用于实现这些组件之间的连接通信。其中,用户接口2003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口2003还可以包括标准的有线接口、无线接口。可选的,网络接口2004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器2005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器2005还可以是至少一个位于远离前述处理器2001的存储装置。如图14所示,作为一种计算机可读存储介质的存储器2005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图14所示的计算机设备2000中,网络接口2004可提供网络通讯功能;而用户接口2003主要用于为用户提供输入的接口;而处理器2001可以用于调用存储器2005中存储的设备控制应用程序,以实现:
获取样本数据,在初始数据检测模型的初始激励预测组件中,获取样本数据对应的样本数据结构特征,生成样本数据结构特征对应的样本激励图像;样本激励图像用于突出样本数据中的样本对象所在的预测区域;
在初始数据检测模型的初始显著性预测组件中,获取样本数据对应的样本内容特征,根据样本激励图像对样本内容特征进行特征增强,得到样本激励内容特征;
在初始显著性预测组件中生成样本数据对应的样本区域图像;
根据样本激励图像、样本区域图像以及样本数据对应的样本标签,对初始数据检测模型中的网络参数进行修正,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型;数据检测模型用于检测多媒体数据中所包含的显著对象。
应当理解,本申请实施例中所描述的计算机设备2000可执行前文图8所对应实施例中对数据处理方法的描述,也可执行前文图12所对应实施例中对数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置1或者数据处理装置2所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3和图8任一个所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3和图8任一个所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取多媒体数据对应的数据结构特征,生成所述数据结构特征对应的激励图像;所述激励图像用于突出所述多媒体数据中的显著对象所在的预测区域;
获取所述多媒体数据对应的显著内容特征,根据所述激励图像对所述显著内容特征进行特征增强,得到激励内容特征;
生成所述激励内容特征对应的对象区域图像;所述对象区域图像用于检测所述多媒体数据中的所述显著对象。
2.根据权利要求1所述的方法,其特征在于,所述数据结构特征包括空间特征,所述激励图像包括空间激励图像;
所述获取多媒体数据对应的数据结构特征,生成所述数据结构特征对应的激励图像,包括:
获取所述多媒体数据,将所述多媒体数据输入至数据检测模型中的空间激励预测组件;
根据所述空间激励预测组件中的空间编码器,对所述多媒体数据进行特征提取,得到所述多媒体数据对应的所述空间特征;
根据所述空间激励预测组件中的空间解码器,对所述空间特征进行解码,生成所述多媒体数据对应的所述空间激励图像。
3.根据权利要求2所述的方法,其特征在于,所述空间编码器包括残差块和空洞卷积层;
所述根据所述空间激励预测组件中的空间编码器,对所述多媒体数据进行特征提取,得到所述多媒体数据对应的空间特征,包括:
根据所述空间激励预测组件中的所述残差块,对所述多媒体数据进行卷积处理,得到所述多媒体数据对应的残差卷积特征;
获取所述空洞卷积层对应的空洞率,根据所述空洞率对所述残差卷积特征进行卷积处理,得到所述残差卷积特征对应的空洞卷积特征;
将所述残差卷积特征和所述空洞卷积特征,确定为所述多媒体数据对应的空间特征。
4.根据权利要求1所述的方法,其特征在于,所述多媒体数据包括视频数据,所述数据结构特征包括时间特征,所述激励图像包括时间激励图像;
所述获取多媒体数据对应的数据结构特征,生成所述数据结构特征对应的激励图像,包括:
获取所述视频数据,在所述视频数据中获取相邻的视频帧Tn-1和视频帧Tn;n为小于或等于所述视频数据所划分的视频帧数量的正整数;
获取所述视频帧Tn-1和所述视频帧Tn之间的光流图像;所述光流图像用于表征所述视频数据中的所述显著对象的像素运动;
将所述光流图像输入至所述数据检测模型中的时间激励预测组件,根据所述时间激励预测组件中的时间编码器,对所述光流图像进行特征提取,得到所述光流图像对应的时间特征;
根据所述时间激励预测组件中的时间解码器,对所述时间特征进行解码,生成所述光流图像对应的所述时间激励图像。
5.根据权利要求1所述的方法,其特征在于,所述多媒体数据包括视频数据,所述数据结构特征包括空间特征和时间特征,所述激励图像包括空间激励图像和时间激励图像;
所述获取多媒体数据对应的数据结构特征,生成所述数据结构特征对应的激励图像,包括:
将所述视频数据输入至数据检测模型中的空间激励预测组件,在所述空间激励预测组件中获取所述视频数据对应的所述空间特征,生成所述空间特征对应的空间激励图像;
获取所述视频数据对应的光流图像,将所述光流图像输入至所述数据检测模型中的时间激励预测组件,根据所述时间激励预测组件中的时间编码器,获取所述光流图像对应的对象运动特征;所述光流图像用于表征所述视频数据中的所述显著对象的像素运动;
根据所述空间激励图像对所述对象运动特征进行特征增强,得到所述光流图像对应的所述时间特征;
根据所述时间激励预测组件中的时间解码器,生成所述光流图像对应的所述时间激励图像。
6.根据权利要求5所述的方法,其特征在于,所述根据所述空间激励图像对所述对象运动特征进行特征增强,得到所述光流图像对应的时间特征,包括:
将所述空间激励图像与所述对象运动特征进行点乘运算,得到所述光流图像对应的过渡特征;
获取所述对象运动特征对应的激励率,根据所述激励率、所述过渡特征以及所述对象运动特征,生成所述光流图像对应的时间特征;所述激励率用于平衡所述过渡特征和所述对象运动特征之间的关系。
7.根据权利要求1所述的方法,其特征在于,所述多媒体数据包括视频数据中的视频帧Tn,n为小于或等于所述视频数据所划分的视频帧数量的正整数;
所述获取所述多媒体数据对应的显著内容特征,包括:
将所述视频帧Tn输入至数据检测模型中的显著性预测组件,根据所述显著性预测组件中的显著性编码器,对所述视频帧Tn进行特征提取,得到所述视频帧Tn对应的内容卷积特征;
根据所述显著性预测组件中的卷积循环神经网络,获取所述视频数据中的视频帧Tn-1所对应的隐含状态特征;
根据所述隐含状态特征和所述内容卷积特征,生成所述视频帧Tn对应的显著内容特征。
8.根据权利要求5所述的方法,其特征在于,所述根据所述激励图像对所述显著内容特征进行特征增强,得到激励内容特征,包括:
根据所述空间激励图像对所述显著内容特征进行特征增强,得到所述视频数据对应的空间激励特征;
根据所述时间激励图像对所述显著内容特征进行特征增强,得到所述视频数据对应的时间激励特征;
将所述空间激励特征和所述时间激励特征,确定为所述视频数据对应的激励内容特征。
9.根据权利要求1所述的方法,其特征在于,所述生成所述激励内容特征对应的对象区域图像,包括:
根据显著性预测组件中的显著性解码器,对所述激励内容特征进行解码,生成所述激励内容特征对应的在线激励图像;
根据所述在线激励图像对所述显著内容特征进行特征增强,得到所述多媒体数据对应的优化激励内容特征,生成所述优化激励内容特征对应的对象区域图像。
10.一种数据处理方法,其特征在于,包括:
获取样本数据,在初始数据检测模型的初始激励预测组件中,获取所述样本数据对应的样本数据结构特征,生成所述样本数据结构特征对应的样本激励图像;所述样本激励图像用于突出所述样本数据中的样本对象所在的预测区域;
在所述初始数据检测模型的初始显著性预测组件中,获取所述样本数据对应的样本内容特征,根据所述样本激励图像对所述样本内容特征进行特征增强,得到样本激励内容特征;
在所述初始显著性预测组件中生成所述样本数据对应的样本区域图像;
根据所述样本激励图像、所述样本区域图像以及所述样本数据对应的样本标签,对所述初始数据检测模型中的网络参数进行修正,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型;所述数据检测模型用于检测多媒体数据中所包含的显著对象。
11.根据权利要求10所述的方法,其特征在于,所述初始激励预测组件包括初始空间激励预测组件和初始时间激励预测组件;
所述在初始数据检测模型的初始激励预测组件中,获取所述样本数据对应的样本数据结构特征,生成所述样本数据结构特征对应的样本激励图像,包括:
将所述样本数据输入至所述初始数据检测模型中的所述初始空间激励预测组件,在所述初始空间激励预测组件中获取所述样本数据对应的样本空间激励图像;
获取所述样本数据对应的样本光流图像,将所述样本光流图像输入至所述初始时间激励预测组件,在所述初始时间激励预测组件中获取所述样本光流图像对应的样本运动特征;
根据所述样本空间激励图像对所述样本运动特征进行特征增强,得到所述样本数据对应的样本时间特征,根据所述样本时间特征生成所述样本数据对应的样本时间激励图像。
12.根据权利要求11所述的方法,其特征在于,所述根据所述样本激励图像、所述样本区域图像以及所述样本数据对应的样本标签,对所述初始数据检测模型中的网络参数进行修正,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型,包括:
获取所述样本数据对应的样本标签,根据所述样本空间激励图像与所述样本标签之间的误差,确定所述初始空间激励预测组件对应的第一损失函数;
根据所述样本时间激励图像与所述样本标签之间的误差,确定所述初始时间激励预测组件对应的第二损失函数;
根据所述样本区域图像与所述样本标签之间的误差,确定所述初始显著性预测组件对应的第三损失函数;
根据所述第一损失函数、第二损失函数以及第三损失函数,对所述初始数据检测模型中的网络参数进行修正,将包含修正后的网络参数的初始数据检测模型确定为数据检测模型。
13.根据权利要求12所述的方法,其特征在于,所述根据所述样本空间激励图像与所述样本标签之间的误差,确定所述初始空间激励预测组件对应的第一损失函数,包括:
根据样本标签获取所述样本空间激励图像对应的类别概率分布,根据所述类别概率分布生成交叉熵损失函数;
将所述样本空间激励图像划分为K个激励图像区块,将所述样本标签划分为K个标签区块,根据所述K个激励图像区块与所述K个标签区块之间的结构相似度,生成结构相似性损失函数;K为正整数;
获取所述样本空间激励图像与所述样本标签之间的并集和交集,根据所述并集和所述交集生成交并比损失函数;
将所述交叉熵损失函数、所述结构相似性损失函数以及所述交并比损失函数,确定为所述初始空间激励预测组件对应的第一损失函数。
14.根据权利要求10所述的方法,其特征在于,还包括:
获取所述初始数据检测模型的训练次数;
当所述训练次数小于或等于第一阈值时,根据所述样本标签对所述样本内容特征进行特征增强,得到样本激励内容特征;
当所述训练次数大于所述第一阈值,且所述训练次数小于或等于第二阈值时,根据课程学习率、所述样本标签以及所述样本激励率生成候选激励图像,根据所述候选激励图像对所述样本内容特征进行特征增强,得到样本激励内容特征;
当所述训练次数小于所述第二阈值时,执行所述根据所述样本激励图像对所述样本内容特征进行特征增强,得到样本激励内容特征的步骤。
15.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,所述处理器执行权利要求1至9中任一项所述方法的步骤,或者执行权利要求10至14中任一项所述方法的步骤。
CN202110062892.8A 2020-11-13 2021-01-18 数据处理方法以及计算机设备 Pending CN113570509A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020112693020 2020-11-13
CN202011269302 2020-11-13

Publications (1)

Publication Number Publication Date
CN113570509A true CN113570509A (zh) 2021-10-29

Family

ID=78160959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110062892.8A Pending CN113570509A (zh) 2020-11-13 2021-01-18 数据处理方法以及计算机设备

Country Status (1)

Country Link
CN (1) CN113570509A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114639070A (zh) * 2022-03-15 2022-06-17 福州大学 融合注意力机制的人群运动流量分析方法
CN116665311A (zh) * 2023-07-31 2023-08-29 苏州万店掌网络科技有限公司 行为识别方法、装置、设备及可读存储介质
CN114639070B (zh) * 2022-03-15 2024-06-04 福州大学 融合注意力机制的人群运动流量分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114639070A (zh) * 2022-03-15 2022-06-17 福州大学 融合注意力机制的人群运动流量分析方法
CN114639070B (zh) * 2022-03-15 2024-06-04 福州大学 融合注意力机制的人群运动流量分析方法
CN116665311A (zh) * 2023-07-31 2023-08-29 苏州万店掌网络科技有限公司 行为识别方法、装置、设备及可读存储介质
CN116665311B (zh) * 2023-07-31 2023-10-20 苏州万店掌网络科技有限公司 行为识别方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
CN111369581B (zh) 图像处理方法、装置、设备及存储介质
CN111898696A (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
CN112287820A (zh) 人脸检测神经网络及训练方法、人脸检测方法、存储介质
CN111915627A (zh) 语义分割方法、网络、设备及计算机存储介质
CN113538480A (zh) 图像分割处理方法、装置、计算机设备和存储介质
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN115761222B (zh) 图像分割方法、遥感图像分割方法以及装置
CN115205150A (zh) 图像的去模糊方法、装置、设备、介质及计算机程序产品
CN112084859A (zh) 一种基于稠密边界块和注意力机制的建筑物分割方法
CN112330684A (zh) 对象分割方法、装置、计算机设备及存储介质
CN111460876A (zh) 用于识别视频的方法和装置
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN112818904A (zh) 一种基于注意力机制的人群密度估计方法及装置
CN116012395A (zh) 一种基于深度可分离卷积的多尺度融合烟雾分割方法
CN114519844A (zh) 一种基于视觉转化器的人群密度估计方法及系统
CN111741329B (zh) 一种视频处理方法、装置、设备及存储介质
CN113572981B (zh) 视频配乐方法及装置、电子设备、存储介质
CN113570509A (zh) 数据处理方法以及计算机设备
CN111738186B (zh) 目标定位方法、装置、电子设备及可读存储介质
CN113011320A (zh) 视频处理方法、装置、电子设备及存储介质
CN113887523A (zh) 数据集更新方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination