CN116108225A - 视频数据结构化方法、装置、终端设备及存储介质 - Google Patents
视频数据结构化方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN116108225A CN116108225A CN202310389400.5A CN202310389400A CN116108225A CN 116108225 A CN116108225 A CN 116108225A CN 202310389400 A CN202310389400 A CN 202310389400A CN 116108225 A CN116108225 A CN 116108225A
- Authority
- CN
- China
- Prior art keywords
- target object
- information
- attribute
- network
- attribute information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 56
- 230000004927 fusion Effects 0.000 claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims description 68
- 239000013598 vector Substances 0.000 claims description 67
- 238000013145 classification model Methods 0.000 claims description 46
- 238000012163 sequencing technique Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 11
- 239000003086 colorant Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000005034 decoration Methods 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005096 rolling process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000037308 hair color Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例涉及数据处理领域,具体提供了一种视频数据结构化方法、装置、终端设备及存储介质。该方法包括:对第一视频数据进行增强处理,获得第二视频数据;获取第二视频数据中的关键图像;利用目标解析网络对关键图像中的目标对象进行结构划分,得到第一区域图像和第二区域图像;根据第一区域图像、第二区域图像确定第一属性信息;确定目标对象的关键位置信息,并根据目标对象和关键位置信息进行属性预测,获得第二属性信息;融合第一属性信息和第二属性信息,确定第三属性信息,并将目标对象以及目标对象对应的第三属性信息存储至数据库中。从多维度提取目标对象的属性信息并进行属性融合,进而提升视频数据结构化结果的准确性和可靠性。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种视频数据结构化方法、装置、终端设备及存储介质。
背景技术
在早期物联网架构中,由终端设备直接将采集到的源数据上传到云端。随着大量部署在终端的采集设备,物联网数据爆发式增长,达到百亿数量级的设备和PB级别的数据规模。传输时的带宽消耗和网络延迟,云平台的数据运算能力,阻塞了物联网应用技术的发展。
随着信息技术的快速发展,人们可以利用将源数据进行分析获得结构化的数据,将结构化的数据存储到数据库中并进行深度挖掘分析。但是从不同数据库抽取出的数据存在各种缺陷不利于后期的挖掘分析,比如,数据源格式不同、数据冗余、数据错误等,低质量的数据处理后得不到高质量的结果。因此,需要一种视频数据结构化方法能够提升数据处理质量,为后续的深度挖掘分析提供良好的支撑。
发明内容
本申请实施例的主要目的在于提供一种视频数据结构化方法、装置、终端设备以及存储介质,通过从多个维度对目标对象的属性信息进行提取并进行融合,旨在提高视频数据结构化的准确性和可靠性,为后续的数据查询等应用提供良好的数据支撑。
第一方面,本申请实施例提供一种视频数据结构化方法,包括:
获得采集装置采集的第一视频数据,并对所述第一视频数据进行增强处理,获得所述第二视频数据;
获取所述第二视频数据中的关键图像,所述关键图像中包括目标对象;
利用目标解析网络对所述关键图像中的目标对象进行结构划分,得到所述目标对象所对应的第一区域图像和第二区域图像,其中,所述第一区域图像和所述第二区域图像构成所述目标对象对应的图像;
根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息,其中,所述第一属性信息用于表征所述目标对象的外在特征;
确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息,其中,所述关键位置信息用于表征所述目标对象中的关键部位的位置;
融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息,并将所述目标对象以及所述目标对象对应的第三属性信息存储至数据库中。
第二方面,本申请实施例还提供一种视频数据结构化装置,包括:
数据获取模块,用于获得采集装置采集的第一视频数据,并对所述第一视频数据进行增强处理,获得所述第二视频数据;
数据提取模块,用于获取所述第二视频数据中的关键图像,所述关键图像中包括目标对象;
数据划分模块,用户利用目标解析网络对所述关键图像中的目标对象进行结构划分,得到所述目标对象所对应的第一区域图像和第二区域图像,其中,所述第一区域图像和所述第二区域图像构成所述目标对象对应的图像;
第一属性获取模块,用于根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息,其中,所述第一属性信息用于表征所述目标对象的外在特征;
第二属性获取模块,用于确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息,其中,所述关键位置信息用于表征所述目标对象中的关键部位的位置;
数据融合模块,用于融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息,并将所述目标对象以及所述目标对象对应的第三属性信息存储至数据中。
第三方面,本申请实施例还提供一种终端设备,终端设备包括处理器、存储器、存储在存储器上并可被处理器执行的计算机程序以及用于实现处理器和存储器之间的连接通信的数据总线,其中计算机程序被处理器执行时,实现如本申请说明书提供的任一项视频数据结构化方法的步骤。
第四方面,本申请实施例还提供一种存储介质,用于计算机可读存储,其特征在于,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如本申请说明书提供的任一项的视频数据结构化方法的步骤。
本申请实施例提供一种视频数据结构化方法、装置、终端设备及存储介质,其中,该视频数据结构化方法通过采集装置采集第一视频数据,并对第一视频数据进行视频增强处理,获得视频增强后的第二视频数据;从第二视频数据中确定关键帧,并获得关键帧对应的关键图像,其中,关键图像中包括目标对象;利用目标解析网络对关键图像中的目标对象进行结构划分,得到目标对象所对应的第一区域图像和第二区域图像,其中,第一区域图像和第二区域图像构成目标对象对应的图像;根据第一区域图像、第二区域图像确定目标对象对应的第一属性信息,其中,第一属性信息用于表征目标对象的外在特征;确定目标对象的关键位置信息,并根据目标对象和关键位置信息进行属性预测,获得目标对象对应的第二属性信息,其中,关键位置信息用于表征目标对象中的关键部位的位置;融合第一属性信息和第二属性信息,确定目标对象对应的第三属性信息,并将目标对象以及目标对象对应的第三属性信息存储至数据库中。从而实现从多个维度分析目标对象对应的属性数据,并对获得的多个维度的属性数据进行数据融合,进而提升视频数据结构化结果的准确性和可靠性,为后续的数据查询等应用提供良好的数据支撑。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种视频数据结构化方法的流程示意图;
图2为本申请实施例提供的视频数据结构化方法中所采用的一种图像处理参数模型的模型结构示意图;
图3为本申请实施例提供的视频数据结构化方法对视频内关键图像中的目标对象进行结构划分的示意图;
图4为本申请实施例提供的视频数据结构化方法中对关键图像为人物图像进行结构划分的场景示意图;
图5为图1中步骤S3的一种具体实施方式对应的步骤流程图;
图6为本申请实施例提供的视频数据结构化方法中所采用的一种目标解析网络的结构示意图;
图7为本申请实施例提供的视频数据结构化方法中所采用的一种第一属性分类模型的示意图;
图8为本申请实施例提供的视频数据结构化方法中关键位置信息在目标对象上的示意图;
图9为本申请实施例提供的视频数据结构化方法中所采用的一种属性识别模型的结构示意图;
图10为本申请实施例提供的一种视频数据结构化装置的模块结构示意图;
图11为本申请实施例提供的一种终端设备的结构示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
本申请实施例提供一种视频数据结构化方法、装置、终端设备以及存储介质。其中,该视频数据结构化方法可应用于终端设备,该终端设备可以为平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备、或服务器,其中,服务器可以为独立的服务器,也可以为服务器集群。
其中,本申请实施例提供一种视频数据结构化方法、装置、终端设备及存储介质,其中,该视频数据结构化方法通过采集装置采集第一视频数据,并对第一视频数据进行视频增强处理,获得视频增强后的第二视频数据;从第二视频数据中确定关键帧,并获得关键帧对应的关键图像,其中,关键图像中包括目标对象;利用目标解析网络对关键图像中的目标对象进行结构划分,得到目标对象所对应的第一区域图像和第二区域图像,其中,第一区域图像和第二区域图像构成目标对象对应的图像;根据第一区域图像、第二区域图像确定目标对象对应的第一属性信息,其中,第一属性信息用于表征目标对象的外在特征;确定目标对象的关键位置信息,并根据目标对象和关键位置信息进行属性预测,获得目标对象对应的第二属性信息,其中,关键位置信息用于表征目标对象中的关键部位的位置;融合第一属性信息和第二属性信息,确定目标对象对应的第三属性信息,并将目标对象以及目标对象对应的第三属性信息存储至数据库中。从而实现从多个维度分析目标对象对应的属性数据,并对获得的多个维度的属性数据进行数据融合,进而提升视频数据结构化结果的准确性和可靠性,为后续的数据查询等应用提供良好的数据支撑。
下面结合附图,对本申请的一些实施例作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的一种视频数据结构化方法的流程示意图。
如图1所示,该视频数据结构化方法包括步骤S1至步骤S6。
步骤S1:获得采集装置采集的第一视频数据,并对所述第一视频数据进行增强处理,获得所述第二视频数据。
示例性地,监控摄像头是物联网中常见的采集装置之一,可以通过视频流的方式采集周围的环境信息,进而获得第一视频数据。但是监控摄像头有时长期暴露于外界环境,当监控摄像头上散落一些灰尘时,监控摄像头采集得到的第一视频数据中会包含噪声数据。此外,第一视频数据的采集也受到光照等因素的影响,因此第一视频数据中可能会出现目标不清晰等问题。故在获得第一视频数据之后需要对数据进行增强处理获得第二视频数据。
例如,对第一视频数据采用亮度调整、对比度增强、颜色平衡等图像增强技术,进而改善视频质量、提高图像清晰度和图像细节;此外还需要对视频中的噪声进行过滤和平滑处理,减少视频中图像的噪点和失真信息,提高视频中图像的质量;还可以利用光流估计等技术,对视频中的图像进行稳定处理,使其在采集装置发生抖动或移动的情况下采集的第一视频数据也能保持清晰稳定。总而言之,通过对第一视频数据进行视频预处理提高视频数据的质量。
在一些实施方式中,所述对所述第一视频数据进行增强处理,获得所述第二视频数据,包括:获得所述第一视频数据中不同时期视频的质量信息确定所述第一视频信息中的高质量视频信息和低质量视频信息,所述质量信息包括亮度信息、对比度信息、饱和度信息;将所述高质量视频信息融合到所述低质量视频信息中获得所述第二视频数据。
示例性地,在第一视频数据中由于光照等因素的变化不同,导致同一个视频数据中不同时期视频的质量信息不同,也即不同时期视频的亮度信息、对比度信息、饱和度信息不同。将第一视频数据中的视频数据亮度信息、对比度信息、饱和度信息划分为高质量视频信息和低质量视频信息,并且为了保证视频的流畅性不会发生视频显示的跳变,进而利用高质量视频信息融合到低质量视频信息中进行视频增强,获得第二视频数据。
亮度是指照射在景物或图像上光线的明暗程度。亮度增加时,就会显得耀眼或刺眼;亮度越小时,视频就会显得灰暗。在阳光正好时采集装置获得的视频数据中目标对象或景物则会清晰明亮,但是在傍晚或者晚上时没有光照或者光照不足则会导致采集装置获得的视频数据中目标对象或景物看起来比较灰暗或者不清晰。对比度指的是视频数据中一帧图像中明暗区域最亮的白和最暗的黑之间不同亮度层级测的测量,差异范围越大代表对比越大,差异范围越小代表对比越小。若对比度过大,视频数据则会显得刺眼;对比度越小,视频数据中不同颜色的反差就越小。饱和度是指色彩的鲜艳程度,也称色彩的纯度。饱和度取决于该色中含色成分和消色成分(灰色)的比例。含色成分越大,饱和度越大;消色成分越大,饱和度越小。纯的颜色都是高度饱和的,如鲜红,鲜绿。混杂上白色,灰色或其他色调的颜色,是不饱和的颜色,如绛紫,粉红,黄褐等。完全不饱和的颜色根本没有色调,如黑白之间的各种灰色。调节饱和度色彩会发生变化,调的越大,视频颜色就越失真,调节饱和度只适合颜色不足的视频。饱和度调到最低时,视频就会失去色彩变成黑白视频。
示例性地,根据第一视频数据中不同时期的视频数据进行亮度、对比度和饱和度分析,获得第一视频信息中的高质量视频信息和低质量视频信息,将高质量视频信息对应的亮度、对比度和饱和度信息应用到低质量视频信息中,进而获得增强的第二视频信息。
可选地,所述质量信息还可以包括但不限制于曝光度信息、锐度信息、高光信息、阴影信息、色温信息、色调信息、色相信息等等。
在一些实施方式中,所述将所述高质量视频信息融合到所述低质量视频信息中获得所述第二视频数据,包括:将所述低质量视频信息输入至图像处理参数模型中,获得所述低质量视频信息调整视频质量所需要的参数信息;根据所述参数信息和所述高质量视频信息,确定所述低质量视频信息进行质量调整的目标参数信息;根据所述目标参数信息调整所述低质量视频信息,获得所述第二视频数据。
示例性地,根据深度回归网络的方式获得低质量视频信息和高质量视频信息的对应关系,将低质量视频信息输入到深度回归网络中获得调整到高质量视频信息所需要的参数信息;再根据获得参数信息和高质量视频信息对应的参数信息确定目标参数信息,通过高质量视频信息对应的参数信息来限制参数信息得到目标参数信息,使得低质量视频信息按照目标参数信息进行视频质量调整时,不会和高质量视频信息之间发生跳转的问题。
在一些实施方式中,如图2所示,所述图像处理参数模型包括色彩特征提取网络、语义特征提取网络、特征融合网络、全连接回归网络,所述将所述低质量视频信息输入至图像处理参数模型中,获得所述低质量视频信息调整视频质量所需要的参数信息,包括:将所述低质量视频信息输入至所述图像处理参数模型的色彩特征提取网络获得第一特征向量;将所述低质量视频信息输入至所述图像处理参数模型的语义特征提取网络获得第二特征向量;将所述第一特征向量和所述第二特征向量输入至所述图像处理参数模型的特征融合网络,获得第三特征向量;将所述第三特征向量输入至所述图像处理参数模型的全连接回归网络获得所述低质量视频信息调整视频质量所需要的参数信息。
示例性地,将低质量视频信息中对应帧的图像输入到色彩特征提取网络提取全局彩色特征获得第一特征向量,并将低质量视频信息中对应帧的图像输入到语义特征提取网络提取语义特征获得第二特征向量,进而将第一特征向量和第二特征向量输入到特征融合网络得到第一特征向量和第三特征向量进行拼接得到的第三特征向量,将第三特征向量输入三个全连接回归网络中分别得到对应的亮度信息、对比度信息、饱和度信息。
在使用图像处理参数模型之前需要先进行模型训练,主要训练过程如下:根据各种类型的高质量的图像,然后对图像进行亮度信息、对比度信息和饱和度信息进行随机退化,获得退化后的图像并保存退化时的退化参数信息,进而将高质量图像和退化后的图像组成成对数据,并且每张退化后的图片都有对应的退化参数信息。将退化后的图像输入到初始图像处理参数模型中获得图像增强时需要的预测参数信息,将预测参数信息和退化参数信息进行比较,使得预测参数信息和退化参数信息之间的方差最小,进而获得目标图像处理参数模型。
在一些实施方式中,所述根据所述参数信息和所述高质量视频信息,确定所述低质量视频信息进行质量调整的目标参数信息,包括:根据所述高质量视频信息确定视频调整参数的阈值范围;根据所述阈值范围和所述参数信息确定所述目标参数信息。
示例性地,根据图像处理参数模型可以获得低质量视频信息进行增强的参数信息,但是为了避免视频在显示过程中出现明显的跳转问题。可以通过获得高质量视频信息对应的视频调整参数的阈值范围,将参数信息控制在阈值范围之间,进而获得目标参数信息。
例如,参数信息中包括亮度参数信息、对比度参数信息、饱和度参数信息,以其中的亮度参数信息为例,根据高质量视频信息可以得到亮度的阈值范围为[89,100],根据图像处理参数模型得到的参数范围中亮度参数信息为95,则目标亮度参数信息仍为95;若根据图像处理参数模型得到的参数范围中亮度参数信息为105,则目标亮度参数信息更正为100;若根据图像处理参数模型得到的参数范围中亮度参数信息为75,则目标亮度参数信息仍为75。当亮度参数信息大于阈值信息最大值时,则将亮度参数信息调整为阈值信息最大值,为防止视频发生跳变,当亮度参数信息小于阈值信息最小值时,则将亮度参数信息保持不变,是为了防止出现图片过度调整丢失细节的问题。
步骤S2:获取所述第二视频数据中的关键图像,所述关键图像中包括目标对象。
示例性地,第二视频数据为一个图像序列,但是该图像序列中通常存在大量冗余,因此只需要从第二视频数据中提取出能够体现视频中各个图像的显著特征,即关键图像。通过对关键图像的提取分析能够有效减少视频应用所需要花费的时间,并能够增强后续应用的精确度。
此外,在获得关键图像时,关键图像中至少包括目标对象,目标对象的类别可以是人物、车辆等目标类型。
例如,可以利用帧间差分法获得关键图像。将第二视频图像中相邻两帧作差分运算来获得运动目标轮廓的方法。当第二视频图像中出现异常物体运动时,帧与帧之间会出现较为明显的差别,两帧相减,得到两帧图像之间的差值,当差值大于阈值时则判定两帧之间有关键图像,否则判断两帧之间没有关键图像。进而将两帧之间有目标对象的帧作为关键图像。
步骤S3:利用目标解析网络对所述关键图像中的目标对象进行结构划分,得到所述目标对象所对应的第一区域图像和第二区域图像,其中,所述第一区域图像和所述第二区域图像构成所述目标对象对应的图像。
示例性地,将关键图像中的目标对象进行识别获得目标对象在关键图像中的位置,进而获得目标对象对应的目标图像,其中,目标图像中包含目标对象。将目标图像输入到目标解析网络中,目标图像划分为第一区域图像和第二区域图像,并且第一区域图像和第二区域图像可以构成目标对象对应的目标图像,如图3所示,其中,关键图像400包括目标图像401和目标对象402,并且目标对象402位于目标图像401中,关键图像400中方形框框住的内容为目标图像401,目标图像401中椭圆形代表的内容为目标对象402。目标图像401被划分为第一区域图像4011和第二区域图像4012。
例如,如图4所示,关键图像400中目标图像401中的目标对象402为人物时,则根据目标解析网络可以将目标图像401划分为第一区域图像4011为人物的上半身所在目标图像401中对应的图像和第二区域图像4012为人物下半身所在目标图像401中对应的图像。
请参阅图5,在一些实施方式中,步骤S3包括步骤S31至步骤S34,其中,目标解析网络结构示意图如图6所示。
步骤S31、将所述目标对象输入至所述目标解析网络的残差网络进行下采样获得第一区域特征。
示例性地,目标解析网络的残差网络中包括多种卷积核,将目标对象分别输入到多种卷积核中获得多种卷积结果,将多种卷积结果进行按位相加获得第一区域特征。
例如,残差网络中包含三种卷积核,卷积核大小均为5*5*32,但是卷积核的内容不相同。将目标对象分别经过三种卷积核处理后获得对应的向量v1,v2,v3,然后将v1,v2,v3按位相加获得第一区域特征。
步骤S32、将所述目标对象输入至所述目标解析网络的上采样网络进行上采样获得第二区域特征。
示例性地,上采样网络可以由双线性差值实现,将目标对象输入到上采样网络进行上采样获得第二区域特征。
可选地,上采样网络包括但不限制于近邻差值、双三次差值等等。
步骤S33、将所述第一区域特征和所述第二区域特征输入至所述目标解析网络的融合网络进行特征融合获得第三区域特征。
示例性地,将第一区域特征和所述第二区域特征输入至目标解析网络的融合网络进行特征拼接,进而实现特征融合获得第三区域特征。
步骤S34、将所述第三区域特征输入至所述目标解析网络的局部特征网络获得所述目标对象对应的第一区域图像和第二区域图像。
示例性地,获得目标对象对应的第一区域图像和第二区域图像可以看作是对目标对象进行分类,将目标对象对应的图像划分到对应的区域中即可。目标解析网络中的局部特征网络将目标对象中每个像素进行分类,进而将相同类别的像素组成一个区域,从而获得目标对象对应的第一区域图像和第二区域图像。
在一些实施方式中,所述局部特征网络包括空间注意力机制,所述将所述第三区域特征输入至所述目标解析网络的局部特征网络获得所述目标对象对应的第一区域图像和第二区域图像,包括:将所述第三区域特征结合所述空间注意力机制获得所述目标对象像素级的局部特征;根据所述目标对象像素级的局部特征获得所述目标对象对应的第一区域图像和第二区域图像。
示例性地,局部特征网络中至少包括空间注意力机制,将第三区域特征中引入空间注意力机制赋予第三区域特征中不同的权重值,进而决定需要关注特征,忽略或者减少对后续分类不重要的特征信息。计算第三区域特征在空间方向的注意力结果,进而在注意力结果基础上对目标对象进行分类获得更精确的第一区域图像和第二区域图像。
步骤S4:根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息,其中,所述第一属性信息用于表征所述目标对象的外在特征。
示例性地,根据第一区域图像获得目标对象在第一区域图像中的属性信息,根据第二区域图像获得目标对象在第二区域图像中的属性信息,将第一区域图像中的属性信息和第二区域图像中的属性信息共同组成第一属性信息。其中,第一属性信息用于表征目标对象的外在特征。
例如,当目标对象为人物时,第一属性信息可以包括人物的性别、年龄范围、大致身高、发饰、衣着、物品携带、步履形态等多种可结构化描述信息;当目标对象为车辆时,第一属性信息可以包括车辆的车牌、车颜色、车型、品牌、子品牌、车贴、车饰物信息等多种车辆描述信息。
例如,当目标对象为人物时,判断人的上衣样式时,可以准备多个上衣样式的图片,计算第一区域图像和上衣样式的图片进行相似度计算,将相似度计算结果最大时对应的上衣样式图片作为目标对象对应的上衣样式的属性信息。如,相似度结果最大时上衣样式图片对应的样式为短袖,则目标对象中第一属性信息中上衣样式为短袖,并将相似度结果也存储在第一属性信息中,如上衣样式为短袖,相似度为0.8。
在一些实施方式中,所述根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息,包括:将所述第一区域图像输入至第一属性分类模型获得第一区域属性信息;将所述第二区域图像输入至第二属性分类模型获得第二区域属性信息;将所述目标对象输入至第三属性分类模型获得第三区域属性信息;根据所述第一区域属性信息、所述第二区域属性信息和所述第三区域属性信息获得第一属性信息。
示例性地,确定第一区域属性信息的类别,第一属性分类模型根据第一区域属性信息的类别确定分类的目标,将第一区域图像输入至第一属性分类模型获得第一区域属性信息,同理,确定第二区域属性信息的类别,第二属性分类模型根据第二区域属性信息的类别确定分类的目标,将第二区域图像输入至第二属性分类模型获得第二区域属性信息;将第一区域属性信息的类别和第二区域属性信息的类别进行合并,获得第三区域属性信息的类别,将第三属性分类模型根据第三区域属性信息的类别确定分类的目标,将目标对象输入至第三属性分类模型获得第三区域属性信息;将第一区域属性信息、第二区域属性信息和第三区域属性信息进行合并获得第一属性信息。
例如,当目标对象为人时,将目标对象对应的目标图像划分为第一区域图像和第二区域图像,其中,第一区域图像为上半身,第二区域图像为下半身。第一区域属性信息的类别包括上半身服饰、上半身服饰颜色、发色、头发长度;第二区域属性信息的类别包括下半身服饰、下半身服饰颜色。则将第一区域图像输入到第一属性分类模型后,可以获得上半身服饰、上半身服饰颜色、发色、头发长度分别对应的信息;将第二区域图像输入到第二属性分类模型后,可以获得下半身服饰、下半身服饰颜色。第三区域属性信息的类别为第一区域属性信息的类别和第二区域属性信息的类别求并集,包括上半身服饰、上半身服饰颜色、发色、头发长度、下半身服饰、下半身服饰颜色,进而将目标对象对应的目标图像输入到第三属性分类模型后,可以获得第三区域属性信息分别对应的结果。
在一些实施方式中,如图7所示,所述第一属性分类模型包括第一特征抽取网络、第一特征多分类网络,所述将所述第一区域图像输入至第一属性分类模型获得第一区域属性信息,包括:将所述第一区域图像输入至所述第一特征抽取网络获得第一区域特征向量;将所述第一区域特征向量输入至所述第一特征多分类网络获得所述第一区域属性信息。
示例性地,将第一区域图像输入至第一特征抽取网络进行特征提取获得第一区域特征向量,再将第一区域特征向量分别输入到对应的第一属性分类网络中获得相应属性的分类结果。其中,多个第一属性分类网络共同组成了第一特征多分类网络,第一属性分类网络的数量根据需求进行设置。
例如,待识别的第一区域属性信息中包括上半身服饰、上半身服饰颜色,则第一特征多分类网络中包括上半身服饰的分类网络和上半身服饰颜色的分类网络。如,上半身服饰的分类网络可以由全连接层和softmax层组成,上半身服饰的类别包括短袖、长袖、无袖,则第一区域图像输入至第一特征抽取网络进行特征提取获得第一区域特征向量,将第一区域特征向量输入到全连接层获得每个类别的得分,在将每个类别的得分输入至softmax层进而获得每个类别的概率,并将概率最大时对应的类别作为识别结果。
在一些实施方式中,所述第二属性分类模型包括第二特征抽取网络、第二特征多分类网络,所述将所述第二区域图像输入至第二属性分类模型获得第二区域属性信息,包括:将所述第二区域图像输入至所述第二特征抽取网络获得第二区域特征向量;将所述第二区域特征向量输入至所述第二特征多分类网络获得所述第二区域属性信息。
示例性地,将第二区域图像输入至第二特征抽取网络进行特征提取获得第二区域特征向量,再将第二区域特征向量分别输入到对应的第二属性分类网络中获得相应属性的分类结果。其中,多个第二属性分类网络共同组成了第二特征多分类网络,第二属性分类网络的数量根据需求进行设置。
例如,待识别的第二区域属性信息中包括下半身服饰、下半身服饰颜色,则第二特征多分类网络中包括下半身服饰的分类网络和下半身服饰颜色的分类网络。如,下半身服饰的分类网络可以由全连接层和softmax层组成,下半身服饰的类别包括长裤、短裤、长裙、短裙,则第二区域图像输入至第二特征抽取网络进行特征提取获得第二区域特征向量,将第二区域特征向量输入到全连接层获得每个类别的得分,在将每个类别的得分输入至softmax层进而获得每个类别的概率,并将概率最大时对应的类别作为识别结果。
在一些实施方式中,所述第三属性分类模型包括第三特征抽取网络、第三特征多分类网络,所述将所述目标对象输入至第三属性分类模型获得第三区域属性信息,包括:将所述目标对象对应的图像输入至所述第三特征抽取网络获得第三区域特征向量;将所述第三区域特征向量输入至所述第三特征多分类网络获得所述第三区域属性信息。
示例性地,将目标对象对应的目标图像输入至第三特征抽取网络进行特征提取获得第三区域特征向量,再将第三区域特征向量分别输入到对应的第三属性分类网络中获得相应属性的分类结果。其中,多个第三属性分类网络共同组成了第三特征多分类网络,第三属性分类网络的数量为第一属性分类网络的数量和第二属性分类网络的数量之和。
因此,在获得第一区域图像对应的第一区域属性信息、第二区域图像对应的第二区域属性信息、目标对象对应的第三区域属性信息后,可以将第一区域属性信息、第二区域属性信息和第三区域属性信息进行加权求和保留概率最大值对应的属性结果作为第一属性信息,或者将全部预测结果进行保留,方便后续的融合处理。
例如,将第一区域属性信息、第二区域属性信息和第三区域属性信息进行加权求和保留概率最大值对应的属性结果作为第一属性信息时,若第一区域属性信息包括上衣服饰:(长袖、0.4)、(短袖、0.5)、(无袖、0.1),第二区域属性信息包括下衣服饰:(长裤、0.3)、(短裤、0.2)、(长裙、0.1)、(短裙、0.4),第三区域属性信息为上衣服饰:(长袖、0.3)、(短袖、0.4)、(无袖、0.3),下衣服饰:(长裤、0.2)、(短裤、0.3)、(长裙、0.3)、(短裙、0.2),则按照加权求和的方式可以得到,上衣服饰:(长袖、(0.4+0.3)/2)、(短袖、(0.5+0.4)/2)、(无袖、(0.1+0.3)/2),下衣服饰:(长裤、(0.3+0.2)/2)、(短裤、(0.2+0.3)/2)、(长裙、(0.1+0.3)/2)、(短裙、(0.4+0.2)/2),即上衣服饰:(长袖、0.35)、(短袖、0.45)、(无袖、0.2),下衣服饰:(长裤、(0.25)、(短裤、0.25)、(长裙、0.2)、(短裙、0.3),进而可以得到第一属性信息:上衣服饰-(短袖、0.45),下衣服饰-(短裙、0.3)。
可选地,上述举例中将来源不同的预测概率设置的权重均为0.5,权重比例可以按照项目需求进行自行设置。
可选地,可以将上衣服饰:(长袖、0.35)、(短袖、0.45)、(无袖、0.2),下衣服饰:(长裤、(0.25)、(短裤、0.25)、(长裙、0.2)、(短裙、0.3)均作为第一属性信息。
可选地,可以将第一区域属性信息、第二区域属性信息、第三区域属性信息均保留合并后一起作为第一属性信息:如上衣服饰:(长袖、0.4、0.3)、(短袖、0.5、0.4)、(无袖、0.1、0.3),下衣服饰:(长裤、0.3、0.2)、(短裤、0.2、0.3)、(长裙、0.1、0.3)、(短裙、0.4、0.2)。
步骤S5:确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息,其中,所述关键位置信息用于表征所述目标对象中的关键部位的位置。
示例性地,对目标对象对应的目标图像进行关键点检测获得目标对象的关键位置信息,并根据关键位置信息从目标对象中获得多个局部特征,进而从多个局部特征中进行属性预测获得目标对象对应的第二属性信息。
示例性地,关键位置信息用于表征所述目标对象中的关键点的位置。通过关键位置信息之间的连接,可以获得目标对象的轮廓,如图8所示,当目标图像401中的目标对象402为人物时,目标对象402中关键位置信息包含11个关键点的位置信息,其中,关键点为图8中的黑色圆点4021,根据11个关键点的位置信息进行连接可以获得目标对象402的轮廓。
在一些实施方式中,所述根据所述目标对象确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息,包括:根据所述目标对象进行关键点检测获得所述目标对象的关键位置信息;将所述目标对象和所述关键位置信息输入属性识别模型获得所述目标对象对应的第二属性信息。
示例性地,将目标对象输入到High-Resolution Net模型中进行关键点检测,获得目标对象的关键位置信息;进而将目标对象和关键位置信息输入到属性识别模型获得目标对象对应的第二属性信息。
在一些实施方式中,如图9所示,所述属性识别模型包括关键特征提取网络、全局特征提取网络、自适应图卷积网络、属性识别网络,所述将所述目标对象和所述关键位置信息输入属性识别模型获得所述目标对象对应的第二属性信息,包括:将所述目标对象和所述关键位置信息输入至所述关键特征提取网络获得局部特征;将所述目标对象输入至所述全局特征提取网络获得全局特征;将所述局部特征和所述全局特征输入至所述自适应图卷积网络进行图卷积获得卷积特征;将所述卷积特征输入至所述属性识别网络获得所述目标对象对应的第二属性信息。
示例性地,根据关键位置信息中每个关键点的位置信息进行连接,进而获得不同结构的信息,进而将连接后的结构信息分别输入到关键特征提取网络获得局部特征,若根据关键位置信息进行连接后可以获得多个结构信息,则将多个结构信息分别输入到关键特征提取网络可以获得多个局部特征。
例如,如图8所示,当目标图像401中的目标对象402为人物时,目标对象402中关键位置信息包含11个关键点的位置信息,其中,关键点为图8中的黑色圆点4021,根据11个关键点的位置信息进行连接可以获得如图8所示中的直线信息40211,将直线信息40211对应的图像信息作为结构信息。
示例性地,将目标对象输入至全局特征提取网络获得目标对象对应的全局特征;将局部特征和全局特征输入至自适应图卷积网络进行图卷积,学习局部特征和全局特征之间的关系,进而获得卷积特征,即更新后的局部特征和全局特征;将更新后的局部特征和全局特征进行拼接后输入至属性识别网络获得目标对象对应的第二属性信息。
在一些实施方式中,所述属性识别网络至少包括第一全连接层,所述将所述卷积特征输入至所述属性识别网络获得所述目标对象对应的第二属性信息,包括:将所述卷积特征输入至所述第一全连接层,获得所述第一全连接层对应的属性值;根据所述属性值确定所述目标对象对应的所述第二属性信息。
示例性地,属性识别网络中全连接层的数量由第二属性信息中待识别的属性信息的数量确定。属性识别网络中包括第一全连接层和第一softmax层,将卷积特征输入到第一全连接层获得属性信息对应的类别得分,将属性信息对应的类别得分输入到第一softmax层中获得属性信息对应的类别概率,将类别概率中的最大值对应的类别作为属性信息的判别结果。
例如,第二属性信息中包括上衣服饰,上衣服饰的类别包括长袖、短袖、无袖,第一全连接层和第一softmax层用于识别目标对象的上衣服饰类别,则将卷积特征输入到第一全连接层中获得长袖、短袖、无袖的得分结果,将长袖、短袖、无袖的得分结果输入到第一softmax层中获得长袖、短袖、无袖的概率值,将长袖、短袖、无袖的概率值中的最大值对应的类别作为上衣服饰的识别结果。如,长袖、短袖、无袖的概率值分别为0.4、0.5、0.1,则目标对象中上衣服饰的识别结果为短袖,概率值0.5。
例如,第二属性信息中包括上衣服饰、下衣服饰,则属性识别网络中包括第一全连接层和第一softmax层,第二全连接层和第二softmax层,分别用于识别上衣服饰、下衣服饰。
步骤S6:融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息,并将所述目标对象以及所述目标对象对应的第三属性信息存储至数据库中。
示例性地,目标对象在第一属性信息中的属性信息结果和第二属性信息中的属性信息结果可能不同,因此,需要结合第一属性信息和第二属性信息共同得到目标对象的目标属性信息即第三属性信息。当得到目标对象的结构化数据后,将目标对象以及目标对象对应的第三属性信息存储至数据库中,方便后续的应用使用。
例如,目标对象的属性信息中上衣服饰在第一属性信息中为短袖、概率值0.5;在第二属性信息中为长袖、概率值0.6,则可以选择概率最大时的结果作为融合结果,即目标对象的上衣服饰为长袖、概率值0.6。或者上衣服饰在第一属性信息中为长袖、概率值0.5;在第二属性信息中为长袖、概率值0.6,则可以选择将概率值进行融合,获得融合结果长袖,概率值(0.5+0.6)/2。
或者,在保存第一属性信息和第二属性信息时,将同一属性的不同类别对应的概率信息均进行保存。例如,第一属性信息中上衣服饰的结果为(长袖、0.4)、(短袖、0.5)、(无袖、0.1),第二属性信息中上衣服饰的结果为(长袖、0.7)、(短袖、0.2)、(无袖、0.1)。则此时根据第一属性信息和第二属性信息进行融合后得到(长袖、0.4+0.7)、(短袖、0.5+0.2)、(无袖、0.1+0.1),进而获得目标对象的上衣服饰的结果为(长袖、0.4+0.7);或者将第一属性信息和第二属性信息赋予不同的权重,进而融合后得到(长袖、0.4a+0.7b)、(短袖、0.5a+0.2b)、(无袖、0.1a+0.1b),其中a表示第一属性信息的权重,b表示第二属性信息的权重。
在一些实施方式中,所述融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息,包括:基于证据理论结合所述第一属性信息和所述第二属性信息确定属性信息的预测概率;根据所述预测概率和预设条件确定所述目标对象对应的第三属性信息。
示例性地,将第一属性信息和第二属性信息根据证据理论进行信息融合获得第一属性信息和第二属性信息中对应属性信息的预测概率,根据预测概率和预设条件进而确定目标对象对应的第三属性信息。
在一些实施方式中,所述第一属性信息包括第一属性类别和第一属性类别对应的概率值对,所述概率值对包括所述第一区域图像或所述第二区域图像得到的第一概率值、所述目标对象得到的第二概率值,所述第二属性信息包括第二属性类别和第二属性类别对应的第三概率值,基于证据理论结合所述第一属性信息和所述第二属性信息确定属性信息的预测概率,包括:将所述第一属性类别和所述第二属性类别进行属性对齐,获得目标属性类别;根据所述目标属性类别确定所述目标属性类别对应的所述第一概率值、所述第二概率值、所述第三概率值;基于证据理论将所述第一概率值和所述第二概率值进行融合,获得融合概率;基于证据理论将所述融合概率和所述第三概率值进行融合,获得目标属性类别的预测概率。
示例性地,第一属性信息包括第一属性类别和第一属性类别对应的概率值对,概率值对包括第一区域图像或第二区域图像得到的第一概率值、目标对象得到的第二概率值,第二属性信息包括第二属性类别和第二属性类别对应的第三概率值。
例如,第一属性信息中第一属性类别为上衣服饰,并且上衣服饰分为长袖、短袖、无袖,则通过第一区域图像进行分析可以获得(长袖,0.5)、(短袖,0.4)、(无袖,0.1),通过目标对象进行分析可以得到上衣服饰对应结果为:(长袖,0.6)、(短袖,0.4)、(无袖,0.2),则第一属性信息中第一属性类别为上衣服饰时,上衣服饰对应的概率值对为(长袖,0.5,0.6)、(短袖,0.4,0.4)、(无袖,0.1,0.2)。
示例性地,将第一属性类别和第二属性类别按照名称进行属性对齐,获得目标属性类别;进而根据目标属性类别从第一属性信息和第二属性信息中目标属性类别对应的第一概率值、第二概率值、第三概率值;将第一概率值和第二概率值按照证据理论进行融合获得融合概率;再将融合概率和第三概率值继续按照证据理论进行融合,获得目标属性类别的预测概率。
例如,第一属性信息中包括上衣服饰-概率值对为(长袖,0.5,0.6)、(短袖,0.4,0.4)、(无袖,0.1,0.2),下衣服饰-概率值为(长裤,0.3,0.4)、(短裤,0.4,0.3)、(长裙,0.1,0.2)、(短裙,0.2,0.1),第二属性信息中包括下衣服饰-概率值为(长裤,0.2)、(短裤,0.4)、(长裙,0.1)、(短裙,0.3),上衣服饰-概率值为(长袖,0.4)、(短袖,0.5)、(无袖,0.1),则将第一属性信息中的第一属性类别和第二属性信息中的第二属性类别进行属性对齐后可以得到目标属性类别分别为上衣服饰-(长袖,0.5,0.6,0.4)、(短袖,0.4,0.4,0.5)、(无袖,0.1,0.2,0.1),下衣服饰-(长裤,0.3,0.4,0.2)、(短裤,0.4,0.3,0.4)、(长裙,0.1,0.2,0.1)、(短裙,0.2,0.1,0.3)。
以上上衣服饰-(长袖,0.5,0.6,0.4)、(短袖,0.4,0.4,0.5)、(无袖,0.1,0.2,0.1)为例基于证据理论进行融合,如表1所示:
将第一概率值和第二概率值所在列对应的结果输入到证据理论中获得长袖、短袖、无袖经过融合后的融合概率为p1、p2、p3,再将融合概率和第三概率值所在列对应结果输入到证据理论中获得长袖、短袖、无袖最终的预测概率。
示例性地,可以将证据理论中最终的预测概率地最大值对应地类别以及对应地预测概率存储到数据库中,也可以将证据理论中最终的预测概率进行按照从小到大或者从大到小地顺序进行排序,并将按照排序结果将类别以及对应地预测概率存储到数据库中。
例如,上衣服饰对应地长袖、短袖、无袖最终的预测概率分别为0.3、0.5、0.2,可以将目标对象的第三属性信息中上衣服饰-短袖-0.5存储到数据库中,也可以将上衣服饰-(短袖-0.5,长袖-0.3,无袖-0.2)或上衣服饰-(无袖-0.2,长袖-0.3,短袖-0.5)存储到数据库中。
在一些实施方式中,将所述目标对象以及所述目标对象对应的第三属性信息存储至数据库中之后,所述方法还包括:获得数据查询信息,并根据所述数据查询信息在所述数据库中进行匹配获得与所述数据查询信息相匹配的匹配结果;将所述匹配结果结合所述第三属性信息中的所述预测概率进行排序获得排序结果,并将所述排序结果作为所述数据查询信息的查询结果。
示例性地,获得数据查询信息,将数据查询信息在数据库中进行匹配,获得匹配结果,并将匹配结果按照第三属性信息中的预测概率进行排序获得排序结果,进而将排序结果作为数据查询信息的查询结果。
例如,当数据库中存储的的第三属性信息形如目标对象1:上衣服饰-短袖-0.5,下衣服饰-长裤-0.7,上衣服饰颜色-红色-0.6,下衣服饰颜色-黑色-0.5;目标对象2:上衣服饰-短袖-0.4,下衣服饰-长裤-0.6,上衣服饰颜色-红色-0.5,下衣服饰颜色-黑色-0.6;目标对象3:上衣服饰-短袖-0.55,下衣服饰-长裤-0.65,上衣服饰颜色-红色-0.45,下衣服饰颜色-紫色-0.5;则当数据查询信息为身穿红色短袖,下衣穿黑色长裤的目标有什么时,将会得到目标对象1和目标对象2,将目标对象1中的预测概率进行相加得到0.5+0.7+0.6+0.5=2.3,目标对象2中的预测概率进行相加得到0.4+0.6+0.5+0.6=2.1,则根据预测概率之和进行从大到小进行排序得到目标对象1和目标对象2,将目标对象1和目标对象2依次作为查询结果返回。若数据查询信息为身穿黑色短袖,下衣穿黑色长裤的目标有什么时,则此时目标将会无返回结果。
考虑到在进行目标对象的属性信息识别时可能会存在错误的情况,可以将数据库中存储的第三属性信息形如目标对象3:上衣服饰-(短袖-0.5,长袖-0.3,无袖-0.2),下衣服饰-(长裤-0.4,短裤-0.3,长裙-0.2,短裙-0.1),上衣服饰颜色-(红色-0.5,黑色-0.2,紫色-0.2,白色-0.1),下衣服饰颜色-(红色-0.2,黑色-0.2,紫色-0.5,白色-0.1);目标对象4:上衣服饰-(短袖-0.3,长袖-0.1,无袖-0.6),下衣服饰-(长裤-0.2,短裤-0.3,长裙-0.3,短裙-0.2),上衣服饰颜色-(红色-0.2,黑色-0.1,紫色-0.4,白色-0.3),下衣服饰颜色-(红色-0.3,黑色-0.1,紫色-0.3,白色-0.3);目标对象5:上衣服饰-(短袖-0.1,长袖-0.2,无袖-0.7),下衣服饰-(长裤-0.2,短裤-0.3,长裙-0.3,短裙-0.2),上衣服饰颜色-(红色-0.1,黑色-0.6,紫色-0.2,白色-0.1),下衣服饰颜色-(红色-0.2,黑色-0.3,紫色-0.4,白色-0.1)。当数据查询信息为身穿红色短袖,下衣穿黑色长裤的目标有什么时,可以得到目标对象3对应的预测概率之和为0.5+0.4+0.5+0.2=1.8,目标对象4对应的预测概率之和为0.3+0.2+0.2+0.1=0.8,目标对象5对应的预测概率之和为0.1+0.2+0.1+0.3=0.7,则按照从大到小进行排序可以得到目标对象3、目标对象4、目标对象5。若数据查询信息为身穿黑色短袖下衣穿黑色长裤的目标有什么时,可以得到目标对象3对应的预测概率之和为0.5+0.4+0.2+0.2=1.3,目标对象4对应的预测概率之和为0.3+0.2+0.1+0.1=0.7,目标对象5对应的预测概率之和为0.1+0.2+0.6+0.3=1.2,则按照从大到小进行排序可以得到目标对象3、目标对象5、目标对象4。
可选地,当数据量很庞大时,可以将返回结果进行限制,例如,返回结果至多返回10个,则当返回结果数量超过10时可以进行截取,只将排序结果中的前10条作为返回结果;或者不限制返回结果的数量,将返回结果的预测概率值进行限制,例如,当预测概率之和大于1时,则将排序结果中满足该条件的结果进行返回。
请参阅图10,图10为本申请实施例提供的一种视频数据结构化装置200,应用于终端设备,该视频数据结构化装置200包括:数据获取模块201、数据提取模块202、数据划分模块203、第一属性获取模块204、第二属性获取模块205、数据融合模块206,其中,数据获取模块201,用于获得采集装置采集的第一视频数据,并对所述第一视频数据进行增强处理,获得所述第二视频数据;数据提取模块202,用于获取所述第二视频数据中的关键图像,所述关键图像中包括目标对象;数据划分模块203,用户利用目标解析网络对所述关键图像中的目标对象进行结构划分,得到所述目标对象所对应的第一区域图像和第二区域图像,其中,所述第一区域图像和所述第二区域图像构成所述目标对象对应的图像;第一属性获取模块204,用于根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息,其中,所述第一属性信息用于表征所述目标对象的外在特征;第二属性获取模块205,用于确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息,其中,所述关键位置信息用于表征所述目标对象中的关键部位的位置;数据融合模块206,用于融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息,并将所述目标对象以及所述目标对象对应的第三属性信息存储至数据中。
在一些实施方式中,数据获取模块201在所述对所述第一视频数据进行增强处理,获得所述第二视频数据过程中,执行:
获得所述第一视频数据中不同时期视频的质量信息确定所述第一视频信息中的高质量视频信息和低质量视频信息,所述质量信息包括亮度信息、对比度信息、饱和度信息;
将所述高质量视频信息融合到所述低质量视频信息中获得所述第二视频数据。
在一些实施方式中,数据获取模块201在所述将所述高质量视频信息融合到所述低质量视频信息中获得所述第二视频数据过程中,执行:
将所述低质量视频信息输入至图像处理参数模型中,获得所述低质量视频信息调整视频质量所需要的参数信息;
根据所述参数信息和所述高质量视频信息,确定所述低质量视频信息进行质量调整的目标参数信息;
根据所述目标参数信息调整所述低质量视频信息,获得所述第二视频数据。
在一些实施方式中,所述图像处理参数模型包括色彩特征提取网络、语义特征提取网络、特征融合网络、全连接回归网络,数据获取模块201在所述将所述低质量视频信息输入至图像处理参数模型中,获得所述低质量视频信息调整视频质量所需要的参数信息过程中,执行:
将所述低质量视频信息输入至所述图像处理参数模型的色彩特征提取网络获得第一特征向量;
将所述低质量视频信息输入至所述图像处理参数模型的语义特征提取网络获得第二特征向量;
将所述第一特征向量和所述第二特征向量输入至所述图像处理参数模型的特征融合网络,获得第三特征向量;
将所述第三特征向量输入至所述图像处理参数模型的全连接回归网络获得所述低质量视频信息调整视频质量所需要的参数信息。
在一些实施方式中,数据获取模块201在所述根据所述参数信息和所述高质量视频信息,确定所述低质量视频信息进行质量调整的目标参数信息过程中,执行:
根据所述高质量视频信息确定视频调整参数的阈值范围;
根据所述阈值范围和所述参数信息确定所述目标参数信息。
在一些实施方式中,所述目标解析网络包括残差网络、上采样网络、融合网络、特征提取网络、局部特征网络,数据划分模块203在所述利用目标解析网络对所述关键图像中的目标对象进行结构划分,得到所述目标对象所对应的第一区域图像和第二区域图像过程中,执行:
将所述目标对象输入至所述目标解析网络的残差网络进行下采样获得第一区域特征;
将所述目标对象输入至所述目标解析网络的上采样网络进行上采样获得第二区域特征;
将所述第一区域特征和所述第二区域特征输入至所述目标解析网络的融合网络进行特征融合获得第三区域特征;
将所述第三区域特征输入至所述目标解析网络的局部特征网络获得所述目标对象对应的第一区域图像和第二区域图像。
在一些实施方式中,所述局部特征网络包括空间注意力机制,数据划分模块203在所述将所述第三区域特征输入至所述目标解析网络的局部特征网络获得所述目标对象对应的第一区域图像和第二区域图像过程中,执行:
将所述第三区域特征结合所述空间注意力机制获得所述目标对象像素级的局部特征;
根据所述目标对象像素级的局部特征获得所述目标对象对应的第一区域图像和第二区域图像。
在一些实施方式中,第一属性获取模块204在所述根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息过程中,执行:
将所述第一区域图像输入至第一属性分类模型获得第一区域属性信息;
将所述第二区域图像输入至第二属性分类模型获得第二区域属性信息;
将所述目标对象输入至第三属性分类模型获得第三区域属性信息;
根据所述第一区域属性信息、所述第二区域属性信息和所述第三区域属性信息获得第一属性信息。
在一些实施方式中,所述第一属性分类模型包括第一特征抽取网络、第一特征多分类网络,第一属性获取模块204在所述将所述第一区域图像输入至第一属性分类模型获得第一区域属性信息过程中,执行:
将所述第一区域图像输入至所述第一特征抽取网络获得第一区域特征向量;
将所述第一区域特征向量输入至所述第一特征多分类网络获得所述第一区域属性信息。
在一些实施方式中,所述第二属性分类模型包括第二特征抽取网络、第二特征多分类网络,第一属性获取模块204在所述将所述第二区域图像输入至第二属性分类模型获得第二区域属性信息过程中,执行:
将所述第二区域图像输入至所述第二特征抽取网络获得第二区域特征向量;
将所述第二区域特征向量输入至所述第二特征多分类网络获得所述第二区域属性信息。
在一些实施方式中,所述第三属性分类模型包括第三特征抽取网络、第三特征多分类网络,第一属性获取模块204在所述将所述目标对象输入至第三属性分类模型获得第三区域属性信息过程中,执行:
将所述目标对象对应的图像输入至所述第三特征抽取网络获得第三区域特征向量;
将所述第三区域特征向量输入至所述第三特征多分类网络获得所述第三区域属性信息。
在一些实施方式中,第二属性获取模块205在所述根据所述目标对象确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息过程中,执行:
根据所述目标对象进行关键点检测获得所述目标对象的关键位置信息;
将所述目标对象和所述关键位置信息输入属性识别模型获得所述目标对象对应的第二属性信息。
在一些实施方式中,所述属性识别模型包括关键特征提取网络、全局特征提取网络、自适应图卷积网络、属性识别网络,第二属性获取模块205在所述将所述目标对象和所述关键位置信息输入属性识别模型获得所述目标对象对应的第二属性信息过程中,执行:
将所述目标对象和所述关键位置信息输入至所述关键特征提取网络获得局部特征;
将所述目标对象输入至所述全局特征提取网络获得全局特征;
将所述局部特征和所述全局特征输入至所述自适应图卷积网络进行图卷积获得卷积特征;
将所述卷积特征输入至所述属性识别网络获得所述目标对象对应的第二属性信息。
在一些实施方式中,所述属性识别网络至少包括第一全连接层,第二属性获取模块205在所述将所述卷积特征输入至所述属性识别网络获得所述目标对象对应的第二属性信息过程中,执行:
将所述卷积特征输入至所述第一全连接层,获得所述第一全连接层对应的属性值;
根据所述属性值确定所述目标对象对应的所述第二属性信息。
在一些实施方式中,数据融合模块206在所述融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息过程中,执行:
基于证据理论结合所述第一属性信息和所述第二属性信息确定属性信息的预测概率;
根据所述预测概率和预设条件确定所述目标对象对应的第三属性信息。
在一些实施方式中,所述第一属性信息包括第一属性类别和第一属性类别对应的概率值对,所述概率值对包括所述第一区域图像或所述第二区域图像得到的第一概率值、所述目标对象得到的第二概率值,所述第二属性信息包括第二属性类别和第二属性类别对应的第三概率值,数据融合模块206在基于证据理论结合所述第一属性信息和所述第二属性信息确定属性信息的预测概率过程中,执行:
将所述第一属性类别和所述第二属性类别进行属性对齐,获得目标属性类别;
根据所述目标属性类别确定所述目标属性类别对应的所述第一概率值、所述第二概率值、所述第三概率值;
基于证据理论将所述第一概率值和所述第二概率值进行融合,获得融合概率;
基于证据理论将所述融合概率和所述第三概率值进行融合,获得目标属性类别的预测概率。
在一些实施方式中,数据融合模块206在将所述目标对象以及所述目标对象对应的第三属性信息存储至数据库中之后过程中,所述方法还执行:
获得数据查询信息,并根据所述数据查询信息在所述数据库中进行匹配获得与所述数据查询信息相匹配的匹配结果;
将所述匹配结果结合所述第三属性信息中的所述预测概率进行排序获得排序结果,并将所述排序结果作为所述数据查询信息的查询结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述视频数据结构化方法实施例中的对应过程,在此不再赘述。
请参阅图11,图11为本申请实施例提供的终端设备的结构示意性框图。
如图11所示,终端设备300包括处理器301和存储器302,处理器301和存储器302通过总线303连接,该总线比如为I2C(Inter-integrated Circuit)总线。
具体地,处理器301用于提供计算和控制能力,支撑整个服务器的运行。处理器301可以是中央处理单元 (Central Processing Unit,CPU),该处理器301还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
具体地,存储器302可以是Flash芯片、只读存储器 (ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请实施例方案相关的部分结构的框图,并不构成对本申请实施例方案所应用于其上的终端设备的限定,具体的终端设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,处理器301用于运行存储在存储器中的计算机程序,并在执行计算机程序时实现本申请任一实施例提供的视频数据结构化方法。
在一些实施方式中,处理器301用于运行存储在存储器中的计算机程序,应用于终端设备,并在执行计算机程序时实现如下步骤:
获得采集装置采集的第一视频数据,并对所述第一视频数据进行增强处理,获得所述第二视频数据;
获取所述第二视频数据中的关键图像,所述关键图像中包括目标对象;
利用目标解析网络对所述关键图像中的目标对象进行结构划分,得到所述目标对象所对应的第一区域图像和第二区域图像,其中,所述第一区域图像和所述第二区域图像构成所述目标对象对应的图像;
根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息,其中,所述第一属性信息用于表征所述目标对象的外在特征;
确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息,其中,所述关键位置信息用于表征所述目标对象中的关键部位的位置;
融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息,并将所述目标对象以及所述目标对象对应的第三属性信息存储至数据库中。
在一些实施方式中,处理器301在所述对所述第一视频数据进行增强处理,获得所述第二视频数据过程中,执行:
获得所述第一视频数据中不同时期视频的质量信息确定所述第一视频信息中的高质量视频信息和低质量视频信息,所述质量信息包括亮度信息、对比度信息、饱和度信息;
将所述高质量视频信息融合到所述低质量视频信息中获得所述第二视频数据。
在一些实施方式中,处理器301在所述将所述高质量视频信息融合到所述低质量视频信息中获得所述第二视频数据过程中,执行:
将所述低质量视频信息输入至图像处理参数模型中,获得所述低质量视频信息调整视频质量所需要的参数信息;
根据所述参数信息和所述高质量视频信息,确定所述低质量视频信息进行质量调整的目标参数信息;
根据所述目标参数信息调整所述低质量视频信息,获得所述第二视频数据。
在一些实施方式中,所述图像处理参数模型包括色彩特征提取网络、语义特征提取网络、特征融合网络、全连接回归网络,处理器301在所述将所述低质量视频信息输入至图像处理参数模型中,获得所述低质量视频信息调整视频质量所需要的参数信息过程中,执行:
将所述低质量视频信息输入至所述图像处理参数模型的色彩特征提取网络获得第一特征向量;
将所述低质量视频信息输入至所述图像处理参数模型的语义特征提取网络获得第二特征向量;
将所述第一特征向量和所述第二特征向量输入至所述图像处理参数模型的特征融合网络,获得第三特征向量;
将所述第三特征向量输入至所述图像处理参数模型的全连接回归网络获得所述低质量视频信息调整视频质量所需要的参数信息。
在一些实施方式中,处理器301在所述根据所述参数信息和所述高质量视频信息,确定所述低质量视频信息进行质量调整的目标参数信息过程中,执行:
根据所述高质量视频信息确定视频调整参数的阈值范围;
根据所述阈值范围和所述参数信息确定所述目标参数信息。
在一些实施方式中,所述目标解析网络包括残差网络、上采样网络、融合网络、特征提取网络、局部特征网络,处理器301在所述利用目标解析网络对所述关键图像中的目标对象进行结构划分,得到所述目标对象所对应的第一区域图像和第二区域图像过程中,执行:
将所述目标对象输入至所述目标解析网络的残差网络进行下采样获得第一区域特征;
将所述目标对象输入至所述目标解析网络的上采样网络进行上采样获得第二区域特征;
将所述第一区域特征和所述第二区域特征输入至所述目标解析网络的融合网络进行特征融合获得第三区域特征;
将所述第三区域特征输入至所述目标解析网络的局部特征网络获得所述目标对象对应的第一区域图像和第二区域图像。
在一些实施方式中,所述局部特征网络包括空间注意力机制,处理器301在所述将所述第三区域特征输入至所述目标解析网络的局部特征网络获得所述目标对象对应的第一区域图像和第二区域图像过程中,执行:
将所述第三区域特征结合所述空间注意力机制获得所述目标对象像素级的局部特征;
根据所述目标对象像素级的局部特征获得所述目标对象对应的第一区域图像和第二区域图像。
在一些实施方式中,处理器301在所述根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息过程中,执行:
将所述第一区域图像输入至第一属性分类模型获得第一区域属性信息;
将所述第二区域图像输入至第二属性分类模型获得第二区域属性信息;
将所述目标对象输入至第三属性分类模型获得第三区域属性信息;
根据所述第一区域属性信息、所述第二区域属性信息和所述第三区域属性信息获得第一属性信息。
在一些实施方式中,所述第一属性分类模型包括第一特征抽取网络、第一特征多分类网络,处理器301在所述将所述第一区域图像输入至第一属性分类模型获得第一区域属性信息过程中,执行:
将所述第一区域图像输入至所述第一特征抽取网络获得第一区域特征向量;
将所述第一区域特征向量输入至所述第一特征多分类网络获得所述第一区域属性信息。
在一些实施方式中,所述第二属性分类模型包括第二特征抽取网络、第二特征多分类网络,处理器301在所述将所述第二区域图像输入至第二属性分类模型获得第二区域属性信息过程中,执行:
将所述第二区域图像输入至所述第二特征抽取网络获得第二区域特征向量;
将所述第二区域特征向量输入至所述第二特征多分类网络获得所述第二区域属性信息。
在一些实施方式中,所述第三属性分类模型包括第三特征抽取网络、第三特征多分类网络,处理器301在所述将所述目标对象输入至第三属性分类模型获得第三区域属性信息过程中,执行:
将所述目标对象对应的图像输入至所述第三特征抽取网络获得第三区域特征向量;
将所述第三区域特征向量输入至所述第三特征多分类网络获得所述第三区域属性信息。
在一些实施方式中,处理器301在所述根据所述目标对象确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息过程中,执行:
根据所述目标对象进行关键点检测获得所述目标对象的关键位置信息;
将所述目标对象和所述关键位置信息输入属性识别模型获得所述目标对象对应的第二属性信息。
在一些实施方式中,所述属性识别模型包括关键特征提取网络、全局特征提取网络、自适应图卷积网络、属性识别网络,处理器301在所述将所述目标对象和所述关键位置信息输入属性识别模型获得所述目标对象对应的第二属性信息过程中,执行:
将所述目标对象和所述关键位置信息输入至所述关键特征提取网络获得局部特征;
将所述目标对象输入至所述全局特征提取网络获得全局特征;
将所述局部特征和所述全局特征输入至所述自适应图卷积网络进行图卷积获得卷积特征;
将所述卷积特征输入至所述属性识别网络获得所述目标对象对应的第二属性信息。
在一些实施方式中,所述属性识别网络至少包括第一全连接层,处理器301在所述将所述卷积特征输入至所述属性识别网络获得所述目标对象对应的第二属性信息过程中,执行:
将所述卷积特征输入至所述第一全连接层,获得所述第一全连接层对应的属性值;
根据所述属性值确定所述目标对象对应的所述第二属性信息。
在一些实施方式中,处理器301在所述融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息过程中,执行:
基于证据理论结合所述第一属性信息和所述第二属性信息确定属性信息的预测概率;
根据所述预测概率和预设条件确定所述目标对象对应的第三属性信息。
在一些实施方式中,所述第一属性信息包括第一属性类别和第一属性类别对应的概率值对,所述概率值对包括所述第一区域图像或所述第二区域图像得到的第一概率值、所述目标对象得到的第二概率值,所述第二属性信息包括第二属性类别和第二属性类别对应的第三概率值,处理器301在基于证据理论结合所述第一属性信息和所述第二属性信息确定属性信息的预测概率过程中,执行:
将所述第一属性类别和所述第二属性类别进行属性对齐,获得目标属性类别;
根据所述目标属性类别确定所述目标属性类别对应的所述第一概率值、所述第二概率值、所述第三概率值;
基于证据理论将所述第一概率值和所述第二概率值进行融合,获得融合概率;
基于证据理论将所述融合概率和所述第三概率值进行融合,获得目标属性类别的预测概率。
在一些实施方式中,处理器301在将所述目标对象以及所述目标对象对应的第三属性信息存储至数据库中之后过程中,所述方法还执行:
获得数据查询信息,并根据所述数据查询信息在所述数据库中进行匹配获得与所述数据查询信息相匹配的匹配结果;
将所述匹配结果结合所述第三属性信息中的所述预测概率进行排序获得排序结果,并将所述排序结果作为所述数据查询信息的查询结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端设备的具体工作过程,可以参考前述视频数据结构化方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种存储介质,用于计算机可读存储,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现如本申请说明书实施例提供的任一项视频数据结构化方法的步骤。
其中,存储介质可以是前述实施例的终端设备的内部存储单元,例如终端内存。存储介质也可以是终端设备的外部存储设备,例如终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
应当理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上,仅为本申请的具体实施例,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (20)
1.一种视频数据结构化方法,其特征在于,所述方法包括:
获得采集装置采集的第一视频数据,并对所述第一视频数据进行增强处理,获得所述第二视频数据;
获取所述第二视频数据中的关键图像,所述关键图像中包括目标对象;
利用目标解析网络对所述关键图像中的目标对象进行结构划分,得到所述目标对象所对应的第一区域图像和第二区域图像,其中,所述第一区域图像和所述第二区域图像构成所述目标对象对应的图像;
根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息,其中,所述第一属性信息用于表征所述目标对象的外在特征;
确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息,其中,所述关键位置信息用于表征所述目标对象中的关键部位的位置;
融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息,并将所述目标对象以及所述目标对象对应的第三属性信息存储至数据库中。
2.根据权利要求1中所述的方法,其特征在于,所述对所述第一视频数据进行增强处理,获得所述第二视频数据,包括:
获得所述第一视频数据中不同时期视频的质量信息确定所述第一视频信息中的高质量视频信息和低质量视频信息,所述质量信息包括亮度信息、对比度信息、饱和度信息;
将所述高质量视频信息融合到所述低质量视频信息中获得所述第二视频数据。
3.根据权利要求2中所述的方法,其特征在于,所述将所述高质量视频信息融合到所述低质量视频信息中获得所述第二视频数据,包括:
将所述低质量视频信息输入至图像处理参数模型中,获得所述低质量视频信息调整视频质量所需要的参数信息;
根据所述参数信息和所述高质量视频信息,确定所述低质量视频信息进行质量调整的目标参数信息;
根据所述目标参数信息调整所述低质量视频信息,获得所述第二视频数据。
4.根据权利要求3中所述的方法,其特征在于,所述图像处理参数模型包括色彩特征提取网络、语义特征提取网络、特征融合网络、全连接回归网络,所述将所述低质量视频信息输入至图像处理参数模型中,获得所述低质量视频信息调整视频质量所需要的参数信息,包括:
将所述低质量视频信息输入至所述图像处理参数模型的色彩特征提取网络获得第一特征向量;
将所述低质量视频信息输入至所述图像处理参数模型的语义特征提取网络获得第二特征向量;
将所述第一特征向量和所述第二特征向量输入至所述图像处理参数模型的特征融合网络,获得第三特征向量;
将所述第三特征向量输入至所述图像处理参数模型的全连接回归网络获得所述低质量视频信息调整视频质量所需要的参数信息。
5.根据权利要求3中所述的方法,其特征在于,所述根据所述参数信息和所述高质量视频信息,确定所述低质量视频信息进行质量调整的目标参数信息,包括:
根据所述高质量视频信息确定视频调整参数的阈值范围;
根据所述阈值范围和所述参数信息确定所述目标参数信息。
6.根据权利要求1中所述的方法,其特征在于,所述目标解析网络包括残差网络、上采样网络、融合网络、特征提取网络、局部特征网络,所述利用目标解析网络对所述关键图像中的目标对象进行结构划分,得到所述目标对象所对应的第一区域图像和第二区域图像,包括:
将所述目标对象输入至所述目标解析网络的残差网络进行下采样获得第一区域特征;
将所述目标对象输入至所述目标解析网络的上采样网络进行上采样获得第二区域特征;
将所述第一区域特征和所述第二区域特征输入至所述目标解析网络的融合网络进行特征融合获得第三区域特征;
将所述第三区域特征输入至所述目标解析网络的局部特征网络获得所述目标对象对应的第一区域图像和第二区域图像。
7.根据权利要求6中所述的方法,其特征在于,所述局部特征网络包括空间注意力机制,所述将所述第三区域特征输入至所述目标解析网络的局部特征网络获得所述目标对象对应的第一区域图像和第二区域图像,包括:
将所述第三区域特征结合所述空间注意力机制获得所述目标对象像素级的局部特征;
根据所述目标对象像素级的局部特征获得所述目标对象对应的第一区域图像和第二区域图像。
8.根据权利要求1中所述的方法,其特征在于,所述根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息,包括:
将所述第一区域图像输入至第一属性分类模型获得第一区域属性信息;
将所述第二区域图像输入至第二属性分类模型获得第二区域属性信息;
将所述目标对象输入至第三属性分类模型获得第三区域属性信息;
根据所述第一区域属性信息、所述第二区域属性信息和所述第三区域属性信息获得第一属性信息。
9.根据权利要求8中所述的方法,其特征在于,所述第一属性分类模型包括第一特征抽取网络、第一特征多分类网络,所述将所述第一区域图像输入至第一属性分类模型获得第一区域属性信息,包括:
将所述第一区域图像输入至所述第一特征抽取网络获得第一区域特征向量;
将所述第一区域特征向量输入至所述第一特征多分类网络获得所述第一区域属性信息。
10.根据权利要求8中所述的方法,其特征在于,所述第二属性分类模型包括第二特征抽取网络、第二特征多分类网络,所述将所述第二区域图像输入至第二属性分类模型获得第二区域属性信息,包括:
将所述第二区域图像输入至所述第二特征抽取网络获得第二区域特征向量;
将所述第二区域特征向量输入至所述第二特征多分类网络获得所述第二区域属性信息。
11.根据权利要求8中所述的方法,其特征在于,所述第三属性分类模型包括第三特征抽取网络、第三特征多分类网络,所述将所述目标对象输入至第三属性分类模型获得第三区域属性信息,包括:
将所述目标对象对应的图像输入至所述第三特征抽取网络获得第三区域特征向量;
将所述第三区域特征向量输入至所述第三特征多分类网络获得所述第三区域属性信息。
12.根据权利要求1中所述的方法,其特征在于,所述根据所述目标对象确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息,包括:
根据所述目标对象进行关键点检测获得所述目标对象的关键位置信息;
将所述目标对象和所述关键位置信息输入属性识别模型获得所述目标对象对应的第二属性信息。
13.根据权利要求12中所述的方法,其特征在于,所述属性识别模型包括关键特征提取网络、全局特征提取网络、自适应图卷积网络、属性识别网络,所述将所述目标对象和所述关键位置信息输入属性识别模型获得所述目标对象对应的第二属性信息,包括:
将所述目标对象和所述关键位置信息输入至所述关键特征提取网络获得局部特征;
将所述目标对象输入至所述全局特征提取网络获得全局特征;
将所述局部特征和所述全局特征输入至所述自适应图卷积网络进行图卷积获得卷积特征;
将所述卷积特征输入至所述属性识别网络获得所述目标对象对应的第二属性信息。
14.根据权利要求13中所述的方法,其特征在于,所述属性识别网络至少包括第一全连接层,所述将所述卷积特征输入至所述属性识别网络获得所述目标对象对应的第二属性信息,包括:
将所述卷积特征输入至所述第一全连接层,获得所述第一全连接层对应的属性值;
根据所述属性值确定所述目标对象对应的所述第二属性信息。
15.根据权利要求1中所述的方法,其特征在于,所述融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息,包括:
基于证据理论结合所述第一属性信息和所述第二属性信息确定属性信息的预测概率;
根据所述预测概率和预设条件确定所述目标对象对应的第三属性信息。
16.根据权利要求15中所述的方法,其特征在于,所述第一属性信息包括第一属性类别和第一属性类别对应的概率值对,所述概率值对包括所述第一区域图像或所述第二区域图像得到的第一概率值、所述目标对象得到的第二概率值,所述第二属性信息包括第二属性类别和第二属性类别对应的第三概率值,基于证据理论结合所述第一属性信息和所述第二属性信息确定属性信息的预测概率,包括:
将所述第一属性类别和所述第二属性类别进行属性对齐,获得目标属性类别;
根据所述目标属性类别确定所述目标属性类别对应的所述第一概率值、所述第二概率值、所述第三概率值;
基于证据理论将所述第一概率值和所述第二概率值进行融合,获得融合概率;
基于证据理论将所述融合概率和所述第三概率值进行融合,获得目标属性类别的预测概率。
17.根据权利要求15中所述的方法,其特征在于,将所述目标对象以及所述目标对象对应的第三属性信息存储至数据库中之后,所述方法还包括:
获得数据查询信息,并根据所述数据查询信息在所述数据库中进行匹配获得与所述数据查询信息相匹配的匹配结果;
将所述匹配结果结合所述第三属性信息中的所述预测概率进行排序获得排序结果,并将所述排序结果作为所述数据查询信息的查询结果。
18.一种视频数据结构化装置,其特征在于,包括:
数据获取模块,用于获得采集装置采集的第一视频数据,并对所述第一视频数据进行增强处理,获得所述第二视频数据;
数据提取模块,用于获取所述第二视频数据中的关键图像,所述关键图像中包括目标对象;
数据划分模块,用户利用目标解析网络对所述关键图像中的目标对象进行结构划分,得到所述目标对象所对应的第一区域图像和第二区域图像,其中,所述第一区域图像和所述第二区域图像构成所述目标对象对应的图像;
第一属性获取模块,用于根据所述第一区域图像、所述第二区域图像确定所述目标对象对应的第一属性信息,其中,所述第一属性信息用于表征所述目标对象的外在特征;
第二属性获取模块,用于确定所述目标对象的关键位置信息,并根据所述目标对象和所述关键位置信息进行属性预测,获得所述目标对象对应的第二属性信息,其中,所述关键位置信息用于表征所述目标对象中的关键部位的位置;
数据融合模块,用于融合所述第一属性信息和所述第二属性信息,确定所述目标对象对应的第三属性信息,并将所述目标对象以及所述目标对象对应的第三属性信息存储至数据中。
19.一种终端设备,其特征在于,所述终端设备包括处理器、存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至17中任一项所述的视频数据结构化方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至17中任一项所述视频数据结构化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389400.5A CN116108225A (zh) | 2023-04-13 | 2023-04-13 | 视频数据结构化方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310389400.5A CN116108225A (zh) | 2023-04-13 | 2023-04-13 | 视频数据结构化方法、装置、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116108225A true CN116108225A (zh) | 2023-05-12 |
Family
ID=86267638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310389400.5A Pending CN116108225A (zh) | 2023-04-13 | 2023-04-13 | 视频数据结构化方法、装置、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116108225A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800679A (zh) * | 2018-12-29 | 2019-05-24 | 上海依图网络科技有限公司 | 一种确定待识别对象的属性信息的方法及装置 |
CN109815842A (zh) * | 2018-12-29 | 2019-05-28 | 上海依图网络科技有限公司 | 一种确定待识别对象的属性信息的方法及装置 |
CN109902548A (zh) * | 2018-07-20 | 2019-06-18 | 华为技术有限公司 | 一种对象属性识别方法、装置、计算设备及系统 |
CN110263605A (zh) * | 2018-07-18 | 2019-09-20 | 桂林远望智能通信科技有限公司 | 基于二维人体姿态估计的行人服饰颜色识别方法及装置 |
CN111598164A (zh) * | 2020-05-15 | 2020-08-28 | 北京百度网讯科技有限公司 | 识别目标对象的属性的方法、装置、电子设备和存储介质 |
CN113159200A (zh) * | 2021-04-27 | 2021-07-23 | 苏州科达科技股份有限公司 | 对象分析方法、装置及存储介质 |
CN113763296A (zh) * | 2021-04-28 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 图像处理方法、设备以及介质 |
-
2023
- 2023-04-13 CN CN202310389400.5A patent/CN116108225A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263605A (zh) * | 2018-07-18 | 2019-09-20 | 桂林远望智能通信科技有限公司 | 基于二维人体姿态估计的行人服饰颜色识别方法及装置 |
CN109902548A (zh) * | 2018-07-20 | 2019-06-18 | 华为技术有限公司 | 一种对象属性识别方法、装置、计算设备及系统 |
CN109800679A (zh) * | 2018-12-29 | 2019-05-24 | 上海依图网络科技有限公司 | 一种确定待识别对象的属性信息的方法及装置 |
CN109815842A (zh) * | 2018-12-29 | 2019-05-28 | 上海依图网络科技有限公司 | 一种确定待识别对象的属性信息的方法及装置 |
CN111598164A (zh) * | 2020-05-15 | 2020-08-28 | 北京百度网讯科技有限公司 | 识别目标对象的属性的方法、装置、电子设备和存储介质 |
CN113159200A (zh) * | 2021-04-27 | 2021-07-23 | 苏州科达科技股份有限公司 | 对象分析方法、装置及存储介质 |
CN113763296A (zh) * | 2021-04-28 | 2021-12-07 | 腾讯云计算(北京)有限责任公司 | 图像处理方法、设备以及介质 |
Non-Patent Citations (1)
Title |
---|
饶云波: "夜间视频增强的关键技术研究", 《中国博士学位论文全文数据库》 信息科技辑, pages 138 - 25 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11615559B2 (en) | Methods and systems for human imperceptible computerized color transfer | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
KR102102161B1 (ko) | 이미지 내 객체의 대표 특성을 추출하는 방법, 장치 및 컴퓨터 프로그램 | |
JP2020526809A (ja) | 仮想顔化粧の除去、高速顔検出およびランドマーク追跡 | |
US10929978B2 (en) | Image processing apparatus, training apparatus, image processing method, training method, and storage medium | |
US10915744B2 (en) | Method for evaluating fashion style using deep learning technology and system therefor | |
CN109215091B (zh) | 一种基于图表示的服装流行色彩自动提取方法 | |
CN108647696B (zh) | 图片颜值确定方法及装置、电子设备、存储介质 | |
CN113344000A (zh) | 证件翻拍识别方法、装置、计算机设备和存储介质 | |
US20210012503A1 (en) | Apparatus and method for generating image | |
TW202242804A (zh) | 用於影像處理的方法、裝置、電子設備及儲存媒體 | |
CN112200818A (zh) | 基于图像的着装区域分割和着装替换方法、装置及设备 | |
JP2023115104A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US11682143B2 (en) | System and method for hair analysis of user | |
US20160140748A1 (en) | Automated animation for presentation of images | |
CN111080748B (zh) | 基于互联网的图片自动合成系统 | |
CN105989571A (zh) | 基于使用结构相似性的图像匹配对计算机视觉预处理进行的控制 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
US20220358752A1 (en) | Apparatus and method for developing space analysis model based on data augmentation | |
CN116108225A (zh) | 视频数据结构化方法、装置、终端设备及存储介质 | |
CN110415816A (zh) | 一种基于迁移学习的皮肤病临床图像多分类方法 | |
CN112218006B (zh) | 一种多媒体数据处理方法、装置、电子设备及存储介质 | |
CN108509838B (zh) | 一种在联合条件下进行群体着装解析的方法 | |
Yuan et al. | Full convolutional color constancy with adding pooling | |
JP2014067129A (ja) | スケール毎の特徴量と色分布との関係を考慮した色変換処理プログラム、装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230512 |
|
RJ01 | Rejection of invention patent application after publication |