CN111695458A - 一种视频图像帧处理方法及装置 - Google Patents
一种视频图像帧处理方法及装置 Download PDFInfo
- Publication number
- CN111695458A CN111695458A CN202010468619.0A CN202010468619A CN111695458A CN 111695458 A CN111695458 A CN 111695458A CN 202010468619 A CN202010468619 A CN 202010468619A CN 111695458 A CN111695458 A CN 111695458A
- Authority
- CN
- China
- Prior art keywords
- face
- video
- information
- feature
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 89
- 238000000605 extraction Methods 0.000 claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims description 126
- 230000015654 memory Effects 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 27
- 230000036544 posture Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 15
- 238000013136 deep learning model Methods 0.000 description 14
- 241000282414 Homo sapiens Species 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 12
- 230000014509 gene expression Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 230000001815 facial effect Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000001133 acceleration Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 210000000697 sensory organ Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种视频图像帧处理方法及装置,涉及图像处理技术领域,方法包括:对待处理视频进行抽帧处理,得到各待处理视频帧;分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息;将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息;根据各个目标人脸特征信息确定人脸属性特征值,并将所述人脸属性特征值作为目标用户的人脸属性特征值。能够准确的确定目标用户的面部属性特征值。
Description
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种视频图像帧处理方法及装置。
背景技术
近年来,随着微电子技术、计算机软硬件技术的快速发展,移动终端能够搭载越来越复杂且功能强大的应用程序,为图像处理设备个性化提供了实现可能。
现有技术中,用户可以通过移动终端进行拍摄,通过对拍摄信息的数据处理过程,能够确定用户的面部属性特征值。
但是现有技术中确定用户面部属性特征值的过程中,存在随机性以及不确定性,当拍摄信息中用户的姿态、表情、环境信息等变化较多时,对于同一用户确定的面部属性特征值会存在差异性,导致现有技术中不能准确稳定的确定用户面部属性特征值。
发明内容
本申请实施例提供一种视频图像帧处理方法及装置,用以能够通过用户的视频信息准确稳定的确定用户的面部属性特征值。
一方面,本申请实施例提供一种视频图像帧处理方法,方法包括:
对待处理视频进行抽帧处理,得到各待处理视频帧;
分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息;
将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息;
根据各个目标人脸特征信息确定人脸属性特征值,并将所述人脸属性特征值作为目标用户的人脸属性特征值。
一方面,本申请实施例提供一种视频打分方法,方法包括:
获取目标用户上传的待处理视频;
对待处理视频进行抽帧处理,得到各待处理视频帧;
分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息;
将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息;
根据各个目标人脸特征信息确定人脸属性特征值,并将人脸属性特征值作为目标用户的人脸属性特征值;
根据目标用户的人脸属性特征值,对待处理视频进行打分。
一方面,本申请实施例提供一种视频图像帧处理装置,包括:
抽帧单元,用于对待处理视频进行抽帧处理,得到各待处理视频帧;
人脸特征信息获取单元,用于分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息;
目标人脸特征信息确定单元,用于将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息;
人脸属性特征值确定单元,用于根据各个目标人脸特征信息确定人脸属性特征值,并将所述人脸属性特征值作为目标用户的人脸属性特征值。
可选的,所述人脸属性特征值确定单元具体用于:
通过至少两个人脸属性特征判定模型,分别将各个目标人脸特征信息为对应的人脸属性特征值,不同人脸属性特征判定模型是通过不同的训练用户的不同人脸特征训练信息和/或不同的训练方法得到的;
根据不同人脸属性特征判定模型的权重确定每个人脸属性特征判定模型确定的各人脸属性特征值的权重,根据各人脸属性特征值以及各人脸属性特征值的权重确定所述人脸属性特征值。
可选的,所述人脸特征信息获取单元具体用于:
通过所述人脸特征提取模型中的人脸识别单元,确定仅包括一个人脸信息的各待处理视频帧,并且各待处理视频帧中的人脸信息的角度满足预设角度要求;
所述目标人脸特征信息确定单元具体用于:
若确定存在任一人脸特征信息与设定数量个其它人脸特征信息的相似度满足所述相似度设定条件,则确定所述人脸特征信息为所述目标人脸特征信息。
可选的,所述装置还包括:
训练单元,用于获取训练样本,所述训练样本中包括所述训练用户的训练视频,所述训练用户的人脸特征标签信息、所述训练用户的人脸属性标签特征值;
对所述训练视频进行抽帧处理,得到各训练视频帧;
将各训练视频帧输入至所述人脸特征提取模型进行迭代训练,每次训练过程中根据所述人脸特征标签信息更新所述人脸特征提取模型的模型参数,直至迭代终止时,得到已训练的所述人脸特征提取模型;
将已训练的所述人脸特征提取模型输出的人脸特征信息输入至所述人脸属性特征判定模型进行迭代训练,每次训练过程中根据所述训练用户的人脸属性标签特征值更新所述人脸属性特征判定模型的模型参数,直至迭代终止时,得到已训练的所述人脸属性特征判定模型。
一方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述视频图像帧处理方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述视频图像帧处理方法的步骤。
本申请实施例提供的视频图像帧处理方法,从待处理视频中得到待处理视频,并通过对待处理视频的处理,得到目标用户的人脸属性特征值。
具体的,在本申请实施例中,由于各待处理视频帧中存在不具有人脸特征信息的视频帧,所以首先对各待处理视频帧进行人脸特征提取,从待处理视频帧中获得各人脸特征信息。在得到各人脸特征信息后,将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息,也就是说,目标人脸特征信息之间的相似程度比较接近,可以认目标人脸特征信息为同一用户的人脸特征信息,即目标用户的人脸特征信息。在得到目标人脸特征信息后,根据各个目标人脸特征信息确定人脸属性特征值,这个人脸属性特征值就是目标用户的人脸属性特征值。
通过上述视频图像帧处理方法,能够从待处理视频帧中得到满足相似度设定条件的目标人脸特征信息,也就是说,各目标人脸特征信息都是能够表征目标用户的人脸特征信息,这些人脸特征信息是具有相似性,且这些人脸特征信息也是区别于其它用户的特征。所以在本申请实施例中,根据这些表征目标用户的人脸特征信息确定人脸属性特征值,能够更加准确的确定目标用户的人脸属性特征值。在一些特殊场景下,例如待处理视频中目标用户做了不同的脸部表情的情况下,仍然通过本申请实施例中的方法,得到不同的脸部表情对应的各相似目标人脸特征信息,由于不同的脸部表情对应的各相似目标人脸特征信息之间的相似度高,所以根据不同的脸部表情对应的各相似目标人脸特征信息确定目标用户的人脸属性特征值时,则能够输出一个稳定的特征值结果。
由于现有技术都是根据单张照片或者单一视频帧确定目标用户的人脸属性特征值,所以本申请实施例中的视频图像帧处理方法能够根据多帧视频帧确定用户面部属性特征值,并且目标用户不同角度不同表情的视频帧的面部属性特征值的结果差异性较小,所以能够准确的确定目标用户的面部属性特征值。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种终端设备的结构示意图;
图2为本申请实施例提供的一种视频图像帧处理方法的应用场景示意图;
图3为本申请实施例提供的一种视频图像帧处理方法的流程示意图;
图4为本申请实施例提供的一种人脸图像特征信息提取方法的流程示意图;
图5为本申请实施例提供的一种基于深度学习视频图像帧处理方法的流程示意图;
图6为本申请实施例提供的一种视频图像帧处理方法具体应用场景的示意图;
图7为本申请实施例提供的一种视频图像帧处理装置的结构示意图;
图8为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
机器学习(MachineLearning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(DL,Deep Learning):是机器学习领域中一个新的研究方向,深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。
卷积神经网络(Convolutional Neural Networks,CNN):是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络常用于进行图像分类,也可以学习本申请实施例中的目标人脸特征信息中的特征内容,然后将学习到的特征内容转换为人脸属性特征值。
过拟合:在进行有监督的机器学习建模时,一般假设数据独立同分布,即样本数据根据通过一个概率分布采样得到,而且这些样本相互之间独立。使用训练数据集去训练模型,使得损失函数最小化,然后用训练得到的模型去预测未知数据。如果训练数据即的特征维度过多,模型假设过于复杂,参数过多,训练数据过少,噪声过多,就会导致拟合的函数对于训练集的预测效果准确,但对新数据的测试集预测结果差。
人脸姿态:姿态通常是指物体相对于相机的相对取向和位置,具体于人脸而言,即是指人脸相对于相机的相对取向和位置。一般是以正脸为基准,在左右旋转头部或者俯仰转动头部时,人的正脸则会相对于固定的相机产生一定的旋转角或者俯仰角,因此在正脸相对于相机的旋转角或者俯仰角不同时,则认为人脸处于不同的姿态。
人脸特征信息:指的是人脸面部的一种的抽象结果,一般分为集合特征和表征特征,具体的,何特征是指眼睛、鼻子和嘴等面部特征之间的几何关系,如距离、面积和角度等。表征特征利用人脸图像的灰度信息,通过一些算法提取全局或局部特征。
人脸属性特征值:指的是对人脸具有的本质特征的一种数字表达或者分类表达,人脸属性可以包括年龄属性、性别属性或者颜值属性,进一步地,人脸属性特征值可以为年龄值、性别分类结果以及颜值分数结果。
目标用户:人脸属性特征值对应的用户,可以是待处理视频中的主体用户,即待处理视频帧中的大部分或者全部人脸信息的主体。
在具体实践过程中,本申请的发明人发现,在确定人脸属性特征值的过程中,现有技术中通常是使用一张照片或者视频帧中的一帧来确定人脸属性特征值的,当确定人脸属性特征值使用的照片或者视频帧为用户在特殊表情照片或者特殊环境下拍摄得到时,就会出现确定人脸属性特征值不准确的情况。例如,人脸属性特征值为人脸颜值,若确定用户人脸颜值时使用的是一张用户正在做鬼脸的照片或者视频帧时,会导致确定的人脸颜值低的问题。
并且在现有技术中,若一张照片或者视频帧中的一帧中存在至少两个用户的人脸信息,则在计算人脸属性特征值时会将不是目标用户的颜值信息也加入到计算中,导致计算得到的人脸属性特征值不准确的问题。
进一步地,虽然现有技术中使用了深度学习模型例如CNN来确定人脸属性特征值,通过CNN来学习输入的照片或者视频帧的图像特征,然后将学习到的图像特征映射为人脸属性特征值。但是由于深度学习模型为一种黑盒子,为了达到预期的人脸属性特征值的效果,需要海量的数据进行训练,训练难度大,训练周期长且容易过拟合。
基于上述问题,本申请提出一种视频图像帧处理方法,能够将视频帧中属于目标用户的人脸特征信息提取出来,作为目标人脸特征信息,然后根据各人脸特征信息确定人脸属性特征值,这个人脸属性特征值就是目标用户的人脸属性特征值。
具体的,在本申请实施例中,首先需要对待处理视频进行抽帧处理,得到至少两个待处理视频帧;本申请的发明人认为,可能存在没有人脸信息的待处理视频帧,所以对各待处理视频帧进行人脸特征提取时,需要从有人脸信息的视频帧中提取出人脸特征信息;并进一步考虑到若人脸信息中有至少两个用户的人脸信息的情况,此时,可通过各人脸信息与其它人脸信息的相似度来选择出目标用户的目标人脸特征信息。具体的,将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息,通过这一步骤,能够将属于目标用户的与其它用户具有区别的人脸特征信息提取出来,克服了现有技术中确定人脸属性特征值使用的照片或者视频帧为用户在特殊表情照片或者特殊环境下拍摄得到时,就会出现确定人脸属性特征值不准确的情况。通过确定的目标人脸特征信息,可以得到目标用户的人脸属性特征值。
通过本申请实施例中的视频图像帧处理方法,能够从待处理视频帧中提取出属于同一用户的人脸特征信息,这些人脸特征信息是相似的,所以通过这些人脸特征信息确定的人脸属性特征值也是相似的,克服了现有技术中确定人脸属性特征值不准确以及不稳定的问题,并且在获得了目标人脸特征信息后,即使通过深度学习模型,例如CNN模型确定人脸属性特征值,由于已经提取了目标人脸特征信息,CNN模型在训练过程中只需要将人脸属性特征值映射为人脸属性特征值,所以训练过程中只需要少量数量进行训练,也不会出现过拟合的问题。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
为了解决现有技术中确定人脸属性特征值存在的问题,本发明提供了一种视频图像帧处理。本发明提供的方法,可以应用于具有视频图像帧处理能力的应用程序中,应用程序可以设置于终端设备中。该终端设备可以为手机、平板电脑、各类可穿戴设备、PDA(Personal Digital Assistant,掌上电脑)等,也可以是服务器,进一步地,服务器可以为任何能够提供视频图像帧处理的设备,例如可以是一台服务器或若干台服务器组成的服务器集群或云计算中心。服务器可以是独立的物理服务器,也可以是至少两个物理服务器构成的服务器集群或者分布式系统。
图1示出了一种终端设备100的结构示意图。参照图1所示,终端设备100包括:处理器110、存储器120、重力加速度传感器130、显示单元1/40、输入单元150、射频(radiofrequency,RF)电路160以及电源170等。
其中,处理器110是终端设备100的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在存储器120内的软件程序和/或数据,执行终端设备100的各种功能,从而对终端设备进行整体监控。可选的,处理器110可包括一个或至少两个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。在一些实施例中,处理器、存储器、可以在单一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、各种应用程序等;存储数据区可存储根据终端设备100的使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
重力加速度传感器130可检测各个方向上(一般为三轴)加速度的大小,同时,重力加速度传感器130还可用于检测终端静止时重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备100的各种菜单等,本发明实施例中主要用于显示终端设备100中各应用程序的显示界面以及显示界面中显示的文本、图片等对象。显示单元140可以包括显示面板141。显示面板141可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置。
输入单元150可用于接收用户输入的数字或字符等信息。输入单元150可包括触控面板151以及其他输入设备152。其中,触控面板151,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板151上或在触控面板151附近的操作),例如本发明实施例中的触控面板151可用于检测是否有视频图像帧处理触发操作,以此确定是否进行视频图像帧处理过程。具体的,触控面板151可以检测用户的触摸操作,并检测触摸操作带来的信号,将这些信号转换成触点坐标,发送给处理器110,并接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板151。其他输入设备152可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
当然,触控面板151可覆盖显示面板141,当触控面板151检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图2中,触控面板151与显示面板141是作为两个独立的部件来实现终端设备100的输入和输出功能,但是在某些实施例中,可以将触控面板151与显示面板141集成而实现终端设备100的输入和输出功能。
终端设备100还可包括RF电路160,可用于和基站进行收发信息或数据。通常,RF电路160包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。本发明实施例中,RF电路160可以通过无线通信与网络和其他电子设备通信,无线通信可以使用任一通信标准或协议。
终端设备100还包括给各个部件供电的电源170(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
终端设备100还可以包括音频电路180、扬声器181、麦克风182可提供用户与终端设备之间的音频接口。音频电路180可将接收到的音频数据转换后的电信号传输到扬声器181,由扬声器181转换为声音信号输出;另一方面,麦克风182将收集的声音信号转换为电信号,由音频电路180接收后转换为音频数据,再将音频数据输出处理器110处理后输出,或者将音频数据输出至存储器120以便进一步处理。
终端设备100还可包括一个或至少两个传感器,例如压力传感器、重力加速度传感器、接近光传感器等。当然,根据具体应用中的需要,上述终端设备100还可以包括摄像头等其它部件,由于这些部件不是本申请实施例中重点使用的部件,因此,在图1中没有示出,且不再详述。
上述实施例描述了终端设备100的具体架构,而具体的,本申请实施例提供的视频图像帧处理方法的应用场景参考图2所示的应用场景示意图,在本申请实施例中,终端设备100为服务器100,用户10通过用户设备11拍摄了待处理视频,并将待处理视频发送给服务器100,通过服务器100为用户10确定人脸属性特征值。
具体的,服务器100在接收到待处理视频后,进行抽帧处理,得到各待处理视频帧,对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息,这里得到的人脸特征信息可能不是用户10的,所以还需要通过相似度来进行进一步筛选,将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息。根据各个目标人脸特征信息确定人脸属性特征值,并将人脸属性特征值作用户10的人脸属性特征值。
服务器100在确定用户10的人脸属性特征值后,可以将人脸属性特征值发送给用户设备11,向用户10进行展示。
需要说明的是,用户设备11与服务器100之间通过网络进行通信连接,该网络可以为局域网、广域网等。用户设备11可以为便携设备(例如:手机、平板、笔记本电脑等),也可以为个人电脑(PC,Personal Computer),用户设备11可以进行视频拍摄。
当然,本申请实施例提供的方法并不限用于图2所示的应用场景中,还可以用于其它可能的应用场景,本申请实施例并不进行限制。对于图2所示的应用场景的各设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
下面结合图2所示的应用场景,对本申请实施例提供的技术方案进行说明。
参考图3,本申请实施例提供一种视频图像帧处理方法,包括:
步骤S301,对待处理视频进行抽帧处理,得到各待处理视频帧。
具体的,待处理视频帧可以是用户自己拍摄上传的,也可以是通过任意视频应用软件获取的,在本申请实施例中不做限定。
在本申请实施例中,在获得了待处理视频后,可以按照固定帧率进行抽帧,也可以按照预先设定的方式进行抽帧,例如,根据视频中的跳帧情况来进行抽帧,跳帧即当前帧与下一帧之间的画面差别较大,此时,可以认为视频中的人脸等场景画面发生了变化,有必要进行抽帧处理。当然,在实际操作中,对抽帧方式不做限定。
步骤S302,分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息。
具体的,由于本申请实施例确定的是人脸属性特征值,所以还需要从各待处理视频中确定各个人脸的人脸特征信息。
可选的,由于各待处理视频帧中可能包括没有人脸信息的视频帧,所以首先需要从各待处理视频帧中确定有人脸信息的视频帧。
具体的,一种可选的实施例,可以通过图像处理的方式来确定具有人脸信息的视频帧,例如可以基于几何特征进行人脸识别,几何特征可以是眼、鼻、嘴等的形状和它们之间的几何关系,通过确定各待处理视频帧是否具有几何特征,若具有几何特征,则可以确定该待处理视频帧具有人脸信息。
另一种可选的实施例,可以通过基于特征脸(PCA)的方式确定具有人脸信息的视频帧,特征脸方法是基于KL变换的人脸识别方法,KL变换是图像压缩的一种最优正交变换。高维的图像空间经过KL变换后得到一组新的正交基,保留其中重要的正交基,由这些正交基可以将图像转换成低维线性空间。假设人脸信息在这些低维线性空间的投影具有可分性,就可以将这些投影用作识别的特征矢量。所以,在本申请实施例中,若能获取到各待处理视频帧中的各投影的特征矢量,就可以认为该待处理视频帧具有人脸信息。
还有一种可选的实施例,通过深度学习模型中的神经网络来确定具有人脸信息的视频帧,可以将各待处理视频帧输入到神经网络中,若能够通过神经网络输出的向量是包括人脸图像特征的,则可以确定该待处理视频帧具有人脸信息。
在确定具有人脸信息的各待处理视频帧后,将各人脸特征信息提取出来。
将各人脸特征信息提取出来的方法有多种,例如可以通过边缘检测的方式,确定待处理视频帧中的人脸信息,并提取人脸信息;或者通过关键点检测算法,将待处理视频帧中的人脸信息的关键点信息全部提取出来;或者使用深度学习模型,例如局部约束模型CLM,学习人脸信息,并将人脸信息从待处理视频帧提取出来,或者通过已训练的人脸识别模型,从各待处理视频帧中提取出各人脸特征信息。
可选的,提取出的各人脸特征信息可以是用向量来表示的,向量可以是多维的,每一维可以表征一种特有的人脸特征信息,例如五官的位置信息、五官的比例信息等,具体的,可以通过128维向量来表征一个人脸的人脸特征信息。
进一步地,由于本申请实施例需要确定人脸属性特征值,所以还需要对提取出的人脸信息进行筛选,例如人脸角度比较偏时,则会造成提取出的人脸信息只能包括用户的部分人脸,进而确定的人脸特征信息也不准确;或者,若待处理视频帧中具有多个用户,则会将多个用户的人脸信息提取出来,然后根据提取出的人脸信息确定的人脸属性特征值的准确性低,所以在本申请实施例中,在确定出人脸信息后,将符合设定角度的人脸信息保留,进一步地,若存在多个人脸信息,则将不符合设定角度的人脸信息都丢弃。这样进行筛选后,就可以更准确的提取出人脸图像特征信息。
下面示例性的描述通过深度学习模型来确定具有人脸图像的各待处理视频帧以及将人脸图像特征信息提取出来的过程,参考图4,将各待处理视频帧输入到第一个深度学习模型,该模型为人脸识别模型,人脸识别模型识别出具有人脸信息的各待处理视频帧,然后将这些待处理视频帧输入到第二个深度学习模型中,该模型为人脸特征提取模型,通过人脸提取模型将各待处理视频帧中的人脸信息转换为128维向量。
进一步地,由于深度学习模型的不断发展,新的人脸识别模型以及人脸特征提取模型的精度越来越高,为了提高本申请实施例中的人脸识别的精度以及人脸特征提取的精度,在本申请实施例中,可以通过FaceNet模型来进行人脸识别以及人脸特征提取。
FaceNet模型使用深度卷积网络进行人脸识别,该方法中最重要的部分在于整个系统的端到端学习。FaceNet模型采用三元组损失(Triplet Loss),使得相同身份的所有面部之间的平方距离(与成像条件无关)很小,而来自不同身份的一对面部图像之间的平方距离很大。也就是说,若是属于同一用户的人脸信息,得到的特征值之间的相似度差异小,而属于不同用户的人脸信息,确定的特征值之间的相似度差异很大。
所以本申请实施例中,可以通过FaceNet模型确定各人脸特征信息,这些信息可以代表同一用户的相似特征,也可以表征不同用户之间的差异特征。
示例性的,若FcaceNet模型输出的是128维向量,则针对同一用户的每一维向量的相似度差异小,针对不同用户的每一维向量的相似度差异大。
步骤S303,将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息。
具体的,由于待处理视频中可能存在不只一个用户的信息,所以在本申请实施例中,为了能够将属于目标用户的人脸特征信息提取出来,并且属于目标用户的人脸特征信息之间具有相似度,所以可以通过相似度来选择属于目标用户到得目标人脸特征信息。
一种可选的实施例中,可以通过丢弃不相似的人脸特征信息来选择目标人脸特征信息。例如存在人脸特征信息1、人脸特征信息2、人脸特征信息3以及人脸特征信息4,其中,人脸特征信息4与人脸特征信息1、人脸特征信息2以及人脸特征信息3之间的相似度都小于设定相似度阈值,则可以将人脸特征信息4丢弃,而人脸特征信息1、人脸特征信息2、人脸特征信息3就是目标人脸特征信息。
另一种可选的实施例中,若可以确定任一人脸特征信息与设定数量的其它人脸特征信息的相似度满足相似度设定条件,则确定人脸特征信息为目标人脸特征信息。也就是说,若任一人脸特征信息与大部分的人脸特征信息的相似度都满足相似度设定条件,可以确定该人脸特征信息就是目标人脸特征信息。
通过上述确定目标人脸特征信息的过程,能够将属于目标用户的目标人脸特征信息提取出来,并且,若目标用户在待处理视频帧处于不同的环境或者呈现了不同的人脸姿态,输出的目标人脸特征信息仍然是相似的,所以也能进一步准确的确定目标用户的人脸属性特征。
步骤S304,根据各个目标人脸特征信息确定人脸属性特征值,并将人脸属性特征值作为目标用户的人脸属性特征值。
具体的,在本申请实施例中,在确定了各目标人脸特征信息后,确定人脸属性特征值,这个属性特征值就是目标用户的人脸属性特征值。
一种可选的实施例中,可以将各目标人脸特征信息综合为一个或者至少两个综合人脸特征信息,然后根据综合人脸特征信息确定人脸属性特征值。示例性的,将各目标人脸特征信息对位相加,得到一个综合的人脸特征信息,例如,目标人脸特征信息1包括128个信息,目标人脸特征2也包括128个信息,则将目标人脸特征信息1的第1个信息与目标人脸特征信息2的第1个信息相加,将目标人脸特征信息1的第2个信息与目标人脸特征信息2的第2个信息相加,……,将目标人脸特征信息1的第128个信息与目标人脸特征信息2的第128个信息相加;或者,将各目标人脸特征信息对位相加求平均,得到一个综合的人脸特征信息。
一种可选的实施例中,分别确定各目标人脸特征信息的人脸属性特征值,然后根据各人脸属性特征值,确定目标用户的人脸属性特征值。
具体的,可以将各人脸属性特征值中按照特征值由高到低进行排序,然后取中位数作为目标用户的人脸属性特征值。
或者,在本申请实施例中,可以将最大的人脸属性人特征值作为目标用户的人脸属性特征值。
或者,在本申请实施例中,对各人脸属性特征值进行求和平均,将平均值作为目标用户的人脸属性特征值。
进一步地,还可以确定各人脸属性特征值的权重,然后根据各人脸属性特征值的权重进行加权平均求和,将加权平均求和结果作为目标用户的人脸属性特征值。
在本申请实施例中,各人脸属性特征值的权重可以是用户设定的,也可以是根据各人脸信息的质量确定,例如,人脸信息为高质量的图像信息,则确定通过该人脸信息确定的人脸属性特征值的权重较高;同理,人脸信息为低质量的图像信息时,则确定通过该人脸信息确定的人脸属性特征值的权重较低。
上述仅仅是确定权重的一种可选方式,还有其它确定权重的方式,例如根据人脸信息的环境信息、根据人脸信息中的特征点数量或者根据人脸信息的面部表情等确定权重,在此不做赘述。
在本申请实施例中,可以使用深度学习模型来确定各个目标人脸特征信息的人脸属性特征值。具体的,可以使用CNN模型来确定人脸属性特征值,CNN模型的输出为特征值的分类标准,例如CNN模型的输出为1、2、3、4、5,每个值代表不同的人脸属性特征的级别,当然上述只是示例性的写出了五个分类标准,还可以细化为更多的分类标准。
所以在本申请实施例中,可以将128维目标人脸特征信息输入至已训练的CNN模型中,已训练的CNN模型能够更好地评价目标人脸特征信息,将各目标人脸特征信息转换为不同的分类标准,该分类标准就是目标用户的人脸属性特征值。
在介绍了本申请实施例中对视频图像帧进行处理的过程后,通过一种可选的实施例将深度学习模型加入到视频图像帧处理过程中,具体的,如图5所示,在本申请实施例中,可以通过两个深度学习模型来进行视频图像帧的处理过程,一个深度学习模型为人脸特征提取模型,另一个深度学习模型为人脸属性特征判定模型。
在本申请实施例中,人脸特征提取模型的具体作用是提取出目标人脸属性特征,人脸属性特征判定模型的具体作用是将目标人脸属性特征转换为人脸属性特征值。
具体的,获取待处理视频,并对待处理视频进行固定频率抽帧,得到多帧待处理视频帧。
将各待处理视频输入至人脸特征提取模型,首先通过人脸特征提取模型的人脸识别单元,确定包括人脸信息的各待处理视频帧,然后通过人脸特征提取模型中的特征提取单元,从包括人脸信息的各待处理视频帧中提取对应的人脸特征信息。
在得到人脸特征信息后,将人脸特征信息输入至人脸属性特征判定模型,通过人脸属性特征判定模型将各个目标人脸特征信息转换为人脸属性特征值。
在本申请实施例中,为了更准确的确定人脸属性特征值,可以通过至少两个人脸属性特征判定模型,分别将各个目标人脸特征信息为对应的人脸属性特征值,不同人脸属性特征判定模型是通过不同的训练用户的不同人脸特征训练信息和/或不同的训练方法得到的通过至少两个人脸属性特征判定模型,分别将各个目标人脸特征信息为对应的人脸属性特征值,不同人脸属性特征判定模型是通过不同的训练用户的不同人脸特征训练信息和/或不同的训练方法得到的。
示例性的,其中一个人脸属性特征判定模型是根据第一训练样本训练得到的,另一个人脸属性特征判定模型是根据第二训练样本训练得到的,第一训练样本与第二训练样本中是不同训练用户的训练数据。
或者,另一种可选的实施例中,其中一个人脸属性判定模型是通过第一训练方法得到的,而另一个人脸属性判定模型是通过第二训练方法得到的,第一训练方法以及第二训练方法不同。
上述只是几种示例性的对不同人脸属性判定模型的方法,还有其它确定不同人脸属性判定模型的方法,在此不做赘述。
进一步地,当通过至少两个人脸属性特征判定模型,分别将各个目标人脸特征信息为对应的人脸属性特征值后,在确定目标用户的人脸属性特征值时,可以综合至少两个人脸属性特征判定模型确定的人脸属性特征值,来确定目标用户的人脸属性特征值。
一种可选的实施例中,可以将各人脸属性特征值中的最大值作为目标用户的人脸属性特征值。
另一种可选的实施例中,可以将各人脸属性特征值的平均值作为目标用户的人脸属性特征值。
还有一种可选的实施例,考虑各人脸属性特征判定模型的权重,将人脸属性特征判定模型的权重作为该模型确定的人脸属性特征值的权重,通过各人脸属性特征值的加权求和再求平均的方式,确定目标用户的人脸属性特征值。
在本申请实施例中,各人脸属性特征判定模型的权重可以是根据模型训练方法确定,也可以根据模型训练样本的数据量确定。示例性的,若模型训练方法比较精准,则该模型训练方法的权重较高;同样的,若模型训练样本的数量较大,可以认为该模型训练方法的权重较高。
上述只是几种示例性的确定目标用户的人脸属性特征值的方法,其它根据各人脸属性特征判定模型确定的人脸属性特征值确定目标用户的人脸属性特征值的方法都在本申请的保护范围内。
在介绍了上述结合深度学习模型的对视频图像帧处理的过程,下面介绍上述人脸特征提取模型以及人脸属性特征判定模型的训练过程。
为了能够使人脸特征提取模型能够更有效的将同一目标用户的各不同环境下采集的待处理视频帧以及不同表情姿态的情况下采集的待处理视频帧,所以在训练过程中,需要获取针对同一训练用户在不同环境下以及不同表情姿态的训练视频帧。
示例性的,获取的训练样本是训练用户的训练视频,训练视频中包括训练用户不同表情姿态的待处理视频帧。
将训练样本输入至人脸特征提取模型进行迭代训练,在每次迭代训练过程中,通过人脸特征提取模型输出的训练样本中的待处理视频帧的人脸特征信息以及真实的人脸特征信息,确定人脸特征提取模型的损失函数,并根据损失函数调整人脸特征提取模型的模型参数。
在多次迭代训练并达到迭代终止条件后,得到已训练的人脸特征提取模型。
在确定了人脸特征提取模型后,将已训练的人脸特征提取模型输出的人脸特征信息输入至人脸属性特征判定模型进行迭代训练,在每次迭代训练过程中,根据人脸属性特征判定模型输出的人脸属性特征值和真实的人脸属性特征之间的差异,确定人脸属性特征判定模型的损失函数,并根据损失函数调整人脸属性特征判定模型的模型参数,在多次迭代训练并达到迭代终止条件后,得到已训练的人脸属性特征判定模型。
通过上述描述的训练过程,人脸特征提取模型能够更好的针对同一用户输出相似的人脸特征信息,针对不同用户输出相似性差异较大的人脸特征信息,而人脸属性特征判定模型能够更好的确定人脸属性特征值。
由于本申请中,将人脸特征提取模型与人脸属性特征判定模型进行解耦,与现有技术相比,人脸特征提取模型在训练过程中逐步提高针对同一用户输出相似的人脸特征信息,针对不同用户输出相似性差异较大的人脸特征信息的能力,而在对人脸属性特征判定模型的训练过程中只需要训练模型将各个目标人脸特征信息转换为人脸属性特征值的能力,所以在本申请实施例的训练过程中,不容易过拟合,也不需要海量的数据即可达到训练精度。
在本申请实施例中,还可以基于对上述视频图像帧的处理过程,对视频进行打分。
具体的,服务器在接收到目标用户上传的待处理视频后,对待处理视频进行整体打分。其中服务器与目标用户对应同一应用,例如服务器为视频应用A的服务器,而目标用户为视频应用A的用户。
在本申请实施例中,服务器在接收到目标用户上传的待处理视频后,对待处理视频进行抽帧处理,得到各待处理视频帧;分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息;将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息;根据各个目标人脸特征信息确定人脸属性特征值,并将人脸属性特征值作为目标用户的人脸属性特征值;根据目标用户的人脸属性特征值,对待处理视频进行打分。
进一步地,根据目标用户的人脸属性特征值,对待处理视频进行打分的方式有多种。
可选的,可以将目标用户的人脸属性特征值以及服务器中已获得的其它目标用户的人脸属性特征值进行排序,按照人脸属性特征值由大至小的顺序进行排序,确定目标用户的人脸属性特征值的排序顺序,并根据排序顺序确定待处理视频的打分。示例性的,若目标用户的人脸属性特征值的排序顺序为前10的顺序,则待处理视频进行打分结果为90分,若目标用户的人脸属性特征值的排序顺序为后10的顺序,则待处理视频进行打分结果为50分。
另一种可选的实施例中,可以获取目标用户的人脸属性特征值与待处理视频进行打分之间的关系表,该关系表可以是提前设置的,例如表1所示:
表1
人脸属性特征值 | 待处理视频 |
10-20 | 50 |
21-50 | 55 |
51-75 | 60 |
76-80 | 70 |
81-85 | 75 |
86-90 | 85 |
91-100 | 90 |
另一种可选的实施例中,若服务器确定人脸属性特征值大于或等于第一数量已获得的其它人脸属性特征值,则确定待处理视频的打分结果为高分数。示例性的,当服务器确定人脸属性特征值大于或等于三分之二已获得的其它人脸属性特征值,则可以确定待处理视频的打分结果为高分数,并且三分之二这个比例对应的高分数为95。
当然,在本申请实施例中,若确定人脸属性特征值小于第二数量已获得的其它人脸属性特征值,可以认为待处理视频不是视频软件推荐的待处理视频,则将待处理视频归类到不推荐列表中。
还有一种可选的实施例中,可以首先确定人脸属性特征值,然后确定人脸属性特征值在待处理视频中的第一权重,然后根据人脸属性特征值以及第一权重确定待处理视频的打分结果。示例性的,人脸属性特征值为90,第一权重为0.8,则可以确定待处理视频进行打分结果为72分。
当然,进一步地,还可以确定对待处理视频打分结果具有影响的其它权重,例如待处理视频中各待处理视频帧中除人脸部分的图像对待处理视频打分结果具有影响的其它权重,然后根据各待处理视频帧中除人脸部分的图像的属性特征值以及对应的权重、根据人脸属性特征值以及第一权重确定待处理视频的打分结果。
在本申请实施例中,可以在确定待处理视频打分结果后,将待处理视频进行存储。由于待处理视频的打分结果不同,所以可以确定与所述待处理视频的打分结果成正比的第二权重,将第二权重与待处理视频进行关联,关联后进行保存。
当服务器接收到视频应用软件发送的展示视频请求时,会将存储器中第二权重值大于设定权重阈值的待处理视频发送给视频应用软件,并显示在视频应用软件中,即可以认为将人脸属性特征值较高的目标用户的待处理视频推送在视频应用软件中,使得其他用户在使用视频应用时看到。
为了更好的解释本申请实施例,下面结合一种具体的实施场景描述本申请实施例提供的视频图像帧处理方法,如图6所示,本申请实施例中的方法应用于对视频应用软件中的用户进行颜值打分的过程,并将颜值较高的用户展示在视频应用软件的首页。
具体的,在本申请实施例中,首先视频应用软件的服务器获取视频应用软件中的用户上传的待处理视频,具体的,从视频应用软件的数据库中获取用户上传的待处理视频,每个用户具有视频应用软件的唯一标识信息,如图6所示,获取的待处理视频是用户A上传的待处理视频。
服务器根据对待处理视频进行抽帧,得到各待处理视频帧,通过人脸识别模型FaceNet提取各待处理视频帧中的人脸特征信息,并按照相似度,将属于用户A的人脸特征信息提取出来,作为目标人脸特征信息,并将目标人脸特征信息输入至少两个颜值打分模型中,分别得到各颜值打分值,并根据各颜值打分值确定用户A的颜值打分值。
若服务器确定的用户A的颜值打分值高于预设颜值打分阈值,则将用户上传的视频显示在视频应用软件的首页。
如图6所示,当用户B打开视频应用软件时,用户A上传的待处理视频就显示在首页。
基于相同的技术构思,本申请实施例提供一种视频图像帧处理装置700,如图7所示,包括:
抽帧单元701,用于对待处理视频进行抽帧处理,得到各待处理视频帧;
人脸特征信息获取单元702,用于分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息;
目标人脸特征信息确定单元703,用于将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息;
人脸属性特征值确定单元704,用于根据各个目标人脸特征信息确定人脸属性特征值,并将人脸属性特征值作为目标用户的人脸属性特征值。
可选的,人脸特征信息获取单元702具体用于:
通过人脸特征提取模型,从包括人脸信息的各待处理视频帧中提取对应的人脸特征信息,人脸特征提取模型是根据训练用户的训练视频训练得到的,训练视频中包括训练用户的不同人脸姿态的训练视频帧。
可选的,人脸特征信息获取单元702具体用于:
通过人脸特征提取模型中的人脸识别单元,确定包括人脸信息的各待处理视频帧;
通过人脸特征提取模型中的特征提取单元,从包括人脸信息的各待处理视频帧中提取对应的人脸特征信息。
可选的,人脸属性特征值确定单元704具体用于:
将各个目标人脸特征信息输入至人脸属性特征判定模型,通过人脸属性特征判定模型将各个目标人脸特征信息转换为人脸属性特征值,其中人脸属性特征判定模型是根据已训练的人脸特征提取模型提取的训练用户的至少两个人脸特征训练信息训练得到的。
可选的,人脸属性特征值确定单元804具体用于:
通过人脸属性特征判定模型将各个目标人脸特征信息转换对应的各人脸属性特征值;
根据各人脸属性特征值以及各人脸属性特征值的权重确定人脸属性特征值。
可选的,人脸属性特征值确定单元704具体用于:
通过至少两个人脸属性特征判定模型,分别将各个目标人脸特征信息为对应的人脸属性特征值,不同人脸属性特征判定模型是通过不同的训练用户的不同人脸特征训练信息和/或不同的训练方法得到的;
根据不同人脸属性特征判定模型的权重确定每个人脸属性特征判定模型确定的各人脸属性特征值的权重,根据各人脸属性特征值以及各人脸属性特征值的权重确定人脸属性特征值。
可选的,人脸特征信息获取单元702具体用于:
通过人脸特征提取模型中的人脸识别单元,确定仅包括一个人脸信息的各待处理视频帧,并且各待处理视频帧中的人脸信息的角度满足预设角度要求;
目标人脸特征信息确定单元703具体用于:
若确定存在任一人脸特征信息与设定数量个其它人脸特征信息的相似度满足相似度设定条件,则确定人脸特征信息为目标人脸特征信息。
可选的,装置还包括:
训练单元705,用于获取训练样本,训练样本中包括训练用户的训练视频,训练用户的人脸特征标签信息、训练用户的人脸属性标签特征值;
对训练视频进行抽帧处理,得到各训练视频帧;
将各训练视频帧输入至人脸特征提取模型进行迭代训练,每次训练过程中根据人脸特征标签信息更新人脸特征提取模型的模型参数,直至迭代终止时,得到已训练的人脸特征提取模型;
将已训练的人脸特征提取模型输出的人脸特征信息输入至人脸属性特征判定模型进行迭代训练,每次训练过程中根据训练用户的人脸属性标签特征值更新人脸属性特征判定模型的模型参数,直至迭代终止时,得到已训练的人脸属性特征判定模型。
基于相同的技术构思,本申请实施例提供了一种计算机设备,如图8所示,包括至少一个处理器801,以及与至少一个处理器连接的存储器802,本申请实施例中不限定处理器801与存储器802之间的具体连接介质,图8中处理器801和存储器802之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器802存储有可被至少一个处理器801执行的指令,至少一个处理器801通过执行存储器802存储的指令,可以执行前述的视频图像帧处理方法中所包括的步骤。
其中,处理器801是计算机设备的控制中心,可以利用各种接口和线路连接终端设备的各部分,通过运行或执行存储在存储器802内的指令以及调用存储在存储器802内的数据,从而获得客户端地址。待选的,处理器801可包括一个或至少两个处理单元,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。在一些实施例中,处理器801和存储器802可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器801可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器802可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器802是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于相同的技术构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行视频图像帧处理方法的步骤。
上述计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种视频图像帧处理方法,其特征在于,所述方法包括:
对待处理视频进行抽帧处理,得到各待处理视频帧;
分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息;
将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息;
根据各个目标人脸特征信息确定人脸属性特征值,并将所述人脸属性特征值作为目标用户的人脸属性特征值。
2.根据权利要求1所述的方法,其特征在于,所述分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息,包括:
通过人脸特征提取模型,从包括人脸信息的各待处理视频帧中提取对应的人脸特征信息,所述人脸特征提取模型是根据训练用户的训练视频训练得到的,所述训练视频中包括所述训练用户的不同人脸姿态的训练视频帧。
3.根据权利要求2所述的方法,其特征在于,所述通过人脸特征提取模型,从包括人脸信息的各待处理视频帧中提取对应的人脸特征信息,包括:
通过所述人脸特征提取模型中的人脸识别单元,确定包括所述人脸信息的各待处理视频帧;
通过所述人脸特征提取模型中的特征提取单元,从包括所述人脸信息的各待处理视频帧中提取对应的人脸特征信息。
4.根据权利要求3所述的方法,其特征在于,所述根据各个目标人脸特征信息确定人脸属性特征值,包括:
将各个目标人脸特征信息输入至人脸属性特征判定模型,通过所述人脸属性特征判定模型将各个目标人脸特征信息转换为所述人脸属性特征值,其中所述人脸属性特征判定模型是根据已训练的所述人脸特征提取模型提取的所述训练用户的至少两个人脸特征训练信息训练得到的。
5.根据权利要求4所述的方法,其特征在于,所述通过所述人脸属性特征判定模型将各个目标人脸特征信息转换为所述人脸属性特征值,包括:
通过所述人脸属性特征判定模型将各个目标人脸特征信息转换对应的各人脸属性特征值;
根据各人脸属性特征值以及各人脸属性特征值的权重确定所述人脸属性特征值。
6.根据权利要求5所述的方法,其特征在于,所述通过所述人脸属性特征判定模型将各个目标人脸特征信息转换对应的各人脸属性特征值,包括:
通过至少两个人脸属性特征判定模型,分别将各个目标人脸特征信息为对应的人脸属性特征值,不同人脸属性特征判定模型是通过不同的训练用户的不同人脸特征训练信息和/或不同的训练方法得到的;
所述根据各人脸属性特征值以及各人脸属性特征值的权重确定所述人脸属性特征值,包括:
根据不同人脸属性特征判定模型的权重确定每个人脸属性特征判定模型确定的各人脸属性特征值的权重,根据各人脸属性特征值以及各人脸属性特征值的权重确定所述人脸属性特征值。
7.根据权利要求3所述的方法,其特征在于,所述通过所述人脸特征提取模型中的人脸识别单元,确定包括所述人脸信息的各待处理视频帧,包括:
通过所述人脸特征提取模型中的人脸识别单元,确定仅包括一个人脸信息的各待处理视频帧,并且各待处理视频帧中的人脸信息的角度满足预设角度要求;
所述将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息,包括:
若确定存在任一人脸特征信息与设定数量个其它人脸特征信息的相似度满足所述相似度设定条件,则确定所述人脸特征信息为所述目标人脸特征信息。
8.根据权利要求2~7任一所述的方法,其特征在于,所述方法还包括:
获取训练样本,所述训练样本中包括所述训练用户的训练视频,所述训练用户的人脸特征标签信息、所述训练用户的人脸属性标签特征值;
对所述训练视频进行抽帧处理,得到各训练视频帧;
将各训练视频帧输入至所述人脸特征提取模型进行迭代训练,每次训练过程中根据所述人脸特征标签信息更新所述人脸特征提取模型的模型参数,直至迭代终止时,得到已训练的所述人脸特征提取模型;
将已训练的所述人脸特征提取模型输出的人脸特征信息输入至所述人脸属性特征判定模型进行迭代训练,每次训练过程中根据所述训练用户的人脸属性标签特征值更新所述人脸属性特征判定模型的模型参数,直至迭代终止时,得到已训练的所述人脸属性特征判定模型。
9.一种视频打分方法,其特征在于,所述方法包括:
获取目标用户上传的待处理视频;
对待处理视频进行抽帧处理,得到各待处理视频帧;
分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息;
将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息;
根据各个目标人脸特征信息确定人脸属性特征值,并将所述人脸属性特征值作为所述目标用户的人脸属性特征值;
根据所述目标用户的所述人脸属性特征值,对所述待处理视频进行打分。
10.根据权利要求9所述的方法,其特征在于,所述根据所述目标用户的所述人脸属性特征值,对所述待处理视频进行打分,包括:
若确定所述人脸属性特征值大于或等于第一数量已获得的其它人脸属性特征值,则确定所述待处理视频的打分结果为高分数,并根据预设的第一权重,对所述待处理视频进行整体打分;以及
若确定所述人脸属性特征值小于第二数量已获得的其它人脸属性特征值,则将所述待处理视频归类到不推荐列表中。
11.根据权利要求9所述的方法,其特征在于,所述对所述待处理视频进行打分后,还包括:
将所述待处理视频存储到存储器中,并确定与所述待处理视频的打分结果成正比的第二权重,将所述第二权重与所述待处理视频进行关联;
所述方法还包括:
接收视频应用软件发送的展示视频请求;
将所述存储器中第二权重值大于设定权重阈值的待处理视频发送给所述视频应用软件,并显示在所述视频应用软件。
12.一种视频图像帧处理装置,其特征在于,包括:
抽帧单元,用于对待处理视频进行抽帧处理,得到各待处理视频帧;
人脸特征信息获取单元,用于分别对各待处理视频帧进行人脸特征提取,获得各个人脸的人脸特征信息;
目标人脸特征信息确定单元,用于将满足相似度设定条件的各个人脸特征信息作为目标人脸特征信息;
人脸属性特征值确定单元,用于根据各个目标人脸特征信息确定人脸属性特征值,并将所述人脸属性特征值作为目标用户的人脸属性特征值。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~11任一权利要求所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~11任一权利要求所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010468619.0A CN111695458A (zh) | 2020-05-28 | 2020-05-28 | 一种视频图像帧处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010468619.0A CN111695458A (zh) | 2020-05-28 | 2020-05-28 | 一种视频图像帧处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111695458A true CN111695458A (zh) | 2020-09-22 |
Family
ID=72478487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010468619.0A Pending CN111695458A (zh) | 2020-05-28 | 2020-05-28 | 一种视频图像帧处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695458A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487300A (zh) * | 2020-12-18 | 2021-03-12 | 上海众源网络有限公司 | 一种视频推荐方法、装置、电子设备及存储介质 |
CN112561080A (zh) * | 2020-12-18 | 2021-03-26 | Oppo(重庆)智能科技有限公司 | 样本筛选方法、样本筛选装置及终端设备 |
CN113613059A (zh) * | 2021-07-30 | 2021-11-05 | 杭州时趣信息技术有限公司 | 一种短播视频处理方法、装置及设备 |
CN113808010A (zh) * | 2021-09-24 | 2021-12-17 | 深圳万兴软件有限公司 | 无属性偏差的卡通人像生成方法、装置、设备及介质 |
CN114140315A (zh) * | 2021-11-01 | 2022-03-04 | 北京达佳互联信息技术有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN114360182A (zh) * | 2020-09-27 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 一种智能告警方法、装置、设备及存储介质 |
CN114445877A (zh) * | 2021-12-27 | 2022-05-06 | 厦门市美亚柏科信息股份有限公司 | 一种智能换脸方法、装置以及计算机存储介质 |
CN116708918A (zh) * | 2022-05-12 | 2023-09-05 | 北京生数科技有限公司 | 一种视频换脸的处理方法、相关装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550671A (zh) * | 2016-01-28 | 2016-05-04 | 北京麦芯科技有限公司 | 一种人脸识别的方法及装置 |
CN108229268A (zh) * | 2016-12-31 | 2018-06-29 | 商汤集团有限公司 | 表情识别及卷积神经网络模型训练方法、装置和电子设备 |
CN109618184A (zh) * | 2018-12-29 | 2019-04-12 | 北京市商汤科技开发有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN110310144A (zh) * | 2019-05-22 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 基于年龄的广告推送方法、装置、设备及存储介质 |
CN110443189A (zh) * | 2019-07-31 | 2019-11-12 | 厦门大学 | 基于多任务多标签学习卷积神经网络的人脸属性识别方法 |
CN110473049A (zh) * | 2019-05-22 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 理财产品推荐方法、装置、设备及计算机可读存储介质 |
CN111144344A (zh) * | 2019-12-30 | 2020-05-12 | 广州市百果园网络科技有限公司 | 人物年龄的确定方法、装置、设备及存储介质 |
-
2020
- 2020-05-28 CN CN202010468619.0A patent/CN111695458A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550671A (zh) * | 2016-01-28 | 2016-05-04 | 北京麦芯科技有限公司 | 一种人脸识别的方法及装置 |
CN108229268A (zh) * | 2016-12-31 | 2018-06-29 | 商汤集团有限公司 | 表情识别及卷积神经网络模型训练方法、装置和电子设备 |
CN109618184A (zh) * | 2018-12-29 | 2019-04-12 | 北京市商汤科技开发有限公司 | 视频处理方法及装置、电子设备和存储介质 |
CN110310144A (zh) * | 2019-05-22 | 2019-10-08 | 深圳壹账通智能科技有限公司 | 基于年龄的广告推送方法、装置、设备及存储介质 |
CN110473049A (zh) * | 2019-05-22 | 2019-11-19 | 深圳壹账通智能科技有限公司 | 理财产品推荐方法、装置、设备及计算机可读存储介质 |
CN110443189A (zh) * | 2019-07-31 | 2019-11-12 | 厦门大学 | 基于多任务多标签学习卷积神经网络的人脸属性识别方法 |
CN111144344A (zh) * | 2019-12-30 | 2020-05-12 | 广州市百果园网络科技有限公司 | 人物年龄的确定方法、装置、设备及存储介质 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360182A (zh) * | 2020-09-27 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 一种智能告警方法、装置、设备及存储介质 |
CN114360182B (zh) * | 2020-09-27 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 一种智能告警方法、装置、设备及存储介质 |
CN112561080A (zh) * | 2020-12-18 | 2021-03-26 | Oppo(重庆)智能科技有限公司 | 样本筛选方法、样本筛选装置及终端设备 |
CN112487300A (zh) * | 2020-12-18 | 2021-03-12 | 上海众源网络有限公司 | 一种视频推荐方法、装置、电子设备及存储介质 |
CN112561080B (zh) * | 2020-12-18 | 2023-03-03 | Oppo(重庆)智能科技有限公司 | 样本筛选方法、样本筛选装置及终端设备 |
CN112487300B (zh) * | 2020-12-18 | 2024-06-07 | 上海众源网络有限公司 | 一种视频推荐方法、装置、电子设备及存储介质 |
CN113613059B (zh) * | 2021-07-30 | 2024-01-26 | 杭州时趣信息技术有限公司 | 一种短播视频处理方法、装置及设备 |
CN113613059A (zh) * | 2021-07-30 | 2021-11-05 | 杭州时趣信息技术有限公司 | 一种短播视频处理方法、装置及设备 |
CN113808010A (zh) * | 2021-09-24 | 2021-12-17 | 深圳万兴软件有限公司 | 无属性偏差的卡通人像生成方法、装置、设备及介质 |
CN113808010B (zh) * | 2021-09-24 | 2023-08-11 | 深圳万兴软件有限公司 | 无属性偏差的卡通人像生成方法、装置、设备及介质 |
CN114140315A (zh) * | 2021-11-01 | 2022-03-04 | 北京达佳互联信息技术有限公司 | 一种图像处理方法、装置、电子设备及存储介质 |
CN114445877A (zh) * | 2021-12-27 | 2022-05-06 | 厦门市美亚柏科信息股份有限公司 | 一种智能换脸方法、装置以及计算机存储介质 |
CN116708918B (zh) * | 2022-05-12 | 2024-01-23 | 北京生数科技有限公司 | 一种视频换脸的处理方法、相关装置及存储介质 |
CN116708918A (zh) * | 2022-05-12 | 2023-09-05 | 北京生数科技有限公司 | 一种视频换脸的处理方法、相关装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695458A (zh) | 一种视频图像帧处理方法及装置 | |
WO2020199932A1 (zh) | 模型训练方法、人脸识别方法、装置、设备及存储介质 | |
CN110009052B (zh) | 一种图像识别的方法、图像识别模型训练的方法及装置 | |
EP3940638B1 (en) | Image region positioning method, model training method, and related apparatus | |
WO2020177673A1 (zh) | 一种视频序列选择的方法、计算机设备及存储介质 | |
CN111783902B (zh) | 数据增广、业务处理方法、装置、计算机设备和存储介质 | |
US9639746B2 (en) | Systems and methods of detecting body movements using globally generated multi-dimensional gesture data | |
US20220284327A1 (en) | Resource pushing method and apparatus, device, and storage medium | |
CN111523621A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN112395979B (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
CN111414946B (zh) | 基于人工智能的医疗影像的噪声数据识别方法和相关装置 | |
CN101305368A (zh) | 语义可视搜索引擎 | |
WO2018196718A1 (zh) | 图像消歧方法、装置、存储介质和电子设备 | |
CN111339343A (zh) | 图像检索方法、装置、存储介质及设备 | |
CN111898561B (zh) | 一种人脸认证方法、装置、设备及介质 | |
CN112668482B (zh) | 人脸识别训练方法、装置、计算机设备及存储介质 | |
CN112995757B (zh) | 视频剪裁方法及装置 | |
CN112749291A (zh) | 一种图文匹配的方法和装置 | |
CN117854156B (zh) | 一种特征提取模型的训练方法和相关装置 | |
WO2020135054A1 (zh) | 视频推荐方法、装置、设备及存储介质 | |
CN112862021B (zh) | 一种内容标注方法和相关装置 | |
CN114817655A (zh) | 跨模态检索方法、网络训练方法、装置、设备及介质 | |
US20140201200A1 (en) | Visual search accuracy with hamming distance order statistics learning | |
Ding et al. | Human action recognition using similarity degree between postures and spectral learning | |
CN111709473A (zh) | 对象特征的聚类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40028612 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |