CN112767240B - 提高人像视频美化处理效率的方法、装置及移动端 - Google Patents

提高人像视频美化处理效率的方法、装置及移动端 Download PDF

Info

Publication number
CN112767240B
CN112767240B CN202110086874.3A CN202110086874A CN112767240B CN 112767240 B CN112767240 B CN 112767240B CN 202110086874 A CN202110086874 A CN 202110086874A CN 112767240 B CN112767240 B CN 112767240B
Authority
CN
China
Prior art keywords
video
data
frame
image
nearest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110086874.3A
Other languages
English (en)
Other versions
CN112767240A (zh
Inventor
林青山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Guangzhuiyuan Information Technology Co ltd
Original Assignee
Guangzhou Guangzhuiyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Guangzhuiyuan Information Technology Co ltd filed Critical Guangzhou Guangzhuiyuan Information Technology Co ltd
Priority to CN202110086874.3A priority Critical patent/CN112767240B/zh
Publication of CN112767240A publication Critical patent/CN112767240A/zh
Application granted granted Critical
Publication of CN112767240B publication Critical patent/CN112767240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种提高人像视频美化处理效率的方法、装置及移动端,包括获取原始视频,得到每一帧图像的图像数据;跳帧识别所述图像数据中的人脸信息和/或人体信息,根据key值查询数据库,跳帧识别获取预设时间段内的人脸信息和/或人体信息;对视频帧的最近左侧数据和最近右侧数据进行校正;确定人像数量,线性插值计算当前视频帧的预测数据并优化处理,得到处理后的图像数据;利用视频编码器和视频合成器对处理后的图像数据进行处理,输出优化后的视频。本发明通过对视频进行跳帧处理,并配合稳定和估测的方法对已处理两帧的中间视频帧进行预估插值,从而在大量提升处理效率的同时确保稳定性,实现实时的高效率人像识别美化编辑处理。

Description

提高人像视频美化处理效率的方法、装置及移动端
技术领域
本发明属于视频处理技术领域,具体涉及一种提高人像视频美化处理效率的方法、装置及移动端。
背景技术
随着移动终端摄像硬件的提升,用户可以方便的获取到高分辨率和长时间的人像视频。一方面,在目前移动终端上,摄影硬件更新换代速度很快,现在移动端拍摄的视频分辨率可以轻松达到2k、4k甚至更高,但移动终端的视频处理器更新速度却跟不上摄影硬件的更新速度,对高分辨率视频的处理速度仍然十分缓慢,不足以支持用户实时人像识别美化处理的需求。另一方面,现有的深度学习模型在人像识别上存在效率过低的问题,尤其是在没有针对神经网络进行优化的移动终端上,识别视频中的一帧人像图像的耗时需要100毫秒以上,而高质量视频一秒最少有30帧,对这类移动终端来说,识别1s人像视频至少需要3s甚至更长时间,由此对于高质量长视频进行全程人像识别会非常耗时,需要耗费3倍以上的识别时间,无法满足用户对于高分辨率长视频的人像美化实时编辑视频的需求,不能保证用户的体验。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种提高人像视频美化处理效率的方法、装置及移动端,以解决现有技术中无法满足用户对高分辨率长视频中人像美化实时编辑视频需求的问题。
为实现以上目的,本发明采用如下技术方案:一种提高人像视频美化处理效率的方法,包括:
获取原始视频,并压缩所述原始视频,得到低分辨率视频;
对所述低分辨率视频以及原始视频进行解码,得到每一帧图像的图像数据;
跳帧识别所述图像数据中的人脸信息和/或人体信息并以视频名和视频帧时间作为key值存储至数据库;
获取所述原始图像解码后的视频帧,根据所述视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据;
对所述预设时间段内的最近左侧数据和最近右侧数据进行校正;
确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据;
根据所述预测数据对所述原始视频中对应的帧图像进行优化处理,得到处理后的图像数据;
利用视频编码器和视频合成器对所述处理后的图像数据进行合成,输出优化后的视频。
进一步的,所述跳帧识别所述图像数据中的人脸信息和/或人体信息,包括:
获取多张含有完整人脸的照片作为训练图像对神经网络模型进行训练,得到人脸神经网络模型;
获取多张含有完整人体的照片作为训练图像对神经网络模型进行训练,得到人体神经网络模型;
所述人脸神经网络模型对所述图像数据进行计算,输出图像中的人脸信息;
所述人体神经网络模型对所述图像数据进行计算,输出图像中的人体信息;
针对时间段内的所有视频帧,对其头帧和尾帧进行识别流程,中间帧进行跳帧处理。
进一步的,所述根据所述视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据,包括:
将视频名和视频帧时间作为key值,查询数据库获取数据库中对应的人脸或人体识别数据;
从数据库中获取与原始图像解码后的视频帧对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据。
进一步的,所述对所述预设时间段内的最近左侧数据和最近右侧数据进行校正,包括:
采用欧氏距离计算当前视频帧的最近左侧数据和最近右侧数据的误差值;
将所述误差值与预设阈值进行对比,如果所述误差值小于所述预设阈值则统一最近左侧数据和最近右侧数据;
利用置信度剔除无效的关键点。
进一步的,所述确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据,包括:
识别最近左侧数据和最近右侧数据中的人像数量,如果识别出的最近左侧数据和最近右侧数据中的人像数量一致,则通过线性插值计算出当前视频帧的预测数据;
否则,将人像数量多的确定为人像数量,通过线性插值计算出当前视频帧的预测数据。
进一步的,所述对根据所述预测数据对所述原始视频中对应的帧图像进行优化处理,包括:
对原始视频中对应的帧图像中的人脸信息和/人体信息进行优化处理。
进一步的,所述对原始视频中对应的帧图像中的人脸信息进行优化处理,包括:
遍历视频帧所有像素点并确定关键点,针对关键点,进行形变操作;
所述人脸信息为人脸关键点数据,人脸关键点数据包含五官以及脸部轮廓在图像中的二维坐标。
进一步的,所述对原始视频中对应的帧图像中的人体信息进行优化处理,包括:
对腰部处理和腿部处理;
所述人体信息包括:人体关键点数据,所述人体关键点数据包括左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝、右踝在图像中的二维坐标。
本申请实施例提供一种提高人像视频美化处理效率的装置,包括:
视频压缩模块,用于获取原始视频,并压缩所述原始视频,得到低分辨率视频;
视频解码模块,用于对所述低分辨率视频以及原始视频进行解码,得到每一帧图像的图像数据;
视频识别模块,用于跳帧识别所述图像数据中的人脸信息和/或人体信息;
视频存储模块,用于视频名和视频帧时间作为key值存储至数据库;
数据获取模块,用于获取所述原始图像解码后的视频帧,根据所述视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据;
数据校正模块,用于对所述预设时间段内的最近左侧数据和最近右侧数据进行校正;
线性插值模块,用于确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据;
人像优化模块,用于根据所述预测数据对所述原始视频中对应的帧图像进行优化处理,得到处理后的图像数据;
视频展示模块,用于利用视频编码器和视频合成器对所述处理后的图像数据进行合成,输出优化后的视频。
本申请实施例提供一种移动端,包括:处理器,以及与所述处理器连接的存储器;
所述存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的提高人像视频美化处理效率的方法;
所述处理器用于调用并执行存储器中的计算机程序。
本发明采用于上技术方案,能够达到的有益效果包括:
本发明提供一种提高人像视频美化处理效率的方法、装置及移动端,本发明通过对视频进行跳帧处理,并配合稳定和估测的方法对已处理两帧的中间视频帧进行预估插值,从而在大量提升处理效率的同时确保稳定性,实现实时的高效率人像识别美化编辑处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提高人像视频美化处理效率的方法的步骤示意图;
图2为本发明提高人像视频美化处理效率的方法的流程示意图;
图3为本发明提高人像视频美化处理效率的装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面结合附图介绍本申请实施例中提供的一个具体的提高人像视频美化处理效率的方法。
如图1所示,本申请实施例中提供的提高人像视频美化处理效率的方法包括:
S101,获取原始视频,并压缩所述原始视频,得到低分辨率视频;
S102,对所述低分辨率视频以及原始视频进行解码,得到每一帧图像的图像数据;
S103,跳帧识别所述图像数据中的人脸信息和/或人体信息并以视频名和视频帧时间作为key值存储至数据库;
S104,获取所述原始图像解码后的视频帧,根据所述视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据;
S105,对所述预设时间段内的最近左侧数据和最近右侧数据进行校正;
S106,确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据;
S107,根据所述预测数据对所述原始视频中对应的帧图像进行优化处理,得到处理后的图像数据;
S108,利用视频编码器和视频合成器对所述处理后的图像数据进行合成,输出优化后的视频。
提高人像视频美化处理效率的方法的工作原理为:如图2所示,本申请中的技术方案通过移动端实现,通过移动端进行拍摄或在相册中获取原始视频,因为移动端中预设的神经网络模型仅需低分辨率的图像输入,通过移动端对用户导入的视频压缩成专用于神经网络识别的低分辨率视频。然后对原始视频进行解码,得到每一帧图像的图像数据,跳帧识别图像数据中的人脸信息和/或人体信息并以视频名和视频帧时间作为key值存储至数据库;获取原始图像解码后的视频帧,根据视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据;对预设时间段内的最近左侧数据和最近右侧数据进行校正;确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据;根据预测数据对原始视频中对应的帧图像进行优化处理,得到处理后的图像数据;利用视频编码器和视频合成器对处理后的图像数据进行合成,输出优化后的视频。
可以理解的是,本申请中提供的移动端可采用智能手机、平板电脑等,本申请在此不做限定。
一些实施例中,所述跳帧识别所述图像数据中的人脸信息和/或人体信息,包括:
获取多张含有完整人脸的照片作为训练图像对神经网络模型进行训练,得到人脸神经网络模型;
获取多张含有完整人体的照片作为训练图像对神经网络模型进行训练,得到人体神经网络模型;
所述人脸神经网络模型对所述图像数据进行计算,输出图像中的人脸信息;
所述人体神经网络模型对所述图像数据进行计算,输出图像中的人体信息;
针对时间段内的所有视频帧,对其头帧和尾帧进行识别流程,中间帧进行跳帧处理。
可以理解的是,首先对神经网络模型进行训练,得到人脸神经网络模型和人体神经网络模型;具体过程为,人体神经网络模型:获取多张含有完整人体的图像作为训练图像对移动端中预设的人体神经网络模型进行训练。所述人体神经网络模型可接收输入图像,输出图像中的人体信息。优选地,所述人体信息为人体关键点数据,人体关键点数据包含左肩,右肩,左肘,右肘,左腕,右腕,左髋,右髋,左膝,右膝,左踝,右踝等在图像中的二维坐标,具体的人体关键点可根据需要灵活进行设定。耗时测试均为150毫秒以上每张图像。
人脸神经网络模型:获取多张含有完整人脸的图像作为训练图像对移动端中预设的人脸神经网络模型进行训练。所述人脸神经网络模型可接收输入图像,输出图像中的人脸信息。优选地,所述人脸信息为人脸关键点数据,人脸关键点数据包含五官,脸部轮廓等在图像中的二维坐标,关键点越稠密,后续脸部优化效果越精细,具体的关键点数量可根据需要灵活进行设定。耗时测试均为30毫秒以上每张图像。
具体识别流程为:针对视频帧的图像数据,相继通过人脸神经网络模型和人体神经网络模型识别和定位到图像中关键点数据(数据主要包括关键点的置信度和相对于图片的位置信息,关键点包括人脸的眼睛,鼻子,嘴巴等,人体的头,脚,肩膀等),并将关键点数据进行合理性筛除。
筛除依据模型返回数据的置信度和所有关键点构成的区域面积信息,针对过低置信度和过小的识别区域进行无效筛除,并按区域面积从大到小排序。
跳帧流程:针对一段时间内的所有视频帧,对其头帧和尾帧进行识别流程,其余中间帧进行跳帧处理。具体如下:
1,将视频从第一帧开始顺序读取
2,根据多次实际测试和模型耗时关系(人体模型耗时约为人脸模型的6倍),人脸识别采用等间隔5帧的跳帧方式,人体识别采用等间隔30帧的跳帧方式。
即在顺序解码过程中,第n*5+1帧会进行人脸识别,第n*30+1帧会拿去人体识别(n>=0)。
3,视频结尾处不一定恰好满足5或30的倍数关系,这种情况下,会将结尾处最后x帧(通常是最后一帧)拿去识别流程。
需要说明的是,无论是人体识别还是人脸识别,神经网络模型都会存在轻微的误差值,即使是相同的图像输入,也无法具备相同的输出,基于此问题,需要后续进行一定的效果校正处理。
一些实施例中,所述根据所述视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据,包括:
将视频名和视频帧时间作为key值,查询数据库获取数据库中对应的人脸或人体识别数据;
从数据库中获取与原始图像解码后的视频帧对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据。
具体的,将视频识别模块返回的人脸人体识别数据,以视频名和视频帧时间作为key值,通过关系型数据库将其进行缓存,用于后续识别数据使用。
识别获取数据具体流程为:
1,将视频名和视频帧时间作为key值,查询数据库获取对应的缓存人脸或人体识别数据。
2,通过视频名和时间范围作为key值,查询数据库获取一段时间内缓存的人脸或人体识别数据
预估插值流程中,需要通过视频名和当前视频帧的所处时间来获取到其所处时间段的所有识别数据,以t表示当前视频帧所处时间,x表示人脸或人体的跳帧数(5或者30),可以获取到的数据范围为[t–x/2,t+x/2],并从t开始左右遍历,找到最接近t的左右侧时间,获取其在数据库中对应的识别数据(以ld和rd分别表示获取到的最近左侧数据和最近右侧数据,用于后续说明)。
优选的,所述对所述预设时间段内的最近左侧数据和最近右侧数据进行校正,包括:
采用欧氏距离计算当前视频帧的最近左侧数据和最近右侧数据的误差值;
将所述误差值与预设阈值进行对比,如果所述误差值小于所述预设阈值则统一最近左侧数据和最近右侧数据;
利用置信度剔除无效的关键点。
具体的,1,针对神经网络模型识别存在轻微误差的问题,本申请采用欧氏距离来计算2份数据的误差值,如果2份数据计算出的欧式距离小于预设阈值,则表示数据之间可以近似相等,从而统一2份数据,避免模型识别导致的抖动误差。
其中,预设阈值=ld的区域大小/0.6*1000(根据所用模型在同一张图像下实际输出的差异估测出的阈值算法);
将rd每个关键点和ld对应关键点的xy坐标分别代入欧氏距离公式,如下
float value=sqrt(pow(rd.y–ld.y,2)+pow(rd.x–ld.x,2)+……);
通过比较value和阈值,决定是否统一数据,如果小于阈值,则将rd=ld。
2,由于人脸、人体识别模型存在一定的图像识别误差,导致部分关键点出现偏离的数据,通常采用置信度剔除无效的关键点,但剔除后的关键点在人像优化中依然需要使用,针对这种情况,需要我们去依据现有的数据去估测无效的关键点的大致位置。由于人体人脸存在大量关键点(人脸72个关键点,人体17个关键点),以下举例最容易丢失的脚踝关键点计算方式,其他关键点计算方式相似:
(1),针对脚踝关键点丢失,可以近似认为脚踝点到腰点距离/腰点到肩点距离=1.6,通过反算腰点到肩点的距离*1.6+腰点位置可以得到脚踝点的位置信息。
(2),针对左脚踝存在,右脚踝关键点丢失,可以计算左腰点和右腰点的水平距离,右脚踝可以近似等价于左脚踝+腰间距。
一些实施例中,所述确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据,包括:
识别最近左侧数据和最近右侧数据中的人像数量,如果识别出的最近左侧数据和最近右侧数据中的人像数量一致,则通过线性插值计算出当前视频帧的预测数据;
否则,将人像数量多的确定为人像数量,通过线性插值计算出当前视频帧的预测数据。
具体的,由于采用跳帧识别的方式,在所处时间段非首尾的视频帧不具有缓存的识别数据,视频帧内的人像信息通常是连续的,所以利用这个特性,可以将时间段非首尾的视频帧根据其所处的时间位置,将首尾数据进行线性插值获得其预估的数据。具体流程如下:
1,ld和rd分别表示经过稳定算法的产出,lt和rt分别表示产出数据所处的时间。
2,判断ld和rd中的人像数量,如果识别出的人像数量不一致,则使用ld和rd两者中人像数量最多的一份。
3,如果识别出的人像数量一致,则将人像数据一一对应,通过线性插值计算出当前视频帧的预测数据,线性插值算法如下:
(t–lt)/(rt-lt)*(rd-ld)+ld。
一些实施例中,根据所述预测数据对所述原始视频中对应的帧图像进行优化处理,包括:
对原始视频中对应的帧图像中的人脸信息和/人体信息进行优化处理。
优选的,所所述对原始视频中对应的帧图像中的人脸信息进行优化处理,包括:
遍历视频帧所有像素点并确定关键点,针对关键点,进行形变操作;
所述人脸信息为人脸关键点数据,人脸关键点数据包含五官以及脸部轮廓在图像中的二维坐标。
优选的,所述对原始视频中对应的帧图像中的人体信息进行优化处理,包括:
对腰部处理和腿部处理;
所述人体信息包括:人体关键点数据,所述人体关键点数据包括左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝、右踝在图像中的二维坐标。
具体的,人像优化可以分为人脸优化和人体优化,使用OpenGL对视频帧进行处理。
人脸优化:
片段着色器中核心形变操作p=F(p,o,t,r,w),p为视频帧图像上待操作的二维坐标点,o为形变操作的原点,t为形变操作的目标点,r为形变半径,w为形变程度,程度越大形变效果越明显,则有
p=F(p,o,t,r,w)=
p-(t-o)*w*clamp(1.0-sqrt((p.x-o.x)*(p.x-o.x)+(p.y-o.y)*(p.y-o.y))/r,0.0,1.0),其中clamp为将第一个输入参数值限定在第二个输入参数值和第三个输入参数值之间的操作,sqrt为开平方计算操作。
遍历视频帧所有像素点并确定关键点,针对关键点,进行形变操作。
其中,人体优化处理流程中,通常先将视频帧图像和人体识别数据输入人体优化单元处理,先后经过腰部优化,腿部优化,最终得到人体优化后的视频帧图像。
腰部优化单元,同人脸优化单元,片段着色器中使用形变操作
p=F(p,o,t,r,w);
腿部优化单元,片段着色器中核心拉伸操作
remap(x,a,b,c,d)=mix(c,d,(x-a)/(b-a)),x为待操作的二维坐标点,a、b、c、d分别为表示为关键点x相对于周围关键点的形变参数,其中mix为OpenGL着色器语言中定义的线性混合计算。
本发明通过跳帧的方式,避免了全视频帧识别的巨大压力,通过跳帧做到了原全视频识别消耗的1/30~1/5,除此之外,本申请通过预估线性插值和校正方式,对模型识别的不稳定性和中间帧进行数据预估和稳定,确保了人脸和身材美化效果。
如图3所示,本申请实施例提供一种提高人像视频美化处理效率的装置,包括:
视频压缩模块301,用于获取原始视频,并压缩所述原始视频,得到低分辨率视频;
视频解码模块302,用于对所述低分辨率视频以及原始视频进行解码,得到每一帧图像的图像数据;
视频识别模块303,用于跳帧识别所述图像数据中的人脸信息和/或人体信息;
视频存储模块304,用于视频名和视频帧时间作为key值存储至数据库;
数据获取模块305,用于获取所述原始图像解码后的视频帧,根据所述视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据;
数据校正模块306,用于对所述预设时间段内的最近左侧数据和最近右侧数据进行校正;
线性插值模块307,用于确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据;
人像优化模块308,用于根据所述预测数据对所述原始视频中对应的帧图像进行优化处理,得到处理后的图像数据;
视频展示模块309,用于利用视频编码器和视频合成器对所述处理后的图像数据进行合成,输出优化后的视频。
本申请实施例提供的提高人像视频美化处理效率的装置的工作原理为,视频压缩模块301获取原始视频,并压缩所述原始视频,得到低分辨率视频;视频解码模块302对所述低分辨率视频以及原始视频进行解码,得到每一帧图像的图像数据;视频识别模块303跳帧识别所述图像数据中的人脸信息和/或人体信息;视频存储模块304用于视频名和视频帧时间作为key值存储至数据库;数据获取模块305获取所述原始图像解码后的视频帧,根据所述视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据;数据校正模块306对所述预设时间段内的最近左侧数据和最近右侧数据进行校正;线性插值模块307确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据;人像优化模块308根据所述预测数据对所述原始视频中对应的帧图像进行优化处理,得到处理后的图像数据;视频展示模块309利用视频编码器和视频合成器对所述处理后的图像数据进行合成,输出优化后的视频。
可以理解的是,本申请利用视频编码器和视频合成器对所述处理后的图像数据进行合成,输出优化后的视频可以采用现有技术实现,本申请在此不再赘述。
本申请实施例提供一种移动端,包括处理器,以及与处理器连接的存储器;
存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的提高人像视频美化处理效率的方法;
处理器用于调用并执行存储器中的计算机程序。
综上所述,本发明提供一种提高人像视频美化处理效率的方法、装置及移动端,能够通过对视频进行跳帧处理,并配合稳定和估测的方法对已处理两帧的中间视频帧进行预估插值,从而在大量提升处理效率的同时确保稳定性,实现实时的高效率人像识别美化编辑处理。
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种提高人像视频美化处理效率的方法,其特征在于,包括:
获取原始视频,并压缩所述原始视频,得到低分辨率视频;
对所述低分辨率视频以及原始视频进行解码,得到每一帧图像的图像数据;
跳帧识别所述图像数据中的人脸信息和/或人体信息并以视频名和视频帧时间作为key值存储至数据库;
获取所述原始视频解码后的视频帧,根据所述视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据;
对所述预设时间段内的最近左侧数据和最近右侧数据进行校正;
确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据;
根据所述预测数据对所述原始视频中对应的帧图像进行优化处理,得到处理后的图像数据;
利用视频编码器和视频合成器对所述处理后的图像数据进行合成,输出优化后的视频;
所述确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据,包括:
识别最近左侧数据和最近右侧数据中的人像数量,如果识别出的最近左侧数据和最近右侧数据中的人像数量一致,则通过线性插值计算出当前视频帧的预测数据;
否则,将人像数量多的确定为人像数量,通过线性插值计算出当前视频帧的预测数据。
2.根据权利要求1所述的方法,其特征在于,所述跳帧识别所述图像数据中的人脸信息和/或人体信息,包括:
获取多张含有完整人脸的照片作为训练图像对神经网络模型进行训练,得到人脸神经网络模型;
获取多张含有完整人体的照片作为训练图像对神经网络模型进行训练,得到人体神经网络模型;
所述人脸神经网络模型对所述图像数据进行计算,输出图像中的人脸信息;
所述人体神经网络模型对所述图像数据进行计算,输出图像中的人体信息;
针对时间段内的所有视频帧,对其头帧和尾帧进行识别流程,中间帧进行跳帧处理。
3.根据权利要求1所述的方法,其特征在于,所述根据所述视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据,包括:
将视频名和视频帧时间作为key值,查询数据库获取数据库中对应的人脸或人体识别数据;
从数据库中获取与原始视频解码后的视频帧对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述预设时间段内的最近左侧数据和最近右侧数据进行校正,包括:
采用欧氏距离计算当前视频帧的最近左侧数据和最近右侧数据的误差值;
将所述误差值与预设阈值进行对比,如果所述误差值小于所述预设阈值则统一最近左侧数据和最近右侧数据;
利用置信度剔除无效的关键点。
5.根据权利要求1所述的方法,其特征在于,所述根据所述预测数据对所述原始视频中对应的帧图像进行优化处理,包括:
对原始视频中对应的帧图像中的人脸信息和/人体信息进行优化处理。
6.根据权利要求5所述的方法,其特征在于,所述对原始视频中对应的帧图像中的人脸信息进行优化处理,包括:
遍历视频帧所有像素点并确定关键点,针对关键点,进行形变操作;
所述人脸信息为人脸关键点数据,人脸关键点数据包含五官以及脸部轮廓在图像中的二维坐标。
7.根据权利要求5所述的方法,其特征在于,所述对原始视频中对应的帧图像中的人体信息进行优化处理,包括:
对腰部处理和腿部处理;
所述人体信息包括:人体关键点数据,所述人体关键点数据包括左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝、右踝在图像中的二维坐标。
8.一种提高人像视频美化处理效率的装置,其特征在于,包括:
视频压缩模块,用于获取原始视频,并压缩所述原始视频,得到低分辨率视频;
视频解码模块,用于对所述低分辨率视频以及原始视频进行解码,得到每一帧图像的图像数据;
视频识别模块,用于跳帧识别所述图像数据中的人脸信息和/或人体信息;
视频存储模块,用于视频名和视频帧时间作为key值存储至数据库;
数据获取模块,用于获取所述原始视频解码后的视频帧,根据所述视频帧的视频帧时间获取数据库中对应的视频帧在预设时间段内的最近左侧数据和最近右侧数据;
数据校正模块,用于对所述预设时间段内的最近左侧数据和最近右侧数据进行校正;
线性插值模块,用于确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据;
人像优化模块,用于根据所述预测数据对所述原始视频中对应的帧图像进行优化处理,得到处理后的图像数据;
视频展示模块,用于利用视频编码器和视频合成器对所述处理后的图像数据进行合成,输出优化后的视频;
所述确定在预设时间段内校正后的最近左侧数据和最近右侧数据中的人像数量,通过线性插值计算当前视频帧的预测数据,包括:
识别最近左侧数据和最近右侧数据中的人像数量,如果识别出的最近左侧数据和最近右侧数据中的人像数量一致,则通过线性插值计算出当前视频帧的预测数据;
否则,将人像数量多的确定为人像数量,通过线性插值计算出当前视频帧的预测数据。
9.一种移动端,其特征在于,包括处理器,以及与所述处理器连接的存储器;
所述存储器用于存储计算机程序,计算机程序用于执行所述权利要求1至7任一项所述的提高人像视频美化处理效率的方法;
所述处理器用于调用并执行存储器中的计算机程序。
CN202110086874.3A 2021-01-22 2021-01-22 提高人像视频美化处理效率的方法、装置及移动端 Active CN112767240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110086874.3A CN112767240B (zh) 2021-01-22 2021-01-22 提高人像视频美化处理效率的方法、装置及移动端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110086874.3A CN112767240B (zh) 2021-01-22 2021-01-22 提高人像视频美化处理效率的方法、装置及移动端

Publications (2)

Publication Number Publication Date
CN112767240A CN112767240A (zh) 2021-05-07
CN112767240B true CN112767240B (zh) 2023-10-20

Family

ID=75703651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110086874.3A Active CN112767240B (zh) 2021-01-22 2021-01-22 提高人像视频美化处理效率的方法、装置及移动端

Country Status (1)

Country Link
CN (1) CN112767240B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327207B (zh) * 2021-06-03 2023-12-08 广州光锥元信息科技有限公司 应用于图像人脸优化的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731964A (zh) * 2015-04-07 2015-06-24 上海海势信息科技有限公司 基于人脸识别的人脸摘要方法、视频摘要方法及其装置
CN107566798A (zh) * 2017-09-11 2018-01-09 北京大学 一种数据处理的系统、方法及装置
CN110399842A (zh) * 2019-07-26 2019-11-01 北京奇艺世纪科技有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN111035933A (zh) * 2019-12-05 2020-04-21 腾讯科技(深圳)有限公司 一种异常游戏检测方法、装置、电子设备及可读存储介质
CN111460219A (zh) * 2020-04-01 2020-07-28 百度在线网络技术(北京)有限公司 视频处理方法及装置、短视频平台
CN111861868A (zh) * 2020-07-15 2020-10-30 广州光锥元信息科技有限公司 用于视频中人像美化的图像处理方法及装置
CN111932442A (zh) * 2020-07-15 2020-11-13 厦门真景科技有限公司 一种基于人脸识别技术的视频美颜方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731964A (zh) * 2015-04-07 2015-06-24 上海海势信息科技有限公司 基于人脸识别的人脸摘要方法、视频摘要方法及其装置
CN107566798A (zh) * 2017-09-11 2018-01-09 北京大学 一种数据处理的系统、方法及装置
CN110399842A (zh) * 2019-07-26 2019-11-01 北京奇艺世纪科技有限公司 视频处理方法、装置、电子设备及计算机可读存储介质
CN111035933A (zh) * 2019-12-05 2020-04-21 腾讯科技(深圳)有限公司 一种异常游戏检测方法、装置、电子设备及可读存储介质
CN111460219A (zh) * 2020-04-01 2020-07-28 百度在线网络技术(北京)有限公司 视频处理方法及装置、短视频平台
CN111861868A (zh) * 2020-07-15 2020-10-30 广州光锥元信息科技有限公司 用于视频中人像美化的图像处理方法及装置
CN111932442A (zh) * 2020-07-15 2020-11-13 厦门真景科技有限公司 一种基于人脸识别技术的视频美颜方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN112767240A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN111861868B (zh) 用于视频中人像美化的图像处理方法及装置
CN111753801A (zh) 人体姿态跟踪与动画生成方法及装置
CN109117753B (zh) 部位识别方法、装置、终端及存储介质
CN111612878B (zh) 将静态照片制作成三维效果视频的方法及装置
CN111291674B (zh) 一种虚拟人物表情动作的提取方法、系统、装置及介质
CN109344796A (zh) 信息处理方法和装置、电子设备、计算机可读存储介质
US20170064279A1 (en) Multi-view 3d video method and system
CN111107278B (zh) 图像处理方法、装置、电子设备及可读存储介质
JPH02239376A (ja) 動画像の動き検出方法及びその装置
CN112767240B (zh) 提高人像视频美化处理效率的方法、装置及移动端
CN112163479A (zh) 动作检测方法、装置、计算机设备和计算机可读存储介质
CN110910512B (zh) 虚拟物体自适应调整方法、装置、计算机设备和存储介质
CN102333221B (zh) 一种全景式背景预测的视频编解码方法
CN114783001A (zh) 游泳姿态评估方法、系统、装置及计算机可读存储介质
US11138743B2 (en) Method and apparatus for a synchronous motion of a human body model
CN113255429B (zh) 一种视频中人体姿态估计与跟踪方法及系统
CN112929743B (zh) 对视频中指定对象添加视频特效的方法、装置及移动端
CN111028318A (zh) 一种虚拟人脸合成方法、系统、装置和存储介质
Huang et al. Object-occluded human shape and pose estimation with probabilistic latent consistency
CN111104827A (zh) 图像处理方法、装置、电子设备及可读存储介质
CN115205737B (zh) 基于Transformer模型的运动实时计数方法和系统
CN113761965B (zh) 动作捕捉方法、装置、电子设备和存储介质
CN112150387B (zh) 对照片中的人像增强五官立体感的方法及装置
CN111738092B (zh) 一种基于深度学习的恢复被遮挡人体姿态序列方法
CN111988621A (zh) 视频处理器训练方法、装置、视频处理装置及视频处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant