CN117689569A - 视频帧的处理方法、装置、计算机设备和存储介质 - Google Patents
视频帧的处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117689569A CN117689569A CN202210980758.0A CN202210980758A CN117689569A CN 117689569 A CN117689569 A CN 117689569A CN 202210980758 A CN202210980758 A CN 202210980758A CN 117689569 A CN117689569 A CN 117689569A
- Authority
- CN
- China
- Prior art keywords
- video frame
- deflection
- value
- key part
- deflection degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 8
- 238000012545 processing Methods 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 76
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 238000001914 filtration Methods 0.000 claims abstract description 26
- 230000000694 effects Effects 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 40
- 230000008859 change Effects 0.000 claims description 38
- 230000003247 decreasing effect Effects 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 30
- 230000007423 decrease Effects 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 210000001508 eye Anatomy 0.000 description 116
- 230000036544 posture Effects 0.000 description 23
- 238000005096 rolling process Methods 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 239000011324 bead Substances 0.000 description 9
- 210000003128 head Anatomy 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 210000000887 face Anatomy 0.000 description 8
- 210000003811 finger Anatomy 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000001960 triggered effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000001145 finger joint Anatomy 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001202 rhombencephalon Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/20—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
Abstract
本申请涉及一种视频帧的处理方法、装置、计算机设备、存储介质和计算机程序产品。该方法可应用于云会议、云存储、人工智能和智能交通等场景,该方法包括:确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态;根据关键部位的各姿态,确定关键部位在各视频帧内的偏转程度值;基于关键部位在各视频帧内的偏转程度值生成控制信号;通过背隙滤波器,依据背隙滤波系数对控制信号进行背隙滤波,得到关键部位在各视频帧内的偏转更新值;基于各视频帧内的偏转更新值,依次对各视频帧进行图像处理。采用本方法能够有效消除噪声导致的对视频帧进行图像处理时的抖动,有利于提高图像处理后的视频帧的稳定性。
Description
技术领域
本申请涉及视频处理技术领域,特别是涉及一种视频帧的处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着视频技术和互联网技术的不断发展,使得广大用户可以很方便地通过智能终端进行视频会议,或观看各种视频(如直播视频)。由于视频采集的过程中,不可避免地引入噪声,在进行视频会议或观看视频的过程中,使视频出现抖动的问题,从而使视频出现失真的情况,在对该视频中的视频帧进行处理时,将会影响处理后的视频帧的稳定性。
发明内容
基于此,有必要针对上述技术问题,提供一种视频帧的处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,能够有效消除噪声导致的对视频帧进行图像处理时的抖动,有利于提高图像处理后的视频帧的稳定性。
第一方面,本申请提供了一种视频帧的处理方法。所述方法包括:
确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态;
根据所述关键部位的各姿态,确定所述关键部位在各所述视频帧内的偏转程度值;所述偏转程度值的大小受所述关键部位的姿态变化和所述噪声影响;
基于所述关键部位在各所述视频帧内的偏转程度值生成控制信号;
通过背隙滤波器,依据背隙滤波系数对所述控制信号进行背隙滤波,得到所述关键部位在各所述视频帧内的偏转更新值;
基于各所述视频帧内的偏转更新值,依次对各所述视频帧进行图像处理。
第二方面,本申请还提供了一种视频帧的处理装置。所述装置包括:
姿态确定模块,用于确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态;
偏转程度值确定模块,用于根据所述关键部位的各姿态,确定所述关键部位在各所述视频帧内的偏转程度值;所述偏转程度值的大小受所述关键部位的偏转和所述噪声影响;
控制信号确定模块,用于基于所述关键部位在各所述视频帧内的偏转程度值生成控制信号;
偏转程度值更新模块,用于通过背隙滤波器,依据背隙滤波系数对所述控制信号进行背隙滤波,得到所述关键部位在各所述视频帧内的偏转更新值;
图像处理模块,用于基于各所述视频帧内的偏转更新值,依次对各所述视频帧进行图像处理。
在一些实施例中,所述姿态确定模块,还用于获取实时采集的携带噪声的各视频帧;从各所述视频帧中提取目标对象的关键点;基于所述关键点,确定所述目标对象的关键部位在各所述视频帧中的姿态。
在一些实施例中,所述控制信号确定模块,用于获取各所述视频帧的时序标识;依据所述时序标识和所述关键部位在各所述视频帧内的偏转程度值,生成控制信号;所述控制信号用于描述所述偏转程度值随时间变化的趋势。
在一些实施例中,各所述视频帧是实时采集的视频帧,所述控制信号用于描述所述偏转程度值随时间变化的趋势;
所述偏转程度值更新模块,还用于在所述控制信号中的偏转程度值随时间开始递增或递减的过程中,通过背隙滤波器确定相对于目标拐点的第一偏转程度变化量;将所述第一偏转程度变化量与背隙滤波系数或和值对比,得到对比结果;所述和值是对所述背隙滤波系数与预设参数进行求和所得的;当所述对比结果表示所述第一偏转程度变化量小于或等于背隙滤波系数时,将所述目标拐点处的偏转更新值作为所述关键部位在各所述视频帧内的偏转更新值。
在一些实施例中,所述偏转程度值更新模块,还用于当所述对比结果表示所述第一偏转程度变化量大于所述背隙滤波系数、且小于或等于所述和值时,对增大的所述偏转程度值进行线性变换处理,得到所述关键部位在各所述视频帧内的偏转更新值。
在一些实施例中,所述偏转程度值更新模块,还用于当所述对比结果表示所述第一偏转程度变化量大于所述和值时,获取在递增的所述偏转程度值等于所述和值时所对应的偏转更新值;将获取的偏转更新值作为所述关键部位在各所述视频帧内的偏转更新值。
在一些实施例中,所述偏转程度值更新模块,还用于当检测到所述控制信号中的偏转程度值随时间开始递减或递增时,以开始递减或递增的偏转程度值为基准值确定第二偏转程度变化量;当所述第二偏转程度变化量小于所述背隙滤波系数时,根据新目标拐点处的偏转更新值确定所述关键部位在各所述视频帧内的偏转更新值;所述新目标拐点是在所述目标拐点之后形成的拐点。
在一些实施例中,所述关键部位包括面部,所述各姿态包括所述面部在各所述视频帧中的俯仰角、偏航角和翻滚角;
所述偏转程度值确定模块,还用于对所述面部在各所述视频帧中的俯仰角、偏航角和翻滚角进行归一化处理,得到归一化的俯仰角、偏航角和翻滚角;确定所述归一化的俯仰角、偏航角和翻滚角的乘积值;基于所述乘积值确定所述面部所述每一视频帧内的偏转程度值。
在一些实施例中,所述姿态确定模块,还用于在目标应用的眼神接触功能项处于开启状态的情况下,确定所述目标对象的面部在携带噪声的各视频帧中呈现的姿态;其中,所述目标应用是播放各所述视频帧的应用程序。
在一些实施例中,所述图像处理模块,还用于确定各所述视频帧中原始的眼部特征点所处的位置;依据各所述视频帧内的偏转更新值获取目标眼部特征点;依据所述位置将所述目标眼部特征点融合于各所述视频帧中,以替换各所述视频帧中原始的眼部特征点。
在一些实施例中,所述关键部位包括手部;所述图像处理模块,还用于当各所述视频帧内的偏转更新值满足特效添加条件时,获取特效数据;在各所述视频帧中添加所述特效数据。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态;
根据所述关键部位的各姿态,确定所述关键部位在各所述视频帧内的偏转程度值;所述偏转程度值的大小受所述关键部位的姿态变化和所述噪声影响;
基于所述关键部位在各所述视频帧内的偏转程度值生成控制信号;
通过背隙滤波器,依据背隙滤波系数对所述控制信号进行背隙滤波,得到所述关键部位在各所述视频帧内的偏转更新值;
基于各所述视频帧内的偏转更新值,依次对各所述视频帧进行图像处理。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态;
根据所述关键部位的各姿态,确定所述关键部位在各所述视频帧内的偏转程度值;所述偏转程度值的大小受所述关键部位的姿态变化和所述噪声影响;
基于所述关键部位在各所述视频帧内的偏转程度值生成控制信号;
通过背隙滤波器,依据背隙滤波系数对所述控制信号进行背隙滤波,得到所述关键部位在各所述视频帧内的偏转更新值;
基于各所述视频帧内的偏转更新值,依次对各所述视频帧进行图像处理。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态;
根据所述关键部位的各姿态,确定所述关键部位在各所述视频帧内的偏转程度值;所述偏转程度值的大小受所述关键部位的姿态变化和所述噪声影响;
基于所述关键部位在各所述视频帧内的偏转程度值生成控制信号;
通过背隙滤波器,依据背隙滤波系数对所述控制信号进行背隙滤波,得到所述关键部位在各所述视频帧内的偏转更新值;
基于各所述视频帧内的偏转更新值,依次对各所述视频帧进行图像处理。
上述视频帧的处理方法、装置、计算机设备、存储介质和计算机程序产品,获取目标对象的关键部位在携带噪声的视频帧中呈现的姿态,根据关键部位的各姿态,确定关键部位在各视频帧的偏转程度值,根据各视频帧的偏转程度值生成控制信号,通过背隙滤波器,依据背隙滤波系数对控制信号进行背隙滤波,得到关键部位在各视频帧内的偏转更新值,再基于各视频帧内的偏转更新值,依次对各视频帧进行图像处理。由于视频帧携带有噪声,关键部位的姿态受噪声的影响,关键部位的偏转程度值也会受噪声的影响,控制信号上存在噪声导致的抖动,导致偏转更新值也会受噪声的影响,从而导致对视频帧进行图像处理时产生抖动,比如噪声导致图像处理在两种不同状态之间频繁切换,上述视频帧的处理方法,通过背隙滤波器,依据背隙滤波系数将控制信号上由噪声导致的抖动滤除,再根据滤波后的控制信号确定各视频帧的偏转更新值,也就是说,通过背隙滤波器滤除了噪声对偏转更新值的影响,也消除了噪声导致的,对视频帧进行图像处理时的抖动,提高了图像处理后的视频帧的稳定性。
附图说明
图1为一个实施例中视频帧的处理方法的应用环境图;
图2为一个实施例中视频帧的处理方法的流程示意图;
图3为一个实施例中控制信号的可视化信号曲线的示意图;
图4为一个实施例中视频帧的关键点的示意图;
图5为一个实施例中视频帧的示意图;
图6为一个实施例中的从视频帧提取关键点的示意图;
图7为一个实施例中关于关键点的示意图;
图8为另一个实施例中计算偏转更新值的流程示意图;
图9为另一个实施例中控制信号的可视化信号曲线的示意图;
图10为一个实施例中根据偏转程度变化量与偏转更新值之间转换的示意图;
图11为一个实施例中背隙现象的示意图;
图12为另一个实施例中根据偏转程度变化量与偏转更新值之间转换的示意图;
图13为一个实施例中目标应用的设置页面的示意图;
图14为具体一个实施例中视频帧的处理方法的示意图;
图15为一个实施例中视频帧的处理装置的结构框图;
图16为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在对本申请的实施例进行描述之前,先对本申请所涉及的技术进行说明,具体如下:
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面,进行简单易用的操作,便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频,而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。
在云会议时代,数据的传输、处理、存储全部由视频会议厂家的计算机资源处理,用户完全无需再购置昂贵的硬件和安装繁琐的软件,只需打开浏览器,登录相应界面,就能进行高效的远程会议。云会议系统支持多服务器动态集群部署,并提供多台高性能服务器,大大提升了会议稳定性、安全性、可用性。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
本申请实施例提供的视频帧的处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
在一种应用场景中,终端获取目标对象的视频帧,可以是终端采用自身配置的摄像头采集目标对象的视频帧,或者终端从服务器获取目标对象的视频帧;终端确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态,终端根据关键部位的各姿态,确定关键部位在各视频帧内的偏转程度值,终端基于关键部位在各视频帧内的偏转程度值生成控制信号,终端通过背隙滤波器,通过背隙滤波系数对控制信号进行背隙滤波,得到关键部位在各视频帧内的偏转更新值,终端根据视频帧内的偏转更新值对各视频帧进行图像处理。
在一种应用场景中,终端实时采集包括目标对象的视频帧,终端向服务器发送各视频帧,服务器接收的各视频帧携带噪声,服务器确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态,服务器根据关键部位的各姿态,确定关键部位在各视频帧内的偏转程度值,服务器基于关键部位在各视频帧内的偏转程度值生成控制信号,服务器通过背隙滤波器,通过背隙滤波系数对控制信号进行背隙滤波,得到关键部位在各视频帧内的偏转更新值,服务器根据视频帧内的偏转更新值对各视频帧进行图像处理。
其中,终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调和智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。
服务器104可以是独立的物理服务器,也可以是区块链系统中的服务节点,该区块链系统中的各服务节点之间形成点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。
此外,服务器104还可以是多个物理服务器构成的服务器集群,可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端102与服务器104之间可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者网络等通讯连接方式进行连接,本申请在此不做限制。
在一些实施例中,如图2所示,提供了一种视频帧的处理方法,该方法可以应用于图1中的终端或服务器,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤S202,确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态。
其中,目标对象为视频帧中包括的对象,示例性地,目标对象可以是视频帧中包括的人。目标对象的关键部位可以是人的身体部位,示例性地,目标对象的关键部位可以但不限于是:面部和手部。
在一些实施例中,目标对象可以为视频帧中的一个对象。示例性地,若视频帧中只包括一个人,则此人为目标对象,若视频帧中包括至少两个人,则将占据视频帧的画面较多面积的人作为目标对象。
在一些实施例中,目标对象可以为视频帧中的多个对象。示例性地,若视频帧中包括多个人,则目标对象可以是多个人。
其中,姿态可以用于表征关键部位在视频帧中的朝向,或者姿态也可以用于表征关键部位在视频帧中的姿势。示例性地,若身体部位为面部,则姿态可以用于表征面部在视频帧中的朝向,若身体部位为手部,则姿态可以用于表征手部在视频帧中的姿势。
具体地,终端获取各视频帧,各视频帧可以是终端通过其配置的摄像头采集得到的,各视频帧也可以是终端从服务器获取的,在实际应用中,可以由第三方设备拍摄各视频帧,并对各视频帧进行编码,得到各视频帧对应的码流,第三方设备将该码流发送至服务器,由服务器将码流发送至终端,终端获取到码流,并对码流进行解码,得到各视频帧。
各视频帧的采集过程会引入噪声,对各视频帧进行编码、解码的过程也会引入噪声,因此终端获取到的各视频帧携带有噪声,并且各视频帧分别携带的噪声可能不同。
终端对各视频帧进行处理,以得到目标对象的关键部位在各视频帧中的姿态。由于各视频帧携带噪声,当关键部位在各视频帧中保持静止时,终端确定的关键部位在各视频帧中的姿态可能不同。
步骤S204,根据关键部位的各姿态,确定关键部位在各视频帧内的偏转程度值;偏转程度值的大小受关键部位的偏转和噪声影响。
其中,偏转程度值,用于表征姿态与参考姿态之间的差距,关键部位在视频帧内的偏转程度值,用于表征关键部位在视频帧内的姿态相对于参考姿态的偏差程度。
示例性地,目标部位为面部,面部在视频帧内的偏转程度值,用于表征面部在视频帧内的朝向(通过面部的姿态表征),相对于参考朝向(通过参考姿态表征)的差距。偏转程度值越大,则面部的朝向和参考朝向之间的差距越大,偏转程度值越小,则面部的朝向和参考朝向之间的差距越小。
参考朝向可以是面部正对终端的显示屏时的朝向,进而该偏转程度值可以用于表征,面部正对显示屏的程度;偏转程度值越小,则面部的朝向越接近于面部正对显示屏时的朝向。
示例性地,目标部位为手部,手部在视频帧内的偏转程度值,用于表征手部在视频帧内的姿势(通过手部的姿态表征),与参考姿势(通过参考姿态表征)的差距。偏转程度值约大,则手部的姿势和参考姿势之间的差距越大,偏转程度值越小,则手部的姿势和参考姿势之间的差距越小。
参考姿势包括但不限于:表示“耶”的参考姿势(手部握拳后,伸出食指和中指)、表示“OK”的参考姿势(伸出手掌五指张开后,弯曲拇指和食指,且拇指和食指围绕成圆)、以及表示“1”的参考姿势(手部握拳后,伸出食指)。进而该偏转程度值可以用于表征,手部姿势与参考姿势之间的差距,比如手部的姿势为表示“耶”的姿势,但是手部的食指和中指未伸直,导致手部姿势与表示“耶”的参考姿势之间存在差距。
具体地,对于每个视频帧,终端确定关键部位在该视频帧中的姿态,与参考姿态之间的差距,得到关键部位在该视频帧内的偏转程度值。
偏转程度值的大小随着关键部位的各姿态的改变而改变;示例性地,关键部位为面部,若面部在各视频帧中的朝向不同,则关键部位在各视频帧中的偏转程度值也不同。
由于各视频帧携带噪声,当关键部位在各视频帧中保持静止时,终端确定的关键部位在各视频帧中的姿态也可能不同,进而关键部位在各视频帧中的偏转程度值也不同。
步骤S206,基于关键部位在各视频帧内的偏转程度值生成控制信号。
其中,各视频帧存在时间顺序,因此可以将各视频帧作为存在时间顺序的视频帧序列。控制信号是基于偏转程度值生成的且时间连续的时序信号,可用于反映目标部位的偏转程度值在各视频帧中的变化趋势。例如,令视频帧f0和f1分别对应的时间(如采集时间)t0和t1,则时间t0下的控制信号可以表示关键部位在视频帧f0的偏转程度值或偏转程度值的编码值,时间t1下的控制信号可以表示关键部位在视频帧f1的偏转程度值或偏转程度值的编码值。
具体地,依据各视频帧的时间顺序,以及关键部位在各视频帧内的偏转程度值生成控制信号。
示例性地,各视频帧包括时间顺序上从前到后的:f1,f2,f3,f4,f5,控制信号是f1,f2,f3,f4,f5分别对应的偏转程度值:p1,p2,p3,p4,p5,通过描点法,基于p1,p2,p3,p4,p5绘制平滑曲线,可以得到控制信号的可视化信号曲线,该可视化信号曲线的横坐标为时间,纵坐标为偏转程度值。
示例性地,控制信号的可视化信号曲线如图3所示,gt1是面部在视频帧t1中的偏转程度值,gt2是面部在视频帧t2中的偏转程度值,gt3是面部在视频帧t3中的偏转程度值,可见视频帧t1的播放时间顺序早于视频帧t2的播放时间顺序,视频帧t2的播放时间顺序早于视频帧t3的播放时间顺序;gt1小于gt2,gt2大于gt3,由此可知,且在视频帧t1至视频帧t2之间,偏转程度值随播放时间变化的趋势为递增趋势,在视频帧t2至视频帧t3之间,偏转程度值随播放时间变化的趋势为递减趋势。图3所述的控制信号的可视化信号曲线仅仅是一个示例,在实际应用中,控制信号的可视化信号曲线还可以是其他形式。
步骤S208,通过背隙滤波器,依据背隙滤波系数对控制信号进行背隙滤波,得到关键部位在各视频帧内的偏转更新值。
其中,背隙是两个工件结合时的间隙,背隙现象指的是,两个工件结合时的背隙,导致一个工件切换运行状态时需要先运行该背隙对应的回程,才能驱动另一工件跟随切换运行状态。示例性地,两个齿轮啮合时存在背隙,主齿轮顺时针运行时,与该主齿轮啮合的从齿轮逆时针运行,若主齿轮切换为逆时针运行,则需要先在逆时针运行的情况下走完背隙对应的回程,才能驱动从齿轮切换为顺时针运行。
背隙滤波器是由基于上述背隙现象得到的滤波器,背隙滤波器可以滤除控制信号中由噪声导致的抖动,并根据滤波后的控制信号确定偏转更新值。背隙滤波系数用于反映背隙对应的回程。
具体地,控制信号类比于主齿轮的运行状态,偏转更新值类比于从齿轮的运行状态。
控制信号中的偏转程度值的递增趋势(或者递减趋势),类比于主齿轮顺时针运行(或者逆时针运行),相应地,从齿轮逆时针运行(或者顺时针运行),控制信号中的偏转程度值从递增趋势切换至递减趋势(或者从递减趋势切换为递增趋势),类比于主齿轮切换为逆时针运行(或者顺时针运行);在偏转程度值从递增趋势切换至递减趋势(或者从递减趋势切换为递增趋势)之后,偏转程度值的变化量未超过背隙滤波系数时,类比于主齿轮切换为逆时针运行后,未走完背隙的回程,则从齿轮的运行状态未发生切换;在偏转程度值从递增趋势切换至递减趋势(或者从递减趋势切换为递增趋势)之后,偏转程度值的变化量超过背隙滤波系数时,类比于主齿轮切换为逆时针运行后,走完背隙的回程,则从齿轮的运行状态发生切换。其中,主齿轮和从齿轮也可分别称为主动轮和从动轮。
在一种可能的情况下,对于控制信号中的偏转程度值,在偏转程度值的增减趋势第一次发生切换后(从递增趋势切换为递减趋势后,或者从递减趋势切换为递增趋势后),若在偏转程度值的变化量不大于背隙滤波系数的情况下,偏转程度值的增减趋势再次发生切换,且偏转程度值继续递增或递减,直至与第一次发生增减趋势切换时的偏转程度值相同,由于该偏转程度值的变化过程对应的偏转程度值的变化量不大于背隙滤波系数,背隙滤波器将该变化过程滤除,并在滤除后确定偏转更新值;该变化过程中各偏转程度值对应的偏转更新值,与第一次发生增减趋势切换时的偏转程度值所对应的偏转更新值相同。在此情况下,该偏转程度值的变化过程是噪声导致的,该偏转程度值的变化过程造成控制信号发生抖动,背隙滤波器将该噪声导致的控制信号的抖动滤除。
在一种可能的情况下,在偏转程度值的增减趋势发生切换后,若在偏转程度值的变化量大于背隙滤波系数,且偏转程度值继续按照切换后的趋势变化;该偏转程度值的变化过程对应的偏转程度值的变化量大于背隙滤波系数,在该变化过程中,背隙滤波器将偏转程度值的变化量不大于背隙滤波系数的前一部分过程滤除,并在滤除后确定该前一部分过程的偏转更新值,该前一部分过程的偏转更新值对应的偏转更新值,与发生增减趋势切换时的偏转程度值所对应的偏转更新值相同;背隙滤波器不对偏转程度值的变化量大于背隙滤波系数的后一部分过程进行滤除,并根据后一部分过程的偏转程度值确定偏转更新值。在此情况下,该偏转程度值的变化过程是关键部位的姿态发生变化导致的。
步骤S210,基于各视频帧内的偏转更新值,依次对各视频帧进行图像处理。
其中,视频帧的偏转更新值用于反映对视频帧进行图像处理的状态,对视频帧进行图像处理的状态,可以包括对视频帧进行不同程度的图像处理的状态,对视频帧进行图像处理的状态,也可以包括对视频帧进行图像处理,或者不对视频帧进行图像处理的状态。
在一些实施例中,视频帧的偏转更新值可以用于反映对视频帧进行图像处理的程度,视频帧的偏转更新值越大,对视频帧进行图像处理的程度越高,视频帧的偏转更新值越小,对视频帧进行图像处理的程度越低;当视频帧的偏转更新值为最小值时,视频帧的图像处理状态为不进行图像处理,当视频帧的偏转更新值为最大值时,视频帧的图像处理状态为按照最大程度进行图像处理。
示例性地,对视频帧进行图像处理,是调整视频帧的图像参数,视频帧的偏转更新值越大,则调整图像参数后的视频帧与调整图像参数前的视频帧的差距越大,视频帧的偏转更新值越小,则调整图像参数后的视频帧与调整图像参数前的视频帧的差距越小。
在一些实施例中,视频帧的偏转更新值可以用于反映是否对视频帧进行图像处理,比如视频帧的偏转更新值为第一更新值时,则对视频帧进行图像处理,视频帧的偏转更新值为第二更新值时,则不对视频帧进行图像处理。
具体地,对于每个视频帧,获取该视频帧的偏转更新值所对应的图像处理状态,依据图像处理状态对该视频帧进行处理,得到图像处理后的视频帧。
在上述视频帧的处理方法,获取目标对象的关键部位在携带噪声的视频帧中呈现的姿态,根据关键部位的各姿态,确定关键部位在各视频帧的偏转程度值,根据各视频帧的偏转程度值生成控制信号,通过背隙滤波器,依据背隙滤波系数对控制信号进行背隙滤波,得到关键部位在各视频帧内的偏转更新值,再基于各视频帧内的偏转更新值,依次对各视频帧进行图像处理。由于视频帧携带有噪声,关键部位的姿态受噪声的影响,关键部位的偏转程度值也会受噪声的影响,控制信号上存在噪声导致的抖动,导致偏转更新值也会受噪声的影响,从而导致对视频帧进行图像处理时产生抖动,比如噪声导致图像处理在两种不同状态之间频繁切换,上述视频帧的处理方法,通过背隙滤波器,依据背隙滤波系数将控制信号上由噪声导致的抖动滤除,再根据滤波后的控制信号确定各视频帧的偏转更新值,也就是说,通过背隙滤波器滤除了噪声对偏转更新值的影响,也消除了噪声导致的,对视频帧进行图像处理时的抖动,提高了图像处理后的视频帧的稳定性。
在一些实施例中,确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态,包括:获取实时采集的携带噪声的各视频帧;从各视频帧中提取目标对象的关键点;基于关键点,确定目标对象的关键部位在各视频帧中的姿态。
其中,目标对象的关键点,是目标对象的关键部位的特征点。示例性地,关键部位为面部,目标对象的关键点包括但不限于眼角对应的像素点、瞳孔对应的像素点、嘴角对应的像素点等。示例性地,关键部位为手部,目标对象的关键点包括但不限于手指关节对应的像素点。
具体地,终端获取到实时采集的、携带噪声的各视频帧,对各视频帧进行关键点提取,得到目标对象在各视频帧中的关键点,终端根据目标对象在各视频帧中的关键点,确定目标对象的关键部位在各视频帧中的姿态。提取目标对象的关键点,以及基于关键点确定目标部位在视频帧中的姿态均可以通过现有方式实现,本申请是实施例对提取目标对象的关键点,以及基于关键点,确定目标对象的关键部位在各视频帧中的姿态的具体过程不进行限定。
示例性地,如图4所示,终端获取到各视频帧分别为:t1帧,t2帧,t3帧,t4帧和t5帧;t1帧携带的噪声为噪声t1,t2帧携带的噪声为噪声t2,t3帧携带的噪声为噪声t3,t4帧携带的噪声为噪声t4,t5帧携带的噪声为噪声t5;终端对携带有噪声的t1帧,t2帧,t3帧,t4帧和t5帧进行关键点提取,得到t1帧对应的关键点t1、t2帧对应的关键点t2、t3帧对应的关键点t3、t4帧对应的关键点t4和t5帧对应的关键点t5;终端对t1帧,t2帧,t3帧,t4帧和t5帧的关键点进行处理姿态估计,得到关键部位在t1帧、t2帧、t3帧、t4帧和t5帧中的姿态。
在一些实施例中,目标对象的关键部位为面部,对于终端获取到的每个视频帧,终端获取到该视频帧后,在该视频帧中确定目标对象,检测目标对象的关键点(面部的特征点),示例性地,一个视频帧如图5所示,在该视频帧中检测目标对象的面部的特征点如图6所示,并提取得到目标对象的面部的特征点,如图7所示;根据目标对象的面部的特征点确定面部在该视频帧中的姿态。
在一些实施例中,目标对象的关键部位为手部,对于终端获取到的每个视频帧,终端获取到该视频帧后,在该视频帧中检测目标对象的关键点(手部的特征点),提取手部的特征点,根据手部的特征点确定手部在该视频帧中的姿态。
在上述实施例中,终端从携带有噪声的视频帧中提取目标对象的关键点,也就是提取关键部位的特征点,基于关键部位的特征点确定关键部位在视频帧中的姿态,使得确定的关键部位的姿态更准确,以便于后续基于关键部位在视频帧中的姿态确定关键部位在视频帧中的偏转程度值。
在一些实施例中,各视频帧是实时采集的视频帧,控制信号用于描述偏转程度值随时间变化的趋势。因此,如图8所示,S208具体可以包括:
步骤S802,在控制信号中的偏转程度值随时间开始递增或递减的过程中,通过背隙滤波器确定相对于目标拐点的第一偏转程度变化量。
其中,目标拐点是控制信号中的点,包括:偏转程度值从递增变为递减的临界点(如控制信号中的波峰点),或偏转程度值从递减变为递增的临界点(如控制信号中的波谷点),如图9中的a点和b点为目标拐点。
第一偏转程度变化量用于表示目标拐点位置的偏转程度值与当前时间(也即当前时刻)的偏转程度值之间的差值,若该差值为负时,则取绝对值,从而确保最终的差值为正。需要指出的是,偏转程度值随时间发生变化,对应的第一偏转程度变化量也随时间发生变化,如偏转程度值随时间递增时,对应的第一偏转程度变化量也随时间递增。由于第一偏转程度变化量是两个偏转程度值的差值的绝对值,因此即使偏转程度值随时间递减,对应的第一偏转程度变化量依然会随时间递增。
在一些实施例中,S802具体可以包括:在控制信号中的偏转程度值刚从递减(或递增)切换到递增(或递减)之后,背隙滤波器以目标拐点的偏转程度为基准值计算第一偏转程度变化量,从而得到相对于目标拐点的第一偏转程度变化量。其中,该目标拐点即为偏转程度值刚从递减(或递增)切换到递增(或递减)时的点,如图9中的a点。
在另一些实施例中,当控制信号是基于初始采集的视频帧所得的信号时,在控制信号中的偏转程度值随时间开始递增或递减的过程中,背隙滤波器以目标部位在首帧的偏转程度值为基准值计算第一偏转程度变化量。如图9所示,背隙滤波器以0时刻采集的视频帧(即首帧)对应的偏转程度值为基准值,计算0时刻之后采集的各视频帧对应的偏转程度值与基准值之间的差值,将该差值的绝对值作为0时刻至t(i)之间的各视频帧对应的第一偏转程度变化量。在得到第一偏转程度变化量之后,服务器可以对所得的偏转程度值进行线性变换处理,得到关键部位在各视频帧内的偏转更新值,如关键部位在0时刻至t(i)之间的各视频帧内的偏转更新值。
在一些实施例中,终端可以将控制信号输入至背隙滤波器,由于控制信号受关键部位的姿态变化和噪声的影响,可能会出现波动现象,当控制信号从递增变为递减(即控制信号中的偏转程度值开始随时间逐步减小)时,终端从目标拐点开始实时计算第一偏转程度变化量。
例如,如图9所示,控制信号中的偏转程度值从t(i)时刻开始递减,终端从t(i)时刻开始实时计算第一偏转程度变化量,当达到t(j)时刻时,计算t(i)至t(j)这两个时刻的偏转程度值之间的差值,从而得到t(j)时刻下的第一偏转程度变化量Δg=|g(t(i))-g(t(j))|;当达到t(k)时刻时,计算t(i)至t(k)这两个时刻的偏转程度值之间的差值,从而得到t(k)时刻下的第一偏转程度变化量Δg=|g(t(i))-g(t(k))|。由于b点为目标拐点,因此终端可以从b点开始重新计算第一偏转程度变化量。
步骤S804,将第一偏转程度变化量与背隙滤波系数或和值对比,得到对比结果。
其中,上述的和值是对背隙滤波系数与预设参数进行求和所得的。背隙滤波系数是背隙滤波器中的滤波系数。
在一些实施例中,服务器可以将第一偏转程度变化量与背隙滤波系数进行对比,得到对比结果;或者,当第一偏转程度变化量大于背隙滤波系数时,服务器将第一偏转程度变化量与和值进行对比,得到对比结果。
例如,如图10所示,图中的小黑点表示目标拐点,在终端从目标拐点b开始实时计算出第一偏转程度变化量之后,对比第一偏转程度变化量与背隙滤波系数之间的大小;需要说明的是,当未到达c点时,即未到达图9中的t(l)时刻,则此时的第一偏转程度变化量Δg=|g(t(k))-g(t(l'))|<背隙滤波系数θ;当到达c点时,则此时的第一偏转程度变化量Δg=|g(t(k))-g(t(l))|=背隙滤波系数θ。其中,t(l')处于t(k)~t(l)之间。
当超过c点但未到达d点时,如达到d’(即c与d之间的一个点)点,将d’点对应的这一时刻的第一偏转程度变化量Δg=|g(t(k))-g(t(m'))|与和值进行对比,显然此时的Δg小于和值,即Δg<θ+τ;当到达d点时,将d点对应的t(m)时刻的第一偏转程度变化量Δg=|g(t(k))-g(t(m))|与和值进行对比,显然此时的Δg等于和值,即Δg=θ+τ。其中,和值为θ+τ,t(m')处于t(l)~t(m)之间。
步骤S806,当对比结果表示偏转程度变化量小于或等于背隙滤波系数时,将目标拐点处的偏转更新值作为关键部位在各视频帧内的偏转更新值。
其中,偏转更新值是背隙滤波器的输出值,用于对视频帧进行图像处理。
在一个实施例中,终端获取目标拐点处的偏转更新值,然后将目标拐点处的偏转更新值作为关键部位在各视频帧内的偏转更新值。如图10所示,S806中的各视频帧指的是阶段1的时间所采集的至少一个视频帧。
步骤S808,当对比结果表示第一偏转程度变化量大于背隙滤波系数、且小于或等于和值时,对增大的偏转程度值进行线性变换处理,得到关键部位在各视频帧内的偏转更新值。
其中,第一偏转程度变化量大于背隙滤波系数表示背隙滤波器已消除了背隙,此时输出的偏转更新值逐步增大。如图10所示,S808中的各视频帧指的是阶段2的时间所采集的至少一个视频帧。
步骤S810,当对比结果表示第一偏转程度变化量大于和值时,获取在递增的偏转程度值等于和值时所对应的偏转更新值;将获取的偏转更新值作为关键部位在各视频帧内的偏转更新值。
其中,当第一偏转程度变化量增大至该和值时,则输出的偏转更新值不再继续增大。因此,终端获取等于和值时所对应的偏转更新值,将该获取的偏转更新值作为关键部位在各视频帧内的偏转更新值。由于视频帧是实时采集的,因此S810中的各视频帧指的是大于和值时对应的时间所采集的至少一个视频帧。
为了更加清楚上述实施例,结合图10进行说明,具体如下:
偏转程度值g从b点开始由递减变为递增,在增大至c点之前,这段时间内的第一偏转程度变化量Δg小于背隙滤波系数θ;特别地,当处于b点时,对应的第一偏转程度变化量Δg=0。随着偏转程度值g逐步增大,对应的第一偏转程度变化量Δg也随之逐渐增大,当达到c点时,第一偏转程度变化量Δg=|g(t(k))-g(t(l))|=背隙滤波系数θ,由于在b~c这个阶段(即图10中的阶段1)未消除背隙,因此背隙滤波器在这个阶段输出的偏转更新值与b点对应的时刻的偏转更新值相等。其中,该背隙滤波系数θ相当于主动轮从顺时针切换为逆时针旋转时所存在的背隙,如图11所示,当主动轮在逆时针旋转的过程中未消除完该背隙,则从动轮不会从逆时针切换为顺时针,即从动轮保持原来的状态,对应地,背隙滤波器在未消除背隙的这个阶段,输出的偏转更新值与b点对应的时刻的偏转更新值相等。
在c~d这一阶段(即阶段2),滤波器已消除背隙,因此背隙滤波器在这个阶段输出的偏转更新值逐步增大。当达到d点时,背隙滤波器输出的偏转更新值达到最大,即偏转更新值等于1。
上述实施例中,在控制信号中的偏转程度值随时间开始递增或递减的过程中,将控制信号输入至背隙滤波器,通过背隙滤波器来消除背隙,当第一偏转程度变化量小于背隙滤波系数时,表示未消除背隙,此时不会对背隙滤波器输出的偏转更新值进行调整,即输出的偏转更新值等于目标拐点处的偏转更新值,从而避免因噪声而导致对视频帧进行误处理。由于第一偏转程度变化量大于背隙滤波系数时,表示偏转程度值是关键部位发生姿态变化所引起的,因此只有在第一偏转程度变化量大于背隙滤波系数时,即已消除背隙时,才会根据变化的偏转程度值进行线性变换处理得到偏转更新值,从而有效地对视频帧进行处理。
在一些实施例中,上述将目标拐点处的偏转更新值作为关键部位在各视频帧内的偏转更新值的步骤之后,该方法还包括:终端当检测到控制信号中的偏转程度值随时间开始递减或递增时,以开始递减或递增的偏转程度值为基准值确定第二偏转程度变化量;当第二偏转程度变化量小于背隙滤波系数时,根据新目标拐点处的偏转更新值确定关键部位在各视频帧内的偏转更新值;该新目标拐点是在所述目标拐点之后形成的拐点。
例如,当控制信号中的偏转程度值从t(k)~t(m)这段时间之内递增,然后从t(m)开始递减,如图9所示;这段过程对应图12中的阶段1、阶段2和阶段3。以开始递减的偏转程度值(即d点的偏转程度值)为基准值开始计算第二偏转程度变化量,由于图9中递减的幅度较小,因此第二偏转程度变化量也较小,即小于背隙滤波系数;此后,控制信号中的偏转程度值又转为递增,计算偏转程度变化量的方式可参考上述实施例。以d点的偏转程度值为基准值开始计算第二偏转程度变化量,若从d点开始递减的幅度较大,第二偏转程度变化量的大小可以从小于背隙滤波系数,变为大于背隙滤波系数,最后变为大于和值,可参考图11中的阶段3和阶段4。需要指出的是,第二偏转程度变化量大于和值的情况,未在图12中示出。其中,该和值为θ+τ,d点为新目标拐点。
在阶段1和阶段2的过程中,当第二偏转程度变化量未达到和值时,偏转程度值开始减小,则进入阶段5,若继续减小,则从阶段5进入阶段4,计算偏转程度变化量以及偏转更新值的过程可参考上述实施例。
上述实施例中,在控制信号中的偏转程度值在递增之后变为递减,或在递减之后变为递增,在趋势发生变化之后,将变化后的控制信号输入至背隙滤波器,通过背隙滤波器来消除背隙,当第二偏转程度变化量小于背隙滤波系数时,表示未消除背隙,此时不会对背隙滤波器输出的偏转更新值进行调整,即输出的偏转更新值等于新目标拐点处的偏转更新值,从而避免因噪声而导致对视频帧进行误处理。由于第二偏转程度变化量大于背隙滤波系数时,表示偏转程度值是关键部位发生姿态变化所引起的,因此只有在第二偏转程度变化量大于背隙滤波系数时,即已消除背隙时,才会根据变化的偏转程度值进行线性变换处理得到偏转更新值,从而有效地对视频帧进行处理。
在一些实施例中,关键部位包括面部,各姿态包括面部在各视频帧中的俯仰角、偏航角和翻滚角;根据关键部位的各姿态,确定关键部位在各视频帧内的偏转程度值,包括:对面部在各视频帧中的俯仰角、偏航角和翻滚角进行归一化处理,得到归一化的俯仰角、偏航角和翻滚角;确定归一化的俯仰角、偏航角和翻滚角的乘积值;基于乘积值确定面部每一视频帧内的偏转程度值。
其中,参考三维空间的笛卡尔坐标系说明俯仰角、偏航角和翻滚角;笛卡尔坐标系的x轴和z轴构成的平面与水平面平行,x轴对应的人体头部的左耳至右耳这一方向,z轴对应人体的面部至后脑这一方向;笛卡尔坐标系的y轴为人体高度方向的方向轴,俯仰角(pitch)围绕x轴转动,比如仰头或者低头导致面部的俯仰角变化;偏航角(yaw)围绕y轴转动,比如头部从左向右转导致的面部的偏航角变化;滚动角(roll)围绕z轴转动,比如头部转动使得头顶靠近左侧肩膀导致滚动角变化。
具体地,终端获取俯仰角的预设最大俯仰角和预设最小俯仰角,获取偏航角的预设最大偏航角和预设最小偏航角,获取翻滚角的预设最大翻滚角和预设最小翻滚角;对于每个视频帧,终端根据预设最大俯仰角和预设最小俯仰角,对面部在该视频帧中的俯仰角进行归一化处理,得到面部在该视频帧中归一化的俯仰角,终端根据预设最大偏航角和预设最小偏航角对面部在该视频帧中的偏航角进行归一化处理,得到面部在该视频帧中归一化的偏航角;终端根据预设最大翻滚角和预设最小翻滚角,对面部在该视频帧中的翻滚角进行归一化处理,得到面部在该视频帧中归一化的翻滚角。
将面部正对终端的显示屏时的姿态作为参考姿态,参考姿态对应的俯仰角为预设最小偏航角,参考姿态对应的偏航角为预设最小偏航角,参考姿态对应的滚动角为预设最小滚动角。相对于面部正对终端的显示屏,预设最大俯仰角可以是仰头或低头可达到的最大角度,同样的,相对于面部正对终端的显示屏,预设最大偏航角可以是头部围绕y轴转动可达到的最大角度,预设最大滚动角可以是头部围绕z轴转动可达到的最大角度。示例性地,预设最小俯仰角为0度,预设最大俯仰角为90度,预设最大偏航角为0度,预设最大偏航角为90度,预设最大滚动角为0度,预设最大滚动角为90度。
在一些实施例中,终端根据预设最大俯仰角和预设最小俯仰角,对面部在该视频帧中的俯仰角进行归一化处理,得到面部在该视频帧中归一化的俯仰角,可以是终端计算面部在该视频帧中的俯仰角,以及预设最小俯仰角之间的第一俯仰角差值,以及计算预设最大俯仰角和预设最小俯仰角的第二俯仰角差值,并计算第一俯仰角差值与第二俯仰角差值之间的比值,得到归一化的俯仰角,如公式(1)所示。
其中,pitcht1是面部在视频帧t1的归一化的俯仰角,pitch1是面部在视频帧t1中的俯仰角,pitchmin是预设最小俯仰角,pitchmax是预设最大俯仰角。归一化的俯仰角的取值范围在[0,1]之间。
按照同样的方式,终端计算面部在该视频帧中的偏航角,以及预设最小偏航角之间的第一偏航角差值,以及计算预设最大偏航角和预设最小偏航角的第二偏航角差值,并计算第一偏航角差值与第二偏航角差值之间的比值,得到归一化的偏航角,如公式(2)所示。
其中,yawt1是面部在视频帧t1的归一化的偏航角,yaw1是面部在视频帧t1中的偏航角,yawmin是预设最小偏航角,yawmax是预设最大偏航角。归一化的偏航角的取值范围在[0,1]之间。
终端计算面部在该视频帧中的滚动角,以及预设最小滚动角之间的第一滚动角差值,以及计算预设最大滚动角和预设最小滚动角的第二滚动角差值,并计算第一滚动角差值与第二滚动角差值之间的比值,得到归一化的滚动角,如公式(3)所示。
其中,rollt1是面部在视频帧t1的归一化的滚动角,roll1是面部在视频帧t1中的滚动角,rollmin是预设最小滚动角,rollmax是预设最大滚动角。归一化的滚动角的取值范围在[0,1]之间。
终端将面部在视频帧中的归一化的偏航角、归一化的偏转角和归一化的滚动角相乘,得到面部在视频帧中的偏转程度值。如公式(4)所示。
gt1=pitcht1×yawt1×rollt1 (4)
其中,gt1是面部在视频帧t1中的偏转程度值,pitcht1是面部在视频帧t1的归一化的俯仰角,yawt1是面部在视频帧t1的归一化的偏航角,rollt1是面部在视频帧t1的归一化的滚动角。由于归一化的偏航角、归一化的偏转角和归一化的滚动角的取值范围均在[0,1]之间,因此偏转程度值的取值范围也在[0,1]之间。
在上述实施例中,当关键部位为面部时,面部的姿态用于反映面部的朝向,终端基于面部的姿态确定偏转程度值,面部在视频帧中的偏转程度值,用于表示视频帧中面部的朝向,相对于面部正对显示屏的偏转程度,以便于后续将面部在视频帧中的偏转程度值作为控制信号,通过该控制信号确定是否对视频帧进行图像处理,或者确定对视频帧进行图像处理的程度。
在一些实施例中,基于关键部位在各视频帧内的偏转程度值生成控制信号,包括:获取各视频帧的时序标识;依据时序标识和关键部位在各视频帧内的偏转程度值,生成控制信号;控制信号用于描述偏转程度值随时间变化的趋势。
其中,各视频帧的时序标识可以用于反映各视频帧的播放时间顺序,各视频帧的播放时间顺序与各视频帧的采集时间顺序一致,因此各视频帧的时序标识可以用于反映各视频帧的采集时间顺序;时序标识可以用数值表示,时序标识对应的数值越小,则时序标识对应视频帧的播放时间越晚,时序标识对应的数值越大,则时序标识对应视频帧的播放时间越早。
具体地,终端可以按照各视频帧的播放时间顺序(采集时间顺序),依次确定每个视频帧的偏转程度值,对于每个视频帧,终端根据该视频帧的偏转程度值和播放顺序,确定该视频帧的点信号,终端根据各视频帧各自对应的点信号生成控制信号。由于控制信号是根据各视频帧的播放时间顺序(采集时间顺序)和偏转程度值确定的,因此通过控制信号可以确定各视频帧的描述偏转程度值随播放时间(采集时间)变化的趋势。
在上述实施例中,终端根据各视频帧的播放时间顺序和偏转程度值确定控制信号,通过控制信号,可以更直观地确定各视频帧的偏转程度值随播放时间变化的趋势。
在一些实施例中,确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态,包括:在目标应用的眼神接触功能项处于开启状态的情况下,确定目标对象的面部在携带噪声的各视频帧中呈现的姿态;其中,目标应用是播放各视频帧的应用程序。
在一些场景下,可以通过目标应用进行会议,在该场景下,视频帧中的目标对象可以是参会人员,比如可以是参会人员中的会议发言人;在一些场景下,可以通过目标应用的进行直播,在该场景下,视频帧中的目标对象可以是进行直播的主播;在一些场景下,可以通过目标应用进行视频通话,在该场景下,视频帧中的目标对象可以是参与视频通话的双方;上述场景仅是一些可能的场景示例,在实际应用中,目标应用还可以用于其他场景,本申请实施例对此不进行限定。
其中,眼神接触指的是目标对象与关键对象的眼神接触,即目标对象与观看对象对视,观看对象是观看各视频帧的对象。眼神接触功能,可以在目标对象未直视视频采集设备的摄像头的情况下,实现目标对象与观看对象对视的效果。
在实际应用中,存在很多目标对象未直视视频采集设备的摄像头的情况,比如,视频通话时,视频通话的双方为了观看对方的面部,而没有直视视频采集设备的摄像头;再比如,举行会议时,会议发言人为了查看发言内容,而没有直视视频采集设备的摄像头,又比如,进行直播时,主播为了浏览观众的实时评论,而没有直视视频采集设备的摄像头。
眼神接触功能项,是目标应用上用于开启或关闭目标应用的眼神接触功能的设置项。
具体地,终端获取目标应用的眼神接触功能项的开闭状态,若眼神接触功能项的开闭状态为开启状态,则需要对各视频帧进行眼神接触处理;眼神接触处理作用于视频帧中目标对象的眼睛对应的像素点,在目标对象的面部正对显示屏的程度达到眼神接触处理条件时,才能对视频帧中目标对象的眼睛对应的像素点进行处理,并且对目标对象的眼睛对应的像素点进行处理的程度也与目标对象的面部正对显示屏的程度有关。
因此目标对象的关键部位为面部。在目标应用的眼神接触功能项处于开启状态的情况下,终端确定所述目标对象的面部在携带噪声的各视频帧中呈现的姿态,以便于后续基于面部在携带噪声的各视频帧中呈现的姿态,确定是否对目标对象进行眼神接触处理,以及确定眼神接触处理的程度。
在一些实施例中,对于在终端上运行的目标应用,可以通过终端对目标应用的眼神接触功能项的开闭状态进行调整,如图13所示,目标应用的设置页面1300包括眼神接触功能项控件1301;响应于针对眼神接触功能项控件1301的触发操作,修改眼神接触功能项的开闭状态,示例性地,若在眼神接触功能项控件1301被触发之前,眼神接触功能项处于开启状态,则在眼神接触功能项控件1301被触发之后,眼神接触功能项处于关闭状态;或者,若在眼神接触功能项控件1301被触发之前,眼神接触功能项处于关闭状态,则在眼神接触功能项控件1301被触发之后,眼神接触功能项处于开启状态。
通过眼神接触功能项控件1301的显示样式可以确定眼神接触功能项的开闭状态;示例性地,眼神接触功能项控件1301包括选中框,在眼神接触功能项的开闭状态为开启状态时,眼神接触功能项控件1301的选中框包括选中图标,在眼神接触功能项的开闭状态为关闭状态时,眼神接触功能项控件1301的选中框不包括选中图标,如图13所示,眼神接触功能项控件1301的选中框不包括选中图标,则眼神接触功能项的开闭状态为关闭状态。眼神接触功能控件1301还可以包括眼神接触功能的描述信息,如图13所示,眼神接触功能的描述信息包括:“增强您与参会成员的眼神交流”。
在上述实施例中,在眼神接触功能处于开启状态的情况下,终端在携带噪声的各视频帧中确定目标对象的面部所呈现的姿态,以便于后续基于面部在携带噪声的各视频帧中呈现的姿态,确定是否对目标对象进行眼神接触处理,以及确定眼神接触处理的程度。
在一些实施例中,基于各视频帧内的偏转更新值,依次对各视频帧进行图像处理,包括:确定各视频帧中原始的眼部特征点所处的位置;依据各视频帧内的偏转更新值获取目标眼部特征点;依据位置将目标眼部特征点融合于各视频帧中,以替换各视频帧中原始的眼部特征点。
其中,眼部特征点是影响眼神方向的特征点,眼神方向即视线,调整眼部特征点,以实现对眼神方向的调整,即调整视线,使得调整后的视线直视视频采集设备的摄像头。眼部特征点可以是眼珠对应的像素点。
视频帧中眼部特征点所处的位置,是视频帧中眼部特征点所处的像素点区域,在眼部特征点是眼珠对应的像素点的情况下,眼部特征点所处的位置,是眼珠对应的像素点的像素点区域。
目标眼部特征点,可以是基于偏转更新值调整后的眼珠对应的像素点。
在本实施例中,视频帧的偏转更新值用于反映对视频帧进行眼神接触处理的程度,偏转更新值越大,则视频帧的偏转更新值越大,对视频帧进行眼神接触处理的程度越高,视频帧的偏转更新值越小,对视频帧进行眼神接触处理的程度越低。
具体地,对于每个视频帧,若该视频帧的偏转更新值不为0(视频帧的偏转更新值为0,则不对视频帧进行眼神接触处理),则获取该视频帧中的目标眼部特征点对应的像素坐标。若该视频帧的偏转更新值不为0,但是目标对象在视频帧中处于闭眼状态,则无法在该视频帧中获取到原始的眼部特征点所处的位置,进而不对该视频帧进行眼神接触处理。
依据该视频帧内的偏转更新值获取目标眼部特征点,可以是依据偏转更新值对该视频帧进行眼神接触处理,得到目标眼部特征点。依据偏转更新值对该视频帧进行眼神接触处理可以是:将偏转更新值和该视频帧中面部的特征点送入深度神经网络中,通过深度神经网络识别出面部的特征点中的眼神相关信息,并基于与眼神相关信息得到目标眼部特征点。通过深度神经网络对偏转更新值和视频帧进行眼神接触处理的过程,可以通过现有方式实现,在此不再赘述了。
依据原始的眼部特征点在该视频帧中所处的位置,将目标眼部特征点融合于该视频帧中,可以是,将原始的眼部特征点对应的像素值,替换为目标眼部特征点对应的像素值,以实现替换该视频帧中原始的眼部特征点
示例性地,眼部特征点为眼珠对应的像素点,在视频帧t1中,确定原始的眼珠对应的像素点s1所处位置为p1区域,p1区域对应的像素值为r1(原始的眼珠对应的像素点的像素值为r1);根据视频帧t1的偏转更新值确定目标眼部特征点,目标眼部特征点是调整后的眼珠对应的像素点,调整后的眼珠对应的像素点的像素值为r2;将视频帧t1中的p1区域对应的像素值为r1修改为r2,以实现替换视频帧t1的中原始的眼珠对应的像素点。
在上述实施例中,终端依据视频帧的偏转更新值获取目标眼部特征点,将视频帧中原始的眼部特征点替换为目标眼部特征点;由于偏转更新值受噪声影响,目标眼部特征点也会受噪声影响,若噪声导致各视频帧的偏转更新值,在两种眼神接触处理程度对应的偏转更新值之间频繁切换,则目标对象的眼神可能会因为眼神接触处理在各视频帧中频繁闪烁,导致眼神接触效果不稳定,不自然;在上述施例中,视频帧的偏转更新值是背隙滤波器输出的,背隙滤波器滤除了噪声对偏转更新值的影响,避免了噪声导致各视频帧的偏转更新值,在两种眼神接触处理程度对应的偏转更新值之间频繁切换,提高了偏转更新值的稳定性,进而提高了眼神接触功效果的稳定性,使得眼神接触效果更自然。
在一些实施例中,关键部位包括手部;基于各视频帧内的偏转更新值,依次对各视频帧进行图像处理,包括:当各视频帧内的偏转更新值满足特效添加条件时,获取特效数据;在各视频帧中添加特效数据。
其中,在关键部位为手部时,视频帧的偏转更新值为第一更新值或第二更新值,视频帧的偏转更新值为第一更新值时,表示需要对视频帧进行图像处理,视频帧的偏转更新值为第二更新值时,表示不需要对视频帧进行图像处理,特效添加条件包括:偏转更新值为第一更新值。
具体地,对于每个视频帧,终端获取该视频帧的偏转程度更新值,若该视频帧的偏转程度更新值为第一更新值,则获取特效数据,并在视频帧中添加特征数据。
示例性地,第一更新值为1,第二更新值为0;若视频帧的偏转更新值为1,则获取特效数据,并在视频帧中添加特征数据;若偏转更新值为0,则不为视频帧中添加特效数据。
在一些实施例中,确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态,包括:响应于针对视频播放页面上手势特效控件的开启请求,确定目标对象的手部在携带噪声的各视频帧中呈现的姿态。
其中,手势特效控件用于基于手势为视频帧添加特效数据;在实际应用中,视频播放页面上可以包括多个手势特效控件,以实现不同的多种特效数据添加方式,包括但不限于:基于第一手势添加多种特效数据、基于第二手势发送添加多种特效数据、基于第三手势添加多种特效数据。示例性地,第一手势可以是表示“耶”的手势,第二手势可以是表示“OK”的手势,第三手势可以是表示“1”的手势;多种特效数据包括但不限于在视频帧中添加多种特效图标、在视频帧中添加多种特效文字。本申请实施例对多种特效图标和多种特效文字不进行限定。
具体地,目标应用在终端上运行,目标应用包括视频播放页面,视频播放页面上包括手势特效功能项,终端响应于针对手势特效功能项的触发操作,确定目标对象的手部在携带噪声的各视频帧中呈现的姿态。
在上述实施例中,终端确定视频帧的偏转更新值是否满足特效条件,若视频帧的偏转更新值满足特效添加条件,则在视频帧中添加特效数据。由于偏转更新值受噪声影响,因此是否在视频帧中添加特效数据也会受偏转更新值的影响,若噪声导致各视频帧的偏转更新值,在满足特效条件和不满特效条件之间频繁切换,则各视频帧也会在添加特效数据和不添加特效数据之前频繁切换,比如时而有特效图标,时而没有特效图标,导致添加特效数据的功能不稳定;在上述实施例中,视频帧的偏转更新值是背隙滤波器输出的,背隙滤波器滤除了噪声对偏转更新值的影响,避免了噪声导致各视频帧的偏转更新值,在满足特效条件和不满特效条件之间频繁切换,提高了偏转更新值的稳定性,进而提高了添加特效数据的功能的稳定。
在一个具体的实施例中,如图14所示,视频帧的处理方法包括:
S1401,在目标应用的眼神接触功能项处于开启状态的情况下,获取实时采集的携带噪声的各视频帧;从各视频帧中提取目标对象的关键点;基于关键点,确定目标对象的关键部位在各视频帧中的姿态;其中,目标应用是播放各视频帧的应用程序;目标部位为面部,面部在各视频帧中的姿态包括面部在各视频帧中的俯仰角、偏航角和翻滚角;
S1402,对面部在各视频帧中的俯仰角、偏航角和翻滚角进行归一化处理,得到归一化的俯仰角、偏航角和翻滚角;确定归一化的俯仰角、偏航角和翻滚角的乘积值;基于乘积值确定面部每一视频帧内的偏转程度值;偏转程度值的大小受关键部位的姿态变化和噪声影响;
S1403,获取各视频帧的时序标识;依据时序标识和关键部位在各视频帧内的偏转程度值,生成控制信号;控制信号用于描述偏转程度值随时间变化的趋势;
S1404,在控制信号中的偏转程度值随时间开始递增或递减的过程中,通过背隙滤波器确定相对于目标拐点的第一偏转程度变化量;
S1405,将第一偏转程度变化量与背隙滤波系数或和值对比,得到对比结果;和值是对背隙滤波系数与预设参数进行求和所得的;
S1406A,当对比结果表示第一偏转程度变化量小于或等于背隙滤波系数时,将目标拐点处的偏转更新值作为关键部位在各视频帧内的偏转更新值。
S1407A,当检测到控制信号中的偏转程度值随时间开始递减或递增时,以开始递减或递增的偏转程度值为基准值确定第二偏转程度变化量;
S1408A,当第二偏转程度变化量小于背隙滤波系数时,根据目标拐点处的偏转更新值确定关键部位在各视频帧内的偏转更新值;
S1406B,当对比结果表示第一偏转程度变化量大于背隙滤波系数、且小于或等于和值时,对增大的偏转程度值进行线性变换处理,得到关键部位在各视频帧内的偏转更新值;
S1406C,当对比结果表示第一偏转程度变化量大于和值时,获取在递增的偏转程度值等于和值时所对应的偏转更新值;将获取的偏转更新值作为关键部位在各视频帧内的偏转更新值;
S1409,确定各视频帧中原始的眼部特征点所处的位置;依据各视频帧内的偏转更新值获取目标眼部特征点;依据位置将目标眼部特征点融合于各视频帧中,以替换各视频帧中原始的眼部特征点。
在上述视频帧的处理方法,获取目标对象的关键部位在携带噪声的视频帧中呈现的姿态,根据关键部位的各姿态,确定关键部位在各视频帧的偏转程度值,根据各视频帧的偏转程度值生成控制信号,通过背隙滤波器,依据背隙滤波系数对控制信号进行背隙滤波,得到关键部位在各视频帧内的偏转更新值,再基于各视频帧内的偏转更新值,依次对各视频帧进行图像处理。由于视频帧携带有噪声,关键部位的姿态受噪声的影响,关键部位的偏转程度值也会受噪声的影响,控制信号上存在噪声导致的抖动,导致偏转更新值也会受噪声的影响,从而导致对视频帧进行图像处理时产生抖动,比如噪声导致图像处理在两种不同状态之间频繁切换,上述视频帧的处理方法,通过背隙滤波器,依据背隙滤波系数将控制信号上由噪声导致的抖动滤除,再根据滤波后的控制信号确定各视频帧的偏转更新值,也就是说,通过背隙滤波器滤除了噪声对偏转更新值的影响,也消除了噪声导致的,对视频帧进行图像处理时的抖动,提高了图像处理后的视频帧的稳定性。
在一个场景实施例中,终端通过目标应用的视频播放页面观看各视频帧;在视频播放页面包括手势特效控件,该手势特效控件,用于在识别到手部姿态为表示“OK”的手势时,在视频帧中添加“花瓣”图标。
终端响应于视频播放页面的手势特效控件被触发,确定各视频帧中目标对象的手部在携带有噪声的各视频帧中的呈现姿态;根据手部在各视频帧中的姿态确定手部在各视频帧内的偏转程度值,基于手部在各视频帧内的偏转程度值生成控制信号,通过背隙滤波器,依据背隙滤波系数对控制信号进行背隙滤波,得到手部在各视频帧内的偏转更新值;对于每个视频帧,若该视频帧内的偏转更新值满足特效添加条件,则在该视频帧中添加“花瓣”图标。
示例性地,手部在t1帧时的偏转更新值为0,则不在t1帧中添加“花瓣”图标,手部在t2帧时的偏转更新值为1,则在t2帧中添加“花瓣”图标,需要说明的是,在此情况下,手部在t1帧时的偏转程度值与手部在t2帧时的偏转程度值之间的变化量大于背隙滤波系数。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的视频帧的处理方法的视频帧的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个视频帧的处理装置实施例中的具体限定可以参见上文中对于视频帧的处理方法的限定,在此不再赘述。
在一个实施例中,如图15所示,提供了一种视频帧的处理装置,包括:姿态确定模块1502、偏转程度值确定模块1504、控制信号确定模块1506、偏转程度值更新模块1508和图像处理模块1510,其中:
姿态确定模块1502,用于确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态;
偏转程度值确定模块1504,用于根据关键部位的各姿态,确定关键部位在各视频帧内的偏转程度值;偏转程度值的大小受关键部位的偏转和噪声影响;
控制信号确定模块1506,用于基于关键部位在各视频帧内的偏转程度值生成控制信号;
偏转程度值更新模块1508,用于通过背隙滤波器,依据背隙滤波系数对控制信号进行背隙滤波,得到关键部位在各视频帧内的偏转更新值;
图像处理模块1510,用于基于各视频帧内的偏转更新值,依次对各视频帧进行图像处理。
获取目标对象的关键部位在携带噪声的视频帧中呈现的姿态,根据关键部位的各姿态,确定关键部位在各视频帧的偏转程度值,根据各视频帧的偏转程度值生成控制信号,通过背隙滤波器,依据背隙滤波系数对控制信号进行背隙滤波,得到关键部位在各视频帧内的偏转更新值,再基于各视频帧内的偏转更新值,依次对各视频帧进行图像处理。由于视频帧携带有噪声,关键部位的姿态受噪声的影响,关键部位的偏转程度值也会受噪声的影响,控制信号上存在噪声导致的抖动,导致偏转更新值也会受噪声的影响,从而导致对视频帧进行图像处理时产生抖动,比如噪声导致图像处理在两种不同状态之间频繁切换,上述视频帧的处理方法,通过背隙滤波器,依据背隙滤波系数将控制信号上由噪声导致的抖动滤除,再根据滤波后的控制信号确定各视频帧的偏转更新值,也就是说,通过背隙滤波器滤除了噪声对偏转更新值的影响,也消除了噪声导致的,对视频帧进行图像处理时的抖动,提高了图像处理后的视频帧的稳定性。
在一些实施例中,姿态确定模块1502,还用于获取实时采集的携带噪声的各视频帧;从各视频帧中提取目标对象的关键点;基于关键点,确定目标对象的关键部位在各视频帧中的姿态。
在一些实施例中,控制信号确定模块1506,还用于获取各视频帧的时序标识;依据时序标识和关键部位在各视频帧内的偏转程度值,生成控制信号;控制信号用于描述偏转程度值随时间变化的趋势。
在一些实施例中,各视频帧是实时采集的视频帧,控制信号用于描述偏转程度值随时间变化的趋势;
偏转程度值更新模块1508,还用于在控制信号中的偏转程度值随时间开始递增或递减的过程中,通过背隙滤波器确定相对于目标拐点的第一偏转程度变化量;将第一偏转程度变化量与背隙滤波系数或和值对比,得到对比结果;和值是对背隙滤波系数与预设参数进行求和所得的;当对比结果表示第一偏转程度变化量小于或等于背隙滤波系数时,将目标拐点处的偏转更新值作为关键部位在各视频帧内的偏转更新值。
在一些实施例中,偏转程度值更新模块1508,还用于当对比结果表示第一偏转程度变化量大于背隙滤波系数、且小于或等于和值时,对增大的偏转程度值进行线性变换处理,得到关键部位在各视频帧内的偏转更新值。
在一些实施例中,偏转程度值更新模块1508,当对比结果表示第一偏转程度变化量大于和值时,获取在递增的偏转程度值等于和值时所对应的偏转更新值;将获取的偏转更新值作为关键部位在各视频帧内的偏转更新值。
上述实施例中,在控制信号中的偏转程度值随时间开始递增或递减的过程中,将控制信号输入至背隙滤波器,通过背隙滤波器来消除背隙,当偏转程度变化量小于背隙滤波系数时,表示未消除背隙,此时不会对背隙滤波器输出的偏转更新值进行调整,即输出的偏转更新值等于目标拐点处的偏转更新值,从而避免因噪声而导致对视频帧进行误处理。由于偏转程度变化量大于背隙滤波系数时,表示偏转程度值是关键部位发生姿态变化所引起的,因此只有在偏转程度变化量大于背隙滤波系数时,即已消除背隙时,才会根据变化的偏转程度值进行线性变换处理得到偏转更新值,从而有效地对视频帧进行处理。
在一些实施例中,偏转程度值更新模块1508,还用于当检测到控制信号中的偏转程度值随时间开始递减或递增时,以开始递减或递增的偏转程度值为基准值确定第二偏转程度变化量;当第二偏转程度变化量小于背隙滤波系数时,根据新目标拐点处的偏转更新值确定关键部位在各视频帧内的偏转更新值;新目标拐点是在目标拐点之后形成的拐点。
在一些实施例中,关键部位包括面部,各姿态包括面部在各视频帧中的俯仰角、偏航角和翻滚角;
偏转程度值确定模块1504,还用于对面部在各视频帧中的俯仰角、偏航角和翻滚角进行归一化处理,得到归一化的俯仰角、偏航角和翻滚角;确定归一化的俯仰角、偏航角和翻滚角的乘积值;基于乘积值确定面部每一视频帧内的偏转程度值。
在一些实施例中,姿态确定模块1502,还用于在目标应用的眼神接触功能项处于开启状态的情况下,确定目标对象的面部在携带噪声的各视频帧中呈现的姿态;其中,目标应用是播放各视频帧的应用程序。
在一些实施例中,图像处理模块1510,还用于确定各视频帧中原始的眼部特征点所处的位置;依据各视频帧内的偏转更新值获取目标眼部特征点;依据位置将目标眼部特征点融合于各视频帧中,以替换各视频帧中原始的眼部特征点。
在一些实施例中,关键部位包括手部;图像处理模块1510,还用于当各视频帧内的偏转更新值满足特效添加条件时,获取特效数据;在各视频帧中添加特效数据。
上述视频帧的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图16所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种业务单据审核方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述视频帧的处理方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述视频帧的处理方法的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述视频帧的处理方法的步骤。
需要说明的是,本申请所涉及的视频帧以及用户信息(包括但不限于用户图像信息、用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种视频帧的处理方法,其特征在于,所述方法包括:
确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态;
根据所述关键部位的各姿态,确定所述关键部位在各所述视频帧内的偏转程度值;所述偏转程度值的大小受所述关键部位的姿态变化和所述噪声影响;
基于所述关键部位在各所述视频帧内的偏转程度值生成控制信号;
通过背隙滤波器,依据背隙滤波系数对所述控制信号进行背隙滤波,得到所述关键部位在各所述视频帧内的偏转更新值;
基于各所述视频帧内的偏转更新值,依次对各所述视频帧进行图像处理。
2.根据权利要求1所述的方法,其特征在于,所述确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态,包括:
获取实时采集的携带噪声的各视频帧;
从各所述视频帧中提取目标对象的关键点;
基于所述关键点,确定所述目标对象的关键部位在各所述视频帧中的姿态。
3.根据权利要求1所述的方法,其特征在于,所述基于所述关键部位在各所述视频帧内的偏转程度值生成控制信号,包括:
获取各所述视频帧的时序标识;
依据所述时序标识和所述关键部位在各所述视频帧内的偏转程度值,生成控制信号;所述控制信号用于描述所述偏转程度值随时间变化的趋势。
4.根据权利要求1所述的方法,其特征在于,各所述视频帧是实时采集的视频帧,所述控制信号用于描述所述偏转程度值随时间变化的趋势;
所述通过背隙滤波器,依据背隙滤波系数对所述控制信号进行背隙滤波,得到所述关键部位在各所述视频帧内的偏转更新值,包括:
在所述控制信号中的偏转程度值随时间开始递增或递减的过程中,通过背隙滤波器确定相对于目标拐点的第一偏转程度变化量;
将所述第一偏转程度变化量与背隙滤波系数或和值对比,得到对比结果;所述和值是对所述背隙滤波系数与预设参数进行求和所得的;
当所述对比结果表示所述第一偏转程度变化量小于或等于背隙滤波系数时,将所述目标拐点处的偏转更新值作为所述关键部位在各所述视频帧内的偏转更新值。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
当所述对比结果表示所述第一偏转程度变化量大于所述背隙滤波系数、且小于或等于所述和值时,对增大的所述偏转程度值进行线性变换处理,得到所述关键部位在各所述视频帧内的偏转更新值。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当所述对比结果表示所述第一偏转程度变化量大于所述和值时,获取在递增的所述偏转程度值等于所述和值时所对应的偏转更新值;
将获取的偏转更新值作为所述关键部位在各所述视频帧内的偏转更新值。
7.根据权利要求4所述的方法,其特征在于,所述将所述目标拐点处的偏转更新值作为所述关键部位在各所述视频帧内的偏转更新值之后,所述方法还包括:
当检测到所述控制信号中的偏转程度值随时间开始递减或递增时,以开始递减或递增的偏转程度值为基准值确定第二偏转程度变化量;
当所述第二偏转程度变化量小于所述背隙滤波系数时,根据新目标拐点处的偏转更新值确定所述关键部位在各所述视频帧内的偏转更新值;所述新目标拐点是在所述目标拐点之后形成的拐点。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述关键部位包括面部,所述各姿态包括所述面部在各所述视频帧中的俯仰角、偏航角和翻滚角;
所述根据所述关键部位的各姿态,确定所述关键部位在各所述视频帧内的偏转程度值,包括:
对所述面部在各所述视频帧中的俯仰角、偏航角和翻滚角进行归一化处理,得到归一化的俯仰角、偏航角和翻滚角;
确定所述归一化的俯仰角、偏航角和翻滚角的乘积值;
基于所述乘积值确定所述面部所述每一视频帧内的偏转程度值。
9.根据权利要求8所述的方法,其特征在于,所述确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态,包括:
在目标应用的眼神接触功能项处于开启状态的情况下,确定所述目标对象的面部在携带噪声的各视频帧中呈现的姿态;
其中,所述目标应用是播放各所述视频帧的应用程序。
10.根据权利要求9所述的方法,其特征在于,所述基于各所述视频帧内的偏转更新值,依次对各所述视频帧进行图像处理,包括:
确定各所述视频帧中原始的眼部特征点所处的位置;
依据各所述视频帧内的偏转更新值获取目标眼部特征点;
依据所述位置将所述目标眼部特征点融合于各所述视频帧中,以替换各所述视频帧中原始的眼部特征点。
11.根据权利要求1至7中任一项所述的方法,其特征在于,所述关键部位包括手部;
所述基于各所述视频帧内的偏转更新值,依次对各所述视频帧进行图像处理,包括:
当各所述视频帧内的偏转更新值满足特效添加条件时,获取特效数据;
在各所述视频帧中添加所述特效数据。
12.一种视频帧的处理装置,其特征在于,所述装置包括:
姿态确定模块,用于确定目标对象的关键部位在携带噪声的各视频帧中呈现的姿态;
偏转程度值确定模块,用于根据所述关键部位的各姿态,确定所述关键部位在各所述视频帧内的偏转程度值;所述偏转程度值的大小受所述关键部位的偏转和所述噪声影响;
控制信号确定模块,用于基于所述关键部位在各所述视频帧内的偏转程度值生成控制信号;
偏转程度值更新模块,用于通过背隙滤波器,依据背隙滤波系数对所述控制信号进行背隙滤波,得到所述关键部位在各所述视频帧内的偏转更新值;
图像处理模块,用于基于各所述视频帧内的偏转更新值,依次对各所述视频帧进行图像处理。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210980758.0A CN117689569A (zh) | 2022-08-16 | 2022-08-16 | 视频帧的处理方法、装置、计算机设备和存储介质 |
PCT/CN2023/099877 WO2024037160A1 (zh) | 2022-08-16 | 2023-06-13 | 视频帧处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210980758.0A CN117689569A (zh) | 2022-08-16 | 2022-08-16 | 视频帧的处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117689569A true CN117689569A (zh) | 2024-03-12 |
Family
ID=89940574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210980758.0A Pending CN117689569A (zh) | 2022-08-16 | 2022-08-16 | 视频帧的处理方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117689569A (zh) |
WO (1) | WO2024037160A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10115012B1 (en) * | 2017-04-07 | 2018-10-30 | Box, Inc. | Capture object boundary jitter reduction |
CN110544272B (zh) * | 2019-09-06 | 2023-08-04 | 腾讯科技(深圳)有限公司 | 脸部跟踪方法、装置、计算机设备及存储介质 |
CN113497861B (zh) * | 2020-03-19 | 2022-06-24 | 武汉Tcl集团工业研究院有限公司 | 一种视频稳化方法及装置 |
CN113766117B (zh) * | 2020-11-09 | 2023-08-08 | 北京沃东天骏信息技术有限公司 | 一种视频去抖动方法和装置 |
CN112329740B (zh) * | 2020-12-02 | 2021-10-26 | 广州博冠信息科技有限公司 | 图像处理方法、装置、存储介质和电子设备 |
CN114363623A (zh) * | 2021-08-12 | 2022-04-15 | 财付通支付科技有限公司 | 图像处理方法、装置、介质及电子设备 |
-
2022
- 2022-08-16 CN CN202210980758.0A patent/CN117689569A/zh active Pending
-
2023
- 2023-06-13 WO PCT/CN2023/099877 patent/WO2024037160A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024037160A1 (zh) | 2024-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9075429B1 (en) | Distortion correction for device display | |
WO2015188614A1 (zh) | 操作虚拟世界里的电脑和手机的方法、装置以及使用其的眼镜 | |
WO2021093416A1 (zh) | 信息播放方法、装置、计算机可读存储介质及电子设备 | |
US20210165481A1 (en) | Method and system of interactive storytelling with probability-based personalized views | |
US8902280B2 (en) | Communicating visual representations in virtual collaboration systems | |
US9384384B1 (en) | Adjusting faces displayed in images | |
US11048464B2 (en) | Synchronization and streaming of workspace contents with audio for collaborative virtual, augmented, and mixed reality (xR) applications | |
JP7101269B2 (ja) | ポーズ補正 | |
US20220188989A1 (en) | Per-pixel filter | |
CN113426117B (zh) | 虚拟相机拍摄参数获取方法、装置、电子设备和存储介质 | |
CN115690382B (zh) | 深度学习模型的训练方法、生成全景图的方法和装置 | |
CN112292657A (zh) | 围绕计算机模拟现实布景进行移动 | |
US20200233489A1 (en) | Gazed virtual object identification module, a system for implementing gaze translucency, and a related method | |
CN112740144B (zh) | 在增强型现实布景中转移虚拟对象 | |
CN112714263B (zh) | 视频生成方法、装置、设备及存储介质 | |
WO2024051540A1 (zh) | 特效处理方法、装置、电子设备及存储介质 | |
CN117689569A (zh) | 视频帧的处理方法、装置、计算机设备和存储介质 | |
CN114779948A (zh) | 基于面部识别的动画人物即时交互控制方法、装置及设备 | |
US20240089403A1 (en) | Chat View Modification Based on User Identification or User Movement | |
CN115426505B (zh) | 基于面部捕捉的预设表情特效触发方法及相关设备 | |
US20230067584A1 (en) | Adaptive Quantization Matrix for Extended Reality Video Encoding | |
US20230064328A1 (en) | Safe and Privacy Preserving Video Representation | |
US20230077410A1 (en) | Multi-View Video Codec | |
WO2022062554A1 (zh) | 多镜头视频录制方法及相关设备 | |
CN111105345B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |