CN115633255A - 视频处理方法和电子设备 - Google Patents
视频处理方法和电子设备 Download PDFInfo
- Publication number
- CN115633255A CN115633255A CN202111016638.0A CN202111016638A CN115633255A CN 115633255 A CN115633255 A CN 115633255A CN 202111016638 A CN202111016638 A CN 202111016638A CN 115633255 A CN115633255 A CN 115633255A
- Authority
- CN
- China
- Prior art keywords
- frame
- image frame
- video
- detection
- target object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 142
- 238000001514 detection method Methods 0.000 claims abstract description 137
- 238000000034 method Methods 0.000 claims description 45
- 230000015654 memory Effects 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 16
- 230000001976 improved effect Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 35
- 230000033001 locomotion Effects 0.000 description 30
- 238000004891 communication Methods 0.000 description 25
- 230000006854 communication Effects 0.000 description 25
- 238000007726 management method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 210000000988 bone and bone Anatomy 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000033748 Device issues Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/69—Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/95—Computational photography systems, e.g. light-field imaging systems
- H04N23/951—Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
- Studio Devices (AREA)
Abstract
本申请提供了一种视频处理方法和电子设备,该视频处理方法应用于电子设备,包括:显示第一图像帧,第一图像帧为目标对象在第一位置的图像帧;在目标对象移动至第二位置的情况下,获取第二图像帧,第二位置与第一位置为不同位置,第二图像帧是指目标对象移动至第二位置时电子设备采集的图像帧;根据第二图像帧进行人脸检测,得到第一检测框的坐标信息;根据第一检测框得到裁剪框的坐标信息;根据裁剪框对第二图像帧进行裁剪处理,得到包括目标对象的显示内容;根据显示内容显示第三图像帧,第一图像帧中的第一区域与第三图像帧中的第二区域存在交集。基于本申请的技术方案在降低功耗的情况下,能够提高视频处理的准确性。
Description
技术领域
本申请涉及图像处理领域,具体涉及一种视频处理方法和电子设备。
背景技术
随着图像技术的飞速发展,用户对视频录制功能的需求不断增加。例如,通过相机应用录制视频、在视频通话过程中录制视频、以及监控场景中录制视频等。以视频通话为例,用户可以使用电子设备进行视频通话拍摄;如果拍摄对象移动时,电子设备的取景范围不进行调整,则会出现拍摄对象在视频画面中的位置偏向屏幕边缘,使得视频显示画面的用户感官体验欠佳。为获得更好的视频体验,确保拍摄对象能够始终保持在视频显示画面的中间位置,提出了“影随人动”的功能。
目前,通常通过对用户进行人体检测实现视频显示画面中的用户跟踪,从而实现“影随人动”的功能;但是,对用户进行人体检测的运算量较大,从而导致对电子设备的性能要求较高,而且,对用户进行人体检测还容易造成误识别。
因此,在降低功耗的情况下,如何准确的进行视频处理,实现“影随人动”功能成为一个亟需解决的问题。
发明内容
本申请提供了一种视频处理方法和电子设备,通过本申请实施例的视频处理方法能够在降低功耗的情况下,准确地对视频进行处理,提高“影随人动”功能的准确性。
第一方面,提供了一种视频处理方法,该视频处理方法应用于电子设备,包括:
显示第一图像帧,所述第一图像帧为目标对象在第一位置的图像帧;在所述目标对象移动至第二位置的情况下,获取第二图像帧,所述第二位置与所述第一位置为不同位置,所述第二图像帧是指所述目标对象移动至所述第二位置时所述电子设备采集的图像帧;根据所述第二图像帧进行人脸检测,得到第一检测框的坐标信息,所述第一检测框用于指示所述目标对象的脸部在所述第二图像帧中的位置信息;根据所述第一检测框得到裁剪框的坐标信息;根据所述裁剪框对所述第二图像帧进行裁剪处理,得到包括所述目标对象的显示内容;根据所述显示内容显示第三图像帧,所述第一图像帧中的第一区域与所述第三图像帧中的第二区域存在交集,所述第一区域是指所述第一图像帧中所述目标对象的所在区域,所述第二区域是指所述第三图像帧中所述目标对象的所在区域。
应理解,第二图像帧可以是指目标对象移动后相机实时采集到的图像帧;目标对象可以是指拍摄对象中的部分或者全部;比如,在接收机主识别指令的情况下,目标对象可以是指机主用户;在未接收开启机主识别指令的情况下,目标对象可以是指所有拍摄对象。
还应理解,第一图像的第一区域与第三图像的第二区域存在交集可以是指第一区域与第二区域完全重合;或者,也可以是指第一区域与第二区域存在部分交集。
在一种可能的实现方式中,在目标对象移动前,电子设备显示目标对象的第一图像帧;在目标对象移动后,电子设备的相机可以实时采集到第二图像帧,对第二图像帧进行人脸检测,得到目标对象对应的人脸框的坐标信息;根据人脸框的坐标信息得到裁剪框的坐标信息;根据裁剪框对第二图像帧进行裁剪处理,得到包括目标对象的显示内容;根据显示内容显示第三图像帧;第三图像帧是指在目标对象移动后电子设备显示的目标对象的图像帧。
在本申请的实施例中,通过对获取的第二图像帧进行人脸检测,确定目标对象的人脸框的坐标信息,根据人脸框的坐标信息得到裁剪框的坐标信息;进一步根据裁剪框对第二图像帧进行裁剪处理,得到包括目标对象的显示内容;根据显示内容显示第三图像帧;在本申请的实施例中,由于通过人脸框的坐标信息确定裁剪框的坐标信息,因此与直接对目标对象的人体关键点进行检测确定裁剪框的方案相比,本申请的视频处理方法能够减少电子设备的运算量,降低电子设备的功耗;此外,由于本申请的视频处理方法是根据人脸框确定裁剪框的坐标信息,可以避免目标对象在第二图像帧中背向面对电子设备时,对目标对象进行视频跟踪显示;因此,本申请的方案在降低功耗的情况下,还能够提高视频跟踪显示的准确性。
结合第一方面,在第一方面的某些实现方式中,所述第一区域与所述第二区域重合。
在一种可能的实现方式中,第一区域与第二区域重合,且第一区域与第二区域位于显示界面的中间区域。
结合第一方面,在第一方面的某些实现方式中,在显示所述第一图像帧与所述第三图像帧时,所述电子设备所处的位置相同。
在本申请的实施例中,电子设备可以保持位置不变,在拍摄的目标对象进行移动后,拍摄的目标对象可以始终显示在视频显示画面的中间位置,或者中间区域;实现对目标对象的跟踪显示,即实现“影随人动”功能。
结合第一方面,在第一方面的某些实现方式中,还包括:
检测到指示运行相机应用程序的操作;或者,
检测到指示运行视频通话应用程序的操作。
在本申请的实施例中,视频处理方法可以应用于相机应用程序拍摄视频的过程中;或者,视频处理方法也可以应用于视频通话应用程序中。
结合第一方面,在第一方面的某些实现方式中,所述根据所述第一检测框得到裁剪框的坐标信息,包括:
对所述第一检测框进行第一扩展处理,得到第二检测框;
对所述第二检测框进行第二扩展处理,得到所述裁剪框;
其中,所述第一扩展处理是指以所述第一检测框为中心对所述第一检测框的边界进行扩展,所述第二检测框用于指示所述目标对象的身体在所述第二图像帧中的位置信息,所述第二扩展处理是指以所述第二检测框为中心对所述第二检测框的边界进行扩展。
在本申请的实施例中,为了避免视频图像中多个图像帧中第一检测框出现局部抖动,确保目标对象在进行小幅度运动时,裁剪框能够保持不变;因此,通过对第二检测框进行第二扩展处理得到裁剪框,能够在一定程度上确保裁剪处理后图像帧的稳定性。
结合第一方面,在第一方面的某些实现方式中,所述对所述第一检测框进行第一扩展处理,得到第二检测框,包括:
根据第一阈值对所述第一检测框进行所述第一扩展处理,得到所述第二检测框,所述第一阈值用于指示身体比例数据。
结合第一方面,在第一方面的某些实现方式中,所述根据所述裁剪框对所述第二图像帧进行裁剪处理,得到包括所述目标对象的显示内容,包括:
确定所述第二检测框与所述裁剪框是否满足预设条件,所述预设条件是指所述第二检测框与所述裁剪框满足预设比例关系;
在所述第二检测框与所述裁剪框满足所述预设条件时,根据所述裁剪框对所述第二图像帧进行裁剪处理,得到所述显示内容。
在一种可能的实现方式中,预设条件可以是指第二检测框与裁剪框满足一定的比例关系,并且第二检测框位于裁剪框的内部。
结合第一方面,在第一方面的某些实现方式中,所述第一检测框的坐标信息是指在所述第二图像帧为第二分辨率时所述第一检测框对应的坐标信息,还包括:
接收请求指令,所述请求指令用于请求第一分辨率;
根据所述第一分辨率确定所述第二分辨率,所述第二分辨率大于所述第一分辨率。
在本申请的实施例中,可以将分辨率由第一分辨率扩展至第二分辨率,能够解决后续裁剪处理导致的第二图像帧清晰度下降的问题;通过进行分辨率扩展处理,能够在一定程度上使得剪裁处理后显示的第三图像帧的清晰度得到提高。
在一种可能的实现方式中,接收请求第一分辨率的请求指令;对第一分辨率进行扩展处理,确定第二分辨率;在第二图像帧中检测到第一检测框的坐标信息;将第一检测框的坐标信息转换至第二图像帧为第二分辨率时对应的坐标信息。
结合第一方面,在第一方面的某些实现方式中,所述根据所述显示内容显示第三图像帧,包括:
根据所述第一分辨率对所述显示内容进行缩放处理,得到处理后的显示内容;
根据所述处理后的显示内容显示所述第三图像帧。
结合第一方面,在第一方面的某些实现方式中,所述目标对象为机主用户,还包括:
接收机主识别指令,所述机主识别指令用于指示识别所述机主用户;
根据所述第一检测框进行脸部识别,确定所述机主用户,所述机主用户为预先配置的用户。
应理解,机主可以是指电子设备的管理用户;或者,机主也可以是任意一个预先配置的优先级较高的用户;机主识别是指在进行跟踪显示时,通过人脸检测识别目标对象中的机主用户,并对机主用户进行跟踪显示。
结合第一方面,在第一方面的某些实现方式中,所述第一检测框是指所述机主用户的人脸框。
结合第一方面,在第一方面的某些实现方式中,所述目标对象包括至少一个用户。
结合第一方面,在第一方面的某些实现方式中,所述目标对象包括第一用户与第二用户,所述第一检测框是指所述第一用户的人脸框与所述第二用户的人脸框的并集框。
第二方面,提供了一种电子设备,所述电子设备包括:一个或多个处理器、存储器和显示屏;所述存储器与所述一个或多个处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行:
显示第一图像帧,所述第一图像帧为目标对象在第一位置的图像帧;在所述目标对象移动至第二位置的情况下,获取第二图像帧,所述第二位置与所述第一位置为不同位置,所述第二图像帧是指所述目标对象移动至所述第二位置时所述电子设备采集的图像帧;根据所述第二图像帧进行人脸检测,得到第一检测框的坐标信息,所述第一检测框用于指示所述目标对象的脸部在所述第二图像帧中的位置信息;根据所述第一检测框得到裁剪框的坐标信息;根据所述裁剪框对所述第二图像帧进行裁剪处理,得到包括目标对象的显示内容;根据显示内容显示第三图像帧,所述第一图像帧中的第一区域与所述第三图像帧中的第二区域存在交集,所述第一区域是指所述第一图像帧中所述目标对象的所在区域,所述第二区域是指所述第三图像帧中所述目标对象的所在区域。
结合第二方面,在第二方面的某些实现方式中,在显示所述第一图像帧与所述第三图像帧时,所述电子设备所处的位置相同。
结合第二方面,在第二方面的某些实现方式中,所述一个或多个处理器调用所述计算机指令以使得所述电子设备还执行:
检测到指示运行相机应用程序的操作;或者,
检测到指示运行视频通话应用程序的操作。
结合第二方面,在第二方面的某些实现方式中,所述一个或多个处理器调用所述计算机指令以使得所述电子设备还执行:
对所述第一检测框进行第一扩展处理,得到第二检测框;
对所述第二检测框进行第二扩展处理,得到所述裁剪框;
其中,所述第一扩展处理是指以所述第一检测框为中心对所述第一检测框的边界进行扩展,所述第二检测框用于指示所述目标对象的身体在所述第二图像帧中的位置信息,所述第二扩展处理是指以所述第二检测框为中心对所述第二检测框的边界进行扩展。
结合第二方面,在第二方面的某些实现方式中,所述一个或多个处理器调用所述计算机指令以使得所述电子设备还执行:
根据第一阈值对所述第一检测框进行所述第一扩展处理,得到所述第二检测框,所述第一阈值用于指示身体比例数据。
结合第二方面,在第二方面的某些实现方式中,所述一个或多个处理器调用所述计算机指令以使得所述电子设备还执行:
确定所述第二检测框与所述裁剪框是否满足预设条件,所述预设条件是指所述第二检测框与所述裁剪框满足预设比例关系;
在所述第二检测框与所述裁剪框满足所述预设条件时,根据所述裁剪框对所述第二图像帧进行裁剪处理,得到所述显示内容。
结合第二方面,在第二方面的某些实现方式中,所述第一检测框的坐标信息是指在所述第二图像帧为第二分辨率时所述第一检测框对应的坐标信息,所述一个或多个处理器调用所述计算机指令以使得所述电子设备还执行:
接收请求指令,所述请求指令用于请求第一分辨率;
根据所述第一分辨率确定所述第二分辨率,所述第二分辨率大于所述第一分辨率。
结合第二方面,在第二方面的某些实现方式中,所述一个或多个处理器调用所述计算机指令以使得所述电子设备还执行:
根据所述第一分辨率对所述显示内容进行缩放处理,得到处理后的显示内容;
根据所述处理后的显示内容显示所述第三图像帧。
结合第二方面,在第二方面的某些实现方式中,所述一个或多个处理器调用所述计算机指令以使得所述电子设备还执行:
接收机主识别指令,所述机主识别指令用于指示识别所述机主用户;
根据所述第一检测框进行脸部识别,确定所述机主用户,所述机主用户为预先配置的用户。
结合第二方面,在第二方面的某些实现方式中,所述第一检测框是指所述机主用户的人脸框。
结合第二方面,在第二方面的某些实现方式中,所述目标对象包括至少一个用户。
结合第二方面,在第二方面的某些实现方式中,所述目标对象包括第一用户与第二用户,所述第一检测框是指所述第一用户的人脸框与所述第二用户的人脸框的并集框。
结合第二方面,在第二方面的某些实现方式中,所述第一区域与所述第二区域重合。
应理解,在上述第一方面中对相关内容的扩展、限定、解释和说明也适用于第二方面中相同的内容。
第三方面,提供了一种视频处理装置,包括用于执行第一方面中任一种视频处理方法的单元。
在一种可能的实现方式中,当该视频处理装置是电子设备时,该处理单元可以是处理器,该输入单元可以是通信接口;该电子设备还可以包括存储器,该存储器用于存储计算机程序代码,当该处理器执行该存储器所存储的计算机程序代码时,使得该电子设备执行第一方面中的任一种方法。
第四方面,提供了一种芯片系统,所述芯片系统应用于电子设备,所述芯片系统包括一个或多个处理器,所述处理器用于调用计算机指令以使得所述电子设备执行第一方面中的任一种视频处理方法。
第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序代码,当所述计算机程序代码被电子设备运行时,使得该电子设备执行第一方面中的任一种视频处理方法。
第六方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被电子设备运行时,使得该电子设备执行第一方面中的任一种视频处理方法。
附图说明
图1是一种适用于本申请的电子设备的硬件系统的示意图;
图2是一种适用于本申请的电子设备的软件系统的示意图;
图3是一种适用于本申请的应用场景的示意图;
图4是本申请实施提供的第一区域与第二区域存在交集的示意图;
图5是本申请提供的一种视频处理方法的示意性流程图;
图6是本申请提供的一种视频处理的显示界面的示意图;
图7是本申请提供的一种视频处理的显示界面的示意图;
图8是本申请提供的一种视频处理的显示界面的示意图;
图9是本申请提供的一种视频处理的显示界面的示意图;
图10是本申请提供的一种视频处理的显示界面的示意图;
图11是本申请提供的一种视频处理的显示界面的示意图;
图12是本申请提供的一种视频处理的显示界面的示意图;
图13是本申请提供的一种视频处理的显示界面的示意图;
图14是本申请提供的一种视频处理的显示界面的示意图;
图15是本申请提供的一种视频处理的显示界面的示意图;
图16是本申请提供的一种视频处理的显示界面的示意图;
图17是本申请提供的一种视频处理的显示界面的示意图;
图18是本申请提供的一种视频处理的显示界面的示意图;
图19是本申请提供的一种视频处理装置的结构示意图;
图20是本申请提供的一种电子设备的结构示意图。
具体实施方式
下面将结合附图,对本申请实施例中的技术方案进行描述。
图1示出了一种适用于本申请的电子设备的硬件系统。
电子设备100可以是手机、智慧屏、平板电脑、可穿戴电子设备、车载电子设备、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、投影仪等等,本申请实施例对电子设备100的具体类型不作任何限制。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
需要说明的是,图1所示的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图1所示的部件更多或更少的部件,或者,电子设备100可以包括图1所示的部件中某些部件的组合,或者,电子设备100可以包括图1所示的部件中某些部件的子部件。图1示的部件可以以硬件、软件、或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元。例如,处理器110可以包括以下处理单元中的至少一个:应用处理器(application processor,AP)、调制解调处理器、图形处理器(graphics processing unit,GPU)、图像信号处理器(image signal processor,ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor,DSP)、基带处理器、神经网络处理器(neural-network processing unit,NPU)。其中,不同的处理单元可以是独立的器件,也可以是集成的器件。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。例如,处理器110可以包括以下接口中的至少一个:内部集成电路(inter-integrated circuit,I2C)接口、内部集成电路音频(inter-integrated circuit sound,I2S)接口、脉冲编码调制(pulse codemodulation,PCM)接口、通用异步接收传输器(universal asynchronous receiver/transmitter,UART)接口、移动产业处理器接口(mobile industry processor interface,MIPI)、通用输入输出(general-purpose input/output,GPIO)接口、SIM接口、USB接口。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。I2S接口可以用于音频通信。PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。MIPI接口可以被用于连接处理器110与显示屏194和摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI)、显示屏串行接口(display serialinterface,DSI)等。
在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号接口,也可被配置为数据信号接口。
在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194、无线通信模块160、音频模块170和传感器模块180。GPIO接口还可以被配置为I2C接口、I2S接口、UART接口或MIPI接口。
USB接口130是符合USB标准规范的接口,例如可以是迷你(Mini)USB接口、微型(Micro)USB接口或C型USB(USB Type C)接口。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据,还可以用于连接耳机以通过耳机播放音频。USB接口130还可以用于连接其他电子设备100,例如AR设备。
图1所示的各模块间的连接关系只是示意性说明,并不构成对电子设备100的各模块间的连接关系的限定。可选地,电子设备100的各模块也可以采用上述实施例中多种连接方式的组合。
充电管理模块140用于从充电器接收电力。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备100供电。电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量、电池循环次数和电池健康状态(例如,漏电、阻抗)等参数。可选地,电源管理模块141可以设置于处理器110中,或者,电源管理模块141和充电管理模块140可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1、天线2、移动通信模块150、无线通信模块160、调制解调处理器以及基带处理器等器件实现。天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。
移动通信模块150可以提供应用在电子设备100上的无线通信的解决方案,例如下列方案中的至少一个:第二代(2th generation,2G)移动通信解决方案、第三代(3thgeneration,3G)移动通信解决方案、第四代(4th generation,5G)移动通信解决方案、第五代(5th generation,5G)移动通信解决方案。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(例如,扬声器170A、受话器170B)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
与移动通信模块150类似,无线通信模块160也可以提供应用在电子设备100上的无线通信解决方案,例如下列方案中的至少一个:无线局域网(wireless local areanetworks,WLAN)、蓝牙(bluetooth,BT)、蓝牙低功耗(bluetooth low energy,BLE)、超宽带(ultra wide band,UWB)、全球导航卫星系统(global navigation satellite system,GNSS)、调频(frequency modulation,FM)、近场通信(near field communication,NFC)、红外(infrared,IR)技术。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,电子设备100的天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络和其他电子设备通信。
电子设备100可以通过GPU、显示屏194以及应用处理器实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194可以用于显示图像或视频。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)、有源矩阵有机发光二极体(active-matrix organic light-emitting diode,AMOLED)、柔性发光二极管(flex light-emitting diode,FLED)、迷你发光二极管(mini light-emitting diode,Mini LED)、微型发光二极管(micro light-emitting diode,Micro LED)、微型OLED(Micro OLED)或量子点发光二极管(quantum dotlight emitting diodes,QLED)。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP、摄像头193、视频编解码器、GPU、显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP可以对图像的噪点、亮度和色彩进行算法优化,ISP还可以优化拍摄场景的曝光和色温等参数。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的红绿蓝(red green blue,RGB),YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
示例性地,在本申请的实施例中,摄像头193可以获取视频图像帧,视频图像帧可以是指采集的全尺寸的图像帧;摄像头193可以将获取的视频图像帧传输至ISP,ISP用于处理摄像头193获取的视频图像帧;比如,ISP可以从处理器110中获取目标分辨率与裁剪处理和缩放处理的参数;ISP根据目标分辨率可以将全尺寸的视频图像帧调整至目标分辨率大小;根据裁剪处理和缩放处理的参数对目标分辨率的视频图像帧进行裁剪处理与缩放处理,得到处理后的视频图像帧,处理后的视频图像帧满足应用程序下发的请求分辨率大小;将处理后的视频图像帧传输至应用程序,显示屏194对处理后的视频图像帧进行显示。
示例性地,在本申请的实施例中,可以在处理器110中执行计算视频流目标分辨率、人脸检测、裁剪与缩放参数计算。应理解,在本申请的视频处理方法中确定参数的相关步骤可以是在处理器110中执行的;ISP用于获取处理视频图像帧的相关参数,根据相关参数对视频图像帧进行处理得到适合电子设备的显示屏194的显示规格的输出图像帧。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1、MPEG2、MPEG3和MPEG4。
外部存储器接口120可以用于连接外部存储卡,例如安全数码(secure digital,SD)卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。
电子设备100可以通过音频模块170、扬声器170A、受话器170B、麦克风170C、耳机接口170D以及应用处理器等实现音频功能,例如,音乐播放和录音。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也可以用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。
扬声器170A,也称为喇叭,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐或免提通话。受话器170B,也称为听筒,用于将音频电信号转换成声音信号。
在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,例如可以是电阻式压力传感器、电感式压力传感器或电容式压力传感器。电容式压力传感器可以是包括至少两个具有导电材料的平行板,当力作用于压力传感器180A,电极之间的电容改变,电子设备100根据电容的变化确定压力的强度。当触摸操作作用于显示屏194时,电子设备100根据压力传感器180A检测所述触摸操作。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令;当触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x轴、y轴和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。例如,当快门被按下时,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航和体感游戏等场景。
气压传感器180C用于测量气压。磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。
加速度传感器180E可检测电子设备100在各个方向上(一般为x轴、y轴和z轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。加速度传感器180E还可以用于识别电子设备100的姿态,作为横竖屏切换和计步器等应用程序的输入参数。
距离传感器180F用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,例如在拍摄场景中,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(light-emitting diode,LED)和光检测器,例如,光电二极管。LED可以是红外LED。电子设备100通过LED向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到反射光时,电子设备100可以确定附近存在物体。当检测不到反射光时,电子设备100可以确定附近没有物体。电子设备100可以利用接近光传感器180G检测用户是否手持电子设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式或口袋模式的自动解锁与自动锁屏。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现解锁、访问应用锁、拍照和接听来电等功能。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称为触控器件。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,触摸屏也称为触控屏。触摸传感器180K用于检测作用于其上或其附近的触摸操作。触摸传感器180K可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,并且与显示屏194设置于不同的位置。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。
按键190包括开机键和音量键。按键190可以是机械按键,也可以是触摸式按键。电子设备100可以接收按键输入信号,实现于案件输入信号相关的功能。
马达191可以产生振动。马达191可以用于来电提示,也可以用于触摸反馈。马达191可以对作用于不同应用程序的触摸操作产生不同的振动反馈效果。对于作用于显示屏194的不同区域的触摸操作,马达191也可产生不同的振动反馈效果。不同的应用场景(例如,时间提醒、接收信息、闹钟和游戏)可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态和电量变化,也可以用于指示消息、未接来电和通知。
SIM卡接口195用于连接SIM卡。SIM卡可以插入SIM卡接口195实现与电子设备100的接触,也可以从SIM卡接口195拔出实现与电子设备100的分离。
上文详细描述了电子设备100的硬件系统,下面介绍电子设备100的软件系统。软件系统可以采用分层架构、事件驱动架构、微核架构、微服务架构或云架构,本申请实施例以分层架构为例,示例性地描述电子设备100的软件系统。
如图2所示,采用分层架构的软件系统分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,软件系统可以分为四层,从上至下分别为应用程序层、应用程序框架层、安卓运行时(Android Runtime)和系统库、以及内核层。
应用程序层可以包括相机、图库、日历、通话、地图、导航、WLAN、蓝牙、音乐、视频、短信息等应用程序。
本申请实施例的视频处理方法可以应用于相机应用程序或者视频应用程序;例如,可以在电子设备中的设置开启“影随人动”功能,电子设备检测到视频应用程序请求打开相机的指令后,可以开启“影随人动”功能;或者,可以在相机应用程序中设置开启“影随人动”功能,电子设备检测到相机应用程序请求打开相机的指令后,可以开启“影随人动”功能;“影随人动”功能可以参见后续图3中的描述。
应用程序框架层为应用程序层的应用程序提供应用程序编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层可以包括一些预定义的函数。
例如,应用程序框架层包括窗口管理器、内容提供器、视图系统、电话管理器、资源管理器和通知管理器。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏、锁定屏幕和截取屏幕。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频、图像、音频、拨打和接听的电话、浏览历史和书签、以及电话簿。
视图系统包括可视控件,例如显示文字的控件和显示图片的控件。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成,例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能,例如通话状态(接通或挂断)的管理。
资源管理器为应用程序提供各种资源,比如本地化字符串、图标、图片、布局文件和视频文件。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理、堆栈管理、线程管理、安全和异常的管理、以及垃圾回收等功能。
系统库可以包括多个功能模块,例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:针对嵌入式系统的开放图形库(opengraphics library for embedded systems,OpenGL ES)和2D图形引擎(例如:skia图形库(skia graphics library,SGL))。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D图层和3D图层的融合。
媒体库支持多种音频格式的回放和录制、多种视频格式回放和录制以及静态图像文件。媒体库可以支持多种音视频编码格式,例如:MPEG4、H.264、动态图像专家组音频层面3(moving picture experts group audio layer III,MP3)、高级音频编码(advancedaudio coding,AAC)、自适应多码率(adaptive multi-rate,AMR)、联合图像专家组(jointphotographic experts group,JPG)和便携式网络图形(portable network graphics,PNG)。
三维图形处理库可以用于实现三维图形绘图、图像渲染、合成和图层处理。
二维图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层可以包括显示驱动、摄像头驱动、音频驱动和传感器驱动等驱动模块。
下面结合显示拍照场景,示例性说明电子设备100的软件系统和硬件系统的工作流程。
当用户在触摸传感器180K上进行触摸操作时,相应的硬件中断被发送至内核层,内核层将触摸操作加工成原始输入事件,原始输入事件例如包括触摸坐标和触摸操作的时间戳等信息。原始输入事件被存储在内核层,应用程序框架层从内核层获取原始输入事件,识别出原始输入事件对应的控件,并通知该控件对应的应用程序(application,APP)。例如,上述触摸操作为单击操作,上述控件对应的APP为相机APP,相机APP被单击操作唤醒后,可以通过API调用内核层的摄像头驱动,通过摄像头驱动控制摄像头193进行拍摄。
图3是一种适用于本申请的应用场景的示意图,即图3所示可以是指“影随人动”场景的示意图。
示例性地,“影随人动”的原理可以是指电子设备的摄像头按照固定视野进行大分辨率采集,对采集到的视频图像帧进行用户检测跟踪,实时定位用户位置;在用户的位置发生移动时,能根据实时定位的用户位置对大分辨率视频图像帧进行相应的裁剪处理、缩放处理,得到适应显示规格,且用户位于图像中特定区域的小分辨率图像,从而实现根据用户位置实时调整显示画面,达到“影随人动”的效果。
在一个示例中,以电子设备是平板设备进行举例说明,如图3中的(a)所示的录像模式的显示界面;该显示界面中可以包括拍摄界面210;拍摄界面210中可以包括取景框211与用于指示录像的控件212;在检测到用户点击控件212之前,该取景框211内可以显示预览图像。
检测到用户点击控件212的操作,响应于用户的操作平板设备可以进行视频拍摄;第一拍摄对象在第一位置时显示如图3中的(a)所示的第一图像帧;在视频拍摄过程中,第一拍摄对象进行了移动;比如,第一拍摄对象从第一位置移动至第二位置,第一拍摄对象移动位置后显示如图3中的(b)所示的第三图像帧;在第一拍摄对象移动后,第一拍摄对象在取景框211中能够始终保持在中间位置,该拍摄功能即为“影随人动”功能;换而言之,在平板设备开启“影随人动”功能后,平板设备的位置可以保存不变,在拍摄对象进行移动后,拍摄对象可以始终显示在视频显示画面的中间位置,或者中间区域。
在本申请的实施例中,第一拍摄对象在第一位置时,第一拍摄对象位于第一图像帧中的第一区域;第一拍摄对象移动至第二位置时,第一拍摄对象位于第三图像帧中的第二区域;其中,第一区域与第二区域之间存在交集。
在一个示例中,第一区域与第二区域之间存在交集可以是指第一区域与第二区域部分区域重合,如图4中的(a)与图4中的(b)所示。
在一个示例中,第一区域与第二区域之间存在交集可以是指第一区域与第二区域完全重合,如图4中的(c)所示。
可选地,第一区域与第二区域可以位于显示画面的中间区域,且第一区域与第二区域之间存在交集。
上述图3所示的场景为举例描述,本申请实施例提供的视频处理方法可以应用但不限于以下场景中:
视频通话、视频会议应用、长短视频应用、视频直播类应用、视频网课应用、人像智能运镜应用场景、系统相机录像功能录制视频、视频监控以及智能猫眼等人像拍摄类场景等。
目前,通常通过对用户进行人体检测实现视频显示画面中的用户跟踪,从而实现“影随人动”的功能;人体检测通常采用人体检测跟踪算法,即对用户的关键点进行检测;用户的关键点可以包括但不限于:头部、肩膀、胳膊、手、腿、脚、眼睛、鼻子、嘴巴及衣服等;但是,对用户进行人体检测跟踪算法的运算量较大,从而导致对电子设备的性能要求较高。
有鉴于此,本申请实施例提供了一种视频处理方法,在本申请的实施例中,在目标对象移动后获取该目标对象的视频图像帧,对视频图像帧进行人脸检测,确定目标对象的人脸框的坐标信息,根据人脸框的坐标信息得到裁剪框的坐标信息;进一步根据裁剪框对视频图像帧进行裁剪处理,得到显示内容;在本申请的实施例中,由于通过人脸框的坐标信息得到裁剪框的坐标信息,因此与直接对目标对象的人体关键点进行检测确定裁剪框的方案相比,本申请的视频处理方法能够减少电子设备的运算量,降低电子设备的功耗;此外,由于本申请的视频处理方法是根据人脸框确定裁剪框的坐标信息,可以避免目标对象在视频图像帧中背对电子设备时,对目标对象进行视频跟踪显示;因此,本申请的方案在降低功耗的情况下,还能够提高视频跟踪显示的准确性。
下面结合图5至图18对本申请实施例提供的视频处理方法进行详细说明。
本申请实施例提供的视频处理方法可以用于视频模式,其中,视频模式可以是指电子设备进行视频拍摄;或者,视频模式也可以是指电子设备进行视频通话。
在一种可能的实现方式中,可以在电子设备的设置界面中设置开启“影随人动”的功能,在电子设备中用于视频通话的应用程序运行后,可以自动开启“影随人动”的功能执行本申请实施例的视频处理方法。
在一种可能的实现方式中,可以在电子设备的相机中设置开启“影随人动”功能,根据设置可以在录制视频时可以开启“影随人动”的功能,执行本申请实施例的视频处理方法。
图5是本申请实施例提供的视频处理方法的示意性流程图。如图5所示的视频处理方法300包括步骤S301至步骤S316,下面分别对这些步骤进行详细的描述。
步骤S301、请求打开相机。
例如,电子设备中的应用程序下发请求打开相机的指令;其中,应用程序可以包括但不限于:微信视频通话应用程序、视频会议应用程序、视频直播应用程序、视频录制应用程序、相机应用程序等。
在一个示例中,电子设备的相机应用程序录制视频时,可以请求打开相机。
例如,如图6所示,可以是用户点击相机应用程序的图标411进行视频拍摄时请求打开相机。
在一个示例中,电子设备中的微信视频通话应用程序发起视频邀请或者接收视频邀请时,可以请求打开相机。
例如,如图6所示,可以是指用户点击视频应用程序的图标412进行视频通话时请求打开相机。
步骤S302、相机传感器检测到请求打开相机的指令,相机传感器获取视频图像帧(第二图像帧的一个示例)。
例如,上述相机传感器可以是指相机模组中的图像传感器;视频图像帧可以是指用户位置改变时,图像传感器实时获取的图像帧。
示例性地,相机传感器获取的视频图像帧的分辨率大小可以为全尺寸(fullsize)。
例如,相机模组中摄像头支持的最大分辨率为4096*2160,则获取的全尺寸的视频图像帧的分辨率可以为4096*2160。步骤S303、应用程序下发请求分辨率指令。
示例性地,应用程序可以下发请求视频分辨率为w1*h1(第一分辨率的一个示例)的请求分辨率指令;该请求视频分辨率可以是指经过处理后在电子设备中保存的视频图像帧的分辨率。
步骤S304、计算视频图像帧的目标分辨率(第二分辨率的一个示例)。
例如,可以将应用程序请求的分辨率大小进行扩展处理得到目标分辨率;比如,可以将请求的w1*h1分辨率扩展一定倍率至分辨率w2*h2(w2>w1,h2>h1);其中,分辨率w2*h2可以为目标分辨率。
在本申请的实施例中,将分辨率由为w1*h1扩展至分辨率为w2*h2,能够解决后续裁剪处理导致的视频图像帧清晰度下降的问题;通过进行分辨率扩展处理,能够在一定程度上使得剪裁处理后视频图像帧的清晰度得到提高。
步骤S305、ISP根据目标分辨率对视频图像帧进行处理,得到目标分辨率的视频图像帧。
步骤S306、对视频图像帧进行人脸检测,得到人脸框(第一检测框的一个示例)的坐标信息。
例如,可以采用现有的人脸检测算法对相机传感器获取的视频图像帧进行人脸检测,得到人脸框的坐标信息。
在一个示例中,由于对全尺寸的视频图像帧进行处理时运算量较大,因此为了减少视频图像帧处理过程中的运算量,可以对全尺寸的视频图像帧进行下采样处理;例如,对全尺寸的视频图像帧进行下采样处理,得到分辨率为w3*h3的视频图像帧;对分辨率为w3*h3(w3<w1,h3<h1)的视频图像帧进行人脸检测,得的人脸框的坐标信息。
步骤S307、判断是否开启机主识别;若开启机主识别,则执行步骤S308;若未开启机主识别,则执行步骤S310。
应理解,在开启机主识别后,可以只对视频图像帧中的机主用户进行跟踪显示;在未开启机主识别,可以对视频图像帧中所有用户进行跟踪显示;机主可以是指该平板设备的管理用户;或者,机主也可以是任意一个预先配置的优先级较高的用户。
情况一:在开启机主识别的场景
步骤S308、根据人脸框进行人脸识别。
示例性地,可以根据人脸框的坐标信息确定人脸框中的图像信息;对人脸框中的图像信息进行人脸识别;在对人脸框中的图像信息进行人脸识别时,可以根据电子设备中预先存储的人脸信息库进行匹配,从而确定人脸框中图像信息对应的用户身份。
在一个示例中,在开启机主识别的情况下,人脸信息库中包括机主用户的人脸信息,根据人脸信息库与人脸框中的图像信息进行匹配可以确定机主用户。
需要说明的是,步骤S306中的人脸检测用于检测图像中的人脸框的坐标信息,即人脸检测用于检测图像中的人脸区域;人脸识别用于识别该人脸区域对应的用户身份信息。
步骤S309、获取机主用户的人脸框的坐标信息。
例如,通过步骤S308可以确定机主用户,从而可以确定机主用户对应的人脸框的坐标信息。
示例性地,如图18所示图像帧中可以包括第一用户与第二用户;若开启机主识别,则获取的人脸框的坐标信息可以是指机主用户711的人脸框的坐标信息,例如矩形框710的坐标信息。
步骤S310、对人脸框的坐标信息进行坐标转换。
例如,对全尺寸的视频图像帧进行下采样处理,得到分辨率为w3*h3的视频图像帧;对w3*h3的视频图像帧进行人脸检测,得到到机主用户的人脸框的坐标信息;将机主用户的人脸框的坐标信息转换至到w2*h2的分辨率坐标上,其中,w2>w3,h2>h3。
示例性地,如图18所示对矩形框710的四个顶点的坐标信息进行转换,得到在w2*h2分辨率时,对应的顶点坐标信息,进而确定矩形框720在w2*h2分辨率图像中的位置信息。
情况二:未开启机主识别的场景
在未开启机主识别的情况下,在执行步骤S307之后执行步骤S310;步骤S310、对步骤S306中检测到的人脸框的坐标信息进行坐标转换。
在一个示例中,如图9所示,视频图像帧中包括单用户,人脸框的坐标转换可以是指将矩形框430的四个顶点的坐标信息进行转换,得到在w2*h2分辨率时对应的顶点坐标信息,进而确定矩形框440在w2*h2分辨率图像中的位置信息。
在一个示例中,如图12所示,视频图像帧中包括两个用户,人脸框的坐标转换可以是指将矩形框510的四个顶点的坐标信息进行转换,得到在w2*h2分辨率时对应的顶点坐标信息,进而确定矩形框510在w2*h2分辨率图像中的位置信息,即得到矩形框520。
步骤S311、根据坐标转换后的人脸框的坐标信息计算人体框(第二检测框的一个示例)的坐标信息。
例如,根据步骤S310可以确定坐标转换后的人脸框的坐标信息;根据人体比例数据对坐标转换后的人脸框进行边界外扩处理(第一扩展处理的一个示例),得到人体框的坐标信息;其中,人体比例数据可以为预先设置的值。
在一个示例中,可以以人脸矩形框为中心,以人脸矩形框为基准将上边界向外扩展0.5倍,下边界向外扩展1.0倍,左边界与右边界各向外扩展0.75倍。
示例性地,如图9所示可以是如矩形框440所示的单用户人脸框进行边界外扩处理(第一边界扩展的一个示例),得到如矩形框450所示的人体框的坐标信息。
示例性地,如图12所示可以是如矩形框520所示的多用户人脸框进行边界外扩处理(第一边界扩展的一个示例),得到如矩形框530所示的两用户人体框的坐标信息。
步骤S312、根据人体框的坐标信息计算裁剪框的坐标信息。
例如,可以根据人体框进行边界外扩处理(第二边界扩展的一个示例),得到裁剪框的坐标信息。
在一个示例中,可以以人体框为中心,以人体框为基准对上边界与下边界各向外扩展0.025倍;对左边界与右边界各向外扩展0.025倍,得到裁剪框。
示例性地,如图9所示可以是如矩形框450所示的单用户人体框(第二检测框的一个示例)进行边界外扩处理(第二边界扩展的一个示例),得到如矩形框460所示的裁剪框的坐标信息。
示例性地,如图12所示可以是如矩形框530所示的多用户人体框(第二检测框的一个示例)进行边界外扩处理(第二边界扩展的一个示例),得到如矩形框540所示的裁剪框的坐标信息。
在本申请的实施例中,由于人脸检测算法是基于视频图像帧中每个图像帧进行检测的,因此输出的人脸框可能会在时域上存在局部跳变;为了避免视频图像帧中人脸框出现局部抖动的情况,确保用户在进行小幅度运动时,裁剪框能够保持不变;通过对人体框进行边界外扩处理得到裁剪框可以在一定程度上确保裁剪处理后图像帧的稳定性。
步骤S313、裁剪处理与缩放处理的条件判断。
例如,可以判断上述得到的人体框与裁剪框是否满足预设条件,从而确定是否进行后续的裁剪处理与缩放处理。
示例性地,预设条件可以是指人体框与裁剪框满足一定的比例关系,并且人体框位于裁剪框的内部。
在一种可能的实现方式中,在人体框与裁剪框不满足预设条件时,则重复执行上述步骤S306至步骤S312,重新计算裁剪框的坐标信息。
步骤S314、裁剪处理与缩放处理的参数计算。
例如,基于裁剪框的坐标信息和视频图像帧的画面坐标信息,按照N帧视频图像帧的调整策略(比如,根据平滑度要求),计算ISP对视频图像帧进行裁剪处理和缩放处理的参数,并将参数下发至ISP。
在一个示例中,在确定裁剪框后,若用户离摄像头较远,即用户在画面中显示区域较小,则可以对裁剪框进行一定程度的放大;比如,可以以裁剪框为中心进行放大,最大可以放大至2倍裁剪框大小对视频图像帧进行裁剪处理。
步骤S315、ISP接收到剪裁处理与缩放处理的参数,ISP对视频图像帧进行裁剪处理与缩放处理。
例如,ISP根据裁剪框的坐标信息对视频图像帧进行裁剪处理,得到显示内容;根据请求分辨率大小可以对显示内容进行缩放处理,使得处理后的视频图像帧满足请求分辨率大小。
步骤S316、在应用程序中显示视频图像帧(第三图像帧的一个示例)。
例如,将经过ISP裁剪处理与缩放处理后的视频图像帧传输至应用程序,在应用程序中显示视频图像帧。
示例性地,经过ISP裁剪处理与缩放处理后的视频图像帧的分辨率大小为步骤S303中请求的分辨率大小;将ISP处理后的视频图像帧传输至应用程序,根据电子设备的显示屏分辨率大小显示适合电子设备的显示规格的视频图像帧。
在本申请的实施例中,在目标对象移动后获取该目标对象的视频图像帧,对视频图像帧进行人脸检测,确定目标对象的人脸框的坐标信息,根据人脸框的坐标信息得到裁剪框的坐标信息;进一步根据裁剪框对视频图像帧进行裁剪处理,得到显示内容;在本申请的实施例中,由于通过人脸框的坐标信息确定裁剪框的坐标信息,因此与直接对目标对象的人体关键点进行检测确定裁剪框的方案相比,本申请的视频处理方法能够减少电子设备的运算量,降低电子设备的功耗;此外,由于本申请的视频处理方法是根据人脸框确定裁剪框的坐标信息,可以避免目标对象在视频图像帧中背向面对电子设备时,对目标对象进行视频跟踪显示;因此,本申请的方案在降低功耗的情况下,还能够提高视频跟踪显示的准确性。
下面结合图6至图18分别对目标对象为单用户、多用户未开启机主识别与多用户开启机主识别的情况下进行视频处理的过程分别进行详细描述。
示例性地,以电子设备为平板设备进行举例说明;图6示出了平板设备的一种图形用户界面(graphical user interface,GUI),该GUI为平板设备的桌面410;桌面410中可以包括相机应用程序的图标411与视频应用程序的图标412。
情况一:单用户自动运镜
在一个示例中,视频预览画面中可以包括单个用户,此时视频画面将自动跟踪此用户。
图7是用户在使用平板设备进行视频通话的显示界面;如图7所示,该显示界面中可以包括视频通话界面420,视频通话界面420中可以包括第一拍摄对象421的预览图像、视频通话框、用于指示取消的控件以及用于指示转为语音的控件。在用户通过平板设备向对方发起视频邀请后,平板设备的摄像头采集固定视野的预览图像,显示如图7所示的显示界面;在对方接通视频通话后,可以显示如图8所示的显示界面。
应理解,图7与图8可以是电子设备开启“影随人动”功能,通过本申请实施例提供的视频处理方法对相机采集的预览图像进行裁剪处理、缩放处理,处理为适合平板设备的显示规格的视频图像。当平板设备中打开相机时,会执行本申请实施例提供的视频处理方法。
结合图9对得到如图7所示的视频图像的处理过程进行详细描述。
应理解,图9所示的处理过程是由平板设备内部的处理器或者配置于平板设备的芯片执行的,该处理过程并不会在显示界面中进行显示。
示例性地,对于单用户的场景,上述图5所示的步骤S306可以是得到如图9所示的矩形框430,矩形框430表示人脸框;步骤S310可以如图9所示将矩阵框430转换至矩形框440,矩形框440表示坐标转换后的人脸框。例如,对矩形框430的四个顶点的坐标信息进行转换,得到在w2*h2分辨率时对应的顶点坐标信息,进而确定矩形框440在w2*h2分辨率图像中的位置信息。步骤S311可以如图9所示根据矩形框440进行边界外扩处理得到矩形框450的坐标信息,矩形框450表示单用户的人体框。步骤S312可以如图9所示根据矩形框450进行边界外扩处理得到矩形框460的坐标信息,矩形框460表示单用户的裁剪框。
进一步地,在矩形框450和矩形框460满足预设条件时,根据矩形框460的坐标信息与视频图像帧的坐标信息确定剪裁处理与缩放处理的参数;根据裁剪处理与缩放处理的参数对视频图像帧进行裁剪处理与缩放处理,得到适合平板设备的显示规格的输出的视频图像帧。
例如,如图9所示,根据裁剪框460可以得到裁剪处理后的显示内容;根据下发的请求分辨率大小可以对显示内容进行缩放处理,得到处理后的视频图像帧;将处理后的视频图像帧发送至视频通话应用程序,根据平板设备的显示屏分辨率大小得到适合平板设备的显示规格的视频图像帧。
需要说明的是,上述具体步骤参见图5所示的相关描述,此处不再赘述。
情况二:多用户自动运镜
在一个示例中,视频预览画面中可以包括多个用户,视频画面可以根据所有用户的位置进行自动画面调整,确保所有用户均显示在视频画面中。
图10是用户在使用平板设备进行视频通话的显示界面;如图10所示,该显示界面中可以包括视频通话界面501,视频通话界面501中可以包括第一拍摄对象与第二拍摄对象、用于指示取消的控件以及用于指示转为语音的控件。在视频通话的过程中,平板设备可以显示如图11所示的显示界面。
应理解,图10与图11是电子设备开启“影随人动”功能,通过本申请实施例提供的视频处理方法对相机采集的预览图像进行裁剪处理、缩放处理,处理为适合平板设备的显示规格的视频图像。当平板设备中打开相机时,会执行本申请实施例提供的视频处理方法。
结合图12对得到如图11所示的视频图像帧的处理过程进行详细描述。应理解,图12所示的处理过程是由平板设备内部的处理器或者配置于平板设备的芯片执行的,该处理过程并不会在显示界面中进行显示。
示例性地,对于多用户未开启机主识别的场景,图5所示的步骤S306可以如图12所示根据每个用户人脸框的坐标信息确定包括所有多用户人脸框的最小并集框的坐标信息,多用户人脸框例如矩形框510。步骤S310可以如图12所示将矩阵框510转换至矩形框520,矩形框520表示坐标转换后的人脸框。例如,对矩形框510的四个顶点的坐标信息进行转换,得到在w2*h2分辨率时对应的顶点坐标信息,进而确定矩形框520在w2*h2分辨率图像中的位置信息。步骤S311可以如图12所示根据矩形框520进行边界外扩处理得到矩形框530的坐标信息,矩形框530表示多用户的人体框。步骤S312如图12所示根据矩形框530进行边界外扩处理得到540的坐标信息,矩形框540表示多用户的裁剪框。
进一步地,在矩形框540和矩形框550满足预设条件时,根据矩形框550的坐标信息与视频图像帧的坐标信息确定剪裁处理与缩放处理的参数;根据裁剪处理与缩放处理的参数对视频图像帧进行裁剪处理与缩放处理,得到适合平板设备的显示规格的输出的视频图像帧。
例如,如图12所示,根据裁剪框540可以得到裁剪处理后的显示内容;根据下发的请求分辨率大小可以对显示内容进行缩放处理,得到处理后的视频图像帧;将处理后的视频图像帧发送至视频通话应用程序,根据平板设备的显示屏分辨率大小得到适合平板设备的显示规格的视频图像帧。
需要说明的是,上述具体步骤参见图5所示的相关描述,此处不再赘述。
应理解,多用户自动运镜与单用户自动运镜相比;多用户自动运镜在确定多用户人脸框的坐标信息时,根据多用户中各个用户的人脸框的最小并集确定多用户人脸框的坐标信息;其余步骤与单用户运镜相同,可以参见单用户运镜的相关内容描述,此处不再赘述。
在一个示例中,如图13所示视频通话界面503对应的拍摄场景中可以包括第一拍摄对象504、第二拍摄对象505以及第三拍摄对象506;其中,第一拍摄对象504与第二拍摄对象505是用户面部正向面对摄像头的,第三拍摄对象506是用户面部背向面对摄像头的;因此,根据本申请实施例提供的视频处理方法在进行人脸检测时无法检测到第三拍摄对象506的人脸框的坐标信息,在进行用户跟踪时可以对第一拍摄对象504与第二拍摄对象505进行跟踪显示,不对第三拍摄对象506进行跟踪显示;即在第一拍摄对象504与第二拍摄对象505移动后,可以对第一拍摄对象504与第二拍摄对象505进行跟踪显示,使得第一拍摄对象504与第二拍摄对象505可以始终保持在视频显示画面的中间区域;例如图14所示的显示界面。
情况三:机主自动运镜
在一个示例中,可以开启机主跟踪模式,视频预览画面中可以包括多个用户,对多个用户进行人脸检测与人脸识别确定目标用户即机主用户,视频画面可以实现对机主用户进行自动跟踪。
图15是视频通过的设置显示界面;如图15所示,在设置显示界面601中可以开启主角模式,该主角模式可以是指如图5所示的开启机主识别。图16是用户在使用平板设备进行视频通话的显示界面;该显示界面中可以包括视频通话界面602,视频通话界面602中可以包括第一拍摄对象、用于指示取消的控件以及用于指示转为语音的控件。在视频通话的过程中,可以显示如图17所示的显示界面。
应理解,图16与图17是电子设备开启“影随人动”功能,通过本申请实施例提供的视频处理方法对相机采集的预览图像进行裁剪处理、缩放处理,处理为适合平板设备的显示规格的视频图像。当平板设备中打开相机时,会执行本申请实施例提供的视频处理方法。
结合图18对得到如图17所示的视频图像帧的处理过程进行详细描述。应理解,图18所示的处理过程是由平板设备内部的处理器或者配置于平板设备的芯片执行的,该处理过程并不会在显示界面中进行显示。
示例性地,对于多用户开启机主识别的场景,上述图5所示的步骤S306可以如图18所示获取矩形框710的坐标信息。步骤S310可以如图18所示将矩阵框710转换至矩形框720,矩形框720表示坐标转换后的机主用户的人脸框。例如,对矩形框710的四个顶点的坐标信息进行转换,得到在w2*h2分辨率时对应的顶点坐标信息,进而确定矩形框720在w2*h2分辨率图像中的位置信息。步骤S311可以如图18所示根据矩形框720进行边界外扩处理得到矩形框730的坐标信息,矩形框730表示机主用户的人体框。步骤S312可以如图18所示根据矩形框730进行边界外扩处理得到740的坐标信息,矩形框740可以表示机主用户的裁剪框。
进一步地,在矩形框730和矩形框740满足预设条件时,可以根据矩形框740的坐标信息与视频图像帧的坐标信息确定剪裁处理与缩放处理的参数;根据裁剪处理与缩放处理的参数对视频图像帧进行裁剪处理与缩放处理,得到适合平板设备的显示规格的输出的视频图像帧。
例如,如图18所示,根据裁剪框740可以得到裁剪处理后的显示内容;根据下发的请求分辨率大小可以对显示内容进行缩放处理,得到处理后的视频图像帧;将处理后的视频图像帧发送至视频通话应用程序,根据显示屏分辨率大小得到适合平板设备的显示规格的视频图像帧。
需要说明的是,上述具体步骤参见图5所示的相关描述,此处不再赘述。
应理解,机主用户自动运镜与单用户自动运镜相比;机主用户自动运镜在确定多用户中每个用户的人脸框的坐标信息之后会对每个用户的人脸框进行人脸识别,从而确定机主用户的人脸框的坐标信息;其余步骤与单用户运镜相同,可以参见单用户运镜的相关内容描述,此处不再赘述。
在本申请的实施例中,通过对获取视频图像帧进行人脸检测,确定目标对象的人脸框的坐标信息,根据人脸框的坐标信息得到裁剪框的坐标信息;进一步根据裁剪框对视频图像帧进行处理显示输出的视频图像帧;在本申请的实施例中,由于通过人脸框的坐标信息确定裁剪框的坐标信息,因此与直接对目标对象的人体关键点进行检测确定裁剪框的方案相比,本申请的视频处理方法能够减少电子设备的运算量,降低电子设备的功耗;此外,由于本申请的视频处理方法是根据人脸框确定裁剪框的坐标信息,可以避免目标对象在第二图像帧中背向面对电子设备时,对目标对象进行视频跟踪显示;因此,本申请的方案在降低功耗的情况下,还能够提高视频跟踪显示的准确性。
应理解,上述举例说明是为了帮助本领域技术人员理解本申请实施例,而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本申请实施例的范围内。
上文结合图1至图18详细描述了本申请实施例提供的视频处理方法;下面将结合图19与图20详细描述本申请的装置实施例。应理解,本申请实施例中的装置可以执行前述本申请实施例的各种方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。
图19是本申请实施例提供的视频处理装置的结构示意图。该视频处理装置800包括显示单元810和处理单元820。
其中,所述显示单元810用于显示第一图像帧,所述第一图像帧为目标对象在第一位置的图像帧;处理单元820用于在所述目标对象移动至第二位置的情况下,获取第二图像帧,所述第二位置与所述第一位置为不同位置,所述第二图像帧是指所述目标对象移动至所述第二位置时所述电子设备采集的图像帧;根据所述第二图像帧进行人脸检测,得到第一检测框的坐标信息,所述第一检测框用于指示所述目标对象的脸部在所述第二图像帧中的位置信息;根据所述第一检测框得到裁剪框的坐标信息;根据所述裁剪框对所述第二图像帧进行裁剪处理,得到包括所述目标对象的显示内容;所述显示单元810还用于根据所述显示内容显示第三图像帧,其中,所述第一图像帧中的第一区域与所述第三图像帧中的第二区域存在交集,所述第一区域是指所述第一图像帧中所述目标对象的所在区域,所述第二区域是指所述第三图像帧中所述目标对象的所在区域。
可选地,作为一个实施例,在显示所述第一图像帧与所述第三图像帧时,所述视频处理装置所处的位置相同。
可选地,作为一个实施例,所述处理单元820还用于:
检测到指示运行相机应用程序的操作;或者,
检测到指示运行视频通话应用程序的操作。
可选地,作为一个实施例,所述处理单元820具体用于:
对所述第一检测框进行第一扩展处理,得到第二检测框;
对所述第二检测框进行第二扩展处理,得到所述裁剪框;
其中,所述第一扩展处理是指以所述第一检测框为中心对所述第一检测框的边界进行扩展,所述第二检测框用于指示所述目标对象的身体在所述第二图像帧中的位置信息,所述第二扩展处理是指以所述第二检测框为中心对所述第二检测框的边界进行扩展。
可选地,作为一个实施例,所述处理单元820具体用于:
根据第一阈值对所述第一检测框进行所述第一扩展处理,得到所述第二检测框,所述第一阈值用于指示身体比例数据。
可选地,作为一个实施例,所述处理单元820具体用于:
确定所述第二检测框与所述裁剪框是否满足预设条件,所述预设条件是指所述第二检测框与所述裁剪框满足预设比例关系;
在所述第二检测框与所述裁剪框满足所述预设条件时,根据所述裁剪框对所述第二图像帧进行裁剪处理,得到所述显示内容。
可选地,作为一个实施例,所述第一检测框的坐标信息是指在所述第二图像帧为第二分辨率时所述第一检测框对应的坐标信息,所述处理单元820具体用于:
接收请求指令,所述请求指令用于请求第一分辨率;
根据所述第一分辨率确定所述第二分辨率,所述第二分辨率大于所述第一分辨率;
可选地,作为一个实施例,所述处理单元820具体用于:
根据所述第一分辨率对所述显示内容进行缩放处理,得到处理后的显示内容;
所述显示单元810用于:
根据所述处理后的显示内容显示所述第三图像帧。
可选地,作为一个实施例,所述目标对象为机主用户,所述处理单元820具体用于:
接收机主识别指令,所述机主识别指令用于指示识别所述机主用户;
根据所述第一检测框进行脸部识别,确定所述机主用户,所述机主用户为预先配置的用户。
可选地,作为一个实施例,所述第一检测框是指所述机主用户的人脸框。
可选地,作为一个实施例,所述目标对象包括至少一个用户。
可选地,作为一个实施例,所述目标对象包括第一用户与第二用户,所述第一检测框是指所述第一用户的人脸框与所述第二用户的人脸框的并集框。
可选地,作为一个实施例,所述第一区域与所述第二区域重合。
需要说明的是,上述视频处理装置800以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。
例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
图20示出了本申请提供的一种电子设备的结构示意图。图20中的虚线表示该单元或该模块为可选的,电子设备900可用于实现上述方法实施例中描述的视频处理方法。
电子设备900包括一个或多个处理器901,该一个或多个处理器902可支持电子设备900实现方法实施例中的方法。处理器901可以是通用处理器或者专用处理器。例如,处理器901可以是中央处理器(central processing unit,CPU)、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件,如分立门、晶体管逻辑器件或分立硬件组件。
处理器901可以用于对电子设备900进行控制,执行软件程序,处理软件程序的数据。电子设备900还可以包括通信单元905,用以实现信号的输入(接收)和输出(发送)。
例如,电子设备900可以是芯片,通信单元905可以是该芯片的输入和/或输出电路,或者,通信单元905可以是该芯片的通信接口,该芯片可以作为终端设备或其它电子设备的组成部分。
又例如,电子设备900可以是终端设备,通信单元905可以是该终端设备的收发器,或者,通信单元905可以是该终端设备的收发电路。
电子设备900中可以包括一个或多个存储器902,其上存有程序904,程序904可被处理器901运行,生成指令903,使得处理器901根据指令903执行上述方法实施例中描述的视频处理方法。
可选地,存储器902中还可以存储有数据。可选地,处理器901还可以读取存储器902中存储的数据,该数据可以与程序904存储在相同的存储地址,该数据也可以与程序904存储在不同的存储地址。
处理器901和存储器902可以单独设置,也可以集成在一起;例如,集成在终端设备的系统级芯片(system on chip,SOC)上。
示例性地,存储器902可以用于存储本申请实施例中提供的视频处理方法的相关程序904,处理器901可以用于在视频处理时调用存储器902中存储的视频处理方法的相关程序904,执行本申请实施例的视频处理方法;例如,显示第一图像帧,第一图像帧为目标对象在第一位置的图像帧;在目标对象移动至第二位置的情况下,获取第二图像帧;第二位置与第一位置为不同位置,第二图像帧是指目标对象移动至第二位置时电子设备采集的图像帧;根据第二图像帧进行人脸检测,得到第一检测框的坐标信息,第一检测框用于指示目标对象的脸部在第二图像帧中的位置信息;根据第一检测框得到裁剪框的坐标信息;根据裁剪框对第二图像帧进行裁剪处理,得到包括目标对象的显示内容;根据显示内容显示第三图像帧,第一图像帧中的第一区域与第三图像帧中的第二区域存在交集,第一区域是指第一图像帧中目标对象的所在区域,第二区域是指第三图像帧中所述目标对象的所在区域。
本申请还提供了一种计算机程序产品,该计算机程序产品被处理器901执行时实现本申请中任一方法实施例所述的视频处理方法。
该计算机程序产品可以存储在存储器902中,例如是程序904,程序904经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器901执行的可执行目标文件。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现本申请中任一方法实施例所述的视频处理方法。该计算机程序可以是高级语言程序,也可以是可执行目标程序。
可选地,该计算机可读存储介质例如是存储器902。存储器902可以是易失性存储器或非易失性存储器,或者,存储器902可以同时包括易失性存储器和非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlinkDRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和设备的具体工作过程以及产生的技术效果,可以参考前述方法实施例中对应的过程和技术效果,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例的一些特征可以忽略,或不执行。以上所描述的装置实施例仅仅是示意性的,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统。另外,各单元之间的耦合或各个组件之间的耦合可以是直接耦合,也可以是间接耦合,上述耦合包括电的、机械的或其它形式的连接。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
总之,以上所述仅为本申请技术方案的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (17)
1.一种视频处理方法,其特征在于,所述视频处理方法应用于电子设备,包括:
显示第一图像帧,所述第一图像帧为目标对象在第一位置的图像帧;
在所述目标对象移动至第二位置的情况下,获取第二图像帧,所述第二位置与所述第一位置为不同位置,所述第二图像帧是指所述目标对象移动至所述第二位置时所述电子设备采集的图像帧;
根据所述第二图像帧进行人脸检测,得到第一检测框的坐标信息,所述第一检测框用于指示所述目标对象的脸部在所述第二图像帧中的位置信息;
根据所述第一检测框得到裁剪框的坐标信息;
根据所述裁剪框对所述第二图像帧进行裁剪处理,得到包括所述目标对象的显示内容;
根据所述显示内容显示第三图像帧,所述第一图像帧中的第一区域与所述第三图像帧中的第二区域存在交集,所述第一区域是指所述第一图像帧中所述目标对象的所在区域,所述第二区域是指所述第三图像帧中所述目标对象的所在区域。
2.如权利要求1所述的视频处理方法,其特征在于,在显示所述第一图像帧与所述第三图像帧时,所述电子设备所处的位置相同。
3.如权利要求1或2所述的视频处理方法,其特征在于,还包括:
检测到指示运行相机应用程序的操作;或者,
检测到指示运行视频通话应用程序的操作。
4.如权利要求1至3中任一项所述的视频处理方法,其特征在于,所述根据所述第一检测框得到裁剪框的坐标信息,包括:
对所述第一检测框进行第一扩展处理,得到第二检测框;
对所述第二检测框进行第二扩展处理,得到所述裁剪框;
其中,所述第一扩展处理是指以所述第一检测框为中心对所述第一检测框的边界进行扩展,所述第二检测框用于指示所述目标对象的身体在所述第二图像帧中的位置信息,所述第二扩展处理是指以所述第二检测框为中心对所述第二检测框的边界进行扩展。
5.如权利要求4所述的视频处理方法,其特征在于,所述对所述第一检测框进行第一扩展处理,得到第二检测框,包括:
根据第一阈值对所述第一检测框进行所述第一扩展处理,得到所述第二检测框,所述第一阈值用于指示身体比例数据。
6.如权利要求4或5所述的视频处理方法,其特征在于,所述根据所述裁剪框对所述第二图像帧进行裁剪处理,得到包括所述目标对象的显示内容,包括:
确定所述第二检测框与所述裁剪框是否满足预设条件,所述预设条件是指所述第二检测框与所述裁剪框满足预设比例关系;
在所述第二检测框与所述裁剪框满足所述预设条件时,根据所述裁剪框对所述第二图像帧进行裁剪处理,得到所述显示内容。
7.如权利要求1至6中任一项所述的视频处理方法,其特征在于,所述第一检测框的坐标信息是指在所述第二图像帧为第二分辨率时所述第一检测框对应的坐标信息,还包括:
接收请求指令,所述请求指令用于请求第一分辨率;
根据所述第一分辨率确定所述第二分辨率,所述第二分辨率大于所述第一分辨率。
8.如权利要求7所述的视频处理方法,其特征在于,所述根据所述显示内容显示第三图像帧,包括:
根据所述第一分辨率对所述显示内容进行缩放处理,得到处理后的显示内容;
根据所述处理后的显示内容显示所述第三图像帧。
9.如权利要求1至8中任一项所述的视频处理方法,其特征在于,所述目标对象为机主用户,还包括:
接收机主识别指令,所述机主识别指令用于指示识别所述机主用户;
根据所述第一检测框进行脸部识别,确定所述机主用户,所述机主用户为预先配置的用户。
10.如权利要求9所述的视频处理方法,其特征在于,所述第一检测框是指所述机主用户的人脸框。
11.如权利要求1至8中任一项所述的视频处理方法,其特征在于,所述目标对象包括至少一个用户。
12.如权利要求11所述的视频处理方法,其特征在于,所述目标对象包括第一用户与第二用户,所述第一检测框是指所述第一用户的人脸框与所述第二用户的人脸框的并集框。
13.如权利要求1至12中任一项所述的视频处理方法,其特征在于,所述第一区域与所述第二区域重合。
14.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得所述电子设备执行如权利要求1至13中任一项所述的视频处理方法。
15.一种芯片,其特征在于,包括处理器,当所述处理器执行指令时,所述处理器执行如权利要求1至13中任一项所述的视频处理方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行如权利要求1至13中任一项所述的视频处理方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序代码,当所述计算机程序代码被处理器执行时,使得处理器执行如权利要求1至13中任一项所述的视频处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016638.0A CN115633255B (zh) | 2021-08-31 | 2021-08-31 | 视频处理方法和电子设备 |
PCT/CN2022/091447 WO2023029547A1 (zh) | 2021-08-31 | 2022-05-07 | 视频处理方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016638.0A CN115633255B (zh) | 2021-08-31 | 2021-08-31 | 视频处理方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115633255A true CN115633255A (zh) | 2023-01-20 |
CN115633255B CN115633255B (zh) | 2024-03-22 |
Family
ID=84903712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111016638.0A Active CN115633255B (zh) | 2021-08-31 | 2021-08-31 | 视频处理方法和电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115633255B (zh) |
WO (1) | WO2023029547A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180152666A1 (en) * | 2016-11-29 | 2018-05-31 | Facebook, Inc. | Face detection for video calls |
CN108229418A (zh) * | 2018-01-19 | 2018-06-29 | 北京市商汤科技开发有限公司 | 人体关键点检测方法和装置、电子设备、存储介质和程序 |
CN111178343A (zh) * | 2020-04-13 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的多媒体资源检测方法、装置、设备及介质 |
CN112446255A (zh) * | 2019-08-31 | 2021-03-05 | 华为技术有限公司 | 一种视频图像处理方法及装置 |
CN112561840A (zh) * | 2020-12-02 | 2021-03-26 | 北京有竹居网络技术有限公司 | 视频裁剪方法、装置、存储介质及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107872639A (zh) * | 2017-11-14 | 2018-04-03 | 维沃移动通信有限公司 | 通信视频的传输方法、装置和移动终端 |
CN110334653A (zh) * | 2019-07-08 | 2019-10-15 | 聚好看科技股份有限公司 | 视频通信中的图像处理方法、装置及设备 |
CN113014793A (zh) * | 2019-12-19 | 2021-06-22 | 华为技术有限公司 | 一种视频处理方法及电子设备 |
CN112907617B (zh) * | 2021-01-29 | 2024-02-20 | 深圳壹秘科技有限公司 | 一种视频处理方法及其装置 |
-
2021
- 2021-08-31 CN CN202111016638.0A patent/CN115633255B/zh active Active
-
2022
- 2022-05-07 WO PCT/CN2022/091447 patent/WO2023029547A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180152666A1 (en) * | 2016-11-29 | 2018-05-31 | Facebook, Inc. | Face detection for video calls |
CN108229418A (zh) * | 2018-01-19 | 2018-06-29 | 北京市商汤科技开发有限公司 | 人体关键点检测方法和装置、电子设备、存储介质和程序 |
CN112446255A (zh) * | 2019-08-31 | 2021-03-05 | 华为技术有限公司 | 一种视频图像处理方法及装置 |
CN111178343A (zh) * | 2020-04-13 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的多媒体资源检测方法、装置、设备及介质 |
CN112561840A (zh) * | 2020-12-02 | 2021-03-26 | 北京有竹居网络技术有限公司 | 视频裁剪方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115633255B (zh) | 2024-03-22 |
WO2023029547A1 (zh) | 2023-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11989482B2 (en) | Split-screen projection of an image including multiple application interfaces | |
EP4044580A1 (en) | Capturing method and electronic device | |
US11669242B2 (en) | Screenshot method and electronic device | |
WO2021136050A1 (zh) | 一种图像拍摄方法及相关装置 | |
US11968447B2 (en) | Long-focus shooting method and electronic device | |
WO2020259452A1 (zh) | 一种移动终端的全屏显示方法及设备 | |
EP4145819A1 (en) | Image content removal method and related apparatus | |
CN114040242B (zh) | 投屏方法、电子设备和存储介质 | |
CN115272138B (zh) | 图像处理方法及其相关设备 | |
CN111553846A (zh) | 超分辨率处理方法及装置 | |
EP4325877A1 (en) | Photographing method and related device | |
WO2020233593A1 (zh) | 一种前景元素的显示方法和电子设备 | |
CN115967851A (zh) | 快速拍照方法、电子设备及计算机可读存储介质 | |
WO2022143180A1 (zh) | 协同显示方法、终端设备及计算机可读存储介质 | |
CN112437341B (zh) | 一种视频流处理方法及电子设备 | |
CN116055868B (zh) | 一种拍摄方法及相关设备 | |
WO2021204103A1 (zh) | 照片预览方法、电子设备和存储介质 | |
CN115633255B (zh) | 视频处理方法和电子设备 | |
CN115686182A (zh) | 增强现实视频的处理方法与电子设备 | |
CN114827098A (zh) | 合拍的方法、装置、电子设备和可读存储介质 | |
CN115599565A (zh) | 发送剪贴板数据的方法和装置 | |
CN116055871B (zh) | 视频处理方法及其相关设备 | |
CN116723382B (zh) | 一种拍摄方法及相关设备 | |
CN113297875B (zh) | 一种视频文字跟踪方法及电子设备 | |
CN116664701A (zh) | 光照估计方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |