CN115334237A

CN115334237A - 基于usb相机的人像对焦方法、装置及介质

Info

Publication number: CN115334237A
Application number: CN202210884740.0A
Authority: CN
Inventors: 顾友良; 张威; 李观喜; 苏鹏
Original assignee: Guangzhou Ziweiyun Technology Co ltd
Current assignee: Guangzhou Ziweiyun Technology Co ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-11-11
Anticipated expiration: 2042-07-26
Also published as: CN115334237B

Abstract

本发明提供了一种基于USB相机的人像对焦方法，所述USB相机是固定焦距，包括如下步骤：S1，获取所述USB相机获取的原始图像数据；S2，检测所述原始图像数据中是否有预设手势，在有预设手势时，执行步骤S3；其中所述预设手势用以表示开启人像锁定；S3，对所述原始图像数据进行人脸检测获取人脸框；S4，根据所述人脸框获取最小外接矩形和图像中心点；并根据缩放系数对所述最小外接矩形进行扩充以获得最佳人像图像区域；S5，根据所述最佳人像图像区域从所述原始图像数据中裁剪出相应的图像；本发明的基于USB相机的人像对象方法，对图像进行裁剪后得到比原始图像小的图像数据，可使人像时刻保持在画面中央位置，模拟出人像锁定并自动对焦的效果。

Description

基于USB相机的人像对焦方法、装置及介质

技术领域

本发明涉及计算机技术领域，具体来说，涉及一种基于USB相机的人像对焦方法、装置及介质。

背景技术

目前常规USB相机以及监控摄像头等主要用来采集图像数据，有部分监控设备集成人脸算法可用于人脸抓拍等，摄像头采集输出的是固定像素的图像数据。随着电商直播、短视频以及线上视频会议等兴起，人们对视频的需求越来越旺盛，但是人在相机视野中不停走动，不一定时刻处于画面中央，并且当人站的位置距离相机有一定距离时，画面中的人像相对较小，甚至有可能出现在画面边缘端，容易造成“找不到人”的现象发生。

本文提供的背景描述用于总体上呈现本公开的上下文的目的。除非本文另外指示，在该章节中描述的资料不是该申请的权利要求的现有技术并且不要通过包括在该章节内来承认其成为现有技术。

发明内容

针对相关技术中的上述技术问题，本发明提出一种基于USB相机的人像对焦方法，所述USB相机是固定焦距，包括如下步骤：

S1，获取所述USB相机获取的原始图像数据；

S2，检测所述原始图像数据中是否有预设手势，在有预设手势时，执行步骤S3；其中所述预设手势用以表示开启人像锁定；

S3，对所述原始图像数据进行人脸检测获取人脸框；

S4，根据所述人脸框获取最小外接矩形和图像中心点；并根据缩放系数对所述最小外接矩形进行扩充以获得最佳人像图像区域；

S5，根据所述最佳人像图像区域从所述原始图像数据中裁剪出相应的图像；

具体的，所述步骤S2具体包括：每秒取第一预设帧数的图像数据，在连续N帧内识别到M帧预设手势时，认为开启人像锁定功能。

具体的，所述步骤S4中对最小外接矩形进行扩充时，采用卡尔曼滤波算法，对所述最小外接矩形进行消抖处理。

具体的，所述步骤S4具体包括：根据原始图像数据的宽高比以及人脸框最小外接矩形的宽高比对所述人脸框的最小外接矩形进行宽或/和高的第一缩放以获得第一缩放图像，根据缩放系数对所述第一缩放图像进行扩充以获得第二外接矩形，根据所述第二外接矩形获得最佳人像图像区域。

具体的，在所述第二外接矩形的左上角为负数时，将其坐标设置为0。

第二方面，本发明的另一个实施例公开了一种基于USB相机的人像对焦装置，所述USB相机是固定焦距，其包括如下单元：

USB相机数据数据获取单元，用于获取所述USB相机获取的原始图像数据；

预设手势检测单元，用于检测所述原始图像数据中是否有预设手势，在有预设手势时，执行人脸检测单元；其中所述预设手势用以表示开启人像锁定；

人脸检测单元，用于对所述原始图像数据进行人脸检测获取人脸框；

最佳人像图像区域获取单元，根据所述人脸框获取最小外接矩形和图像中心点；并根据缩放系数对所述最小外接矩形进行扩充以获得最佳人像图像区域；

图像裁剪单元，根据所述最佳人像图像区域从所述原始图像数据中裁剪出相应的图像；

具体的，所述预设手势检测单元具体包括：每秒取第一预设帧数的图像数据，在连续N帧内识别到M帧预设手势时，认为开启人像锁定功能。

具体的，所述最佳人像图像区域获取单元中对最小外接矩形进行扩充时，采用卡尔曼滤波算法，对所述最小外接矩形进行消抖处理。

具体的，所述最佳人像图像区域获取单元具体包括：根据原始图像数据的宽高比以及人脸框最小外接矩形的宽高比对所述人脸框的最小外接矩形进行宽或/和高的第一缩放以获得第一缩放图像，根据缩放系数对所述第一缩放图像进行扩充以获得第二外接矩形，根据所述第二外接矩形获得最佳人像图像区域。

第三方面，本发明的另一实施例公开了一种非易失性存储器，所述存储上存储有指令，所述指令被处理器执行时，用于实现上述基于USB相机的人像对焦方法。

本发明的基于USB相机的人像对象方法，首先合理扩充最小人脸外接矩形框，基于新的矩形区域，对该图像进行裁剪后得到比原始图像小的图像数据，但可使人像时刻保持在画面中央位置。当人已一定的速度移动时，由于采用轻量算法，可实时处理每一帧图像并裁剪出适合的图像，对裁剪后的图像进行实时视频流输出。由于画面始终是以人脸区域为中心进行，当人在移动时，画面也在同步进行裁剪动态同步更新，始终使人处于画面的中心位置，给人一种相机随着人体移动进行自动对焦的错觉，因此可模拟出人像锁定并自动对焦的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于USB相机的人像对焦方法流程图；

图2是本发明实施例提供的一种基于USB相机的人像对焦装置示意图；

图3是本发明实施例提供的一种基于USB相机的人像对焦设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参考图1，本实施例公开了一种基于USB相机的人像对焦方法，所述USB相机是固定焦距，包括如下步骤：

S1，获取所述USB相机获取的原始图像数据；

USB相机一般是一种面驱动的，并且为了降低成本和提高USB相机的通用性，USB相机镜头是固定焦距，焦距不可调节。因此，在使用USB相机时，如人在相机视野中不停走动，不一定时刻处于画面中央，并且当人站的位置距离USB相机有一定距离时，画面中的人像相对较小，甚至有可能出现在画面边缘端，容易造成“找不到人”的现象发生。

具体的，本实施例的USB相机可以获取视频也可以获取单张图片。

USB相机采集图像数据一般是YUV格式，本实施例先将YUV数据转换为RGB数据。

本实施例从USB相机的视频图像中识别是否出现预设手势，例如“OK”手势用以表示开启人像锁定功能，使用“Diss”(大拇指向下)表示关闭人像锁定功能。

具体的，本实施例采用one-stage detector方式，基于yolox，进行手部检测与手势识别，目前支持常规5种手势识别，具体包括“点赞”、“OK”、“Yeah”、“拳头”、“Diss”(大拇指向下，与点赞相反)，其他非该类动作归为“其他类别”。根据场景需求，使用“OK”手势表示开启人像锁定功能，使用“Diss”手势表示关闭人像锁定功能。

本领域技术人员知晓，其他手势同样也可以用于关闭或开启人像锁定，本实施例不做进一步的限定。

为了防止误触发情况，每秒取3-5帧图像数据，在连续N帧内识别到M帧“OK”手势时，认为开启人像锁定功能；在连续N帧内识别到M帧“Diss”手势时，认为关闭人像锁定功能，回归到正常的原始相机图像输出方式。

本实施例可以通过手势控制的方式，可以进行不同图像数据输出方式的切换，可以灵活的满足人们不同场景需求。

S3，对所述原始图像数据进行人脸检测获取人脸框；

一旦需要开启人像锁定功能，采集处理后的图像需要实时输出，因此本算法需要更加的轻量化，降低一定的精度，可极大提升算法的处理速度。本实施例的人脸检测算法采用one-stage detector方式，基于yolov5s，backbone更换为shufflenet-v2,网络图像的输入分辨率是320*320。

本实施例在进行最小外接矩形扩充时，为了避免矩形框的抖动，采用卡尔曼滤波算法，对所述最小外接矩形进行消抖处理，确保截取人像时画面比较连续稳定。

对步骤S3中获取的所有人脸框先求取其最小外接矩形，假设原始图像左上角坐标点以及宽、高分别为(0,0),w,h。

人脸框最小外接矩形左上角坐标以及宽、高坐标分别为(x’,y’),w’,h’；缩放系数scale；

本实施例的，scale默认设置为1.5，可根据实际情况进行调整。

本实施例可以根据缩放系数scale对获取的的人脸框最小外接矩形进行扩充，扩充后的宽和高分别为：

w”＝w’*scale

h”＝h’*scale

根据扩充后的宽和高获取最佳人像图像区域。

具体的，假定人脸框的图像中心点(cent_x,cent_y)为：

cent_x＝x’+w’/2

cent_y＝y’+h’/2

则最佳人像图像区域的区域为，左上角坐标为(cent_x-w”/2，y’-h”/2)、

右下角坐标为(cent_x+w”/2，y’+h”/2)。

进一步的，为了合理扩充人像区域，且要避免裁剪图像比例失衡，根据原始图像数据的宽高比以及人脸框最小外接矩形的宽高比对所述人脸框的最小外接矩形进行宽或/和高的第一缩放以获得第一缩放图像，其处理过程如下：

ration_src＝w*1.0/h

人脸框最小外接矩形的宽高比为：

ratio_dst＝w’*1.0/h’

定义人脸框最小外接矩形等比缩放后的临时宽和高分别为：tmp_w’，tmp_h’；

如果ratio_src大于ratio_dst，则按照宽进行等比缩放：

tmp_w’＝w’

tmp_h’＝floor(w*1.0/w’)*h’)

如果ratio_src小于ratio_dst，则按照高进行等比缩放：

tmp_w’＝floor(h*1.0/h’)*w’)

tmp_h’＝h’

如果ratio_src等于ratio_dst，则直接进行等比缩放：

tmp_w’＝w’

tmp_h’＝h’

由于人脸部分区域偏小，实际还需进行一定比例对外扩充后截取图像进行输出展示获得第二外接矩形，原始矩形的中心点不会变化；

第二外接矩形坐标宽和高计算如下：

w”＝tmp_w’*scale

h”＝tmp_h’*scale

上述计算需要时刻保持图像矩形框左上角坐标不为负数，计算如下：

tmp_x’＝max(x’+w’/2-w”/2,0)

tmp_y’＝max(y’+y’/2-h”/2,0)

最终得到新的缩放后的矩形框左上角坐标以及宽和高分别如下：

(tmp_x’,tmp_y’),tmp_w’,tmp_h’

根据计算出来的最佳人像图像区域进行裁剪，将裁剪得到的RGB图像数据转为YUV，通过USB将YUV数据流实时输出，当主机设备识别到该摄像头的时候，打开摄像头即可自动获取到视频流进行显示。

当画面中连续N帧没有检测到人脸时，默认裁剪预取图像中心点与原始图像中心点重合，宽度和高度各为原始图像的1/2。

本实施例的基于USB相机的人像对象方法，首先合理扩充最小人脸外接矩形框，基于新的矩形区域，对该图像进行裁剪后得到比原始图像小的图像数据，但可使人像时刻保持在画面中央位置。当人已一定的速度移动时，由于采用轻量算法，可实时处理每一帧图像并裁剪出适合的图像，对裁剪后的图像进行实时视频流输出。由于画面始终是以人脸区域为中心进行，当人在移动时，画面也在同步进行裁剪动态同步更新，始终使人处于画面的中心位置，给人一种相机随着人体移动进行自动对焦的错觉，因此可模拟出人像锁定并自动对焦的效果。

实施例二

参考图2，本实施例公开了一种基于USB相机的人像对焦装置，所述USB相机是固定焦距，包括如下单元：

预设手势检测单元，用于检测所述原始图像数据中是否有预设手势，在有预设手势时，执行装置人脸检测单元；其中所述预设手势用以表示开启人像锁定；

最佳人像图像区域获取单元，用于根据所述人脸框获取最小外接矩形和图像中心点；并根据缩放系数对所述最小外接矩形进行扩充以获得最佳人像图像区域；

对获取的所有人脸框先求取其最小外接矩形，假设原始图像左上角坐标点以及宽、高分别为(0,0),w,h。

w”＝w’*scale

h”＝h’*scale

根据扩充后的宽和高获取最佳人像图像区域。

假定人脸框的图像中心点(cent_x,cent_y)为：

cent_x＝x’+w’/2

cent_y＝y’+h’/2

右下角坐标为(cent_x+w”/2，y’+h”/2)。

ration_src＝w*1.0/h

人脸框最小外接矩形的宽高比为：

ratio_dst＝w’*1.0/h’

如果ratio_src大于ratio_dst，则按照宽进行等比缩放：

tmp_w’＝w’

tmp_h’＝floor(w*1.0/w’)*h’)

如果ratio_src小于ratio_dst，则按照高进行等比缩放：

tmp_w’＝floor(h*1.0/h’)*w’)

tmp_h’＝h’

如果ratio_src等于ratio_dst，则直接进行等比缩放：

tmp_w’＝w’

tmp_h’＝h’

第二外接矩形坐标宽和高计算如下：

w”＝tmp_w’*scale

h”＝tmp_h’*scale

tmp_x’＝max(x’+w’/2-w”/2,0)

tmp_y’＝max(y’+y’/2-h”/2,0)

(tmp_x’,tmp_y’),tmp_w’,tmp_h’

图像裁剪单元，用于根据所述最佳人像图像区域从所述原始图像数据中裁剪出相应的图像；

实施例三

参考图3，图3是本实施例的一种基于USB相机的人像对焦设备的结构示意图。该实施例的基于USB相机的人像对焦设备20包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述方法实施例中的步骤。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述基于USB相机的人像对焦设备20中的执行过程。例如，所述计算机程序可以被分割成实施例二中的各个模块,各模块具体功能请参考上述实施例所述的装置的工作过程，在此不再赘述。

所述基于USB相机的人像对焦设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是基于USB相机的人像对焦设备20的示例，并不构成对基于USB相机的人像对焦设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于USB相机的人像对焦设备20还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述基于USB相机的人像对焦设备20的控制中心，利用各种接口和线路连接整个基于USB相机的人像对焦设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述基于USB相机的人像对焦设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于USB相机的人像对焦设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于USB相机的人像对焦方法，所述USB相机是固定焦距，包括如下步骤：

S1，获取所述USB相机获取的原始图像数据；

S3，对所述原始图像数据进行人脸检测获取人脸框；

S5，根据所述最佳人像图像区域从所述原始图像数据中裁剪出相应的图像。

2.根据权利要求1所述的方法，所述步骤S2具体包括：每秒取第一预设帧数的图像数据，在连续N帧内识别到M帧预设手势时，认为开启人像锁定功能。

3.根据权利要求2所述的方法，所述步骤S4中对最小外接矩形进行扩充时，采用卡尔曼滤波算法，对所述最小外接矩形进行消抖处理。

4.根据权利要求3所述的方法，所述步骤S4具体包括：根据原始图像数据的宽高比以及人脸框最小外接矩形的宽高比对所述人脸框的最小外接矩形进行宽或/和高的第一缩放以获得第一缩放图像，根据缩放系数对所述第一缩放图像进行扩充以获得第二外接矩形，根据所述第二外接矩形获得最佳人像图像区域。

5.根据权利要求4所述的方法，在所述第二外接矩形的左上角为负数时，将其坐标设置为0。

6.一种基于USB相机的人像对焦装置，所述USB相机是固定焦距，其包括如下单元：

图像裁剪单元，根据所述最佳人像图像区域从所述原始图像数据中裁剪出相应的图像。

7.根据权利要求6所述的装置，所述预设手势检测单元具体包括：每秒取第一预设帧数的图像数据，在连续N帧内识别到M帧预设手势时，认为开启人像锁定功能。

8.根据权利要求7所述的装置，所述最佳人像图像区域获取单元中对最小外接矩形进行扩充时，采用卡尔曼滤波算法，对所述最小外接矩形进行消抖处理。

9.根据权利要求8所述的装置，所述最佳人像图像区域获取单元具体包括：根据原始图像数据的宽高比以及人脸框最小外接矩形的宽高比对所述人脸框的最小外接矩形进行宽或/和高的第一缩放以获得第一缩放图像，根据缩放系数对所述第一缩放图像进行扩充以获得第二外接矩形，根据所述第二外接矩形获得最佳人像图像区域。

10.一种非易失性存储器，所述存储上存储有指令，所述指令被处理器执行时，用于实现上述权利要求1-5中任一项所述的方法。