CN114302050A

CN114302050A - 图像处理方法及设备、非易失性存储介质

Info

Publication number: CN114302050A
Application number: CN202011003518.2A
Authority: CN
Inventors: 张超; 汪彪
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-04-08

Abstract

本发明公开了一种图像处理方法及设备、非易失性存储介质。其中，该方法包括：获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。本发明解决了现有技术中的图像处理方案无法有效确定图像的待聚焦区域，导致难以对该待聚焦区域进行清晰展示的技术问题。

Description

图像处理方法及设备、非易失性存储介质

技术领域

本发明涉及图像处理领域，具体而言，涉及一种图像处理方法及设备、非易失性存储介质。

背景技术

目前直播场景中，主播通常使用的通用摄像头拍摄直播视频图像画面，由于通用摄像头不具备自动识别关注区域的功能，最多只能将画面中人物面部作为关注区域，并使摄像头清晰聚焦在人物面部。因此，当主播介绍产品时，如果希望让观众清晰看到其手中介绍的产品，就会将产品放置在离摄像头较近的位置。

但在此情况下该产品距离人物面部较远，处于非清晰聚焦区域，而且由于通用摄像头存在有限宽度的景深，产品只能在距离镜头一定范围内清晰成像，当产品在清晰成像距离范围之外时，该产品则处于模糊状态，无法看清其细节；因此，主播就需要手动将自己的面部遮挡，使摄像头重新进行聚焦位置调节，以使得提高其所介绍的产品的展示清晰度，但是很多情况下摄像头仍然不会重新聚焦到合适的区域，导致该产品仍然是模糊状态，不能充分展示产品且严重影响直播观感和直播效率。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种图像处理方法及设备、非易失性存储介质，以至少解决现有技术中的图像处理方案无法有效确定图像的待聚焦区域，导致难以对该待聚焦区域进行清晰展示的技术问题。

根据本申请实施例的一个方面，提供了一种图像处理方法，包括：获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：从输入图像获取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；对上述待聚焦区域的聚焦状态进行调节，得到待输出图像。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：获取第一图像；从上述第一图像中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；对上述待聚焦区域的聚焦状态进行调节，得到第二图像；输出上述第二图像。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域包含第一目标对象，上述第一目标对象具有生命体征，第二子区域包含第二目标对象，上述第二目标对象不具有生命体征且上述第二目标对象为上述第一目标对象的操作对象；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域包含第一目标对象，上述第一目标对象的局部机体发生病变，第二子区域包含第二目标对象，上述第二目标对象为内脏器官；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行任意一项上述的图像处理方法。

根据本申请实施例的另一方面，还提供了一种图像处理设备，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

在本申请实施例中，采用定位输入图像中目标区域，并从目标区域中选取待聚焦区域的方式，通过获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

容易注意到的是，本申请实施例通过对输入图像进行识别，定位输入图像中的面部区域或手部区域，可以从面部区域或手部区域中选取用于显示待关注信息的待聚焦区域，进而可以通过聚焦的方式清晰展示上述待聚焦区域，达到了提高确定图像的目标区域的效率的目的，从而实现了清晰展示待聚焦区域的技术效果，进而解决了现有技术中的图像处理方案无法有效确定图像的待聚焦区域，导致难以对该待聚焦区域进行清晰展示的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种图像处理方法的流程图；

图3是根据本申请实施例的一种图像处理系统的结构示意图；

图4a是根据本申请实施例的一种持有物品状态的手部区域的示意图；

图4b是根据本申请实施例的另一种持有物品状态的手部区域的示意图；

图5是根据本申请实施例的另一种图像处理方法的流程图；

图6是根据本申请实施例的另一种图像处理方法的流程图；

图7是根据本申请实施例的另一种图像处理方法的流程图；

图8是根据本申请实施例的另一种图像处理方法的流程图；

图9是根据本申请实施例的一种图像处理装置的结构示意图；

图10是根据本申请实施例的另一种图像处理装置的结构示意图；

图11是根据本申请实施例的另一种图像处理装置的结构示意图；

图12是根据本申请实施例的一种图像处理设备的结构示意图；

图13是根据本申请实施例的另一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

SSD:single shot multibox detection，是指一种使用候选框的单阶段目标检测算法，在网络的前向运算中封装了定位和检测，从而限制提高了运算速度。

FCOS：FullyConvolutionalOne-StageObjectDetection，是指一种不使用候选框的单阶段目标检测算法，以逐像素预测的方式解决目标检测问题，类似于语义分割。

FasterRCNN：是指一种使用候选框的两阶段目标检测算法。

实施例1

根据本申请实施例，还提供了一种图像处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图，如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的图像处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的一种图像处理方法。图2是根据本申请实施例的一种图像处理方法的流程图，如图2所示，上述图像处理方法包括：

步骤S202，获取输入图像；

步骤S204，对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；

步骤S206，从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

在一种可选的实施例中，上述方法应用于网络直播场景，上述待聚焦区域用于显示商品推荐信息，其中，上述待关注信息即可以为主播在网络直播过程中向观众推荐的商品/产品等。

可选的，上述输入图像可以为直播视频图像，通过对上述待聚焦区域进行聚焦处理后，可以得到待输出图像，即待输出展示的直播视频图像。

作为一种可选的实施例，上述第一子区域为面部区域，上述第二子区域为手部区域。

需要说明的是，本申请实施例所提供的图像处理方法可以适用于在网络直播过程中，通过定位图像画面中的待聚焦区域，并在定位待聚焦区域之后通过聚焦的方式调节该待聚焦区域的清晰度的应用场景中，具体的，可以但不限于采用通过软件算法或者硬件驱动接口，调节待聚焦区域的清晰度。

以上述方法应用于网络直播场景为例，在本申请实施例中，可以首先定位输入图像中的目标区域，例如，主播的面部区域和/或手部区域；然后获取上述目标区域中的待聚焦区域。可选的，可以通过检测人脸位置、手部位置、手部姿态、手部状态的方式定位网络直播视频图像画面中的待聚焦区域的位置，例如，当检测到主播手部位于图像画面的中心区域，并且主播手部姿态呈现为抓握物品的姿态且保持一定时间时，则认为主播手中的物品区域为待聚焦区域；当监测的主播手部姿态呈现自然放置的姿态时，则认为待聚焦区域为主播的面部区域。

在网络直播的过程中，可以将直播视频图像画面作为输入图像，另外，输入图像中还可以携带有视频数据的其他信息，例如，时间戳信息。如图3所示，在获取上述输入图像之后，可以将输入图像送入人脸与人手检测模块，采用目标检测方式对上述输入图像进行目标检测，得到目标区域，并通过区域判别模块或者采用聚焦区域判别模型对上述目标区域进行分析，确定上述待聚焦区域。

在一种可选的实施例中，对上述输入图像进行目标检测，得到上述目标区域包括：

步骤S302，采用目标检测方式从上述输入图像检测出上述目标区域的位置信息和置信度信息。

在一种可选的实施例中，上述目标检测方式包括以下至少之一：使用候选框的单阶段目标检测方式(SSD)、未使用候选框的单阶段目标检测方式(FCOS)、使用候选框的两阶段目标检测方式(FasterRCNN)。

在另一种可选的实施例中，上述目标区域的位置信息包括：手部区域的第一位置r_hand、面部区域的第二位置r_face；上述目标区域的置信度信息包括：手部区域的第一置信度c_hand、面部区域的第二置信度c_face。

在一种可选的实施例中，上述目标区域的位置信息和置信度信息包括：第二子区域的第一位置和第一置信度，上述方法还包括：

步骤S402，当检测到上述第一位置并且上述第一置信度大于预设阈值时，从上述目标区域中获取上述第二子区域；

步骤S404，采用关键点检测方式对上述第二子区域进行手部姿态估计，得到第一估计结果；

步骤S406，采用分类判别方式对上述第二子区域进行手部状态估计，得到第二估计结果。

在上述可选的实施例中，当检测到手部区域的第一位置r_hand并且第一置信度c_hand大于预设阈值时，将手部区域的第一位置r_hand从输入图像中裁剪出，进行后续的手部姿态与手部状态估计计算，可选的，可以采用关键点检测方式对手部区域进行手部姿态估计，获得手部各关节的位置信息；采用分类判别方式对上述手部区域进行手部状态估计，可以判别手部区域是否处于以下至少之一状态：持有物品状态，展示物品状态，遮挡背景状态，自然放置状态。

作为一种可选的实施例，可以采用关键点检测方式对手部区域提取关键点，得到手部姿态估计，获得手部各关节的位置信息；并采用分类判别方式确定该手部区域当前所具备的手部状态，例如，确定如图4a和图4b所示的两种持有物品状态的手部区域。

作为一种可选的实施例，上述关键点检测方式，包括但不限于为实时多人姿态估计系统OpenPose、精准多人姿态估计系统alphapose等姿态估计方式；上述分类判别方式包括但不限于为深度残差网络resnet101、resnet50等网络分类判别方式。

作为一种可选的实施例，仍如图3所示，在采用人脸与手部区域检测模块对输入图像进行检测之后，如果检测到面部区域则直接将检测到的面部区域送入区域判别模块，以选取该面部区域中的待聚焦区域；如果检测到手部区域则采用手部姿态与状态估计模块估计手部姿态和手部状态之后，将所得到的第一估计结果和第二估计结果，送入区域判别模块以选取该手部部区域中的待聚焦区域；若未检测到面部区域和手部区域则将整个图像画面作为待聚焦区域。

其中，上述区域判别模块可以但不限于如下方法选取目标区域中的待聚焦区域：

在一种可选的实施例中，从上述目标区域中选取上述待聚焦区域包括：当从上述目标区域中检测到面部区域时，将上述面部区域选取为上述待聚焦区域。

在上述可选的实施中，如果从目标区域中仅检测到面部区域，例如，主播的人脸区域，则将上述面部区域选取为上述待聚焦区域。

在一种可选的实施例中，从上述目标区域中选取上述待聚焦区域包括：

步骤S502，当从上述目标区域中检测到第二子区域，并且基于上述第一估计结果和上述第二估计结果确定手部姿态与手部状态满足预设条件时，将上述第二子区域选取为上述待聚焦区域。

在上述可选的实施中，当从上述目标区域中仅检测到手部区域，则基于上述第一估计结果和上述第二估计结果，确定手部姿态与手部状态是否满足预设条件，例如，当检测到主播的手部状态呈现持有物品并且手部姿态为展示物品(未遮挡背景)的姿态，或者检测到主播的手部呈现持有物品并遮挡背景的状态，则将主播的手部选取为待聚焦区域。

步骤S602，当从上述目标区域中检测到第一子区域和第二子区域，并且基于上述第一估计结果和上述第二估计结果确定手部姿态与手部状态满足预设条件时，将上述第二子区域选取为上述待聚焦区域；

步骤S604，当从上述目标区域中检测到上述第一子区域和上述第二子区域，并且基于上述第一估计结果和上述第二估计结果确定上述手部姿态与上述手部状态未满足上述预设条件时，将上述第一子区域选取为上述待聚焦区域。

在上述可选的实施中，当从上述目标区域中同时检测到手部区域和面部区域时，如果检测到主播的手部状态呈现持有物品并且手部姿态为展示物品的姿态，或者检测到主播的手部呈现遮挡背景的状态，即确定手部姿态与手部状态满足预设条件，则将主播的手部选取为待聚焦区域；如果检测到主播的手部状态呈现自然放置状态，确定手部姿态与手部状态未满足预设条件，则将主播的面部选取为待聚焦区域。

需要说明的是，除上述情况之外，若未检测到面部区域和手部区域则将整个图像画面作为待聚焦区域。

在一种可选的实施例中，上述目标区域的位置信息和置信度信息包括：第二子区域的第一位置和第一置信度，第一子区域的第二位置和第二置信度，从上述目标区域中选取上述待聚焦区域包括：

步骤S702，采用聚焦区域判别模型对上述目标区域进行分析，确定上述待聚焦区域。

其中，上述聚焦区域判别模型是使用多组数据通过机器学习训练得到的模型，上述多组数据中的每组数据包括：训练图像、上述第一位置、上述第一置信度、上述第二位置、上述第二置信度、手部姿态、手部状态。

可选的，通过将训练图像、上述第一位置、上述第一置信度、上述第二位置、上述第二置信度、手部姿态、手部状态作为深度学习网络模型的输入数据，通过大量标注的数据进行网络学习得到聚焦区域判别模型，再通过将输入图像进行目标检测得到目标区域输入至该聚焦区域判别模型，采用聚焦区域判别模型对上述目标区域进行分析，确定上述待聚焦区域r_attention。

在一种可选的实施例中，上述方法还包括：

步骤S802，获取第一清晰度和第二清晰度，其中，上述第一清晰度为上述待聚焦区域的清晰度，上述第二清晰度为上述输入图像中除上述待聚焦区域之外其余区域的清晰度；

步骤S804，当上述第一清晰度低于上述第二清晰度时，调节上述待聚焦区域的聚焦状态，并输出调节后图像。

在上述可选的实施例中，如图3所示，可以采用区域清晰度调节模块对直播视频图像画面中的待聚焦区域r_attention进行清晰度调节，使该待聚焦区域清晰呈现在直播视频图像画面中，例如，可以首先计算待聚焦区域的第一清晰度p1，以及直播视频图像画面中除上述待聚焦区域之外其余区域的第二清晰度p2；并在检测到待聚焦区域的第一清晰度p1低于输入图像中其余区域第二清晰度p2时，则采用清晰度调节接口调节上述待聚焦区域的聚焦状态，使之清晰聚焦，并输出调节后图像。

在一种可选的实施例中，调节上述待聚焦区域的上述聚焦状态包括以下至少之一：驱动摄像头的调焦机构调节上述聚焦状态；对上述待聚焦区域进行清晰度增强计算，调节上述聚焦状态。

可选的，本申请实施例中采用清晰度调节接口调节上述待聚焦区域的聚焦状态的方式可以为一种或多种：当摄像头硬件具有软件驱动接口时，通过该软件驱动接口驱动摄像头的调焦机构，对上述待聚焦区域进行调焦处理，以实现提高待聚焦区域的清晰度；或者采用清晰度增强算法对上述待聚焦区域进行清晰度增强计算，调节上述聚焦状态，使待聚焦区域的清晰度得到增强。通过本申请上述实施例，在定位得到输入图像中的待聚焦区域之后，通过调节待聚焦区域的清晰度的方式，可以使得该待聚焦区域清晰呈现在直播视频图像画面中。

可选的，上述清晰度增强算法可以包括但不限于：Brenner梯度函数计算法，Laplacian梯度函数计算法等。

在上述运行环境下，本申请提供了如图5所示的另一种图像处理方法。图5是根据本申请实施例的另一种图像处理方法的流程图，如图5所示，上述图像处理方法包括：

步骤S902，从输入图像获取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；

步骤S904，对上述待聚焦区域的聚焦状态进行调节，得到待输出图像。

在本申请实施例中，采用定位输入图像中待聚焦区域，并对该待聚焦区域进行聚焦处理的方式，通过从输入图像获取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；对上述待聚焦区域的聚焦状态进行调节，得到待输出图像。

容易注意到的是，本申请实施例通过对输入图像进行识别，定位输入图像中用于显示待关注信息的待聚焦区域，对上述待聚焦区域的聚焦状态进行调节，得到待输出图像。进而可以通过聚焦的方式清晰展示上述待聚焦区域，达到了提高确定图像的目标区域的效率的目的，从而实现了清晰展示待聚焦区域的技术效果，进而解决了现有技术中的图像处理方案无法有效确定图像的待聚焦区域，导致难以对该待聚焦区域进行清晰展示的技术问题。

需要说明的是，通过本申请实施例所提供的图像处理方法，在网络直播过程中定位图像画面中的待聚焦区域，并在定位待聚焦区域之后，通过聚焦的方式对上述待聚焦区域的聚焦状态进行调节，得到待输出图像的场景中，具体的，可以但不限于采用通过软件算法或者硬件驱动接口，调节待聚焦区域的清晰度。

作为一种可选的实施例，可以采用定位输入图像中目标区域，并从目标区域中选取待聚焦区域的方式，通过获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：面部区域、手部区域；从上述目标区域中选取待聚焦区域。

在网络直播的过程中，可以将直播视频图像画面作为输入图像，另外，输入图像中还可以携带有视频数据的其他信息，例如，时间戳信息。

作为一种可选的实施例，在获取上述输入图像之后，采用目标检测方式对上述输入图像进行目标检测，得到目标区域，可以通过如图3所示的区域判别模块对上述目标区域进行分析，或者采用聚焦区域判别模型对上述目标区域进行分析，确定上述待聚焦区域。

在一种可选的实施例中，上述方法还包括：获取第一清晰度和第二清晰度，其中，上述第一清晰度为上述待聚焦区域的清晰度，上述第二清晰度为上述输入图像中除上述待聚焦区域之外其余区域的清晰度；当上述第一清晰度低于上述第二清晰度时，调节上述待聚焦区域的聚焦状态，得到待输出图像。

在上述可选的实施例中，可以采用区域清晰度调节模块对直播视频图像画面中的待聚焦区域r_attention进行清晰度调节，使该待聚焦区域清晰呈现在直播视频图像画面中，例如，可以首先计算待聚焦区域的第一清晰度p1，以及直播视频图像画面中除上述待聚焦区域之外其余区域的第二清晰度p2；并在检测到待聚焦区域的第一清晰度p1低于输入图像中其余区域第二清晰度p2时，则采用清晰度调节接口调节上述待聚焦区域的聚焦状态，使之清晰聚焦，得到待输出图像。

可选的，本申请实施例中采用清晰度调节接口调节上述待聚焦区域的聚焦状态的方式可以为一种或多种：当摄像头硬件具有软件驱动接口时，通过该软件驱动接口驱动摄像头的调焦机构，对上述待聚焦区域进行调焦处理，以实现提高待聚焦区域的清晰度；或者采用清晰度增强算法对上述待聚焦区域进行清晰度增强计算，调节上述聚焦状态，使待聚焦区域的清晰度得到增强。

在上述运行环境下，本申请提供了如图6所示的另一种图像处理方法。图6是根据本申请实施例的另一种图像处理方法的流程图，如图6所示，上述图像处理方法包括：

步骤S1002，获取第一图像；

步骤S1004，从上述第一图像中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；

步骤S1006，对上述待聚焦区域的聚焦状态进行调节，得到第二图像；

步骤S1008，输出上述第二图像。

可选的，上述第一图像可以为输入图像，例如，直播视频图像，上述第二图像为对上述待聚焦区域进行聚焦处理后得到的待输出图像，例如，聚焦处理后得到的待输出展示的直播视频图像。

在本申请实施例中，采用定位输入图像中待聚焦区域，并对该待聚焦区域进行聚焦处理的方式，通过从输入图像获取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；对上述待聚焦区域的聚焦状态进行调节，得到待输出图像，并将该待输出图像输出进行展示。

容易注意到的是，本申请实施例通过对输入图像进行识别，定位输入图像中用于显示待关注信息的待聚焦区域，对上述待聚焦区域的聚焦状态进行调节，得到待输出图像，进而可以通过聚焦的方式清晰展示上述待聚焦区域，达到了提高确定图像的目标区域的效率的目的，从而实现了清晰展示待聚焦区域的技术效果，进而解决了现有技术中的图像处理方案无法有效确定图像的待聚焦区域，导致难以对该待聚焦区域进行清晰展示的技术问题。

作为一种可选的实施例，可以采用定位输入图像中目标区域，并从目标区域中选取待聚焦区域的方式，通过获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；从上述目标区域中选取待聚焦区域。

在网络直播的过程中，可以将直播视频图像画面作为输入图像，另外，输入图像中还可以携带有视频数据的其他信息，例如，时间戳信息。在获取上述输入图像之后，可以将输入图像送入人脸与人手检测模块，采用目标检测方式对上述输入图像进行目标检测，得到目标区域，并通过区域判别模块或者采用聚焦区域判别模型对上述目标区域进行分析，确定上述待聚焦区域。

在上述运行环境下，本申请提供了如图7所示的一种图像处理方法，图7是根据本申请实施例的又一种图像处理方法的流程图，如图7所示，上述图像处理方法包括：

步骤S1102，获取输入图像；

步骤S1104，对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域包含第一目标对象，上述第一目标对象具有生命体征，第二子区域包含第二目标对象，上述第二目标对象不具有生命体征且上述第二目标对象为上述第一目标对象的操作对象；

步骤S1106，从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

在一种可选的实施例中，上述方法应用于工业场景，上述待聚焦区域用于显示设备信息，其中，上述待关注信息即可以为在工业过程中制作的设备。

可选的，上述输入图像为工业视频图像，上述第一子区域为人，上述第二子区域为设备，上述第一目标对象为手部，第二目标对象为手部所持设备，例如，商品、货品等。

需要说明的是，通过本申请实施例所提供的图像处理方法，在工业制备过程中定位图像画面中的待聚焦区域，并在定位待聚焦区域之后，通过聚焦的方式对上述待聚焦区域的聚焦状态进行调节，得到待输出图像的场景中，具体的，可以但不限于采用通过软件算法或者硬件驱动接口，调节待聚焦区域的清晰度。

作为一种可选的实施例，可以采用定位输入图像中目标区域，并从目标区域中选取待聚焦区域的方式，通过获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域包含第一目标对象，上述第一目标对象具有生命体征，第二子区域包含第二目标对象，上述第二目标对象不具有生命体征且上述第二目标对象为上述第一目标对象的操作对象；从上述目标区域中选取待聚焦区域。

以上述方法应用于工业场景为例，在本申请实施例中，可以首先定位输入图像中的目标区域，例如，工人的面部区域和/或手部区域；然后获取上述目标区域中的待聚焦区域。

可选的，可以通过检测手部区域、手部姿态、手部状态的方式定位工业视频图像画面中的待聚焦区域的位置，例如，当检测到工人的手部区域位于图像画面的中心区域，并且工人的手部(第一目标对象)的姿态呈现为抓握物品(第二目标对象)的姿态且保持一定时间时，则认为工人手中的设备为待聚焦区域。

作为一种可选的实施例中，可以将工业图像画面作为输入图像，另外，输入图像中还可以携带有视频数据的其他信息，例如，时间戳信息。在获取上述输入图像之后，可以将输入图像送入人脸与人手检测模块，采用目标检测方式对上述输入图像进行目标检测，得到目标区域，并通过区域判别模块或者采用聚焦区域判别模型对上述目标区域进行分析，确定上述待聚焦区域。

容易注意到的是，本申请实施例通过对上述输入图像进行目标检测，得到目标区域，从上述目标区域中选取待聚焦区域，达到了提高确定图像的目标区域的效率的目的，从而实现了清晰展示待聚焦区域的技术效果，进而解决了现有技术中的图像处理方案无法有效确定图像的待聚焦区域，导致难以对该待聚焦区域进行清晰展示的技术问题。

在上述运行环境下，本申请提供了如图8所示的一种图像处理方法，图8是根据本申请实施例的又一种图像处理方法的流程图，如图8所示，上述图像处理方法包括：

步骤S1202，获取输入图像；

步骤S1204，对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域包含第一目标对象，上述第一目标对象的局部机体发生病变，第二子区域包含第二目标对象，上述第二目标对象为内脏器官；

步骤S1206，从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

可选的，上述输入图像为医疗视频图像，第一子区域为病灶区域，第二子区域为脏器区域，上述第一目标对象的局部机体发生病变，上述第二目标对象为脏器区域的内脏器官。

在一种可选的实施例中，上述方法应用于医疗AI场景，上述待聚焦区域用于显示设备信息，其中，上述待关注信息即可以为待关注的内脏器官。

需要说明的是，通过本申请实施例所提供的图像处理方法，在医治病人的过程中定位图像画面中的待聚焦区域，并在定位待聚焦区域之后，通过聚焦的方式对上述待聚焦区域的聚焦状态进行调节，得到待输出图像的场景中，具体的，可以但不限于采用通过软件算法或者硬件驱动接口，调节待聚焦区域的清晰度。

作为一种可选的实施例，可以采用定位输入图像中目标区域，并从目标区域中选取待聚焦区域的方式，通过获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域包含第一目标对象，上述第一目标对象的局部机体发生病变，第二子区域包含第二目标对象，上述第二目标对象为内脏器官；从上述目标区域中选取待聚焦区域。

作为一种可选的实施例中，可以将医疗图像画面作为输入图像，另外，输入图像中还可以携带有视频数据的其他信息，例如，时间戳信息。在获取上述输入图像之后，可以将输入图像送入人脸与人手检测模块，采用目标检测方式对上述输入图像进行目标检测，得到目标区域，并通过区域判别模块或者采用聚焦区域判别模型对上述目标区域进行分析，确定上述待聚焦区域。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例上述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述图像处理方法的装置实施例，图9是根据本申请实施例的一种图像处理装置的结构示意图，如图9所示，该装置包括：第一获取模块70、检测模块72和第一选取模块74，其中：

第一获取模块70，用于获取输入图像；检测模块72，用于对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；第一选取模块74，用于从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

此处需要说明的是，上述第一获取模块70、检测模块72和第一选取模块74对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本申请实施例，还提供了另一种用于实施上述图像处理方法的装置实施例，图10是根据本申请实施例的另一种图像处理装置的结构示意图，如图10所示，该装置包括：第二获取模块80和第一调节模块82，其中：

第二获取模块80，用于从输入图像获取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；第一调节模块82，用于对上述待聚焦区域的聚焦状态进行调节，得到待输出图像。

此处需要说明的是，上述第二获取模块80和第一调节模块82对应于实施例1中的步骤S902至步骤S904，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本申请实施例，还提供了另一种用于实施上述图像处理方法的装置实施例，图11是根据本申请实施例的另一种图像处理装置的结构示意图，如图11所示，该装置包括：第三获取模块90、第二选取模块92、第二调节模块94和输出模块96，其中：

第三获取模块90，用于获取第一图像；第二选取模块92，用于从上述第一图像中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；第二调节模块94，用于调节模块对上述待聚焦区域的聚焦状态进行调节，得到第二图像；输出模块96，用于输出上述第二图像。

此处需要说明的是，上述第三获取模块90、第二选取模块92、第二调节模块94和输出模块96对应于实施例1中的步骤S1002至步骤S1008，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

还需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本申请实施例，还提供了一种图像处理设备的实施例，该图像处理设备可以是计算设备群中的任意一个计算设备。图12是根据本申请实施例的一种图像处理设备的结构示意图，如图12所示，该图像处理设备包括：处理器1000和存储器1002，其中：

处理器1000；以及存储器1002，与上述处理器1000连接，用于为上述处理器提供处理以下处理步骤的指令：获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

容易注意到的是，本申请实施例通过对输入图像进行识别，定位输入图像中的第一子区域或第二子区域，可以从第一子区域或第二子区域中选取用于显示待关注信息的待聚焦区域，进而可以通过聚焦的方式清晰展示上述待聚焦区域，达到了提高确定图像的目标区域的效率的目的，从而实现了清晰展示待聚焦区域的技术效果，进而解决了现有技术中的图像处理方案无法有效确定图像的待聚焦区域，导致难以对该待聚焦区域进行清晰展示的技术问题。

实施例4

根据本申请的实施例，还提供了一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行图像处理方法中以下步骤的程序代码：获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

可选地，图13是根据本申请实施例的另一种计算机终端的结构框图，如图13所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器1102、存储器1104、以及外设接口1106。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的图像处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

可选的，上述处理器还可以执行如下步骤的程序代码：采用目标检测方式从上述输入图像检测出上述目标区域的位置信息和置信度信息。

可选的，上述处理器还可以执行如下步骤的程序代码：使用候选框的单阶段目标检测方式、未使用候选框的单阶段目标检测方式、使用候选框的两阶段目标检测方式。

可选的，上述处理器还可以执行如下步骤的程序代码：当检测到上述第一位置并且上述第一置信度大于预设阈值时，从上述目标区域中获取上述第二子区域；采用关键点检测方式对上述第二子区域进行手部姿态估计，得到第一估计结果；采用分类判别方式对上述第二子区域进行手部状态估计，得到第二估计结果。

可选的，上述处理器还可以执行如下步骤的程序代码：当从上述目标区域中检测到第一子区域时，将上述第一子区域选取为上述待聚焦区域。

可选的，上述处理器还可以执行如下步骤的程序代码：当从上述目标区域中检测到第二子区域，并且基于上述第一估计结果和上述第二估计结果确定手部姿态与手部状态满足预设条件时，将上述第二子区域选取为上述待聚焦区域。

可选的，上述处理器还可以执行如下步骤的程序代码：当从上述目标区域中检测到第一子区域和第二子区域，并且基于上述第一估计结果和上述第二估计结果确定手部姿态与手部状态满足预设条件时，将上述第二子区域选取为上述待聚焦区域；当从上述目标区域中检测到上述第一子区域和上述第二子区域，并且基于上述第一估计结果和上述第二估计结果确定上述手部姿态与上述手部状态未满足上述预设条件时，将上述第一子区域选取为上述待聚焦区域。

可选的，上述处理器还可以执行如下步骤的程序代码：采用聚焦区域判别模型对上述目标区域进行分析，确定上述待聚焦区域，其中，上述聚焦区域判别模型是使用多组数据通过机器学习训练得到的模型，上述多组数据中的每组数据包括：训练图像、上述第一位置、上述第一置信度、上述第二位置、上述第二置信度、手部姿态、手部状态。

可选的，上述处理器还可以执行如下步骤的程序代码：获取第一清晰度和第二清晰度，其中，上述第一清晰度为上述待聚焦区域的清晰度，上述第二清晰度为上述输入图像中除上述待聚焦区域之外其余区域的清晰度；当上述第一清晰度低于上述第二清晰度时，调节上述待聚焦区域的聚焦状态，并输出调节后图像。

可选的，上述处理器还可以执行如下步骤的程序代码：驱动摄像头的调焦机构调节上述聚焦状态；对上述待聚焦区域进行清晰度增强计算，调节上述聚焦状态。

可选的，上述处理器还可以执行如下步骤的程序代码：从输入图像获取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；对上述待聚焦区域的聚焦状态进行调节，得到待输出图像。

可选的，上述处理器还可以执行如下步骤的程序代码：获取第一图像；从上述第一图像中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；对上述待聚焦区域的聚焦状态进行调节，得到第二图像；输出上述第二图像。

采用本申请实施例，采用定位输入图像中目标区域，并从目标区域中选取待聚焦区域的方式，通过获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

本领域普通技术人员可以理解，图13所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图13所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读非易失性存储介质中，非易失性存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

实施例5

根据本申请的实施例，还提供了一种非易失性存储介质的实施例。可选地，在本申请实施例中，上述非易失性存储介质可以用于保存上述实施例1中所提供的图像处理方法所执行的程序代码。

可选地，在本实施例中，上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：获取输入图像；对上述输入图像进行目标检测，得到目标区域，其中，上述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；从上述目标区域中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：从输入图像获取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；对上述待聚焦区域的聚焦状态进行调节，得到待输出图像。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：获取第一图像；从上述第一图像中选取待聚焦区域，其中，上述待聚焦区域用于显示待关注信息；对上述待聚焦区域的聚焦状态进行调节，得到第二图像；输出上述第二图像。

可选地，在本实施例中，非易失性存储介质被设置为存储用于执行以下步骤的程序代码：

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的非易失性存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取输入图像；

对所述输入图像进行目标检测，得到目标区域，其中，所述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域与第二子区域分别对应不同的人体部位；

从所述目标区域中选取待聚焦区域，其中，所述待聚焦区域用于显示待关注信息。

2.根据权利要求1所述的方法，其特征在于，对所述输入图像进行目标检测，得到所述目标区域包括：

采用目标检测方式从所述输入图像检测出所述目标区域的位置信息和置信度信息。

3.根据权利要求2所述的方法，其特征在于，所述目标检测方式包括以下至少之一：

使用候选框的单阶段目标检测方式、未使用候选框的单阶段目标检测方式、使用候选框的两阶段目标检测方式。

4.根据权利要求2所述的方法，其特征在于，所述目标区域的位置信息和置信度信息包括：第二子区域的第一位置和第一置信度，所述方法还包括：

当检测到所述第一位置并且所述第一置信度大于预设阈值时，从所述目标区域中获取所述第二子区域；

采用关键点检测方式对所述第二子区域进行手部姿态估计，得到第一估计结果；

采用分类判别方式对所述第二子区域进行手部状态估计，得到第二估计结果。

5.根据权利要求1所述的方法，其特征在于，从所述目标区域中选取所述待聚焦区域包括：

当从所述目标区域中检测到第一子区域时，将所述第一子区域选取为所述待聚焦区域。

6.根据权利要求4所述的方法，其特征在于，从所述目标区域中选取所述待聚焦区域包括：

当从所述目标区域中检测到所述第二子区域，并且基于所述第一估计结果和所述第二估计结果确定所述手部姿态与所述手部状态满足预设条件时，将所述第二子区域选取为所述待聚焦区域。

7.根据权利要求4所述的方法，其特征在于，从所述目标区域中选取所述待聚焦区域包括：

当从所述目标区域中检测到第一子区域和第二子区域，并且基于所述第一估计结果和所述第二估计结果确定所述手部姿态与所述手部状态满足预设条件时，将所述第二子区域选取为所述待聚焦区域；

当从所述目标区域中检测到所述第一子区域和所述第二子区域，并且基于所述第一估计结果和所述第二估计结果确定所述手部姿态与所述手部状态未满足所述预设条件时，将所述第一子区域选取为所述待聚焦区域。

8.根据权利要求1所述的方法，其特征在于，所述目标区域的位置信息和置信度信息包括：第二子区域的第一位置和第一置信度，第一子区域的第二位置和第二置信度，从所述目标区域中选取所述待聚焦区域包括：

采用聚焦区域判别模型对所述目标区域进行分析，确定所述待聚焦区域，其中，所述聚焦区域判别模型是使用多组数据通过机器学习训练得到的模型，所述多组数据中的每组数据包括：训练图像、所述第一位置、所述第一置信度、所述第二位置、所述第二置信度、手部姿态、手部状态。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第一清晰度和第二清晰度，其中，所述第一清晰度为所述待聚焦区域的清晰度，所述第二清晰度为所述输入图像中除所述待聚焦区域之外其余区域的清晰度；

当所述第一清晰度低于所述第二清晰度时，调节所述待聚焦区域的聚焦状态，并输出调节后图像。

10.根据权利要求9所述的方法，其特征在于，调节所述待聚焦区域的所述聚焦状态包括以下至少之一：

驱动摄像头的调焦机构调节所述聚焦状态；

对所述待聚焦区域进行清晰度增强计算，调节所述聚焦状态。

11.根据权利要求1所述的方法，其特征在于，所述方法应用于网络直播场景，所述待聚焦区域用于显示商品推荐信息。

12.根据权利要求1所述的方法，其特征在于，所述第一子区域为面部区域，所述第二子区域为手部区域。

13.一种图像处理方法，其特征在于，包括：

从输入图像获取待聚焦区域，其中，所述待聚焦区域用于显示待关注信息；

对所述待聚焦区域的聚焦状态进行调节，得到待输出图像。

14.一种图像处理方法，其特征在于，包括：

获取第一图像；

从所述第一图像中选取待聚焦区域，其中，所述待聚焦区域用于显示待关注信息；

对所述待聚焦区域的聚焦状态进行调节，得到第二图像；

输出所述第二图像。

15.一种图像处理方法，其特征在于，包括：

获取输入图像；

对所述输入图像进行目标检测，得到目标区域，其中，所述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域包含第一目标对象，所述第一目标对象具有生命体征，第二子区域包含第二目标对象，所述第二目标对象不具有生命体征且所述第二目标对象为所述第一目标对象的操作对象；

16.一种图像处理方法，其特征在于，包括：

获取输入图像；

对所述输入图像进行目标检测，得到目标区域，其中，所述目标区域包括以下至少之一：第一子区域、第二子区域，第一子区域包含第一目标对象，所述第一目标对象的局部机体发生病变，第二子区域包含第二目标对象，所述第二目标对象为内脏器官；

17.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至16中任意一项所述的图像处理方法。

18.一种图像处理设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

获取输入图像；