CN115423728A

CN115423728A - 一种图像处理方法、装置及系统

Info

Publication number: CN115423728A
Application number: CN202110522515.8A
Authority: CN
Inventors: 马琳杰; 张振铎; 刘帅帅; 唐至威; 杨雪洁; 顾庆涛; 矫佩佩; 孙萁浩; 高雪松; 陈维强
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2022-12-02

Abstract

本申请公开了提供了一种图像处理方法、装置及系统，用以实现将分割人像合成到电视的同一画面中，解决多人视频通话过程中一屏多框的违和感，给予用户更加贴近现实的互动健身效果，增强用户体验。本申请提供的方法包括：获取本地图像采集设备提供的采集图像，并基于所述采集图像确定本地用户的用户图像信息；利用所述本地用户的用户图像信息，以及互动用户的用户图像信息，进行图像合成，得到合成后的图像，其中所述用户图像信息包括人像掩膜图像和人体框红绿蓝RGB图像。

Description

一种图像处理方法、装置及系统

技术领域

本申请涉及图像技术领域，尤其涉及一种图像处理方法、装置及系统。

背景技术

目前在家庭中利用电视进行健身都是利用电视中的AI健身功能，虽然有专业健身训练动作库和体感动作捕捉技术来指导健身，但在家中一个人健身练习太枯燥乏味，缺乏在健身时多人参与、交流、互动的感觉。

发明内容

本申请实施例提供了一种图像处理方法、装置及系统，用以实现将分割人像合成到电视的同一画面中，解决多人视频通话过程中一屏多框的违和感，给予用户更加贴近现实的互动健身效果，增强用户体验。

本申请实施例提供的一种图像处理方法，包括：

获取本地图像采集设备提供的采集图像，并基于所述采集图像确定本地用户的用户图像信息；

利用所述本地用户的用户图像信息，以及互动用户的用户图像信息，进行图像合成，得到合成后的图像，其中所述用户图像信息包括人像掩膜图像和人体框红绿蓝RGB图像。

通过该方法获取本地图像采集设备提供的采集图像，并基于所述采集图像确定本地用户的用户图像信息；利用所述本地用户的用户图像信息，以及互动用户的用户图像信息，进行图像合成，得到合成后的图像，其中所述用户图像信息包括人像掩膜图像和人体框红绿蓝RGB图像，从而实现基于人像掩膜图像和人体框红绿蓝RGB图像，将分割人像合成到电视的同一画面中，有效的解决了多人视频通话过程中一屏多框的违和感，给予用户更加贴近现实的互动健身效果，增强了用户体验。

可选地，该方法还包括：

利用所述RGB图像对应的深度图像，调整本地用户和/或互动用户的图像采集设备的变焦倍数。

通过调整本地用户和/或互动用户的图像采集设备的变焦倍数，从而进一步实现了基于人像自适应调整的互动健身，实现了合成人像的自适应调整，很好的解决了图像合成后不同用户人像大小不同的问题。因此，本申请实施例提供了一种更贴近真实，用户在各自家庭中能实现同步在线互动健身的方案，进一步增强了用户体验。

可选地，利用所述RGB图像对应的深度图像，调整本地用户的图像采集设备的变焦倍数，具体包括：

利用本地用户的RGB图像对应的深度图像，确定本地用户与本地图像采集设备的距离；

通过将所述距离与预设值进行比较，确定本地用户的图像采集设备的变焦倍数。

可选地，通过将所述距离与预设值进行比较，确定本地用户的图像采集设备的变焦倍数，具体包括：

若所述距离大于预设值，则利用距离与预设值的差值得到放大的变焦倍数，发送到本地用户的图像采集设备实现对应变焦倍数的放大；

若距离小于预设值，则利用预设值与距离的差值得到缩小的变焦倍数，发送到本地用户的图像采集设备实现对应变焦倍数的缩小。

可选地，基于所述采集图像确定本地用户的用户图像信息之前，该方法还包括：通过人脸识别，识别本地用户。

可选地，该方法还包括：

当通过人脸识别，确定存在多个本地用户时，提示用户选择当前本地用户；

根据用户指令，确定当前本地用户。

因此，本申请实施例采用人脸识别算法识别出要健身的用户，防止家庭其他成员的“入境”问题。

可选地，所述互动用户的用户图像信息，是通过云端服务器获取的；或者，从云端服务器获取互动用户的采集图像，并通过本地家庭边缘服务器基于该互动用户的采集图像，确定所述互动用户的用户图像信息。

相应地，本申请实施例提供的一种图像处理装置，包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序执行上述任一种方法。

本申请实施例提供的一种图像处理系统，包括所述的图像处理装置，以及图像采集设备、智能电视。

本申请另一实施例提供了一种计算设备，其包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序执行上述任一种方法。

本申请另一实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行上述任一种方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种图像处理系统的结构示意图；

图2为本申请实施例提供的一种图像处理的整体流程示意图；

图3为本申请实施例提供的图像采集示意图；

图4为本申请实施例提供的健身用户A的家庭电视显示画面示意图；

图5为本申请实施例提供的一种人像自适应调整方法的流程示意图；

图6为本申请实施例提供的人像自适应调整后健身用户人像合成后的显示效果示意图；

图7为本申请实施例提供的一种图像处理方法的流程示意图；

图8为本申请实施例提供的一种图像处理装置的结构示意图；

图9为本申请实施例提供的一种图像处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

本申请实施例利用人脸信息注册和人脸识别算法识别出要健身的用户，采用人体检测对健身用户进行裁剪，采用人像分割和合成算法实现多人互动健身，同时采用以图像深度信息控制光学变焦相机自动调焦，从而实现合成人像的自适应调整，很好的解决了图像合成后不同用户人像大小不同的问题。因此，本申请实施例提供了一种更贴近真实，用户在各自家庭中能实现同步在线互动健身的方案。具体地：

采用人脸信息注册和人脸识别算法识别出要健身的用户，防止家庭其他成员的“入境”问题，采用人体检测算法裁剪出健身用户，从而提高人像分割效果；

基于人像分割算法分割健身用户的人像，并将分割人像合成到电视的同一画面中，有效的解决了多人视频通话过程中一屏多框的违和感，给予用户更加贴近现实的互动健身体验；

针对各家庭中用户与光学变焦相机的距离不同，导致合成后人像大小不同的问题，提出一种用户人像自适应调整方法，实现对人像的自动变焦，自适应调整人像大小。

下面结合说明书附图对本申请各个实施例进行详细描述。需要说明的是，本申请实施例的展示顺序仅代表实施例的先后顺序，并不代表实施例所提供的技术方案的优劣。

当前在家庭中进行健身练习大部分都是利用电视中健身训练动作库，独自一人在家中练习。这种单人健身方式太枯燥乏味，缺乏多人互动健身的乐趣。此外，如果采用视频通话的方式进行互动健身，就会存在一屏多框的违和感，使互动健身的体验效果大幅降低。但采用人像分割和合成的方法时，就会存在当用户与光学变焦相机的距离不同时，合成后人像大小不同的问题。

本申请实施例以人脸信息注册、人脸识别算法为基础解决其他家庭人员“入镜”问题，之后以人像分割和合成算法为基础实现大屏电视的多人互动健身，同时采用一种以图像深度信息来控制光学变焦相机自动调焦，实现合成人像的自适应调整。从而在日益忙碌的生活中，实现多个家庭同时在线进行互动健身的新方案。不仅满足了用户在家健身的需求，还实现了好友间的互动健身，给予健身用户更加贴近现实的互动健身体验(本申请实施例提供的技术方案，不限于用户健身应用，也可以是其他方面的应用场景)。

针对当前问题，本申请实施例提出的一种基于人像自适应调整的家庭大屏电视互动健身实现方案，其涉及的系统结构如图1所示，该方案硬件设备包括光学变焦相机、智能电视、家庭边缘服务器和云端服务器。

本申请实施例中，光学变焦相机、家庭边缘服务器、智能电视，可以集成到一起，作为一个设备，也可以分别单独设置，作为不同的设备。每一用户侧分别设置有光学变焦相机、家庭边缘服务器、智能电视，不同用户间通过云端服务器交互图像、语音等数据。光学变焦相机、家庭边缘服务器、智能电视可以相互之间都建立连接，也可以如图1所示的连接方式建立连接，具体的连接方式本申请实施例并不进行限制。

本申请实施例中，以多个家庭的健身用户处在视频通话场景下为例，光学变焦相机，用于采集健身用户的实时音/视频数据。智能电视为显示设备，用于显示不同健身用户人像的实时视频画面。家庭边缘服务器作为处理中心，提供包含人脸识别、人体检测、人像分割与合成等算法，负责边缘计算和数据处理、存储等。云端服务器是一种视频分发云，支持视频流的上传和下拉。

方案流程：

本申请实施例提供的图像处理流程如图2所示。

为了便于说明，本申请实施例以两人互动健身为例进行介绍。健身用户A和健身用户B家中分别有一套上述硬件设备(光学变焦相机、家庭边缘服务器、智能电视)。当通过智能电视等设备开启互动健身应用后，光学变焦相机采集健身用户的实时音/视频数据，并传输给家庭边缘服务器，家庭边缘服务器采用人脸注册系统采集健身用户的人脸信息；之后，各自家庭中的光学变焦相机分别采集健身用户A和B的视频图像，并将采集的视频图像传输到各家的家庭边缘服务器中，家庭边缘服务器首先采用人脸识别算法识别要健身的用户，利用人体检测算法裁剪出健身用户的人体框，之后使用人像分割算法获取每一帧中的人像mask图(即掩模图，人像区域为白色，非人像区域为黑色)，将人像mask图和裁剪出健身用户的人体框红绿蓝(RGB)图像传到云端服务器，通过云端服务器将当前人体框RGB图像及对应的人像mask图发送至对方家庭边缘服务器(健身用户A的当前人体框RGB图像和人像mask图发送到健身用户B的家庭边缘服务器，健身用户B的当前人体框RGB图像和人像mask图发送到健身用户A的家庭边缘服务器)，各自家庭的家庭边缘服务器将用户A和用户B的图像进行人像合成。当合成后的健身用户人像过大或过小时，利用家庭边缘服务器中的深度估计算法得到的深度信息控制光学变焦相机进行自动变焦，从而实现人像大小的自适应调整，最后在电视端呈现和谐的互动健身画面。

步骤1.人脸注册与音/视频采集：

当健身用户通过智能电视或与之连接的手机等设备开启互动健身应用后，会通过家庭边缘服务器采用人脸注册系统采集健身用户的人脸信息，当家庭中所有人员都注册了人脸信息，可以选择本次要健身的用户A，从而实现在本次健身过程中只识别分割健身用户A的图像。

如图3所示，光学变焦相机采集健身用户A家庭中的音/视频画面，但采集过程中有家庭其他人员“入镜”，此时光学变焦相机采集的视频图像中包含多个人，因此会将采集的多人视频图像传输到家庭边缘服务器中。

步骤2.人脸识别、人体检测和人像分割：

家庭边缘服务器作为中控设备，集成了人脸识别、分割和合成算法，负责边缘计算和数据处理。在上述步骤1中，由于家庭其他人员“入镜”会影响用户的健身体验，采用在家庭边缘服务器中集成的人脸识别算法进行健身用户A的识别。当只有健身用户A进行了人脸注册，或家庭中所有人员都注册了人脸信息，但本次健身应用开启时用户仅选择了健身用户A时，则人脸识别算法只识别用户A，从而可以有效解决其他家庭人员“入镜”问题，给予用户更好的健身体验。也就是说，本申请实施例中提供的互动健身应用的用户界面，可以提供用户选择当前健身的用户，以便排除其他用户的干扰画面。具体的应用可以由智能电视、手机等具有显示交互等功能的设备提供，也可以由家庭边缘服务器提供，但用户界面通过智能电视输出显示给用户，用户可以通过手机、遥控器、智能电视触屏等实现对用户界面的操作，具体的应用实现方式，本申请实施例不进行限制。

当人脸识别算法识别出用户A后，家庭边缘服务器采用预先训练好的yolov5模型对用户A进行人体检测，直接采用原始图像进行分割，可以提高人像分割效果。模型的输出为[x,y,w,h]，即裁剪完的人体框。其中x、y分别为裁剪的人体框的左上角的横坐标和纵坐标，w为裁剪人体框宽度，h为裁剪人体框高度。

利用人像分割算法对裁剪的人体框图像进行分割。以单帧图像进行分割为例，健身用户A的人像框图像以RGB图像输入得到分割算法中，利用训练好的人像分割模型对RGB图像(光学变焦相机采集的图像为RGB图像)进行处理，获得人像分割模型输出的人像mask。将人像mask图和裁剪出的健身用户的人体框RGB图像传到云端服务器，通过云端服务器将当前人体框RGB图像及对应的人像mask图发送至对方家庭边缘服务器。

步骤3.基于人像自适应调整的人像合成：

此时在A的家庭边缘服务器中存在背景图(需要将A和B合成到背景图中)、人像A的RGB图、人像A的mask图、人像B的RGB图、人像B的mask图，家庭边缘服务器可以利用人像合成算法进行人像合成。

但此时可能因为健身用户A与光学变焦相机的距离较近，健身用户B与光学变焦相机的距离较选，导致合成后人像比例差别较大，导致在视觉上有不和谐的效果，如图4所示，用户A比用户B的图像大很多。

为了解决上述问题，本申请实施例采用了一种基于图像深度信息控制光学变焦镜头变焦的人像自适应调整的方法，如图5所示，具体地：

光学变焦相机采集健身用户的RGB图像，输入到家庭边缘服务器中，利用集成的基于Unet的深度估计网络预测出其对应的深度图像。该深度图像可以得到RGB图像中每一个像素点对应的物体与光学变焦相机的距离，同时利用步骤2人像分割得到的健身用户的人像mask图与健身用户的RGB图像进行比配，从而确定健身用户的人像在RGB图像中的像素位置。并根据预测出的深度图像，可以精确的得到健身用户与光学变焦相机的距离d。

预先设定当人像与光学变焦相机的距离为x时，人像在电视画面中展现出最佳比例大小。此时健身用户与光学变焦相机的距离d会与设定的最佳距离x进行比较。当距离d不等于x时，依据两者距离的差值和对应缩放的变焦比例，家庭边缘服务器中的Xavier智能计算模块会以socket等形式发送给光学变焦相机对应的变焦倍数，实现光学变焦相机对用户画面的自动调焦。

以图4中健身用户A家庭电视显示画面为例进行人像大小自适应调整进行详细介绍。画面中健身用户A由于距离光学变焦相机较近，导致人像较大且得到与光学变焦相机的距离d小于x，依据x-d的距离得到缩小的变焦倍数，发送到光学变焦相机实现对应变焦倍数的缩小。同理，健身用户B由于距离光学变焦相机较远，导致人像较小且得到与光学变焦相机的距离d大于x，依据d-x的距离得到放大的变焦倍数，发送到光学变焦相机实现对应变焦倍数的放大。

最终经过人像自适应调整后合成画面如图6所示。该互动健身方法实现了不同家庭健身用户显示在同一画面中，打破了基于视频通话过程中一屏多框的违和感，使互动健身的体验显著增加。

另外，本申请实施例并不限于上述自动变焦的控制方法，例如还可以按照一个用户与光学变焦相机的距离，调整其他用户的光学变焦相机的变焦倍数，即一其中一个用户图像为标准，对其他用户的图像大小进行调整，同样可以将互动的多个用户的图像大小调整一致，或者相差在预设范围内，看上去比较和谐，具体调整方法，本申请实施例不进行限制。

参见图7，在家庭边缘服务器侧，本申请实施例提供的一种图像处理方法，包括：

S101、获取本地图像采集设备提供的采集图像，并基于所述采集图像确定本地用户的用户图像信息；

其中，所述图像采集设备，例如是上述的光学变焦相机。

所述用户图像信息，例如包括上述的人像mask图像和人体框RGB图像。

本步骤例如光学变焦相机采集用户图像，送入家庭边缘服务器，由家庭边缘服务器基于采集图像，得到用户的人像mask图像和人体框RGB图像。

S102、利用所述本地用户的用户图像信息，以及互动用户的用户图像信息，进行图像合成，得到合成后的图像，其中所述用户图像信息包括人像掩膜图像和人体框红绿蓝RGB图像。

其中，互动用户的用户图像信息也可以包括互动用户的人像mask图像和人体框RGB图像。

本步骤例如，本地用户的家庭边缘服务器，通过云端服务器获取互动用户的人像mask图像和人体框RGB图像，并基于本地用户和互动用户的人像mask图像和人体框RGB图像进行图像合成。

可选地，该方法还包括：

本申请实施例中，可以仅调整一侧用户的图像采集设备的变焦倍数，使得合成图像上各用户的图像大小一致或者相差在预设范围内，看上去比较和谐。另外，也可以调整多侧用户的图像采集设备的变焦倍数，同样达到上述效果。

关于如何基于RGB图像得到对应的深度图像，可以采用现有技术实现，本申请不进行限制。

可选地，该方法还包括：

根据用户指令，确定当前本地用户。

上述提示用户选择当前本地用户，例如通过用户界面输出给用户当前通过人脸识别算法识别到的多个用户，供用户选择确认当前健身用户。

上述用户指令，例如用户的语音指令，或者通过遥控器、电视或手机的触屏发出的选择指令，选择当前健身用户，从而实现本申请实施例采用人脸识别算法识别出要健身的用户，防止家庭其他成员的“入境”问题。

也就是说，本申请实施例还可以从云端服务器直接获取互动用户的采集图像，由本地家庭边缘服务器，基于该互动用户的采集图像，确定互动用户的人像mask图像和人体框RGB图像。

相应地，本申请实施例提供的一种图像处理装置，例如可以是上述的家庭边缘服务器，具体地，参见图8，包括存储器11和处理器12，其中，所述存储器11用于存储程序指令，所述处理器12用于调用所述存储器中存储的程序指令，按照获得的程序执行：

可选地，所述处理器12还用于调用所述存储器中存储的程序指令，按照获得的程序执行：

根据用户指令，确定当前本地用户。

本申请实施例提供的另一种图像处理装置，例如可以是上述的家庭边缘服务器，具体地，参见图9，包括第一单元21和第二单元22。其中，

第一单元21，用于获取本地图像采集设备提供的采集图像，并基于所述采集图像确定本地用户的用户图像信息；

第二单元22，用于利用所述本地用户的用户图像信息，以及互动用户的用户图像信息，进行图像合成，得到合成后的图像，其中所述用户图像信息包括人像掩膜图像和人体框红绿蓝RGB图像。

可选地，第二单元22还用于：

可选地，第一单元21还用于：

根据用户指令，确定当前本地用户。

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供了一种计算设备，该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。该计算设备可以包括中央处理器(Center Processing Unit，CPU)、存储器、输入/输出设备等，输入设备可以包括键盘、鼠标、触摸屏等，输出设备可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中，存储器可以用于存储本申请实施例提供的任一所述方法的程序。

处理器通过调用存储器存储的程序指令，处理器用于按照获得的程序指令执行本申请实施例提供的任一所述方法。

本申请实施例提供了一种计算机存储介质，用于储存为上述本申请实施例提供的装置所用的计算机程序指令，其包含用于执行上述本申请实施例提供的任一方法的程序。

所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

本申请实施例提供的一种图像处理系统，可以参见图1，包括所述的图像处理装置(例如家庭边缘服务器)，以及所述图像采集设备、智能电视等，当然还可以包括其他设备，例如遥控器、音响等本地设备；所述系统还可以包括云端服务器等网络设备。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像处理方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

3.根据权利要求2所述的方法，其特征在于，利用所述RGB图像对应的深度图像，调整本地用户的图像采集设备的变焦倍数，具体包括：

4.根据权利要求3所述的方法，其特征在于，通过将所述距离与预设值进行比较，确定本地用户的图像采集设备的变焦倍数，具体包括：

5.根据权利要求1所述的方法，其特征在于，基于所述采集图像确定本地用户的用户图像信息之前，该方法还包括：通过人脸识别，识别本地用户。

6.根据权利要求5所述的方法，其特征在于，该方法还包括：

根据用户指令，确定当前本地用户。

7.根据权利要求1所述的方法，其特征在于，所述互动用户的用户图像信息，是通过云端服务器获取的；或者，从云端服务器获取互动用户的采集图像，并通过本地家庭边缘服务器基于该互动用户的采集图像，确定所述互动用户的用户图像信息。

8.一种图像处理装置，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至7任一项所述的方法。

9.一种图像处理系统，其特征在于，包括权利要求8所述的装置，以及图像采集设备、智能电视。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行权利要求1至7任一项所述的方法。