CN115497094A

CN115497094A - 图像处理方法及装置、电子设备和存储介质

Info

Publication number: CN115497094A
Application number: CN202210882998.7A
Authority: CN
Inventors: 陈奕名; 王麒铭; 霍卫涛; 马丁; 栾鹏龙; 王超
Original assignee: Beijing Yuda Dongfang Software Technology Co ltd
Current assignee: Beijing Yuda Dongfang Software Technology Co ltd
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-12-20

Abstract

一种图像处理方法、图像处理装置、电子设备和存储介质。该图像处理方法包括：利用拍摄装置拍摄交互动作对象在识别对象上进行的交互动作，得到多个帧图像；根据多个帧图像，识别交互动作对象的交互动作；对多个帧图像进行虚化处理，得到多个帧图像分别对应的多个处理后图像，其中，虚化处理使得在每个处理后图像中，交互动作对象不对识别对象中的显示内容构成遮挡；根据多个处理后图像和交互动作，执行对应的交互操作。该图像处理方法能够提供一种与识别对象的隔空交互操作，而不限于只能通过I/O接口完成交互，提升智能性；并且能够准确识别交互动作对象的交互动作，在交互动作是选择动作时，准确识别交互区域中的内容，提高识别的准确性。

Description

图像处理方法及装置、电子设备和存储介质

技术领域

本公开的实施例涉及一种图像处理方法、图像处理装置、电子设备和非瞬时性计算机可读存储介质。

背景技术

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取“信息”的人工智能系统，计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

发明内容

本公开至少一实施例提供一种图像处理方法，包括：利用拍摄装置拍摄交互动作对象在识别对象上进行的交互动作，得到多个帧图像；对所述多个帧图像进行虚化处理，得到所述多个帧图像分别对应的多个处理后图像，其中，所述虚化处理使得在每个处理后图像中，所述交互动作对象不对所述识别对象中的显示内容构成遮挡；根据所述多个帧图像，识别所述交互动作对象的所述交互动作；根据所述多个处理后图像和所述交互动作，执行对应的交互操作。

例如，在本公开至少一实施例提供图像处理方法中，对所述多个帧图像进行虚化处理，得到所述多个帧图像分别对应的多个处理后图像，包括：确定所述识别对象对应的参考图像，其中，所述参考图像包括所述识别对象对应的至少部分显示内容；针对每个帧图像：利用分割模型确定所述帧图像中由所述交互动作对象的至少部分构成的遮挡区域，其中，所述至少部分显示内容包括所述遮挡区域中的显示内容；对所述参考图像和所述遮挡区域进行合并处理，得到所述帧图像对应的第一中间图像；虚化所述第一中间图像中的所述遮挡区域，以得到所述帧图像对应的处理后图像。

例如，在本公开至少一实施例提供图像处理方法中，确定所述识别对象对应的参考图像，包括：拍摄包括所述识别对象的全部显示内容的图像作为所述参考图像。

例如，在本公开至少一实施例提供图像处理方法中，确定所述识别对象对应的参考图像，包括：依次对所述多个帧图像进行背景合并处理，以得到所述参考图像。

例如，在本公开至少一实施例提供图像处理方法中，依次对所述多个帧图像进行背景合并处理，以得到所述参考图像，包括：针对所述多个帧图像中的进行所述背景合并处理的当前帧图像，利用所述分割模型确定所述当前帧图像中由所述交互动作对象的至少部分构成的遮挡区域；标记所述当前帧图像的所述遮挡区域中的像素点，以得到所述帧图像对应的第二中间图像；获取历史背景合并图像，其中，响应于所述当前帧图像为第一个进行所述背景合并处理的图像，将所述当前帧图像对应的第二中间图像作为所述历史背景合并图像；对所述历史背景合并图像和所述第二中间图像进行匹配处理，响应于所述匹配处理的结果指示所述识别对象未发生移动，将所述第二中间图像和所述历史背景合并图像进行背景融合，得到融合图像，并且响应于所述融合图像中被标记为遮挡位置的像素点的占比小于比例阈值，确定所述融合图像为所述参考图像，否则将所述历史背景合并图像更新为所述融合图像，并继续对下一个帧图像进行所述背景合并处理；响应于所述匹配处理的结果指示所述识别对象发生移动，将所述历史背景合并图像更新为所述第二中间图像，并继续对下一个帧图像进行所述背景合并处理。

例如，在本公开至少一实施例提供图像处理方法中，对所述历史背景合并图像和所述第二中间图像进行匹配处理，包括：确定所述历史背景合并图像对应的第一直方图向量和所述第二中间图像对应的第二直方图向量；比较所述第一直方图向量和所述第二直方图向量的相似度，根据所述相似度确定所述匹配处理的结果。

例如，在本公开至少一实施例提供图像处理方法中，比较所述第一直方图向量和所述第二直方图向量的相似度，根据所述相似度确定所述匹配处理的结果，包括：计算所述第一直方图向量和所述第二直方图向量的相关性系数；计算所述第一直方图向量和所述第二直方图向量的欧式距离；计算所述相关性系数和所述欧式距离的加权平均值作为所述相似度；响应于所述相似度大于相似度阈值，确定所述匹配处理的结果指示所述识别对象未发生移动，响应于所述相似度小于所述相似度阈值，确定所述匹配处理的结果指示所述识别对象发生移动。

例如，在本公开至少一实施例提供图像处理方法中，将所述第二中间图像和所述历史背景合并图像进行背景融合，得到融合图像，包括：确定所述历史背景合并图像中标记为遮挡位置的一个或多个像素点；确定所述第二中间图像中与所述一个或多个像素点对应的像素点作为替换像素点；确定所述替换像素点中未被标记为遮挡位置的至少一个像素点；将所述一个或多个像素点中对应于所述至少一个像素点的像素点的值，对应替换为所述至少一个像素点的值，以得到所述融合图像。

例如，在本公开至少一实施例提供图像处理方法中，对所述参考图像和所述遮挡区域进行合并处理，得到所述帧图像对应的第一中间图像，包括：在所述参考图像中添加所述帧图像中所述遮挡区域对应的显示内容，得到所述帧图像对应的第一中间图像。

例如，在本公开至少一实施例提供图像处理方法中，虚化所述第一中间图像中的所述遮挡区域，以得到所述帧图像对应的处理后图像，包括：增加所述第一中间图像中的所述遮挡区域的透明度，以得到所述帧图像对应的处理后图像。

例如，在本公开至少一实施例提供图像处理方法中，根据所述多个帧图像，识别所述交互动作对象的所述交互动作，包括：针对每个帧图像，确定所述交互动作对象的关键点在所述帧图像中的位置；根据所述交互动作对象的关键点在所述多个帧图像中的位置，识别所述交互动作。

例如，在本公开至少一实施例提供图像处理方法中，所述交互动作对象为手势动作对象，针对每个帧图像，确定所述交互动作对象的关键点在所述帧图像中的位置，包括：利用关键点检测模型，识别所述手势动作对象中的目标关键点；根据所述目标关键点，提取所述帧图像中包括所述目标关键点的检测区域；提取所述检测区域内的至少一个角点特征位置；在每个角点特征位置处执行高斯卷积计算，得到所述帧图像对应的角点特征图；将所述角点特征图与参考帧图像对应的角点特征图进行二维卷积计算以得到计算结果，其中，所述参考帧图像为所述多个帧图像中，按拍摄顺序位于所述帧图像之前且与所述帧图像相邻的帧图像；确定所述计算结果中的最大值对应的位置；根据所述最大值对应的位置对所述目标关键点的位置进行校正，以得到所述手势动作对象的关键点的位置。

例如，在本公开至少一实施例提供图像处理方法中，所述交互动作对象包括第一手部和第二手部，所述交互动作对象的关键点包括与所述第一手部对应的第一关键点和与所述第二手部对应的第二关键点，根据所述交互动作对象的关键点在所述多个帧图像中的位置，识别所述交互动作，包括：响应于所述第一关键点和所述第二关键点的位置变化均小于位置阈值的持续时间大于时间阈值：确定所述交互动作为第一选择动作，以及根据所述第一关键点和所述第二关键点的位置，确定交互区域。

例如，在本公开至少一实施例提供图像处理方法中，根据所述第一关键点和所述第二关键点的位置，确定交互区域，包括：基于所述第一关键点和所述第二关键点的位置确定外接区域框，将所述外接区域框作为所述交互区域。

例如，在本公开至少一实施例提供图像处理方法中，根据所述多个处理后图像和所述交互动作，执行对应的交互操作，包括：响应于所述交互动作为所述第一选择动作，根据所述多个处理后图像，得到所述交互区域中内容的文字描述。

例如，在本公开至少一实施例提供图像处理方法中，根据所述交互动作对象的关键点在所述多个帧图像中的位置，识别所述交互动作，包括：响应于所述交互动作对象的关键点在所述识别对象上移动且检测到停止动作：确定所述交互动作为第二选择动作，以及根据所述交互动作对象的关键点的位置，确定所述交互动作对象的关键点在所述停止动作之间的移动轨迹，基于所述移动轨迹确定交互区域。

例如，在本公开至少一实施例提供图像处理方法中，根据所述多个处理后图像和所述交互动作，执行对应的交互操作，包括：响应于所述交互动作为所述第二选择动作，根据所述多个处理后图像，识别所述交互区域中的内容。

例如，在本公开至少一实施例提供图像处理方法中，所述分割模型包括多尺度模块和主干网络模块，所述多尺度模块包括第一子模块、第二子模块和第三子模块，所述第一子模块、所述第二子模块和所述第三子模块配置为提取不同维度的特征，其中，所述第一子模块配置为提取细节特征，所述第二子模块和所述第三子模块配置为提取全局特征；所述主干网络模块配置融合所述第一子模块、所述第二子模块和所述第三子模块提取的特征，以得到所述分割模型的输出。

例如，在本公开至少一实施例提供图像处理方法中，所述第一子模块包括尺寸为1*1的卷积层和最大值池化层；所述第二子模块包括多个第一空洞卷积层和多个反卷积层，其中，所述多个第一空洞卷积层被划分为多个分组进行分组卷积；所述第三子模块包括多个第二空洞卷积层，其中，所述多个第三空洞卷积层被划分为多个分组进行分组卷积。

本公开至少一实施例提供一种图像处理装置，包括：图像获取模块，配置为利用拍摄装置拍摄交互动作对象在识别对象上进行的交互动作，得到多个帧图像；处理模块，配置为对所述多个帧图像进行虚化处理，得到所述多个帧图像分别对应的多个处理后图像，其中，所述虚化处理使得在所述处理后图像中，所述交互动作对象不对所述识别对象中的显示内容构成遮挡；识别模块，配置为根据所述多个帧图像，识别所述交互动作对象的所述交互动作；执行模块，配置为根据所述多个处理后图像和所述交互动作，执行对应的交互操作。

本公开至少一实施例提供一种电子设备，包括拍摄装置和图像处理单元，其中，所述拍摄装置配置拍摄交互动作对象在识别对象上进行的交互动作，得到视频流；所述图像处理单元配置为接收所述视频流，从所述视频流中获取所述多个帧图像，执行本公开任一实施例所述的图像处理方法。

本公开至少一实施例提供一种电子设备，包括：存储器，非瞬时性地存储有计算机可执行指令；处理器，配置为运行所述计算机可执行指令，其中，所述计算机可执行指令被所述处理器运行时实现根据本公开任一实施例所述的图像处理方法。

本公开至少一实施例提供一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现根据本公开任一实施例所述的图像处理方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为一种帧图像存在遮挡区域的示意图；

图2为本公开至少一实施例提供的一种图像处理方法的示意性流程图；

图3为本公开至少一实施例提供的步骤S20的示意性流程图；

图4为本公开至少一实施例提供的参考图像的获取流程；

图5为本公开至少一实施例提供的分割模型的示意性结构图；

图6A为本公开至少一实施例提供的处理后图像的示意图；

图6B为本公开至少一实施例提供的手势动作的示意图；

图7为本公开至少一实施例提供的步骤S30的示意性流程图；

图8为本公开至少一实施例提供的第一选择动作的示意图；

图9为本公开至少一实施例提供的一种图像处理装置的示意性框图；

图10A为本公开至少一实施例提供的一种电子设备的示意性框图；

图10B为本公开至少一实施例提供的另一种电子设备的示意性框图；

图11为本公开至少一实施例提供的一种非瞬时性计算机可读存储介质的示意图；

图12为本公开至少一实施例提供的一种硬件环境的示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、 “左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明，本公开省略了部分已知功能和已知部件的详细说明。

随着远程教学的不断发展，学生可以使用学习机等终端设备学习。例如，终端设备的显示屏可以是触控显示屏，从而可以利用手指触碰显示屏完成一些动作交互，例如开始播放视频、停止播放视频、选择显示屏中的一个区域进行内容识别等。

但是，在学生实际学习过程中，仍需要使用实物学习资料进行辅助，例如试卷、练习册、课本等。此时由于无法通过触控显示屏或其他I/O接口提供交互信息，从而无法使用学习机等终端设备实现对实物学习资料的交互处理，这也降低了终端设备的智能性。

此外，由于在交互过程中，用户手部或其他辅助部件，例如笔等，会对实物学习资料构成遮挡，因此在交互过程中，终端设备无法提取实物资料的全部内容，这会对实物资料的交互动作识别、动作区域识别以及动作区域中的内容识别等带来一定障碍。

例如，在一个使用场景中，用户用手指在试卷上圈出错题位置，终端设备需要识别用户的动作为圈题以及识别手指所选择的交互区域，并且识别该交互区域中的题目内容以提供该题目的正确答案。此时，如图1所示，由于用户在圈题过程中手对试卷内容构成了遮挡，例如手在移动过程中遮挡了试卷中的待识别内容，这将直接导致无法准确定位用户圈题时所选择的交互区域，也就无法得到用户实际所选择的题目区域，也无法得到准确的题目内容，从而不能提供该题目的正确答案。

也就是说，在用户利用手、笔等交互动作对象与实物资料进行交互时，若交互动作对象对实物资料中的内容构成遮挡，则无法准确得到用户执行交互动作时的交互区域，也无法实现对交互区域内容的准确识别。

本公开至少一实施例提供一种图像处理方法、图像处理装置电子设备和非瞬时性计算机可读存储介质。该图像处理方法包括：利用拍摄装置拍摄交互动作对象在识别对象上进行的交互动作，得到多个帧图像；根据多个帧图像，识别交互动作对象的交互动作；对多个帧图像进行虚化处理，得到多个帧图像分别对应的多个处理后图像，其中，虚化处理使得在每个处理后图像中，交互动作对象不对识别对象中的显示内容构成遮挡；根据多个处理后图像和交互动作，执行对应的交互操作。

在至少一个实施例中，该图像处理方法能够识别交互动作对象对识别对象执行的交互动作，例如可以准确识别交互动作对象执行交互动作时在识别对象上选择的交互区域，从而准确执行对应的交互操作，例如识别交互区域中的内容等，从而为学习机等终端设备提供一种隔空交互操作，而不限于只能通过I/O接口完成交互，提升智能性。

此外，对拍摄得到的多个帧图像进行虚化处理，使得在每个处理后图像中，交互动作对象不对识别对象中的显示内容构成遮挡，也即在处理后图像中，识别对象中的显示内容是完整可视的，不受交互动作对象的影响，在交互动作是选择动作时，准确定位交互区域并识别交互区域中的内容，提高识别的准确性。

本公开实施例提供的图像处理方法可应用于本公开实施例提供的图像处理装置，该图像处理装置可被配置于电子设备上。该电子设备可以是个人计算机、服务器、移动终端等，例如该移动终端可以是手机、平板电脑等硬件设备，例如，该硬件设备可以为学习机等终端设备。

下面结合附图对本公开的实施例进行详细说明，但是本公开并不限于这些具体的实施例。

图2为本公开至少一实施例提供的一种图像处理方法的示意性流程图。

如图2所示，本公开至少一实施例提供的图像处理方法包括步骤S10至步骤S40。需要说明的是，本公开中的步骤S20和步骤S30可并行处理，而没有先后顺序的限制。

在步骤S10，利用拍摄装置拍摄交互动作对象在识别对象上进行的交互动作，得到多个帧图像。

例如，拍摄装置可以是终端设备配置的前置摄像头或后置摄像头。

例如，在拍摄装置是前置摄像头时，为使得前置摄像头能够拍摄到放置终端设备的平面上所放置的识别对象(如试卷、练习册等实物资料)，可以在前置摄像头上设置反射装置，例如镜子等，以使得拍摄装置能够拍摄识别对象所在平面。

例如，利用拍摄装置录制交互动作对象在识别对象上执行交互动作时的一段视频流，该视频流包括多帧，将这多帧作为多个帧图像用于后续处理。

例如，也可以从视频流的多帧中抽取出多个关键帧作为该多个帧图像用于后续处理。多个关键帧的确定方式可以根据实际需要决定，本公开对此不作限制。此时，多个帧图像可能不是视频流中的连续的帧。

也就是说，多个帧图像可以是在时间上连续的，也可以是在时间上不连续的，本公开对此不作限制。

例如，交互动作对象可以是手势动作对象，例如用户的手部，或者，交互动作对象也可以是其他辅助物品，例如笔等，本公开对此不作具体限制。

例如，识别对象可以是试卷、练习册、书本等带有显示内容的实物资料，例如，识别对象也可以是另一个电子设备的显示屏，例如该显示屏中显示有显示内容。例如，显示内容包括识别对象中的文字、图片、公式、表格等任意可视内容，本公开对显示内容不作具体限制。

在步骤S20，对多个帧图像进行虚化处理，得到多个帧图像分别对应的多个处理后图像。

例如，虚化处理使得在每个处理后图像中，交互动作对象不对识别对象中的显示内容构成遮挡。

例如，这里的不构成遮挡可以是，交互动作对象仍存在于处理后图像中，但其透明度较高，识别对象中的显示内容仍然是完整可视的，视觉效果上更像是在识别对象上增加了一个透明度较高的交互动作对象的图像，交互动作对象位置处的、原识别对象中的显示内容(如文字、图片、公式等)仍然完整显示。

由此，由于交互动作对象不再对识别对象中的显示内容构成遮挡，从而可以准确识别交互动作对象所选择的交互区域及交互区域中的待识别内容。

图3为本公开至少一实施例提供的步骤S20的示意性流程图。

如图3所示，步骤S20至少可以包括步骤S201-S204。

在步骤S201，确定识别对象对应的参考图像。

例如，参考图像包括识别对象对应的至少部分显示内容，例如，至少部分显示内容包括帧图像中由交互动作对象的至少部分构成的遮挡区域中的显示内容。也就是说，参考图像中需要包含有被交互动作对象遮挡的显示内容。

例如，在一些示例中，步骤S201可以包括：拍摄包括识别对象的全部显示内容的图像作为参考图像。

例如，在用户执行交互动作对象前，可以利用拍摄装置拍摄到了包括识别对象的全部显示内容的图像，例如此时用户未使用任何交互动作对象放置在识别对象上方，此时拍摄得到的图像可以作为参考图像。

例如，在另一些示例中，步骤S201可以包括：依次对多个帧图像进行背景合并处理，以得到参考图像。

例如，依次对多个帧图像进行背景合并处理，以得到参考图像，可以包括：针对多个帧图像中的进行背景合并处理的当前帧图像，利用分割模型确定当前帧图像中由交互动作对象的至少部分构成的遮挡区域；标记当前帧图像的遮挡区域中的像素点，以得到帧图像对应的第二中间图像；获取历史背景合并图像，其中，响应于当前帧图像为第一个进行背景合并处理的图像，将当前帧图像对应的第二中间图像作为历史背景合并图像；对历史背景合并图像和第二中间图像进行匹配处理，响应于匹配处理的结果指示识别对象未发生移动，将第二中间图像和历史背景合并图像进行背景融合，得到融合图像，并且响应于融合图像中被标记的为遮挡位置像素点的占比小于比例阈值，确定融合图像为参考图像，否则将历史背景合并图像更新为融合图像，并继续对下一个帧图像进行背景合并处理；响应于匹配处理的结果指示识别对象发生移动，将历史背景合并图像更新为第二中间图像，并继续对下一个帧图像进行背景合并处理。

例如，对历史背景合并图像和第二中间图像进行匹配处理，可以包括：确定历史背景合并图像对应的第一直方图向量和第二中间图像对应的第二直方图向量；比较第一直方图向量和第二直方图向量的相似度，根据相似度确定匹配处理的结果。

例如，比较第一直方图向量和第二直方图向量的相似度，根据相似度确定匹配处理的结果，可以包括：计算第一直方图向量和第二直方图向量的相关性系数；计算第一直方图向量和第二直方图向量的欧式距离；计算相关性系数和欧式距离的加权平均值作为相似度；响应于相似度大于相似度阈值，确定匹配处理的结果指示识别对象未发生移动，响应于相似度小于相似度阈值，确定匹配处理的结果指示识别对象发生移动。

例如，相似度阈值可以为0.69。相似度阈值可以根据实际情况设置，本公开对此不作限制。

例如，将第二中间图像和历史背景合并图像进行背景融合，得到融合图像，可以包括：确定历史背景合并图像中标记为遮挡位置的一个或多个像素点；确定第二中间图像中与一个或多个像素点对应的像素点作为替换像素点；确定替换像素点中未被标记为遮挡位置的至少一个像素点；将一个或多个像素点中对应于至少一个像素点的像素点的值，对应替换为至少一个像素点的值，以得到融合图像。

下面结合附图，具体说明背景合并处理的流程。

图4为本公开至少一实施例提供的参考图像的获取流程。

如图4所示，利用拍摄装置连续拍摄交互动作对象在识别对象上进行交互动作得到视频流，视频流中包括的多帧作为多个帧图像。例如，按照拍摄时间的前后顺序，将多个帧图像依次作为帧图像1、帧图像2、...、帧图像i、帧图像i+1、...帧图像n，n为正整数且为多个帧图像的总数，i为小于n大于1的正整数。

例如，针对帧图像1，首先利用分割模型确定帧图像1中由交互动作对象构成的遮挡区域。例如，在交互动作对象为手势动作对象时，分割模型可以是手部识别模型，例如皮肤检测模型等，利用分割模型从帧图像中识别出手部区域，并将识别出的手部区域作为遮挡区域。当然，在交互动作对象为其他辅助物品时，例如笔，可以预先训练分割模型，以使得分割模型能够实现对该辅助物品的图像分割，从帧图像中识别辅助物品区域，将其作为遮挡区域。

图5为本公开至少一实施例提供的分割模型的示意性结构图。

如图5所示，分割模型100包括多尺度模块101和主干网络模块102。

多尺度模块101包括第一子模块1011、第二子模块1012和第三子模块 1013，第一子模块1011、第二子模块1012和第三子模块1013配置为提取不同维度的特征。

例如，第一子模块1011配置为提取细节特征，第二子模块1012和第三子模块1013配置为提取全局特征。

例如，如图5所示，第一子模块1011包括尺寸为1*1的卷积层和最大值池化层。

第二子模块1012包括多个第一空洞卷积层和多个反卷积层，例如2个尺寸为3*3的空洞卷积层以及2个尺寸为3*3的反卷积层。这里，多个第一空洞卷积层被划分为多个分组进行分组卷积，例如，划分为10个分组进行分组卷积，以进一步降低使用空洞卷积时的计算量。关于实现分组及相应的分组卷积的具体过程可以参考通常分组卷积的处理过程，这里不再赘述。

第三子模块包括多个第二空洞卷积层，例如4个尺寸为3*3的空洞卷积层。这里，多个第二空洞卷积层被划分为多个分组进行分组卷积，例如，划分成10个分组进行分组卷积，以进一步降低计算量。

例如，主干网络模块102配置为融合第一子模块、第二子模块和第三子模块提取的特征，以得到分割模型的输出。例如，主干网络模块包括2个尺寸为3*3的反卷积层，主干网络模块为轻量型特征提取模块，大幅降低其所占据的计算资源。

在传统的分割模型中，多尺度模块通常配置为将输入图像转换为不同尺寸的图片输入主干网络模块，最终仍是由主干网络提取不同尺寸的图片的特征并进行融合，这种方式在特征提取时核心仍依赖于主干网络模块，那么在算法模型具体实现时难以进行模型压缩，整体算力成本高。

但是本公开所提供的分割模型中，利用能够提取不同维度特征的第一子模块、第二子模块、第三子模块实现多尺度，从而将特征提取的依赖转移到前置的多尺度模块中。例如，在本公开中，利用第一子模块中尺寸为1*1的卷积层提取低维度特征，其维度低，分辨率高，感受野小，能够提取包含局部的细节特征；利用第二子模块和第三子模块中3*3的空洞卷积层提取高维度特征，其维度高，抽象程度高，感受野大，能够提取包含全局信息的全局特征，补充多尺度上下文信息；此外，还设置了反卷积层，扩大特征图的面积，以提取更多的细节。

并且，本公开同时结合卷积分组的方式，进一步降低使用空洞卷积时的计算量，由于多尺度模块的设置能够使用更轻量化的主干网络模块，由此，本公开所提供的的分割模型在部署时更有利于移动端部署，降低计算资源消耗，提升计算效率。

当然，本公开不限于此，也可以采用其他形式的分割模型提取遮挡区域，本公开对此不作具体限制。

之后，标记帧图像1中遮挡区域的像素点，例如，将遮挡区域的像素点的像素值标记为预设值，例如0等，得到帧图像1对应的第二中间图像1。

由于帧图像1为第一个进行背景合并处理的图像，将第二中间图像1作为历史背景合并图像。然后，继续对帧图像2进行背景合并处理。

针对帧图像2，首先利用分割模型确定帧图像2中的遮挡区域。具体过程如前所述，这里不再赘述。

之后，标记帧图像2中遮挡区域的像素点，例如将帧图像2中遮挡区域的像素点的像素值全部标记为预设值(例如0)，得到帧图像2对应的第二中间图像2。

由于在拍摄过程中，识别对象可能发生移动，若发生移动，则继续利用前期所得到的历史合并结果进行后续的背景融合可能导致结果存在较大误差，因此需要对历史背景合并图像和第二中间图像进行匹配处理，以根据匹配处理的结果确定识别对象是否发生移动。

例如，对历史背景合并图像(也即第二中间图像1)和第二中间图像2 进行匹配处理时，以历史背景合并图像和第二中间图像2中的直方图向量作为匹配准则。

具体来说，首先确定历史背景合并图像对应的第一直方图向量和第二中间图像2对应的第二直方图向量。例如，直方图向量表示的是直方图统计后生成的1*M维向量，M为正整数且表示像素点的色彩深度，例如M为256 (2⁸)等，直方图向量中每一维的元素值表示对应该像素值的像素点的个数。例如，在计算历史背景合并图像和第二中间图像2之间的直方图向量时，将遮挡区域的像素点的像素值置为预设值，例如0，所以在直方图向量中可以不考虑预设值对应的维度，从而将直方图向量转换为1*(M-1)维。

之后，根据第一直方图向量和第二直方图向量之间的相似度确定匹配处理的结果。

在本公开中，采用相关性比较和欧式距离两种算法同时计算第一直方图向量和第二直方图向量之间的相似度，以增强相似度的准确性。

例如，计算第一直方图向量和第二直方图向量的相关性系数，相关性系数可以采用皮尔逊相关系数计算公式等，本公开对此不作具体限制；计算第一直方图向量和第二直方图向量的欧式距离；计算相关性系数和欧式距离的加权平均值作为相似度；若相似度大于相似度阈值，表示第一直方图向量和第二直方图向量的相似程度较高，确定匹配处理的结果指示识别对象未发生移动，若相似度小于相似度阈值，表示第一直方图向量和第二直方图向量的相似程度较低，确定匹配处理的结果指示识别对象发生移动。

之后，若匹配处理的结果指示识别对象未发生移动，将第二中间图像2 和历史背景合并图像进行背景融合，得到融合图像。

具体来说，先确定历史背景合并图像中标记为遮挡位置的P个像素点， P为正整数，例如，该P个像素点的像素值为前述预设值，例如0，表示该 P个像素点被交互动作对象遮挡且还未知要恢复的像素值；确定第二中间图像2中与该P个像素点对应的P个替换像素点，这里对应表示位置对应，也即位于历史背景合并图像和第二中间图像2中相同位置的像素点称为对应；从P个替换像素点中选择未被标记为该预设值的Q个替换像素点，Q为正整数且小于等于P；将历史背景合并图像中的P个像素点中与Q个替换像素点相对应的Q个像素点的像素值，对应替换为第二中间图像2中的Q个替换像素点的像素值，从而得到融合图像。

在一种实施例中，进行背景融合时可以将历史背景合并图像被交互动作对象遮挡且仍未知要恢复的像素值的像素点标记为0，其他像素点标记为1。在第二中间图像2中寻找在历史背景合并图像中标记为0、但在第二中间图像2中未被交互动作对象遮挡的像素点来替换历史背景合并图像中的对应位置的像素点，也即将历史背景合并图像中该标记为0的像素点的像素值修改为第二中间图像2中对应位置的像素点的像素值，同时将该像素点在历史背景合并图像中标记为1，表示该像素点的像素值已得到恢复。由此，得到融合图像。

之后，若融合图像中被标记为遮挡位置的像素点的占比小于比例阈值，确定融合图像为参考图像；否则将历史背景合并图像更新为融合图像，并继续对下一个帧图像(也即帧图像3)进行背景合并处理，即将融合图像(即对帧图像2进行背景合并处理得到的融合图像)作为历史背景合并图像以用于下一个帧图像(也即帧图像3)进行背景合并处理的过程，具体过程不再赘述。

例如，比例阈值可以根据实际情况由用户设置，例如比例阈值可以为 99％。

需要说明的是，在本公开的实施例中，“占比”表示融合图像中被标记为遮挡位置的像素点的数量与融合图像中所有像素点的数量的比值。

例如，若匹配处理的结果指示识别对象发生移动，则将历史背景合并图像更新为第二中间图像2，也即清零之前的合并结果，并继续对下一个帧图像进行上述背景合并处理，具体过程不再赘述。

之后，在未得到参考图像时，持续进行上述过程，直到输出参考图像，这里不再赘述。

若在对多个视频帧均进行上述处理后，仍未得到参考图像，此时可能背景变化过于频繁，例如，可以继续获取新的视频帧进行上述处理，直到得到参考图像。

需要说明的是，若预先规定识别对象不会发生移动，则在进行背景融合处理的过程中，可以不进行匹配处理，直接在得到第二中间图像和历史背景合并图像后，将第二中间图像和历史背景合并图像进行背景融合得到融合图像，后续过程与前述内容相同，这里不再赘述。

经过上述背景合并处理，由于交互动作对象在多个帧图像中可能发生运动，则交互动作对象的运动在不同帧图像中可能导致的遮挡区域不同，从而可以利用不同帧图像中提取的背景信息拼接成参考图像，使得参考图像中包括部分或全部识别对象中的显示内容。由此，在与识别对象的交互过程中，即使交互动作对象对识别对象构成了遮挡，也不影响最终识别内容的获取，提升了识别准确性，能够准确定位交互动作对象的交互区域及交互区域中的待识别内容，提升产品智能性。并且，本公开不限于识别对象是否发生移动，即使在交互过程中使得识别对象发生了移动，也能够获取包含准确的显示内容的参考图像，提升了方法执行的灵活性，适用场景更丰富。

在得到参考图像后，对每个帧图像执行如图3所示的步骤S202-S204，以得到每个帧图像对应的处理后图像。

在步骤S202，利用分割模型确定帧图像中由交互动作对象的至少部分构成的遮挡区域。

例如，至少部分显示内容包括遮挡区域中的显示内容，也就是说，参考图像中至少需要包括识别对象中被交互动作对象遮挡的文字、图片、公式等显示内容。

例如，利用分割模型确定遮挡区域的过程可以参考步骤S201中的相关描述，这里不再赘述。

在步骤S203，对参考图像和遮挡区域进行合并处理，得到帧图像对应的第一中间图像。

例如，步骤S203可以包括：在参考图像中添加帧图像中遮挡区域对应的显示内容，得到帧图像对应的第一中间图像。

例如，交互动作对象为手势动作对象，通过步骤S202从帧图像中分割出手势动作对象所在的区域，也即遮挡区域，则遮挡区域对应的显示内容即为该手势动作对象的图像。将手势动作对象的图像添加到参考图像中的对应位置，例如，以叠加图层方式将手势动作对象的图像添加至参考图像中的对应位置，得到第一中间图像。

在步骤S204，虚化第一中间图像中的遮挡区域，以得到帧图像对应的处理后图像。

例如，步骤S204可以包括：增加第一中间图像中的遮挡区域的透明度，以得到帧图像对应的处理后图像。

例如，第一中间图像中的遮挡区域即为在步骤S203添加的帧图像中遮挡区域对应的显示内容，例如，手势动作对象的图像。

例如，以交互动作对象为手势动作对象为例，对于第一中间图像，将其中手势动作对象的图像的透明度增加，使其处于一种半透明的状态，从而不会对参考图像中对应位置的显示内容构成遮挡，参考图像中对应位置的显示内容仍是完整可视的，由此，得到帧图像对应的处理后图像。

图6A为本公开至少一实施例提供的处理后图像的示意图。如图6A所示，交互动作对象为手势动作对象，识别对象为书本中的一页，手势动作对象在识别对象上移动，选择希望识别的题目区域。对于某一个帧图像，在其对应的处理后图像中，手势动作对象的图像处于一种半透明的状态，参考图像中对应手势动作对象位置的显示内容(也即原识别对象中的显示内容，如文字、图片、公式等)仍是完整可视的，不会被手势动作对象遮挡。

当然，需要说明的是，可以选择多个帧图像中的部分或全部帧图像执行步骤S202-S204，也即得到部分或全部帧图像分别对应的处理后图像用于后续操作，在实践中可以根据需要自行选择，本公开对此不作具体限制。

在步骤S30，根据多个帧图像，识别交互动作对象的交互动作。

例如，识别交互动作对象的交互动作至少包括识别交互动作对象执行交互动作时在识别对象上选择的交互区域。

例如，可以预先定义多种交互动作，在检测到交互动作对象执行交互动作时，触发对应的交互操作。

例如，图6B为本公开至少一实施例提供的手势动作的示意图。

图6B中的(a)代表选择手势，(b)代表确认手势，(c)代表暂停手势， (d)代表停止手势。

例如，可以利用上述多种手势之间的组合，定义不同的交互动作。

例如，在一个场景中，当用户想在试卷中选择一个错题区域以获取其正确答案时，用户利用图6B的(a)中的选择手势选择错题区域，在选择结束后使用图6B中的(d)中的停止手势。此时，通过对多个帧图像进行手势动作变化的识别，确认手势动作对象执行的是对应圈题的选择动作。

交互动作的具体识别过程可以利用任意可行的方式，例如检测每个帧图像中的手势动作，基于多个帧图像中的手势动作的变化，确定用户执行的交互动作。本公开对交互动作的具体识别方法不作具体限制。

当然，图6B所示的手势动作定义仅提供一种示意性描述，也可以根据实际需要采用其他或更多的手势定义，或者定义其他不同的交互动作，本公开对此不作具体限制。

图7为本公开至少一实施例提供的步骤S30的示意性流程图。

如图7所示，步骤S30至少包括步骤S301和步骤S302。

在步骤S301：针对每个帧图像，确定交互动作对象的关键点在帧图像中的位置。

例如，交互动作对象的关键点可以根据需要设置。例如，在交互动作对象为手势动作对象，交互动作对象的关键点可以为目标手指的手指尖，例如食指指尖；例如，在交互动作对象为笔时，交互动作对象的关键点可以为笔尖，本公开对此不作具体限制。

例如，在交互动作对象为手势动作对象时，关键点可能存在不稳定的问题，也即不能保证每次都能提取到同一相对位置作为关键点，由此也导致所确定的交互区域不稳定，对后续内容识别等造成影响。

例如，步骤S301可以包括：利用关键点检测模型，识别手势动作对象中的目标关键点；根据目标关键点，提取帧图像中包括目标关键点的检测区域；提取检测区域内的至少一个角点特征位置；在每个角点特征位置处执行高斯卷积计算，得到帧图像对应的角点特征图；将角点特征图与参考帧图像对应的角点特征图进行二维卷积计算以得到计算结果，其中，参考帧图像为多个帧图像中，按拍摄顺序位于帧图像之前且与帧图像相邻的帧图像；确定计算结果中的最大值对应的位置；根据最大值对应的位置对目标关键点的位置进行校正，以得到手势动作对象的关键点的位置。

具体来说，首先利用关键点检测模型，识别手势动作对象中的目标关键点，关键点检测模型可以采用任意可行的手指关键点检测模型，本公开对此不作具体限制。例如，目标关键点可以是食指指尖处的关键点。

之后，在帧图像中提取包括目标关键点的检测区域，例如提取帧图像中以目标关键点为中心、尺寸为20*20的区域作为检测区域。

之后，提取检测区域内的至少一个角点特征位置，角点特征位置即是检测区域中的某些属性上的极值点。例如，可以利用任意可行的角点检测算法提取角点特征位置，本公开对此不作具体限制。

之后，在每个角点特征位置处执行高斯卷积计算，得到帧图像对应的角点特征图。例如，在每个角点特征位置执行尺寸为5*5的高斯卷积计算，得到该帧图像中的检测区域对应的角点特征图。经过高斯卷积计算后，能够进一步突出角点特征位置的特征，有利于后续提取出相对准确的偏移量。

将该角点特征图与参考帧图像对应的角点特征图进行二维卷积计算以得到计算结果。例如，若当前处理中的帧图像为帧图像i+1，则其参考帧图像为帧图像i。

确定计算结果中的最大值对应的位置，根据最大值对应的位置对目标关键点的位置进行校正。例如，最大值对应的位置即为在二维卷积结果所构成的二维坐标系中，最大值所对应的坐标，其表示了相对于参考帧图像中的目标关键点的位置偏移量，也就是在x轴方向和y轴方向的偏移量。

经过二维卷积计算，提取出相邻两个帧图像中目标关键点的位置变化信息，确定参考帧图像和当前处理的帧图像中最为匹配的位置对目标关键点进行校正，从而达到稳定手势动作对象的关键点的位置的目的，避免关键点在不同帧图像中一直跳动，有助于选择准确的交互区域，提升识别的准确性。

步骤S302，根据交互动作对象的关键点在多个帧图像中的位置，识别交互动作。

之后，在步骤S40，根据多个处理后图像和交互动作，执行对应的交互操作。

本公开提供了两种交互动作识别的场景，下面分别结合步骤S302和步骤S40描述两种交互动作的识别以及后续交互操作的执行。

例如，在一些示例中，交互动作对象包括第一手部和第二手部，交互动作对象的关键点包括与第一手部对应的第一关键点和与第二手部对应的第二关键点。此时，步骤S302可以包括：响应于第一关键点和第二关键点的位置变化均小于位置阈值的持续时间大于时间阈值：确定交互动作为第一选择动作，以及根据第一关键点和第二关键点的位置，确定交互区域。

例如，根据第一关键点和第二关键点的位置，确定交互区域，可以包括：基于第一关键点和第二关键点的位置确定外接区域框，将外接区域框作为交互区域。

例如，该外接区域框可以是以第一关键点和第二关键点作为直径两端的圆形区域框，或者以第一关键点和第二关键点作为对角点的矩形框，或者以第一关键点和第二关键点为椭圆焦点的椭圆形区域框等等，本公开对外接区域框的形状、获取方式不作具体限制。

例如，此时步骤S40可以包括：响应于交互动作为第一选择动作，根据多个处理后图像，得到交互区域中内容的文字描述。

例如，可以采用任意可行的智能识图算法(例如image caption)等，对多个处理后图像进行识别，得到交互区域中内容的文字描述，例如，交互区域中图片的文字描述。

图8为本公开至少一实施例提供的第一选择动作的示意图。

如图8所示，交互动作对象包括图中的两个手部，分别为第一手部和第二手部，通过如上步骤S301，得到第一手部对应的第一关键点和与第二手部对应的第二关键点。

例如，若第一关键点和第二关键点在连续多个帧图像中位置固定不变的时间超过n秒(时间阈值)，或者，第一关键点和第二关键点在连续多个帧图像中位置变化均很小，例如都只发生了微小的移动(位置变化小于位置阈值)，且该状态的持续时间超过n秒，则确定交互动作为第一选择动作。这里，n为正数且可以根据实际需要自行设置。

在本公开中，时间阈值是指在多个帧图像之间的时间关系，位置阈值例如是是指在多个帧图像之间，第一关键点和第二关键点的绝对位置关系。例如，相对于作为初始状态的帧图像(例如帧图像1)中第一关键点的位置，在连续u个帧图像中，第一关键点的位置均在以帧图像1中第一关键点的位置为中心，m*n范围内(例如m为3个像素，n为3个像素)，并且，相对于帧图像1中第二关键点的位置，在连续u个帧图像中，第二关键点的位置均在以帧图像1中第二关键点的位置为中心，m*n范围内，则确定交互动作为第一选择动作。这里，u与帧长的乘积大于或等于n，u为正整数。

并且，如图8所示，将以第一关键点和第二关键点作为对角点的矩形框作为交互区域，通过步骤S40，利用智能识图算法识别交互区域中的图片，得到图片的文字描述(“Acity is one of the visited tourist attractions”)。

由此，本公开提供了一种能够进行物体描述的情景交互方法，在手势动作对象固定n秒及以上后，由手势动作对象中的关键点得到交互区域，识别交互区域中的内容得到其对应的文字描述。

当然，针对上述实施例中所得到的交互区域，也可以识别交互区域中的内容，本公开对此不作具体限制。

例如，在另一些示例中，步骤S302可以包括：响应于交互动作对象的关键点在识别对象上移动且检测到停止动作：确定交互动作为第二选择动作，以及根据交互动作对象的关键点的位置，确定交互动作对象的关键点在停止动作之间的移动轨迹，基于移动轨迹确定交互区域。

例如，停止动作可以为图6B中的(d)所示的停止手势，或者，停止动作也可以是定义的其他状态或动作，本公开对此不作具体限制。

例如，将交互动作对象的关键点，例如用户食指指尖，在识别对象上移动时所围成的区域作为交互区域。

例如，此时步骤S40可以包括：响应于交互动作为第二选择动作，根据多个处理后图像，识别交互区域中的内容。

由于此时在处理后图像中，交互动作对象已不对显示内容构成遮挡，从而可以准确识别出交互区域中的内容，例如，交互区域中的文字、图片、表格、公式等。

在一些实施例中，例如第二选择动作为如前所述的圈题动作，则可以依据识别出的交互区域中的内容，从数据库中检索出该题目对应的正确答案，显示在显示屏中。

在本公开至少一实施例提供的图像处理方法中，可以利用多个帧图像提取各个帧图像中的背景信息，拼接构成参考图像，以获得识别对象中的全部显示内容；结合参考图像得到处理后图像，使得在处理后图像中，交互动作对象是半透明状态，而不会对识别对象中的显示内容构成任何遮挡；利用多个帧图像，确定用户在识别对象上进行的交互动作，从而能够实现隔空交互，并且在用户交互动作是选择动作时，利用不带有遮挡的处理后图像，能够得到准确的交互区域和交互区域中的内容，提升了识别准确性，提高了处理效率。

本公开至少一实施例还提供一种图像处理装置，图9为本公开至少一实施例提供的一种图像处理装置的示意性框图。

如图9示，图像处理装置200可以包括图像获取模块201、处理模块202、识别模块203和执行模块204。这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。例如，这些模块可以通过硬件(例如电路)模块、软件模块或二者的任意组合等实现，以下实施例与此相同，不再赘述。例如，可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。应当注意，图 9所示的图像处理装置200的组件和结构只是示例性的，而非限制性的，根据需要，图像处理装置200也可以具有其他组件和结构。

例如，图像获取模块201，配置为利用拍摄装置拍摄交互动作对象在识别对象上进行的交互动作，得到多个帧图像。

例如，处理模块202，配置为对多个帧图像进行虚化处理，得到多个帧图像分别对应的多个处理后图像。例如，虚化处理使得在处理后图像中，交互动作对象不对识别对象中的显示内容构成遮挡。

例如，识别模块203，配置为根据多个帧图像，识别交互动作对象的交互动作。

例如，执行模块204，配置为根据多个处理后图像和交互动作，执行对应的交互操作。

例如，图像获取模块201、处理模块202、识别模块203和执行模块204 可以包括存储在存储器中的代码和程序；处理器可以执行该代码和程序以实现如上所述的图像获取模块201、处理模块202、识别模块203和执行模块 204的一些功能或全部功能。例如，图像获取模块201、处理模块202、识别模块203和执行模块204可以是专用硬件器件，用来实现如上所述的图像获取模块201、处理模块202、识别模块203和执行模块204的一些或全部功能。例如，图像获取模块201、处理模块202、识别模块203和执行模块204 可以是一个电路板或多个电路板的组合，用于实现如上所述的功能。在本申请实施例中，该一个电路板或多个电路板的组合可以包括：(1)一个或多个处理器；(2)与处理器相连接的一个或多个非暂时的存储器；以及(3)处理器可执行的存储在存储器中的固件。

需要说明的是，图像获取模块201可以用于实现图2所示的步骤S10，处理模块202可以用于实现图2所示的步骤S20，识别模块203可以用于实现图2所示的步骤S30，执行模块204可以用于实现图2所示的步骤S40。从而关于图像获取模块201、处理模块202、识别模块203和执行模块204 能够实现的功能的具体说明可以参考上述图像处理方法的实施例中的步骤 S10至步骤S40的相关描述，重复之处不再赘述。此外，图像处理装置200 可以实现与前述图像处理方法相似的技术效果，在此不再赘述。

需要注意的是，在本公开的实施例中，该图像处理装置200可以包括更多或更少的电路或单元，并且各个电路或单元之间的连接关系不受限制，可以根据实际需求而定。各个电路或单元的具体构成方式不受限制，可以根据电路原理由模拟器件构成，也可以由数字芯片构成，或者以其他适用的方式构成。

本公开一些实施例还提供一种电子设备。图10A为本公开至少一实施例提供的一种电子设备的示意性框图。

例如，如图10A所示，电子设备300包括拍摄装置301和图像处理单元 302。

例如，拍摄装置301配置为拍摄交互动作对象在识别对象上进行的交互动作，得到视频流。

例如，图像处理单元302配置为接收视频流，从视频流中获取多个帧图像，执行如上任一实施例所述的图像处理方法。

例如，拍摄装置301可以是电子设备的后置摄像头，或者是电子设备的前置摄像头及反射装置，关于拍摄装置301的相关介绍可以参考前述内容，这里不再赘述。

例如，图像处理单元302可以实现为中央处理器、专用处理芯片、数字信号处理器等，本公开对此不作具体限制。

例如，电子设备300可以为学习机等终端设备，并且还可以提供有显示单元(例如触控显示屏)等，例如显示单元可以提供相应的人机交互界面，用于显示交互操作的响应、交互动作提示信息等，本公开对此不作具体限制。

例如，关于电子设备300执行图像处理方法的过程的详细说明可以参见上述图像处理方法的实施例中的相关描述，重复之处不再赘述。

本公开一些实施例还提供另一种电子设备。图10B为本公开至少一实施例提供的另一种电子设备的示意性框图。

例如，如图10B所示，电子设备400包括处理器401和存储器402。应当注意，图10B所示的电子设备400的组件只是示例性的，而非限制性的，根据实际应用需要，该电子设备400还可以具有其他组件。

例如，处理器401和存储器402之间可以直接或间接地互相通信。

例如，处理器401和存储器402可以通过网络进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。处理器401和存储器402之间也可以通过系统总线实现相互通信，本公开对此不作限制。

例如，在一些实施例中，存储器402用于非瞬时性地存储计算机可读指令。处理器401用于运行计算机可读指令时，计算机可读指令被处理器401 运行时实现根据上述任一实施例所述的图像处理方法。关于该图像处理方法的各个步骤的具体实现以及相关解释内容可以参见上述图像处理方法的实施例，重复之处在此不作赘述。

例如，处理器401和存储器402可以设置在服务器端(或云端)。

例如，处理器401可以控制电子设备400中的其它组件以执行期望的功能。处理器401可以是中央处理器(CPU)、图形处理器(Graphics Processing Unit，GPU)、网络处理器(NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理元(CPU)可以为X86 或ARM架构等。

例如，存储器402可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM) 和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器 (ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机可读指令，处理器401可以运行所述计算机可读指令，以实现电子设备400的各种功能。在存储介质中还可以存储各种应用程序和各种数据等。

例如，在一些实施例中，电子设备400可以为手机、平板电脑、电子纸、电视机、显示器、笔记本电脑、数码相框、导航仪、可穿戴电子设备、智能家居设备等。

例如，电子设备400可以包括显示面板，显示面板可以用于分割图像等。例如，显示面板可以为矩形面板、圆形面板、椭圆形面板或多边形面板等。另外，显示面板不仅可以为平面面板，也可以为曲面面板，甚至球面面板。

例如，电子设备400可以具备触控功能，即电子设备400可以为触控装置。

例如，关于电子设备400执行图像处理方法的过程的详细说明可以参见上述图像处理方法的实施例中的相关描述，重复之处不再赘述。

图11为本公开至少一实施例提供的一种非瞬时性计算机可读存储介质的示意图。例如，如图11所示，在存储介质500上可以非暂时性地存储一个或多个计算机可读指令501。例如，当计算机可读指令501由处理器执行时可以执行根据上文所述的图像处理方法中的一个或多个步骤。

例如，该存储介质500可以应用于上述电子设备400中。例如，存储介质500可以包括电子设备400中的存储器402。

例如，关于存储介质500的说明可以参考电子设备400的实施例中对于存储器402的描述，重复之处不再赘述。

图12为本公开至少一实施例提供的一种硬件环境的示意图。本公开提供的电子设备可以应用在互联网系统。

利用图12中提供的计算机系统可以实现本公开中涉及的图像处理装置和/或电子设备的功能。这类计算机系统可以包括个人电脑、笔记本电脑、平板电脑、手机、个人数码助理、智能眼镜、智能手表、智能指环、智能头盔及任何智能便携设备或可穿戴设备。本实施例中的特定系统利用功能框图解释了一个包含用户界面的硬件平台。这种计算机设备可以是一个通用目的的计算机设备，或一个有特定目的的计算机设备。两种计算机设备都可以被用于实现本实施例中的图像处理装置和/或电子设备。计算机系统可以包括实施当前描述的实现图像处理所需要的信息的任何组件。例如，计算机系统能够被计算机设备通过其硬件设备、软件程序、固件以及它们的组合所实现。为了方便起见，图12中只绘制了一台计算机设备，但是本实施例所描述的实现图像处理所需要的信息的相关计算机功能是可以以分布的方式、由一组相似的平台所实施的，分散计算机系统的处理负荷。

如图12所示，计算机系统可以包括通信端口250，与之相连的是实现数据通信的网络，例如，计算机系统可以通过通信端口250发送和接收信息及数据，即通信端口250可以实现计算机系统与其他电子设备进行无线或有线通信以交换数据。计算机系统还可以包括一个处理器组220(即上面描述的处理器)，用于执行程序指令。处理器组220可以由至少一个处理器(例如， CPU)组成。计算机系统可以包括一个内部通信总线210。计算机系统可以包括不同形式的程序储存单元以及数据储存单元(即上面描述的存储器或存储介质)，例如硬盘270、只读存储器(ROM)230、随机存取存储器(RAM) 240，能够用于存储计算机处理和/或通信使用的各种数据文件，以及处理器组220所执行的可能的程序指令。计算机系统还可以包括一个输入/输出组件260，输入/输出组件260用于实现计算机系统与其他组件(例如，用户界面280等)之间的输入/输出数据流。

通常，以下装置可以连接输入/输出组件260：例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置；例如显示器 (例如，LCD、OLED显示器等)、扬声器、振动器等的输出装置；包括例如磁带、硬盘等的存储装置；以及通信接口。

虽然图12示出了具有各种装置的计算机系统，但应理解的是，并不要求计算机系统具备所有示出的装置，可以替代地，计算机系统可以具备更多或更少的装置。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

对于本公开，还有以下几点需要说明：

(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)为了清晰起见，在用于描述本发明的实施例的附图中，层或结构的厚度和尺寸被放大。可以理解，当诸如层、膜、区域或基板之类的元件被称作位于另一元件“上”或“下”时，该元件可以“直接”位于另一元件“上”或“下”，或者可以存在中间元件。

(3)在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。

以上所述仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理方法，包括：

利用拍摄装置拍摄交互动作对象在识别对象上进行的交互动作，得到多个帧图像；

对所述多个帧图像进行虚化处理，得到所述多个帧图像分别对应的多个处理后图像，其中，所述虚化处理使得在每个处理后图像中，所述交互动作对象不对所述识别对象中的显示内容构成遮挡；

根据所述多个帧图像，识别所述交互动作对象的所述交互动作；

根据所述多个处理后图像和所述交互动作，执行对应的交互操作。

2.根据权利要求1所述的图像处理方法，其中，对所述多个帧图像进行虚化处理，得到所述多个帧图像分别对应的多个处理后图像，包括：

确定所述识别对象对应的参考图像，其中，所述参考图像包括所述识别对象对应的至少部分显示内容；

针对每个帧图像：

利用分割模型确定所述帧图像中由所述交互动作对象的至少部分构成的遮挡区域，其中，所述至少部分显示内容包括所述遮挡区域中的显示内容；

对所述参考图像和所述遮挡区域进行合并处理，得到所述帧图像对应的第一中间图像；

虚化所述第一中间图像中的所述遮挡区域，以得到所述帧图像对应的处理后图像。

3.根据权利要求2所述的图像处理方法，其中，确定所述识别对象对应的参考图像，包括：

拍摄包括所述识别对象的全部显示内容的图像作为所述参考图像。

4.根据权利要求2所述的图像处理方法，其中，确定所述识别对象对应的参考图像，包括：

依次对所述多个帧图像进行背景合并处理，以得到所述参考图像。

5.根据权利要求4所述的图像处理方法，其中，依次对所述多个帧图像进行背景合并处理，以得到所述参考图像，包括：

针对所述多个帧图像中的进行所述背景合并处理的当前帧图像，利用所述分割模型确定所述当前帧图像中由所述交互动作对象的至少部分构成的遮挡区域；

标记所述当前帧图像的所述遮挡区域中的像素点，以得到所述帧图像对应的第二中间图像；

获取历史背景合并图像，其中，响应于所述当前帧图像为第一个进行所述背景合并处理的图像，将所述当前帧图像对应的第二中间图像作为所述历史背景合并图像；

对所述历史背景合并图像和所述第二中间图像进行匹配处理，

响应于所述匹配处理的结果指示所述识别对象未发生移动，

将所述第二中间图像和所述历史背景合并图像进行背景融合，得到融合图像，并且

响应于所述融合图像中被标记为遮挡位置的像素点的占比小于比例阈值，确定所述融合图像为所述参考图像，

否则将所述历史背景合并图像更新为所述融合图像，并继续对下一个帧图像进行所述背景合并处理；

响应于所述匹配处理的结果指示所述识别对象发生移动，

将所述历史背景合并图像更新为所述第二中间图像，并继续对下一个帧图像进行所述背景合并处理。

6.根据权利要求5所述的图像处理方法，其中，对所述历史背景合并图像和所述第二中间图像进行匹配处理，包括：

确定所述历史背景合并图像对应的第一直方图向量和所述第二中间图像对应的第二直方图向量；

比较所述第一直方图向量和所述第二直方图向量的相似度，根据所述相似度确定所述匹配处理的结果。

7.根据权利要求6所述的图像处理方法，其中，比较所述第一直方图向量和所述第二直方图向量的相似度，根据所述相似度确定所述匹配处理的结果，包括：

计算所述第一直方图向量和所述第二直方图向量的相关性系数；

计算所述第一直方图向量和所述第二直方图向量的欧式距离；

计算所述相关性系数和所述欧式距离的加权平均值作为所述相似度；

响应于所述相似度大于相似度阈值，确定所述匹配处理的结果指示所述识别对象未发生移动，

响应于所述相似度小于所述相似度阈值，确定所述匹配处理的结果指示所述识别对象发生移动。

8.根据权利要求5所述的图像处理方法，其中，将所述第二中间图像和所述历史背景合并图像进行背景融合，得到融合图像，包括：

确定所述历史背景合并图像中标记为遮挡位置的一个或多个像素点；

确定所述第二中间图像中与所述一个或多个像素点对应的像素点作为替换像素点；

确定所述替换像素点中未被标记为遮挡位置的至少一个像素点；

将所述一个或多个像素点中对应于所述至少一个像素点的像素点的值，对应替换为所述至少一个像素点的值，以得到所述融合图像。

9.根据权利要求2所述的图像处理方法，其中，对所述参考图像和所述遮挡区域进行合并处理，得到所述帧图像对应的第一中间图像，包括：

在所述参考图像中添加所述帧图像中所述遮挡区域对应的显示内容，得到所述帧图像对应的第一中间图像。

10.根据权利要求2所述的图像处理方法，其中，虚化所述第一中间图像中的所述遮挡区域，以得到所述帧图像对应的处理后图像，包括：

增加所述第一中间图像中的所述遮挡区域的透明度，以得到所述帧图像对应的处理后图像。

11.根据权利要求1-10任一项所述的图像处理方法，其中，根据所述多个帧图像，识别所述交互动作对象的所述交互动作，包括：

针对每个帧图像，确定所述交互动作对象的关键点在所述帧图像中的位置；

根据所述交互动作对象的关键点在所述多个帧图像中的位置，识别所述交互动作。

12.根据权利要求11所述的图像处理方法，其中，所述交互动作对象为手势动作对象，

针对每个帧图像，确定所述交互动作对象的关键点在所述帧图像中的位置，包括：

利用关键点检测模型，识别所述手势动作对象中的目标关键点；

根据所述目标关键点，提取所述帧图像中包括所述目标关键点的检测区域；

提取所述检测区域内的至少一个角点特征位置；

在每个角点特征位置处执行高斯卷积计算，得到所述帧图像对应的角点特征图；

将所述角点特征图与参考帧图像对应的角点特征图进行二维卷积计算以得到计算结果，其中，所述参考帧图像为所述多个帧图像中，按拍摄顺序位于所述帧图像之前且与所述帧图像相邻的帧图像；

确定所述计算结果中的最大值对应的位置；

根据所述最大值对应的位置对所述目标关键点的位置进行校正，以得到所述手势动作对象的关键点的位置。

13.根据权利要求11所述的图像处理方法，其中，所述交互动作对象包括第一手部和第二手部，

所述交互动作对象的关键点包括与所述第一手部对应的第一关键点和与所述第二手部对应的第二关键点，

根据所述交互动作对象的关键点在所述多个帧图像中的位置，识别所述交互动作，包括：

响应于所述第一关键点和所述第二关键点的位置变化均小于位置阈值的持续时间大于时间阈值：

确定所述交互动作为第一选择动作，以及

根据所述第一关键点和所述第二关键点的位置，确定交互区域。

14.根据权利要求13所述的图像处理方法，其中，根据所述第一关键点和所述第二关键点的位置，确定交互区域，包括：

基于所述第一关键点和所述第二关键点的位置确定外接区域框，将所述外接区域框作为所述交互区域。

15.根据权利要求13所述的图像处理方法，其中，根据所述多个处理后图像和所述交互动作，执行对应的交互操作，包括：

响应于所述交互动作为所述第一选择动作，

根据所述多个处理后图像，得到所述交互区域中内容的文字描述。

16.根据权利要求11所述的图像处理方法，其中，根据所述交互动作对象的关键点在所述多个帧图像中的位置，识别所述交互动作，包括：

响应于所述交互动作对象的关键点在所述识别对象上移动且检测到停止动作：

确定所述交互动作为第二选择动作，以及

根据所述交互动作对象的关键点的位置，确定所述交互动作对象的关键点在所述停止动作之间的移动轨迹，基于所述移动轨迹确定交互区域。

17.根据权利要求16所述的图像处理方法，其中，根据所述多个处理后图像和所述交互动作，执行对应的交互操作，包括：

响应于所述交互动作为所述第二选择动作，

根据所述多个处理后图像，识别所述交互区域中的内容。

18.根据权利要求2-10任一项所述的图像处理方法，其中，所述分割模型包括多尺度模块和主干网络模块，

所述多尺度模块包括第一子模块、第二子模块和第三子模块，

所述第一子模块、所述第二子模块和所述第三子模块配置为提取不同维度的特征，其中，

所述第一子模块配置为提取细节特征，

所述第二子模块和所述第三子模块配置为提取全局特征；

所述主干网络模块配置融合所述第一子模块、所述第二子模块和所述第三子模块提取的特征，以得到所述分割模型的输出。

19.根据权利要求18所述的图像处理方法，其中，所述第一子模块包括尺寸为1*1的卷积层和最大值池化层；

所述第二子模块包括多个第一空洞卷积层和多个反卷积层，其中，所述多个第一空洞卷积层被划分为多个分组进行分组卷积；

所述第三子模块包括多个第二空洞卷积层，其中，所述多个第三空洞卷积层被划分为多个分组进行分组卷积。

20.一种图像处理装置，包括：

图像获取模块，配置为利用拍摄装置拍摄交互动作对象在识别对象上进行的交互动作，得到多个帧图像；

处理模块，配置为对所述多个帧图像进行虚化处理，得到所述多个帧图像分别对应的多个处理后图像，其中，所述虚化处理使得在所述处理后图像中，所述交互动作对象不对所述识别对象中的显示内容构成遮挡；

识别模块，配置为根据所述多个帧图像，识别所述交互动作对象的所述交互动作；

执行模块，配置为根据所述多个处理后图像和所述交互动作，执行对应的交互操作。

21.一种电子设备，包括拍摄装置和图像处理单元，其中，

所述拍摄装置配置拍摄交互动作对象在识别对象上进行的交互动作，得到视频流；

所述图像处理单元配置为接收所述视频流，从所述视频流中获取所述多个帧图像，执行权利要求1-19任一项所述的图像处理方法。

22.一种电子设备，包括：

存储器，非瞬时性地存储有计算机可执行指令；

处理器，配置为运行所述计算机可执行指令，

其中，所述计算机可执行指令被所述处理器运行时实现根据权利要求1-19任一项所述的图像处理方法。

23.一种非瞬时性计算机可读存储介质，其中，所述非瞬时性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现根据权利要求1-19任一项所述的图像处理方法。