CN113596354A

CN113596354A - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN113596354A
Application number: CN202110841434.4A
Authority: CN
Inventors: 肖鑫雨; 孙子荀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-11-02
Anticipated expiration: 2041-07-23
Also published as: CN113596354B

Abstract

本发明实施例公开了一种图像处理方法、装置、计算机设备及存储介质，其中方法包括：响应于在目标图像中添加表情图像的触发操作，从目标图像中选取出一个或多个候选图像区域；对目标图像进行重要区域预测处理，并根据重要区域预测处理的预测结果从目标图像中选取出一个或多个重要图像区域；在目标图像中确定任一候选图像区域与任一重要图像区域位置关系，并根据位置关系从一个或多个候选图像区域中选取出目标图像区域；目标图像区域包括与重要图像区域不存在重叠的候选图像区域；将表情图像添加到目标图像区域中，可提升确定的表情图像的位置的可靠性，从而提升添加表情图像后图像的质量。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的不断深入发展，为了吸引用户对图像(或视频)进行观看，通常可采用在图像(或视频的视频帧)中添加表情图像，从而提升用户观看过程中的趣味性。而现有的在图像中进行表情图像添加时，大都采用的目标对象检测的算法，从而基于检测结果进行表情图像的添加，但是由于目标检测对检测目标的依赖能力很强，也就导致基于目标对象检测算法进行表情图像添加时的泛化能力差，从而导致无法选取出进行表情图像添加的合适的图像位置，由此可见，如何准确从图像中确定出进行表情图像添加的位置，成为了当前的研究热点。

发明内容

本发明实施例提供了一种图像处理方法、装置、计算机设备及存储介质，可提升确定的表情图像的位置的可靠性，从而提升添加表情图像后图像的质量。

一方面，本发明实施例提供了一种图像处理方法，包括：

响应于在目标图像中添加表情图像的触发操作，从所述目标图像中选取出一个或多个候选图像区域；

对所述目标图像进行重要区域预测处理，并根据重要区域预测处理的预测结果从所述目标图像中选取出一个或多个重要图像区域，重要图像区域是指所述目标图像中包括了关注对象的图像区域；

在所述目标图像中确定任一候选图像区域与任一重要图像区域之间的位置关系，并根据所述位置关系从所述一个或多个候选图像区域中选取出目标图像区域；所述目标图像区域包括与所述重要图像区域不存在重叠的候选图像区域；

将所述表情图像添加到所述目标图像区域中。

再一方面，本发明实施例提供了一种图像处理装置，包括：

选取单元，用于响应于在目标图像中添加表情图像的触发操作，从所述目标图像中选取出一个或多个候选图像区域；

处理单元，用于对所述目标图像进行重要区域预测处理，并根据重要区域预测处理的预测结果从所述目标图像中选取出一个或多个重要图像区域，重要图像区域是指所述目标图像中包括了关注对象的图像区域；

所述处理单元，还用于在所述目标图像中确定任一候选图像区域与任一重要图像区域之间的位置关系，并根据所述位置关系从所述一个或多个候选图像区域中选取出目标图像区域；所述目标图像区域包括与所述重要图像区域不存在重叠的候选图像区域；

所述处理单元，还用于将所述表情图像添加到所述目标图像区域中。

再一方面，本发明实施例提供了一种计算机设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持计算机设备执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如下步骤：

将所述表情图像添加到所述目标图像区域中。

再一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，所述程序指令被处理器执行时，所述程序指令被处理器执行时，用于执行如第一方面所述的图像处理方法。

在本申请实施例中，计算机设备可在需要为目标图像添加相应的表情图像时，分别从该目标图像中确定出一个或多个待进行表情图像添加的候选图像区域，以及基于对该目标图像进行重要区域预测处理的结果，从该目标图像中确定出一个或多个重要图像区域，继而，该计算机设备则可基于该重要图像区域在该目标图像中的显示位置，从该一个或多个候选图像区域中选取出未遮挡该重要图像区域的区域作为目标图像区域，以便后续将表情图像添加到该目标图像区域中，使计算机设备可基于包括了关注对象的重要图像区域在目标图像中的显示位置，对目标图像区域的选取进行监督，使计算机设备可从该目标图像中选取出较为合适的用于进行表情图像添加的目标图像区域，从而也就提升了在将表情图像添加到目标图像后得到的图像的质量。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的一种图像处理系统的示意图；

图1b是本发明实施例提供的一种添加表情图像的示意图；

图1c是本发明实施例提供的一种确定目标图像区域的示意图；

图2是本发明实施例提供的一种图像处理方法的示意流程图；

图3a是本发明实施例提供的一种在目标图像中添加表情图像的示意图；

图3b是本发明实施例提供的一种视觉重要性区域预测模型的模型结构图；

图3c是本发明实施例提供的一种将表情图像添加到目标图像后的示意图；

图4是本发明实施例提供的一种图像处理方法的示意流程图；

图5a是本发明实施例提供的一种进行像素翻转后的示意图；

图5b是本发明实施例提供的一种选取外接最小矩形的示意图；

图5c是本发明实施例提供的一种视觉重要性区域预测模型的模型结构图；

图5d是本发明实施例提供的一种选择目标图像区域的示意图；

图5e是本发明实施例提供的一种添加表情图像的示意图；

图5f是本发明实施例提供的一种为不同类型的视频帧中添加表情图像的示意图；

图6是本发明实施例提供的一种图像处理装置的示意性框图；

图7是本发明实施例提供的一种计算机设备的示意性框图。

具体实施方式

本申请实施例提出了一种图像处理方法，使计算机设备在需要将表情图像插入目标图像进行显示时，可先从该目标图像中选取出一个或多个候选图像区域，并基于对该目标图像的重要区域预测的结果，从该目标图像中选取出一个或多个重要图像区域，从而该计算机设备则可基于选取出的重要图像区域，对用于进行表情图像添加的目标图像区域进行监督选取，从而可在计算机设备选取出与重要图像区域不存在重叠的目标图像区域后，将该表情图像添加到该目标图像区域中，从而可在对该目标图像进行显示时，将该表情图像添加到该目标图像的目标图像区域后进行显示。在一个实施例中，该候选图像区域是计算机设备初步筛选出的，待进行表情图像添加的区域，而该重要图像区域则是该目标图像中包括了关注对象的区域，其中，关注对象是指在目标图像中进行表情图像添加时，不能被遮挡的对象，可以理解，基于目标图像的类型的不同，相应类型的目标图像中的关注对象也不相同，如目标图像的类型为海报类型时，对应的关注对象可以为海报类型的目标图像中的标语，而如果该目标图像的类型为人物类型时，对应的关注对象则可以包括人物类型的目标图像中的各个人物对象，需要说明的是，目标图像中的关注对象的数量可以是一个或多个，在本申请实施例中不做限定。另外，该目标图像区域是计算机设备从该一个或多个候选图像区域中选取出来的，未遮挡关注对象所在的重要图像区域的区域，使得计算机设备可实现在将表情图像添加到目标图像时，不对图像中的重点关注对象进行遮挡，从而提升将表情图像添加到目标图像后的显示效果。

在一个实施例中，该图像处理方法可应用在如图1a所示的图像处理系统中，如图1a所示，该图像处理系统包括用户终端10和计算机设备11，可以理解的是，该用户终端10用于选取目标图像，以及待添加到该目标图像中的表情图像，可以理解的是，在具体实现中，目标用户可通过用户终端10将待进行表情图像添加的目标图像，以及待添加的表情图像进行关联，从而可将关联后的目标图像和待添加的表情图像发送给计算机设备11，而该计算机设备11在从用户终端10接收到关联的目标图像和待添加的表情图像后，则可从该目标图像中选取出一个或多个候选图像区域，以及重要图像区域，并基于该重要图像区域对候选图像区域进行监督选取，以从该候选图像区域中选取出目标图像区域。在该计算机设备11从该候选图像区域中选取出目标图像区域后，在一种实现方式中，该计算机设备11可进一步参考该表情图像生成表情添加信息，并将该表情添加信息发送给用户终端10，那么，该用户终端10在从计算机设备11中获取到该表情添加信息后，则可根据该表情添加信息将该表情图像添加到目标图像的目标图像区域中进行显示。在该计算机设备11从该候选图像区域中选取出目标图像区域后，在另一种实现方式中，该计算机设备11还可直接将该表情图像添加到目标图像的目标图像区域中，并通过外接的显示设备(如上述的用户终端10)对在目标图像区域中添加了表情图像的目标图像进行显示。

在一个实施例中，计算机设备11在生成表情添加信息时，可不将该待添加的表情图像添加到目标图像中，直接基于该目标图像，关联的表情图像，以及该表情图像在目标图像相应的添加位置处生成表情添加信息，那么在这种情况下，该计算机设备11生成的表情添加信息中可以包括：目标图像，关联的表情图像，以及将该表情图像添加到该目标图像时对应的目标图像位置。或者，该计算机该设备11在生成表情添加信息时，也可先将该表情图像添加到目标图像的目标图像区域中，再进行表情添加信息的生成，那么在这种情况下，该计算机设备11生成的表情添加信息可以包括：添加了表情图像的目标图像。

在用户终端10将目标图像和表情图像进行关联时，可将该目标图像和该表情图像添加到脚本的相应字段中，从而可通过发送脚本实现将该目标图像和关联的表情图像发送到服务器11，那么，服务器11则可用过启动脚本实现对目标图像和关联的表情图像的获取。在一种实现方式中，用户终端10在将目标图像和关联的表情图像添加到脚本的相应字段，以实现将该目标图像和表情图像发送给服务器11时，可以是直接在脚本的相应字段中存储目标图像和表情图像，或者，该用户终端10也可以是将该目标图像的存储地址，或者该表情图像的存储地址添加到脚本的相应字段中进行发送的，也就是说，服务器11可基于脚本中各字段记录的存储地址进行目标图像，以及关联的表情图像的获取。

在一个实施例中，服务器11在获取到目标图像和关联的表情图像后，可基于某一个线上服务，并最终通过超文本传输协议(Hyper Text Transfer Protocol，HTTP协议)，将生成的表情添加信息反馈给用户终端10，其中，HTTP协议是用于从万维网服务器传输超文本到本地浏览器的传送协议，而用户终端10在接收到该表情添加信息后，可基于用户需求，并按照该表情添加信息的指示进行渲染显示。或者，该计算机设备也可直接通过HTTP协议输出可视化的渲染结果给用户终端10，从而在用户终端10中直接展示添加了表情图像的目标图像。在一个实施例中，该目标图像可以是单独的图像，或者，该目标图像也可以是从目标视频中抽取出的某个视频帧，在本申请实施例中不做限定。

在目标图像是目标视频中的任一需要进行表情图像添加的视频帧时，下面结合图1b，对为目标视频中需要添加表情图像的视频帧添加相应表情图像的过程进行说明，在为目标视频进行表情图像的添加时，计算机设备可在获取到目标视频和相应的表情包后，将目标视频中需要进行表情图像的每个视频帧分别作为目标图像，进而可在从目标图像中提取得到候选图像区域，并在确定出表情图像的添加位置后，将表情图像添加到确定出的添加位置中。计算机设备在选取候选图像区域，并在基于候选图像区域确定表情图像的添加位置时，可基于神经网络的目标检测提供的帧级别的目标信息进行检测选择，本申请实施例在从目标图像中选取目标图像区域进行表情图像的添加时，为了提升目标检测的适用性和可推广性，如图1c所示，计算机设备可基于视频中与目标图像相邻图像帧之间的变化，区分出该视频中各图像帧的前景图像区域和背景图像区域，从而基于确定出的前景图像区域和背景图像区域进行检测，并最终确定出添加表情图像的位置，而无需对特定的对象进行检测，从而可实现计算机设备在进行检测时的适用性和推广性，即可如图1c所示的，计算机设备可先确定该目标图像中的前景(即前景图像区域)和背景(即背景图像区域)，进而提取到候选图像区域，然后，结合视觉重要性区域预测模型对目标图像中重要图像区域的预测，确定出该目标图像中待进行表情图像添加的目标图像区域。

请参见图2，是本申请实施例提出的一种图像处理方法的示意流程图，该图像处理方法可具体由上述的计算机设备执行，如图2所示，该方法可包括：

S201，响应于在目标图像中添加表情图像的触发操作，从目标图像中选取出一个或多个候选图像区域。

在一个实施例中，计算机设备获取到用户终端发送的目标图像，以及关联的表情图像时，确定检测到在该目标图像中添加表情图像的触发操作，其中，该目标图像可以是单独的图像，或者也可以是目标视频中的某个指定的视频帧。若用户终端在进行目标图像及关联的表情图像的发送时，是通过脚本进行发送的，那么，在该目标图像是独立的图像时，计算机设备通过脚本获取到的图像即是用户需要进行表情图像添加的目标图像，而如果该目标图像为目标视频中的某个视频帧时，那么用户终端通过脚本发送到计算机设备的也是该目标视频，也就是说，该计算机设备在获取到该目标视频后，需要先从该目标视频中提取得到该目标图像，再确定该目标图像中的候选图像区域。需要说明的是，在本申请实施例中，主要以该目标图像为目标视频中的某个视频帧的情况进行详细说明，在该目标图像为独立图像时，可参见本申请实施例。

在该目标图像为目标视频中的某个视频帧时，可以理解，该目标视频中可能存在的需要被添加表情图像的视频帧的数量可为一个或多个，那么，该目标图像则可以是该目标视频中包括的需要被添加表情图像的一个或多个视频帧中的任一个。下面结合图3a，对用户通过用户终端将目标视频，以及相应需要被添加到视频中的表情图像发送到计算机设备，从而使该计算机设备基于用户终端发送的目标视频确定出目标图像，以及需要添加到该目标图像中的表情图像的过程进行说明。在一个实施例中，若用户确定该目标视频中需要被添加表情图像的视频帧有多个，那么，用户在通过用户终端将目标视频和相应的表情图像发送给计算机设备时，发送给计算机设备的表情图像的数量有多个，而为了使计算机设备在接收到目标视频和多个表情图像后，使计算机设备可确定出每个表情图像和目标视频中需要被添加的表情图像的视频帧之间的对应关系，用户在通过该用户终端发送目标视频和该多个表情图像时，会将该对应关系发送给计算机设备。在具体实现中，用户可通过将目标视频和需要被添加的一个或多个表情图像添加到脚本中，从而使得计算机设备可通过启动该脚本获取到目标视频和该表情图像。

在用户将目标视频和一个或多个表情图像添加到脚本时，可将该目标视频的视频地址，一个或多个表情图像所在表情包的表情包地址，以及每个表情图像被添加到目标视频中的时间信息写入脚本中，那么，计算机设备在获取到该脚本后，可根据该视频地址获取到相应的目标视频，通过表情包地址获取到一个或多个表情图像，以及根据该时间信息确定出需要添加表情图像的一个或多个视频帧，和每个视频帧需要被添加的表情图像，从而建立每个视频帧与表情图像之间的关联关系，也就可以理解，计算机设备在通过该视频地址获取到该目标视频后，则可基于该时间信息，从该目标视频中提取出一个或多个待进行表情图像添加的视频帧，并将提取得到的视频帧与相应的表情图像进行关联，从而使得计算机设备可对提取得到的每个视频帧和相应的表情图像进行识别处理，并生成表情添加信息反馈给用户，并在用户需要可视化结果时，将添加了表情图像的目标视频输出到用户终端供用户展示使用。

针对提取得到的任一视频帧，该计算机设备可将该任一视频帧作为目标图像，并将该任一视频帧关联的表情图像作为待添加到目标图像中的表情图像，从而基于对目标图像和该表情图像的处理，生成该表情添加信息。在具体实现中，该计算机设备将先对目标图像进行识别处理，以从该目标图像中选取出一个或多个候选图像区域。在一个实施例中，该计算机设备在基于时间信息从目标视频中提取得到待进行表情图像添加的视频帧时，可基于该时间信息，并根据帧率，对该目标视频以固定时间间隔进行抽帧处理，从而提取得到相应的视频帧，并将提取得到的任一视频帧作为目标图像。

在计算机设备从目标图像中进行候选图像区域的选取时，可通过从视频静止的背景中对移动的前景进行提取，以从目标图像中确定出前景和背景，其中，前景是指与目标图像在目标视频中的相邻视频帧相比，在目标图像的相应图像区域的变化大于等于预设阈值的图像区域，而背景则是指与目标图像在目标视频中的相邻视频帧相比，在目标图像的相应图像变化小于预设阈值的图像区域，那么，基于对前景和背景的区分，计算机设备可将目标图像中确定出的前景作为该候选图像区域。而在计算机设备从目标图像中确定出一个或多个候选图像区域后，为了使计算机设备能从该一个或多个候选图像区域中选取出最终进行表情图像添加的目标图像区域，且保证选取出的目标图像区域是未遮挡原目标图像中的重要图像信息(如人物或者标语等信息)的，该计算机设备还将对该目标图像中的重要图像信息所在的图像区域进行识别，即转而执行步骤S202。需要说明的是，该计算机设备在执行从目标图像中选取出一个或多个候选图像区域，以及执行从该目标图像中选取出一个或多个重要图像区域时，可先执行从目标图像中选取出一个或多个候选图像区域，再执行从该目标图像中选取出一个或多个重要图像区域；或者也可先执行从该目标图像中选取出一个或多个重要图像区域，再执行从目标图像中选取出一个或多个候选图像区域；或者，也可同时执行从目标图像中选取出一个或多个候选图像区域，以及从该目标图像中选取出一个或多个重要图像区域。

S202，对目标图像进行重要区域预测处理，并根据重要区域预测处理的预测结果从目标图像中选取出一个或多个重要图像区域，重要图像区域是指目标图像中包括了关注对象的图像区域。

在计算机设备从目标图像中选取出一个或多个候选图像区域后，由于计算机设备对候选图像区域的选择是利用无监督的方式进行获取的，那么可以理解，如果计算机设备在确定出候选图像区域后，直接随机地从基于无监督的方式确定出的候选图像区域中选取最终进行表情图像添加的目标图像区域，可能使计算机设备无法选取到最适合(即不对目标图像中的重要信息进行遮挡)的区域，那么，为了使计算机设备可从确定出的一个或多个候选图像区域中选取出合适的图像区域进行表情图像的添加，该计算机设备还可对目标图像进行重要区域预测处理，并从该目标图像中选取出一个或多个重要图像区域。在具体实现中，该计算机设备可采用视觉重要性提取机制来提取目标图像中的重要性区域，其中，视觉重要性提取是一种选择部分区域来进行注意提取的机制，而该视觉重要性提取机制可内置于视觉重要性区域预测模型(Visual Importance Prediction)中，也就是说，该计算机设备可调用视觉重要性区域预测模型来提取目标图像中的重要性区域。

在一个实施例中，该视觉重要性区域预测模型的模型结构可如图3b所示，该视觉重要性区域预测模型可包括池化模块、分类模块、级联模块和预测输出模块，其中，该池化模块用于对该目标图像的编码数据进行特征提取，以提取得到该目标图像的图像特征，而该分类模块则用于对目标图像进行识别，以确定该目标图像所属的图像类别，其中，该图像类别包括广告类别(用A表示)，报表类别(用I表示)，UI(一种用户界面)类别(用M表示)，海报类别(用P表示)，网页类别(用W表示)，自然景观类别(用N表示)。此外，该级联模块用于根据图像特征和确定出的图像类别确定该目标图像的目标特征，而该预测输出模块则用于根据该目标特征确定该目标图像中的重要图像区域。可以理解，基于对目标图像的图像类别的确定，可实现将图像类别的相关信息引入到该目标图像的目标特征中，其中，不同图像类别的图像对应的关注对象是不同的，如自然景观类别的图像所对应的关注对象自然景观，海报类别的图像对应的关注对象为人物和/或标语等，而通过在目标图像的目标特征中对图像类别的相关信息的引入，也就可实现在后续基于该目标特征进行重要图像区域的预测时，对基于该图像类别指示的需要关注的对象所在区域进行识别，也就是说，计算机设备最终基于该视觉重要性区域预测模型识别出的重要图像区域，为包括了该目标图像中需要关注的对象(即关注对象)的图像区域。

也就是说，本申请实施例在将目标图像中的关注对象的相关信息引入到目标图像对应的目标特征中时，是通过确定该目标图像所属的目标类别对应的关注对象进行引入的，而由于各图像类别对应的关注对象在综合的数据集上训练后即可确定出，也就是说，本申请实施例通过视觉重要性区域预测模型确定重要图像区域的过程，通过综合数据集对该模型的训练后，无需重复训练即可在在测试数据集的多种数据上进行迁移使用，即该模型是一种泛化性能较强的模型。在计算机设备从该目标图像区域中确定出一个或多个重要图像区域，以及一个或多个候选图像区域后，该计算机设备则可基于该重要图像区域和候选图像区域分别在目标图像中的位置关系，从该目标图像中确定出最终进行表情图像添加的目标图像区域。

S203，在目标图像中确定任一候选图像区域与任一重要图像区域之间的位置关系，并根据位置关系从一个或多个候选图像区域中选取出目标图像区域；目标图像区域包括与重要图像区域不存在重叠的候选图像区域。

S204，将表情图像添加到目标图像区域中。

在步骤S203和步骤S204中，计算机设备确定出一个或多个候选图像区域，以及确定出重要图像区域后，该计算机设备可基于重要图像区域在目标图像中的位置，对确定出的一个或多个候选图像区域被选取为目标图像区域的过程进行监督，即计算机设备在从该一个或多个候选图像区域中选取出目标图像区域时，如果选取出的目标图像区域是未遮挡该重要图像区域的，那么，也就使该计算机设备在确定出该目标图像区域，并在将表情图像添加到该目标图像区域后，未遮挡该目标图像中的重要图像区域(即未遮挡该目标图像中的关注对象)。在一个实施例中，计算机设备在基于该重要图像区域在目标图像中的位置，从一个或多个候选图像区域中选取出最终进行表情图像添加的目标图像区域后，可直接将待添加的表情图像添加到该目标图像中，或者，该计算机设备也可在确定出目标图像区域后，基于该目标图像区域和该表情图像生成表情添加信息，从而可在后续需要进行表情图像的添加时，基于该表情添加信息的指示，将表情图像添加到目标图像区域中。

在一个实施例中，在该目标视频需要被添加表情图像的视频帧有多个时，该计算机设备生成的表情添加信息的格式如下：

data{'start_time':[10.0,13.0,16.0,20.0],'name':["1.jpg","2.gif","3.jpg","4.jpg"],'duration_time':[1.5,1.5,1.5,1.5],'position':[[0.2987,0.3678],[0.5552,0.6128],[0.3016,0.6128],[0.5542,0.3652]],'scale_size':[[-1,0.2367],[-1,0.2369],[0.1302,-1],[-1,0.2369]],'probability':[0.4,0.6,0.8,1.0]}。

其中，"start_time"表示视频中表情包添加的各个时间点，单位是秒(s)，“name”表示选取添加的多个表情包的地址，"duration_time"表示每个表情包在视频里面持续的时间，"scale_size"表示各个表情包调整尺寸的比例，"position"是表情包添加的位置，"probability"是每个表情包添加的概率。那么，计算机设备在确定出目标图像区域后，直接将表情图像添加到目标图像区域，或者生成表情添加信息后，在后续基于表情添加信息将表情图像添加到目标图像区域中的目标图像，均可以如图3c所示。

在一个实施例中，该计算机设备在确定出重要图像区域和候选图像区域后，可采用的这些区域的最小外接矩形对相应区域进行表示的，那么，计算机设备在采用最小外接矩形对相应区域进行表示后，则可通过对比候选图像区域对应的最小外接矩形，以及重要图像区域的最小外接矩形之间是否存在重叠，来确定该候选图像区域与重要图像区域之间是否产生重叠，并在确定相应的最小外接矩形未重叠时，确定相应的重要图像区域和候选图像区域之间是否没有重叠的。在一个实施例中，如果计算机设备确定出的与重要图像区域之间未产生重叠的候选图像区域的数量为一个，那么确定出的与重要图像区域未产生重叠的一个候选图像区域则为该目标图像区域，而在另一种可能的实现方式中，如果计算机设备确定出的与重要图像区域之间未产生重叠的候选图像区域的数量为至少两个，该计算机设备可从该至少两个候选图像区域中随机选取一个作为该目标图像区域，或者，该计算机设备也可对先对该至少两个候选图像区域进行聚类运算，从而将距离聚类中心最近的候选图像区域选取为目标图像区域，其中，聚类运算是一种对包括的数据点进行分组的机器学习技术。

而在将该表情图像添加到目标图像区域中时，计算机设备可基于选取出的目标图像区域的尺寸大小，对该表情图像的图像大小进行调整，以使在将该表情图像添加到该目标图像区域时，该表情图像未超出该目标图像区域所对应的显示范围，也就是说，计算机设备在将表情图像添加到目标图像区域中进行显示时，需要保证该表情图像的图像大小是小于等于该目标图像区域的尺寸大小的。此外，在将该表情图像添加到目标图像区域中显示时，还将设定该表情图像在该目标图像区域中的显示时长，并在该显示时长到达时，取消对该表情图像的显示。

请参见图4，是本申请实施例提出的一种图像处理方法的示意流程图，本申请实施例也可由上述的计算机设备执行，此外，需要说明的是，在本申请实施例中所提及的目标图像是指从目标视频中提取出的一个视频帧，且按照上述实施例的描述可知，该目标图像已经关联有需要被添加的表情图像，其中，该目标视频可以是游戏视频，直播录制视频等，而在本申请实施例中，主要对确定目标图像的候选图像区域的过程，以及确定目标图像的重要图像区域的过程，进行详细说明，如图4所示，该方法可包括：

S401，响应于在目标图像中添加表情图像的触发操作，从目标图像中选取出一个或多个候选图像区域。

计算机设备获取得到目标图像，以及与该目标图像关联的表情图像时，可从用户终端发送的脚本进行获取，在具体实现中，该计算机设备可从用户终端中获取发送的脚本信息，其中，该脚本信息包括目标视频，目标视频在目标时刻待添加的表情图像；进一步的，该计算机设备则可根据脚本信息中记录的目标时刻，从目标视频中抽取出目标时刻对应的视频帧作为目标图像，并将目标时刻关联的表情图像作为目标图像待添加的表情图像。而在计算机设备确定出目标图像后，则可从该目标图像中选取出一个或多个候选图像区域，其中，该计算机设备可利用高斯混合模型(GMM)，对目标图像中的前景图像区域和背景图像区域进行区分，进而基于对前景图像区域和背景图像区域的区分，从目标图像中选取出一个或多个候选图像区域，其中，该高斯混合模型可以嵌入在opencv(一个基于BSD许可(开源)发行的跨平台计算机视觉库)中，也就是说，计算机设备可在需要从目标图像中选取出一个或多个候选图像区域时，通过调用opencv，从而实现对目标图像中的前景图像区域和背景图像区域的区分。其中，混合高斯模型用多个高斯概率密度函数(正态分布曲线)精确地量化变量分布，是将变量分布分解为若干基于高斯概率密度函数(正态分布曲线)分布的统计模型，而该高斯混合模型在opencv里面调用的接口为：

cv2.create Background Subtractor MOG2(//调用背景消除器MOG2

int history＝500，//过往帧数为500

double varThreshold＝16，//像素与混合高斯模型之间的马氏距离值为16

bool detectShadows＝true)。//执行背景检测

其中，history表示该目标视频中相对于该目标图像的过往帧数，在history为1时，用于指示目标图像与相邻图像之间的两帧差，varThreshold表示像素与模型之间的马氏距离，其中，值越大，对应的像素会被归到前景，值越小，前景对光照越敏感。在一个实施例中，对该视频背景消除算法的学习过程(即针对该高斯混合模型的学习过程)可包括如下的①－④个步骤：

①初始化高斯模型的各个参数。

②使用目标视频中的某个图像帧(如上述的目标图像的前一帧图像)进行模型的构建，即可使用第一个图像帧的第一个像素点确定的均值和方差，构造一个高斯模型。

③对于一个新来的图像(如上述的目标图像)，如果该图像相应的第一个像素在上述构建的高斯模型的k倍方差内，则确定该目标图像中的像素分布满足该高斯模型，并基于该新来的图像的像素对参数进行更新，即将基于该新来的图像的第一个像素确定出的均值和方差添加到原先的高斯模型中，得到混合高斯模型，其中，k为正整数，且k的取值可以是2、3或者4等。

④如果新来的图像不满足该高斯模型，则基于该新来的图像的像素点重新建立一个新的高斯模型。

在计算机设备生成混合高斯模型后，则可将新来像素点的值和混合高斯模型的每一个均值进行比较，如果相应的差值在j倍方差之内的话，则认为由相应像素点构成的图像区域为背景，否则为前景，其中，j也是正整数，且的取值和前述的k的取值可以相同，也可以不同，j的取值也可以是2、3或4等等。也就是说，计算机设备在生成混合高斯模型后，在从目标图像中选取出一个或多个候选图像区域时，可先获取目标图像中各像素点的像素值，以及各像素点对应的参考像素值；进而该计算机设备可根据目标图像中任一像素点的像素值与每个参考像素值之间的像素差异，从目标图像中选取出一个或多个候选图像区域；其中，候选图像区域中像素点的像素值与每个参考像素值之间的像素差异均大于差异阈值。在一个实施例中，参考像素值包括混合高斯模型的均值，该混合高斯模型包括的均值的数量为一个或多个，那么，确定目标图像中的各像素点与参考像素值之间的像素差异的过程，即是确定各像素点的像素值，与混合高斯模型的每个均值之间的差异。

在一个实施例中，任一像素点对应的参考像素值包括由目标图像的关联图像构建的混合高斯模型的均值，而目标图像和关联图像均是目标视频中的一个视频帧；那么，计算机设备在基于目标视频获取该混合高斯模型时，可先获取目标视频中第一帧图像中的第一个图像区域各像素点的像素值，并根据第一帧图像中的第一个图像区域中各像素点的像素值的均值和方差，构建初始高斯模型；然后可获取关联图像中的第一个图像区域各像素点的像素值，并获取关联图像中的第一个图像区域各像素点的像素值与初始高斯模型之间的马氏距离，进一步地，该计算机设备可在根据马氏距离确定关联图像满足初始高斯模型时，采用关联图像中各像素点的像素值对初始高斯模型的模型参数进行优化更新，得到混合高斯模型，混合高斯模型的均值为目标图像中相应图像区域中像素点对应的参考像素值。其中，该第一个图像区域是按照预设的图像划分规则确定出的，如该图像划分规则可以是，将图像(如上述的目标图像或关联图像)按照目标大小进行划分，并将划分得到的图像区域中，按照从左往右，从上往下的顺序最先取得的图像区域作为第一图像区域。

在计算机设备根据目标图像中任一像素点的像素值与每个参考像素值之间的像素差异，从目标图像中选取出一个或多个待进行表情图像添加的候选图像区域时，则可先根据目标图像中任一像素点的像素值与每个参考像素值之间的像素差异，从目标图像中选取出背景像素点和前景像素点；然后可对各前景像素点的像素值进行像素翻转，并调用区域提取函数提取由前景像素点构成的连通域对应的图像区域；进而将提取出的图像区域待进行表情图像添加的候选图像区域。其中，参考像素值包括混合高斯模型的均值，混合高斯模型包括的均值的数量为一个或多个，且一个均值与一个方差相关联，那么，计算机设备在根据目标图像中任一像素点的像素值与每个参考像素值之间的像素差异，从目标图像中选取出背景像素点和前景像素点时，可先获取目标图像中任一像素点的像素值与每个混合高斯模型的均值之间的像素差值，并在每个像素差值小于等于混合高斯模型的方差的预设倍数(如上述的j倍)时，将任一像素点作为目标图像的背景像素点，否则，将任一像素点作为目标图像的前景像素点。

也就是说，计算机设备在确定出目标图像的前景和背景后，可用cv2.morphologyEx函数做形态学操作(如开运算闭运算等)，以除去该目标图像中干扰的噪音，然后，该计算机设备可对图像像素值进行翻转，其中，该计算机设备在对任一像素点的像素值进行像素值翻转时，可采用如式1所示的计算公式进行计算得到。

255-p 式1

其中，p是目标图像中某个像素的像素值，像素值翻转是指对像素点的像素值进行二值化的过程。在一个实施例中，计算机设备进行像素值翻转的图像可如图5a所示，其中，图5a中由50标记的图像为目标图像，由51标记的图像为进行像素值翻转后的图像，在进行像素值翻转后的图像中，可明显区分出前景图像和背景图像，其中，该前景图像可以是如图5a中白色区域所示的图像，背景图像则可以是如图5a中黑色区域所示的图像，而计算机设备从目标图像中确定出的一个或多个候选图像区域则为如图5a中白色区域所示的图像。

而计算机设备在确定出候选图像区域后，还可利用cv2.findContours函数提取该候选图像区域对应连通域的外接最小矩形，得到相应添加区域的候选框，从而可在后续采用该候选框表示该候选图像区域，其中，连通域是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域，而该外接最小矩形则是恰好包括该候选图像区域的最小矩形，如图5b所示，若候选图像区域是如图5b中由501标记的图像区域，那么该候选图像区域501的外接最小矩形则是由502标记的矩形，而不是由503标记的矩形。

S402，对目标图像进行重要区域预测处理，并根据重要区域预测处理的预测结果从目标图像中选取出一个或多个重要图像区域，重要图像区域是指目标图像中包括了关注对象的图像区域。

计算机设备在对目标图像进行重要区域预测处理时，可调用视觉重要性区域预测模型中的分类组件(或分类模块)对目标图像进行分类处理，得到目标图像所属的图像类别，并调用视觉重要性区域预测模型中池化组件(或称之为池化模块)对目标图像进行采样处理，得到目标图像对应的一个或多个采样特征信息(即该目标图像的图像特征)；进而该计算机设备可根据图像类别，确定目标图像的关注偏好信息，并根据关注偏好信息和一个或多个采样特征信息，对目标图像进行重要区域预测处理，该关注偏好信息用于描述目标图像的关注对象。在一个实施例中，该视觉重要性区域预测模型中的池化模块可以是空间金字塔池化模块，那么，采用该视觉重要性区域预测模型对目标图像进行处理的过程具体可如图5c所示。

在一个实施例中，计算机设备可将该目标图像输入空间金字塔池化模块，以捕获该目标图像中不同尺度的图像特征，并在通过分类模块对目标图像进行分类处理后，经过级联层将来自金字塔池化模块的输出与从分类模块获得的特征结合起来，获得最后的重要性预测输出，为了对比该视觉重要性区域预测模型的泛化能力，可采用该视觉重要性区域预测模型分别对如图5d所示的来源于不同视频中的目标图像进行预测处理，得到每个图像的重要图像区域(得到的重要图像区域在图5d中由矩形图框出)，如图5d所示的预测结果可知，采用该视觉重要性区域预测模型，可较好地对不同的视频来源中图像的关注对象所在的图像区域进行精准的预测，也就是说，该模型具有较强的在不同数据上迁移使用的能力，且具有较好的泛化性能。

和前述的确定出目标图像中的参考图像区域后，采用该参考图像区域对应的外接最小矩形对该参考图像区域进行代表的方式相似，在计算机设备确定出重要图像区域后，同样可确定这些重要图像区域对应的最小外接矩形，从而可将重要图像区域对应的最小外接矩形作为相应重要图像区域的表示。在一个实施例中，基于对重要图像区域的选取，计算机设备可在后续从候选图像区域中选取出目标图像区域时，基于重要图像区域及候选图像区域分别在目标图像中的位置，从候选图像区域中选取未遮挡重要图像区域(或对重要图像区域的遮挡小于阈值的候选图像区域)作为目标图像区域，也就是说，计算机设备可在进行目标图像区域的选取时，可根据候选图像区域是否遮挡重要图像区域，以及对重要图像区域的遮挡程度，对目标图像区域的选取过程进行监督，从而可提升确定出的目标图像区域的鲁棒性和合理性。

S403，确定任一候选图像区域在目标图像中的第一位置，及任一重要图像区域在目标图像中的第二位置，并根据所述第一位置和所述第二位置，从任一候选图像区域中选取出与任一重要图像区域不存在重叠的备选图像区域。

S404，根据选取出的备选图像区域与任一重要图像区域之间的距离，对选取出的备选图像区域进行排序。

S405，根据排序结果从备选图像区域中选取出目标图像区域；目标图像区域包括与重要图像区域不存在重叠的候选图像区域。

S406，将表情图像添加到目标图像区域中。

在步骤S403-步骤S406中，计算机设备在从目标图像中确定出一个或多个候选图像区域，以及一个或多个重要图像区域后，该计算机设备可基于该候选图像区域在目标图像中的第一位置，以及重要图像区域在目标图像中的第二位置，从该候选图像区域中选取出与重要图像区域不存在重叠的备选图像区域。其中，若该计算机设备选取出的备选图像区域的数量为N个，N为正整数，则该计算机设备可先对选取出的N个备选图像区域进行排序，其中，计算机设备在对N个备选图像区域进行排序时，可基于各备选图像区域和重要图像区域分别在目标图像中的位置，确定各备选图像区域与重要图像区域之间的距离，进而可按照距离由近到远的顺序，对N个备选图像区域进行排序。其中，如果计算机设备确定出的重要图像区域的数量为一个，则任一备选图像区域和重要图像区域在目标图像中对应位置的距离，则是任一备选图像区域和这一个重要图像区域在目标图像中对应位置之间的距离；而如果确定出的重要图像区域的数量为至少两个，则任一备选图像区域和重要图像区域在目标图像中对应位置之间的距离，为任一备选图像区域和每个重要图像区域之间的距离的均值，或者为任一备选图像区域和每个重要图像区域之间的距离的最小值(或最大值)等。

计算机设备在对选取出的N个备选图像区域进行排序后，该计算机设备可进一步地基于对该N个备选图像区域的排序结果，从该N个备选图像区域中选取出最终进行表情图像添加的目标图像区域。在一个实施例中，该计算机设备在根据排序结果从备选图像区域中选取出目标图像区域时，可先根据排序结果从N个备选图像区域中选取出M个备选图像区域，M≤N，且M为正整数，基于计算机设备对备选图像区域的进一步选取，可进一步限缩待选的备选图像区域的数量，从而可降低后续计算机设备的计算量，有效节省计算机设备的处理资源，提升计算机设备后续对选取出的备选图像区域的处理效率，其中，被选取出的M个备选图像区域可以是计算机设备随机选取出的，或者，该计算机设备也可按照与重要图像区域之间的距离由近及远的顺序，从N个备选图像区域中进一步选取出M个备选图像区域。那么，在计算机设备选取出M个备选图像区域后，该计算机设备可采用聚类算法对M个备选图像区域进行聚类运算，得到聚类中心，并从M个备选图像区域中选取出离聚类中心最近的备选图像区域作为目标图像区域。由于聚类运算得到的聚类中心，可表示参与聚类的数据(如上述的M个备选图像区域)所具备的共性，也就是说，可以用聚类中心来统一表示参与聚类的数据，那么基于计算机设备对选取出的M个备选图像区域的聚类运算得到聚类中心的过程，计算机设备可确定出可统一表示这M个备选图像区域的聚类中心，那么进一步地，计算机设备基于该聚类中心所选取出的与该聚类中心距离最近的备选图像区域，即是该M个备选图像区域中，最能表示这M个备选图像区域的位置，也就是说，通过对M个备选图像区域的聚类过程，并基于聚类中心从M个备选图像区域中所选取出的目标图像区域，是最具代表性图像区域，可以理解，该最具代表性的图像区域，即是计算机设备进行表情图像添加时最合理的图像区域，进而可提升计算机设备在确定进行表情图像添加的目标图像区域的合理性，从而可在计算机设备按照确定出的目标图像区域进行表情图像的添加后的用户的满意度。

在另一种实现方式中，该计算机设备在选取出N个备选图像区域后，该计算机设备还可根据任一备选图像区域与重要图像区域分别在目标图像中的位置，将N个备选图像区域中，与重要图像区域之间的距离最远的图像区域作为目标图像区域，由于选取出的目标图像区域是与重要图像区域之间的距离最远的，可进一步保证计算机设备在目标图像中添加表情图像后，不对目标图像中的关注对象进行遮挡。或者，在另一种实现方式中，该计算机设备在选取出N个备选图像区域后，还可将N个备选图像区域中，与重要图像区域之间的距离最近的图像区域作为目标图像区域，从而使得计算机设备在将表情图像添加到目标图像后，添加的表情图像与目标图像中的关注对象是最近的，而由于关注对象是用户在浏览该目标图像时重点观看的对象，那么通过将表情图像添加到与关注对象较近的位置，可避免用户在查看目标图像时忽视了表情图像，进而可提升目标图像对用户的吸引力，并从而实现对用户粘性的提升。

此外，计算机设备在确定出N个备选图像区域后，也可不进一步从N个备选图像区域中选取出M个备选图像区域，而是直接对选取出的N个备选图像区域进行聚类运算，并基于聚类运算得到的聚类中心，从N个备选图像区域中选取出离该聚类中心最近的备选图像区域作为目标图像区域。其中，该N的取值可能为10，而该M的取值则可能为5或者3，在本申请实施例中，对M和N的具体取值大小不做限定。而需要说明的是，计算机设备在选取备选图像区域时，除了可将与重要图像区域不存在重叠的候选图像区域选取出来之外，也可将与重要图像区域存在重叠，但重叠区域的大小小于预设阈值(或预设比例)选取出来作为备选图像区域，该预设阈值可以为1平方厘米(或预设比例为相应于重要图像区域的1％)等，从而可提升计算机设备在基于备选图像区域进行目标图像区域选择时的成功率。

在一个实施例中，由于计算机设备选确定出的候选图像区域和重要图像区域，均可采用相应的最小外接矩形进行表示，那么，下面结合图5e，对计算机采用最小外接矩形(或矩形框)分别对候选图像区域和重要图像区域进行表示后的，该计算机设备对目标图像中的目标图像区域进行确定的过程进行描述，其中，用于表示候选图像区域的最小外接矩形可以为候选框，而用于表示重要图像区域的最小外接矩形可以为参考框。那么，该计算机设备确定该候选框和参考框，并根据该候选框和参考框从目标图像中确定出目标图像区域的过程如下：

1)分别对目标图像进行识别处理，从而得到该目标图像的一个或多个候选框，以及一个或多个参考框；

2)利用参考框作为监督，以对从得到的一个或多个候选框中筛选出靠近目标(即该参考框)，但不会遮挡(即不存在重叠，或者重叠区域较小)目标的备选的候选框，具体地，该计算机设备可依次输入得到的候选框，并分别计算其和参考框之间是否存在遮挡，如果没有遮挡，则该计算机设备可进一步确定其与参考框之间的距离，从而可基于该距离，对所有的没有遮挡的备选的候选框按照距离由近及原的顺序进行排列，并基于该次序选取出前几个(如上述的前M个)最近的备选的候选框。

3)利用聚类算法对选取出的备选的候选框进行聚类运算，从而确定出聚类中心，进而可根据聚类中心选取离该聚类中心最近的备选的候选框，作为表情包添加的位置(即目标图像区域)。

4)根据确定的目标图像区域和表情图像生成表情添加信息，或者，直接将表情图像添加到目标图像区域中进行输出显示。而计算机设备在直接将表情图像添加到目标图像区域进行显示时，可根据该目标图像中关注对象的尺寸(如人物或标语在目标图像中的显示尺寸)，以及该目标图像区域的尺寸，对表情图像的尺寸进行调整，并根据脚本信息中指示的显示时间，将该表情图像添加到目标图像区域中进行显示，其中，该计算机设备可将设定1/5时间点作为添加的起始时间，而3/5比例时间作为表情包的持续时间。

在一个实施例中，该计算机设备在将表情图像添加到目标图像区域时，为了避免表情图像在目标图像区域中进行显示后，对应显示效果较差(如显示在目标图像区域的表情图像过小而导致的无法正常查看该表情图像)，该计算机设备可在将表情图像添加到目标图像区域时，先获取目标图像中存在的目标对象的尺寸，并调整表情图像的图像尺寸，使表情图像的图像尺寸和目标对象的尺寸相同；进而可获取表情图像在目标图像中的持续时间，并在目标图像区域中，显示调整后的表情图像，并在持续时间到达后，取消显示表情图像。其中，该目标图像中的目标对象可以是该目标图像中的关注对象，或者，也可以是特定的对象(如人物对象等)，由于显示在目标图像中的对象肯定是能被进行有效查看的对象，所以，基于目标对象的尺寸大小对表情图像的尺寸调整，可保证被显示的表情图像是可被有效查看的，从而可提升表情图像被添加到目标图像区域后的显示效果。

此外，该计算机设备在将表情图像添加到目标图像区域时，为了避免表情图像的尺寸和待进行表情图像添加的目标图像区域的尺寸的不一致，而导致的表情图像溢出目标图像区域进行显示，该计算机设备在对表情图像的图像尺寸进行调整时，还可参考该目标图像区域的尺寸，即该计算机设备需要将该表情图像的图像尺寸调整为小于等于该目标图像区域的尺寸的大小，从而可使得计算机设备在将表情图像添加到目标图像区域后，该表情图像是在目标图像区域内进行显示的。在另一种实现方式中，该计算机设备在确定出目标图像区域后，还可基于该目标图像区域与任一重要图像区域之间的距离，确定计算机设备在进行表情图像的添加时，该表情图像可超出显示的尺寸范围，也就是说，表情图像在基于目标图像区域的可超出尺寸范围内进行显示时，也不会对目标图像中的关注对象进行遮挡，那么，该计算机设备在对该表情图像的图像尺寸进行调整时，也可基于该目标图像区域的尺寸大小，以及可超出显示的尺寸范围对该表情图像的图像尺寸进行调整。

在计算机设备对表情图像的尺寸进行调整后，该计算机设备还可根据调整后的表情图像，以及表情图像在目标图像中的持续时长生成表情添加信息；从而使得该计算机设备可将表情添加信息发送给用户，以使用户在相应的用户终端中，将调整后的表情图像渲染在目标图像中进行显示。在一个实施例中，该计算机设备可将不同类型的视频中的图像帧作为目标图像，以将相应待添加的表情图像添加到目标图像中进行显示，其中，计算机设备为不同类型视频中的视频帧添加表情图像后的示意图可如图5f所示，其中，图5f中由52标记的示意图为在线战斗技术型(MOBA)类的游戏视频中添加表情图像后的示意图，由53标记的示意图为格斗类的游戏视频中添加表情图像后的示意图，由54标记的示意图为射击类的游戏视频中添加表情图像后的示意图。如图5f所示，采用本申请实施例提出的图像处理方法，在为不同类型的游戏视频中的视频帧添加表情图像后，可很好的帮助用户后期进行视频(如游戏视频等)制作的过程，从而可提高视频制作的效率，增强制作的效果。而相对于用户而言，用户可通过发送视频、表情图像，以及对应的添加位置的方式，所实现将表情图像添加到视频中，可降低对计算机设备的能力要求，支持无GPU(图形处理器)的快速成片，满足多场合进行表情图像添加的需求。

在本申请实施例中，计算机设备可在需要在目标图像中添加表情图像时，先从目标图像中确定出候选图像区域，以及关注对象所在的重要图像区域，进一步地，该计算机设备可基于该候选图像区域和重要图像区域之间的位置关系，从候选图像区域中选取出未遮挡重要图像区域的备选图像区域，进而可基于该备选图像区域与重要图像区域之间的距离，从备选图像区域中最终选取粗目标图像区域，可有效提升对不同视频中的图像进行表情包添加的推广效率，有利于技术推广，同时可丰富视频画面、降低用户拍摄视频的门槛、并挺高用户体验度，提升交互应用场景的多元化。

基于上述图像处理方法实施例的描述，本发明实施例还提出了一种图像处理装置，该图像处理装置可以是运行于上述计算机设备中的一个计算机程序(包括程序代码)。该图像处理装置可用于执行如图2和图4所述的图像处理方法，请参见图6，该图像处理装置包括：选取单元601和处理单元602。

选取单元601，用于响应于在目标图像中添加表情图像的触发操作，从所述目标图像中选取出一个或多个候选图像区域；

处理单元602，用于对所述目标图像进行重要区域预测处理，并根据重要区域预测处理的预测结果从所述目标图像中选取出一个或多个重要图像区域，重要图像区域是指所述目标图像中包括了关注对象的图像区域；

所述处理单元602，还用于在所述目标图像中确定任一候选图像区域与任一重要图像区域之间的位置关系，并根据所述位置关系从所述一个或多个候选图像区域中选取出目标图像区域；所述目标图像区域包括与所述重要图像区域不存在重叠的候选图像区域；

所述处理单元602，还用于将所述表情图像添加到所述目标图像区域中。

在一个实施例中，所述选取单元601，具体用于：

获取所述目标图像中各像素点的像素值，以及各像素点对应的参考像素值；

根据所述目标图像中任一像素点的像素值与每个参考像素值之间的像素差异，从所述目标图像中选取出一个或多个候选图像区域；其中，所述候选图像区域中像素点的像素值与每个参考像素值之间的像素差异大于差异阈值。

在一个实施例中，任一像素点对应的参考像素值包括由所述目标图像的关联图像构建的混合高斯模型的均值，所述目标图像和所述关联图像均是目标视频中的一个视频帧；所述装置还包括：获取单元603。

获取单元603，用于获取所述目标视频中第一帧图像中的第一个图像区域各像素点的像素值，并根据所述第一帧图像中的第一个图像区域中各像素点的像素值的均值和方差，构建初始高斯模型；

所述获取单元603，还用于获取所述关联图像中的第一个图像区域各像素点的像素值，并获取所述关联图像中的第一个图像区域各像素点的像素值与所述初始高斯模型之间的马氏距离；

所述处理单元602，还用于在根据所述马氏距离确定所述关联图像满足所述初始高斯模型时，采用所述关联图像中各像素点的像素值对所述初始高斯模型的模型参数进行优化更新，得到混合高斯模型，所述混合高斯模型的均值为所述目标图像中相应图像区域中像素点对应的参考像素值。

在一个实施例中，所述选取单元601，具体用于：

根据所述目标图像中任一像素点的像素值与每个参考像素值之间的像素差异，从所述目标图像中选取出背景像素点和前景像素点；

对各前景像素点的像素值进行像素翻转，并调用区域提取函数提取由所述前景像素点构成的连通域对应的图像区域；

将提取出的图像区域作为待进行表情图像添加的候选图像区域。

在一个实施例中，所述参考像素值包括混合高斯模型的均值，所述混合高斯模型包括的均值的数量为一个或多个，且一个均值与一个方差相关联；所述选取单元601，具体用于：

获取所述目标图像中任一像素点的像素值与每个混合高斯模型的均值之间的像素差值，并在每个像素差值小于等于所述混合高斯模型的方差的预设倍数时，将所述任一像素点作为所述目标图像的背景像素点；

否则，将所述任一像素点作为所述目标图像的前景像素点。

在一个实施例中，所述处理单元602，具体用于：

调用视觉重要性区域预测模型中的分类组件对所述目标图像进行分类处理，得到所述目标图像所属的图像类别，并调用所述视觉重要性区域预测模型中池化组件对所述目标图像进行采样处理，得到所述目标图像对应的一个或多个采样特征信息；

根据所述图像类别，确定所述目标图像的关注偏好信息，并根据所述关注偏好信息和所述一个或多个采样特征信息，对所述目标图像进行重要区域预测处理；所述关注偏好信息用于描述所述目标图像的关注对象。

在一个实施例中，所述处理单元602，具体用于：

确定任一候选图像区域在所述目标图像中的第一位置，及任一重要图像区域在所述目标图像中的第二位置，并根据所述第一位置和所述第二位置，从所述任一候选图像区域中选取出与任一重要图像区域不存在重叠的备选图像区域；

根据选取出的备选图像区域与任一重要图像区域之间的距离，对选取出的备选图像区域进行排序；

根据排序结果从所述备选图像区域中选取出目标图像区域。

在一个实施例中，其特征在于，选取出的备选图像区域的数量为N个，所述N为正整数；所述处理单元602，具体用于：

根据排序结果从所述N个备选图像区域中选取出M个备选图像区域，所述M≤N，且所述M为正整数；

采用聚类算法对所述M个备选图像区域进行聚类运算，得到聚类中心，并从所述M个备选图像区域中选取出离所述聚类中心最近的备选图像区域作为目标图像区域。

在一个实施例中，所述处理单元602，具体用于：

获取所述目标图像中存在的目标对象的尺寸，并调整所述表情图像的图像尺寸，使所述表情图像的图像尺寸和所述目标对象的尺寸相同；

获取所述表情图像在所述目标图像中的持续时间，并在所述目标图像区域中，显示调整后的表情图像，并在所述持续时间到达后，取消显示表情图像。

在一个实施例中，所述处理单元602，还用于根据调整后的表情图像，以及所述表情图像在所述目标图像中的持续时长生成表情添加信息；

所述处理单元602，还用于将所述表情添加信息发送给用户，以使所述用户在相应的用户终端中，将调整后的表情图像渲染在所述目标图像中进行显示。

所述获取单元603，还用于从用户终端中获取发送的脚本信息，所述脚本信息包括目标视频，以及所述目标视频在目标时刻待添加的表情图像；

所述处理单元602，还用于根据所述脚本信息中记录的目标时刻，从所述目标视频中抽取出所述目标时刻对应的视频帧作为目标图像，并将所述目标时刻关联的表情图像作为所述目标图像待添加的表情图像。

在本申请实施例中，获取单元601可在需要为目标图像添加相应的表情图像时，分别从该目标图像中确定出一个或多个待进行表情图像添加的候选图像区域，以及基于对该目标图像进行重要区域预测处理的结果，从该目标图像中确定出一个或多个重要图像区域，继而，处理单元602则可基于该重要图像区域在该目标图像中的显示位置，从该一个或多个候选图像区域中选取出未遮挡该重要图像区域的区域作为目标图像区域，以便后续将表情图像添加到该目标图像区域中，使理单元602可基于包括了关注对象的重要图像区域在目标图像中的显示位置，对目标图像区域的选取进行监督，可从该目标图像中选取出较为可靠的用于进行表情图像添加的目标图像区域，从而也就提升了在将表情图像添加到目标图像后得到的图像的质量。

请参见图7，是本发明实施例提供的一种计算机设备的结构示意性框图，其中，该计算机设备可以是终端设备，也可以是服务器。如图7所示的本实施例中的计算机设备可包括：一个或多个处理器701；一个或多个输入设备702，一个或多个输出设备703和存储器704。上述处理器701、输入设备702、输出设备703和存储器704通过总线705连接。存储器704用于存储计算机程序，所述计算机程序包括程序指令，处理器701用于执行所述存储器704存储的程序指令。

所述存储器704可以包括易失性存储器(volatile memory)，如随机存取存储器(random-access memory，RAM)；存储器704也可以包括非易失性存储器(non-volatilememory)，如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储器704还可以包括上述种类的存储器的组合。

所述处理器701可以是中央处理器(central processing unit，CPU)。所述处理器701还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)等。该PLD可以是现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)等。所述处理器701也可以为上述结构的组合。

本发明实施例中，所述存储器704用于存储计算机程序，所述计算机程序包括程序指令，处理器701用于执行存储器704存储的程序指令，用来实现上述如图2和图4中相应方法的步骤。

在一个实施例中，所述处理器701被配置调用所述程序指令，用于执行：

将所述表情图像添加到所述目标图像区域中。

在一个实施例中，任一像素点对应的参考像素值包括由所述目标图像的关联图像构建的混合高斯模型的均值，所述目标图像和所述关联图像均是目标视频中的一个视频帧；所述处理器701被配置调用所述程序指令，用于执行：

获取所述目标视频中第一帧图像中的第一个图像区域各像素点的像素值，并根据所述第一帧图像中的第一个图像区域中各像素点的像素值的均值和方差，构建初始高斯模型；

获取所述关联图像中的第一个图像区域各像素点的像素值，并获取所述关联图像中的第一个图像区域各像素点的像素值与所述初始高斯模型之间的马氏距离；

在根据所述马氏距离确定所述关联图像满足所述初始高斯模型时，采用所述关联图像中各像素点的像素值对所述初始高斯模型的模型参数进行优化更新，得到混合高斯模型，所述混合高斯模型的均值为所述目标图像中相应图像区域中像素点对应的参考像素值。

在一个实施例中，所述参考像素值包括混合高斯模型的均值，所述混合高斯模型包括的均值的数量为一个或多个，且一个均值与一个方差相关联；所述处理器701被配置调用所述程序指令，用于执行：

否则，将所述任一像素点作为所述目标图像的前景像素点。

根据排序结果从所述备选图像区域中选取出目标图像区域。

在一个实施例中，选取出的备选图像区域的数量为N个，所述N为正整数；所述处理器701被配置调用所述程序指令，用于执行：

根据调整后的表情图像，以及所述表情图像在所述目标图像中的持续时长生成表情添加信息；

将所述表情添加信息发送给用户，以使所述用户在相应的用户终端中，将调整后的表情图像渲染在所述目标图像中进行显示。

从用户终端中获取发送的脚本信息，所述脚本信息包括目标视频，以及所述目标视频在目标时刻待添加的表情图像；

根据所述脚本信息中记录的目标时刻，从所述目标视频中抽取出所述目标时刻对应的视频帧作为目标图像，并将所述目标时刻关联的表情图像作为所述目标图像待添加的表情图像。

本发明实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述如图2或图4所示的方法实施例。其中，所述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明的局部实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或局部流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

将所述表情图像添加到所述目标图像区域中。

2.如权利要求1所述的方法，其特征在于，所述从所述目标图像中选取出一个或多个候选图像区域，包括：

3.如权利要求2所述的方法，其特征在于，任一像素点对应的参考像素值包括由所述目标图像的关联图像构建的混合高斯模型的均值，所述目标图像和所述关联图像均是目标视频中的一个视频帧；所述方法还包括：

4.如权利要求2所述的方法，其特征在于，所述根据所述目标图像中任一像素点的像素值与每个参考像素值之间的像素差异，从所述目标图像中选取出一个或多个待进行表情图像添加的候选图像区域，包括：

5.如权利要求4所述的方法，其特征在于，所述参考像素值包括混合高斯模型的均值，所述混合高斯模型包括的均值的数量为一个或多个，且一个均值与一个方差相关联；所述根据所述目标图像中任一像素点的像素值与相应的参考像素值之间的像素差异，从所述目标图像中选取出背景像素点和前景像素点，包括：

否则，将所述任一像素点作为所述目标图像的前景像素点。

6.如权利要求1所述的方法，其特征在于，所述对所述目标图像进行重要区域预测处理，包括：

7.如权利要求1所述的方法，其特征在于，所述在所述目标图像中确定任一候选图像区域与任一重要图像区域之间的位置关系，并根据所述位置关系从所述一个或多个候选图像区域中选取出目标图像区域，包括：

根据排序结果从所述备选图像区域中选取出目标图像区域。

8.如权利要求7所述的方法，其特征在于，选取出的备选图像区域的数量为N个，所述N为正整数；所述根据排序结果从所述备选图像区域中选取出目标图像区域，包括：

9.如权利要求1所述的方法，其特征在于，所述将所述表情图像添加到所述目标图像区域中，包括：

10.如权利要求9所述的方法，其特征在于，所述方法还包括：

11.如权利要求1所述的方法，其特征在于，所述方法还包括：

12.一种图像处理装置，其特征在于，包括：

13.一种计算机设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、所述输入设备、所述输出设备和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1～11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1～11任一项所述的方法。