CN111368127A

CN111368127A - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN111368127A
Application number: CN202010152684.2A
Authority: CN
Inventors: 李岩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-03
Anticipated expiration: 2040-03-06
Also published as: CN111368127B

Abstract

本申请公开了一种图像处理方法、装置、计算机设备及存储介质，属于计算机技术领域。本申请通过获取指示第一图像中图像内容的含义第一语义特征，基于第一语义特征和表情图像的第二语义特征，从多个表情图像中筛选出与第一图像语义接近的目标表情图像，从而实现两图像之间的语义匹配，提高了表情图像筛选的准确率，最终生成包括目标表情图像的第二图像，进而提高图像处理的准确性；并且，该过程能够在高准确率推荐表情图像的前提下，同时可适用于任何内容的图像，提高了适用性。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，图像处理技术的应用场景越来越广泛。在一些场景需求中，可以在图像中插入一些表情图像，例如，在人脸图像中添加兔耳朵、猫鼻子等的表情，增加人脸图像的趣味效果。

相关技术中，图像处理过程可以包括：用户触发计算机设备进入图像编辑模式，用户可以在已下载的表情库中选择一个目标表情图像拖到目标图像上，以使计算机设备将目标表情图像添加至目标图像中用户所拖动的位置上，从而生成了包括表情的目标图像。或者，用户视频聊天过程中，计算机设备采集用户人脸图像，定位人脸图像中五官位置，并将用户选择的五官表情添加到人脸图像中对应五官位置，例如，将猫鼻子添加到人脸图像中鼻子位置，从而美化人脸图像。

上述图像处理过程或是用户选择已下载表情图像插入目标图像，或是仅针对人脸图像的五官区域插入表情图像。然而已下载的有限表情图像可能与目标图像的图像内容、图像风格等并不相符，用户往往很难挑选出合适的表情图像，导致图像处理的准确性较差；即使有匹配的五官表情图像，但也仅适用于包括人脸的图像，对于其他图像，例如，风景图、室内图等，则无法实现；导致图像处理的适用性较差。

发明内容

本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质，提高了图像处理准确性，提升了适用性的问题。所述技术方案如下：

一方面，提供了一种图像处理方法，所述方法包括：

确定待处理的第一图像；

对所述第一图像进行图像语义分析，获取所述第一图像的第一语义特征，所述第一语义特征用于指示所述第一图像中图像内容的含义；

基于所述第一语义特征和多个表情图像的第二语义特征，从所述多个表情图像中筛选出与所述第一图像的相似度满足目标条件的目标表情图像，所述第二语义特征用于指示表情图像中图像内容的含义；

根据所述目标表情图像和所述第一图像，生成第二图像。

另一方面，提供了一种图像处理装置，所述装置包括：

确定模块，用于确定待处理的第一图像；

获取模块，用于对所述第一图像进行图像语义分析，获取所述第一图像的第一语义特征，所述第一语义特征用于指示所述第一图像中图像内容的含义；

筛选模块，用于基于所述第一语义特征和多个表情图像的第二语义特征，从所述多个表情图像中筛选出与所述第一图像的相似度满足目标条件的目标表情图像，所述第二语义特征用于指示表情图像中图像内容的含义；

生成模块，用于根据所述目标表情图像和所述第一图像，生成第二图像。

在一种可能实现方式中，所述获取模块，还用于获取每个第一语义标签的第一语义向量，所述第一语义向量包括第一语义标签分别在多个维度对应的特征值；根据所述每个第一语义标签的置信度和第一语义向量，确定所述第一图像的第一图像向量，所述第一图像向量包括多个用于描述所述第一图像在所述多个维度的特征的特征值。

在一种可能实现方式中，所述筛选模块，还用于根据所述第一语义特征和所述多个表情图像的第二语义特征，确定所述第一图像与每个表情图像之间的第一相似度，从所述多个表情图像中筛选出第一相似度满足第一目标条件的多个第一表情图像；获取目标应用中用户的用户特征，所述目标应用是指承载对所述第一图像的处理流程的应用；根据所述用户特征，从所述多个第一表情图像中筛选出第二语义特征与所述用户特征之间的第二相似度满足第二目标条件的目标表情图像。

在一种可能实现方式中，所述筛选模块，还用于以下至少一项：

将所述用户进行交互操作次数满足第三目标条件的用户表情图像的第三语义特征，确定为所述用户特征；

将所述用户输入的所述第一图像的文字描述信息的第四语义特征，确定为所述用户特征；

将所述用户所在的地理位置信息的第五语义特征，确定为所述用户特征；

获取所述用户的用户账号中个人信息的第六语义特征，确定为所述用户特征。

根据所述用户表情图像的第三语义特征和所述多个第一表情图像的的第二语义特征，确定所述用户表情图像与每个第一表情图像之间的第一子相似度，从所述多个表情图像中筛选出所述第一子相似度满足所述第二目标条件的目标表情图像；

根据所述文字描述信息的第四语义特征和所述多个第一表情图像的的第二语义特征，确定所述文字描述信息与每个第一表情图像之间的第二子相似度，从所述多个表情图像中筛选出所述第二子相似度满足所述第二目标条件的目标表情图像；

根据所述地理位置信息的第五语义特征和所述多个第一表情图像的的第二语义特征，确定所述地理位置信息与每个第一表情图像之间的第三子相似度，从所述多个表情图像中筛选出所述第三子相似度满足所述第二目标条件的目标表情图像；

根据所述个人信息的第六语义特征和所述多个第一表情图像的的第二语义特征，确定所述个人信息与每个第一表情图像之间的第四子相似度，从所述多个表情图像中筛选出所述第四子相似度满足所述第二目标条件的目标表情图像。

在一种可能实现方式中，所述获取模块，还用于获取每个表情图像的至少一个第二语义标签以及每个第二语义标签的第二语义向量，所述第二语义向量包括第二语义标签分别在多个特征维度对应的特征值；

所述确定模块，还用于对于每个表情图像，根据所述表情图像的每个第二语义标签的第二语义向量，确定所述表情图像的第二图像向量，所述第二图像向量包括多个用于描述所述表情图像在所述多个维度的特征的特征值。

在一种可能实现方式中，所述生成模块，还用于根据所述目标表情图像的长宽比例和所述第一图像中像素点的像素值，在所述第一图像中检测出所包括的像素点的像素值标准差最小的目标区域，所述目标区域和所述目标表情图像的长宽比例相同；将所述目标表情图像添加在所述目标区域，得到所述第二图像。

在一种可能实现方式中，所述确定模块，还用于以下任一项：

响应于用户在目标应用客户端所触发的视频拍摄指令，获取所拍摄的第一视频中的目标帧图像作为所述第一图像，在所述目标应用的应用界面中显示所述第一视频；

响应于所述用户在所述目标应用客户端所触发的图像拍摄指令，获取所拍摄的图像作为所述第一图像，在所述应用界面中显示所述第一图像；

响应于所述应用界面中图像编辑按钮的触发事件，获取所述图像编辑按钮对应的第一图像。

在一种可能实现方式中，所述生成模块，还用于在所述目标应用的应用界面显示多个目标表情图像；获取所述多个目标表情图像中被用户选中的目标表情图像；将所述被用户选中的目标表情图像添加在所述第一图像中，得到所述第二图像。

在一种可能实现方式中，所述装置还包括以下任一项：

发送模块，用于将所述第二图像发送至所述用户在所述目标应用的动态分享页；

所述发送模块，还用于将所述第一视频中第一图像替换为所述第二图像，得到第二视频，向所述用户在所述目标应用的社交关联用户发送所述第二视频；

所述发送模块，还用于将所述第一视频中第一图像替换为所述第二图像，得到第二视频，将所述第二视频发送至所述用户在所述目标应用的动态分享页。

另一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器加载并执行以实现如上述的图像处理方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述的图像处理方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果至少可以包括：

通过获取指示第一图像中图像内容的含义第一语义特征，基于第一语义特征和表情图像的第二语义特征，从多个表情图像中筛选出与第一图像语义接近的目标表情图像，从而实现两图像之间的语义匹配，提高了表情图像筛选的准确率，最终生成包括目标表情图像的第二图像，进而提高图像处理的准确性；并且，该过程能够在高准确率推荐表情图像的前提下，同时可适用于任何内容的图像，提高了适用性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的实施环境的示意图；

图2是本申请实施例提供的一种图像处理方法的流程图；

图3是本申请实施例提供的一种已添加表情图像的界面显示示意图；

图4是本申请实施例提供的一种已添加表情图像的示意图；

图5是本申请实施例提供的一种第一图像向量的确定过程示意图；

图6是本申请实施例提供的一种第一图像向量的确定过程示意图；

图7是本申请实施例提供的一种已添加表情图像的界面显示示意图；

图8是本申请实施例提供的一种已添加表情图像的示意图；

图9是本申请实施例提供的一种图像处理装置的结构示意图；

图10是本申请实施例提供的一种终端的结构示意图；

图11是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的一种图像处理方法的实施环境的示意图，参见图1，该实施环境包括计算机设备，该计算机设备具备图像处理功能。该图像处理功能是指为图像添加语义相近的表情图像的功能。例如，该计算机设备可以通过对待处理的第一图像进行图像语义分析，为第一图像匹配语义相近的目标表情图像，从而将目标表情图像添加到第一图像中。

在一种可能场景中，该计算机设备可以被提供为服务器101，该实施环境还可以包括终端102。图1中仅示出了以服务器101和终端102的交互场景为例的图像处理过程。在一个可能示例中，该终端102上可以安装有目标应用，该目标应用具备图像处理功能，该服务器101可以为该目标应用的后台服务器，该服务器101和该终端102可以基于该目标应用进行信息交互，实现图像处理过程。例如，该终端102获取待处理的第一图像，该服务器101预先存储多个表情图像的第二语义特征，该终端102可以将第一图像发送至服务器101，由该服务器101获取该第一图像的第一语义特征，并从多个表情图像中匹配语义相近的目标表情图像添加至该第一图像中，生成第二图像，再由服务器101将第二图像发送至终端102。

在另一种可能场景中，该计算机设备还可以被提供为终端102，在一个可能示例中，该终端102预先存储有多个表情图像的第二语义特征，由该终端102确定第一图像并获取该第一图像的第一语义特征，从多个表情图像中匹配语义相近的目标表情图像添加至该第一图像中，生成第二图像。

在一种可能示例中，该第一图像可以为视频中的某帧图像，也可以为一张独立的图像，则该终端102可以将该第二图像进行存储，或者，将视频中第一图像替换为第二图像。在一些场景中，基于不同的场景需求，该终端102还可以将该第二图像或包括第二图像的视频进行后续处理，例如，将第二图像或视频发送至用户在目标应用的社交关联用户，或者发送至用户的动态分享页等。

需要说明的是，该计算机设备可以存储有图像识别模型，该图像识别模型用于分析图像内容并输出用于描述图像内容的语义标签，该计算机设备基于该图像识别模型得到第一图像的第一语义标签，再进一步获取第一语义特征，从而分析出第一图像的语义，该第一语义特征用于指示第一图像中图像内容的含义，第二语义特征用于指示表情图像中图像内容的含义。

需要说明的是，该服务器101可以为一台设备，也可以为由多台设备组成的设备集群。该终端102可以为安装该目标应用的任一终端，本申请实施例对此不做具体限定。例如，终端102可以为手机终端、PAD(Portable Android Device，平板电脑)终端或者电脑终端等。该目标应用可以为具备图像处理功能的图像处理工具、社交应用或者视频处理应用等，本申请实施例对此不做具体限定。

图2是本申请实施例提供的一种图像处理方法的流程图。该申请实施例的执行主体为计算机设备，参见图2，该方法包括：

201、计算机设备确定待处理的第一图像。

在一些可能场景中，该计算机设备可以利用目标应用来获取第一图像，该目标应用是指承载对该第一图像的处理流程的应用；例如，该计算机设备可以响应于在目标应用中所触发的指令，来触发第一图像的获取过程，则本步骤可以通过以下三种方式中任一种方式实现。

第一种方式、计算机设备响应于用户在目标应用客户端所触发的视频拍摄指令，获取所拍摄的第一视频中的目标帧图像作为该第一图像，在该目标应用的应用界面中显示该第一视频。

在一种可能场景中，用户可以利用目标应用拍摄视频，对所拍摄的视频中的图像进行处理，例如，为视频中图像添加表情图像。该计算机设备响应于视频拍摄指令进行拍摄，以得到所拍摄的第一视频，该第一视频包括多帧图像，该目标帧图像可以为该多帧图像中满足第四目标条件的图像。该第四目标条件可以基于需要进行设置，在一个可能示例中，该第四目标条件可以为：在该多帧图像中时间戳最小，则该计算机设备根据该多帧图像的时间戳，从该多帧图像中获取时间戳最小的第一帧图像作为该目标帧图像。在另一个可能示例中，该第四目标条件还可以为：在该多帧图像中与其他帧图像之间的相似度大于目标阈值。则该计算机设备计算每帧图像分别与除该帧图像以外的多帧其他图像的相似度，将该多帧图像中与多帧其他图像的相似度均大于目标阈值的图像，作为该目标帧图像。例如，该目标帧图像可以为该与每帧其他图像之间的相似度均大于60％的中间帧图像。

第二种方式、计算机设备响应于该用户在目标应用客户端所触发的图像拍摄指令，获取所拍摄的图像作为该第一图像，在该应用界面中显示该第一图像。

在一种可能场景中，用户也可以利用目标应用拍摄图像，例如，拍摄周围环境的风景图像、拍摄周围人群的活动图像等，该计算机设备也可以为所拍摄的图像添加表情图像。则该计算机设备直接响应于该图像拍摄指令进行拍摄，以得到所拍摄的第一图像。

第三种方式、计算机设备响应于该应用界面中图像编辑按钮的触发事件，获取该图像编辑按钮对应的第一图像。

在一种可能场景中，用户也可以利用目标应用对计算机设备上已存储的图像进行图像处理，例如，用户与目标应用中的好友用户斗图、用户在好友用户的动态分享页面留言图像、用户在动态分享页面发布计算机设备上已存储的图像等场景，用户可以利用图像编辑器编辑已存储的图像，或利用视频编辑器编辑已存储的视频中任一帧图像。在一个可能示例中，可以在应用界面中提供图像选择功能，基于用户的选择操作，对被选中的图像进行显示，并提供对应的图像编辑按钮，图像编辑按钮用于触发所对应的图像的图像处理过程。则该计算机设备响应于对图像编辑按钮的触发事件，将被触发的图像编辑按钮对应的图像作为第一图像。

需要说明的是，步骤201仅以上述列出的三种形式为例进行说明，本申请实施例对获取第一图像的实现方式不做具体限定。

202、计算机设备对该第一图像进行图像语义分析，获取该第一图像的第一语义特征。

该第一语义特征用于指示该第一图像中图像内容的含义。该计算机设备可以利用用于分析图像内容的图像识别模型，来获取用于表示第一图像的语义的语义标签。也即是，该步骤202可以具体实现为：该计算机设备将第一图像输入图像识别模型，由该图像识别模型对第一图像进行特征提取，以输出该第一图像的多个第一语义标签，基于图像识别模型输出的多个第一语义标签，确定该第一图像的第一语义特征。

在一个可能示例中，该计算机设备可以预先训练得到图像识别模型，该计算机设备可以预先获取大量的图像以及图像所对应的语义标签，对初始识别模型进行训练，得到该图像识别模型。例如，该计算机设备可以获取该目标应用中大量用户的动态分享页面中的图像，以及用户输入的对该图像描述的文字信息，该计算机设备可以从文字信息中提取关键词作为图像的语义标签，进而基于大量图像和图像的语义标签，进行模型训练。该大量图像对应的语义标签可以用于描述人物、动物、植物、食物、日常用品、交通工具、场景等几乎可以囊括生活中出现的各种元素，该大量语义标签可以从实体角度、情绪角度、意境角度等等对图像进行描述。

例如，如图3所示，以“乐山大佛”的短视频为例，该计算机设备获取了该视频中乐山大佛的图像，计算机设备将乐山大佛的图像输入图像识别模型中，输出的标签包括“乐山大佛”、“大佛”、“佛祖”、“虔诚”、“拜佛”、“一心向佛”、“历史”、“宏伟”等10个语义标签，该10个语义标签从图像画面所展示的内容、事物、图像内容所表达的情感、图像意境等方面表示了该图像语义。图4为图3对应的界面显示示意图，从图4可以更清晰的看出已添加表情图像后图像的实际显示形态。

在一种可能的实施方式中，该计算机设备可以将语义标签转换为向量，采用特征向量的形式表示第一图像的语义特征。则该计算机设备根据第一语义标签，确定第一图像的第一语义特征的过程可以包括：计算机设备获取每个第一语义标签的第一语义向量，该第一语义向量包括第一语义标签分别在多个维度对应的特征值；计算机设备根据该每个第一语义标签的置信度和第一语义向量，确定该第一图像的第一图像向量，该第一图像向量包括多个用于描述该第一图像在该多个维度的特征的特征值。置信度表示第一语义标签表示的语义为该第一图像的真实语义的可信程度；例如，如图5所示，乐山大佛图像的标签“大佛”置信度为0.6532，表示标签“大佛”有0.6532的几率为该乐山大佛图像的真实语义。

在一个可能示例中，对于每个第一语义标签，该计算机设备确定该第一语义标签的置信度与该第一语义标签的第一语义向量的乘积，得到多个第一语义标签对应的乘积，将多个第一语义标签对应的多个乘积的平均值确定为该第一图像向量。在一个可能示例中，该计算机设备可以根据每个第一语义标签对应的第一语义向量和置信度，通过以下公式一，确定该第一图像的第一图像向量；

公式一：

在一个可能示例中，f_i表示多个第一语义向量中的第i个第一语义向量，f₁＝[x₁₁，x₁₂，......，x_1n]，f₂＝[x₂₁，x₂₂，......，x_2n]，f_i＝[x_i1，x_i2，......，x_in]，m表示多个第一语义向量的总数目，也即是，多个第一语义标签的总数目；n表示每个第一语义向量的所包括的维度的数目，也即是，所包括的特征值的数量。w_i表示第i个第一语义标签的置信度。例如，如图5所示，图5总左侧图像为第一图像，该计算机设备获取该第一图像的10个语义标签后，该计算机设备还可以获取每个第一语义标签对应的200维的第一语义向量，则乐山大佛图像的10个语义标签，分别对应10个语义向量，每个语义向量包括200个特征值，对于每个维度，该计算机设备可以采用上述公式一中均值计算的方式，得到该第一图像在200个维度的特征值，从而得到该第一图像向量。图6为图5对应的界面显示示意图，从图6可以更清晰的看出第一图像的实际显示形态。

在一个可能示例中，该计算机设备可以预先配置有词向量工具(word vector)，该词向量工具可以采用向量的形式表示出词汇在多个维度的特征。例如，该计算机设备可以预先利用大量数据，以无监督式训练得到该词向量工具，该计算机设备可以将第一语义标签输入该词向量工具，输出该第一语义标签对应的第一语义向量。

需要说明的是，本申请实施例中，可以通过先分析第一图像的图像内容，得到表示图像语义的语义标签，从而将第一图像所呈现的语义准确的转换为多个第一语义标签；然后计算机设备再通过词向量工具，将多个第一语义标签表示为第一语义向量，从而进一步采用包括多维度特征值的向量，进一步精准的描述了每个第一语义标签的多维度特征情况，再通过多个第一语义向量，确定出能从多个维度精准的描述第一图像内容的第一图像向量，从而准确的表示出第一图像的语义分析结果，提高了图像语义分析的准确性。

203、计算机设备确定多个表情图像的第二语义特征。

该第二语义特征用于指示表情图像中图像内容的含义。

该计算机设备可以预先获取大量的表情图像，先分析出每个表情图像对应的至少一个第二语义标签，再基于第二语义标签获取每个表情图像的第二语义特征，该过程可以包括：计算机设备获取每个表情图像的至少一个第二语义标签，以及每个第二语义标签的第二语义向量，该第二语义向量包括第二语义标签分别在多个特征维度对应的特征值；计算机设备对于每个表情图像，根据该表情图像的每个第二语义标签的第二语义向量，确定该表情图像的第二图像向量，该第二图像向量包括多个用于描述该表情图像在该多个维度的特征的特征值。需要说明的是，该计算机设备也可以利用词向量工具来获取第二语义向量，例如，该计算机设备也可以将每个第二语义标签输入该词向量工具，输出该第二语义标签的第二语义向量，该第二语义表象所包括多个特征值的维度，与第一语义标签所包括的多个特征值维度相同。例如，该计算机设备也可以利用词向量工具，确定出第二语义标签至少一个200维的语义向量，进而确定出表情图像的第二图像向量。在一个可能示例中，该计算机设备也可以采用与上述步骤202中确定第一图像向量的过程同理的方式，确定每个表情图像的第二图像向量，本步骤不再赘述。

在一个可能示例中，该计算机设备预先存储目标应用的表情库，该表情库包括多个表情图像以及表情图像的语义信息，该语义信息是指描述该表情图像的语义的一个词汇、一个短语或语句。该计算机设备可以基于每个表情图像的语义信息，获取表情图像的第二语义标签。该过程可以包括：该计算机设备可以从表情库中获取该多个表情图像以及每个表情图像的语义信息；对于每个表情图像，该计算机设备对该表情图像的语义信息进行分词处理，得到每个语义信息对应的至少一个词汇，该计算机设备将该至少一个词汇作为该表情图像对应的至少一个第二语义标签。例如，多个表情图像的语义信息可以分别为：“哈哈大笑”、“妈妈我爱你”、“哈士奇撒娇”等，计算机设备对每个语义信息进行分词处理，将“哈士奇撒娇”分词处理为“哈士奇”和“撒娇”两个词汇，也即是，将这两个词汇作为该“哈士奇撒娇”表情的两个第二语义标签。

在一个可能示例中，该计算机设备在从表情库中获取表情图像时，可以基于每个表情图像的使用次数、下载次数等用于表示表情图像的受欢迎程度的统计数据，从全部表情图像中筛选出受欢迎程度较高的目标数量个表情图像。例如，该计算机设备可以从社交应用的表情库所包括的全部表情图像中，筛选出按照下载次数位于前100万位的表情图像。

需要说明的是，计算机设备可以预先获取并存储多个表情图像的第二语义特征，需要进行图像处理时，直接从计算机设备中获取已存储的多个表情图像的第二语义特征。因此，该计算机设备执行步骤202之后，可以直接执行步骤204。在另一种可能场景中，该计算机设备也可以实时基于步骤203，获取该多个表情图像的第二语义特征。也即是，计算机设备执行步骤202后，依次执行203以及后续的步骤。

204、计算机设备根据该第一语义特征和多个表情图像的第二语义特征，确定该第一图像与每个表情图像之间的第一相似度，从该多个表情图像中筛选出第一相似度满足第一目标条件的多个第一表情图像。

该计算机设备可以采用语义特征之间的相似度来表示两个图像之间的相关程度，第一图像和表情图像的语义特征之间的相似度越高，表示表情图像的语义与第一图像的语义越相关，也可以理解为语义越接近，表情图像所表示的含义越能够适用于该第一图像所包括的图像场景。

在一个可能示例中，语义特征可以表示为向量的形式，相应的，该计算机设备可以采用向量与向量之间的距离，来作为两个特征之间的相似度。该确定第一相似度的过程可以包括：该计算机设备可以计算用于代表第一语义特征的第一语义向量和用于代表第二语义特征的第二语义向量之间的目标距离，该计算机设备将该目标距离确定为第一图像和表情图像之间的第一相似度。该目标距离的表示形式可以基于需要进行设置，例如，该目标距离可以采用余弦距离、欧式距离等进行表示。

该第一目标条件也可以基于需要进行设置。例如，该第一目标条件可以包括但不限于：多个表情图像中第一相似度位于前第一目标数量位的表情图像、第一相似度高于第一目标阈值的表情图像等。该第一目标数量、第一目标阈值可以基于需要进行设置，本申请实施例对此不做具体限定。例如，该计算机设备可以从100万个表情图像中，筛选出第一相似度位于前100位的100个第一表情图像。或者，还可以从100万个表情图像中，筛选出第一相似度高于60％的多个第一表情图像等。

需要说明的是，本申请实施例中，以词向量为中间媒介，通过分析图像的语义标签建立第一图像和表情图像之间的语义关联，进一步通过语义向量精准表示两个图像在多个维度上的特征，提高了语义分析的准确性，使得后续可以直接实现相似程度的准确判断，提高了目标表情图像筛选的准确性。

205、计算机设备获取目标应用中用户的用户特征。

本申请实施例中，该计算机设备还可以针对每个用户本身的特征，对筛选得到的多个第一表情图像进行进一步的个性化匹配。在一种可能的示例中，该计算机设备可以根据该用户在该目标应用的使用情况来获取用户特征。例如，该计算机设备可以结合该用户偏好使用的用户表情图像、用户所输入的第一图像的文字描述信息、用户的地理位置信息或者用户的个人信息等信息，来确定用户特征。相应的，本步骤可以包括以下四种实现方式中任一种实现方式。

第一种方式、计算机设备将该用户进行交互操作次数符合的用户表情图像的第三语义特征，确定为该用户特征。

用户可以从目标应用下载表情图像，还可以使用已下载的表情图像进行斗图操作或者发送等操作，该计算机设备可以根据用户对每个表情图像的交互操作次数，将多个表情图像中交互操作次数符合第三目标条件的表情图像，作为该用户表情图像，对该用户表情图像进行图像语义分析，获取用户表情图像的第三语义特征，该第三语义特征用于指示该用户表情图像中图像内容的含义。该计算机设备可以将该第三语义特征确定为用户特征。该交互操作是指用户对表情图像执行的可影响表情图像当前状态的操作。用户对表情图像的交互操作，反映了用户对该表情图像的喜好程度。例如，该交互操作包括但不限于：收藏操作、点赞操作、斗图操作、使用操作、发送操作等。例如，用户对表情图像的点赞操作、收藏操作、使用操作等，可以影响表情图像当前点赞率、收藏率，或者表情图像由未被使用状态变为被使用状态等。该交互操作次数是指用户对表情图像所执行的交互操作的操作次数。

在一种可能示例中，该计算机设备获取用户对表情图像的操作记录，根据该操作记录，统计用户在预设时段内对每个表情图像执行的交互操作次数，获取交互操作次数满足第三目标条件的用户表情图像；该第三目标条件可以包括但不限于：预设时段内交互操作次数最多、预设时段内交互操作次数超过目标次数等。

在一个可能示例中，该计算机设备也可以获取该用户表情图像的语义信息，基于与上述步骤203中同理的过程，获取该用户表情图像的第三语义向量，将该第三语义向量作为该用户特征的量化表示。例如，A用户在最近一周内使用次数据最多的大脸猫表情，则计算机设备可获取该大脸猫表情对应的语义向量来表示用户特征。

需要说明的是，任意两个不同的用户，往往他们对于表情图像的偏好有较明显差异的，例如，A用户最近一周使用次数据最多的是猫脸表情，而B用户最近一周使用次数据最多的是钢铁侠表情。本申请通过分析用户在目标应用中对表情图像的交互操作行为，提炼出不同用户对不同的表情的偏好特征，后续可以结合用户喜好来确定目标表情图像，使得该确定结果更加符合用于个人兴趣，同时也避免了两个用户若拍摄了相同的第一图像或第一视频，所添加的目标表情图像也相同的尴尬情况，保证了不同用户即使有内容相同的图像、视频，计算机设备也可以根据用户兴趣和偏好，生产成千人千面的图像、视频，进而提高了图像处理的实用性，促进了用户的活跃程度。

第二种方式、计算机设备将该用户输入的该第一图像的文字描述信息的第四语义特征，确定为该用户特征。

在一些可能场景中，用户利用目标应用拍摄第一视频或者第一图像时，用户还可以输入对第一图像的文字描述信息，例如，用户将第一图像分享至动态分享页面时，用户还可以输入文字信息来描述第一图像。或者，用户将第一视频分享给好友用户时，用户还可以将对第一视频的文字描述信息一并分享给好友用户。该文字描述信息从用户个人角度表达了对该第一图像的个人观点、个性化理念等。本步骤中，该计算机设备可以根据用户所输入的文字描述信息，进行个性化分析，以得到用户特征。在一种可能示例中，该计算机设备可以获取用户输入的文字描述信息，提取该文字描述信息中的图像关键词，根据该图像关键词，获取该文字描述信息的第四语义特征，将该第四语义特征作为该用户特征。例如，该计算机设备可以将该图像关键词作为第四语义标签，利用词向量工具，获取该第四语义标签对应的第四语义向量，将该第四语义向量作为用户特征的量化表示。例如，该图像关键词的数目也可以为多个，则该计算机设备可以采用与上述步骤203同理的过程，基于多个图像关键词对应的多个语义向量，获取该第四语义向量。例如，该第一图像可以为旅游时的风景图像，该计算机设备可以提取“心情舒畅”等表示用户情绪的图像关键词，进而用“心情舒畅”的语义向量表示用户特征。

第三种方式、计算机设备将该用户所在的地理位置信息的第五语义特征，确定为该用户特征。

在一些可能场景中，该用户的地理位置也可以间接的反映该用户的喜好、用户当前的心情、环境等。例如，用户经常去乒乓球训练场、猫主题的餐厅等，能够反映用户当前在乒乓球运动的环境中，用户可能在打乒乓球，或者用户当前处于猫主题的环境中，当前在吃饭，用户可能也喜好撸猫等。本步骤中，该计算机设备可以获取用户的地理位置信息，提取该地理位置信息中的地理位置关键词，根据该地理位置关键词，获取该地理位置信息的第五语义特征，将该第五语义特征作为该用户特征。

在一个可能示例中，该计算机设备可以直接从地理位置名称中提取关键词，也可以从网络中后去该地理位置的文字描述信息，从地理位置的文字描述信息中进一步提取地位置关键词，利用词向量工具，获取该地理位置关键词对应的第五语义向量，将该第五语义向量作为用户特征的量化表示。

例如，该计算机设备可以从“第20号猫咪餐吧”的地理位置信息中，提取表示代表地理位置特征的用户喜好的“猫咪”、“餐吧”等地理位置关键词，进而采用“猫咪”的语义向量表示用户特征。

第四种方式、计算机设备获取该用户的用户账号中个人信息的第六语义特征，确定为该用户特征。

该计算机设备可以根据用户在目标应用的用户账号，获取该用户的个人信息，从该个人信息中提取该用户的用户标签。该计算机设备根据该用户标签，确定该个人信息的第六语义特征，将该第六语义特征作为该用户特征。例如，该用户标签可以包括该用户的性别、该用户的年龄、该用户喜欢的明星等。

在一种可能示例中，该计算机设备利用词向量工具，获取该用户标签对应的第六语义向量，将该第六语义向量作为用户特征的量化表示。例如，该计算机设备可以采用该用户喜欢的明星对应的语义向量，表示该用户特征。

需要说明的是，该计算机设备可以采用上述任一种方式，确定用户特征，也可以综合上述两种或两种以上的方式，确定用户特征。例如，该计算机设备可以采用上述第一种方式获取第三语义特征，采用上述第二种方式获取的第四语义特征，该计算机设备可以结合第三语义特征和第四语义特征，来获取用户特征。例如，该计算机设备采用均值计算的方式，计算表示第三语义特征的第三语义向量和表示第四语义特征的第四语义向量的均值向量，将该均值向量作为用户特征的量化表示。本申请实施例中，该计算机设备通过获取该用户特征，得到用户的个人喜好，从而后续可以结合用户特征对第一表情图像的筛选结果进行调整，保证最终的目标表情图像能够准确匹配第一图像的语义的前提下，还能最大化的满足用户个人喜好，为用户提供个性化的千人千面的表情图像推荐，提升了用户体验，提高了用户的用户活跃度。

206、计算机设备根据该用户特征，从该多个第一表情图像中筛选出第二语义特征与该用户特征之间的第二相似度满足第二目标条件的目标表情图像。

本申请实施例中，该计算机设备可以采用第二语义特征和用户特征之间的第二相似度，来表示用户个人喜好与第一表情图像之间的相关程度，第二语义特征与用户特征之间相似度越高，表示用户个人喜好与第一表情图像越相关，也即是，用户对第一表情图像的喜好程度也高，该第一表情图像越能够满足用户的个人表达需求。

在一种可能示例中，该第二目标条件也可以基于需要进行设置。例如，该第二目标条件可以包括但不限于：多个表情图像中第二相似度位于前第二目标数量位的表情图像、第二相似度高于第二目标阈值的表情图像等。该第二目标数量、第二目标阈值可以基于需要进行设置，本申请实施例对此不做具体限定。例如，该计算机设备可以从100个第一表情图像中筛选出第一子相似度位于前10的10个目标表情图像。

在一种可能的实施方式中，基于上述步骤205中用户特征的四种可能情况，相应的，本步骤也可以包括以下四种实现方式中任一种方式。

第一种方式、计算机设备根据该用户表情图像的第三语义特征和该多个第一表情图像的第二语义特征，确定该用户表情图像与每个第一表情图像之间的第一子相似度，从该多个第一表情图像中筛选出该第一子相似度满足该第二目标条件的目标表情图像。

本步骤中，用户特征、第二语义特征可以表示为向量的形式，相应的，该计算机设备可以采用向量与向量之间的距离，来作为两个特征之间的相似度。该确定第一子相似度的过程可以包括：该计算机设备可以计算用于代表用户特征的第三语义向量和用于代表第二语义特征的第二语义向量之间的第一子距离，该计算机设备将该第一子距离确定为第一子相似度。该计算机设备可以将第一子相似度作为第二语义特征与该用户特征之间的第二相似度，进而确定出第二相似度满足第二目标条件的目标表情图像。

例如，用户表情图像的第三语义特征表示用户喜好猫主题的表情图像，该计算机设备从100个第一表情图像中，筛选出猫主题的10个目标表情图像。

需要说明的是，通过计算第三语义特征和第二语义特征之间的相似度，来表示用户表情图像与第一表情图像之间的相关程度，从而为用户筛选出最接近于用户表情图像的目标表情图像，使得该目标表情图像更加满足用户对表情图像的喜好需求，提升用户体验，提高用户的活跃程度。

第二种方式、计算机设备根据该文字描述信息的第四语义特征和该多个第一表情图像的第二语义特征，确定该文字描述信息与每个第一表情图像之间的第二子相似度，从该多个第一表情图像中筛选出该第二子相似度满足该第二目标条件的目标表情图像。

本步骤中，与第一种方式同理，该确定第二子相似度的过程可以包括：该计算机设备可以计算用于代表用户特征的第四语义向量和用于代表第二语义特征的第二语义向量之间的第二子距离，该计算机设备将该第二子距离确定为第二子相似度。该计算机设备可以将第二子相似度作为该第二相似度，进而确定出第二相似度满足第二目标条件的目标表情图像。

例如，文字描述信息表示用户与该第一图像匹配的情绪是“心情舒畅”，则计算机设备可以从100个第一表情图像中，筛选出与“心情舒畅”相关的10个目标表情图像。

需要说明的是，该计算机设备可以基于用户对第一图像的文字描述信息，进一步挖掘用户对该第一图像的关注点，从而准确筛选出最符合该用户关注点的目标表情图像，使得该目标表情图像能更接近用户当前对该第一图像的当前观点、情绪等，后续将该目标表情图像添加至该第一图像中，使得添加后的第一图像能够更准确的表达出用户观点、抒发用户情感，从而提高用户活跃度。

第三种方式、计算机设备根据该地理位置信息的第五语义特征和该多个第一表情图像的第二语义特征，确定该地理位置信息与每个第一表情图像之间的第三子相似度，从该多个第一表情图像中筛选出该第三子相似度满足该第二目标条件的目标表情图像。

本步骤中，与第一种方式同理，该计算机设备可以计算用于代表用户特征的第五语义向量和用于代表第二语义特征的第二语义向量之间的第三子距离，该计算机设备将该第三子距离确定为第三子相似度。该计算机设备可以将第三子相似度作为第二相似度，进而确定出第二相似度满足第二目标条件的目标表情图像。

例如，地理位置信息显示用户当前位于乒乓球运动场，在打乒乓球，则计算机设备可以从100个第一表情图像中，筛选出以打乒乓球为主题的10个目标表情图像。

需要说明的是，该计算机设备可以基于当前地理位置信息的第五语义特征，表示当前所处环境的特征，用户当前正在进行的活动等，从多个第一表情图像中筛选出与环境特征、活动状态等最为接近的目标表情图像，从而结合用户的地理位置，筛选出最能表现用户当前环境、当前活动状态等的表目标表情图像，使得添加目标表情图像后的第一图像，能够更加准确的匹配用户所在地理位置、当前环境等。

第四种方式、计算机设备根据该个人信息的第六语义特征和该多个第一表情图像的第二语义特征，确定该个人信息与每个第一表情图像之间的第四子相似度，从该多个第一表情图像中筛选出该第四子相似度满足该第二目标条件的目标表情图像。

本步骤中，与第一种方式同理，该确定第四子相似度的过程可以包括：该计算机设备可以计算用于代表用户特征的第四语义向量和用于代表第六语义特征的第二语义向量之间的第四子距离，该计算机设备将该第四子距离确定为第四子相似度。该计算机设备可以将第四子相似度作为该第二相似度，进而确定出第二相似度满足第二目标条件的目标表情图像。

例如，个人信息表示用户为女性、最近喜好看《xxx》电视剧，则计算机设备可以从100个第一表情图像中，筛选出与《xxx》电视剧相关程度最大的前10个目标表情图像。

需要说明的是，该计算机设备可以基于个人信息，准确定位用户的人物画像，例如，定位用户的性格特征、年龄、性别、兴趣爱好等，结合该个人信息，筛选出最适合于该人物画像的目标表情图像，使得该目标表情图像能够较好的贴合用户人物画像，提升了用户体验。

需要说明的是，该计算机设备可以上述任一种方式，筛选目标表情图像，也可以综合上述两种或两种以上的方式进行筛选。例如，该计算机设备可以采用上述第一种方式确定第一子相似度，采用上述第二种方式确定第二子相似度，该计算机设备可以从多个第一表情图像中，筛选出第一子相似度和第二子相似度均满足第二目标条件的目标表情图像。

需要说明的是，上述步骤204-206是步骤“基于该第一语义特征和多个表情图像的第二语义特征，从该多个表情图像中筛选出与该第一图像的相似度满足目标条件的目标表情图像”的一种可能实现方式，上述步骤204-206实际上是先执行基于第一相似度筛选出第一表情图像，再执行确定用户特征的过程，进一步筛选出目标表情图像。在另一种可能的实施方式中，该计算机设备还可以仅执行步骤204，来确定出目标表情图像，也即是，该计算机设备确定第一相似度，并将基于第一相似度筛选出的多个第一表情图像，直接确定为目标表情图像。在另一个可能示例中，该计算机设备还可以先执行确定用户特征的过程，再执行基于第一相似度筛选出第一表情图像，从而筛选出目标表情图像。本申请对上述筛选目标表情图像所执行的步骤并不做具体限定。

需要说明的是，本申请实施例中，通过上述步骤205-206，从多个角度获取用户在多维度所体现的用户特征，并采用任一维度或结合多维度的用户特征，进一步从第一表情图像中筛选目标表情图像，使得目标表情图像在第一图像语义相近的前提下，更加符合用户喜好，提升了用户体验，显著拉动用户活跃度，通过该图像处理功能刺激用户将图像或视频进行分享的可能，通过精准匹配目标表情图像，增强视频的表达能力，有效将用户喜好、用户情感等特征嵌入到图像中，进一步提升用户的分享质量。

207、计算机设备根据该目标表情图像和该第一图像，生成第二图像。

本步骤中，该计算机设备将该目标表情图像添加到该第一图像的目标区域，得到第二图像。

在一个可能实施方式中，该计算机设备可以结合目标表情图像的大小比例，以及第一图像中像素点的像素值分布情况，来为目标表情图像匹配合适的插入区域作为该目标区域，再将目标表情图像插入该第一图像的目标区域中。该过程可以包括：该计算机设备根据该目标表情图像的长宽比例和该第一图像中像素点的像素值，在该第一图像中检测出所包括的像素点的像素值标准差最小的目标区域，该目标区域和该目标表情图像的长宽比例相同；该计算机设备将该目标表情图像添加在该目标区域，得到该第二图像。在一个可能示例中，该计算机设备可以根据目标表情图像的长宽比例，确定相同比例的检测框，按照该检测框的大小，在第一图像的全部区域内进行滑动窗口检测，确定出该第一图像中像素值标准差最小的目标区域。例如，该计算机设备可以先将第一图像转换成灰度图像，再按照检测框的大小，在灰度图像的全部区域内进行滑动窗口检测，并计算每次滑动时检测框内像素点的像素值，也即是灰度值，从而确定出该第一图像内像素值标准差最小的目标区域。在另一个可能示例中，该计算机设备还可以先对第一图像进行人脸检测，当第一图像中包括人脸区域时，该计算机设备在第一图像中非人脸区域，按照上述目标区域的检测过程，确定出目标区域，从而避面对人脸区域形成遮挡。在另一个可能示例中，该第一图像可以为第一视频中的目标帧图像，该计算机设备还可以追踪该目标区域在第一视频中其他帧图像中的位置，将目标表情图像添加至其他帧图像的对应位置处，以形成目标表情图像随视频播放而动态显示。

需要说明的是，区域内像素点的像素值标准差越低，说明检测框区域内的像素点的颜色越纯越单一，区域内纹理特征越不明显，所包含的有效物体越少，即使被遮挡也不会对全图有太大影响，因此，越适合添加目标表情图像；而区域内像素点的像素值标准差越高，则说明检测框区域内纹理越复杂，往往包含更多的信息量，包含的有效物体越多，因此，不适合添加目标表情图像。

例如，如图3所示，图3中分别在乐山大佛图像中，添加了三个目标表情图像：“佛祖保佑”、“求大神带带我”、“拜托了老铁”等，增强视频的表达能力，应景又不失诙谐。如图7所示，图7张分别在卡丁车图像中，添加了与驾驶或汽车操控相关的三个目标表情图像，有效地将用户当前关注点、当前情绪等嵌入到图像中，起到了画龙点睛的作用。图8为图7对应的界面显示示意图，从图8可以更清晰的看出已添加表情图像后图像的实际显示形态。

在一种可能场景中，该目标表情图像的数量可以为多个，该计算机设备可以被提供为终端，该计算机设备可以在应用界面显示该多个目标表情图像以供用户选择，该计算机设备根据用户选择需求来添加表情图像，该过程可以包括：该计算机设备在该目标应用的应用界面显示多个目标表情图像；该计算机设备获取该多个目标表情图像中被用户选中的目标表情图像；该计算机设备将该被用户选中的目标表情图像添加在该第一图像中，得到该第二图像。例如，该计算机设备可以在应用界面的左下角处开始，按照第二相似度从大到小的顺序，依次显示多个目标表情图像，用户可以根据喜好选择目标表情图像进行添加。

在一种可能的场景中，该计算机设备还可以将第二图像发送给好友用户、动态分享页等。在一个可能示例中，该第一图像可以为单独的图像，则该计算机设备可以直接将该第二图像发送至该用户在该目标应用的动态分享页，或者，将该第二图像发送至用户在该目标应用的社交关联用户。在另一个可能示例中，该第一图像为视频中的图像，则该计算机设备可以将该第一视频中第一图像替换为该第二图像，得到第二视频，向该用户在该目标应用的社交关联用户发送该第二视频；又或者，该计算机设备将该第一视频中第一图像替换为该第二图像，得到第二视频，将该第二视频发送至该用户在该目标应用的动态分享页。在另一个可能示例中，该计算机设备还可以将目标表情图像添加至第一视频的目标区域，也即是，将该第一视频中每帧图像的目标区域均添加该目标表情图像。

需要说明的是，本申请实施例中，可以通过人脸检测、基于像素点的像素值标准差的计算，检测出既不会遮挡人脸区域，所包含有效信息又少的目标区域进行目标表情图像的添加，在增强图像的表达能力的前提下，尽量减小目标表情图像对全图带来的影响，从而提高了第二图像的显示效果。

本申请实施例提供的方法，通过获取指示第一图像中图像内容的含义第一语义特征，基于第一语义特征和表情图像的第二语义特征，从多个表情图像中筛选出与第一图像语义接近的目标表情图像，从而实现两图像之间的语义匹配，提高了表情图像筛选的准确率，最终生成包括目标表情图像的第二图像，进而提高图像处理的准确性；并且，该过程能够在高准确率推荐表情图像的前提下，同时可适用于任何内容的图像，提高了适用性。

图9是本申请实施例提供的一种图像处理装置的结构示意图。参见图9，该装置包括：

确定模块901，用于确定待处理的第一图像；

获取模块902，用于对该第一图像进行图像语义分析，获取该第一图像的第一语义特征，该第一语义特征用于指示该第一图像中图像内容的含义；

筛选模块903，用于基于该第一语义特征和多个表情图像的第二语义特征，从该多个表情图像中筛选出与该第一图像的相似度满足目标条件的目标表情图像，该第二语义特征用于指示表情图像中图像内容的含义；

生成模块904，用于根据该目标表情图像和该第一图像，生成第二图像。

在一种可能实现方式中，该获取模块902，还用于将该第一图像输入图像识别模型，得到该第一图像的多个第一语义标签，该图像识别模型用于分析图像内容并输出用于表示图像语义的语义标签；根据该多个第一语义标签，确定该第一图像的第一语义特征。

在一种可能实现方式中，该获取模块902，还用于获取每个第一语义标签的第一语义向量，该第一语义向量包括第一语义标签分别在多个维度对应的特征值；根据该每个第一语义标签的置信度和第一语义向量，确定该第一图像的第一图像向量，该第一图像向量包括多个用于描述该第一图像在该多个维度的特征的特征值。

在一种可能实现方式中，该筛选模块903，还用于根据该第一语义特征和该多个表情图像的第二语义特征，确定该第一图像与每个表情图像之间的第一相似度，从该多个表情图像中筛选出第一相似度满足第一目标条件的多个第一表情图像；获取目标应用中用户的用户特征，该目标应用是指承载对该第一图像的处理流程的应用；根据该用户特征，从该多个第一表情图像中筛选出第二语义特征与该用户特征之间的第二相似度满足第二目标条件的目标表情图像。

在一种可能实现方式中，该筛选模块903，还用于以下至少一项：

将该用户进行交互操作次数满足第三目标条件的用户表情图像的第三语义特征，确定为该用户特征；

将该用户输入的该第一图像的文字描述信息的第四语义特征，确定为该用户特征；

将该用户所在的地理位置信息的第五语义特征，确定为该用户特征；

获取该用户的用户账号中个人信息的第六语义特征，确定为该用户特征。

根据该用户表情图像的第三语义特征和该多个第一表情图像的的第二语义特征，确定该用户表情图像与每个第一表情图像之间的第一子相似度，从该多个表情图像中筛选出该第一子相似度满足该第二目标条件的目标表情图像；

根据该文字描述信息的第四语义特征和该多个第一表情图像的的第二语义特征，确定该文字描述信息与每个第一表情图像之间的第二子相似度，从该多个表情图像中筛选出该第二子相似度满足该第二目标条件的目标表情图像；

根据该地理位置信息的第五语义特征和该多个第一表情图像的的第二语义特征，确定该地理位置信息与每个第一表情图像之间的第三子相似度，从该多个表情图像中筛选出该第三子相似度满足该第二目标条件的目标表情图像；

根据该个人信息的第六语义特征和该多个第一表情图像的的第二语义特征，确定该个人信息与每个第一表情图像之间的第四子相似度，从该多个表情图像中筛选出该第四子相似度满足该第二目标条件的目标表情图像。

在一种可能实现方式中，该获取模块902，还用于获取每个表情图像的至少一个第二语义标签以及每个第二语义标签的第二语义向量，该第二语义向量包括第二语义标签分别在多个特征维度对应的特征值；

该确定模块901，还用于对于每个表情图像，根据该表情图像的每个第二语义标签的第二语义向量，确定该表情图像的第二图像向量，该第二图像向量包括多个用于描述该表情图像在该多个维度的特征的特征值。

在一种可能实现方式中，该生成模块904，还用于根据该目标表情图像的长宽比例和该第一图像中像素点的像素值，在该第一图像中检测出所包括的像素点的像素值标准差最小的目标区域，该目标区域和该目标表情图像的长宽比例相同；将该目标表情图像添加在该目标区域，得到该第二图像。

在一种可能实现方式中，该确定模块901，还用于以下任一项：

响应于用户在目标应用客户端所触发的视频拍摄指令，获取所拍摄的第一视频中的目标帧图像作为该第一图像，在该目标应用的应用界面中显示该第一视频；

响应于该用户在该目标应用客户端所触发的图像拍摄指令，获取所拍摄的图像作为该第一图像，在该应用界面中显示该第一图像；

响应于该应用界面中图像编辑按钮的触发事件，获取该图像编辑按钮对应的第一图像。

在一种可能实现方式中，该生成模块904，还用于在该目标应用的应用界面显示多个目标表情图像；获取该多个目标表情图像中被用户选中的目标表情图像；将该被用户选中的目标表情图像添加在该第一图像中，得到该第二图像。

在一种可能实现方式中，该装置还包括以下任一项：

发送模块，用于将该第二图像发送至该用户在该目标应用的动态分享页；

该发送模块，还用于将该第一视频中第一图像替换为该第二图像，得到第二视频，向该用户在该目标应用的社交关联用户发送该第二视频；

该发送模块，还用于将该第一视频中第一图像替换为该第二图像，得到第二视频，将该第二视频发送至该用户在该目标应用的动态分享页。

本申请实施例提供的装置，通过获取指示第一图像中图像内容的含义第一语义特征，基于第一语义特征和表情图像的第二语义特征，从多个表情图像中筛选出与第一图像语义接近的目标表情图像，从而实现两图像之间的语义匹配，提高了表情图像筛选的准确率，最终生成包括目标表情图像的第二图像，进而提高图像处理的准确性；并且，该过程能够在高准确率推荐表情图像的前提下，同时可适用于任何内容的图像，提高了适用性。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的图像处理装置在处理图像时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本申请实施例提供的一种终端的结构示意图。该终端1000可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的图像处理方法。

在一些实施例中，终端1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、触摸显示屏1005、摄像头1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置终端1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在终端1000的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在终端1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时，由处理器1001根据用户对触摸显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1005的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图11是本申请实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1101和一个或一个以上的存储器1102，其中，该存储器1102中存储有至少一条指令，该至少一条指令由该处理器1101加载并执行以实现上述各个方法实施例提供的图像处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由计算机设备中的处理器执行以完成上述实施例中的图像处理方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(random accessmemory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

确定待处理的第一图像；

根据所述目标表情图像和所述第一图像，生成第二图像。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一图像进行图像语义分析，获取所述第一图像的第一语义特征包括：

将所述第一图像输入图像识别模型，得到所述第一图像的多个第一语义标签，所述图像识别模型用于分析图像内容并输出用于表示图像语义的语义标签；

根据所述多个第一语义标签，确定所述第一图像的第一语义特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个第一语义标签，确定所述第一图像的第一语义特征包括：

获取每个第一语义标签的第一语义向量，所述第一语义向量包括第一语义标签分别在多个维度对应的特征值；

根据所述每个第一语义标签的置信度和第一语义向量，确定所述第一图像的第一图像向量，所述第一图像向量包括多个用于描述所述第一图像在所述多个维度的特征的特征值。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一语义特征和多个表情图像的第二语义特征，从所述多个表情图像中筛选出与所述第一图像的相似度满足目标条件的目标表情图像包括：

根据所述第一语义特征和所述多个表情图像的第二语义特征，确定所述第一图像与每个表情图像之间的第一相似度，从所述多个表情图像中筛选出第一相似度满足第一目标条件的多个第一表情图像；

获取目标应用中用户的用户特征，所述目标应用是指承载对所述第一图像的处理流程的应用；

根据所述用户特征，从所述多个第一表情图像中筛选出第二语义特征与所述用户特征之间的第二相似度满足第二目标条件的目标表情图像。

5.根据权利要求4所述的方法，其特征在于，所述获取目标应用中用户的用户特征包括以下至少一项：

6.根据权利要求5所述的方法，其特征在于，所述根据所述用户特征，从所述多个第一表情图像中筛选出第二语义特征与所述用户特征之间的第二相似度满足第二目标条件的目标表情图像包括以下至少一项：

7.根据权利要求1所述的方法，其特征在于，所述基于所述第一语义特征和所述多个表情图像的第二语义特征，从多个表情图像中筛选出与所述第一图像的相似度满足目标条件的目标表情图像之前，所述方法还包括：

获取每个表情图像的至少一个第二语义标签以及每个第二语义标签的第二语义向量，所述第二语义向量包括第二语义标签分别在多个特征维度对应的特征值；

对于每个表情图像，根据所述表情图像的每个第二语义标签的第二语义向量，确定所述表情图像的第二图像向量，所述第二图像向量包括多个用于描述所述表情图像在所述多个维度的特征的特征值。

8.根据权利要求1所述的方法，其特征在于，所述根据所述目标表情图像和所述第一图像，生成第二图像包括：

根据所述目标表情图像的长宽比例和所述第一图像中像素点的像素值，在所述第一图像中检测出所包括的像素点的像素值标准差最小的目标区域，所述目标区域和所述目标表情图像的长宽比例相同；

将所述目标表情图像添加在所述目标区域，得到所述第二图像。

9.根据权利要求1所述的方法，其特征在于，所述确定待处理的第一图像包括以下任一项：

10.根据权利要求9所述的方法，其特征在于，所述根据所述目标表情图像和所述第一图像，生成第二图像包括：

在所述目标应用的应用界面显示多个目标表情图像；

获取所述多个目标表情图像中被用户选中的目标表情图像；

将所述被用户选中的目标表情图像添加在所述第一图像中，得到所述第二图像。

11.根据权利要求9所述的方法，其特征在于，所述根据所述目标表情图像和所述第一图像，生成第二图像之后，所述方法还包括以下任一项：

将所述第二图像发送至所述用户在所述目标应用的动态分享页；

将所述第一视频中第一图像替换为所述第二图像，得到第二视频，向所述用户在所述目标应用的社交关联用户发送所述第二视频；

将所述第一视频中第一图像替换为所述第二图像，得到第二视频，将所述第二视频发送至所述用户在所述目标应用的动态分享页。

12.一种图像处理装置，其特征在于，所述装置包括：

确定模块，用于确定待处理的第一图像；

13.根据权利要求12所述的装置，其特征在于，

所述获取模块，还用于将所述第一图像输入图像识别模型，得到所述第一图像的多个第一语义标签，所述图像识别模型用于分析图像内容并输出用于表示图像语义的语义标签；根据所述多个第一语义标签，确定所述第一图像的第一语义特征。

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求11任一项所述的图像处理方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的图像处理方法所执行的操作。