CN110489578B

CN110489578B - 图片处理方法、装置及计算机设备

Info

Publication number: CN110489578B
Application number: CN201910740483.1A
Authority: CN
Inventors: 王泽一; 谭悦伟; 文孝木; 李斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2024-04-05
Anticipated expiration: 2039-08-12
Also published as: CN110489578A

Abstract

本申请提供了一种图片处理方法、装置及计算机设备，可以将采用深度学习网络，快速且准确提出该待处理表情图片中的文本区域的图片，再将其输入CTC网络进行文字识别，得到待处理表情图片包含的文本信息，之后，将按照该文本信息，对待处理表情图片进行分类存储，不需要开发者人工分类，提高了处理效率；且本申请这种分类存储方式，使得应用服务器能够依据用户输入的搜索关键词，直接从对应类型的分类表情库中快速且准确搜索用户需要的表情图片，不需要用户从一系列不同含义的表情图片中一个一个查找，极大提高了表情图片搜索效率，提高了即时通信沟通效率，且避免了不同用户对同一表情图片的理解不同，造成的沟通障碍。

Description

图片处理方法、装置及计算机设备

技术领域

本申请涉及图像处理技术领域，更具体的说，是涉及一种图片处理方法、装置及计算机设备。

背景技术

即时通信(Instant Messaging，IM)是目前互联网上非常流行的通讯方式，其是一种透过网络进行实时通信的系统，允许两人或多人使用网络实时的传递文字消息、文件、语音与视频交流，通常以网站、计算机软件或移动应用程序的方式提供服务。

在交流过程中，经过会选择各种图片(如表情)进行沟通和情感表达，相较于文字、语音表达方式，更加生动形象且有趣，提高了用户在即时通讯平台交流的趣味性。

为了实现上述目的，通常是由表情图片开发者或应用平台开发者等，以某一表情对象为基础，制作包含多种含义的表情图片的一系列表情图片，由用户预先下载到应用客户端，这样在即时通信交流时，由用户从一系列的表情图片中挑选所需的表情图片发送给对方。

发明内容

有鉴于此，本申请提供了一种图片处理方法、装置及计算机设备，对于非表情库中的待处理表情图片，利用人工智能中的深度学习技术，对其包含的文本区域进行文字信息的自动识别，从而按照识别出的文本信息，对待处理表情图片进行自动分类存储，不需要人工分类，且保证了不同用户对同一表情图片含义的理解统一，以使得应用服务器能够按照用户输入的搜索关键词，直接从对应分类表情库中快速且准确地搜索用户更可能需要的表情图片，无需用户一一筛选，提高了表情搜索效率，进而提高了即时通信应用中的沟通效率。

为实现上述目的，本申请实施例提出了一种图片处理方法，所述方法包括：

获取待处理表情图片；

提取所述待处理表情图片包含的文本区域；

将所述文本区域输入连接主义分类网络，得到所述文本区域包含的文本信息；

将所述待处理表情图片存储至与所述文本信息对应的分类表情库。

本申请实施例还提供了一种图片处理装置，所述装置包括：

表情图片获取模块，用于获取待处理表情图片；

文本区域提取模块，用于提取所述待处理表情图片包含的文本区域；

文本信息获取模块，用于将所述文本区域输入连接主义分类网络，得到所述文本区域包含的文本信息；

表情图片分类存储模块，用于将所述待处理表情图片存储至与所述文本信息对应的分类表情库。

本申请实施例还提供了一种计算机设备，所述计算机设备包括：

通信接口；

存储器，用于存储实现如上所述的图片处理方法的程序；

处理器，用于加载并执行所述存储器存储的程序，以实现如上所述的图片处理方法的各个步骤。

经由上述的技术方案可知，与现有技术相比，本申请提供了一种图片处理方法、装置及计算机设备，可以将采用深度学习网络，快速且准确提出该待处理表情图片中的文本区域的图片，再将其输入连接主义分类网络(CTC网络)进行文字识别，得到待处理表情图片包含的文本信息，之后，将按照该文本信息，对待处理表情图片进行分类存储，即将待处理表情图片存储至与该文本信息匹配的分类表情库中，不需要开发者人工分类，提高了处理效率；且本申请这种分类存储方式，使得应用服务器能够依据用户输入的搜索关键词，直接从对应类型的分类表情库中快速且准确搜索用户需要的表情图片，不需要用户从一系列不同含义的表情图片中一个一个查找，极大提高了表情图片搜索效率，提高了即时通信沟通效率，且避免了不同用户对同一表情图片的理解不同，造成的沟通障碍。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了实现本申请提供的图片处理方法的系统架构图；

图2示出了本申请提供的图片处理方法的一种可选示例的流程图；

图3a、图3b、图3c、图3d、图3e及图3f示出了不同的待处理表情图片示意图；

图4a和图4b均示出了本申请提供的图片处理方法中，在待处理表情图片中添加文本信息的场景示意图；

图5示出了本申请提供的图片处理方法的一种可选示例的场景流程图；

图6示出了本申请提供的图片处理方法的一种可选示例的信令流程图；

图7示出了本申请提供的图片处理方法的一种应用场景示意图；

图8示出了本申请提供的图片处理方法的另一种可选示例的场景流程图；

图9示出了本申请提供的图片处理方法中，提取文本区域的一种可选示例的流程图；

图10示出了本申请提供的图片处理方法中，使用的Faster-RCNN网络的系统架构图；

图11示出了本申请提供的图片处理方法中，识别文本信息的一种可选示例的流程图；

图12示出了本申请提供的图片处理装置的一种可选示例结构图；

图13示出了本申请提供的一种计算机设备的硬件结构示意图。

具体实施方式

结合上文背景技术部分的描述，本申请希望在即时通信交流过程中，能够准确且快速筛选出符合用户要表达含义的少量表情图片，甚至是有限的一个或几个表情图片，这样，用户可以直接从筛选出的少量表情图片，快速且准确选择出所需表情图片，不需要用户从预下载的大量表情图片中一一挑选，极大缩短了用户对表情图片的挑选时间，且针对一些不了解表情图片自身内容含义的用户群体，本申请这种方式能够为其挑选出真正符合其需求的表情图片，属于该用户群体的用户再从中选择个人喜欢的表情图片，保证了该表情图片的内容含义是用户希望表达的含义，进而保证了沟通效率。

对此，本申请提出从各种各样的表情图片中，提取或制定表征其内容含义的文本信息，作为后续用户搜索表情图片的关键词，即用户需要发送某一类表情图片时，可以直接在文本框输入文字，客户端就能够自动搜索得到相匹配的、用户最可能选择使用的候选表情图片，供用户从中选择所需的目标表情图片发送。

应该理解的是，上述用来提取或制定文本信息的表情图片(其可以记为待处理图片)，可以是通过网络的各种途径得到的，通常不是客户端表情库已有的表情图片(即确定内容含义并分类的表情图片)，本申请对该待处理图片的来源不做限定。

其中，为了提高本申请提出的实现图片搜索的处理方法的处理效率及准确，本申请将运用人工智能(Artificial Intelligence,AI)技术实现对表情图片的内容含义的提取、分类，以及表情图片的搜索，具体实现过程可以参照下文相应实施例的具体描述。

人工智是计算机科学的一个综合技术，在如智能家具、智能穿戴设备、虚拟助理、机器人、无人机等多个领取展开研究和应用，并发挥着越来越重要的价值。在实际应用中，人工智能既涉及硬件层面的技术也涉及软件层面的技术，本申请技术方案的实现主要涉及人工智能的计算机视觉技术、自然语言处理技术以及机器学习/深度学习等技术。

具体的，本申请可能应用到计算机视觉技术中的图像处理、图像识别、图像语义理解、图像检索等技术；还可能涉及到自然语言处理技术中的文本处理、语义理解、机器翻译等技术，以及机器学习和深度学习中的人工神经网络、置信网络、强化学习等技术，关于本申请对人工智能的各种技术的具体应用可以参照如下实施例相应部分的具体说明。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，为实现本申请提出的实现图片搜索的处理方法的系统架构图，该系统可以包括：应用服务器11、应用客户端12及数据服务器13，其中：

应用服务器11可以是提供即时通信功能的服务设备，对于不同的即时通信平台所配置的应用服务器11可以不同，如支持企业办公平台运行的办公应用服务器，企业员工可以通过相匹配的应用客户端登录企业办公平台，实现企业内部员工之间的即时通信沟通，但并不局限于支持这种场景下即时通信的应用服务器。

应用客户端12可以是与应用服务器相匹配的应用程序，用户可以使用该应用客户端12登录应用服务器的应用平台，与其他用户进行即时通信，本申请对即时通信原理不做详述。

在实际应用中，应用服务器11的应用平台可以是独立的，这样，用户只能通过其应用客户端12登录该应用平台；该应用平台也可以是是基于目前大众常用的社交平台构建的，仍以应用平台为企业办公平台的场景为例，企业可以在该社交平台上注册企业账号，如申请企业的服务号、公众号等，这种情况下，企业员工不仅可以通过应用客户端直接登录应用平台，也可以使用个人的社交平台对应的通信客户端，登录社交平台，再通过社交平台进入应用平台。

举例说明，目前用户常用的微x、方便企业办公的企业微x，微x这一社交平台可以通过企业注册的企业账号的基本信息，与该企业的企业微x这一应用平台绑定，这样，企业员工可以使用微x客户端登录个人社交账号，进入社交平台，再选择关注微x社交平台上的企业账号，以进入对应的企业应用平台，这样，企业员工不再局限于使用企业微x客户端的个人办公账户进入企业应用平台，使用更加方便。

其中，本申请可以将支持社交平台功能实现的服务设备可以称为通信服务器、将其匹配的应用程序称为通信客户端，所以说，本申请提出的上述系统还可以包括通信服务器14和通信客户端，但并不局限于上文具体的通信服务器和通信客户端类型。

数据服务器13可以是数据存储设备，用来记录用户之间进行即时通信交流所产生的各种数据，还可以记录上述应用服务器、应用客户端运行所产生的缓存数据，用户输入或从第三方下载的图片(如表情图片)、文件、语音等信息，本申请对该数据服务器13具体记录的数据内容不做限定，可以根据系统的实际场景下的应用需求确定。

基于上图1示出的系统架构，参照图2，为本申请提出的图片处理方法的一种可选示例流程图，该方法可以适用于服务器，如上述应用服务器，通信服务器等，本申请对服务器的产品类型不做限定，如图2所示，该方法可以包括但并不局限于以下步骤：

步骤S11，获取待处理表情图片；

本申请对待处理表情图片的获取来源不做限定，可以是终端设备拍摄到的表情图片，也可以是从第三方应用平台获取的表情图片，需要说明，步骤S11获取的待处理表情图片可以是未经过任何分类处理的原始表情，即待处理表情图片并未被添加至实现即时通信的应用平台的分类表情库中，用户往往不能直接搜索使用待处理表情图片，也就是说，应用服务器可能无法直接依据用户输入的搜索关键词，实现对待处理表情图片的搜索。

另外，本申请对获取的待处理表情图片的类型及内容不做限定，可以如图3a～图3f示出的各种待处理表情图片，但并不局限于本申请列举的表情图片。

步骤S12，检测待处理表情图片是否包含文本区域，若否，进入步骤S13；若是，执行步骤S15；

本申请需要对待处理表情图片进行含义识别，并依据含义识别结果将其存储至相应的分类表情库中，以使得用户在后续对分类表情库使用过程中，只需要在文本框输入搜索关键词，应用服务器就能够从对应类型的分类表情库中搜索到用户可能感兴趣候选表情，并展示在应用客户端的当前显示界面，不需要展示所有类型表情图片，由用户一一筛选。所以说，对于上述获取的待处理表情图片进行文本识别，以分类存储表情图片显得尤其重要。

在实际应用中，对于如图3d～图3f示出的包含文本区域的待处理表情图片，以及如图3a～图3c示出的未包含文本区域的待处理表情图片，进行文本识别所采用的方法往往是不同的，为了保证对待处理表情图片的准确且快速的文本识别，本申请可以先检测待处理表情图片中是否包含文本区域，具体检测方法不做限定，

步骤S13，将待处理表情图片输入文本描述模型，得到描述待处理表情图片的文本信息；

步骤S14，该文本信息添加至待处理表情图片中；

对于未包含文本区域的待处理表情图片，本申请可以先对其进行图像分析，得到其文本描述，再据此实现对待处理表情图片的分类存储，对于这类待处理表情图片的文本识别方法，并不局限于本实施例描述的这种实现方法，本申请仅以此为例进行示意性说明。

本实施例中，上述文本描述模型可以用于获取表征表情图片含义的文本描述，可以利用深度学习网络，对大量样本表情图片及其对应的文本描述进行有监督地训练得到，但并不局限于这种训练方式。

通常情况下，待处理表情图片的含义可以从对象的表情、动作得知，而一幅待处理表情图片往往会包含前景和背景，即包含对得知其含义无用的区域，为了提高识别效率，本申请可以先对待处理表情图片进行分割，得到多个分割图片(在分割时需要保证信息完整性，如表情完整性、手势完整性等)，再对每个分割图片进行特征分析，得到相应的特征向量后，将特征向量输入预先训练的文本描述模型，来得到该分割图片的文本描述，之后，可以综合多个分割图片各自的文本描述，得到待处理表情图片的文本描述；或者选择文本描述语义相同的分割图片作为待处理表情图片的关键特征图片，并将关键特征图片的文本描述作为整个待处理表情图片的文本描述等等，本申请对获取待处理表情图片的文本描述的实现方法不做限定。

由于获取的待处理表情图片的文本描述内容可能会比较多，不能直观得知待处理表情图片的含义，所以，本实施例还可以对文本描述进行语义分析，得到用于描述该待处理表情图片的精短语句即文本信息，具体可以采用关键词提取的方式实现，但并不局限于此。

应该理解，若得到的文本描述就是精短语句，可以直接将其作为待处理表情图片的文本信息。

对于未包含文本区域的待处理表情图片，按照上述方式得到其文本信息后，为了避免不同用户对同一表情图片的理解不同，造成沟通障碍，本申请需要保证用户对待处理表情图片含义理解的统一性，所以，参照图4a和图4b，本实施例可以将该文本信息添加至待处理表情图片中，以使用户使用该待处理表情图片时，能够观看其中的文本信息，理解该待处理表情图片的含义。

需要说明的是，本申请对如何将文本添加到图片中的实现方法不做限定，且在添加之前，如图4b所示，可以先对文本信息的排本、字体大小、样式、颜色等属性进行调整，使其添加到待处理表情图片中后既不会显得突兀，又能够增加趣味性。

步骤S15，提取待处理表情图片包含的文本区域；

对于如图3d～图3f示出的包含文本区域的待处理表情图片，由于该文本区域中的文字内容通常就是对待处理表情图片的描述，即该待处理表情图片所表示的含义，本实施例可以直接对其中的文本区域的图片进行文字识别，因此，可以直接将将该文本区域从待处理表情图片中分割出来，后续可以直接对分割出的文本区域进行语义分析，本申请对如何从待处理表情图片中分割出文本区域图片的实现方法不做限定。

可选的，本申请可以使用Faster-RCNN(Regions with Convolutional NeuralNetwork features)这一深度学习网络，实现对待处理表情图片的分割，得到其包含的文本区域，其相对传统方案中的RCNN深度学习网络，Faster-RCNN提出了RPN(Region ProposalNetwork，候选区域网络)，其通过RPN输出锚箱候选方案，再通过非极大抑制算法NMS和其他一些方法减少候选方案，提高了运算性能，具体实现过程可以参照下文相应实施例的描述。

需要说明，对于步骤S15的实现，并不局限于Faster-RCNN这一深度学习网络，还可以使用Mask-RCNN深度学习网络等，对待处理表情图片进行分割，得到文本区域，本申请对步骤S15的具体实现方法不做限定。

步骤S16，将该文本区域输入连接主义分类网络，得到该文本区域包含的文本信息；

其中，连接主义分类(Connectionist Temporal Classification，CTC)网络用来实现端对端的文字的识别，在确定待识别的图片即上文提取的文本区域后，可以利用该CTC网络中的卷积层进行特征提取，再将提取的特征输入递归神经RNN网络，由RNN网络输出预测序列，即文本区域中文本信息包含的可能字符序列，之后，可以经过最优路径、greedydecoder(贪婪解码器)等方式进行解答，确定损失最小的字符序列对应的文字内容，即为文本区域包含的文本信息。本实施例对如何利用CTC网络实现文本区域的文字识别的过程不做详述。

在实际应用中，对于表情图片的文本信息可以用来进行情感预测、语义理解，满足不同场景下的搜索需求，并不局限于本申请提出的表情搜索方式。

步骤S17，将待处理表情图片存储至与该文本信息匹配的分类表情库。

本实施例按照上述方式得到待处理表情图片的文本信息后，即得知待处理表情图片的含义后，可以按照该文本信息对待处理表情图片进行分类存储，即存储至与该文本信息匹配的分类表情库中，这样，用户就可以通过输入搜索关键词，直接从相应的分类表情库中搜索用户所需的表情图片，不需要用户再一个一个查找，且避免了不同用户对同一表情图片的理解不同，造成的沟通障碍。

在实际应用中，在识别出文本信息后，可以创建与该文本信息匹配的一分类表情库，这样，后续再得到包含与其匹配的文本信息的待处理表情图片后，可以将其直接存储至该分类表情库中。基于此，在得到文本信息后，可以先检测是否存储在于该文本信息匹配的分类表情库，若不存在，可以创建相应类型的分类表情库，再将该待处理表情图片存储至该分类表情库中，本申请对分类表情库的创建方法不作详述；在存在与文本信息匹配的分类表情库的情况下，直接将包含该文本信息的待处理表情图片存储至该分类表情图片即可，本申请对其中的各表情图片的存储方式不做限定。

应该理解的是，对于同一类型的表情图片，其包含的文本信息内容并不完全一致，所以，本申请对创建的各类表情库，可以设定一分类标签，这样，在得到其包含的文本信息后，可以经过语音分析，确定出与该文本信息匹配的分类标签，从而将包含该文本信息的待处理表情图片存储至具有该分类标签的分类表情库，可见，属于同一类型但内容并不完全相同的文本信息，其对应的待处理表情图片可以存储至该同一类型的分类表情库。

需要说明，对于步骤S17的具体实现方式，并不局限于上文描述的实现过程，可以根据实际场景需求进行灵活调整，本申请不做一一详述。

综上，参照图5示出的场景流程图，本申请对需要分类存储的待处理表情图片，本实施例可以将采用深度学习网络，快速且准确提出该待处理表情图片中的文本区域的图片，再其输入CTC网络进行文字识别，得到待处理表情图片包含的文本信息，之后，将按照该文本信息，对待处理表情图片进行分类存储，不需要开发者人工分类，提高了处理效率；且本申请这种分类存储方式，使得应用服务器能够依据用户输入的搜索关键词，直接从对应类型的分类表情库中快速且准确搜索用户需要的表情图片，不需要用户从一系列不同含义的表情图片中一个一个查找，极大提高了表情图片搜索效率，提高了即时通信沟通效率，且避免了不同用户对同一表情图片的理解不同，造成的沟通障碍。

下面将以按照上述实施例描述的方式，构建各种分类表情库后，如何在用户之间的即时通信场景中使用为例进行说明，参照图6所示的本申请提出的图片处理方法的一可选示例的信令流程图，该方法主要对构建各种分类表情库，并将获取的大量表情图片存储至相应分类表情库之后的应用实现过程进行描述，如图6所示，该方法可以包括但并不局限于以下步骤：

步骤S21，应用客户端输出会话窗口；

其中，应用客户端可以是手机、笔记本电脑、台式电脑、工控机等各种终端设备上安装的应用程序，用来实现用户间的即时通信，具体应用类型不作限定。

步骤S22，应用客户端响应于用户在该会话窗口中的表情搜索框的输入操作，生成表情搜索请求；

参照图7示出的场景示意图，在用户之间进行即时通信过程中，会话双方可以输出会话窗口，以展示双方输出的会话内容，当用户需要用一表情图片并表达当前沟通含义时，如“我来了”，可以在会话窗口中用于搜索表情的文本框中输入“我来了”，应用客户端可以检测用户输入的搜索关键词，并生成包含该搜索关键词的表情搜索请求，具体实现过程并不局限于本实施例描述的方式。

步骤S23，应用客户端将该表情搜索请求发送至应用服务器；

步骤S24，应用服务器解析表情搜索请求，得到用户标识及搜索关键词；

步骤S25，应用服务器确定出与该表情搜索关键词匹配的目标分类表情库，从该目标分类表情库中，选择与该用户标识关联的多个表情图片；

步骤S26，应用服务器获取所述用户标识对这多个表情图片的选择概率，确定出选择概率较高的至少一个候选表情图片；

本申请中，各分类表情库包含表情图片可以动态更新，也会随着时间推移不断增加，为了提高表情搜索效率及准确性，本申请可以在应用服务器中配置推荐系统，这样，在接收到应用客户端发送的用户标识及搜索关键词后，可以由该应用服务器中的推荐系统，确定搜索关键词匹配的目标分类表情库，再获取用户标识对表情图片的使用习惯及喜好，据此先初步筛选出多个用户可能会感兴趣的表情图片，再预测用户标识选择使用各表情图片的选择概率，可以由预先训练得到的选择预测模型得到，之后，按照选择概率大小，确定出选择概率较高的至少一个候选表情图片，即选择出用户更加可能会选择使用表情图片，即可能是用户当前需要使用的表情图片。

其中，选择预测模型可以用于预测用户选择使用表情的概率，可以利用深度学习网络，对用户标识的大量历史选择图片进行训练得到，本申请对该选择预测模型的训练过程不做详述。

另外，对于利用推荐系统，为用户标识推荐其可能需要的至少一个候选表情图片的实现过程，并不局限于本实施例描述的实现方式。

步骤S27，应用服服务器将该至少一个候选表情图片反馈至应用客户端；

步骤S28，应用客户端在会话窗口输出该至少一个候选表情图片；

步骤S29，应用客户端响应于用户对至少一个候选表情图片的选择操作，将选择的目标表情图片发送至会话对方客户端。

仍以图7所示的场景为例，用户输入“我来了”这一搜索关键词，应用服务器可以据此得到多幅用户可能需要的包含“我来了”这一文本信息或其含义相匹配的文本信息的表情图片，并这些候选表情图片反馈至用户标识的应用客户端进行展示，用户就可以根据个人喜好选择一个表情图片发送至会话对方，此时，由于发送的表情图片中包含有文本信息，这样，该表情图片的接收方能够据此准确理解发放方所表达的含义，避免了不包含文本信息的表情图片，导致接收方理解为“我走了”，影响了沟通效率。

可选的，对于分类表情库中各用户对表情图片的选择概率，可以依据用户对表情图片的使用数据进行动态更新，以提高所选择的候选表情图片的准确性。

综上，参照图8示出的场景流程图，本申请预先通过识别各表情图片包含的文本信息，并按照该文本信息进行分类存储，得到不同类型的分类表情库，这样，在用户需要发送某一含义的表情图片时，应用服务器可以依据用户输入的搜索关键词，直接从相应的目标分类表情库中搜索若干均是表达这一含义的表情图片，用户就不需要分辨各表情图片的含义，直接选择一个表情图片发送即可，非常方便，避免了理解不同导致的沟通障碍。

其中，应用服务器在选择用户可能感兴趣的表情图片时，可以利用预先配置的推荐系统实现，以使得应用客户端输出的候选表情图片包含用户最可能需要的表情图片，相对于直接按照该类表情图片的存储顺序依次展示，由用户一一挑选的方法，极大缩短了用户选择所需表情图片的时间，提高了沟通效率。

可选的，对于包含文本区域的待处理表情图片，下面将以Faster-RCNN这一深度学习网络为例，来说明如何提取待处理表情图片包含的文本区域的实现方法，但并不局限于下文描述的实现过程，如图9所示，为本申请提供的图片处理方法中，文本区域提取的一种可选示例的流程图，该方法可以适用于应用服务器，具体可以包括以下步骤：

步骤S31，将待处理表情图片输入卷积层进行特征提取，得到特征映射图；

本申请提出的Faster-RCNN这一深度学习网络是在卷积神经网络(ConvolutionalNeural Network,CNN)基础上的改进，如图10示出的Faster-RCNN深度学习网络的架构图，Faster-RCNN具有CNN的基本网络结构，即包括卷积层(conv layers)、全连通层和池化层(pooling layer)，利用卷积层对输入数据进行特征提取，得到特征映射图(featuremaps)，具体实现过程不做详述。其中，Faster-RCNN可以使用反向传播算法进行训练，相比较其他深度、前馈神经网络，卷积神经网络需要考量的参数更少。本申请对待处理表情图片的特征提取过程，以及该Faster-RCNN的网络学习过程不做详述。

步骤S32，对特征映射图输入候选区域网络，得到该特征映射图的前景区域及其位置信息；

参照图10，在待处理表情图片的特征映射图后，可以生成感兴趣区域ROI(regionsof interest)，即将特征映射图输入区域候选网络RPN(Region Proposal Network)，在该特征映射图的每一个锚点上做多个候选ROI，再利用分类器对这些候选ROI区分为前景区域和背景区域，同时利用回归器对这些候选ROI的位置进行初步调整，得到各前景区域的位置信息，本申请对利用RPN对特征映射图的处理过程不做详述。

其中，前景区域是指与真实目标对象重叠并且重叠区域大于0.5的图片区域，背景区域是指不与任何目标对象重叠或其重叠区域小于0.1的图片区域，由此可见，本申请得到的前景区域可能包含待处理表情图片的至少部分文本信息。

另外，由于特征提取过程中，可能会改变所得特征映射图的大小，所以，在确定前景区域和背景区域时，可以根据相应的比例将其映射到原始图片(即待处理表情图片)中，但并不局限于这种实现方式。

步骤S33，对前景区域的位置信息与待处理表情图片中的相应对象尺寸进行比较，确定出候选前景区域；

本申请中，需要提取出待处理表情图片中的文本区域，对于待处理表情图片中的其他对象，本申请可以不做关注，因此，按照上述方式得到多个前景区域和背景区域后，可以对其进行分类，得到不同对象的前景区域。之后，对这些前景区域进行初步回归，即将前景区域的位置信息与真实对象的尺寸进行比较，得到相应的偏差值，再采用非极大值抑制的方式，即依据分类得分，对多个前景区域进行排序，选择排序靠前的得分较高的n个前景区域作为候选前景区域，本申请对n的数值不作限定。

之后，可以将得到候选前景区域进行池化操作，如映射为特定大小的特征图

步骤S34，将候选前景区域映射到预定大小的特征网络，得到预定大小的特征图；

本实施例可以对不同大小的候选前景区域进行ROIPooling操作，即映射为特定大小的特征图，如7x7等，具体池化过程不作详述。

步骤S35，将得到的特征图输入分类器，得到目标前景特征区域；

步骤S36，对目标前景特征区域进行回归处理，得到待处理表情图片的文本区域。

本实施例可以使用1x1的卷积层进行分类处理，以删除不准确的ROI，得到目标前景特征区域，对其进行回归处理(即精确的调整预测的ROI和待处理表情图片中的实际对象的ROI之间的偏差处理)，得到待处理表情图片的文本区域。可见，本申请的分类器可以由1x1的卷积层构成，但并不局限于这种分类结构。

综上，结合图10示出的Faster-RCNN深度学习网络的架构图，本申请使用Faster-RCNN深度学习网络，提取待处理表情图片中的文本区域过程中，是对整个待处理表情图片进行特征提取，即进行一次特征提取，将提取到的候选框映射卷积层，得到特征映射图，相对于传统的RCNN深度学习网络，将分割得到的每个候选区域输入深度学习网络进行多个特征提取，在提高精度的同时也提高了速度。

而且，本申请对RPN网络和Faster-RCNN网络的特征共享与训练，提高了网络训练效率，并使用ROIPooling技术和NMS技术，保证了所提取到的前景区域与待处理表情图片中相应对象区域的尺寸相同，进而保证了所提取的文本区域的完整性及准确性。

作为本申请另一可选实施例，下面主要对如何利用CTC网络，对提取的文本区域这一图片进行文字识别的方法进行描述，但并不局限于本实施例描述的实现方式，如图11所示，为本申请提出的图片处理方法中，文字识别的一可选示例的流程图，该方法可以包括：

步骤S41，对文本区域进行特征提取，得到文本特征向量；

本实施例中，仍可以使用卷积神经网络对文本区域进行特征提取，得到该文本区域这一图片的文本特征向量，具体实现过程不做详述。

步骤S42，将该文本特征向量输入递归神经网络，得到文本区域包含的文本标签序列；

其中，递归神经网络(recursive neural network，RNN)是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络，具有灵活的拓扑结构且权重共享的特点，在自然语言处理领域得到重要应用，本申请对如何利用递归神经网络，得到文本区域可能生成的文本标签序列的过程不做详述。

步骤S43，对文本标签序列进行解码，得到文本区域包含的文本信息。

本实施例可以利用损失函数，对各文本标签序列的解码结果进行处理，确定出损失最小的文本标签序列，并将其对应的文本信息作为文本区域的文本信息，所得文字识别结果可以如下所示：

Filename＝81be8a…jpg,ocr＝决斗吧，probs＝0.534,0.944,1.000,0.874,trust＝False；Filename＝3cf9ca…jpg,ocr＝棒棒棒，probs＝0.931,0.790,1.000,0.792,trust＝False；Filename＝043b8…jpg,ocr＝我是仙女,probs＝1.000,1.000,1.000,0.999,trust＝True；……。

关于得到的文字识别结果，并不局限于上文给出的表示方式，从该文字识别结果中，可以直接得到文本区域的文字信息。

综上，本申请利用深度学习网络实现待处理表情图片的文本区域的自动提取，以及对文本区域的文字信息的自动识别，相对于现有技术由人工识别各待处理表情图片的文本信息，构建表情库的方式，极大提高了表情库构建效率，且解决了不同开发者对同一类型表情图片的语义理解不同，导致对其分类结果不一致，进而影响表情搜索结果准确性的技术问题。

参照图12，为本申请提供的图片处理装置的一种可选示例的结构图，该装置可以适用于应用服务器，如图12所示，该装置可以包括：

表情图片获取模块21，用于获取待处理表情图片；

文本区域提取模块22，用于提取所述待处理表情图片包含的文本区域；

可选的，在实际应用中，该装置还可以包括：

检测模块，用于检测所述待处理表情图片是否包含文本区域，若是，触发文本区域提取模块提取所述待处理表情图片包含的文本区域；

文本描述获取模块，用于在所述待处理表情图片未包含文本区域的情况下，将所述待处理表情图片输入文本描述模型，得到所述待处理表情图片的文本信息；

其中，所述文本描述模型是通过对样本表情图片及所述样本表情图片的文本描述进行训练得到。

文本信息添加模块，用于将所述文本信息添加至所述待处理表情图片中；

文本信息获取模块23，用于将所述文本区域输入连接主义分类网络，得到所述文本区域包含的文本信息；

表情图片分类存储模块24，用于将所述待处理表情图片存储至与所述文本信息对应的分类表情库。

可选的，文本区域提取模块22可以包括：

特征提取单元，用于对待处理表情图片进行特征提取，得到特征映射图；

前景区域获取单元，用于将所述特征映射图输入候选区域网络，得到所述特征映射图的前景区域及所述前景区域的位置信息，其中，所述前景区域包含所述待处理表情图片的至少部分文本信息；

候选前景区域确定单元，用于对所述前景区域的位置信息与所述待处理表情图片中的相应对象尺寸进行比较，确定出候选前景区域；

映射单元，用于将所述候选前景区域映射到预定大小的特征网络，得到预定大小的特征图；

分类单元，用于将所述特征图输入分类器，得到目标前景特征区域；

回归单元，用于对所述目标前景特征区域进行回归处理，得到待处理表情图片的文本区域。

可选的，文本信息获取模块23可以包括：

文本特征提取单元，用于对所述文本区域进行特征提取，得到文本特征向量；

文本标签序列获取单元，用于将所述文本特征向量输入递归神经网络，得到所述文本区域包含的文本标签序列；

文本信息获取单元，用于对所述文本标签序列进行解码，得到所述文本区域包含的文本信息。

在上述各实施例的基础上，图片处理装置还可以包括：

表情搜索请求接收模块，用于接收客户端发送的表情搜索请求，所述表情搜素请求携带搜索关键词；

候选表情图片筛选模块，用于确定出与所述搜索关键词匹配的目标分类表情库，从所述目标分类表情库中筛选至少一个候选表情图片；

在上述表情搜索请求还携带用户标识的情况下，上述候选表情图片筛选模块可以包括：

第一选择单元，用于从所述目标分类表情库中，选择与所述用户标识关联的多个表情图片；

第二选择单元，用于获取所述用户标识对选择出的各表情图片的选择概率；

确定单元，用于确定出选择概率较高的至少一个候选表情图片。

候选表情图片发送模块，用于将所述至少一个候选表情图片发送至所述客户端的当前显示界面进行展示。

应该理解，上述各模块或单元均是应用程序模块，其实现相应功能的过程，可以参照上述方法实施例相应部分的描述。

本申请还提供了一种存储介质，其上存储有程序，该程序被处理器调用并执行，以实现上述图片处理方法的各步骤。

参照图13，为本申请提供的一种计算机设备的硬件结构图，本申请中，该计算机设备可以是上述应用服务器，如图13所示，该计算机设备可以包括：至少一个通信接口31、至少一个存储器32及至少一个处理器33，其中：

至少一个通信接口31、至少一个存储器32及至少一个处理器33可以通过通信总线，实现相互之间的数据交互。

通信接口31可以包括无线通信模块的接口，如WIFI模块、GPRS模块、GSM模块等通信模块的接口，以实现与其他设备的数据交互，如用户的终端设备，其他服务器，如数据服务器等，通信接口还可以包括有线通信模块的接口，如串/并口等，以实现计算机设备内部数据交互，本申请对通信接口的类型不做限定。

存储器32可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

在本实施例中，该存储器32可以存储实现图片处理方法的程序，还可以用于图片处理过程中产生的各种中间数据，本申请不作详述。

可选的，对于存储不同类型表情图片的分类表情库，可以是由独立的数据服务器存储，也可以由该计算机设备中的数据存储设备存储，本申请对此不做限定。

处理器33可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

本实施例中，处理器33可以调用存储器32所存储的程序，以实现上述图片处理方法的各步骤，具体实现过程不再赘述。

本说明书中各个实施例采用递进或并列的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图片处理方法，其特征在于，所述方法包括：

获取待处理表情图片；

检测所述待处理表情图片是否包含文本区域；

若所述待处理表情图片包含文本区域，提取所述待处理表情图片包含的文本区域，并将所述文本区域输入连接主义分类网络，得到所述文本区域包含的文本信息；

若所述待处理表情图片未包含文本区域，将所述待处理表情图片输入文本描述模型，得到所述待处理表情图片的文本信息，并将所述文本信息添加至所述待处理表情图片中；所述待处理表情图片的文本信息是用于描述所述待处理表情图片的精短语句；所述文本描述模型是通过对样本表情图片及所述样本表情图片的文本描述进行训练得到；所述将所述待处理表情图片输入文本描述模型，得到所述待处理表情图片的文本信息，包括：

对所述待处理表情图片进行分割，得到多个分割图片；

对每个所述分割图片进行特征分析，得到相应的特征向量；

将所述特征向量输入预先训练的文本描述模型，得到所述分割图片的文本描述；

综合所述多个分割图片各自的文本描述，得到所述待处理表情图片的文本信息；或者，选择文本描述语义相同的分割图片作为所述待处理表情图片的关键特征图片，并将所述关键特征图片的文本描述作为所述待处理表情图片的文本信息；

将所述待处理表情图片存储至与所述文本信息对应的分类表情库，其中，同一类型的分类表情库中包括文本信息属于同一类型但内容并不完全相同的待处理表情图片；

接收客户端发送的表情搜索请求，所述表情搜索请求携带搜索关键词；

确定出与所述搜索关键词匹配的目标分类表情库，从所述目标分类表情库中筛选至少一个候选表情图片；所述至少一个候选表情图片的文本信息与所述搜索关键词或所述搜索关键词的含义相匹配；

将所述至少一个候选表情图片发送至所述客户端的当前显示界面进行展示。

2.根据权利要求1所述的方法，其特征在于，所述提取所述待处理表情图片包含的文本区域，包括：

对所述待处理表情图片进行特征提取，得到特征映射图；

将所述特征映射图输入候选区域网络，得到所述特征映射图的前景区域及所述前景区域的位置信息，其中，所述前景区域包含所述待处理表情图片的至少部分文本信息；

对所述前景区域的位置信息与所述待处理表情图片中的相应对象尺寸进行比较，确定出候选前景区域；

将所述候选前景区域映射到预定大小的特征网络，得到预定大小的特征图；

将所述特征图输入分类器，得到目标前景特征区域；

对所述目标前景特征区域进行回归处理，得到待处理表情图片的文本区域。

3.根据权利要求1所述的方法，其特征在于，所述将所述文本区域输入连接主义分类网络，得到所述文本区域包含的文本信息，包括：

对所述文本区域进行特征提取，得到文本特征向量；

将所述文本特征向量输入递归神经网络，得到所述文本区域包含的文本标签序列；

对所述文本标签序列进行解码，得到所述文本区域包含的文本信息。

4.根据权利要求1所述的方法，其特征在于，所述表情搜索请求还携带有用户标识，所述从所述目标分类表情库中筛选至少一个候选表情图片，包括：

从所述目标分类表情库中，选择与所述用户标识关联的多个表情图片；

获取所述用户标识对选择出的各表情图片的选择概率；

确定出选择概率高的至少一个候选表情图片。

5.一种图片处理装置，其特征在于，所述装置包括：

表情图片获取模块，用于获取待处理表情图片；

检测模块，用于检测所述待处理表情图片是否包含文本区域；

文本区域提取模块，用于若所述待处理表情图片包含文本区域，提取所述待处理表情图片包含的文本区域；

文本描述获取模块，用于若所述待处理表情图片未包含文本区域，将所述待处理表情图片输入文本描述模型，得到所述待处理表情图片的文本信息；所述文本描述模型是通过对样本表情图片及所述样本表情图片的文本描述进行训练得到；所述将所述待处理表情图片输入文本描述模型，得到所述待处理表情图片的文本信息，包括：

对所述待处理表情图片进行分割，得到多个分割图片；

对每个所述分割图片进行特征分析，得到相应的特征向量；

文本信息添加模块，用于将所述待处理表情图片的文本信息添加至所述待处理表情图片中；所述待处理表情图片的文本信息是用于描述所述待处理表情图片的精短语句；

表情图片分类存储模块，用于将所述待处理表情图片存储至与所述文本信息对应的分类表情库，其中，同一类型的分类表情库中包括文本信息属于同一类型但内容并不完全相同的待处理表情图片；

表情搜索请求接收模块，用于接收客户端发送的表情搜索请求，所述表情搜索请求携带搜索关键词；

候选表情图片筛选模块，用于确定出与所述搜索关键词匹配的目标分类表情库，从所述目标分类表情库中筛选至少一个候选表情图片；所述至少一个候选表情图片的文本信息与所述搜索关键词或所述搜索关键词的含义相匹配；

6.根据权利要求5所述的装置，其特征在于，所述文本区域提取模块包括：

特征提取单元，用于对所述待处理表情图片进行特征提取，得到特征映射图；

7.根据权利要求5所述的装置，其特征在于，所述文本信息获取模块包括：

8.根据权利要求5所述的装置，其特征在于，所述表情搜索请求还携带有用户标识，所述候选表情图片筛选模块，包括：

确定单元，用于确定出选择概率高的至少一个候选表情图片。

9.一种计算机设备，其特征在于，所述计算机设备包括：

通信接口；

存储器，用于存储程序；

处理器，用于加载并执行所述存储器存储的程序，以实现如权利要求1～4任一项所述的图片处理方法的各个步骤。

10.一种存储介质，其特征在于，其上存储有程序，该程序被处理器调用并执行，以实现如权利要求1～4任一项所述的图片处理方法的各个步骤。