CN109189959B

CN109189959B - 一种构建图像数据库的方法及装置

Info

Publication number: CN109189959B
Application number: CN201811039071.7A
Authority: CN
Inventors: 李岩; 王汉杰; 曹刚; 龚治; 陈波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2020-11-10
Anticipated expiration: 2038-09-06
Also published as: CN109189959A

Abstract

本申请实施例提供了一种构建图像数据库的方法及装置，涉及图像处理技术领域，该方法包括：从网络社交平台中获取社交文本信息和社交图像信息，然后从社交文本信息中提取视觉标签，并从社交图像信息中确定每个视觉内容标签对应的社交图像，然后对视觉内容标签对应的社交图像进行提纯和去重后构建图像数据库。由于从网络社交平台中自动获取社交文本信息和社交图像信息，然后从中提取视觉内容标签以及对应的社交图像，而不需要人工从互联网中搜索图像，从而提高构建图像数据库的效率，减少构建图像数据库的人力成本。采用该图像数据库中的图像对神经网络进行训练确定的图像识别模型，避免了训练样本异质问题，更适用于网络社交平台中图像的识别。

Description

一种构建图像数据库的方法及装置

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种构建图像数据库的方法及装置。

背景技术

随着近年来深度学习技术的快速发展，图像内容理解或图像标签识别在不同的领域发挥着越来越大的作用。在训练获取图像理解引擎时，需要足够多的图像数据集作为训练样本，且训练样本的规模和质量直接决定了最终图像理解引擎的性能。现有技术中，主要通过人工从互联网上搜索图像并构建图像数据库，效率较低且人力成本较高。

发明内容

由于现有技术中，通过人工从互联网上搜索图像并构建图像数据库，效率较低且人力成本较高的问题，本申请实施例提供了一种构建图像数据库的方法及装置。

第一方面，本申请实施例提供了一种构建图像数据库的方法，该方法包括：

获取网络社交平台中的社交文本信息和社交图像信息；

从所述社交文本信息中提取视觉内容标签，并从所述社交图像信息中确定每个视觉内容标签对应的社交图像；

对每个视觉内容标签对应的社交图像进行提纯；

去除所有视觉内容标签对应的社交图像中重复的社交图像；

采用去重后的所有视觉内容标签对应的社交图像构建图像数据库。

由于从网络社交平台中获取社交文本信息和社交图像信息构建图像数据库，故采用该图像数据库中的图像对深度卷积神经网络进行训练确定的图像识别模型，避免了训练样本异质问题，提高了图像识别模型对网络社交平台中的图像进行识别的精度。其次，从网络社交平台中获取社交文本信息和社交图像信息，然后从社交文本信息中提取视觉标签，并从社交图像信息中确定每个视觉内容标签对应的社交图像，而不需要人工从互联网中搜索图像，从而提高构建图像数据库的效率，减少构建图像数据库的人力成本。另外，在采用视觉标签的社交图像构建图像数据库之前，对社交图像进行提纯并去重，从而提高了图像数据库中社交图像与视觉标签的匹配程度，同时提高了用于训练深度卷积神经网络的训练样本的质量。

第二方面，本申请实施例提供了一种构建图像数据库的装置，包括：

获取模块，用于获取网络社交平台中的社交文本信息和社交图像信息；

提取模块，用于从所述社交文本信息中提取视觉内容标签，并从所述社交图像信息中确定每个视觉内容标签对应的社交图像；

提纯模块，用于对每个视觉内容标签对应的社交图像进行提纯；

去重模块，用于去除所有视觉内容标签对应的社交图像中重复的社交图像；

构建模块，用于采用去重后的所有视觉内容标签对应的社交图像构建图像数据库。

第三方面，本申请实施例提供了一种生成图像识别模型的方法，包括：

以图像数据库中的图像为训练样本，对深度卷积神经网络进行训练得到图像识别模型，所述图像数据库是采用第一方面所述的方法构建的。

第四方面，本申请实施例提供了一种生成图像识别模型的装置，包括：

存储模块，用于存储采用第一方面所述的方法构建的图像数据库；

训练模块，用于以所述图像数据库中的图像为训练样本，对深度卷积神经网络进行训练得到图像识别模型。

第五方面，本申请实施例提供了一种构建图像数据库的设备，包括至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行第一方面所述方法的步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由构建图像数据库的设备执行的计算机程序，当所述程序在构建图像数据库的设备上运行时，使得所述构建图像数据库的设备执行第一方面所述方法的步骤。

本申请实施例中，由于从网络社交平台中获取社交文本信息和社交图像信息构建图像数据库，故采用该图像数据库中的图像对深度卷积神经网络进行训练确定的图像识别模型，避免了训练样本异质问题，提高了图像识别模型对网络社交平台中的图像进行识别的精度。其次，从网络社交平台中获取社交文本信息和社交图像信息，然后从社交文本信息中提取视觉标签，并从社交图像信息中确定每个视觉内容标签对应的社交图像，而不需要人工从互联网中搜索图像，从而提高构建图像数据库的效率，减少构建图像数据库的人力成本。另外，在采用视觉标签的社交图像构建图像数据库之前，对社交图像进行提纯并去重，从而提高了图像数据库中社交图像与视觉标签的匹配程度，同时提高了用于训练深度卷积神经网络的训练样本的质量。通过对各个视觉内容标签进行聚类后构建视觉内容标签的层级结构，然后以视觉内容标签的层级结构为索引存储社交图像，便于对视觉内容标签以及社交图像进行管理。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用场景图；

图2为本申请实施例提供的一种微信朋友圈的示意图；

图3为本申请实施例提供的一种数据服务器的结构示意图；

图4为本申请实施例提供的一种微信朋友圈的示意图；

图5为本申请实施例提供的一种社交图像的示意图；

图6为本申请实施例提供的一种构建图像数据库的方法的流程示意图；

图7为本申请实施例提供的一种微信朋友圈的示意图；

图8为本申请实施例提供的一种微信朋友圈的示意图；

图9为本申请实施例提供的一种提纯方法的流程示意图；

图10为本申请实施例提供的一种社交图像的示意图；

图11为本申请实施例提供的一种提纯方法的流程示意图；

图12为本申请实施例提供的一种社交图像的示意图；

图13为本申请实施例提供的一种聚类后的社交图像的示意图；

图14为本申请实施例提供的一种提纯方法的流程示意图；

图15为本申请实施例提供的一种社交图像的示意图；

图16为本申请实施例提供的一种社交图像的示意图；

图17为本申请实施例提供的一种去重方法的流程示意图；

图18(a)为本申请实施例提供的一种社交图像的示意图；

图18(b)为本申请实施例提供的一种社交图像的示意图；

图18(c)为本申请实施例提供的一种社交图像的示意图；

图19为本申请实施例提供的一种构建图像数据库的装置的结构示意图；

图20为本申请实施例提供的一种生成图像识别模型的装置的结构示意图；

图21为本申请实施例提供的一种构建图像数据库的设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本申请实施例中涉及的名词进行解释。

网络社交平台：人与人之间的关系网络化，在网上表现为以各种网络社交应用程序，比如微信朋友圈、QQ空间、微博、豆瓣等等。

微信朋友圈：腾讯微信上的一个社交功能，用户可以通过朋友圈发表文字和图片，同时可通过其他软件将文章或者音乐分享到朋友圈。用户可以对好友新发的照片进行“评论”或“点赞”，用户只能看相同好友的评论或点赞。

在具体实践过程中，本申请的发明人发现，通过训练深度卷积神经网络确定图像识别模型时，需要预先采集图像构建图像库，然后以图像库中的图像作为训练样本对深度卷积神经网络进行训练。现有技术中，用户在构建图像库时，首先人工采用关键词搜索的方式从互联网中获取图像，然后人工删除与关键词不相关的图像，最后采用剩余的图像构建图像数据库。由于从互联网中获取的图像往往来自互联网新闻，而新闻类图像往往刻意突出某些内容主体，背景相对简单，而在网络社交平台中用户发布的图像往往与生活相关，并不会只突出某个主体，图像背景相对较复杂。因此在训练用于识别网络社交平台中图像的图像识别模型时，直接采用从互联中获取的图像进行训练将出现数据异质问题，从而导致训练得到的图像识别模型的精度较低。

为此，本申请的发明人的考虑到，为了适应网络社交平台中图像的特殊性，本申请实施例从网络社交平台中获取社交文本信息和社交图像信息构建图像数据库，解决训练深度卷积神经网络确定图像识别模型时的数据异质问题，提高图像识别模型的识别精度。

由于在训练深度卷积神经网络时，所需要的训练样本的数量庞大，采用人工采集图像构建数据库时，效率较低且人力成本较高。为此，本申请实施例采用网络爬虫从网络社交平台中自动获取社交文本信息和社交图像信息，然后将社交文本信息进行分词并进行词频统计，根据词频统计结果从社交文本信息中提取视觉内容标签。然后从社交图像信息中确定每个视觉内容标签对应的社交图像，从而实现自动获取社交图像，而不需要人工从互联网上搜索获取。由于从社交图像信息中确定每个视觉内容标签对应的社交图像时，视觉内容标签与社交图像之间可能没有完全对应，会存在一些与视觉内容标签无关的社交图像。因此，本申请实施例中，从社交图像信息中确定每个视觉内容标签对应的社交图像后，对每个视觉内容标签对应的社交图像进行提纯，去除与视觉内容标签不相关的社交图像。由于有时候多个视觉内容标签可能对应一张社交图像。当以这张社交图像为训练样本对深度卷积神经网络进行训练时，深度卷积神经网络在分类时无法判断这张社交图像对应的视觉内容标签，导致训练出错。为此，本申请实施例中，对提纯后的所有视觉内容标签对应的社交图像进行去重，然后采用去重后的所有视觉内容标签对应的社交图像构建图像数据库。

本申请实施例中的构建图像数据库的方法可以应用于如图1所示的应用场景，在该应用场景中包括终端设备101、业务服务器102以及数据服务器103。

终端设备101是具备网络通信能力的电子设备，该电子设备可以是智能手机、平板电脑或便携式个人计算机等等。终端设备101通过无线网络与业务服务器102连接，业务服务器102是网络社交平台对应的服务器，可以是一台服务器或若干台服务器组成的服务器集群或云计算中心。业务服务器102通过无线网络与数据服务器103连接，数据服务器103包括构建图像数据库的装置，数据服务器103是一台服务器或若干台服务器组成的服务器集群或云计算中心。

用户在终端设备101上安装网络社交应用(APP)，比如微信。用户在终端设备101上发布社交文本信息以及社交图像信息。比如用户在终端设备101中打开微信朋友圈，然后编辑文字以及添加对应的图像后点击“发表”按钮，终端设备101将发送请求至业务服务器102，业务服务器102响应终端设备101的请求，在用户的微信朋友圈中展示用户发表的文字以及图像，具体如图2所示。业务服务器102同时将用户发表的社交文本信息以及对应的社交图像信息对应记录。数据服务器103从业务服务器102中拉取一段时间内业务服务器102记录的社交文本信息以及社交图像信息。然后根据社交文本信息以及社交图像信息构建图像数据库。在训练深度卷积神经网络确定图像识别模型时，以图像数据库中的社交图像为训练样本。训练得到的图像识别模型可应用于网络社交平台中的图像识别。比如可以用于用户画像绘制，然后根据用户画像定向推送用户关注的新闻、广告等等。示例性地，母婴类人群经常会在微信朋友圈发布包含宝宝或儿童的照片。通过图像识别模型可以识别微信朋友圈中用户发布的宝宝或者儿童的照片，然后将发布宝宝或者儿童的照片的用户确定为母婴类人群，进一步可以在网络社交平台中向母婴类人群推送教育相关或者母婴用品相关的广告或消息。示例性地，宠物爱好者会在微信朋友圈分享他们饲养的宠物，通过图像识别模型可以识别微信朋友圈中用户发布的宠物照片，然后确定该类用户为宠物爱好者，进一步可以在网络社交平台中向宠物爱好者推送宠物玩具、宠物食物相关的广告。除了用户画像的绘制，图像识别模型还可以用于网络社交平台中特定人群的识别。示例性地，微商、房产中介经常会借助微信朋友圈平台发布其售卖的商品图像和房产户型图。通过图像识别模型可以识别微信朋友圈中用户发布的商品图像和房产户型图，然后识别出微商和房产中介。图像识别模型还可以用于原创发布内容判定、网络舆情监控以及鉴黄等应用。

进一步地，在图1所示的应用场景图中，数据服务器103的结构示意图如图3所示，数据服务器103包括：获取模块1031、视觉内容标签提取模块1032、社交图像提取模块1033、提纯模块1034、去重模块1035及构建模块1036。

获取模块1031从业务服务器102中拉取一段时间内业务服务器102记录的社交文本信息以及社交图像信息。示例性地，获取模块1031从业务服务器102中拉取10亿微信用户过去一年内在微信朋友圈中发布的文本信息以及对应的图像。视觉内容标签提取模块1032对社交文本信息进行分词和词频统计，并根据词频统计结果确定视觉内容标签。社交图像提取模块1033根据视觉内容标签从社交图像信息中确定视觉内容标签对应的社交图像。示例性地，视觉内容标签提取模块1032对微信朋友圈中发布的文本信息进行分词和词频统计。设定根据词频统计结果确定了视觉内容标签“小黄车”，则首先确定微信用户在朋友圈中发布的文本信息中包含“小黄车”的文本信息，然后将该文本信息对应的图像确定为“小黄车”的社交图像。如图4所示，用户在微信朋友圈中发布了的文本信息中包含“小黄车”，故该文本信息下的9张图像均为“小黄车”的社交图像。由于用户在网络社交平台中发布的社交文本信息可能中包含多个视觉内容标签，若将社交文本信息对应的社交图像都作为视觉内容标签对应的社交图像时，会出现的社交图像与视觉内容标签不对应的情况。示例性地，设定用户在微信朋友圈中发布的文本信息和图像如图2所示。文本信息中包含“小黄车”，故将文本信息下的9张图像都确定为“小黄车”的社交图像，但是这9张图像中只有最后一张图像包含“小黄车”，其他8张图像中没有包含“小黄车”，这样将导致这9张“小黄车”的社交图像中有8张社交图像与“小黄车”是不匹配的。因此，数据服务器103采用提纯模块1034对每个视觉内容标签对应的社交图像进行提纯，去除与视觉内容标签不匹配的社交图像。由于一张社交图像可能与多个视觉内容标签对应，若使用这张社交图像对深度卷积神经网络进行训练，深度卷积神经网络将无法判别这张社交图像的视觉内容标签，从而导致训练出错。示例性地，如图5所示，该图中既包括狮子和老虎，那么构建图像数据库时，这张社交图像可能既是视觉内容标签“狮子”的社交图像，同时也是视觉内容标签“老虎”的社交图像。当使用这张社交图像训练深度卷积神经网络时，网络无法判断这张社交图像的视觉内容标签是“狮子”还是“老虎”，从而导致训练出错。因此，数据服务器103采用去重模块1035去除所有视觉内容标签对应的社交图像中重复的社交图像。最后由构建模块1036采用去重后的所有视觉内容标签对应的社交图像构建图像数据库。

基于图1所示的应用场景图和图3所示的数据服务器的结构示意图，本申请实施例提供了一种构建图像数据库的方法的流程，该方法的流程可以构建图像数据库的装置执行，如图6所示，包括以下步骤：

步骤S601，获取网络社交平台中的社交文本信息和社交图像信息。

网络社交平台为人与人之间社交的网络应用程序，比如微信朋友圈、QQ空间、微博、豆瓣等等。

社交文本信息为用户在网络社交平台中发布的文字信息，社交图像信息为用户在网络社交平台中发布的图像信息。

用户可以将社交文本信息和社交图像信息结合发布在网络社交平台。示例性地，如图2所示，用户在微信朋友圈中发布了有关游玩古北水镇的文字，同时发布了古北水镇相关的图像。

用户也可以只将社交文本信息发布在网络社交平台。示例性地，如图7所示，用户在微信朋友圈中发布了有关游玩古北水镇的文字。

用户还可以只将社交图像信息发布在网络社交平台。示例性地，如图8所示，用户在微信朋友圈中发布了古北水镇相关的图像。

构建图像数据库的装置可以采用网络爬虫从网络社交平台中抓取用户发布的社交文本信息和社交图像信息。

步骤S602，从社交文本信息中提取视觉内容标签，并从社交图像信息中确定每个视觉内容标签对应的社交图像。

从网络社交平台中获取社交文本信息和社交图像信息之后，首先对每一条社交文本信息进行分词操作，去除社交文本信息中无意义的词，比如去除介词、连词、代词、数词以及标点符号等等。然后对保留下来的词语进行词频统计并排序，保留词频大于预设值的词语。保留的词语虽然出现的频率高，但是有些高频词语没有明确的视觉内容。比如，微商用户在微信内占据了相当一部分比例，并且微商用户的微信朋友圈发表行为较普通用户更为高频，所以统计后排在前列的词语包含“包邮”、“爆款”等微商词语，然而这些词语并不具有明确的视觉内容，也就是说人在看到这些词语时不能确定这些词语具体表示什么物体。因此通过众筹标注的方法人工地从保留的词语中筛选出高频并且具有视觉内容的词语，然后将高频并且具有视觉内容的词语作为视觉内容标签。

确定视觉内容标签后，根据社交文本信息与社交图像信息之间的对应关系，从社交图像信息中确定每个视觉内容标签对应的社交图像。示例性地，设定网络社交平台为微信朋友圈，视觉内容标签为“老虎”，首先确定用户在微信朋友圈中发布的包含“老虎”的文本，然后将包含“老虎”的文本对应的图像确定为视觉内容标签“老虎”的社交图像。

步骤S603，对每个视觉内容标签对应的社交图像进行提纯。

具体地，对社交图像进行提纯是指针对每一个视觉内容标签，去除视觉内容标签对应的社交图像中与视觉内容标签不匹配的社交图像。

步骤S604，去除所有视觉内容标签对应的社交图像中重复的社交图像。

具体地，对社交图像去重时，既去除每个视觉内容标签对应的社交图像中重复的社交图像，同时去除了各个视觉内容标签之间重复的社交图像。

重复的社交图像可以是完全相同的图像，也可以是来自于同一张原始图像，但是各自有一些变化的图像，比如各自存在不同程度的扭曲、拉伸、裁剪以及色调方面的变换等等。

步骤S605，采用去重后的所有视觉内容标签对应的社交图像构建图像数据库。

图像数据库中的社交图像与视觉内容标签对应保存。图像数据库中的图像可用于训练深度卷积神经网络，确定图像识别模型。该图像识别模型适应于网络社交平台中的图像识别。

在上述步骤S602中，由于用户在网络社交平台中发布的社交文本信息一般为用户所看到具体的物体，因此直接从社交文本信息中提取的视觉内容标签没有特定的层级结构。比如，提取的视觉内容标签为“老虎”、“狮子”、“大象”、“鹦鹉”，而“老虎”、“狮子”、“大象”应该属于“哺乳动物”这一子类，“鹦鹉”应该属于“鸟类”这一子类，而“哺乳动物”和“鸟类”应该属于“动物”这一大类。再比如，提取的视觉内容标签为“办公室”、“教室”、“雪山”、“雨林”以及“广场舞”。而“办公室”、“教室”应该属于“室内场景”这一子类，“雪山”、“雨林”以及“广场舞”应该属于“室外场景”这一子类，而“室内场景”和“室外场景”应该属于“场景”这一大类。另外一些视觉内容标签存在重叠应该进行归并，比如“火车站台”和“月台”重叠，可以合并为一个词，再比如“游乐场”和“游乐园”重叠，也可以合并为一个词。由于直接提取的视觉内容标签之间各自独立，因此不利于对视觉内容标签以及社交图像进行管理和统计。比如，采用上述视觉内容标签构建图像数据库后，在进行深度卷积神经网络训练时，可能并不需要所有视觉标签的社交图像作为训练样本。比如只需要与动物相关的社交图像作为训练样本。由于图像数据库中视觉内容标签之间没有特定的层级结构，则需要输入“老虎”、“狮子”、“大象”等视觉内容标签查询对应的社交图像，查询过程繁琐且可能出现遗漏。

为了便于对视觉内容标签以及社交图像进行管理和统计，构建图像数据库的装置从社交文本信息中提取视觉内容标签之后，可以对各个视觉内容标签进行聚类，然后根据聚类后的各个类别的视觉内容标签构建视觉内容标签的层级结构。在构建的图像数据库中，以层级结构为索引存储社交图像。具体地，以大量文本作为语料库训练一个中文词向量模型，然后采用中文词向量模型确定每一个视觉内容标签对应的词向量特征，接着对所有视觉内容标签对应的词向量特征进行K-Means聚类。针对聚类后的每一个类别，将该类别中词向量特征之间的距离小于预设阈值的视觉内容标签进行归并操作，之后再对每个类别中的视觉内容标签进行语义摘要概括，确定视觉内容标签的层级结构。在构建的图像数据库中，以视觉内容标签的层级结构为索引存储视觉内容标签对应的社交图像。

示例性地，以一个三级的视觉内容标签层级结构为例，采用中文词向量模型确定视觉内容标签“老虎”、“狮子”、“大象”、“鹦鹉”、“办公室”、“教室”、“雪山”、“雨林”、“游乐场”、“游乐园”以及“广场舞”的词向量特征，然后对上述视觉内容标签对应的词向量特征进行K-Means聚类，得到四个类别，分别为类别1、类别2、类别3和类别4，具体如表1所示。由于类别4中“游乐场”与“游乐园”的词向量特征之间的距离小于预设阈值，则将“游乐场”与“游乐园”归并为“游乐园”，删除“游乐场”。然后对类别1至类别4分别进行二级次语义摘要概括。由表1可知，类别1可以语义摘要概括为“哺乳动物”，类别2可以语义摘要概括为“鸟类”，类别3可以语义摘要概括为“室内场景”，类别4可以语义摘要概括为“室外场景”。进一步地，可以再对类别1至类别4之间进行一级语义摘要概括，由表1可知，将类别1和类别2再进行一级语义摘要概括时，可以概括为“动物”。将类别3和类别4再进行一级语义摘要概括是，可以概括为“场景”。根据上述两次语义摘要概括后即可形成上述视觉内容标签之间的三级层级结构。

表1

采用上述视觉内容标签对应的社交图像构建图像数据库时，将视觉内容标签作为社交图像的第三级索引，即最后一级索引，将二级语义摘要概括作为社交图像的第二级索引，将一级语义摘要概括作为社交图像的第一级索引，即最大的分类。从图像数据库中搜索需要的样本时，按照存储的层级结构进行搜索，例如当需要从图像数据库中获取“老虎”、“狮子”或“大象”等的社交图像时，采用三级索引的方式，第一级索引“动物”中查询出第二级索引的“哺乳动物”，再查询出第三级索引的视觉内容标签为“老虎”、“狮子”或“大象”的社交图像。当需要从图像数据库中删除“大象”相关的社交图像时，采用上述同样的方式查询到视觉内容标签为“大象”的图像，并从图像数据库删除。当需要从图像数据库中新增视觉内容标签“熊猫”相关的社交图像时，在视觉内容标签的层级结构中添加“熊猫”作为第三级索引时，将其作为第一级索引“动物”下的第二级索引“哺乳动物”下的第三级索引。

表1所示的三级层级结构，仅仅是一个示例，本领域技术人员可以根据图像数据库的规模，图像类型的多少等因素，来定义合适的视觉内容标签层级结构，这里无法穷举，本领域技术人员根据上述示例和说明即可举一反三。

由于采用聚类算法将相似的视觉内容标签聚为一类，然后构建视觉内容标签的层级结构，在构建的图像数据库中，以视觉内容标签的层级结构为索引存储社交图像，故需要对图像数据库中的社交图像进行新增、删除、查询等操作时，可以根据层级结构执行对应操作，从而便于对视觉内容标签以及社交图像进行管理和统计。

在上述步骤S603中，本申请实施例至少提供了以下三种对每个视觉内容标签对应的社交图像进行提纯的实施方式，需要说明的是，以下三种实施方式可以单独实施对社交图像进行提纯，也可以多个结合实施对社交图像进行提纯，对此，本申请不做具体限定。

在一种可能的实施方式中，基于搜索引擎获取的正例图像对每个视觉内容标签对应的社交图像进行提纯，如图9所示，包括以下步骤：

步骤S901，针对每一个视觉内容标签，获取视觉内容标签对应的正例图像。

正例图像为与视觉内容标签匹配的图像，可以通过搜索引擎从互联网中拉取，比如设定视觉内容标签为“老虎”，则以“老虎”为关键词在百度上检索出“老虎”相关的图像作为正例图像。

步骤S902，确定视觉内容标签的每一张社交图像与视觉内容标签对应的正例图像之间的相似度。

视觉内容标签对应的正例图像可以为一张或多张，视觉内容标签对应的正例图像的数量远小于视觉内容标签对应的社交图像的数量。当视觉内容标签对应的正例图像为一张时，确定视觉内容标签对应的每一张社交图像与这一张正例图像之间的相似度。当视觉内容标签对应的正例图像为多张时，确定视觉内容标签的每一张社交图像与多张正例图像之间的平均相似度。

具体实施中，通过计算视觉内容标签对应的社交图像与正例图像之间的距离来表示视觉内容标签对应的社交图像与正例图像之间的相似度。具体地，提取社交图像的图像特征和正例图像的图像特征，然后计算社交图像的图像特征和正例图像的图像特征之间的距离，距离越近，则说明社交图像与正例图像之间的相似度越高。可选地，图像特征可以是深度卷积神经网络中间层特征，比如基于ImageNet数据集训练所得的卷积神经网络Inception-v3的PreLogits层2048维特征。图像特征也可以是局部特征，提取图像局部特征的算法包括但不限于尺度不变特征变换(Scale-invariant features transform，简称SIFT)、加速稳健特征(Speeded Up Robust Features，简称SURF)、方向梯度直方图(Histogram of Oriented Gradient，简称HOG)、高斯函数的差分(Difference ofGaussian，简称DOG)。

步骤S903，去除视觉内容标签对应的社交图像中与视觉内容标签对应的正例图像之间的相似度小于预设阈值的社交图像。

可选地，按照社交图像与正例图像之间的距离从小到大进行排序，去除距离大于设定值的社交图像。

下面结合具体实施场景进行说明，如图10所示，设定视觉内容标签为“老虎”，视觉内容标签“老虎”的社交图像1002分别为图像10021至图像10025。在百度上搜索关键词“老虎”得到正例图像1001。分别计算5张社交图像中每一张社交图像与正例图像1001之间的相似度，设定这5张社交图像中图像10024和图像10025与正例图像1001之间的相似度小于预设阈值，图像10021、图像10022、图像10023与正例图像1001之间的相似度不小于预设阈值，则去除图像10024和图像10025。

由于视觉内容标签对应的社交图像与视觉内容标签对应的正例图像之间的相似度越高，说明社交图像与视觉内容标签越匹配，故去除相似度小于预设阈值的社交图像，能有效去除与视觉内容标签不匹配的社交图像，从而提高每个视觉内容标签对应的社交图像的纯度。

在一种可能的实施方式中，基于聚类算法对每个视觉内容标签对应的社交图像进行提纯，如图11所示，包括以下步骤：

步骤S1101，针对每一个视觉内容标签，获取视觉内容标签对应的正例图像和视觉内容标签对应的负例图像。

正例图像为与视觉内容标签匹配的图像，负例图像为与视觉内容标签不匹配的图像，正例图像和负例图像可以通过搜索引擎从互联网中拉去。比如，设定视觉内容标签为“老虎”，则以“老虎”为关键词在百度上检索出“老虎”相关的图像作为正例图像。同时以“长颈鹿”为关键词在百度上检索出“长颈鹿”相关的图像作为负例图像。视觉内容标签对应的正例图像可以为一张或多张，视觉内容标签对应的负例图像可以为一张或多张，正例图像的数量和负例图像的数量远小于视觉内容标签对应的社交图像的数量。

步骤S1102，对由视觉内容标签对应的社交图像、视觉内容标签对应的正例图像和视觉内容标签对应的负例图像组成的图像集进行聚类。

将视觉内容标签对应的社交图像、视觉内容标签对应的正例图像和视觉内容标签对应的负例图像混合组成图像集。然后对图像集中的图像进行图像特征提取，之后再对图像集中的图像进行聚类，聚类算法包括但不限于K-Means聚类、均值漂移聚类、基于密度的聚类方法、层次聚类。

步骤S1103，确定聚类后的每个类别中视觉内容标签对应的正例图像的第一数量和视觉内容标签对应的负例图像的第二数量。

步骤S1104，去除第一数量和第二数量满足预设条件的类别中的社交图像。

可选地，去除第一数量为零的类别中的社交图像，即去除不包含正例图像的类别中的社交图像。

可选地，针对每一个类别，计算该类别中正例图像的数量与正例图像总数的比值Rp，计算该类中负例图像的数量与负例图像总数的比值Rn，然后计算比值Rp与比值Rn的比值Rpn。判断比值Rpn是否小于预设阈值，若是，则去除该类别中的社交图像，否则保留该类别中的社交图像。

下面结合具体实施场景进行说明，如图12所示，设定视觉内容标签为“老虎”，视觉内容标签“老虎”的社交图像1202分别为图像12021至图像12025。在百度上搜索关键词“老虎”得到正例图像1201，在百度上搜索关键词“长颈鹿”得到负例图像1203。将上述7张图像混合后采用K-Means聚类算法进行聚类，聚类的结果如图13所示。由图13可知，上述7张图像聚类后得到三个类别，其中正例图像1201、图像12021、图像12022以及图像12023组成第一类1301，图像12024和负例图像1203组成第二类1302，图像12025组成第三类1303。由于第二类1302和第三类1303中都不包含正例图像，则去除第二类1302和第三类1303中的社交图像，即去除图像12024和图像12025。

在一种可能的实施方式中，基于语义干预对每个视觉内容标签对应的社交图像进行提纯，如图14所示，包括以下步骤：

步骤S1401，针对每一个视觉内容标签，将视觉内容标签对应的社交图像输入图像识别模型，确定每一张社交图像的预测标签。

图像识别模型为已有的识别精度较高的模型，比如Google的Open Image图像识别模型。Open Image图像识别模型虽然能识别出图像的标签，但是识别出的标签为书面化的标签，与网络社交平台中用户发表的口语化的社交文本信息不能完全对应。其次，OpenImage图像识别模型为国外公司根据采集的样本训练得到，采集训练样本与国外的文化息息相关，而各国之间文化存在一定差异，故Open Image图像识别模型对有些社交图像的识别与国内的认知不同。比如，如图15所示，将包含“小黄车”的社交图像输入Open Image图像识别模型时，输出的预测标签为“自行车”以及“交通工具”，而不是“小黄车”。又比如，如图16所示，将包含“紫禁城”的社交图像输入Open Image图像识别模型时，输出的预测标签为“古建筑”以及“房屋”，而不是“紫禁城”。

步骤S1402，确定每一张社交图像的预测标签与视觉内容标签之间的相似度。

步骤S1403，去除预测标签与所述视觉内容标签之间的相似度小于预设阈值的社交图像。

虽然Open Image图像识别模型不能输出“小黄车”，但是输出的“自行车”与“小黄车”相关性较大，故在Open Image图像识别模型输出社交图像的预测标签为“自行车”时，这张社交图像有较大概率包含“小黄车”。因此，可以计算社交图像的预测标签与视觉内容标签之间的相似度，然后去除相似度小于预设阈值的社交图像，保留相似度不小于预设阈值的社交图像。示例性地，设定图15和图16所示的社交图像的视觉内容标签都为“小黄车”，则首先计算图15所示的社交图像的预测标签“自行车”与视觉内容标签“小黄车”之间的相似度，设定相似度不小于预设阈值，则保留图15所示的社交图像。然后计算图16所示的社交图像的预测标签“古建筑”与视觉内容标签“小黄车”之间的相似度，设定相似度小于预设阈值，则去除图16所示的社交图像。

由于不同的图像识别模型在训练时采用的训练样本不同，故对于同一个视觉概念会采用不同的词语描述。但是同一个视觉概念的不同描述词语之间相似度较高，故采用现有的图像识别模型确定每一张社交图像的预测标签，然后确定预测标签与视觉内容标签之间的相似度。相似度越高，说明社交图像与视觉内容标签越匹配，故去除相似度小于预设阈值的社交图像，能有效去除与视觉内容标签不匹配的社交图像，从而提高每个视觉内容标签对应的社交图像的纯度。

在上述步骤S604中，为了避免同一社交图像对应多个社交内容标签，对后续的深度卷积神经网络的训练造成影响，采用二值编码的方式对所有视觉内容标签对应的社交图像中重复的社交图像，如图17所述，具体包括以下步骤：

步骤S1701，获取随机哈希函数。

具体地，可以采用局部敏感哈希。局部敏感哈希的基本思想是将原始数据空间中的两个相邻样本点通过相同的映射或投影变换后，这两个样本点在新的数据空间中仍然有很大的概率相邻，而不相邻的样本点被映射到同一个桶的概率会很小。也就是说，对原始数据进行一系列哈希映射后，希望在原始数据空间中相邻的两个样本点能够被哈希到相同的桶内。对原始样本集合中所有的样本都进行哈希映射后，我们就得到了一个哈希表，原始样本集合被分散到了哈希表的不同桶内，每个桶会落入一些原始样本，属于同一个桶内的样本就有很大概率是相邻的。因此，需要确定这样一系列哈希函数，使得经过它们的哈希映射后，原始数据空间中相邻的样本落入相同的桶内，然后对样本集合中进行数据去重或近邻查找。换句话说，通过哈希函数映射操作，将原始样本集合打散成了多个子集合，而每个子集合中的样本间是相邻的且该子集合中的元素个数较少，这就将一个在超大集合内查找重复元素或相邻元素的问题转化成了在一个很小的集合内操作的问题，显然计算量优化了很多。具体地，这一类哈希函数需要满足以下两个条件：

1)如果d(x,y)≤d1，则h(x)＝h(y)的概率至少为p1；

2)如果d(x,y)≥d2，则h(x)＝h(y)的概率至多为p2；

其中，d(x,y)表示样本x和样本y之间的距离，具体可以为海明距离，d1<d2，h(x)和h(y)分别表示对样本x和样本y进行哈希变换。满足以上两个条件的哈希函数称为(d1,d2,p1,p2)-敏感。而通过一个或多个(d1,d2,p1,p2)-敏感的哈希函数，对原始样本集合进行哈希生成一个或多个哈希表的过程称为局部敏感哈希。

步骤S1702，针对所有视觉内容标签的每一张社交图像，提取社交图像的特征。

社交图像的特征可以是深度卷积神经网络中间层特征，比如基于ImageNet数据集训练所得的卷积神经网络Inception-v3的PreLogits层2048维特征。

步骤S1703，根据社交图像的特征和随机哈希函数确定所述社交图像的二值编码。

具体地，随机产生一个取值服从标准正态分布的随机投影矩阵，即随机哈希函数，随机投影矩阵的维度为[d，k]，其中k为二值编码的比特数，d为社交图像的特征维度，哈希函数映射如公式(1)所示：

f(x)＝sgn(W^Tx)………………………………(1)

其中，sgn()为取符号函数，即输入为小于0的数值则返回-1，输入大于等于0的数值则返回+1，W为随机投影矩阵的具体取值，x为社交图像的特征的具体取值。

示例性地，若d＝2048，k＝32，则经过上述哈希函数映射后，2048维的图像特征将转化为32比特的二值编码，这32比特的二值编码由-1和1组成。

步骤S1704，确定所有视觉内容标签对应的社交图像中二值编码相同的社交图像。

步骤S1705，从二值编码相同的社交图像中删选出一张社交图像。

可选地，在确定所有视觉内容标签对应的社交图像的二值编码后，在二值编码相同的社交图像中随机保留一张社交图像，删除其他社交图像。示例性地，设定视觉内容标签为“大象”的社交图像如图18(a)所示，视觉内容标签为“长颈鹿”的社交图像如图18(b)，视觉内容标签为“鹦鹉”的社交图像如图18(c)所示。这三张图像进行哈希映射后得到的二值编码相同，则保留如图18(a)所示的社交图像，从视觉内容标签为“长颈鹿”的社交图像中删除如图18(b)所示的社交图像，从视觉内容标签为“鹦鹉”的社交图像中删除如图18(c)所示的社交图像。

由于对社交图像进行二值编码，故在社交图像之间变化比较微小时，仍能将变化微小的社交图像确定为相同的社交图像，然后进一步在重复的社交图像中保留一张社交图像，删除其他重复的社交图像，有效地对社交图像去重。其次，通过对视觉内容标签之间重复的社交图像进行去重后构建图像数据库，故在采用图像数据库中的社交图像训练深度卷积神经网络时，能有效避免同一社交图像对应多个视觉内容标签而导致训练出错。

基于图1所示的应用场景图和图3所示的数据服务器的结构示意图，本申请实施例提供了一种生成图像识别模型的方法，下面结合具体实施场景进行说明。

数据服务器通过网络爬虫从微信对应的业务服务器中拉取10亿微信用户过去一年内在微信朋友圈中发布的文本信息以及对应的图像，然后对文本信息进行分词和词频统计，确定微信朋友圈中的高频词汇。同时人工去除高频词汇中没有视觉内容的词汇，将剩余的高频词汇确定为视觉内容标签。对视觉内容标签进行聚类，将重叠的视觉内容标签进行归并，然后构建视觉内容标签的层级结构。针对每一个视觉内容标签，将微信朋友圈中包含该视觉内容标签的文本信息对应的图像确定为该视觉内容标签对应的社交图像。之后从互联网中搜索出该视觉内容标签对应的正例图像，计算该视觉内容标签对应的社交图像与正例图像的相似度，去除与正例图像的相似度小于预设阈值的社交图像。然后采用随机哈希函数对所有视觉内容标签对应的社交图像进行哈希映射，确定每一张社交图像的二值编码。在二值编码相同的社交图像中随机保留一张社交图像，删除其他社交图像。之后采用得到的所有视觉内容标签对应的社交图像构建图像数据库，在构建的图像数据库中，以视觉内容标签的层级结构为索引存储社交图像。

以图像数据库中的社交图像为训练样本对深度卷积神经网络进行训练，每一张社交图像对应一个视觉内容标签，当深度卷积神经网络的目标函数满足预设条件时训练结束，确定图像识别模型。该图像识别模型可以用于绘制微信朋友圈中用户的画像，然后根据用户画像为微信朋友圈中对应的用户推送广告。比如采用图像识别模型识别微信朋友圈中发布旅游照片的用户，然后将该类用户确定为旅游爱好者，并向该类用户推送户外产品相关的广告。由于从网络社交平台中获取社交文本信息和社交图像信息构建图像数据库，故以该图像数据库中的社交图像为训练样本训练深度卷积神经网络时，解决了数据异质问题，确定的图像识别模型更适用于识别社交网络平台中的图像，提高图像识别模型的识别精度。

基于相同的技术构思，本申请实施例提供了一种构建图像数据库的装置，如图19所示，该装置1900包括：获取模块1901、提取模块1902、提纯模块1903、去重模块1904以及构建模块1905。

获取模块1901，用于获取网络社交平台中的社交文本信息和社交图像信息；

提取模块1902，用于从社交文本信息中提取视觉内容标签，并从社交图像信息中确定每个视觉内容标签对应的社交图像；

提纯模块1903，用于对每个视觉内容标签对应的社交图像进行提纯；

去重模块1904，用于去除所有视觉内容标签对应的社交图像中重复的社交图像；

构建模块1905，用于采用去重后的所有视觉内容标签对应的社交图像构建图像数据库。

可选地，提纯模块1903具体用于：

针对每一个视觉内容标签，获取视觉内容标签对应的正例图像；

确定视觉内容标签的每一张社交图像与视觉内容标签对应的正例图像之间的相似度；

去除视觉内容标签对应的社交图像中与视觉内容标签对应的正例图像之间的相似度小于预设阈值的社交图像。

可选地，提纯模块1903具体用于：

针对每一个视觉内容标签，获取视觉内容标签对应的正例图像和视觉内容标签对应的负例图像；

对由视觉内容标签对应的社交图像、视觉内容标签对应的正例图像和视觉内容标签对应的负例图像组成的图像集进行聚类；

确定聚类后的每个类别中视觉内容标签对应的正例图像的第一数量和视觉内容标签对应的负例图像的第二数量；

去除第一数量和第二数量满足预设条件的类别中的社交图像。

可选地，提纯模块1903具体用于：

针对每一个视觉内容标签，将视觉内容标签对应的社交图像输入图像识别模型，确定每一张社交图像的预测标签；

确定每一张社交图像的预测标签与视觉内容标签之间的相似度；

去除预测标签与视觉内容标签之间的相似度小于预设阈值的社交图像。

可选地，提取模块1902还用于：

从社交文本信息中提取视觉内容标签之后，对各个视觉内容标签进行聚类；

根据聚类后的各个类别的视觉内容标签构建视觉内容标签的层级结构；以及

在构建的图像数据库中，以所述层级结构为索引存储社交图像。

基于相同的技术构思，本申请实施例提供了一种生成图像识别模型的装置，如图20所示，该装置2000包括：存储模块2001、训练模块2002。

存储模块2001，用于存储采用构建图像数据库的方法构建的图像数据库；

训练模块2002，用于以图像数据库中的图像为训练样本，对深度卷积神经网络进行训练得到图像识别模型。

基于相同的技术构思，本申请实施例提供了一种构建图像数据库的设备，如图21所示，包括至少一个处理器2101，以及与至少一个处理器连接的存储器2102，本申请实施例中不限定处理器2101与存储器2102之间的具体连接介质，图21中处理器2101和存储器2102之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器2102存储有可被至少一个处理器2101执行的指令，至少一个处理器2101通过执行存储器2102存储的指令，可以执行前述的构建图像数据库的方法中所包括的步骤。

其中，处理器2101是构建图像数据库的设备的控制中心，可以利用各种接口和线路连接终端设备的各个部分，通过运行或执行存储在存储器2102内的指令以及调用存储在存储器2102内的数据，从而构建图像数据库。可选的，处理器2101可包括一个或多个处理单元，处理器2101可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器2101中。在一些实施例中，处理器2101和存储器2102可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器2101可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器2102作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器2102可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器2102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器2102还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种构建图像数据库的方法，其特征在于，包括：

获取网络社交平台中的社交文本信息和社交图像信息；

对每个视觉内容标签对应的社交图像进行提纯；

根据每张社交图像的二值编码，去除所有视觉内容标签对应的社交图像中重复的社交图像；

采用去重后的所有视觉内容标签对应的社交图像构建图像数据库，所述图像数据库用于对深度卷积神经网络进行训练得到图像识别模型，所述图像识别模型用于识别所述网络社交平台中的图像。

2.如权利要求1所述的方法，其特征在于，所述对每个视觉内容标签对应的社交图像进行提纯，包括：

针对每一个视觉内容标签，获取所述视觉内容标签对应的正例图像；

确定所述视觉内容标签对应的每一张社交图像与所述视觉内容标签对应的正例图像之间的相似度；

去除所述视觉内容标签对应的社交图像中与所述视觉内容标签对应的正例图像之间的相似度小于预设阈值的社交图像。

3.如权利要求1所述的方法，其特征在于，所述对每个视觉内容标签对应的社交图像进行提纯，包括：

针对每一个视觉内容标签，获取所述视觉内容标签对应的正例图像和所述视觉内容标签对应的负例图像；

对由所述视觉内容标签对应的社交图像、所述视觉内容标签对应的正例图像和所述视觉内容标签对应的负例图像组成的图像集进行聚类；

确定聚类后的每个类别中所述视觉内容标签对应的正例图像的第一数量和所述视觉内容标签对应的负例图像的第二数量；

去除所述第一数量和所述第二数量满足预设条件的类别中的社交图像。

4.如权利要求1所述的方法，其特征在于，所述对每个视觉内容标签对应的社交图像进行提纯，包括：

针对每一个视觉内容标签，将所述视觉内容标签对应的社交图像输入图像识别模型，确定每一张社交图像的预测标签；

确定所述每一张社交图像的预测标签与所述视觉内容标签之间的相似度；

去除所述预测标签与所述视觉内容标签之间的相似度小于预设阈值的社交图像。

5.如权利要求1至4任一所述的方法，其特征在于，所述从所述社交文本信息中提取视觉内容标签之后，还包括：

对各个视觉内容标签进行聚类；

6.一种构建图像数据库的装置，其特征在于，包括：

去重模块，用于根据每张社交图像的二值编码，去除所有视觉内容标签对应的社交图像中重复的社交图像；

构建模块，用于采用去重后的所有视觉内容标签对应的社交图像构建图像数据库，所述图像数据库用于对深度卷积神经网络进行训练得到图像识别模型，所述图像识别模型用于识别所述网络社交平台中的图像。

7.如权利要求6所述的装置，其特征在于，所述提纯模块具体用于：

确定所述视觉内容标签的每一张社交图像与所述视觉内容标签对应的正例图像之间的相似度；

8.如权利要求6所述的装置，其特征在于，所述提纯模块具体用于：

9.如权利要求6所述的装置，其特征在于，所述提纯模块具体用于：

10.如权利要求6至9任一所述的装置，其特征在于，所述提取模块还用于：

从所述社交文本信息中提取视觉内容标签之后，对各个视觉内容标签进行聚类；

根据聚类后的各个类别的视觉内容标签构建视觉内容标签的层级结构，以及在构建的图像数据库中，以所述层级结构为索引存储社交图像。

11.一种生成图像识别模型的方法，其特征在于，包括：

以图像数据库中的图像为训练样本，对深度卷积神经网络进行训练得到图像识别模型，所述图像数据库是采用权利要求1至5任一所述的方法构建的。

12.一种生成图像识别模型的装置，其特征在于，包括：

存储模块，用于存储采用权利要求1至5任一所述的方法构建的图像数据库；

13.一种构建图像数据库的设备，其特征在于，包括至少一个处理单元以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述程序被所述处理单元执行时，使得所述处理单元执行权利要求1～5、11任一权利要求所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其存储有可由构建图像数据库的设备执行的计算机程序，当所述程序在构建图像数据库的设备上运行时，使得所述构建图像数据库的设备执行权利要求1～5、11任一所述方法的步骤。