CN110298386B

CN110298386B - 一种基于图像内容的标签自动化定义方法

Info

Publication number: CN110298386B
Application number: CN201910496668.2A
Authority: CN
Inventors: 谢海; 赵冠杰; 张帆
Original assignee: Chengdu Jiweilian Group Co ltd
Current assignee: Chengdu Jiweilian Group Co ltd
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2023-07-28
Anticipated expiration: 2039-06-10
Also published as: CN110298386A

Abstract

一种基于图像内容的标签自动化定义方法。本方法属于图像处理和自然语言处理领域，尤其涉及一种基于图像互信息分析的图像自动化标注方法。对现有技术中无法准确标注，错误的标注信息影响模型等问题，本发明的技术方案是：首先生成预训练模型，然后爬取互联网中的图片，将爬取的图片放入到生成的预训练模型中输出对应的标签，通过空间向量对预训练模型输出的标签进行评估，最后根据得到的新的数据更新模型和向量空间。可以根据网络数据进行自动更新模型，通过图像与图像之间的标注信息，相互学习，使其标注更加准确，特有的标签评估模块同时能够防止错误标注信息影响模型。

Description

一种基于图像内容的标签自动化定义方法

技术领域

本方法属于图像处理和自然语言处理领域，尤其涉及一种基于图像内容的标签自动化定义方法。

背景技术

图像标注通常是图像处理领域的一个具有现实价值的技术，它在图像检索，推荐系统中广泛使用，实用场景如以图搜图、广告精准定位、图片鉴黄和盗版检测等。传统方法通常提取图像本身信息用于图像标注，由于突进互联网图像爆炸式增长，无法对新图像、新信息进行标注。

目前，图像自动标注技术早期采用概率统计的方法，如在文献《Mori Y,TakahashiH,Oka R.Image-to-word transformation based on dividing and vector quantizingimages with words》中，MORI Y等提出建立图像与标签之间的概率分布，利用概率分布模型预测未知图像的标签。在文献《AMIRI S H,JAMZAD M.Efficient Multi-model Fusionon Supergraph for Scalable Image Annotation.Pattern Recognition》中，采用图算法，利用图像与图像之间的相似度关系构建图结构，利用图像与图像之间的权值确定标注内容。近几年来出现了一批以机器算法为核心的图像标注模型，SVM模型强大的分类能力使其出现了以下基于SVM的标注模型如：《CAO Y L,FAN J P,XUE X Y,et al.AutomaticImage Annotation by Incorporating Feature Hierarchy and Boosting to Scale upSVM》、《YANG C B,DONG M,HUA J.Region-Based Image Annotation Using AsymmetricalSupport Vector Machine-Based Multiple-Instance Learning》、《邱泽宇，方全，桑基稻，等.基于区域上下文感知的图像标注》，该模型将图像标注问题转变为分类问题，通过对每个图像进行分类，从而得到标注标签。

现有技术中，对于利用概率分布模型预测未知图像的标签，这类方法得到的概率分布很难表示图像与标签之间的分布关系，无法做到较高的准确率。对于利用图像与图像之间的相似度关系构建图结构，利用图像与图像之间的权值确定标注内容，这类方法图结构的构造复杂，随着数据增多而不再使用。对于机器算法为核心的图像标注模型，随着互联网图像数据爆炸式增长，图像类别标注也增长了很多，传统的机器学习方法也无法很好的进行处理。

发明内容

针对现有技术中无法准确标注，错误的标注信息影响模型的问题，本发明提供一种基于图像内容的标签自动化定义方法，其目的在于：能够根据网络数据进行自动更新模型，通过图像与图像之间的标注信息，相互学习，使其标注更加准确，特有的标签评估模块同时能够防止错误标注信息影响模型。

本发明采用的技术方案如下：

一种基于图像内容的标签自动化定义方法，包括以下器件：

图像预训练模块：图像分类模型的预训练，首先利用ImageNet数据集训练一个可以进行多分类的模型，该模型用于对图像进行多分类，但不一定适合于标签多分类。

数据爬取模块：负责图像、标签内容爬取并自动化下载，该数据将作为非完全模型承载体以及数据自动更新模块的重要输入；

图像内容识别模块：对图像进行识别并输出对应标签及概率，该模块在训练完成前处理未完全状态，得到的标签准确率较低，训练完成后可以相信得到的标签处于较高的可信度。

向量空间生成模块：标签信息将原始数据转换成为能够被机器学习直接使用的形式，表征学习允许学习使用特征的同时，也学习如何提取特征，然后将所有标签映射到较低维的向量空间，该模块赋予标签与标签之间存在关联度。

标签评估模块：通过图像内容识别模块的结果以及得到的向量空间进行处理，通过评估准则，可添加标签和去掉标签，对标记结果进行正向修正。

数据自动更新模块：通过新的图像-标签对更新图像内容识别模型、标签向量空间、以及图像标签信息。

采用了此方法，该技术是一种自学习的标签标记方法，能够从互联网中实时下载新的图像-标签对对最新创造的词语或者新的词语意义进行学习，并将学习成果保存，并在下一次预测中释放出来，这就是该技术不同于其他标签标记方法的地方。

其中，所述图像数据仅包含可网络获取图像本身以及对应标题或标记的数据。

其中，爬虫爬取规则包括深度优先、广度优先、随机搜索、generation搜索。

其中，标签之间距离计算方法为标签向量之间的欧式距离或者马氏距离。

其中，标签评估准则将通过多种规则进行评估；该规则主要包括以下形式：

S1：设置图像内容识别模块阈值，根据阈值提取图像候选标记；

S2：每一个图像候选标记将提取embedding向量空间前n个临界点

S3：每一个临界点将作为新的embedding候选标签，候选标签将与剩下的图像候选标记计算距离，距离小于d(distance)将其记为正例，距离的倒数将作为分数，距离大于d将其记为负例，距离的倒数的相反数作为分数。

S4：总分超过0.7,则将其加入图像候选标记，实现标签的增加。

S5：每一个图像候选标记计算相互距离，按照S3的方式累计分数，若总分低于0.3,则将其从图像候选标记中以概率pd删除。

采用了此方法，在自学习中能够采用分数加权方法计算每一个标签的分数，标量化每一次计算结果，由于分数的计算同时考虑了先验知识和后验知识，因此标签的标记不会由于少量的负面影响而产生剧烈变化，具有一定的稳定性。

其中，向量空间生成模块采用表征式学习，将每一个标签embedding到dim(dimension)维的向量空间，具体采用word2vec技术，CBOW模式。

其中，采用卷积神经网络(CNN)实现图像的分类任务，采用逻辑回归实现多标签目标，具体采用ResNet50模型，所述步骤包含以下过程：

S1：使用ResNet50在ImageNet数据集的初试权重初始化ResNet50；

S2：设置卷积层的参数不可再训练；

S3：将Flatten层修改为Global Average Max Pooling，用于减少学习参数，加快学习过程；

S4：将输出层的激活函数换为sigmoid函数，实现多标签分类；

其中，数据爬取模块采用Scrapy web爬取框架，爬取过程包含以下步骤：

S1：Scrapy引擎从调度器中取出一个URL用于接下来的抓取；

S2：Scrapy引擎把URL封装成一个请求(Requset)传给下载器；

S3：Downloader下载器将图像内容下载下来，并将其封装成应答包(Response)；

S4：解析应答包，生成实体(Item)交给实体管道进行进一步的处理；

S5：解析出新的URL，存储等待下一次抓取命令。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.该技术是一种自学习的标签标记方法，能够从互联网中实时下载新的图像-标签对对最新创造的词语或者新的词语意义进行学习，并将学习成果保存，并在下一次预测中释放出来，这就是该技术不同于其他标签标记方法的地方。

2.在自学习中能够采用分数加权方法计算每一个标签的分数，标量化每一次计算结果，由于分数的计算同时考虑了先验知识和后验知识，因此标签的标记不会由于少量的负面影响而产生剧烈变化，具有一定的稳定性。

3.该方法数据来源于互联网，具有源源不断的数据来源。

4.该方法实现了数据获取、模型训练、模型测试、模型更新的闭环，实现全面自动化，不需要进行过多的人为干涉。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的总体架构图。

图2是SC-UE方法示意图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1、图2对本发明作详细说明。

一种基于图像内容的标签自动化定义方法，包括以下步骤：

步骤1：利用ImageNet数据集在ResNet50模型进行训练，生成预训练模型；

步骤2：通过Scrapy爬虫框架爬取互联网中的图片；

步骤3：将爬取的图片放入到生成的预训练模型中，预训练模型对图片进行识别并输出对应的标签；

步骤4：将标签的信息通过表征式学习，将所有标签映射到低维的向量空间；

步骤5：通过向量空间对预训练模型输出的标签进行评估，对结果进行正向修正；

步骤6：根据得到正向修正后的数据更新预训练模型和向量空间。

优选的，所述步骤1中包括：

步骤1.1：使用ResNet50模型在ImageNet数据集中已学习到的参数初始化ResNet50模型；

步骤1.2：设置ResNet50模型的卷积层的参数不可再训练，采用迁移学习，使得训练速度更快；

步骤1.3：将卷积层的Flatten层修改为全局平均池化层，减少全连接层参数并提高运行速度；

步骤1.4：将ResNet50模型输出层的激活函数换为sigmoid函数，生成预训练模型，可以对图像多标签分类。

优选的，所述步骤2包括：

步骤2.1：Scrapy爬虫引擎从调度器中取出一个链接用于接下来的抓取；

步骤2.2：Scrapy爬虫引擎把链接封装成一个请求传给下载器；

步骤2.3：下载器根据请求将图像内容下载下来，并将其封装成应答包：

步骤2.4：解析应答包，生成图片交给实体管道进行进一步的处理；

步骤2.5：解析出新的链接，存储等待下一次抓取命令。

优选的，所述步骤4中，将每一个标签嵌入到固定维度的向量空间，采用Word2vec技术，CBOW模式。

优选的，所述步骤5包括：

步骤5.1：设置图像识别结果分类的判定阈值，根据判定阈值提取图像候选标记；

步骤5.2：每一个图像候选标记将提取嵌入后的向量空间前n个临界点；

步骤5.3：每一个临界点将作为新的候选标签，候选标签将与剩下的图像候选标记计算距离，距离小于判定阈值将其记为正例，距离的倒数将作为分数，距离大于判定阈值将其记为负例，距离的倒数的相反数作为分数；

步骤5.4：通过将候选标签与每一个剩下的图像候选标记的分数求和得到总分，总分超过0.7,则将其加入图像候选标记，实现标签的增加；

步骤5.5：每一个图像候选标记计算相互距离，按照步骤5.3的方式累计分数，若总分低于0.3,则将其从图像候选标记中以0.5的概率删除；

优选的，所述步骤6包括：

步骤6.1：对预训练模型进行微调，使模型开始学习图像标注的能力，首先将ResNet50模型卷积层冻结，仅允许模型后面全连接层可以进行学习，将正向修正后的数据和图片加载进模型进行微调训练；

步骤6.2：将正向修正后的数据插入向量空间，以此将更新向量空间中部分值，从而适应新的标注模式。

以下对上述进行详细说明：

S1：生成预训练模型，使得该模型具有初步的图像识别和分类的效果，包括以下步骤：

S11：获取ISLVRC数据集，该数据集是ImageNet数据集的子集，包含训练集128167张图片+标签，验证集包含50000张图片和标签，数据包含1000个不同的类别；

S12：建立ResNet50模型，该模型采用卷积神经网络和残差结构，建立一共50层的网络结构，使用softmax为输出层激活函数；

S13：使用ISLVRC数据集对ResNet50模型进行训练，得到预训练模型，该预训练模型具有初步的图像识别与分类的效果；

S2：利用爬虫技术爬取互联网中的图像-标签对，该过程包括以下步骤：

S21：定义图像以及标签匹配的正则表达式；

S22：利用Scrapy框架制定抓取策略，遵循Robots协议；

S23：制定Scrapy、Scheduler、Downloader、Spiders、Pipeline、DownloaderMiddlewares、Spider Middlewares、Scheduler Middewares，并运行程序开始抓取图片和标注信息；

S3：向量空间生成模块

S31：采用word2vec生成向量空间；

S4：利用embedding向量空间对标注进行评估，该过程包括以下步骤：

S41：将抓取到的图片放入识别模块，将大于阈值0.5的标签作为标注并根据得到标签的准确率进行排序得到l1、l2、l3；

S42：首先取出l1，在向量空间中找出该词对应的上下文词向量(l1-1、l1-2、l1-3、l1-4)，接下依次计算每一个上下文词向量与所有标注标签计算向量距离并加权求和，得到该向量的总分，若分数大于0.7，则将其作为新的标注。计算公式如下所示：

其中，Li表示识别模块生成的第i个标注，Lij表示Li对应的第j个上下文词向量，P(Li)表示第i个标注对应sigmoid值，n为大于阈值的标注个数，S为当前上下文词向量获得分数。循环以上步骤，直到所有标注循环完毕；

S5：根据新的标注数据，更新模型以及向量空间，该过程包括以下步骤：

S51：对模型进行Fine-Tuning，使模型开始学习图像标注的能力，首先将模型卷积成冻结，仅允许模型后面全连接层可以进行学习，将新得到的标注信息和图片加载进模型进行Fine-Tuning训练；

S52：将新的标注数据插入向量空间，以此将更新向量空间中部分值，从而适应新的标注模式；

以上步骤便描述了完整的一次循环过程，该过程能够从互联网中学习到新的标注信息，利用图像互信息帮助图像进行精确标注，标注评估模块将同时衡量模型标注以及向量空间上下文从而做出决策，比单纯的人为标记更具有鲁棒性。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种基于图像内容的标签自动化定义方法，其特征在于，包括以下步骤：

步骤1.1：使用ResNet50模型在ImageNet数据集中已学习到的参数初始化ResNet50模型;

步骤1.4：将ResNet50模型输出层的激活函数换为sigmoid函数，生成预训练模型，可以对图像多标签分类；

步骤2：通过Scrapy爬虫框架爬取互联网中的图片；

2.根据权利要求1所述的，一种基于图像内容的标签自动化定义方法，其特征在于，所述步骤2包括：

步骤2.2：Scrapy爬虫引擎把链接封装成一个请求传给下载器；

步骤2.5：解析出新的链接，存储等待下一次抓取命令。

3.根据权利要求1所述的，一种基于图像内容的标签自动化定义方法，其特征在于，所述步骤4中，将每一个标签嵌入到固定维度的向量空间，采用Word2vec技术， CBOW模式。

4.根据权利要求1所述的，一种基于图像内容的标签自动化定义方法，其特征在于，所述步骤6包括：